発話運動を“見る”

−3次元MRI動画撮影(3D MRI movie)による発話運動の観測−


1.はじめに
 音声生物科学プロジェクトでは、音声の生成と認識の生物学的な機構を解明し、人間の機能を模擬する新しい音声通信技術の開発を目指しています。研究は、音声の形態的基盤、機能モデル、脳機能の3つのテーマで進めています。ここでは、形態的基盤についての研究動向を紹介します。
 音源フィルタ理論[1]によれば、音声は、喉頭で生成された音源波が声道という音響フィルタを通過し、音響的な修飾を受けて口唇から放射される現象として説明されます。音源と音響フィルタは相対的に独立しているので、私たちは高いピッチや低いピッチ、ささやき声など、音源の性質を変えることによりさまざまな声で話すことができます。この理論によれば、音声波と、音響フィルタまたは音源のいずれかが観測できれば、音響現象のすべてを解明することができるので、音声をこの2つに分けて分析し、それぞれの特性を調べることは、音声の合成にも認識にも役に立つと考えられます。
 しかし、声道音響フィルタについての分析はこれまできわめて不十分でした。声道音響フィルタの特性は、声道断面積関数と呼ばれる、音声波の進行方向に垂直な声道の断面積と声帯からの距離の関数によって決定されます。X線映画では、実時間で発話運動を観測できますが、2次元の透過画像しか得られないため、断面積を実測することができず、断面積は推定に頼っていました。一方、MRI(磁気共鳴画像法)では、静止時であれば3次元のデータを得ることが可能で声道断面積関数を実測することができますが、時間的な変化を実測することはできませんでした。
 私たちは、脳機能イメージングセンターと協力して、3次元MRI動画撮影(3D MRI movie)という手法を用いて、発話運動を空間的・時間的に記録し、声道断面積関数の時間変化を抽出することに初めて成功しました。以下では、この手法と研究成果について紹介します。

2.3D MRI movieによる発話運動の観測とは?
 3D MRI movieは、同期サンプリング方式のマルチスライスMRI movie[2]を応用して、被験者の体内の様子を3次元的に記録するだけでなく、その時間変化も記録する方法です。
 3D MRI movieは、繰り返し規則正しく行われる運動しか記録することができません。それは、すべてのデータを一回の運動中に採取することができないので、何回にも分けて採取する必要があるからです。つまり、毎回の運動がほぼ同じであると仮定されるときのみ、この方法を用いることができます。
 3D MRI movieによる発話運動の観測とは、被験者に発話タスクを正確に何度も繰り返し行わせることによって、発話運動を時系列に沿ったボリュームデータとして記録し、観測することです。残念ながら現在では、わずか2秒弱のデータを得るために、被験者は約1000回も同じ発話を繰り返す必要があり、被験者の負担が大きいことが難点です。

3.どのような観測が可能か?
 3D MRI movieによって、発話運動を空間的・時間的に観測することが可能です。3D MRI movieにより得られたデータは、“発話中のバーチャル・ヒューマン”とでも言うべきもので、話者の発話運動は、あらゆる角度、あらゆる断面、あらゆる時点で観測することが可能です。
 その例を図1に示しています。図1は、日本語5母音/aiueo/を連続発話しているときの、/a/から/i/へ移行する様子を66msごとに表示したものです。本来は動画なので、もっとたくさんのフレームがありますが、ここでは静止画としてごく一部だけを表示しています。下段は、正中矢状断面より右側だけを可視化し、矢状面から口腔部分を拡大して表示したものです。上段は同じデータから声道だけを抽出して左前方60度から表示したものです。このように、従来不可能であった、/a/から/i/へ口の構えや声道の形が移行してゆく様子を立体的に観測することができます。
 しかも、ただ単に発話運動が“見える”だけではありません。フレームごとに3次元計測を行い、これを時間的な変化として観察することも可能です。図2は声道断面積関数の時間パタンを示しています。つまり、図2は声道断面積関数が/aiueo/の連続発話の間にどのように変化してゆくかを示したグラフです。このように、これまで、推定関数を用いて予測することしかできなかった声道の立体形状の時間変化を実測することもできます。

4.おわりに
 ここで紹介したように、3D MRI movieでは発話運動を空間的・時間的に観測することができる新しい手法です。この手法によって、どのようなことが明らかになるのでしょうか?
 まず、発話器官全体の協調した運動を観測することができます。単に発話運動を視覚的に理解する上で役に立つだけではなく、発話器官各部の運動の時間的な関係を計測することができます。
 また、音声の個人性の要因として重要である梨状窩や歯冠間隙などの声道分岐管の形や大きさが、調音によって変化するかどうかを実測することができます。
 さらに、連続した音素間で声道形状がどのように変化するかを実測することができます。これにより、量子説と呼ばれる母音から母音への不連続性を検証することも期待できます。
 なお、この観測法の最大の問題点である、繰り返し発話による被験者の負担は軽減される見通しがあります。それは、複数のコイルを並列して使う撮像法を用いることで、これにより発話回数を大幅に減らすことが期待されています。

参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所