生体イメージングによる音声生成機構の観測



人間情報科学研究所 生体イメージング研究室 本多 清志



1. はじめに
 人間の音声には一般に考えられている言語的機能や情緒的機能のほかに、人間の体から自然に生まれる機能があって、日常の情報交換に大きな役割を果たしています。これを私は音声の生物学的機能と呼んでいます。この生物学的機能の代表的な例は音声の個人性です。なぜ一人ひとりの声が違うのか?これは声道(声の通り道)の形や大きさを調べることにより分かるはずですが、観測方法も理論的な枠組もないために未解決の問題になっています。もう一つの例は音声の共通性です。声道の大きさが異なれば音声の物理的特徴が異なるのに、なぜ子供と大人で同じ母音を共有できるのかという疑問です。この問いにはいまのところ答えがありませんが、私は音声の個人性と表裏一体の関係にある問題と考えています。
 このような疑問が解決して人間の音声機能をモデル化すると、生物機構を備えた音声生成モデルを入出力装置として、音声の合成と認識・話者識別を人間と同じよう行う音声処理インタフェースが出来上がることが期待できます。私のグループはその目標に向けて、磁気共鳴画像法(MRI)による生体イメージングを利用して音声生成機構の実体を解明する研究を行っています。

2.磁気共鳴画像法(MRI)による生体イメージング
 以上にあげたような音声コミュニケーションの生物学的側面を重視して、発話器官の形態計測、音声生成機構のモデル化、音声に関わる脳機能画像の研究を進めています。いずれもATR脳活動イメージングセンタの磁気共鳴画像装置を観測に用いてきました。その成果をいくつかご紹介します。
2.1 発話器官の形態計測
 声道の形は主にX線撮影で観測されてきました。最近ではMRIにより声道の3次元形状の観測や、高分解能撮像法による高精度の生体画像を記録できるようになりました。図1(a)は母音「エ」発話時のMRIデータに歯列を補って声道部分を抽出したものです。これまで、単純な管とみなされてきた声道には大小の分岐管があることがわかります。図1(b)は、高分解能撮像法による喉頭軟骨を抽出した例で、声の高さを調節するメカニズムがようやく実測されようとしています。また、撮像技術の進歩により3次元の動画も記録できるようになっています。図1(c)は日本語の「アイウエオ」を発話したときの3次元動画より声道形状の時間変化を抽出したもので[1]、分岐管を除いた声道部分の断面積を経時的に表示してあります。
2.2 音声の個人性の生成モデル
 声道形状の個人差から母音スペクトルの個人差を明らかにする研究を行っています。音声スペクトルでは個人差は、低域の母音フォルマントにも高域のスペクトル構造にも含まれていると考えられています。したがって、それぞれの音響特徴に対応する声道の個人差を見出さなければなりません。成人男性を対象としてMRI計測によって得られたこれまでの成果を簡単にまとめると、以下のようになります。
・ 咽頭腔の横幅の個人差が低域のフォルマント(とくに第1フォルマント)に影響を及ぼす。
・ 喉頭腔はヘルムホルツ共鳴器の役割を果たし、3 kHz付近のピークの個人差をつくる。
・ 梨状窩は声道の分岐管の役割を果たし、4〜5 kHz付近のディップ(谷)の個人差をつくる。
 以上の結果は従来の音声生成理論では十分に説明できない現象です。母音の個人差の生成要因を知るには、声道各部の長さだけではなく容積の問題や、喉頭腔と梨状窩の共鳴(下咽頭共鳴)を考慮する必要があります。そこで、私のグループでは、図2に示すように、スペクトルの生成要因を主声道共鳴と下咽頭共鳴に分けて、音声の個人性を説明できる音声生成の音響モデルを提案しています[2]
2.3 機能イメージングによる発話時の脳活動計測
 機能イメージング(fMRI)により発話時の脳機能を観測しています。発話に関わる部位については従来のブローカ野を中心とする考え方が大きく変わり、より重要な領野として島皮質が注目されています。この島皮質は大脳を前後に分ける溝の奥にあるため機能の理解も進んでいませんでしたが、最近の研究では左島皮質の前部が発話運動に関わる中枢とみなされています。ところが正常者を対象とした実験では必ずしも島皮質の活動が観測されるわけではありませんでした。最もよく観測されたのは同じ発話の繰り返しではなく発話ごとに異なる音韻連鎖を用いた場合でした(図3)。発話に先立ち音韻情報を運動の計画に移す処理過程があると仮定すると、この結果から、同じ音韻連鎖を繰り返して発話する場合は最初の発話時にのみ音韻連鎖の処理がなされるのに対し、音韻連鎖を変化させて発話する場合にはこの処理が発話ごとに行われると考えられます。島皮質ではそのような処理が行われていると想像されます[3]

3.おわりに
 生体イメージング技術は急速な発展をとげ、これまで推測の域を出なかった事実が次々と明らかになりつつあります。この観測技術の発展に即して、音声コミュニケーションを支える革新的な理論と技術を生み出すことを目指しています。


参考文献