−人間情報通信研究所プロジェクト終了
プロジェクト終了にあたって

音声の生成
−人間を模擬する音声情報生成モデル−




(株)ATR人間情報通信研究所 第四研究室長 本多 清志



1.音声生成機構の研究

 音声生成機構の研究は、話し言葉を生成する人間の生体機構の理解に基づいて、音声合成の高品質化等に応用しうる基盤技術を創出することを目的として始まった。これにはまず、簡単化されすぎた従来の音声生成モデルを生理と音響の面 から見直し、実体に則して精密化する研究から開始した。その成果に基づいてプロジェクトの後半では、人間の話し言葉の生成メカニズムを忠実に模擬して自然な音声を合成する発話機構モデルや、音声の生成に絶えず随伴する顔の動きを動画化して音声と顔とを相互に変換することができる顔発話モデルを構築した。

2.音声生成機構の観測とモデル化
 磁気共鳴画像法(MRI)を用いる観測実験を行い、鼻腔や梨状窩などの分岐管の音響効果が音声の自然性や個人性の要因になること[1]や、声の高さを調節する複雑な喉頭機構[2]を明らかにした。X線マイクロビーム装置を用いる研究では日本語の調音運動データの蓄積をはかりデータベース化した。さらに、舌圧計測システムの開発やMRI動画撮像法の考案により、従来の方法で観測できなかった発声・発話の諸要因を明らかにした。
 これらの豊富な観測データに基づいて人間の発話器官の働きをまねる発話機構モデルを構築し[3]、このモデルを用いた音声合成システムを開発した(図1)。これにはまず、計算機上に舌や顎などの発話器官や声道壁の形状モデルを作り、そこに筋肉モデルを取り付け、筋肉の収縮力を与えて発話動作を生成する。その後、モデルの声道に声帯音源を与えると滑らかな音声を合成することができる。音声だけでなく発話器官の形状も合成できるので、マルチメディアによる言語学習や発話訓練に応用できる。

3.顎と顔の運動機構
 磁気的調音観測装置および光学的3次元計測装置を用いた研究を進め、発話時の下顎運動特性を評価する[4]とともに筋電信号から発話運動を予測する統計モデルを作成した。また、実体感のある顔の3次元モデルを作成して音声と顔の動きが同期した顔アニメーションを合成する技術を開発した。この顔モデルを利用して、顔の動き、声道の変形、音声の音響特性の間に見られる相関関係に基づいて、顔の動きと音声とを相互に変換合成する手法を開発した[5]図2)。この顔音声変換技術は、視聴覚実験用の資料作成法として価値があるが、将来は難聴者の音声理解を補助する読唇補助装置などへの応用も期待できる。

4.発話の中枢機構
 発話の脳内過程を検証する目的で、発話運動指令の時間的単位を発話潜時を指標とした認知心理的手法により明らかにした。また、脳波計測の実施により母音知覚において左側皮質各部の相関が高いことを確認し、言語音の並列処理を示唆する結果を得た。さらに、脳波の分析において高次元統計解析法の有効性が確認された。

5.今後に向けて
 人間の仕組みを理解して人間によく似たレプリカをつくることができれば、マンマシンインターフェースの諸問題を解決することができる。音声を対象とした場合、この方法は音声の合成と認識を一度に完成させる手段として期待されるので、今後も時間と労力を費やさなければならない。