ニューラルネットで探る発話のメカニズム




(株)ATR人間情報通信研究所 第三研究室 平山  亮



1.はじめに
 より使いやすい情報処理システムや通信システムのヒューマンインタフェースを実現するためには、人間の情報処理メカニズムを研究していくことが重要です。情報処理システムや通信システムの最終の使用者は人間であり、また、人間は現在のコンピュータでは出来ない優れた情報処理及びコミュニケーション能力を持っているからです。ATR人間情報通信研究所では、人間の優れた機能に学んだ情報生成・処理技術の確立を目指してヒューマンコミュニケーションメカニズムの総合的な研究を行なっています[1]。人間の優れた機能のひとつに音声によるコミュニケーションがあります。音声によるコミュニケーションは人間の聴覚・知覚、音声生成運動の機構、ひいては脳の情報処理機構に依存したものであり、これらの解明は、より良いヒューマンインタフェースの実現にとって重要な課題です。本稿では、これらの課題のうち、私が担当している発話運動のニューラネルットワークモデルについて紹介します。この課題を解明するために必要なことは、まず、人間をよく見ること、すなわち、発話運動実験を行ない生理学的データを収集すること、次に、人間をよく知ること、すなわち、実験データをもとに発話運動をモデル化すること、最後に、それを使うこと、すなわち、得られたモデルをヒューマンインタフェース技術に応用していくことです。人間を、目・耳など感覚器官から得た入力情報(Input)を、脳で処理(Process)し、脳から出される運動指令で筋肉を動かし行動(Output)する、情報処理装置とみなし、人工的なモデルで模擬することにより、人間のメカニズムを解明していこうとするアプローチです。川人光男第三研究室長の指導の下、視聴覚機構研究所エリック・ベイツン客員研究員と共同で研究を進めています。生体計測については、視聴覚機構研究所本多清志主幹研究員の協力も得ています。また、ATR内の研究所間ばかりでなく、ハスキンス研究所(米国)、マサチューセッツ工科大学(米国)、CNRS(仏国)、ウィスコンシン大学(米国)、早稲田大学など国内外の研究機関とも、共同で計測、ディスカッションを行なったり、あるいは、客員研究員や学外実習生を受け入れるなどして、ATRの学際性、国際性を最大限に発揮した研究プロジェクトになっています。

2.発話運動のモデル
 人間が言語を話す、すなわち、音声言語の生成はどのように行なわれているのでしょうか。人間が自分の意図を話し言葉として表現しようとするとき、まず、脳内において意識が情報源になり、意図した言語が形成され、音素系列などの音声学的特徴を経て必要な音声器官の位置や形状に関する運動神経への指令が生成され、音声器官の運動によって目標とする音が口唇より発せられる訳です。図1に人間の音声器官[2]を示します。音声器官は呼吸器官(肺)、発声器官(声帯)、調音器官(唇、顎、舌など)に分類できますが、呼吸器官運動及び発声器官運動で音源が生成され、調音器官運動による声道形の変化により、種々の共振特性が作られ、音声として放射されるのです。音声器官の内、調音器官は個々の母音や子音の特徴を生成するのに大きな役割を果たします。図2は、音声生成というタスクを実行するために必要な情報の流れと処理を示したものです。この図でのそれぞれの情報を計測し、それらを入出力とする処理を記述できれば、人工的に人間の音声生成を模擬できることになります。運動指令、運動軌道、音声を各種計測装置を用いて同時に記録し、それらの関係をニューラルネットによりモデル化することにより、発話運動のモデルを作成しています。脳で作られた運動指令は、最終的には運動ニューロンから筋肉へ伝えられ、それにより筋肉が収縮し音声器官が運動しますが、その時の筋活動は筋電図に現われるので、これを計測し運動指令として使用しています。なおこのモデルでは、聴覚や体性感覚によるフィードバック情報は考慮せず、制御の主体である、内部モデルを使ったフィードフォワード制御だけを取り入れています。また、発話意図情報から運動の目標情報への変換については、現状の技術では定量的な計測ができない、いわゆる高次機能であるため、言語学的、生理学的な事実などから、より詳細なモデルを今後作っていくことが必要です。

3.筋電図と調音器官運動の計測
 発話運動のモデルを作るに当たってまず必要なのは、発話運動を計測することです。人間が言葉を話している時の調音器官(上唇、下唇、下顎及び舌)の運動軌道、筋電図、音声を、各種計測装置を用いて、同時に記録する実験を、英語と日本語について行なっています。唇・顎の運動軌道の計測には、唇・顎などに貼り付けた発光LEDマーカーの動きを3台のCCDカメラで追跡し、運動軌道を計測する3次元運動計測装置を使用しています。筋電図は、調音運動に関連する筋肉上の皮膚に表面電極を貼り付け、筋肉に発生した電位を生体アンプで増幅し記録します。音声はマイクロフォンからの信号をA/D変換して記録します。図3に実験の様子を示します。その他に、パラトグラフによる舌と口蓋の接触の計測、舌上に貼り付けた磁気マーカーの動きを追跡するマグネトメータシステムによる舌運動の計測、MRIによる調音器官形状の計測、X線マイクロビームによる舌運動の計測、金属線電極を使用した筋電図計測など、様々な計測方法を用いて、高精度かつ多次元的な発話運動データの収集を行なっています[3]

4.ニューラルネットによる発話運動のモデル化
 次の段階は、収集したデータをニューラルネットによりモデル化することです。ニューラルネットは、人間の神経回路を参考にした情報処理メカニズムであり、学習によって、任意の入出力関係を近似出来ることから、従来の解析方法だけではモデル化が難しかった複雑な生体システムをモデル化するのに適していると言えます。
 運動指令と運動軌道の関係、すなわち図2における音声器官筋骨格系を図4の様なニューラルネットワークで実現しています。運動指令として、筋電図を一定区間毎に積分した積分筋電信号を使用しています。図4で筋骨格系モデルの部分は、3層ニューラルネットで、各調音器官の位置・速度及び関連した筋肉の積分筋電信号を入力とし、単位時間後の各調音器官の位置・速度の変化を出力します。計測によって得られた位置・速度及び積分筋電信号を入力とし、運動軌道から計算された位置変化・速度変化を教師データとして与えて学習しました。学習が終了した後、このニューラルネットに、調音器官の初期位置と計測した全発話時間の積分筋電信号を順次入力した場合の、運動軌道出力を、実験で計測された運動軌道とあわせて、図5に示します。この図から、筋電信号で駆動される人間の調音運動を、人工的なニューラルネットによって再現できた、すなわち人間の筋骨格系のモデルをニューラルネットに獲得させることが出来たと言えます。
 次に、運動指令生成のニューラルネットについて説明します。意図した音声を実現するために、調音器官は運動し、声道形状が連続的に変化しますが、ここでは、個々の音素に対応する離散的な声道形状の列を運動の目標とし、目標を通過する調音運動を実現するための連続的な運動指令を生成するニューラルネットを構築しています。このニューラルネットは、筋骨格系のモデルを内部に持ち、この内部モデルの出力が運動の目標を満たす様に運動指令を調節するというものです。また、運動の目標だけでは、それを満たす運動指令は一意には決まらないので、運動指令の変化を最小[4]にするという動的最適化の基準を使用し、滑らかな運動を生成しています。これらのメカニズムは、視聴覚機構研究所で行なわれている運動を制御する脳の情報処理メカニズムの研究[5]の成果を活用して行なわれ、そこで検討されたカスケードニューラルネット[6]により、口を開く・閉じるという2つの運動目標の列から、連続的な運動指令が生成できることが確認出来ました。

5.ヒューマンインタフェース技術への応用
 本研究の最終段階は、計測とニューラルネットによって得られた人間の発話運動のモデルをヒューマンインタフェース技術へ応用していくことです。現状では、人間の発話運動メカニズムを明らかにしていくことが研究の中心でありますが、将来の応用技術まで研究のスコープに入れ、今までに得られているモデルを使っての検討を始めています。
 まず挙げられるのは音声合成です。近年音声合成技術は、めざましい発展をとげ、すでに実用段階に入っていますが、肉声と同等の品質を満足するまでには至っておらず、合成音であることがわかってしまいます。本研究における発話運動のモデルは、生理学的データの計測に基づき、人間の発話運動を模擬した形で音声合成を行なうので、人間の発話の持つ多様性を備えた自然な音が得られる可能性があります。唇・顎の運動軌道から、音響のパラメータへの変換を3層ニューラルネットで学習し、音声合成を行なうシミュレーションなどを行なっています。また、音声からの運動指令、さらに発話文字列の推定に使用すれば、音声認識にも応用可能です。
 また、発話時の唇や顎運動の表示も応用として考えられます。例えば、テレビ電話のような通信システムで、人が話しているときの顔の情報を送信するとき、画像情報として送ればデータ量は大きくなり、実時間での表示は難しいですが、筋肉への運動指令やさらに上のレベルの発話文字列と抑揚などの情報として送信すれば、少ないデータ量で人が話している口の動きを表現出来るわけです。また、唇・顎の動きからの発話文字列の推定を行なえば、読唇や、雑音下での音声認識の補助としても有用でしょう。

6.おわりに
 発話運動についての、生体計測、ニューラルネットによるモデル化、ヒューマンインタフェース技術への応用について紹介しました。本稿では、細部までは紹介出来ませんでしたが、計測やモデル化の詳細についてさらに興味のある方は、文献の[7]を参照してください。今後は、調音器官のモデルをより充実させていくと共に、運動指令生成のニューラルネットワークについてさらに詳細な検討をしていく予定です。本研究は、人間の筋肉運動や脳機能をもとにモデルを作っていくというアプローチをとっているので、通信システムへの応用に至るまでには、多くの解決すべき問題がありますが、本研究が人間の優れた機能に学んだ新しい情報処理通信技術の開発につながっていくものと信じています。



参考文献