心が通うロボットとの
音声インタフェースの実現にむけて



音声言語コミュニケーション研究所 中村  哲



1. はじめに
 最近進歩が著しいロボットとの音声インタフェース技術について述べます。ロボットと言っても、工場で働く溶接ロボットから、ネコ型、人間型ロボットまでいろいろなものがあります。ここでは日本の方にはおなじみの生き物の形を目指しているタイプのロボットを対象にすることにします。このようなロボットでは、人間は、あたかもその動物や人間のようにロボットが反応することを暗に期待します。人間型では、何か話しかけると、こちらの発話に対し、人間のように意図を汲んで、動作や言葉で反応することを期待してしまいます。
 もちろん、言葉に対して、人間のようにロボットを反応させることは、現在の技術ではほとんどできないと言って良いでしょう。ただ、ロボットには、それ自体が単体として、見たり、聞いたり、行動したりすることが実現できるので、それぞれの技術を人間の能力に近づけるべく、一定のバランスを保ちながら、原始的な生物から、コミュニケーションできる高等な生物まで、進化するように順にレベルを高めていくことができるのです。人間の機械的な動きについては、近年、二足歩行など飛躍的な進歩が見られていますが、人間とロボットとの言語的コミュニケーションとなると、現在のロボットはきわめて低レベルと言わざるを得ない状況です。言語的コミュニケーション機能を一気に人間並みにすることは、残念ながら絶望的ですが、単体として構成し、バランスを保って成長させれば、それなりの言語コミュニケーション能力でも違和感なく、付き合うことができます。だれも生まれたての赤ん坊に大人のように話すことは期待しませんが、成長とともにそれぞれの機能が、並行して進化していけばとても自然に感じるということです。

2.心が通う音声言語インタフェース
 それでは、次に心が通うロボットとのインタフェースについて考えてみましょう。それには、まず、人間同士がどのように意図を伝えているかを知る必要があります。図1に人間が実際の環境で会話する状況を示します。意図を伝えるためには、まず、声で言葉を伝えなくてはなりません。声は、言葉以外にも抑揚による強調や感情を伝えます。とは言え、言葉が最も重要な役割を果たします。言葉を聞き取るためには、図に示すように、雑音がある環境で遠くから聞こえる音を聞き取る(受音)機能、話し手の声を話し方によらず聞き取る(音声認識)機能、同じ意図でもいろいろな表現がある中で話し手が何を意図しているのかを理解する(音声理解)機能、内容に応じた適切な動作を計画する(アクション作成)機能、その発話に応じた対話をする(対話管理、音声合成)機能、発話内容の理解を助けるために顔やジェスチャーの情報を利用する(マルチモーダル統合)機能が必要となります。さらに、感情に応じて反応を変える(感性制御)も必要です。ここまででも、現状の技術ではほとんど人間レベルの性能は達成できていないのですが、さらに心が通うとなると、ロボットが利用者と同じ生活背景、知識を有し、利用者の思考パターン、価値観を理解し、わずかな言葉から相手の意図を推測して反応する必要があり、人間同士でもできないぐらい困難を極めます。

3.音声言語コミュニケーション研究所における研究
 表1に、ロボットとの音声インタフェース技術のそれぞれの機能と現状のレベルを簡単にまとめました。これを見てもわかるように、現在の技術では、話し言葉の音声に対しての認識は残念ながらまだ不十分です。それでも、現在における人間型でかつコミュニケーションに重点を置いたロボットの研究は、特に日本を中心に進められています。知的ロボットの分野では、まさに日本が世界をリードしており、すべての技術が日本にあると言っても過言ではありません。
 当研究所では、音声言語コミュニケーションのための要素技術の研究を進めています。この技術は、音声翻訳のみならず、心をロボットと通わせるコミュニケーションの重要なコア技術として、発展させていくことが可能です。次に、当研究所で現在研究中の技術について簡単に紹介いたします。
(1)遠隔発話受音技術:マイクロホンアレーや信号処理技術を用いて雑音や残響のある音環境で利用者の音声を聞き分けます。
(2)発話スタイルに頑健な多言語音声認識:口語調の音声を、発話のスタイルに頑健に認識します。日本語に加え、英語や中国語の認識も可能にします。
(3)音声・画像統合による発話検出、認識技術:音響信号に加えて、発話時の顔画像を用いて、発話検出を行います。また、読唇技術を合わせることで、高雑音環境下の音声認識性能を改善します。
(4)発話理解技術:発話内容の文章の話題を同定し、利用者の意図を理解します。
(5)アクション生成技術:対話ルールを自動的に獲得することにより、アクション生成を行います。アクション生成としては、音声対話の対話戦略に基づく、音声合成用の質問文、確認文、回答文生成を行います。
(6)音声合成技術:言葉によるインタフェースのアクションとして、自然性の高い会話音声の合成を行います。
(7)音声に同期した顔画像生成技術:生成された音声と同期した自然な発話顔の生成を行います。
 ロボットとの音声インタフェースとしては、発話内容の理解の部分に加えて、アクション生成、より高精度な音声認識、感情認識、などなど、これからの研究が必要なものばかりといえましょう。さらに、心を通わせるための、ロボットと利用者の相互理解のためには、今後、より精力的な研究が必要になると思われます。

4.おわりに
 最後に、人間はどのようなロボットを必要としているのでしょうか。介護ロボット、話し相手ロボット、命令通り動作するロボットなどが代表的ですが、これらは、すべて近未来の社会に必要となるものばかりと言えます。過度な知性が危険であることは明らかですが、現在のロボットは人間とのインタフェースという意味ではまったく不十分であり、まさに、これからの研究が必要な分野であると言えます。