地図を見ながらしゃべる
－マルチモーダル音声翻訳通信を目指して－

1．マルチモーダル・コミュニケーション
　日常、他人と向かい合って話をするとき、私たちは、声以外にも、身振り、視線、表情などのいろいろな手段を無意識のうちに使っています。そして、これらの手段は、しばしば対話をわかりやすく円滑にする役割を演じています。このような事実にヒントを得て、最近、対話の研究の分野では、上で述べたような音声以外の情報も積極的に利用して、対話の理解に役立てようとする、いわゆる「マルチモーダル・コミュニケーション」の研究がさかんになってきました。私たちは今回、音声以外の「役に立つ情報」として、「地図などを指差す行為」を取り上げてみました。

2．指を差しながらしゃべること地図などを指差しながらしゃべるという行為は、日常生活の私たちの対話で頻繁に行われています。人は、ものを指差すことによって、自分が話す内容をより明確にしようとします。さらに考えると、指差しにはもう一つの役割があることがわかります。すなわち、ものを指差すことによって、差された対象物に関して一々言葉で長く説明しなくてもすむということです。例えば、ある人が「ATR音声翻訳通信研究所まで行きたいのですが」としゃべったとしましょう。この時、もし手近に地図でもあれば、地図上のATR音声翻訳通信研究所のある場所を差しながら、「ここまで行きたいのですが」と言うだけで相手には意味がわかるのです。このように、指差しには、地図や絵などの視覚的な情報とともに使われて、人間がしゃべる労力を減らし、人間同士のコミュニケーションをより円滑にするという特徴もあるということがわかります。
　私たちは現在、以上のような指差しの効用を、音声翻訳対話システムに適用する研究を行っています。指差しは対話の場面では非常に効果を発揮する一方、それを対話システムに利用しようとすると、いろいろな技術的課題があります。そのうち、もっとも根本的な課題は、「言葉でしゃべった内容と、指で差された対象物に関する情報を統合する」ことです。先ほどの例でいえば、「ここまで行きたいのですが」という文の内容を理解するためには、指差しや地図の情報をうまく組み合わせて考えないと、ここが示すものや、ひいては文の内容が理解できないということです。
　今回は、指差しの使われ方や、指差しと言葉の関係を実験結果をもとにして述べ、さらに、言葉と指差しを同時に受け付けて意味を推定する、マルチモーダル情報の統合システムを紹介します。

3．指差しの方法
　人は、地図などを使って道案内をするとき、どのような方法で、ものを指差したり、ある場所からある場所までの行きかたを説明したりするのでしょうか？
　私たちは、コンピュータ画面にタッチスクリーンを取り付け、そこに地図を表示し、被験者二人の間で道案内に関するやり取りをしてもらう実験を行いました。その結果、人は主に図1のような5種類のパターンの組み合わせで地図の内容を説明していることがわかりました。
　それぞれの指差しの用途を観察すると、サークリング、マーキングなど、ドラッギング以外の指差しは、主にものの場所を伝えるときに使われ、ドラッギングは主に道順を伝えるときに使われていました。

4．「指差し」と「差されるもの」
　「指差し」と、地図上の「差されるもの」の位置的な関係についてみてみると、図2のように、曖昧な場合がとても多いことがわかりました。
　つまり、人間は必ずしも、地図上のものをきちんと丸で囲んだり、道などに沿ってきちんと線を引いたりはしないというとです。ですから、まず、何が差されているのかを判断することが重要です。それにはどうすればよいでしょうか。サークリングとドラッギングについて考えてみましょう。
　「この駅で降りてください」と言いながら、地図の一部を丸で囲む動作（サークリング）をする場合を考えてみましょう。まず、丸で囲まれているか、丸の近くにあるものを、「差されているもの」の候補として取り出してきます。次に、それらのうちから、文とのタイミング（文をしゃべった時刻と指差しの時刻がかけ離れていない）や単語との意味関係（「この駅」と言っているならば、「駅」を表わしているものが差されているものと判断する）を考慮して、最終的に「差されているもの」が決定され、「この駅」がどの駅なのか、ひいては文の意味がわかります。
　次は線を引く動作（ドラッギング）です。「このように行ってください」と言いながら、道路に沿って線を引いた場合は、線が通っている代表的な場所（始点、終点、通過点、線が曲がっている場所など）を取り出して、最終的には、「このように」という言葉が「始点から終点までこのような通過点を通って」という意味に置き換えられて、文全体の意味が理解されます。

5．指差しと言葉を理解できるシステム
　私たちは、以上のような考え方をもとに、しゃべりながらコンピュータの画面上の地図を指で差すと、その言葉と指差しを認識して、しゃべった文の意味を理解するシステムを作りました（図3）。
　しゃべった音声は、音声認識部で認識され、その後細かく言語解析されます。画面上の指差しは、指差し認識部で解析され、地図情報などを使ってその種類、用途、差されたものなどが特定されます。その後、統合処理部では、言葉と指差しの意味関係や時間関係が判断され、両情報が統合された「指差し＋音声」全体の意味が得られます。

6．むすび
　ここでは、地図や絵を指で差しながら話す時の言葉の特徴や、指差しと言葉の関係、そしてこのような複数の異なる種類の入力を処理することが可能なシステムについて述べました。今後は、ひきつづき当システムを音声翻訳通信システムに応用するための研究を行うとともに、指差しだけでなく、音声翻訳技術に有益な他の情報に関する研究も行っていく予定です。

地図を見ながらしゃべる －マルチモーダル音声翻訳通信を目指して－

参考文献

地図を見ながらしゃべる
－マルチモーダル音声翻訳通信を目指して－