異なる言語間のグローバルコミュニケーションを
目指す音声翻訳通信
−ATR音声翻訳通信研究所発足−




(株)エイ・ティ・アール音声翻訳通信研究所 代表取締役社長 山崎 泰弘



 「自動翻訳電話 日・米・独間の実験成功」、「A Translating Phone for Overseas Calls」。これらは1993年1月28日から29日にかけて国内外のTVや新聞で大々的に報道されたニュースの見出しです。世界で初めての日本、アメリカ、ドイツを国際回線で結んで話し手の言葉を相手方の言葉に変えて実時間で伝える実験は、夢を現実に近づけるものとして一般の人々にも高く評価されました。このような国際間の翻訳電話実験の大成功を花道にATR自動翻訳電話研究所は7年間の所期の目的を果たし、この度、新たにATR音声翻訳通信研究所が発足することになりました。これもひとえに基盤技術研究促進センター及びNTTをはじめ民間出資法人のご協力とご支援の賜であります。
 新しい音声翻訳通信研究所は「高度音声翻訳通信技術の基礎研究」を研究テーマに1993年から2000年の7年間を予定しています。その間、総額約160億円の試験研究費が予定されています。新しい研究所での研究活動は前身の自動翻訳電話研究所の先駆的技術レベルを引継ぎ、個々の要素技術の完成度を高め、それらを統合化していくことにあります。
 現在の音声翻訳技術では話す人が翻訳システムを相当意識する必要があります。例えば、話し手は誰でもよいという訳にはいきません。また、話す内容(話題)、言葉の種類、言葉の区切り、文法に則った文型、話す速度など翻訳システムに合わせる必要があります。この状態から脱皮し、話し人が翻訳システムを意識することなく普段の話し言葉で喋り、それを自動的に即座に相手の言葉に変えて伝えることが理想です。特に、言葉のハンディを強く意識している日本人が言葉の壁を全く意識せず、自由に外国の人々と話が出来たらどんなに素晴らしいでしょう。地球的規模でグローバルコミュニケーションが可能となれば、誤解されることも少なくなり、ビジネスに、観光に、日本人の活動範囲も益々広くなるものと期待されます。
 このような理想的な音声翻訳通信は社会での期待が大きい反面、克服すべき困難な課題が山積しています。話し言葉には特有のくだけた言い回しがあり、時には言葉が省略されたり、順序が倒置されたりします。コンピュータにとって苦手な処理なのです。これを解決するためには従来の手法にとらわれず、新しいアプローチも必要になります。そこで課題を次の4つに整理し、その基礎技術の確立を図ります。
(1)自然音声認識技術
 通常の会話では、話す速さ、音の大きさ、スペクトルなどに音響的変形が生じたり、会話の途中に「えー」、「んー」といった間投詞や無意味な音が挿入されたりします。このため従来の静的な処理法だけでは認識精度を上げることができません。この問題を克服するため音素モデルや言語モデルを発話状況に合わせて動的に適応、再構成する手法を確立することが必要です。また、人間は不特定話者の音声を認識できるとともに新しい話者の音声の特徴に迅速に適応する能力があります。従来の音声認識では話者の音声特性を標準話者の特性とマッピングする方法が採られています。この機能を人間の認識能力に近づけるためにはマッピッグ自体の改良はもとよりマッピングをアダプティブに適用する手法の確立が必要です。
(2)発話韻律処理技術
 人間がしゃべる音声には、文字で表記できる狭義の言語情報以外にアクセント・イントネーションのような韻律情報や発話の意図などを暗に示す汎言語情報が含まれています。人間はこの両者を利用することにより伝達内容を正しく理解します。従って、高度な音声翻訳通信システムでは狭義の言語情報に加え、この汎言語情報を抽出する手法の確立が必要です。更にアクセント・イントネーションや話のテンポ・リズムなどの韻律的特性を制御する規則を構築し、自然で多様な音声を作成する音声合成技術の研究も進めます。
(3)協調・融合翻訳技術
 自然な対話では発話の状況や相手の知識を想定した断片的な表現、それらの間に不規則に挿入される別の意図を持った表現、更には倒置、言い直し表現などが現れます。このため規則に基づく翻訳(規則主導翻訳)だけでは限界があります。これを補完する技術として、句や節のパターンとその対訳用例を収集しておき、入力された音声を句や節のパターンに分解し、最も似た用例を抽出する手法(用例主導翻訳)も有望です。そこで、翻訳過程を規則主導翻訳、用例主導翻訳、さらには内容理解に基づく翻訳などの部分問題に分解し、その後、各部分問題の解を組み合わせることにより最も確からしい翻訳を導出する基礎技術の確立を図ります。
(4)音声・言語統合処理技術
 自然な話し言葉を正しく理解するためには音声処理と言語処理の情報を互いに利用し、その相乗効果により精度を高めることが有効です。例えば、不用語とみられがちな間投詞や副詞の言語的機能から後続の音声表現を予測し、音声認識率を高めることができます。また逆に、音声の抑揚や強調などの韻律情報を用いることにより、言語処理での構文や意味の曖昧さを解消したり、特別な意図を抽出することが可能となります。この音声処理と言語処理の接点が“発話の状況”にあることに着目し、両者の統合法について研究します。また、音声関連の研究を進めるためには実際の音声言語データを収集した大規模データベースが極めて重要となりますので、その作成に取り組みます。
 当研究所は、上述した4つの課題の解決に積極的に取り組むため4つの研究室と企画課を配置し、目標(夢)を高めに掲げ、また内外の研究機関と協力して研究を進めたいと思っています。来るべく21世紀においては「異なる言語間のグローバルコミュニケーション」が現実的な要求になるものと思われます。本研究プロジェクトの高度音声翻訳通信技術がグローバルコミュニケーションの中核となるよう全研究所員が一丸となって努力する所存です。今後ともご理解、ご支援をよろしくお願い致します。