言語のちがいを克服する自動翻訳電話

ATR自動翻訳電話研究所　社長　榑松　　明

〔自動翻訳電話とは〕
　自動翻訳電話とは、電話における通信の内容を相手の言語に自動的に翻訳する技術で、言語が異なる外国の人とのコミュニケーションを言葉の違いを感じないでスムーズに行おうとするものです。自動翻訳電話システムの構築のためには、話し手の音声を聞き分けて認識する音声認識、異なる言語間の交換を行う機械翻訳、計算機から音声を作り出す音声合成の要素技術が必要です。現在、これらの技術については、それぞれある程度までの研究開発が進んでいますが、自動翻訳電話システムの実現には、まだまだ不十分なレベルで、基礎的な研究の積み重ねが必要です。当研究所において、将来の夢の通信に向けて、自動翻訳電話のための基礎研究を開始しました。

〔自動翻訳電話のための研究の展望〕
　自動翻訳電話システムの実現には、コンピュータ先端技術を利用して種々な技術が必要です。図1に自動翻訳電話システムの構成を示します。基本の技術について、今後の研究の展望をのべます。

（1）音声認識技術
　自動翻訳電話の要素技術のなかで、最も技術上の課題が大きいのは、音声認識技術です。電話における会話の内容を認識できることを目標にして、3000語程度の単語からなる日本語、英語の会話文音声を、文節毎に区切って発声したものを認識する実験システムを構築します。
　連続音声の認識を行うには、音韻を基本単位として認識し、これから単語や文節の認識へと積み上げていくこととなります。連続音声システムの考え方としては、特徴抽出部、音韻認識部、単語認識部、文節処理部という各処理部をモジュール化し、相互間をデータが流れて制御するという方法をとることが好ましいと考えています。単語認識結果にもとずき、文脈、文の構文、意味、韻律情報などの言語的情報を駆使して、後続の単語を予測して、最適な文節認識結果を得るようにします。
　音声認識の厄介な点は、人によって音声の性質が違うことであります。一般の利用者が自由に利用するために、男女、老若など多種多様な話者の音声に適用できるような不特定話者音声認識技術が重要です。話者に対する対応をスムーズに行うには、話者に依存した情報を認識システムに取り込むという話者適応方式が有効です。100単語以下の少量の音声データを用いて、発声者への話者適応可能なシステムを目指して、実験を進めています。
　音声を発声する周囲の環境による影響として、周囲雑音や、咳払いのような無意味語が混入することがあります。今後、信号処理手法を用いて、雑音が重畳した音声信号からこれを取り除く雑音除去技術を研究します。
　これらの音声認識の研究には、基本的な音声データベースが不可欠で、音素のラベル付けされた大規模な音声データベースの作成に着手しています。

（2）機械翻訳技術
　日英間の会話文機械翻訳を、あらかじめ設定した領域において実現することを目標とします。
　会話では、お互いが共通な常識があるものという前提のもとに、言葉がやりとりされるので、会話文は、通常の文書とは、用語的および文法的に異なっています。たとえば、言葉の省略が頻繁にあったり指示代名詞が何を指すかがあいまいであったりします。現在、通訳を介した電話会話のシミュレーションを実施して、会話データの収集と分析をおこなっています。これらの結果をもとにして、会話文特有の翻訳方式の研究を進めていきます。
　会話通信文の翻訳という問題を簡単にするためには、タスクといわれる、話題あるいは発話状況を限定できるような枠組みを設定する必要があります。話し手と聞き手を設定した対話構造のモデル化を行い、焦点・テーマ・主題等の認識と対話目標との関係を把握して、対話文処理の有効な方法を構築していきます。
　今後の電子メール等の通信の普及を考えると、通信文の言語翻訳の必要性が高いといえます。通信文に特有な文型や文脈に関する研究を進めて、通信に適した翻訳の方式を確立していきます。また、これは、会話文翻訳技術の基礎データとして役立てられると考えております。
　高精度な機械翻訳システムを実現するためには、会話文および通信文に関する用語や、会話の中に多く見られる慣用的な表現などの辞書データベースが必要です。会話あるいは通信の対象とする分野（タスク）を指定して、その分野に関する専門知識を、概念とその相互間の関係としてとらえて記述し利用することが有用です。概念の説明や言葉の意味的関係を表した意味体系などを体系的にデータ化した知識ベースを、会話文の取り扱いに重点をおいて構築し、会話文の機械翻訳に適した知識ベースの構築技術の確立を図ります。

（3）音声合成技術
　翻訳電話における音声出力には、任意の文の音声を合成できる技術が必要です。
　明瞭性や自然性が高い高品質の合成音声を得るため、種々の単位長をもつ複合音声単位を用いて、規則による音声合成方式を高度化していきます。さらに、単語、文章等の連続音声を合成する際に必要な単位音声の変形・結合規則を精密化したものを作成します。
　また、翻訳結果の音声合成においては、意味解析、文脈解析等の言語解析結果を踏まえて、会話の状況に則した調子で音声を合成する必要があります。これは、イントネーションなどをいかにうまく制御するかの問題であり、発声の意図や言語の構造をふまえて音声を合成する研究を行います。
　一方、話者の音らしさのある合成音声を出力することが望ましいので、話者の特徴の適切な抽出と、音声合成における声質制御によって話者の音声に近い声質で、男女・老若などの多様な音声を合成できる技術を追求します。

〔おわりに〕
　自動翻訳電話システムの実現までには、多くの要素技術の研究レベルを質的に高度化する必要があります。自動翻訳電話技術に関連して、音声認識・理解、テキストからの音声合成、自然言語処理などの研究が、内外で盛んに行われていますが、いずれも大量な言語的データにもとずいて、大規模なデータを扱っていく必要があり、国際的に研究者が協力して、研究を促進していくことが重要です。