言語音声コミュニケーション研究所
(株式会社エイ・ティ・アール音声翻訳通信研究所)
(株式会社エイ・ティ・アール音声言語通信研究所)

音声翻訳技術の研究開発



音声言語コミュニケーション研究所
所長 山本 誠一



 1.プロジェクトを振り返って

音声翻訳技術の基礎研究が本格的に開始された1980年代の中頃、音声翻訳技術は「夢の自動翻訳電話」技術と呼ばれ、実現可能性について様々な議論がありました。話題は限定されていますが、実時間で動作する音声翻訳システムを目にしますと、隔世の感があります。では、当時の技術目標が全て実現されたかと言うと、実現された事項も数多くありますが、一方、私たちが日常何気なく使っている話し言葉を正しく認識することの難しさや、それを翻訳することの困難さ、奥深さが明らかになってきたというところです。ここでは、音声翻訳技術の過去5年程度の研究成果を簡単にご紹介し、技術課題をどのように解決しようと考えているかをご説明します。
今から5年前の平成9年(1997年)当時は、文法的に正しく明瞭に発声された音声ばかりではなく、文法的な誤りを含む日常の話し言葉を認識・翻訳するための各要素技術の研究が精力的に行われていた時期でした。これらの要素技術を統合して、音声を認識・翻訳する技術の総合的な評価を行うためのシステムとして開発したのが、日英双方向音声翻訳システムATR-MATRIX (Multilingual Automatic TRanslation system for Information eXchange)です。本システムの開発により、日常の音声を対象としての実時間での音声翻訳評価実験が可能となりました。ATR-MATRIXの開発が、過去5年間の最大の研究成果であり、その後の研究成果は、このシステムの性能評価と結びついた事項です。
まず、音声翻訳システムの性能をどのように評価するかが課題となりました。外国語を学習する人の能力との比較に基づく信頼性の高い評価法を開発しました。さらに、効率的な研究を行うために、客観評価法の開発を行いました。
ATR-MATRIXは日常の話し言葉を認識・翻訳することを可能にしましたが、未解決な課題も多く残されています。最大の課題は、話題が極めて限定されていることです。音声翻訳技術の有用性を示すには、日常で使用できることを実証することが重要です。このため、具体的な実例として、海外旅行に出かけた際に、現地の言葉が理解できなくても、大きな不便を感じずに旅行中の日常生活をすごせる程度の話題に対応できる技術を研究目標としました。
具体的には、音声認識では環境雑音による性能劣化を防ぐための手法を研究開発すると共に、固有名詞などの未登録語を検出する技術を開発しました。翻訳技術については、対訳用例を利用する変換主導翻訳手法TDMT(Transfer Driven Machine Translation)を開発しましたが、広い話題に対応できるように、大規模対訳コーパスを基礎に機械学習を利用して効率的に、翻訳システムを開発する技術の研究を進めています。


 2.主要な研究成果

■ATR-MATRIX
平成10年(1998年)に構築したATR-MATRIXは、ホテルのフロント係と旅行者の会話を扱うことができます。語彙サイズは約1万語で、人名等を除けばおおむね十分な規模になっています。
日常の自然な会話音声を認識し翻訳するために独自に開発したいくつかの要素技術が実装されています。HMNetと呼ばれる音響モデル、可変長の単語を単位とした確率言語モデル、変換主導翻訳手法TDMT等です。また、音声認識誤りに対応するため、一部に誤りが含まれていても、言語的な構造と単語の意味的な情報をもとに翻訳可能な部分を見つけ、翻訳可能な部分はできる限り出力するという「部分翻訳」機能を実現しました。
このシステムを使って、いろいろな評価実験を進めながら、さらに多言語への拡張も行いました。入力として日本語を受理し、出力として英語、ドイツ語、韓国語、中国語を出す多言語音声翻訳の画面例を図1に示します。このように多言語に拡張したシステムを使用して、ATRが中心となり組織した音声翻訳研究に関する国際的なコンソーシアムC-STAR(Consortium for Speech Translation Advanced Research)のメンバーと、平成11年(1999年)7月に国際共同実験を実施しました。実験風景を図2に示します。

■音声翻訳システムの評価手法
工学的な研究を進める上で大切なことは方式の良し悪しをきちんと評価できることです。従来、自動翻訳システムの評価は「試験文」と呼ばれる数十から数百の文を実際にシステムに翻訳させ、それぞれの翻訳結果に対して人間が「これは10点、これは3点」といった具合に点数付けすることで行ってきました。しかし、この方法では異なった評価者の間で評価がばらつく上に、例えば平均的に7点を出力するシステムが人間で言えばどの程度の英語能力を持つのかが直感的に分かりにくいといった問題がありました。
そこで「一対比較に基づくTOEICスコア評価法」という方法を考案しました(図3)。
この方法では、まず、試験文をシステムで翻訳するとともに、異なった英語能力(TOEICスコア)を持つ被験者に翻訳してもらいます。次に、被験者による各訳文に対するシステムの翻訳結果の優劣を別の評価者に比較・判定してもらいます。この結果を統計的に処理して、システムの訳文と同等レベルの訳文を作れる被験者のTOEICスコアを推定し、システムの能力とします。これによればATR-MATRIXの性能はTOEIC550点程度ということが分かりました(図4)。
この方法の利点は、私たちにとって身近でわかりやすいTOEICスコアで翻訳レベルが評価できることや、点数付けという方法ではなく、2つのうちどちらが良いかを判定するという、より信頼性が高い方法に基づいていることなどがあげられます。

■音響環境の影響を受けない音声認識技術
実際にPDAのような小型携帯機器に音声翻訳装置が搭載され利用されることを想定すると、利用場面は海外旅行中などの雑音のある実環境での利用ということになります。このような場合には、頭から装着するタイプの接話マイクロホンの使用は利用者にとって大変煩わしく、雑音に頑健な音声認識技術を開発する必要があります。さらに、相手方の音声を受音するために、利用者あるいは相手話者の口元から離れた位置での受音技術が不可欠になります。この問題に対し、(1)雑音に頑健な音声特徴抽出方式、(2)定常、非定常の雑音への即時適応方式、(3)マイクロホンアレーによる遠隔発話音声認識方式等の研究を進めて参りました。特に、項目(3)の口元から離れた位置での遠隔発話音声認識は、携帯型音声翻訳を実現するために必要である新しい分野であり、マイクロホンアレーを利用し受音の指向性を自由に制御する機能を備えた音声認識技術として研究を行いました。小規模マイクロホンアレーを用いた雑音除去技術を図5に示します。

■未登録語認識
音声認識にとって、人名や会社名といった固有名詞を認識することはむずかしい問題です。これは、音声認識の仕組みが、入ってきた音になるべく近い単語を「辞書」から選んでつなぎあわせることを行っているためで、辞書にない人名や会社名のような単語は取り扱うことができません。
この音声認識にとって苦手な固有名詞ですが、さらに厄介なことに会話の中ではしばしば非常に重要な意味を持つため、固有名詞の誤認識は音声翻訳システムにとっては致命的な問題となります。音声翻訳システムでは、認識結果の単語列を元に翻訳が行われるため、意味のわからない文に翻訳されてしまうことになります。
そこで私たちは、この問題を解決するために固有名詞を辞書登録することなしに認識する方法を開発しました。この方法では図6に示すように仮名に対応する音のつながりで表現することによって全ての固有名詞を表現することができます。そして、図7に示す三つの知識、すなわち、頻繁に現れる音のつながり、音の長さ、文のどの位置にどんな固有名詞が現れやすいかという知識を組合せることによって固有名詞の認識を行います。
この方法では、文中の固有名詞の位置のみならず、その固有名詞の種類(人名であるとか会社名であるとか)も同時に認識されるため、文の意味を正しく翻訳装置に渡す事ができ、辞書登録されていない固有名詞を含んだ文を音声翻訳することが可能になりました。

■大規模コーパス収集とコーパスベース翻訳

音声翻訳技術の課題の一つに、新たな話題(語彙や表現)に素早く対応する技術の開発があります。このためには、システム構築の効率化・自動化が重要になります。例えて言うならば、原材料を運び込むと翻訳システムを製造する工場を実現する技術です。原材料は、お手本となる原文とその翻訳を集めた対訳コーパスといわれるデータです。話題毎に対訳コーパスを用意すれば翻訳システムが得られ、言語ペアを変えれば多言語化できるわけです。
対訳コーパスとして、海外旅行に出かけた際の様々な話題に関する大規模なものを構築しました。宿泊、食事、買物、観光などの話題に関する50万文の世界最大の対訳コーパスです。このコーパスは翻訳知識を獲得するための基本的な表現を集めたものです。
翻訳技術については、この大規模コーパスを活用して、コーパスベース翻訳手法C3(Cキューブと呼んでいます)の研究開発を行っています。類似用例を使って翻訳する手法、統計的に翻訳をモデル化する手法などを平行して開発し、さらに、それらの訳文から最良訳を選択する手法、入力文を言い換える手法などを、対訳コーパスを中心に置いて研究を進めています。


 3.まとめ

昭和61年(1986年)4月に発足した自動翻訳電話研究所、および平成5年(1993年)3月に発足した音声翻訳通信研究所での成果を受けて、平成12年(2000年)3月には「知識利用型音声言語システムの基盤技術の確立」を目標とした音声言語通信研究所が発足しましたが、制度の見直しに伴い、わずか1年半で打ち切りとなりました。
平成13年(2001年)10月に音声言語コミュニケーション研究所として、これまでの研究成果、開発技術を継承し、通信・放送機構(TAO)委託プロジェクトにおいて「大規模コーパスベース音声対話翻訳技術の研究開発」をテーマに音声翻訳技術の開発に向けて研究を開始しました。
最後に、この間尽力された研究員および事務部門の方、出資企業を始めとする関係者のご指導、ご協力に感謝の意を表します。