●ATRの音声翻訳技術


大規模コーパスベース
対話音声翻訳技術の実現にむけて


音声言語コミュニケーション研究所所長 中村  哲

音声言語コミュニケーション研究所所長
中村  哲



 平成13年から開始したNiCT民間基盤技術促進制度受託課題「大規模コーパスベース音声対話翻訳技術の研究開発」の終了を半年後に控え、これまで研究開発を行ってきた音声翻訳技術の評価と総まとめに入っている。このプロジェクトは、平成12年から開始し途中で終了したKTCプロジェクト「知識利用型音声言語通信の基礎研究」の中から、音声翻訳に関わる部分について当該研究受託制度に応募して採択されたものである。
 著者は、平成12年度に奈良先端科学技術大学院大学助教授から転身して当初研究室長の立場でプロジェクトに参画した。平成13年に突然KTC制度がなくなりTAOの民間基盤受託制度に変わると言うことでドキッとしたが、幸い提案が採択され、無事当初の研究を進めることが出来た。現在は、社長、所長として長年音声翻訳プロジェクトを率いてこられた山本誠一氏が同志社大学に教授として転出されたため、所長職を引き継いでいる。
 平成13年当初は、ATRでは用例翻訳に基づく音声翻訳技術が研究開発されていたが、音声認識で培われた統計的手法が言語処理分野にも徐々に適用され始めた時期であった。この用例翻訳には、話題のポータビリティの問題、新しい言語対への展開の問題があった。そこで、広い話題、日英に加え日中を始めとする新しい言語対への対処を目的として、用例ベースと統計ベースを含めたより広い概念であるコーパスベース音声翻訳技術の研究と、それらを実際に実証、稼働させるための大規模コーパス構築を目的に「大規模コーパスベース音声対話翻訳技術の研究開発」を提案したのである。


集合写真


 この研究開発の結果、日英100万文、日中50万文の対訳コーパスの完成、マルチエンジン型コーパスベース音声翻訳により、日英ではTOEICスコア650点と同等の翻訳性能を達成するに至り、音声翻訳技術は飛躍的に進歩した。関西空港における実証実験での利用者アンケートでは、「ほとんど通じた」が50%を超えた。
 個別要素技術毎に述べると、音声認識については、実際の環境での利用を目指し、音声認識においては、雑音、発話スタイルに頑健で接話マイクのいらない多言語(日本語、英語、中国語)音声認識技術、不適切な発話を棄却する技術開発を目指した。音声認識の研究で著名な米国の国防総省(DARPA)のプロジェクトの騒音下英語音声認識評価プロジェクト(SPINE: Speech Recognition in Noisy Environment)にも2年続けて挑戦し、英語音声認識の経験のない中、日本から初参加ながらまずまずの成績を収めた。また、ハンズフリー音声通信に関する国際ワークショップ(HSC)を創設し、今年第2回HSCが米国で開催された。今年度は、小型携帯端末用8chのマイクフォロンアレーシステムの試作を行い、雑音抑圧フィルタの併用により実雑音環境で非常に高い性能の音声認識を達成するに至った。
 音声合成については、ATRはν-talk, CHATRなどでコーパスベース音声合成の提案者として有名であったが、実際には実利用可能な音声合成システムの開発が求められていた。そこで、大規模コーパスを構築し、日本語、中国語コーパスベース音声合成システム(XIMERA)を構築した。英語については、現在、鋭意システム開発中である。
 言語翻訳に関しては、日英100万文対、日中50万文対の対訳コーパスを構築するとともに、これらのコーパスに基づき、マルチエンジン機械翻訳システムを構築した。翻訳エンジンとしては、ATRが従来から取り組んできた用例翻訳エンジンに加え、近年、欧米で盛んになってきている統計翻訳技術をいちはやく導入することにより日中・日英の統計翻訳エンジンを構築し、現在もこの分野における日本の先導的役割を担っている。
 また、要素技術を統合して音声翻訳としての総合性能を向上させる技術として、音声認識結果の信頼性に基づいて音声翻訳処理を制御する技術や複数の音声認識候補を使って翻訳する技術、さらに、システム全体の実験・評価などの研究を精力的に行った。
 特に、昨年度、音声翻訳に関する国際コンソーシアムC-STARの機関と協力して、音声翻訳技術に関する世界初の評価型の国際ワークショップIWSLT2004を企画しATRにて開催した。このワークショップでは、ATRで開発したコーパスの一部を参加者に無償で提供し、同一のデータで翻訳システムの学習、チューニング、テストを行い、結果を統一的に評価して技術の有効性を分析するものである。今後の音声翻訳技術に非常に重要な意味を持つ活動であり、平成17年の10月にも第2回のIWSLT2005が米国カーネギーメロン大学で開催された。
 海外においても、音声翻訳の研究が加速してきている。欧州では、TC-Starと呼ばれる講演、講義の音声翻訳プロジェクトが昨年から3年計画で始まり、来年度からは米国で国防総省(DARPA)の大型プロジェクトとしてアラビア語、中国語と英語のテキスト翻訳および音声翻訳プロジェクトが開始される。軒並み各地域で大型のプロジェクトが開始され、我々を追撃する様相を呈している。
 一方、技術の成果展開についても、新たに、マルチクライアントプロジェクトという形式の技術移転プロジェクトを行った。2002年から2年間は音声認識合成技術、2004年から2年間は音声翻訳技術を対象とし、それぞれ、10社、4社の参加を得て、ATRのコーパス、ソフトウェアをパッケージ化することに成功した。これまで研究者がバラバラに作成し再利用性の低かったソフトウェアを、ソフトウェア技術者の導入により、統一した設計、一貫したプログラミング、日本語、英語のマニュアル整備などにより完成度の高い物とした。現在、この成果はプロジェクト参加企業に移転され、各企業で実用化の検討がなされている。さらに、2005年8月には、音声翻訳関連技術を核とした事業展開を行う孫会社ATR-LANGをATR自ら立ち上げた。この孫会社を通じて、技術移転、ライセンス、商品販売、サービス事業を行っていく予定である。
 ATRが音声翻訳の研究を開始して約19年になる。音声翻訳技術が夢の技術であった時代から、音声翻訳技術の実用化を目指し、ニーズが明確な旅行対話にフォーカスしながら音声翻訳システムの研究開発を進めてきた。現在では、日常旅行会話に対し、1秒程度の処理時間で音声翻訳が行え、音声翻訳の実用性を議論する技術レベルまで到達した。今後、さらに翻訳サービスを必要とする観光地などに常時設置して、実証実験、改良を進めていく必要がある。また、実際のサービスに必要な固有名詞の問題もインフラを含めた形で解決法を探る必要がある。
 現在のATRの音声翻訳は、文が比較的短く単純な日常の旅行会話を対象にし、文脈を考慮せず逐次翻訳をするシステムである。しかし、いざ、人間の同時通訳者と比較すると、足元にも及ばない。今後の基礎研究の目標として、連続して発話される音声を自動的に適切な単位に区切り理解しながら聞き取りやすい表現で、五月雨式に音声翻訳していく同時通訳のような音声翻訳技術の実現を目指して研究を進めていきたいと考えている。また、音声翻訳だけでなく、情報検索、対話、要約、アーカイビングなどより広い音声言語情報処理にも研究の幅を広げていく予定である。
 この場をお借りして、これまでATRの音声翻訳技術の研究に携わってこられた一人一人の研究者、技術者の皆様に感謝したい。また、本プロジェクトに関して、ご指導、ご協力頂きました皆様には、心から感謝し、さらに、ATRの音声言語研究に引き続きご支援をお願いしたい。時代が変わり、基礎研究には厳しい風が吹く昨今ではあるが、こんな時こそ、全員一丸となってこの風に立ち向かう所存である。