特集ATR音声言語通信研究所設立

ATR音声言語通信研究所の研究内容の紹介

 (株)ATR音声言語通信研究所 代表取締役社長 山本 誠一



 21世紀を眼前に迎え、国の枠をはるかに超えたグローバルな活動は、距離、時間、言葉を超えたコミュニケーションの実現を要求しています。しかし、日本語の孤立性や日本の地理的状況からか、我々日本人は一部の人を除いて英会話を始めとする外国語会話は不得手であり、言葉の壁を乗り越えるために音声翻訳技術の実現が強く期待されています。ATR音声翻訳通信研究所では音声翻訳に関し、対話に関し具体的な表現を集めた大規模対訳コーパスを作成し、コーパスに基づく音声翻訳手法を全面的に採用し、基礎研究を進めてきました。この結果、ホテルの予約等のタスク限定された目的指向対話については、TOEIC(国際コミュニケーション英語能力テスト)スコア500点台の日本人と同程度の音声翻訳結果が出力可能である段階に達しています。
 この研究成果を受けて開始されたATR音声言語通信研究所の研究目標は、大きく二つに分けられます。一つは、対話音声翻訳の利用分野の拡張であり、他方は対話ではなく講演等の独話の音声翻訳を可能とすることです。

1.対話音声翻訳の利用分野の拡張
 確率的な手法に基づく現在の音声認識では、音声認識用の言語モデルとして一般に単語間の遷移確率を表現するモデルを使用しており、タスク毎に新たなモデルを作成する必要があります。確率モデルの作成には多量の音声やそれを書き下したデータを集めた大規模なコーパスを構築する必要があります。新聞のような既存の大規模コーパスを利用できない対話の音声認識では新たなコーパスの構築には膨大な人手と時間を要します。そのため、音声翻訳技術の他のタスクへの移植は困難です。
 言語翻訳技術では、この課題は一層困難となります。コーパスに基づく言語翻訳では、大規模な対訳用例を作成し、対訳用例の中から表層的な表現が類似している文を検索し、これを使用して言語変換を行います。文全体で一致する例は慣用的な表現等を除いて極めて少ないことから、部分文毎の言語変換を組み合わせる手法やシソーラス等を用いて意味的に近い例を検索して使用する方法が一般に使用されます。現在、部分文として用いる表層的なパターンの切り出し、代表的な用例の選択などは全面的に人手に頼っており、表層的なパターンの選択やパターン毎の用例の選択は、タスクに依存します。このため、コーパスさえ存在すれば基本的に機械学習の可能な音声認識と比較して、タスク移植は一層困難となります。
 音声翻訳技術の広範囲な利用、すなわち種々の分野で利用可能な音声翻訳システムの効率的な開発には、タスク移植性の解決は避けて通れない技術課題です。このため、上記の技術課題を克服して対話音声翻訳の利用分野の効率的な拡張を可能とする技術を研究開発します。これが一番目の研究目標です。
 なお、対話音声翻訳の利用分野が広げるには、様々な使用環境や使用者の発話様式の違いに対応する必要があります。また、対応する話題の広がりについても、人によって捉え方が異なってきます。これらを全て満足する技術は、現在の技術の枠組みでは対応できないし、全て考慮することは効率的でもありません。そのため、日常の通常の使用環境で利用可能な技術を研究開発すると共に、想定外の入力をある程度検出できる技術等、音声翻訳システムの具体的な使用形態を想定した研究開発も必要となります。

2.独話の音声翻訳
 従来の音声翻訳技術の研究対象は、対話の音声翻訳です。これは、対話の音声翻訳が利用分野として極めて重要であると共に、対話が状況に応じた省略や言い直しや言いよどみ等の非文を含み、テキストを対象とした自然言語処理の研究分野と対極の位置にあるという性質を有しているためです。しかし、対話の音声翻訳では、システムの両側に話し手が存在するために、対話の理解状況に応じた質問や応答が期待できます。例えば、音声認識誤り等により発話の一部に不明な部分が生じた場合、その部分を省略して翻訳し、必要な場合は話し手が質問や応答をするといったことも可能です。さらに、文節発声のような場合でも、前後のつながりを考慮せずに文節毎に翻訳しても、全体としての発話内容は多くの場合理解可能です。
 これに対し、講演等の独話では以上述べたような技術の多くが利用できないと考えられます。さらに、一般に日常対話に比較して文長が長くなり、音声認識・言語翻訳共に技術的な困難さが増加すると考えられます。さらに、対話の音声翻訳のように、一発話が終了する毎に音声翻訳するという手法は採用できず、同時通訳のように発話に追随して音声翻訳を実行することも必要となります。
 但し、同時通訳といっても、例えば英語・日本語間でプロの同時通訳者が行うような、文型の違いを吸収するための倒置の多用といった技法を使用する必要性はないのではないかと考えています。通訳者と異なり、ほぼ無限の短期記憶メモリを利用できる音声翻訳システムでは、一定の遅れを持って倒置等が少ない形での翻訳結果を出力する形態も想定できるからです。独話の音声翻訳は、今まで誰も本格的に研究を実施したことのない極めてチャレンジングな研究テーマであり、実現の暁には従来とはかなり違った形での通訳技術として利用できると考えています。
 以下、これらの研究目標を達成するための研究内容を簡単に説明します。
(1)適応型音声認識技術
 現在の音声認識技術は入力機器、発話環境や発話スタイルの違いによって、性能が大きく異なります。例えば、接話型マイクロフォンと異なり、据え置き型のマイクロフォンでは直接入力される音声以外に周辺の壁等で反射された音声や環境騒音をひろうことにより、認識性能が劣化します。音声翻訳システムの将来の使用形態としてはPDAのような可搬型の装置が想定できますが、そのような装置ではマイクロフォンを内蔵すると考えられますので、据え置き型のマイクロフォンでも高性能な認識性能を示す技術を開発する必要があります。また、図1に示すように、対話の音声翻訳では少なくとも二名の話者が想定されることから、二人の音声を区別する技術も必要となります。このような要求に応えるために、複数のマイクロフォンを使用して、両者の音声を区別する技術、また音声以外に画像入力を利用して音声認識の高性能化を目指すセンサー統合の技術についても研究を進めます。
 なお、日本語、英語、中国語といった個別の言語を認識するのに、現在は別の音響モデルを学習していますが、これらを統合して一つの音響モデルで認識を行えるような技術の研究を計画しています。
(2)音声言語解析・統合技術
 現在の音声認識では、大規模な言語データベースから後続単語の接続確率を前もって計算しておき、これを用いて次単語を予測するNグラムという方法が主に使用されています。Nが2の場合、即ち前の一つの単語のみで次の単語を予測する手法はバイグラム、Nが3の場合はトライグラムと呼ばれます。Nが大きいほど予測性能は向上するのですが、利用できるデータ量の関係からNの数はせいぜい3留まりです。このため、それ以上にわたる単語間の依存関係をモデル化できないため、人間にとっては想像もつかないような単語列を、認識結果として出力し、音声認識技術の信頼性を大きく損なうことがあります。これは、対象の話題に関する知識や言語的な知識を十分に利用していないためであり、より強力なモデルを構築する必要があります。
 現在の音声翻訳技術では、図2に示すように、一発話の終了を待って得られた認識結果が、次の翻訳部に渡されるといった直列型の処理が行われます。これは、対話のように一発話が比較的短く、交互に発話がなされる場合には、問題とはなりません。しかし、独話のように一連の話しが長く続く場合には、大きな遅延を生み問題となります。そこで、発話が終了しなくても、途中で逐次認識結果を出力する技術が必要となります。逆に、文節発声のような場合には、発話間の関係を考慮して認識を行うことも必要となります。このような発話の言語としての解析を行い、翻訳部と統合した処理を可能とする技術を研究します。
(3) 知識利用型変換技術
 音声翻訳では対訳用例を利用する方法が使用されていますが、文そのものを対訳用例として使用するのでは、余りにも組み合わせ数が大きく、幾ら文例を収集しても十分な量を収集することは不可能です。このため、部分文やそれを抽象化したパターンが利用されますが、大規模対訳データベースからどのようなパターンを抽出するか、またパターン毎に具体的にどの用例を記憶しておくかの選択は人手に頼っています。どのようなパターンを選択するか、また各パターン毎に具体的な用例としてどれを選択すれば良いかは、対象の話題に依存する上に、その選択は職人芸的な技能となっています。そのため、対象の話題が異なる度に、人手で作業をする必要があり、翻訳システムの移植を極めて困難なものとしています。
 このため、パターンや用例の選択を、大規模データベースの形態素解析結果等を利用して、その頻度や組み合わせ頻度等の情報を求め、それを利用して効率的にパターンや用例の選択を決定する技術や、確率モデルを基礎として自動学習する手法等について研究を行います。大規模データベースの収集に際しての主要な課題は、対象のタスクに対して、どれ位の量の文例を収集すれば良いのかという課題と、どのように収集すれば良いのかという課題です。これは極めて難しい課題ですが、大規模データベースの収集とそれを使用した用例翻訳の研究の過程で、その課題に対する解答を模索していきたいと考えています。
 パターンの選択は、翻訳の対象となる二つの言語間の構造的な近さに依存します。大きく異なる構造を有する言語間(例えば、日本語と英語、日本語と中国語)の翻訳に必要なパターンと、比較的近い構造を有する言語間(例えば、日本語と韓国語)の翻訳に必要なパターンは、大きく異なると考えられます。また、翻訳自体も、前者は後者に比べて多様な技術が必要となります。このため、対話の翻訳では、主として、大きく構造の異なる言語対を対象に、日英相互の翻訳、日中相互の翻訳の実現を目指します。
(4) 適応型表現生成技術
 独話の音声翻訳を発話に追随して実行するには、発話を適切な単位に分割して翻訳する必要があります。一般に、分割を短く設定できれば、その範囲内での発話の複雑さは減少し、その結果音声認識や言語翻訳の性能は向上すると想定できます。しかし、余り短く分割した場合、前後の関係が欠落し、翻訳結果が分かりづらいものとなります。このように翻訳結果の分かり易さの観点から分割に最適な単位を求める研究がまず必要です。プロの同時通訳者がどのような単位で翻訳を開始するかが一つの解答になると考え、日本語の講演を英語に同時通訳した音声データベースを作成する予定です。しかし、音声翻訳システムでは原理的に無限の短期記憶を利用できるので、必ずしもプロの同時通訳者と同じ様式で翻訳をする必要はないとも考えています。
 さらに、発話に追随して音声出力をするには、時間的な制限から一定の速度で音声出力をすることは不可能な場合があります。そのため、重要でない部分は省略するといった要約の技術も必要となります。また、重要でないフレーズは重要なフレーズに比較して、早い口調の音声合成をすることも必要です。現在の音声合成技術は、話題が限定されたものに対しては、ATRをその起源の一つとするコーパスベース音声合成によりかなり高品質な音声が合成可能となっています。しかし、それは一定の発話速度で得られる性能であり、状況に応じて発話速度等の韻律を制御する研究は、従来の音声合成の利用形態からはほとんど行われておりません。発話内容の重要性に応じて発話速度を含めた韻律を適切に制御することは、従来の音声合成とは異なり、生き生きとした魅力ある音質の音声を合成するのに必要な技術です。これは、音声翻訳のように、出力する音声の構文構造等の構造が分かっている分野で、まず活きてくる技術だと考えています。
 独話の音声翻訳は、従来全く研究がなされたことのない未踏の分野です。そのため、従来経験のある対話の音声翻訳と異なり、対象を極めて限定した日本語の講演等を英語に翻訳する技術について研究を進める予定です。

3.研究遂行体制
 従来、音声翻訳技術の研究開発は、音声認識、言語翻訳、音声合成の各要素技術の研究を実施し、その成果を待って音声言語統合処理の研究を進めるという形態を採用してきました。それは、アナログ情報の信号処理を基礎とする音声認識、音声合成技術と、テキスト入力を前提としてシンボル操作を基盤とする自然言語処理の研究アプローチが大きく異なり、独立に研究を進めた方が共同で研究を進めるより効率的であったからです。
 しかし、7年間にわたる音声翻訳技術の基礎研究の結果、話し言葉という研究対象に対する考え方や研究アプローチについて、音声処理研究者と自然言語処理研究者との間で共通の認識が醸成されてきています。このため、ATR音声言語通信研究所の研究体制は、従来のように各要素技術の研究分野を独立に研究するのではなく、図3に示すように、各々の研究室が研究内容に一定のオーバーラップを敢えて生じさせ、情報の共有化を図る体制を採用しました。
 ATR音声言語通信研究所の研究期間は基礎研究としては短い約5年です。しかし、ATR音声翻訳通信研究所の研究員の半数程度は、ATR音声言語通信研究所に移籍するため、そこで培ってきた技術が利用できます。言語がコミュニケーションのツールであると同様に、音声翻訳技術もコミュニケーションの道具であることから、使用者の習熟度等により、その性能や効果は違ってきます。そのため、どのような使用形態を想定するかによって達成度の評価は異なると考えられていますが、夢といわれた翻訳電話も、技術としては一部現実になりそうなところに来ていると感じています。