●ATRの音声翻訳技術

コーパスに基づくマルチエンジン
機械翻訳技術


佐々木 裕、隅田 英一郎、今村 賢治

音声言語コミュニケーション研究所
自然言語処理研究室
佐々木 裕、隅田 英一郎、今村 賢治



1.はじめに
 音声翻訳における機械翻訳の役割は、音声認識により出力される単語列を目的の言語に翻訳し、単語列として音声合成に渡すことです。ここで、あえて「文」を目的の言語に翻訳すると書かないで、単語列を翻訳すると表現している理由は、対象が新聞記事のように明確な文の単位になっていないため、1発話という単位で翻訳の対象を考える必要があるためです。
 この点も含めて、音声翻訳における機械翻訳技術が通常のテキスト翻訳と異なる点は以下の通りです。

●入力が話し言葉であるため、口語的な表現が頻繁に使われます。
●翻訳の単位が文頭〜句点(。)といった単純な文ではなく、発話が翻訳の単位になります。
●音声認識結果であるため、大文字・小文字の区別がなく、句読点やかぎ括弧等の記号が含まれていません。
●英字や数字は、読み方に合わせてスペルアウトされています(たとえば、ATRはエーティーアールと表現されます)。
●音声認識誤りや発話者の言い間違いを含めて、文法的に間違っている文も翻訳する必要があります。

 特に、最後の項目は、機械翻訳システムの設計に大きな影響を与えます。入力として、文法的に正しい文を想定して、翻訳規則を人手で作成することは可能ですが、どのような文法的な誤りが含まれるかわからない状態で、様々な場合を想定しながら、網羅的な翻訳規則を人手で作成することは非常に困難です。
 そこで、旅行先での会話を対象にした対話表現とその翻訳例を大量に収集し、これに基づいて、誤りに強い機械翻訳システムを自動作成するアプローチを採用しました。このような大量の対訳文集は、対訳コーパス(音声言語データベース)と呼ばれます。
 ATRでは、旅行会話に関して日英約100万文対、日中約50万文の対訳コーパスの構築しました。

2.マルチエンジン機械翻訳技術
 翻訳の対象である旅行会話文とは、海外旅行中に使われる比較的短い文のことです。たとえば、「窓を開けてもいいですか」という内容を述べている英語としては、以下のようなものが考えられます。

1.may i open the window
2.ok if i open the window
3.can i open the window
4.could we crack the window
5.is it okay if i open the window
6.would you mind if i opened the window
7.is it okay to open the window
8.do you mind if i open the window
9.would it be all right to open the window
10.i'd like to open the window

 これらの文は、音声認識結果を表現していますので、記号や大文字・小文字の区別がなくなっています。さらに、実際には、音声認識誤りによる、単語の追加、削除、置換が発生します。
 コーパスベース・アプローチでは、人間が翻訳規則を入力するのではなく、コーパスに含まれる大量の対訳文を分析し、翻訳方法を計算機が自動的に学習するというアプローチを採用しています。
ATR の機械翻訳システムの特徴は、セレクタ[1]と呼ばれる選択器の下に複数の翻訳エンジンを配置したマルチエンジン構成をとっている点にあります(図1)。翻訳エンジンには、統計翻訳エンジンSAT[2]と用例翻訳エンジンHPATR[3]の2種類の方式の異なるエンジンが採用されています。
以下、それぞれの手法を紹介します。

2.1 用例翻訳エンジン
 用例翻訳エンジンHPATRは、原文および訳文の構文を考慮しながら、精度の高い置き換えを繰り返し行なうことにより翻訳を実現します。置き換えに使えそうな構文の部品は、対訳文例集からあらかじめ自動的に収集しておきます。HPATRでは、生成される文の品質は高いのですが、文法による制約が強いため、翻訳結果を生成できないケースが存在します。

2.2 統計翻訳エンジン
 統計翻訳エンジンSAT(Statistical ATR Translator)は、対訳文の間の統計的な単語列の対応・変換関係(モデル)をあらかじめ分析しておき、その統計情報に基づいて入力に対する翻訳結果を生成します。
 このため、入力に対してロバスト(頑健)で、ほとんどの場合、なんらかの翻訳結果を出力しますが、原文にない不要な語を付加してしまったり、局所的に原文と全く異なる訳語を出してしまうことがあります。

2.3 セレクタ
 選択には統計翻訳のモデルを利用します。ここで、統計翻訳のモデルを使うのであれば、統計翻訳の結果が常に選ばれるのではないかという疑問が沸きますが、翻訳文の生成(デコード)は、メモリと処理時間の制約によって、統計的翻訳モデルによって規定された膨大な探索空間の一部しか探索できていないため、準最適解を求めているに過ぎません。このため、全く異なるアプローチで翻訳文を作成した用例翻訳エンジンの出力が選択される場合が存在するのです。
 このようにして特性の異なる翻訳エンジンによる翻訳結果の中から一番尤もらしい結果を選択することにより、全体の翻訳精度を単体の翻訳エンジンよりも平均5%〜15%向上させることができることがわかっています。

3.おわりに
 マルチエンジン翻訳方式は、高品質の音声翻訳の実現に適したアプローチです。
 今後の課題としては、各翻訳エンジンの個々の性能を向上させるとともに、多様な翻訳エンジンの出力から、品質の良い出力をよりうまく選択する方法を見つけることがあげられます。各翻訳エンジンの性能向上のためには、さらに深い統語解析や意味解析の情報を活用する必要があり、そのためには大規模コーパスやオントロジといった言語資源を充実させることが急務となっています。

参考文献