音声翻訳通信の実現に向けた話し言葉翻訳の研究
〜変換主導翻訳の実現〜



1.変換主導翻訳(TDMT)
 実際の会話とその同時通訳結果を収集し、その対訳を模倣して翻訳することにより、文法的に間違った表現であっても対応可能な翻訳方法を実現した。対訳例の特徴的な表現を一般化する事前学習を行ない、システムが翻訳可能な表現の被覆性を高めている。例えば、「中国の河」は「XのY」というパターンに一般化する。一般化による元の意味の喪失を防ぐため、このパターンに元の表現「中国の河」と対訳「river in China」も一緒に登録する。翻訳システムに文が入力されるとその表現に当てはまるパターンを検索し、そのパターンに登録されている表現のうち入力された表現と意味的に最も近い表現を選択し、選択された表現をまねて訳文を作成する。
 「京都に到着する時間を教えてください」という文が入力された場合、次のように訳文を生成する。まず「京都に到着する」のパターン「XにY」に着目する。このパターンには例えば「大阪に着く」「友人に会う」「ひどい目に遇う」などの表現が登録されている。シソーラスにより「京都に到着する」に意味的に近いものとして「大阪に着く」を選択する。その対訳「arrive in Osaka」を模倣して「arrive in Kyoto」を生成する。以下、「到着する時間」を「the time when」、「時間を教えて」を「tell (me) the time」、「教えてください」を「please tell me」に、順に生成する。これらを文法規則に従って組み合わせ、最終的に「Please tell (me) the time when (I) arrive in Kyoto」と翻訳する。
 TDMTでは、翻訳例に基づくパターンの追加により、パターンの相互関係の調整が必要になる場合もあるが、比較的容易にシステムの性能が向上する。

2.省略格要素補完
 上記の翻訳において、「Please tell (me) the time when (I) arrive in Kyoto」の括弧内は、入力文「京都に到着する時間を教えてください」には表現されていない。日本語ではこれらを言わないのが普通であるが、英語では必須である。
 翻訳例の日英表現を対比すれば、どのような補完が必要であるかがわかる。そこで、機械学習の手法を応用して、対訳文から欠落している要素を推定するための決定木を作成し、それを使って必要な要素を推定する方法を実現した。評価実験によれば、話し手、欠落要素のある動詞、尊敬などの待遇表現などを手がかりとすると、未知の文に対して、文の主語では80%以上を正しく補完できる。
 この技術を進め、「そのホテル」が何を指すのかを推定する文脈処理の方法も検討中である。

3.部分翻訳
 現在の音声認識技術ではすべての会話を正しく聞き取ることは難しいため、認識結果には誤りが含まれることがある。「ホテルを予約したいんだけど」と発話され、正しく認識されれば、「I'd like to reserve the hotel」と翻訳することができる。しかし「ホテル」を「蛍(ホタル)」と認識を誤り、それをそのまま訳すと、翻訳処理は正しくても意味不明となる。ここで、『旅行会話』の場面という前提があれば、「蛍」が不自然であると判定できるので、不自然な部分を外し「予約したいんだけど」を翻訳し、「I'd like to reserve ...」を生成する。会話であれば聞き返しなどの対応が取れるため、この部分翻訳により会話の継続が可能となる。
 また、不自然な表現の箇所に対して、事前に収集した対話例を利用して本来どのような発話が行なわれるか推測し、自動的に誤りを修復する方法についても検討中である。

4.多言語化
 日英、英日、日韓、韓日、日独、日中の言語間の翻訳にTDMTを適用し、有効性を確認した。翻訳対象は旅行会話に限定されるが、主要な情報が翻訳される割合は、日韓、韓日では90%以上、日英、英日、日独でも85%以上を達成した。今後は、翻訳例の蓄積とともに、パターン作成の事前学習の効率化や訳質の向上を進めていく必要がある。


Copyright(c)2002(株)国際電気通信基礎技術研究所