人の声を十分に聞きとれなくても翻訳できますか?
−音声認識の正解部分を特定しながら部分的に翻訳する−
1.信じるものは救われない?
ATR音声翻訳研究所で取り組んでいる音声翻訳システムは、言語が違う異国人同士のおしゃべりを可能にするシステムです。ところがおしゃべりというのがなかなか厄介で、発音のしかたも言い回しも人それぞれ十人十色。しかも話し言葉というのは、だいたい文法に則っておらず、聞き取りにくいこともしばしばです。それでも、私たちの間では難なくおしゃべりは進みます。それは不明瞭な言葉、お国なまり、妙な言い回しなども、前後の言葉、その場の状況、相手の表情などから瞬時に判断する機能を我々人間は備えているからです。音声だけなら、おしゃべりの中で一字一句完全に聞きとっていることの方がずっと少ない、といっても過言ではないと思います。
私たちの研究所ではこれまで、日常の自然な会話に対する音声翻訳をめざして、多少不明瞭な発声でも認識できる高性能な音響モデルの提案や、話者特有の癖のある発声を認識するための話者適応技術に取り組み、格段と認識率を向上させてきました。また、話し言葉特有の言い回しを認識して翻訳するために、文法ばかりを拠り所にするのではなく、実際の話し言葉の使い方を学習した知識を用いた処理を提案しています。たとえば、実際の会話の中で、ある単語の次にどのような単語が来る場合が多いか、つまり単語同士の隣接する確率を学習することによって次に発声されそうな単語を予測して認識しています。また、話し言葉特有の言い回しとその対訳文を予め学習しておき、翻訳時には、学習された言い回しと翻訳したい文との類似性を調べながら、覚えている表現を使い回して適切に翻訳します。その結果、多くの話し言葉が正しく翻訳できるようになりました。
しかし、現在の技術でもまだ、全ての発話を完全に間違いなく聞きとることは困難です。そのうえさらに、話し言葉自体に含まれているまぎらわしい表現と、それを聞き間違ったことによる誤りの表現とを見分けて翻訳する技術は、まだ確立されていません。認識誤りを起こした場合でも、それが正しいと信じて懸命に翻訳してしまうため、誤った翻訳結果を平気で出力してしまいます。“信じるものは救われない“ケースです。
2.聞きとれた部分だけ翻訳する
そこで私たちは、認識結果の中に認識できない部分があっても、全文を翻訳しようと頑張らないで、聞きとれた部分だけでも正確に翻訳することによって、翻訳の目的を果たせる場合がかなり増えるのではないかということに着目しました。
例えば、「ホテルを予約したいんだけど」と話しかけられたとします。主語の「私は」が省かれていますし、「したいんだけど」もずいぶんくだけた言い方ですが、前述のように話し言葉の用例を学習させることで「I'd
like to reserve the hotel」と翻訳することが既に可能です。
ところが、主要な単語である「ホテル」が不明瞭で「ホタル」と聞き違えたとします。「ホタルを予約したいんだけど」を翻訳しても何のことだかわかりません。正確に聞きとれた「予約したいんだけど」だけでも翻訳したら、舌たらずですが、場合によっては意志疎通ができ会話を続けることができます。このように正しい部分だけを特定し部分翻訳することによって、従来の誤認識の約半数に対し、おおよその意味が伝わる翻訳結果を出すことができるようになりました。右の図はこのような正しい部分だけを特定して部分翻訳をする音声翻訳方式を表しています。
3.どうやって聞き間違いを判断するか?
では、「ホタル」が認識誤りだということを、どのようにしてシステムが判断できるのでしょうか?これには、予め翻訳のために学習した話し言葉の用例と入力された表現との意味の類似性を“意味的距離”として数値化し、この数値の大小で判断します。
たとえば、用例として「部屋を予約したい」という表現、及びその訳文「I want to reserve the room」が既に学習されているとします。従来の対訳用例を利用した翻訳方式では、この表現を学習したおかげで、「部屋を予約したい」はもちろん「…を予約したい」という表現を全て「I
want to reserve…」と訳すことが可能となります。
我々は、聞き誤りを判断するために、「…」に相当する単語が、あまりにも「部屋」と似ていない場合には、「…」は誤りであると判断することにしました。学習された「部屋」と「ホタル」とを比べると、この2つの単語はあまり似ていないため意味的距離も大きい値を示しました。まず、「…を予約したい」が正しければ「ホタル」は誤りであると判断します。
でも「ホタルを」が正しくて「予約したいんだけど」が間違っているのかもしれません。これを判断する時には今度はそれぞれの語の長さを調べます。前述したように、認識時には単語の隣接確率を用いて次に来る単語を決めています。従って、認識誤りの場合には、単語の隣接関係は自然な場合が多いにもかかわらず、それ以上の多くの単語からなる部分を調べるととたんに不自然になる場合が多くなっていることがわかります。「ホタルを」が2単語でしか構成されていないのに対し、「予約したいんだけど」は多くの単語から構成されていることを考えると、「予約したいんだけど」の方が正しいと判断してよいと思われます。結果として、「ホタル」を除いた残りの文「予約したいんだけど」だけを翻訳処理し、「I'd
like to reserve…」と出力します。
4.部分翻訳から、完全翻訳にむけて
人間ならば、「ホタル」はおかしいから「ホテル」の聞き違いだろうと推測して、「ホタル」を修正してから完全翻訳するでしょう。しかし、システムがその部分を修正して完全翻訳するためには、さらに、正しい部分に関する情報を用いて再認識するという別の技術が必要となります。そのような技術の実現をめざして、今後とも完成度の高い音声翻訳システムの実現に取り組んでいきます。
Copyright(c)2002(株)国際電気通信基礎技術研究所