音声翻訳システム(ATR-MATRIX)の実力
- ATR-MATRIXはTOEIC何点!? -



1.はじめに
 「発声した内容をシステムが自動的に他の言語に翻訳してくれたら」どんなに便利でしょうか。ATRは、その夢を実現すべく音声翻訳システム(ATR-MATRIX)の研究開発を行っています。では、「現段階ではどの程度の到達レベルでしょうか?」。それに対する取り組みを紹介します。システムの総合的な評価をするために対話実験や人間能力との比較を行ってきました。対話実験では、実際の基本的なホテル予約対話を想定し、システムを介した対話実験を通じてシステムの有効性を検証してきました。ここでは、システムと人間能力との比較による音声翻訳能力の数量化について紹介します。

2.人間能力との比較方法
 これから説明する評価方法は、譬えて言うなら旅行に同伴する英語の分かる日本人ネイティブとATR-MATRIXの音声翻訳能力比べです。システムと人間能力との比較方法を図1に示します。日本語ネイティブの被験者に日本語の問題文をテープで聞かせ、日本語に対する英語を解答用紙に書いてもらいます。人間の英語能力評価は受験者が多く、能力尺度が数値化されているTOEICスコアを使いました。問題は、問題文とポーズを合わせて30秒のセットを2回聞かせています。アンケート調査により解答時間には余裕のあることを確認しています。テスト問題は330文からなるATRで収集整理されているSLTA1テストセットとよばれる旅行対話からの出題です。被験者から回収された答案を書き起こし、システムまたは人間の翻訳結果、日本語の問題文の順に評価シートを作成しました。評価シートは英語ネイティブの評価者に採点してもらいました。評価者には人間、システムの別 が解らないように乱数で翻訳結果の対の順番を適当に入れ替えています。比較基準は従来からの翻訳評価で使っている翻訳のできをABCDの4つのランクで表すランク評価が一段目の評価で、同一ランクならば自然性を考慮して二段目の評価としています。2段目の評価でも優劣がつかないものは同等として扱っています。

3.評価結果
 システムと人間能力との比較結果を図2に示します。被験者の人数はTOEICスコアが300点から900点まで、100点台毎に5名で計30名です。被験者は100点台毎の人数制限の他は、TOEICスコアを指定することなく集めていますが、895点の2名の被験者以外は全て異なるスコアとなっています。図2の横軸は被験者のTOEICスコアであり、各TOEICスコアに対応する縦の棒は被験者1名に対する評価結果です。ただし、895点の受験者は本来は重なりますが、図2では隣接して表しています。棒は3つの領域からなっており、全テストセットの問題文330文に対して縦軸の0から、システムが人間を上回る、システムと人間が同等、人間がシステムを上回ると判断された文の数を示しています。評価は、日本語のできる英語ネイティブ1人の評価結果です。図2によるとTOEICスコア300点台あるいは400点台の人間の翻訳結果とシステムの翻訳結果を比較すると、システムが人間に勝っています。一方、TOEICスコア800点台の人間の翻訳結果とシステムの翻訳結果を比較すると、人間の音声翻訳能力がシステムに比べて勝っており、両者の能力が均衡する点は500点台となっています。次に、能力の均衡点を正確に調べるために誤差が最小となる直線を求める回帰分析を行いました。
 回帰分析をするにあたり、両者の能力が同等とみなせる文の数を二分し、それぞれを人間優位の文の数、システム優位の文の数に加える修正をしています。その結果が図2の折れ線です。図2の直線は回帰直線です。回帰直線が全テストセットの文数の半分(330/2=165文)とクロスする点が人間とシステムとの能力均衡点です。図2では、TOEICスコア548.0点が能力均衡点となっています。つまり、ATR-MATRIXの能力はTOEICスコア548点の日本語ネイティブの音声翻訳能力に相当していると言えます。

4.ATR-MATRIX性能の特徴
 テストセットの各文を文毎の平均単語分岐数で分類し、機械と人間がそれぞれ優位と判断された文の比をとります。この比を優勢度と呼ぶことにします。平均単語分岐数とは、単語から次の単語に移る時に、平均して何個の単語が現れる可能性があるかを表しています。次に現れる単語が多ければ、予想がつかないわけですから難しい文ということになります。図3では100点刻みのTOEICスコアの被験者の判定結果を平均化しています。優勢度が1を越えればシステムの能力が上回り、1を下回れば人間の能力が上回り、1の場合はシステムと人間の能力は同等です。図3から、平均単語分岐数の低いところではシステムの能力が上回り、平均単語分岐数の高いところでは人間の能力が上回っていることが分かります。複雑な文では人間の能力が勝るものの、簡単な文ではシステムが勝るといえる。「簡単な文しかできないのか」と思われるかも知れませんが、旅行対話はそもそも簡単な文が多く使われます。ATRのバイリンガル旅行対話データベースの平均単語分岐数の累積分布を図3に重ねて示しています。平均単語分岐数が16以下の文の割合は全会話の62.5%と頻度が高く、頻度の高い平均単語分岐数の低い文に対してATR-MATRIXは高い性能を発揮しているのです。

5.まとめ
 音声翻訳システム(ATR-MATRIX)と人間の音声翻訳能力とを比較し、ATR-MATRIXの音声翻訳能力はTOEIC能力が550点附近のネイティブ日本人と同じ能力を発揮することを示しました。
 TOEIC試験の公式ウェブサイト(http://www.toeic.or.jp)によると日本の大学生の公開試験の受験者平均は568点と報告されていますので、ATR-MATRIXの音声翻訳能力は旅行対話など利用する領域を限定すれば、大学生とほぼ同等のレベルに到達したことになります。英語自慢の方ならば「その程度か」と思われるかもしれませんが、ATR-MATRIXは英語以外に中国語、韓国語、そしてドイツ語にも対応しています。「大学生レベルの中国語が話せるシステムならいかがでしょうか。」
 今後は、英語から日本語方向の能力評価や、システムの改善に役立てながら、さらに性能の高い音声翻訳システムの研究開発を進めていきます。



Copyright(c)2002(株)国際電気通信基礎技術研究所