独話の音声翻訳システムを目指して
－講演同時通訳データの作成と分析－

1．はじめに
　衛星放送やケーブルテレビのサービスが広がり、海外のニュース番組が身近なものになっています。このような状況で音声翻訳の利用分野を見直すと、ニュースや講演などの独話の音声翻訳に対する需要も見逃せません。
　現在の音声翻訳の技術は、主に対話を対象として研究されています。対話の音声翻訳では、翻訳の対象となる一文が比較的短く、発話毎に人が解釈していくため、一文毎の翻訳で文と文のつながりが多少おかしくなっても対話を続け、目的を達成することができます。これに対して、上記の独話では、一文が比較的長いため現状の翻訳システムで正しく翻訳することは困難です。また、途中で聞き返したりすることができないので、文と文のつながりを考慮しなければ理解できない翻訳になるおそれがあります。
　そこで、独話の音声翻訳システムを構築するための第一歩として、同時通訳者の翻訳を調べ、そこから得られる知見を活かした処理技術の検討を行っています。実際には、同時通訳者が日本語の講演を英語へ同時通訳したデータを作成し、語彙数、訳出文の長さなどの基礎的な調査と、同時通訳者が翻訳を始めるタイミングを調べています。このデータから同時通訳者がどのような単位で訳出を決めているかを分析し、日本語の独話を英語へ音声翻訳するために必要な技術の検討を行っています。

2．講演の同時通訳データ
　現在、NHKで放送されている番組「あすを読む」を収録し分析を行っています。10分間の解説番組で、解説者が一つの時事問題について解説しており、解説者は原稿を棒読みしているとは限りません。
　独話の特徴を見るために、文の長さや単語数について、旅行会話との比較を表1に示します。また、解説者の発話と同時通訳者の発話についての比較を表2に示します。
　以上のことから、独話では一文が長くなりがちであることが分かります。同時通訳者は、ほぼ同じ文数で翻訳していますが、総形態素数がかなり少なく、不要な部分は翻訳していないと考えられます。

3．同時通訳のタイミング
　同時通訳者の翻訳は、元の文数とほぼ同じであるということが分かりましたが、同じ文数であるなら、一文毎にその文の重要な所だけ訳しているのでしょうか。同時通訳者が、一呼吸おいてから話し始めるタイミングについて調べてみました。その結果、同時通訳者が一呼吸おいて話し始めるタイミングに、解説者が述部を発話している場合が約1/3、解説者も一呼吸おいている場合も約1/3であることが分かりました。解説者が述部を発話したり一呼吸おくのは、そこであるまとまった内容を発話し終えた印と考えられます。つまり同時通訳者は、長い一文ではなく、解説者の述部の発話や一呼吸おくといった印から判断できるまとまりを単位として翻訳しているといえます。特に述部は節の切れ目であり、機械による翻訳処理対象として述部までの発話は、扱いやすいといえます。

4．同時通訳に必要な処理
　これまでの分析/考察から、同時通訳者は意味としてまとまった内容を持つ “節”を単位として翻訳しているようです。同時通訳者は、“聞く”、“翻訳する”、“話す”の作業をしており、記憶の負荷などの制約のなかで処理しています。
　音声翻訳システムでは、どうなるのでしょうか。記憶容量では、人に比べ圧倒的な量を持つことができ、音声認識（聞く）、言語翻訳（翻訳する）、音声合成（話す）の処理も分散させることができます。同時通訳者の抱えている制約からかなり解放されますが、解説者の発話にあまり遅れることなく訳出しなければならないという時間の制約は抱えたままです。当然ですが、内容の正確さ、理解しやすさも重要な要因です。つまり、同時通訳を実現する音声翻訳システムでは、次の三点が重要になります。
　A）追従性
　B）正確性
　C）理解容易性
　これらを考慮した音声翻訳システムの一実現法として翻訳処理では、以下のような手順を考えることができます。
　1. 節への分割処理
　2. 節の整形
　3. 節ごとの翻訳
　4. 文の関係を考慮した整形
　ここで、2や3の分割、整形について考えてみましょう。以下のような発話は構造が複雑で、音声翻訳システムでの正確な翻訳は非常に困難です。

“最高裁判所は今日検察側が死刑を求めて/上告をしておりました/ 強盗殺人事件について二審と同じように無期懲役の判決を言い渡しております。”

　そこで、単純な節の切れ目である“/”での分割を考えると、最初の節は、“最高裁判所”と“検察側”のどちらが“求めて”いるのか分からなくなっています。二番目の節では、誰が上告したのか分かりません。また、三番目の節では、“強盗殺人事件”は二番目の節との関係が切れてしまい、文全体の意味を正しく伝えることができません。そこで、構文構造や節の種類、単語の情報を利用することで、以下のような分割が考えられます。

“検察側が死刑を求めて上告をしておりました強盗殺人事件について/”
“最高裁判所は今日二審と同じように無期懲役の判決を言い渡しております”

　この分割では、一番目の文が“件”にかかる節で、“the murder case ...”というような訳を3で行い、4で、“について”という語句を利用して“Conserning the murder case”のような整形ができれば、追従性、正確性、理解容易性を保ちながら翻訳できます。

5．むすび
　独話の音声翻訳システムを構築するために、同時通訳者によるデータを収集し分析を行っています。しかし、独話の音声翻訳システムに、この分析から得られる知見全てを取り込む必要はありません。4.でも述べましたが、人に課せられている制約と音声翻訳システムに課せられている制約は、記憶容量や処理の配分により大きく異なるからです。
　現在、研究対象となるデータが徐々に集りつつある状況です。独話の音声翻訳システムを構築するには、少なくとも以下のような課題について研究する必要があります。
　・翻訳文の生成処理
　　生成する文の長さ、文間の関係を考慮した訳出、訳出するタイミング　
　・翻訳すべき内容の選択処理（要約）
　　時間の制約や表現方法により、翻訳すると理解を妨げるような冗長な情報の選択
　・翻訳処理単位の評価
　　追従性、正確性、理解容易性を保つ適切な翻訳処理単位（今回の分析では、節が有効な処理単位と考えられる）、分割により欠落した主語の補完や後続する節の要素の判断
　これらの課題は、音声翻訳の言語処理に関する課題です。今後は、これらの課題とともに、音声認識、音声合成に関する課題についても検討し、独話の音声翻訳システムに要求される基礎技術について研究を進めていくつもりです。

独話の音声翻訳システムを目指して －講演同時通訳データの作成と分析－

参考文献

独話の音声翻訳システムを目指して
－講演同時通訳データの作成と分析－