日英音声言語翻訳実験システム(SL-TRANS)




ATR通信システム研究所 通信ソフトウェア研究室 西園 敏弘



1.はじめに
 自動翻訳電話の実現のためには、話し手の声を認識する音声認識、音声認識のあいまいさを取り除くための音声言語統合処理、会話の内容を理解し、相手の言語へ翻訳する対話翻訳、ならびに出力音声を作り出す音声合成、などの要素技術の開発が必要です[1]
 ATR自動翻訳電話研究所では、自動翻訳電話の実現の可能性を確認するため、これらの要素技術を組合せて実際に動作させる日英音声言語翻訳実験システム(SL-TRANS:Spoken Language Translation System)を作成し、実験を進めています[2]。このシステムは日本語の音声を認識し、それを英語へ翻訳し、英語の音声を出力します。ここでは、SL-TRANSの構成およびそこで用いられている各技術の内容について紹介します。

2.システムの構成
  システムの構成を図1に示します。入力された音声は音声認識により、日本語の単語列に変換されます。これまでの音声認識技術では、大語彙を対象としたものは単語に区切って発声しなければならない、連続音声を対象としたものは文型が簡単で語彙数も限られている、などの制約がありました。SL-TRANSでは、連続でかつ大語彙の音声認識を可能としました。ただし、文節毎に区切って明瞭に発声された音声を対象としています。
 音声の発声においては、母音が無声化したり、子音があいまいになったりする現象が現れるため、例えば「それでは」が「すれば」や「3では」のように認識されたりします。このような誤認識を避けるため、音声認識では1つの文節に対しいくつかの候補を出力します。しかしこれは新たな問題、すなわち多くの候補の中からどのようにして正しい文を選択するか、という問題を引き起こします。SL-TRANSでは、まず文節間の係り受けとよばれる関係を用いて候補を削減し、その後、解析部でさらに文法的、意味的な正しさを厳密にチェックすることにより、正しい文を選択するという方式を実現しています。この音声認識のあいまいさを取り除く処理を音声言語統合処理と呼びます。
 対話文の翻訳では、話された内容とともに、敬語や文末表現で表された話し手の意図やニュアンスを適切に相手言語に変換することが重要になります。このため、SL-TRANSでは、入力文の内容を、客観的な内容を表す命題内容と、意図やニュアンスを表す意図内容に分けて翻訳する「意図伝達翻訳方式」を考案しました。例えば、「会議に申し込みたいのですが」という入力文に対しては、まず命題内容である「話し手が会議に申し込む」が「I apply for the conference」と翻訳され、また「たいのですが」に対応する「希望、緩和された表現」という意図内容が「would like to」と翻訳され、両者を組み合せて「I would like to apply for the conference」という英文が生成されます。
 この英文は英語音声合成器に送られ、英語の音声が出力されます。SL-TRANSでは商用の合成器を用いて英語の音声を出力しています。
 それでは、各コンポーネントについてもう少し詳細に見てみましょう。ただし、音声合成については省略します。

3.音声認識

3.1ベクトル量子化

 入力された音声波形はAD(Analogue-Digital)変換、サンプリング、スペクトル分析が行われ、ベクトル量子化と呼ばれる処理により数十msecごとにVQ(Vector Quantization)コードとよばれるコードの列に変換されます[3]。VQコードとは、音声に現れるスペクトルパターンをいくつかに分類し、各々の代表的なスペクトルパターンに付けた番号です。1人の人の音声はだいたい256個程度のパターンでカバーできることがわかっています。ベクトル量子化では、入力された音声の単位時間毎のスペクトルパターンを求め、それに最も近いVQコードを選んでいきます。
3.2HMM-LR音声認識
 日本語の母音や子音(これらを以下音韻とよびます)はいくつかのVQコードが確率的に接続されたモデルとして表すことができます。このモデルをHMM(Hidden Markov Model)と呼びます。
 この音韻ごとのHMMと日本語の文法を用いて、VQコード列を単語列に変換します。この処理はHMM-LRと呼ばれるプログラム[4]が行ないます。HMM-LRはLR法とよばれる構文解析アルゴリズムとHMMを有機的に組み合せたものであり、効率的で精度のよい処理を行うことができます。システム内には数十個の日本語の音韻に対応したHMM、ならびに日本語の文節の文法が定義されています。単語についても文法の一部として定義し、例えば、「会議」という単語は「k-a-i-ng-i」というように、その音韻の並びを記述しておきます。文法はあらかじめLRテーブルと呼ばれる表に変換され、HMM-LRはこのLRテーブルを参照することにより、つぎに来る音韻を予測しながら処理を進めます。予測された音韻に対応するHMMと入力VQコードを照合し、その存在を調べます。この時、HMMとの照合度合いの確率計算をおこなうことにより、その音韻の存在する確率(以後これを認識スコアと呼びます)を求めます。もし、複数個の音韻が予測された場合は、それら全ての音韻を照合し認識スコアを求めます。このように、つぎつぎと音韻系列を延ばしていきますが、認識スコアが低いものはカットし、高いもののみを残していきます。入力VQコード列の終わりに到達したら、文法的に正しく終了したもので、認識スコアの高いもののうち上位数個を最終的な認識結果として出力します。
 音声認識の処理の流れを図2に示します。

4.音声拳固統合処理

4.1係り受けを用いた文節候補の削減

 HMM-LRからは、文節ごとに複数個の候補が出力されます。これを文節ラティスと呼びますが、このままではまだ候補の数が多すぎるため、文節間の修飾関係の一種である係り受け関係を使って候補数を削減します[5]。このため、まず、文節ラティスのなかから係り受け関係を満足する文を選択し、それ以外のものは音声認識が間違って出力したものと考え、捨てます。
 どのような文節と文節が係り受けの関係にあるかは、係り受け辞書に定義されています。また、この辞書は、ATR自動翻訳電話研究所で収録した対話データベース6]の分析をもとに作られています。
4.2対話文解析部での文の選択
 係り受けにより絞り込まれた文節ラティスは対話翻訳システムの解析部に送られますが、各文節候補はまだ複数個存在し、したがって文の候補もその組合せの数だけあります。対話文解析部では、つぎに述べるように、各候補の中から文法的、意味的に正しいものを選択します。しかし、このような候補がもし2個以上あった場合は、文として余り複雑でないも、たとえばなるべく省略の少ないも、が正解であろうと判断し、それを選択します[7]図3の例では、絞り込まれた文節ラティスにおいて、「すれば」、「されます」という候補も文法的、意味的に間違いではないのですが、「何を」などの情報が省略されていますから、「それでは、失礼します」が選択されることになります。以上の様子を図3に示します。

5.対話翻訳

 日本語の対話文を英語に翻訳する場合には、図4のような点が問題となります[8]。これに対処するため、命題内容と意図内容を分離して翻訳する意図伝達翻訳方式、ならびに単語の使われ方の情報などを利用した省略補完処理を実現しました。
5.1解 析
(1)語彙主導型、単一化手法による対話文の解析

 対話文の意図内容を正しく解析するには、図4に示したような多様な文末表現を正しく解析することが重要です。このため、語彙主導型、単一化手法と呼ばれる原理に基づいた解析方法を実現しました[9]。また日本語対話文を対象とした本格的な文法を構築し、その有効性を確認しました。この方式では個々の単語の文法的な振る舞いや、意味に関する情報は単語毎に定義します。これは従来の文解析方式、すなわち、あらゆる表現を文法規則として定義しておく解析方式に比べ、少数の原則的な規則で複雑な言語現象をカバーすることができ、文法規則の複雑さを避けることができます。また単語に関する文法的、意味的な情報だけでなく、その使われ方(例えば、「頂く」は謙譲表現に用いられる、など)も定義することができるため、より正確な解析が可能となります。
 上記のような文法情報、意味情報、単語の使われ方の情報は、素性構造というデータ表現方法で表されます。解析処理では、単語と単語のつながりを素性構造と素性構造の単一化という処理により次々とまとめて行き、最終的には文に対応する命題内容と意図内容を表す意味素性構造を作り上げます。
(2)省略の補完
 単語の使われ方に関する情報と、意図内容を用いて省略を補完できます[10]。例えば、図4の(2)(1)・では、「お名前」という丁寧の接頭語が使われているので、相手の名前であることがわかります。また、(2)(2)では、意図内容が「約束」と解析されますから、その主語は「話し手」、送る相手は「聞き手」と判断します。
5.2変 換
 変換は、命題内容を対象とし、日本語の意味素性構造を英語の意味素性構造に変換します[11]
日本語の意味素性構造をどのような英語の意味素性構造に変換すべきかは、変換規則として定義しておきます。変換処理は入力された意味素性構造に一致する変換規則を順次適用して行き、全ての素性について書き換えが終わるまで処理を続けます。もし、2個以上の変換規則が同時に適用可能であれば、条件の多い変換規則の方がより具体的な変換規則とみなせますから、こちらを適用します。
5.3生 成
 
生成では、変換処理部から渡された命題内容に関する英語意味素性構造と、解析処理部から送られた意図内容に関する意味素性構造を受け取り、これらを基に英文を生成します。
 まず、意図内容を参照して、構文の決定や適切な助動詞、動詞相当句の選択などを行います。例えば、図5の例では「would like to」の構文にすることを決定します。つぎに決定された構文に従い、命題内容から英文を作ります。最後に、動詞の人称変化などの整形を行い、最終的な英文を作成します。
 対話翻訳全体の処理の流れを図5に示します。

6.実験例

 SL-TRANSを用いた音声言語翻訳の実験例を図6に示します。上段が入力された日本語文、下段が出力された英文です。・は音声認識も、翻訳も正しく処理された例です。・は、音声認識が間違った例です。文末「が」が「か」と誤認識されたため、疑問文と判断されてしまいました。またそれに伴い、省略された主語には「you」が補完されています。・は、省略補完の例です。省略された「I」、「you」が正しく補完されています。またこの例では、意図内容が「約束」と解析されましたので、英文では「will」が挿入されています。

7.おわりに

 我々が実験を進めている日英音声言語翻訳実験システムについて紹介しました。現在、このシステムで取り扱える単語数はまだ400語程度と少ないものですが、今後、1500語くらいまで拡大する予定です。これにより、ある程度分野を(例えば「国際会議の参加登録、問合せ」などに)限定すれば、中級程度の表現までカバーできるものと予想しています。その他にも、音声認識率の向上、文脈処理の導入による翻訳品質の向上など、多くの改良を行う必要があります。また、自動翻訳電話を目指すには英日方向についても同様なシステムを開発する必要があります。今後とも、1歩1歩段階的に研究を積み重ねていく予定です。



参考文献