音声言語統合処理技術の研究
～話し言葉を対象とした音声翻訳システムの構築～

1．音声翻訳実験システムの構築
　高度音声翻訳統合実験システムの構築を目指し、音声認識、言語翻訳、音声合成の各要素技術および後述の発話分割技術、韻律情報抽出技術、発話状況管理技術を組み込んだ日英英日双方向の統合システムを構築した。音声認識、言語翻訳、音声合成の各サブシステムおよび画面表示サブシステム、通信制御サブシステムと全体を制御するメイン・コントローラとの間にインタフェースを調整するサテライト・コントローラを介して接続する形態とし、各サブシステムの更改を容易にするとともに、多様な形態でのシステム構築を可能にした。日英・英日の各システムはパソコン1台で動作し、ほぼ実時間で処理を行なうことができる。
　予備的な対話実験の結果として、音声翻訳システムを介した対話システムにおいて対話をスムーズに進めるためには、応答が速いこと、発話し直せること、相手の発話に割り込みができることが重要であるという知見を得ており、システム構築にあたっては、これらの機能を考慮した制御方式を実現した。

2．発話単位から言語処理単位への変換技術
　自然な会話では、文ごとに区切らず、「ちょっと高いですね。もっと安い部屋はないですか」のように2つ以上の文をつないで発話することがあり、その場合でも正しく1文ごとに翻訳する必要がある。そのような境界位置には、ある長さ以上のポーズが挿入されることもあるが、そうでないこともある。そこで、境界位置の前2単語と後1単語の合計3単語の範囲の品詞・活用形・活用型を利用して発話を分割する手法を提案した。統計モデルとヒューリスティックスを組み合わせた方式を統合システムに組み込むことにより、その有効性を確認した。

3．韻律抽出技術
　自然な会話では、「部屋空いてます？」のように文末を上げることによって疑問文を表すことがある。音の高さの変化（韻律）を検出して疑問文かどうかを判断することができるので、その情報を言語翻訳に渡すことにより"Rooms are available."ではなく“Are rooms available?”のような翻訳を実現することができる。

4．発話状況管理技術
　対話が行なわれている状況を管理することにより、そこで得られる情報を音声認識や言語翻訳の処理に利用する研究も進めた。
　例えば、値段を尋ねる発話の後にはそれに答える発話が続く確率が高いということなど、前発話と現発話の内容語や文末表現の関係を利用して、文脈的に整合性の高い音声認識候補を優先することにより音声認識結果を再順序付けする手法を考案した。
　また、同じ発話でも発話意図などの状況に応じて訳し分ける必要があり、例えば、「はい」という肯定表現を“yes”（受理）としたり“uh”（相槌）とする必要がある。このような発話意図を自動的に認識する手法として、発話意図データベースを作成し、これを使用してあらかじめ設定した発話意図の生起確率を学習する手法を開発した。

5．音声翻訳システムの評価
　このようにして構築した日英英日双方向の音声翻訳システムの評価を行なった。評価の観点は、音声翻訳技術は異なる言語間のコミュニケーションをどの程度支援することができるか、個々の発話はどの程度適切に翻訳できるか、の2点である。すでに「成果概要」で述べた通り、特定の話題で、確認や再発声を含む協調的な対話では利用可能であることを示した。ホテル予約タスクに関する評価結果では、利用者の満足度は5段階評価で3.8であり、少し不満が残るが十分タスクを達成できるということ、様々なTOEICスコアで表される英語能力を持つ人間の翻訳結果と比較して、スコアが500点台の人間の能力に相当するということが判明した。
　今後の課題としては、発話状況を利用した音声認識、言語翻訳、音声合成のより高度な統合技術の研究、種々の話題に対応する多言語双方向音声翻訳技術の研究、の2点を挙げることができる。

音声言語統合処理技術の研究 ～話し言葉を対象とした音声翻訳システムの構築～

音声言語統合処理技術の研究
～話し言葉を対象とした音声翻訳システムの構築～