



中間試験研究報告を終えて
−異なる言語間のグローバルコミュニケーションを目指す音声翻訳通信の研究−
(株)ATR音声翻訳通信研究所 代表取締役社長 山崎 泰弘
1.はじめに
ATR音声翻訳通信研究所は「高度音声翻訳通信技術の基礎研究」をテーマに、1993年から2000年の7年間の研究を進めています。ATR自動翻訳電話研究所では朗読調の話し言葉を対象に自動翻訳電話技術の研究を遂行しました。当研究所の目標は、この先駆的技術レベルをバネにして、普通の会話に現れる会話調の自然な話し言葉を対象として、音声翻訳通信の基礎技術を確立することです。すなわち、連続的に喋られた音声を認識し、相手方の言語に翻訳し、個性豊かな合成音声を生成するための個々の要素技術とそれらを統合化する技術の確立を目指しています。1996年9月、研究期間の中間点である3年半を経過したこの時期に、本試験プロジェクトの最大出資機関である基盤技術研究促進センター(KTC)の規定に基づき、これまでの研究進捗状況を中間試験研究報告としてまとめ提出しました。また、今回からは将来の成果展開の見通しも報告が義務づけられ、中間時評価報告(経済性評価)として提出しました。
報告会では、基礎基盤研究に取組む研究体制および研究の進展は高く評価されました。一方、本試験研究の中枢技術である音声言語処理技術は、21世紀に最も期待される技術分野の一つであり、研究成果が具体的なアプリケーションとして展開されることを想定して研究に取組むことも必要であるとのコメントも寄せられました。以下に報告概要を述べます。
2.試験研究の概要
通常の話し言葉には特有のくだけた発声があり、時には言葉が省略されたり、順序が倒置されたりします。また、話し手と聞き手の常識、習慣に基づき、敢えて言葉で表現されない意図もあります。もう少し詳しく見てみると、図1に示すように認識を難しくする音声現象として、話者によって異なる声色、抑揚・強調のある発音などがあげられます。また、翻訳を難しくする言語現象として、会話の状況に依存した多様な表現、省略、倒置などのくだけた表現などがあります。これらの問題点を解決するために以下の4つのサブテーマを設定し、音声翻訳通信の基礎技術の確立を図っています。
(1)自然発話音声認識技術
話す早さや音の大きさの変動に対して音響モデルや言語モデルを動的に適応して、不特定話者の自然な話し言葉を認識する技術を確立します。
(2)発話韻律処理技術
人間が喋る音声には、文字で表現できる狭義の言語情報以外にアクセントやイントネーションの韻律情報や発話の意図などを暗に示す汎言語情報が含まれています。この狭義の言語情報に汎言語情報を加味し、自然で個性豊かな合成音声の生成技術を確立します。
(3)協調融和翻訳技術
自然な会話には文法の枠にとらわれない多様な表現が現れます。このため規則に基づく翻訳だけでは限界があり、対訳用例を適宜選択し翻訳する手法と規則主導の翻訳とを融合化し、精度の高い翻訳技術を確立します。
(4)音声言語統合処理技術
音声情報と言語情報を互いに利用し、その相乗効果により、自然な会話の中に生ずる曖昧さの解消を図ります。この結果、音声認識、言語翻訳、音声合成の精度を高め、音声翻訳システム全体の性能向上が可能となります。
3.研究活動と成果
7年の研究期間のうち、前期2年間(平成5〜6年度)は自然な会話に現れる音声・言語データの分析と基本アルゴリズムの確立を図りました。この期間の具体的成果として、例えば話し始めてから4〜5秒で話者の特性を把握し、不特定話者音声認識へ適用できる話者クラスタリング方式の提案、対訳用例翻訳の中枢技術である高速類似検索法の考案、などがあげられます。特に高速類似検索法は、10万件の用例言語データベースから最適用例を1ミリ秒で検索できるもので、対訳用例翻訳だけでなく曖昧文献検索など幅広く利用できる技術です。
中期2年間(平成7年〜8年度)は機能モデルの構築と要素技術の検証に研究の重点をおきました。具体的成果としては、大語彙音声を実時間で認識処理が可能となる会話調音声認識技術の提案、日本語から英、韓、仏語への言語翻訳技術の実証、自然で個性豊かな音声合成システムCHATRの構築、などをあげることができます。
研究成果は直ちに特許出願するとともに適宜、学会、国際会議、学術誌へと積極的に発表しました。この積極性は特許出願70件、学会発表521件という件数で裏付けられるとともに、科学技術庁長官賞、日本科学技術情報センター賞、電子情報通信学会論文賞など外部から10件(31名)の表彰を受け、質の面でも高い評価を受けることができました。
音声翻訳通信の研究は、外国語を対象とする研究の性格上、国際研究協力が必須です。1993年1月の自動翻訳電話国際実験の成功はC-STAR(Consortium
for Speech Translation Advanced Research)による研究協力の成果です。この実験の成功を契機に、この組織はATRを初め従来の4機関を中核にC-STAR
IIと改編され、現在、図2に示す世界の21の主要研究機関が参加する程に拡充され、この研究分野の世界的隆盛の先導役を果たしています。ATRは設立時より中核メンバーとして参画し、1996年の要素技術の検証、1999年の多言語音声翻訳国際実験を提唱するなど、研究計画面でも国際的リーダーシップを発揮するとともに、議長を務め、その運営、取りまとめにも努めています。1996年9月にはC-STAR
II会合をATRで開催し、各要素技術の技術レベルを検証し、1999年の国際実験の見通しを立てることができました。研究成果は専門家に対してだけでなく、一般の方々への周知を図りました。3年半の報道発表として、新聞93件、雑誌31件に掲載され、TV等10件で放送されました。時にはTV放送直後に視聴者から直接「音声処理技術は身体障害者にとっても頼りになるもので、一日も早く実用化してほしい」との激励のコメントが寄せられることもありました。また、けいはんなフェスティバル、APEC大阪会議展示、無線100年記念展示での展示を始め、年間1万人を超えるATR来訪者に音声翻訳システムの現状を紹介しました。入力された日本語が英語に翻訳され、合成音声で出力されると、頷いたり、にっこりするなど音声翻訳通信への関心の高さを伺い知ることができました。
4.要素技術の取組み
(1)自然発話音声認識の研究
通常の会話のように自然に発声された音声では、発話速度の遅速、話し方の違い等によって引き起こされ種々の音響的な変化や、話し言葉が持つ語順の自由度、「あのー」「えーと」といった間投詞の挿入等、書き言葉には見られない種々の音声言語現象がみられます。自然発話音声認識の研究では、これら自然発話音声が本来持つ種々の変動にも対処可能な頑健な音声認識技術の確立を目指し、音声認識用音響パラメータ表現・音響モデル構築技術、言語情報利用と音声パージング手法の研究を行いました。
また、年齢、性別、出身地など話者個人の違いに起因する音声スペクトル特徴のばらつきは、自然発話の変動と合わせて、音声の自動認識を困難にしている最も大きな要因です。このような不特定話者に対する音声認識性能を向上するため、話者が発する音声を用いて認識システムの持つ音響モデル特性を話者のスペクトル特性に近づけてマッチングの精度を上げる「話者適応技術」の研究を進めました。特に、学習サンプル量に合わせた種々の統計的適応方法を考案し、それらの複合技術でさらに高精度化を図りました。一方、音響モデル自体の性能向上を目指し、多数話者の大量の音声データベースを用いた不特定話者モデル構築手法の研究を行いました。
加えて、これらの技術確立に必要な自然音声データ収集を精力的に進めるとともに、自然発話音声認識プロトタイプ・システム構築のための各種音声認識モジュールを作成しました。以上の研究成果を統合し、図3に示す単語グラフを出力する自然発話音声認識プロトタイプシステムを完成しました。この音声認識エンジンにより、「旅行に関する打合せ」のタスクを対象とした数千単語の自然発話音声に対する準実時間処理の見通しが得られました。
(2)発話韻律処理の研究
本サブテーマでは音声翻訳システムにおける音声合成部の高度化の研究と、韻律情報の利用の研究を進めています。(注:ここで言う韻律情報とは、音声の高さ・強さ・言葉のリズムなど、音声に含まれる音韻と個人性以外の情報のことです。)
音声合成部の高度化の研究では、音声データベース中から、出力したい文に応じて、音韻の並び方や声の高さ、音韻の長さなどの条件が良く適合し、しかも滑らかにつながる音韻を選び出し、それらの音声波形をつなぎ合わせるという方法を開発しました。(注:詳細は本号の研究動向紹介8-9頁をご参照下さい)この結果、特定人物の30分〜60分程度の生音声が有れば、任意の文章をその人物の声に近い合成音声で出力できることが可能となりました。また、音声翻訳システムの利用者の声質や話し方の特徴を少ない量の音声データから学習し再現するために、人間が話者を判断するときに声のどの特徴にどれだけ着目するかを予測するモデルを提案するとともに、図4に示す発話特徴模擬システムSSSS(Speech-Style
Simulation System)を試作しました。
さらに、入力された音声の韻律特徴から疑問の終助詞がなくても平叙文か疑問文かを識別したり、文中に現れる躊躇の意図を検出したり、強調箇所を検出したりする手法の研究を行ない、いずれも約8割の正確さでこれらの特徴を識別することができ、言語翻訳精度の向上に見通しを立てることができました。これと併せて、ToBI(Tones and Break Indices)やピッチ周波数生成モデル・パラメータを用いて各国語の韻律特徴を記述した多言語韻律データベースの構築を行い、多言語音声合成の研究に資しています。
(3)協調融合翻訳の研究
音声翻訳通信のための翻訳技術の研究を進めるに当たり、まず既存手法である文法遵守の翻訳手法や仮想的な中間言語を利用する中間言語方式の翻訳手法などと用例主導翻訳手法との比較分析を進めました。自然な話し言葉の特徴である多様で豊富な言い回しや文法の枠を超えた表現を取り扱う点で、用例主導翻訳手法の効果が大きいことを示しました。さらに、複雑な句や複文なども翻訳するために、句や文を構成する表現の依存関係をボトムアップに解析しつつ、同時に対訳用例を適用して、最も好ましい用例を選択するメカニズムを実現しました。この機構は、用例と規則という両端に位置する情報を統合的に取り扱うとともに、両者を共通の枠組みで取り扱うことができる融合方式となっており、当所目標である文法に基づく言語解析手法と対訳用例を活用する用例主導翻訳手法とを融合する「協調融合翻訳」技術の骨格を作ることに成功しました。さらに、このメカニズムを核として、翻訳のための知識である表現例の言語パターンや対訳例などを翻訳の言語対ごとに用意することにより、多言語翻訳のプロトタイプシステムを構築しました。具体的には、日英双方向、日韓双方向、ならびに日独方向の会話翻訳システムを作成し、キーボードからの自由入力による各種の翻訳実験ができるシステムを築きました。日英双方向翻訳実験においては旅行アレンジに関する収録会話データの10万語規模の表現例から約1,000種の対訳用例パターンを用意し、平均約0.5秒の処理時間で最適翻訳結果を一意に提示することを可能としました。また、今後の用例数増加にも対応できる技術として、10万件の用例データから最適な用例を1ミリ秒で検索する高速用例検索技術を実現しました。
(4)音声言語統合処理の研究
従来の音声翻訳システムでは、音声処理、言語処理がそれぞれ独立にかつ一方向に処理されていました。しかし、このような方式では自然な話し言葉を処理することは困難であり、両者を有機的に統合可能とする新たな方式を実現しなければなりません。このため、以下に述べるような発話状況管理技術、マルチモーダル・インタフェース技術について研究を進めました。発話状況を管理し、これを利用することにより、文脈に依存した表現の適切な翻訳や、文脈的に整合性を欠いた音声認識結果を排除することができます。発話状況として、対話における発話相互の関係、すなわち対話構造と、ある時点における話題を認識することが重要です。このため各発話の文末表現や手がかり語を用いて発話間の関係を認識する手法を開発しました。また、このような対話構造と、発話に現れた語彙間の関係から、話題を認識する手法の研究を進めました。さらに、これらの発話状況情報を音声認識の曖昧性の解消や、言語処理での照応処理に利用する技術についても研究を進めました(図6)。特に、音声認識の曖昧性解消方式として、対話構造の一種である発話タイプの統計量を用いて次発話タイプを予測する方式を提案し、その有効性を示しました。
将来の音声翻訳通信システムにおいて、音声とともに他の情報伝達手段(モーダル)を利用可能とすることにより、コミュニケーションをさらに豊かで効率的なものにすることができる。このようなマルチモーダル・インタフェースの具体的な実現方法や、その有効性を明らかにしました。
5.今後の研究計画
(1)研究方針
本試験研究の目標とする音声翻訳通信技術に対する社会の期待が高まりつつあり、国内外の研究も活発化してきています。このような傾向を先取りする形での本試験研究の設定は概ね妥当であったと思われます。しかし、音声、言語という研究対象は極めて人間的要素が強く、しかも7年間という研究期間を考慮するとコンピュータで扱える範囲には自ずと限界があります。中間時までに得られた要素技術の成果を踏まえ、プロジェクト最終技術目標を具体的に見定め、効率的に研究を進めます。
音声翻訳国際研究協力コンソーシアムC-STAR IIに中核メンバー(Partner member)として積極的に参画し、1999年の多言語音声翻訳国際実験に向け最大の努力をはらいます。また、研究成果は適宜、特許、論文等にまとめるとともに、成果普及に努めます。さらに、報道発表、各種展示などを介し、本試験研究に対し一般の方々の理解を得るよう努めます。
(2)研究計画
前期(平成5年〜6年)に収録した音声的、言語的データの特徴を分析し、基本アルゴリズムを確立しました。この成果をベースに中期(平成7年〜8年)には機能モデルを構築し、各要素技術を検証し、プロジェクトの最終技術レベルを見定めます。後期(平成9年〜11年)の前半には各要素技術の規模を拡大しつつ、これらを有機的に統合し、システム化を図ります。後半には音声翻訳統合実験システムとして統合化し、最終評価を行います。国際研究協力においても本試験研究計画と同一歩調で進んでいるC-STAR IIのマイルストーンを堅持し、進展を図ります。1999年には上記統合実験システムを利用し、多言語音声翻訳通信の国際実験を実施します。2010年〜2020年に実用化が期待されている音声翻訳通信を充分意識し、上述のように研究を進め、本試験研究の目標である「音声翻訳通信の要素技術と統合化技術」の確立を目指します。