通訳を介した日英会話の収集と分析
〜電話会話とキーボード会話の比較〜



ATR自動翻訳電話研究所 言語処理研究室 相沢 輝昭



1.はじめに
 機械翻訳システムが販売される世の中になりました。しかしその翻訳対象は、単純明快に誤りなく書かれた書き言葉だけ。少し複雑なもの、誤りのあるのも、従って話し言葉は対象外です。
 ところが、自動翻訳電話では、まさに話し言葉を相手にしなければならない。おそらく新しい翻訳方式が必要になるでしょう。それを求めて会話文の特徴に関する基礎的分析から研究を始めたところです。
 最初に問題になったのが、分析に耐える会話文データをどのように集めるかということでした。電話会話の翻訳が最終目標ですから、現実の電話会話が収集できれば一番よいのですが、これは通信の守秘義務によって難しい。小説の会話部分、映画やテレビドラマのシナリオ等も考えられますが、これらの会話は人工的な含みの多すぎる嫌いがあります。
 そこで結局、電話会話のシミュレーション実験を行って、その間に交わされた会話を集めようということになりました。それも、日本人同士の会話ではなく、日本人と外国人とを通訳を介して会話させ、日本語とともにそれに対応する英語も併せて集めることにしました。このような会話形態は、自動翻訳電話の一種の実現状況のシミュレーションとしても参考になるでしょう。
 さらに、電話会話のシミュレーション実験と並行して、コンピュータ端末間のキーボード会話シミュレーション実験をも行い、その間に交わされた会話データも収集しました。この種のキーボード会話文は、電子メール等に似て、論文のような書き言葉よりはくだけているが電話会話のような話し言葉よりは整っていて、われわれの最初の研究対象とするのに適当であると考えています。
 以下、電話会話とキーボード会話という2種類のシミュレーション実験を通じて得られた会話データとその特徴分析の一端を述べます。

2.通訳を介した電話会話の例とその特徴[1]
 通訳を介した電話会話データの録音収集のための話者と使用機器の配置状況は図1に示す通りです。通訳の前には日本人用と外国人用の2台の電話機を置き、相手に応じてそれらを使い分けてもらいます。
 ここでは、若い女性「日本人」、日本語を母国語とする女性「通訳」、英語を母国語とする男性「外国人」の間の会話の一部をできるだけ忠実に紹介しましょう。「外国人」は旅行業者、「日本人」は東京旅行の希望者という想定です。また「通訳」は原則として同時通訳ではなく逐次通訳を行っています。以下、通訳結果はカッコ内に示してあります。
J1「あ、もしもし、あー、恐れ入りますが、東京のホテルのことでちょっとお聞きしたいんですけれど」
(Hello? I'mI'd like to get some informations about hotels in Tokyo.)
E2「Yes, May I have your name please?」
(はい、あ、そちらのお名前どうぞ。すいません、失礼ですがお名前お願いできますか?)
J3「あ、はい、はい、田中と申します」
(My name is Tanaka.)
E4「Yes, Miss Ta-Tanaka, Uh, do you have and particular place in Tokyo that you would like to stay?」
(田中さん、どこが特に、あー、東京で、あ、お泊まりになりたいと思われるとこございますでしょうか?)
J5「はい、あー、六本木で、あ、ディスコにちょっと行きたいんで、その辺でお願いしたいんですが」
(I love to go to discos around Roppongi, so is there any hotel available around that? around there?)

 この例を見てすぐ目に付く特徴は、日本語で「あ、あ、あー」の多用です。試みにそれらを単純に取り除くだけでも、文としての体裁がかなり整うことが分かります。
 しかし、それらを取り除いてもなお、J1文における「ちょっとお聞きしたいんですけれど」、J5文における「ディスコにちょっと行きたいんで」など「ちょっと」の使い方、また、J1文における「お聞きしたいんですけれど」、J5文における「お願いしたいんですが」などの言い切らない表現、さらに、J5文における「六本木で、、その辺で」のような冗長な表現など、書き言葉には見られない話し言葉独特の様々な表現が残ります。
 また、E2文からJ3文にかけては、通訳が介在したことによって外国人の質問に対する日本人の返答のタイミングが見失われ、通訳の重ねての催促に日本人があわてて返答するという場面が見られます。これは、自動翻訳電話のシステム構成を考える際の重要な問題を提起していると思われます。
 次に、自動翻訳電話の実現という観点から、この通訳者の仕事ぶりを、機械による代替可能性を考えながら眺めてみましょう。
E6「With breakfast and tax and service included it would cost seven thousand two hundred per person.」
(えー、朝食、えー、税サービス込みでということになりますと7200円ですが)
J7「あ、それ位だったらいいです」
(That will be fine.)

 このJ7「いいです」は、「良い、満足である」とも解釈できるし、「要らない、受け入れられない」とも解釈できます。それを一瞬のうちに前者であると判断して、しかも、「それ位だったら」という表現をこれ以上細かく分析したりしないので、“That will be fine.”と訳す。どうすれば機械にこのようなことが可能になるでしょうか。
 逆に、通訳がひどくもたつく場合があります。
E6「And, ah, may I help you with anything else like tours, restaurants, transportation?」
(え、その他、何か他に、あ、何かございますでしょうか。あー、特別な東京のツアーですとかえー、レストラン、その他、あ、交通機関なども何か。)

 この通訳のもたつきの原因は、多分、“tour, restaurants, transportation”と並べられた情報を忘れないようにしなければという気持ちと、遅滞なく翻訳を進めなければという気持ちとの葛藤にあると思われます。もたつきながらも「ツアー、レストラン、交通機関」のいずれをも訳し漏らしていないのはさすがです。しかし機械なら、この種の情報の記憶は容易ですから、人間通訳よりもスムーズに翻訳が行われる可能性があります。機械による自動翻訳電話が、人間通訳よりまさる場合も無いとは言い切れません。

3.電話会話とキーボード会話の比較
[2]
 電話会話の収集と並行して、コンピュータ端末間でのキーボード会話データの収集を行い、両者の日本語部分について言語的な特徴を比較しました。
 会話内容は、当面の機械翻訳の対象と考えている「国際会議の問い合わせ」、即ち「日本人」から国際会議事務局「外国人」に対する種々の問い合わせに絞りました。電話会話の収録方法は上記(2)に述べた通りです。キーボード会話の場合には、電話に向かって話す代わりにコンピュータ端末のキーボードを叩くことになります。但し、送信キーを押すまでは入力の訂正を許しています。
 分析した会話のうち、日本語部分のデータ量は次の通りです。

 
電話会話
キーボード会話
・総会話数
14
12
・総文数
1,115
358
・総語数
11,598
3,092

 表1に品詞統計を示しました。感動詞(「あー」といった間投表現を含む)と、記号は、それぞれ電話会話とキーボード会話に極めて偏った形で現れていることが分かります。表中の相対頻度の計算にはそれらを省いてありますが、その結果、品詞の相対的出現頻度は電話会話とキーボード会話でよく一致しています。
 さて、われわれの分析は、電話会話とキーボード会話を特徴づける基本要素の包含関係として、図2のようにまとめることができます。
 これについて次のようなことが言えるでしょう。
(1)電話会話のみにあってキーボード会話にない要素として、言いよどみ、言い換え、言い直し、間投表現、開始符号があります。
 言いよどみの例として「いただくだくのは」、言い換えの例として「こういったプログラム、観光プログラムは」、言い直しの例として「それともう一人なんもう一人ね」等があります。いずれも機械翻訳に対する難問を突きつけています。これらがキーボード会話に現れないのは、送信前の訂正を許しているからです。
 「えー、あー」といった間投表現も電話会話の特徴的な要素ですが、これらの中には、発話の開始符号として聞き手の注意を促すために使われているものもあります。
(2)電話会話もキーボード会話も、会話としての多くの基本要素を共有しています。例えば、詳しい説明は省きますが、状況に依存した意味表現、固有表現、終了符号、談話構造、クルーワードは、両会話で同じように使われています。このことから、キーボード会話は、文字で表現されてはいるが話し言葉に近い性格を持つと言えるでしょう。
(3)電話会話とキーボード会話の両方に現れてはいるが、その現れ方がかなり違う要素として、省略用法、復唱表現、応答符号があります。
 電話会話ではしばしば、格助詞が省略されるのに対して、キーボード会話ではトピックが省略される傾向が見られました。例えば、

(電話会話)
A:登録料はおいくらですか。B:登録料は16,000円です。
(キーボード会話)
A:登録料はおいくらですか。B:( )アメリカドルで100ドルです。

 復唱表現については、電話会話では聞き間違いを避けるための単純な復唱確認が行われるのに対して、キーボード会話では予期に反したことを言われた時に新たな条件を付加して再確認のための復唱が行われることが多いようです。
 応答符号についての差は、電話会話で多用される「はい」がキーボード会話には現れないためです。
(4)キーボード会話のみにあって電話会話にない要素として、特殊記号の使用、表形式を用いた情報の過剰表現等の傾向が見られます。
以上のことから、キーボード会話は電話会話における言いよどみ、言い換え、言い直し、間投表現等が除去された会話の基本的性質を備えたものである、と一先ず結論できましょう。このことは、キーボード会話の機械翻訳の研究が、最終目標である電話会話の機械翻訳に向けての有効な第一歩になり得ることを示していると考えられます。それを信じて、われわれはすでにその方向に踏み出したところです。[3]

4.おわりに
 今後進めなければならないことは、当面の研究対象としたキーボード会話の機械翻訳に向けての分析を深めることです。そのためには、会話の内容や進め方、話者などの種類を増やして、さらにデータを収集する必要があります。現在、日英を合わせて約数万語のデータを収集していますが、当面、ほぼ倍の10万語を目標としています。
 このようなデータの分析を通してキーボード会話に対する翻訳手法の手掛かりをつかみ、まず、キーボード会話翻訳実験システムのようなものを作りたいと考えています。次にそれを足場にして、最終目標である電話会話の機械翻訳に進むというのが、現在考えているシナリオです。


参考文献