言語データベース



ATR自動翻訳電話研究所 データ処理研究室 森元  逞



1.はじめに
 言語に関連する研究を行うには、まず対象とする言語の持ついろいろな特徴を的確に把握することがなにより重要となります。「言語データベース」はその言語で書かれたり、話されたりした文を多量に集めたものであり、この中から言語に関する各種情報やいろいろな現象を取り出して利用することを目的としたものです。
 このような言語データベースの研究、整備がもっとも進んでいるのは英語を対象にしたもので、例えばブラウン・コーパス[5]と呼ばれている言語データベースには約100万語の英文が収録されています。また近年EC諸国でもその重要性が認識され、例えばイタリアのピサ大でも大規模な言語データベースの構築が進められています。
 自動翻訳電話では、日本人と外国人の間の電話による会話を自動的に相手の言葉に翻訳しなければなりません。このためには話し言葉がどのように構成されているのかを十分に調べておく必要があります。特に日本語は英語などに比べて話し言葉と書き言葉の差が大きいと言われていますが、残念なことに話し言葉の特徴はまだ十分には解っていませんし、またそれを調べようと思っても日本語会話文の言語データベースは今まであまり作られていないのが現状です。このためATR自動翻訳電話研究所では、翻訳方式の研究を進める一方、会話文そのものを収集し、データベースの作成を進めています。

2.言語データベースの利用

 言語データベースは大きく次の2つの目的に利用できます。
(1)文の言い回しや表現を調べ、それを理解、翻訳するにはどのような問題を解決すべきか、またそのためにどのような規則や法則が成り立っているかを調べる。
(2)上記の規則や法則をもっとマクロに調べ、言語の統計モデルを作成する。この統計モデルを用いて音声認識などの問題解決に応用する。
 以下これらについて例を用いて具体的に説明します。〔例1〕に話し言葉として国際会議に関する問合せ、〔例2〕に書き言葉としての新聞記事をあげています。
〔例1:国際会議に関する問い合わせ〕
P:質問者 S:国際会議事務局
P1:もしもし、通訳電話国際会議事務局ですか?
S2:はい、そうです。P3:会議に申し込みたいのですが。S4:はい、登録用紙はすでにお持ちでしょうか?
P5:いいえ、まだです。S6:分かりました。それでは、こちらからお送り致しますので、お名前とご住所をお聞かせ下さい。

〔例2:朝日新聞1986年〕
私は今年から年金生活に入ったが、年金に対する源泉所得税はいうまでもなく、住民税さては国民健康保険税に至るまで、容赦なく徴収されている。年金額はサラリーマン時代の給与と同様、全く透明であり、お目こぼしのありようもない。

2.1会話文の特徴の分析
 〔例1〕と〔例2〕では同じ日本語でも文の構成がかなり違うことがわかります。まず、書き言葉では文の長さが長く複雑ですが、会話文では長さも短く簡単な文となっています。しかし、その内容を比較すると、書き言葉では主語の省略などがほとんど無いのに対し、会話文では話し手である主語がほとんどの場合省略されていることが分かります。P1で「そちらは」が省略されていますし、S2、P3などでも「こちらは」、「私は」などが省略されています。また、係助詞「は」で示される主題、例えばS4「登録用紙は」は、それ以後両者の会話では省略されています。しかし、これらの文を英語に翻訳しようとすれば、P1に対しては「Is this the Secretariat of International Interpreting Telephony Conference?」などのように、またS6では「Then, I'll send one.」のように、省略されているものを補ってやる必要があります。
 つぎに、〔例1〕は基本的に「問い合わせや要求」と「その応答」のパターンになっています。このように会話は、一般的に話者間の共同作業により進められていきます。具体的には、質問者が文末の助詞や助動詞を用いて表した依頼、問い合わせなどの意図に対し、回答者が適切な応答、回答を行っていくことになります。また意図の表現方法についても直接相手に具体的な内容を問い合わせるのではなく、P3のように「自分が会議に参加申し込みをしたい」ことを述べることにより、「会議の参加の方法について教えて欲しい」という依頼を間接的に表している文も出てくることが分かります。また、日本語の敬語表現は複雑ですが、どのような敬語表現が使われるのかも分かります。
2.2統計的言語モデルの作成とその応用
 例えば、「かける」という動詞は、その目的語に多くのものを取る可能性がありますが、〔例1〕のような会話文から統計情報を求めれば、目的語には「電話」という単語を取る確率が高いでしょうし、〔例2〕では「税金」などの単語の確率が高くなると思われます。このような統計情報を利用することにより、例えば音声認識で「をかける」という文を認識した結果、「」の部分がどうも明確でない場合でも〔例1〕のような会話であれば、多分この部分は「電話」であろうと予想することが可能になります。

3.会話文の収集
 一口に会話文といっても、話しの目的、内容、会話の行われた環境により、全く違ったものになることは容易に想像することができます。従って会話文を収集し、データベース化するにも、その利用目的を十分考え、系統立てた収集を行う必要があります。我々は自動翻訳電話の研究に利用する言語データベースであるということから、やはり電話で行うような会話、つまりある明確な目的をもっている会話を対象に収集することにしています。
 2章で、会話文は省略、意図、敬語などの表現に特徴があると述べました。しかし同じ会話でもその内容や環境によってこれらの特徴が異なることが予想されます。たとえば、会話の相手が目上なのかどうか、難しい間柄かどうかで敬語はだいぶ異なってくるでしょう。また、単なる問い合わせなのか、それとも何かを要求するのかによって、敬語だけでなく意図の表現法なども異なってくるかもしれません。逆に、「会議に関する会話」、「旅行に関する会話」など分野を違えた場合、使われる単語は異なってもこの表現はあまり違わないのではないかと予想されます。従って分野は余り広げず、むしろ種々の会話を集めておくことが重要であると考えています。
 一方、そもそもなぜ話し言葉と書き言葉は違っているのでしょう。またその違いはどの程度なのでしょう。同じ話し言葉でも演説やスピーチは会話とはだいぶ違うような気がします。逆に手紙は書き言葉ですが、通信をするという観点からは会話と似ているかも知れません。このように考えると会話文の特徴をより適確に捕らえるためには、スピーチや手紙や書物などとの比較、分析を行うことがやはり重要だと言えます。この観点から言語データベースにもこれらの文をある程度収集しておくことにしました。
 以上のことから、現在は表1のような文を収集する予定にしています[2]。なお、以後ではこれらの文を総称してテキストと呼ぶことにします。
 会話文の収集方法も色々な方法が考えられます。実際の電話の会話を収録できれば一番良いのですが、通信の守秘という法律上の問題があり、これは不可能です。このため、現在はシミュレーションによる電話会話とキーボード会話を収集しています[1]。なお、2章に掲載した会話の例もこのシミュレーションで収集したものです。

4.言語データベースの事前分析と検索
 テキストをあらかじめある程度分析しておくことにより、3章で述べたような文の持つ色々な特徴を効率的に言語データベースから取り出すことができるようになります。このため、現在テキストを個々の単語に分解し(これを形態素解析と呼びます)、その品詞名や活用のある単語であればその活用形などを付与してデータベース内に格納しています。図1にその例を示します。またテキストに対訳の英文が存在するものは、その英文への対応関係を設定しています。このような事前分析を行っておくことにより、言語データベースから種々の情報をかなり効率的に取り出すことができます。例えば、形態素を指定して検索する形態素検索プログラムにより、〔例3〕のような検索を行うことができます[3]
 現在我々はもっと効率的な検索ができるよう、事前にさらに詳細な分析を行っておくことを考えています。すなわち、文を文節に分解し、文節間の係り受け、動詞との格関係などの分析を行っておきます。また、日本語と英語の対応も、文同士の対応だけでなくもっと細かなレベルでの対応、例えば、日本文の文節と英文のフレーズとの対応、単語同士の対応などを付けておきます。このような分析を行っておくことにより、例えば〔例4〕のような検索を行うことが可能となります。また格関係の統計量を求めれば、2章で述べたように音声認識などに応用することも可能となります。
〔例3〕形態素を指定した検索
〔検索したい内容〕
動詞+終助詞「か」(疑問、依頼などを表す)のパターンが実際の文でどのような表現になっているかを調べたい。〔検索方法〕
動詞と終助詞「か」の間に2つ以下の形態素をはさんだパターンを検索します。次のようにコマンドの指定を行います。Input Data >>mv+*<3+かfp
ここで、下線部がユーザの入力するコマンドで、また各記号は以下の意味です。mv:本動詞
 *<3:2個以下の任意の形態素の並び
 かfp:終助詞「か」
〔検索結果〕
条件が一致した以下のようなパターンが出力されます。(1)発表なさいますか?
 ITEM:本動詞 五段 連用 なさい
 ITEM:助動詞  終止 ます
 ITEM:終動詞   か
(2)何時頃終わる予定ですか?
 ITEM:本動詞 五段 連用 終わる
 ITEM:普名詞   予定
 ITEM:助動詞  終止 です
 ITEM:終動詞   か
〔説明〕これから、
(1):「する」の尊敬語「なさる」+丁寧を表す助動詞「ます」+「か」
(2):本動詞「終わる」+アスペクトを表す名詞「予定」+「だ」の丁寧語「です」+「か」
などのパターンが存在することがわかります。このようなパターンの調査をもとに、必要な文法規則を作成することができます。また、このような品詞の接続状態の統計量を求めれば、これから確率的な文法を作ることもできます。

〔例4〕格関係などを利用した検索
〔検索したい内容〕
「教えて欲しい」の言い方にどのようなパターンがあるのか。また目的語にどのような単語がくるのか。さらに英語での表現の違いを検索したい。〔検索結果〕
お名前を        教えていただけますか
 Give me your name, please
取引銀行と口座番号を  教えていただけますか
 Please tell me your bank and account number
参加の手続きについて  お教え願いますでしょうか
 How do I register?
申し込みの方法を    教えてください
 Could you give me how I can apply?
〔説 明〕
以上の結果から、以下のようなことが分かります。(1)丁寧を表すのに、日本語では「下さい」、「いただけますか」など種々のパターンがある。英語にも「Please 」、「Could you 」などパターンがあるが、何も付けない場合もあり、ここでの例では両者の間にあまり厳密な対応はみられない。(2)「教える」の目的語には、「名前」などの普通名詞の他に、「参加の手続き」、「申し込みの方法」などのような(サ変名詞)+{格助詞「」}+「方法、手続き」などのものがある。前者の場合、「tell me, give me+(目的語)」と訳せばよいが、後者の場合は「tell me + how 」や、「How do I ?」のような疑問文に訳す必要がある。(注){ }は省略可能であることを示す。

5.おわりに
 言語データベースについて紹介しました。このような言語データベースの必要性は今までも認識されてはいたのですが、日本語、特に会話文のものはほとんど作成されていませんでした。またこのようなデータベースを真に有用なものとするには、かなり多量のものを集めておく必要があります。我々はその構築を始めたところですが、最終的には最低100万語程度のものにする必要があると考えています。
 一方データ量がこのように多量になると、その品質の管理や、格納や検索の効率化などの管理システムの性能が問題になります。現在、前者については事前分析作業の品質管理の強化を行うとともに、会話文はシミュレーションで収集しているため、どうすれば現実に近い会話が得られるかを工夫しているところです[4]
 後者については、そのデータを効率的に管理し、使いやすい検索機能を提供することを目的とした言語データベース統合管理システムについて開発を進めています。これらの詳細についてはまた別途ご紹介したいと思います。


参考文献