言葉を覚えて声を聞く
－高精度な音声認識のための言語的知識の獲得－

1．言葉を知らないと音声は認識できない
　私たち人間が人の会話を聞いて書き取ろうとすれば、ほぼ間違いなく書き取ることができます。このことから、私たちは音声を一音一音正確に聞き取れているように思うかも知れません。しかし、一連の音声から個々の音を切り出して単音として聞かせると、意外に正しく認識できないものです。つまり、私たちは音声を一音一音ではなく一つの連なりとして、半ば無意識のうちに単語や言い回しなどの言葉の知識を使って、不完全な音も聞き取っているのです。同じことがコンピュータによる音声認識にもあてはまります。個々の音の認識には限界があり、より精度よく認識するためには言葉に関する知識で不完全な部分を補わなければなりません。そのため、使われる語彙やそれらの接続に関する規則を明らかにする必要があります。のような規則を一般に言語モデルと呼びます。

2．言葉を自動的に学習する
　現在のところ、規則は言語の専門家が作成しています。しかし、これは大変手間のかかる作業で、扱う語彙数が少ないうちはまだよいのですが、増加してくるといよいよ大変になります。そこで私たちは、極めて多くの会話例文を集めた大規模言語データベースから統計的な手法によっ規則を自動的に学習し、それを音声認識に役立てる手法について研究を進めています。このようにして作成された規則は「統計的言語モデル」とよばれています。

3．直前の（N-1）語から次の単語を予測する
　　－N-gramモデル－統計的言語モデルとしては、単語のbigramが最もよく使われています。このモデルは、例えば　“会議”の後に“に”という単語に遷移する確率をあらかじめ大量の言語データベースから計算しておいて、この確率を加味して音声認識を行なうものです。bigramは1つ前の単語から現在認識しようとしている単語への遷移確率ですが、2つ前の単語まで考えるものをtrigram、一般にN-1個前の単語まで考慮するものをN-gramと呼んでいます。Nが大き過ぎると確率値の推定に用いるサンプル数が少なくなり信頼性が低下するため、通常N=2，3の値をとります。これらのモデルは単純ですが、実際の音声認識においてかなり有効であることが知られています。

4．単語のグループ化により信頼性を高める
　　－Ergodic HMMの利用－
　単語のN-gramは確かに有効なのですが、問題点の一つに、大量の言語データを収集しても起こり得るすべての単語の組合せは網羅できない、という点が挙げられます。その解決方法の一つとして、単語をグループ化してN-gramを計算する方法が考えられます。たとえば“会議”から“に”への単語間の遷移確率の代わりに、“名詞”から“助詞”へのグループ間の遷移確率を用いようとするものです。そこで、『構文的に同じように使用される単語は同じグループに属するのが妥当である』という考え方に基づいて単語をグループ化します。このグループ化とグループ間の遷移確率は、「Ergodic HMM（Hidden Markov Model）」というモデルを用いることにより言語データベースから自動的に学習することができます。実験では、同じ品詞に属する単語が一つのグループになることが多いのですが、同じ品詞でも接続する単語の性質が異なる格助詞（例えば“が”と“を”）は複数のグループに分かれるなど、興味深い結果が得られています。

5．離れた単語間の関係も捉える
　　－付属語のN-gramと自立語のN-gramの提案－
　また、隣接した単語のN-gramの性質に加え、離れた単語間の関係を積極的に利用することも有効です。たとえば、“～は～が”といった文型はよく見られるが“～が～が”は少ないというような構文的な関係や、“会議”の後には助詞などをはさんで“開催”、“参加”などの語が来やすいというような意味的な関係は、離れた単語に現れます。このような関係を捉えるために、付属語のN-gram、自立語のN-gramモデルを考案しました。これは、文中の“は”、“が”、“です”のような付属語のみ、あるいは“会議”、“申し込む”のような自立語のみに注目してその単語間の遷移確率を用いるものです。音声認識結果の文節候補から最適なものを選択する実験においてこのモデルが有効であることを確認しました。さらにこれらと単語のN-gramを併用した音声認識方式についても検討しています。

6．より複雑な構造を自動学習する
　　－BLIアルゴリズムの提案－
　音声認識の精度を高めるのにN-gram等の単語遷移の情報が有効であることを述べてきましたが、より複雑な文の構造を把握することも必要です。言語学では、文法規則に基づいて文を木構造の形で表現します。図1に、その簡単な例を示します。
　前にも述べた通り、文法規則を人手によって作成するのは限界があります。そこで私たちは、規則を例文から自動的に見つけ出す方法「BL1（Bayesian Language Inference）アルゴリズム」を考案しました。このアルゴリズムでは、文法規則をまったく知らないところから出発し、データベースから例文を読み込みながら徐々に規則を学習していきます。学習の各段階で、例文に対して生成される木構造を解析し、さらに例文を効率よく表現できるような上位の木構造を探索することにより、規則の追加、更新を行ないます。はじめは例文を1単語ごとに分割しますが、学習が進むにつれ、次第に単語から木、さらに上位の木へとまとめていくようになります。実施例としては、十分学習を繰り返した結果700個の文法規則が学習されました。このアルゴリズムによって文に与えられる構造は、言語学者が与えるものとよく一致しています。一例を図2に示します。

7．むすび
　音声認識をより精度よく行なうため、コンピュータが例文から言葉の規則を自動的に学習する方法について紹介しました。今後は、言い淀みや言い直しなど、話し言葉にみられるさまざまな現象にも対応できるような高度な言語モデルの研究を進めていく予定です。

言葉を覚えて声を聞く －高精度な音声認識のための言語的知識の獲得－

言葉を覚えて声を聞く
－高精度な音声認識のための言語的知識の獲得－