音声データベースについて



ATR自動翻訳電話研究所 音声情報処理研究室 桑原 尚夫



1.はじめに
 実用的な音声認識では、現在、認識できる語彙数が少なくしかも対象とする話者が限られています。今後の音声認識の目標は、大語彙でしかも不特定多数の話者が発声した音声が認識できることであります。このためには、多数の語彙でかつ多数の人の発声した音声データを用意する必要があります。また、音声認識に限らず、音声合成、音声分析、音声知覚や個人性など、音声の基礎的研究を進めるためにも多数の話者が発声した多種類の音声データが必要です。ATR自動翻訳電話研究所およびATR視聴覚機構研究所では、昨年度より、研究開発用の音声データベースの作成を進めており、既に一部の音声データが研究目的に使用され始めています。この共同で進めている音声データベースは単に音声データの収集だけでなく、連続的な音声を音素と呼ばれる単位に分割し、ローマ字表記したときのアルファベットその他の記号を付与します。これらの記号を総称して音諳ラベルと呼びますが、ラベルを付与することにより研究の効率を飛躍的に向上させることができます。
以下に、その目的および概要について述べます。

2.データベースの目的
 音声認識や音声合成アルゴリズムの開発、音声分析や音声知覚などの基礎研究に用いる目的でデータベースの作成を行っています。特に、当研究所で進めている音素認識を基にした連続音声認識システムを構成するには、音声現象が正確に記述されたラベルデータを用いる必要があり、それによって極めて効率の良い研究を行うことができます。また、データベースの条件として、
(1)語数が大きいこと
(2)すべての発音を含んでいること(音韻バランスがとれていること)
(3)話者が多いこと・すべての研究目的に使え、しかも使い易いことこれらが必要条件です。ATRの音声データベースは(3)を除けばこの条件にすべて適っています。(3)に関しては、今後も徐々に増やしていく予定でいます。

3.音声データ
1)発声内容
 現在までに収集したデータの発声内容を表1に示します。重要語は三省堂新明解国語辞典から抽出し、文章データは当研究所で行った電話模擬実験の会話をもとに作成しました。
2)発声方法
 音声データベース作成の第一歩として、話者は発声のしっかりしたアナウンサーまたはナレーターとしました。また、発声方法は、原則としてNHKアナウンサーの発声基準に従っています。
3)音声収録とラベリング方法
 収録条件としては、防音室や録音スタジオなどの出来るだけ静かな環境で、単語の場合、一語毎に区切って明瞭に発声し、一旦PCMテープに録音します。次に、計算機ワークステーションを介して、デジタル信号に変換し、磁気ディスクに収納します。収納された音声データを単語ごとに切り出し、周波数スペクトル分析して、レーザープリンターに出力します。
 会話文の場合、(1)普通の読みかたで普通の速さで発声、(2)文節毎に区切って発声、および(3)文節毎に区切り、さらに複合語を単語に分割して発声、の三種類の発声方法で収録しました。これらの音声は、一文をひとまとめにして周波数スペクトル分析し、レーザープリンターに出力します。
 出力された周波数スペクトルをもとにして、訓練された人間のラベラーにより、各単語は母音、子音等の単位に区分され各部分にラベルが付けられます。
 このラベルデータはキーボードにより再び計算機に入力されます。第1図は、ワークステーションを中心とした音声収録から、ラベルデータ入力までのシステム図です。

4.ラベリング
1)ラベルの構成各音声区間を複数のラベルを用いて効率良く記述するため、以下の5階層に分けてラベリングを行っています。このような多層構造を持つラベリングは、当研究所、匂坂芳典、武田一哉らの検討により行われたものです(参考文献1)
(1)音声記号層:単語のローマ字表記を母音部、子音部に分割し、対応する音声区画に記述します。
(2)イベント層:実際の音声現象を忠実に反映するように、表2に示すような音声の特徴を表わす記号を記述します。
(3)異音化層:母音の無声化が見られる区間、ならびに母音末尾で摩擦性の子音スペクトルが重畳している区間、を記述します。
(4)融合化層:周波数スペクトログラム上で区分化が不可能な部分を記述します。
(5)母音中心層:母音区間中で、最も安定した箇所でその中心的な位置を明示します。
2)ラベリングの例
 実際にラベリングを行った例を図2に示します。語尾に生じている無声化は、異音化層及び融合化層において、図のように記述されます。また、ラベル付けは複数のラベラーによって行われていますが、片桐滋(視聴覚機構研究所)らの研究の結果、ラベラー間のバラツキは小さく、極めて精度が高いことが分かりました(参考文献2)

5.将来計画
 今の所、発声者はアナウンサーに限られていますが、将来は一般の人を含めた不特定多数の話者に拡張を図ります。また、現在のデータベースは単語が主体ですが、さらに連続音声テキストの作成も進め、通常の文章あるいは会話文まで音声データの範囲を拡張する予定です。さらに、外国語(英語)に関しても、外国の研究機関との共同も含めて、将来、データの収集を計画しています。

6.海外に於けるデータベースの動向
 海外においても、最近は音声データベースの収集や、それに関する研究が盛んです。特に、アメリカでは、数年前にスタートしたDARPA(Defence Advanced Research Project Agency)による音声認識研究に用いるため、このプロジェクトに参加している各研究機関で音声データを収集しており、中には、当研究所で行っているようなラベル付けのされたデータも含まれています。これらの音声データベースはアメリカ連邦標準局(NBS)が一括管理し、アメリカ国内での普及を図っています。
 フランスには、GRECOのプロジェクトの一つとしてBDLEXと呼ばれるデータベースの構築が進められています。但し、これは音声データのみではなく、言語解析用のテキスト(書き言葉)のデータも含まれているため、規模としてはかなり大きなものです。ここでも、当研究所で進めているような詳細なラベル付けを試みており、GRECOグループだけでなく、国内で共通に使えるデータベースの構成を目指しています。
 イギリスにはALVEY計画というマン・マシンインターフェースに関する国家プロジェクトが進行しており、音声研究はエジンバラ大学を中心に進められています。ここでも、主として研究開発用の音声データベースが作られており、200個の文章を選定して音声を収集しています。また、オーストラリアでも、多数話者を目的にしたオーストラリア英語の収集が国立大学を中心に進められています。
 現在、これら諸外国のプロジェクトとATRとは直接関連はありませんが、近い将来には、DARPAのデータベースの入手あるいはエジンバラ大学との共同研究を通して当研究所における英語データベースの作成を考慮します。

7.むすび
 ATRで現在構築している音声データベースは、子音や母音のローマ字表記による単なる表層的なラベルのみでなく、実際の発声現象を詳細に記述した多層のラベル構造を持つため、音声の様々な研究目的に用いることができます。
 また同時に、現在、この音韻ラベルを基に、関係データ表現によるデータベース管理システムの構築を行っており、より一層使い易いデータベースを目指して整備を進めています。なお、このデータベース管理システムの構成は、武田一哉らによって進められています(参考文献3)


参考文献