日本全域自然音声データベース
−人見知りをしない音声認識システムの実現を目指して−



1.はじめに
 もう10年くらい前になるでしょうか、東北の山奥にある、さびれた温泉宿に泊まりに行ったことがあります。そこでびっくりしたのが、夜遅くになって浸かりに行った温泉で耳にした、賄いのおばさん達の会話です。独特の方言で調子よく交わされる言葉は、全く内容がわかりませんでした。まさに「これが日本語か?」という印象でした。
 現在の音声認識技術によれば、静かな環境で高品質マイクを用い、特定の話題を「限定した地域の偏った年齢層の人々が標準語で」発声した音声でしたら、自然な会話音声でも、80〜90%の高い性能で認識できるようになりました。ここで「限定した地域の偏った年齢層の人々が標準語で」と断りましたのは、一般に音声認識システムの学習や評価に使われる音声データベースの多くは、限定した地域(関東圏など)の、偏った年齢層(20〜30代など)の人々が標準語で発声したものだからです。
しかしながら、日本語には上述のような方言の問題があります。今日では仕事上など、必要であれば標準語を話す人も多くなりましたが、それらの標準語は各地域の方言の影響を受けているように思われます。また、年齢によって言葉使いや話し方に差があることは経験的にわかっています。そして、それらの要因による発声の個人差は、時として音声認識しにくい話者を生みます。
 そこで、いろいろな地域や年齢層の人々が利用できる、人見知りをしない音声認識システムを実現するためには、まずは日本の各地で収録した、幅広い年齢層をカバーする音声データベースが必要です。そのためにATR音声翻訳通信研究所では、1995年から1998年にかけて日本の各地を行脚し、10〜60代の人々の音声を収録してきました。そし
て最近、ようやく全データの整備を終え、利用できる形にしました。本稿では、このデータベース(スケジューリング・タスク・データベース)[1-3]についてご紹介します。

2.データを集める
本データベースでは、各話者は模擬対話、音素バランス文1、辞書データ(国語辞典、ことわざ辞典、地名辞書、外来語辞書から抜粋した文章や単語の読み上げ)を発声しています。模擬対話は、二人の話者が電話を通して(実際はマイク収録)会議のスケ ジュールを決定するという設定で非対面で行いました。二人の話者は、それぞれの役割に応じて手渡された、簡単な予定表や地図(自然な対話となるように、短い言葉やシンボルのみで記述されている)に基づいて話を進めます。
 実際の収録作業は1995年から1998年にかけて、日本の各地で話者や収録場所(雑音の影響を受けないように、各地で録音専用スタジオをお借りしました)を確保して行いました(図1)。最終的には、総話者数は3,770名(模擬対話のみ3,771名)、模擬対話における総対話数は1,888、総発声数は32,914(総発声時間は53.4時間)、音素バランス文の総発声数は112,660(総発声時間は127.6時間)、辞書データにおける総発声数は31,589(総発声時間は13.8時間)の大規模データベースとなるように収録しました。基本的に各発声ごとに、その音声データと音素単位の書き起こしデータ2が付いています。模擬対話を例に取りますと、既存のデータベースの中で最大規模のものとしては、米国LDCが扱っている ATISやSwitchboardコーパスがありますが、それぞれの規模はATISが話者約600名で約25,000発声(マイク音声)、Switchboardは話者543名で2,400対話(電話音声)です。特に話者数に関して、本データベースは既存のものと比べて、桁違いに大きいことがわかります。

3.地域的、年齢的な広がり
 収録に際して、各話者から本人および両親の出身地、年齢などに関する個人情報をお尋ねし、収録環境の情報(マイクの種類や収録場所など)とともに記録しました。
 本人の出身地に注目した場合、その地域的な広がりは、47都道府県を全てカバーしています。地方別の話者数の分布は、日本の総人口の分布にだいたい合っています。また、各話者の年齢は14歳から65歳にわたっています。年齢の分布を見ると、20代が一番多くなっており、30代、10代と続きます。
 本データベースを分析しましたところ、たとえば年齢に関しては、年を取るに連れて声の高さは低く、あるフレーズを早く発声した後で次のフレーズはゆっくり発声するなど、話す速度のむらは大きくなる傾向があることが確認できました。地域的、年齢的な要因が音声認識に及ぼす影響については、今後の研究課題として検討を進めるつもりです。次の節では、その手始めとして行った、各地方別、年齢別の音声認識実験について述べます。

4.地方別、年齢別の音声認識実験
 ATR音声翻訳通信研究所で作成した音声認識ツールATRSPREC[4]を使って、不特定話者用の音声認識システムを構築し、各地方別、年齢別に音素認識率を調べました。なお、システムを構築する際、音響モデルの学習には、東京や神奈川出身の20代の話者を多く含む音声データベースを用いました。
 地方別の認識率の中央値は高い順に、九州78.2%、中国78.2%、北海道76.9%、関東76.7%、中部76.5%、四国76.4%、東北75.6%、関西75.4%でした。東北や関西地方の認識率が低い理由のひとつとしては、東京や神奈川の方言とは、大きく特徴が異なる方言であることが考えられます。
 年齢別の認識率の中央値は高い順に、30代77.2%、20代76.8%、10代76.6%、40代75.0%、50代72.6%、60代70.1%でした。30代をピークに年を取るに連れて、認識率が低下していきました。この理由としては、もともとこのシステムが20代の話者を多く含む音声で学習されていることが考えられます。3.節で述べました、老年になるほど話す速度のむらが大きくなることも、音素ごとに安定した発声が得られにくいという点で関係していると思われます。
 今後は、地域や年齢を手始めに、認識しにくい話者について、その音声の特徴を明らかにして行きたいと思っています。そして、人見知りをしない音声認識システムを目指していきます。

5.おわりに
 ここで述べました、スケジューリング・タスク・データベースは近日、国際電気通信基礎技術研究所より販売される予定です。本データベースを外部の研究機関にも公開することにより、日本語の音声認識研究が発展していくことを期待しています。


参考文献


Copyright(c)2002(株)国際電気通信基礎技術研究所