日本全域自然音声データベース
−人見知りをしない音声認識システムの実現を目指して−

A large-scale spontaneous speech database over Japan
- Towards a speech recognition system beyond speaker differences -



(株)ATR音声翻訳通信研究所 第一研究室 松井 知子



音声認識システムには、認識しやすい声と認識しにくい声があります。そのために、ほとんどのシステムは人見知りをします。認識しやすい/しにくい声とは、どういう声なのでしょうか。どのような要因から生じるのでしょうか。本報告では、それらを解明して、人見知りしない音声認識システムを実現するために、ATR音声翻訳通信研究所で収録しました、大規模な日本語音声データベースについて紹介します。

For speech recognition systems, some voices are difficult to recognize while others are not. All speech input systems are suffering from speaker variances. Which voices are easy or difficult to recognize? Which factors cause this effect? This paper introduces a huge the Japanese speech database which was collected at ATR Interpreting Telecommunications Research Laboratories to investigate those questions and realize a speech recognition system without requiring any selection of speakers.


本文へ