Y. Kato, T.Kosaka, H. Kida, Y. Sagisaka
Speech Database Labeling
for Speaker-independent Model Training
Abstract:不特定話者認識に対する音素モデルを学習するため、ATR多数話者音声データベースの文節発声データ291話者について、ラベリングを行ったので報告する。従来のラベリング作業の手続きによると、大量の音声データを処理するには多くの労力と時間を要する。そのため作業をソフトウェアによってほとんどの処理を自動化しまた、モデルの学習に必要な最低限の情報を記述した。ラベル情報は、各文節の始終端の情報とその文節の発声内容(トランスクリプション)を含んでいる。本稿では、ラベリング作業の内容と使用したソフトウェアの解説をする。また、学習データとして利用する際の参考となるように、音声データに関するコメントを付録として添付した。