Katsuhisa FUJINAGA, Hiroaki KOKUBO, Hirofumi YAMAMOTO, Genichiro KIKUI
Mis-recognized Utterance Detection Using
Multiple Language Models Generated by
Clustered Sentence
Abstract:本稿では,音声認識結果の発話単位の正解判定法について提案する.本手法は,複数のシステムが
同じ単語を出力している部分は正解である可能性が高いというROVER法の考え方に基づき,複数
の認識システムの信任投票により正解を判定するものである.ROVER法には(1)認識シス
テムを複数用意することが困難,(2)計算コストがシステム数に応じて増加,という問題点が
ある.本稿では最初の問題に対しては,コーパスの自動クラスタリングにより任意の数の言語モ
デルを生成し,2番目の問題に対しては,リスコアリングを用いる.本手法に対し,大語彙連続
認識結果の正解判定による評価を行った.その結果,正解判定を行わない場合と比較して,認識
結果に含まれる正解文を10%捨てることで18ポイント,20%捨てることで24ポイント高い適合
率が得られた.