Masahisa Shingu, Takatoshi Jitsuhiro, Yasuhisa Niimi, Satoshi Nakamura
Speaking Rate Compensation in Lecture-Style Speech Recognition
Abstract:話し言葉の音声認識に対して、現状の音声認識技術では未だ十分な精度は得られていない。発話速度の
変動が認識性能に影響を与えることが問題点の一つとして挙げられる。本研究では講演音声を対象とし、発
話速度を補正して認識する手法を検討した。分析周期を5msecと細かくした上で、隣接するフレーム間で
のMFCCのユークリッド距離を元に変動の小さいフレームを間引くことで発話変動を補正する。この手法
とフレーム周期をいくつか変えたものとの比較を種々の条件で行った。更に音響モデルの学習にもこの手
法を用い、認識実験を行った。また、発話速度、フレーム周期、認識精度の関係についても調べた。