TR-I-0130 :1989.12

Jean-Claude DANG, Shin'ichi TAMURA, and Hidefumi SAWAI

Shift-invariant Deterministic Boltzmann Machines for Phoneme Recognition

Abstract:決定論的ボルツマンマシン(DBM)とは従来の統計論的ボルツマンマシンよりも学習がはるかに速いニューラルネットワークであり、統計論的ボルツマンマシンから導かれるものである。本論文では、決定論的ボルツマンマシン(DBM)の理論について簡単に説明した後、決定論的ボルツマンマシンの音声認識への適用について述べる。音素の時間軸方向の伸縮を考慮しない静的なDBMは、bdgの認識に於て、平均98.6%(最高99.1%)の認識率を達成した。また、全子音では97%の認識率を達成した。音素の時間軸方向の伸縮を考慮した動的なDBMでは、静的なDBMに較べて数パーセントの音素認識率の低下が認められるものの、状態フィードバックの動的な構造の効果が確認された。

The Deterministic Boltzmann Machine (DBM) is a form of neural network that learns much faster than the original stochastic Boltzmann Machine that it is derived from. In this paper we overview briefly the theory of DBMs, and describe their application to speech recognition. In a static phoneme configuration task the DBM obtained an average recognition rate of 98.6 % (best: 99.1 %) for the "bdg" task, and 97 % for an all-consonant task. In a dynamic recognition task (including time-shifts), rates are less good by a few percent, but a state-feedback dynamic architecture provided some improvement.