TR-H-0206 :1996.11.26

河原英紀, Alain de Cheveigné

原理的に抽出誤りの存在しないピッチ抽出方法とその評価について

Abstract:基本波成分の瞬時周波数の計算に基づく音声の基本周波数の新しい 抽出方法を提案し、発声と同時に記録したEGG信号との相互比較と人工的信号を用い たシミュレーションにより、性能の評価を行なった。基本周波数の探索範囲を40Hz~ 800Hzとした場合、後処理無しの状態で既に本方法の性能は、従来の方法の性能を凌駕 している。因に、女性の発声した100文章音声の分析結果は、全分析結果の50%以上 が、EGGの分析結果の±0.3%以内に入っていることを示した。基本周波数および基本 周期に対して等方的なGabor関数を用いたwavelet分析に基づいて新たに『基本波らし さ』の指標を定義することにより、基本周波数を抽出せずに基本波成分を選択できるよ うにしたことが本方法の鍵となっている。(平成8年11月25日5:46 P.M.版、音声研 究会(1997.1.17)用は、本資料から抜粋)

A new F0 (fundamental frequency) extraction algorithm is proposed, which does not introduce extraction error in principle. The key is to define F0 as the instantaneous frequency of the fundamental component of the signal. This seemingly contradictory definition is made practical by introducing a new ‘fundamentalness’ measure. The measure is defined based on wavelet analysis using an iso-metric Gabor function. A series of evaluation using a database of simultaneously recorded sentence materials with EGG (Electro Glott-Graph) signals was conducted. The performance of the proposed method outperformed conventional methods without any post-processing for a 40Hz to 800Hz F0 search range. For example, over 50% of analysis freme of a 100 sentence female speech databese showed that the agreement is within ±0.3%.