TR-I-0112 :Aug.1989 ( Internal Use )

宮武正典

会話文音声生成のための音声合成、および ニューラルネットワークへの連続音声への適用

Abstract:昭和 61年(1986年)9月より、平成元年(1989年)8月まで、自動翻訳電話研究所において、音声の合成、認識の研究を行った。ここにその概要を報告する。 会話文音声生成のための音声合成 より人間らしい,多種多様な音声を合成するためには,概念の形成から実際の音声 の合成までの間に解決すべき様々な問題が山積している。その手始めとして,種々 の口調・発声様式が韻律(声の大きさ,高さ,速さなど)に及ぼす影響の分析を行い,韻律パラメー夕間に強い相関関係があることを明らかにした。また,種々の発声様式に適応できる基本周波数の制御法を提案した。 ニューラルネットワークの連続音声への適用 従来より高い音韻認識率を示していたニューラルネットワークであるが,連続音声への 適用方法が確立されていなかった。今回,時間遅れニューラルネットワーク(TDNN) を用いた音韻スポッティングの手法と,そのための効率的な学習方法とを提案し,単語音声 において音韻抽出率98.0%と極めて高い音韻スポッティング技術を確立して,ニューラル ネットワークによる連続音声認識の可能性を示した。