TR-SLT-0063 :2004.03.23

丸山岳彦,柏岡秀紀,熊野正

日本語節境界検出プログラム CBAP の開発と評価

Abstract:従来の文分割研究において,文の分割点として利用されてきたのは,「節」の境界である. しかしながら,実際に文の分割点として用いられる節境界はごく一部の種類のものに限ら れており,文に含まれる節境界を網羅的に検出する手法は考えられてこなかった.我々は, 日本語の文に含まれる節境界の位置を網羅的に検出し,その種類を特定するプログラム "CBAP(Clause Boundary Annotation Program)"を開発した.CBAPは,形態素解析の 結果を入力とし,局所的な形態素の連接を対象としたパタンマッチによって,147種類の節境 界を検出する.CBAPを性質の異なる5種のコーパスに適用したところ,いずれのコーパ スでも97\%以上の検出性能が確認された.この検出結果を利用することにより,言語学 的に意味のある文の分割点を特定することができ,従来の手法よりも柔軟に文分割を行な うことができる.また,1~3形態素という非常に局所的な範囲のみから節境界を検出でき るため,発話に追従して処理を進めていく漸進的構文解析や同時通訳システム,また,句 点を含まない音声コーパスを対象とした発話分割処理などに有用である.本稿では, CBAPによる節境界の検出手法を示し,節境界を用いて文分割・発話分割処理を行なった事 例をもとに,節境界検出の有用性を述べる.