ことばのリズムが理解をたすける
1.ことばのリズム
「かっぱかっぱらった
かっぱらっぱかっぱらった
とってちってた」
(谷川俊太郎『ことばあそびうた』福音館書店より)
ふだん、あまり意識することはありませんが、うまくできた詩を耳にすると、なるほど確かにことばにはリズムがあるのだ、と納得せずにはいられません。
話しことばにとってリズムは、情報の受け渡しを円滑に行なうための基本的な約束事のようなものです。話し手(情報の送り手)と聞き手(情報の受け手)で同じリズムを共有しているからこそ情報伝達はうまくいくのです。もし、これが双方で食い違っていたりすると、とたんにコミュニケーションに支障をきたすことでしょう。このような事情は、話しことばに限らず、時間とともに変化する媒体を介した情報伝達手段(例えばモデムなど)には広く共通のものです。
ことばのリズムの共有は、コミュニケーションが人と人との間で行なわれている場合には、特に意識されることなく自然に実現されています。ところが、時代は既に人が機械と話しことばを使ってコミュニケーションをとろうというところまで来ています。人と機械の場合には、機械は人のように直感的にリズムを感じとってはくれませんから、それを補うためにどうしても人の側が機械に合わせることになり、余分な負担を強いられるようになりがちです。こちらが急いでいるかどうかとはお構いなしに、いつも一定のリズムで繰り返される自動応答システムに、不自然さを超えてある種のいらだちを覚えたことのある方も少なくないと思います。これを避けるためには、例えば、機械の話すことばを人に聞かせる場合には、人が使う手がかりを使って人が聞き易いリズムを作ってやることが求められます。逆に、機械で人の話すことばを聞きとる場合には、人が使っている手がかりでリズムを把握した方がより自然なしゃべり方に対応できると期待されます。つまり、「人の感じるリズムが何に基づいているのか」を機械に教えてやる必要が生じてきたのです。
2.何を聞いているか
ところが、これまでことばのリズムの手がかりについての研究は、どちらかといえば直感的な論考が多く、機械に教えてやれるような具体的なデータを伴う実証的な調査はあまり行なわれてきませんでした。例えば、拍あるいはモーラと呼ばれるのは基本的にひらがな1文字に一致するリズムの単位として直感的に定義された用語です。「刻」というタイミングのポイントも提唱されました。これは、ほぼ母音の開始時間に相当するタイミングであると説明されていますが、やはり直感から得られたものです[1]
。
そこで、私たちのグループでは、何をリズムの手がかりとして人はことばを聞いているのか、実証的なアプローチを試みることにしました。まずは、手がかりの候補を絞ることから始めるのが早道です。とは言うものの、発話によって大気中に放射された音声は、音楽(特に西洋音楽)のように楽器のアタックとか音程の離散的な変化で拍節構造が明示されているわけではありませんから簡単には決められません。しかし、リズムを示すための手がかりは、音声中の音響特性が定常な部分やぼんやりとした変化しか示さない部分ではなく急激に変化する部分であるということは確かなように思われます。そして、その手がかりは発話された音声中に普遍的に(それ相応の頻度で)しかも繰り返し存在しているものでなければなりません。
上記2つの条件をもっとうまく満たす候補として、私たちは“a, i, u”などの母音と“k, s, t, n”などの子音との境界をリズムの手がかりとして想定し、ここから調査を始めることにしました。
実は、ここまでは、おもしろいことに先達により直感的に得られた解と同じです。子音から母音への境界(C-to-V境界)は「刻」が想定したタイミング点と基本的に一致しますし、母音から子音への境界(V-to-C境界)は拍あるいはモーラの切れ目に常に一致します。しかしながら、C-to-V境界とV-to-C境界とどちらが手がかりとして重要であるのか、となると人によって見解が分かれます。双方に言い分があり、議論は尽きません。
3.V-to-CかC-to-Vか
そこで私たちは、この議論に決着をつけるため、一連の聴取実験を行ないました。図1に示すように、単語の中のある一つの音韻(母音か子音)の継続時間長を少し縮めてやり、隣の音韻を同じだけ伸ばしてやります。伸ばしたり縮めたりする部分をうまく定常的な性質をもつところだけに絞れば、変化の激しい境界部分だけが移動することになります。このようにして操作した音声をたくさんの人に聞いてもらい、元の音声に比べて時間構造がどれくらい違っているかあるいはどれくらい歪んでいるかを判定してもらえば、境界部分が時間の手がかりとしてどれくらい強く働くかがわかります。つまり、元のものとの違いがより大きいと判定されるほど、その際移動させられた境界部分が手がかりとしてより強力である、ということになります。
さて結果ですが、実は、V-to-C説、C-to-V説どちらにも軍配は上がりませんでした。そのかわり、手がかりの強さを示す別の要因があることが分かりました。それは、図2に示すような境界の前後におけるラウドネス1の落差で、この落差が大きいほど、境界の移動の影響が大きいという結果でした[1]
。
結局、直感によって片方が有利に見えたりしたが、おしなべて見ればV-to-C境界もC-to-V境界も変わりはなかったということです。それよりも、急激な大きさの変化が生じた点を「節目」として捉えようとする聴覚の基本的な特性が手がかりの重要性を支配するのだ、と解釈できます。さらに、これまでC-to-VかV-to-Cかという見方でリズムの聞こえの説明にある程度成功していたのは、それらが心理音響的にも意味のある大きなラウドネスの変化部分にたまたま一致していたから、とも云えるわけです。つまり、研究にあたって用いられたサンプルによって2通りの主張が導かれていたということになります。
この結果、ある意味では当たり前ではあるのですが、直感に基づく論考を行なった人々、それを常識と考えていた人々には少なからぬ驚きをもって迎えられました。
4.これから
以上お話しした成果はまだ基礎的なレベルのもので、これにより人と機械との話しことばによるコミュニケーションが飛躍的に向上するというわけではありません。C-to-V境界とV-to-C境界との関係についても、手がかりとしての強さの点では両者に差はないものの、機能的な違いはあるらしいことが最近分かってきており、まだ詰めなければならない点が数多く残されています。しかし、視点の転換、あるいはことばのリズムについての保守的な考えからの解放、を促すという意味で意義のある成果であると考えています。このような知識の積み上げが本当の意味で人に負担を強いないコミュニケーション技術の実現につながるものと信じています。
5.謝辞
聴覚による時間構造の知覚について助言をいただいた津崎主任研究員に感謝いたします。
参考文献
Copyright(c)2002(株)国際電気通信基礎技術研究所