このシリーズでは、いくつか一見細かいと思われることを述べてきました。その底流には基礎研究に大切な「本質を見極める。そして、自らのオリジナリティは何か」をできるだけはっきりさせる手段や思考形態の助けになるという思いがあるからです。また内容の性格上ある程度差し障りがあることが多いのですが、これからもそれを恐れずに、なるべく具体的に例示していきたいと思います。
(1) TDNN(Time Delayed Neural Network)の話
ATRの研究が軌道に乗り始めた大きなきっかけの一つに、設立後間もないATRに米国カーネギーメロン大学からやってきてくれたアレックス・ワイベル博士の業績を忘れるわけには行きません(これは担当の槫松社長や同大学に滞在していた鹿野研究室長(現在奈良先端科学技術大学院大学教授)らの尽力のおかげでした)。同博士は当時極めて難しいと見られていた英語のd,
p, tなど類似の音を表題のTDNNというユニークな方法で極めて高精度で認識(区別)することに成功したのです。これは当時ようやく盛んになり始めた神経回路網(Neural
Network)技術のすばらしい応用の一つでした。以下ごく簡単に原理説明をします(詳細はジャーナル第4号)。
神経回路網技術は、脳の中の神経網を真ねた回路で入力から出力に至る間に様々な情報処理をする、というのが一般的な手法です。TDNNでは最初に入力の音声信号(d,
p, tなど)をある短時間毎(実際は20ms)に区切ってその時間内での周波数スペクトルを求めます。ゴルフに譬えればこれは日々のスコアで、日によって数値がかなり変動します。そこで、例えば過去5回分の平均を取ります。次にコースに出ればその日の新しいスコアを入れ、代わりに5回前の一番古いスコアを外して直近5回分の平均を取ります。こうして常に1回ずつずらしながら5回分の平均スコアを付けていくと、調子の善し悪しが大局的に分かります。TDNNはこれと同じように少しずつ(厳密には20msよりもっと細かく)時間をずらせながら音声スペクトルの性質を総合化して入力音声信号の大局的性質をつかみ、最後dかpかtかなどを認識するやり方で、一世代を風靡する有名な手法になりました。少しずつ時間をずらせるので、ワイベル博士自身によってTime
Delayedという二語が頭に付けられました。
ところが、この手法は音声のように時間的に変化する情報に限らず、画像のような空間的な情報に対しても、解析する対象部分を少しずつずらしながら分析するというように広く応用でき、例えば「TDNNによる空間周波数分析」などと言う類の、時間遅れではなく空間的なずれの問題に対処する論文を現われるようになりました。ここでは時間の概念はもはや不必要です。こうして"TDNN"は固有名詞化しました。しかし、後世、そもそもの事情を知らない人が見れば何故“時間”そして“遅れ(遅らせる)“という単語が入っているのか不思議に思うでしょう。この後日談としては私はワイベル博士に「略号"TDNN"は広く使われるようになってもう変えられないから、TとDが頭文字の別のうまい単語を探してよ。丁度、CATVが初めのCommon
Antenna TVからいつのまにかCable TVに変わったように」と言ってあります。まだ答えは聞いておりませんが。皆さんも考えてみて下さい。
これはあまりにも卓越したアイディアであったために、それにだけ目を奪われてしまった例と言えます。最初にもう半歩でも踏み込んで「待てよ。時間だけでなく、空間にも同じ原理が適用できはしまいか。更に、もう一歩、多次元に拡張すればどうだろうか」とまで考えが及べばネーミングもきっと変わったでしょう。そして、この手法をより本質的に捉えることができた筈です。私は傍目八目でそういうことを指摘できる立場に居ながら、それができなかった不明を恥じています。
(2) MCE/GPD
このサブタイトルは校正未了なのではありません。その意味はすぐに分かります。次も音声認識にからむ話題です。これは片桐滋研究員(当時、現室長)がベル研究所の研究者と一緒に見出したパターン認識の優れた手法です。フルネームはMinimum
Classification Error/Generalized Probabilistic Descent Method(最小分類誤り/一般化確率的降下法)で、MCEとGPDという二つの用語の組み合わせです。パターン認識の難しさは平たく言えば似たようなパターン、例えば“わ”と“れ”、"d"と"p"と"t"などをいかにきちんと切りわけて分類するかというところにあります。従来広く使われてきた手法はやや隔靴掻痒のきらいがありましたが(詳細は省く)、片桐研究員らの発想は用語(MCE(最小分類誤り)に現われているように、一挙に認識の最終段階である分類誤りの最小化を狙う、という意欲的な発想の手法です。
ところで、この研究は「確率的降下法」の一般化つまり「一般化確率的降下法GPD」の提案から始まり、それが直接パターン認識の理想である「最小分類誤りMCE」に繋がった、という筋道を辿りました。そのため、最初は二つのキーワードの順序が研究の筋道通りGPD/MCEとなっていました。私はその話を聞いた時「待てよ。GPDは手段として大変優れているけれど、MCEはパターン認識の本質をズバリ突いた思想ではなかろうか」と思ったのです。そしてGPDはそれに向けての一つの有力な手段という位置付けではないか。この二つのキーワードはひっくり返してまず目的としてMCE、そのための一手段としてのGPD、とする方が筋が通る。将来誰かがMCEと言う本質的ターゲットに対して別の手段(XXX)を考えたなら、MCE/XXXと命名すればいい。そう思ったのです。
私はこのことを彼らに率直に話しましたところ、彼らもすぐに納得し、それ以来MCE/GPDが定着しています。そしてこれにも後日談があり、今では更にDiscriminative
Feature Extraction(DFE; 識別的特徴抽出法)という概念などに発展しているということです。私は用語を通して少しでも本質論議が進み、それが更に発展に繋がったとすれば傍目八目の機能は果たせたと思っております。
余談ですが、この片桐研究員らのベル研での仕事は四半世紀も前の古典的研究「確率的降下法」に神経回路網や音声信号処理という新しい光を当てて見直しをしてみよう、ということが閃いたことから始まったそうで、それが大きな成果に繋がりました。これに対して東倉室長(当時、現NTT基礎研究所所長、NTTコミュニケーション科学研究所所長)が「researchとはsearchの頭にreがついた言葉、まさに“温故知新”だね」と喝破したというエピソードもあります。含蓄のある話です。
(3) 頂上から眺め直してみよう−そして「半歩」とはこれと似た話は枚挙にいとまがありません。その共通的なことは、多くは研究者はまずは自分のやってきた筋道に(よく言えば)忠実、(悪く言えば)こだわり勝ちだということです。ですから、私はよく言いました「山に登った時、一々あそこで右に曲がった、あそこで遠回りをした、ついてに迷ってしまった、などは(経験として貴重ではあるけれど)一旦さておき、今度は頂上からもう一度眺めてご覧。そうするともっと全貌と、もしかしたらもっといい登り方が見つかるかも知れないよ」と。
研究には足踏みもあれば思い掛けない展開もあります。私自身若い頃日々実験に明け暮れ、そのようなことを体験してきました。問題は一連の研究をまとめる段になって「しまった。あの時もう少しパラメータを振らせてデータを採っておけばよかった」ということが時々あったことでした。当時は実験装置も大きく(真空管の時代でしたから)実験系を再構築するのは事実上不可能でした。
ですから、後であまりほぞを噛まないで済むように、研究の途上でなるべく幅広くデータを採っておくのは望ましいことです。しかし、歩む道々でわざわざ一歩ずつ寄り道をするのは何となくおっくうであったり、身構えたりすることでしょう。ですからあまり重荷に感じずにちょっとだけでも周りを見る、それが私の感覚では「半歩」なのです。科学的な表現ではありませんが。それによって全体として一歩でも本質に近付き、より適切な用語なり懸念が得られれば儲けものではありませんか。
(4) 路が先に拡がることもある
ATRでは発足直後から自動翻訳電話の研究を精力的に進めてきました。それ以前に書き物(テキスト)になった文章の翻訳を自動化しようという試みは「機械翻訳(machine
translation)」の名で古くから進められていました。それに対して自動翻訳電話は「話し言葉」が対象で、実時間での音声認識、音声合成などが新たな重要技術要素でした。ごく大雑把に言えば、日−英の場合は「機械翻訳」をする前に日本語の「音声認識」を行って音声を日本語のテキストに変え、「機械翻訳」で英語のテキストに翻訳した後に「音声合成」の機能を付けて英語のテキストから英語の合成音声を作り出す、ということで目的が達せられます。その先入観からかATRでも発足直後は「音声認識」−「機械翻訳」−「音声合成」と繋げたブロック図が書かれていました。
しかし私はこれに違和感を覚え、担当者に「この“機械”というのはコンピュータのこと?」と敢えて聞きました。「そうです」「それじゃ音声認識や合成にはコンピュータは使わないの?」「いいえ、全部コンピュータです」「じゃ何故機械認識、機械合成とは言わないの? 思想が一貫してないじゃないの。ついでに“機械”というのも古めかしいねえ」というやり取りの結果、機能の本質を踏まえた「音声認識」−「言語翻訳(language
translation)」−「音声合成」という一貫した考えで統一し、ある時期からはATRでの表現は見落としがない限り「機械翻訳」ではなく「言語翻訳」を使っています。しかし、これはいわば路の方が先に半歩と言わず一歩も二歩も拡幅されたにもかかわらず、古い地図をそのままにしているようなものです。古いことに詳しい人の陥りがちな落とし穴の例です。かつ、その路を拡げようとしたのは実はATR自身だったのです。