鳳鳴は祖父の俳号

日記 メモ そんなの

辺境の1990年の自然言語処理

 ネットにも接続するのに苦労していて、もっぱらNifty-Servreと草の根ネットの時代、自然言語処理はどうしていたか。
第五世代コンピュータ計画も後半にむかって下火になり、ブームはニューラルコンピューティングによる画像認識で隣の研究室が熱かった。自然言語処理不遇の時代。そんな中、ビッグデータといえば新明解国語辞典の磁気テープ、分類語彙表、IPA辞書。合わせて50MBくらいだったか。
 汎用機の上でPL/Iを使ったB-Tree検索システムを先輩が作っていて最左部分語をマッチしたものを出力できるようになっていた。ただし端末から操作するもので、結果は紙に印刷。国語辞典を引きながら確認。よそから覗かれた時、広い机に印刷結果を広げて全員でもくもくと辞書片手にチェックしていたのでここはほんとに電子工学科か、と思われたそうだ。
 が、転機が訪れる。学内にイエローケーブルが敷設されることになり、またNTT-ITからLISPマシンELISを借用できることになったのだ。これはイーサネットに繋いでデータを自在に持っていける。計算機センターの汎用機とTCP/IPで直結し、漢字データをFTPで転送、漢字コードを変換してソート&マージ。かなりこのELISがデータ加工マシンとして役立った。ELISにはkermitという通信ソフトでPC9801をぶら下げ、そいつに付いている130MBのHDDと5インチMOディスクにデータを保存した。調査・検証はLISPマシンでは習熟度の関係で難しい。そこでPC上に展開した。まず日本語対応のlookコマンド(二分検索)を作りソート済みデータからの突き合わせや抽出はこれとawkスクリプトで組み合わせて行う。一方ではPL/Iで作られたB-Treeを当時流行りだしたTurbo-CやQucik-C(MS-Cの廉価版)に移植。なおプログラムのできないものは従来通り紙と辞書で集計。この1年で辞書データは完全にPC9801上でのみ動くようになった。分類語彙表からの類似語を抽出して共通する極大語が6つした出なかったので論文発表を大いに誤魔化したなあ。その他のことは任せて、形態素解析器の作成に着手した。辞書が貧弱なので助詞、送りを中心に文の後ろからチェックし、解釈できない品詞は仮の名詞や仮の動詞に置くことで文頭まで調査する、というのを作った。プログラムサイズはスモールモデル、つまりコード+データで64KB以内だった。
そう、今とても自然言語処理やったことありますと大きな声で言えないのは、ツールなし、データなし、決まった方針なしでさまよっていたからです。現在のいろんな分析器、玉石混交だがビッグデータ、超高速な計算機でまったく世界が違う。そんな印象を受けています。