[Namazu-devel-ja 754] Re: フレーズ検索って N-gram ですよね

Tadamasa Teranishi yw3t-trns @ asahi-net.or.jp
2005年 12月 3日 (土) 06:28:10 JST


寺西です。

# 余談です。

Tadamasa Teranishi wrote:
> 
> NOKUBI Takatsugu wrote:
> >
> >   手元には、「情報検索アルゴリズム」(共立出版, ISBN4-320-12036-1)とい
> > う書籍があります。このなかでいう複合型N-gram索引というのが近いような気
> > がします。
> 
> なるほど。ちょっと見てみます。

書籍は早々に購入していたのですが、全然読む時間がなくて、最近やっと
読んでいるところです。

それで。
複合型N-gram索引についてですが、これはグラムを文字単位で考えた
場合に、漢字は bi-gram, カタカナは tri-gram で行うというように
文字種によって N の値を調整するものです。

たぶん、何かのフリーの検索システムでもそのようなものが使われていた
かと思います。(というよりは、日本語の場合、それが主流かもしれません。)
# 何だったかは忘れましたが...。

このため、フレーズ検索の N-gram の話とはちょっと違いますね。

この「情報検索アルゴリズム」は検索アルゴリズムが主体なのでか、
N-gram に関する内容は文字単位が基本で書かれていますね。

N-gram 関係の書籍じゃないと単語を gram の単位で扱うのは、少ないのか
もしれません。(N-gram は検索用途のものではありませんから)
そもそも単語を gram の単位として扱うことが少ないでしょうけども。
-- 
=====================================================================
寺西 忠勝(TADAMASA TERANISHI)  yw3t-trns @ asahi-net.or.jp
http://www.asahi-net.or.jp/~yw3t-trns/index.htm
Key fingerprint =  474E 4D93 8E97 11F6 662D  8A42 17F5 52F4 10E7 D14E




Namazu-devel-ja メーリングリストの案内