N-gram式全文検索

N-gram式の全文検索エンジンです。

N-gram式全文検索

null

インターネット上では検索エンジンを使うのが当たり前になっている。だが、情報はパブリックなものだけではない。ローカルやファイルサーバ上にも情報は山のように存在しているはずだ。

意外にファイルサーバなどでは検索が活用されていないケースが多い。フォルダで分類分けした、言わばディレクトリ検索型だ。しかしこれでは属性が複数にまたがった場合や、管理・整備コスト、定期的なメンテナンスが必須になるのは分かっている。ではどうしたらいいだろう。

本日紹介するオープンソース・ソフトウェアはRast、全文検索エンジンだ。

全文検索と言うとNamazuが代表に挙げられるだろう。Namazuは分かち書きによってドキュメントを分割するが、Rastの場合は加えてN-gram方式が利用できる。こちらは検索漏れが生じない、辞書の整備が不要と言う特徴を持っている。

更に対応ドキュメントが多い。デフォルトでMicrosoft、OpenOfficeやMP3、各種アーカイブ、HTML、PDFなどに対応している(Office系文書は8月末に対応予定)。もう一つ付け加えるなら各種ライブラリの存在だ。Ruby、C、PHP用のモジュールやそれを利用したtDiary、MailDirの検索ツールなどがある。

検索と言う技術はコンピュータ、更にインターネットが生んだ新しい概念だ。また、それらは現実世界に存在しない。それだけにもっと可能性があるように感じられ、もっと活用されるべきだ。