Yahoo! BOSS + クラスタリング + GAEの検索システム「Clustsrch」
ClustsrchはPython製のフリーウェア(ソースコードは公開されている)。Yahoo! BOSSとはBuild your Own Search Serviceの略で、カスタマイズ性の高い検索システムを構築できるWeb APIだ。自サイトのサイト内検索として使ったり、そこから得られるデータを使って様々なマッシュアップを構築したりするのに使われる。
Yahoo! BOSSを使った検索システム
そんなYahoo! BOSSを検索システムとして使ったのがClustsrchだ。ただそのまま使うのではなく、階層型クラスタリングと呼ばれる手法を盛り込んでいる。結果から得られる単語を取り出して、グループ化していく手法だ。
Clustsrchで検索を行うと検索結果とは別にグルーピングされた情報が表示される。それをクリックすると検索結果が絞り込まれる仕組みだ。Googleのサジェストに似ているが、さらに単語が多く提供されるようになっている。単語を選ぶとさらにドリルダウンできる。
ドリルダウンを繰り返せる
ドリルダウンを繰り返せば最終的に一つの結果に行き着くことができる。それが目的の結果に近づくことになるかも知れない。またClustsrchはGoogle App Engine上で提供されているのも特徴となっている。日本語のキーワードも問題なく利用可能だ。
hideki’s clustsrch at master - GitHub