Cloud Miningはタグクラウドや全文検索を使った構造化データに向いた検索エンジンです。

Webサイトで常に必要になるのが検索エンジンです。最近は全文検索エンジンが人気ですが、より大量の構造化データを検索するのに最適な検索エンジンとしてCloud Miningを紹介します。


デモです。IMDBを解析した検索エンジンです。


画面上部にタグ(検索キーワード)が出ています。


さらにタグを追加します。


最終的に1件にまで絞り込まれました。


こちらも別な検索エンジンです。

Cloud Miningは全文検索としてSphinxを使い、データからタグクラウドを生成したり、絞り込んだ件数の表示、年数や共演者などのデータをピックアップもできます。複雑な構造データから望んだレコードを取り出すのに使えそうです。

Cloud MiningはPython製のオープンソース・ソフトウェア(GNU Affero General Public License)です。

MOONGIFTはこう見る

Cloud Miningが特に役立ちそうな場面として業務システムが考えられそうです。全文検索を使って絞り込んだり、クライアントごとの絞り込みにも使えます。さらに取引の年数も指定できるなど高機能な検索エンジンになりそうです。

一般的に業務システムの検索ではマスタと前後一致くらいの検索しか使われていないことが殆どです。しかし業務システムではデータをいかに活用するかが肝になるはずです。より精度の高い、高速な検索エンジンを使ってみるのは面白そうです。

Cloud Mining - IMDb

Cloud Mining - MEDLINE

alexksikes/CloudMining