高速なテキストの分類分けに「bayon」
bayonはフォーマットに沿った入力データを高速にクラスタリングするソフトウェアです。
テキストコンテンツは世の中にあふれています。そうしたコンテンツを収集するのは容易ですが、次はうまく分類分けして表示しなければなりません。そこで使えそうなのがbayonです。高速なクラスタリングを実現するソフトウェアです。
インストールします。configure、make、make installで完了です。
サンプルのファイルです。左がIDで、それに続く右側が属性となっています。
実行しました。100分割なので全てばらばらに検出されています。
例えば上記例では2つのグループにクラスタリングされています。
bayonは特徴的なキーを自動判別したり、クラスタリングの手法を変更することもできます。デフォルトではRepeated Bisection法ですが、K-meansを利用するように変更できます。bayonの特徴は高速さとシンプルな構成にあります。実際、使い方はとてもシンプルです。
bayonはGPL v2のオープンソース・ソフトウェアです。
MOONGIFTはこう見る
ベイジアンフィルタもそうですが、テキストコンテンツが膨大に増えていく中で、その判別技術のニーズは高まっています。例えば感情を読み取ったり、コンテンツ内の商品に関する評価を汲み取ったりする類の技術です。広告にも役立てられています。クラスタリングもその一つと言えます。
クラスタリングをうまく使うとユーザへのお勧めコンテンツであったり、知っているであろう友人の紹介にもつなげられそうです。膨大なデータを集めるのは容易ですが、それをうまく扱えなければ意味がありません。マーケティングなどでも活躍しそうなソフトウェアです。
bayon - a simple and fast clustering tool - Google Project Hosting