タイトル・本文抽出クローラー「Webstemmer」 // MOONGIFT Archived

これはやばい！凄すぎる。

現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。

そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。

今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・本文抽出クローラーだ。

WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。

動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた（考えていただけ）方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。

特徴的なのは、特定の言語に左右されること無く利用できる点だ。日本製なので、日本語はもちろん英語であったとしても利用できる。

結果としてあるURLを当てると、パターン、タイトル、本文、それ以外の情報が取得できるようになる。ブログやWiki、CMSなどテキストをメインコンテンツとして扱うサイトは数多く存在する。それらのサイトの情報を抽出し、サービスを考えた際には要注目のソフトウェアだ。

Webstemmer
http://www.unixuser.org/~euske/python/webstemmer/index-j.html