HTMLから本文抽出「Extractcontent」 // MOONGIFT Archived

ブログやサイト内の文字列を扱うサービスの中で、HTML中における本文を抽出するというのは重要な課題だ。ライブラリ化したものや、クローラとして提供されるものなど様々な形態が存在する。

そんな中、サイボウズの提供するサービス「パストラック」で利用されているその本文抽出モジュールはオープンソースとして公開されている。

今回紹介するオープンソース・ソフトウェアはExtractcontent、Rubyによる本文抽出モジュールだ。

Extractcontentは一つのRubyスクリプトからできている。読み込むだけで使えるので、Rails等に組み込むのも簡単だ。HTML全体を渡すと、タイトルと本文を同時に取り出してくれる。

パラメータは細かく存在し、それを変更する事で性能を変更できる。が、まずデフォルトのままで大丈夫だろう。

ライブラリだけで本文抽出ができるという手軽さが良い。ブログを使ったテキストサービスを考えている人は要チェックだ。

Web** ページの本文抽出 **** (nakatani @ cybozu labs)**
　http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html