外部のWebサイトを集約して情報を提供する、いわゆるキュレーションサイトが増えています。そういったサイトを作る際に欲しくなるのはあるURLのタイトルとメインコンテンツを取得するという機能です。 MOONGIFTでは独自に作っているのですが、そういった機能が欲しいと思ったらnodeで作られたunfluffを使ってみるのはいかがでしょうか。

unfluffの使い方

コマンドラインで使う場合はURLを渡すだけです。JSONで返ってきます。

日本語はちょっと苦手かも知れません。タグやキーワードも一緒に取り出してくれます。

基本的にはメタタグと、メインコンテンツとおぼしき部分の取得になります。JSONで返ってきますので、外部プログラムとして使ってもいいかも知れません。descriptionとはまた違ったテキストが得られるでしょう。

unfluffはnode/JavaScript製のソフトウェア(Apache License 2.0)です。

ageitgey/node-unfluff