image-extratorはURL中にあるメインとおぼしき画像を取得するソフトウェアです。

Webサイトのサムネイルサービスでよくあるのはスクリーンショットを撮ってサムネイル画像を返却するサービスです。しかしこれでは雰囲気は分かっても同じドメインだとどれも似たような画像になってインパクトに欠けます。そこで使ってみたいのがメインの画像を返してくれるimage-extratorです。


一例です。


例えばYahoo! Japanのトップページです。この場合、


この画像が選択されました。


こちらの記事の場合は…


こちらの画像です。

image-extratorはRedditのシステムで使われているスクレイピングコードをベースに作られています。システムはGoogle App Engineを使っており、URLを投げるとその画像のパスが返ってくる仕組みです。

image-extratorはPython/Google App Engine製、Apache License 2.0のオープンソース・ソフトウェアです。

MOONGIFTはこう見る

image-extratorは一定のアルゴリズムに沿って画像を検出していますので、確実にメイン画像であるという保証はありません。しかし何となくそれっぽい画像さえ返ってくれば実情として問題はないでしょう。このそれっぽさというのが一番大事なポイントです。

利用者が細かく指定すればもちろんちゃんとした結果が得られると思いますが、それでは利用者の手間ばかり増えてしまってあえて利用したいと思わなくなってしまうでしょう。いかにユーザ負荷が少なく満足度が高い結果が返せるか、そのバランスはどんなサービスにおいても求められています。

superfeedr/image-extrator