Heritrix サムネイル

オープンソース・クローラー

Web Archive製のクローラーです。ログ、レポート機能共に充実しています。

オープンソース・クローラー

Heritrix スクリーンショット

最近、個人的なプロジェクトでWebクローラーが必要になった。自作しても良いが、これはこれで奥が深い世界だ。できればオープンソースに頼っておいた方が、ノウハウを得やすいだろう。

幾つか候補があるが、まずはこれを試してみよう。

今回紹介するオープンソース・ソフトウェアはHeritrix、Web Archiveの開発したクローラーだ。

Web Archiveは知っての通り、Web上に存在する全てのサイトをアーカイブしようというプロジェクトだ。膨大な量のサイトをかなり前に遡って見ることが出来る。

Heritrixはそこで利用されているクローラーで、Javaベースで動作している。専用HTTPサーバを立ち上げれば、ごくごく簡単に設定、実行が可能だ。ログやレポーティング等の機能も充実している。

クローラーとしての利用だけでなく、レポートを見る事で404エラーを発見する事もできる。完成度の高いクローラーだ。

Heritrix レビューはこちら