Heritrix
オープンソース・クローラー
Web Archive製のクローラーです。ログ、レポート機能共に充実しています。
オープンソース・クローラー
最近、個人的なプロジェクトでWebクローラーが必要になった。自作しても良いが、これはこれで奥が深い世界だ。できればオープンソースに頼っておいた方が、ノウハウを得やすいだろう。
幾つか候補があるが、まずはこれを試してみよう。
今回紹介するオープンソース・ソフトウェアはHeritrix、Web Archiveの開発したクローラーだ。
Web Archiveは知っての通り、Web上に存在する全てのサイトをアーカイブしようというプロジェクトだ。膨大な量のサイトをかなり前に遡って見ることが出来る。
Heritrixはそこで利用されているクローラーで、Javaベースで動作している。専用HTTPサーバを立ち上げれば、ごくごく簡単に設定、実行が可能だ。ログやレポーティング等の機能も充実している。
クローラーとしての利用だけでなく、レポートを見る事で404エラーを発見する事もできる。完成度の高いクローラーだ。
Heritrix レビューはこちら