注目キーワード

MOONGIFT

OSSを中心としたメディアポータル

Webサービスを作る上で、外部のデータを取得して何かしたいといったことは良くある。いや、外部に限ったものではない。ローカルのデータであっても取得して、それを検索したいという要望は良くあるものだ。 0

entrance13.png
ユーザ側の検索画面 0

 

そうした時にクローラーを自作したりすると思うのだが、robots.txtの解釈や効率的なクローリング法を習得するのは大変なことだ。そこで試してみたいのがこれだ。 0

今回紹介するオープンソース・ソフトウェアはInfoCrawler、Java製のWebクローラーだ。

InfoCrawlerは設定項目も数多く、クローリングシステムとして優秀なものになると思われる。複数サーバ設置して分散化もできるようだ。HTMLや画像、各種バイナリ等ファイル種別を指定してクローリングを行うか否かを指定できる。 0

entrance12.png
インデックスするファイルを指定する画面 0

 

認証が必要なサーバにも対応し、言語によってフィルタリングをすることもできる。クローリングした内容はMySQLやSQL Server/Oracleへも保存できるので、再利用も十分考えられるだろう。 0

一度に複数のスレッドが立ち、データを取得、コンテンツの解析等を行ってインデックス化していく。ローカルやリモートファイルシステムでも利用できるようなのだが、そこは試していない。 0

entrance10.png
クローリング中の画面 0

 

ユーザ側の画面は何となくGoogle似のシンプルな構成になっている。だがコレクションを選択して検索を行う点が大きく異なる。社内の検索システムや、自社Webサイトの検索システム等、幅広く対応できるソフトウェアだ。 0

 

SourceForge.net: infocrawler
 http://sourceforge.net/projects/infocrawler/ 0

MOONGIFTの関連記事

このエントリーを含むTwitter

Related Posts Plugin for WordPress, Blogger...
新規購読
新規購読

プレミアムでしか読めない記事が160あります。ぜひ登録を!

  • オープンブロックス - OpenBlockS
  • 広告募集

ぷらっとオンラインおすすめ商品もっと見る

もっと見る

人気記事もっと見る