ITエンジニア/デザイナ向けにオープンソースを毎日紹介

技術 - クローラーの記事一覧

プレミアムユーザー限定記事

MOONGIFTプレミアムは、月額500円の有料サービスです。詳細はこちらから

もっと見る

List

  • Premium_s 2014/04/25

使えるWebサービス・オープンソース(26)「クローラー」

今回のテーマはクローラーです。Webサイトを開発していたりする際に欲しくなるのがクローラーです。外部のコンテンツを取得するのにJavaScriptではクロスドメインの制約があるのでサーバサイドから取得するなんてことはよくあると思います。しかし意外とHTTPヘッダーの解釈や文字エンコードなどクローラーを書くのも一筋縄では...

24875?type=list&url=http%3a%2f%2fwww.moongift.jp%2fwp-content%2fuploads%2f2011%2f01%2fscreenshot2011-01-21-14.10.35_thumb

  • 2011/01/30

日々のサイト運用に。Ruby製のリンクチェッカー「rawler」

rawlerはRubyで作られたコンソールで動作するリンクチェッカーrawlerはRuby製のオープンソース・ソフトウェア。Webサイトを運営していると、リンクが変更されたりドメインごと移転したりする。そうした作業の蓄積によって、次第にリンク切れが発生していく。だがこれまでのコンテンツ全てについてチェックするのは大変だ...

None

  • 2007/09/03

タイトル・本文抽出クローラー「Webstemmer」

これはやばい!凄すぎる。現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。今回紹介するオ...

List

  • 2007/08/03

クローラーも分散型コンピューティング「Grub」

Open Tech Press | 米Wikia:分散型ウェブ巡回ツールを買収、オープンソース化より。 分散型コンピューティングという手法は面白い。古くはSETI@HOMEやUD Agent等があった。コンピュータが高性能化し、台数が急増している中、利用度はむしろ低くなっている可能性は否めない。そして、Web巡回を行う...