技術 - クローラーの記事一覧
Google Robots.txt Parser and Matcher Library
Webクローリングを行う際にはrobots.txtを読み込まなければなりません。それによって許可されているコンテンツだけを対象とするのが行儀の良いクローラーです。Googleのクローラーは、数多あるrobots.txtを読み込んできた先駆者とも言えるでしょう。今回紹介するGoogle Robots.txt Parser...
PasteHunter - 突如現れる重要な情報を逃さずキャッチする
漏洩したIDやパスワードなどの情報がPastebinなどに貼り付けられることがあります。そうした情報は即座に世界中に拡散されていきますが、常時ある訳ではありません。長くとも数時間、短ければ5分で消されてしまうこともあるでしょう。そういった情報は次に表に出てくることは多くなく、一度逃したデータは見られなくなってしまいます...
Embed - Webサイトのメタ情報を取得
ソーシャルサービスなどの発展に合わせてWebサイトには多くのメタデータが埋め込まれるようになっています。それらのメタデータを用意することでよりリッチなコンテンツをユーザに提供したり、意図しない情報共有を防げるようになります。今回はそうしたWebサイトに埋め込まれた各種情報をピックアップできるEmbedを紹介します。##...
使えるWebサービス・オープンソース(26)「クローラー」
今回のテーマはクローラーです。Webサイトを開発していたりする際に欲しくなるのがクローラーです。外部のコンテンツを取得するのにJavaScriptではクロスドメインの制約があるのでサーバサイドから取得するなんてことはよくあると思います。しかし意外とHTTPヘッダーの解釈や文字エンコードなどクローラーを書くのも一筋縄では...
日々のサイト運用に。Ruby製のリンクチェッカー「rawler」
rawlerはRubyで作られたコンソールで動作するリンクチェッカーrawlerはRuby製のオープンソース・ソフトウェア。Webサイトを運営していると、リンクが変更されたりドメインごと移転したりする。そうした作業の蓄積によって、次第にリンク切れが発生していく。だがこれまでのコンテンツ全てについてチェックするのは大変だ...
タイトル・本文抽出クローラー「Webstemmer」
これはやばい!凄すぎる。現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。今回紹介するオ...
クローラーも分散型コンピューティング「Grub」
Open Tech Press | 米Wikia:分散型ウェブ巡回ツールを買収、オープンソース化より。 分散型コンピューティングという手法は面白い。古くはSETI@HOMEやUD Agent等があった。コンピュータが高性能化し、台数が急増している中、利用度はむしろ低くなっている可能性は否めない。そして、Web巡回を行う...