技術 - スクレイピングの記事一覧
degoogle - CUIでGoogle検索
Googleの検索は使いたいけれど、何かしら情報を取られるのが嫌だという人は多いはずです。クリックしたURLをトラッキングしていたり、広告が表示されるのも邪魔に感じます。そこで使ってみたいのがdegoogleです。スクレイピングを使ってGoogleの検索結果を表示します。## degoogleの使い方degoogleを...
google-it - Googleの検索結果をJSONで保存
Googleの検索結果はSEOを行う上で大事な指標になります。毎日決まった言葉で検索して、その準備を記録している方もいるのではないでしょうか。Googleの検索結果は実行すでデバイスごとに最適化されているので、全員が同じという訳ではありませんが、蓄積することに意味があります。今回紹介するgoogle-itはGoogle...
newscatcher - ニュースサイトに特化したPython製のスクレイピングライブラリ
ニュースサイトは広告が多く、Webブラウザで目的の記事を探すのも面倒です。そのため、RSSフィードを登録している人もいますが、頻繁に訪れるサイトでもなければ、それも面倒です。そこで使ってみたいのがnewscatcherです。ニュースサイト専用のスクレイピングライブラリです。## newscatcherの使い方NY Ti...
goop - Google検索結果をスクレイピング
Googleの検索結果を取得して分析に使いたいと考える人は大勢います。しかし機械的に収集しようとすると、GoogleからCAPTCHA入力が求められます。そのため自動化しづらく、手作業で収集している人も多いでしょう。しかし裏道がありそうです。Facebookを経由するとそのトラップに引っかからないようです。その実証とし...
ScrapingEx - VBA用のスクレイピングクラス
Excelは表計算に加えてドキュメント(ソースコードは公開されていますがライセンスは明記されていません)やデータベースにもできます。さらにプログラミングを行うことで、あらゆる情報を管理できる万能ツールにさえなります。ネットワークと組み合わせることで、その万能感は揺るぎないものになるでしょう。今回紹介するScraping...
Portia - DOMで指定できるスクレイピングエンジン
Web APIがどれだけ広まろうともスクレイピングの需要はなかなかなくなりません。特にWebサイトがシステム化されるのに合わせて、画面構成が一定のテンプレートに沿って出力されるようになったので、より定型で情報が取得できるようになっています。今回紹介するPortiaはスクレイピングの基本である取得場所の設定をビジュアル的...