Portia - DOMで指定できるスクレイピングエンジン
Web APIがどれだけ広まろうともスクレイピングの需要はなかなかなくなりません。特にWebサイトがシステム化されるのに合わせて、画面構成が一定のテンプレートに沿って出力されるようになったので、より定型で情報が取得できるようになっています。 今回紹介するPortiaはスクレイピングの基本である取得場所の設定をビジュアル的に行えるソフトウェアです。
Portiaの使い方
PortiaはScrapingHubというWebサービスの中で一機能として提供されています。
こちらがメイン画面です。蜘蛛がモチーフです。
任意のWebサイトを表示します。
そして欲しい情報があるDOMを選択します。
重なって取得もできます。例えばタイトルとリンクといった具合です。
右側に設定が一覧表示されます。
テストで実行して結果を確認できます。
Portiaを使うと対象の画面を見つつ、ビジュアル的に取得したい場所を指定できます。Portiaは配列で取得することができないようなので、一覧画面よりも詳細画面の情報を取得するのに向いているようです。
PortiaはPython製、BSD Licenseのオープンソース・ソフトウェアです。
Portia | Scrapinghub scrapinghub/portia: Visual scraping for Scrapy