ArchiveBox - Webコンテンツをアーカイブ
オンライン上には二種類の情報が存在します。一つは未知の情報、一つは既知の情報です。未知の情報を探す際にはWeb検索が便利なのですが、既知の情報は意外とうまく探せません。一度見た情報がフィルタになってしまい、キーワードがうまく出てこなかったり間違ったりしてしまいます。 そこで既知の情報をローカルにバックアップしておくと便利です。今回は自分で立てるWebアーカイブ、ArchiveBoxを紹介します。
ArchiveBoxの使い方
ArchiveBoxは archive コマンドで指定したURLのコンテンツをHTML、PDF、画像などで保存してくれます。
例えばこんな感じ。
HTMLはスタイルシートは保存してくれないようです。
PDF。こちらはちゃんとデザインも反映されています。
画像。こちらも日本語含めて保存されています。
ArchiveBoxではさらにInternet Archiveのサイトにもジャンプできるようになっています。ブラウザの履歴、ブックマーク、Pocket、PinboardなどからURLをまとめて取得することもできます。これを定期的に実行すれば、既知の情報を管理できるはずです。
ArchiveBoxはPython製のオープンソース・ソフトウェア(MIT License)です。