オンライン上には二種類の情報が存在します。一つは未知の情報、一つは既知の情報です。未知の情報を探す際にはWeb検索が便利なのですが、既知の情報は意外とうまく探せません。一度見た情報がフィルタになってしまい、キーワードがうまく出てこなかったり間違ったりしてしまいます。 そこで既知の情報をローカルにバックアップしておくと便利です。今回は自分で立てるWebアーカイブ、ArchiveBoxを紹介します。

ArchiveBoxの使い方

ArchiveBoxは archive コマンドで指定したURLのコンテンツをHTML、PDF、画像などで保存してくれます。

例えばこんな感じ。

HTMLはスタイルシートは保存してくれないようです。

PDF。こちらはちゃんとデザインも反映されています。

画像。こちらも日本語含めて保存されています。

ArchiveBoxではさらにInternet Archiveのサイトにもジャンプできるようになっています。ブラウザの履歴、ブックマーク、Pocket、PinboardなどからURLをまとめて取得することもできます。これを定期的に実行すれば、既知の情報を管理できるはずです。

ArchiveBoxはPython製のオープンソース・ソフトウェア(MIT License)です。

pirate/ArchiveBox: ? The open source self-hosted web archive. Takes browser history/bookmarks/Pocket/Pinboard/etc., saves HTML, JS, PDFs, media, and more…