インターネットを介して送られてきた、またはダウンロードしたPDFやオフィスファイルは、そのまま信頼して開くのは危険です。マクロが組み込まれていたり、マルウェアに侵されている可能性があります。 そこで使ってみたいのがDangerzoneです。PDFやオフィスファイルを安全なPDFファイルにしてくれるソフトウェアです。

Dangerzoneの使い方

メイン画面です。PDFやオフィスファイル、または画像を指定します。

変換中です。

Dangerzoneの仕組みはこうです。まずファイルをすべて画像にします。その上でOCRを使ってテキストを抽出し、画像を結合したPDFに埋め込みます。そのため、最初の画面で言語も指定する仕組みです。一旦画像を経由することで危険なコードもなくなるという訳です。変換時にもDockerを使うので安全に変換できます。

DangerzoneはPython製のオープンソース・ソフトウェア(MIT License)です。

firstlookmedia/dangerzone: Take potentially dangerous PDFs, office documents, or images and convert them to a safe PDF