PDFを作る方法は幾つかあります。ドキュメントエディタで出力する分には透明テキストが含まれており、検索もできます。しかし単に画像を重ねただけのPDFの場合、文字はあっても検索できないため使い勝手が非常に悪いでしょう。 そこで使ってみたいのがOCRmyPDFです。PDFをOCR処理を施して検索可能なPDFファイルにしてくれます。

OCRmyPDFの使い方

変換前です。画像なので検索できません。

変換は元ファイルと変換後のファイルを指定するだけです。オプションも多数あります。

$ ocrmypdf xbanner_l.pdf output.pdf

変換後です。検索結果が出るようになりました。

OCRmyPDFは透明テキストを元々の文字と位置を合わせてくれるので便利です。なお日本語は対応していなかったり、ロゴのような文字は解析が難しい場合もあります。また、OCRを行う関係上、画像要素にしか対応していません。条件は幾つかあるものの、PDFが検索できるようになるだけでも大きな一歩です。

OCRmyPDFはPython製のオープンソース・ソフトウェア(MIT License)です。

jbarlow83/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched