OCRmyPDF - PDFをOCR解析して透明テキストを付加
PDFを作る方法は幾つかあります。ドキュメントエディタで出力する分には透明テキストが含まれており、検索もできます。しかし単に画像を重ねただけのPDFの場合、文字はあっても検索できないため使い勝手が非常に悪いでしょう。 そこで使ってみたいのがOCRmyPDFです。PDFをOCR処理を施して検索可能なPDFファイルにしてくれます。
OCRmyPDFの使い方
変換前です。画像なので検索できません。
変換は元ファイルと変換後のファイルを指定するだけです。オプションも多数あります。
$ ocrmypdf xbanner_l.pdf output.pdf
変換後です。検索結果が出るようになりました。
OCRmyPDFは透明テキストを元々の文字と位置を合わせてくれるので便利です。なお日本語は対応していなかったり、ロゴのような文字は解析が難しい場合もあります。また、OCRを行う関係上、画像要素にしか対応していません。条件は幾つかあるものの、PDFが検索できるようになるだけでも大きな一歩です。
OCRmyPDFはPython製のオープンソース・ソフトウェア(MIT License)です。