先ほどのTesseract OCRの記事ではスクリーンショットを掲載していない。実際に試すには試したのだが、公式サイトで配布されているものを使った訳ではないからだ。なにぶん、Linuxなどでコンパイルしながらインストールするのはちょっと面倒だ。

OCRエンジンの性能を試すなら、これが一番手軽だろう。何せWindows環境下で利用できる。

今回紹介するフリーウェアはTesseract Windows GUI、Windows上で使えるTesseractエンジンだ。それもGUIフロントエンドを持っている。

Tesseract Windows GUIを使えば試すのは簡単。画像を指定して、OCR Pageボタンを押せば良いだけだ。解析は画像サイズによって異なるが、サイズが大きいとそれなりに時間がかかる。そして結果が左半分に表示される。

さらにPDFファイルの解析も可能だ。ただスキャンした後、PDFにしただけと言ったものを解析するのにも使えそうだ。エンジンはTesseract OCRを利用しているので、カラーやグレースケールの解析は難があるといった所は変わらない。

いずれにせよ、エンジンの評価であればWindowsアプリケーションを使うのが簡単そうだ。今後もエンジンのバージョンアップに応じて追随して欲しいソフトウェアだ。

 

Tesseract Windows
 http://www.softi.co.uk/tess.htm