Tesseract OCRをGUIから手軽に利用。画像やPDFをOCR処理する「gImageReader」 // MOONGIFT Archived

gImageReaderはTesseract OCRのWindows/Linux用GUIフロントエンド。PDFや画像をOCR処理する。

gImageReaderはWindows/Linux用のオープンソース・ソフトウェア。リアルとデジタルを繋ぐ技術は常に人気が高い。地図、写真、位置情報、交通機関の情報などリアルに関係するものはみんなが必要としている。疎sの一つ、リアルの情報を取り込む技術として知られるのがOCRだ。

PDFや画像を開く

名刺の読み取りを行うソフトウェアは何年経っても人気がある。スマートフォンが登場してさらに人気が高まっている。オープンソースのOCRであるTesseract OCRをGUIで扱うのがgImageReaderだ。

gImageReaderはPDFや画像ファイルを読み込んで、指定された言語に基準としてOCR処理を行うTesseract OCRフロントエンドだ。Tesseract OCRはGoogleが開発を手がけており、期待ができるのだが辞書や設定次第で精度がかわってくるようだ。

認識結果。悲惨だ…

日本語の認識も可能だが、PDFが日本語の表示に対応していないようだ。そのため画像の方が良いかもしれない。またTesseract OCRの辞書ファイルを使わないと精度はまるで低いようだ。使い方はとても簡単で、画像やPDFを開いて認識ボタンを押すだけだ。そうすれば右側に認識された文字列が表示される。

どこを文字として認識しているかが分からないので、絵やグラフが入ったものは認識精度が高くなさそうだ。テキスト文書などで試すと良い結果が得られるかもしれない。

MOONGIFTはこう見る

過去において幾つかの名刺認識ソフトウェアを購入した経験があるが、まるで精度が低く使い物にならなかった。唯一iPhoneアプリで使えるレベルのものもあったが、失敗してしまった時の修正が面倒で作業が頓挫してしまっている。

OCRは特許が数多く絡んだ技術であり、なかなかオープンソースであったりフリーウェアとしてリリースされづらいのが実情だ。とは言え個人的には現状の延長線ですごいOCRが出てくるとも思えない。もっと全く違う視点からトライすると面白い認識ができるのではないだろうか。