新しいサービス(といっても大層なものではない)を作ろうと思った時に、画像の中の文字列を読み取る仕組みが必要な事に気づいた。いわゆるOCRだ。

オープンソースのOCRはごく僅かだが存在する。今回はその中の有力なものを紹介しよう。

今回紹介するオープンソース・ソフトウェアはTesseract OCR、Googleが手がけるOCRエンジンだ。

Tesseract OCRは元々、HPが開発していたもので、それをGoogleが開発を引き継ぐ形でオープンソース化されたソフトウェアだ。英語圏のソフトウェアなので日本語の読み込みには対応していないが、性能自体は高い評価を受けている。

実際試してみた限りでは、変換率50%を越えているだろう。一段の文章であれば問題なく変換できるが、多段組になっている文章やグレースケール等はうまく解析することはできない。

GoogleはGoogle Book Searchなどでこの技術を利用している(または別なOCRかも知れないが)。OCRはアナログなものをデジタルに変える必須技術だ。今後の発展に期待したい。

 

SourceForge.net: Tesseract OCR
 http://sourceforge.net/projects/tesseract-ocr/