Javaベースの英文OCR「Eye」
EyeはJava製のフリーウェア(ソースコードは公開されている)。電子書籍に注目が集まっている。今後出てくる書籍については電子書籍と一般書籍を同時に出版するところも増えてくるだろう。しかしそれ以上の多いのが既存の資産だ。ただデジタル化するだけでなく、テキストなどに変換しなければならない。
上が画像、下が認識されたテキスト
それがいわゆるOCRになるが、手軽に扱えるものはまだ多くはない。システムに組み込んだり、Webサービス内部で扱ったりするのに向いているのがEyeだ。英文のみなので物足りない部分もあるが実用的なソフトウェアだ。
Eyeは画像ファイルを読み込んでそこに書かれた文字をテキスト化すると処理を行う。画像は白黒に二値化されており、コンピュータベースで描かれている必要があるので手書き文字などは認識が難しいが、書籍などであれば利用できるケースもあるだろう。
このような画像を読み込める
何よりオープンソースで実装されているのが大きな利点だ。外部システムで取り込んで利用することもできそうだ。オンライン上にあるデータではなく、アナログにある膨大なデータをデジタル化していく中で需要が高まるであろうソフトウェアだ。
Eye: Java-based text recognizer