OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。

Picture 294.png

デモサービスで試せます

 

今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。

デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。

test-3.jpg

読み取らせた画像

 

手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあっては十分高いと思われる。現在は一行の文章しか読み取れない、周囲にゴミや罫線があると認識率が下がるとのことだが、期待値はいやがおうにも高まってしまう。

これがあればどんなサービスが考えられるだろうか。オンラインで名刺を認識したり、画像にある文字列を読み取ったりもできる。携帯電話で撮った写真を送れば何かを処理して返す…みたいなものも作りやすくなるだろう。

OCRはこれからもっと需要が高まっていくのは間違いない。NHocrへかかる期待は大きいだろう。

Picture 295.png

読み取り結果。「で」は難しいようだ(筆者の字が汚いだけという意見も)それ以外は良好。

 

日本語文字行認識

 http://appsv.ocrgrid.org/nhocr/index-j.html

nhocr - Google Code

 http://code.google.com/p/nhocr/

SourceForge.JP: Project Info - NHocr: 日本語文字認識プログラム

 http://sourceforge.jp/projects/nhocr