待ちに待ったオープンソースの日本語OCR「NHocr」 // MOONGIFT Archived

OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。

デモサービスで試せます

今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。

デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル（さらに各ファイルをGZip圧縮していても可能）をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。

読み取らせた画像

手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあっては十分高いと思われる。現在は一行の文章しか読み取れない、周囲にゴミや罫線があると認識率が下がるとのことだが、期待値はいやがおうにも高まってしまう。

これがあればどんなサービスが考えられるだろうか。オンラインで名刺を認識したり、画像にある文字列を読み取ったりもできる。携帯電話で撮った写真を送れば何かを処理して返す…みたいなものも作りやすくなるだろう。

OCRはこれからもっと需要が高まっていくのは間違いない。NHocrへかかる期待は大きいだろう。

読み取り結果。「で」は難しいようだ（筆者の字が汚いだけという意見も）それ以外は良好。

日本語文字行認識

　http://appsv.ocrgrid.org/nhocr/index-j.html

nhocr - Google Code

　http://code.google.com/p/nhocr/

SourceForge.JP: Project Info - NHocr: 日本語文字認識プログラム