注目キーワード

MOONGIFT

OSSを中心としたメディアポータル

OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。 0

Picture 294.png
デモサービスで試せます 0

 

今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。 0

デモサービスでは、BMP/JPEG/PBM/PGM/PPMのファイル(さらに各ファイルをGZip圧縮していても可能)をアップロードすると、それを解析した結果を日本語表示してくれる。日本語OCRとあって、漢字/ひらがな/片仮名/英語などが判別可能になっている。 0

test-3.jpg
読み取らせた画像 0

 

手書き文字であっても認識率はそこそこ高い。正式リリースがまだという段階にあっては十分高いと思われる。現在は一行の文章しか読み取れない、周囲にゴミや罫線があると認識率が下がるとのことだが、期待値はいやがおうにも高まってしまう。 0

これがあればどんなサービスが考えられるだろうか。オンラインで名刺を認識したり、画像にある文字列を読み取ったりもできる。携帯電話で撮った写真を送れば何かを処理して返す…みたいなものも作りやすくなるだろう。 0

OCRはこれからもっと需要が高まっていくのは間違いない。NHocrへかかる期待は大きいだろう。

Picture 295.png
読み取り結果。「で」は難しいようだ(筆者の字が汚いだけという意見も)それ以外は良好。 0

 

日本語文字行認識
 http://appsv.ocrgrid.org/nhocr/index-j.html 0

nhocr - Google Code
 http://code.google.com/p/nhocr/ 0

SourceForge.JP: Project Info - NHocr: 日本語文字認識プログラム
 http://sourceforge.jp/projects/nhocr 0

MOONGIFTの関連記事

このエントリーを含むTwitter

Related Posts Plugin for WordPress, Blogger...
新規購読
新規購読

プレミアムでしか読めない記事が156あります。ぜひ登録を!

  • オープンブロックス - OpenBlockS
  • 広告募集

ぷらっとオンラインおすすめ商品もっと見る

もっと見る

人気記事もっと見る