注目キーワード

MOONGIFT

OSSを中心としたメディアポータル

新しいサービス(といっても大層なものではない)を作ろうと思った時に、画像の中の文字列を読み取る仕組みが必要な事に気づいた。いわゆるOCRだ。 0

オープンソースのOCRはごく僅かだが存在する。今回はその中の有力なものを紹介しよう。

今回紹介するオープンソース・ソフトウェアはTesseract OCR、Googleが手がけるOCRエンジンだ。 0

Tesseract OCRは元々、HPが開発していたもので、それをGoogleが開発を引き継ぐ形でオープンソース化されたソフトウェアだ。英語圏のソフトウェアなので日本語の読み込みには対応していないが、性能自体は高い評価を受けている。 0

実際試してみた限りでは、変換率50%を越えているだろう。一段の文章であれば問題なく変換できるが、多段組になっている文章やグレースケール等はうまく解析することはできない。 0

GoogleはGoogle Book Searchなどでこの技術を利用している(または別なOCRかも知れないが)。OCRはアナログなものをデジタルに変える必須技術だ。今後の発展に期待したい。 0

 

SourceForge.net: Tesseract OCR
 http://sourceforge.net/projects/tesseract-ocr/ 0

MOONGIFTの関連記事

このエントリーを含むTwitter

Related Posts Plugin for WordPress, Blogger...
新規購読
新規購読

プレミアムでしか読めない記事が160あります。ぜひ登録を!

  • オープンブロックス - OpenBlockS
  • 広告募集

ぷらっとオンラインおすすめ商品もっと見る

もっと見る

人気記事もっと見る