待ちに待ったオープンソースの日本語OCR「NHocr」
OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。
今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。
OCRという技術はアナログなデータをデジタル化する上で欠かすことができない。しかし様々な特許が絡み、オープンソースやフリーウェアとしては発展しづらい分野でもある。しかしそこに風穴を開けられるかも知れない技術が登場しそうだ。
今回紹介するオープンソース・ソフトウェアはNHocr、日本語OCRシステムだ。Google Code上にホスティングされ、まだソースコードは一部しか開示されていないが、デモサービスは公開されている。
うーん、これは凄い。
![]()
OCRという技術はフリーでは殆ど見られない(日本語では昔あったが、今はない)位、高い専門性と特許が絡んだ難しい技術だ。
それを無料で利用できるというのが素晴らしい。オフィスでも多用されるPDFについて、OCRを適用したければこれを使おう。
今回紹介するフリーウェアはクセロReader ZERO、OCR機能がついたPDFビューワだ。
(もっと読む)
昨日に引き続きOCRソフトウェアのご紹介。このOCRと言う分野は今後のデジタル化推進の上で重要な技術になり得るのだが、どうもオープンソースではあまり流行っていない。
そんな中、数少なくも存在するOCRエンジンがこれだ。
今回紹介するオープンソース・ソフトウェアはGNU Ocrad、CUIベースのOCRエンジンだ。
先ほどのTesseract OCRの記事ではスクリーンショットを掲載していない。実際に試すには試したのだが、公式サイトで配布されているものを使った訳ではないからだ。なにぶん、Linuxなどでコンパイルしながらインストールするのはちょっと面倒だ。
OCRエンジンの性能を試すなら、これが一番手軽だろう。何せWindows環境下で利用できる。
今回紹介するフリーウェアはTesseract Windows GUI、Windows上で使えるTesseractエンジンだ。それもGUIフロントエンドを持っている。
新しいサービス(といっても大層なものではない)を作ろうと思った時に、画像の中の文字列を読み取る仕組みが必要な事に気づいた。いわゆるOCRだ。
オープンソースのOCRはごく僅かだが存在する。今回はその中の有力なものを紹介しよう。
今回紹介するオープンソース・ソフトウェアはTesseract OCR、Googleが手がけるOCRエンジンだ。
会議室にあるホワイトボード。印刷する仕組みがあれば良いが、そうでない場合は携帯電話のカメラで撮影していく事がある。後で見返すと会議の内容が思い出せるのは便利だが、画像データのままと言うのがいただけない。テキストデータに落とし込む仕組みはないだろうか。
スキャナなどがあれば、OCRと言う手がある。これは大抵スキャナ付属、または有料だ。だがこちらはオープンソースで提供されている。
今回紹介するオープンソース・ソフトウェアはWeOCR Project、Web上で利用できるOCRソフトウェアだ。
|
MOONGIFT
|
Open Service
|
|
Rails 2.0
|
Resident on Net
|
|
iPhone最適化
|
リーンソフトウェア
|
|
MarketPedia
|
Producing Web
|
|
Cool Coding
|