Tesseract.js - なんと!Webブラウザでも動作するJavaScript OCRエンジン
今後OCRのニーズは高まっていきます。世界中で写真が撮影されており、そこから意味を見いだす上でテキスト情報は欠かせません。ディープラーニングも使われていますが、テキストとして得られる情報はまだまだ多いでしょう。 そんなOCRをJavaScriptで実行してしまうのがTesseract.jsです。なんとWebブラウザベースでも動きます。
Tesseract.jsの使い方
英語の場合です。認識された部分に赤い枠が表示されます。
中国語。
ロシア語。
そして日本語にも対応しています。
残念ながら日本語は一部が正しく認識されませんでした。この辺りは学習によって磨かれる部分かも知れません。現在はコンピュータで書いた文字を認識する程度ではありますが、今後の開発に期待したいソフトウェアです。Webブラウザの場合は辞書をダウンロードしますが、サーバサイドでの実行であれば最初から準備しておけば良さそうです。
Tesseract.jsはnode/JavaScript製のオープンソース・ソフトウェア(Apache Licnese 2.0)です。
Tesseract.js | Pure Javascript OCR for 62 Languages! naptha/tesseract.js: Pure Javascript OCR for 62 Languages ???