今後OCRのニーズは高まっていきます。世界中で写真が撮影されており、そこから意味を見いだす上でテキスト情報は欠かせません。ディープラーニングも使われていますが、テキストとして得られる情報はまだまだ多いでしょう。 そんなOCRをJavaScriptで実行してしまうのがTesseract.jsです。なんとWebブラウザベースでも動きます。

Tesseract.jsの使い方

英語の場合です。認識された部分に赤い枠が表示されます。

中国語。

ロシア語。

そして日本語にも対応しています。

残念ながら日本語は一部が正しく認識されませんでした。この辺りは学習によって磨かれる部分かも知れません。現在はコンピュータで書いた文字を認識する程度ではありますが、今後の開発に期待したいソフトウェアです。Webブラウザの場合は辞書をダウンロードしますが、サーバサイドでの実行であれば最初から準備しておけば良さそうです。

Tesseract.jsはnode/JavaScript製のオープンソース・ソフトウェア(Apache Licnese 2.0)です。

Tesseract.js | Pure Javascript OCR for 62 Languages! naptha/tesseract.js: Pure Javascript OCR for 62 Languages ???