音声認識APIを手軽に使えるようにする「annyang」
annyangはJavaScript製のオープンソース・ソフトウェア(MIT License)です。
Siriなどの登場によって一気に知名度があがった音声認識システムですが、それをWebベースで、しかもJavaScriptだけで実現してしまおうというのがannyangです。
[](http://images.moongift.jp/2013/09/Screenshot 2013-09-14 16.18.29.1379217445.png)
まずマイクへのアクセス許可が求められます。
[](http://images.moongift.jp/2013/09/Screenshot 2013-09-14 16.18.48.1379217450.png)
いきなりHelloというと文字が表示されます。
[](http://images.moongift.jp/2013/09/Screenshot 2013-09-14 16.19.00.1379217455.png)
さらにShow me〜というとFlickr検索をします。
[](http://images.moongift.jp/2013/09/Screenshot 2013-09-14 16.20.13.1379217461.png)
Show TPS reportで下から画像がせり出してきます。
annyangではモダンなWebブラウザに実装されている音声認識API(webkitSpeechRecognitionなど)を使っています。そして指定したワードにヒットした場合に予め決められた処理をコールする仕組みです。音声認識を使ったイベント処理を容易に実装できる面白いライブラリです。
MOONGIFTはこう見る
音声認識はもっと特別な処理に感じていましたがannyangを使うと随分手軽に実装ができるようです。さらにwebkitSpeechRecognitionなどは多言語認識が可能で、日本語も使えます。その認識された音声をテキストに変換してくれるので後はそれを予め指定された文字列に当てはまるかどうかチェックすれば良いだけです。
Siriなどは認識されたテキストを自然言語として処理し、適した結果を返せるところがポイントです。音声認識までは誰でも使えるレベルまできていますので、次の段階としてはその認識結果をどう解釈するかにきていると言えます。annyangを磨けばさらに面白い使い方が考えられそうですね。