テキストから意味を読み取るというのは非常に難しく、そのための専用ソフトウェアが存在するほどです。そしてテキスト解析手法の一つとして知られているのが分かち書きです。日本語であればChasenがよく知られています。 kuromoji.jsはそんな分かち書き処理をJavaScriptで行ってしまおうというソフトウェアになります。KuromojiというApache財団のオープンソース分かち書きエンジンをJavaScriptにポーティングしています。

kuromoji.jsの使い方

こちらはデモです。Webブラウザベースで動作しています。nodeでも使えます。

適当な文章をリアルタイムに分かち書きできます。

kuromoji.jsは辞書ファイルをAjaxで取得しています。そのためサイズは大きくなりますが、分かち書きの精度はとても高くなります。サーバサイドで辞書を用意したり分かち書きエンジンを用意するのは面倒ですが、kuromoji.jsであればすぐに使えそうです。

kuromoji.jsはJavaScript/node製、Apache License 2.0のオープンソース・ソフトウェアです。

kuromoji.js demo takuyaa/kuromoji.js