※ 画像は公式サイトデモより

分かち書きや形態素解析のニーズは色々な所に存在する。テキストはWebベースで最も扱われるデータの一つであって、その内容を分析、解析して欲しい情報だけを抽出するというのは重要な技術だ。

ピクチャ 10-21

大規模な辞書データを元に行う形態素解析はコストがかかりすぎる。手軽に行うならこのソフトウェアを使ってみるのはどうだろう。

今回紹介するオープンソース・ソフトウェアはTinySegmenter、JavaScriptベースの分かち書きエンジンだ。

TinySegmenterはまさにJavaScriptベース、クライアントサイドでの分かち書きエンジンだ。辞書を使わない点が一番の特徴で、それによって時代の流れに依らず、さらに言語比依存であるために言語を問わず利用できる。

ピクチャ 11-15

わずか25キロバイトしかないので、ごく軽量だ。動作の素早い。日本語として正しく書かれている新聞記事などに対して強いが、チャットやブログなどで書かれる口語体などのくだけた文章に対しては精度が低くなりがちのようだ。

とは言え、クライアントサイトで分かち書きを行えるのは素晴らしい。例えば、自動でタグを生成する機能をクライアントサイトで実装したりできるかも知れない。今後は品詞の推定も予定されている(これができると本当に素晴らしい)。今後に期待がかかるソフトウェアだ。

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
 http://chasen.org/~taku/software/TinySegmenter/