MOONGIFT

オープンソース・フリーウェアを毎日紹介するブログ。日々の業務の効率化、新しいサービスのネタ探しにどうぞ。SNS、SBS、CMS、オフィス、画像編集、ユーティリティ、Firefoxアドオン、テキストエディタ、ゲーム…ジャンルは様々。

JavaScriptで分かち書き「TinySegmenter」

タグ: [] [] [] [] [] [] [] [] []

buzz_button

※ 画像は公式サイトデモより

分かち書きや形態素解析のニーズは色々な所に存在する。テキストはWebベースで最も扱われるデータの一つであって、その内容を分析、解析して欲しい情報だけを抽出するというのは重要な技術だ。

ピクチャ 10-21

大規模な辞書データを元に行う形態素解析はコストがかかりすぎる。手軽に行うならこのソフトウェアを使ってみるのはどうだろう。

今回紹介するオープンソース・ソフトウェアはTinySegmenter、JavaScriptベースの分かち書きエンジンだ。

TinySegmenterはまさにJavaScriptベース、クライアントサイドでの分かち書きエンジンだ。辞書を使わない点が一番の特徴で、それによって時代の流れに依らず、さらに言語比依存であるために言語を問わず利用できる。

ピクチャ 11-15

わずか25キロバイトしかないので、ごく軽量だ。動作の素早い。日本語として正しく書かれている新聞記事などに対して強いが、チャットやブログなどで書かれる口語体などのくだけた文章に対しては精度が低くなりがちのようだ。

とは言え、クライアントサイトで分かち書きを行えるのは素晴らしい。例えば、自動でタグを生成する機能をクライアントサイトで実装したりできるかも知れない。今後は品詞の推定も予定されている(これができると本当に素晴らしい)。今後に期待がかかるソフトウェアだ。

TinySegmenter: Javascriptだけで実装されたコンパクトな分かち書きソフトウェア
 http://chasen.org/~taku/software/TinySegmenter/

トラックバック URL :

February 11th, 2008 Posted by admin | 1コメント

1 Comment »

  1. [...] MOONGIFT: » JavaScriptで分かち書き「TinySegmenter」:オープンソースを毎日紹介 (tags: javascript tools language Japanese algorithm morphological Analysis) [...]

    Pingback by links for 2008-02-11 « 個人的な雑記 | 2008/02/12 Tuesday

Leave a comment

MOONGIFTネットワーク。こちらもぜひご覧ください。
MOONGIFT
Open Service
Rails 2.0
Resident on Net
iPhone最適化
リーンソフトウェア
MarketPedia
Producing Web
Cool Coding