ITエンジニア/デザイナ向けにオープンソースを毎日紹介

TextTeaserはScala製のオープンソース・ソフトウェア(MIT License)です。

Webサイトの基本はテキストです。しかし長文を読み続けている余裕は現代人にはありません。そこで使ってみたいのがTextTeaser、テキストサマライズエンジンです。


一例。文書が段落ごとにまとまって表示されました。


日本語だとうまくいかないかも知れません…。

TextTeaserは要約エンジンであり、大事な部分のテキストだけをピックアップして表示してくれます。ブックマークレットも提供されており、任意のURLに対して要約処理が実行できます。

肝になるのはそのアルゴリズムになるでしょう。“重要な部分”をいかにピックアップするかがTextTeaserの価値になります。最近はこういった大事な部分、URLだけをピックアップする技術に人気が集まっています。

インターネットでは膨大な情報が溢れているため、それを全て処理するには時間が足りないのが実情です。それだけにスパムではない、無用な情報をフィルタリングしたり逆に重要な情報をピックアップする技術は今後も注目が集まるでしょう。

TextTeaser: An automatic summarization application and API

MojoJolo/textteaser

 

MOONGIFTの関連記事

  • DevRel
  • Com2