ブログやソーシャルメディア、バイラルメディアなどここ数年でテキストコンテンツは爆発的に増えています。しかし私たちの時間は1日24時間で変わりません。となると処理しきれない情報ばかり増えてしまいます。 そこでテキストを解析し、そこから大事な部分だけを抽出してくれるような技術に注目が集まります。Shucaは日本語に対応したサマライザーです。

Shucaの使い方

原文です。

実際にはshucaにかける前に分かち書きや日本語の構文解析を行ってくれるJUMANKNPを実行する必要があります。

そうするとこんな感じでサマライズできます。

100文字などと指定もできます。

150文字で抽出した例。

Shucaは原文の中から重要と思われる部分を抽出し、指定した文字数で結果を返してくれます。今後さらに増えていくであろうテキストコンテンツを扱う上でとても使えそうなライブラリです。

ShucaはPython製のソフトウェア(ソースコードは公開されていますがライセンスは明記されていません)です。

hitoshin/shuca