NReadabilityはコマンドラインでHTMLファイルからタイトルと本文を抽出した可読性高いテキストを作成する。

NReadabilityはC#製、Windows用のオープンソース・ソフトウェア。ニュースサイトやブログ、掲示板などWebサイト上でテキストコンテンツを読ませるサイトはとても多い。そしてそのサイトの中には無数の広告やヘッダー、フッターといった情報がついている。


作成されたテキスト

情報をちょっと読むだけならば良いが、長時間読む上では余計な情報があるとストレスを感じるものだ。そこで可読性を高めるためのプロジェクトがReadabiliry Projectで、C#に移植した版がNReadabilityになる。

Readability Projectはブックマークレットを配布するWebサイトであり、タイトルや本文の部分を抽出し、文字サイズを大きくすることで可読性の高いコンテンツを実現している。それをコマンドライン上でできるようにしたのがNReadabilityだ。


実行中

コマンドラインでできるので、オフラインコンテンツや静的なHTMLファイルであっても使えるのが利点だ。生成されるのはタイトル、本文を抽出したHTMLになる。画像などはそのままなので、読みやすいテキストに仕上がっているはずだ。日本語も文字化けずに利用できる。精度も高いので、タイトルと本文抽出ライブラリとしても使えそうだ。

MOONGIFTはこう見る

ブックマークレット型と異なるので、静的に保存されているHTMLファイルから本文部分を選び出すのに使えるのが便利だ。HTMLタグの状態によって精度は変わると思われるが、MOONGIFTの場合はまずまずの精度で抽出できている。

余計な部分のそがれたテキストであれば、サイズも小さく可搬性も高い。テキストコンテンツが溢れている現在だからこそ、NReadabilityのようなソフトウェアの需要もあるのだろう。

nreadability - Project Hosting on Google Code