html2textはHTMLをMarkdownフォーマットに変換するPythonスクリプトです。

html2textを使うと普段見ているWebサイトや既存のHTMLページをMarkdownフォーマットに変換できます。Markdownの練習にも良さそうです。


実行しました。引数にURLを渡すだけの簡単実行。確かにMarkdownのテキストが出力されています。


ちょっと余計な情報も出ていますが、きちんとテキスト化されています。


コマンドオプションです。画像やリンクを除いたりすることもできます。

html2textを使うとHTMLをシンプルなテキストにしてくれるのはもとより、Markdown記法であるために可逆的にHTMLにすることもできます(class指定などは飛んでいるのでデザインは戻りませんが)。HTMLで書いてしまったためにメンテナンス性が悪くなった文書を再利用したりするのにも使えそうです。

html2textはPython製、GPL v3のオープンソース・ソフトウェアです。

MOONGIFTはこう見る

可読性の高いテキスト記法は幾つかあります。元々はWiki辺りから派生したものと思われますが、一定の記法は覚える必要があるものの、それさえ覚えてしまえばテキストファイルから様々なフォーマットに展開できるのが利点です。HTMLやPDF、ePubなど様々です。

そうした記法を使うことで再利用性を高めて、メンテナンスコストを下げられるようになります。もし一度HTMLで作ってしまった文書があったならばhtml2textのようなツールで変換してみると良いでしょう。また他の記法も一旦HTMLを経由することでMarkdownで一括管理もできるようになるはずです。

html2text: THE ASCIINATOR (aka html2txt)

aaronsw/html2text - GitHub