Mammoth - WordをHTMLファイルに
Wordファイルは広くオフィスで使われています。様々なドキュメントがWordで作られていることでしょう。そんなWordにはHTML出力機能もありますが、すごいマークアップで出力されるので、あまり使っている人を聞いたことがありません。 もしあなたがWordファイルをシステムに取り込んだりしなければならない時にはMammothを使ってみましょう。
Mammothの使い方
Wordファイルを解析して、その中のテキストを抽出しています。
画像も表示できます。
Mammothは文字装飾や表組みには対応していないようなので、利用範囲は限定的かも知れません。しかし、あらかじめ決まったフォーマットから情報を抽出するなら簡単です。Wordファイルをテキスト化して検索用にインデックスするのにも使えそうです。
MammothはJavaScript製のオープンソース・ソフトウェア(2-clause BSD lisence)です。
mwilliamson/mammoth.js: Convert Word documents (.docx files) to HTML