先日、Googleがディープラーニングを使って文字文節を自然に区切るというbudouを開発しました。日本語は分かち書きによって分割できますが、それをさらに自然に改行させるというのは面倒なものです。 しかし機械学習を行わずに、クライアントサイドだけでも実現できてしまうのがmikan.jsです。

mikan.jsの使い方

幅が広い場合。

一番狭めた場合。

ちゃんと良い感じに文節に区切れます。

mikan.jsを見ると分かりますが、正規表現であったり、漢字と平仮名の関係を使って解決しています。汎用性という意味においては機械学習でしょうが、日本語の改行問題というごく限られた領域においてはmikan.jsを磨き上げる方が簡単かも知れません。

mikan.jsはJavaScript製のオープンソース・ソフトウェア(MIT License)です。

trkbt10/mikan.js: 機械学習を用いていない日本語改行問題へのソリューション