mikan.js - 機械学習を用いず日本語の改行問題を解決
先日、Googleがディープラーニングを使って文字文節を自然に区切るというbudouを開発しました。日本語は分かち書きによって分割できますが、それをさらに自然に改行させるというのは面倒なものです。 しかし機械学習を行わずに、クライアントサイドだけでも実現できてしまうのがmikan.jsです。
mikan.jsの使い方
幅が広い場合。
一番狭めた場合。
ちゃんと良い感じに文節に区切れます。
mikan.jsを見ると分かりますが、正規表現であったり、漢字と平仮名の関係を使って解決しています。汎用性という意味においては機械学習でしょうが、日本語の改行問題というごく限られた領域においてはmikan.jsを磨き上げる方が簡単かも知れません。
mikan.jsはJavaScript製のオープンソース・ソフトウェア(MIT License)です。