日本語は「。」や「.」を使って文章を区切ります。英語は省略する場合もピリオドを使うので、その点日本語の方が文章の区切りが解釈しやすいと言えます。しかし、ソーシャル上の文章では絵文字が最後に使われることもあり、簡単ではなくなっています。 そこで使ってみたいのがbunkaiです。現代にマッチした文章解析ソフトウェアです。

bunkaiの使い方

bunkaiでの実行例です。音符マークや絵文字でも区切られます。

$ echo -e '宿を予約しました♪!まだ2ヶ月も先だけど。早すぎかな(笑)楽しみです★\n2文書目の先頭行です。▁改行はU+2581で表現します。'     | bunkai
宿を予約しました♪!│まだ2ヶ月も先だけど。│早すぎかな(笑)│楽しみです★
2文書目の先頭行です。▁│改行はU+2581で表現します。

別な例。一部うまくいってませんが、殆ど大丈夫です。

$ echo -e '日本語の文章は、切らずに書けます★だけど長文だと分かりづらくなりますよね!適度に文章を区切ることで全体の流れが分かりやすくなります♪とはいえ、あまり細かく切るのも良くないですよね。' | bunkai
日本語の文章は、切らずに書けます★│だけど長文だと分かりづらくなりますよね!│適度に文章を区切ることで全体の流れが分かりやすくなります♪とはいえ、あまり細かく切るのも良くないですよね。

bunkaiを使うことで、オンラインによくある文章のような形式でも解析しやすくなるでしょう。アスキーアートを使った文章が想定される場合にはあらかじめbunkaiを使っておくことで日本語の解釈精度が上げられるはずです。

bunkaiはPython製のオープンソース・ソフトウェア(Apache Licnese 2.0)です。

megagonlabs/bunkai: Sentence boundary disambiguation tool for Japanese texts (日本語文境界判定器)