以前広告代理店に勤めていた時、AdWordsの広告設定はとても大変そうでした。特に除外ワードの設定が大変で、ユーザが入力してくる不適切なワードをすべて登録して弾いていました。そうした言葉を考えたり、リストアップするのは苦痛です。 今回紹介するinappropriate-words-jaは不適切なワードだけを集めたリポジトリです。こうしたワードの除外、スクリーニングに役立つでしょう。

inappropriate-words-jaの使い方

不適切ワードのごくごく一部です。

inappropriate-words-jaを元データに、自動処理を行うことで、正しいデータが得られるようになるでしょう。YouTubeやFacebookなどでは動画のスクリーニングを人手で行い、精神を病む人もいるといいます。テキストのスクリーニングであれば、自動化もしやすく、人が関わらないことでストレスにもならないでしょう。

inappropriate-words-jaはMIT Licenseのオープンソース・ソフトウェアです。

MosasoM/inappropriate-words-ja: 日本語における不適切表現を収集します。自然言語処理の時のデータクリーニング用等に使えると思います。