keywords-extract - Webページからキーワードを抽出
Webページから情報を抽出するニーズは常に存在します。メタタグはそのためにあるのですが、任意に設定できるので利用者側のニーズに合っていない可能性があります。そこで本文を取得したり、タイトルや更新日を取得するスクリプトなどが作られています。 今回紹介するkeywords-extractはWebページからキーワードを抽出してくれるソフトウェアです。
keywords-extractの使い方
keywords-extractを実行したところです。文字数などを閾値に設定できます。
$ keywordsextract --url https://en.wikipedia.org/wiki/Search_engine_optimization --n 3,4
[ 'Search engine',
'Retrieval May',
'Search engine Optimize',
'Search result',
'Google s',
'white hat',
'black hat',
:
]
なお、英語にしか対応していないようで、MOONGIFTで試すと寂しい感じに…。
$ keywordsextract --url https://www.moongift.jp --n 3,4
[ 'Mercari Tech Conf' ]
keywords-extractを使うことで、ページのメタタグに設定するようなキーワードが抽出できます。安直に全ページ共通したものを付けるのではなく、keywords-extractを使ってページごとに最適なキーワードを抽出するのも良さそうです。
keywords-extractはnode/JavaScript製のオープンソース・ソフトウェア(MIT License)です。
vladocar/keywordsextract: keywords-extract - Command line tool extract keywords from any web page.