Webページから情報を抽出するニーズは常に存在します。メタタグはそのためにあるのですが、任意に設定できるので利用者側のニーズに合っていない可能性があります。そこで本文を取得したり、タイトルや更新日を取得するスクリプトなどが作られています。 今回紹介するkeywords-extractはWebページからキーワードを抽出してくれるソフトウェアです。

keywords-extractの使い方

keywords-extractを実行したところです。文字数などを閾値に設定できます。

$ keywordsextract  --url https://en.wikipedia.org/wiki/Search_engine_optimization --n 3,4
[ 'Search engine',
  'Retrieval May',
  'Search engine Optimize',
  'Search result',
  'Google s',
  'white hat',
  'black hat',
    :
]

なお、英語にしか対応していないようで、MOONGIFTで試すと寂しい感じに…。

$ keywordsextract --url https://www.moongift.jp --n 3,4
[ 'Mercari Tech Conf' ]

keywords-extractを使うことで、ページのメタタグに設定するようなキーワードが抽出できます。安直に全ページ共通したものを付けるのではなく、keywords-extractを使ってページごとに最適なキーワードを抽出するのも良さそうです。

keywords-extractはnode/JavaScript製のオープンソース・ソフトウェア(MIT License)です。

vladocar/keywordsextract: keywords-extract - Command line tool extract keywords from any web page.