N-gram

N-gramとは、任意の文字列や文書などにおいて、連続した任意のn文字の文字列に分割してインデックス化する手法のこと。

形態素解析とは異なり、単語や品詞という概念はなく、検索漏れが起きにくいことに加え、分割が機械的で容易なため多言語に簡単に応用することができる。
また、nの数によって、1文字続きのものはunigram、2文字のものはbigram、3文字のものはtrigramと呼ばれ、4文字以上のものは、4-gram、5-gramと表現されることが多い。最初に分割した後は1文字ずつ移動して分割を行う。

形態素解析は検索エンジンなどに用いられるが、N-gramは図書情報検索などに用いられる。

AINOW

人工知能専門メディアAINOW(エーアイナウ)です。人工知能を知り・学び・役立てることができる国内最大級の人工知能専門メディアです。2016年7月に創設されました。取材のご依頼もどうぞ。https://form.run/@ainow-interview

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する