N-gramとは、任意の文字列や文書などにおいて、連続した任意のn文字の文字列に分割してインデックス化する手法のこと。
形態素解析とは異なり、単語や品詞という概念はなく、検索漏れが起きにくいことに加え、分割が機械的で容易なため多言語に簡単に応用することができる。
また、nの数によって、1文字続きのものはunigram、2文字のものはbigram、3文字のものはtrigramと呼ばれ、4文字以上のものは、4-gram、5-gramと表現されることが多い。最初に分割した後は1文字ずつ移動して分割を行う。
形態素解析は検索エンジンなどに用いられるが、N-gramは図書情報検索などに用いられる。