単語インデックス方式とは、インデクサが持つ単語辞書を元に、文章を単語に切り分けて行うインデックス方式であり、多くの検索エンジンに採用されています。文章を単語に切り分けてインデックスすることで、個々の単語の位置が正確にわかるデータを作ることができるほか、個々の単語が持つ意味をデータに付与することができるため、文章の内容をふまえた検索処理を実現することができます。ただし、自然文を意味をプログラムで処理することは、大変複雑な作業です。そのため、検索エンジンは、文章をできるだけ元の意味を保った正しい状態で、なおかつ効率的にインデックスできるように、様々な技術を使用しています。
分かち書き
分かち書きとは、単語ごとに空白や区切り文字を入れて書いていく文章記述方法で、自然文処理の基礎的な要素となっています。 続きを読む
形態素解析による前処理
形態素解析とは、辞書をもとに自然文を解析して、品詞ごとの単語に切り分ける技術です。 続きを読む
ストップワードの前処理
ストップワード処理とは、インデクシング時の負荷を減らすため、「一般的すぎる語」をインデックスしないアルゴリズムです。 続きを読む

