現在位置: メイン > 検索エンジンの仕組みと基礎知識インデクシングインデックス方式単語インデックス方式 >

単語インデックス方式

単語インデックス方式とは、インデクサが持つ単語辞書を元に、文章を単語に切り分けて行うインデックス方式であり、多くの検索エンジンに採用されています。文章を単語に切り分けてインデックスすることで、個々の単語の位置が正確にわかるデータを作ることができるほか、個々の単語が持つ意味をデータに付与することができるため、文章の内容をふまえた検索処理を実現することができます。ただし、自然文を意味をプログラムで処理することは、大変複雑な作業です。そのため、検索エンジンは、文章をできるだけ元の意味を保った正しい状態で、なおかつ効率的にインデックスできるように、様々な技術を使用しています。

分かち書き

分かち書きとは、単語ごとに空白や区切り文字を入れて書いていく文章記述方法で、自然文処理の基礎的な要素となっています。 続きを読む

形態素解析による前処理

形態素解析とは、辞書をもとに自然文を解析して、品詞ごとの単語に切り分ける技術です。 続きを読む

ストップワードの前処理

ストップワード処理とは、インデクシング時の負荷を減らすため、「一般的すぎる語」をインデックスしないアルゴリズムです。 続きを読む

コンテンツのメニュー
広告



このサイトについて・リンクについて  無料ツール  Search Engine SPAM  住太陽のブログ  注目情報のFeed  新着情報のFeed  フィードメーター