現在位置: メイン > 検索エンジンの仕組みインデクシングインデックス方式 >

インデックス方式

検索エンジンにおいて、収集したWebページのドキュメントをどのように処理してデータベースとしてまとめるのか、つまりインデックスの方法は、非常に重要な問題です。なぜなら、検索エンジンのインデックスに限らず、データベースはどのようにデータを作成するかでその特徴や性質が大きく変わるからです。検索エンジンベンダー各社はインデックスの方法に様々な工夫をこらしており、その種類も多岐にわたります。ただし、現在使用されているものとしては、大きく分類すると次の2種類の方式だけになっています。

N-Gramインデックス方式

N-Gramインデックス方式とは、決められた文字数の単位で文章を切り出し、「単語を含んだ文字列」としてインデックスする方式です。 続きを読む

単語インデックス方式

単語インデックス方式とは、インデクサが持つ単語辞書を元に、文章を単語に切り分けて行うインデックス方式であり、多くの検索エンジンに採用されています。文章を単語に切り分けてインデックスすることで、個々の単語の位置が正確にわかるデータを作ることができるほか、個々の単語が持つ意味をデータに付与することができるため、文章の内容をふまえた検索処理を実現することができます。ただし、自然文を意味をプログラムで処理することは、大変複雑な作業です。そのため、検索エンジンは、文章をできるだけ元の意味を保った正しい状態で、なおかつ効率的にインデックスできるように、様々な技術を使用しています。 続きを読む

コンテンツのメニュー
広告



このサイトについて・リンクについて  無料ツール  Search Engine SPAM  住太陽のブログ  注目情報のFeed  新着情報のFeed  フィードメーター