インデクシング

インデクシングとは、検索エンジンの運営プロセスの中で、「情報作成」「登録」の役割を担う作業です。検索エンジンは、クローラーが収集してきたWeb ページの情報をあらかじめ中間処理し、検索アルゴリズムが扱いやすいデータに変換した上で、インデックス(データベース)に格納します。そのため、インデクシングにおける個々の作業内容は、検索エンジンのデータベースとしての特徴を決める大きな要素となっています。

インデクサの役割とは、その後の様々な処理を容易にし、高度な検索処理を可能にするための作業を行うことです。インデクサはデータに中間処理を施し、プログラムの処理速度を高め、データベース量を節約します。 → 続きを読む

構文解析とは、ページの文意を考慮したプログラム処理を可能にするため、文法に基づいて文章を解析することです。また構文解析の前に、そのWebページの記述に使われている文字コードを確定させる作業も行います。 → 続きを読む

単語インデックス方式とは、インデクサが持つ単語辞書を元に、文章を単語に切り分けて行うインデックス方式であり、多くの検索エンジンに採用されています。文章を単語に切り分けてインデックスすることで、個々の単語の位置が正確にわかるデータを作ることができるほか、個々の単語が持つ意味をデータに付与することができるため、文章の内容をふまえた検索処理を実現することができます。 → 続きを読む

ウェブ上の情報は常に変化しているため、検索エンジンは常に、インデックスの情報を新しく書き換えていく必要があります。現在の主な検索エンジンは、逐次更新と一括更新を併用したインデックスアップデートを行うことで、情報の新鮮度を保っています。 → 続きを読む