インデクシングとは、検索エンジンの運営プロセスの中で、「情報作成」「登録」の役割を担う作業です。検索エンジンは、クローラーが収集してきたWeb ページの情報をあらかじめ中間処理し、検索アルゴリズムが扱いやすいデータに変換した上で、インデックス(データベース)に格納します。そのため、インデクシングにおける個々の作業内容は、検索エンジンのデータベースとしての特徴を決める大きな要素となっています。
インデクサ
インデクサとは、シンデクシングの作業を実行するプログラムのことです。クローラーが巡回・収集したWWW上のドキュメントを、検索機能が扱いやすいデータ形式のファイルに変換して、インデックスに格納する役割を果たします。そのような中間処理を行っておくことで、生のままのドキュメントを扱うのに比べ、その後の様々な処理は容易になり、効率的で高速な検索機能を実現することができます。 続きを読む
インデックス方式
検索エンジンにおいて、収集したWebページのドキュメントをどのように処理してデータベースとしてまとめるのか、つまりインデックスの方法は、非常に重要な問題です。なぜなら、検索エンジンのインデックスに限らず、データベースはどのようにデータを作成するかでその特徴や性質が大きく変わるからです。検索エンジンベンダー各社はインデックスの方法に様々な工夫をこらしており、その種類も多岐にわたります。ただし、現在使用されているものとしては、大きく分類すると次の2種類の方式だけになっています。 続きを読む
ページ解析
ページ解析とは、Webページのドキュメントの内容をプログラムが正しく処理できるように、ファイルの構造や素性を明かにする作業です。本来、Webページのドキュメントは、コンピュータにとって単なる文字の羅列にしか過ぎません。それをプログラム処理することで、はじめて意味あるドキュメントとして処理することができます。そのため、ドキュメントが電子ファイルとしてどのような性質を持ち、内容的にどのような構造を持っているのかをあらかじめ調べるページ解析は、その後のプログラム処理を正しく行っていくために重要な作業です。 続きを読む
リンク解析
リンク解析とは、個々のページの重要度を知るため、ページ間の参照関係を明かにする作業です。WWW上のWebページの大半は、単独で存在するのではなく、他のWebページとの関連性を持って存在しています。その関係性は、Webページ同士のリンクというかたちで知ることができます。どれだけの数のどのようなWebページから、どのようにリンクを張られているのか、その参照関係を知ることで、個々のWebページの重要度について指標化することができます。そのため、インデクシングの段階でリンク解析を行っておくことで、検索のアルゴリズムがスコアリングを行いやすいデータベースを作ることができます。 続きを読む
インデックスの更新
WWW内の情報は常に変化しているため、検索エンジンは常に、インデックスの情報を新しく書き換えていかなければなりません。データベースによって、データの書き換え方法が異なるように、検索エンジンのインデックスの更新方法においても様々な方法が用いられています。ただし、どのような検索エンジンでも、データの更新方法は、次の2つの方式に大きく分けられます。 続きを読む

