通常では単に「検索エンジン」という場合この「ロボット型検索エンジン」を指し、ユーザーが希望するキーワードと一致する内容を持ったWebページを探し出す検索サービスです。

インデックス全体への全文検索を行う検索エンジン

ロボット型検索エンジン(単に「検索エンジン」と言えばこれを指します)とは、ユーザーが希望するキーワードと一致する内容を持ったWebページを探し出す検索サービスです。現在のところ最も主流の検索サービスです。

検索エンジンは、作成したインデックス(データベース)に格納されたWebページの全文を対象に、キーワードと一致する内容を持つ全てのWebページを探しだして一覧表示します。検索エンジンの代表的なものには、Google、Bingなどがあります。また、多くのポータルサイトでこれらのエンジンを用いた検索を可能にしています。

ロボットの巡回による膨大な情報量

検索エンジンでは、クローラーやスパイダーと呼ばれるロボット(プログラム)が、Webページを自動的に巡回して情報を収集し、インデックスに格納します。このときクローラーが巡回するのは、登録申請されたWebページだけではありません。巡回したWebページに記載されるリンク情報を次々とたどり、あらゆるWebページを巡回して情報を収集します。そのため原理的には、リンクでつながれた世界中のすべてのWebページを対象に検索を行うことができます。

検索エンジンはWebサイト単位ではなく個々のページの情報を収集します。そのため、ディレクトリに登録されづらい、次のような情報についても検索することが可能です。

  • ほとんどの人に不要と思われるようなマイナーな情報でも探し出すことができる
  • 話題性にまとまりのないWebサイト内の情報でも探し出すことができる
  • 全く情報が整理されていないページの中からも有用な情報を見つけだすことができる
  • 検索エンジンのクローラーは定期的に巡回を行うため、新鮮な情報を検索することがでる

検索ノイズが多いという欠点

検索エンジンの欠点として、検索ノイズの多さがあげられます。検索ノイズとは検索者が意図しないWebページが検索結果に混ざってしまう状態のことです。

  • キーワードの種類によっては非常に多くのWebページがヒットするため、必要な情報を探し出すのが困難になる場合がある
  • 基本的にはキーワードと一致する文字情報を含んだWebページを探し出すだけであるため、検索結果がユーザーの求める情報を含んでいるとは限らない

しかしこの欠点も、アルゴリズムの高度化によってだんだんと克服されつつあり、少なくとも一般的な語句を使用した検索での上位に関しては、明らかにノイズと思われるものが表示されることはなくなっています。