検索エンジンは「クローラー」あるいは「スパイダー」と呼ばれるロボット(プログラム)を用いてWWW上のWebページの情報を収集します。このクローラーがWWW上を自動的に巡回し、Webページを収集していく作業を「クローリング」と呼びます。検索エンジンはクローリングで集められたデータをもとに、インデックス(データベース)に登録する情報の作成と登録・更新を行います。
クローラー
WWWを自動的に巡回し、Webページの内容を収集していくプログラム、クローラーについて説明します。 続きを読む
クロール技術
ユーザーに対して新鮮で精度の高い情報を提供するためには、検索システム全体で限られたリソースを効率的に使うことが欠かせません。特に、WWW上には膨大なWebページが存在するため、クローリングの作業には多大なリソースが必要となります。そのため、検索エンジンは次のようなクロール技術(巡回技術)を用いて、クローリングを少しでも効率的に行えるように努力しています。 続きを読む
HTML解析
HTML解析とは、クローラーがWWW上を巡回する方法を決定するために行う、Webページのドキュメントに対する解析作業です。検索エンジンのクローラーは、ユーザーに申請されたWebページだけをクローリングするわけではありません。Webページのドキュメントに記載されるリンク情報を手がかりに、 WWW上の様々なWebページをたどっていきます。検索エンジンはそのために、HTML文法に基づいてドキュメントの内容を解析し、その中のハイパーリンクの内容を解析することで、次にクローリングすべきWebページのURIを取得します。 続きを読む

