検索エンジンは「クローラー」あるいは「スパイダー」と呼ばれるロボット(プログラム)を用いてウェブ上のページの情報を収集します。クローラーがウェブ上を自動的に巡回し、Webページを収集していく作業を「クローリング」と呼び、検索エンジンはクローリングで集められたデータをもとに、インデックス(データベース)に登録する情報の作成と登録・更新を行います。
クローラーの働きと制御、UA名
ウェブ上を自動的に巡回し、Webページの内容を収集していくプログラム、クローラー(スパイダー)の働きと制御、主なUA名について説明します。 続きを読む
http getプロトコルと分散型ロボット
クローラーは負荷を低減・分散するために数多くの技術を使用しています。このうち通信負荷を減らすhttp getプロトコルと、分散処理を行うことで巡回効率を向上する分散型ロボットについて説明します。 続きを読む
巡回URIリスト作成と優先収集
検索エンジンのクローラーは、Webページに記述されているリンクをたどって、 WWW上の様々なWebページを巡回します。この巡回先URIのリストは、リンク解析によって作成され、優先順位がつけられます。 続きを読む
HTMLパースと構造解析
HTMLパースとは、HTML文法規則にのっとった文字列を、その文法に基づいて字句解析し、意味や構造を解釈することをいい、HTMLパースを行うプログラムのことをHTMLパーサといいます。 続きを読む

