クローリング

検索エンジンは「クローラー」あるいは「スパイダー」と呼ばれるロボット(プログラム)を用いてウェブ上のページの情報を収集します。クローラーがウェブ上を自動的に巡回し、Webページを収集していく作業を「クローリング」と呼び、検索エンジンはクローリングで集められたデータをもとに、インデックス(データベース)に登録する情報の作成と登録・更新を行います。

ウェブ上を自動的に巡回し、Webページの内容を収集していくプログラム、クローラー(スパイダー、ボット、ロボットとも言います)の働きと、主なUA名について説明します。 → 続きを読む
更新: | 公開: | 投稿:

HTMLパースとは、HTML文法規則にのっとった文字列を、その文法に基づいて字句解析し、意味や構造を解釈することをいい、HTMLパースを行うプログラムのことをHTMLパーサといいます。 → 続きを読む
更新: | 公開: | 投稿:

検索エンジンのクローラーは、Webページに記述されているリンクをたどって、 WWW上の様々なWebページを巡回します。この巡回先URIのリストは、リンク解析によって作成され、優先順位がつけられます。 → 続きを読む
更新: | 公開: | 投稿:

クローラーは負荷を低減・分散するために数多くの技術を使用しています。このうち通信負荷を減らすhttp getと、分散処理を行うことで巡回効率を向上する分散型ロボットについて説明します。 → 続きを読む
更新: | 公開: | 投稿: