クローリング

検索エンジンは「クローラー」あるいは「スパイダー」と呼ばれるロボット(プログラム)を用いてウェブ上のページの情報を収集します。クローラーがウェブ上を自動的に巡回し、Webページを収集していく作業を「クローリング」と呼び、検索エンジンはクローリングで集められたデータをもとに、インデックス(データベース)に登録する情報の作成と登録・更新を行います。

HTMLパースとは、HTML文法規則にのっとった文字列を、その文法に基づいて字句解析し、意味や構造を解釈することをいい、HTMLパースを行うプログラムのことをHTMLパーサといいます。 → 続きを読む

クローラーは負荷を低減・分散するために数多くの技術を使用しています。このうち通信負荷を減らすhttp getと、分散処理を行うことで巡回効率を向上する分散型ロボットについて説明します。 → 続きを読む