ユーザーに対して新鮮で精度の高い情報を提供するためには、検索システム全体で限られたリソースを効率的に使うことが欠かせません。特に、WWW上には膨大なWebページが存在するため、クローリングの作業には多大なリソースが必要となります。そのため、検索エンジンは次のようなクロール技術(巡回技術)を用いて、クローリングを少しでも効率的に行えるように努力しています。
優先収集
優先収集とは、無駄な繰り返しの巡回を減らすために、リンク先に対して巡回の優先順位を決めてクローリングする方法です。 続きを読む
http get
http getとは、Webサーバーから情報を取得するための一般的な通信プロトコルで、負荷のない情報収集が行えます。 続きを読む
分散型ロボット
分散型ロボットとは、巡回の効率を上げるために、複数のシステムでクローリングを分担する技術です。 続きを読む

