ウェブ上を自動的に巡回し、Webページの内容を収集していくプログラム、クローラー(スパイダー、ボット、ロボットとも言います)の働きと、主なUA名について説明します。

ウェブ上を自動巡回し情報を収集するクローラー

クローラー(スパイダー)とは、検索エンジンがWebページの内容を収集するために用いるプログラムのことです。検索エンジンは、登録申請されたURIをもとに、Webページ内に含まれるリンク情報(href属性値に指定されたURL)をたどりながら、WWW上のあらゆるWebページの情報を収集します。

情報を収集するという、検索エンジンにとって重要な役割を持つため、各検索エンジンベンダーは他よりもより精度の高い情報収集が行えるよう、独自に様々なクローラーを開発してウェブ上を巡回させています。

クローラーの動作の制御

サイトによっては、特定のページやディレクトリをクロールさせたくない場合もあります。テスト運用中のページや、内容がまだ入っていないプレースホルダ的なページなどがある場合には、これらのページをクロールさせないためにクロールの制御が必要です。

ロボットの制御に関するより詳しい情報はクローラーとインデクサの制御をご覧ください。

また、同じコンテンツに複数のURLからアクセスできる場合や、コンテンツの重複したページ(主にCMSによって動的に生成されるものなど)がある場合については、Microformats の rel="canonical" を使用したURLの正規化を行う必要があります。

検索エンジンが用いる主なクローラーのUA名

日本語に対応している主な検索エンジンのクローラーのUAとその詳細を下記にまとめました。(上段:サーバーに返されるUA名/下段:詳細 ”*”は任意の英数字)

Googlebot/* (+http://www.googlebot.com/bot.html)
Googleのクローラーです。確認できているホスト名・IPは次のようになります。
crawler*.googlebot.com(216.239.46.* , 64.68.*.*)
crawler*.googlebot.com(64.68.*.*)
Googlebot-Image/* (+http://www.googlebot.com/bot.html)
Googleの画像収集用クローラーです。確認できているホスト名・IPは次のようになります。
crawl*.googlebot.com(64.68.8*.*)
Mediapartners-Google/2.1 (+http://www.googlebot.com/bot.html)
GoogleのAdSense用のクローラーです。確認できているホスト名・IPは次のようになります。
crawl*.googlebot.com(64.68.8*.*)
Mozilla/* (Slurp/*; slurp@inktomi.com; http://www.inktomi.com/slurp.html)
inktomのクローラーです。確認できているホスト名・IPは次のようになります。
*.inktomisearch.com(66.196.*.*)
indexpert/*
FreshEyeのクローラーです。確認できているホスト名・IPは次のようになります。
robot.fresheye.com(211.13.222.*)
InfoSeek Sidewinder/*
InfoSeekのクローラーです。確認できているホスト名・IPは次のようになります。
211.13.222.*
*.infoseek.co.jp(210.155.159.* , 202.33.250.* , その他多数)
Mozilla/3.0 (aruyo/*;http://www.aaacafe.ne.jp/ ;support@aaacafe.ne.jp)
AAA!CAFEのクローラーです。確認できているホスト名・IPは次のようになります。
h*.p253.iij4u.or.jp(210.130.253.*)
FAST-WebCrawler/* (atw-crawler at fast dot no; http://fast.no/support/crawler.asp)
FASTのクローラーです。確認できているホスト名・IPは次のようになります。
*.sac2.fastsearch.net(66.77.73.*)
Scooter/*
altavistaのクローラーです。確認できているホスト名・IPは次のようになります。
*.buildrack*.sv.av.com(216.39.48.*)
Cowbot-*
Naverのクローラーです。確認できているホスト名・IPは次のようになります。
61.78.61.*
220.73.165.*
218.145.25.*