SEOの基本 – クローラビリティとインデクサビリティとは?

  • 更新
クローラビリティとインデクサビリティのSEO

検索エンジンのロボットに対して、クロール性を確保する取り組みのことをクローラビリティの確保と呼び、インデックス性を確保する取り組みをインデクサビリティの確保と呼びます。クローラビリティとインデクサビリティの確保は、Webアクセシビリティ向上のための基本的な取り組みによって実現することができます。Webアクセシビリティへの対応はSEOへの対応でもあるのです。

Webアクセシビリティとは

Webアクセシビリティとは、高齢者や障害者を含むどのようなユーザーでも、どんなユーザーエージェントを使用していても、またどのような環境下にあっても、すべてのウェブコンテンツ利用できる状態をいいます。Webアクセシビリティを高める取り組みによって、ウェブサイトはより多くのユーザーにリーチすることができるようになります。

特定のプラットフォームやブラウザに依存しないサイトにすることで、マイナーなブラウザなどを使用するユーザー層を取り込むことが可能になるだけでなく、検索エンジンのロボットに対してもアクセシブルになります。この意味から、アクセシビリティを向上させることは、単に障碍を持ったユーザーのためになるだけでなく、一般のユーザーに対する機会の向上にもつながります。

「ウェブページ・デザインに関連するアクセシビリティについてよく知らない方は、多くのユーザーがあなたとは非常に異なった状況のもとで操作している可能性があるということを考えてみてください。

上記は「Web Content Accessibility Guidelines 1.01」の日本語訳「ウェブコンテンツ・アクセシビリティ・ガイドライン 1.02」の第一章からの引用です。このガイドラインは以下のように続きます。

  • あるユーザーは、「見ることができない」「聞くことができない」「動くことができない」または「ある種類の情報を簡単に、あるいはまったく処理できない」かもしれません。
  • あるユーザーは、「読むことが困難」または「文章を理解できない」かもしれません。
  • あるユーザーは、「キーボードやマウスがない」または「キーボードやマウスを使うことができない」かもしれません。
  • あるユーザーは、「テキストしか表示できない環境」「小さな画面を使用」「インターネットに低速でしか接続できない環境」で操作しているかもしれません。
  • あるユーザーは、その文書が書かれている言語を「容易に話したり理解することができない」かもしれません。
  • あるユーザーは、「見たり聞いたりできない状況」または「手が使えない状況」にあるかもしれません(車を運転している場合や、騒がしい環境などの場合)。
  • あるユーザーは、「古いバージョンのブラウザ」「まったく異なる種類のブラウザ」「音声出力のブラウザ」「異なるOS」などを使用しているかもしれません。

コンテンツ制作者は、ページデザインをする場合に上記の個々の状況を考慮する必要があります。しかし、考慮すべき様々な状況がある一方で、それぞれのアクセシブルなデザインのための方法は、同時に複数の状況に対して有効となる場合が多く、結果としてウェブ利用者全体にも利益をもたらします。

クローラビリティとインデクサビリティとは

テクニカルSEOの取り組みは「すべての正規ページをクロールさせ、正確にインデックスさせる」ことです。これはWebアクセシビリティにおける多様なブラウザへの対応と非常に近いものであり、アクセシビリティに対応することで得られる恩恵はSEOを実施していくうえでも非常に大きなものです。

検索エンジンがページやサイトの内容を取得する際に使用するロボットや、取得したデータをインデックスに格納するインデクサと呼ばれるプログラムは、HTMLを処理するプログラムという意味において、私たちが日常使用しているブラウザと同種のもの(つまりHTMLユーザーエージェント)です。

HTMLユーザーエージェントについて、HTML 4.01仕様書の「4 適合条件: 必須事項と推奨事項(日本語訳)3[/fn]」およびその原文4にはそれぞれ、次のような記述があります(強調は筆者)。

HTMLユーザエージェント
HTMLユーザエージェント【あるいは単にユーザエージェント】とは、HTML文書を解釈するプログラムのことを指す。 ユーザエージェントには、テキスト表示やグラフィック表示の視覚系ブラウザや、音声出力や点字出力の非視覚系ブラウザ、検索ロボット、プロクシ等が含まれる。
HTML user agent
An HTML user agent is any device that interprets HTML documents. User agents include visual browsers (text-only and graphical), non-visual browsers (audio, Braille), search robots, proxies, etc.

検索エンジンのロボットに対して、クロール性を確保する取り組みのことを「クローラビリティの確保」、正確なインデックスを助ける取り組みのことを「インデクサビリティの確保」、と呼びます。詳しくは以下のようなものですが、これらはいずれも、Webアクセシビリティの確保と同様の取り組みよって実現します。

クローラビリティの確保
検索エンジンのロボットがサイト内にあるすべての必要なページをくまなくクロールできるように、サイト内のコンテンツに適切なURL構造を持たせ、各ページは適切なHTMLで記述し、それぞれのコンテンツを適切なリンクで結ぶこと
インデクサビリティの確保
検索エンジンのロボットがページの内容を正確にインデックスできるようにするために、画像や音声、動画に対して適切な代替コンテンツを用意したり、ページ内の各要素の構造を適切にマークアップすること

検索エンジンのロボットは、ページ中の文字情報とリンク情報を中心に情報を取得します。つまり、文字情報とリンク情報しか理解しないブラウザ(テキストブラウザのような)で見た場合にもきちんと利用可能かつ理解可能なサイトにすることが、クローラビリティおよびインデクサビリティの確保につながります。

HTML文書の構造化

構造化とは、まとまりのない状態の物事を構成要素ごとに整理し、論理的な構造を与えることをいいます。HTML文書において構造化とは、文書を構成する各要素を整理し、論理的なタグで適切にマークアップすることをいいます。

より具体的には、表題見出しパラグラフ、リスト、表、といった文書の構成要素を、その意味のまとまりごとにマークアップし、それぞれの内容および関係を明確に区分けする作業をいいます。これによって得られる利点は次のようなものです。

  • 人間にとっては、文書の内容を一義的に理解しやすくなる
  • 機械にとっては、文書の意味に沿った処理や出力がしやすくなる

適切に構造化されたHTML文書は、通常のグラフィカルなブラウザだけでなく、テキストブラウザや音声ブラウザ、検索エンジンのクローラーやインデクサなど、HTMLを扱う様々なプログラムにおいて、意味を正確に伝えるなど文書とプログラムの高い親和性を得られます。

構造と表現(ストラクチャとプレゼンテーション)の分離

HTMLには文書の構造と内容だけを記述し、画面上のレイアウトなどの表現の制御はすべてCSSで行うことを、構造と表現の分離(ストラクチャとプレゼンテーションの分離)といいます。

構造と表現の分離によって得られるメリットは、HTML文書をシンプルなものにし、データに汎用性を持たせるこができることであり、具体的には次のようなものが挙げられます。

  • 限られたメモリしか搭載しないデバイスや、マウスやトラックパッドのようなポインティングデバイスを利用できない環境へのアクセシビリティの向上
  • ナローバンドのユーザーに対するストレスの軽減
  • 音声ブラウザや点字ブラウザなど、視覚以外の情報への適切な変換
  • ページの読み込み速度の向上
  • その他の未知のデバイスやブラウザに個別対応するコストの削減
  • 様々なユーザーに対応できることによる営業機会の向上
  • クローラーやインデクサ、ランキングアルゴリズムに対する必要な情報の正確な伝達

構造的な文章の作成

適切に構造化されたHTMLを効率的に作成するためには、マークアップする前の原稿が構造的である必要があります。つまり元の原稿が、表題、見出し、パラグラフ、リスト、表、写真、図版、といった要素に区別されており、かつそれらが論理的に配置されている必要があるのです。

そのためには原稿執筆者が、論理的なライティング手法を用い、適切な見出しとともに論理展開することが必要です。一見すると面倒なことのように思えるかもしれませんが、サイト運用全体における手間の総量を減少させることにつながります。

まとまりがなく論理展開に乏しい原稿を構造的に修正した上で適切にマークアップするのは大きな手間ですが、元の原稿が構造的であれば、マークアップの手間は極めて小さなものになるからです。また、こうした取り組みはコンテンツの品質向上に大きく貢献するでしょう。

テキスト情報を活用するメリット

Webアクセシビリティの取り組みは、ユーザーがどのような表示代行手段を使用していても、どのような環境下にあっても、すべてのWebコンテンツにアクセスできることを保証しようと努力します。あらゆるユーザーがすべてのWebコンテンツにアクセスできるようにする最も確実な方法は、すべてのコンテンツに等価のテキストを用意することです。

テキスト情報は特定のプラットフォームやユーザーエージェントに依存しない情報ですので、すべての情報をテキストで表現できれば、ウェブサイトのアクセシビリティは高まります。テキスト情報によるコンテンツ提供には以下のようなメリットがあります。

  • 画面上で見ることで、視覚的な情報としてアクセスできる
  • 読み上げ機能を使うことで、聴覚的な情報としてアクセスできる
  • 点字変換機能を使うことで、触覚的な情報としてアクセスできる
  • 検索エンジンロボットがクロールでき、インデックスできる

そのサイトにとって重要なコンテンツであればあるほど、特定のブラウザに依存する必要のない形態で表現すべきですが、テキスト情報による表現を行うことで、汎用性・再利用性が高く、アクセシブルで、SEOにも役立つ表現となります。

まとめ

Webアクセシビリティを確保するための取り組みは、高齢者や障害者のための取り組みだけを指すような文脈でとらえられることが多いものですが、実際には、SEOとの関連から、インターネットユーザーの大多数を占める健常なユーザーにとっても重要な取り組みです。

「アクセシビリティ」は直訳すると「到達可能性」であり、サイトの中だけで完結することではなく、どうやってそのサイトに到達(アクセス)するか? また到達(アクセス)しやすいかというところまで考えることができればよりよいでしょう。

そこで重要な役割を果たすのがSEOです。検索エンジンにも配慮して制作されたサイトは、検索結果を経由した外部からの到達可能性を向上させることができます。Webアクセシビリティの向上は、SEOにおけるクローラビリティとインデクサビリティの向上につながり、ひいてはサイト全体のトラフィックの向上につながるのです。

脚注

  1. Web Content Accessibility Guidelines 1.0 ↩︎
  2. ウェブコンテンツ・アクセシビリティ・ガイドライン 1.0(日本語訳) ↩︎
  3. 4 適合条件: 必須事項と推奨事項(日本語訳) ↩︎
  4. 4 Conformance: requirements and recommendations ↩︎