サイトテーマ(またはテーマテクノロジー)とは、共通したテーマ性を持つWebサイトやそれらのつながりに高い評価を与えるスコアリングアルゴリズムです。

共通したテーマを持つWebページの関連性を評価

検索エンジンがキーワードとWebページの適合度を測る指標の1つに、サイトテーマ(またはテーマテクノロジー)があります。類似のテーマに関連するキーワード群を含むページ間のリンク関係に着目し、内容に関連のあるページからの被リンクに強い重み付けをします。

テーマの抽出は、個々のWebページに含まれるキーワードによってテーマを判断した上で、そうした共通のテーマを持ったページ同士のリンク関係をさらに解析することによって実現します。

ページ内要因によるテーマの判断
Webページ内に高い頻度で出現するキーワード群をもとに、そのWebページのテーマを抽出します。具体的には、title要素h要素アンカーテキスト本文などの中で共通して出現するキーワードやその関連語がテーマとして扱われます。これはGoogle Adsenseなどのコンテンツマッチ広告と同様の技術です
リンクによるテーマの類推
共通のリンク元を持つ複数のWebページは、共通するテーマに基づいた関連性があるとみなします。例えばヤフーカテゴリの同じページからの被リンクを受けているそれぞれのサイトは、必然的に共通したテーマを持つと考えられます。これはGoogleにおける「related:URI」構文の検索と同様の考え方です

サイトテーマでは、共通したテーマを持ったWebページの集団を求め、その内部での被リンクが多いWebページほど、そのテーマに関して中心的な存在であると扱い、スコアリングの際に大きな重み付けを行います。共通したテーマを持ったページ群の中でより多くの被リンクを得ているページを探すことで、より重要なページを高い精度で見つけることができます。

サイトテーマを最適化する方法

サイトテーマはキーワードとリンクから類推されるものですので、これを最適化するためには、サイト内で使用するキーワードとサイトのリンク構造を適切に調整することが必要です。

  • サイトやページで使用するキーワードを最適化する
  • サイト内のリンク構造を最適化する

なお外部からの被リンクについては、特に何らかの方法で最適化するまでもなく、被リンクを集めれば集めるほどテーマを強化するものと考えられます(自動的にリンク元や共通するリンク元を持つページと関連づけられます)ので、ここでは除外して考えます。

サイト内で使用するキーワードの最適化

ある程度テーマの絞られたサイトであれば、特に配慮なくコンテンツを記述していても、相互に関連性のあるキーワードがサイト全体にちりばめられ、テーマに最適化された状態になるのが通常です。むしろ、そうして使用されたキーワード群が検索エンジンによって関連するキーワード群として認識されるというのが本来の順番です。

しかし少し近道して、作為的に関連キーワードをちりばめるのであれば、すでに検索エンジンが関連のあるキーワード群に属すると認識しているキーワードのリストを取得し、それらのキーワードをサイト内で使用することで、意識的にサイトテーマを強化することが可能になります。その時に活用できるのが、PPC広告のキーワードツールです。

例えばGoogle AdWords : キーワード ツールにサイトで使用する主要なキーワードをいくつか入力すれば、すでに Google が関連語であると認識しているキーワードのリストを入手することができます。これらのキーワードを元にコンテンツを作成すれば、サイトテーマへの対応を容易に行うことができます。

サイト内のリンク構造の最適化

サイトテーマでは、共通のリンク元を持ったページやリンクで直接的に結ばれたページ間の関連性に着目します。これを利用してサイト内のリンク構造を最適化する方法としては、次のようなアプローチが考えられます。

  • コンテンツを似たテーマごとに分類し、それらをピラミッド型にまとめたヒエラルキー型のサイト構造にする
  • Wikipediaに見られるように、文中に出現するキーワードでのリンクを多用することで、ページ間の繋がりを強化する
  • ブログなどのCMSに見られるタグ分類(タギング)を使って、カテゴリの木構造(ヒエラルキー型)の情報分類とは別に、関連キーワードまたは関連コンテンツによるナビゲーションを実装する

テーマテクノロジーの初期、WiseRankについて

サイトテーマやテーマテクノロジーと呼ばれる検索アルゴリズムが注目を集めたのは、2001年に公開され、Googleキラーとして注目を集めた検索エンジン「WiseNut」に実装されていたWiseRankの革新性にありました。以降、他の検索エンジンにも同様の技術が実装されたと言われています。

Google の PageRank がクエリに依存しないページ固有の価値を算出する技術だったのに対して、WiseNut の WiseRank は、クエリと連動した演算を行っていました。当時の発表では、以下のようなスコアリングを行っていたとされています。

  1. 検索キーワードに一致するページ群を抽出する
  2. 抽出したページ群の中での参照重要度を計算する
  3. 参照重要度(リンクポピュラリティ)とテキストマッチをもとにランキングを決定する

上記のプロセスの中で特徴的なのは、参照重要度(リンクポピュラリティ)の計算を行う際に、共通したテーマを持ったページ群だけを対象にし、テーマの共通しないページ(FFAリンク集など)は除外するところです。また WiseRank は、クエリが与えられて初めて各ページに割り振られるもので、同じページであってもクエリが違えばWiseRankは変動するというのも特徴的でした。

残念ながらWeb検索エンジンとしてのWiseNutは使命を終えてしまいましたが、その技術は他の多くの検索エンジンによって継承され、より洗練された形で実装されています。