HITSとは(Hypertext Induced Topic Selection)の略で、被参照度(オーソリティスコア)と、評価の高いWebページへの参照度(ハブスコア)から、重要性の高いWebページを抽出するアルゴリズムです。

リンク構造から重要性の高いWebページを抽出

Webページのリンク関係は、各々のWebページの重要度を測る指標として活用できるもので、被リンクにのみ着目しているのがリンクポピュラリティですが、実際にはページ間のリンク関係には次の2つの側面があります。

  • 被リンクは評価を受けていることを示す
  • 発リンクは他を評価していることを示す

あるテーマに間して重要なWebページから多くのリンクを受けるWebページは、そのテーマに関する重要なWebページであると考えられます。同時に、あるテーマに対して重要なWebページに数多くリンクを張るWebページもまた、そのテーマの重要な情報源であると考えられます。

トピックに着目したHITSアルゴリズム

ウェブ上の各Webページにおけるリンクの構造を、上記の両面から分析することで、あるテーマにおける優良な参照関係を見つけだし、重要性の高いWebページを抽出することができます。これをHITS(Hypertext Induced Topic Selection)アルゴリズムと呼びます。

このHITSを導入することで、単にキーワードに対しての適合度が高いだけのページではなく、多くの人間から実際に高く評価されているWebページを高くスコアリングすることが可能となります。HITSアルゴリズム(またはそれに近いスコアリング手法)は、Yahoo! をはじめ Google や Bing など、主要なすべての検索エンジンに取り入れられていると考えられています。

オーソリティとハブ

HITSアルゴリズムの特徴的な概念が「オーソリティ」と「ハブ」です。これらを簡単に説明すると、およそ次のようになります。

オーソリティ
重要な情報を発信しているページ。優良なオーソリティほど、優良なハブからの被リンクを多く受けている
ハブ
重要な情報を発信しているページに発リンクしているページ。優良なハブほど、優良なオーソリティに発リンクしている

オーソリティスコアとハブスコア

個々のWebページのオーソリティスコアは、そのWebページを参照するWebページのハブスコアの和です。逆に、ハブスコアはそのWebページが参照するWebページのオーソリティスコアの和となります。

オーソリティスコア
そのページにリンクしている各ページのハブスコアの合計
ハブスコア
そのページがリンクしている各ページのオーソリティスコアの合計

また、HITSでは、一度の計算だけでなく、反復的な計算によって、各Webページのオーソリティスコアとハブスコアを計算します。そのため、同じテーマを扱う多くのWebページ間のリンクは、オーソリティスコアとハブスコアを共に高める結果に繋がります。

ただし、検索エンジンは、単に多くのリンクを集めただけのリンク集の評価を必要以上に高めないよう、ハブスコアよりもオーソリティスコアをスコアリング時の指標として重要視します。そのため、HITSを採用する検索エンジンは、数多くの良質なサイトへの発リンクを設置することに加えて、数多くの被リンクを受けているWebページをより高く評価する傾向にあります。

HITSアルゴリズムに対応した最適化

オーソリティスコアは関連するページやサイトからの被リンクに依存しますので、これを上昇させる方法は被リンク構築、しかも関連したテーマを持ったページからの被リンクを構築することだけが解決策となります。

一方ハブスコアのほうは、オーソリティスコアの高いサイトへの発リンクによって上昇させることができますので、ウェブマスターが容易に上昇させることが可能です。関連したテーマを持つ優良なサイトへは積極的にリンクすると共に、優良でないサイトへのリンクを控えることで、ハブスコアを高めていくことが可能です。