ペンギンアップデートや、二転三転するウェブマスターツールからの警告によって、にわかに話題になっている不自然リンクの問題。この記事では、この不自然リンクの問題について、また、その他のスパム的なトリックについて、Googleの対応がどのように進んでいくのかを予想して整理します。

Googleはすべての不自然リンクを見抜けるか?

Googleはここ数ヶ月、不自然リンク(有料リンクや自作自演リンクなど)への対応を急速に強化しています。このような状況下では「Googleはすべての不自然リンクを見抜くことができるようになるか?」という話題が業界に流れます。

  • Googleはこの問題の解決のために長い時間をかけているが、いだに完全には見破れていない。すべてを見破るのは現実的には無理なのではないか
  • あの秀才の一個連隊を頭脳で出し抜き続けられると考える者は幸せだ。遠くない将来にすべて見破られると考えて当然だ

主流の2大論陣の意見をまとめると、上のようになるでしょう。筆者の考えは後者に属していますが、しかし現状を見るに、Googleはすべての不自然リンクを見破るにはほど遠い状況にあるのもまた確かです。では、本当に見破れるようになるのでしょうか? そうだとしたらそれはいつでしょうか?

人の目で見れば不自然リンクを見破ることは容易

低品質リンク、自作自演リンク、有料リンクは、いずれも人間の目で見れば一目でそれとわかります。この種の判断は人間の脳にとっては容易なものなのです。しかしコンピューターにとってはそれほど易しいものではありません。これはパターン認識の問題だからです。

人間の脳はパターン認識能力が非常に優れていますが、コンピューターはそうでもありません。コンピューターのパターン認識が人間の脳に劣る点は、精度および速度です。精度を高めようとすれば速度に問題が出て、速度を高めようとすれば精度に問題が出る、というのがコンピューターです。

パターン認識で不自然リンクを検出するアルゴリズムを開発することは、Googleの開発力をもってすれば、そう難しくはないはずです。実用レベルに達しているかどうかという問題さえ別にすれば、現時点ですでに、理論的には完全な検出が可能になっているでしょう。

つまり現状では、アルゴリズムによる不自然リンクの完全な検出は「理論的には可能」しかし「実用上はイマイチ」という段階にあると考えるのは妥当であり、そしてその理論の一部は、ペンギンアップデートに代表されるような形で徐々に実用に移行しています。

完全に見破れるようになるのはいつか

現状の不自然リンクの検出は、誰が見ても不完全です。このような状況が続いている理由をシンプルに説明するなら、「パターン認識の速度と精度の両面から、現状のコンピューターの処理能力では実用水準に達していない」ということでしょう。

つまりこの問題は、これから先、コンピューターの処理能力が十分に高まることによって、徐々に解決されていくということです。今までもこれからも、時間の経過と共に、メモリはより大きく安く速くなり、CPUもより安く速くなるでしょう。そして、その流れに呼応して、不自然リンクの検出もだんだんと高度な実装がなされていきます。

おそらくその実装は、ある日を境にすべての不自然リンクが見破られる、ということが起きるのではなく、Googleの検索を支えるハードウエアの性能向上と価格下落に歩調を揃えるようにして、徐々に見破られ、完全なものに近づいていく、と考えるのが現実的でしょう。

現在までの不自然リンク検出に対するアルゴリズム的な動きもまた、上述のような道のりで着実に進化してきているように見えます。そして、こうした道のりは、不自然リンクの問題だけに限らず、今までの検索エンジンの進化のすべてについて当てはまるものです。

ハードの性能向上と価格低下がもたらしてきたもの

少し懐かしい話をしましょう。Googleのインデックス更新の話です。2000年頃までのGoogleのインデックス更新は不定期で、3〜4ヶ月に一度のペースでした。2000年ごろから2003年頃までは1ヶ月に1度のペースで一括更新しており(Google Dance)、その後は逐次更新に移行(Everflux)、2007年頃には検索結果はほぼリアルタイムに近いものになりました。

理論上はおそらく、最初期の時点から、現在のような(Google DaceもFresh CrawlもEverfluxもない)リアルタイムの運用は可能だったでしょう。しかし実際にはそうできなかった理由として、ハード性能がボトルネックになっていたと考えるのは自然なことです。ハードが安く高性能になることと連動して、実際の運用も高度化していったのです。

また、インデックスに関して言えば、2003年頃のGoogleとFast Search(All the Web)の熾烈なインデックスサイズ競争を覚えている人もいるかもしれません。Google と All the Webは互いのトップページにインデックスしているページ数を表示して、網羅性を競っていました。しかしハードウエアが十分に安く高性能になると、この競争の意義そのものが消失してしまいました。

そしてそもそもの原点に立ち返ると、Google検索が1998年の登場から短期間のうちに世界一の検索エンジンに上り詰めた理由は、グラフ理論を検索結果に適用したPageRankの革新性にありました。この凄さは、理論だけの話ではなく実際に実用レベルで広大なWeb上のリンクグラフを解析したことにありますが、これを可能にしたのも、ハードウエアの性能が向上したことと無関係ではありません。

つまりここで筆者が述べたいことは、検索エンジンの性能向上においては、ハードウエアの性能の向上および価格の低下が大きく寄与してきたということであり、その傾向は今後も変わらないだろうということです。

大局を見失わないように

ペンギンアップデートや不自然リンクの警告など、目の前にあるGoogleの細かな動きばかりに注目していると、どうしても大局を見失いがちです。ペンギンや警告は、その時点でのリソースの範囲内におけるチューニングに過ぎません。それらにおかしな点があったり、または不完全だったとしても、それがGoogleの技術力が劣っている証拠になるわけではありません。

もう少し長期的に見れば、利用できるリソースそのものが拡大していくことによって、現在話題になっているリンクの問題だけでなく、ありとあらゆるトリックは見破られていく、と考えてよいと筆者は考えています。「理論上は可能」と「実装して運用できる」の間には高い壁があるものの、ハードウエアの性能向上と価格低下によって、その壁はどんどん低くなっていくのです。

率直に言って、不自然リンクが将来的に完全に見破られるだろうことは、Googleが公式に「PageRank の操作を意図したリンク」に言及した2001年〜2002年の時点から明らかだったことであり、それから10年もの長期にわたって不自然リンク施策が生き残ってきたことのほうが不思議なくらいです。

この記事のまとめ

  • 理論上は不自然リンクをパターン認識することはすでに可能なはず。現時点でうまくいっていないのはハードウエアの性能が追いついていないため
  • ハードウエアの処理能力が上がり価格が下がるにつれて、理論と実装の間に立ち塞がっている壁は低くなっていく
  • Googleが極めて高い精度で不自然リンクを見抜けるようになるのは時間の問題。その他の様々なトリックについても同様
  • そもそも論で言えば、Googleが公式に「PageRank の操作を意図したリンク」に言及した時点(2002年?)でカウントダウンが始まっていたと考えるべき
  • ただ、こと不自然リンクの問題に関しては、思ったより解決に時間がかかっているなあ、と思うのも事実。Googleさんにはもっと頑張ってほしいものです