集合知や集団の叡智といった概念がもてはやされる昨今、その話題の端緒となった書籍「『みんなの意見』は案外正しい」の中で、「Googleの検索結果もまた集合知の賜物」という部分があり、これには大いに疑問があるため、その検証を記事にしました。結論からいえば、Googleの検索結果は集合知をうまく使ってはいるものの、集合知そのものとまでは言えない、といったところです。

Googleの検索結果もまた集合知の賜物?

昨年頃からのWeb 2.0ブームともに、「集合知」とか「集団の叡智」という概念が世間を賑わせているようです。これは、条件さえ満たせば、集団から抽出した知恵は、その集団に属する最も優秀な一人の知恵よりも優れている、という概念で、これそのものはとても興味深いものです。

しかし、この「条件さえ満たせば」というところが曲者で、インターネット以前にはこの「条件を満たす」仕組みを作ることがとても難しく、効果的に集合知を利用した例というのは多くないのですが、今後はインターネット(特に web 2.0 の文脈で語られるようなサービス)の隆盛によって、効率的に集合知を利用できるようになるのではないか、という観測が語られています。

『みんなの意見』は案外正しいこの「集合知」については書籍「『みんなの意見』は案外正しい」(ジェームズ・スロウィッキー著・原題は「The Wisdom of Crowds」)が話題の中心です。

この中で取り上げられている「Googleの検索結果もまた集合知の賜物」というようなところには、かなり違和感を感じたので、このあたりを中心に少し書いてみます。

また最近ごく一部で話題になったサイバーエージェント関連のサイトがGoogleから削除されたりすぐに復活したりした件なども含めて考えてみたいと思います。

集合知が得られるための4要件

さて、集合知が得られるための前提条件のようなものとして、この本では、四つの要件があるとして、以下のような記述があります。これを読む限りでは、集合知を得るのはとても難しそうです。

意見の多様性(それが既知の事実のかなり突拍子もない解釈だとしても、各人が独自の私的情報を多少なりとも持っている)、独立性(他者の考えに左右されない)、分散性(身近な情報に特化し、それを利用できる)、集約性(個々人の判断を集計して集団として一つの判断に集約するメカニズムの存在)という四つだ。

『みんなの意見』は案外正しい」(ジェームズ・スロウィッキー著)

上記の4要件を箇条書きでまとめ直したものが以下です。

  • 意見の多様性(それが既知の事実のかなり突拍子もない解釈だとしても、各人が独自の私的情報を多少なりとも持っている)
  • 独立性(他者の考えに左右されない)
  • 分散性(身近な情報に特化し、それを利用できる)
  • 集約性(個々人の判断を集計して集団として一つの判断に集約するメカニズムの存在)

一方、Googleの検索結果は、これらの要件を満たしているでしょうか? 本の中でも「Googleの検索結果もまた集合知の賜物」とあったとおり、実際のところ満たしているように見えます。少なくとも、ある程度満たしているのは明らかです。以下にまとめます。

  • Googleは確かに、多様な意見を発信するウェブページを万遍なく扱っているように見える
  • Googleが取得しているそれぞれのウェブページは独立性があるように見える
  • それぞれのウェブページで表明される意見は、そのウェブページを作成した人の身近な情報から判断されたもので、この意味では分散性は確保されているように見える
  • GoogleのPageRankアルゴリズムは、それらの判断を集計した結果としてもたらされますので、集約性もまた確保されているように見える

しかし、ここで簡単に「Googleってスゲー!まさに集合知!」みたいな結論を出すのは早計に過ぎます。

Google検索の仕組みから検証する

まず、PageRankとはどういうものか、という点について、本家のGoogleのページから引用してみましょう。

PageRankTM は、Webの膨大なリンク構造を用いて、その特性を生かします。ページAからページBへのリンクをページAによるページBへの支持投票とみなし、Googleはこの投票数によりそのページの重要性を判断します。しかしGoogleは単に票数、つまりリンク数を見るだけではなく、票を投じたページについても分析します。「重要度」の高いページによって投じられた票はより高く評価されて、それを受け取ったページを「重要なもの」にしていくのです。

こうした分析によって高評価を得た重要なページには高いPageRankTM (ページ順位)が与えられ、検索結果内の順位も高くなります。PageRankTM はGoogleにおけるページの重要度を示す総合的な指標であり、各検索に影響されるものではありません。むしろ、PageRankTM は複雑なアルゴリズムにしたがったリンク構造の分析にもとづく、各Webページそのものの特性です。

Google の人気の秘密

『みんなの意見』は案外正しい」の中でも指摘があるように、PageRankは単純な平均値ではなく、加重平均値で表されます。すべてのリンクが同等の重みを持つのではなく、より多くのリンクを集めているページからのリンクほど重要とみなされます。

この意味では、PageRankは完全な民主制ではなく、共和制のようなものです。僕はこの時点で、先に引用した「集合知を得るための四つの要件」のほとんどは崩れてしまっているように思います。一つずつ見てみましょう。

意見の多様性について

まずは「意見の多様性」ですが、これはほぼ確保されていると考えてよいと思いますが、完全ではありません。というのは、時にGoogleは都合の悪い一部の意見を排除することがあるためです。これは「Google八分」などと呼ばれ、実際に存在します。一部の意見はGoogleのインデックスから作為的に除外されているため、完全に「意見の多様性」が確保されているとは言いにくいのです。

例えば「悪徳商法?マニアックス」は悪徳商法を行っていると見られる団体に関して情報と対策を掲載するサイトであるが、2006年3月現在「グーグル八分」にあっていると言われており、確かに「悪徳商法」でGoogle検索してもインデックスページは上位に現れない。

この現象は、日本国内からの検索に限られ、海外または海外のプロキシー経由で検索を行うと、一番上に「悪徳商法?マニアックス」が表示される。この点について、2004年1月に、「悪徳商法?マニアックス」の管理人がGoogleに問い合わせたところ、「日本の法律上、違法情報に該当すると判断され、Google.co.jp及び弊社パートナーサイトから削除させていただきました」との回答があり、グーグル八分の存在が明らかとなった。

グーグル八分は、一般的には検索国の法律に従って行われるが、Googleはアメリカの企業であるため、アメリカ国内の法律によって違法と判断されたサイトについては、全世界で表示されない。例えば、DMCA(デジタルミレニアム著作権法)に抵触すると判断されたサイトについては、日本語のコンテンツであっても日本国内から検索出来ないし、アメリカ以外の国経由で検索しても同様である。

World Wide Webとはいいながら、実際には検索エンジンがポータルサイトとして重要な役割を果たしている現状では、多くの利用者にとって、グーグル八分を受けたサイトは存在しないも同然になる。そのため、特定のサイトを恣意性にヒットしないようにする操作は情報のアクセス権の問題になりうる。

ちなみに中国でのGoogleでは、中国政府側からの要請により中国政府に反する記事は検索しても一切表示されることはない。

Wikipedia「グーグル八分」

他者の考えからの独立性

次に「独立性」(他者の考えに左右されない)ですが、ウェブページとリンクという行為の特徴として、リンクの対象となるページの選定が他者の考えの影響を受けないということはあり得ません。

というのも、これからリンクしようとするページをどうやって見つけたのかといえば、それはどこかのページからのリンクか、検索結果からのリンクから見つけたに違いなく、そうすると、すでに多くのリンクを集めているページは、新しくリンクされる候補に挙がりやすく、より多くのリンクを集める、という結果になりがちなのです。

これは、「金持ちはより金持ちに、貧乏人は持っているものさえ奪われる(「マタイによる福音書」の13章12より)」という「マタイ効果」であり、聖書の時代からの社会の真理です。これでは、リンク構造が「常に」独立性を保っているとはいいにくく、実際のところは、前提として他人の考えに影響された上で、その中の数少ない選択肢の一つとして、新たなリンクが生まれるのです。

分散性について

次に「分散性」ですが、新たにリンクを行う場合には、上記のような限られた選択肢の中でという条件付きですが、おのおのが自発的に、おのおのが持つ情報に基づいて選択を行うので、Googleにおいては「分散性」は確保されていると考えてよいかも知れません。

しかし、他の要件が十分に満たされていない上でのことなので、分散性だけは確保されている、と考えるのは危険かも知れません。

集約性について

最後に「集約性」ですが、僕はここに一番の問題があるように思います。先にも述べたように、PageRankは全てのリンクを一次的なものとして扱うのではなく、より多くのリンクを集めているページからのリンクほど重要とみなす、というような共和制のような解析手法を採っています。このため、一票(一つのリンク)の重みは同一ではありません。したがって、多くのリンクを集めるページの作者が恣意的なリンクを行えば、その時点で検索結果は賢いものではなくなります。

そして、「『みんなの意見』は案外正しい」にもあるように、「最終的に賢い結果を手に入れるには、上から下までシステムを通してみんなが賢くなければならない」のですが、実際にはこれは難しいものです。その理由は、Google自体が恣意的な側面を持っているからであり、リンク先を選ぶ際の選択肢はあらかじめある程度規定されているからであり、そして、今回のサイバーエージェントの件のように、時にはサイト運営者は賢くないリンクを行うからです。

サイバーエージェント事件

サイバーエージェントの件については、まあいくつかのサイトやブログで取り上げられていましたが、大した騒ぎにはならなかったあたり、世間はそれほどイノセントではなく、Googleが正義だとも、Googleの検索結果を集合知だとも考えていないということなのでしょう。

当然のことながら、Googleは全知全能の神などではなく、ましてや民主的などではまったくありません。そしてその検索結果もまた、完全な「集合知」を体現したものでもありません。Googleは、中国政府の意向に従って検閲も行うし、新聞社の申請に従ってGoogle八分を実行するし、今回のように疑わしいサイトを検索結果から除外するようにアルゴリズムの調整もします。

以前ならともかく、現在ではGoogleがそのような非民主的な(むしろ全体主義的な)行動に出たとしても、それほど大きな衝撃は与えないのでしょう。

PageRankの操作については、巨大な企業グループや政府のような場合にも、恣意的なリンクの操作は可能ですし、ある程度であればどこでもやっていることです。今回のサイバーエージェントの件などはやりすぎた例でしょうが、「やりすぎるとGoogleに嫌われるよ」ということもまた周知。

僕としては、これが「集合知」だ、などといわれると、またはGoogleは性善説の上に成り立っている、というような言説を見ると、ちょっとした異論を唱えずにはいられません。Googleは自社の基準でスパムと判定したサイトを容赦なく検索結果から排除します。これは企業姿勢として当然だと僕は考えますが、そうした姿勢が民主的かといえば、そこには疑問符がつくでしょう。

しかし僕がこんなことをわざわざ言うまでもなく、すでに多くの人はGoogleの非民主的な一面に気付いている、ということなのでしょう。だからこそ、日本最大手のネット広告代理店のサイトがGoogleから削除されても、騒ぎはそれほど大きくなりませんし、ネットの片隅で起きた小さな騒ぎはほどなく忘れ去られてしまう、というわけです。