グーグルのPageRank(ページランク)のアルゴリズムが先日調整されたことにより、ブログのページランクが大幅に昇降し、ブロゴスフィアに衝撃が走った。どうやら、グーグルはブロゴスフィア全体のインデックスに関する問題に直面しているようだ。
Google Alerts(グーグル・アラート)は、自分のブログが言及されている場所、そして、言及している人(サイト)を追跡する手段の一つである。 私はGoogle News(グーグル・ニュース)、Google Blogs(グーグル・ブログズ)、Google Web(グーグル・ウェブ)、Google Video(グーグル・ビデオ)、そしてGoogle Groups(グーグル・グループス)を網羅する「総合」を毎日メールで受信している。グーグル・アラートを使うと、アラートがフィルタリングされ、グーグル・ブログズによってブログとしてインデックスされているブログで自分のことが言及されたときのみ通知してもらえることができる。しかしながら、どうやらグーグルはどのサイトがブログなのか見分けがつかなくなってきているようだ。
理論的には、グーグルはアラート自体に独特なフィルタリングを施し、ウェブからのアラートとブロゴスフィアからのアラートを区別することができるはずだ。先日、私は実際にはグーグルはウェブとブロゴスフィアを混合していることに気づいた。メールを遡って調べ、グーグルはかなり以前からこのような行為を繰り返していたことを発見した。グーグルはアラート内でブログを分割していたのだ。
グーグルは私がブログヘラルドに投稿した「ブログをデータベースとして再検証」という記事をブログ・アラートに分類し、一方、ブログヘラルドの作者ページをグーグル・ウェブ・アラートに分類していた。グーグルは(動的な)ブログの記事と(静的な)ブログのページを明確に区別しているのだ。マイケル・スーティブンソンは皮肉にもインターネットがついにブログに組み込まれたことに気づき、「どうやらこの現象は、投稿が同時配信される(RSS)一方、ページは同時配信されないことが原因のようだ」とコメントしている。グーグルはブログ内のコンテンツを別々に取り扱うことで、分割しているのだ。
データベースとしてのウェブは構造化をウェブにもたらすことはない。その一方、グーグルやTechnorati(テクノラティ)がウェブに構造化をもたらすのだ。グーグルは明確に自分達のミッションを「世界の情報をまとめ、世界中からアクセスできるようにすること、そして役に立つようにすること」と明示している。このミッションを実現するために、彼らは、特定の結果をもたらす特定のアルゴリズムを利用してクエリを行う、巨大なデータベースを持っている。アルゴリズム内の微妙な調整が、ページランク騒動を見れば分かるように、大きな変化をきたすことになるのだ。
ウェブのすべての部分が(グーグルの)ウェブデータベースに属しているわけではない。各種の検索エンジンは異なる(量の)ウェブサイトやブログにインデックスをつけている。ディープウェブの世界には検索エンジンにインデックスされていない場所もある。先日の調査結果では、ディープウェブはウェブの表面よりも500倍大きいことが分かった。また、メジャーな検索エンジンはディープウェブの3分の1にインデクッスをつけることが可能であり、このことから残りの3分の2ははインデックスされていないことも分かった(He et. al. 2007年)。つまり、私達が目にしているのは氷山の一角であり、グーグルがミッションを実現するのはまだまだ先のことになるのだ。
大部分のウェブのデータベースはいまだに目にすることができない。リンクベースのアクセスが提供されていないため、現在のクロール技術ではインデックスされることはないのだ。そしてクロールすることができるようになったとしても、ウェブのデータベースが動的であるため、更新にクロールがついていくことはできないだろう。(He、Patel、Zhang、およびChang。「ディープウェブにアクセス」 Commun. ACM(コミュニケーションズ・オブ・ACM 50, no. 5 (2007): 94-101.)
現在のウェブは非常に活発であり、グーグルおよびテクノラティの双方がこの問題に直面している可能性が高い。ブロゴスフィアが成長を続ける一方、インデックスする側は更新する頻度を増やさなければならなくなり、クローラは多忙を極めているのだ。ダーレン・ラウズは「テクノラティはブログのインデックスを止めたのか?」という記事を綴り、ダーレン自身も、そして彼のブログ、Problogger(プロブロガー)の読者もテクノラティがインデックスの問題を抱えていることに気づいていると指摘した。
私はふと思った。グーグルとテクノラティはブロゴスフィアの成長に対処することができるのだろうか?皆さんの意見を訊かせてもらいたい。
ライター紹介:アンネはアムステルダム大学でニューメディアを学ぶ学生であり、現在、WordPress(ワードプレス)にスポットライトを当てた「Blog Software and the Act of Blogging(ブログ・ソフトウェア・アンド・ジ・アクト・オブ・ブロギング)」と言う名の修士論文を書いている。アンネはブログ・リサーチャーとして、最近設立されたばかりの、同大学のDigital Methods Initiative(デジタル・メソッズ・イニシアチブ)に参加している。また、ブログと学問に関する記事を、自らのブログ、そして共同運営のMasters of Media(マスターズ・オブ・メディア)ブログに投稿している。
[原文へ]
トラックバックURL:
http://jp.blogherald.com/2007/10/29/can-google-handle-the-maturing-blogosphere/trackback/
コメントはありません