
3年前にブログを始めたころ、同じトピックを取り上げているブロガー、自分のブログにリンクを張っているブロガー、そして、コメントを投稿するエントリやアドバイスを送ることができそうなエントリを見つけるため、私は好んでTechnorati(テクノラティ)やGoogle Blog Search(グーグル・ブログ検索)を含むブログ検索エンジンを利用していた。
しかし、年月が経過するにつれ、これらのサービスの有用性はほとんど失われてしまった。かつては、素晴らしいアドバイスやコネクションは、テクノラティのウォッチリストやグーグルのRSSフィードを介して手に入れていたが、今ではTwitter(ツイッター)、または、もっとターゲットを絞った検索を経由して獲得するようになった。
テクノラティにキーワードを幾つか入力し、有効な結果を得ることが出来る時代は終わった。現在、少数の質の高いコンテンツを探し出すには、大量のスパム、トピックとは関係のないエントリ、そして、単なるノイズのようなエントリを掻き分けなければいけなくなってしまった。
ブログ検索がまだ「死」を迎えていないとしたら、「危篤」状態であることは確実であり、何かしら策を講じる必要があるだろう。
問題点
過去数年間にわたり、ブログ検索の有効性を減少させてきた大きな問題を5つ挙げていく。
- スパム: スパムブログは過去3年の間に急増し、あらゆるブログ検索エンジンが、本物のブログを取り込みつつ、スパムを追い出す作業に苦労している。これは簡単な作業ではない。また、スクレイパーのおかげで、ブログ検索エンジンの結果の多くは、オリジナルのコンテンツは1つしか存在しないものの、重複している。
- RSSを利用するブログ以外のサイト: 3年前、RSSは、ほとんどブロゴスフィアでしか採用されていなかった。今では、RSSフィードはメジャーなニュースサイト、フォーラム、ソーシャルネットワーキング・サイト等でも利用されている。これらのサイトが価値をほとんど加えることなく、ブログ検索エンジンに頻繁に取り上げられているのだ。
- タグゲーム: ブログのエントリのタグづけをメジャーにしたのは、テクノラティなのかもしれないが、エントリを関連性のないキーワードで埋め尽くし、タグを濫用するブロガーが現れている。このような行為は、タグ検索結果の精度を大きく狂わせ、タグ検索の信頼度を落としめてしまった。
- 誤りのあるフィード: せっかくブログ検索エンジンが本物のブログを見つたとしても、コメントフィード、タグフィード、または、カテゴリーのフィードをブログ全体のフィードとして登録してしまっているブログが時々ある。さらにひどいケースでは、パーマリンクの構造に依存し、これらのフィードが別々のURLを通して別個のブログとして読み込まれていることもある。
- 拡大: 恐らく最も大きな問題は、3年前と比べて、ブロゴスフィア全体が大幅に拡大している点ではないだろうか。すべてのブログが本物で、すべてのフィードが適切に解析されていたとしても、キーワードに対するノイズの量は数倍に膨れ上がっているはずである。
メジャーなブログ検索エンジンは、結果をミックスすることで問題の解決に挑むものの、それぞれ異なる経緯で失敗してしまった。
失敗への道のり
テクノラティは、大規模なインデックス、そして、オーソリティベースのランキングを誇り、かつてはブログ検索の寵児としてもてはやされていた。最高のシステムを持ち、グーグルを凌ぐとも言われていた。しかし、ここ数ヶ月、そして、数年においては、テクノラティのインデックスは、スパムや重複するコンテンツにカモにされている。
自分のサイトに対する単純なリンク検索でさえ、ウェブマスター自身、または、盗用したスパムブロガーによる複数の重複するコンテンツが表示されてしまう。スパマーがオリジナルのサイトよりも早くインデックスされ、まるでスパマーが先に投稿したかのように思われてしまうこともある。これは最悪である。
キーワードの利用頻度が高いと、問題は深刻化する。テクノラティは、リンクが張られる頻度に注目した「オーソリティ」システムを開発し、対抗しているが、完璧とはほど遠く、スパムの大半をフィルタリングしようとすると、多くの正当なブログまで巻き込まれてしまう。
ユーザーは、精度と完全性との間で、「悪魔のような決断」を迫られるのだ。
一方のグーグル・ブログ検索は、スパムブログを遠ざける対策に関しては、しっかりとした戦略を講じているようだが、その他の結果まで締め出してしまっている。また、フォーラムやコメントフィード等が定期的に現れ、複数のキーワードをかき消してしまうこともある。
さらに事態を悪化させているのが、その奇妙な順序づけシステムである。新しいエントリが登場しても、非常に古いコンテンツがなぜか高いランクを獲得しているのだ。
最もイライラさせられる点は、グーグルがリンクの結果をレンダンリングする手法である。これは、WordPress(ワードプレス)のデフォルトにもなっているものだが、全く役に立たない。先日、グーグルは、RSSフィードではなく、ページをインデックスする決断を下していた。
この決断は部分フィードを提供しているサイトにとっては朗報なのかもしれないが(コンテンツ全体がインデックスされるようになるため)、ブログロールのリンクを含め、ページ上のすべてのリンクがカウントされることになる。要するに、誰かがブログロールでリンクを張ると、その人がコンテンツを投稿する度に、ワードプレスのダッシュボードまたはリンクフィードにそのコンテンツが掲載されるのだ。
この問題は本当にイライラさせられるが、簡単な解決策は存在しない。検索を極めた天才達は、途方に暮れており、完璧な回答はしばらく出てきそうもない。
対策
これらの問題の解決に取り組む、小規模なブログ検索エンジンやニュース検索エンジンが現れ始めている。その多くは、優秀なブログのみをインデックスする手法を採用している。その一部を紹介しよう。Regator(リゲイター)、Blog Search Engine(ブログ・サーチ・エンジン:アイスロケットと提携を結ぶスプラッシュメディアが所有)、そして、Twingly(ツイングリー)は、この原則に則り、よい結果をもたらすため、インデックスに対するコントロールを強化している。
このようなシステムを採用する検索エンジンは、2つの問題を抱えている。まず、人間、または、自動プロセスによって、インデックスを管理しなければいけない点だ。自動プロセスを利用する場合、スパマー達に悪用されるのは時間の問題だろう。人間が管理しているなら、メンテナンス費用が嵩んでしまい、また、新しいサイトがなかなかインデックスしてもらえない欠点がある。
次に、テクノラティのオーソリティシステムのように、これらのサイトもまた、精度と完全性との間で選択を迫られる点も問題である。比較的スパムやノイズの少ない結果を出せたとしても、正当なブログを幾つかはじき出してしまうのだ。
いずれにせよ、完璧でも洗練されているわけでもないが、現段階では、最も有効な対策と言えるだろう。
結論
個人的には、自分の分野の最新の情報を得るために、ブログ検索エンジンに代わる他の手段を探し始めている。関連するブログを直接購読したり、ツイッターの検索フィードを使ったり、Delicious(デリシャス)の被リンクやソーシャルニュースサイトをチェックしたりする方が、よっぽど有効である。
ブログ検索フィードの購読をやめてもいい準備は整っているが、まだ諦めたくない。テクノラテイやグーグルには、是非、解決策を見出してもらいたい。
ブログ検索の黄金期は過ぎ去ってしまったかもしれないが、記憶は脳裏に強烈に焼き付いている。
ライター紹介: ジョナサン・ベイリーは盗用、コンテンツ盗作、そしてウェブの著作権問題をテーマに取り上げ、Plagiarism Today(プレジャリズム・トゥデイ)でブログを書いている。ジョナサンはコンテンツ盗作問題に対応するウェブマスターが正確な情報を集め、この変化の激しい分野で取り残されないようにこのブログを2005年に始めた。それ以来、コンサルティングサービスをウェブマスターや企業に提供し、彼らが現実的なコンテンツ保護戦略を考案できるように、そして効果的な著作権ポリシーを策定できるように支援している。ジョナサンは弁護士ではなく、彼が提供している情報も法的なアドバイスとして捉えるべきではない。
[原文へ]
関連記事
- ブログ検索エンジンにとって代わる4つの手段
- これが私の情報源
- スパム・ブログとの戦いが激化する2008年
- 無料のコンテンツ盗用対策ツール ベスト20
- BlogCatalog、ソーシャルメディア検索エンジンを導入
