Googleの単語認識(2)

SEOスパムphoto credit: MoneyBlogNewz via photopin cc

可能な限り同じ条件で調査をしたいと思って、216.239.33.101 のGoogleサーバのみで検索クエリーのテストを行う。

キーワード:ウェディング—(a)
(約417,000件)
キャッシュから判断すると、
ウェディング OR ウエディング
での検索となっている。

しかし、明示的に検索フォームで
ウェディング OR ウエディング—-(b)
と検索したときの検索結果数は約418,000件。

検索結果は似ているけれど、微妙に異なる。

たとえば、検索結果の2ページ目(11件目以降)

『ウエディング in フィジー』
というページの順位が違ったりする。

ウエディング
で検索すると、検索結果数は約416,000件。
これまた微妙に異なる。

ウエディング OR ウェディング
と、OR検索でキーワードの並びを変えると、
検索結果数は約418,000件。これが(b)と同じになるのは当たり前。

Googleが形態素解析を行い、インデックスを作成するときに「ウェディング」と「ウエディング」を同じように扱っているとするならば、検索結果数が変わるというのは変なので、検索キーを指定した段階で、「ウェディング」と「ウエディング」の両方で検索をかけるということをしているのか。そのとき、単独キーワードで指定したときには、「OR」検索を行っているものの、明示的に指定したもので優先して検索を行っているのだろうか。
そして、「OR ウエディング」は、あくまでも補足的に調べ、最終的にコンカチネート。マージして検索結果を出すのか?

そう考えると、「ウェディング OR ウエディング」で明示的に指定した場合と、「ウェディング」の単独キーワードで検索した場合の検索結果数の違いはなんとなくわかる。(20位以降の順位がどの程度違うのかもよく調べてみないとわからない。逆に調べたら、インデックスの持ち方の参考になるかもしれないな)

「ウエディング」で検索を行ったときは、
「ウエディング」を優先して、「OR ウェディング」を補足として検索している。これの検索結果数が、「ウェディング」単独より少ないのは、「ウェディング」>「ウエディング」だからだろうか?


うーむ。よくわからない。
誰か知ってる人いたら教えてください。
(ということで、書き込み可能にしてみた)


これ、サーバ変えてやると、また少し違う結果がでる。
リアルタイムに近い形でインデックスが更新されていってるので、サーバごとに、検索ごとに変わっていくということなのか。Googleはフレッシュクロールで得たインデックスと、レギュラークロールで得たインデックスをどのように管理しているのだろうか?

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク

コメントをどうぞ

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です