Googleの単語認識

SEOスパムphoto credit: MoneyBlogNewz via photopin cc

結局、今週末は執筆活動に追われて、寝る以外のほとんどの時間を調査とアウトラインづくりについやした。あー疲れた。阿部和重の新作読みたいのに。。。大西巨人の「神聖喜劇」だって進んでねーし。黒から借りた車谷氏の小説も読みたいわで。読みたい小説が山ほど貯まってる。ビジネス書とか類は小一時間もあれば読めるので安心なのだが、小説は多少時間がかかるので休みに時間がないのはつらい。

Googleがどのように単語を認識しているかを調べる方法として、検索結果のキャッシュを見るという方法がある。たとえば、「お小遣い」というキーワードをGoogleは「お」「小遣い」という2語の組み合わせとして捉えていることがわかるし、「高齢化」は1語で認識しているのに、「少子化」は「少子」「化」の2語の組み合わせとして認識している。「検索エンジン最適化」は「検索」「エンジン」「最適」「化」の四語だ。

さて、複音節の単語で、Googleに辞書として存在していないであろう単語を指定したときに、キャッシュにはどのように表示されるだろうか。

ロッキーホラーショー」というキーワードで検索を行って、検索結果のキャッシュを見てみると、
「これらのキーワードがハイライトされています」という文言とともに、

ロッキー|ロッキ ホラー ショー|ショウ|ショ

という記述が見える。

これはどういう意味なのだろうか。
これを僕はてっきり

(ロッキーorロッキ)andホラーand(ショーorショウorショ)という検索式で検索しているのと同じなのだと考えていた。
つまり単語のゆれを補正するために「ショー」は「ショウ」や「ショ」でも同じ扱いにする、という意味と考えた。

しかし、

実際にGoogleで、
ロッキandホラーandショウ
と検索してみると、ロッキーホラーショー」と指定したときとは、似ているが微妙に異なる検索結果になる。
特に20件目以降は微妙にページの順序が変わってたりする。

ちなみに「ロッキホラーショウ」と各文字で半角スペースを空けずに検索キーとして指定してしまうと、1語認識になってしまう。

さて、これらを考えると、
いろいろな想像ができる。SEO専門家の方にとっては常識的なことなのかもしれないが。。。。

この推測の続きはまた今度書く。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク

コメントをどうぞ

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です