ホーム > ネット・ウェブ関係

2003年11月19日

Googleの単語認識(2)

可能な限り同じ条件で調査をしたいと思って、216.239.33.101 のGoogleサーバのみで検索クエリーのテストを行う。

キーワード:ウェディング---(a)
(約417,000件)
キャッシュから判断すると、
ウェディング OR ウエディング
での検索となっている。

しかし、明示的に検索フォームで
ウェディング OR ウエディング----(b)
と検索したときの検索結果数は約418,000件。

検索結果は似ているけれど、微妙に異なる。

たとえば、検索結果の2ページ目(11件目以降)

『ウエディング in フィジー』
というページの順位が違ったりする。

ウエディング
で検索すると、検索結果数は約416,000件。
これまた微妙に異なる。

ウエディング OR ウェディング
と、OR検索でキーワードの並びを変えると、
検索結果数は約418,000件。これが(b)と同じになるのは当たり前。

Googleが形態素解析を行い、インデックスを作成するときに「ウェディング」と「ウエディング」を同じように扱っているとするならば、検索結果数が変わるというのは変なので、検索キーを指定した段階で、「ウェディング」と「ウエディング」の両方で検索をかけるということをしているのか。そのとき、単独キーワードで指定したときには、「OR」検索を行っているものの、明示的に指定したもので優先して検索を行っているのだろうか。
そして、「OR ウエディング」は、あくまでも補足的に調べ、最終的にコンカチネート。マージして検索結果を出すのか?

そう考えると、「ウェディング OR ウエディング」で明示的に指定した場合と、「ウェディング」の単独キーワードで検索した場合の検索結果数の違いはなんとなくわかる。(20位以降の順位がどの程度違うのかもよく調べてみないとわからない。逆に調べたら、インデックスの持ち方の参考になるかもしれないな)

「ウエディング」で検索を行ったときは、
「ウエディング」を優先して、「OR ウェディング」を補足として検索している。これの検索結果数が、「ウェディング」単独より少ないのは、「ウェディング」>「ウエディング」だからだろうか?


うーむ。よくわからない。
誰か知ってる人いたら教えてください。
(ということで、書き込み可能にしてみた)


これ、サーバ変えてやると、また少し違う結果がでる。
リアルタイムに近い形でインデックスが更新されていってるので、サーバごとに、検索ごとに変わっていくということなのか。Googleはフレッシュクロールで得たインデックスと、レギュラークロールで得たインデックスをどのように管理しているのだろうか?

[ Permalink ]

2003/11/19 23:46

2003年11月16日

Googleの単語認識

結局、今週末は執筆活動に追われて、寝る以外のほとんどの時間を調査とアウトラインづくりについやした。あー疲れた。阿部和重の新作読みたいのに。。。大西巨人の「神聖喜劇」だって進んでねーし。黒から借りた車谷氏の小説も読みたいわで。読みたい小説が山ほど貯まってる。ビジネス書とか類は小一時間もあれば読めるので安心なのだが、小説は多少時間がかかるので休みに時間がないのはつらい。

Googleがどのように単語を認識しているかを調べる方法として、検索結果のキャッシュを見るという方法がある。たとえば、「お小遣い」というキーワードをGoogleは「お」「小遣い」という2語の組み合わせとして捉えていることがわかるし、「高齢化」は1語で認識しているのに、「少子化」は「少子」「化」の2語の組み合わせとして認識している。「検索エンジン最適化」は「検索」「エンジン」「最適」「化」の四語だ。

さて、複音節の単語で、Googleに辞書として存在していないであろう単語を指定したときに、キャッシュにはどのように表示されるだろうか。

ロッキーホラーショー」というキーワードで検索を行って、検索結果のキャッシュを見てみると、
「これらのキーワードがハイライトされています」という文言とともに、

ロッキー|ロッキ ホラー ショー|ショウ|ショ

という記述が見える。

これはどういう意味なのだろうか。
これを僕はてっきり

(ロッキーorロッキ)andホラーand(ショーorショウorショ)という検索式で検索しているのと同じなのだと考えていた。
つまり単語のゆれを補正するために「ショー」は「ショウ」や「ショ」でも同じ扱いにする、という意味と考えた。

しかし、

実際にGoogleで、
ロッキandホラーandショウ
と検索してみると、ロッキーホラーショー」と指定したときとは、似ているが微妙に異なる検索結果になる。
特に20件目以降は微妙にページの順序が変わってたりする。

ちなみに「ロッキホラーショウ」と各文字で半角スペースを空けずに検索キーとして指定してしまうと、1語認識になってしまう。

さて、これらを考えると、
いろいろな想像ができる。SEO専門家の方にとっては常識的なことなのかもしれないが。。。。

この推測の続きはまた今度書く。

[ Permalink ]

2003/11/16 23:47

2003年11月11日

ガリレオゼストがセプテーニの子会社に

セプテーニがガリレオゼストを持分法子会社にしますな。
発行済み株式の28%を取得したってあるけど。

2003年9月期の売上高が3億3千万円。
ってのはかなり意外だった。デジタルマーケティングでは電通に次ぐシェアをもってると思われる、なんて書いてあるけど、デジタルマーケティングが花開いた昨期でこんなもんなのか。
あれだけのシステムを維持していて、これだときついだろうなと。

#しかし、楽天がDLJを買収って

[ Permalink ]

2003/11/11 09:36

2003年11月10日

新生銀行ネット・バンキング、Google新サービスの影響で意外なトラブル

http://itpro.nikkeibp.co.jp/free/NC/NEWS/20031031/136088/

Google ToolBarの影響でポップアップ画面を利用する際に制限がでるだろうと言ってたら、早くもでたね。
SEOやユーザビリティの観点から、フレームは駄目ってのが堂々といえるようになったのと同じぐらいの影響力が、GoogleToolBarにもありそうだなぁ。

[ Permalink ]

2003/11/10 20:42

2003年10月17日

日本旅行が、個人HPで営業

今日の日経産業に、日本旅行が、個人HPで営業をはじめるという小さな記事が載ってました。

営業担当社員がHPを通じて旅行商品を販売する営業活動を順次始める。年末までに全国の店頭販売員や法人営業担当者ら約2500人がホームページを解説。担当者を指名する顧客が増えているため、ネット販売でも対応できる体制を整え顧客囲い込みにつなげる。 個人のホームページは定型で、社員の自己紹介やメッセージ、添乗スケジュールなどで構成する。おすすめツアーの紹介や旅のコラムも掲載して社員の個性を打ち出した営業が可能なほか、社員の在籍支店や日本旅行のホームページに進んでのネット予約もできる。

規模は違うけど、Macromediaのblog戦略に近いものを感じる。
これがうまく行くかどうかは、ホームページを更新していく個々の担当者のセンスにもよるだろうけど、2500人いれば、10人は面白いものができるかもしれないですね。

SEOを考えても、こういう試みは面白いかも。

ライオンズマンションの大京が、ネット営業の話で、今は何かしらの大掛かりなシステム(CRMとかメールのコールセンター版みたいなもの)入れるぐらいだったら、メール営業できる営業マンを増やす、って言ってましけけど、それとも同じようなことを感じる。


blog文化が根付いてくると、こういう手法は今後もいっそう増えてくると思う。blogに合うトピックの旅行だとかはいいかも。人のキャラクターに商品が絡むという手法かな。その人の「視点」を信じるみたいな。

[ Permalink ]

2003/10/17 12:46