初音ミクつづき~Yahooがもの凄い勢いでカオスになっている件

| コメント(0) | トラックバック(0) |はてなブックマーク この記事をクリップ!

画像サーチ担当者が半泣きで右往左往している様が目に見えるようです

Googleは最初から諦めたような割り切りっぷりを感じます。「仕様」なんだろうなぁ。

ってのと、逆に不思議なんだけど、Liveはどうしてあんなに精度高く抽出できてるんだろう。
画像のURLに直接張れるタグは、altか、aタグで画像直リンクした時のテキストくらい。
ざっと見てみたがやはりLiveでもその2つが強いようです。

一方で、ソースを見ても初音ミクなんて単語が1つも出てこないようなところでも正確に抽出出来ているものも稀にあります。
クロールした時点ではaltかaタグでテキストが付いていたのか、別サイトからaタグで初音ミクと書いてリンクされているのか、もしくはそれ以外の理由があるのか、ちょっと分かりません。

検索後にクリックされたものを覚えておいてスコアを上げる(閲覧者に評価してもらう)というポイントもあるでしょう。これはソート順序の問題でしかないが、実は闇雲に取りまくっていたがLiveなら検索出来るらしいと聞いてみんながクリックしたせいで「当たり」だけageられまくった可能性もあります。

昨日の予想は概ね当たってそうな感じだけど、思っていたよりもちゃんとalt付けて貼ってるサイトが多いんでこれはクロール来ても落ちる可能性が高そうかなぁ。

昨日の夜は2時間ほど画面の隅っこにtailでログ表示させていたんですがイメージクローラーは全く来なかったです。
Google、Yahoo、Live、百度、あたりは2時間でもかなりの回数来ています。
眺めていて感じたのですがクロールの癖は千差万別で、Googleはクローラーがピンポイントで最新ファイルだけを取得し、既にクロース済みのファイルはタイムスタンプの確認もせずに帰って行きました。無駄がないです。一方でGoogleのフィードチェッカーはかなり頻繁に来ており、こっちをヒントに使っているのだろうかと感じた次第。
YahooとLiveはかなり自由に歩き回っていきますね。

Googleについては、イメージクローラーの頻度が少なすぎ(一つ一つがクソ重い割に利用頻度が低いことを考えると仕方ない)、サーチインデックスがイメージ取得ではなくテキスト取得のタイミングで更新されてしまっている、あたりが原因かなと納得しやすいのですが……
前者はともかく後者は改善の余地があるのでは?

Yahooはカオスすぎて何をしているのか良く分かりません。
ただ、Liveが凄いだけで、Yahooは「普通」な気もします。癖を考えるとGoogleは頻繁にクロールしたとしても画像に関してはYahooより精度低そう。

ロゴや文字についてはどこも画像認識で高精度で蹴れてる感じかなぁ。
横長は駄目とか縦長は駄目とか、ベタ塗り中心は駄目、とか比較的単純なものでもかなり蹴れそうですが、それ以上に蹴れてそう。

ふーむ

トラックバック(0)

トラックバックURL: http://www.juna.net/diary/mt-tb.cgi/122

コメントする

2009年7月

      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  

あわせて読みたい

Google 検索

Web www.juna.net