1からまた作ってみようかなという気はないでもないです。
審問は元々せいぜい住人総人口100人そこらで「村立てられるかなぁ」レベルで作っていたのを無理矢理拡張したので、何というか、うん、人狼クローンの中では最も破滅的にソースが汚いという自信がある。
というわけでフルスクラッチで作ってみようかと。
・丁度仕事で使うことになりそうなCatalystの習作です
・「審問」ではありません
・「審問の後継」でもありません
・恐らくあなたが期待するものではありません
1からまた作ってみようかなという気はないでもないです。
審問は元々せいぜい住人総人口100人そこらで「村立てられるかなぁ」レベルで作っていたのを無理矢理拡張したので、何というか、うん、人狼クローンの中では最も破滅的にソースが汚いという自信がある。
というわけでフルスクラッチで作ってみようかと。
・丁度仕事で使うことになりそうなCatalystの習作です
・「審問」ではありません
・「審問の後継」でもありません
・恐らくあなたが期待するものではありません
スパムサイト作成講座43 - tDiary リファラスパムについてお詫び
サーチエンジンspamの実験を公開している上記サイトでちょっとした騒動。
tDiaryのような自動的にリファラを取ってバックリンクを張るようなサイトに対して、やたらめったらリンクを張りまくってバックリンクさせることでpage rankを上げられる、という実験に対してtDiary利用者から非難囂々。
7年ほどupgradeを繰り返しながら使い続けて来たDebian(x86)に別れを告げ、7年ぶりに家鯖のOSをクリーンインストールしました。
しかも64bit版に!
思っていたよりはすんなり行ったのですが、64bit化したことよりも、udev化したことの方で激はまり。
XenかKVM(QEMU)かvmwareかで迷ったんですが、vmwareがia32-libsでサックリ動いてしまったので引き続きvmwareで。
VNCとか入れたくないしね……
画像サーチ担当者が半泣きで右往左往している様が目に見えるようです
Googleは最初から諦めたような割り切りっぷりを感じます。「仕様」なんだろうなぁ。
ってのと、逆に不思議なんだけど、Liveはどうしてあんなに精度高く抽出できてるんだろう。
画像のURLに直接張れるタグは、altか、aタグで画像直リンクした時のテキストくらい。
ざっと見てみたがやはりLiveでもその2つが強いようです。
一方で、ソースを見ても初音ミクなんて単語が1つも出てこないようなところでも正確に抽出出来ているものも稀にあります。
クロールした時点ではaltかaタグでテキストが付いていたのか、別サイトからaタグで初音ミクと書いてリンクされているのか、もしくはそれ以外の理由があるのか、ちょっと分かりません。
検索後にクリックされたものを覚えておいてスコアを上げる(閲覧者に評価してもらう)というポイントもあるでしょう。これはソート順序の問題でしかないが、実は闇雲に取りまくっていたがLiveなら検索出来るらしいと聞いてみんながクリックしたせいで「当たり」だけageられまくった可能性もあります。
GoogleのクローラーはHTMLクロールとイメージクロールを独立して行っており、イメージクロールの頻度がHTMLに比べて著しく低く、検索はHTMLを元に行われている、のではないかと思う。
利用頻度と、クロールの負荷を考えれば、これはある意味当然とも言える挙動だ。
それと、Googleが「ページ内にある無数の画像からどれが初音ミクか判別出来ていない」可能性も高いと思われる。
ページの中には、BLOG筆者の愛猫の写真やら、イラストやら、飾り文字やら、ロゴやら、装飾罫線やら、あまつさえスペーサーgifまで、多くの画像がちりばめられている。
HTML上でこれらは全て無味乾燥なimgタグで記述されており、この中からどれが「初音ミク」の画像か探すのは、コンピュータにはそれなりに難儀な作業のはずだ。
こんにちは、初音ミクです

↑恐らく必要だったのはこういうことなのだろうと思う。
クリプトン社の画像が引っかからないのは当たり前だ。ソースを見てみれば分かる。
あのページに「初音ミク」の画像があることなど、当てろという方が無理だ。
実際、MSNの画像サーチでも、クリプトン社のミク画像は引けていない。
Googleのクロール頻度からするとこの実験は失敗に終わりそうだが、とりあえずこれで静観してみよう。
それと、「MSNにできてるのにGoogleが『ヘボくて』検索できていないはずがない」などと考えていた人はちょっとMSを舐めすぎだ。
サーバ止まります。復旧は日曜日。