このところうちに来ている/来たことのあるwebクローラー(とおもわれるもの)のUser-Agentを一覧表にしてみました。具体的にはrobots.txtを読みにきたひとの一覧です。期間は2007/6/26〜7/18まで。
- “Baiduspider+(+http://www.baidu.com/search/spider_jp.html)”
- “Gigabot/3.0 (http://www.gigablast.com/spider.html)”
- “Googlebot-Image/1.0”
- “JS-UZUSHIO”
- “Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)”
- “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
- “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
- “Spock Crawler (http://www.spock.com/crawler)”
- “SurveyBot/2.3 (Whois Source)”
- “Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”
- “ia_archiver”
- “ia_archiver-web.archive.org”
- “msnbot/1.0 (+http://search.msn.com/msnbot.htm)”
(1)のBaiduspiderは百度のクローラー。中国のサーチエンジンで、2003年に急成長し、2004年からalexaのトラフィックランクで世界の10位以内に入っている。現在は7位。もうすぐ日本でもサービスインするらしく、その前に日本語のページを集めているようだ。かなり積極的なアクセスで物議を醸したようだが、うちでは目立った動きはない。
(2)のGigabotはgigablastのクローラー。アメリカのサーチエンジン。登録型のディレクトリもある。トラフィックランクは2万位台とたいしたことはない。
(3)はGoogleのイメージ収集用?
(4)のJS-UZUSHIOはよくわからない。けっこうあちこちアクセスに行っているようですね。robots.txtを読んだあと、1ページだけ他のページを読むと言う動作をします。うちには2回しか来ていません。ODNのppp接続ホストで動いている上、他のサイトのアクセスログをみると、IPアドレスもひとつだけのようです。個人のもの?
(5)はAsk.comのクローラー。日本語版はask.jp。ask.jpのクローラーもこれと同じかどうかは不明(未調査)。ask.comについてはAsk.com(wikipedia)を読むと良い。
(6)はGoogleのクローラー。
(7)はYahoo.comのクローラー。Slurp(スラープ)というのは英語で「くちゃくちゃたべる」という意味で、2002年末に米Yahoo!が買収したinktomiサーチのクローラー名です。たぶんYahoo!JAPANもおなじUser-Agent名かなと思うが、これはhttp://help.yahoo.com/help/us/ysearch/slurpとかいてあるから、アメリカのYahoo!のクローラーかな。
(8)はSPOCKのクローラー。SPOCKは「人」に特化したサーチエンジンで、人名や、ひとのグループをさすような単語を入れて検索するらしい。たとえば「スピードのメンバー」とか? (いまは英語だけみたいですが)。
PC Worldの2007年6月の記事25 Web Sites to Watchにも選ばれたそうです。いまはベータサービス中で、登録したひとしか使えないみたい。あとでためしてみたい。
(9)はWhois Sourceのクローラー。ドメイン名を入れるといろいろ情報が出てくる。高機能版のwhoisみたいなかんじ。こんなのしらなかったな。けっこう面白いなあ〜。旧名はDomainToolsというらしい。詳しくはInformation about Survey Botにあります。
(10)はみんなの人気者Yeti、Naver(ねいばー)のクローラーです。最近きてくれないわー。
(11)はalexaのクローラー。alexaはアメリカの視聴率調査会社で、インターネットの視聴率調査(トラフィックランキング)もやってます。いまはアマゾンの子会社らしい。リンクをフォローするだけじゃなくて、可能ならディレクトリのインデックスをとってどんどん掘ってるっぽい。他の人がアクセスにこないようなディレクトリにもやってきます。
(12)はwebサイトのタイムマシンwaybackmachineのクローラーみたい。こんな泡沫サイトまで来てくれるなんてほんとやさしいのね ^^;; (まだインデックスはされてないみたいでしたが)。
(13)はMSNのクローラー。
こうしてみると、けっこうありますね。でもYahoo!JAPANやaltavistaとかにはおいでいただいていないのね。gooにもおいでいただいてないけど、gooで検索したひとが飛んでくるなあ…とおもったらgooは2003年10月にGoogleと契約して、Googleのエンジンつかってるみたい。ナルホドネ…