例の「あわせて検索」ですが、アクセスログを眺めていると、アクセスしてくるのは検索エンジンのクローラーが多いんです。ぐーぐる、yahoo, alexa, MSNにまざって、異様な(?)アクセスパターンで攻めてくるのが「Yeti」。韓国のNaverっていうサイトのボットらしい。User-agentは”Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”。checkなのにfollow”s”なので主語がよくわからんが ^^;; おそらく”we check your robots.txt everyday and follow it”といいたいんでしょうねえ。なんでわざわざこんなところで「ちゃんとrobots.txtよんでますよー」とかいいわけがましいこと言ってるかと言うと、このひと以前はNaverbotという名前で、かなり積極的なアクセスパターンでブツギをカモして、あちこちで出入り禁止になったらしい。それで困って名前かえたのかしら。
アクセスログをgrepしてwcしてみたところ、7月10日のGooglebotのリクエスト数が 897。Yetiは 1887。倍以上です。しかも! YetiさんはYetiさんだけじゃないんです。Yetiさんのアクセスパターンはだいたい以下のような感じ。
61.247.xxx.xx - - [10/Jul/2007:03:02:49 +0900] "GET /robots.txt HTTP/1.1" 404 285 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.xxx.xx - - [10/Jul/2007:03:02:50 +0900] "GET /words/AAA/BBB HTTP/1.1" 200 8367 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.yyy.yy - - [10/Jul/2007:03:02:51 +0900] "GET /css/xxx.css HTTP/1.1" 200 2379 "http://saas-sfa.com/words/AAA/BBB" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)"
まず気がつくのは、かなり頻繁にrobots.txtをよむこと。7月10日にrobots.txtがよまれた回数が119回、そのうち104回がYetiさんです。robots.txt占有率 87%。そんなもんがあるとすれば、ですが。”check robots.txt daily and follows it” だから、もういっぱい読んじゃう。ぜんぜんよまないよりマシ? で、どうもうちには5人のYetiさんがきていて、おのおのが1時間に1回robots.txtを読んでるっぽいです。Yeti 5人兄弟。
もうひとつ気がつくのは、毎回cssをよんでいること。なんでわざわざcssをよむ必要がある? ^^; しかも毎回。なんど読んでも同じだよっ! cssなんか読んでなんに使ってんだろ…しかもよみにくるやつのhttp-user-agentが「Yeti」ではない。YetiとはIPアドレスもちがう。
IPアドレスと言えば、逆引きも出来ないのよね。わざとできなくしてるのかな?
あらためて、robots.txtとcssをチェックしているひとも含めて数を数えてみると、Yetiさん関係のリクエスト数は3682回でした。Googleさんの4倍強。よみすぎだろー ^^;
まあとりあえずいちおう仮にYetiさんのことを信用してみることにして、robots.txtに書いてみた。
% cat robots.txt
User-agent: Yeti
Disallow: /
すると、これまたいちおう行儀よく、1時間に5回のrobots.txtのチェックだけになりました…それでもうざい気がするが…
結局、Yeti=Naverのなにが問題かというと、クローラーのアクセス数に見合ったNaver経由のトラフィックがないことじゃないかな? お客さんもつれてこないくせに、試食品のつまみ食いばかりする観光ガイドみたいな? (ちがうか)。Google以上のお客さんをつれてくれば、かなり積極的にアクセスに来ても文句いわれないんだろうけどねー。まあそれはNaverにかぎらず、ほかのクローラーにも言える事ですが。
次回は.htaccessでアクセスそのものを禁止する方法を紹介します! (たぶん)
参考文献