Naverは客もつれてこないくせに偉そうな顔をして試食品のつまみ食いばかりする観光ガイドだ

例のあわせて検索」ですが、アクセスログを眺めていると、アクセスしてくるのは検索エンジンのクローラーが多いんです。ぐーぐる、yahoo, alexa, MSNにまざって、異様な(?)アクセスパターンで攻めてくるのが「Yeti」。韓国のNaverっていうサイトのボットらしい。User-agentは”Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”。checkなのにfollow”s”なので主語がよくわからんが ^^;; おそらく”we check your robots.txt everyday and follow it”といいたいんでしょうねえ。なんでわざわざこんなところで「ちゃんとrobots.txtよんでますよー」とかいいわけがましいこと言ってるかと言うと、このひと以前はNaverbotという名前で、かなり積極的なアクセスパターンでブツギをカモして、あちこちで出入り禁止になったらしい。それで困って名前かえたのかしら。

アクセスログをgrepしてwcしてみたところ、7月10日のGooglebotのリクエスト数が 897。Yetiは 1887。倍以上です。しかも! YetiさんはYetiさんだけじゃないんです。Yetiさんのアクセスパターンはだいたい以下のような感じ。


61.247.xxx.xx - - [10/Jul/2007:03:02:49 +0900] "GET /robots.txt HTTP/1.1" 404 285 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.xxx.xx - - [10/Jul/2007:03:02:50 +0900] "GET /words/AAA/BBB HTTP/1.1" 200 8367 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.yyy.yy - - [10/Jul/2007:03:02:51 +0900] "GET /css/xxx.css HTTP/1.1" 200 2379 "http://saas-sfa.com/words/AAA/BBB" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)"

まず気がつくのは、かなり頻繁にrobots.txtをよむこと。7月10日にrobots.txtがよまれた回数が119回、そのうち104回がYetiさんです。robots.txt占有率 87%。そんなもんがあるとすれば、ですが。”check robots.txt daily and follows it” だから、もういっぱい読んじゃう。ぜんぜんよまないよりマシ? で、どうもうちには5人のYetiさんがきていて、おのおのが1時間に1回robots.txtを読んでるっぽいです。Yeti 5人兄弟。

もうひとつ気がつくのは、毎回cssをよんでいること。なんでわざわざcssをよむ必要がある? ^^; しかも毎回。なんど読んでも同じだよっ! cssなんか読んでなんに使ってんだろ…しかもよみにくるやつのhttp-user-agentが「Yeti」ではない。YetiとはIPアドレスもちがう。

IPアドレスと言えば、逆引きも出来ないのよね。わざとできなくしてるのかな?

あらためて、robots.txtとcssをチェックしているひとも含めて数を数えてみると、Yetiさん関係のリクエスト数は3682回でした。Googleさんの4倍強。よみすぎだろー ^^;

まあとりあえずいちおう仮にYetiさんのことを信用してみることにして、robots.txtに書いてみた。


% cat robots.txt
User-agent: Yeti
Disallow: /

すると、これまたいちおう行儀よく、1時間に5回のrobots.txtのチェックだけになりました…それでもうざい気がするが…

結局、Yeti=Naverのなにが問題かというと、クローラーのアクセス数に見合ったNaver経由のトラフィックがないことじゃないかな? お客さんもつれてこないくせに、試食品のつまみ食いばかりする観光ガイドみたいな? (ちがうか)。Google以上のお客さんをつれてくれば、かなり積極的にアクセスに来ても文句いわれないんだろうけどねー。まあそれはNaverにかぎらず、ほかのクローラーにも言える事ですが。

次回は.htaccessでアクセスそのものを禁止する方法を紹介します! (たぶん)

参考文献

「あわせて検索」サイト更新

あわせて検索ですが、いくつか変更しました。

  • 関連キーワードのだぶりを解消しました。
  • カテゴリーや関連キーワードはDBにいれてキャッシュするようにしました。

だぶりのほうは、以前のバージョンでは、たとえば「のり」といれると、あい+のりがふたつ以上表示されていました。これがおきないように変更しました。また、キーワードはDBにキャッシュするようにしたので、今後おもしろい事ができそうです。こうごきたい!

DB serverにSQLでアクセス

以前ちょっとだけ表面をなでた事のあるSQLですが、例のあわせて検索」のためにちゃんとデータベースをつかおうと思って再勉強中です。以前もってたSQLの本は会社を辞めるときにほてぎくん(おーいげんきですかー)にあげてしまったので、今回はネットの資料で勉強しています。「SQLとはなんぞや」「リレーショナルデータベースとはなんぞや」みたいなのは前の本で理解したので、今回はこれでオッケー。

ふつうは大学でデータベース関係の授業があるのかなあ。わたしは「電気情報工学科」ってところだったので、情報関係の講義が少なく、かわりに電気(三相交流!)や電子(電子回路!)や電波(マクスウェルの電磁方程式!)や量子力学(ψのφ!)やらをならったので、データベースはやってません。まあ、あんましあたまには残ってないけど、大学時代はいろいろやったほうが、あとで再勉強するさいの助けになっていいかも。

マッシュアップ用の無料ホスティングサービス

マッシュアップと言っても、レゲエではありません。「マッシュアップとは、複数の異なる提供元の技術やコンテンツを複合させて新しいサービスを形作ることである。複数のAPIを組み合わせて形成された、あたかもひとつのWebサービスであるかのような機能が、マッシュアップと呼ばれている」(引用:IT用語辞典バイナリより)。つまり、まえから書いているあわせて検索みたいなやつのことですね。

こういうサービスを動かすにはPHPやPerlなどの言語やデータベースを動かせる環境がないといけないのですが、いままで、無料のホスティングサービスではできるところがありませんでした。たぶん。そこで、今回MashupediaがMashup用の無料のホスティングサービスをはじめたそうです。とりあえず先着200名まで! この話はvoidさんに教えてもらいました。わたしも登録しておこうかなー

faviconを表示してみた

以前書いたあわせて検索ですが、faviconを表示するようにしてみました。方法はfavicon.icoというファイルを作って、サイトにおくだけ。favicon.icoはもとの画像をつくって、たとえばfavicon.co.ukというようなサイトに読み込ませれば作れるみたいです。あとはfaviconを表示したいページの<head>〜</head>の中に、


<link rel="icon" href="http://saas-sfa.com/favicon.ico" type="image/x-icon" />
<link rel="shortcut icon" href="http://saas-sfa.com/favicon.ico" type="image/x-icon" />

と書くだけです。簡単ですねー。

あわせて検索

先日このblogに書いたあわせて検索の話です。使い方は1語入力するだけ。そうすると、YahooAPIで関連語を調べて「あわせて」表示します。検索の幅を広げるのにぴったりー。たとえば「夏休み」を入力すると、「夏休み+旅行」などが表示されますので、あわせて検索するのにぴったり!!

ていうかここをさんこうにしたんですけどー ^^; 参考っていうかマネつーか ^^;;

まだいろいろアイデアをあたためているので乞うご期待!


あわせて検索 SaaS SFA

きょうはいちにち写真のサイト「あわせて検索」をつくってました。1日ハック! ほとんどはじめてPHPを書いたよ ^^; えーっ、いまごろー? っていうツッコミしてるのはだれー? で、このサイトですが、ひとつキーワードを入れると、ヨサゲなキーワードをお勧めしてもらえて、いっしょに検索できちゃいます。おためしあれ。