検索 – iwatakenichi

January 20, 2008

たいへんお行儀の悪いMJ12botとは?

先日のエントリ「さくらのレンタルサーバーで503」で掲載したグラフで、急にアクセスが多くなっているところがあります。再掲しますと、下記のグラフです。

図1. 1月15日に妙なピークが

ログを確認すると、「MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)」というボットが15日に15070 Hitsしてきています。朝の9時にアクセスし始めて、夜の9時に終わっていますから12時間で15000Hitsです。15000/12/60=20、つまり1分間に20Hits、3秒に1リクエストです。すごすぎ。

http://majestic12.co.uk/をみると、majestic12はSETI@homeの技術を応用した分散コンピューティングによる検索エンジンらしくて、いろんなチームが処理結果を競っています。それでめちゃくちゃアクセスしてくるのかー、とおもったのですが…majestic12のbotの説明書をみてみると、

Fake MJ12bot v1.0.8 (virus based botnet)

どうも去年の10月ぐらいから、ウイルスによって拡大するニセモノのMJ12botが跋扈しているようで ^^;; ちなみにホンモノのボットの最新版はv1.2.1らしいです。majestic12のなかのひともたいへんですね。よくよく調べてみると、ホンモノのMJ12bot (v1.2.1でした)もときどきアクセスにきているようです。そっちは大変お行儀がよく、4, 5ページクロールしたらすぐいなくなってるようでした。

今回やってきたウイルスのにせMJ12botは、なにもしなくても12時間ちょっとでいなくなりましたが、とりあえずブロックしておきました。ブロックの方法は「.htaccess」に下記のように書きます。

order allow,deny
allow from all
# reject fake mj12
SetEnvIfNoCase User-Agent "^MJ12bot/v?1.[01].[0-9]{1,2}" block
Deny from env=block

まあ、こんかいの503病はこれが原因ではなさそうですが、みょーなのがやってきて遅くなったらいやだしね。

参考文献

MJ12bot, Majestic 12 Distributed Search Engine, 2007

July 19, 2007

webクローラーのUser-Agent一覧

このところうちに来ている/来たことのあるwebクローラー(とおもわれるもの)のUser-Agentを一覧表にしてみました。具体的にはrobots.txtを読みにきたひとの一覧です。期間は2007/6/26〜7/18まで。

“Baiduspider+(+http://www.baidu.com/search/spider_jp.html)”
“Gigabot/3.0 (http://www.gigablast.com/spider.html)”
“Googlebot-Image/1.0”
“JS-UZUSHIO”
“Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)”
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
“Spock Crawler (http://www.spock.com/crawler)”
“SurveyBot/2.3 (Whois Source)”
“Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”
“ia_archiver”
“ia_archiver-web.archive.org”
“msnbot/1.0 (+http://search.msn.com/msnbot.htm)”

(1)のBaiduspiderは百度のクローラー。中国のサーチエンジンで、2003年に急成長し、2004年からalexaのトラフィックランクで世界の10位以内に入っている。現在は7位。もうすぐ日本でもサービスインするらしく、その前に日本語のページを集めているようだ。かなり積極的なアクセスで物議を醸したようだが、うちでは目立った動きはない。

(2)のGigabotはgigablastのクローラー。アメリカのサーチエンジン。登録型のディレクトリもある。トラフィックランクは2万位台とたいしたことはない。

(3)はGoogleのイメージ収集用?

(4)のJS-UZUSHIOはよくわからない。けっこうあちこちアクセスに行っているようですね。robots.txtを読んだあと、1ページだけ他のページを読むと言う動作をします。うちには2回しか来ていません。ODNのppp接続ホストで動いている上、他のサイトのアクセスログをみると、IPアドレスもひとつだけのようです。個人のもの?

(5)はAsk.comのクローラー。日本語版はask.jp。ask.jpのクローラーもこれと同じかどうかは不明(未調査)。ask.comについてはAsk.com(wikipedia)を読むと良い。

(6)はGoogleのクローラー。

(7)はYahoo.comのクローラー。Slurp(スラープ)というのは英語で「くちゃくちゃたべる」という意味で、2002年末に米Yahoo!が買収したinktomiサーチのクローラー名です。たぶんYahoo!JAPANもおなじUser-Agent名かなと思うが、これはhttp://help.yahoo.com/help/us/ysearch/slurpとかいてあるから、アメリカのYahoo!のクローラーかな。

(8)はSPOCKのクローラー。SPOCKは「人」に特化したサーチエンジンで、人名や、ひとのグループをさすような単語を入れて検索するらしい。たとえば「スピードのメンバー」とか? (いまは英語だけみたいですが)。
PC Worldの2007年6月の記事25 Web Sites to Watchにも選ばれたそうです。いまはベータサービス中で、登録したひとしか使えないみたい。あとでためしてみたい。

(9)はWhois Sourceのクローラー。ドメイン名を入れるといろいろ情報が出てくる。高機能版のwhoisみたいなかんじ。こんなのしらなかったな。けっこう面白いなあ〜。旧名はDomainToolsというらしい。詳しくはInformation about Survey Botにあります。

(10)はみんなの人気者Yeti、Naver(ねいばー)のクローラーです。最近きてくれないわー。

(11)はalexaのクローラー。alexaはアメリカの視聴率調査会社で、インターネットの視聴率調査(トラフィックランキング)もやってます。いまはアマゾンの子会社らしい。リンクをフォローするだけじゃなくて、可能ならディレクトリのインデックスをとってどんどん掘ってるっぽい。他の人がアクセスにこないようなディレクトリにもやってきます。

(12)はwebサイトのタイムマシンwaybackmachineのクローラーみたい。こんな泡沫サイトまで来てくれるなんてほんとやさしいのね ^^;; (まだインデックスはされてないみたいでしたが)。

(13)はMSNのクローラー。

こうしてみると、けっこうありますね。でもYahoo!JAPANやaltavistaとかにはおいでいただいていないのね。gooにもおいでいただいてないけど、gooで検索したひとが飛んでくるなあ…とおもったらgooは2003年10月にGoogleと契約して、Googleのエンジンつかってるみたい。ナルホドネ…

July 18, 2007

Bloggerに検索ボックスをつけてみた

blogger in draftに検索のウィジェットが追加になりましたので、さっそくわたしもつけてみました。左に出ているのがそれです。たとえば「gparted」と入力して検索すると、このブログでGpartedのことをかいている2つの記事が、タイトルの下あたりににゅっと出てきます。

結果が表示されるとタブが4つ表示されます。「This Blog」、「Linked From Here」、「Links」、「The Web」の4つです。「This Blog」と「The Web」の説明は必要ないとして、「Linked From Here」は、このブログのポストからリンクした先を検索するものだそうです。「Links」タブは、Linkウィジェットからリンクしているサイトを検索するもの。このブログだと「Links」ウィジェットは左に置いてあります。

いまのところ、「This Blog」タブと「The Web」タブは動いているようですが、
「Linked From Here」と「Links」タブはまだみたいです。Googleが情報をあつめたら使えるようになるのかな? まだdraftサービスだからうまく動いてないだけかも… ^^;;

追加の仕方は簡単です。まずblogger in draftからログインする。そうするといつものDashboard画面がでるので、そこから「レイアウト」を押してレイアウトの変更をするだけ。draftは、betaのときみたいに「移行」する必要はなくて、単にdraftからログインすれば使えるみたいです。便利ですねー。

参考文献

Search your blog world, The Official Google blog, 2007
New feature: Search Box, Blogger in draft, 2007

July 7, 2007

「あわせて検索」サイト更新

あわせて検索ですが、いくつか変更しました。

関連キーワードのだぶりを解消しました。
カテゴリーや関連キーワードはDBにいれてキャッシュするようにしました。

だぶりのほうは、以前のバージョンでは、たとえば「のり」といれると、あい+のりがふたつ以上表示されていました。これがおきないように変更しました。また、キーワードはDBにキャッシュするようにしたので、今後おもしろい事ができそうです。こうごきたい!

June 28, 2007

あわせて検索 SaaS SFA

あわせて検索

きょうはいちにち写真のサイト「あわせて検索」をつくってました。1日ハック! ほとんどはじめてPHPを書いたよ ^^; えーっ、いまごろー? っていうツッコミしてるのはだれー? で、このサイトですが、ひとつキーワードを入れると、ヨサゲなキーワードをお勧めしてもらえて、いっしょに検索できちゃいます。おためしあれ。

あわせて検索