webクローラーのUser-Agent一覧

このところうちに来ている/来たことのあるwebクローラー(とおもわれるもの)のUser-Agentを一覧表にしてみました。具体的にはrobots.txtを読みにきたひとの一覧です。期間は2007/6/26〜7/18まで。

  1. “Baiduspider+(+http://www.baidu.com/search/spider_jp.html)”
  2. “Gigabot/3.0 (http://www.gigablast.com/spider.html)”
  3. “Googlebot-Image/1.0”
  4. “JS-UZUSHIO”
  5. “Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)”
  6. “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
  7. “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
  8. “Spock Crawler (http://www.spock.com/crawler)”
  9. “SurveyBot/2.3 (Whois Source)”
  10. “Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”
  11. “ia_archiver”
  12. “ia_archiver-web.archive.org”
  13. “msnbot/1.0 (+http://search.msn.com/msnbot.htm)”

(1)のBaiduspiderは百度のクローラー。中国のサーチエンジンで、2003年に急成長し、2004年からalexaのトラフィックランクで世界の10位以内に入っている。現在は7位。もうすぐ日本でもサービスインするらしく、その前に日本語のページを集めているようだ。かなり積極的なアクセスで物議を醸したようだが、うちでは目立った動きはない。

(2)のGigabotはgigablastのクローラー。アメリカのサーチエンジン。登録型のディレクトリもある。トラフィックランクは2万位台とたいしたことはない。

(3)はGoogleのイメージ収集用?

(4)のJS-UZUSHIOはよくわからない。けっこうあちこちアクセスに行っているようですね。robots.txtを読んだあと、1ページだけ他のページを読むと言う動作をします。うちには2回しか来ていません。ODNのppp接続ホストで動いている上、他のサイトのアクセスログをみると、IPアドレスもひとつだけのようです。個人のもの?

(5)はAsk.comのクローラー。日本語版はask.jp。ask.jpのクローラーもこれと同じかどうかは不明(未調査)。ask.comについてはAsk.com(wikipedia)を読むと良い。

(6)はGoogleのクローラー。

(7)はYahoo.comのクローラー。Slurp(スラープ)というのは英語で「くちゃくちゃたべる」という意味で、2002年末に米Yahoo!が買収したinktomiサーチのクローラー名です。たぶんYahoo!JAPANもおなじUser-Agent名かなと思うが、これはhttp://help.yahoo.com/help/us/ysearch/slurpとかいてあるから、アメリカのYahoo!のクローラーかな。

(8)はSPOCKのクローラー。SPOCKは「人」に特化したサーチエンジンで、人名や、ひとのグループをさすような単語を入れて検索するらしい。たとえば「スピードのメンバー」とか? (いまは英語だけみたいですが)。
PC Worldの2007年6月の記事25 Web Sites to Watchにも選ばれたそうです。いまはベータサービス中で、登録したひとしか使えないみたい。あとでためしてみたい。

(9)はWhois Sourceのクローラー。ドメイン名を入れるといろいろ情報が出てくる。高機能版のwhoisみたいなかんじ。こんなのしらなかったな。けっこう面白いなあ〜。旧名はDomainToolsというらしい。詳しくはInformation about Survey Botにあります。

(10)はみんなの人気者Yeti、Naver(ねいばー)のクローラーです。最近きてくれないわー。

(11)はalexaのクローラー。alexaはアメリカの視聴率調査会社で、インターネットの視聴率調査(トラフィックランキング)もやってます。いまはアマゾンの子会社らしい。リンクをフォローするだけじゃなくて、可能ならディレクトリのインデックスをとってどんどん掘ってるっぽい。他の人がアクセスにこないようなディレクトリにもやってきます。

(12)はwebサイトのタイムマシンwaybackmachineのクローラーみたい。こんな泡沫サイトまで来てくれるなんてほんとやさしいのね ^^;; (まだインデックスはされてないみたいでしたが)。

(13)はMSNのクローラー。

こうしてみると、けっこうありますね。でもYahoo!JAPANaltavistaとかにはおいでいただいていないのね。gooにもおいでいただいてないけど、gooで検索したひとが飛んでくるなあ…とおもったらgooは2003年10月にGoogleと契約して、Googleのエンジンつかってるみたい。ナルホドネ…

Bloggerに検索ボックスをつけてみた

blogger in draftに検索のウィジェットが追加になりましたので、さっそくわたしもつけてみました。左に出ているのがそれです。たとえば「gparted」と入力して検索すると、このブログでGpartedのことをかいている2つの記事が、タイトルの下あたりににゅっと出てきます。

search widget on blogger in draft

結果が表示されるとタブが4つ表示されます。「This Blog」、「Linked From Here」、「Links」、「The Web」の4つです。「This Blog」と「The Web」の説明は必要ないとして、「Linked From Here」は、このブログのポストからリンクした先を検索するものだそうです。「Links」タブは、Linkウィジェットからリンクしているサイトを検索するもの。このブログだと「Links」ウィジェットは左に置いてあります。

いまのところ、「This Blog」タブと「The Web」タブは動いているようですが、
「Linked From Here」と「Links」タブはまだみたいです。Googleが情報をあつめたら使えるようになるのかな? まだdraftサービスだからうまく動いてないだけかも… ^^;;

追加の仕方は簡単です。まずblogger in draftからログインする。そうするといつものDashboard画面がでるので、そこから「レイアウト」を押してレイアウトの変更をするだけ。draftは、betaのときみたいに「移行」する必要はなくて、単にdraftからログインすれば使えるみたいです。便利ですねー。

参考文献

Fastladderの英語がアレな続き

光速をこえたRSSリーダーFastladderの英語がアレな件です。今日はセッションが切れると出るダイアログの文。


You need to sign in to Fastladder
Please reload the browser and sign in again

「You need to sign in to Fastladder」なのはいいけど、「どうして」が抜けています。「reload the browser」もよくわからないかんじ。

  1. 現象: we can’t process your request.
  2. 理由: the session timed out.
  3. 対処法: press “reload” button on your browser and sign in again.

まとめると


SESSION TIMED OUT.
Please press the "reload" button of the browser and sign in again to continue.

こんなのでどう?

blogspotのrobots.txtが変更された件

昨日気がついたんですが、bloggerのrobots.txtが変更になりました。参考文献[1]でも指摘されています。

[旧]
User-agent: *
Disallow:
[新]
User-agent: *
Disallow: /search
Sitemap: http://iwatakenichi.blogspot.com/feeds/posts/default?orderby=updated

変更点は(1)/search以下のクロールが禁止になった(2)サイトマップがついかされたの2点ですね。/search以下というのは、ラベルでの参照に使われているようです。たとえばラベル「計算機」の記事の一覧ですね。あとは年のアーカイブが/searchから始まっています。たとえば2007年の記事一覧などですね。月ごとのアーカイブのURLは違っているので(例:2007年7月のアーカイブhttp://iwatakenichi.blogspot.com/2007_07_01_archive.html)ので関係ありません。ラベル別のページや年のアーカイブページまでインデックスすると、本来の記事のページとあわせて2重3重にインデックスされることになるので、除外する事にしたのかな?

サイトマップのほうは、Googleウェブマスターツールを使って送信するサイトマップとおなじものが指定されています。ウェブマスターツールで送信しているのと同等になるのかな? とおもったが、そうでもない、という意見もあります(参考文献[2])。私は試していません。

いずれにせよこのblogger上のrobots.txtはユーザーがいじれるものではなく、それどころか実在のファイルではないらしく(スクリプトで送信しているらしい、そりゃそうか)、ユーザーサイドでは「あれー、かわってる」と思うぐらいで、とくに何ができるというものではなさそう ^^;

参考文献

  1. Google Webmaster Help , 2007
  2. Blogger Blogs have Robot.txt file, 2007

「RSSリーダーで購読する」ボタンをブログに追加する方法

昨日書いたブックマークレットを使っているひとは、RSSリーダーに購読を追加するのが簡単でいいですが、世の中そういう人ばかりではありません。ブックマークレットをおいていないひとでも、すぐにRSSリーダーに購読を追加できるボタンをあなたのブログにも設置してみよーっ。

create "add to fastladder" button

設置の仕方は簡単。fastladder用のボタンは”Subscribe button“を見て、1. Entry your feed URLっていうところに自分の「ブログのURI」をいれる。このブログの場合は「http://iwatakenichi.blogspot.com/」ですね。そして[Generate HTML]ボタンを押すと、右のプレビュー欄に文字で「Subscribe with Fastladder」というリンクが表示される。これでよければコードを自分のブログにコピペ。アイコンを使いたい場合はURIをいれる欄の下にあるアイコンをクリックして、プレビューがそのアイコンになったのを確認してから、コードをコピペすれば良い。

"add to google" button

google用のボタンは”Add to Google – Information for Publishers“をみて、やはりおなじようにURIをいれる。ただしこちらはブログのURIではなく、フィードのURIをいれる。例えばこのブログだったら「http://iwatakenichi.blogspot.com/feeds/posts/default」といれる。FastladderはブログのURIからフィードのURIを勝手に探してくれるのに、Google Readerはちょっと不便だねー。そして[Create HTML]ボタンを押せばコードが表示されるので、そのコードをブログにコピペすれば完了です。ステキ。

はてスがポチポチポチポチポチである件について

↑このへんに出ているのが、いまはてな界で話題沸騰中のはてスことはてなスターです。ポチっとするとおほしさまがひとつ増えます。ポチポチとすると2個ふえる。ポチポチポチポチポチのポチポチとすると7個増える。ふふふ。

はてなダイアリーに勝手にくっついて出るようになったらしい。で、表示を消す機能がない。変なもん勝手につけるなー、というはてなダイアリーユーザーの抗議の声が多いようですね。でもー、わたくしもー、流行の波にのりたいっていうかー、とりあえずつけてみました。 付け方は簡単。はてなスターはじめてガイドをよんで、javascriptをブログのどこかにポチッと貼付けるだけ。記事のタイトルの下に出てるでしょ。ふふふ。

「一つのエントリーに対して何個も☆をつけることができます。あなたがブログを読んで感じた「ちょっといいな」を気軽に☆にしてください」とのことなので、ちょーポチポチポチポチして楽しむのだ! たぶん。しらんけど ^^;;

飽きたら外すかも ^^;

参考文献

Fastladderの英語がアレな4つのポイント

fastladder quick guide

光速をこえたフィードリーダー、fastladderですが、なんだか英語があれっぽいので、手始めにログインすると出る「Quick Guide」の訂正案を考えてみた。勝手に!

[訂正案]
Quick Guide
Subscribing your favorite blogs or news.

  • You can add subscription on fastladder.
    1. Click ‘Add’ icon on the top of the left side.
    2. Enter the URL of the blog you want to subscribe, then fastladder will find you proper feeds for it.
  • The easier way to add a subscription is to install [a browser button](link) in your browser. Get it now!
  • You can also import subscription lists from other feed readers. Export OPML subscription list, and import it to Fastladder.

Reading articles

  • You can read articles by clicking on a blog name at left side one by one.
  • To read articles at speed-of-light, Use keyboard shortcut. You can configure it at keyboard shortcut options.
  • You can mark articles you’re interested in and read them later.
    1. Place ‘Pin’ on an article while you’re reading it (by pressing ‘P’ key or clicking ‘pin’ icon).
    2. You can read only ‘Pinned’ articles by pressing ‘O’ key or click pin icon on the top tool bar.

Managing your subscriptions

  • You can categorize blogs you subscribe by folders.
  • You also can sort your subscriptions by variety of options (e.g. the arrival time of the newest article, title, rating, number of unread items or number of subscribers).

Tips for bloggers

  • Add the ‘Subscribe in Fastladder’ button on your blog, It will help you to get new readers!
  • Show what you read in fastladder! You can publish your subscription list by configuring ‘Manage Sharing’ option.

Fastladderの英語が抱える4つの問題点

  1. しなくてはいけないこと「〜してください」と、オプションとしてしてもよい「〜できます」の区別がない。
  2. 目的と手段を関連づけて「〜するためには、〜してください」と書くべきだが、目的(「〜するために」)が省かれている。
  3. 構成の問題。step by stepの解説なのか、それともどれかひとつやればいいのかが不明確。
  4. 基本操作の解説と、発展操作の解説が混ざっていて、どれが基本でどれが発展かわからない。

こうしてみると、なんか英語の問題じゃないようなきもしますね…? ^^;

ブックマークレットのサンプル

Yetiさんは、昨日の記事を書いたあと、ぱったりこなくなっちゃいました。韓国からこのブログになんどかアクセスがあったので、Naverの中のひとが見に来て除外リストにいれるとかの対処をしたのかしら? robots.txtは外しといたのでまたおいでいただけるかも ^^;

で、Yetiさんとは関係ないが、よのなかには「ブックマークレット」って言うのがあるらしい。ブックマークのURIのところにjavascriptで一行プログラムみたいなのを書いておいて、あるページを表示中にそのブックマークをポチッと押すと、なんか動作すると言うようなもんらしい。たとえば、表示中のページを「はてブ」に登録する、とか。そのページのはてブ登録数を表示するとか。そのページをFastladderでsubscribeするとか。そのページに含まれるYoutubeの動画をダウンロードするとか。そのページに含まれるエッチな画像へのリンクをぜんぶダウンロードするとか。しらなかった!

というわけで、ためしに「はてブに登録」ってのをブックマークしてみた。やりかたは左のリンクをみぎクリック(またはコントロール押しながらクリック)してコンテキストメニューを出し、「このリンクをブックマーク…」を押し、「ブックマークツールバー」フォルダーにセーブするだけです。簡単だ。

あるページが表示されているときにブックマークツールバーの「はてブ登録」をポチッとすると、はてブの登録画面になります。ちょっと便利? かな? Fastladderのsubscribeブックマークレットは見つからない。だれか教えてー ^^;

参考文献

Naverは客もつれてこないくせに偉そうな顔をして試食品のつまみ食いばかりする観光ガイドだ

例のあわせて検索」ですが、アクセスログを眺めていると、アクセスしてくるのは検索エンジンのクローラーが多いんです。ぐーぐる、yahoo, alexa, MSNにまざって、異様な(?)アクセスパターンで攻めてくるのが「Yeti」。韓国のNaverっていうサイトのボットらしい。User-agentは”Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”。checkなのにfollow”s”なので主語がよくわからんが ^^;; おそらく”we check your robots.txt everyday and follow it”といいたいんでしょうねえ。なんでわざわざこんなところで「ちゃんとrobots.txtよんでますよー」とかいいわけがましいこと言ってるかと言うと、このひと以前はNaverbotという名前で、かなり積極的なアクセスパターンでブツギをカモして、あちこちで出入り禁止になったらしい。それで困って名前かえたのかしら。

アクセスログをgrepしてwcしてみたところ、7月10日のGooglebotのリクエスト数が 897。Yetiは 1887。倍以上です。しかも! YetiさんはYetiさんだけじゃないんです。Yetiさんのアクセスパターンはだいたい以下のような感じ。


61.247.xxx.xx - - [10/Jul/2007:03:02:49 +0900] "GET /robots.txt HTTP/1.1" 404 285 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.xxx.xx - - [10/Jul/2007:03:02:50 +0900] "GET /words/AAA/BBB HTTP/1.1" 200 8367 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.yyy.yy - - [10/Jul/2007:03:02:51 +0900] "GET /css/xxx.css HTTP/1.1" 200 2379 "http://saas-sfa.com/words/AAA/BBB" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)"

まず気がつくのは、かなり頻繁にrobots.txtをよむこと。7月10日にrobots.txtがよまれた回数が119回、そのうち104回がYetiさんです。robots.txt占有率 87%。そんなもんがあるとすれば、ですが。”check robots.txt daily and follows it” だから、もういっぱい読んじゃう。ぜんぜんよまないよりマシ? で、どうもうちには5人のYetiさんがきていて、おのおのが1時間に1回robots.txtを読んでるっぽいです。Yeti 5人兄弟。

もうひとつ気がつくのは、毎回cssをよんでいること。なんでわざわざcssをよむ必要がある? ^^; しかも毎回。なんど読んでも同じだよっ! cssなんか読んでなんに使ってんだろ…しかもよみにくるやつのhttp-user-agentが「Yeti」ではない。YetiとはIPアドレスもちがう。

IPアドレスと言えば、逆引きも出来ないのよね。わざとできなくしてるのかな?

あらためて、robots.txtとcssをチェックしているひとも含めて数を数えてみると、Yetiさん関係のリクエスト数は3682回でした。Googleさんの4倍強。よみすぎだろー ^^;

まあとりあえずいちおう仮にYetiさんのことを信用してみることにして、robots.txtに書いてみた。


% cat robots.txt
User-agent: Yeti
Disallow: /

すると、これまたいちおう行儀よく、1時間に5回のrobots.txtのチェックだけになりました…それでもうざい気がするが…

結局、Yeti=Naverのなにが問題かというと、クローラーのアクセス数に見合ったNaver経由のトラフィックがないことじゃないかな? お客さんもつれてこないくせに、試食品のつまみ食いばかりする観光ガイドみたいな? (ちがうか)。Google以上のお客さんをつれてくれば、かなり積極的にアクセスに来ても文句いわれないんだろうけどねー。まあそれはNaverにかぎらず、ほかのクローラーにも言える事ですが。

次回は.htaccessでアクセスそのものを禁止する方法を紹介します! (たぶん)

参考文献

mixiの終焉は近い

最近どうもmixiがしずかだな、と思う事が多く、気になったのでalexaでリーチ数を調べてみた。右のグラフがそれです。わたしがmixiをはじめたのは、しらべてみると2004年の6月でした。ちょうどこのグラフの左はじあたりですね。それから2005年中に急成長して、2006年がピーク、そのあと2006年の年末の休み明けの2007年初めと、2007年のゴールデンウイークあけにがくっと落ちてますね。

まあかんがえてみれば、2004年からずーっと「β」。ほとんどシステムがかわってない。いたらないメッセージや画面設計もそのまま。おもな機能追加は「レビュー」「アルバム」「ビデオ」などのSNSの本質とはかんけいのないオマケばかり。株式上場して現金を調達しても「使い道がないので貯金しておきます」などと公言する社長。さすがに、これはあとで訂正したらしいですが …

そんなわけで、asciiネットや、fjの様にいつかは崩壊する運命にあるmixiですが、案外その時は近いかもしれませんね。