Naverは客もつれてこないくせに偉そうな顔をして試食品のつまみ食いばかりする観光ガイドだ

例のあわせて検索」ですが、アクセスログを眺めていると、アクセスしてくるのは検索エンジンのクローラーが多いんです。ぐーぐる、yahoo, alexa, MSNにまざって、異様な(?)アクセスパターンで攻めてくるのが「Yeti」。韓国のNaverっていうサイトのボットらしい。User-agentは”Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”。checkなのにfollow”s”なので主語がよくわからんが ^^;; おそらく”we check your robots.txt everyday and follow it”といいたいんでしょうねえ。なんでわざわざこんなところで「ちゃんとrobots.txtよんでますよー」とかいいわけがましいこと言ってるかと言うと、このひと以前はNaverbotという名前で、かなり積極的なアクセスパターンでブツギをカモして、あちこちで出入り禁止になったらしい。それで困って名前かえたのかしら。

アクセスログをgrepしてwcしてみたところ、7月10日のGooglebotのリクエスト数が 897。Yetiは 1887。倍以上です。しかも! YetiさんはYetiさんだけじゃないんです。Yetiさんのアクセスパターンはだいたい以下のような感じ。


61.247.xxx.xx - - [10/Jul/2007:03:02:49 +0900] "GET /robots.txt HTTP/1.1" 404 285 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.xxx.xx - - [10/Jul/2007:03:02:50 +0900] "GET /words/AAA/BBB HTTP/1.1" 200 8367 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.yyy.yy - - [10/Jul/2007:03:02:51 +0900] "GET /css/xxx.css HTTP/1.1" 200 2379 "http://saas-sfa.com/words/AAA/BBB" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)"

まず気がつくのは、かなり頻繁にrobots.txtをよむこと。7月10日にrobots.txtがよまれた回数が119回、そのうち104回がYetiさんです。robots.txt占有率 87%。そんなもんがあるとすれば、ですが。”check robots.txt daily and follows it” だから、もういっぱい読んじゃう。ぜんぜんよまないよりマシ? で、どうもうちには5人のYetiさんがきていて、おのおのが1時間に1回robots.txtを読んでるっぽいです。Yeti 5人兄弟。

もうひとつ気がつくのは、毎回cssをよんでいること。なんでわざわざcssをよむ必要がある? ^^; しかも毎回。なんど読んでも同じだよっ! cssなんか読んでなんに使ってんだろ…しかもよみにくるやつのhttp-user-agentが「Yeti」ではない。YetiとはIPアドレスもちがう。

IPアドレスと言えば、逆引きも出来ないのよね。わざとできなくしてるのかな?

あらためて、robots.txtとcssをチェックしているひとも含めて数を数えてみると、Yetiさん関係のリクエスト数は3682回でした。Googleさんの4倍強。よみすぎだろー ^^;

まあとりあえずいちおう仮にYetiさんのことを信用してみることにして、robots.txtに書いてみた。


% cat robots.txt
User-agent: Yeti
Disallow: /

すると、これまたいちおう行儀よく、1時間に5回のrobots.txtのチェックだけになりました…それでもうざい気がするが…

結局、Yeti=Naverのなにが問題かというと、クローラーのアクセス数に見合ったNaver経由のトラフィックがないことじゃないかな? お客さんもつれてこないくせに、試食品のつまみ食いばかりする観光ガイドみたいな? (ちがうか)。Google以上のお客さんをつれてくれば、かなり積極的にアクセスに来ても文句いわれないんだろうけどねー。まあそれはNaverにかぎらず、ほかのクローラーにも言える事ですが。

次回は.htaccessでアクセスそのものを禁止する方法を紹介します! (たぶん)

参考文献

mixiの終焉は近い

最近どうもmixiがしずかだな、と思う事が多く、気になったのでalexaでリーチ数を調べてみた。右のグラフがそれです。わたしがmixiをはじめたのは、しらべてみると2004年の6月でした。ちょうどこのグラフの左はじあたりですね。それから2005年中に急成長して、2006年がピーク、そのあと2006年の年末の休み明けの2007年初めと、2007年のゴールデンウイークあけにがくっと落ちてますね。

まあかんがえてみれば、2004年からずーっと「β」。ほとんどシステムがかわってない。いたらないメッセージや画面設計もそのまま。おもな機能追加は「レビュー」「アルバム」「ビデオ」などのSNSの本質とはかんけいのないオマケばかり。株式上場して現金を調達しても「使い道がないので貯金しておきます」などと公言する社長。さすがに、これはあとで訂正したらしいですが …

そんなわけで、asciiネットや、fjの様にいつかは崩壊する運命にあるmixiですが、案外その時は近いかもしれませんね。

Mac OS X のTextEditがutf-8を判別できない件

ふだんコーディングはEmacsを使っているんですが、印刷ができないので、印刷するときはTextEdit(テキストエディット)を使っています。今日、気がついたんだけど、utf-8で日本語を書いているファイルを普通にTextEditで開くと化けますね。Preferences…でみると、「Open」するときのエンコードがデフォルトでは「Automatic」になってるんですが、これだと自動判別に失敗しているっぽい。「Automatic」から「utf-8」にすると文字化けせずにひらけます。でもねえ、utf-8のファイルばかり扱ってるわけじゃないからこまりますね。せめて、ひらいたあとエンコーティングを変えられればいいんだけど、そういうコマンドはないみたい。ひらいたあとじゃなくて、ひらくときにダブルクリックじゃなくて、File->Open…でひらくようにすると、ファイル選択のダイアログのところで、エンコーディングがえらべます。それもめんどうだし…なんとかなりませんか? ^^;

またwireless mightymouse のボタンが押せない

またもWireless MightyMouseのボタンが押せない。System Preference -> Keyboard & Mouse でみると、電池は 2/5 のこってる。もーなんだ! とりあえず電池かえてみた。電池の蓋を開けるとコネクションが切れるので、電池を入れ替えて、蓋を閉めて、System Preferenceの「Bluetooth」で再認識。これでいつものようになおる。なんだろうなー

丸善の中身がアマゾンに

ちょっと古いニュースですが日経BPnetの2007年06月27日付のニュースで「丸善のオンラインショップのシステムがアマゾンになる」というのがありました。丸善独自のアイテムは追加して、見た目も丸善用にへんこうするが、webのシステムや発送などのしくみはぜんぶアマゾンになるとのこと。丸善にしてみたら、システム開発の費用がかからなくて住むのが利点。欠点はたぶんアマゾンに利益の一部をとられるので、あまりもうからないかもしれない。アマゾンの利点はシステムは(ほとんど)そのままで、注文の取扱量が増えると思われるので、よりもうかる。丸善のweb販売の情報が手に入る(売れ筋など)。欠点はなんだろうね、とくにないかな?

丸善とアマゾンのあいだで、どういう契約になってるのか、興味ありますね。

「外見は丸善、中身はアマゾン」、丸善がオンライン戦略を大転換日経BPnet

すももの品種

「すももももももももものうち」ということばがありますが、すももとももは(もちろん?)違うもののようです。でもおなじ「バラ科サクラ属」の仲間です。梅、杏、サクランボなどもおなじ「バラ科サクラ属」。だから、「すもももももももものうち」というのなら、「すももももももうめもあんずもさくらんぼももものうち」ですね。

すももには中国から伝わった「日本すもも」と、コーカサスが原産でおもにヨーロッパで栽培されてきた「西洋すもも」の大きく分けてふたつがあります。日本では主に生食用に「日本すもも」を、ドライフルーツ用に「西洋すもも」が栽培されているようです。夏にイタリアにいくとよく食後にすももをたべますが、あれは西洋すももなんでしょうね。日本で栽培されている代表的な品種には以下のようなものがあります。

日本すもも

  • 大石早生
  • ソルダム
  • 太陽
  • サンタローザ

西洋すもも

  • サンプルーン
  • スタンレイ
  • シュガー
  • グランドプライズ

日本でよく売られるのは、「大石早生」と「ソルダム」かな。わたしは大石早生のほうがすきです。

参考文献

桃の品種

岡山は桃の産地で有名です。そろそろ季節なので、果物屋に出回り始めました。しらなかったけど、桃にもいろいろ種類があるようです。

日川白鳳
7月上旬 早生系の代表品種
白鳳
7月上旬 甘く香り良い
清水白桃
7月下旬 実のきめ細かさと甘さと香り
白桃
8月中旬 実が硬いが甘い
川中島白桃
赤い桃硬い肉質で甘い
黄金桃
9月下旬 皮も実も黄・独特な甘みと香り
momo

写真: 白鳳(岡山産)

今ならんでいるのは早生の白鳳ですね。一般に美味とされているのは「清水白桃」です。知人に桃でも送ってやろうと思って果物屋にいき、ならんでいる桃を指して「どれがおいしいですか」ときいたところ「うーん、いまは一種類しかないよ(早生白鳳のこと)」「もうちょっとしたら清水白桃がでるんだけどねえ」とのことでした。白鳳のなかでどれがおいしいですか、という意味で質問したのだが… ^^;

ももならぬすももも果物屋にならび始めてますね。あすはすももの種類について調べることにしよう。今日は、ももじゃなくてすももをかったのだじつは。ちなみにきょうかってきたすももは「オオイシワセ」と「ハニーローザ」でした。

参考文献

「あわせて検索」サイト更新

あわせて検索ですが、いくつか変更しました。

  • 関連キーワードのだぶりを解消しました。
  • カテゴリーや関連キーワードはDBにいれてキャッシュするようにしました。

だぶりのほうは、以前のバージョンでは、たとえば「のり」といれると、あい+のりがふたつ以上表示されていました。これがおきないように変更しました。また、キーワードはDBにキャッシュするようにしたので、今後おもしろい事ができそうです。こうごきたい!

DB serverにSQLでアクセス

以前ちょっとだけ表面をなでた事のあるSQLですが、例のあわせて検索」のためにちゃんとデータベースをつかおうと思って再勉強中です。以前もってたSQLの本は会社を辞めるときにほてぎくん(おーいげんきですかー)にあげてしまったので、今回はネットの資料で勉強しています。「SQLとはなんぞや」「リレーショナルデータベースとはなんぞや」みたいなのは前の本で理解したので、今回はこれでオッケー。

ふつうは大学でデータベース関係の授業があるのかなあ。わたしは「電気情報工学科」ってところだったので、情報関係の講義が少なく、かわりに電気(三相交流!)や電子(電子回路!)や電波(マクスウェルの電磁方程式!)や量子力学(ψのφ!)やらをならったので、データベースはやってません。まあ、あんましあたまには残ってないけど、大学時代はいろいろやったほうが、あとで再勉強するさいの助けになっていいかも。

のりちゃんのばなな

あるひ のりちゃんは さんぼんの
ばななを やおやで かいました
おっきいばななは とうさんばなな
ちゅっくらいばななは にいさんばなな
ちっちゃいばななは あかちゃんばななよ

あれっ
どんぐり?
どんぐりじゃないよ ばななだよ
ちっちゃくたって、おいしいばなな

ばなな ばなな
かわいいね だいすきよ
のりちゃんの ばなな
ぜんぶのりちゃんの ばなな

© 2007 iwata kenichi