blogspotのrobots.txtが変更された件

昨日気がついたんですが、bloggerのrobots.txtが変更になりました。参考文献[1]でも指摘されています。

[旧]
User-agent: *
Disallow:
[新]
User-agent: *
Disallow: /search
Sitemap: http://iwatakenichi.blogspot.com/feeds/posts/default?orderby=updated

変更点は(1)/search以下のクロールが禁止になった(2)サイトマップがついかされたの2点ですね。/search以下というのは、ラベルでの参照に使われているようです。たとえばラベル「計算機」の記事の一覧ですね。あとは年のアーカイブが/searchから始まっています。たとえば2007年の記事一覧などですね。月ごとのアーカイブのURLは違っているので(例:2007年7月のアーカイブhttp://iwatakenichi.blogspot.com/2007_07_01_archive.html)ので関係ありません。ラベル別のページや年のアーカイブページまでインデックスすると、本来の記事のページとあわせて2重3重にインデックスされることになるので、除外する事にしたのかな?

サイトマップのほうは、Googleウェブマスターツールを使って送信するサイトマップとおなじものが指定されています。ウェブマスターツールで送信しているのと同等になるのかな? とおもったが、そうでもない、という意見もあります(参考文献[2])。私は試していません。

いずれにせよこのblogger上のrobots.txtはユーザーがいじれるものではなく、それどころか実在のファイルではないらしく(スクリプトで送信しているらしい、そりゃそうか)、ユーザーサイドでは「あれー、かわってる」と思うぐらいで、とくに何ができるというものではなさそう ^^;

参考文献

  1. Google Webmaster Help , 2007
  2. Blogger Blogs have Robot.txt file, 2007

「RSSリーダーで購読する」ボタンをブログに追加する方法

昨日書いたブックマークレットを使っているひとは、RSSリーダーに購読を追加するのが簡単でいいですが、世の中そういう人ばかりではありません。ブックマークレットをおいていないひとでも、すぐにRSSリーダーに購読を追加できるボタンをあなたのブログにも設置してみよーっ。

create "add to fastladder" button

設置の仕方は簡単。fastladder用のボタンは”Subscribe button“を見て、1. Entry your feed URLっていうところに自分の「ブログのURI」をいれる。このブログの場合は「http://iwatakenichi.blogspot.com/」ですね。そして[Generate HTML]ボタンを押すと、右のプレビュー欄に文字で「Subscribe with Fastladder」というリンクが表示される。これでよければコードを自分のブログにコピペ。アイコンを使いたい場合はURIをいれる欄の下にあるアイコンをクリックして、プレビューがそのアイコンになったのを確認してから、コードをコピペすれば良い。

"add to google" button

google用のボタンは”Add to Google – Information for Publishers“をみて、やはりおなじようにURIをいれる。ただしこちらはブログのURIではなく、フィードのURIをいれる。例えばこのブログだったら「http://iwatakenichi.blogspot.com/feeds/posts/default」といれる。FastladderはブログのURIからフィードのURIを勝手に探してくれるのに、Google Readerはちょっと不便だねー。そして[Create HTML]ボタンを押せばコードが表示されるので、そのコードをブログにコピペすれば完了です。ステキ。

Fastladderの英語がアレな4つのポイント

fastladder quick guide

光速をこえたフィードリーダー、fastladderですが、なんだか英語があれっぽいので、手始めにログインすると出る「Quick Guide」の訂正案を考えてみた。勝手に!

[訂正案]
Quick Guide
Subscribing your favorite blogs or news.

  • You can add subscription on fastladder.
    1. Click ‘Add’ icon on the top of the left side.
    2. Enter the URL of the blog you want to subscribe, then fastladder will find you proper feeds for it.
  • The easier way to add a subscription is to install [a browser button](link) in your browser. Get it now!
  • You can also import subscription lists from other feed readers. Export OPML subscription list, and import it to Fastladder.

Reading articles

  • You can read articles by clicking on a blog name at left side one by one.
  • To read articles at speed-of-light, Use keyboard shortcut. You can configure it at keyboard shortcut options.
  • You can mark articles you’re interested in and read them later.
    1. Place ‘Pin’ on an article while you’re reading it (by pressing ‘P’ key or clicking ‘pin’ icon).
    2. You can read only ‘Pinned’ articles by pressing ‘O’ key or click pin icon on the top tool bar.

Managing your subscriptions

  • You can categorize blogs you subscribe by folders.
  • You also can sort your subscriptions by variety of options (e.g. the arrival time of the newest article, title, rating, number of unread items or number of subscribers).

Tips for bloggers

  • Add the ‘Subscribe in Fastladder’ button on your blog, It will help you to get new readers!
  • Show what you read in fastladder! You can publish your subscription list by configuring ‘Manage Sharing’ option.

Fastladderの英語が抱える4つの問題点

  1. しなくてはいけないこと「〜してください」と、オプションとしてしてもよい「〜できます」の区別がない。
  2. 目的と手段を関連づけて「〜するためには、〜してください」と書くべきだが、目的(「〜するために」)が省かれている。
  3. 構成の問題。step by stepの解説なのか、それともどれかひとつやればいいのかが不明確。
  4. 基本操作の解説と、発展操作の解説が混ざっていて、どれが基本でどれが発展かわからない。

こうしてみると、なんか英語の問題じゃないようなきもしますね…? ^^;

ブックマークレットのサンプル

Yetiさんは、昨日の記事を書いたあと、ぱったりこなくなっちゃいました。韓国からこのブログになんどかアクセスがあったので、Naverの中のひとが見に来て除外リストにいれるとかの対処をしたのかしら? robots.txtは外しといたのでまたおいでいただけるかも ^^;

で、Yetiさんとは関係ないが、よのなかには「ブックマークレット」って言うのがあるらしい。ブックマークのURIのところにjavascriptで一行プログラムみたいなのを書いておいて、あるページを表示中にそのブックマークをポチッと押すと、なんか動作すると言うようなもんらしい。たとえば、表示中のページを「はてブ」に登録する、とか。そのページのはてブ登録数を表示するとか。そのページをFastladderでsubscribeするとか。そのページに含まれるYoutubeの動画をダウンロードするとか。そのページに含まれるエッチな画像へのリンクをぜんぶダウンロードするとか。しらなかった!

というわけで、ためしに「はてブに登録」ってのをブックマークしてみた。やりかたは左のリンクをみぎクリック(またはコントロール押しながらクリック)してコンテキストメニューを出し、「このリンクをブックマーク…」を押し、「ブックマークツールバー」フォルダーにセーブするだけです。簡単だ。

あるページが表示されているときにブックマークツールバーの「はてブ登録」をポチッとすると、はてブの登録画面になります。ちょっと便利? かな? Fastladderのsubscribeブックマークレットは見つからない。だれか教えてー ^^;

参考文献

Naverは客もつれてこないくせに偉そうな顔をして試食品のつまみ食いばかりする観光ガイドだ

例のあわせて検索」ですが、アクセスログを眺めていると、アクセスしてくるのは検索エンジンのクローラーが多いんです。ぐーぐる、yahoo, alexa, MSNにまざって、異様な(?)アクセスパターンで攻めてくるのが「Yeti」。韓国のNaverっていうサイトのボットらしい。User-agentは”Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”。checkなのにfollow”s”なので主語がよくわからんが ^^;; おそらく”we check your robots.txt everyday and follow it”といいたいんでしょうねえ。なんでわざわざこんなところで「ちゃんとrobots.txtよんでますよー」とかいいわけがましいこと言ってるかと言うと、このひと以前はNaverbotという名前で、かなり積極的なアクセスパターンでブツギをカモして、あちこちで出入り禁止になったらしい。それで困って名前かえたのかしら。

アクセスログをgrepしてwcしてみたところ、7月10日のGooglebotのリクエスト数が 897。Yetiは 1887。倍以上です。しかも! YetiさんはYetiさんだけじゃないんです。Yetiさんのアクセスパターンはだいたい以下のような感じ。


61.247.xxx.xx - - [10/Jul/2007:03:02:49 +0900] "GET /robots.txt HTTP/1.1" 404 285 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.xxx.xx - - [10/Jul/2007:03:02:50 +0900] "GET /words/AAA/BBB HTTP/1.1" 200 8367 "-" "Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)"
61.247.yyy.yy - - [10/Jul/2007:03:02:51 +0900] "GET /css/xxx.css HTTP/1.1" 200 2379 "http://saas-sfa.com/words/AAA/BBB" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)"

まず気がつくのは、かなり頻繁にrobots.txtをよむこと。7月10日にrobots.txtがよまれた回数が119回、そのうち104回がYetiさんです。robots.txt占有率 87%。そんなもんがあるとすれば、ですが。”check robots.txt daily and follows it” だから、もういっぱい読んじゃう。ぜんぜんよまないよりマシ? で、どうもうちには5人のYetiさんがきていて、おのおのが1時間に1回robots.txtを読んでるっぽいです。Yeti 5人兄弟。

もうひとつ気がつくのは、毎回cssをよんでいること。なんでわざわざcssをよむ必要がある? ^^; しかも毎回。なんど読んでも同じだよっ! cssなんか読んでなんに使ってんだろ…しかもよみにくるやつのhttp-user-agentが「Yeti」ではない。YetiとはIPアドレスもちがう。

IPアドレスと言えば、逆引きも出来ないのよね。わざとできなくしてるのかな?

あらためて、robots.txtとcssをチェックしているひとも含めて数を数えてみると、Yetiさん関係のリクエスト数は3682回でした。Googleさんの4倍強。よみすぎだろー ^^;

まあとりあえずいちおう仮にYetiさんのことを信用してみることにして、robots.txtに書いてみた。


% cat robots.txt
User-agent: Yeti
Disallow: /

すると、これまたいちおう行儀よく、1時間に5回のrobots.txtのチェックだけになりました…それでもうざい気がするが…

結局、Yeti=Naverのなにが問題かというと、クローラーのアクセス数に見合ったNaver経由のトラフィックがないことじゃないかな? お客さんもつれてこないくせに、試食品のつまみ食いばかりする観光ガイドみたいな? (ちがうか)。Google以上のお客さんをつれてくれば、かなり積極的にアクセスに来ても文句いわれないんだろうけどねー。まあそれはNaverにかぎらず、ほかのクローラーにも言える事ですが。

次回は.htaccessでアクセスそのものを禁止する方法を紹介します! (たぶん)

参考文献

Mac OS X のTextEditがutf-8を判別できない件

ふだんコーディングはEmacsを使っているんですが、印刷ができないので、印刷するときはTextEdit(テキストエディット)を使っています。今日、気がついたんだけど、utf-8で日本語を書いているファイルを普通にTextEditで開くと化けますね。Preferences…でみると、「Open」するときのエンコードがデフォルトでは「Automatic」になってるんですが、これだと自動判別に失敗しているっぽい。「Automatic」から「utf-8」にすると文字化けせずにひらけます。でもねえ、utf-8のファイルばかり扱ってるわけじゃないからこまりますね。せめて、ひらいたあとエンコーティングを変えられればいいんだけど、そういうコマンドはないみたい。ひらいたあとじゃなくて、ひらくときにダブルクリックじゃなくて、File->Open…でひらくようにすると、ファイル選択のダイアログのところで、エンコーディングがえらべます。それもめんどうだし…なんとかなりませんか? ^^;

またwireless mightymouse のボタンが押せない

またもWireless MightyMouseのボタンが押せない。System Preference -> Keyboard & Mouse でみると、電池は 2/5 のこってる。もーなんだ! とりあえず電池かえてみた。電池の蓋を開けるとコネクションが切れるので、電池を入れ替えて、蓋を閉めて、System Preferenceの「Bluetooth」で再認識。これでいつものようになおる。なんだろうなー

丸善の中身がアマゾンに

ちょっと古いニュースですが日経BPnetの2007年06月27日付のニュースで「丸善のオンラインショップのシステムがアマゾンになる」というのがありました。丸善独自のアイテムは追加して、見た目も丸善用にへんこうするが、webのシステムや発送などのしくみはぜんぶアマゾンになるとのこと。丸善にしてみたら、システム開発の費用がかからなくて住むのが利点。欠点はたぶんアマゾンに利益の一部をとられるので、あまりもうからないかもしれない。アマゾンの利点はシステムは(ほとんど)そのままで、注文の取扱量が増えると思われるので、よりもうかる。丸善のweb販売の情報が手に入る(売れ筋など)。欠点はなんだろうね、とくにないかな?

丸善とアマゾンのあいだで、どういう契約になってるのか、興味ありますね。

「外見は丸善、中身はアマゾン」、丸善がオンライン戦略を大転換日経BPnet

「あわせて検索」サイト更新

あわせて検索ですが、いくつか変更しました。

  • 関連キーワードのだぶりを解消しました。
  • カテゴリーや関連キーワードはDBにいれてキャッシュするようにしました。

だぶりのほうは、以前のバージョンでは、たとえば「のり」といれると、あい+のりがふたつ以上表示されていました。これがおきないように変更しました。また、キーワードはDBにキャッシュするようにしたので、今後おもしろい事ができそうです。こうごきたい!

DB serverにSQLでアクセス

以前ちょっとだけ表面をなでた事のあるSQLですが、例のあわせて検索」のためにちゃんとデータベースをつかおうと思って再勉強中です。以前もってたSQLの本は会社を辞めるときにほてぎくん(おーいげんきですかー)にあげてしまったので、今回はネットの資料で勉強しています。「SQLとはなんぞや」「リレーショナルデータベースとはなんぞや」みたいなのは前の本で理解したので、今回はこれでオッケー。

ふつうは大学でデータベース関係の授業があるのかなあ。わたしは「電気情報工学科」ってところだったので、情報関係の講義が少なく、かわりに電気(三相交流!)や電子(電子回路!)や電波(マクスウェルの電磁方程式!)や量子力学(ψのφ!)やらをならったので、データベースはやってません。まあ、あんましあたまには残ってないけど、大学時代はいろいろやったほうが、あとで再勉強するさいの助けになっていいかも。