blogspotのrobots.txtが変更された件

昨日気がついたんですが、bloggerのrobots.txtが変更になりました。参考文献[1]でも指摘されています。

[旧]
User-agent: *
Disallow:

[新]
User-agent: *
Disallow: /search
Sitemap: http://iwatakenichi.blogspot.com/feeds/posts/default?orderby=updated

変更点は(1)/search以下のクロールが禁止になった(2)サイトマップがついかされたの2点ですね。/search以下というのは、ラベルでの参照に使われているようです。たとえばラベル「計算機」の記事の一覧ですね。あとは年のアーカイブが/searchから始まっています。たとえば2007年の記事一覧などですね。月ごとのアーカイブのURLは違っているので(例:2007年7月のアーカイブhttp://iwatakenichi.blogspot.com/2007_07_01_archive.html)ので関係ありません。ラベル別のページや年のアーカイブページまでインデックスすると、本来の記事のページとあわせて2重3重にインデックスされることになるので、除外する事にしたのかな?

サイトマップのほうは、Googleウェブマスターツールを使って送信するサイトマップとおなじものが指定されています。ウェブマスターツールで送信しているのと同等になるのかな? とおもったが、そうでもない、という意見もあります(参考文献[2])。私は試していません。

いずれにせよこのblogger上のrobots.txtはユーザーがいじれるものではなく、それどころか実在のファイルではないらしく(スクリプトで送信しているらしい、そりゃそうか)、ユーザーサイドでは「あれー、かわってる」と思うぐらいで、とくに何ができるというものではなさそう ^^;

参考文献

Google Webmaster Help , 2007
Blogger Blogs have Robot.txt file, 2007