yetibot@naver.com対策

先日robots.txtを試してみたYetiさんですが、結果から先に書きますと、まったくダメでした。理由は(1)Crawl-delayはまったくみていないみたいで、クロールの間隔はまったく変わらず (2) cssを読みにくるひとは”Yeti”ではないので、robots.txtは関係ないみたい、ということでぜんぜんダメ。

というわけでなにかちがうことを考えないといけないのですが、そのまえにまず現状を確認しておきましょう。例えば昨日のアクセスパターンは次のようなかんじ。


....
61.247.217.33 [30/Jul/2007:03:02:06 /tags/%E3%83%81%E3%82%A7%E3%82%B9
61.247.196.54 [30/Jul/2007:03:02:17 /css/stdstyle.css
61.247.217.37 [30/Jul/2007:03:02:31 /words/dead/rock
61.247.196.35 [30/Jul/2007:03:02:41 /css/stdstyle.css
61.247.196.26 [30/Jul/2007:03:02:54 /css/stdstyle.css
61.247.217.37 [30/Jul/2007:03:02:56 /tags/geena
61.247.196.54 [30/Jul/2007:03:03:12 /css/stdstyle.css
61.247.217.36 [30/Jul/2007:03:03:23 /words/dead/girls
61.247.196.39 [30/Jul/2007:03:03:38 /css/stdstyle.css
61.247.217.33 [30/Jul/2007:03:03:59 /words/%E3%83%91%E3%83%83%E3%82%BD/cm
61.247.196.37 [30/Jul/2007:03:03:59 /css/stdstyle.css
61.247.217.35 [30/Jul/2007:03:04:48 /words/youtube/%E3%83%93%E3%83%AA%E3%83%BC%E3%82%BA
61.247.217.37 [30/Jul/2007:03:04:49 /words/%E3%83%91%E3%83%83%E3%82%BD/%E4%B8%AD%E5%8F%A4%E8%BB%8A
61.247.196.40 [30/Jul/2007:03:04:50 /css/stdstyle.css
61.247.196.54 [30/Jul/2007:03:04:54 /css/stdstyle.css
61.247.217.35 [30/Jul/2007:03:05:01 /words/yahoo!/japan
...(以下略)...

7/30 午前3時から7/31午前3時までの24時間で受けた全リクエスト10796中、6804がYetiさんです。占有率63%。1分あたり4.7リクエスト。本体とcssとを組にして読んでいきますから1分あたり2.36リクエストx2ということですね。baiduさんですら2分に1回なのにねえ…よみすぎー。

というわけでまず、cssを禁止にしちゃう。Naverからcssを読みにきているIPアドレスの一覧は以下の通り。


  65 61.247.196.11
  82 61.247.196.13
  86 61.247.196.14
  59 61.247.196.15
 107 61.247.196.17
  84 61.247.196.18
  90 61.247.196.19
 100 61.247.196.20
  87 61.247.196.21
  63 61.247.196.24
  92 61.247.196.25
  82 61.247.196.26
 111 61.247.196.27
 105 61.247.196.28
  42 61.247.196.29
  72 61.247.196.30
  89 61.247.196.31
 100 61.247.196.32
 113 61.247.196.33
 112 61.247.196.35
  84 61.247.196.36
  78 61.247.196.37
  64 61.247.196.38
 100 61.247.196.39
  56 61.247.196.40
 105 61.247.196.43
  90 61.247.196.44
 118 61.247.196.46
  69 61.247.196.47
  97 61.247.196.48
  96 61.247.196.49
  98 61.247.196.50
  80 61.247.196.51
  81 61.247.196.53
  56 61.247.196.54
  83 61.247.196.55
  55 61.247.196.56
 107 61.247.196.57
  97 61.247.196.58
  74 61.247.196.59

おおすぎー ^^;; 先頭の数字は昨日1日ぶんのアクセス回数です。ぱっと見、61.247.196.*からの
ようですからそのように指定しても
いいですが、それだとNaverが使うIPアドレスをぜんぶ網羅できていないかもしれませんね。ここはひとつ、IPアドレスの割当をちゃんと調べてみましょう。whois してみます。


% whois 61.247.196.58
...(中略)...
inetnum:      61.247.192.0 - 61.247.223.255
netname:      NHN-NET
descr:        NHN
country:      KR
...(以下略)...

NHNっていうのは、Naverを運営している会社の名前です。61.247.192.0 – 61.247.223.255の範囲がNHNに
割り当てられていることになっていますね。念のため、参考文献[1]をみてみます。ここでは国別の割り当てIPアドレスリストがぜんぶみられます。便利ですね。韓国のリストを見ると、上記に該当するのは「61.247.192.0/19」これですね。これをまるごとNHNがもらってつかってるみたい。ですから、
css/.htaccessに次のように書きます。


order allow,deny
allow from all
deny from 61.247.192.0/19

さらに本体のアクセスも制限しちゃう。本体にアクセスに来ているのは以下のIPアドレス。


 717 61.247.217.33
 673 61.247.217.34
 637 61.247.217.35
 663 61.247.217.36
 685 61.247.217.37

同じように、先頭の数字は昨日1日のアクセス回数です。こっちはぜんぶ禁止にするのは
つまらないので(?)、5兄弟の4人だけ禁止にしちゃう。/ の .htaccessにこう書いておく。


# reject naver kids
order allow,deny
allow from all
deny from 61.247.217.33
deny from 61.247.217.34
deny from 61.247.217.35
deny from 61.247.217.36

これで有効なページ読み出し回数が1/10になるはず。ただアクセスそのものがなくなるわけじゃなくて、
アクセスに対して403(Forbidden)が返却されるようになるだけなので、Yetiさんが気にせず読みに
きまくったらログ上はうざいことには変わりないですね。ただ、
例のサイトはアクセスされたページをDBにキャッシングして
いるので、あまりガンガンアクセスにこられてもこまっちゃう。あんまりアクセスがないのも困るけど。
その点からは1/10ぐらいで丁度いいかも ^^;

参考文献

  1. Blackholes.us

そうめんの研究: 半田そうめんは太くてうまいぞ

梅雨もあけてすっかり夏ですね。夏にはそうめんがうまいです。いつもは地元岡山のそうめんか、小豆島のそうめんを食べているんですが、ことしは友人に「半田そうめん」というのを教えてもらいました。これがその半田そうめん。「竹田製粉製麺工場」というところのものです。

handa tenobe soumen

写真1. 半田手のべそうめん

徳島県美馬郡つるぎ町(旧半田町、つるぎ町は一宇村・貞光町・半田町が合併して平成17年3月1日発足)で作られているもので、200年の伝統を誇る。そうです。これがそうめんとは思えないほど太い。食べているとうどんかと思うぐらいです。そして、しかし、かなりうまいんです。というわけで、いったいどれぐらい太いのかほかのそうめんやひやむぎとくらべて調べてみることにしました。

今回買ってきたうどんとひやむぎとそうめんたち。いろいろな産地、いろいろな生産者のものが売られいていましたが、今回は地元岡山の業者をリスペクトして「かも川」のものを中心に買ってきました。左から、かも川手延うどん、かも川手延細うどん、かも川手延ひやむぎ、かも川手延そうめん、小豆島の「島の光」手延素麺、それから半田手のべそうめんです。

udon hiyamugi soumen

写真2. うどん、ひやむぎ、そうめん

さっそく1ぽんづつとりだして、ならべてみました。ついでにノギスで太さを計測。断面が円形ではないので、長いところと短いところを測ってみました。ついでに長さも物差しで計測。ならび順は上のパッケージの写真とおなじです。

うどん比較

写真3. めんの太さ比較(数字はめんの断面の太さ(mm)とめんのながさ(cm))

こうして見ると、半田そうめんは、かも川のひやむぎと同じぐらいですね。一体どうなってるんでしょうか。現在の日本農林規格によると、機械製麺のばあい、そうめんは断面の直径が1.3mm未満、ひやむぎは1.3〜1.7mm未満、うどんが1.7mm以上、という区別になっているそうです。機械ではなく「手延べ」の場合は、1.7mm以上が「手延べうどん」、1.7mm未満は「手延べそうめん」または「手延べひやむぎ」となっており、手延べにかぎっていえばそうめんとひやむぎに区別はないことになります(参考文献[1])。

しかしこの規格が制定されるにあたっては紆余曲折があり、参考文献[1]に「2004年に手延べそうめん類の日本農林規格及び品質表示基準が廃止され、新たに手延べ干しめん日本農林規格(特定JAS)が制定されました。品質表示基準は従来の機械麺の乾めん類品質表示基準に統括されました」とある通り、2004年に手延べそうめんに関する規格が改訂されています。規格が改訂されるにあたって、2002年ごろに農林水産省から、「新規格では半田手のべそうめんは『半田ひやむぎ』になる予定です」という話が旧半田町にあったそうです(参考文献[2])。ポイントはふたつあって、まずは太さ。旧規格は今の機械製麺のとおなじでそうめんは1.3mm以下となっていたため、新規格でもそれを踏襲しようとしていたようです。半田そうめんは1.3mmよりふとい! そうめんじゃなくてひやむぎになる! 半田そうめんピンチ! それからもうひとつは「手のべ」の表記。旧規格では、小麦粉を練ってよりをかけて引き延ばし、熟成したものを「手延べ」としていたのだが、新規格の改正案では「小引き」と「庭干し」と呼ばれる部分が手作業でないと「手延べ」と呼べないことになっていた。「小引き」というのは「よりをかけて引き延ばす」行程。いまではこの行程でほとんどの業者が機械の補助を使っているため、このまま改正されると「手延べ」とはいえなくなってしまう。ピンチ!

しかし伝統的な「手延べ」を守るために作られる規格のせいで、伝統的に「手延べそうめん」と名乗っていた半田手のべそうめんが名前を変えざるを得なくなるとすれば、かなりおかしなことだといえましょう。そんなわけで、「手延べ」に関しては太さは1.7mm以下であればそうめんとも、ひやむぎとも名乗ってよいことになったので、半田そうめんもどうどうとそうめんを名乗れることになったのです。よかった。パチパチ。

ほっとしたところで、さっそく、たべくらべてみた。「半田そうめん」は、こしがあり、うどんのようなかんじです。うまいね。ほかの「そうめん」はぜんぜんちがうので、半田そうめんと太さが似ている「かも川ひやむぎ」をたべてみます。これも、やはりおなじようにいい感じのこしがあります。しかしかなり食感が半田そうめんとは違う。むしろ「かも川細うどん」のほうが半田そうめんと似た印象をうけました。半田そうめんをたべた第一印象の「うどんのようなかんじ」はまちがっていない。なぜだろう、とモグモグしながら考えたのだが、どうも、太さとめんの長さにひみつがありそうだ。

「かも川細うどん」と「ひやむぎ」、「半田そうめん」のめんの断面の短い直径のほうは約1.4mmでほぼ同じです。長いほうの直径と、めんの長さの比をとってみると、

  • かも川細うどん: 250/2.25= 111
  • かも川ひやむぎ: 250/1.55= 161
  • 半田そうめん: 180/1.70= 105

「半田そうめん」と「かも川細うどん」の数値が似ています。おそらくこれが食感に影響し、似たような雰囲気を醸し出しているのではないだろうか。今回は時間がなくて実施できなかったが、この仮説を検証するために、「かも川ひやむぎ」の長さを18cmていどに切ってゆでてみるという実験をする必要がある。

しかし、私の実家は愛知県なのですが、こどものころ食べたひやむぎは、こんなにこしがなかった気がする。このあたり(西日本)のそうめん(とひやむぎ)はうまいなあ。今度実家に帰ったら愛知県のひやむぎも比較してみることにしよう。

なお、「竹田製粉製麺工場」のそうめんは通販可能です。webで通販しているところもありますが、友人曰く、直接注文するのがいちばんお得、とのこと。Webサイトは無いようなので、電話して注文してください。竹田製粉製麺工場 電話:0883-64-2020。

参考文献

  1. そうめんとひやむぎ事情
  2. おはようとくしま 「そうめん」か「ひやむぎ」から どうなる半田手延べそうめん,四国放送,2002

yetibotの再来

先日の記事を書いてrobots.txtを設定したあと、ぱったりこなくなっていたyetibot@naver.comさんですが、robots.txtの制限を外しておいたかいあって(?)、25日の朝9時頃から活動を再開したようです。例のサイトへのアクセスが25日の朝9時から26日の朝3時までで4247アクセスでした。そのうち約半数の2125アクセスがcssファイルです。例によって。

今回はいろいろ実験してみたいので、素直にはじくのはやめて、robots.txtに次のように書いてみました。


User-agent: Yeti
Disallow: /css/
Disallow: /img/
Crawl-delay: 180

User-agent: Baidu
Disallow: /css/
Disallow: /img/
Crawl-delay: 180

User-agent: *
Disallow:

Crawl-delayはA Standard for Robot Exclusionには含まれていないようですが、ask.comやYahoo!のボットはサポートしているようです。参考文献[2]によるとYetiさんはCrawl-delayを理解できないようですが、まあいちおうわたしも試してみたいので、書いてみました。あとはcssを毎回(!)読みにきてうるさいので、これも禁止に。イメージファイルは読みにきてはいないけど、念のため。

ついでに(?)Baiduさんも指定してみた。現在のところ、Baiduspiderさんはコンスタントに2分に1アクセス、1時間に30回x24時間=720アクセス程度の「良識的」アクセスです。とりあえず間隔を3分にしてもらえるかどうかテストのため加えてみました。

さあどうなるかなー?

参考文献

  1. A Standard for Robot Exclusion, robotstxt.org
  2. 噂のBaiduとNaverのクローラはwikiがお好き, blog@browncat.org, 2007

NHKスペシャル「グーグル革命の衝撃」にでてくるお兄さんはだれ?

今年の1月にNHKスペシャルで「グーグル革命の衝撃」という番組を放送していました。わたしは録画してみたのですが、まあなんというか、番組自体はNHKっぽい予断あふれる無難な構成で、あまり面白くありませんでした。

その中で、大学を出たけど就職活動もしないでアドセンスからの収入でくらしているというお兄さんが出てきます。「今月送られてきた小切手さ」といって$7500ぐらいの小切手をみせてくれます。これをきゅうに思い出して、どういうひとで何のサイトなのかなー、としりたくなったのでちょっと調べてみた。画面で見た感じでは携帯電話のサイトみたいだったけど。

で、お兄さんのジョナサンゲールズさんのページ。えらく簡素ですが、Aboutをみると、携帯電話のサイトはMobile Trackerというやつみたい。もっとカタログチックなサイトかと思ったら、そうでもなくてブログみたいな感じですね。alexaのトラフィックランクで70,000位ぐらい。あと、アドセンスがついていそうなサイトはMac MercというMacのサイトで、トラフィックランク17万位。これぐらいみたいだけど、これでアドセンスの広告料月7500ドル? うーん。

参考文献

  1. Mobile Tracker
  2. Jonathan Gales

RARをMac OS Xで展開する

「学会で知り合ったひとがRARという拡張子のファイルを送ってきたが、見られない」とのことで、調査してみた。RAR(ラー)っていうのは、「可逆ファイル圧縮形式の一つ。Eugene Roshal氏が開発した「RAR」「WinRAR」などのアプリケーションで使われていた形式」(参考文献[1])とのこと。まあ普通こんなの使わないで、tar+gzだよね。でも自分では使わなくても、送ってこられた場合には見られると便利なこともある。ちなみにアーカイブは解凍じゃなくて、展開だと思う。だって凍ってないし…

rar-icon.jpg

図1. STUFFIT EXPANDERのRAR書類アイコン

Mac OS Xでrarアーカイブを展開するには、Mac OS X版RARとかもあるみたいなんだけど、まあ普通に「STUFFIT EXPANDER」でいいでしょう。ほかのソフトは必要ありません。むかしのSTUFFIT EXPANDERはrarが展開できなかったようですが、2003年からはバッチリサポートしています。ちなみにSTUFFIT EXPANDERは老舗の展開ソフトで、以前はMacにバンドルされていたような気もしますが、最近はバンドルされていないみたいですね。上のURIで名前とemailアドレスを入れて「SUBMIT」ボタンをクリックします。そうするとダウンロードのURIが書いてあるメールが送られてくるてはずになっております。ここでいれたメールアドレスにはあとで広告を送ってくるので、面倒なひとは10 Minute Mail (10分だけ有効な無料のメールアドレス) を使うといいでしょう。送られてくるURIをポチッとすると、ダウンロードのページにとびます。おそらくいきなりここに行ってもダウンロードできるんじゃないかな? 試してみたひとは結果を教えてください。

このダウンロードのページはずいぶんごちゃごちゃしててみにくくなりましたが、「Expander 2009」を選んで「DOWNLOAD NOW」をおせばOKです。2007年現在の最新版は12.0.1でしたが、2008年12月現在の最新版は「2009」になっております。

Stuffit Expander Download

図2. ダウンロード

ダウンロードしたものはdmgファイルなので、開いて、インストーラーを実行すれば「STUFFIT EXPANDER」がインストールされます。

Stuffit Expander installer

図3. インストーラー

あとはrarファイルをダブルクリックするだけで展開することができます。便利ですね!

(2008/12/24: URLおよびバージョンの変更に伴い修正)

参考文献

  1. IT用語辞典 e-Words
  2. 10 Minute Mail
  3. STUFFIT EXPANDERのダウンロード

いまから鳥取へ出発

いまから鳥取に行ってきます。6時間ぐらいで戻る予定。10:25分出発。

まず岡山県内を北上。

DSCF5170.JPG

途中にある久賀ダム。

DSCF5176.JPG

鳥取側へ抜けたところ。智頭あたり。

DSCF5178.JPG

千代川沿いをさらに北上。

DSCF5179.JPG

今日の目的はこれ。戸籍抄本。パスポート更新用です。450円也。鳥取市役所の駐車場にて。13:45ごろ。

DSCF5182.JPG

鳥取市内を南下。

DSCF5186.JPG

鳥取にもモルモン教。白人の男の子ふたり組で、自転車にヘルメットで、白いシャツに黒いズボン
という、かならずおなじかっこうしてるのはなんで? ていうかジャケットはどこ?

DSCF5188.JPG

鳥取は風の谷だった!

DSCF5191.JPG

もう津山市内。

DSCF5192.JPG

大学に到着。16:30分。すべて込みの往復時間は6時間5分でした。ツカレタ…

System Profiler をコマンドラインで

Mac OS XにSystem Profiler.appというソフトがあります。Applications/Utilities/System Profiler.appにありますので、ここからでも起動できますし、その他にもアップルメニューの「About This Mac」で出てくるウインドウ(写真1)で「More Info…」ボタンを押しても起動します。

Mac OS X 10.4.10 comes here

写真1. About This Mac

System Profilerが起動するとこんな感じです(写真2)。

system_profiler.jpg

写真2. System Profiler.app

マシン名やモデル、CPUの数、メモリの量などいろいろなことが分かって便利です。ただ、これは
ふつうのアプリケーションなので、リモートからネットワーク越しに情報をみるのがむつかしいですね。
これをコマンドラインでとれると便利かもしれない。そういうのないのー、とおもって調べたら、
ありました。その名も”system_profiler”。フルパスでいうと /usr/sbin/system_profiler です。

使い方ですが、指定するのは2つだけ。出力フォーマットと、とる情報のタイプです。出力
フォーマットのほうは、なにも指定しなければインデントで成形されたプレインテキストで
出てきます。オプション”-xml”をつけるとXMLで出てきます。

取得する情報のタイプは、指定しなければ全部の情報がとれます。うちでは1108行も出てきました ^^; 引数として”dataType”を指定すると、そのセクションだけ情報をとることができます。dataTypeには
たとえばSPHardwareDataTypeなどがあります。可能なdataTypeの一覧はオプション”-listdatatypes”を
つけると見ることができます。データタイプの一覧はうちではこんな感じでした。


Available Datatypes:
SPHardwareDataType
SPNetworkDataType
SPSoftwareDataType
SPParallelATADataType
SPAudioDataType
SPBluetoothDataType
SPDiagnosticsDataType
SPDiscBurningDataType
SPFibreChannelDataType
SPFireWireDataType
SPDisplaysDataType
SPMemoryDataType
SPPCCardDataType
SPPCIDataType
SPParallelSCSIDataType
SPPowerDataType
SPPrintersDataType
SPSerialATADataType
SPUSBDataType
SPAirPortDataType
SPFirewallDataType
SPNetworkLocationDataType
SPModemDataType
SPNetworkVolumeDataType
SPApplicationsDataType
SPExtensionsDataType
SPFontsDataType
SPFrameworksDataType
SPLogsDataType
SPPrefPaneDataType
SPStartupItemDataType

うちではこうでしたが、マシンやOSによってちがうかもしれません。で、うちのマシンのプロファイルはというと、こんな感じ。実行したコマンドは”system_profiler SPHardwareDataType SPSoftwareDataType”です。


Hardware:

    Hardware Overview:

      Machine Name: PowerBook G4 15"
      Machine Model: PowerBook5,2
      CPU Type: PowerPC G4  (1.1)
      Number Of CPUs: 1
      CPU Speed: 1.25 GHz
      L2 Cache (per CPU): 512 KB
      Memory: 2 GB
      Bus Speed: 167 MHz
      Boot ROM Version: 4.7.1f1
      Serial Number: V740395ENRX

Software:

    System Software Overview:

      System Version: Mac OS X 10.4.10 (8R218)
      Kernel Version: Darwin 8.10.0
      Boot Volume: Macintosh HD
      Computer Name: xxx
      User Name: xxx

一部伏せ字にてお送りしております。15インチのPowerBookなのと、そのモデルが”PowerBook5,2″と
いうのがわかりますね。せっかくネットワーク越しでもとれるので、学校においてあるiMacのプロファイルもとってみた。


Hardware:

    Hardware Overview:

      Model Name: iMac
      Model Identifier: iMac4,1
      Processor Name: Intel Core Duo
      Processor Speed: 1.83 GHz
      Number Of Processors: 1
      Total Number Of Cores: 2
      L2 Cache (per processor): 2 MB
      Memory: 2 GB
      Bus Speed: 667 MHz
      Boot ROM Version: IM41.0055.B08
      SMC Version: 1.1f5
      Serial Number: W86030YBU2R

Software:

    System Software Overview:

      System Version: Mac OS X 10.4.10 (8R2218)
      Kernel Version: Darwin 8.10.1
      Boot Volume: Macintosh HD
      Computer Name: xxx
      User Name: xxx

こうしてみると、Intel用のと、PowerPC用のとでMac OS Xのバージョンもびみょうに違うし、カーネルもマイナー番号が違うんだなあ。へー。というわけでみなさんもプロファイルをとってみよう!

参考文献

  1. man 8 system_profiler, 2003

Graphic Converterのダイアログの日本語はイマイチ

Lamkesoftという会社のGraphicConverterというソフトがあります。「Photo Editing」のためのソフトで、まあPhotoshopと似たような目的のソフトです。
PowerBook G4には本体にバンドルされていて無料で使えて、そこそこ便利に使っていたんですが、
Intel iMacにはついてこなかったので、自分でインストールして使っていました。
25 euroの有料ソフトですが、お金を払わなくても試用可能です。ただし、お金を払っていない場合は、
起動時にダイアログがでて、30秒待たなくちゃいけない。これがそのダイアログ。

GraphicConverter Dialogue in English

1992年からとはまた古いですね。私が初めてMacを買ったのは1993年の春でしたが、それより古い。そんなころにあったかなあ…ぜんぜん知らなかったね。

ダイアログそのものはまあとくにどうということもなく、よくあるふつうのものですね。これは英語版ですが、これとは別に日本語版もある。日本語版とか英語版とかじゃなくて、配布物はひとつで、System Preferences -> International で選ばれた言語で表示するようにすればよさそうなもんだが、いまのところ言語別のバージョンを配布中だ。そして、OSの言語が英語でも、日本語版はメニューが日本語ででます。OSの言語が日本語でも、英語版は英語でメニューが表示されます。そして、これがその日本語版のダイアログ。

GraphicConverterダイアログ日本語

なんかつっこみどころが…

  1. 「著作権」?
  2. 「(c)」?
  3. 「試用バージョン」?
  4. 450日「も」つかわれています

順番に見ましょう。(1)の「著作権」と(2)の(c)。英語版はCopyrightと©です。この表示は、自動的に著作物の著作権が認められる「無方式主義」の国(日本など)の著作物が、公的機関や公証人などにより著作物を登録をして初めて著作権が認められる「方式主義」の国で(1989年以前の米国など)、その国の方式にのっとって登録されていなくても著作権が認められるために表示するマークです(参考文献[1])。©がでる場合は©を使い、技術的に困難な場合(そういう文字がないなど)は(c)という表記でもいいということになっています。Macの場合©は出せるんだから、©をつかえばいいのに、なんで(c)をつかってるんだろう? 「Copyright」の方は©表示があればそれだけでよく、「Copyright」という表記はあってもなくてもよい。つまりオマケみたいなもん。だから「Copyright」でなくて「著作権」と表記してあっても良い。しかし上記の©を表示する理由から考えて、わざわざ「Copyright」を「著作権」と日本語にする意味はあるんだろうか? 日本人向けに書いてるんだろうか?

つぎに(3)の「試用バージョン」。これはよくない。英語版は「Try it」(試用する、試す)となっています。ほかのふたつのボタンは「購入する…」「コードを入力する…」と動作を表す表現になっているのに、なぜかここだけ「試用バージョン」。試用バージョンを「ダウンロードする」のか「試用する」のかわからない。わざわざここだけ変な訳にすることないのに。

(4)の『このソフトウェアは既に450日もつかわれています!』。英語版は「You’ve been using this software for 450 days!」。「既に」とか「も」とかいうニュアンスはないだろ…もっとふつうに訳せんのか! 日本語の方は「既に」450日「も」使ってるんだから、いいかげん買ってくださいよー、というふうにきこえますね。とてもなれなれしく、そしてたいへん貧乏くさい。

他にも「!」じゃありませんよ、とか、「文書による許可云々」の文がへんですよ、とか、いろいろありますね。というわけで直してみた。勝手に!

GraphicConverterダイアログ日本語修正版

だいぶましになった。しかしこの日本語版、だれが訳したんだろ? ほかのところの翻訳はみてないけど、このぶんだとそっちも怪しそうだなー。

参考文献

  1. 著作権と「マルC」

blogger + feedburnerにリダイレクトでgoogle sitemapがおかしくなる件

blogger.comでフィードをリダイレクトできるようになったというので(参考文献参照)、わたくしもさっそく設定しました。
はじめはfeedburner.comを使ってたのですが、「日本語が化けることがあるよ」という話をコミミにはさんだので、feedburner.jpに変更しました。うまくいってるかんじ。シメシメ。フィードを何人ぐらい読んでるかわかるし、いいよね。

しかし、今日、何気なく見てみるとgoogle sitemapでエラーが出ている。

sitemap-error.jpg

燦然とカガヤクERRORの赤文字。うーん? エラーの内容はというと、

Line: 2
URL not allowed
This url is not allowed for a Sitemap at this location.
URL: http://feeds.feedburner.jp/iwatakenichi?m=26
Date found: Jul 18, 2007

こんなかんじ。blogger.comはサイトマップを作ってくれないので、サイトマップのかわりにフィードをgoogle webmaster toolsに送っているのだ。そのフィード代わりに使っているサイトマップが、blogger.comが提供するものからfeedburner.jpが提供するものにかえたらエラーが発生。どうも記事についているURLがちがうのがいけないらしい。feedの記事をクリックしたときに、feedburner経由にさせて、どれがクリックされたかみるための機能があり、そのために記事のURLがfeedburnerになっている。これがblogspot.comのままじゃないといけない。そういえばなんかそんな機能をONにした記憶が…

どこでOFFにするんだ! これしばし悩みました。Feedburnerの「設定」みたいなところかなーとおもうでしょう。そこじゃないのよ。大変フクザツなので(おおげさ)写真で説明いたします。

feedburner01.jpg

まず該当するフィードの「レポート」を見ている状態で左に出ている「サイト集計」というリンクを押します。そのあと右に出るダイアログみたいなのの中の「いますぐサイト集計機能を有効にしましょう」というリンクを押します。左の「サイト集計」の下あたりに出ている「ここから設定することができます」も似ていますが、これではありません。

feedburner02.jpg

そうしたら右に設定のダイアログが出ますので、「記事クリック数(クリックスルー集計)」をOFFにします。そして、したの「保存」ボタンを押す。これで完了です。もし、この画面がでなくて、

feedburner03.jpg

こっちの画面になっちゃった方は、左の「ここから設定することができます」を押しちゃったひとです。まちがい! 似てるけど、こっちは有料版の機能の設定みたいで、これを「保存」するとクレジットカードいれてください、とかでてきちゃいます。上に戻ってやり直してくださいねー。

参考文献

  1. FeedBurner Integration for Blogspot Blogs, Burning Questions – The official FeedBurner weblog, 2007
  2. Blogger から FeedBurner へのリダイレクトが可能に, クリボウのBlogger Tips, 2007

webクローラーのUser-Agent一覧

このところうちに来ている/来たことのあるwebクローラー(とおもわれるもの)のUser-Agentを一覧表にしてみました。具体的にはrobots.txtを読みにきたひとの一覧です。期間は2007/6/26〜7/18まで。

  1. “Baiduspider+(+http://www.baidu.com/search/spider_jp.html)”
  2. “Gigabot/3.0 (http://www.gigablast.com/spider.html)”
  3. “Googlebot-Image/1.0”
  4. “JS-UZUSHIO”
  5. “Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)”
  6. “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
  7. “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
  8. “Spock Crawler (http://www.spock.com/crawler)”
  9. “SurveyBot/2.3 (Whois Source)”
  10. “Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follows it)”
  11. “ia_archiver”
  12. “ia_archiver-web.archive.org”
  13. “msnbot/1.0 (+http://search.msn.com/msnbot.htm)”

(1)のBaiduspiderは百度のクローラー。中国のサーチエンジンで、2003年に急成長し、2004年からalexaのトラフィックランクで世界の10位以内に入っている。現在は7位。もうすぐ日本でもサービスインするらしく、その前に日本語のページを集めているようだ。かなり積極的なアクセスで物議を醸したようだが、うちでは目立った動きはない。

(2)のGigabotはgigablastのクローラー。アメリカのサーチエンジン。登録型のディレクトリもある。トラフィックランクは2万位台とたいしたことはない。

(3)はGoogleのイメージ収集用?

(4)のJS-UZUSHIOはよくわからない。けっこうあちこちアクセスに行っているようですね。robots.txtを読んだあと、1ページだけ他のページを読むと言う動作をします。うちには2回しか来ていません。ODNのppp接続ホストで動いている上、他のサイトのアクセスログをみると、IPアドレスもひとつだけのようです。個人のもの?

(5)はAsk.comのクローラー。日本語版はask.jp。ask.jpのクローラーもこれと同じかどうかは不明(未調査)。ask.comについてはAsk.com(wikipedia)を読むと良い。

(6)はGoogleのクローラー。

(7)はYahoo.comのクローラー。Slurp(スラープ)というのは英語で「くちゃくちゃたべる」という意味で、2002年末に米Yahoo!が買収したinktomiサーチのクローラー名です。たぶんYahoo!JAPANもおなじUser-Agent名かなと思うが、これはhttp://help.yahoo.com/help/us/ysearch/slurpとかいてあるから、アメリカのYahoo!のクローラーかな。

(8)はSPOCKのクローラー。SPOCKは「人」に特化したサーチエンジンで、人名や、ひとのグループをさすような単語を入れて検索するらしい。たとえば「スピードのメンバー」とか? (いまは英語だけみたいですが)。
PC Worldの2007年6月の記事25 Web Sites to Watchにも選ばれたそうです。いまはベータサービス中で、登録したひとしか使えないみたい。あとでためしてみたい。

(9)はWhois Sourceのクローラー。ドメイン名を入れるといろいろ情報が出てくる。高機能版のwhoisみたいなかんじ。こんなのしらなかったな。けっこう面白いなあ〜。旧名はDomainToolsというらしい。詳しくはInformation about Survey Botにあります。

(10)はみんなの人気者Yeti、Naver(ねいばー)のクローラーです。最近きてくれないわー。

(11)はalexaのクローラー。alexaはアメリカの視聴率調査会社で、インターネットの視聴率調査(トラフィックランキング)もやってます。いまはアマゾンの子会社らしい。リンクをフォローするだけじゃなくて、可能ならディレクトリのインデックスをとってどんどん掘ってるっぽい。他の人がアクセスにこないようなディレクトリにもやってきます。

(12)はwebサイトのタイムマシンwaybackmachineのクローラーみたい。こんな泡沫サイトまで来てくれるなんてほんとやさしいのね ^^;; (まだインデックスはされてないみたいでしたが)。

(13)はMSNのクローラー。

こうしてみると、けっこうありますね。でもYahoo!JAPANaltavistaとかにはおいでいただいていないのね。gooにもおいでいただいてないけど、gooで検索したひとが飛んでくるなあ…とおもったらgooは2003年10月にGoogleと契約して、Googleのエンジンつかってるみたい。ナルホドネ…