「アクセス解析解除後もリンク元は記録していた」── id:sardine が認める

以前の日記で「一時的にアクセス解析を入れてみたのですが、さきほどアクセス解析を外しました」と記載していた id:sardine が、その後もリンク元 (Referer) の情報については記録を続けていたことがわかった。21 日、id:sardineはてな新聞社の取材に応じ、記録を続けていることを自ら認めた。
はてなダイアリーのシステム上、『リンク元の記録』と『アクセス解析』は別の機能。アクセス解析を無効にしたのは事実であって、閲覧者を騙すつもりはなかった」としている。

以下は自分用のメモ。

どうなってるか

はてなダイアリーは無料で利用できるが、有料のオプションサービスも提供されている。リンク元 (Referer) の記録機能と、テキストベースのアクセスカウンターは無料でも使うことができ、それ以上の機能についてはオプションサービスを購入する必要がある。この「sardine の日記」の場合、アクセスカウンターはページ右下の「■ TP 243253% です!」という数字がそれ。また、各日付の記事左下にある「コメントを書く」というリンクをクリックすると、コメント入力欄とともに、記録されているリンク先 (最大 10 件) が表示される。
はてなダイアリーではリンク元の記録を無効にすることはできない。アクセスがあった時に、Referer をどこに記録するかという選択肢が 3 種類あるだけだ。



また、コメント入力欄の下には 10 件までしか表示されないが、ログインして編集画面を見ると、11 件目以降も見ることができる。このあたりのことは、はてなダイアリーを実際に使っている人しか知らない仕様だろう。
まとめると、はてなダイアリーを使う場合、デフォルトで使えるリンク元の記録機能と、それとは別にオプションサービスの「アクセス解析」機能があり、リンク元の記録機能の方はオフにできない。

リンク元がどんな風に表示されるか

はてなダイアリーでは数日前まで、記録されたリンク元が、記事編集画面の下に一覧でずらずらと表示されていた。それがリニューアルされ、リンク元がある程度グルーピングされるようになった。また、GoogleYahoo! からのリンクについては検索語句だけが表示されるようになったため、だいぶ見やすい感じになった。

なんか数日前から時々この表示になっていて、リロードすると元に戻ったりする不安定な感じだったけど、今日正式にリリースされたそうだ。

リンク元を一括取得する

いい機会なので、この「sardine の日記」で過去に記録されたリンク元を集計してみようと思った。
はてなにログインした状態で

というような形式の URL に GET リクエストを投げると、(リンク元を全部表示した状態の) 編集画面 (の HTML) を取得できる。後はその中からリンク元 URL を取り出してやれば、リンク元の一覧を作成することが可能なはずである。俗に言うスクレイピングってやつだ。
「はずである」と書いたけど、実際やってみたら時々エラー 500 が返ってくる。1 ページ取得ごとに 5 秒待機するようにしたから、過負荷ってことはないと思うんだけど。失敗した分をリトライしてもダメみたいなので、その分は諦めることになりそう。
528 日分の記事のうち、475 日分の HTML 取得が成功したので、後で集計してみよう。