統計数字を疑いそこねた

犯罪と失業率の相関がすごい - どことなく技術屋な日々に書いた統計分析に対して『戦前の少年犯罪』の著者から反論が出されていた。

自分の統計リテラシーのなさを思い知った。

これを踏まえるといろいろと疑問が沸いてきます。
1.検挙率が変わるほど大幅な恣意的操作がなされている認知件数がどうして相関するのか?
2.基礎となる人口が変化しているのに、「率」と「数」がどうして相関するのか?人口当たりの認知率と失業率という「率」と「率」、認知件数と失業者数という「数」と「数」ならわかるのですが。
3.どうしてタイムラグがあるのか?失業保険が切れる数ヶ月ならともかく何年も。とくに失業率がさがってから犯罪数がさがるまでにタイムラグがある理由がよくわかりません。
考える前にやるべきことがあるだろ : 少年犯罪データベースドア

自分が「http://www.mii.kurume-u.ac.jp/~tadasu/essay_80114.html」を読んだときには、
1、3については思い至らず。2については気付かずに読み流してしまった(気が付いていたらさすがに疑問に思ったと思う)。

統計に関して言えるのは、「奇麗すぎる統計は作られたものと思え」ということだと思う。
404 Blog Not Found:「九割は説明がつく」の説明の九割はこじつけ

ごもっとも。
統計に限らず新聞記事や科学論文でも「綺麗すぎる数字」が出てきたら眉に唾つけないといけない。ただし、専門外の話だとその数字が綺麗すぎるかどうかも分からないことが多いのでやっかいである。

今回の記事でも、0.9の相関は高すぎるんじゃないの?そんなに相関が高いのならこれまで誰も気付かなかったのはヘンじゃないか?などと感じなくもなかった。にもかかわらず「物事の発見にはそういうこともありえるのだ」などと理由を作ってなんとなく納得してしまった。また「大学の先生が書いているのだから」という先入観であまり深く考えなかった部分もある。

お遊びでやる分にはかまわんけど、こんな適当な分析がひとり歩きするとまた話がややこしくなる。
あの分析をやってる方々は、まさかあれだけでなにかを語れるとは思ってないだろうし、たんなる八つ当たりではあるが、まさしくいま現在、検察統計をまとめることでムチャクチャ苦労している真っ最中の身としてはなんだか無性に腹が立つ。
考える前にやるべきことがあるだろ : 少年犯罪データベースドア

てなことをあの統計分析を見てむらむらと思ったわけさ。興奮して済みません。いろいろ辛いことも悲しいこともあるもので。
考える前にやるべきことがあるだろ : 少年犯罪データベースドア

これは「マイナスイオン」とか「血液型占い」とかの似非科学に対して我々が抱くのと似た気持ちなのかも知れない。

そう思ったら、なぜか申し訳ない気持(?)になったので、せめてもの罪滅ぼし(笑)『戦前の少年犯罪』を注文させていただいた。


ちなみに上記の反論を受けて元記事に追記がなされている。結局のところ今回の記事は学部生のゼミ発表を元にした冗談半分の記事ということだったようだ。結局のところ今回の記事は、「ある学部生がゼミで発表した分析がかなり興味深い。詰めは足りないものの何らかの本質を突いているように思う。」というものだったようだ。

私自身は今回の記事の内容を完全に信じ込んでいたわけでもないし(でも半分くらいは信じてた)、自分も学生実験のデータで似たような遊びをしたこともある*1。なので「分析が甘い」と目くじらを立てることもないと思う。単に自分の単純さに苦笑しただけ。

ただ、この手の記事は頭から信じてしまう人が大勢出てきそうなので、正式な分析でない詰めが不十分であることをもっと明確に書いておかれた方が良かったとは思う。

あと、当の学生さんにこの分析の不備などについて指導されたのかがちょっと気になる。

*1:上手く直線に載らないデータを曲線で近似して、元の理論が間違っている!とかふざけたり