続きました。
参考文献・リンクはシリーズ終了時にまとめて……。
コインを確かめる
前回、コインの表が出る確率を推定する問題について考えた。
しかし、「確率を推定する」ことより、「公平なコインかどうか確かめたい」が興味の中心ということもある。(その方が普通かも?)
あるコインが公平なコインかどうか判定するにはどうすればいいだろう?
公平なコインだからといって「表が出る回数と裏が出る回数が厳密に等しい」とはならない。それでは、「表・裏が交互に出る」ということになってしまう。
大雑把にいうと、表・裏が出る回数の違いが偶然といえる程度を逸脱しているときに、公平なコインではないと判定するのがよさそうである。
というような考え方が検定の基本になっている。
ケース1
コインを10回投げた。結果は次の通り。
コインが公平かどうか有意水準5%(片側)で検定せよ。
解答
片側検定を行う。
公平なコインで表が出る確率(チャンスレベル)は、1/2である。
公平なコインを10回投げたとき、表が出る回数Xはnが10、pが1/2の二項分布にしたがう。
今回表が出た回数は2回である。
上の分布において、Xが2またはそれ未満の値をとる確率は
である。
この確率は有意水準の5%を上回るので、公平なコインを投げたという仮説は棄却されない。
補足:
公平なコインを投げた場合に、手元の、またはより極端なデータが実現する確率は5%以上あって、偶然実現しても不自然ではない。偶然かもしれないということで、コインを断罪できない。
ケース2
コインを表が2回出るまで投げた。結果は次の通り。
コインが公平かどうか有意水準5%(片側)で検定せよ。
解答
片側検定を行う。
公平なコインで表が出る確率(チャンスレベル)は、1/2である。
公平なコインを表が2回出るまで投げたとき、裏が出る回数Xはrが2、pが1/2の負の二項分布にしたがう。
今回裏が出た回数は8回である。
上の分布において、Xが8またはそれより大きい値をとる確率は
である。
この確率は有意水準の5%を下回るので、公平なコインを投げたという仮説は棄却される。
補足:
手元のデータは、公平なコインを投げたにしては実現しにくいデータなので、むしろコインが偏っている(裏が出やすい)だろうということ。
規則とデータ
どんなルールでコインを投げたかで検定の結論が変わる。
これは不思議なこと、おかしいことだろうか? 個人的には当然に思えるのだけれど、ずっと長い間議論の的となっていて、批判が絶えない。
コインを投げ、また打ち切る規則と、結果のデータとを切り離せるという考えが批判の中核にあると思う。
頻度論では、規則とデータは切り離せないと考える。規則によって可能なデータの集合が決まる。可能なデータ全体の中で、観測されたデータを議論する。
結果のデータのみが事実のような考えには頷けない……。