コインの確率 - ぎるばーとのノート

　注意！　後半はやや思考実験的になります。
　頻度論の考え方を基本としているので、根っからのベイジアンの人（？）は異議があるかもしれません。

ケース1（10回投げた）

　コインを10回投げた。結果は次の通り。

i回目	1	2	3	4	5	6	7	8	9	10
出た面	表	裏	表	裏	裏	裏	表	裏	裏	表

　表を1、裏を0、のように表したほうが見やすいので、以降そうする。
$D = \{1, 0, 1, 0, 0, 0, 1, 0, 0, 1\}$

　このコインの表が出る確率はいくらと推定できるだろうか。

解答

　偏りのない推定（不偏推定）を考える。
　10回コインを投げたとき、表が出る回数Xはnが10の二項分布にしたがう。
$X \sim \text{Binomial}(n = 10,\ p)$
　このとき、X/nはpの不偏推定量である。
$\begin{align} E(X/n) &= E(X)/n \\ &= np/n \\ &= p \end{align}$

　今回表が出た回数は4回なので、表が出る確率は
$\hat{p} = 4/10 = 2/5$
と推定できる。

ケース2（表が4回出るまで投げた）

　コインを表が4回出るまで投げた。結果は次の通り。
$D = \{1, 0, 1, 0, 0, 0, 1, 0, 0, 1\}$

　このコインの表が出る確率はいくらと推定できるだろうか。

解答

　偏りのない推定（不偏推定）を考える。
　表が4回出るまでコインを投げたとき、裏が出る回数Xは次の分布にしたがう。
$\text{P}(X = k) = _{4+k-1}\text{C}_{k} \times p^4 (1-p)^k$

　理由：
　「(4+k)回目に4回目の表が出る」というのは、「(4+k-1)回目までに表が3回、裏がk回出ていて、直後の(4+k)回目に表が出る」ということである。
　「(4+k-1)回目までに表が3回、裏がk回出る」確率は
$_{4+k-1}\text{C}_{k} \times p^3 (1-p)^k$
であり、「直後の(4+k)回目に表が出る」確率のpをかけて、
$_{4+k-1}\text{C}_{k} \times p^4 (1-p)^k$
となる。
　これは、負の二項分布のいくつかある表現のうちの一つ
$\text{P}(X = k) = _{r+k-1}\text{C}_{k} \times p^r (1-p)^k$
において、r = 4としたものである。

　このとき、r/(r+X)はpの不偏推定量ではなく、かわりに(r-1)/(r+X-1)がpの不偏推定量（ただし、r > 1）である。
$\begin{align} E\left( \frac{r-1}{r+X-1} \right) &= \sum_{k=0}^\infty \left( \frac{r-1}{r+k-1} \times _{r+k-1}\text{C}_{k} \times p^r (1-p)^k \right) \\ &= \sum_{k=0}^\infty \left( \frac{r-1}{r+k-1} \frac{(r+k-1)!}{k!\,(r-1)!} \times p^r (1-p)^k \right) \\ &= \sum_{k=0}^\infty \left( \frac{(r+k-2)!}{k!\,(r-2)!} \times p^r (1-p)^k \right) \\ &= p \times \sum_{k=0}^\infty \left( _{r+k-2}\text{C}_{k} \times p^{r-1} (1-p)^k \right) \end{align}$
　ここで、無限和部分の中身は負の二項分布の確率質量関数（元の式のrが(r-1)に置き換わったもの）であるから、kが0から∞まで和をとると1になる。
　結局、
$\begin{align} E\left( \frac{r-1}{r+X-1} \right) = p \end{align}$

　今回裏が出た回数は6回なので、表が出る確率は
$\begin{align} \hat{p} = \frac{4-1}{4+6-1} = 3/9 = 1/3 \end{align}$
と推定できる。

ケース3（認識が違った）

　AさんとBさんは共同でコインを投げる実験を行なった。結果は次の通り。
$D = \{1, 0, 1, 0, 0, 0, 1, 0, 0, 1\}$

　ところが、Aさんは「10回投げる実験」だと考えていたこと、Bさんは「表が4回出るまで投げる実験」だと考えていたことが実験終了後に分かった。
　二人はボスと助手の関係で、実験中に発覚していればAさんの考えに統一して続行したと考えられる。

　このコインの表が出る確率はいくらと推定できるだろうか。

解答？

　「実験中に発覚していればAさんの考えに統一して続行したと考えられる」ことから、Aさんの考えで実験を行なったものとみなせる。
　今回の結果は「10回投げる実験」（つまりケース1と同じ）の結果として扱い、よって表が出る確率は
$\hat{p} = 4/10 = 2/5$
と推定できる。

　補足：
　推定を行う場合、どのような結果がありえたかの情報が必要である。
　「10回投げる実験」であれば、
$D = \{1, 0, 1, 0, 0, 0, 1, 0, 0, 1\}$
のほか
$D_2 = \{1, 1, 1, 0, 1, 0, 1, 0, 1, 1\}$
という結果もありえたし、
$D_3 = \{0, 0, 1, 0, 1, 0, 0, 1, 1\}$
という結果は不可能である。
　「表が4回出るまで投げる実験」であれば、
$D_3 = \{0, 0, 1, 0, 1, 0, 0, 1, 1\}$
という結果もありえたし、
$D_2 = \{1, 1, 1, 0, 1, 0, 1, 0, 1, 1\}$
という結果は不可能である。
　得られたデータは可能なデータのうちの一つであって、可能なデータ全体からなる空間内の一点である。
　統計量の分布を考えるとき、このような仮想的なデータ空間がいつでも存在する。

ケース4（宇宙人が見た）

　人間の言葉を理解せず、人間の生態も知らないため人間の意図を読み取れない宇宙人がいる。
　宇宙人は、人間がコインを投げるのを観察していた。宇宙人には、人間がどんなルールでコインを投げ、また打ち切ったか分からない。結果は次の通り。
$D = \{1, 0, 1, 0, 0, 0, 1, 0, 0, 1\}$

　このコインの表が出る確率はいくらと推定できるだろうか。

解答？？

　人間が投げる回数を決めていた（ケース1）のか、表が出る回数を決めていた（ケース2）のか分からない。
　それどころか、経済的な理由（コイン投げ自体や時間にコスト制約がある）とか、社会的な理由（誰かに呼ばれて終了した、偉い人がコイン投げをやめるように命令した）までありうる。
　このケースでは、仮想的な実験の繰り返しや、ほかにありえた結果について考えることができない。
　よって、宇宙人は推測を行える立ち位置にいない。