ぎるばーとのノート

もっともっと遠くへ行きたい 空が広く見える場所まで

一様分布の標本レンジ【ときどき分布・3記事目】

一様分布の標本レンジ

順序統計量の差

 標準一様分布の順序統計量の差はどんな分布に従うでしょうか?

 X(1) … X(i) … X(j) … X(n)(1 ≤ i < j ≤ n)の間には従属性(非独立性)があります。同時分布において、X(i) ≤ X(j)であることから、X(j) − X(i)の値は非負です。
 X(j) − X(i)は次の分布に従うことが知られています。

 X_{(j)} - X_{(i)} \sim \text{Beta}(j - i,\ n + 1 - (j - i))

標本レンジ

 標本最大値から標本最小値を引いた差として標本レンジが定義されます。標本レンジは次の分布に従います。

 X_{(n)} - X_{(1)} \sim \text{Beta}(n - 1,\ 2)

一様分布の標本レンジ

 nが大きくなるにつれ、分布のピークが1の方へ寄っていきます。また、分布が尖ってピーク付近の値をとりやすくなります。

乱数実験

 さて、この連載の方針は「とりあえず乱数実験で確認」です。
 各nの場合の標本レンジを繰り返し(1万回)計算して、理論分布が再現されるか見てみます。

乱数実験結果

 今回もぴったり一致! 理論は強し。

続きを読む

一様分布の標本最小/最大/中央値【ときどき分布・2記事目】

一様分布の標本最小/最大/中央値

標本最小値と標本最大値

 標準一様分布の順序統計量X(i)が従う分布は、

 X_{(i)} \sim \text{Beta}(i,\ n + 1 - i)

でした。
 X(1)が統計量としての標本最小値、またX(n)標本最大値です。それぞれ次の分布に従います。

 \begin{cases}
X_{(1)} = X_\text{min} &\sim \text{Beta}(1,\ n) \\
X_{(n)} = X_\text{max} &\sim \text{Beta}(n,\ 1)
\end{cases}

一様分布の標本最小値
一様分布の標本最大値

 nが大きくなるにつれ、X(1)はより小さな値をとりやすくなります。その逆に、X(n)はより大きな値をとりやすくなります。
 また、X(1)とX(n)で、ちょうど鏡に映した形をしています。

標本中央値

 x(1) ... x(n)のうち、真ん中の順位となる観測値が標本中央値x̃です。
 nが奇数なら(n + 1)/2番目が真ん中になります。ひとまず、nを奇数に限定して進めることにします。

 統計量としての標本中央値をX̃で表します。X̃は次の分布に従います。

 \tilde{X} \sim \text{Beta}(\frac{n + 1}{2},\ \frac{n + 1}{2})

一様分布の標本中央値
nが偶数の場合

 nが偶数の場合は単一の標本中央値がないので、真ん中2つの平均をとります。これは奇数の場合とは定義が違い正確にいえば別物です。このときのX̃の分布はベータ分布で表現できません。

一様分布の順序統計量【ときどき分布・1記事目】

 ゆるい連載シリーズ「ときどき分布」を始めます。
 シリーズ名のとおり、ときどき確率分布の話をしていこうと思います。

  • 定理の証明は省略
  • 関係式は結果のみ示す
  • 確率密度関数を図示
  • とりあえず乱数実験で確認

といったゆるい感じのスタンスでいきます。

 確率分布の役立つ&役立たない豆知識を紹介していく予定です。
 どうぞお楽しみに!

一様分布の順序統計量

 初回のお題は一様分布の順序統計量です。

一様分布

 一様分布は、分布の台の区間確率密度関数が一定値である分布です。

 X \sim \text{Uniform}(a,\ b)

 f(x) = \begin{cases}
\frac{1}{b - a} & \text{for $a \leq x \leq b$,}\\
0 & \text{otherwise.}
\end{cases}

 特に、[0, 1]を台とする一様分布を標準一様分布といいます。

 X \sim \text{Uniform}(0,\ 1)

 f(x) = \begin{cases}
1 & \text{for $0 \leq x \leq 1$,}\\
0 & \text{otherwise.}
\end{cases}

標準一様分布

順序統計量

 標準一様分布からサンプリングした標本(サイズn)について、i番目に小さい観測値をx(i)と名付けます。ここで、x(1)は標本最小値、x(n)は標本最大値です。
 x(1) ... x(n)は、サンプリングを行うたびに異なる値をとります。いったいどんな分布に従うでしょうか?

 観測値x(i)に対応する統計量(順序統計量)をX(i)で表します。X(i)は次の分布に従うことが知られています。

 X_{(i)} \sim \text{Beta}(i,\ n + 1 - i)

 たとえば、n = 6であれば、次のようになります。

 \begin{cases}
X_{(1)} = X_\text{min} &\sim \text{Beta}(1,\ 6) \\
X_{(2)} &\sim \text{Beta}(2,\ 5) \\
X_{(3)} &\sim \text{Beta}(3,\ 4) \\
X_{(4)} &\sim \text{Beta}(4,\ 3) \\
X_{(5)} &\sim \text{Beta}(5,\ 2) \\
X_{(6)} = X_\text{max} &\sim \text{Beta}(6,\ 1)
\end{cases}

一様分布の順序統計量(n = 6)

乱数実験

 前節の順序統計量の理論分布は、数学的に導かれたものです。ここでは数学的議論に立ち入ることなく、乱数を使った実験で確認してみます。

  1. 以下を1万回繰り返す(回数に特に根拠はなし)
    1. 標準一様乱数を6個生成
    2. 小さい順に整列
    3. 順序統計量の値をプール
  2. 乱数実験の結果(ヒストグラム)と理論分布を重ねて図示

 乱数実験はRStudioで行いました。Rのコードは記事の末尾(続きを読む以下)にあります。

乱数実験結果

 よく一致する結果が得られました!

続きを読む

投票箱の錯覚(ballot box illusion)

 アメリカの政治学者ブランクボートによって提示された、
「投票箱が開く前、いくつもの結果に対応する状態の重ね合わせとなっているが、開票の時点である一つの結果が(確率的に)得られて当選者が決まる。」
という錯覚。
 実際には、投票締め切りの時点で結果は確定している。

続・コインの確率

 続きました。
 参考文献・リンクはシリーズ終了時にまとめて……。

コインを確かめる

 前回、コインの表が出る確率を推定する問題について考えた。
 しかし、「確率を推定する」ことより、「公平なコインかどうか確かめたい」が興味の中心ということもある。(その方が普通かも?)

 あるコインが公平なコインかどうか判定するにはどうすればいいだろう?
 公平なコインだからといって「表が出る回数と裏が出る回数が厳密に等しい」とはならない。それでは、「表・裏が交互に出る」ということになってしまう。
 大雑把にいうと、表・裏が出る回数の違いが偶然といえる程度を逸脱しているときに、公平なコインではないと判定するのがよさそうである。
 というような考え方が検定の基本になっている。

ケース1

 コインを10回投げた。結果は次の通り。
 D = \{0, 0, 0, 1, 0, 0, 0, 0, 0, 1\}

 コインが公平かどうか有意水準5%(片側)で検定せよ。

解答

 片側検定を行う。
 公平なコインで表が出る確率(チャンスレベル)は、1/2である。
 公平なコインを10回投げたとき、表が出る回数Xはnが10、pが1/2の二項分布にしたがう。
 X \sim \text{Binomial}(n = 10,\ p = 0.5)

 今回表が出た回数は2回である。
 上の分布において、Xが2またはそれ未満の値をとる確率は
 \text{P}(X \leq 2) = 0.0546875
である。
 この確率は有意水準の5%を上回るので、公平なコインを投げたという仮説は棄却されない

 補足:
 公平なコインを投げた場合に、手元の、またはより極端なデータが実現する確率は5%以上あって、偶然実現しても不自然ではない。偶然かもしれないということで、コインを断罪できない。

ケース2

 コインを表が2回出るまで投げた。結果は次の通り。
 D = \{0, 0, 0, 1, 0, 0, 0, 0, 0, 1\}

 コインが公平かどうか有意水準5%(片側)で検定せよ。

解答

 片側検定を行う。
 公平なコインで表が出る確率(チャンスレベル)は、1/2である。
 公平なコインを表が2回出るまで投げたとき、裏が出る回数Xはrが2、pが1/2の負の二項分布にしたがう。
 X \sim \text{NegativeBinomial}(r = 2,\ p = 0.5)

 今回裏が出た回数は8回である。
 上の分布において、Xが8またはそれより大きい値をとる確率は
 \text{P}(X \geq 8) = 0.01953125
である。
 この確率は有意水準の5%を下回るので、公平なコインを投げたという仮説は棄却される

 補足:
 手元のデータは、公平なコインを投げたにしては実現しにくいデータなので、むしろコインが偏っている(裏が出やすい)だろうということ。

規則とデータ

 どんなルールでコインを投げたかで検定の結論が変わる。
 これは不思議なこと、おかしいことだろうか? 個人的には当然に思えるのだけれど、ずっと長い間議論の的となっていて、批判が絶えない。
 コインを投げ、また打ち切る規則と、結果のデータとを切り離せるという考えが批判の中核にあると思う。
 頻度論では、規則とデータは切り離せないと考える。規則によって可能なデータの集合が決まる。可能なデータ全体の中で、観測されたデータを議論する。
 結果のデータのみが事実のような考えには頷けない……。