ぎるばーとのノート

もっともっと遠くへ行きたい 空が広く見える場所まで

特別な場合と極限の場合 - 確率分布チートシート

自サイト(HTML版)からの転載です。



特別な場合

正規分布の関連分布

指数分布とガンマ分布の関連分布

  • 指数分布で \lambda = 1の場合は、標準指数分布である。変換§指数分布#標準化も参照。〔標準指数分布〕
  • ガンマ分布で \alpha = 1の場合は、指数分布である。 \text{Gamma}(1,\ \beta) \text{Exp}(\lambda = \beta)と等しい。〔ガンマ分布と指数分布〕
  • ガンマ分布で \beta = \frac{1}{2}の場合は、カイ2乗分布である。 \text{Gamma}\!\left(\alpha,\ \frac{1}{2}\right) \chi^2(\nu = 2\alpha)と等しい。〔ガンマ分布とカイ2乗分布〕
  • カイ2乗分布で \nu = 2の場合は、指数分布である。 \chi^2(2) \text{Exp}\!\left(\frac{1}{2}\right)と等しい。〔カイ2乗分布と指数分布〕

一様分布とベータ分布の関連分布

  • 一様分布で a = 0,\ b = 1の場合は、標準一様分布である。変換§一様分布#標準化も参照。〔標準一様分布〕
  • ベータ分布で \alpha = 1,\ \beta = 1の場合は、標準一様分布である。 \text{Beta}(1,\ 1) \text{U}(0,\ 1)と等しい。〔ベータ分布と標準一様分布〕

コーシー分布の関連分布

  • コーシー分布で x_0 = 0,\ \gamma = 1の場合は、標準コーシー分布である。変換§コーシー分布#標準化も参照。〔標準コーシー分布〕
  • t分布で \nu = 1の場合は、標準コーシー分布である。 t(1) \text{Cauchy}(0,\ 1)と等しい。〔t分布と標準コーシー分布〕

二項分布の関連分布

  • 二項分布で n = 1の場合は、ベルヌーイ分布である。 \text{B}(1,\ p) \text{Bernoulli}(p)と等しい。〔二項分布とベルヌーイ分布〕
  • 超幾何分布で n = 1の場合は、ベルヌーイ分布である。 \text{Hyper}(1,\ N,\ K) \text{Bernoulli}\!\left(p = \frac{K}{N}\right)と等しい。〔超幾何分布とベルヌーイ分布〕

負の二項分布の関連分布

  • 負の二項分布で r = 1の場合は、幾何分布である。 \text{NB}(1,\ p) \text{Geom}(p)と等しい。〔負の二項分布と幾何分布〕

多変量正規分布の関連分布

多項分布の関連分布

  • 多項分布で n = 1の場合は、カテゴリ分布である。 \text{Mult}(1,\ \boldsymbol{p}) \text{Cat}(\boldsymbol{p})と等しい。〔多項分布とカテゴリ分布〕
  • 多変量超幾何分布で n = 1の場合は、カテゴリ分布である。 \text{Hyper}(1,\ N,\ \boldsymbol{K}) \text{Cat}\!\left(\boldsymbol{p} = \frac{\boldsymbol{K}}{N}\right)と等しい。〔多変量超幾何分布とカテゴリ分布〕

極限の場合

カイ2乗分布

  •  X \sim \chi^2(\nu) \nuが大きくなるにつれて、
    •  Xの分布は \text{N}(\mu = \nu,\ \sigma^2 = 2\nu)に近づく。〔正規近似〕1
    •  \frac{X - \nu}{\sqrt{2\nu}}の分布は \text{N}(0,\ 1)に近づく。〔標準正規近似〕
    •  \sqrt{2X} - \sqrt{2\nu - 1}の分布は \text{N}(0,\ 1)に近づく。〔Fisherの近似〕2
      平方根変換によって分布の非対称性が改善されるため、速やかに正規分布に近づく。

t分布

  •  X \sim t(\nu) \nuが大きくなるにつれて、 Xの分布は \text{N}(0,\ 1)に近づく。〔正規近似〕3

F分布

  •  X \sim F(\nu_1,\ \nu_2) \nu_2が大きくなるにつれて、 \nu_1\,Xの分布は \chi^2(\nu_1)に近づく。〔カイ2乗近似〕3

ガンマ分布

  •  X \sim \text{Gamma}(\alpha,\ \beta) \alphaが大きくなるにつれて、
    •  Xの分布は \text{N}\!\left(\mu = \frac{\alpha}{\beta},\ \sigma^2 = \frac{\alpha}{\beta^2}\right)に近づく。〔正規近似〕1
    •  \frac{\beta X - \alpha}{\sqrt{\alpha}}の分布は \text{N}(0,\ 1)に近づく。〔標準正規近似〕

ベータ分布

  •  X \sim \text{Beta}(\alpha,\ \beta) \betaが大きくなるにつれて、 \beta Xの分布は \text{Gamma}(\alpha,\ 1)に近づく。〔ガンマ近似〕証明
  •  X \sim \text{Beta}(\alpha,\ \alpha) \alphaが大きくなるにつれて、 \sqrt{8\alpha}\left(X - \frac{1}{2}\right)の分布は \text{N}(0,\ 1)に近づく。〔正規近似〕証明

二項分布

  •  X \sim \text{B}(n,\ p) nが大きくなるにつれて、
    •  Xの分布は \text{N}(\mu = np,\ \sigma^2 = npq)に近づく。ただし、 q = 1 - pである。〔正規近似〕1
    •  \frac{X - np}{\sqrt{npq}}の分布は \text{N}(0,\ 1)に近づく。〔標準正規近似〕
  •  X \sim \text{B}(n,\ p)で、 npが一定のもとで nが大きくなるにつれて、 Xの分布は \text{Poisson}(\lambda = np)に近づく。〔ポアソン近似〕3

ポアソン分布

  •  X \sim \text{Poisson}(\lambda) \lambdaが大きくなるにつれて、
    •  Xの分布は \text{N}(\mu = \lambda,\ \sigma^2 = \lambda)に近づく。〔正規近似〕1
    •  \frac{X - \lambda}{\sqrt{\lambda}}の分布は \text{N}(0,\ 1)に近づく。〔標準正規近似〕

負の二項分布

  •  X \sim \text{NB}(r,\ p) rが大きくなるにつれて、
    •  Xの分布は \text{N}\!\left(\mu = \frac{rq}{p},\ \sigma^2 = \frac{rq}{p^2}\right)に近づく。ただし、 q = 1 - pである。〔正規近似〕1
    •  \frac{pX - rq}{\sqrt{rq}}の分布は \text{N}(0,\ 1)に近づく。〔標準正規近似〕
  •  X \sim \text{NB}(r,\ p) pが0に向かうにつれて、 pXの分布は \text{Gamma}(\alpha = r,\ 1)に近づく。〔ガンマ近似〕4
  •  X \sim \text{NB}(r,\ p)で、 r\,(1 - p)が一定のもとで rが大きくなるにつれて、 Xの分布は \text{Poisson}(\lambda = r\,(1 - p))に近づく。〔ポアソン近似〕4

幾何分布

  •  X \sim \text{Geom}(p) pが0に向かうにつれて、 pXの分布は \text{Exp}(1)に近づく。〔指数近似〕証明

超幾何分布

  •  X \sim \text{Hyper}(n,\ N,\ K)で、 \frac{K}{N}が一定のもとで Nが大きくなるにつれて、 Xの分布は \text{B}\!\left(n,\ p = \frac{K}{N}\right)に近づく。〔二項近似〕3

多項分布

  •  \boldsymbol{X} \sim \text{Mult}(n,\ \boldsymbol{p}) nが大きくなるにつれて、 \boldsymbol{X}の分布は \text{N}(\boldsymbol{\mu} = \text{E}(\boldsymbol{X}),\ \boldsymbol{\Sigma} = \text{Var}(\boldsymbol{X}))に近づく。〔多変量正規近似〕5
     \boldsymbol{X} = (X_1, \ldots, X_m)の期待値と共分散行列は以下の式で表される。
期待値
 \text{E}(\boldsymbol{X}) = n\boldsymbol{p}
共分散行列の対角成分
 \text{Var}(X_i) = np_i\,(1 - p_i)
共分散行列の非対角成分
 \text{Cov}(X_i, X_j) = -np_i\,p_j

多変量超幾何分布

  •  \boldsymbol{X} \sim \text{Hyper}(n,\ N,\ \boldsymbol{K})で、 \frac{\boldsymbol{K}}{N}が一定のもとで Nが大きくなるにつれて、 \boldsymbol{X}の分布は \text{Mult}\!\left(n,\ \boldsymbol{p} = \frac{\boldsymbol{K}}{N}\right)に近づく。〔多項近似〕6



  1. 中心極限定理より。
  2. Statistical Methods for Research Workers (1925)が原典か。
  3. Leemis and McQueston. Univariate Distribution Relationships.
  4. John D. Cook. "Notes on the negative binomial distribution" (PDF).
  5. 多変量中心極限定理より。
  6. Kyle Siegrist. "The Multivariate Hypergeometric Distribution". Random.

確率分布チートシートの説明

qiita.com
の25日目の記事です。……の予定でした?

 確率分布の関係をまとめた確率分布チートシートを編集中です!
 ……当日ですが、まだ編集中です。進捗は8割くらい?
 体裁が整ってないのと、出典とかをメモから転記する作業が残ってて、もうしばらくかかりそう……。
 アドベントカレンダーには間に合いませんでしたが、年内にはなんとか……?

 完成次第こちらの記事も更新します。

↓ここから追記!

確率分布の関係図

確率分布チートシートを作ってみた

一様分布のレンジ推定【ときどき分布・6記事目】

一様分布のレンジ推定

下限・上限未知の一様分布

 前回は、下限が0と知っている前提で、上限未知の一様分布を仮定しました。
 そういう場合もありえるけれど、どちらかといえば下限も上限も未知なのが普通の状況ではないでしょうか。

 一様分布で、下限がa(未知)、上限がb(未知)とします。

 X \sim \text{Uniform}(a,\ b)

 このとき次の変数変換により標準一様分布になります。

 \frac{X - a}{b - a} \sim \text{Uniform}(0,\ 1)

 また、標本レンジの母レンジに対する比は次の分布に従います。

 \frac{X_\text{max} - X_\text{min}}{b - a} \sim \text{Beta}(n - 1,\ 2)

 未知母数であるaとbは、b − aの形で式に現れています。なので、標本レンジの分布は母レンジを通してのみaとbに依存します。

レンジの推定量

 ここからは、b − a = Rとします。標本レンジXmax − Xminは常にR以下の値しかとらないので、Xmax − Xminの期待値はRより小さくなります。

 \text{E}(X_\text{max} - X_\text{min}) = \frac{n - 1}{n + 1} \times R

 前回のように補正係数をかけるやり方で偏りを補正できそうです。
 標本レンジに、上の式の右辺の係数をひっくり返してかけたもの

 \hat{R} = \frac{n + 1}{n - 1} \times (X_\text{max} - X_\text{min})

は、期待値がRに等しくなるので不偏推定量です。

乱数実験

 乱数実験で分布を見てみます。

  • 繰り返し回数は1万回
  • 標本サイズn = 3, 5, 7, 9, 15, 25
  • 下限a = 50
  • 上限b = 60
  • 母レンジ(推定対象)R = 10
乱数実験結果

 n = 3では、左右対称の山型分布です。(これはBeta(2, 2)をスケールしたもの。)
 n = 5からは、左(下側)に裾が長い歪んだ山型分布で、ピークは10より大きいところにあります。

mean sd median
n = 5 10.05336 2.661344 10.36774
n = 15 9.980649 0.9286946 10.16732
n = 25 10.00017 0.5570673 10.11207

 推定量の不偏性と母数への収束が確認できました。
 推定量の中央値は、n = 3では母数に一致し、その後母数よりやや大きくなったあと、また近づいていく感じです。

一様分布の上限推定【ときどき分布・5記事目】

一様分布の上限推定

上限未知の一様分布

 一様分布で、下限が0(既知)、上限がb(未知)の場合を考えます。

 X \sim \text{Uniform}(0,\ b)

 このときX/bは標準一様分布に従います。

 \frac{X}{b} \sim \text{Uniform}(0,\ 1)

 bが未知母数なので、実際には構成できません。(その値を知っていれば推定の必要もないわけで…。)

 標準一様分布の標本最大値の分布はベータ分布で表されました。
 上限がbの場合も、

 \frac{X_\text{max}}{b} \sim \text{Beta}(n,\ 1)

となります。(補足。(X/b)max = Xmax/bにより。)

上限の推定量

 前節を踏まえて、推定方法(推定量)を考えていきます。

標本最大値に係数をかけて補正

 標本最大値Xmaxをそのまま推定量とするのはどうでしょうか?
 Xmaxは常にb以下の値しかとらないので、推定が過小になってしまいそうです。実際、Xmaxの期待値はbより小さく、偏りをもちます。

 \text{E}(X_\text{max}) = \frac{n}{n + 1} \times b

 その偏りを補正すればいいということで、Xmaxに補正係数をかける方向で考えます。上の式で右辺がbにnの式をかけた形になっているのは好都合です。nの式の部分の逆数をかければ相殺できそうですね。

 \hat{b} = \frac{n + 1}{n} \times X_\text{max}

 これは不偏推定量、つまり期待値が母数に等しい推定量です。

標本最大値に標本最小値を加えて補正

 別の補正方法も考えられます。
 標本最小値Xminを偏りの推定量として用いて、Xmaxに加えたもの

 \hat{b} = X_\text{max} + X_\text{min}

も不偏推定量になります。

 Xminの利用はわりと盲点的な感じでしょうか。

母平均・上限の関係を利用する

 Xmaxの補正とは異なる方向でも考えます。
 母平均と上限の関係を利用します。

 2\mu = b

 左辺中の母平均を標本平均X̄に置き換えることで、bの推定量が得られます。

 \hat{b} = 2\bar{X}

乱数実験

 3つの推定量について、分布の形状や性質を乱数実験で見てみます。

 サンプリングを繰り返して推定量の値を計算します。

  • 繰り返し回数は1万回
  • 標本サイズn = 3, 5, 7, 9, 15, 25
  • 上限b = 10

 推定対象のbの値は10としましたが、これにどんな値を選んでもスケールが変わるだけで、一般性は失われません。

方法1:標本最大値に係数をかけて補正
乱数実験結果1

 分布のピークは10より大きいところにあります。n = 3, 7, 9で、右端より少し内側に分布のピークがあるように見えますが、階級の取り方による「偽のピーク」です。

mean sd median
n = 5 10.00797 1.689505 10.47474
n = 15 10.01684 0.6192549 10.20452
n = 25 9.996876 0.3957555 10.11519

 推定量の不偏性と母数への収束が確認できました。
 推定量の中央値はnが小さいうちは母数よりやや大きく、nが大きくなるにつれて漸近しています。

方法2:標本最大値に標本最小値を加えて補正
乱数実験結果2

 分布のピークは10で、そこを中心として左右対称の山型分布です。

mean sd median
n = 5 10.01039 2.167676 10.01575
n = 15 9.992123 0.8520115 9.994197
n = 25 10.00162 0.5398454 9.998594

 推定量の不偏性と母数への収束が確認できました。標準偏差については、方法1と比較して大きくなっています。
 推定量の中央値も母数に一致しています。なお、このような推定量は中央値不偏推定量(median-unbiased estimator)と呼ばれます。

方法3:母平均・上限の関係を利用する
乱数実験結果3

 方法2と同じく、10を中心として左右対称の山型分布です。分布の広がりはやや大きめです。

mean sd median
n = 5 10.01 2.578272 10.04284
n = 15 10.04683 1.486722 10.04395
n = 25 10.00019 1.167872 10.01244

 推定量の不偏性と中央値不偏性、母数への収束が確認できました。方法2よりもさらに標準偏差が大きくなっています。

最小分散不偏推定量

 不偏推定量のうち分散が最小のものを最小分散不偏推定量(MVUE; minimum-variance unbiased estimator)といいます。

 今回のケースでは、方法1の推定量が最小分散不偏推定量だと知られています。言い換えれば、分散(標準偏差)がより小さい不偏推定量をうまい方法で構成できたりはしないということです。

乱数の端点【ときどき分布・4記事目】

乱数の端点

そのrandom関数、0と1は出る?

 多くの言語では、標準一様分布を再現するような乱数が提供されます。randomのような名前の関数を呼べば、0から1までの浮動小数点型数値がランダムに生成される、といった具合です。

 ここで、生成される乱数の値に端点が含まれるかどうかが問題になります。
 理想的な連続確率分布であれば、とりうる値それぞれに対応する確率は0であり、端点の確率も0です。連続確率分布では区間に対して確率が割り当てられます。
 乱数の場合は(浮動小数点型や言語仕様の制約により)有限個の値のうちからなので、端点の扱いを明確にしないといけません。0を含むか? 1を含むか? ありえる組み合わせは4種類です。

  • [0, 1]上の乱数
  • [0, 1)上の乱数
  • (0, 1]上の乱数
  • (0, 1)上の乱数

 上記のうち[0, 1)上の乱数、つまり「0が出る可能性はあり、1は出ない」が標準的だと思います。
 [0, 1)上の乱数があれば、(0, 1]や(0, 1)のものに変えられます。

  • [0, 1) → (0, 1]は、1から値を引く
  • [0, 1) → (0, 1)は、0でない値が出るまで繰り返し

 残りの[0, 1]については、うまい方法がすぐには思いつきません。まあ、[0, 1]上の乱数が必要な場面も考えにくく、不自然なものなのかも……。