
離散確率分布のベルヌーイ分布、二項分布について解説します。

離散確率分布ってなに?
離散確率分布は、確率変数を離散変数とする確率分布です。
連続変数は値が幾らでも刻める変数である一方、離散変数は値がとびとびの変数です。

本記事では、離散確率分布の基本であるベルヌーイ分布、二項分布について解説します。
ベルヌーイ分布
ベルヌーイ分布は、すべての分布の基本です。
「コインを投げた結果が表か裏か」のように2種類のみの結果しか得られないような試行をベルヌーイ試行といいます。
1回のベルヌーイ試行によって得られる確率分布がベルヌーイ分布です。
確率関数のパラメータは、一方の結果の生起確率pです。
パラメータとは、確率分布を特徴づける値です。

二項分布
ベルヌーイ分布は、1回のベルヌーイ試行によって得られる確率分布でした。
二項分布は成功確率pのベルヌーイ試行をn回行って、成功する回数Xが従う確率分布です。
二項分布の確率関数のパラメータは、成功確率pと試行回数nです。
n回のベルヌーイ試行で、ちょうどk回成功する確率は、以下の式で与えられます。

例えば、コインを10回投げるとしましょう。
コインの表が出る回数として、確率が1番高くなるのはいくつでしょうか。

10のちょうど半分の5回!

二項分布の確率関数を使って、表が5回出る確率を計算してみましょう!
コインを投げて表が出る確率は0.5なので、10回投げて5回表が出る確率は次のように計算できます。

同様に、0~10回表が出る確率をそれぞれ計算すると以下になります。

グラフにするとこんな感じです。

表が出る確率は、5回のときが1番高くなっています。
この5という値は分布の真ん中の値、つまり平均を意味しています。

正規分布も「真ん中の値=平均」だよね!

二項分布って正規分布に似てない?
二項分布は、試行回数nが増えるほど正規分布に近づく性質があります。
生起確率pは0.5に固定し、試行回数nを10ずつ増やしたときの二項分布を以下に示します。


nが大きくなるにつれて、正規分布に近づいてる!
試行回数nが増えるほど、正規分布に近づく性質を中心極限定理といいます。
つまり、二項分布は正規分布に近似できるということです。
正規分布のパラメータは、平均と分散です。
二項分布の平均μと分散σ2は次の式で計算できます。
平均: μ=n×p
分散: σ2=n×p×(1-p)

二項分布を正規分布に近似できたら、何がうれしいの?

事象の「起こりにくさ」が簡単な計算でわかるようになるぞ!
次の例題で、二項分布を正規分布に近似して事象の「起こりにくさ」を考えてみましょう。
あるメーカーの営業マンは「このマシンで作られる製品の不良率は0.1%」と説明した。この説明を信じた顧客は、このマシンを購入した。マシン購入後、顧客が150個の製品を検査すると3個の不良品が出た。営業マンに問い合わせると「偶然です」との回答が返ってきた。顧客の立場になって、本当に偶然かどうかを確率にもとづき、判断せよ。
以下、解答例です。
まずは二項分布のパラメータを整理します。
試行回数:n = 150
生起確率:p = 0.001
不良品が3個出る確率を求めるために二項分布の確率関数を使用するなら、次の計算が必要になります。


計算めんどくさい。。。

正規分布に近似してみよう!
正規分布に近似するために、平均と分散、標準偏差を計算します。
平均:μ= n×p = 150×0.001 = 0.15
分散:σ2= n×p×(1-p) = 150 × 0.001 × 0.999 = 0.14985
標準偏差:σ= 0.3871 (←分散の平方根)
不良数3の「起こりにくさ」を把握するために標準化をします。
Z=(X-μ)/σ = (3 – 0.15)/ 0.3871 = 7.362
不良数3を「平均0、標準偏差1の正規分布」に当てはめた場合の値が7.362という意味です。
下の図から分かるように、7.362という値が発生する確率は限りなく0です。

よって、不良率0.1%のマシンで製造された150個の製品のうち3つの不良品が出る確率は限りなく0に近いので、偶然ではないという判断できます。
標準化については下記で解説しています。
まとめ
・2種類のみの結果しか得られないような試行をベルヌーイ試行という
・ベルヌーイ分布とは成功確率pのベルヌーイ試行を1回行って得られる確率分布である
・二項分布とは成功確率pのベルヌーイ試行をn回行ったときに成功する回数Xが従う確率分布である
参考書籍
この記事の内容についてもっと知りたい場合は下記の書籍をチェック!
コメント