確率分布の使い方|正規分布

統計学
この記事は約6分で読めます。

ナバ
ナバ

この記事では、統計学において最も重要な確率分布の1つである正規分布の特徴とその使い方をご紹介します。

スポンサーリンク

正規分布とは

正規分布とは、データが平均値付近に集まって、平均値を境に左右対称にばらついた分布です。

正規分布は、統計学において最も重要な確率分布の1つです。

なぜなら、多くの統計的手法は「データが正規分布に従うこと」が前提として考えらているからです。

正規分布、英語で”normal distribution”といいます。

ノーマルとは、「ふつうの」「ありふれた」という意味です。

この名前が示す通り、正規分布は自然界や人間界のさまざまな現象によくあてはまる分布とされています。

例えば、人間の身長の分布は正規分布に近い挙動を示すとされています。

スポンサーリンク

正規分布に近似する

統計学では、もとのデータを正規分布などの確率分布に近似することがあります。

何のために確率分布に近似するのでしょうか?

それは、知りたい事象が発生するおおよその確率を計算するためです。

正規分布への近似は、もとのデータの平均標準偏差が分かれば可能です。

正しくは下記の「正規分布の確率密度関数」という式に平均と標準偏差を当てはめると、上図のような正規分布に従う曲線が描けます。

μは平均で、σが標準偏差、xはデータの値です。

確率密度は、各値の「相対的な出やすさ」を表すものです。

確率密度関数という名前から分かるように、この曲線でできた山の面積は確率を表しており、山の総面積は1になります。

指定した値の範囲で事象が発生する確率は、統計ソフトの関数などを使えば簡単に計算できますが、手計算でやろうとするとかなり大変です。

そこで、考えられた昔ながらの方法が、「標準正規分布表」を使った計算です。

標準正規分布とは平均が0、標準偏差が1の正規分布です。

標準正規分布の0より右側の面積が0.01刻みで記録された表が、標準正規分布表です。

標準正規分布表から、1.00の値は0.3413ということがわかります。

これは、横軸Zの0から1までの山の面積は全体の約34%ということを示しています。

σ(シグマ) :標準偏差

標準正規分布表を使えば「知りたい事象のおおよその発生確率」が分かるのです。

しかし、元のデータXからなる正規分布が「平均0、標準偏差1の標準正規分布」とは限らないですよね。

そこで、確率変数Xが平均μ、分散σ2の正規分布に従うとき、Xから平均μを引いて標準偏差σで割った値をZとおくと、Zは「平均が0、標準偏差が1の標準正規分布」に従います。

このような計算(変換)を標準化といいます

標準化された確率変数Zが分かれば、標準正規分布表を使って確率を求めることができます。

補足

標準化はデータ分析において重要な処理です。
標準化を行うことにより、単位やスケールなどが異なるデータ同士を単純に比較できるようになります。
線形回帰モデルなどを作成する際は、スケールが大きい変数が正則化の影響を受けやすいことから、モデルに使用する変数に対して標準化を行うのが一般的です。

スポンサーリンク

例題

正規分布の標準化の例題を解いてみましょう。

例題

ある大学入試の数学試験を1000人が受験した。

試験合格者の上位20人は、入学金が免除される。

A君が自己採点した結果、80点であった。

大学からは、平均は60点、標準偏差は10点であったことが公表されている。

点数の分布が正規分布に従うと仮定した場合、A君の入学金が免除になる可能性はどのように考えたらよいか 。

「80点以上の人数は、全体の何割か」が分かれば、A君の順位が分かります。

標準正規分布表の面積を使うために、標準化を行います。

標準化を行うことで、元のデータが「平均0、標準偏差1の標準正規分布に従うデータ」に変換されます。80という値を標準正規分布に当てはめると、2になります。

標準正規分布表から、Zが2以上となる面積を出せば、「80点以上は人数は、全体の何割か」が分かります。

Zが2以上となる面積は、次の①②が分かれば求まります。
①Z=0より右側(山の半分)の面積:0.5
②Z=0から2までの面積:0.4772

(80点以上の割合)= 0.5 - 0.4772 = 0.0228

よって、A君の順位は下記の式で求まります。

(A君の順位)= 1000 × 0.0228 = 22.8 ≒ 23

A君は23位なので、入学金が免除になるかは、微妙な状況と言えます。

点数がきっちり正規分布に従っていれば、A君は入学金を支払うことになりそうです。

スポンサーリンク

まとめ

  • 正規分布とは、データが平均値付近に集まって、平均値を境に左右対称にばらついた分布
  • 正規分布などの確率分布に近似できると、知りたい事象が発生するおおよその確率が分かる
  • 正規分布に従うデータを標準化することで、確率の計算が楽になる
スポンサーリンク

参考書籍

もっと詳しい内容を知りたい方は、下記の書籍がおすすめです。

コメント

タイトルとURLをコピーしました