【図で理解する!】平均と分散と標準偏差|そのデータは一峰性?

統計学
この記事は約6分で読めます。

ナバ
ナバ

代表的な基本統計量である平均、分散、標準偏差について、図を使って解説します!

基本統計量を扱うときの注意点を理解して、統計量を正しく扱いましょう!

基本統計量

基本統計量とは、データの全体像を人がイメージしやすい形に要約したものです。

代表的な基本統計量に、平均、分散、標準偏差があります。

平均は、普段からよく聞くよね!

ナバ
ナバ

そうだね!
例えば会社紹介で
「従業員の平均年齢は35歳です。」
と聞いたら、どんな会社をイメージする?

30代の人が多い会社!

ナバ
ナバ

ほら!
35という数値だけで、データ全体がイメージできた!

基本統計量には、代表値と散布度があります。

代表値:データ全体を1つの値であらわしたもの【平均など】

散布度:データのばらつき具合を数値化したもの【分散、標準偏差など

ばらつき具合?

イメージしずらい。。。

ナバ
ナバ

では

2つの会社の年齢構成の例で、ばらつき具合をイメージしてみよう!

ナバ
ナバ

どちらの会社も平均年齢は35歳だけど、
年齢のばらつき具合が大きいのはどっち?
A社?B社?

A社!

だって、Aの方が中心から離れてるデータがたくさんあるから!

ナバ
ナバ

いい考え方だね!

ばらつき具合を確認するには、中心(平均)から離れたデータがどれだけあるかを見ればいいんだ!

各データの平均からの差がわかれば、ばらつき具合を数値化できそうだね!
各データの平均からの差を統計学では偏差と呼ぶよ!

偏差

分散を求める上で、重要なのが偏差です。

偏差とは、各データの平均からの差です。

下記の年齢データ(平均35)で、偏差を計算してみましょう。

この偏差でデータのばらつきを表現したいのですが、偏差を単純にすべて足し合わせてしまうと0(ゼロ)になってしまいます。

マイナスとプラスの値が相殺されてしまうので当然です。

マイナスの値をどうにかできないのかな?

ナバ
ナバ

マイナスの値でも、2乗したらプラスになるよ!

分散

マイナスの値を2乗するとプラスに変わる性質を利用して、偏差の和が0になることを防ぎましょう。

すべての偏差を2乗して和をとった値をデータ数で割った値が分散です。

式で書くとこうなります。

これでデータのばらつき具合を数値化できました

もう1つ、分散のイメージの仕方を紹介します。

各データに対して、1辺の長さが「平均からの距離」である正方形を考えてみましょう。

先ほどの年齢のデータで、それぞれ正方形を作ると下記のようになります。

これらの正方形の面積の平均分散の値です

ナバ
ナバ

2乗することで、ばらつきを数値化できたけど年齢の2乗の単位は何?

えーっと。。。

歳の2乗?

わかりませ~ん!

ナバ
ナバ

わからなくてOK!

2乗したものの√(ルート)をとれば単位は元に戻るんだ!

標準偏差

分散の√(ルート)をとったものが標準偏差です

ナバ
ナバ

分散は面積のイメージ!

√によって、面積を元の単位の長さに戻してるんだ!

ナバ
ナバ

標準偏差は全データの「中心からの離れ具合」の平均的な値を表しているよ!

平均、分散、標準偏差が分かれば

データの全体像がイメージできそう!

ナバ
ナバ

そうだ!

でも、平均や標準偏差だけでデータをイメージするのは危険!

一峰性

ナバ
ナバ

ある会社の平均年齢35歳です。

さて、何歳くらいの人が多いでしょうか?

そりゃ35歳くらいの人が一番多いでしょ!

ナバ
ナバ

では、データの分布を見てみよう!

想像してた分布と違う。。。

25歳と45歳の人が多い!

ナバ
ナバ

これも平均年齢35歳だけど、平均が、データ全体をあらわしたものになってないよね!

山が2つあるのが原因だね。。。

ナバ
ナバ

分布に山が2つあることを二峰性(にほうせい)って言うんだ!逆に山が1つであれば、一峰性(いちほうせい)だ!

統計学は、一峰性のデータ以外には使えないことに注意しましょう。

これは非常に大事なことですが、ついつい忘れがちです。

統計量を扱うときは、データの分布の可視化して、一峰性かどうかを必ず確認しましょう!

参考書籍

もっと詳しい内容を知りたい方は、下記の書籍がおすすめです。

コメント

タイトルとURLをコピーしました