
代表的な基本統計量である平均、分散、標準偏差について、図を使って解説します!
基本統計量を扱うときの注意点を理解して、統計量を正しく扱いましょう!
基本統計量
基本統計量とは、データの全体像を人がイメージしやすい形に要約したものです。
代表的な基本統計量に、平均、分散、標準偏差があります。

平均は、普段からよく聞くよね!

そうだね!
例えば会社紹介で
「従業員の平均年齢は35歳です。」
と聞いたら、どんな会社をイメージする?

30代の人が多い会社!

ほら!
35という数値だけで、データ全体がイメージできた!
基本統計量には、代表値と散布度があります。
代表値:データ全体を1つの値であらわしたもの【平均など】
散布度:データのばらつき具合を数値化したもの【分散、標準偏差など】

ばらつき具合?
イメージしずらい。。。

では
2つの会社の年齢構成の例で、ばらつき具合をイメージしてみよう!


どちらの会社も平均年齢は35歳だけど、
年齢のばらつき具合が大きいのはどっち?
A社?B社?

A社!
だって、Aの方が中心から離れてるデータがたくさんあるから!

いい考え方だね!
ばらつき具合を確認するには、中心(平均)から離れたデータがどれだけあるかを見ればいいんだ!
各データの平均からの差がわかれば、ばらつき具合を数値化できそうだね!
各データの平均からの差を統計学では偏差と呼ぶよ!
偏差
分散を求める上で、重要なのが偏差です。
偏差とは、各データの平均からの差です。
下記の年齢データ(平均35)で、偏差を計算してみましょう。

この偏差でデータのばらつきを表現したいのですが、偏差を単純にすべて足し合わせてしまうと0(ゼロ)になってしまいます。
マイナスとプラスの値が相殺されてしまうので当然です。

マイナスの値をどうにかできないのかな?

マイナスの値でも、2乗したらプラスになるよ!
分散
マイナスの値を2乗するとプラスに変わる性質を利用して、偏差の和が0になることを防ぎましょう。
すべての偏差を2乗して和をとった値をデータ数で割った値が分散です。
式で書くとこうなります。

これでデータのばらつき具合を数値化できました。
もう1つ、分散のイメージの仕方を紹介します。
各データに対して、1辺の長さが「平均からの距離」である正方形を考えてみましょう。
先ほどの年齢のデータで、それぞれ正方形を作ると下記のようになります。

これらの正方形の面積の平均が分散の値です。

2乗することで、ばらつきを数値化できたけど年齢の2乗の単位は何?

えーっと。。。
歳の2乗?
わかりませ~ん!

わからなくてOK!
2乗したものの√(ルート)をとれば単位は元に戻るんだ!
標準偏差
分散の√(ルート)をとったものが標準偏差です。



分散は面積のイメージ!
√によって、面積を元の単位の長さに戻してるんだ!


標準偏差は全データの「中心からの離れ具合」の平均的な値を表しているよ!


平均、分散、標準偏差が分かれば
データの全体像がイメージできそう!

そうだ!
でも、平均や標準偏差だけでデータをイメージするのは危険!
一峰性

ある会社の平均年齢35歳です。
さて、何歳くらいの人が多いでしょうか?

そりゃ35歳くらいの人が一番多いでしょ!

では、データの分布を見てみよう!


想像してた分布と違う。。。
25歳と45歳の人が多い!

これも平均年齢35歳だけど、平均が、データ全体をあらわしたものになってないよね!

山が2つあるのが原因だね。。。

分布に山が2つあることを二峰性(にほうせい)って言うんだ!逆に山が1つであれば、一峰性(いちほうせい)だ!
統計学は、一峰性のデータ以外には使えないことに注意しましょう。
これは非常に大事なことですが、ついつい忘れがちです。
統計量を扱うときは、データの分布の可視化して、一峰性かどうかを必ず確認しましょう!
参考書籍
もっと詳しい内容を知りたい方は、下記の書籍がおすすめです。
コメント