データの散らばりを見る

 集団の中心的傾向を示す値を「代表値」といいます。代表値としては、一般に平均値が使われますが、分布の形によっては最頻値や中央値を代表値にする場合もあります。
「代表値」の平均値、最頻値、中央値についてはこちらを御覧ください。

 データ集団は代表値のみではとらえる事ができません。例えば下図のA、B、Cのデータは平均値を見ると、どれも5となり、全く同じ特徴をもったデータとなってしまいますが、どれも平均からの散らばりが大きく異なっていて、それぞれ違う特徴をもったデータであることが推測できます。

 このようにデータを捉えるためには中心的な傾向だけではなく、データの散らばり具合にも着目しなければなりません。

 データの散らばりは工場などの製品管理でも指標とされる値であり、製品の抜き取り調査をして測定値の散らばりが大きくなっているときは、工場の製造過程のどこかの機械に問題があるのではないかと推測することができます。

標準偏差と分散

 偏差(平均偏差)とは、各変量の平均からの隔たりの大きさを表す値です。
なるほど統計学園では、偏差を平均偏差の意味で使用しています。
 下図の中央の線は平均を表し、矢印は各データの平均値との差を表しています。

分散

 偏差では個々のデータの散らばりを示す事ができますが、データ全体の散らばりを見る時、単純に偏差の平均を求めるだけではうまくいきません。なぜなら、偏差の平均は必ず0になるので、データの散らばりを比較することができなくなるからです。

 そこで、それぞれの偏差を2乗することで、マイナスの値を無くした上、全てを足し合わせた値(偏差二乗和)の平均を求めることで、データの散らばりの程度を図ります。これを「分散」と言います。
 分散が大きくなれば、データ全体の散らばりが大きいことを意味します。

となります。

標準偏差

 分散は各変量の偏差を2乗した値の平均をとっているため、その数値はもとのデータとは単位が異なったものとなっています。そこで、もとの変量と単位をそろえるため、分散の正の平方根をとり、その値を標準偏差と言います。

 標準偏差は、もとの変量と単位がそろえられるだけでなく、より高度な統計分析において、非常に扱いやすい指標と言えます。

偏差値

 例えば、数学のテストで58点、国語のテストで65点取ったとします。そのときどちらのテストの方がいい成績であるかは、テストによって平均点や点数の散らばりに違いがあるため、単純には比較できません。ところが、それぞれの偏差値を求めることで、この比較ができるようになります。
 偏差値は、テストの成績の分布が正規分布であると仮定して、測定値の平均と標準偏差を用いて、平均が50、標準偏差が10になるように変換して求める値です。
 偏差値は次のような式で求められます。

正規分布についてはこちらを御覧ください。

 まず、自分の得点と平均値との差を標準偏差で割って、平均が0、標準偏差が1になるようにします。これを標準化といいます。さらに、この標準化した値を10倍して、50に加えることにより、平均が50、標準偏差が10の値が得られます。この値が偏差値です。
 例えば、数学のテストの平均が42点、標準偏差が8点だったとしましょう。このテストであなたの得点が58点だとすると、あなたの偏差値は次のように求めることができます。

 また、国語のテストの平均が47点、標準偏差が12点だったとしましょう。このテストであなたの得点が65点だとすると、あなたの偏差値は次のように求めることができます。

 単純に点数を比較した場合、国語の方がいい成績のように見えますが、偏差値をみると、実は、数学の方がいい成績だということが分かります。
 次に、偏差値が70であるということの意味を考えてみましょう。偏差値70はμ+2σに相当しますから、テストの得点の分布が正規分布と仮定すれば、「図 正規分布の性質」を活用でき、

図 正規分布の性質

正規分布の性質

0.0014+0.0214=0.0228≒0.023

となります。つまり、偏差値が70の場合、集団の中で上から約2.3%のところに位置していることが分かります。