中心的な傾向を捉える(平均値、中央値、最頻度)

 集団の中心的傾向を示す値を「代表値」といいます。代表値としては、一般に平均値が使われますが、分布の形によっては最頻値や中央値を代表値にする場合もあります。

 ここでは、なるほど統計学園の3年E組の登校時刻の調査結果を利用して考えることにしましょう。

3年E組の登校時刻の表
3年E組の登校時刻のヒストグラム

平均値(算術平均)

 平均とは変量の総和を個数で割ったものです。
登校時刻の例で計算してみましょう。8時0分を基準にすると
  {(-25)+(-22)+・・・+8+10+・・・35+37}÷38
という計算式をすることになります。
 仮に登校時間の詳細なデータがない場合は、ヒストグラムの階級値を代用して計算することもできます。階級値は、各階級の中央の値の事を指すので、
  {(-35)×1+(-25)×2+(-15)×4+(-5)×5+5×8+15×8+25×11+35×1}=7.5
従って、階級値を代入して計算した平均値は8時7分30秒となります。

中央値

中央値

 中央値(メディアン;メディアン)は、母集団の分布の中央にくる値のことです。変量の個数nが奇数の時は真ん中の値を取りますが、偶数のときは真ん中の2つを加えて2で割った値となります。中央値より大きい値の個数と小さい値の個数は同数となります。

 3年E組の登校時刻の中央値を求めてみましょう。
 全員で40人ですから20番目と21番目の人の時刻の平均を求めます。20番目の生徒は8時8分、21番目の生徒は8時10分に登校していますので、8時0分を基準に計算すると、
   (8+10)÷2=9(分)
したがって、登校時間の中央値は8時9分となります。

最頻値(モード)

 最頻値とは最も多い度数(頻度)を示す値の事です。ヒストグラムから最頻値を求める場合には、最も度数の多い階級の階級値となります。

最頻値のグラフ

 登校時間のヒストグラムから最頻値を求めてみましょう。
 投稿時間のグラフを見ると「8時20分から30分未満」に登校する生徒が最も多いことが分かるので、その階級値が最頻値とります。

 なお、「8時20分から30分未満」の階級値は8時00分を基準とすると、(20+30)÷2=25(分)となるので、最頻値は8時25分となります。

平均値と中央値と最頻度の違い

 中心を表すそれぞれの指標の最も特徴的な違いは、外れ値の影響をどのくらい受けるかということです。
 あるデータに外れ値が加わった場合、平均値は三つの指標の中で最も影響を受けるデータといってもよいでしょう。中央値は、データを並べてちょうど真ん中にくる値なので、外れ値が増えても、多くの場合はそれほど影響ありません。また、モードは最も頻度の高い数値となるので、外れ値の影響はまず受けません。

 また、データの数が十分に大きい時、データの分布は単峰形になる事が多いですが、この時、データの分布に歪みがあると、平均値、中央値、最頻度には以下の違いが生じます。

平均値、中央値、最頻値の違いのグラフ

 代表値はその名のとおり、データの特徴を表すのに最も重要な値と言えるでしょう。代表値を使用する場合は、データの特徴や分析手法を考慮し、最も的確な値を使用しましょう。

データの散らばりを捉える(範囲、最大値、最小値、標準偏差、分散)

 データ集団は代表値のみではとらえる事ができません。例えば下図のA、B、Cのデータは平均値を見ると、どれも5となり、全く同じ特徴をもったデータとなってしまいますが、どれも平均からの散らばりが大きく異なっていて、それぞれ違う特徴をもったデータであることが推測できます。

 このようにデータを捉えるためには中心的な傾向だけではなく、データの散らばり具合にも着目しなければなりません。

図 ちらばり

 データの散らばりは工場などの製品管理でも指標とされる値であり、製品の抜き取り調査をして測定値の範囲が大きくなっているときは、工場の製造過程のどこかの機械に問題があるのではないかと推測することができます。

範囲、最大値、最小値

範囲、最大値、最小値の図

 変量の「散らばり」を調べるもっとも手軽な方法に「範囲(レンジ)」があります。範囲は変量の分布の幅を示すもので、散らばり具合の幅が大きいか、小さいかを示す指標です。具体的には、変量の中の最大値と最小値の差で求めます。また、分布範囲ともいいます。

登校時間の例で考えてみましょう。

 8時0分を基準に考えると最小値は7時25分を表す-35、最大値は8時37分の37となり、範囲は最大値から最小値を差し引いた値である72となります。

標準偏差と分散

 偏差とは、各変量の平均からの隔たり大きさを表す値です。
下図の中央の線は平均を表し、矢印は各データの平均値との差を表しています。

編差のグラフ

分散

分数のグラフ

 偏差では個々のデータの散らばりを示す事ができますが、データ全体のちらばりをみる時、ただ単純に偏差を足し合わせるだけでは、算出する事ができません。なぜなら、各データから平均を引くだけではマイナスとなるデータが出てきてしまい、全体の散らばり具合を正確に表せなくなってしまうからです。

 そこで、それぞれの偏差を2乗することで、マイナスの値を無くした上、全てを足し合わせた値(偏差二乗和)の平均を求めることで、データの散らばりの程度を図ります。これを「分散」と言います。
 分散が大きくなれば、データ全体の散らばりが大きいことを意味します。

分数の数式

となります

標準偏差

 分散は各変量の偏差を2乗した値の平均をとっているため、その数値はもとのデータとは次元が異なったものとなっています。そこで、もとの変量と次元をそろえるため、分散の正の平方根をとり、その値を標準偏差と言います。

標準偏差の数式

 標準偏差は、もとの変量と単位がそろえられるだけでなく、より高度な統計分析において、非常に扱いやすい指標と言えます。

▲ ページのトップへ

Copyright © 2013 総務省 統計局 All rights reserved.

〒162-8668 東京都新宿区若松町19-1 TEL 03-5273-2020(代)