中心的な傾向を捉える

 集団の中心的傾向を示す値を「代表値」といいます。代表値としては、一般に平均値が使われますが、分布の形によっては最頻値や中央値を代表値にする場合もあります。
 ここでは、なるほど統計学園の3年E組の登校時刻の調査結果を利用して考えることにしましょう。

平均値(算術平均)

 平均とは変量の総和を個数で割ったものです。
登校時刻の例で計算してみましょう。8時0分を基準にすると

{(-35)+(-22)+・・・+8+10+・・・35+37}÷40

という計算式をすることになります。
 仮に登校時間の詳細なデータがない場合は、ヒストグラムの階級値を代用して計算することもできます。階級値は、各階級の中央の値の事を指すので、

{(-35)×1+(-25)×2+(-15)×4+(-5)×5+5×8+15×8+25×11+35×1}=7.5

従って、階級値を代入して計算した平均値は8時7分30秒となります。

中央値

 中央値(メディアン;メディアン)は、母集団の分布の中央にくる値のことです。変量の個数nが奇数の時は真ん中の値を取りますが、偶数のときは真ん中の2つを加えて2で割った値となります。中央値より大きい値の個数と小さい値の個数は同数となります。
 3年E組の登校時刻の中央値を求めてみましょう。
 全員で40人ですから20番目と21番目の人の時刻の平均を求めます。20番目の生徒は8時8分、21番目の生徒は8時10分に登校していますので、8時0分を基準に計算すると、

  (8+10)÷2=9(分)

したがって、登校時間の中央値は8時9分となります。

最頻値(モード)

 最頻値とは最も多い度数(頻度)を示す値の事です。ヒストグラムから最頻値を求める場合には、最も度数の多い階級の階級値となります。

 登校時間のヒストグラムから最頻値を求めてみましょう。
 投稿時間のグラフを見ると「8時20分から30分未満」に登校する生徒が最も多いことが分かるので、その階級値が最頻値とります。
 なお、「8時20分から30分未満」の階級値は8時00分を基準とすると、(20+30)÷2=25(分)となるので、最頻値は8時25分となります。

平均値と中央値と最頻値の違い

 中心を表すそれぞれの指標の最も特徴的な違いは、外れ値の影響をどのくらい受けるかということです。
 あるデータに外れ値が加わった場合、平均値は三つの指標の中で最も影響を受けるデータといってもよいでしょう。中央値は、データを並べてちょうど真ん中にくる値なので、外れ値が増えても、多くの場合はそれほど影響ありません。また、モードは最も頻度の高い数値となるので、外れ値の影響はまず受けません。
 また、データの数が十分に大きい時、データの分布は単峰形になる事が多いですが、この時、データの分布に歪みがあると、平均値、中央値、最頻度には以下の違いが生じます

代表値はその名のとおり、データの特徴を表すのに最も重要な値と言えるでしょう。代表値を使用する場合は、データの特徴や分析手法を考慮し、最も的確な値を使用しましょう。