データの散らばりを捉える

 データ集団は代表値だけではデータ全体の様子をとらえる事ができません。例えば下図のA、B、Cのデータは平均値を見ると、どれも5となり、全く同じ特徴をもったデータとなってしまいますが、どれも平均からの散らばりが大きく異なっていて、それぞれ違う特徴をもったデータであることが推測できます。
 このようにデータを捉えるためには中心的な傾向だけではなく、データの散らばり具合にも着目しなければなりません。

 データの散らばりは工場などの製品管理でも指標とされる値であり、製品の抜き取り調査をして測定値の範囲が大きくなっているときは、工場の製造過程のどこかの機械に問題があるのではないかと推測することができます。

範囲、最大値、最小値

 変量の「散らばり」を調べるもっとも手軽な方法に「範囲(レンジ)」があります。範囲は変量の分布の幅を示すもので、散らばり具合の幅が大きいか、小さいかを示す指標です。具体的には、変量の中の最大値と最小値の差で求めます。また、分布範囲ともいいます。
 登校時間の例で考えてみましょう。

 8時0分を基準に考えると最小値は7時25分を表す-35、最大値は8時37分の37となり、範囲は最大値から最小値を差し引いた値である72となります。

度数分布表

 度数は、各階級に属するものの個数のこと。その属するデータがどのように散らばっているかを示す表のことを度数分布表といいます。

例:身長の階級別の度数分布表(この場合の度数は人数)

身長の階級別の度数分布表

 

ヒストグラム

 ヒストグラムは、量的データの分布の様子を見るのに用いられます。データをいくつかの階級に分け、度数分布表を作成してから描写します。横軸にデータの値を、縦軸に度数を取ります。ヒストグラムは一見棒グラフに似ていますが、その面積が度数を表しているので、階級の幅が異なる場合には高さに注意しましょう(例えば、階級の幅が2倍になったときには、長方形の横の長さが2倍になり、縦の長さが2分の1になります)。

例:身長の分布のヒストグラム

身長の分布のヒストグラム

 

ドットプロット

 度数分布表を視覚的に表したグラフで、横軸にデータ値やデータの階級を、縦軸に度数を配して点の数で度数を表したものです。度数が10であれば点を10個、縦に並べて表示します。

例:足のサイズのドットプロット

足のサイズのドットプロット

 

四分位数

 データを小さい順に並べて、下から1/4のところのデータを第1四分位数、2/4のところのデータを第2四分位数(これは中央値と同じ)、3/4のところのデータを第3四分位数といいます。そして、第1四分位数、第2四分位数、第3四分位数をまとめて、四分位数といいます。

四分位範囲

 (第3四分位数-第1四分位数)の値のことを四分位範囲といい、中心付近のデータがどのくらい散らばっているかの目安として用います。