ここから本文です。

ゼミナール編(2) 〜調査実施と分析

3時限目 集計と分析

3-3 数量データの分析

1記述統計量

ここでいう数量データとは、間隔尺度あるいは比尺度で測定された変数の値からなるデータをさすものとします。そのようなときは、どのように分析するとよいのでしょうか。

「得点の中心の位置や、そこからのバラツキをもとに計算する」のが基本方針となります。特に、ひとつの変数の分布を明らかにしたいのであれば、記述統計量をまずは求めましょう。

平均値(算術平均)

数量データの得点の中心的な位置を示す記述統計量として代表的なものに、平均値(算術平均)があります。平均値の計算の式は、以下の通りです。

平均値Xバーは、個人ごとに値の異なる変数Xiの全員分の値を合計し、回答者の合計人数nで割った結果に等しくなります。
  • 変数Xと添え字i個人ごとに値の異なる変数
  • シグマ記号全員分の値を合計する
  • エックスバー平均値
  • 小文字のエヌ回答者の合計人数

ここで、Xは変数です。添え字にiが付いているのは、個人ごとに値が異なることをあらわしています。nは平均値を求めるための回答者の合計人数です。煤iシグマ記号)は、「全員分の値を足して合計する」ということを示します。なお左辺は、平均値を示す数学記号で、エックスバーと読みます。

数式をみるといかめしく感じられるかもしれませんが、要するに、全員のXの値を合計して、それを人数で割るというのですから、小学校で習った平均値の計算そのものであることがわかります。

平均値によって、数量データの分布の中心的な位置がいかほどであるのかが把握できます。たくさんの数量データがあるときには、まずは平均値をみることで、だいたいどれくらいの位置が標準的なのかをみておくのがよいでしょう。

ただし平均値は、分布が非対称だったり、外れ値があったりすると、それらに影響されて中心の位置の指標とは考えにくい値を出してしまうこともあります。そのようなときには、変数の値の順位情報から求める、中央値を併用して分析することも一考すべきです。

分散と標準偏差

変数のバラツキを示すのも重要です。なぜなら、平均値からのバラツキ具合がわかることで、平均値の付近に値が集中しているのか、それとも離れた位置にも値が出現しているのかで、データの分布の評価は変わりうるからです。

数量データの平均からのバラツキをあらわす記述統計量としては、分散と標準偏差の2つが最重要です。分散の式は以下の通りです。

Xに関する分散SX二乗は、個人ごとに値の異なる変数Xiと平均値Xバーの差を二乗した値を合計し、回答者の合計人数nで割った結果に等しくなります。

右辺は、まず、それぞれのXの値から平均値を引き(これを偏差といいます)、それを2乗して人数分合計しています。この分子は、平均からの乖離の大きさをあらわしています。さらに合計人数で割ることで、1人当たりの乖離となります。

このようにして、うまくバラツキの指標としてふさわしいものになるように調整をしているのです。なお、標準偏差は、分散の正の平方根です。つまり、分散を計算してから、その値のルートをとることで、標準偏差も求められます。標準偏差の式は以下の通りです。

Xに関する標準偏差SXは、変数Xiと平均値Xバーの差を二乗した値を合計し、変数の個数nで割った値の正の平方根に等しくなります。

分散、標準偏差の意味

分散および標準偏差は、値が大きいほど、平均値からのバラツキが大きいことを示します。バラツキが大きいということは、それだけ個人差が大きいとか、格差が大きい、といったことを意味します。
逆に、値が小さければ、それは個人差が小さい、格差があまりないということです。

平均値100、標準偏差10の図
平均値からのバラツキが小さい
⇒分散や標準偏差が小さい
平均値100、標準偏差40の図
平均値からのバラツキが大きい
⇒分散や標準偏差が大きい

分散および標準偏差の論理的にとりうる最小の値は、ゼロです。もし分散がゼロであれば、それは全員が平均値と同じ値であったことになります。
報告書や論文でよく用いられるのは、標準偏差のほうです。ただし、分散は統計の計算で常に重要なものであり、数学的に望ましい性質がいろいろあるので、分散もとても大事です。

最小値、最大値

そのほかに、数量データの分布をあらわす記述統計量として、最小値と最大値もあります。これらはその名の如く、出現したデータ中における、最も小さい値と、最も大きい値のことです。

最小値と最大値がわかれば、その変数がどれだけの範囲に散らばっているかを理解できます。しばしば論文や報告書では、回答者の人数(n)、平均値、標準偏差、最小値、最大値の5つの情報を表示した記述統計量(あるいは基本統計量)の表を掲載しています。

記述統計量の表の例
平均値 標準偏差 最小値 最大値 n
○○党への感情温度 51.6 21.7 0 100 1,520

ヒストグラムで可視化

数量データをグラフにして可視化したいのであれば、おすすめなのはヒストグラムです。ヒストグラムとは、数量データをいくつかの階級に分け、それぞれの階級ごとの度数をもとに縦棒で示したグラフのことです。
ただ通常の棒グラフとは異なる点がいくつかあります。それは、棒の間隔がゼロであること(棒と棒がくっついている)、棒の横幅の長さは階級の幅と一致していること、棒の横幅の長さと縦の高さを掛けて求める面積と度数とが比例するように描くこと、です。ヒストグラムをみることで、ひと目で数量データの分布の中心的な位置やバラツキ、分布の形状などが直感的に理解できることと思います。

ヒストグラムの例
10点ごとの階級に分けたヒストグラムの例。中心的な位置は50点から60点未満でピラミッド型になっている。
  • 次に、2つの数量データを使った分析方法を解説します。
    「3-3-2 相関と回帰」で、詳しく見ていきましょう。

執筆・監修:東京大学社会科学研究所 教授 三輪 哲

サイトマップ
ページ上部へ アンカーのアイコン画像