ここから本文です。

ゼミナール編(2) 〜調査実施と分析

3時限目 集計と分析

3-3 数量データの分析

2相関と回帰

2変数の数量データがあるときには、それらの関連をとらえることができます。
2つの変数のあいだの関連の向きと大きさをとらえたいのであれば、相関係数を計算することが基本です。もし、どちらか一方の変数の値を、もう一方の変数から予測したいのであれば、回帰分析を行って予測する式を求めることになります。

相関係数

相関係数は、2つの数量データの関連の程度をあらわす統計量です。その値は、-1から+1までの範囲をとります。
相関係数がプラスの値であれば、関連の向きは正の方向ということです。正の関連とは、一方の変数が大きくなるにつれて、もう一方の変数も大きくなっていく傾向があることです。相関係数がマイナスの値であれば、関連の向きは負の方向です。それは、一方の変数が大きくなるにつれて、もう一方の変数は逆に小さくなっていく傾向があることを示します。

相関係数の値の絶対値が大きくなるほど、関連はより強いことを意味します。また、相関係数がゼロだと、それは無相関を意味し、2つの変数のあいだには直線的な関連はみられないということになります。

相関係数の数式は以下の通りです。

変数XとYのあいだの相関係数rXYは、変数Xiと平均値Xバーの差に変数Yiと平均値Yバーの差を掛けた値を合計し、それを変数の個数nで割った結果を、変数Xの標準偏差SX掛ける変数Yの標準偏差SYで割ったものに等しくなります。
  • sx変数Xの標準偏差
  • sy変数Yの標準偏差
  • rxy変数XとYのあいだの相関係数

この式の分子を、共分散といいます。変数Xの偏差と変数Yの偏差を掛けたものを人数分足し合わせて、さらに合計人数で割っています。共分散は、関連の向きと強さを示します。ただ、そのままでは解釈し難いので、変数Xと変数Yの標準偏差の積で割ることで調整します。その結果、最小が-1で最大が+1の範囲内におさまる、非常にわかりやすい関連の指標となってくれるのです。
どれくらいの値だと大きい相関といえるのか、といった基準は、分野やデータの性質によって異なるので一概には言えません。この点はそれぞれの分野の専門書や研究事例に倣うのがよいと思います。

回帰分析

続いて、回帰分析について説明します。回帰分析とは、数量的データの予測や説明のための分析法の一種です。

回帰分析では、2つの変数の立場を区別します。
まず、予測される対象となる変数のことを、従属変数と呼びます。数式では、アルファベットのYで表記されます。もう一方の、予測する要因となる変数のことは、独立変数と呼びます。こちらは数式では、Xと表記されます。そして、独立変数Xがいくつだと、それに対応して従属変数Yはいくつになるのかを、データ全体の規則性に基づく式から最適な予測をします。

予測をする式のことを、回帰式と呼びます。回帰式の例は、以下の通りです。

従属変数Yiは、定数項(切片)a+回帰係数(傾き)b掛ける独立変数Xi足す残差eiであらわされます。
  • 小文字のエー定数項(切片)
  • 小文字のビー回帰係数(傾き)
  • 小文字のイーアイ残差

右辺のaは、定数項あるいは切片といいます。これは、独立変数Xがゼロのときの、従属変数Yの期待される値です。
次に、bは、回帰係数あるいは傾きといいます。こちらは、独立変数Xが1だけ増加したことに伴う、従属変数Yの変化の量をとらえます。回帰係数bがプラスならば正の関連が、マイナスならば負の関連が、それぞれみられるということです。最後に、eiは残差と呼ばれ、この回帰モデルで説明できなかった誤差というべき部分です。

回帰分析結果をどう読むか?

回帰分析の結果の読み方を、例で説明しましょう。

仮に、ある会社で調査を行い、年収(単位: 万円)と勤続年数(単位: 年)を調べたとします。そして、年収を従属変数、勤続年数を独立変数として回帰分析をしたところ、定数項aが400、回帰係数bが20と求められたとします。するとこれらから、次のことがわかります。
1)入社したばかりの人は、年収がだいたい400万円になる【a+b×0=400なので】。
2)勤続年数が1年増えると、だいたい20万円ほど年収が上昇していく【b=20なので】。
3)勤続10年経過した人は、年収がだいたい600万円になる【a+b×10=600なので】。

このように、回帰分析をすることで、さまざまな予測や検討を行うことができます。

なお、経済予測や、学術研究などでは、独立変数を同時に複数用いた重回帰分析というモデルが適用されています。さらに、カテゴリデータを従属変数としたモデルや、曲線的関係で近似したモデルなど、回帰分析の世界はより広く、より深く、進化しています。

散布図による可視化

相関や回帰分析を行うことのできる2変数の数量的データを、可視化する方法があります。それは、散布図と呼ばれる、横軸に変数X、縦軸に変数Yを配置し、各々の個人を点でプロットしたグラフを作成することです。散布図をみることでも、全体的に、データが右上がりになっているのか(正の関連)、右下がりなのか(負の関連)、それとも特に傾向はないのか(無相関)を視覚的に判断することができます。

散布図の例
勤続年数と年収の散布図。勤続年数が長いほど年収が上がっている右上がりの正の関連だとわかる。

3-3 数量データの分析 まとめ

  1. 相関係数により、2つの数量データの関連の向きと度合いを知ることができる。
  2. 回帰分析を行うことで、ある数量データから、もう1つの変数の予測が可能になる。
  3. 2変数の数量データを散布図で可視化することで、関連性を視覚的に判断できる。

執筆・監修:東京大学社会科学研究所 教授 三輪 哲

サイトマップ
ページ上部へ アンカーのアイコン画像