正規分布 偏差値 横断面分析 時系列分析 複数の変数の関係性を見る

相関係数

 2つの変量がどの様な関係性を持っているかを分析する方法の一つに、相関係数によって比例的な関係性を数値で示す方法があります。

 相関係数は-1から1までの値を取り、以下のような特徴を持ちます。
(1) 正の相関が強いと相関係数が1に近づく
(2) 負の相関が強いと相関係数が-1に近づく
(3) 相関係数が1又は-1のときは完全相関という
(4) 相関係数が0の付近は相関がないといえる

相関図

 なお、相関係数は共分散をxの標準偏差とyの標準偏差をかけあわせた値で割ったものであり、以下の計算式によって計算することができます。

相関係数

 相関係数はExcelの関数機能を使って、セルに「=CORREL(変量1、変量2)」と入れることによって計算することができます。また、「分析ツール」内の「相関」を使用することで、複数の変量の相関を一度に見ることができます。
「データ分析」の設定方法についてはコチラを御参照ください。

 相関係数は2つの変量の関係性を分かりやすい数値で表すことができるので、非常に便利な指標です。しかし、相関係数は飽くまでどれくらい「比例的な」関係を持っているかを計る指標です。相関係数が0であるからといって、必ずしも2つの変量に関係が無いとはいい切れません。
 例えば、以下の2つの散布図において、x軸とy軸に当たる変量は何らかの関係性があるものと考えられますが、相関係数を計算すると双方とも総関係数は0という結果になってしまいます。

散布図

 同様に、相関係数が1あるいは-1に近い値を示したからといって、必ずしも2つの変量に関係性があるともいい切れません。全く関係性がない変量を並べても、偶然にも関係性があるかのような相関係数が出てしまうことがあります。これを「見せかけの相関」といいます。

 相関係数に着目して分析を行う場合は、散布図を作成して、2つの変量の散らばりを目で確認するとともに、数値などの裏に隠された背景がどのようなものなのかを注意深く分析していくと良いでしょう。

 以下の表は、河川の長さと流域面積のデータを記したものです。
 この表から長さと流域面積の関係を見てみましょう。 

※流域面積(集水面積):河川は地上に降った雨などが集まって流れていますが、その雨などを集める地域の広さを流域面積(または集水面積)といいます。

表 世界の河川の長さと流域面積

表 世界の河川の長さと流域面積

 まず、散布図を使って2つの変量の関係性を目で確認してみましょう。
 以下の散布図は河川の長さをx座標、流域面積をy座標として点を取ったものです。

図 世界の河川の長さと流域面積

図 世界の河川の長さと流域面積

 散布図を見ると、どうやら正の相関関係があるように思われます。
 では、相関係数を見てみましょう。相関係数を計算すると

相関係数=0.6909・・・

となり、正の相関関係にあることが分かります。

 また、河川の長さと流域面積という、2つの変量の背景について考えてみると、短い河川より長い河川の方が陸上をより長く流れていることから、より広い地域に降った雨水などを集め、流域面積が広くなると考えることができます。

 このことから、河川の長さと流域面積には関係性があると推測することができます。

回帰分析

 回帰分析は、複数の変数の関係を表す、最も適した線を作成して数式化する分析手法です。この時、作成される線を回帰線あるいは回帰直線といいます。

回帰分析の考え方
 回帰線の考え方については、散布図に表示された各点の真ん中を通る線と考えるとイメージしやすいでしょう。例えば、次の図において、各点のほぼ真ん中を通る線を引くと、赤線のとおり表せます。

図 A市のマンション価格と床面積

図 A市のマンション価格と床面積

 赤線はA市のマンション価格と床面積の数字上の関係性、あるいは傾向を示しているといえるでしょう。 この図内にある、実際の価格を示す青い点を実測値、赤い線上の値を理論値(予測値)といいます。回帰線が引けることによって、例えば、床面積80m²のマンションのおおよその価格や、仮に床面積120m²のマンションがあったらどのような価格になるかという推測ができるようになります。

 さらに、「各点の真ん中を通る線」をもう少し、具体的にいい表すと、実測値と予測値の差である「残差(誤差)」の合計が最も小さくなる線ということになります。

 以下の図では、実測値をY、予測値をワイハット(ワイハット)とし、Yとワイハットの差となる誤差をとしています。ここで、誤差が最も小さくなるとは、全ての誤差を足し合わせた数値が最小となるようにすれば良いことになります。
 ただし、全ての残差を計算する場合、単純に実測値-予測値を行うと、負の残差が出て来てしまいます。そこで、各残差を2乗した値を使用し、これを全て足し合わせた和(残差平方和又は偏差平方和)が最小になる様に回帰式を決定するということになります。 このことから、回帰分析は最小二乗法とも呼ばれています。

図 回帰分析(最小二乗法)

図 回帰分析(最小二乗法)

 回帰式は左辺に説明される値(被説明変数:Y)をおき、右辺にYを説明するための値(説明変数:x)と各係数を置きます。被説明変数が一つの説明変数によって説明される回帰を単回帰といいます。
 線形の単回帰は以下の式で表されることができます。

Y=aX+b

回帰線の作図と回帰式の算出
 では、実際に回帰線を作図し、回帰式を求めてみましょう。
 表計算ソフトを使用し、散布図を作成した後に、表示された各点を右クリックして、「近似曲線の追加」選びます。表示された画面から、次の図の様に「線形近似」、「グラフに数式を表示する」を選択すると回帰式が表示されます。

図 線形近似作図

図 線形近似作図

図 A市のマンション価格と床面積

図 A市のマンション価格と床面積

 このように、A市マンション価格と床面積の回帰式は、y = 80.568x - 685.73で表されるということになります。

回帰式の当てはまり
 回帰式の当てはまりとは回帰式がどの程度実態を説明できているのかということです。
 以下の2図は、どちらも似たような回帰式となっています。しかし、図Aをみると回帰直線の上に実測値が重なっており、実測値をよく説明している回帰直線が引けているといえるでしょう。一方の図Bは実測値がバラバラに散らばっており、回帰直線上に集まっていません。図Aの方が図Bよりも回帰式の当てはまりが良く、説明力があるということが分かります。

図 回帰直線と実際の値

 この説明力を表す数値の一つとして決定係数(R2)があります。決定係数は1から0の間を取る数値で、1に近いほど説明力があることを意味します。

 決定係数はExcelの機能で容易に算出することが可能です。
 回帰線を作図した時の様に、Excelの機能で散布図を作成し、表示された各点を右クリックして、「近似曲線の追加」選びます。表示された画面で、「グラフにR-2乗値を表示する」を選択すると、決定係数が表示されます。

図 決定係数の表示

図 決定係数の表示

 図Aの回帰式における決定係数は0.997、一方の図Bの回帰式は決定係数0.523となり、図Aにおける回帰式の方が、説明力のある回帰式であるといえるでしょう。

図 決定係数の表示

発展 他の回帰直線の当てはまりを示す値

詳しく見る

 この他にも回帰式の説明力を表す指標として、t値、F値、P値などがあり、Excelの分析機能を使って算出することができます。
 エクセルの「データ」タブから「データ分析」、「回帰分析」と選択します。表示された画面で、「入力Y範囲」(被説明変数)と「入力X範囲」(説明変数)の値となるセルを選択し、「OK」を押すと回帰分析の結果が算出されます。
「データ分析」の設定方法についてはコチラをご参照ください。

 この方法によると、「入力X範囲」に複数の変量を指定することで、被説明変数が複数の説明変数によって説明される、重回帰分析の結果も算出することができます。

図 エクセル分析機能による回帰分析

図 エクセル分析機能による回帰分析

表 回帰分析の算出結果

表 回帰分析の算出結果

・t値…各説明変数の係数が0ではない(有意である)ことを示すための指標です。t値の絶対値が2以上であれば、概ね有意であるといえるでしょう。
・F値…全ての説明変数の係数が0では無いことを示すための指標です。F値が十分に大きければ(有意Fが十分に小さければ)、係数全てが0である確率が少ないことを意味します。

▲ ページのトップへ

Copyright © 2013 総務省 統計局 All rights reserved.

〒162-8668 東京都新宿区若松町19-1 TEL 03-5273-2020(代)