複数の変数の関係性を見る

 複数の変数の関係性はどのように見るのでしょうか?ここでは相関係数と回帰分析について、紹介します。

相関係数

 

 2つの変量がどの様な関係性を持っているかを分析する方法の一つに、相関係数によって比例的な関係性を数値で示す方法があります。

 相関係数は-1から1までの値を取り、以下のような特徴を持ちます。
(1) 正の相関が強いと相関係数が1に近づく
(2) 負の相関が強いと相関係数が-1に近づく
(3) 相関係数が1又は-1のときは完全相関という
(4) 相関係数が0の付近は相関がないといえる

 二つの変数xとyの関係性を見るとき、相関係数はxとyの共分散をxの標準偏差とyの標準偏差をかけあわせた値で割ったものであり、以下の計算式によって計算することができます。

 相関係数はExcelの関数機能を使って、セルに「=CORREL(変量1、変量2)」と入れることによって計算することができます。また、「分析ツール」内の「相関」を使用することで、複数の変量の相関を一度に見ることができます。
「データ分析」の設定方法についてはこちらを御参照ください。

 相関係数は2つの変量の関係性を分かりやすい数値で表すことができるので、非常に便利な指標です。しかし、相関係数はあくまでどれくらい「比例的な」関係を持っているかを計る指標です。相関係数が0であるからといって、必ずしも2つの変量に関係が無いとはいい切れません。
 例えば、以下の2つの散布図において、x軸とy軸に当たる変量は何らかの関係性があるものと考えられますが、相関係数を計算すると双方とも相関係数は0という結果になってしまいます。

 同様に、相関係数が1あるいは-1に近い値を示したからといって、必ずしも2つの変量に関係性があるともいい切れません。全く関係性がない変量を並べても、偶然にも関係性があるかのような相関係数が出てしまうことがあります。これを「見せかけの相関」といいます。

 相関係数に着目して分析を行う場合は、散布図を作成して、2つの変量の散らばりを目で確認するとともに、数値などの裏に隠された背景がどのようなものなのかを注意深く分析していくと良いでしょう。

 以下の表は、河川の長さと流域面積のデータを記したものです。
 この表から長さと流域面積の関係を見てみましょう。

 ※流域面積(集水面積):河川は地上に降った雨などが集まって流れていますが、その雨などを集める地域の広さを流域面積(または集水面積)といいます。

表 世界の河川の長さと流域面積

 まず、散布図を使って2つの変量の関係性を目で確認してみましょう。
 以下の散布図は河川の長さをx座標、流域面積をy座標として点を取ったものです。

図 世界の河川の長さと流域面積

 散布図を見ると、どうやら正の相関関係があるように思われます。
 では、相関係数を見てみましょう。相関係数を計算すると

相関係数=0.6743・・・

となり、正の相関関係にあることが分かります。

 また、河川の長さと流域面積という、2つの変量の背景について考えてみると、短い河川より長い河川の方が陸上をより長く流れていることから、より広い地域に降った雨水などを集め、流域面積が広くなると考えることができます。

 このことから、流域面積は河川の長さによって説明することができ、この関係性が正の相関という形で表れていると考えられます。

回帰分析

 

 回帰分析は、複数の変数の関係を表す、最も適した線を作成して数式化する分析手法です。この時、作成される線を回帰線あるいは回帰直線といいます。

回帰分析の考え方

 回帰線の考え方については、散布図に表示された各点の真ん中を通る線と考えるとイメージしやすいでしょう。例えば、次の図において、各点のほぼ真ん中を通る線を引くと、赤線のとおり表せます。

図 A市のマンション価格と床面積

A市のマンション価格と床面積

 赤線はA市のマンション価格と床面積の数字上の関係性、あるいは傾向を示しているといえるでしょう。 この図内にある、実際の価格を示す青い点を実測値、赤い線上の値を理論値(予測値)といいます。回帰線が引けることによって、例えば、床面積80m2のマンションのおおよその価格や、仮に床面積120m2のマンションがあったらどのような価格になるかという推測ができるようになります。

 さらに、「各点の真ん中を通る線」をもう少し、具体的にいい表すと、実測値と予測値の差である「誤差(残差)」の合計が最も小さくなる線ということになります。

 以下の図では、実測値をY、予測値をワイハット(ワイハット)とし、Yとワイハットの差となる誤差をeとしています。ここで、誤差が最も小さくなるとは、全ての誤差eを足し合わせた数値が最小となるようにすれば良いことになります。
 ただし、全ての誤差を計算する場合、単純に実測値-予測値を行うと、負の誤差が出て来てしまいます。そこで、各誤差を2乗した値を使用し、これを全て足し合わせた和(誤差平方和又は偏差平方和)が最小になる様に回帰式を決定するということになります。
 ここまで説明した回帰式の決定方法のように、データから得られる実測値とモデルによる予測値の間の誤差の二乗和を最小にするようにモデルを決定する方法を、最小二乗法と呼びます。

図 回帰分析(最小二乗法)

回帰分析(最小二乗法)

 回帰式は左辺に説明される値(被説明変数:Y「A市のマンション価格と床面積」ではマンション価格)をおき、右辺にYを説明するための値(説明変数:X「A市のマンション価格と床面積」では床面積)と各係数を置きます。被説明変数が一つの説明変数によって説明される回帰を単回帰といいます。
 線形の単回帰は以下の式で表されることができます。

   Y=aX+b

回帰線の作図と回帰式の算出

 では、実際に回帰線を作図し、回帰式を求めてみましょう。
 表計算ソフトを使用し、散布図を作成した後に、表示された各点を右クリックして、「近似曲線の追加」選びます。表示された画面から、次の図の様に「線形近似」、「グラフに数式を表示する」を選択すると回帰式が表示されます。

図 線形近似作図

線形近似作図

図 A市のマンション価格と床面積

A市のマンション価格と床面積

 このように、A市マンション価格と床面積の回帰式は、y = 80.568x - 685.73で表されるということになります。

回帰式の当てはまり

 回帰式の当てはまりとは回帰式がどの程度実態を説明できているのかということです。
 以下の2図は、どちらも似たような回帰式となっています。しかし、図Aをみると回帰直線の上に実測値が重なっており、実測値をよく説明している回帰直線が引けているといえるでしょう。一方の図Bは実測値がバラバラに散らばっており、回帰直線上に集まっていません。図Aの方が図Bよりも回帰式の当てはまりが良く、説明力があるということが分かります。

 この説明力を表す数値の一つとして決定係数(R2)があります。決定係数は相関係数を二乗した値で、1から0の間をとる数値です。決定係数が1に近いほど回帰直線の説明力があることを意味します。

 決定係数はExcelの機能で容易に算出することが可能です。
 回帰線を作図した時の様に、Excelの機能で散布図を作成し、表示された各点を右クリックして、「近似曲線の追加」選びます。表示された画面で、「グラフにR-2乗値を表示する」を選択すると、決定係数が表示されます。

図 決定係数の表示

決定係数の表示

 図Aの回帰式における決定係数は0.997、一方の図Bの回帰式は決定係数0.523となり、図Aにおける回帰式の方が、説明力のある回帰式であるといえるでしょう。

【参考】決定係数と相関係数

相関係数を2乗すると、決定係数と一致します(決定係数は0以上1以下)。
決定係数と相関係数は似ていますが、目的が異なります。
・相関関係を見る場合には相関係数を使う
・回帰式の当てはまり具合を見る場合は決定係数を使う

例えば、相関係数0.7というと強い正の相関があると言えそうですが、
決定係数で考えると0.7を2乗するので0.49になります。

つまりこの場合は
「相関関係はありそうだけど、回帰式の当てはまり具合(説明力)は良くない」
となりますので、注意が必要です。