ここから本文です。

ゼミナール編(2) 〜調査実施と分析

3時限目 集計と分析

3-1 データと変数の尺度

データファイルの作成

意識調査を実施して、調査票を回収した後には、回答を入力して電子的なデータファイルを作成します。データファイルは、次のような形式になることが一般的です。

データファイルの例
個人ID 問1:性別 問2:生活満足度 問3:感情温度計 問4:年収
001 1 3 40 4,500,000
002 1 2 50 3,000,000
003 1 1 100 8,750,000
004 1 3 0 1,800,000
005 2 1 75 6,000,000

横方向のデータの連なりを、行と呼びます。意識調査において、それぞれの行は各個人の回答を示します。例えば、ID番号001番の人は、問1では1番を選択、問2では3番、問3では40度、問4では450万円と回答していることがわかります。

一方、縦方向のデータの連なりを、列と呼びます。それぞれの列は、各質問への回答を変数としてあらわすものになります。例えば、問1については、ID番号001番から004番までは1と回答し、ID番号005番は2と回答したことがわかります。

このように、複数の質問に対する多くの人からの回答を得て、行列形式のデータファイルをつくります。そして、このデータに基づき、さまざまな集計や分析をしていくことになります。

4つの尺度水準

ところで、データファイルに入力された変数の数値は、情報の種類により4つに分けられます。名義尺度、順序尺度、間隔尺度、比尺度と大別される、変数の尺度水準といわれるものがあるのです。

変数の尺度水準
カテゴリデータの名義尺度は、意味を区別するだけの数字、数字は意味を区別しているだけ、例として、1:男性、2:女性。カテゴリデータの順序尺度は、順序関係を表している数字、数字は意味を区別し、さらに順序関係も表す、例として、1:満足、2:どちらともいえない、3:不満。数量データの間隔尺度は、等間隔に並ぶ得点となっている数字、数値の差を計算できる、例として、好感度など(0から10まで1点刻みで回答)。数量データの比尺度は、等間隔に並ぶ得点で、絶対的な原点がある数字、比率を計算できる、例として、収入額など。

名義尺度

名義尺度とは、回答された数値が「意味の違いを区別するための数字」であることを示します。例として、性別の回答が挙げられます。性別の質問においては、しばしば、「1: 男性、2:女性」というように数値が割り当てられます。ここでの1や2という数値は、データにおいて、男性と女性とを区別する役割を果たします。しかし、それ以上の意味はもちえません。1より2のほうが大きいとか強いとかいうような順序の情報は含まれません。

順序尺度

順序尺度とは、回答された数値が「順序関係を表している数字」であることを示します。例えば、「1: 満足、2: どちらともいえない、3:不満」という選択肢により生活満足度について回答されれば、これは順序尺度の例といえます。ここでの数値は、値が大きくなるにつれて、満足度が下がっていくことを意味します。

つまり、値の違いが、意味を区別するのに加えて、順序関係をも表しているわけです。ただし、1(満足)と2(どちらともいえない)の距離と、2(どちらともいえない)と3(不満)の距離が必ずしも等しいわけではないので、得点であるかのようにデータを扱うことは許されません。

間隔尺度

間隔尺度とは、回答された数値が「等間隔に並ぶ得点となっている数字」であることを示します。間隔尺度の数値は、意味を区別し、かつ順序関係を表すだけでなく、さらに値の間の距離が同じ意味をもつようになります。

ここでは政治学で使用される「感情温度計」を例としてみましょう。 感情温度計とは、政党に対する好感度を測るため、「あなたは〇〇党に対して、好意的な気持ちをもっていますか、それとも反感をもっていますか。好意も反感ももたないときには50度とし、好意的な気持ちがあれば60度から100度の数字に、反感をもっていれば0度から40度の数字に〇をつけてください。」というようにたずねる質問です。

これに対する回答は、100度と90度の差の10と、50度と40度の差の10とは、同じ距離とみなせます。すなわち、好感度の違いが同程度とみることができます。このように、等間隔に並ぶ得点である間隔尺度の数値は、差を計算して、一方がもう一方よりもどれだけ上回っているかを示すこともできるようになります。

比尺度

比尺度とは、回答された数値が「等間隔に並ぶ得点で、かつ絶対的な原点がある数字」であることを示します。間隔尺度との違いはただひとつ、原点の存在です。
要するに、比尺度だと数値がゼロであれば、まったく皆無であることを意味します。他方、間隔尺度の場合は、数値がゼロでも皆無ではなく、任意にゼロと設定したにすぎません。

収入の数値を金額でたずねれば、まったく収入がない場合はゼロと回答するわけですが、それは収入が皆無(絶対的原点の位置)ということになります。絶対的原点が定義できるからこそ、比尺度の数値は、一方がもう一方の何倍であるかというように、比を計算することも可能になります。

このように、変数の尺度水準が重要なのは、その違いにより、意識調査のデータ分析方法が異なるからです。

名義尺度と順序尺度のデータをカテゴリデータと呼ぶこともあります。カテゴリデータについては、該当するカテゴリの人数をカウントするような分析法を適用するのが一般的です。
他方、間隔尺度と比尺度のデータは数量データと呼ばれますが、こちらについては、得点の中心的な位置や中心からのバラツキをもとに、さまざまな計算をする統計分析をすることが多いです。

3-1 データと変数の尺度 まとめ

  1. 意識調査の調査票を回収後、データファイルを作成する。
  2. データファイルに入力された数値は、情報の種類により4つの尺度水準に分けられる。
  3. カテゴリデータと数量データで、意識調査のデータ分析方法が異なる。
  • これで3時限目「3-1 データと変数の尺度」は終了です。
    次は「3-2 カテゴリデータの集計」です。
    名義尺度と順序尺度のデータの集計方法を学びます。

執筆・監修:東京大学社会科学研究所 教授 三輪 哲

サイトマップ
ページ上部へ アンカーのアイコン画像