データ・データセットの種類

 データには様々な種類があります。それぞれの種類ごとにデータの見方、使用するグラフ、分析の手法が異なってくるので、どのような特徴があるのかを知っておくのは非常に重要です。
 代表的なデータの分類としては、量的データと質的データ、フローデータとストックデータ等があります。

量的データ(量的変数)

 枚数、身長、金額など、数値で推し測ることができ、数字の大小に意味をもつデータです。

■連続データ

 身長、時間、気温など、途切れることなく連続して続き、どこまでも細かく測ることができるデータ
例)175.0 cmの次は175.000……001cm

■離散データ(非連続データ)

 人数、回数など、整数として表現されるデータで、一般的に連続して測ることができないデータ
例)人数を数える時、1人の次は一般的に2人であり、1.00……001人とは数えない。

質的データ(質的変数)

 好きなスポーツ、血液型、自動車のナンバーなど、単に分類や種類を区別するためだけのデータや、順位、学年など順序に意味があるデータです。

 

フローデータ(フロー)

 一定期間に流れた変化量などを表すデータです。
例)桶に流れる水の量から、桶から出ていく水の量を引いたもの(一分間に○リットル)

ストックデータ(ストック)

 ある時点において蓄積している量などを表すデータです。
例)桶にたまっている水の量(午後1時の時点で△△リットル)

データセットの種類

 どのようなデータを集めるかによって、分析できる内容が変わってきます。分析の目的に沿ったデータセットを選択しましょう。
 ※ここで言うデータには、個人の身長の推移など個別のデータも含みます。

時系列データ

 一つの項目について時間に沿って集めたデータを時系列データといい、時間に沿った変化を分析することができます。時系列データを分析する際は季節変動などに注意する必要があります。

例1:A県の平成21年~25年の人口のデータ(図1の1)
例2:千早数さんの過去3年間の身長のデータ

A県の平成21年~25年の人口のデータ

横断面データ(クロスセクション・データ)

 ある時点における場所・グループ別などに記録した複数の項目を集めたデータのことです。同一時点での複数項目間の分析ができます。

例1:平成22年1月時点のA県の世帯数、人口、事業所数(図1の*2)
例2:河田計さんの英語、数学、国語の期末試験の点数

コーホートデータ

 生まれた年ごとに記録し、経過時間に沿って集計したデータをコーホートデータといいます。このデータでは、人口や就業率の推移を世代ごとに比較分析することができます。

パネルデータ

 一般的にパネルデータとは、同一の標本について、複数の項目を継続的に調べて記録したデータとされており、項目間の関係を時系列に沿って分析することができます。
 通常の継続的に行われる調査では、調査時点ごとに調査される標本が異なることがありますが、パネルデータの場合は、標本を入れ替えること無く、同一の標本に対して継続的に調査されたデータを使用することに特徴があります。

例:A企業の平成21年~25年の従業員数、売上金額、仕入額など(図2)

A企業の平成21年~25年の従業員数、売上金額、仕入額など