ここから本文です。
統計Today No.131
全市町村のデータを網羅する「統計教育用データセット」の提供を開始
〜「統計データ分析コンペティション論文」を募集しています〜
独立行政法人統計センター統計情報・技術部 統計技術研究課長 長尾 伸一
独立行政法人統計センターでは、本年度から、高校生、大学生等の統計データの利活用マインドと分析技術のかん養を図るため、教育用標準データセット (Standardized Statistical Data Set for Education: SSDSE)を提供することとしました。これは、我が国において、統計分析、データサイエンスに注目が集まる一方、それを処理する人材が不足し、将来的にも更に人材確保が難しいといわれる現状を踏まえ、その人材を育成するために、主な目的を統計教育に特化して提供するものです。
SSDSEは、我が国の社会・経済情勢を正確に捉えることができ、かつ、できる限り簡易に分析が可能となるよう、公的統計を整備している総務省統計局の「都道府県・市区町村のすがた(社会・人口統計体系)」の市町村別データから作成しました。EBPM(証拠に基づく政策立案)などを推進していく上で、公的統計の役割がますます重視されており、統計データを的確に分析する能力が以前にも増して重要となってきています。このデータセットは、特に高校生・大学生に対する統計リテラシーの向上を目的としており、その利用の拡大を図っていくことに注力していくこととしています。
SSDSEの特長は、全国の1741市町村のデータを網羅し、111項目のデータの利用が可能となっていることです。これにより、全国の全ての地域の特長を分析することが可能です。
今回、初めてSSDSEを提供するに当たり、基本的な統計モデルによる分析の事例を紹介します。また、このデータセットが教育の場において、さまざまな貢献ができることを希求しております。
1 記述統計による考察
まず、記述統計による分析事例を紹介します。記述統計は、データを分析する方法の一つで、収集したデータの平均や分散などを計算して分布を明らかし、データの示す傾向や性質を把握する手法です。下の図は静岡県(952行目〜986行目)の従業者総数(同60列目)を示したものです。静岡市と浜松市の従業者数が他の市町に比べて相当多いことが分かります。次いで、富士市、沼津市、磐田市の順に多くなっています。(全市町の数値は参考表1参照)
図1 静岡県の市町村別従業者数
SSDSEより作成
次に、この市町別従業者数を更に産業別に見ることで、市町ごとの特長を分析します。表1は、産業別従業者数(61列目〜77列目)を従業者総数(60列目)で除して計算しました。なお、データセットにある産業大分類17産業(注1)のうち、主な12産業だけを表章しました。同様に、静岡県の35市町のうち、23市のみを表章しました。(全ての市町及び産業別従業者の割合は参考表2参照)
上述のとおり、静岡市と浜松市は従業者総数では他の市町に比べて相当数多いことが分かりますが、この両市を比較すると、産業構造は顕著に異なることがみてとれます。浜松市は製造業の従業者の割合が高く、静岡市は、卸・小売業、金融・保険業などの従業者数の割合が多いことが特長です。
また、他の市についてみると、全国平均に比べて製造業の割合が高く、特に、湖西市60.8%、磐田市42.8%、牧之原市42.7%など製造業の従業者割合が高いことが特長と思われます。また、宿泊・飲食業についても、全国平均に比べてその割合が高い市が多数あり、特に熱海市29.8%、伊東市22.4%、下田市22.2%、伊豆市20.2%などとなっています。
さらに、特長的な市をみると、裾野市では、学術、専門・技術サービスで16.0%、御前崎市では、建設業が12.6%、電気・ガス・水道業が5.1%などとなっています。
(注1) 今回のSSDSEでは産業大分類20分類のうち、「漁業」、「鉱業、採石業、砂利採取業」、「分類不能の産業」は収録されていません。
表1 静岡県内の市別・産業別従業者の割合
SSDSEより作成
さらに、この市町別従業者数について、産業別の特化係数を計算してみました。特化係数は、(各市町の産業別従業者割合)/(全国の産業別従業者割合)で計算しました。これで静岡市と浜松市を比較すると、静岡市では、金融・保険業、運輸・郵便業、卸・小売業などサービス関連の産業で高く、浜松市では、製造業が高いことが分かります。
上記の2市以外を産業別でみると、上述したとおり、製造業と宿泊・飲食業で高い係数がみられる市が多く、静岡県の産業の特長となっていると思われます。また、裾野市の学術、専門・技術サービスで5.16、御前崎市では電気・ガス・水道業で10.20と非常に高くなっており、特長的な性格を持つ都市があることが分かります。このように特化係数が1よりも大きい産業を丁寧にみることで、該当する市の特長が分かると思います。(全ての市町及び産業別の特化係数は参考表3参照)
図2 静岡市と浜松市の産業別特化係数
SSDSEより作成
表2 静岡県内の市別・産業別従業者割合の特化係数
SSDSEより作成
参考表3(エクセル:35KB)
2 主成分分析による考察
この静岡県の産業別従業者数のデータから主成分分析の手法を用いた分析を紹介します。主成分分析は、多くの説明変数を要約してその特長をみることができるというメリットがありますが、今回の分析では、17の産業の特長を2つの主成分に要約して分析しました。産業別従業者数のデータを標準化した相関係数行列から計算しています。主成分負荷量は参考表4にまとめていますが、第1主成分は、全ての産業でマイナスとなっており、かつ、農林業と電気・ガス・水道業以外は0.9以上となっていることから、これは従業者数を大きくする総合的な特性(都市特性)を示すと考えられます。また、第2主成分は、農林業、製造業、複合サービスでプラス、電気・ガス・水道業、情報通信業、金融・保険業でマイナスとなっています。
上述のとおり、第1主成分は都市特性の度合いを表していると考えられます。「1 記述統計からの考察」でも記述しているとおり、静岡市と浜松市では他の市町に比べて大きな従業者数となっています。次いで、富士市、沼津市、磐田市と続いて、都市特性が高いという結果が現れています。都市特性が低い市町は下図では見にくいので、全市町の主成分得点を参考表5にまとめています。
また、第2主成分として、静岡県の伝統的な産業、製造業、農・林業が高い特性を持つか、あるいは電気・ガス・水道業、情報通信業、金融・保険業といった第3次産業に含まれる非伝統的な産業特性を持っているかを表していると考えられます。静岡市と浜松市は対極に位置することがわかります。また、浜松市、富士宮市、菊川市、磐田市、掛川市、湖西市などでプラスの方向になっており、一方、マイナス方向に大きいのは、静岡市、沼津市、御前崎市などとなっています。
図3 静岡県の従業者数に関する主成分得点
SSDSEより作成
参考表4(エクセル:33KB)
参考表5(エクセル:39KB)
以上、幾つかの統計的手法を用いた研究事例を紹介しました。研究の目的に合わせ、適切な統計データを選択し、適切な統計モデルを選択することが重要となります。本データセットは111項目を収録していますので、さまざまな研究を実施することが可能となっています。より多くの方々に利用してもらえることを希望します。
近年、統計分析に関するテキストが多数出版されています。今回は、高校生向けに書かれた2冊のテキスト、「高校からの統計・データサイエンス活用〜上級編〜」(注2)、「高校生からの統計入門」(注3)を参考にしました。
(注2)総務省政策統括官(統計基準担当)編,2017年3月発行
(注3)加藤久和,ちくまプリマー新書,2016年5月発行
最後に、「統計データ分析コンペティション」の紹介をさせていただきます。これは、SSDSEのデータを活用し、これに基づく分析のアイディアと技術を競う統計データ分析の論文を募集するものです。総務省統計局、独立行政法人統計センター、一般財団法人日本統計協会が共催して6月26日(火曜日)から募集を開始しました。原則として、事前のエントリー登録を8月10日(金曜日)までにお願いしています。なお、論文は9月18日(火曜日)まで受け付けています。
SSDSEのデータを活用し、さまざまな分析結果をまとめた論文について、より多くの方からの応募をお待ちしております。
詳細は、統計センターのHPから御覧いただけますので、よろしくお願いします。
統計データ分析コンペティションの詳細
SSDSEの提供ページ
(平成30年7月19日)
の項目は、政府統計の総合窓口「e-Stat」掲載の統計表です。