ここから本文です。
統計Today No.159
高校生のための統計学習教材の提供
〜プログラミング教育の開始とデータ分析力の向上に資することを目指して〜
総務省統計研究研修所統括教授 長尾 伸一
(共同執筆者)同研修所統計技術向上支援課技術支援第一係 中山 拓人
総務省では、初等教育から高等教育、社会人教育までの各段階における統計リテラシーの向上に向けて、無料学習サイト・教材等の開発、小・中・高校等の段階別の教員向けコンテンツ等の提供を行ってきました。
この度、令和4年度から高等学校の学習指導要領が改訂されることを踏まえ、新設される「情報I」、「情報II」などに含まれるプログラミング、情報活用能力の向上や、公的統計を活用したデータ分析力の向上を目的として、統計学習教材を作成しました。
https://www.stat.go.jp/teacher/comp-learn-03.html
近年、Hans Rosling氏らが執筆した「FACTFULNESS1」が日本語訳され話題になっていますが、データに基づき社会を読み解くことの重要性がますます広く認識されるようになっています。今回提供する教材は、公的統計を始めとした「実際のデータ」を利用し、数理的な知識の習得ばかりでなく、データに付随する多様な知見を伝えることで、データ分析力を向上させることを目的としています。文部科学省が公表した新たな学習指導要領の内容を踏まえ、統計に係る重要な内容をできるだけ網羅するよう工夫しているほか、必修化されるプログラミングの理解を促進するためRやPythonのコードについても、可能な範囲で提供しています。
1 Hans Rosling, Ola Rosling, Anna Rosling R?nnlund, (訳)上杉周作, 関美和 2019.1 日経BP社
今回は、この教材に掲載している統計学習の具体的内容について、事例を紹介します。ここで紹介するデータは総務省統計局が提供している「世界の統計2019」等2にも掲載されている諸外国の統計データを用いて、5種類の国別データ「人口」、「1人当たりGDP」、「平均余命3」、「人口1000人当たり医師数」、「森林率(陸地に占める森林面積割合)」からヒストグラム、箱ひげ図、散布図、主成分分析の結果を作成しました。
2 今回の分析に当たっては、「世界の統計」のほか、以下からも収集した(データは表1(エクセル:17KB))。
人口 : UN, World Population Prospects, 1人当たりGDP : UN, National Accounts Main Aggregates Database,
平均余命 : WHO, Global Health Observatory, 単位人口当たり医師数 : The World Bank, World Development Indicators
森林率 : FAO, Global Forest Resources Assessment
3 ここでの平均余命は0歳児の平均余命のことで、0歳児の平均余命のことを平均寿命ともいう。
データの分布
データの分布を見る場合は、ヒストグラムと箱ひげ図を用いることが一般的です。ヒストグラムで表すことによって、その分布の特徴を把握することができます。下の図は、69か国の人口のヒストグラムです。1000万人を下回る国が最も多い(15か国)ことが分かります。また、1億人を超える国は12か国あり、中国が13億97百万人と最も多く、次いでインドとなっており、両国ともに10億人を超えて、他の国に比べ圧倒的な数となっています。ちなみに、日本は2018年時点で、約1億27百万人と世界の中で10番目に人口が多い国となっています4。このヒストグラムから、各国の人口の分布は、度数の多い山が左側に偏り、右に行くにつれて山がなだらかな形状(度数が少ない)になっており、「右裾が長い」分布となっていることが分かります。このことは、一国当たりの人口については、ばらつきが大きく、人口の少ない国が多い中で、一部の少数の国が非常にたくさんの人口を有しているという特徴を表しています。
4 最新の資料では、メキシコが世界で10番目となっており、日本が11番目になっていることがあるので留意が必要
図1 主要国の人口分布
基本統計量 (億人) |
|
---|---|
平均 | 0.92 |
中央値 (メジアン) | 0.35 |
標準偏差 | 2.28 |
分散 | 5.22 |
尖度 | 26.91 |
歪度 | 5.11 |
範囲 | 13.97 |
最小 | 0.0033 |
最大 | 13.97 |
合計 | 63.58 |
データの個数 | 69 |
次に、69か国の「平均余命」と「1人当たりGDP」を箱ひげ図とヒストグラムに表しました。平均余命は、平均値が75.7歳と中央値の76歳に近い数値となっています。いくつかの国が外れ値となっており、また、山が2つに分かれていることが特徴です。属性の異なる集団が混在している場合に、このような形状となることがあります。データの分布は右に偏った形状となっています5。
5 グラフは70歳以下と70歳を超える階級では階級幅が異なるためグラフを見る際は留意が必要
図2 平均余命の分布
1人当たりGDPは、人口と同様に右裾の長い分布となっていることが分かります。多くの国で1人当たりGDPの値が低い一方で、少数の国で1人当たりGDPの値が高くなっていることが分かります。所得や貯蓄などお金に関するデータはこのように右裾の長い分布となることが多いと言われています。
図3 1人当たりGDP
2変数の関係
2つのデータの関係を見る際によく使われるのが、散布図です。図4は、69か国の1人当たりGDPと平均余命を縦軸と横軸にプロットした散布図です。左の図は、1人当たりGDPと平均余命をプロットしたもので、1人当たりGDPが高くなるほど、平均余命が高くなるという傾向をみることができます。右の図は横軸の1人当たりGDPを対数にとったグラフです。このように対数変換すると両者が線形関係に近くなり、相関係数が高くなることが分かると思います。統計データを用いて分析する際によく使われる変数変換の1つの事例です。
なお、グラフ中のドットの大きさは人口規模を表しています。中国とインドの2か国が非常に大きいことが分かります。このようにすると2次元のグラフでも、もう一つ人口規模という情報も同時に表現することが可能となります。
図4 GDPと平均余命の散布図
多変量の分析
多変量のデータを分析する手法はたくさんあります。ここでは、その中でも一般的で分かりやすい主成分分析という手法で、主要国の人口(対数)、平均余命、1人当たりGDP(対数)、人口1000人当たり医師数、森林率の5種類のデータを分析してみました。第一主成分軸は、それぞれの相関が高いGDP、平均余命、医師数の寄与が大きく、総合的に数値の高いヨーロッパの国の多くが右側にプロットされていることから「経済的な豊かさと健康に係る指標」として特徴づけています。第二主成分軸は森林率と人口規模の寄与が大きいため「自然の豊かさと人口規模に係る指標」としています。このように、主成分分析は次元を縮減(今回の事例では5次元から2次元へ要約)することで新たな指標を作り、分析する手法です。
図5は、この分析の結果から得られた各国の主成分得点をプロットし、さらに地域ごとに色分けして分類しています。こうすると北米やヨーロッパの国は経済的な豊かさと健康に係る指標が高く、アジアの一部や中南米の国の多くは自然の豊かさ(森林の多さ)と人口規模に係る指標が高いといった傾向を持つことが分かります。
図5 主成分分析による推計結果
統計データを活用して分析・可視化することで新たな探求の視点が生まれます。統計というと数理的な分析が中心と思われがちですが、データから得られる様々な知見を見つけ出すためには、社会科学の分野に含まれる多様な知識や思考力も必要となります。
今回、提供する教材では、Rなどのプログラムのコードを提供していますが、そのような専門的なプログラミングの知識がなくても利用できる「Tableau Desktop」を用いた分析事例等も紹介しています。これはBIツールと呼ばれる統計分析にも対応しているソフトウェアで、エクセルファイル等様々なファイル形式のデータを直接読み込むことが可能であり、SSDSE(統計教育用標準データセット)を用いて、地域の特性を簡単に可視化することができます。また、教材の中では、統計データのまとめ方や活用方法、機械学習の一つの手法であるテキストマイニング、地域経済を簡単に分析できるRESASの活用方法、地図上にデータを可視化するGISの活用事例など統計に関する様々な学習についても紹介しており、高校生だけでなく、大学生や社会人でも活用できる内容となっています。
この統計学習教材が、高校生や高等学校の教員を始めとした多くの方々のお役に立てることができれば幸いです。統計リテラシーの向上のために、今後もこのサイトを充実していけるよう努めてまいります。また、御覧いただいた先生方には、統計学習の現場で役に立つと思われる御意見・御感想をいただけましたら、今後のコンテンツの充実の参考にするほか、国及び地方公共団体の職員を対象とした総務省統計研究研修所で実施する統計研修の参考とさせていただきますので、御協力をお願いいたします。
- 御意見・御感想はこちらまで ⇒ https://www.stat.go.jp/teacher/opinion.html
(令和2年7月31日)