大学共同利用機関法人
情報・システム研究機構 理事
統計数理研究所長
椿広計
「ミクロデータ」は国民生活改善のための大きな可能性を秘めています。ミクロデータとは何か、それを利活用することによってどのようなメリットがあるのか、利活用のためのヒントを紹介します。
ここから本文です。
ミクロデータ応用
大学共同利用機関法人
情報・システム研究機構 理事
統計数理研究所長
椿広計
「ミクロデータ」は国民生活改善のための大きな可能性を秘めています。ミクロデータとは何か、それを利活用することによってどのようなメリットがあるのか、利活用のためのヒントを紹介します。
動画はYouTube統計局動画チャンネル(外部サイト)でご覧いただけます。
経済にとって重要な原材料となったデータ。中でも「統計ミクロデータ」が秘める可能性は大きく、今後の活用が期待されている。そもそもミクロデータとは何なのか、扱うにはどのような条件が必要なのか、統計数理研究所長の椿広計先生にミクロデータ利活用のポイントを聴いた。
データは21世紀の石油と呼ばれるようになりました。データが経済にとって、重要な原材料になったということです。ビッグデータを加工し、そこから有用な知識を抽出する、そしてその知識を企業の活動に活かすことが、国際的にも産業競争力の源泉となったわけです。
これが、日本政府もデータ駆動型社会への改革、いわゆるSociety5.0という社会改革を推進している理由です。統計学は、必要なデータを収集し、データを分析することで価値ある情報を抽出し、それに基づく最適な意思決定を支援する学問です。最近注目されている人工知能、AIを支える基幹的な技術も統計的機械学習と呼ばれる数学的な統計学です。データをきちんと分析して、企業の経営や自治体・政府の行政に活かすということが、これからの日本にとって非常に重要になっています。
国勢調査・労働力調査・家計調査・社会生活基本調査などの公的統計は、国民から頂戴した情報を基に、日本全体や自治体の様々な姿を示す統計数値を公表しています。これまでも、統計部局が作成したデータは、政府や自治体はもちろん、国民の皆様方に利活用いただいているわけです。
さらに2017年から統計改革という大きな運動が政府で起こり、公的統計で得られた情報をより積極的に活用して、国民にその成果を還元しようという方向性が示されました。データの利活用という観点からは2つの方針が特に重要です。一つ目は、政府におけるEvidence Based Policy Making、データ・証拠に基づく政策立案という活動の強化です。公的統計や行政情報といった国民から頂戴した情報を活用すれば、より効果的・効率的な政策をデザインすることができる。その証拠に基づく政策を実現することで、国民から頂戴した情報を、国民生活の改善という形で還元することができます。
もう一つの方針が社会全体における統計データなどの利活用促進です。そのために、2018年5月に統計法や統計センター法が改正され、2019年5月から施行されます。これまで、統計データの利活用というと公表統計数値の活用でした。公表統計数値というのは、国民から頂戴したデータを自治体別や産業別などに集計したものです。集計された統計データは、統計マクロデータなどと呼ばれることもあります。マクロという言葉は、集計対象となった地域や産業の全体像を示す言葉です。統計マクロデータは、中央政府の政策評価などで、これまでも活用されてきました。
ビッグデータ時代にデータ駆動型社会を目指す日本にとって、集計される前の国民から頂戴したオリジナルデータ自体を分析し、そこから示唆されることを活用して、行政などに活用できないかという動きが活発になりました。この国民から頂戴した特定の方々や、特定の企業のデータ、つまりオリジナルデータを統計ミクロデータと呼びます。
ミクロという言葉は、集計されていない個々のデータという意味です。国勢調査ならば日本に住む全ての方の1億件以上のデータがミクロデータになります。
少し具体的な例を考えてみましょう。社会生活基本調査という調査は5年に一度、国民の生活時間を調査している統計です。この場合、マクロデータは、男女別の集計データ、年齢階層別の集計データ、都道府県別の集計データなどで、これは統計局が公表しています。都道府県別のマクロデータでは、47県、47個のデータということになりますが、実際には、社会生活基本調査では、全国で10歳以上の国民20万人の生活時間が調べられています。統計ミクロデータとしては、この20万人の国民のそれぞれのデータということになります。ちょっとしたビッグデータですよね。
この統計ミクロデータの利活用の促進活動の拠点が、2018年4月に和歌山市に設置された、総務省統計局独立行政法人統計センターの統計データ利活用センターです。統計データ利活用センター設置の有効性の検証実験というものが2016年7月に約1週間、和歌山で行われました。そのとき和歌山の大学の先生方と社会生活基本調査の匿名化されたミクロデータを用いて、その分析の有効性も検証しました。
当時、和歌山県立医大にいらした岡檀先生と私は、どういう方が介護の時間が増加するか、その結果睡眠時間が減少しているかといったことを比較的簡単な人工知能を用いて分析しました。
介護を必要とする方が世帯にいらっしゃる方はミクロデータの中には約1万4000人いらっしゃいました。その1日介護時間は平均(約)48分でした。
ところが三大都市圏に居住し、年齢が50歳以上の方で、労働時間は1日3時間30分間以下、年収も200万円 以下という方で、65歳以上の家族を自宅介護している方、しかも外部補助者を4日以上利用しているという場合でも、1日平均4時間介護時間を費やしているということを人工知能は指摘したところです。
さらに労働時間が1日3時間30分以下で、65歳以上の女性の方について、65歳以上の家族を週3日以内だけしか自宅外看護していない方の場合は、1日平均6時間30分以上の介護時間を費やしているということも見えてきました。これは、従来の実証的研究、いわゆる学問的な仮説を検証する研究とは異なる、探索的な研究と考えることができます。
一定の検証が必要でしょうが、ミクロデータの分析を通じて、様々な国民生活の問題が見えてくる可能性というものは十分あります。
2019年5月に施行される新たな統計法では、これまで以上に統計ミクロデータの利活用が可能となっています。もちろん統計ミクロデータは、個人や法人に関する情報であり、統計法で保護されているデータですから、それ自体をそのまま公表し、分析していただくことはできません。
オンサイト拠点と呼ばれる統計センターの情報システムに直結し、セキュリティの管理されている施設の中でしか、その分析はできません。また、分析結果の持ち出しに当たっては、特定の個人に関する情報などが開示されてしまうリスクなどがないかどうかを統計センターが審査する仕組みとなっています。そもそも、オンサイト拠点は公益性の高い分析以外の目的では利用することはできません。
しかし、既に申し上げましたように、統計ミクロデータからは、個々の国民生活や経済活動がどのような状況にリスクがあるか、どういうことを行えば、そのリスクが回避されるかといったことをデータから示せる可能性を秘めています。地域行政情報と共に活用すれば、地域の政策などを、効果的・効率的なものとすることができ、それを通じて地方創生にも繋がると考えています。
ただ、統計ミクロデータを分析するには、データ解析やAIの技術等、データサイエンスと呼ばれるスキルを持った人材の育成も重要です。この点、わが国は諸外国に比して少し遅れをとっています。そこで当面、統計ミクロデータの利活用は、自治体の政策担当者と地域大学などでデータ分析にたけた研究者の官学連携研究といった活動を育てていくことも必要だと思います。大学の社会科学研究者にとっても、ミクロデータに基づく実証研究でなければ、国際水準の研究としては認められないという現状を考えれば、ミクロデータ分析能力の向上は学問的にも必須に思えます。統計ミクロデータ利活用という活動の中で、大学の若手中堅研究者はもちろん、政府・自治体などにもデータから価値のあるソリューションを導けるデータサイエンティストが徐々に育成できることを期待しています。
データ駆動型社会への改革を進めているわが国にとって、証拠に基づく政府策立案や官学連携による統計ミクロデータ利活用プロジェクトの創成などが、国民に大きな価値を還元できる活動として、育ってくれることを期待しています。
大学共同利用機関法人
情報・システム研究機構 理事
統計数理研究所長
椿広計
つばきひろえ
東京大学工学部計数工学科出身(工学博士)、同助手、慶應義塾大学理工学部講師、筑波大学大学院ビジネス科学研究科助教授・教授を経て、統計数理研究所リスク解析戦略研究センター長・副所長、2015年から4年間(独)統計センター理事長、2019年4月より現職。現在、統計数理研究所・筑波大学・総合研究大学院大学名誉教授、日本学術会議連携会員。日本品質管理学会長、応用統計学会会長、内閣府統計委員会匿名データ部会長などを歴任