ここから本文です。

データサイエンス

「杉本知之」の写真の画像

データサイエンス


滋賀大学データサイエンス学部 教授 杉本知之

IT技術の進展に伴い、日々集積されていくビッグデータ、そしてAIの発達。今この時代に、データサイエンスは強く求められる領域です。データサイエンスの考え方や重要性、行政での事例、有効な推進方法のヒントなどを紹介します。

動画を再生

動画はYouTube統計局動画チャンネル(外部サイト)でご覧いただけます。

行政におけるデータサイエンスの使い方

データサイエンスとは? 他の科学とのちがいを知り、行政マンが心得ることは何か? 日本で初めてデータサイエンス学部を設置した滋賀大学大学院データサイエンス研究科教授 杉本知之先生に聴いた。

3つのポイント

  1. データサイエンスにより、優れた予測モデルを組み立てられる
  2. データサイエンスの推進で、一番大事なのは「問題意識」と「課題」
  3. 政策立案などに活かすためには、因果関係を明らかにする要因分析力が必要

データサイエンスの考え方や重要性

「データサイエンス」とは何でしょうか?

 データサイエンスは「データを扱うための学問」で、統計学と情報学との融合分野です。

 情報=データなので、従来の情報学を言い換えたものと捉えられるかもしれません。確かにそういう面もありますが、「従来の情報学」と「データサイエンス」の区別をすると、そこに、基礎学問として統計学を有効活用しているかどうかがキーです。

 統計学自体は、昔から国の管理運用のためにありましたが、科学として確立し始めたのは今から100年少し前くらいです。その後IT技術が発達し、統計学の考え方も重要になってきた時代背景があり、情報学と統計学が融合し「データサイエンス」になったという理解になります。

図1 データサイエンスとは?

データサイエンスの「考え方」を教えてください。

 統計学の登場が科学に与えた影響は、「データから因果関係を明らかにする」という帰納的アプローチをきちんと組み立てたという功績です。

 それまでは、科学は演繹的アプローチが主体であり、理論を組み立ててから、データを予測します。ロケットを月まで飛ばすのも、重力や運動の法則の正しい理論からの演繹的アプローチのおかげです。

 一方、データサイエンスでは、演繹的とまったく逆のプロセスの、実際のデータから予測モデルを組み立てます。そのため、その予測モデルは、演繹的アプローチの科学に慣れた人々にとっては、とても奇妙なものです。そこに「何故そうなのか?」がなく、現象についての理解が曖昧であっても、とても良い予測モデルが構築できるからです。

 さらに、データサイエンスの発展に、その燃料のビッグデータが得られるようになって、益々よい予測が可能になってきたともいえます。囲碁では、もう人工知能に人は勝てなくなりました。そこでも高度な帰納的アプローチが使われていますが、過去の膨大なデータを用いて学習した結果、優れた予測モデルが生み出される時代になってきています。

 特に、結果を重視するビジネスの世界では、結果を如何に予測できるかは重要なので、近年の予測精度の向上は、かなり衝撃的な域に達しています。

図2 データサイエンスの範囲

「データサイエンス」のもう一つの重要性とは、何でしょうか?

 優れた予測システムは重要ですが、もう一つの重要な視点として因果関係があります。

 自治体関係者のため、施策の良し悪しを検討するとします。自治体では政策を立案するとき、因果関係が不明なものを使って、問題が起きたら責任が問われますよね。そのようなときに、データサイエンス、統計学のアプローチにランダム化比較試験(Randomized Controlled Trial 略してRCTといわれる)があります。特に、医療分野で治療効果を正しく証明するためによく用いられています。

 これは関心ある施策A、Bがあって、その施策A、Bをランダムに世帯や地域に割り付けるものです。ランダムに割り付けるので、各世帯はいずれかの施策を選択することはできません。その代わり、施策A、Bだけの違いで、あとは平均的に全部同じ背景からなる世帯の2つの母集団を仮想的に作ることができるので、施策AとBのどちらが優れているかを偏りなく調べることができるというものです。

 確かに、ランダム割り付けができれば施策の良し悪しを調べることはできそうです。しかし、こういうRCTをして住民の協力は得られるでしょうか? 協力が得られるものもあります。神奈川県葉山町では、2018年、ごみ収集での投棄の誤りを減らすために「チラシのポスティング」と「看板の設置」についてのRCTを行いました。

 ただし、RCTはいつでも可能でなく、住民の反対があったり、施策効果の結果が出るまで長期になったりするものも多いです。住民の反対を押し切ってRCTを強制すべきでしょうか。RCT は理想的な因果検証法ですが、実施は無理な場合が多いです。10年待つよりも、時間を短縮できればそれに越したことはないですし、住民の反対を押し切らず実施できる方法があればその方がよいです。

 実は、このような目的でも有用なデータサイエンスの方法はあります。それは回帰分析とか、RCTに近づけるような調整を施した分析などの統計手法ですが、これまでの各地域・世帯に関するデータを利活用することになります。

 ただ、データはあってもデータがすぐに利用可能な形で整備されてないというのはよくあることで、これらの手法を用いるまでのデータ整備だけで90%以上の労力を要するということもよくあります。

 IT技術が高度化し、行政の多くの情報が電子化されるようになった現代では、行政のデータ利活用はまさに黎明期にあります。効果的な政策立案につなげるためには、データ利用環境は大変重要です。ただやはりどのようなデータ利用環境を整備すればよいかということは、統計手法を使った分析経験がなければわからないことなので、そのための一定の経験値も必要です。

行政とデータサイエンス

行政での有効な推進方法を教えてください。

 データサイエンスの推進で、まず一番大事なのは「問題意識」と「課題」です。それを明確にする場があることです。

 課題が曖昧のまま、データ分析をしても結果は曖昧であると理解しておくべきです。仮説を見つけるために、データ分析を行うこともありますが、問題が曖昧なら、出てくる結果も曖昧なことは多いです。

 また分析の際には、第3者が介入可能な要因とそうでない要因は区別すべきです。介入可能かどうかは、分析後の意思決定のアクションで大変重要になります。介入できない要因ばかりが重要とわかってもどうすることもできません。

 また、RCTが実施できそうな施策であれば、積極的に実施する意識は共通して持っているべきです。そして、RCTができないときの要因分析の実施経験、データ利用環境整備、それらを学べる制度の充実だと思います。意欲のある人達への研修の奨励、成果についてのインセンティブは積極的に取り入れてもらいたいと思います。

 ただし、やはり現時点での行政では、自治体職員で行うことが難しいデータ分析の支援などを、大学と連携して行うと効果的にデータ利活用を推進することができると思います。

滋賀大学と滋賀県の共同研究について教えてください。

 滋賀大学は2017年にデータサイエンス学部を開設し、データサイエンスに関する多くの教員研究者がいます。滋賀大学は自治体でのEBPM推進のため、2018年より滋賀県と共同研究を実施しています。

 2018年は、滋賀県の30代女性の労働力が全国平均よりも低いことの問題についての検討を行いました。ワーキンググループを開き、アイデアを出し合ってロジックツリーを作成して課題を整理し、分析の方針を検討しました。

 次に、その分析を進めるためのデータが必要になりますが、ここが現在の日本の課題で、対応する詳細な分析を行うためのデータ利用環境が十分ではありません。ただ、その代案として、入手しやすい、総務省、厚生労働省、内閣府などからの都道府県ごとの公表データを利用することで対応しました。

 用いる指標の絞り込みを検討し、回帰分析を行った結果、30代有配偶女性の労働力率に影響のある要因として、3世代同居の割合の高さ、保育所定員比率の高さ、女性正規雇用者割合の高さがプラスに押し上げる要因であること、男性の年間賃金の高さ、女性の「家事+育児」時間の長さがマイナスに押し下げる要因であることがわかりました。マクロ的なデータからの結果でしたが、興味深い分析結果が得られました。

図3 滋賀県の分析グラフ

 滋賀県はこれらの要因に対して、いずれも平均的な水準だったことがわかりました。 この分析から、保育所定員比率の増加、女性正規雇用者割合の増加、性別役割分担意識の改善があれば、30代有配偶女性の労働力率をアップできるかもしれないと推察されています。

 この分析をもとに、どのように施策介入へフィードバックするかはさらなる検討は必要です。やはりデータ利用環境のさらなる整備は必要で、データ環境がそろえば、もっとミクロ的に検討していくことができ、さらなる有用なEBPMにつなげていけるはずです。

データサイエンスを学び、これからのEBPMに役立てましょう。

 現在のデータサイエンスにより、人間を超えた優れた予測が可能になってきています。ただ、その優れた予測性能を政策立案などに活かすためには、AIのエネルギー源であるデータ環境の充実化、そして現在のAIはできないスキルの一つ、因果関係を明らかにしていく要因分析力が必要です。そのためデータサイエンスを学び、これからのEBPMに役立ててほしいと思います。

参考ページ

プロフィール

滋賀大学データサイエンス学部 教授 杉本知之 すぎもとともゆき

大阪大学理学部数学科卒業、大阪大学大学院基礎工学研究科博士前期課程修了。博士(理学)。大阪大学助教、弘前大学准教授、鹿児島大学教授(理工学研究科数理情報学専攻)などを経て、現職。専門は、統計科学。数理統計学、医学統計、機械学習などデータサイエンスの研究と教育に携わる。主著に『Rで学ぶデータサイエンス:樹木構造接近法』共立出版(共著)等。

サイトマップ
ページ上部へ アンカーのアイコン画像