ここから本文です。
データサイエンス力 − 「情報を知識として使うために」再論
総務省統計研究研修所 統計研修研究官 槙田 直木
いまさら「リスキリング」(学び直し)だなんて、「生涯学習」の焼き直しでしょ。「データサイエンス」って騒ぐけど、はやり言葉の「情報革命」や「ビッグデータ」の再来では。
そんな風に思っていた気持ちが、吹き飛んでしまった。
機械学習に関するeラーニングを先日経験したことで、リスキリングやデータサイエンスの重要性について、脂汗をかきながら思い知らされた。
公的統計の利用やその作成に従事する国家公務員・地方公務員のために、総務省統計研究研修所では、初任者から管理職まで、また分野ごとに専門コースも含めて、さまざまな研修を開講している。
このような統計に携わる職員のために実施される統計研修は、外国の統計局でも存在する。それは国連機関でも世界各地で同様に展開がされており、アジア太平洋地域には国連アジア太平洋統計研修所(UN SIAP)があり、日本の千葉県幕張市にその拠点を置いている。UN SIAPは、1970年の設置以来、日本政府(総務省)の協力の下、各国の公的統計家が参加する集合研修やe-learningを実施している。
先日、私が受講したのは、そのUN SIAPが開講した「公的統計とSDGsのための機械学習」コースである。(2023年11月27日〜2024年1月19日 United Nations Statistical Institute for Asia and the Pacific "Machine Learning for Official Statistics and the SDGs"」 https://siap-elearning.org/course/view.php?id=202 )
受講期間中の私は、学生時代の教科書を引っ張り出して、積もったほこりを拭き取りながら(実話です)、回帰分析の基礎や統計的検定などのページを真剣にめくり復習する羽目になった。
今日、あらゆる分野に浸透しつつあるデータサイエンス。そこに登場する機械学習の基礎や、学習結果の評価の方法、その中から見えてくる機械学習の限界について、理解を深めることができた。講義では、学習用データやアルゴリズムに入り込みかねないバイアス(偏見)の危険性や、機械学習を利用するにあたっての社会との対話といった、現代的な情報倫理も含まれていた。
6週間は短いようでとても長いように思えたが、無事、私も修了することができた。知識をアップデートしていくリスキリングの経験も含めて、これからのことにきっと役に立つだろう。
筆者は、以前、この「メッセージ」のコーナーに、「統計力 情報を知識として使うために」を投稿した。当時伝えたかったことは、統計という「情報」は、標本設計や用語定義といった「メタデータ」も理解してその限界をわきまえながら、地に足の付いた「知識」として使うべし、ということであった。
2003年7月1日 統計力・・・情報を知識として使うためにhttps://www.stat.go.jp/training/6kouryu/m15-2.html
この「メッセージ」コーナーでの投稿はかなり久しぶりのものとなるが、今ここで伝えたいことは当時から変わらない。
統計を作成するためにインプットできる材料は、数字や分類格付けされたデータに限らず、データサイエンス時代の今日、画像や音声、動画といったあらゆるデータを加工することができるようになってきている。
そのような中、母集団から抽出して作る標本調査同様に、多様な情報源を通して得られるモダンmodernな統計も、その限界をわきまえながら作成することが必要である。ここで重要になるのは、統計学、情報処理に加えて、情報源としている現場についての理解である(ドメイン知識)。
こうして作成した統計という「情報」がうまく活用され「知識」や価値が創造されるために、作成者は「メタデータ」をよりよくコミュニケーションするよう努めなければならない。また、利用者も、統計と併せて「メタデータ」について十分な理解が求められる。
日々の公務の中では新しい知見の収集に追われがちになるが、世界的なコロナ禍を経て、私たちの就業環境はeラーニングを含めたリモートが拡充され柔軟なものに進化している。
統計研究研修所が開講するコースを含め、さまざまなレベル・機会での研修を通して得られるリスキリングが一助となって、公的統計や行政の質の向上が図られることが望まれる。
(参考)
今回受講したUN SIAP機械学習eラーニングについて、少々具体的に書き記す。何かしら興味を持たれた方には、ぜひ挑戦されたい。
研修コース全体は6週間であり(今回は11月末から休暇を挟んで1月まで)、週替わりのトピックが続く形で行われた。この中には、週の決まった時間に1時間の「必修」科目としてライブ配信ウェビナーが設定されていて、アジア太平洋の公的統計家らとオンライン同席しながら(百人超)、聴講した。1週当たりの学習負荷は「3時間」とされていたが、丁寧に学ぼうとすればもう少し時間を掛けることになる(私の場合、多少の復習を要した)。
事前録画された講義動画のトピックは、ロジスティクス回帰、ランダムフォレスト、サポートベクターマシンといったものであり、それぞれの機械学習とその評価方法について学んでいった。統計処理ソフトRのソースコード(プログラム)の提供もあり、自分のコンピュータの上で実際に統計処理やデータ可視化を走らせて「機械学習の追体験」をすることができた。
最終週は、衛星画像を基にした貧困地図の作成。アジア開発銀行ウェブサイトからダウンロードするガイドブックを用いて、講義動画を合わせた紙上演習を行うという形だった。その内容は、フィリピン政府やタイ政府が自治体別に分計作成した貧困指標を基礎として、オープンデータ(行政区界ポリゴン・衛星画像・夜間光情報)とクラウド(Google Colab上で演算するR・Python)をフル活用しながら、機械学習(畳み込みニューラル ネットワークCNN)を駆使するというものであり、緯度経度で区切ったメッシュ単位のマップの作成過程をステップ・バイ・ステップで追うことができた。
A Guidebook on Mapping Poverty through Data Integration and Artificial Intelligence (April 2021)
https://www.adb.org/publications/guidebook-mapping-poverty-data-integration-ai
ちなみに、この貧困地図プロジェクトは、日本政府(財務省)拠出の「アジア開発銀行 豊かで強靭なアジア太平洋日本基金」の成果の1つである。
Arturo M. Martinez Jr, Statistics and Data Innovation Unit, Economic Research and Development Impact Department, Asian Development Bank (ADB) Navigating Development Challenges with Data: ADB’s Statistical Data Products and Statistical Capacity Building Initiatives Joint meeting of the Steering Groups of the ESCAP Committee on Statistics 2023
https://www.unescap.org/events/2023/joint-meeting-steering-groups-escap-committee-statistics
(2024年3月1日 掲載)