総務省統計局

  • 採用情報
  • リンク集
  • ご意見・お問合せ
  • サイトマップ
  • 文字サイズ等の変更
  • English
  • 採用情報
  • リンク集
  • ご意見・お問合せ
  • サイトマップ
  • 文字サイズ等の変更
  • English
  • ホーム ホーム
  • 実施中の調査 実施中の調査
    • 実施中の調査
    • 労働力調査
    • 家計調査
    • 小売物価統計調査
    • サービス産業動態統計調査
    • 個人企業経済調査
    • 科学技術研究調査
    • 経済構造実態調査
    • 家計消費状況調査
    • 家計消費単身モニター調査
    • サービス産業動向調査
    • 事業所・企業照会
  • 統計データ 統計データ
    • 統計データ
    • 分野別一覧
    • 50音順一覧
    • 政府統計公表・提供状況
      (府省別)(政府統計の
      総合窓口へリンク)
    • 公表スケジュール
    • 公表期日前統計情報等を
      共有する者の範囲(PDF)
    • 統計トピックス
    • 品質管理への取組
    • 統計表一覧(Excel集)
    • 統計メールニュース
    • 結果の利用案内
  • よくある質問 よくある質問
    • よくある質問TOP
    • 統計データの入手先に
      関する問い合わせ
    • 統計局等が作成する統計のQ&A
  • 統計研究研修 統計研究研修
    • 統計研究研修TOP
    • 統計研究研修所について
    • 統計研究
    • 統計研修
    • 統計研究研修所リンク集
    • 統計研修受講記
    • 所在地・交通案内
  • 広報・募集 広報・募集
    • 広報・募集TOP
    • 広報資料
    • 報道発表資料
      (調査結果の公表を除く)
    • パブリックコメント
    • 国際協力
    • 匿名データの作成・提供
      及びオーダーメード集計
    • 採用情報
    • 調達情報
    • 東日本大震災関連情報

  • 組織紹介 組織紹介
    • 組織紹介TOP
    • 日本の未来をつくる
      「統計」‐統計局等業務
      案内
    • 統計調査等業務の業務
      ・システム最適化と
      政府統計共同利用システム
    • 統計局の使命と行動指針
    • 統計センターと
      独立行政法人評価について
    • 統計局のイメージデザイン
    • 所在地・交通案内

閉じる
  • ホーム
  • 総務省統計研究研修所
  • メッセージ
  • データサイエンス力 ? 「情報を知識として使うために」再論

ここから本文です。

データサイエンス力 − 「情報を知識として使うために」再論

総務省統計研究研修所 統計研修研究官 槙田 直木 

 

 いまさら「リスキリング」(学び直し)だなんて、「生涯学習」の焼き直しでしょ。「データサイエンス」って騒ぐけど、はやり言葉の「情報革命」や「ビッグデータ」の再来では。

 

 そんな風に思っていた気持ちが、吹き飛んでしまった。

 

 機械学習に関するeラーニングを先日経験したことで、リスキリングやデータサイエンスの重要性について、脂汗をかきながら思い知らされた。

 

 公的統計の利用やその作成に従事する国家公務員・地方公務員のために、総務省統計研究研修所では、初任者から管理職まで、また分野ごとに専門コースも含めて、さまざまな研修を開講している。

 

 このような統計に携わる職員のために実施される統計研修は、外国の統計局でも存在する。それは国連機関でも世界各地で同様に展開がされており、アジア太平洋地域には国連アジア太平洋統計研修所(UN SIAP)があり、日本の千葉県幕張市にその拠点を置いている。UN SIAPは、1970年の設置以来、日本政府(総務省)の協力の下、各国の公的統計家が参加する集合研修やe-learningを実施している。

 

 先日、私が受講したのは、そのUN SIAPが開講した「公的統計とSDGsのための機械学習」コースである。(2023年11月27日〜2024年1月19日 United Nations Statistical Institute for Asia and the Pacific  "Machine Learning for Official Statistics and the SDGs"」 https://siap-elearning.org/course/view.php?id=202 )

 

 受講期間中の私は、学生時代の教科書を引っ張り出して、積もったほこりを拭き取りながら(実話です)、回帰分析の基礎や統計的検定などのページを真剣にめくり復習する羽目になった。

 

 今日、あらゆる分野に浸透しつつあるデータサイエンス。そこに登場する機械学習の基礎や、学習結果の評価の方法、その中から見えてくる機械学習の限界について、理解を深めることができた。講義では、学習用データやアルゴリズムに入り込みかねないバイアス(偏見)の危険性や、機械学習を利用するにあたっての社会との対話といった、現代的な情報倫理も含まれていた。

 

 6週間は短いようでとても長いように思えたが、無事、私も修了することができた。知識をアップデートしていくリスキリングの経験も含めて、これからのことにきっと役に立つだろう。

 

 筆者は、以前、この「メッセージ」のコーナーに、「統計力 情報を知識として使うために」を投稿した。当時伝えたかったことは、統計という「情報」は、標本設計や用語定義といった「メタデータ」も理解してその限界をわきまえながら、地に足の付いた「知識」として使うべし、ということであった。

2003年7月1日 統計力・・・情報を知識として使うためにhttps://www.stat.go.jp/training/6kouryu/m15-2.html

 

 この「メッセージ」コーナーでの投稿はかなり久しぶりのものとなるが、今ここで伝えたいことは当時から変わらない。

 

 統計を作成するためにインプットできる材料は、数字や分類格付けされたデータに限らず、データサイエンス時代の今日、画像や音声、動画といったあらゆるデータを加工することができるようになってきている。

 

 そのような中、母集団から抽出して作る標本調査同様に、多様な情報源を通して得られるモダンmodernな統計も、その限界をわきまえながら作成することが必要である。ここで重要になるのは、統計学、情報処理に加えて、情報源としている現場についての理解である(ドメイン知識)。

 

 こうして作成した統計という「情報」がうまく活用され「知識」や価値が創造されるために、作成者は「メタデータ」をよりよくコミュニケーションするよう努めなければならない。また、利用者も、統計と併せて「メタデータ」について十分な理解が求められる。

 

 日々の公務の中では新しい知見の収集に追われがちになるが、世界的なコロナ禍を経て、私たちの就業環境はeラーニングを含めたリモートが拡充され柔軟なものに進化している。

 統計研究研修所が開講するコースを含め、さまざまなレベル・機会での研修を通して得られるリスキリングが一助となって、公的統計や行政の質の向上が図られることが望まれる。

 

(参考)

 今回受講したUN SIAP機械学習eラーニングについて、少々具体的に書き記す。何かしら興味を持たれた方には、ぜひ挑戦されたい。

 

 研修コース全体は6週間であり(今回は11月末から休暇を挟んで1月まで)、週替わりのトピックが続く形で行われた。この中には、週の決まった時間に1時間の「必修」科目としてライブ配信ウェビナーが設定されていて、アジア太平洋の公的統計家らとオンライン同席しながら(百人超)、聴講した。1週当たりの学習負荷は「3時間」とされていたが、丁寧に学ぼうとすればもう少し時間を掛けることになる(私の場合、多少の復習を要した)。

 

 事前録画された講義動画のトピックは、ロジスティクス回帰、ランダムフォレスト、サポートベクターマシンといったものであり、それぞれの機械学習とその評価方法について学んでいった。統計処理ソフトRのソースコード(プログラム)の提供もあり、自分のコンピュータの上で実際に統計処理やデータ可視化を走らせて「機械学習の追体験」をすることができた。

 

 最終週は、衛星画像を基にした貧困地図の作成。アジア開発銀行ウェブサイトからダウンロードするガイドブックを用いて、講義動画を合わせた紙上演習を行うという形だった。その内容は、フィリピン政府やタイ政府が自治体別に分計作成した貧困指標を基礎として、オープンデータ(行政区界ポリゴン・衛星画像・夜間光情報)とクラウド(Google Colab上で演算するR・Python)をフル活用しながら、機械学習(畳み込みニューラル ネットワークCNN)を駆使するというものであり、緯度経度で区切ったメッシュ単位のマップの作成過程をステップ・バイ・ステップで追うことができた。

 A Guidebook on Mapping Poverty through Data Integration and Artificial Intelligence (April 2021)

 https://www.adb.org/publications/guidebook-mapping-poverty-data-integration-ai

 

 ちなみに、この貧困地図プロジェクトは、日本政府(財務省)拠出の「アジア開発銀行 豊かで強靭なアジア太平洋日本基金」の成果の1つである。

Arturo M. Martinez Jr, Statistics and Data Innovation Unit, Economic Research and Development Impact Department, Asian Development Bank (ADB) Navigating Development Challenges with Data: ADB’s Statistical Data Products and Statistical Capacity Building Initiatives Joint meeting of the Steering Groups of the ESCAP Committee on Statistics 2023

https://www.unescap.org/events/2023/joint-meeting-steering-groups-escap-committee-statistics

 

 

(2024年3月1日 掲載)


バック ホーム

ページの先頭へ戻る

〒162-8668 東京都新宿区若松町19番1号 電話 03-5273-2020(代表)
©1996 総務省(法人番号2000012020001)統計局
  • 所在地・交通案内
  • サイトの利用について