統計家 西内 啓
Ridgelinez(リッジラインズ)株式会社
株式会社NTTデータ
コマツ
東京ガス株式会社
日本航空株式会社
株式会社日立インフォメーションアカデミー
株式会社ブレインパッド
アクセンチュア株式会社
Ridgelinez(リッジラインズ)株式会社は、企業のDX(デジタルトランスフォーメーション)を支援するコンサルティング会社です。DXとは、AI、IoT、クラウド等の先進テクノロジーやデータを駆使して、新たな事業・サービスの創出やビジネスモデルの変革、組織や企業文化の変革などをもたらすものです。シニアマネージャーの安藤剛寿氏にお話を伺いました。
「DXでのデータ活用」がメインターゲットになります。例えば、業務の変革に携わり、業務のボトルネックがどこにあるかの分析、あるいは新事業創出のようなところでデータ分析を活用しています。
特定の業種/業務に限らず、データが蓄積されていればいろいろなことを行なっています。例えば、新ビジネス開発であれば、新しい商品をどんな企画ではじめたらよいかをデータを使って調査するとか、疾病リスクを予測できないか?とか、安全運転の指標をつくれたりしないだろうか?など、本当にいろいろな取組を行っています。
具体的には、1年以内に糖尿病になるリスクの予測をAIのテクノロジーを使って実現しました。
当初、糖尿病の一般的な判定基準であるHbA1cと空腹時血糖のデータのみを使用して予測モデルを構築したところ、その正解率は70%程度でした。さらに精度を向上すべく、医師にインタビューしたところ、問診の際には、生活習慣や体重の推移など、様々な情報を集め、それらも含めて健康指導を行っていることを知りました。このような知識(ルール)を全てプログラミングするのは不可能なため、健康診断の過去3年分のデータを収集し、100種類以上のデータ項目を作成し、糖尿病になった人とならない人にどのような違いがあるかをAI技術(機械学習)を用いて分析しました。その結果97%の確率で、糖尿病のリスクを判定できるようになりました。
ルールを専門家から聞いてプログラミングするのではなく、AIを使用してデータを学習させることによって、より複雑なルールを見つけ出すというアプローチを重要視しています。
・ビジネス問題解決能力
・データエンジニアリング
・データサイエンス
この3つが、データサイエンティストとして必要な専門スキルだと考えていますが(言葉は違いますが、データサイエンティストを職種として採用している企業では、大抵、上記3つをデータサイエンティストの専門スキルとしています)、この3つの要素を全て万遍なく保有している人は、なかなかいません。なぜなら、この3つは、それぞれ違った分野の専門スキルとなるためです。
ビジネス問題解決能力
ビジネス領域のスキルで、クライアントビジネス/業務の仕組みを把握し、クライアントのニーズを理解し、ビジネス課題をデータで解く問題として設計する力が必要です。
データエンジニアリング
IT技術を駆使し、データの加工やクレンジングなど、データマネージメント技術を持ち、AI技術を搭載したシステムを設計/構築する力が必要です。
データサイエンス
日々進歩する機械学習を含む、最新のアナリティクス技術を技術論文/インターネットの記事などを通して身につけて、自在に使いこなせる力が必要です。
この3つの素養を万遍なく保有していることが理想ですが、この中のどれか1つでもスキルがあればデータサイエンティストとして期待できると思います。
3つのスキルの中で、私が重要視しているのは、やはりデータサイエンスのアナリティクススキルです。アナリティクスの知識を軸に、実際にデータを活用していくという事においては、ビジネス問題解決の知識、クライアントの業務を理解して、活用可能なデータ分析を設計するためには、データエンジニアリングのスキルが必要になると考えています。
先ほどの糖尿病リスク予測の話になりますと、例えば、リスクが高いと判定された人に対して、健康指導員が生活習慣を変える特別な指導を行なうことを考えます。この場合、1人当たりの指導にはそれなりのコストがかかる上に、沢山の人を対象にはできないため、高精度でリスクの高い人をある程度人数を絞って当てる必要があります。
一方、リスクが高い人に、「1日100歩多く歩いてみませんか?」というような、健康指導のメールを出す場合には、メール配信自体には、あまりコストがかからず、少しでもリスクが高そうな人には全員にメールを出せばよいため、高精度というよりも、リスクがある人を漏れなく抽出することが重要になります。
このように、同じテーマのデータ分析でも活用の仕方によって到達すべき精度、目的が変わってきます。そういう事を設計できるところがビジネス問題解決のスキルということになります。そして、こうしたデータ分析をシステム化して継続的に活用していくのであれば、データエンジニアリングのスキルが必要になってきます。
育成は難しいですね。
入社後の教育としては、一般的な統計とかAIに関する知識に関しては、座学というかEラーニング的なものがありますので、まずは、基礎知識を増やしてもらいます。その後は、基本的にはOJT方式で実際のデータ分析のプロジェクトに参画し、その中でリーダーからの指示を受けて、いろいろなデータ分析をやってみることが大事だと考えています。
私の経験では、ある程度データサイエンスのスキルをもった人材、大学時代にデータ分析を行っていたとか、あるいは機械学習とかAIを使って研究を行っていた人材の場合は、2、3年くらいデータ分析プロジェクトに携わっていると、1人前とはいかないまでも、1人でやってけるようになり、データサイエンティストの肩書を名乗れるくらいになってくると感じています。
やりがいはすごくあると思います。
基本的にはデータを見て、そこから分かる事柄を積み上げていき、良いとか悪いとか言うにしてもデータに基づいた事実の積み上げでやっていけるというところに魅力がありますね。
また、予測のような話になると、クライアントができると思っていなかったことを実現して驚いたりしてくれる、そういったところにとてもやりがいを感じます。
糖尿病リスク予測の話などは、2010年頃の話になるのですが、当時はそういったことがAIで実現できるという事はあまり考えられてなかったため、そういう想像できなかったところに結果が出せるというところが面白いです。
進化しましたね。
1番はやはり、データが増えたこと。例えばスマートフォンのカメラで撮影される画像とか動画、GPS(位置)情報など、取得できるデータ量と種類が増えました。
それにプラスして、コンピュータパワーの向上ですね。世界1になった富岳に代表されるコンピュータパワーの進化はかなり大きいです。大量のデータを一気に処理できるというところが数年前と比べてもかなり進歩しています。大量のデータをインプットとし、莫大な計算量が必要なアルゴリズムをコンピュータパワーで処理することが現実的に可能になったからこその進化だと思います。
データ分析を請け負う人は一定数、市場にはいるのですが、会社や組織の中でデータサイエンティストを育成したい、データ分析を内製化したいという話をよく聞くようになってきました。データサイエンティストというのは、今は特殊な業務だと思うのですが、今後は各企業に取り組まれていき、その中の何人かがデータ分析を基軸に業務を改善するチームを形成していく、ということが一般化してくるのではと思います。
大量のデータを入手できるようになってきましたが、スマートフォンのデータは端末内か、キャリアに溜まっていますし、物を買ったというデータは購入した店に溜っている、というように、様々なデータが散在している状態です。それぞれの分野に限れば、大量にデータが蓄積し始めているのですが、それを繋げることはできていない。プライバシーだったりセキュリティだったり課題はたくさんありますが、私たちはそういったデータをすべて繋げたいと考えています。
皆さんが、企業で活躍するデータサイエンティストを目指すのであれば、アナリティクスのスキルを基礎能力として高めていかなければならないと思います。ただし、データの分析とデータの活用は異なる部分があるため、研究的にアナリティクスをしている人がいきなりビジネスの場で活躍できる訳ではないところが、難しいところです。研究的な要素を極めることも大切ですが、現実の問題をどうやってデータ分析で解ける問題にするか?という視点を持ってください。私たちは、問題設計と呼んでいますが、重要なのは、「どういう問題を解くか」というところです。
それは、実際のプロジェクトを経験していかないと中々身につかないところではあると思いますが、データ分析コンテストでも問題設計能力を問われるものもありますので、そこを意識して取り組まれるといいかなと思います。