統計力向上サイト

menu open

「言葉」の意味を統計で扱う

  • 最近流行っている「ビッグデータ」には、大きく分けて2種類のデータがあります。数値化され、そのままコンピュータが処理しやすい「構造化データ」と、テキストや画像のように、そのままでは、コンピュータが処理できないデータ「非構造化データ」です。株式会社NTTデータ(以下NTTデータ)では、米Twitter社が提供するAPI「Firehose」を通じて取得・蓄積した、日本語のTwitterデータおよび日本国内で書き込まれたすべてのTwitterデータを提供していますが、この非構造化データであるテキストデータをコンピュータに認識させ、このように検出したデータをどう処理しているかを、NTTデータ 第三法人事業本部ソーシャルビジネス推進室の佐藤勇一郎氏と高野恭一氏に伺いました。

  • 1

    どんな事業を行っているのでしょうか?

    Twitter社が持っている、2006年からの日本語のTwitterデータがリアルタイムでデータベースに送られてきていて、そのTwitterデータの活用や、販売を行っています。また、データ販売に合わせてデータのテキストマイニングなどの分析業務も行っています。先進的な分析依頼に対しては、一般にサービス提供できるようになるまで、共同で開発を行う場合もあります。例えば分析事例として、新商品が出た時に、ソーシャル(Twitter)でどれぐらい騒がれ、売り上げがどれぐらいになったかを視覚化したり、ツィートで語られているポジティブ/ネガティブな情報から、次のPDCAにつなげる方法を提案したりしています。

  • 2

    テキストマイニングとはどんなことをするのでしょうか?

    テキストマイニングの根底は数値化できない「言葉」を数値化するということです。数値化することで、統計処理等が可能になります。初期の頃のテキストマイニングは、ただ単語を切り分ける、あるいは動詞や名詞などの関係性を明確化して、数値化するだけでした。近年では、ツィート内の話題判定や感情判定、評価(ポジティブ/ネガティブ)判定などが可能となり、今までは人がテキストを読まなければ分からなかった「意味」を捉えることができるようになりました。その際に単語をどこで切るかを統計的に処理しています。例えばテキスト中の「NTTデータ」は一つの単語なのか、それとも「NTT」と「データ」の組み合わせなのかということもコンピュータで処理が行えます。

  • 3

    クラスターの意味づけはどのように行われるのでしょうか?

    テキストマイニングよって、発言(者)をクラスター化(分類分け)することができます。その意味づけやどういうラベルを付けるかは、基本的に人の手によって行われていますし、人の介入は必要不可欠です。例えば、クラスターに対して「かっこいい」という意味をつけるのに、関連するポジティブ単語を土台に人の手でコツコツ作っていくアプローチもありますし、ポジティブな文章を集めて一気に機械学習させるアプローチもあります。ただ、最終的な精度を追求すると、人手でやっていくほうが有効です。この意味づけは分析者のセンスによるところが大きいのですが、統計学を知っているだけで魅力的(セクシー)な分析者になれるかというとそうではなく、人間のことやマーケットのことを知っていることが大事です。今後は、機械学習に対する期待は大きく、この技術を使いツール化することで、データ分析者の裾野を広げることが期待されます。

  • 4

    構造化と非構造化データをどう組み合わせて分析していますか?

    統計分析としては、極めてオーソドックスな手法を使っていて、一種の相関分析を行っています。ある商品を買っている人・買っていない人のツィートをふり分けて、どういったフレーズがツィートの中身として多く出ているかを分析します。例えば「品質が高い」という発言が、商品を買っている人の発言だと仮定し、実際にそれが合っているか、合っていなければ、品質ではないどこに惹かれているかをツィートから導き出しています。

  • 5

    ツィートのリアルタイム分析は可能なのでしょうか?

    リアルタイムにデータを振り分け、高度な分析を行うにはコンピューティングパワーが大量に必要になってしまいます。現状は、リアルタイムに分析するというより、事前に分析してモデルを作りそのモデルに当て込んで、異常検知する方法で行われています。

    しかしながら、リアルタイム分析も研究としては進められています。例えば、防災の際にリアルタイムにどこで物資が足りないとか、人が危険に遭っているかを検知する仕組みなどがその一例です。

  • 6

    今後の活用に関して教えてください。

    ごく普通の会社でもソーシャルデータの分析が使えるように、普及活動を行い、活用への裾野を広げていくことが大事だと思っています。その上で技術活用の面で、もっとすごいことをしたいと思っています。

    例えば、防災面で社会インフラの代替手段として使えないかという研究や、よりリアルタイムに情報を知る事ができないかの研究など、社会的に役立つ部分に広がりを持たせていきたいです。

  • 7

    統計分野で必要と考える人物像、統計学習者へのアドバイスは?

    必要な人材としては、実際に事業とコネクトさせるコンサルタント。データを実際に分析するアナリスト。アルゴリズムを作るエンジニア。この3分野の人材が望まれます。欲を言えば全てを兼ね備えた人が必要なのですが、基礎統計学を抑えたアナリストやエンジニアが、視野を広く持ってコンサル面に手を伸ばすのが早いかと思います。何よりもビジネスに結びつけて考えられる意識が大事です。

    実際の現場で使っている分析手法は、回帰分析、検定、クラスタリング、機械学習ぐらいで、これらの手法に一通り、「手を動かした事」があることが大事です。さらに、データの裏にある考え方を理解し、データのミスに気がつくことができるセンスは重要な要素です。

facebook Tweet Google+