迷惑メールの判別

 電子メールが広く普及した現在、世界中で送られている電子メールの多くは、迷惑メール(スパムメール)だといわれています。受信した電子メールについて、ユーザー自身が必要なものと不要なものに振り分けることは、電子メールが多い場合、非常に大変です。
 このため、多くのメールソフトでは、スパムメールを効率的かつ自動的に排除するために、メールのフィルタリング機能が使われています。あるメールを受信したとき、これが通常のメールなのか、スパムメールなのかを判別するフィルタリング機能には、電子メールのタイトルや本文中の単語の出現する確率によって両者を判定する統計的な手法などが用いられています。

 ここでは、ベイズ理論を応用した電子メールのフィルタリングとして「ベイジアンフィルタ」について紹介したいと思います。
 ベイズ理論は、18世紀のイギリスの牧師トーマス・ベイズ(※1)の「確率問題の解決のためのエッセイ(1763年)」を起源とする理論であり、過去に起きた事象の確率を利用して、本来に起こる事象の確率を予測する理論です。
 ベイズ理論(ベイズの定理)を応用したベイジアンフィルタは、まず、電子メールの特徴を抽出するため、過去の受信メールを通常のメールとスパムメールに分類して、データベースに格納しておきます。そして、新たに受信した電子メールについて、その内容(文章)を単語に分割(※2)し、データベースの情報(過去の受信メールの情報)を利用し、各単語について、


  1. スパムメールと判明しているとき、このメールが該当単語を含む確率(条件付き確率)
  2. スパムメールでない(通常メール)と判明しているとき、このメールが該当単語を含む確率(条件付き確率)

を計算します。そして、ベイズの定理を用いて、「該当単語を含むメールがスパムメールである確率」を求め、この確率が大きければ、受信メールはスパムメールに分類されます(※3)。さらに、分類された電子メールの情報は、新たに受信した電子メールをスパムメールかどうか判別する際に利用されます。
 このように、ベイジアンフィルタは、あらかじめ蓄積された情報を用いて、新たな事象を判別しているため、判別を繰り返すことで、フィルタの精度の向上やユーザーの趣向に合った判別が望めることになります。

ベイジアンスパムフィルタ(イメージ)

ベイジアンスパムフィルタ(イメージ)

 ベイズ理論は確率論・統計論のみならず、ここで紹介したスパムメールのフィルタリング機能の他にも、経済学、情報科学、心理学、人工知能、行動科学、情報論などの多くの分野において応用がされています。

(※1)
トーマス・ベイズについて、統計年表 トーマス・ベイズをご覧ください。
(※2)
単語(専門的には「トークン」と呼ばれます。)の分割に関して、英語は単語間が空白で区切られているため、基本的には単語を単位として、トークンに分割されます。一方で、日本語は空白で区切られていないため、連続する漢字やカタカナに着目してトークンに分割する方法など、分割にはいくつかの方法があります。
(※3)
ベイズの定理を用いて計算する際は、条件付き確率のほかに「これまでの受信した通常メールとスパムメールの件数の割合(事前確率と呼ばれます。)」が必要となります。






参考文献

  • ・ベイズな予測―ヒット率高める主観的確率論の話、宮谷 隆、岡嶋 裕史、リックテレコム
  • ・史上最強図解 これならわかる!ベイズ統計学、涌井 良幸、涌井 貞美、ナツメ社
▲ ページのトップへ

Copyright © 2013 総務省 統計局 All rights reserved.

〒162-8668 東京都新宿区若松町19-1 TEL 03-5273-2020(代)