統計力向上サイト

menu open

その数字誤差はないの?

FISHER STREET

ぼうちゃん!どうしたの?

あのね、この間、ここにテレビの取材があったでしょ。

ビジネスマンに人気のデータサイエンス・スクールを突撃取材!

大さんと私が案内役でテレビに出たでしょ。

番組見たけど、ぼうちゃん、可愛かったわよ。

番組の視聴率、良かったんですって。さっき、テレビ局の人が来たの。

なのに、浮かない顔してるのは、どうしてなの?

あの番組の視聴率が良かったので、統計の番組をつくるのですが、番組にレギュラー出演のお願いで、ご挨拶に伺いました。倉府さんのご出演で視聴率をとりますので、是非、ご快諾ください。必ず、あなたを有名にしてみせますよ!

私は嫌なのに理事長まで‥‥

良い話じゃない!ぼうちゃん、向いてるかもよ。

倉府さん、統計的思考を広める機会だ。活きた勉強になるし、有名になれるし、一挙両得だよ。

さすが、理事長!良いことおっしゃいますな。倉府さん、いいお返事、待っていますよ。

私は有名になりたくないし、視聴率に一喜一憂しているテレビ局の番組に興味がないの。

でも!視聴率は推計統計でしょ!

そう! 視聴率も推定統計ね。視聴率の信頼度はどの位かな?

ふふ、統計の話になったら、急に顔が変わったわね。

視聴率調査の信頼度

約0.004% 1,600 万世帯中 600 世帯

聴率調査は1 分単位で測定され、見ている人が、6時ちょうどに何人、6時1分に何人、6時2分に何人といった具合に1 分刻みでデータが算出されていくの。まず、これを全て集計すると各時間の視聴率が計算できるでしょ。これがよく耳にする「毎分視聴率」と呼ばれるものよ。そして、この60個、1時間分のデータの平均値が「平均視聴率」。一般的に番組の視聴率といえば、この平均視聴率のことよ。

関東地方のサンプル数は六百世帯だけ。しかも、毎日一回のサンプリングで平均視聴率を発表していますが信頼度はどのくらい?

杏さん、一回のサンサンプリングだけでどうして、実際の視聴率がわかるの?

何回もやれば、サンプルの平均は実際に近づくでしょ。だから、一回でも、ある程度は近似していると考えるの。

近似していると考えたけど、その次は?

次は、一回だけの標本の平均値分布が実際の平均を含むような範囲を決めるのよ。ぼうちゃんならどうする?

サンプル平均は正規分布に従うから標準誤差をものさしに使うのかな?

そうね。統計学では伝統的に95% の割合で母平均が含まれるような範囲は「標本誤差±2倍」を使うわね。

一回のサンプリングでも同じことが成り立つと考えるのね。

その通り。同じことが成り立つと考えるのが「区間推定」よ。そして95% の割合で母平均が含まれる範囲を「信頼区間」と呼ぶのね。

視聴率20%とは、信頼度95%で標本誤差±3.3%、「16.7%〜23.3%の範囲」ということ。20%の番組がある時23%と算出されても、18%と算出されても、20%の時の誤差の範囲内なのよ。

標本調査の誤差は視聴率が割合だから数学的に計算できる。考慮すべき誤差の大きさは視聴率と標本数で異なる。

イェジ・ネイマンの信頼区画

イェジ・ネイマンの肖像画

イェジ・ネイマン(1894-1981)

ポーランド人の数理統計学者であるネイマンは現代の推計統計学の中心的理論を確立した。1925 年、ピアソンのもとに留学し、息子のエゴン・ピアソンと測度論的確率論など最新の理論で意気投合し、信頼区間の理論などの重要な業績を上げた。第二次世界大戦後は選挙に関する仕事にも関わり、1955 年、後半生を過ごしたアメリカで、独立の学問としての統計学部を創立した。

全調査でデータを漏れなく集められるなら、もちろん、それにこしたことはないけれど、大規模な案件では、現実的ではないからそういう事例に対応するために発達したのが推計統計学なのよね。

そして、区間推定は今やほとんどすべての統計解析で使われているけど、母数の真値は本当にその区間内にあるのか?誰にも分からないことだけに推定するときには、標本調査は、誤差が必ず生じることも忘れないでね。

世の中で発表されている数字の中にも大ハズレがあるってことよね。

「統計をむやみに受け入れる人は必要以上にだまされ、統計をむやみに疑う人は必要以上に物知らずになる」と言った人がいるわ。

杏さん、ありがとう。もっと勉強したくなったわ。倉府 望は初志貫徹よ。今は、統計の基礎をきちんと学びたいから、断ることに決めたわ。

もったいない気もするけど。

facebook Tweet Google+