推測統計

 推測統計とは、母集団から抽出した標本の情報を用いて、母集団の情報を推測することです。母集団が非常に大きい場合、母集団の全てを調査することは、手間や費用が膨大にかかります。そのため、標本調査を実施し、標本調査のデータから母集団のデータを統計学的に推測することが多くあります。
統計学的に推測するには、データに当てはまるであろう確率分布を推定し、その確率分布を基に、母集団のデータを推測します。

(1)確率変数と確率分布

本項における参考情報

✧「指導用 高校からの統計・データサイエンス活用~上級編~」
 第4部 統計的探究の実践 Ⅲ ~モデルに基づいて現象を理解する~
✧なるほど統計学園 > 参考TOP > 13 統計用語辞典

確率変数

 確率変数とは、どの値をとるか確実には分からず、確率的に決まる変数のことを示します。例えば、サイコロを振ったときに1から6のどの目が出るかは確実には分からず、ゆがみのないサイコロであれば1/6の確率で、1から6のいずれかの目が出ます。よって、サイコロを振ったときに1から6のどの目が出るかが、確率変数です。この場合、確率変数を 𝑥 とおくと、確率変数 𝑥 は1から6までの整数の値をとることになります。

確率分布

 確率分布とは、確率変数がとる値ごとの確率を表したものです。確率変数ごとの確率の合計は、1となります。例えば、サイコロを振ったとき、1から6のどの目が出るかの確率分布は、以下の表のようになり、1からの6の目の確率の合計は1となります。

確率変数 (𝑥)=サイコロの出る目 1 2 3 4 5 6
確率 1/6 1/6 1/6 1/6 1/6 1/6

 

代表的な確率分布

 サイコロを振ったときに出る目の確率分布は一様分布(値となる確率が等しい分布)ですが、他にも代表的な確率分布として、正規分布、二項分布、ポアソン分布などがあります。

分布名 説明
正規分布 理論的な確率分布。母集団から標本を無作為に抽出する場合、標本の大きさが大きくなるほど正規分布に近づく。二項分布の試行回数 n が非常に大きい場合、正規分布に近づく。
二項分布 何かを行った場合に生じる結果が 2 つしかない試行を n 回繰り返す場合に当てはまる分布。例えば、成功・失敗、表・裏、当たり・はずれ等。
ポアソン分布 二項分布で、施行回数 n が非常に大きく、かつ、まれな現象である場合に当てはまる分布。例えば、大量に製造された製品の不良品数、日本の航空事故の発生件数等。

 

正規分布

ここでは、特に重要な正規分布について、説明します。

 テストの成績は通常、平均点の近くの人数が一番多く、0点や100点に近づくほど人数が少なくなり、得点の分布は左右対称の釣鐘型になることが多いと言われます。このような分布の型を「正規分布」と言います。全国の高校生の身長や体重の分布など、多くの分布の型は正規分布であることが知られています。正規分布のグラフは中央が一番高く、両側に向かってだんだん低くなっていき、左右対称の釣鐘型をしていますが、正規分布の場合、この中央の一番高い位置に平均値がきます。

 また、分散や平均値がどんな値でも、正規分布は次の性質をもっています。

 この性質をグラフ上に表したのが次の図です。

図 正規分布の性質

正規分布の性質

 統計データが正規分布となっている場合、平均値と標準偏差が分かれば、値が全体の中でどこに位置するのかがほぼ正確に分かります。

コーヒーブレイク

変わった正規分布の使いみち その1

 フランスの数学者、ジュール・アンリ・ポアンカレ(1854-1912)は、毎日パンをひとかたまり買うことを習慣にしており、その重さは1kgといわれていました。彼は一年間、買ったパンの重さを計り続けたところ、パンの重さが950グラムを平均とする正規分布となることがわかりました。つまり、平均して50グラム少なかったわけです。
 この事実を警察に訴えると、警察はパン屋に警告を与えました。彼は、その後もまた1年間のパンの重さを計ったところ、一番頻度が多かったのは950グラムでしたが、今度の分布は左右対称ではありませんでした。分布の右半分(重い方)の裾は前と同じでしたが、左側(軽い方)の裾は短かったのです。つまり、パン屋はやり方を変えずに、また苦情を言われないよう、いつも手元のある大きめパンを彼に売っていたことをデータから見抜いたのです。パン屋はこの事実をポアンカレが見抜いたことに驚いたそうです。
 正規分布を元にした考え方は、現在においても、商品の不良品を少なくするために、工場における商品管理などで使用されることがあります。
■参考文献
確率・統計で世界を読む (白揚社)、バート・K. ホランド(著), Bart K. Holland (原著), 林大 (翻訳)

 

標本分布

 母集団から無作為抽出を繰り返して標本をn 個得ると、これらから得られるn 個の標本データは、確率変数と見なすことができます。
 標本の算術平均(標本平均)や分散などの統計量は、無作為抽出によって標本を取り直すと変動する確率変数であり、この統計量の確率分布を標本分布といいます。
 母集団の分布の形がどのようなものであっても、抽出方法に偏りがなく、標本サイズ 𝑛 が大きくなるほど、標本平均は近似的に正規分布に従うと考えられます。この性質を中心極限定理といいます。

標本サイズn を大きくしたときの X̄ の分布の変化

図: 標本サイズn を大きくしたときの X̄ の分布の変化

 このことは、母集団から標本を観測してそれらの標本平均を計算する操作により、n が十分大きくとることができれば、正しい μ に十分近い推定が期待できることを意味しています。この性質を大数の法則といいます。