ここから本文です。

ゼミナール編（２）　～調査実施と分析

2時限目　標本設計と調査方法

2-1　標本設計

標本誤差の計算

標本誤差とは

標本調査では、母集団から対象となる人たちを確率的に選んで標本とします。そうなると、標本の抽出方法がまったく同じだとしても、乱数の出方によって、対象者は入れ替わりうるわけです。ここにおいて、確率的な誤差が生じます。この、標本抽出に伴って発生する誤差のことを、標本誤差と呼びます。

幸いにも、標本誤差がどのくらいの大きさになるのかは、明らかになっています。ここでは、意識調査の報告書でよく用いられる、比率（例：50%の人が内閣を支持、など）について着目し、その標本誤差について見てみましょう。

標本誤差の計算（比率の場合）

比率の標本誤差は、次の式で計算されます。

比率の標本誤差の値εは、母集団の規模ラージN引く標本の規模スモールnをラージN引く1で割ったものと、当該質問項目の比率P掛ける1引くPをスモールnで割ったものとを掛け、その平方根に誤差の幅をあらわす係数tを掛けたものに等しくなります。

母集団の規模（人数）
標本の規模
当該質問項目の比率
誤差の幅をあらわす係数
比率の標本誤差の値

例えば、母集団となる20歳以上の市民が20万人いる都市で、標本として1,000人を単純無作為抽出で選んできて、調査をするとしましょう。非現実的ですが、回収率は100%だと仮定します。質問項目の比率は0.5とします。どのような値になるか事前にわからないときは、ばらつきが最大となる0.5として見積もるのがよくなされるやり方です。tの値をどうするかは統計的な基準をもとに考えますが、とりあえず2としておきます（注：正規分布の95%信頼区間の幅を概ねの目安とした）。
すると、

比率の標本誤差の値εは、母集団の規模20万引く標本の規模1000を20万引く1で割ったものと、当該質問項目の比率0.5に1引く0.5を掛けたものを1000で割ったものとを掛け、その平方根に誤差の幅をあらわす係数2を掛けたものに等しく、およそ0.0315になります。

と、標本誤差εは0.0315と計算されます。つまり、この例の調査で求められる比率の値には、だいたいプラスマイナス3.2パーセンテージポイントくらいは標本誤差を見込まなければいけないということになります。

標本誤差の大きさは、調査における推定の精度ないし確からしさを意味します。もし、標本誤差をより小さくしたければ、標本規模を大きくするのがよいでしょう。

標本誤差を考慮し、調査対象人数を見積もる

この考え方、計算の仕方を応用すると、標本調査においてどれくらいの人数を調査対象とすべきか、すなわち標本規模を決める目安を見積もることもできます。上記の式を展開することで、次の式になります。

標本の規模スモールnは、比率の標本誤差の値εを誤差の幅をあらわす係数tで割り二乗したものと、母集団の規模ラージN引く1を当該質問項目の比率Ｐ掛ける1引くPで割ったものとを掛け、さらに1を足した値を求め、それでラージNを割った結果の値以上になります。

先ほどだと1,000人しか選ばなかったので標本誤差は0.0315となっていましたが、これを0.02以内にしようとしたら、いったい標本規模を何人とすればよいでしょうか。N、P、tは先ほどと同じ値にし、さらにεを0.02とすると、次のように計算されます。

標本の規模スモールnは、比率の標本誤差の値0.02を誤差の幅をあらわす係数2で割り二乗したものと、母集団の規模20万引く1を当該質問項目の比率0.5掛ける1引く0.5で割ったものとを掛け、さらに1を足した値を求め、それで20万を割った結果の値である約2469.148以上になります。

要するに、2,470人以上を標本として抽出すると、標本誤差0.02以内に収めるという目標が達成される見込みであることがわかります。

ただし、これは単純無作為抽出で標本抽出を行い、回収率が100%であると仮定したときの数字であるのには注意が必要です。

多段抽出を行うと、概ね段数のルートに比例して標本誤差が大きくなることが知られています。例えば二段抽出であれば、εを2の平方根で除して調整する必要があります。結果、より多くの人を対象としなければなりません。

また、回収率が100%からほど遠いと予想されるなら、計算されたnに回収率の逆数（例えば50%なら1/0.5=2）を掛けて、さらに多くの人を対象者として抽出しなければならなくなります。