必要なサンプルサイズの大きさは
先日社会調査に関連した話の中で、「完全に無作為抽出が達成されてたとしたらサンプルサイズがどれくらい必要か」についての話になった。「今の首相を支持するかどうか」のようなシンプルな比率の調査をする際にどれくらいのサンプルの大きさがあれば信頼に足るのかを例に考えてみる。
仮に、現在の首相の支持率が母集団において0.3だとする。で、この母集団からn人だけ標本抽出をするのだが、それぞれの人の回答というのが独立していると考えると、これはの二項分布に従うことになる。
二項分布の期待値はであるため、この場合の期待値はである。10人から回答を得るとすると、支持者は平均的に3人になるし、100人から回答を得るとすると、支持者の数は平均的に30人になる。(平均的にというのは、同じnで標本抽出を繰り返せば28人とか33人とか数値を得ることもあるけど、それらの標本値の分布の平均は30人になるということ。)
続いて二項分布の分散はなので、この場合はになる。そして、その標準偏差はになる。例えば、100人から回答を得たのであればとなる。
さて今、関心があるのは支持率という比率であるので実現値をnで割ると、
となり期待値はpになる。
分散と標準偏差はどうなるかというとであるから、
となる。
ところで、二項分布はnの数が十分に大きければ正規分布で近似ができるのであった。すなわち、標本から得られた比率は、近似的にに従う(今求めた期待値と分散)。そこで、信頼係数95%で、
である。ここで、推定の誤差をを一定の値E以内にしようとしたときに、と置いて上の式に代入し、不等号を=にしてnについて解くと、
が得られる。このEに任意の値を入れることで、確率95%で誤差がEに収まるためのnを求めることができる。
ただ、計算のためにはpの値が必要なのだが、調査を行う前にはこのpが分からないのが普通である(分かっていたのならばそもそも調査などしない!)。の取りうる最大値は0.25であるので、とりあえずにして計算をすれば大きめに標本サイズを見積もることになるが安全だろう。
最初の例にもどり支持率を調査しようと思った場合に、誤差3%に押さえたいとする。Eに0.03を代入すると
が得られる。すなわち、サンプルサイズを1068以上にすれば、95%の確率で標本から得られた支持率が、母集団における支持率と3%以上離れていないと考えることができる。
ちなみに誤差を5%以内にすると必要なサンプルサイズは385、誤差を1%以内に抑えようとすると9604必要になる。1%単位の誤差で必要なサンプルサイズは結構変わるものである。
ちなみにちなみに、大まかな支持率に当たりが付いているのであれば計算式ののとる値は小さくなるので必要な標本サイズも小さくなる。
- 作者: 宮川公男
- 出版社/メーカー: 有斐閣
- 発売日: 2015/03/30
- メディア: 単行本
- この商品を含むブログを見る