猫も杓子も構造化

発達障害、特別支援などについて書いています。最近は心理学関係の内容が多めです。

必要なサンプルサイズの大きさは

先日社会調査に関連した話の中で、「完全に無作為抽出が達成されてたとしたらサンプルサイズがどれくらい必要か」についての話になった。「今の首相を支持するかどうか」のようなシンプルな比率の調査をする際にどれくらいのサンプルの大きさがあれば信頼に足るのかを例に考えてみる。

仮に、現在の首相の支持率が母集団において0.3だとする。で、この母集団からn人だけ標本抽出をするのだが、それぞれの人の回答というのが独立していると考えると、これは B(n, 0.3)の二項分布に従うことになる。

二項分布の期待値は E(x) = npであるため、この場合の期待値は E(x) = 0.3nである。10人から回答を得るとすると、支持者は平均的に3人になるし、100人から回答を得るとすると、支持者の数は平均的に30人になる。(平均的にというのは、同じnで標本抽出を繰り返せば28人とか33人とか数値を得ることもあるけど、それらの標本値の分布の平均は30人になるということ。)

続いて二項分布の分散は V(x) = np(1-p)なので、この場合は V(x) = 0.21nになる。そして、その標準偏差 \sigma (x) = \sqrt{0.21n}になる。例えば、100人から回答を得たのであれば  \sigma (x) = \sqrt{21} = 4.582 となる。

さて今、関心があるのは支持率という比率であるので実現値をnで割ると、

 \displaystyle E\left(\frac{x}{n} \right) = \frac{1}{n}E(x) = p

となり期待値はpになる。

分散と標準偏差はどうなるかというと V(ax) = a^2 V(x)であるから、

 \displaystyle V(\frac{x}{n}) = \frac{1}{n^2}V(x) = \frac{np(1-p)}{n^2} = \frac{p(1-p)}{n}

 \displaystyle \sigma(\frac{x}{n}) = \sqrt{\frac{p(1-p)}{n}}

となる。

ところで、二項分布はnの数が十分に大きければ正規分布で近似ができるのであった。すなわち、標本から得られた比率 x/nは、近似的に N(p, p(1-p)/n)に従う(今求めた期待値と分散)。そこで、信頼係数95%で、

 \displaystyle \frac{\left| \frac{x}{n} - p \right|}{\sqrt{\frac{p(1-p)}{n}}} < 1.96

である。ここで、推定の誤差を | x/n - p |を一定の値E以内にしようとしたときに、 | x/n - p | = Eと置いて上の式に代入し、不等号を=にしてnについて解くと、

 \displaystyle \frac{E}{\sqrt{\frac{p(1-p)}{n}}} = 1.96

 \displaystyle \frac{E}{1.96} =  \sqrt{\frac{p(1-p)}{n}}

 \displaystyle \left(\frac{E}{1.96}\right)^2 = \frac{p(1-p)}{n}

 \displaystyle n = \frac{p(1-p)}{(\frac{E}{1.96})^2}

 \displaystyle n = \left( \frac{1.96}{E} \right)^2 p(1-p)

が得られる。このEに任意の値を入れることで、確率95%で誤差がEに収まるためのnを求めることができる。

ただ、計算のためにはpの値が必要なのだが、調査を行う前にはこのpが分からないのが普通である(分かっていたのならばそもそも調査などしない!)。 p(1-p)の取りうる最大値は0.25であるので、とりあえず p=0.5にして計算をすれば大きめに標本サイズを見積もることになるが安全だろう。

最初の例にもどり支持率を調査しようと思った場合に、誤差3%に押さえたいとする。Eに0.03を代入すると

 \displaystyle n = \left( \frac{1.96}{0.03} \right)^2 0.5(1-0.5) \simeq 1067.1

が得られる。すなわち、サンプルサイズを1068以上にすれば、95%の確率で標本から得られた支持率が、母集団における支持率と3%以上離れていないと考えることができる。

ちなみに誤差を5%以内にすると必要なサンプルサイズは385、誤差を1%以内に抑えようとすると9604必要になる。1%単位の誤差で必要なサンプルサイズは結構変わるものである。

ちなみにちなみに、大まかな支持率に当たりが付いているのであれば計算式の p(1-p)のとる値は小さくなるので必要な標本サイズも小さくなる。

【参考】
宮川公男 基本統計学有斐閣

基本統計学 第4版

基本統計学 第4版