超幾何分布と二項分布
超幾何分布というのは二項分布の「親」であるらしい(『キーポイント確率統計』岩波書店)。どういうことかというと、超幾何分布の当たり数とはずれ数の比を一定にしたまま、当たり数とはずれ数の数を極限まで増やすと、二項分布に一致するからである。
これは直感的にもまぁ分かる。例えば、あたり数が2、はずれ数が8のくじがあった場合に、前にくじをひいた人が当たったか外れたかによって自分のあたる確率は大きく変わるが、当たり数が200、はずれ数が800あるくじを引くのであれば前の人の当たりはずれは、自分の当たる確率にそう影響は及ぼさない。
さて、どの程度当たり数とはずれ数が増えると二項分布に近くなるのだろうか。あたりとはずれの比率を2:3(つまりp=0.4)、試行数を4回に固定して考えてみる。
まず、あたりが4、はずれ6(くじの総数は10)ぐらいでやってみる。
m <- 4 #あたりの数 N <- 10 #総数 n <- N-m #はずれの数 k <- 4 #試行数 p <- m/N #二項分布におけるあたりの確率 aa <- dhyper(0:k,m,n,k) bb <- dbinom(0:k,k,p) cc <- data.frame( Hyper = aa, Binom = bb ) rownames(cc) <- c("0","1","2","3","4") barplot(t(cc), beside =T) legend("topright", fill= c("#333333", "#eeeeee"),legend = c("Hyper", "Binom"))
これだとそれなりに違って見える。
次にあたりはずれを倍にしてくじの総数を20にしてみる。
さっきよりはだいぶ近づいた感じがあるがまだ差はある。
続いて、最初の5倍。総数を50にして試してみる。
だいたい同じ形になりましたね。
最後に、最初の100倍で総数1000にしたのが次のもの。
これで、ほぼ同じ分布と言って良いのではないでしょうか。
ということで、超幾何分布のあたりとはずれの数が十分に多ければ、それはベルヌーイ試行とみなして二項分布になるという話でした。