猫も杓子も構造化

発達障害、特別支援などについて書いています。最近は心理学関係の内容が多めです。

自由度について

統計関係の概念の中でも理解しづらいものの一つに「自由度」がある。得られたデータから、母分散の不偏推定量を求める時に、nではなくて、n -1 で割るだとか説明されて分かったような分かっていないような気になるアレである。それに関連する学習のメモ。

まず、標本平均の標本分布の話から。ある母集団から標本サイズがnである標本を抽出した際に、その標本平均は様々な値をとる。例えば、母平均が100、母分散が225(母集団標準偏差は15)のIQをとる集団があったとして、その集団から適当に10人ぐらいを抽出して標本平均を求めると、当然のことながら母平均と同じ値になることはあまりない(例えば、102かもしれないし90かもしれない)。ただ、母平均から離れた値はとりづらい(例えば標本平均が60なんかになることは稀である)。このようにして、「標本平均がどのような値を取りやすいか」についての分布を標本平均の標本分布と言う。

この標本平均の標本分布は、平均が母集団と同じμ、分散がσ/nを持つ正規分布に従うことが知られている。

 \displaystyle \mu_\overline{x} = \mu

 \displaystyle \sigma_\overline{x}^2 = \frac{\sigma^2}{n}

IQを例で言えば、この標本平均のとる値は、平均100、分散22.5の正規分布に従い、確率的に変動するということである。

ここまでを前提に自由度の話に入る。標本平均の期待値は、母集団の平均と一致している。こういうものを不偏推定量と言う。では、標本の分散の期待値はどうだろうか。結論から言えば、母分散よりも小さい値になることが分かっている。つまり、標本の分散を母分散の推定量として扱うと、母分散を小さく見積もることとなってしまう。

なぜそのようなことが起きるかというと、標本の分散を算出する際に標本平均を使っていることに由来している。標本平均は先に確認したようにそれ自体が標本抽出のたびに変わる確率的なものであり、μを中心に、σ/nの分散で分布している。その関係もあって、母分散は、標本平均を中心とする分布の分散(標本の分散)と標本平均の標本分布における分散の和と等しくなる。このことを表したのが次式である。

 \displaystyle \sigma^2 = \frac{\sum^n_i (x_i - \overline{x})^2}{n} + \frac{\sigma^2}{n}

右辺の第1項が標本の分散の部分、第2項が標本平均の標本分布の分散である。この式を次のように変形していく。まず、第2項を左辺に移行して通分する。

 \displaystyle
\frac{n\sigma^2 - \sigma^2}{n} = \frac{\sum^n_i (x_i - \overline{x})^2}{n}

左辺のσをくくりだす。

 \displaystyle
\frac{\sigma^2(n -1)}{n} = \frac{\sum^n_i (x_i - \overline{x})^2}{n}

両辺をnで割って(n -1 )を右辺へ移行して完成。

 \displaystyle
\sigma^2 = \frac{\sum^n_i (x_i - \overline{x})^2}{n - 1}

というわけで、件の n -1 たる数字が導出された訳である。最後の式の右辺で得られた推定量不偏推定量であり、不偏分散と呼ばれることもある。n - 1というのは、標本の分散から母分散を推定するにあたって、標本平均それ自体のバラツキを勘案し、過小推定を調整したものだと言える。

【参考】
「心理学のためのデータ解析テクニカルブック」(北大路書房)