Fisher流とNeyman-Pearson流とp値と心理学と

www.jstage.jst.go.jp

日心のシンポで知り読んだ。大変勉強になる論文だった。

Fisher は p 値を，統計家がデータの解析結果を「報告」するときのモノサシと位置づけ，比較試験の結果，効果があったか否かの「判定」は，臨床試験の主査である医師が単独あるいはグループ討議によって，報告された p 値，対象とする疾患，症例数等を吟味して総合的に「判定」すべきであると考えた. （p.154）

Neyman-Pearson 検定では p 値の大きさは問わない.例えば，有意水準を5% に定めるとき，p 􏰀0.0001 であろうがp = 0.049 であろうが，その違いは無視して一律に「有意水準 5% で有意な差あり」とする.(p.155)

Fisher は，科学的知識を深める研究はいくつもの段階からなっており，統計的検定は，その中の一つに適用される方法にすぎない.統計的検定で臨床研究の成果を「判定」するなどとんでもないと考えていたようである.（p.159）

本来Neyman-Pearson流に行けば、「医学的に意味のある差 δ」を設定し、有意水準と検出力からサンプルサイズを設定した上でデータを検定にかけるのだが、これらのステップを無視していきなり検定にかける習慣がこの論文で批判の対象となっている。

私は一応心理学を勉強しているので自分の文脈で考えてみる。

サンプルサイズの設計については村井・橋本（2017）『サンプルサイズ設計入門』であったり、南風原（2014）『続・心理統計学の基礎』であったりに載っているが、基本的なテキストで詳しく扱われることは多くない印象を持っている。

もっとも「心理学的に意味のある差」というのがそもそもどういったものか。これを設定しないことにはNeyman-Pearson流の検定は使えない。だけどこれを設定することの難しさみたいなものが、この手順をすっとばしてくることに繋がったのかもしれない。「心理学的に意味のある差」というのは対象とする心理学的現象によって異なるのだろうし、そもそも意味のある差を「判定」する必要性というのがどれだけあるのかも考えないといけないだろう。

こうした基本的な部分をすっ飛ばして方法論だけを輸入して誤用を続けてきたのが、心理学の歴史な訳である。大切なのは、心理学の具体的な各領域において、統計的な手法に何を任せるべきなのか（意思決定なのか推定なのか等）といった基礎的な議論を改めてすることなのではないかと思った。