読書メモ:マーカス・ボルスブーム著『テスト妥当性理論のフロンティア』
Frontiers of Test Validity Theory (Multivariate Applications Series)
- 作者: Keith A. Markus,Denny Borsboom
- 出版社/メーカー: Routledge
- 発売日: 2013/05/15
- メディア: ペーパーバック
- この商品を含むブログを見る
これを読んでいる。
理解していない点や誤読している部分も多いと思うが、主に自分のための記録を一応残しておく。
Chapter 1: Introduction
1.1 Terminology
本で使われる用語の説明。
1.1.1 Testing, Assesing, and Measureing
- Measuring:少なくとも間隔尺度水準以上で量やマグニチュードとして測定すること。
- Assesing, Testing:互換的に用いる。Testingの方は体系的な観察に重点を置く一方、asseesmentの方は採点に重点を置く。
1.1.2 Attributes, Constructs, and Latent Variables
この本ではこれらの用語はテストされる実際のプロパティを指す。理論語(theoretical terms)、ラベル、記号は指さない。
- Constructs:このプロパティの実質的な解釈を想定。
- Latent variables:潜在変数が表しているプロパティを特定せずに,内容に依存しない統計モデルと確率的な関係を捉えることが可能。
- Construct label: 構成概念に与えられたラベル。
1.1.3. Items, Indicators, and Indices
- Items:テスト受検者からの反応を誘発することを目的に、テストに組み込まれた個別の刺激。受検者の項目への反応は項目への反応(item response)。
- Item score:項目への反応を[正解=1・誤答=0]のようにコーディングしたもの。コーディングする行為はitem scoring。
- Indicators:潜在変数との関係を想定したモデルにおいての項目。項目得点はindicator scores.
- Index:測定モデルと等式が逆転。項目への反応の要約として合成得点にする場合。
1.1.4. Test Validity and Validation
- Validity:この本ではtest validityを指す。(research designの内的妥当性・外的妥当性のような広い意味での妥当性ではない)
- Validation:テストの妥当性を調査し記述する過程を指す。
1.2 The development of Test Validity theory
- Cureton(1950) :記述的経験主義と一貫した方法で。心理学における行動主義と科学哲学における実証主義を反映。観察語として操作化されないと無意味。測定しようとしたものとテストが測定しているものを重視。
- Cronbach(1971):探索的(論理的)経験主義に発展。推定される理論変数が観察されたテストの行動を説明するという考え。観察されたテストの行動を一般的な科学法則に包含することを含む。
- Messick(1989):constructivist realism。理論の過小評価は妥当性理論で以前から言われており、同じデータでも理論が違えば違ったように要約する。Realistパートは全く新しい。心理学的構成概念は、人々の間にある変動のリアルな次元を反映した実際に存在しているプロパティであることを強調。
- Kane(2006):哲学的プラグマティズム。妥当性をユニバーサルな性質なものでなく、文脈に高度に依存した性質のものととして扱う。validationも当然文脈依存(ある文脈では十分妥当でも別の文脈では妥当にあらず)。
1.2.1 Descriptive Empiricism
- 1896年Pearson相関係数を考案。テスト得点にすぐに応用される。このときはテストの妥当性は「測定したいものを測定できているか」。相関係数はその指標で広くvalidity coefficientと呼ばれた。他の変数との相関がテストの妥当化の主たる道具。
- 基準となる測定がなされる前の予測によく使われた(例:高校の成績を大学での成功を予測する指標に)。また、テストの経済的な短縮版を作ったときにもとのテストと相関するかにも使われた。
- 教育テストの文脈では内容を詳細に検討することが予測よりも好まれた。
- これらの文脈から基準関連妥当性(criterion-related validity)と内容妥当性(content validity)の区別が出てくる。前者はテストと基準との相関を証拠に、後者は専門家による評価が証拠として扱われた。
1.2.2 Explanatory Empiricism
- 上記2つの妥当性だけだと扱えない問題が増えてきたところにCronbach & Meehl(1955)が構成概念妥当性を提案。
- 測定したもの操作化の代わりに, 理論によって予測される他の観察されたもののネットワークとの関係の観点で測定したものを表現することを提案。
- ここまでの3つの妥当性が教育・心理テストのスタンダード(1985)の基盤に。
- これら3つの妥当性以外には例えばCampbell & Fiske(1959)の収束的妥当性(convergent validity)や弁別的妥当性(discriminant validity)など。さらに収束的妥当性をtrait validityとnomological validityに分解したり、弁別的妥当性を基準関連妥当性の形で言及されたり、感度と特異度の文脈で使われたり。 基準妥当性(criterion validity)は併存的妥当性と予測的妥当性の2つからなるものとして整理された(違いはデータ収集の時期)。
- その他にも次のようなものも:
- Incremental validity:回帰モデルで予測力を向上させる程度
- Ecological validity:ある状況における妥当性が別の状況でも妥当か
- Population validity:テスト被験者の集団を変えても妥当か
- Synthetic validity:テストバッテリーの妥当性
- Face validity:テストが測定するよう意図されたものを測定しているように被験者からみて見えるか
これらを統合しようという試みもあったが、Messick(1989)までは本格的な統合はなされず。
1.2.3 Constructivist realism
- 「観察」が理論を発展させる基本の要素となる経験主義から実在論の見方へ
- Constructivist realism: 科学研究で用いられる概念を、実在する実体への近似として捉え、それらは科学的実践や応用的な実践のを通じて構成されるという立場。
- Messickは妥当性理論をunifiedと考えたがunitaryと考えなかった。理論のレベルでは多くの証拠を包含するようになったからunified。しかし、証拠の種類や理屈の部分で多様性があったためunitaryではない。
1.2.4 Pragmatism
- Interpretive argument(解釈的論証)が鍵となる概念。これにより妥当化はより動的にコミュニケーションや対話と結びついたものに。
- 妥当性を、無時間の普遍的なものから、特定の時間や場所でなされる文脈依存の論証にした。
- Kane(2006)による解釈の4要素:
- テストへの反応の採点
- テストへの反応の領域への一般化
- テストへの反応をこえた推定
- テスト得点に基づく意思決定
- 解釈には証拠が必要。証拠には、テスト得点そのもの、代わりの説明の不在、
1.3 Measurement, Causation, Meaning, and Test Validity
この本の著者らがとる立場。3つの鍵となる概念。
1.3.1 Measurement and Test Validity
- 間隔尺度以上の水準としている以上、Measurementは多くのテストが理想として渇望しているものとが、ほとんどのテストが到達することができていないもの。
- しかし, Measurementの概念はテストが作成される方法、テスト得点が解釈される方法、テストが妥当化される方法を形作る
1.3.2 Causation and Test Validity
- 「構成概念の値がテスト得点の値を引き起こすのか」という問い。
- 記述的経験主義的にはnever。なぜならconstructはデータの中のパターンだから。
- 潜在変数モデルは自然に因果関係を想定。
1.3.3 Meaning and Test Validity
- テスト理論は今までテスト得点の意味や解釈についてあまり雄弁でない(テスト開発者やユーザーに比べて)
- この原因はnumber peopleとwords peopleの興味の差