学位論文要旨



No 126571
著者(漢字) 森,一将
著者(英字)
著者(カナ) モリ,カズマサ
標題(和) テスト情報評価モデルの妥当性に関する研究
標題(洋)
報告番号 126571
報告番号 甲26571
学位授与日 2011.03.08
学位種別 課程博士
学位種類 博士(学術)
学位記番号 博総合第1040号
研究科 総合文化研究科
専攻 広域科学
論文審査委員 主査: 東京大学 教授 丹野,義彦
 東京大学 教授 長谷川,寿一
 東京大学 教授 石浦,章一
 東京大学 准教授 倉田,博史
 帝京大学 教授 繁桝,算男
内容要旨 要旨を表示する

テスト情報は,個人や組織の意思決定のために重要な役割を果たす.テスト情報が的確に意思決定に寄与するためには,そのテスト情報が妥当でなければならない.ここで述べている妥当性とはテストの素データより加工された変数(予測変数)が年収,学歴,社会での成功といった外的変数(基準変数)を整合的に説明する度合いのことを示している.妥当性の高いテスト情報を得るためには,テストの作成,実施などの諸手順の改善と共に的確な評価モデルが必要とされる.

そこで,本研究では,テストの素データが得られたことを前提とし,その素データを変換することによってテスト情報の妥当性を高めるための統計的手法を開発し,その効果を検証することを目的とする.

本研究は以下の3つの下位研究に分かれる.

(1)テスト妥当性の評価基準が1変数で観測される場合

将来の年収等の外的な基準によって学力テストの妥当性を評価する場合を考える.このとき,学力テストの得点を予測変数とし,回帰分析によってテスト得点の情報をまとめることが可能となる.ところが予測変数群間に高い相関が生じているときには前述の多重共線性の問題が発生する.従来よりこの問題に対する解決としてはリッジ回帰分析による推定の安定化という方法が用いられてきた.(1)ではこのリッジ回帰分析の拡張を提案する.

(2)テスト妥当性の評価基準が変数群で観測される場合

複数の下位尺度を持つ知能テストを予測変数とし,基準が学力テストであり,学力が複数で観測される場合を考える.このとき,正準相関分析と呼ばれる統計手法を用い,テスト変数群と基準変数群の相関関係を評価する.この場合もテスト変数群,基準変数群の群内で高い相関が生じている場合は多重共線性により係数の推定値が安定しない.(2)では階層ベイズを用いたより頑健な正準相関分析モデルを提案する.

(3)テストの妥当性の基準が観測されない場合

実際の学力テストにおいては,受験者の学力の真値が得られない場合が多い.このようなときに利用される統計手法の1つが項目反応理論(Item Response Theory;IRT)である.IRTモデルではテスト問題の項目反応(正答・誤答)を予測変数群として考え,潜在変数を基準変数と捉え推定する.この潜在変数は局所独立という統計的な相関に関する仮定の下で推定されている.ところがこの仮定は大問形式テストに代表されるテストレットと呼ばれる形式の下では成立せず,母数や潜在変数の推定が正しく行われないことが知られている.ここではこのテストレットに適応するIRTモデルをベイズ的に拡張し,より真値に近い推定を行うモデルを提案する.

主な結果は以下の通りである.

1.予測変数が複数,かつ基準変数が1つの場合における回帰分析モデルの適用を検討した.最初に,混合分布を事前分布に設定し,従来の階層ベイズを用いたリッジ回帰分析モデルを拡張したベイズ的リッジモデルを森,繁桝(2007)に基づき提案した.拡張されたモデルは従来のモデルと比較し,事前情報の取り込みにおいてより高い柔軟性を持つ.ベイズ的リッジモデルはシミュレーション研究により,多重共線性を持つデータに対し,従来の統計手法である最小2乗推定(LSE),階層ベイズモデルよりより推定精度が高いことが検証された.事例分析においては,心理学分野で一般的に利用されるMIDUS IIデータセットを用い,認知テスト変数群-収入変数の関係を分析した.その結果,ベイズ的リッジモデルは従来の統計手法よりもより妥当性の高い推定を行うことが検証され,提案手法の有効性が確認された.

2.回帰分析モデルの適用において,テストデータが非正規である状況を想定し,正規分布より一般的な確率分布クラスである球面対称分布下におけるリッジ推定量を扱った.まず,Maruyama and Strawserman(2005)で提案された一般化ベイズリッジ推定量とミニマクスを満たす条件について概観した.次に,この推定量の設定する定数が多く,テストデータの解析において最適な定数設定を行うことが難しいことを指摘し,より定数設定が易しい球面対称分布下における適応的リッジ推定量をMori and Kurata (2010)に基づき検討した.加えて,一般化リッジ推定量と適応的リッジ推定量が関数形の近い類似したものであることを数理的に示した.事例研究ではMIDUS IIデータセットを用い,認知テスト変数群-学歴変数の関係について,LSE,一般化ベイズリッジ推定量,適応的リッジ推定量の比較を行った.その結果,一般化リッジ推定量(一般化ベイズリッジ推定量,適応的リッジ推定量)はLSEと比較してよりテスト情報の妥当性を高める統計手法であること,テストデータの適用時において適応的リッジ推定量は一般化ベイズリッジ推定量と同等の汎化性を持つことが確認された.

3.予測変数が複数,かつ基準変数が複数の場合における正準相関分析モデルの適用を検討した.まず,ベイズ的正準相関分析モデル(Klami and Kaski,2007)を拡張したベイズ的正準リッジモデルを提案した.この拡張モデルは従来のモデルと比べてより変数群内の変動に柔軟なモデル構造を許容するという特徴を持つ.この拡張モデルはシミュレーション研究により,古典的正準相関モデル,ベイズ的正準相関分析モデルより精度の高い推定を行うことが検証された.事例研究においてはMIDUS IIデータセットを用い,認知テスト変数群-関連者変数群の関係が分析された.その結果,ベイズ的正準リッジモデルはベイズ的正準相関モデルと合わせて妥当性の高い推定を行う統計手法であることが確認された.これらの結果より,ベイズ的正準リッジモデルは多重共線性の発生下で精度の高い推定を行い,かつテスト情報の妥当性を高める統計手法であるといえる.

4.同様に正準相関分析モデルの適用において,正準相関分析と因子分析の統合モデルを提案した.このモデルは変数ごとの変動要因を独自の潜在変数で説明し,その影響を正準相関分析部分に波及させないという特徴を持つ.このモデルは,シミュレーション研究により,古典的正準相関モデルより精度の高い推定を行うことが検証された.事例研究においてはMIDUS IIデータセットを用い,認知テスト変数群-社会生活変数群の関係が分析された.その結果,正準相関分析と因子分析の統合モデルは古典的正準相関モデルと比較し妥当性を高める統計手法であることが確認された.

5.予測変数が複数,かつ基準変数が観測されない場合における項目反応理論(IRT)の適用において問題になるのは局所独立性の仮定である.ここでは,テストレット群内の各項目間の背後に無視できない相関が存在する大問形式のテストにおけるデータ構造を想定し,これに対する母数推定を適切に行うモデルを提案した.提案されたモデルは局所独立性を仮定したIRTモデル,及び従来のテストレットIRTモデルとシミュレーション研究により比較評価され,テストレット郡内の相関が無視できない場合も提案モデルが精度の高い推定を行うことが検証された.また提案モデルは北アイルランドの学力テストデータ,及び日本の国立大学法人の教育研究評価データに適用され,従来研究におけるテストレットを仮定しないIRTモデルと比較して,妥当性を高める統計手法であることが確認された.

これらの結果から本研究で開発された統計手法はテスト情報の妥当性を高めており,有効なものであると結論付けることが出来る.

審査要旨 要旨を表示する

科学的研究や意思決定において、テスト情報が重要な役割を果たすことは論を俟たない。しかし、物理実験によって得られたデータとは異なり、心理学・教育学研究におけるテスト情報は、物理的実体を持たない構成概念を計測したものであることが多く、その測定精度は必ずしも明確ではないし、そもそも測定対象がいかなる因子から構成されるのかについても一意の解があるわけではない。従って、テスト情報を利用するためには、その妥当性、すなわち計測対象と理論、測定方法との間の整合性が保証されていることが必要である。妥当性には様々な要素があるが、その中でも予測値と実測値との整合性は最も重要なものの一つである。本論文は、テスト情報の妥当性に関する研究をまとめたものである。特に、テストの素データに適当な統計学的変換を施すことによって、テスト情報の妥当性を高めるための統計的手法をベイズ的アプローチによって開発し、その効果を検証することに焦点が当てられている。

本論文では問題をテスト妥当性の評価基準となる変数が1 1変数である場合、2 複数の変数からなる場合、3 直接観測することが出来ない場合、の三つのケースに分け、それぞれについて新しい統計手法を開発・提案している。論文は五つの章からなる。上記の各ケースは第2章から第4章までの三つの章で扱われ、これが本論文の中核部分である。また、第1章では序論として、教育測定分野における妥当性の定義や分類についての既存研究が紹介されている。特に、内容妥当性、基準連関妥当性、構成概念妥当性が議論されている。

第2章では、複数の予測変数と1つ基準変数が観測される場合におけるテストの妥当性評価の問題が扱われている。具体的には、重回帰モデルのリッジ回帰推定法の改良に関する提案をおこなっている。周知の通り、重回帰モデルの回帰係数の推定において、最小2乗推定量(least squares estimator, LSE))は線形不偏推定量のクラスの中で最小の分散を持つ(ガウス=マルコフの定理)。ところが、心理・教育データでは予測変数の間に強い相関が存在することが多く、それによって予測変数の積和行列が特異行列に近くなり、しばしばLSEが数値的に不安定となる。これを多重共線性問題という。この問題への対処として広く用いられている手法の一つがリッジ推定法である。これは積和行列に適当な正値定符号行列を加えることによって、LSEの不安定性を緩和する方法である。この方法によって得られる推定量(リッジ推定量)は、リッジ定数(正則化係数)が適切に選択されれば、平均2乗誤差の意味でLSEを優越することが知られている。しかし、そのようなリッジ定数の範囲は一般に未知母数に依存するため、未知母数に関する事前情報がない限り、実際の選択は容易ではない。また、リッジ推定量は線形バイアス推定量であり、この推定量のクラスそのものに興味がないという場合も少なくない。他方、未知母数に関する事前情報が利用出来る場合には、事前分布を適切に選ぶことにより、ベイズ推定量が利用可能である。ベイズ推定量はベイズリスク(平均2乗誤差を事前分布で平均したもの)を最小にする推定量であり、緩やかな条件の下で、他の如何なる推定量にも優越されないという性質(許容性、admissibility)を有する。また、ベイズ推定量のクラスはリッジ推定量のそれに比べてはるかに広く、事前情報を取り入れる際の柔軟性に優れている。

本論文では回帰係数の事前分布として、有限個の正規分布の尺度混合分布を含むような階層ベイズモデルを考案し、この事前分布に対するベイズ推定量を用いることを提案し、その計算法も導出し、これをベイズ的リッジモデルと呼んでいる。このベイズ的リッジモデルは、先行研究であるLindley and Smith (1970)で提案された階層ベイズモデルの一般化とみることが出来、事前情報を利用する上でより柔軟性を持つものである。本研究ではシミュレーションによってベイズ的リッジモデルがLSEと階層ベイズモデルよりも推定精度において優れていることを明らかにしている。また、事例研究として、中高年被験者の認知テスト結果を予測変数とし、被験者の年収を基準変数とする重回帰モデルを分析し、その妥当性を検証している。

第2章の後半では、適応的リッジ推定量の推定精度を検証している。適応的リッジ推定量とは、リッジ推定量のリッジ定数をデータに基づいて選択するというものである。通常のリッジ推定量とは異なり、データベクトルに対して非線形な推定量となるため、その推定精度を理論的に評価することは難しく、LSEを優越するか否かを調べることも容易ではない。その中にあって、Wang and Chow (1990)は正規分布の仮定の下で、ある種の適応的リッジ推定量がLSEを優越するための十分条件を与えており、これは大きな貢献と言える。心理・教育データではしばしば正規分布よりも高い頻度で外れ値が発生するため、彼らの結果が非正規分布の下でも依然として成り立つのかという問いは重要である。本論文ではこの問題に取り組み、正規分布のクラスを含むようなより一般的な分布のクラスとして、球面対称分布族を取り上げ、この下で適応的リッジ推定量がLSEを優越するための十分条件を導いている。また、適応的リッジ推定量がミニマックスでもあることや、Maruyama and Strawderman (2005)で議論された一般ベイズ推定量との関数形の類似も指摘している。事例研究では、認知テスト結果を予測変数とし、被験者の学歴を基準変数とするモデルについての妥当性の検証が行われており、適応的リッジ推定量と一般ベイズ推定量は同等の妥当性、汎化性を持つことが結論付けられている。

第3章では、複数の予測変数と複数の基準変数が観測される場合でのテストの妥当性評価について考察されている。具体的には、正準相関分析モデルの改良に関する2つの研究結果がまとめられている。前半部では、予測変数群間または基準変数群間に強い相関が存在している場合、一般化固有値問題の解の値が不安定となる問題を扱う。この論文ではこれを正準相関分析における多重共線性問題と呼んでいる。その際、先行研究としてKlami and Kaski (2007)によるベイズ的正準相関分析モデルに注目する。彼らのモデルは、予測変数と基準変数の背後に共通の潜在変数を仮定した正準相関分析モデルに、階層的な事前分布を追加したものである。本研究では、彼らの用いた事前分布の中で、潜在変数の寄与の度合いを定めるベクトルに対する部分が制約的であることを指摘し、この点を改良した、より一般的なベイズ的正準リッジモデルを提案している。このモデルは従来のKlami and Kaski のものに比べて変数群内の変動構造により一般的な構造をあてはめることが出来るという特徴を持つ。本研究はこの拡張モデルの下でのベイズ解の計算法を導出し、同時にシミュレーションにより、古典的正準相関モデル、従来のベイズ的正準相関分析モデルとの比較を行っている。その結果、提案モデルが、他の二つよりも推定精度において優れていること、推定精度が群内相関の強弱に大きく左右されない頑健なものであることを確認している。事例研究においても、中高年被験者の認知テスト結果を予測変数とし、家族や友人、配偶者との結びつきに関する指標を基準変数とする、正準相関分析モデルが推定され、妥当性が検証されている。

後半部では、正準相関と因子分析の統合モデルが提案されている。このモデルは、予測変数と基準変数がそれぞれ因子分析モデルの構造を持つだけでなく、(前半部と同様に)共通の潜在変数も有するというものである。各変数群内の変動を因子分析モデル部分に吸収させ、正準相関分析部分に波及させないという狙いである。モデルの構造は数学的には前半部のそれに近いものであり、実際、シミュレーションも事例研究においても前半部と同様に良好な結果が得られている。

第4章では、予測変数が複数存在し、かつ基準変数が観測されない場合におけるテストの妥当性評価の問題が扱われている。特に、局所独立性を持たないテストレットに対する項目反応理論(item response theory, IRT)モデルの改良についての貢献がまとめられている。ここで、テストレットが局所独立性を持つとは、複数の項目への反応ベクトルが観測されるとき、ある潜在変数を所与としたときに各反応が互いに条件付き独立となることである。例えば、大問形式のテストなどで、各小問を解くことが次の小問を解く際のヒントとなるようなものは局所独立性を持たないと考えられる。局所独立性が成り立たないときにIRTモデルを適用すると、一部の母数が過大推定されることが知られている。この問題への対処として、先行研究では同一テストレット内の潜在得点の間に相関構造を仮定したIRTモデルが提案されている。本研究では、先行研究において相関係数を一様とするモデルが中心であることを指摘し、近接する問題や科目については高い相関を持ち、近接しないものに対しては低い相関を持つような構造を持ったモデルが重要であるとする。そしてそのようなモデルとして、潜在得点の相関構造に自己回帰共分散構造(Toeplitz行列)をあてはめたベイズモデルを提案している。更に、シミュレーションによって、提案モデルを、局所独立性を仮定したIRTモデルや各種のテストレットIRTモデルと比較し、テストレット群内の相関が無視できない場合も提案モデルが精度の高い推定を行うことを確認している。事例研究として、北アイルランドの学力テストデータ、及び日本の国立大学法人の教育研究評価データに適用され、妥当性についての検討もなされている。

最終章である第5章では全体のまとめと今後の課題について述べられている。

本論文の内容は以上の通りである。本論文では、ベイズ階層モデルに基づいて、様々な状況の下で、素データをより有効な情報源に変換するための多変量解析的手法が、統一的視点から提案されており、その意義は大きい。また、リッジ推定、正準相関分析、項目反応理論などといった、既に広く応用され、膨大な研究蓄積を持つ分野に敢えて挑んでいる点も注目に値する。先行研究を丹念に調べ、着実に前進させてゆく研究姿勢が窺われる。ベイズ階層モデルは数値解析の発展なくしては理論的価値を認められても実践的な技法の開発が困難であったが、本研究では理論的精密さだけではなく、実践的価値を志向している点も評価できる。実際、各章で展開されている事例研究は価値の高いものである。

このように、本論文は、基準変数の数に基づき複数の統計手法を体系的かつ網羅的に扱っており、理論的に興味深い進展を含むと同時に、教育測定分野におけるテスト妥当性研究への貢献をしていると言える。本審査委員会は博士(学術)の学位を授与するにふさわしいものと認定した。

UTokyo Repositoryリンク