学位論文要旨



No 128513
著者(漢字) 齊藤,真梨
著者(英字)
著者(カナ) サイトウ,マリ
標題(和) クラスターランダム化データに対する統計解析手法の性能評価
標題(洋)
報告番号 128513
報告番号 甲28513
学位授与日 2012.04.25
学位種別 課程博士
学位種類 博士(保健学)
学位記番号 博医第3989号
研究科 医学系研究科
専攻 健康科学・看護学専攻
論文審査委員 主査: 東京大学 教授 大江,和彦
 東京大学 教授 小山,博史
 東京大学 教授 川上,憲人
 東京大学 准教授 李,延秀
 東京大学 特任准教授 森,武俊
内容要旨 要旨を表示する

1.序文

被験者個人でなく、被験者の集団をランダムに分ける比較試験をクラスターランダム化試験(Cluster Randomized Trial, CRT)という。感染リスクの共有や教育的介入後の被験者間の情報交換などにより被験者の独立性を保つことができない場合や、大規模な予防医学的研究や救急医療現場における介入研究のような、クラスター内で同じ介入を行うことで実施可能性が高まる場合に採用されるデザインで、同じ病院に通う患者や地域ごとの住人の集団をクラスターとすることが多い。

同一クラスターに属する被験者のエンドポイントには類似性が存在し、これをクラスター内相関と呼ぶ。クラスター内相関を無視すると、エンドポイントのばらつきを過小評価することになりαエラーが増大するため、クラスター内相関を考慮した計画と解析を行う必要がある。クラスター内相関を考慮する解析方法は「クラスターレベルの解析」と「個人レベルの解析」に大別できる。「クラスターレベルの解析」は、クラスターごとに割合や平均値などエンドポイントの要約指標を算出し、それを用いて群間比較を行う二段階の解析方法で、中でも最も仮定の少ない比較方法の一つが並べ替え検定である。「個人レベルの解析」は各被験者のデータを直接扱い、モデルによって被験者が属するクラスターを考慮する解析方法である。CRTの解析手法として標準的な手法が周辺モデルで、一般化推定方程式(Generalized Estimating Equation, GEE)により集団全体の介入効果を推定するものである。条件付きモデルはクラスター効果を潜在変数としてモデルに導入した変量効果モデルのことで、クラスターごとの介入効果を推定する。両者はクラスター内相関のモデル化が異なるため、エンドポイントが連続変数でない場合には結果は一致しない。

標準的な解析手法であるGEEの漸近性質はクラスター数がクラスター内被験者数に比べて十分多いことに依存する。そのためクラスター数が少ないほど介入効果の分散が過小評価されαエラーが増大することが問題となっており、修正方法が複数提案されている。また、変量効果モデルによる解析やクラスターレベルの解析は、検出力が低いとの指摘やバイアスが生じうるとの指摘もある。並べ替え検定に対しては、GEEから導出した検定統計量を用いることで検出力を改良する方法も提案されているが、実用された報告はない。

近年、相関を考慮した計画と解析を行ったCRT研究は増加傾向にあるが、実施規模はクラスター数が30以下の研究が半数を占めると言われている。つまりGEEを中心に不適切な解析が行われている可能性があり、複数ある解析手法のいずれがどのような状況下で妥当な解析手法となるのか評価が必要である。

本研究の目的は、とくに漸近性質の成り立ちにくい2値データのエンドポイントの解析において、GEE、分散の過小評価を修正したGEE、変量効果モデル、並べ替え検定の性質をシミュレーション実験を通じて評価することで、クラスター数やクラスター内相関の異なる状況ごとに適した解析手法を明らかにすることである。

2.方法

2.1.GEEによる解析

クラスターi (i=1,…,K)の被験者j (j=1,…,ni)で観察される結果変数をYijで表す。Yijの期待値μ_ijを割付群の指示変数Xij、切片λ、介入効果βによってロジスティックモデルでモデル化する。

CRTで興味のあるパラメータは介入効果βで、βの分散にはロバスト分散を用いることが通常である。しかしクラスター数が少ないほどロバスト分散は過小評価になる。そこで本研究では従来のGEE(ロバスト分散法)だけでなく、過小評価を修正するために提案された分散修正方法であるMancl法とKauerman 法の評価も行った。

2.2.変量効果モデルによる解析

変量効果モデルはロジスティックモデルの線形予測子に正規分布に従うクラスター効果u_iを変量として追加するモデルが一般的で、本研究でもこれを採用した。

クラスター効果を与えたもとでクラスター内被験者を独立として扱い、介入効果を推定する。本研究における介入効果βの推定には、結果変数Yを1次近似して残差に正規残差を仮定するペナルティ付き擬似尤度法を用いた。

2.3.並べ替え検定による解析

並べ替え検定は「どのクラスターもどちらの群に割り付けられても同じ結果が観察される」という帰無仮説を検定するものである。各クラスターの代表値に対し、どのような再割付も等確率で起こりうると考えて全割付パターンを発生させ、パターンごとの群間差の統計量で構成した分布を帰無分布とする。この帰無分布において実際観測された以上の群間差があるパターンの数を数え、その割合が名義水準以下のときに有意と判断する。本研究ではまずクラスター内被験者数で重み付けした割合を用いた並べ替え検定(並べ替え1)の評価を行った。さらにGEEから導出した修正並べ替え検定統計量による並べ替え検定(並べ替え2)も行い検出力改善の程度を検討した。

2.4.シミュレーション実験

本研究では2値のエンドポイントがクラスター内被験者それぞれに横断的に観測される状況において上記の解析手法をシミュレーション実験により評価した。評価指標にはαエラー、検出力、推定値の平均バイアスと平均二乗誤差(Mean Squared Error, MSE)、95%信頼区間の被覆確率を用いた。αエラーを評価するデータは両群のイベント発生確率μ_iを30%, 20%, 10%, 5%, 2%として発生させた。検出力を評価するデータは、両群の発生確率の組み合わせを(30%, 20%), (20%, 10%), (10%, 5%), (5%, 2%)として発生させた。クラスター内相関係数はρ=0, 0.05, 0.10, 0.15とし、クラスター内のすべての被験者同士の相関が共通になるようデータを発生させた。総被験者数は過去のCRTを参考に600人で固定し、クラスター数を6, 8, 10, 20, 30, 50, 100に設定した状況と、クラスター数を10、20に固定し被験者数を300、600、900に設定した状況を検討した。さらに、クラスター数と総被験者数は変えず、クラスター内被験者数の分布の変動係数が0.5となるようにクラスター間で不均等にした状況下でも同様の評価を行った。

3.結果

3.1.αエラー

両群のイベント発生確率が10%、クラスター内被験者数が均等な場合のαエラーを図1に示す。横軸Kがクラスター数、折れ線でつながれた4点は左からクラスター内相関係数ρ=0,0.05,0.10,0.15の場合である。GEEのうちロバスト分散法はクラスター数が少なく、クラスター内相関が高いほどαエラーが増大した。GEEの修正方法はKauerman法よりもMancl法でαエラーの増大が抑制されたがクラスター数が20以下では5%を上回った。変量効果モデルはクラスター数、クラスター内相関に依存せず安定した挙動を示したのに対し、並べ替え検定は1、2ともクラスター数が少ない場合、過度に保守的になる傾向が見られた。クラスター内被験者数が不均等な状況下ではロバスト分散法のαエラーが増加したが、特に変量効果モデルや並べ替え検定は影響を受けなかった。クラスター数を固定し被験者数を変化させた場合も、全ての手法でαエラーの増減は殆ど見られなかった。

3.2.検出力

検出力は、クラスター内相関が大きいほど全手法で減少し、クラスター数が少ないほど低下が顕著であった(図2)。GEEのうちαエラーが名義水準に近いMancl法は相関に伴う検出力の低下が大きく、変量効果モデルを10%以上下回ることがあった。並べ替え検定は各手法の中で最も検出力が低く、クラスター数が6の場合は0%であった。クラスター内被験者数が不均等な場合、クラスター数が多くても並べ替え検定1の検出力は他より10%近く低い結果を示した。クラスター数を固定し被験者数を変化させた場合、被験者数の増加に伴い、検出力は高くなったが、手法間の相対的な関係は不変であった。

4.考察

ロバスト分散法は、クラスター数が少ない場合だけでなく、多い場合でもクラスター内相関が存在すると名義水準通りの検定ができないことが示された。全体を通じて名義水準に近い検定ができる手法はMancl法、変量効果モデルと並べ替え検定で、この中で検出力が最も高いのは変量効果モデルであった。並べ替え検定はαエラーを増大させない手法として知られており、修正方法によって検出力に多少の改善はみられたが、クラスター数が少ない場合は過度に保守的になり実用的でないことが示された。クラスター数が50以上の場合はロバスト分散法以外の手法はいずれも同様の挙動を示した。クラスター内被験者数が不均等なCRTでは検出力の低下やGEEに基づく手法でαエラーの増大が見られるため、試験開始時期を揃える、大きな地域を分割するといったクラスター内被験者数の不均等を防ぐ手法も重要であると考えられた。被験者数を変化させた場合のαエラーの挙動はどの手法でもほとんど変化がみられなかったことから、本研究の結果はある程度の一般化が可能であると考えられた。

5.結論

クラスター数、クラスター内相関の程度によらず変量効果モデルを用いた解析が望ましいことが示唆された。研究対象集団全体における効果を推定する場合は、GEEの分散修正法であるMancl法または並べ替え検定法による解析も適切な手法であることが示されたが、ロバスト分散法は用いるべきでないことが明らかとなった。

図1. 被験者数が均等な場合のαエラー

図2. 被験者数が均等な場合の検出力

審査要旨 要旨を表示する

本研究は、クラスターランダム化試験における解析手法の違いを明らかにするため、現在提案されている手法をまとめ、シミュレーションデータへの応用を試みたものであり、下記の結果を得ている。

被験者集団をクラスターと呼び、ランダム化の割付単位とするクラスターランダム化試験には、被験者をランダム化する一般的なランダム比較試験と比べて以下の特徴がある。1)クラスター内相関の存在、2)割付単位(クラスター数)の少なさ、3)クラスター内被験者数の不均等さである。特に1)と2)はαエラーの増大を引き起こす点が問題視されている。クラスター内相関を考慮した解析手法として、クラスターレベルの並べ替え検定、一般化推定方程式(Generalized Estimating Equation, GEE)、変量効果モデルなどがある。近年提案されているこれらの改良手法をシミュレーションデータに適用しその性質をαエラー、検出力、介入効果の推定精度の観点から評価した。

総被験者数は600人に固定し、クラスター数は6,8,10,20,30,50,100クラスター、クラスター内相関は0~0.15まで0.05刻みの設定のもとでデータを発生させ、クラスターレベルの並べ替え検定、クラスターレベルの並べ替え検定の改良法、一般的なGEE、Kauermanらの提案した分散バイアス修正GEE、Manclらの提案した分散バイアス修正GEE、変量効果モデルを適用してシミュレーション実験を行った。

αエラーの観点からクラスターレベルの並べ替え検定、Manclらの提案した修正GEE、変量効果モデルはほぼ常に名義水準を保つことが示された。一般的なGEEはクラスター数が少ないほど名義水準を大きく上回り、その傾向はクラスター内相関が高いほど顕著であることが示された。検出力は、αエラーが名義水準を保つ手法の間では、変量効果モデル、Manclらの提案した修正GEE、並べ替え検定の順で高いことが示された。介入効果の推定値は、変量効果がGEEより大きいバイアスを示したものの、95%信頼区間の被覆確率は高く、ばらつきも小さい結果であった。

さらにクラスター数を固定し、被験者数を300人、600人、900人と変化させたところ全ての手法でαエラーの挙動は変わらず、検出力のみが総被験者数に合わせて増加したことから、検定の問題においては割付単位であるクラスター数の影響が大きく、被験者数の多少の影響は小さいことが示された。

また、一般的に用いられている正規近似に基づく被験者数設計法とシミュレーションが示す検出力を比較したところ、クラスター数が少なくクラスター内相関が高いほど、正規近似に基づく被験者数設計法が被験者を過剰に集積することが示された。

総合的には、クラスター数が少ない場合は、被験者数に関わらず、変量効果モデルが最も望ましい性質を持つとの結果が得られた。ただし、変量効果モデルはクラスターごとの介入効果を推定するモデルであるため、研究対象集団全体における介入効果の推測が必要な場合はManclの提案した修正GEE法を用いるべきとも考察された。また、クラスター数が30以下と少ない場合の被験者数設計はシミュレーションに基づいて行うべきであると考えられる。

以上、本論文はクラスターランダム化試験において、これまで比較検討されてこなかった7手法の比較を通じて、クラスター数が少ない場合の解析手法には変量効果モデルが、被験者数設計にはシミュレーションベースの検討が適していることを明らかにした。本研究による治験は、今後、公衆衛生分野や救急分野で増加すると予想される臨床試験デザインの計画と解析に貢献するものと考えられ、学位の授与に値するものと考えられる。

UTokyo Repositoryリンク