玄関雑学の部屋雑学コーナー統計学入門

4.3 繰り返しのある多標本・多時期の計量値

(1) 繰り返しのある二元配置分散分析

二元配置分散分析において、要因Aの水準と要因Bの水準が同じという条件でデータが繰り返し得られれば交互作用も残差から分離できます。 そしてその場合は同一水準条件で繰り返し得られたデータのバラツキが残差になります。 例えば薬物と食餌の影響を調べるために20匹のマウスを無作為に5匹ずつの4群に分け、群1には薬物も食餌も与えず、群2には食餌だけ与え、群3には薬物だけ与え、群4には薬物と食餌を与えて効果を測定した結果が表4.3.1のようになったとします。

表4.3.1 薬物と食餌の効果
要因B:食餌平均値
要因A:薬物群1効果群2効果4.5
16
27
27
27
38
平均値=2平均値=7
群3効果群4効果16
1017
1118
1220
1322
1423
平均値=12平均値=20
平均値713.510.25

この場合、薬物の有無が要因A、食餌の有無が要因Bであり、同一水準条件の5匹のマウスが繰り返しです。 このようなデータを解析するための手法を繰り返しのある二元配置分散分析といいます。 そしてこの手法と区別するために、第1節で説明した二元配置法を繰り返しのない二元配置分散分析と呼ぶことがあります。

繰り返しのある二元配置分散分析ではデータyijkを次のように分解して考えます。

yijk=μ + αi + βj + γij + εijk
μ≒mT:総平均   αi≒(mi.. - mT):要因A第i水準による変動分   βj≒(m.j. - mT):要因B第j水準による変動分
γij≒{mij. -(mi.. + m.j. - mT)}:要因A第i水準と要因B第j水準の交互作用による変動分
εijk≒(yijk - mij.):要因A第i水準・要因B第j水準におけるk番目のデータの変動分=残差
mi..:要因A第i水準の平均値  m.j.:要因B第j水準の平均値   mij.:要因A第i水準・要因B第j水準の平均値
:要因A第i水準・要因B第j水準の理論的推定値
群4(薬剤有・食餌有)の5番目のマウスの値:23=10.25 + (16 - 10.25) + (13.5 - 10.25) + {20 - (16 + 13.5 - 10.25)} + (23 - 20)
∴(23 - 10.25)=12.75=(16 - 10.25) + (13.5 - 10.25) + (20 - 19.25) + (23 - 20)=5.75 + 3.25 + 0.75 + 3
図4.3.1 繰り返しのある二元配置分散分析の模式図

この基本式に従って表4.3.1のデータについて平方和と自由度と分散を計算し、分散分析表にまとめると次のようになります。 (注1)

表4.3.2 繰り返しのある二元配置分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:薬物661.251661.25264.5
要因B:食餌211.251211.2584.5
AxB:薬物と食餌の交互作用11.25111.254.5
残差40162.5 
全体923.7519 

それぞれの要因の帰無仮説と、有意水準5%の時の検定結果は次のようになります。

○要因A:薬物
H0:αi=0(薬物によって平均値は変動しない)
FA=264.5(p=2.259×10-11)>F(1,16,0.05)=4.494 … 有意水準5%で有意
○要因B:食餌
H0:βj=0(食餌によって平均値は変動しない)
FB=84.5(p=8.748×10-8)>F(1,16,0.05)=4.494 … 有意水準5%で有意
○AxB:薬物と食餌の交互作用
H0:γij=0(薬物と食餌の間に交互作用はない)
FAxB=4.5(p=0.0499)>F(1,16,0.05)=4.494 … 有意水準5%で有意

このように繰り返しのある二元配置分散分析では要因Aの検定と要因Bの検定、そして要因AとBの交互作用の検定を行うことができます。 この場合の交互作用の検定は、効果に関して薬物と食餌の間に相乗効果または相殺効果があるかどうかの検定です。 例えば図4.3.2で横軸を食餌の有無とし、縦軸を効果とすると、薬物無−食餌有無のグラフと薬物有−食餌有無のグラフが平行かどうかを検討することによって、効果に関する薬物と食餌の関係が相乗効果(正の交互作用)相加効果(交互作用無)相殺効果(負の交互作用)のどれであるかを判定することができます。

図4.3.2 相乗効果と相加効果と相殺効果
○ベースライン(プラセボ効果)=2、薬物効果=10、食餌効果=5とすると
・交互作用=3の時:相乗効果…薬物有のグラフと薬剤無のグラフが非平行
 薬物有かつ食餌有の効果=ベースライン(2)+薬物効果(10)+食餌効果(5)+交互作用(3)=20
・交互作用=0の時:相加効果…薬物有のグラフと薬物無のグラフが平行
 薬物有かつ食餌有の効果=ベースライン(2)+薬物効果(10)+食餌効果(5)+交互作用(0)=17
・交互作用=-3の時:相殺効果…薬物有のグラフと薬物無のグラフが非平行
 薬物有かつ食餌有の効果=ベースライン(2)+薬物効果(10)+食餌効果(5)−交互作用(3)=14
※表4.3.1の群4(薬物有かつ食餌有)の効果の平均値は20なので、この場合は相乗効果があることがわかる。

図4.3.2を一般化してA1のB1−B2およびA2のB1−B2の平均値のグラフと、3種類の検定結果との関係を模式的に表すと次のようになります。

図4.3.3 繰り返しのある二元配置分散分析の模式図

この模式図から要因Aの検定はA1とA2のグラフの高さを比較したものに相当し、要因Bの検定はA1とA2を合わせた時のB1→B2のグラフの変動の有無を検定したものに相当することがわかると思います。 そして交互作用の検定はA1におけるB1→B2という変動パターンと、A2におけるB1→B2という変動パターンを比較したものに相当することもわかると思います。 簡単に言えば図4.3.3の上段のグラフのように2本のグラフが並行なら交互作用なし、下段のグラフのように非平行なら交互作用ありということです。 そのため要因Aの検定のことをレベルの検定、交互作用の検定のことをパターンの検定と呼ぶことがあります。

またこの模式図から、交互作用がある時は要因Aと要因Bの検定結果は不正確になることがわかると思います。 例えば図4.3.3の下段の左端のグラフでは、要因Aの検定結果も要因Bの検定結果も有意ではありません。 しかしB1ではA1の方がA2よりも高く、B2では反対にA2の方がA1よりも高くなっています。 またA1ではB1の方がB2よりも高く、A2では反対にB2の方がB1よりも高くなっています。 つまり交互作用がある時はA1とA2の比較とB1とB2の比較は不正確になり、どちらも交互作用相手の要因の状態を考慮に入れないと正しい比較はできないということです。

そのため交互作用を残差から分離した二元配置分散分析は、交互作用があるかどうかを検討するためのものと割り切って考えた方が良いと思います。 そして交互作用がある時は要因Aと要因Bの検定結果は採用せず、交互作用の検定結果だけ採用します。 そしてB1におけるA1とA2の平均値の差と、B2におけるA1とA2の平均値の差を科学的に検討し、それぞれの平均値の差に科学的な意義があるかどうか、さらに2つの平均値の差の違いに科学的な意義があるかどうかを検討するのが合理的です。

その場合、要因Bの水準ごとに要因Aの効果を一元配置分散分析で検討する、つまり要因Bで層別解析をするという方法も考えられます。 ただし交互作用の検定結果が有意なら「要因Aの効果は要因Bの水準ごとに異なっている」と言えるので、本来は二重に検定する必要はありません。 しかし何でもかんでも検定しなければ気がすまない有意症患者を納得させるためには、層別解析を行うのもひとつの対処法ではあるでしょう。

交互作用が小さい時(交互作用の分散比が1未満)は、交互作用を残差に含めた方が要因Aと要因Bの検定効率が高くなります。 そのため交互作用を残差に含めて繰り返しのない二元配置分散分析と同じ形式の分散分析を行います。 その分散分析では図4.3.3の上段のように2本のグラフが平行と仮定して分析を行います。 交互作用が小さいということは、お互いに交互作用相手の状態とは無関係に効果を検討することができるという意味だからです。 参考までに表4.3.2の分散分析表の交互作用を残差に含めると次のようになります。 このデータの場合、交互作用が大きいので要因Aと要因Bの検定効率が少し悪くなります。 (注2)

表4.3.3 交互作用を残差に含めた分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:薬物661.251661.25219.341
要因B:食餌211.251211.2570.0732
残差51.25173.01471 
全体923.7519 

(2) 繰り返し測定型二元配置分散分析

人間を対象とした臨床試験では、多数の患者を無作為に2群に分けてそれぞれ別の薬剤を投与し、評価項目を多時期にわたって観察することによって薬効を比較することがよくあります。 この場合、薬剤を要因A、時期を要因Bと考えると繰り返しのある二元配置になります。 しかし薬剤を無視すると、このデザインは被験者を要因A、時期を要因Bとした繰り返しのない二元配置と考えることもできます。

例えば10名の患者を無作為に5名ずつの2群に分け、一方の群にはプラセボPを投与し、もう一方の群には実薬(薬効のある本物の薬剤)Aを投与して、投与前と投与2週後に収縮期血圧を測定した結果が表4.3.4のようになったとします。

表4.3.4 薬剤投与前後の収縮期血圧
患者ID収縮期血圧
投与前投与2週後投与前後の平均値投与前後の変化量
P剤投与群1-1130129129.5-1
1-2130110120-20
1-312113512814
1-4138125131.5-13
1-5133132132.5-1
平均値130.4126.2128.3-4.2
A剤投与群2-1116108112-8
2-2128100114-28
2-3129108118.5-21
2-4137114125.5-23
2-5140110125-30
平均値130108119-22
平均値130.2117.1123.65-13.1

これを繰り返しのある二元配置と考えた時、同一薬剤投与群における同一時期の個人差が残差になります。 しかし人間は個人差が大きいので、個人差を残差から分離した方が効率が良くなります。 そこで繰り返しのある二元配置と繰り返しのない二元配置を組み合わせ、個人差を残差から分離しつつ、要因Aを群にするような特殊な手法が開発されています。 その手法を繰り返し測定型二元配置分散分析(two-way repeated measures analysis of variace、two-way RMANOVA)といいます。 この名称は、同じ被検者から多時期にわたって連続的に観測して得られたデータのことを繰り返し測定データまたは反復測定データと呼ぶことに由来します。

繰り返し測定型二元配置分散分析ではデータyijkを次のように分解して考えます。

yijk=μ + αi + εsik + βj + γij + εijk
μ≒mT:総平均   αi≒(mi.. - mT):要因A第i水準による変動分   εsik≒(mi.k - mi..):要因A第i水準における被験者kの群内変動分
βj≒(m.j. - mT):要因B第j水準による変動分   γij≒{mij. -(mi.. + m.j. - mT)}:要因A第i水準と要因B第j水準の交互作用による変動分
εijk≒{yijk -(mi.k + mij. - mi..)}:要因A第i水準の要因B第j水準における被験者kの群内交互作用による変動分=残差
:要因A第i水準における被験者kの要因B第j水準の理論的推測値
:要因A第i水準における被験者kの要因B第j水準の要因A第i水準内理論的推測値
mi..:要因A第i水準の平均値  m.j.:要因B第j水準の平均値   mij.:要因A第i水準・要因B第j水準の平均値
患者ID 1-5の投与前値:133=123.65 + (128.3 - 123.65) + (132.5 - 128.3) + (130.2 - 123.65)
  + {130.4 - (128.3 + 130.2 - 123.65)} + {133 - (132.5 + 130.4 - 128.3)}
∴(133 - 123.65)=9.35=(128.3 - 123.65) + (132.5 - 128.3) + (130.2 - 123.65) + (130.4 - 134.85) + (133 - 134.6)
  =4.65 + 4.2 + 6.55 - 4.45 - 1.6
図4.3.4 繰り返し測定型二元配置分散分析の模式図

この基本式に従って表4.3.4のデータについて平方和と自由度と分散を計算し、分散分析表にまとめると次のようになります。 (注3)

表4.3.5 繰り返し測定データの分散分析表
要因平方和SS自由度φ平均平方和Ms分散比F
要因A:群432.451432.456.89713
SR:被験者残差501.6862.7 
SUB:被験者934.059103.7831.69997
要因B:時期858.051858.0814.0549
A×B:群と時期の交互作用396.051396.056.48731
SRxB:被験者残差と時期の交互作用488.4861.05 
全体2676.5519 

それぞれの要因の帰無仮説と、有意水準5%の時の検定結果は次のようになります。

○要因A:群(薬剤)
H0:αi=0(群によって平均値は変動しない)
FA=6.89713(p=0.0304)>F(1,8,0.05)=5.318 … 有意水準5%で有意
○被検者
H0:εsik=0(被検者によって平均値は変動しない)
FSUB=1.69997(p=0.2332)<F(1,8,0.05)=5.318 … 有意水準5%で有意ではない
○要因B:時期
H0:βj=0(時期によって平均値は変動しない)
FB=14.0549(p=0.0056)>F(1,8,0.05)=5.318 … 有意水準5%で有意
○AxB:群と時期の交互作用
H0:γij=0(群と時期の間に交互作用はない)
FAxB=6.48731(p=0.0343)>F(1,8,0.05)=5.318 … 有意水準5%で有意

表4.3.5の被験者より上は被験者を全変動とし、群を要因A、被験者残差を残差とした一元配置分散分析になっています。 そのため群の検定は対応のない検定になります。 被験者より下は被験者を要因A、時期を要因Bとした繰り返しのない二元配置分散分析になっています。 そして通常の残差である被検者と時期の交互作用から群と時期の交互作用を分離し、被検者残差と時期の交互作用を残差にしています。 そのため被検者の検定と時期の検定は特殊な対応のある検定になり、群と時期の交互作用の検定も行うことができます。

群と時期との交互作用は群ごとの時期変動パターンの違い、つまりP群の平均値の時期変動パターンとA群の平均値の時期変動パターンの違いを表します。 そして被験者残差と時期の交互作用(残差)は、各群における被験者ごとの時期変動パターンの違い、つまり被験者ごとの時期変動パターンの群内バラツキを表します。 このデータは時期が投与前と投与2週後だけなので、時期変動パターンは投与前後の変化量に相当します。 そのため2群の平均値の時期変動パターンの違いは投与前後の変化量平均値の差に相当し、被験者ごとの時期変動パターンの群内バラツキは変化量の群内バラツキに相当します。

実際、表4.3.4の投与前後の変化量をデータにして一元配置分散分析つまり2標本t検定を行うと、次のように交互作用の検定結果と一致します。

○群を要因Aとした変化量の一元配置分散分析(2標本t検定)
P群の変化量平均値=-4.2  A群の変化量平均値=-22  変化量平均値の差=-17.8
FA=6.48731(p=0.0343)>F(1,8,0.05)=5.318 … 有意水準5%で有意

群と時期の交互作用が小さい時(交互作用の分散比が1未満)は、交互作用を残差に含めた方が検定の効率が高くなります。 表4.3.5の分散分析表の群と時期の交互作用を残差に含めると次のようになります。 このデータの場合、群と時期の交互作用が大きいので検定効率が悪くなります。 そしてこの分散分析表の被検者より下は、被検者と時期の繰り返しのない二元配置分散分析そのものです。

表4.3.6 交互作用を残差に含めた分散分析表
要因平方和SS自由度φ平均平方和Ms分散比F
要因A:群432.451432.456.89713
SR:被験者残差501.6862.7 
SUB:被験者934.059103.7831.05608
要因B:時期858.051858.088.73166
残差:被検者と時期の交互作用884.45998.27 
全体2676.5519 

また被検者の違いが小さい時(被検者残差の平均平方和が残差の平均平方和よりも小さい)は、被検者残差を残差(被検者残差と時期の交互作用)に含めて――つまり被検者を繰り返しデータ扱いして――通常の繰り返しのある二元配置分散分析にすると群の検定以外の検定の効率が高くなります。 表4.3.5の分散分析表の被検者残差を残差に含めると次のようになります。 このデータの場合、被検者の違いが大きいので群の検定効率だけがわずかに高くなり、それ以外の検定効率はわずかに悪くなります。

表4.3.7 被検者残差を残差に含めた分散分析表
要因平方和SS自由度φ平均平方和Ms分散比F
要因A:群432.451432.456.98909
要因B:時期858.051858.0813.8675
A×B:群と時期の交互作用396.051396.056.40081
残差9901661.875 
全体2676.5519 

このように二元配置分散分析は応用範囲の広い手法であり、動物実験から臨床試験まで色々な場面で用いることができます。 ただし二元配置分散分析を臨床試験に利用する時は注意しなければならない点があります。 それは分散分析は要因内の各水準はそれぞれ独立であり、お互いに無相関であることを前提にしている点です。

動物実験では要因内の各水準を独立にすることは比較的容易です。 しかし臨床試験では繰り返し測定データが多く、このようなデータは独立ではなくお互いに相関があるのが普通です。 そのため厳密に言えば、繰り返し測定データに対して時期を要因Bにした二元配置分散分析や繰り返し測定型二元配置分散分析を適用するのは不適切です。

そこで繰り返し測定データの間に相関があると仮定した反復測定分散分析(repeated ANOVA)多変量分散分析(MANOVA)、そして繰り返し測定混合効果モデル(MMRM)などが開発されています。 しかしこれらの手法は数学的なモデルが複雑なため複雑な仮定を必要とし、解析に用いる評価指標も非常に複雑なため、解析結果を医学的に解釈するのは極めて難しくなります。 いくら数学的に厳密な手法でも、解析結果を医学的に解釈できなければ意味がありません。 (→18.4 多変量分散分析)

(3) 繰り返し測定データによる薬効比較

表4.3.4の試験は収縮期血圧に対するプラセボと実薬の効果を比較することが目的です。 そして投与前後の変化量平均値を薬効の評価指標にすると、表4.3.5の群と時期の交互作用の検定が主目的になります。 しかし普通はわざわざ繰り返し測定型二元配置分散分析などは行わず、投与前後の変化量をデータにして2標本t検定つまり対応のないt検定を行います。 これは投与前後の変化量つまり差の平均値のさらに差を検定するため、サノサ(差の差)の検定と呼ばれることがあります。 (→3.3 2標本の計量値 (2) データに対応がない場合)

ただし投与前値が変化量に影響する時は、P群とA群の投与前値が異なっていると公平な比較ができません。 そこでP群の投与前平均値とA群の投与前平均値を比較し、それがほぼ同じであることを確認しておく必要があります。 これは投与前実測値に2標本t検定を適用して確認することができます。 これを初期値の比較といい、薬効を比較したい時は必須です。

また通常はP群とA群それぞれの効果の大きさを検討するために、投与前後の変化量平均値に関する検定と推定を行います。 これは群ごとに投与前後の実測値に対応のあるt検定を適用して行います。 これを群内比較といい、薬効を比較したい時にはよく行います。 この群内比較に対して初期値の比較と変化量平均値の比較を群間比較といい、これらの群内比較と群間比較によって薬効を比較するのが普通です。 表4.3.4のデータについて群内比較と群間比較を行うと次のようになります。

○P群の投与前後の比較(群内比較)
投与前平均値=130.4  投与2週後平均値=126.2
対応のあるt検定:|to|=0.721(p=0.5108)<t(4,0.05)=2.776 … 有意水準5%で有意ではない
変化量平均値の95%信頼区間:δ=-4.2±16.2 → 下限:δL=-20.4 上限:δU=12.0
○A群の投与前後の比較(群内比較)
投与前平均値=130  投与2週後平均値=108
対応のあるt検定:|to|=5.699(p=0.0047)>t(4,0.05)=2.776 … 有意水準5%で有意
変化量平均値の95%信頼区間:δ=-22±10.7 → 下限:δL=-32.7 上限:δU=-11.3
○初期値の比較(群間比較)
P群の投与前平均値=130.4  A群の投与前平均値=130
対応のないt検定:|to|=0.080(p=0.9384)<t(8,0.05)=2.306 … 有意水準5%で有意ではない
平均値の差の95%信頼区間:δ=-0.4±11.5 → 下限:δL=-12.0 上限:δU=11.2
○変化量平均値の比較(サノサの検定、群間比較)
P群の変化量平均値=-4.2  A群の変化量平均値=-22
対応のないt検定:|to|=2.547(p=0.0343)>t(8,0.05)=2.306 … 有意水準5%で有意
変化量平均値の差の95%信頼区間:δ=-17.8±16.1 → 下限:δL=-33.9 上限:δU=-1.7

群ごとの群内比較の結果を見ると、P群の検定結果は有意ではなくA群の検定結果は有意です。 ただしこの結果だけから「プラセボは薬効が無かったが、実薬は薬効があった!」と即断することはできないので注意してください。 何故ならプラセボと実薬の薬効を比較する時は収縮期血圧がどの程度変化したら医学的に意義のある変化と考えられるかということを考慮して、群内比較と群間比較の検定結果と推定結果を総合的に検討する必要があるからです。 その検討方法については第3章を参照してください。 (→3.3 2標本の計量値)

投与前後の変化量平均値ではなく投与後の実測値平均値を薬効の評価指標にした時は、変化量平均値の比較の代わりに投与2週後の実測値平均値の比較を行います。 ただしその場合、変化量平均値は薬効の評価指標にならないので、P群とA群の群内比較は無意味になります。 そして投与2週後の実測値平均値そのものを群ごとの薬効の指標にし、それが例えば正常域に入っているかどうかを検討することによって群ごとの薬効を検討します。 これは薬効の検討方法としてはあまり合理的とは言えないので、通常は投与前後の変化量平均値を薬効の評価指標にします。 参考までに、表4.3.4の投与2週後のデータについて群間比較を行うと次のようになります。

○投与2週後の実測値平均値の比較(群間比較)
P群の投与2週後平均値=126.2  A群の投与2週後平均値=108
対応のないt検定:|to|=3.689(p=0.0061)>t(8,0.05)=2.306 … 有意水準5%で有意
平均値の差の95%信頼区間:δ=-18.2±12.1 → 下限:δL=-30.3 上限:δU=-6.1

時期が3つ以上の時、つまり薬剤投与後の時期が2つ以上ある時に薬剤の効果を比較するのは少々複雑です。 例えば表4.3.4の試験で投与1週後にも収縮期血圧を測定していて、その結果が表4.3.8のようになっていたとします。

表4.3.8 薬剤投与前後の収縮期血圧
患者ID収縮期血圧
投与前投与1週後投与2週後投与1週後の変化量投与2週後の変化量変化量の平均値
P剤投与群1-1130115129-15-1-8
1-2130110110-20-20-20
1-312112913581411
1-4138130125-8-13-10.5
1-5133132132-1-1-1
平均値130.4123.2126.2-7.2-4.2-5.7
A剤投与群2-1116106108-10-8-9
2-2128102100-26-28-27
2-3129108108-21-21-21
2-4137118114-19-23-21
2-5140116110-24-30-27
平均値130110108-20-22-21
平均値130.2116.6117.1-13.6-13.1-13.35

時期が3つ以上になると、繰り返し測定型二元配置分散分析の群と時期の交互作用は変化量ではなくなります。 例えば図4.3.8の(2)の場合、P剤投与群における投与1週後の変化量と投与2週後の変化量を平均した値はほぼ0になり、A剤投与群における投与1週後の変化量と投与2週後の変化量を平均した値もほぼ0になります。 そのため2群の平均的な変化量はほぼ同じと評価するはずです。 ところがこの場合も「群ごとの時期変動パターンは異なる」つまり「群と時期の交互作用有り」になります。

また図4.3.8の(3)の場合、時期変動パターンの違いに初期値の違いも含まれて、やはり「交互作用有り」になってしまいます。 初期値は薬剤が投与される前の値であり、薬効を反映する値ではなく背景因子のひとつです。 そのため初期値の違いも含まれた時期変動パターンを評価指標にしてはいけません。 時期が2つの時は交互作用の検定が変化量の検定になるため、時期が3つ以上の時も交互作用の検定を変化量の検定と誤解してしまうことがあるので注意が必要です。

図4.3.8 交互作用と変化量

さて、表4.3.8のデータで投与1週後も投与2週後も評価時点だとします。 すると初期値の比較は表4.3.4と同じですが、群ごとの群内比較は対応のあるt検定の代わりに被検者と時期に関する繰り返しのない二元配置分散分析を適用するか、投与前と投与1週後、投与前と投与2週後の変化量平均値の検定としてダネット型多重比較を適用します。 そして変化量平均値の群間比較は、サノサの検定の代わりに投与1週後の変化量と投与2週後の変化量をデータにして繰り返し測定型二元配置分散分析を適用します。 表4.3.8の変化量のデータに繰り返し測定型二元配置分散分析を適用すると次のようになります。

表4.3.9 変化量に関する繰り返し測定データの分散分析表
要因平方和SS自由度φ平均平方和Ms分散比F
要因A:群1170.4511170.456.24407
SR:被験者残差1499.68187.45 
SUB:被験者2670.059296.67218.8363
要因B:時期1.2511.250.0793651
A×B:群と時期の交互作用31.25131.251.98413
SRxB:被験者残差と時期の交互作用126815.75 
全体2828.5519 
○要因A:群(薬剤)
H0:αi=0(群によって変化量平均値は変動しない)
FA=6.24407(p=0.0370)>F(1,8,0.05)=5.318 … 有意水準5%で有意
○被検者
H0:εsik=0(被検者によって変化量平均値は変動しない)
FSUB=18.8363(p=0.0002)>F(1,8,0.05)=5.318 … 有意水準5%で有意
○要因B:時期
H0:βj=0(時期によって変化量平均値は変動しない)
FB=0.0793651(p=0.7853)<F(1,8,0.05)=5.318 … 有意水準5%で有意ではない
○AxB:群と時期の交互作用
H0:γij=0(群と時期の間に交互作用はない)
FAxB=1.98413(p=0.1966)<F(1,8,0.05)=5.318 … 有意水準5%で有意ではない

この場合の要因Aの検定はP群における2つの時期を合わせた変化量平均値-5.7と、A群における2つの時期を合わせた変化量平均値-21が異なっているかどうかの検定、つまり変化量平均値に関するレベルの検定になります。 そして要因Bの検定は投与1週後における2群の変化量平均値-13.6と、投与2週後における2群の変化量平均値-13.1が異なっているかどうかの検定になります。

また群と時期の交互作用の検定はP群における投与1週後の変化量平均値と投与2週後の変化量平均値の差(-4.2)-(-7.2)=3と、A群における投与1週後の変化量平均値と投与2週後の変化量平均値の差(-22)-(-20)=-2が異なっているかどうかの検定つまり変化量平均値に関するパターンの検定になります。 この検定結果は有意水準5%で有意ではありません。 そのため2群の変化量平均値の時期変動パターンは似ていてると考えられます。

したがって要因Aの検定結果と要因Bの検定結果は正確であり、変化量平均値は投与1週後も2週後もあまり変わらず、全体としてP群よりもA群の方が15.3ほどより低下していると解釈できます。 つまり群ごとに変化量平均値の時期変動グラフを描くと、それは図4.3.3の上段の左から2番目のようなグラフになるわけです。 そして15.3という低下量に医学的な意義があれば全体としてプラセボよりも実薬の方が薬効が大きい、つまり実薬には降圧効果があると結論できます。

群と時期の交互作用が大きい時は、変化量平均値の時期変動パターンがP群とA群で異なっている、つまり薬効の発現時期がプラセボと実薬で異なっていると解釈できます。 その場合、要因Aの要因Bの検定結果は不正確になります。 そのため投与1週後と投与2週後の2時点で、P群とA群の変化量平均値を群間比較する必要があります。 その際、どちらか1時点でも変化量平均値に違いがあれば、それを採用して「薬効に違いがある」という”いいとこ取りの評価”をする時は評価時点ごとの検定に多重性の調整が必要になります。

参考までに表4.3.8の投与1週後の2群の変化量平均値と、投与2週後の2群の変化量平均値をそれぞれ群間比較すると次のようになります。 要因Aの検定結果つまり投与1週後と2週後を合わせた時の変化量平均値を2群間で比較した検定結果は有意水準5%で有意ですが、時点ごとに群間比較するとどちらも有意ではありません。 これは時点ごとの群間比較の方がより詳細な比較であり、より高い信頼性が必要だからです。

○投与1週後の変化量平均値の比較(群間比較)
P群の変化量平均値=-7.2  A群の変化量平均値=-20
ボンフェローニ型多重検定:|to|=2.24734(p=0.109588)<t(8,0.05/2)=2.752 … 有意水準5%で有意ではない
変化量平均値の差の95%信頼区間:δ=12.8±15.7 → 下限:δL=-2.9 上限:δU=28.5
○投与2週後の変化量平均値の比較(群間比較)
P群の変化量平均値=-4.2  A群の変化量平均値=-22
ボンフェローニ型多重検定:|to|=2.547(p=0.0687)<t(8,0.05/2)=2.752 … 有意水準5%で有意ではない
変化量平均値の差の95%信頼区間:δ=17.8±19.2 → 下限:δL=-1.4 上限:δU=37.0

このように評価時点が複数ある時は、時点ごとの変化量に繰り返しのある二元配置分散分析と多重比較を適用することによって薬効を詳細に比較することができます。 しかしこれらの手法を適用するのは面倒で、結果の解釈も解釈も複雑なので、できれば評価時点を1つにして単純な解析手法を適用できるような試験デザインにするのが無難です。

(4) 対応のある繰り返し測定データ

薬効を比較する試験では同じ被検者に時期を変えて2種類の薬剤を投与し、被検者内で2種類の薬剤の効果を比較することがたまにあります。 例えば表4.3.4のデータが5名の患者に時期を変えてプラセボPと実薬Aを投与し、投与前と投与2週後に収縮期血圧を測定したものだとします。 すると表4.3.4は次のような表になります。

表4.3.10 同一患者における薬剤投与前後の収縮期血圧
患者ID収縮期血圧
P薬投与期間A薬投与期間
投与前投与2週後投与前後の変化量投与前投与2週後投与前後の変化量
1130129-1116108-8
2130110-20128100-28
312113514129108-21
4138125-13137114-23
5133132-1140110-30
平均値130.4126.2-4.2130108-22

このデータは被検者を要因A、薬剤の種類を要因B、投与時期を要因Cとした三元配置デザインになるので、繰り返しのない三元配置分散分析を適用することができます。 しかし三元配置分散分析は要因A、要因B、要因Cに加えて、AとBの交互作用、AとCの交互作用、BとCの交互作用、さらにAとBとCの交互作用まで分析する非常に複雑な手法です。 そのためまともに三元配置分散分析を適用せず、重要度の低い要因を潰して二元配置デザインにして解析するのが普通です。

例えば変化量平均値を薬効の評価指標とする時は、表4.3.10のように投与前後の変化量を求めることによって投与時期を潰し、変化量に関する被検者と薬剤の種類の二元配置デザインにして解析します。 この場合は薬剤が2種類だけなので、変化量に対応のあるt検定を適用した方が簡単です。 でも後の説明のために繰り返しのない二元配置分散分析を適用すると次のようになります。

表4.3.11 変化量に関する二元配置分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:被検者629.44157.351.81174
要因B:薬剤792.11792.19.12032
残差347.4486.85 
全体34859 
○要因A:被検者
H0:αi=0(被検者によって変化量平均値は変動しない)
FA=1.81174(p=0.2895)<F(1,4,0.05)=7.709 … 有意水準5%で有意ではない
○要因B:薬剤
H0:βj=0(薬剤によって変化量平均値は変動しない)
FB=9.12032(p=0.0392)>F(1,4,0.05)=7.709 … 有意水準5%で有意

比較のために、表4.3.10の実測値に繰り返しのない三元配置分散分析を適用すると次のようになります。

表4.3.12 繰り返しのない三元配置分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:被検者409.34102.3252.35636
要因B:薬剤432.451432.459.95855
要因C:時期858.051858.0519.7594
AxB:被検者と薬剤の交互作用92.3423.0750.531376
AxC:被検者と時期の交互作用314.7478.6751.81174
BxC:薬剤と時期の交互作用396.051396.059.12032
AxBxC:残差173.7443.425 
全体2676.5519 
○要因A:被検者
H0:αi=0(被検者によって平均値は変動しない)
FA=2.35636(p=0.2134)<F(4,4,0.05)=6.388 … 有意水準5%で有意ではない
○要因B:薬剤
H0:βj=0(薬剤によって平均値は変動しない)
FB=9.95855(p=0.0343)>F(1,4,0.05)=7.709 … 有意水準5%で有意
○要因C:時期
H0:γk=0(時期によって平均値は変動しない)
FC=19.7594(p=0.0113)>F(1,4,0.05)=7.709 … 有意水準5%で有意
○A×B:被検者と薬剤の交互作用
H0:ηij=0(被検者と薬剤の間に交互作用はない)
FAxB=0.531376(p=0.7223)<F(4,4,0.05)=6.388 … 有意水準5%で有意ではない
○A×C:被検者と時期の交互作用
H0:θik=0(被検者と時期の間に交互作用はない)
FAxC=1.81174(p=0.2895)<F(4,4,0.05)=6.388 … 有意水準5%で有意ではない
○B×C:薬剤と時期の交互作用
H0:Ωjk=0(薬剤と時期の間に交互作用はない)
FBxC=9.12032(p=0.0392)>F(1,4,0.05)=7.709 … 有意水準5%で有意

表4.3.11と表4.3.12を比べると、表4.3.11の要因A:被検者の検定結果と表4.3.12のAxC:被検者と時期の交互作用の検定結果が一致し、表4.3.11の要因B:薬剤の検定結果と表4.3.12のBxC:薬剤と時期の交互作用の検定結果が一致していることがわかります。 表4.3.11は時期の変化量つまり実測値の時期変動パターンをデータにしているため、要因A:被検者は実測値における被検者と時期の交互作用に相当し、要因B:薬剤は実測値における薬剤と時期の交互作用に相当するからです。

このようなデータで表4.3.8のように評価時点が2つ以上になると、投与前後の変化量をデータにしても対応のある三元配置になります。 そこでその場合は複数の評価時点の実測値を1つに要約し、それを評価指標にすると便利です。 例えば複数の評価時点の実測値の平均値(レベル)を評価指標にしたり、最大値と最小値の差(パータン)を評価指標にすることが考えられます。 そうすると時期が潰れて要因がひとつ減り、二元配置になって解析と結果の解釈が簡単になります。

ただし厳密に言えば、このような試験デザインは時期によって薬剤の影響は変わらないことと、最初に投与した薬剤1の影響が後で投与する薬剤2の結果に影響を与えない──つまり薬剤1の持ち越し効果が無いことが前提になっています。 しかし実際には時期によって薬剤の影響が変わることは大いに有り得ますし、薬剤の持ち越し効果も有り得ます。 したがってこのような試験デザインは不適切であり、本来は表4.3.8のような並行群間比較試験デザインにするべきです。 (→14.5 生物学的同等性試験)

(5) 繰り返し測定データの評価方法

ここで繰り返し測定データの評価方法についてまとめておきましょう。 繰り返し測定データの評価方法と、薬効評価の時の繰り返し測定データの模式図は次のようになります。

図4.3.5 繰り返し測定データの評価方法 図4.3.6 薬効評価の時の模式図

(i) 投与後の全時点を評価時点にし、評価時点ごとの変化量平均値を評価指標にする

表4.3.8のようなデータについて、投与後の全ての観測時点を評価時点にして時間変動を検討したい時の評価方法です。 探索型研究ではデータの時間変動を検討し、薬効が安定しない過渡期と安定した安定期の目安をつけるためにこの評価方法を用いることがよくあります。 ただし探索型研究では仮説を設定しない(設定できない)ため検定は必要ありません。 この評価方法では図4.3.5-(i)のA、B、Cはそれぞれ別々の評価になります。

(ii) 投与後の最終時点だけを評価時点にし、最終時点の変化量平均値を評価指標にする

薬剤の効果はすぐには発現せず、図4.3.6のように普通はある程度の時間がかかります。 そのため複数の時点でデータを測定するものの、過渡期は経過観察だけを目的にし、安定期の最終時点だけを評価時点にする評価方法です。 薬効評価の場合はこれが最も合理的な評価方法です。 この評価方法では図4.3.5-(ii)のA、B、Cは全て同じ評価になります。

(iii) 投与後の全時点の平均値を求め、その変化量平均値を評価指標にする

薬効が発現していても、体調などの影響でデータが変動することは大いに考えられます。 そこで薬効を正確に評価するために投与後の全時点のデータを平均し、その変化量平均値を評価指標にする評価方法です。 ただし薬効評価の場合は安定期だけを評価時点にするのが普通です。 この評価方法では図4.3.5-(iii)のA、B、Cはそれぞれ別々の評価になります。

(iv) 実測値の時間的変動を適当な関数で近似し、その関数のパラメーターを評価指標にする

例えば血圧の日内変動のようにデータの時間的変動に周期性がある時は、それを三角関数で近似します。 そして三角関数のパラメーターであるメサーと周期と振幅を評価指標にします。 適当な関数が不明な時は、とりあえず1次関数つまり直線で近似し、その傾きを評価指標にします。 繰り返し測定混合効果モデル(MMRM)はこの原理を応用した手法であり、時系列回帰分析の一種です。 これは過渡期だけを評価したい時に適していますが、過渡期だけの評価では医学的な意義は少ないでしょう。 この評価方法では図4.3.5-(iv)のA、B、Cはほぼ同じ評価になります。

繰り返し測定データは時系列データの一種ですから、時間的な変動を検討したい時は時系列回帰分析のような時系列解析を適用することが考えられます。 しかし臨床試験で繰り返し測定データを扱う時は、たいていデータの時間的な変動を検討するよりも薬効を評価するのが主目的です。 そのため無闇に時系列解析を適用するよりも、(ii)や(iii)のような単純な評価方法にして簡単な統計手法を適用するのが実際的です。 (→第12章 時系列解析)

(6) 欠測値の処理方法

臨床試験では色々な理由で途中脱落例が発生し、脱落後の繰り返し測定データが欠測値になります。 また脱落しなくても、何らかの理由で欠測値が生じることがあります。 そのため現実の臨床試験では欠測値の取り扱いがしばしば問題になります。

図4.3.7 欠測値とLOCF

例えば図4.3.7のように1週後までは脱落例がなく、その後に脱落例が発生して2週後のデータに欠測値が生じたとします。 この場合、全てのデータについて平均値を求めると黒色の折れ線のように1週後の平均値はある程度低下し、2週後の平均値はさらに低下したように見えてしまいます。 しかし脱落しない症例は青色の折れ線で描いたように1週後から2週後は変化しておらず、2週後の平均値が低下したのは欠測値が発生したためです。

このように欠測値のある症例を含めて解析すると、平均値の変動が時間によるものか被験者の違いによるものか区別できません。 繰り返し測定混合効果モデルは途中に欠測値があっても解析できるため、欠測値がある時の解析手法として用いられることがあります。 しかし欠測値のある症例を含めて解析すると、解析結果に被験者の違いが混入してしまいます。 そのため原則として欠測値のある症例は解析から除外するのが合理的です。

ただし安定期に入ってから欠測値が生じた場合、最終観測データの値がほぼそのまま持続すると判断して良い時があります。 その場合は最終観測データによって以後のデータを補完するLOCF(Last Observation Carried Forward、引き延ばし)という処理をし、その値を解析に用いる時があります。 例えば図4.3.7で1週以後は安定期と考えて脱落例についてLOCF処理をし、2週後のデータを1週後のデータで補完すると全体の平均値は1週後と2週後が同じ値になります。

現実問題として欠測値が全体の10%未満なら、どのような取り扱いをしてもその影響は無視できる程度です。 そのため欠測値の取り扱い方法にこだわる必要はあまりありません。 欠測値が20%以上ある時は試験計画に何らかの欠陥があり、そのせいで欠測値が生じやすくなっていることが考えられます。 そのため欠測値の取り扱い方法を検討する以前に、試験計画の欠陥を検討する必要があります。

試験の目的が整理されていないと、えてして試験デザインや評価指標が複雑になり、欠測値が生じやすくなります。 そうすると適用する統計手法が複雑になり、結果の解釈も複雑になります。 研究目的を整理して1つの試験は目的を1つにしぼり、評価指標も1つにして欠測値が生じにくくし、できるだけ単純な試験デザインと評価方法にするのが賢明です。

(7) クロスオーバーデザイン

対応のある繰り返し測定型データが得られる試験デザインのひとつにクロスオーバーデザイン(cross-over design)があり、このデザインを用いた試験をクロスオーバー試験(cross-over trial)といいます。 クロスオーバーデザインは例数が半分で済むため、以前はよく用いられました。 しかしこのデザインは医学分野の試験には原理的に向いていないことが知られてきたため、あまり用いられなくなりました。

現在、クロスオーバーデザインが用いられるのはほとんど生物学的同等性試験(Bioequivalence Study、BE試験、生同試験)だけです。 そのためこれについては第14章・第5節を参照してください。 (→14.5 生物学的同等性試験)


(注1) 2つの要因A、Bの水準数をそれぞれa、b、Aiの繰り返し数をriとして、表4.3.1を一般化すると次のようになります。

表4.3.13 繰り返しのある二元配置分散分析の
一般的データ
要因AB1BjBb平均値
A1y111y1j1y1b1T1.1m1.1
:::::
y11ky1jky1bkT1.km1.k
:::::
y11r1y1jr1y1br1T1.r1m1.r1
A1内計T11.T1j.T1b.T1..
A1内平均m11.m1j.m1b.m1..
::::::
Aiyi11yij1yib1Ti.1mi.1
:::::
yi1kyijkyibkTi.kmi.k
:::::
yi1riyijriyibriTi.rimi.ri
Ai内計Ti1.Tij.Tib.Ti..
Ai内平均mi1.mij.mib.mi..
::::::
Aaya11yaj1yab1Ta.1ma.1
:::::
ya1kyajkyabkTa.kma.k
:::::
ya1rayajrayabraTa.rama.ra
Aa内計Ta1.Taj.Tab.Ta..
Aa内平均ma1.maj.mab.ma..
T.1.T.j.T.b.TT
平均m.1.m.j.m.b.mT

データyijkを繰り返しのある二元配置分散分析の基本式に従って分解し、平方和と自由度と分散を求めて分散分析表にまとめると次のようになります。

繰り返しのある二元配置分散分析の基本式:(yijk - μ)=αi + βj + γij + εijk
 
・全体
総例数:   ri:Aiの繰り返し数(各カラム一定)
平方和:
自由度:φT=n - 1   分散:
・要因A
平方和:
自由度:φA=a - 1   分散:   寄与率:
・要因B
7 平方和:
自由度:φB=b - 1   分散:   寄与率:
・交互作用:A×B
平方和:

自由度:φAB=ab - 1   自由度:φAxBAB - φA - φB=ab - a - b + 1=(a - 1)(b - 1)
分散:   寄与率:
・残差
平方和:
自由度:φRT - φAB=n - ab   分散:
E(VR)=σR2   E(VA)=b riσA2 + σR2   E(VB)=∑riσB2 + σR2   E(VAxB)=riσAxB2 + σR2
        
ST=SAB + SR=SA + SB + SAxB + SR
表4.3.14 分散分析表(ANOVA table)
要因平方和SS自由度φ平均平方和Ms分散比F
ASAφAVAFA=VA/VR
BSBφBVBFB=VB/VR
A×BSAxBφAxBVAxBFAxB=VAxB/VR
残差SRφRVR 
全体STφT 

SABは要因Aの第i水準と要因Bの第j水準におけるri個のデータを、それらの平均値mij.ただ1つで代表させた時の全変動であり、級間平方和と呼ばれています。 繰り返し数が1の時つまり繰り返しのない二元配置分散分析では、級間平方和は全変動の平方和になります。

交互作用の多重比較はシェッフェ型一般対比の考え方を応用して次のようになります。 (→4.1 多標本の計量値 (注4))


Fo≧F(φAxBR,α)の時、有意水準100α%で有意

交互作用が小さくてFAxBが1より小さい時は、交互作用を残差に含めて繰り返しのない二元配置分散分析にした方が誤差が小さくなり、効率が良くなります。

表4.3.15 交互作用を残差に含めた分散分析表
要因平方和SS自由度φ平均平方和Ms分散比F
ASAφAVAFA=VA/VR'
BSBφBVBFB=VB/VR'
残差SR'=SAxB+SRφR'AxBRVR' 
全体STφT 

表4.3.1のデータについて実際に計算してみましょう。

ST=12+22+…+232 - 20×10.252=3025 - 2101.25=923.75   φT=20 - 1=19   
SA=10×(4.52+162) - 2101.25=2762.5 - 2101.25=661.25   φA=2 - 1=1  VT=661.25
SB=10×(72+13.52) - 2101.25=2312.5 - 2101.25=211.25   φB=2 - 1=1  VT=211.25
SAB=5×(22+72+122+202) - 2101.25=2985 - 2101.25=883.75   φAB=4 - 1=3
SAxB=883.75 - 661.25 - 211.25=11.25  φAxB=3 - 1 - 1=1   VAxB=11.25
SR=923.75 - 883.75=40  φAxB=19 - 3=16   
     

(注2) 繰り返しのある二元配置分散分析は、原則として繰り返し数が全て同じである必要があります。 繰り返し数が異なると要因Aと要因Bが独立ではなくなって相関を持つため、平方和の相加性が成り立たなくなるからです。 例えば表4.3.1において、薬剤無−食餌無の5個のデータのうち3番目のデータ「2」が欠損だったとします。 すると表4.3.1は次のようになります。

表4.3.16 薬物と食餌の効果(欠損あり)
要因B:食餌平均値
要因A:薬物群1効果群2効果4.78
16
27
-7
27
38
平均値=2平均値=7
群3効果群4効果16
1017
1118
1220
1322
1423
平均値=12平均値=20
平均値7.5613.510.68

表4.3.1のようなデータを釣り合い型データ(balanced data)と呼ぶのに対して、このようなデータを非釣り合い型データ(unbalanced data)と呼びます。 このデータについて、(注1)の計算式を用いて平方和を計算すると次のようになります。

ST=12+22+…+232 - 19×10.684212=3021 - 2168.895=852.105
SA=9×4.777782+10×162 - 2168.895=2765.444 - 2168.895=596.55
SB=9×7.555562+10×13.52 - 2168.895=2336.278 - 2168.895=167.383
SAB=4×22+5×(72+122+202) - 2168.895=2981 - 2168.895=812.105
SAxB=812.105 - 596.55 - 167.383=48.172
※SAxBを要因Ai水準・要因Bj水準の平均値と理論的推定値から計算すると
SAxB=4×{2-(4.77778+7.55556-10.68421)}2+…+5×{20-(16+13.5-10.68421)}2=13.062
SR=852.105 - 812.105=40
表4.3.17 相関を無視した二元配置分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:薬物596.551596.55223.706
要因B:食餌167.3831167.38362.7686
AxB:薬物と食餌の交互作用48.172148.17218.0645
残差40152.66667 
全体852.10519 

以上のように、2通りの方法で計算したSAxBの平方和は一致しません。 (注1)で説明した平方和の計算式は、要因Aと要因Bが独立で平方和の間に相加性があることを前提にした式だからです。 そのためこのような時は表4.3.17の相関を無視した分散分析表は不適切であり、分散分析ではなく重回帰分析を適用する必要があります。 重回帰分析の章で詳しく説明しますが、この場合は次のような重回帰モデルを当てはめて計算します。 (→7.1 重回帰モデル (注2))

○重回帰モデル:=β + ε0n + β11 + β22 + β33 + ε
x1:薬物の有無(無=0 有=1の値を取るダミー変数)   x2:食餌の有無(無=0 有=1の値を取るダミー変数)
x3=x1・x2:薬物と食餌の交互作用(両方またはどちらか無=0 両方有=1の値を取るダミー変数)
○重回帰分析の結果
重回帰式:y=2 + 10x1 + 5x2 + 3x3
ベースライン(ブラセボ効果):b0=2  標準誤差=0.816497
薬物効果:b1=10  標準誤差=1.09545  偏回帰平方和=222.222
 Fβ1=83.3333(p=1.635×10-7)>F(1,15)=4.543 … 有意水準5%で有意
食餌効果:b2=5  標準誤差=1.09545  偏回帰平方和=55.5556
 Fβ2=20.8333(p=0.0004)>F(1,15)=4.543 … 有意水準5%で有意
薬物と食餌の交互作用:b3=3  標準誤差=1.50555  偏回帰平方和=10.5882
 Fβ3=3.97059(p=0.0648)<F(1,15)=4.543 … 有意水準5%で有意ではない
重回帰式全体の検定:Fβ=101.513(p=3.454×10-10)>F(3,15)=3.287 … 有意水準5%で有意
表4.3.18 重回帰式の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
回帰812.1053270.702101.513
残差40152.66667 
全体852.10518 

偏回帰平方和は、他の変数を全て重回帰モデルに入れた上で各変数を追加した時の回帰平方和の増加分=全ての変数を重回帰モデルに入れた上で各変数を除外した時の残差平方和の減少分を表し、偏回帰係数の検定と区間推定に利用される値です。 この場合は変数間に相関があるため、これらの偏回帰平方和には相加性が成り立たず、合計が重回帰式全体の回帰平方和と一致しません。

ところがこれらの偏回帰平方和を利用して、強引に分散分析表を作成してしまおうという乱暴な考え方があります。 統計ソフトSASやSPSSはこの考え方に従って、これらの偏回帰平方和をタイプIII平方和(Type III SS)と呼んで分散分析表を強引に作成します。 ただしタイプIII平方和を求める場合は、次のように「無=-1 有=1」という値を取るダミー変数を用いた重回帰モデルを当てはめます。 これはダミー変数の中心を0にし、本来の分散分析の結果に強引に近づけるためです。

○重回帰モデル:=β + ε0n + β11 + β22 + β33 + ε
x1:薬物の有無(無=-1 有=1の値を取るダミー変数)   x2:食餌の有無(無=-1 有=1の値を取るダミー変数)
x3=x1・x2:薬物と食餌の交互作用(両方が無または有=1 どちらかが有=-1の値を取るダミー変数)
○重回帰分析の結果
重回帰式:y=10.25 + 5.75x1 + 3.25x2 + 0.75x3
ベースライン(プラセボ効果):10.25 + 5.75×(x1=-1) + 3.25×(x2=-1) + 0.75×(x3=1)=2
薬物効果:(x1=1 x2=-1 x3=-1) - (x1=-1 x2=-1 x3=1)=5.75×2 - 0.75×2=10
食餌効果:(x1=-1 x2=1 x3=-1) - (x1=-1 x2=-1 x3=1)=3.25×2 - 0.75×2=5
薬物と食餌の交互作用:(x1=1 x2=1 x3=1) - (x1=-1 x2=-1 x3=1) - 10 - 5=5.75×2 + 3.25×2 - 10 - 5=3
b0=10.25  標準誤差=0.376386
b1=5.75  標準誤差=0.376386  偏回帰平方和=622.353
 Fβ1=233.382(p=1.499×10-10)>F(1,15)=4.543 … 有意水準5%で有意
b2=3.25  標準誤差=0.376386  偏回帰平方和=198.824
 Fβ2=74.5588(p=3.324×10-7)>F(1,15)=4.543 … 有意水準5%で有意
b3=0.75  標準誤差=0.376386  偏回帰平方和=10.5882
 Fβ3=3.97059(p=0.0648)<F(1,15)=4.543 … 有意水準5%で有意ではない
重回帰式全体の検定:Fβ=101.513(p=3.454×10-10)>F(3,15)=3.287 … 有意水準5%で有意
表4.3.18 重回帰式の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
回帰812.1053270.702101.513
残差40152.66667 
全体852.10518 
表4.3.19 タイプIII平方和を用いた二元配置分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:薬物622.3531622.353233.382
要因B:食餌198.8241198.82474.5588
AxB:薬物と食餌の交互作用10.5882110.58823.97059
残差40152.66667 
全体852.10519 

この結果とダミー変数を「無=0 有=1」で表した通常の重回帰分析結果を比較すると、b1とb2の偏回帰平方和が大きくなり、b3の偏回帰平方和は変わらないことがわかります。 これは薬物効果と食餌効果の計算方法からわかるように、b1とb2に交互作用の影響が含まれているからです。 このように交互作用を含めた重回帰モデルは交互作用だけ正確な結果が得られ、主効果の結果は不正確になります。

もちろんこれらの平方和には相加性が成り立たないので、4種類の平方和の合計が全体の平方和と一致せず、非合理な分散分析表になります。 そのためタイプIII平方和を用いた分散分析表は重回帰分析の結果を擬似的な分散分析表で表したものと解釈した方が良いでしょう。 ただしこの重回帰モデルはタイプIII平方和を強引に求めるための特殊なものであり、合理的な重回帰式を求めるには通常のダミー変数を用いた重回帰モデルの方が適しています

これらの偏回帰平方和をタイプIII平方和と呼ぶ理由は、これとは別の方法で計算した偏回帰平方和を利用して強引に分散分析表を作成する方法が他に2通りあるからです。 そのひとつは主効果と交互作用を別々に計算する方法です。 通常の二元配置分散分析は主効果つまり要因Aと要因Bの平方和は交互作用を無視して計算し、交互作用の平方和は主効果の平方和を利用して計算します。 そこで、まず交互作用を含めない重回帰モデルによって主効果の偏回帰平方和を求め、次に交互作用を含めた重回帰モデルによって交互作用の偏回帰平方和を求め、それら2種類の重回帰モデルの偏回帰平方和を合成して分散分析表を作成するのです。

この時の偏回帰平方和をタイプII平方和(Type II SS)と呼び、表4.3.16のデータの場合は次のような分散分析表になります。 これらの平方和にも相加性が成り立たないので、4種類の平方和の合計が全体の平方和と一致せず、やはり非合理な分散分析表になります。 これは後述するように共分散分析の結果をシミュレートした分散分析表と解釈できます。

表4.3.20 タイプII平方和を用いた二元配置分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:薬物634.1341634.134237.8
要因B:食餌204.9671204.96776.8627
AxB:薬物と食餌の交互作用10.5882110.58823.97059
残差40152.66667 
全体852.10519 

もうひとつは主効果と交互作用を順番に計算する方法です。 この方法ではまず要因Aだけを入れた重回帰モデルによって要因Aの偏回帰平方和を求め、次に要因Bを追加した重回帰モデルによって要因Bの偏回帰平方和を求め、最後に交互作用を追加した重回帰モデルによって交互作用の偏回帰平方和を求め、それら3種類の重回帰モデルの偏回帰平方和を合成して分散分析表を作成するのです。

この時の偏回帰平方和をタイプI平方和(Type I SS)と呼び、表4.3.16のデータの場合は次のような分散分析表になります。 これは平方和の間に一応の相加性が成り立っていて、本来の分散分析に近い分散分析表です。

表4.3.21 タイプI平方和を用いた二元配置分散分析表(A→B)
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:薬物596.551596.55223.706
要因B:食餌204.9671204.96776.8627
AxB:薬物と食餌の交互作用10.5882110.58823.97059
残差40152.66667 
全体852.10519 

ただしタイプI平方和は要因を重回帰モデルに追加する順番によって値が変わります。 例えば要因B→要因A→交互作用という順番で計算した時の分散分析表は次のようになります。 この分散分析表も一応の相加性が成り立っているものの、要因Aと要因Bの平方和の値は表4.3.21とは異なります。

表4.3.22 タイプI平方和を用いた二元配置分散分析表(B→A)
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:薬物634.1341634.134237.8
要因B:食餌167.3831167.38362.7686
AxB:薬物と食餌の交互作用10.5882110.58823.97059
残差40152.66667 
全体852.10519 

タイプIII平方和の特別な場合として欠損を理論的推定値で補完し、強引にバランスを取った上で分散分析表を作成する方法があります、 その時の平方和はタイプIV平方和(Type IV SS)と呼ばれていますが、これはタイプIII平方和以上に強引で恣意的な方法ですから、めったに使われないようです。

本来、分散分析は要因同士が独立になるように計画された試験デザインから得られた、釣り合い型データを解析するために開発された手法です。 そのため表4.3.16のような非釣り合い型データに、無理に分散分析を適用するのは非合理です。 それよりも変数間に相関がある時の解析手法である重回帰分析か共分散分析を適用する方が合理的です。 表4.3.16の場合、薬物の有無を群扱いし、食餌の有無を共変数扱いして、共分散分析を適用することができます。 その結果は次のようになります。 (→8.5 共分散分析と二元配置分散分析)

目的変数y:効果  共変数x:食餌の有無(無=0 有=1)
薬物無群:群別回帰式 y=2 + 5x  共通回帰式 yc=1.11765 + 6.58824x
薬物有群:群別回帰式 y=12 + 8x  共通回帰式 yc=12.7059 + 6.58824x
表4.3.23 共分散分析表
要因平方和自由度平均平方和(分散)F値
群差(薬物)596.551596.55223.706
共通回帰(食餌)204.9671204.96776.8627
修正群差(薬物)634.1341634.134237.8
全体回帰(食餌)167.3831167.38362.7686
非平行性(交互作用)10.5882110.58823.97059
残差40152.66667
全体852.10518

表4.3.17〜表4.3.22と表4.3.23を比較すると、それぞれの分散分析表の関係がわかると思います。 表4.3.23の「群差(薬物)」と「共通回帰(食餌)」は表4.3.21の「要因A:薬物」と「要因B:食餌」に一致し、要因A→要因Bの順番で計算したタイプI平方和に相当します。 そのため要因A:薬物の平方和は食餌の影響を無視した値になり、要因B:食餌の平方和は薬物の影響を補正した値になります。

そして表4.3.23の「修正群差(薬物)」と「全体回帰(食餌)」は表4.3.22の「要因A:薬物」と「要因B:食餌」に一致し、要因B→要因Aの順番で計算したタイプI平方和に相当します。 そのため要因A:薬物の平方和は食餌の影響を補正した値になり、要因B:食餌の平方和は薬物の影響を無視した値になります。

また表4.3.23の「修正群差(薬物)」と「共通回帰(食餌)」は表4.3.20の「要因A:薬物」と「要因B:食餌」に一致し、要因Aと要因Bを同時に入れて計算したタイプII平方和に相当します。 そのため要因A:薬物の平方和は食餌の影響を補正した値になり、要因B:食餌の平方和は薬物の影響を補正した値になります。

表4.3.23には表4.3.19の「要因A:薬物」または「要因B:食餌」の平方和と一致するものはありません。 タイプIII平方和は主効果と交互作用を同時に入れて計算した平方和のため、特殊な重回帰モデルを使用した重回帰分析の偏回帰平方和と一致するからです。

それから表4.3.23の「非平行性(交互作用)」と「残差」は、表4.3.19〜表4.3.22の「AxB:薬物と食餌の交互作用」と「残差」に一致します。 このことから、これらの解析手法は交互作用の検定だけが正確であり、主効果の検定結果は不正確になるため、交互作用があるかどうかを検討するためのものと割り切って考えた方が良いことがわかります。

そして交互作用がなければ、交互作用を残差に含めた分散分析表を作成して再検定します。 交互作用がないということはお互いに相手の状態とは無関係に効果を検討することができるという意味なので、交互作用をモデルに入れる必要はないわけです。 この場合、タイプII平方和とタイプIII平方和は一致し、それは非平行性を残差にプールした共分散分析の結果とも一致します。 タイプII平方和とタイプIII平方和の違いは交互作用の処理方法だけだからです。

もし交互作用があればその検定結果だけ採用して、主効果の検定結果は採用しません。 そして食餌無における薬物の効果と食餌有における薬物の効果、または薬物無における食餌の効果と薬物有における食餌の効果を科学的に検討します。 薬物と食餌の間に交互作用があるということは、お互いに相手の状態を考慮に入れなければ正確な効果は検討できないという意味だからです。

その場合、食餌の有無で層別して薬物の効果を一元配置分散分析で解析したり、薬物の有無で層別して食餌の効果を一元配置分散分析で解析するという方法も考えられます。 すでに交互作用の検定を行っているので二重に検定する必要はないのですが、何でもかんでも検定をしなければ気がすまない有意症患者を納得させるためには、層別解析を行うのもひとつの対処法ではあるでしょう。

また図4.3.2を見ながら薬物無群と有群の群別回帰式と共通回帰式を見ると、その意味するところがわかると思います。 つまり群別回帰式は薬物無群の食餌無平均値→有平均値のグラフと、薬物有群の食餌無平均値→有平均値のグラフを表していて、この2本のグラフが平行なら交互作用はないわけです。 そして共通回帰式は2本のグラフが平行と仮定した時の理論的グラフを表していて、この式から求められる薬物有・無−食餌有・無の各修正平均値のことを最小二乗平均(LSM:Least Syare Mean)と呼ぶことがあります。

釣り合い型データに共分散分析を適用すると「群差」と「修正群差」が一致し、「共通回帰」と「全体回帰」が一致します。 そしてダミー変数「無=-1 有=1」を用いた重回帰分析と共分散分析が一致します。 その結果、タイプI平方和およびタイプII平方和およびタイプIII平方和による分散分析表が一致し、それは通常の二元配置分散分析表と一致します。 そうなるようにデータのバランスを取り、要因間の相関をなくして簡単に計算できるようにした手法が分散分析ですから、これは当然のことです。

また繰り返しのない二元配置分散分析は釣り合い型に相当するため、3種類の平方和が全て一致します。 また一元配置分散分析は要因がひとつだけなので、やはり3種類の平方和が全て一致します。 そのため平方和のタイプの違いが問題になるのは、繰り返しのある二元配置以上で、しかもバランスの崩れた試験デザインの時ということになります。

実際の研究限場では結果に影響を与える要因をひとつずつ検討し、研究目的に最適な条件を探索してから、できるだけその条件で検証試験を行うというように段階的に研究を進めます。 そのため二元配置以上の複雑なデザインの試験を行うのは避け、できるだけ単純なデザインの試験を段階的に行うのが賢明です。 ということは分散分析の平方和のタイプの違いが問題になるような場面は現実の研究現場ではほとんどなく、もしあったとしたらその時は試験デザインを見直すべきだということになります。

そしてどうしても非釣り合い型のデータを解析しなければならない時は分散分析ではなく共分散分析を適用し、非平行性が小さければ非平行性を残差に含めた共分散分析表を作成して検討し、非平行性が大きければ要因B(またはA)の水準ごとに要因A(またはB)の効果を検討するのが合理的です。 本来適用すべきではないデータに無理に分散分析を適用して、「平方和が3種類もあるけど、一体、どれを採用すれば良いのだろう…?」などと、あまり意味のないことに頭を悩ますのはやめましょう。 (→8.5 共分散分析と二元配置分散分析)

(注3) 要因Aの水準数つまり群数をa、要因Bの水準数つまり時期数をb、Aiの被験者数をriとして、表4.3.4を一般化すると次のようになります。

表4.3.16 繰り返し測定型二元配置分散分析の一般的データ
要因A(群)被験者時期B1時期Bj時期Bb平均値
A11y111y1j1y1b1T1.1m1.1
::::::
ky11ky1jky1bkT1.km1.k
::::::
r1y11r1y1jr1y1br1T1.r1m1.r1
小計T11.T1j.T1b.T1..
平均m11.m1j.m1b.m1..
:::::::
Ai1yi11yij1yib1Ti.1mi.1
::::::
kyi1kyijkyibkTi.kmi.k
::::::
riyi1riyijriyibriTi.rimi.ri
小計Ti1.Tij.Tib.Ti..
平均mi1.mij.mib.mi..
:::::::
Aa1ya11yaj1yab1Ta.1ma.1
::::::
kya1kyajkyabkTa.kma.k
::::::
raya1rayajrayabraTa.rama.ra
小計Ta1.Taj.Tab.Ta..
平均ma1.maj.mab.ma..
T.1.T.j.T.b.TT
平均m.1.m.j.m.b.mT

データyijkを繰り返し測定型二元配置分散分析の基本式に従って分解し、平方和と自由度と分散を求めて分散分析表にまとめると次のようになります。

繰り返し測定型二元配置分散分析の基本式:(yijk - μ)=αi + εsik + βj + γij + εijk
 
・全体
群Aiの被験者数:ri   全被験者数:   総データ数:
平方和:
自由度:φT=n - 1   分散:
・要因A:群
平方和:
自由度:φA=a - 1   分散:   寄与率:
・被験者
平方和:
自由度:φsub=N - 1   分散:   寄与率:
・被験者残差
平方和:
自由度:φSRsub - φA=N - a   分散:
・要因B:時期
平方和:
自由度:φB=b − 1   分散:   寄与率:
・交互作用:A×B
平方和:

自由度:φAB=ab - 1   自由度:φAxBAB - φA - φB=ab - a - b + 1=(a - 1)(b - 1)
分散:   寄与率:
・被験者残差×時期
平方和:
自由度:φSRxBT - φA - φSR - φB - φAxB=(N - a)(b - 1)   分散:   
ST=SA + SSR + SB + SAxB + SSRxB=Ssub + SB + SAxB + SSRxB
表4.3.17 分散分析表(ANOVA table)
要因平方和SS自由度φ平均平方和Ms分散比F
A:群SAφAVAFA=VA/VSR
SR:被験者残差SSRφSRVSR 
SUB:被験者SsubφsubVsubFsub=Vsub/VSRxB
B:時期SBφBVBFB=VB/VSRxB
A×BSAxBφAxBVAxBFAxB=VAxB/VSRxB
SR×B:残差SSRxBφSRxBVSRxB 
全体STφT 

群ごとの時期変動パターンの違いが小さくてFAxBが1より小さい時は、群と時期との交互作用A×BをSR×Bにプールした方が誤差が小さくなり、効率が良くなります。

表4.3.18 AxBをSR×Bにプールした分散分析表
要因平方和SS自由度φ平均平方和Ms分散比F
A:群SAφAVAFA=VA/VSR
SR:被験者残差SSRφSRVSR 
SUB:被験者SsubφsubVsubFsub=Vsub/VSxB
B:時期SBφBVBFB=VB/VSxB
SUB×B:残差SSxB=SAxB+SSRxBφSxBAxBSRxBVSRxB 
全体STφT 

また個体差が少なくてFsubが1より小さい時は、SRをSR×Bにプールして一般的な繰り返しのある二元配置分散分析にした方が誤差が小さくなり、効率が良くなります。

表4.3.19 SRをSR×Bにプールした分散分析表
要因平方和SS自由度φ平均平方和Ms分散比F
A:群SAφAVAFA=VA/VR
B:時期SBφBVBFB=VB/VR
A×BSAxBφAxBVAxBFAxB=VAxB/VR
残差SR=SSR+SSRxBφSRxBSRSRxBVR 
全体STφT 

表4.3.4のデータについて実際に計算してみましょう。

ST=1302+1302+…+1102 - 20×123.652=3308463 - 305786.45=2676.55   φT=20 - 1=19
SA=10×(128.32+1192) - 305786.45=306218.9 - 305786.5=432.45   φA=2 - 1=1  VT=432.45
SSUB=2×(129.52+1202+…+1252) - 305786.45=306720.5 - 305786.45=934.05
φSUB=10 - 1=9  
SSR=934.05 - 432.45=501.6  φSR=10 - 2=8
SB=10×(130.22+117.12) - 305786.45=306644.5 - 305786.45=858.05   φB=2 - 1=1  VT=858.05
SAB=5×(130.42+126.22+1302+1082) - 305786.45=307473 - 305786.45=1686.55   φAB=4 - 1=3
SAxB=1686.55 - 432.45 - 858.05=396.05  φAxB=3 - 1 - 1=1   VAxB=396.05
SR=2676.55 - 934.05 - 858.05 - 396.05=488.4  φR=(10 - 2)×(2 - 1)=8