玄関雑学の部屋雑学コーナー統計学入門

11.2 生存率の比較方法

(1) 累積生存率の比較

前節の図11.1または図11.2を見れば、A群の方が生存率が高い、つまりA法という手術の方が予後が良いことが直感的にわかります。 ところが有意症患者は、

「2群の生存率に差があるかどうか検定したい!」

と考えるでしょう。 「有意である」とは「実験結果の数字が信頼できる」ということであり、実質的な意味はほとんどありません。 しかし、有意症患者のためにいくつかの手法が考案されているので紹介しましょう。

最も単純なものは、ある時点の累積生存率をそのまま群間比較する方法です。 前節の表11.2と表11.3に記載されているように、ある時点の累積生存率について標準誤差を計算することができます。 この標準誤差と、累積生存率が近似的に正規分布することを利用すれば、対応のない2標本の平均値の差を検定する手法と同じ原理で、ある時点における2群の累積生存率の差の検定と推定を行うことができます。 (→3.3 2標本の計量値 (2) データに対応がない場合)

ある時点におけるA群の累積生存率とその標準誤差をPAiとSEAi、母累積生存率をπAi、B群の累積生存率とその標準誤差をPBiとSEBi、母累積生存率をπAi、2群の累積生存率の差とその標準誤差をPdiとSEdi、母累積生存率の差をδiとすると、帰無仮説と検定と推定の計算式は次のようになります。

H0:δiAiBi=0
Pdi=PAi-PBi
SEdi=√(SEAi2+SEBi2)
zo= Pdi
――
SEdi
|zo|≧t(∞,α)の時、有意水準100α%で有意
δiの100(1-α)%信頼区間:下限 δiL=Pdi-t(∞,α)・SEd  上限 δiU=Pdi+t(∞,α)・SEd

例えば表11.2の24ヵ月後の累積生存率について、有意水準5%、信頼係数95%として計算すると次のようになります。

・A群:PA24=0.729  SEA24=0.134
・B群:PB24=0.36   SEB24=0.161
・累積生存率の差
  Pd24=0.369  SEdi=0.209
  |zo|=1.761 (p=0.0781)<t(∞,0.05)=1.96…有意水準5%で有意ではない
  δ24の95%信頼区間:下限 δ24L=-0.042  上限 δ24U=0.780

この場合の統計学的結論は次のようになります。

統計学的結論:24ヵ月後におけるA群とB群の累積生存率の差36.9%は信頼できないから、2群の母累積生存率の差はもしかしたら0%かもしれない。 (厳密な結論は保留する)
母累積生存率の差はほぼ36.9%であり、幅を取れば-4.2%〜78%の間である。

(2) 瞬間死亡率の比較

前述の手法はある時点の累積生存率を群間比較するものであり、1時点だけの断面的な比較にすぎません。 そこで表11.2の全時点でこの比較を行い、それを総合すれば、一応、図11.1の2本の累積生存率曲線全体を比較したことになります。

しかし複数の時点で複数の検定を行い、それを総合する時は検定の多重性という問題が発生します。 ところがこの場合、各時点の累積生存率はそれぞれ独立ではなく、時系列的な相関性があります。 多重比較は各検定が独立であるいうことを前提とした手法ですから、このような時系列的な相関を持つ複数の検定に適用するのは不適切です。 (→4.1 多標本の計量値 (注2))

そこで生命表のデータを対応のある2分類データと考え、繰り返しのある二元配置分散分析に相当する名義尺度用の手法を適用して、累積生存率曲線全体を群間比較する手法が考案されています。 それが「コックス・マンテル(Cox-Mantel)の検定」です。 (→4.2 多標本の計数値 (2) 名義尺度(分類データ) 2) データに対応がある場合)

前節の表11.3について、死亡例または脱落例が発生するたびに群と生死についての2×2分割表を作成し、それを時系列的に並べると次のようになります。 これらの分割表において、各群の死亡例数を合計例数で割った値はその時点の瞬間死亡率になります。

表11.4 時系列2×2分割表
観測期間生存(脱落)死亡瞬間死亡率
2A12(0)0120
B9(0)1100.1
4A12(1)0120
B8(0)190.111
5A10(0)1110.091
B8(0)080
6A10(0)0100
B7(0)180.125
8A9(0)1100.1
B7(0)070
12A9(0)090
B6(0)170.143
13A8(0)190.111
B5(0)160.167
15A8(0)080
B5(1)050
16A8(1)080
B4(0)040
18A7(0)070
B3(0)140.25
20A7(0)070
B3(1)030
25A7(0)070
B1(0)120.5
27A6(0)170.143
B1(0)010
28A5(0)160.167
B1(0)010
32A5(1)050
B1(0)010
35A4(1)040
B0(0)111
36A2(0)130.333
B0(0)00-
50A2(1)020
B0(0)00-
56A1(1)010
B0(0)00-

これらの分割表の中で、死亡例が発生していない時のものと、片方の群の例数が0になってしまった時のものは結果に影響しないため除外し、残りの12個の分割表にマンテル・ヘンツェルの検定を適用すると次のようになります。 (注1)

共通性の検定:χMm'2=3.425 (p=0.0642)<χ2(1,0.05)=3.841…有意水準5%で有意ではない
異質性の検定:χMr2=11.506 (p=0.4019)<χ2(11,0.05)=19.675…有意水準5%で有意ではない

この場合、共通性の検定は全時期を通して2群の瞬間死亡率の差が一定と仮定した時の、瞬間死亡率の差の検定になります。 それに対して異質性の検定は、時期ごとに瞬間死亡率の差が変動しているかどうかの検定になります。

前節のカプラン・マイヤー法よる累積生存率の計算方法で説明したように、累積生存率は瞬間生存率を掛け合わせることによって計算します。 このため瞬間生存率や瞬間死亡率は、累積生存率に対して指数関数的に影響します。 そこで2群の瞬間死亡率の差が一定の時、2群の累積生存率曲線は交わることがなく、対数変換すると平行になります。 つまり異質性の検定は2群の累積生存率曲線の非平行性の検定であり、群と生存時間の交互作用の検定に相当します。

厳密に言うと、共分散分析の非平行性の検定結果が有意の時は修正群差の検定結果が不正確になるように、異質性の検定結果が有意の時は、2群の瞬間死亡率の差が変動するため共通性の検定結果は不正確になります。 例えば2群の累積生存率曲線が交差してしまい、ある時点まではA群の方が累積生存率が高いが、それ以後はB群の方が累積生存率が高いという現象が起こり、単純に一方の群の方が生存率が高いと言えなくなってしまうのです。

その代わり、このことから群の性質が異なっているということが推測できます。 例えばこの例のように群によって手術法が違っていたならば、短期的な生存率はAという手術法の方が高いが、長期的な生存率はBという手術法の方が高い、つまり手術法によってプロフィールが異なっているということが推測できます。 そのようなプロフィールがわかれば患者の状態に合わせて手術法を適宜選択することが可能になりますから、これはこれで重要な情報です。 (→8.2 共分散分析結果の解釈)

しかし一般的な生命表解析では、とりあえず異質性の検定は無視し、共通性の検定だけを取り上げて、瞬間死亡率の差を検定する手法を「コックス・マンテルの検定」と呼んでいます。 ただしコックス・マンテルの検定では、慣習的に検定統計量としてχ2値の平方根つまり標準正規分布の値を用います。

コックス・マンテルの検定:zo=1.851(p=0.0642)<t(∞,0.05)=1.96…有意水準5%で有意ではない
zo2=1.8512=3.425=χMm'2

瞬間死亡率が累積生存率に対して指数関数的に影響するため、生命表解析では瞬間死亡率の差を指数変換し、瞬間死亡率の比にした値を指標にすることが多くなります。 このためコックス・マンテルの検定でも、瞬間死亡率の比を計算することがあります。 その値のことを「ハザード比(hazard ratio)」または「相対ハザード(relative hazard)」といいます。 「ハザード」は「リスク」と同じような意味ですが、「リスク比」という言葉は最終的な死亡率の比である相対危険度を表すため、ハザードという用語を用いて区別しています。

表11.4のデータについて、ハザード比とその95%信頼区間を計算すると次のようになります。

ハザード比(B群/A群):HR=3.697
95%信頼区間:下限 HRL=1.125  上限 HRU=12.151

上記の結果から、A群に比べてB群のハザードが4倍ほどあることがわかります。 ただしこれは瞬間死亡率の比ですから、A群の累積生存率の方が4倍高いとか、A群の方が4倍長生きするということではありません。 あくまでも瞬間死亡率が4倍ほど高い、つまりある瞬間にある観察対象が死亡する確率が4倍ほど高いということです。 例えばA群の瞬間死亡率が1%だとすると、B群の瞬間死亡率は4%ほどということになり、瞬間死亡率の差はたった3%しかありません。

ちなみに表11.4のコックス・マンテルの検定を適用した12個の分割表について、群ごとの瞬間死亡率をその時点の観測例数で重み付けして平均し、その差と比を計算すると次のようになります。

A群=(0.091×19+0.1×17+0.111×15+0.143×8+0.167×7)÷(22+21+19+18+17+16+15+11+9+8+7+5)≒0.044
B群=(0.1×22+0.111×21+0.125×18+0.143×16+0.167×15+0.25×11+0.5×9+1×5)÷(22+21+19+18+17+16+15+11+9+8+7+5)≒0.142
瞬間死亡率の重み付き平均の差(B群−A群)=0.142-0.044=0.098
瞬間死亡率の重み付き平均の比(B群/A群)=0.142/0.044=3.216

この瞬間死亡率の重み付き平均の比と、コックス・マンテルの検定で求められるハザード比は計算方法が少し違います。 そのため両者が完全に一致することはないものの、よく似た値になるため2群の瞬間死亡率の目安になります。 上記の結果から、2群の瞬間死亡率の比が約3であっても、瞬間死亡率の差は10%程度しかないことがわかります。

以上の結果と前節の図11.2を見ると、2本の累積生存率曲線は交わっておらず、有意にはなっていないものの、瞬間死亡率はB群の方が10%ほど高く、A群の方が生存率が高い傾向があることがわかります。

マンテル・ヘンツェルの検定は2群の比較しかできませんので、3群以上の場合は一般化拡張マンテル検定を利用することになります。 一般化拡張マンテル検定は連続修正を行わない上に、複数の分割表の処理方法がマンテル・ヘンツェルの検定と少し異なります。 そのためこの手法を2群の比較に用いた時は、マンテル・ヘンツェルの検定結果とわずかに異なる結果になります。 (→4.2 多標本の計数値 (2) 名義尺度(分類データ) 2) データに対応がある場合)

例えば、表11.4のデータに一般化拡張マンテル検定を適用すると次のようになります。 この結果とマンテル・ヘンツェルの検定結果を比べると、わずかに異なっていることがわかると思います。 (注2)

共通性の検定:χgMm2=3.209 (p=0.0732)<χ2(1,0.05)=3.841…有意水準5%で有意ではない
異質性の検定:χgMr2=12.936 (p=0.2975)<χ2(11,0.05)=19.675…有意水準5%で有意ではない

一般化拡張マンテル検定はベクトルと行列を使う非常に煩雑な手法です。 そこでこの手法の簡便な近似手法として、「ログランク検定(log rank test)」という手法が考案されています。 それを表11.4のデータに適用すると次のようになります。 (注3)

ログランク検定(共通性):χo2=4.147 (p=0.0417)<χ2(1,0.05)=3.841…有意水準5%で有意ではない

コンピュータの発展により、今は一般化拡張マンテル検定も簡単に計算できるようになりました。 したがって、できればこの手法よりも一般化拡張マンテル検定を使用した方が良いでしょう。

(3) 生存時間の差の検定

コックス・マンテルの検定とは別の考え方として、生存時間を群間比較することによって生存率の比較をするという方法が考えられます。 もし最終的に全例が死亡していれば、群ごとに生存時間の平均値を計算し、それを群間比較することによって生存率の比較をすることができます。 しかし全例が死亡しているとは限りませんし、途中で脱落する症例もあります。 このため生存時間を普通の計量尺度のデータとして扱い、平均値を計算するのは問題があります。

そこで生存時間を順序尺度のデータとして扱い、順位和検定を適用して生存時間の順位平均を群間比較するという方法が考えられます。 ただし生存時間が同じでも、死亡例と脱落例の順位を同じにするのは非合理です。 そこで順位の付け方を拡張し、脱落例についても合理的な順位を付けられるように順位和検定を一般化した手法が考案されています。 それが「一般化ウィルコクソンの2標本検定(Generalized Wilcoxon test)」です。

前節の表11.1のデータについて、観測時間を群別にクロス集計してまとめ、それに一般化ウィルコクソンの2標本検定を適用すると次のようになります。 なお表11.3と同じように、表中の「(+)」は脱落例を表し、「+」は打ち切り例を表します。 (注4)

表11.5 群別観測期間集計表
群\観測期間2456 812131516 1820252728 3235365056
A01(+)10 10101 + 00011 1 +1 +11 +1 +12
B1101 0111 +0 11(+)100 0100010
一般化ウィルコクソンの2標本検定:zo=1.725 (p=0.0845)<t(∞,0.05)=1.960…有意水準5%で有意ではない

ちなみに死亡と脱落を区別せず、普通のウィルコクソンの2標本検定(ウィルコクソンの順位和検定)を適用した場合と、観測期間を計量尺度として扱い、平均値の差の検定を適用した場合は次のようになります。

ウィルコクソンの2標本検定:zo=1.518 (p=0.1290)<t(∞,0.05)=1.960…有意水準5%で有意ではない
A群の生存時間:平均値=26  標準誤差=4.9
B群の生存時間:平均値=15  標準誤差=3.2
 2標本t検定:to=1.760 (p=0.0937)<t(20,0.05)=2.086…有意水準5%で有意ではない

コックス・マンテルの検定と同様に、一般化ウィルコクソンの2標本検定は2群の比較しかできません。 3群以上の場合は、クリスカル・ウォーリスのH検定を一般化した一般化クリスカル・ウォーリス検定を適用することができますが、あまり一般的ではありません。

理論的には生存時間の順位を対数変換し、それを利用して生存率を群間比較する汎用的かつ抽象的な検定手法が考えられます。 この抽象的な検定手法を、パラメーターの値や近似計算法を少し変えて具体化すると、一般化ウィルコクソンの2標本検定または一般化クリスカル・ウォーリス検定、コックス・マンテル検定または一般化拡張マンテル検定、そしてその近似法であるログランク検定に相当する手法になります。 (注5)

その抽象的な検定手法は「ログランク検定」と呼ばれることがあり、それを具現化した各種の手法もそれぞれ色々な名称で呼ばれています。 このため同じ手法が別の名称で呼ばれていたり、別の手法が同じ名称で呼ばれていたりして、手法名と内容が少々混乱しています。 しかしどの手法も非常に密接に関係していて、しかも上記のように結果は似たり寄ったりなので、どの手法を用いてもかまいませんし、手法名に拘泥する必要はあまりないのかもしれません。


(注1) 表11.4を一般化すると、k番目の2×2分割表を次のように表すことができます。

表11.6 k番目の2×2分割表
生存(脱落)死亡
A1sk1(wk1)dk1nk1
A2sk2(wk2)dk2nk2
sk.(wk.)dk.Nk

k=1,…,bとして、これらb個の分割表にマンテル・ヘンツェルの共通性の検定を適用すると、次のようになります。 (→4.2 多標本の計数値 (2) 名義尺度(分類データ) 2) データに対応がある場合 (注4))

この式から連続修正をはずし、分子を変形すると次のようになります。 この値を分母で割った値がコックスのβの推定値になり、分母の平方根の逆数がその標準誤差になります。 コックスのβは対数瞬間死亡率の差に相当し、この値を指数変換したものが瞬間死亡率の比つまりハザード比になります。

分子:
分母:
コックスのβの推定値:
bの標準誤差:
βの100α%信頼区間:下限 βL=b-t(∞,α)・SE(b)  上限 βU=b+t(∞,α)・SE(b)
ハザード比(A2群/A1群):HR=exp(b)
ハザード比の100α%信頼区間:下限 HRL=exp(βL)  上限 HRU=exp(βU)

形式的には、コックスのβが0かどうかを検定する手法を「コックス・マンテルの検定」と呼んでいます。 ただし実際の計算では連続修正を施し、コックス・マンテルの検定と同じ式を用いて検定します。 そしてこの手法を多変量に拡張した手法が、次節で説明するコックスの比例ハザードモデルによる重回帰型生命表解析です。


zo≧t(∞,α)の時、有意水準100α%で有意

表11.4のデータについて実際に計算すると、次のようになります。






zo2=1.8512≒3.425=χMm'2
βの95%信頼区間:下限 βL=1.308-1.960×0.607=0.118  上限 βU=1.308+1.960×0.607=2.497
ハザード比(B群/A群):HR=exp(1.308)=3.697
ハザード比の95%信頼区間:下限 HRL=exp(0.118)=1.125  上限 HRU=exp(2.497)=12.151

(注2) 表11.6に一般化拡張マンテル検定の共通性の検定を適用すると、次のようになります。 (→4.2 多標本の計数値 (1) 順序尺度(順序データ) 2) データに対応がある場合 (注6))


 

この式は、コックス・マンテル検定の連続修正をしない式の分子にNkの重みを付け、分母にNk2の重みを付けたものに相当します。 このためコックス・マンテル検定に比べて、観測例数が多い前半に重みをかけた結果になります。 もし全ての分割表の例数Nkが等しいと両者の式は一致しますが、Nkはその時点の観測例数であり、全て異なるため両者は一致しません。


ただしWk=Nk
Wk=定数の時:

表11.4のデータについて実際に計算すると、次のようになります。

分子:
分母:

(注3) ログランク検定は、コックス・マンテルの検定と同じように、実際の死亡数と予測死亡数の差を利用して検定します。 しかし差を標準化した値が正規分布することを利用して検定するのではなく、差の平方を予測死亡数で割った値が、近似的にχ2分布することを利用して検定します。 このため瞬間死亡率の差ではなく瞬間死亡率の一様性を検定することになり、m×nのχ2検定と同じように3群以上の場合でも検定することができます。

表11.6を多群に拡張すると次のようになります。

表11.7 k番目のa×2分割表
生存(脱落)死亡
A1sk1(wk1)dk1nk1
::::
Aiski(wki)dkinki
::::
Aaska(wka)dkanka
sk.(wk.)dk.Nk

もし全ての群の瞬間死亡率が等しいとすると、コックス・マンテルの検定と同様に群iの予測死亡数は次のようになります。

実際の死亡数と予測死亡数を群ごとに合計した、値はそれぞれ次のようになります。


実際の死亡数と予測死亡数の差の平方を予測死亡数で割った値を、全群について合計すると次のようになります。

…近似的に自由度(a-1)のχ2分布に従う
χLR2≧χ2(a-1,α)の時、有意水準100α%で有意

表11.4のデータについて実際に計算すると、次のようになります。

d.1=5  d.2=8


ログランク検定において群が2個の場合、群1と群2の実際の死亡数と予測死亡数の差は、絶対値が同じで符号が反対になります。 そして最終観察期間が両群とも同じ時は、両群の予測死亡数も同じになります。 このため、ログランク検定のχLR2は次のようになります。

一方、コックス・マンテル検定において、最終観察期間が両群とも同じで2群の例数が等しく、死亡数dk.が少ない時、sk./Nk≒1、nk2/Nk=1/2より、次のように正規近似をはずした式がログランク検定の式に近似します。

表11.7に一般化拡張マンテル検定を適用すると、次のようになります。 (→4.2 多標本の計数値 (1) 順序尺度(順序データ) 2) データに対応がある場合 (注6))


 







ここで、重みwiiとwii'を次のように近似すると、
 wii'=0

以上のことから、ログランク検定は一般化拡張マンテル検定の近似法に相当することがわかると思います。

(注4) 一般化ウィルコクソンの2標本検定では、ある症例の観測期間と他の症例の観測期間を比べることによって、次のようなスコアを付けます。

uij=┌ -1…ti<tjまたはti≦tj*(負け)
├ +1…ti>tjまたはti*≧tj(勝ち)
└ 0…ti=tjまたはti*=tj*またはti*<tjまたはti>tj*(引き分けまたは判定不能)
ti,tj:死亡例の観測期間 (i,j=1,…,N0、i≠j)
ti*,tj*:脱落例の観測期間
N0:観測開始時の全対象数(2群合計)

そしてある症例を他の(N0-1)個の症例と比べた時のスコアの合計を求めると、それがその症例の一般化された順位になります。

ri=(tiまたはti*が勝ちの例数-負けの例数)=

2つの群をA1、A2とし、A1群についてこの一般化された順位の和を計算した値を「W統計量」といい、この値が0ならば2群の生存期間はほぼ同じになるはずです。 そこで、このW統計量とその分散を用いて生存期間の順位和検定を行うことができます。

n01:A1群の観測開始時の対象数
n02:A2群の観測開始時の対象数
N0=n01+n02
…A1群についてだけ合計する


ただし、sgn(W)は次のような符号関数。
  W<0 の時 sgn(W)=-1
  W=0 の時 sgn(W)=0
  W>0 の時 sgn(W)=1
|zo|>2の時は連続修正を省く。

検定:|zo|≧t(∞,α)の時、有意水準100α%で有意

脱落例と同位がない時、一般化された順位の最小値は-(N0-1)に、最大値は(N0-1)になり、中央が0になります。 これはスケールを普通の順位の2倍にし、中央を0にシフトしたものになるため、W統計量は普通の順位和検定の統計量(順位和−順位和の期待値)の2倍の値になります。 このため上記の検定式の分子と分母を2で割った値は、普通のウィルコクソンの2標本検定の式と一致します。 (→3.4 2標本の計数値 (1) 順序尺度(順序データ) 2) データに対応がない場合 (注2))

表11.6を利用すると、次のようにしてW統計量とその分散を計算することができます。

死亡例の順位:
脱落例の順位:

表11.4のデータについて実際に計算すると、次のようになります。



(注5) 一般化拡張マンテル検定と同じ形式の式に適当な重みWkを用いて、次のような検定統計量を考えます。





・群の数a=2の場合

重みWkについては色々なものが提案されていて、例えば次のようなものがあります。

  1. Wk=1:コックス・マンテル検定
  2. Wk=Nk:一般化拡張マンテル検定、一般化ウィルコクソン検定(ゲーハン・ブレスロー(Gehan-Breslow)検定)
  3. :タローン・ウェア(Tarone-Ware)検定
  4. :ペト・プレンティス(Peto-Peto-Prentice)検定

1番は一様な重みであり、2番は例数が多い前半に重みをかけ、3番は1番と2番の折衷案的な重みです。 この結果、2番は前半の瞬間死亡率の差を重視するのに対して、1番は前半と後半を同じように扱い、3番は前半をやや重視することになります。 また4番は、打ち切り例が多い場合にも安定した結果になると言われています。

これらの検定は個別の名称で呼ばれることもありますが、ひっくるめて「一般化ウィルコクソン検定」または「一般化クリスカル・ウォーリス検定」、あるいは「ログランク検定」と呼ばれることもあり、全くもってややこしい限りです。