統計学入門−第4章

データが計数値で標本の数が多数の時は、2標本と同じように主にノンパラメトリック手法を用います。そしてデータが順序尺度の時と名義尺度の時では、やはり扱いが異なります。

(1) 順序尺度(順序データ)

データが順序尺度か順序分類尺度の時は順位を利用した分散分析相当の手法を適用します。話の都合上、ここでもデータに対応がない場合から説明しましょう。

1) データに対応がない場合

表4.1.1のデータを10刻みでグレード付けして重症度のような順序分類尺度にし、2標本の時と同様にして順序付けしてみましょう。そして収縮期血圧のグレードを比較するには順位平均値を評価指標にすることが医学的に妥当だとします。 (→3.4 2標本の計数値　(1) 順序尺度(順位データ)　2) データに対応がない場合)

表4.2.1 薬剤投与後の収縮期血圧のグレード
群内No.	A剤投与群	B剤投与群	C剤投与群
1	11	10	10
2	12	10	10
3	12	10	10
4	13	11	11
5	14	11	11

表4.2.2 薬剤投与群別グレード
グレード	10	11	12	13	14	計	順位和	順位平均値
A剤投与群の例数	0	1	2	1	1	5	63	12.6
B剤投与群の例数	3	2	0	0	0	5	28.5	5.7
C剤投与群の例数	3	2	0	0	0	5	28.5	5.7
計	6	5	2	1	1	15	120	8
順位	3.5	9	12.5	14	15	-	-	-

ご覧のようにA剤投与群の順位平均値は12.6で、B剤投与群とC剤投与群の順位平均値はどちらも5.7です。 2群の場合と同様にこれら3群の順位平均値が等しいかどうか、言い換えれば薬剤という要因によって順位平均値が変動するかどうかを検討するのがクリスカル・ウォーリス(Kruskal-Wallis)の検定またはH検定と呼ばれる手法です。これはウィルコクソンの順位和検定を多群に拡張したものであり、順序尺度における一元配置分散分析に相当します。そのためこの手法は統計的仮説検定ではなく有意性検定を行うのが普通であり、帰無仮説と対立仮説は次のようになります。

計算原理は一元配置分散分析と同様であり、実測値の代わりに順位をデータにし、平均値の代わりに順位平均値を用います。ただしこの手法では計算結果を分散分析表にはまとめず、要因Aつまり群の検定結果だけを記載します。有意水準5％として、表4.2.1のデータについて実際に計算すると次のようになります。 _(注1)

統計量Hは順位平均値の分散に相当する値であり、これは近似的に自由度(群数 - 1)のχ²分布をします。そのため検定統計量としてF値ではなくχ²値を用います。要因Aの寄与率は全体の順位の変動に対する要因Aによる変動の割合を表し、一元配置分散分析の寄与率と同じように解釈できます。

この場合、2群の順位平均値の差の全例数に対する割合はウィルコクソンの順位和検定と違って±50％以上になることがあり、最大で±100％になることも有り得ます。そのためB剤およびC剤投与群の順位平均値とA剤投与群の順位平均値が-46％ずれているということは、ウィルコクソンの順位和検定の時ほど大きなズレではないものの、かなりずれていると解釈できます。これらの結果から次のような統計学的結論を採用することができます。

この統計学的結論から医学的結論を導くためには、一元配置分散分析と同様に次のような点について検討する必要があります。

これらの疑問点について全て肯定的に答えられるとしたら、次のような医学的結論を採用することができます。

一元配置分散分析と同様に、この場合も多重比較を行うことができます。この場合の多重比較は平均値の代わりに順位平均値を用いるだけで、原理は一元配置分散分析の多重比較と同じです。そしてウィルコクソンの順位和検定と同様に順位平均値の差の医学的な同等範囲を±10％未満とすると、多重比較の対立仮説は次のようになります。

有意水準5％、信頼係数95％として、テューキー型多重比較とそれに対応する区間推定を行うと次のようになります。 _(注2)

以上の結果より、ファミリーとしての統計学的結論は次のようになります。

これについてもクリスカル・ウォーリスの検定と同様の疑問点について検討し、全て肯定的に答えられるとしたら次のような医学的結論を採用することができます。

表4.2.1が、ある時点における使用薬剤の種類と収縮期血圧のグレードを観測するという横断的研究から得られたデータをまとめたものとすると、次のようなことが問題になります。

この場合、順位相関比を関連性の評価指標にすることが医学的に妥当だとすると、帰無仮説と対立仮説を次のように設定して統計的仮説検定を行うことができます。

δ_ηrは医学的に意義のある順位相関比の値です。例えば順位相関比が0.1以上あれば医学的に有意義な関連性があるとすると δ_ηr=0.1 にします。クリスカル・ウォーリスの検定は要因Aによる順位平均値のバラツキ具合の検定であると同時に、順位相関比の検定でもあります。そのため上記の帰無仮説と対立仮説をクリスカル・ウォーリスの検定によって検定することができます。表4.2.1についての結果は次のようになります。 _(注1)

本来、クリスカル・ウォーリスの検定は前向き研究から得られたデータを分析するための統計手法です。しかし医学分野では、このように横断的研究から得られたデータにこの手法を適用することがあります。その場合、評価指標が順位平均値のバラツキ具合ではなく順位相関比になるので注意が必要です。この場合の統計学的結論と医学的結論は次のようになります。

ただしこの場合は横断的研究から得られたデータを用いているので投与薬剤の種類と収縮期血圧グレードの関係を特定することはできません。つまり投与した薬剤の効果によって収縮期血圧のグレードが変動したのか、それとも収縮期血圧のグレードを見て主治医が投与薬剤の種類を決定したのかわかりません。そのため「投与薬剤の種類と収縮期血圧グレードの間には関連性がある」ということしかいえないのです。このあたりのことは一元配置分散分析と同様です。

2) データに対応がある場合

今度は表4.1.6のデータを10刻みでグレード付けし、対応のある順序分類尺度にしてみましょう。

表4.2.3 薬剤投与前後の収縮期血圧のグレード
被験者No.	投与前	投与1週後	投与2週後
1	11	10	10
2	12	10	10
3	12	10	10
4	13	11	11
5	14	11	11

このデータではグレードを変動させる要因は個人差と時期の2つであり、個人差を要因A、時期を要因Bとした二元配置分散分析と同じデータ構造をしています。したがって個人差を誤差として時期を要因Aとすれば、クリスカル・ウォーリスの検定を適用できます。しかし被験者をブロック因子として個人差を誤差から取り除いた方が効率が良くなるので、その方法を考えてみましょう。

まず被験者ごとに3時期のデータを順序付けし、表4.2.4のようにまとめます。同位の値の扱いは今までと同じです。この場合の順位は被験者ごとに付けているので、被験者ごとの順位和は全て6で順位平均値は全て2です。そして各時点の順位和と順位平均値は個人差を取り除いたものになります。

表4.2.4 被験者別グレード
被験者No.	投与前	投与1週後	投与2週後	順位和	順位平均値
1	3	1.5	1.5	6	2
2	3	1.5	1.5	6	2
3	3	1.5	1.5	6	2
4	3	1.5	1.5	6	2
5	3	1.5	1.5	6	2
順位和	15	7.5	7.5	30	-
順位平均値	3	1.5	1.5	-	2

この場合、もし時期という要因がデータを変動させなければ、各時点の順位和と順位平均値は一致するはずです。このことを利用して、各時点の個人差を取り除いた順位平均値がばらついているかどうかを検定するのがフリードマン(Friedman)の検定と呼ばれる手法です。この手法は順序尺度における繰り返しのない二元配置分散分析に相当します。そしてこの手法も有意性検定を行うのが普通であり、帰無仮説と対立仮説は次のようになります。

計算原理は二元配置分散分析と同様であり、実測値の代わりに順位をデータにし、平均値の代わりに順位平均値を用います。ただしこの手法では順位を付ける時に個人差が取り除かれているので、個人差つまり要因Aの検定は行えません。そのため計算結果を分散分析表にはまとめず、要因Bつまり時期の検定結果だけを記載します。有意水準5％として、表4.2.3のデータについて実際に計算すると次のようになります。 _(注4)

この場合の順位は被験者ごとに3つの時点のデータについて付けたものなので、順位平均値の差の割合は時期数3に対する割合になります。そのため最大で (2/3)×100％になります。そして要因Bの寄与率は被験者ごとの3時点の順位のバラツキの中で時期変動によって説明できる割合になります。表4.2.3の場合、5例全てが同じ順位変動をしているので寄与率は100％になります。この結果から次のような統計学的結論を採用することができます。

この統計学的結論から医学的結論を導くためには、二元配置分散分析と同様に次のような点について検討する必要があります。

これらの疑問点について全て肯定的に答えられるとしたら、次のような医学的結論を採用することができます。

二元配置分散分析と同様に、この場合も多重比較を行うことができます。この場合の多重比較は平均値の代わりに順位平均値を用いるだけで、原理は二元配置分散分析の多重比較と同じです。そして順位平均値の差の医学的な同等範囲を±10％未満とすると、多重比較の対立仮説は次のようになります。

有意水準5％、信頼係数95％として、ダネット型多重比較とそれに対応する区間推定を行うと次のようになります。 _(注4)

以上の結果より、ファミリーとしての統計学的結論は次のようになります。

これについてもフリードマンの検定と同様の疑問点について検討し、全て肯定的に答えられるとしたら次のような医学的結論を採用することができます。

またフリードマンの検定と多重比較において時期数が2つの時は順位が2つだけの時のウィルコクソンの1標本検定つまりマクネマーの検定に相当し、χ²値の平方根がz値に対応します。 _(注5)

(注1)　要因Aの水準数つまり群数をa、各群の例数をr、全例数をnとして、クリスカル・ウォーリスの検定の計算式を導いてみましょう。まずn個のデータを込みにして順位付けを行い、各群ごとに順位和T_i(i = 1,…,a)を求めます。すると帰無仮説から導かれる順位和の期待値と分散は次のようになります。

H₀：A₀〜A_a群の母集団における順位平均値は全て等しい。
n = a r　　

これらを基にして順位和T_iを標準化すると次のようになります。

z_iは中心極限定理によって近似的に標準正規分布するので、それらを平方して合計した値は近似的に自由度aのχ²分布をすると考えられます。しかし要因Aの自由度が(a - 1)である関係から、実際には次のように自由度の修正をした統計量Hが近似的に自由度(a - 1)のχ²分布をします。 (→付録1　各種の確率分布　(2)χ2分布)

要因Aの検定：χ_o² ＞ χ²(φ_A,α)の時、有意水準100α％で有意

ただし順位和の分布は離散分布のため、より正確にはそれぞれのz_iについて連続修正を施す必要があります。しかしそうすると非常に煩雑な式になるので普通は連続修正を施しません。もし同位の値があれば、2標本の場合と同様に同位の補正Kを用いて次のように計算します。

平均順位：

　　同位の補正：

各群の例数が不揃いの時は次のようになります。

(i = 1,…,a) 　　

全体の変動は各群が1例で、しかもその値がそれぞれ異なっている時の要因Aの変動に等しくなるので、次のように全体の自由度と等しくなります。その結果、要因Aの寄与率R_A²はχ²値を自由度で割った値になります。

群iの順位和：T_i = i

各群の母順位和が全て同じではない時、χ_o²は非心度λの非心χ²分布に従います。 λは全体の母順位和と各群の母順位和の差を平方して合計した値であり、χ_o²によって推定することができます。そして非心χ²分布の(α/2)点の値χ²(φ_A,λ,α/2)と(1 - α/2)点の値χ²(φ_A,λ,1 - α/2)を利用してχ_o²の区間推定を行うことができます。さらにこれらの値を利用して寄与率と順位相関比の区間推定も行うことができます。 (→付録1　各種の確率分布)

χ_o²の(1 - α)％信頼区間　下限：χ_L² = χ²(φ_A,χ_o²,α/2) 　上限：χ_U² = χ²(φ_A,χ_o²,1-α/2)
R_A²の(1 - α)％信頼区間　下限：

　上限：

η_rの(1 - α)％信頼区間　下限：η_rL = R_L　上限：η_rU = R_U

表4.2.1のデータについて実際に計算してみましょう。

T₁ = 63　　T₂ = 28.5　　T₃ = 28.5 　　T_n = 120

　　η_r = R_A ≒ 0.794
χ_o²の95％信頼区間　下限：χ_L² = χ²(2,8.817,0.025) = 1.622 　　上限：χ_U² = χ²(2,8.817,0.975) = 25.585
R_A²の95％信頼区間　下限：

　　上限：

η_rの95％信頼区間　下限：η_rL = R_L ≒ 0.340 　上限：η_rU = R_U = 1

(注2)　順位和検定における多重比較の計算式は次のとおりです。多重比較の各手法の特徴は第1節の(注4)を見てください。 (→4.1 多標本の計量値　(注4)、付録1　各種の確率分布)

(0) フィッシャー型：LSD(Least Significant Difference)法

T_p：特定のp群の順位和　　T_q：特定のq群の順位和　　T_n：全体の順位和
r：両群の例数(同一)　　a：群数　　K：同位の補正
順位平均値の差：

順位平均値の差の標準誤差：

検定：

＞ χ²(1,α)の時、有意水準100α％で有意
推定：順位平均値の差の100(1-α)％同時信頼区間

→ 下限：r_dL = r_d - t(∞,α)SE_rd 　上限：r_dU = r_d + t(∞,α)SE_rd

(1) ダネット型：全順位法

T_p：対照となるp群の順位和　　T_q：q群の順位和　　T_n：全体の順位和
r：各群の例数(全て同一)　　a：群数　　K：同位の補正
順位平均値の差：

順位平均値の差の標準誤差：

検定統計量：

検定：|d_o| ＞ d(a-1;∞,α)の時、有意水準100α％で有意
推定：順位平均値の差の100(1-α)％同時信頼区間

→ 下限：r_dL = r_d - d(a-1;∞,α)SE_rd 　上限：r_dU = r_d + d(a-1;∞,α)SE_rd

この方法は全群を合わせて順位付けを行うので全順位法と呼ばれます。それに対して比較する2群ごとに順位を付け、ウィルコクソンの2標本検定と同じ計算式を用いてダネット型多重比較を行うこともできます。その順位付け方法を個別順位付け法と呼び、それを利用したダネット型多重比較をスティール(Steel)の方法といいます。全順位法と個別順位付け法の結果は一致するとは限りませんが、通常はよく似た結果になります。

(2) テューキー型：全順位法

T_p：p群の順位和　　T_q：q群の順位和　　T_n：全体の順位和
r：各群の例数(全て同一)　　a：群数　　K：同位の補正
順位平均値の差：

順位平均値の差の標準誤差：

検定統計量：

検定：|q_o| ＞ q(a;∞,α)の時、有意水準100α％で有意
推定：順位平均値の差の100(1-α)％同時信頼区間

→ 下限：

　上限：

テューキー型にも全順位法と個別順位付け法があり、個別順位付け法を用いた手法をスティール・ドゥワス(Steel-Dwass)の方法といいます。やはり両者の結果は一致するとは限りませんが、通常はよく似た結果になります。

(3) ボンフェローニ型

ボンフェローニ型の全順位法ではフィッシャー型の多重比較の有意確率に検定の回数をかけた値を有意確率にします。その手法をダンの多重比較といいます。個別順位法はウィルコクソンの2標本検定を行い、その有意確率に検定の回数をかけた値を有意確率にします。区間推定は信頼係数を(1 - α/検定回数)にして行います。

(4) シェッフェ型：シェッフェのs検定

○2群ごとの比較
T_p：p群の順位和　　T_q：q群の順位和　　T_n：全体の順位和
r_p：p群の例数　　r_q：q群の例数　　a：群数　　K：同位の補正
順位平均値の差：

順位平均値の差の分散：

検定：

＞ χ²(a-1,α)の時、有意水準100α％で有意
推定：順位平均値の差の100(1-α)％同時信頼区間

→ 下限：

　上限：

○一般対比
r_i：i群の例数　　C_ti：i群の係数

(例えば C_t1 = 1、C_t2 = 1、C_t3 = -1、C_t4 = -1、C_t5 = 0、…、C_ta = 0 等)

＞ χ²(a-1,α)の時、有意水準100α％で有意

表4.2.1のデータについて有意水準5％、信頼係数95％として、テューキー型多重比較を用いて実際に計算してみましょう。

○B剤投与群対A剤投与群
r_d = 5.7 - 12.6 = -6.9 　　

|q_o| = 3.637(p = 0.0273) ＞ q(3,∞,0.05) = 3.314
順位平均値の差の95％同時信頼区間：

→ 下限 = -13.2　上限 = -0.6
○C剤投与群対A剤投与群
r_d = 5.7 - 12.6 = -6.9 　　

|q_o| = 3.637(p = 0.0273) ＞ q(3,∞,0.05) = 3.314
順位平均値の差の95％同時信頼区間：r_dL^U = -6.9 ± 6.3 → 下限 = -13.2　上限 = -0.6
○C剤投与群対B剤投与群
r_d = 5.7 - 5.7 = 0 　　q_o = 0(p = 1) ＜ q(3,∞,0.05) = 3.314
順位平均値の差の95％同時信頼区間：r_dL^U = 0 ± 6.3 → 下限 = -6.3　上限 = 6.3

(注3)　クリスカル・ウォーリスの検定において要因Aの水準数aを2にすると、次のようにウィルコクソンの2標本検定における連続修正を加えない式に一致します。 (→3.4 2標本の計数値 (注3))

(注4)　要因Aの水準数つまり被験者数をa、要因Bの水準数つまり時期数をbとして、フリードマンの検定の計算式を導いてみましょう。この場合は要因Aのブロック(被験者)ごとに順位付けを行うのでブロックごとの順位和は全て b(b+1)/2 になり、全体の順位和Tは次のようになります。

n = a b 　　

帰無仮説より、要因Bの各時期ごとの順位和T_j(j = 1,…,b)の期待値と分散は次のようになります。

H₀：母集団におけるB₁〜B_b時点の順位平均値は全て等しい。

これらを基にして順位和T_jを標準化すると次のようになります。

クリスカル・ウォーリスの検定と同様に、z_jの平方を合計して自由度の修正をした値は近似的に自由度(b - 1)のχ²分布をします。この場合も普通は連続修正を施しません。

同位の値があれば同位の補正Kを用いる。
同位の補正：

要因Bの検定：χ_o² ＞ χ²(b - 1,α)の時、有意水準100α％で有意

b個のデータが全て同位の値であるブロックについては、そのブロックを省いて計算しても同じ結果になります。例えばb個のデータが全て同位の値であるブロックがC個ある時、これらを省いた時のブロック数を a' = a - c、全体の順位和をT'、同位の補正をK'とすると、次のようにχ_o²値は変わりません。

全体の変動はブロックごとの順位が全て一致し、しかも同位の値がない時の要因Bの変動と等しくなります。これは要因Aの変動を取り除いた時の全変動であり、同時にその自由度でもあります。その結果、要因Bの寄与率R_B²はχ²値をこの自由度で割った値になります。

時点jの順位和：T_j = a j

R_B²は見方を変えればブロックごとの順位付けがどの程度一致しているかを表す値と解釈することもできます。そのためケンドール(Kendall)の一致係数(coefficient of concordance)Wとも呼ばれます。 (→5.4 級内相関係数と一致係数　(3)ケンドールの一致係数W)

表4.2.3のデータについて実際に計算してみましょう。

T₁ = 15　　T₂ = 7.5　　T₃ = 7.5　　T = 30

要因Bに関する多重比較はクリスカル・ウォーリスの検定と同様ですが、順位平均値の差の分散が少し変わります。

(0) フィッシャー型：LSD(Least Significant Difference)法

T_p：特定のp時点の順位和　T_q：特定のq時点の順位和
順位平均値の差：

順位平均値の差の標準誤差：

検定：

＞ χ²(1,α)の時、有意水準100α％で有意
推定：順位平均値の差の100(1-α)％同時信頼区間

→ 下限：r_dL = r_d - t(∞,α)SE_rd 　上限：r_dU = r_d + t(∞,α)SE_rd