玄関雑学の部屋雑学コーナー統計学入門

第4章 多標本のデータ処理

この章では多標本のデータ処理に用いる統計手法について解説します。 それらの手法は第3章で説明した1・2標本のデータ処理に用いる統計手法を拡張したものであり、より汎用性があります。

4.1 多標本の計量値

データが計量値で標本の数が多数の時に、平均値について色々な推測をするには分散分析(ANOVA:ANalysis Of VAriance、アノーバ)と呼ばれる手法を用います。 多標本の比較をする場合、t検定つまり平均値の検定を何回も使用して2標本ずつ比較することがあります。 しかしそれは適切ではなく、本当はこの分散分析を用いなければなりません。 t検定は分散分析において標本の数が2つの時の別名であり、多標本に用いるべき手法ではありません。 それについては後でまた詳しく説明します。

分散分析には目的に応じて色々な手法があります。 その中でデータに対応がない時に用いる一元配置(one-way layout)と、対応がある時に用いる二元配置(two-way layout)が代表的です。 話の都合上、これまでの章と順番を変えてデータに対応がない場合から説明しましょう。

(1) データに対応がない場合

1) 一元配置分散分析

医学分野では対応のない多標本のデータがしばしば登場します。 例えばプラセボ(偽薬)であるA剤を対照薬にして、B剤とC剤という2種類の血圧降下剤の効果を比較することを考えてみましょう。 この場合の問題はとりあえず次のようになります。

問題:薬剤A、B、Cの降圧効果に違いがあるか?

通常、降圧効果を評価するには収縮期血圧と拡張期血圧を評価項目にし、これらの項目の薬剤投与後の変化量平均値を評価指標にします。 しかし話を単純にするためにここでは収縮期血圧だけを評価項目にし、薬剤投与後の実測値の平均値を評価指標にすることが医学的に妥当だとします。 そして母集団における薬剤A、B、C投与後の収縮期血圧平均値をそれぞれμA、μB、μCとし、μAを基準値μ0にします。 すると検定の帰無仮説を次のように表すことができます。

H0:μA = μB = μC = μ0 (3群の平均値が全て等しい)

一方、対立仮説は少々複雑です。 この場合も2標本と同様に医学的な同等範囲δを決め、それに基づいて次のように2薬剤ごとに対立仮説を設定することができます。

H1:μB = μA±δ または μC = μA±δ または μC = μB±δ

しかしこれでは複雑になるので、まずは統計的仮説検定ではなく有意性検定を行うことにしましょう。 その場合は具体的な対立仮説ではなく、帰無仮説を否定した3種類の薬剤の降圧効果は全て同じというわけではないという単純な対立仮説を設定します。 それは次のように表すことができます。

H1:μA ≠ μB = μC または μB ≠ μC = μA または μC ≠ μA = μB または μA ≠ μB ≠ μC (3群の平均値が全て等しいというわけではない)

これらの仮説を検定するために高血圧患者15人を無作為に3群に分け、それぞれの群にA、B、C剤を投与し、投与後の収縮期血圧を測定した結果が表4.1.1のようになったとします。

表4.1.1 薬剤投与後の収縮期血圧(mmHg)
群内No.A剤投与群B剤投与群C剤投与群全体
1116106108 
2128102100
3129108108
4137118114
5140116110
6505505401740
平均値130110108116
平均値の標準誤差4.23.02.33.2
平均値の95%信頼区間118〜142102〜118102〜114109〜123

15個のデータは様々にばらついていますが、よく見るとこれらのデータをばらつかせる原因として性質の異なった2種類の要因があることに気が付きます。 まず薬剤投与群別平均値が130、110、108とばらついているのは、投与された薬剤の降圧作用が違っているためだと思われます。 これは薬剤の違いを反映する系統的な意味のある変動です。 それに対して例えばA剤投与群における5人のデータが116、128、129、137、140とばらついているのは、その5人の個人差によるものだと思われます。 これは個人差の原因がはっきりしない限り内容を解釈できない、非系統的な意味のない変動です。

このように個々のデータを変動させる要因を分析し、意味のある要因による変動分すなわち偏りまたは情報と、意味のない要因による変動分すなわち誤差に分解してデータを分析しようという手法が分散分析です。 分散分析という名前は、統計学では変動の要約値は分散であり、この手法が分散を中心とした分析法であることに由来します。

分散分析において、意味のある要因が1つだけの時を一元配置分散分析(one-way layout analysis of variance)といいます。 そしてその要因のことを要因Aといい、意味のない変動つまり誤差のことを残差(Residual)といいます。 表4.1.1では薬剤が要因Aに、各薬剤投与群内の個人差が残差に相当します。 またA剤投与群、B剤投与群、C剤投与群のことを要因Aの水準といい、群が3つあることを要因Aの水準数は3であるといいます。

ここでデータyを各要因による変動に分解して考えてみましょう。 もしデータが要因Aによっても個人差によっても変動しないのなら、全てのデータは同一の値になるはずです。 しかし普通は要因Aによっても個人差によっても変動します。 そこで要因Aiに属するj番目の被験者のデータyijについて、要因Aによっても個人差によっても変動しない時の一定の値をμ、Aiによるデータの変動分をαi、個人差による変動分をεijとすると、yijまたは全変動(yij-μ)を次のように分解することができます。

yij = μ + αi + εij → (yij - μ) = αi + εij

μを総平均——全群を合わせた平均値——mTで推測し、αiを各群の平均値miと総平均の差(mi-mT)で推測し、εijをデータyijと各群の平均値の差(yij-mi)で推測すると次のようになります。

yij = μ + αi + εij ≒ mT + (mi - mT) + (yij - mi) → (yij - μ) ≒ (yij - mT) = (mi - mT) + (yij - mi)

これを一元配置分散分析の基本式または一元配置分散分析モデルといいます。 例えば表4.1.1のA剤投与群における5番目のデータy15=140を、基本式に対応して分解すると次のようになります。 そしてこの式からy15の総変動24はA剤の効果による14の変動と、個人差による10の変動に分解できることがわかります。

140 = 116 + (130 - 116) + (140 - 130) = 116 + 14 + 10 → (140 - 116) = 24 = (130 - 116) + (140 - 130) = 14 + 10
図4.1.1 一元配置分散分析の模式図

これらの変動は偏差の一種ですから、全てのデータについてこれらの変動を求め、その平方を合計した平方和と、その変動の原因となる変数の数すなわち自由度と、平方和を自由度で割った分散を求めることによってデータの変動を要約することができます。 表4.1.1のデータについてそれらを計算し、分散分析表(ANOVA table)と呼ばれる表にまとめると次のようになります。 (注1)

表4.1.2 分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
要因A:薬剤差1480274013.918
残差:個人差6381253.167 
全体211814 

全体の平方和と自由度は総平均に対する普通の平方和と自由度です。 このデータでは要因Aは薬剤差になり、その平方和は各群のデータが全てその群の平均値に等しく、個人差によるデータの変動がない時の平方和に相当します。 そして薬剤差の自由度は総平均を変化させずに自由に変えられる群平均の個数になり、群数から1を引いた値つまり2になります。

基本式からわかるように薬剤差の変動と個人差の変動を合わせたものが全体の変動になるので、薬剤差の平方和と個人差の平方和を合計したものが全体の平方和になり、薬剤差の自由度と個人差の自由度を合計したものが全体の自由度になります。 そこで個人差の平方和と自由度は、全体の平方和と自由度から薬剤差の平方和と自由度を引いて求めるのが普通です。 個人差つまり誤差のことを残差と呼ぶのはこの計算方法に由来します。

このように平方和と自由度は比例し、それぞれ相加性(additivity)――足し合わせることができる性質――があります。 そのため統計学では変動の指標として平方和を用います。 平均平方和(Ms:Mean of square)は平方和を自由度で割った値であり、分散に相当します。 そして分散比は薬剤差の平均平方和つまり分散を個人差の分散で割った値です。

もし各群の平均値が全て等しければ要因Aによるデータの変動は0になり、分散も0になります。 そして各群の平均値がばらついているほど要因Aによるデータの変動は大きくなり、分散も大きくなります。 そのため分散比は各群の平均値が全て等しければ0になり、平均値がばらついているほど大きな値になります。 この分散比の性質を利用して、「各群の平均値が全て等しい」という帰無仮説を検定することができます。

分散分析では、このように分散比つまりF値を利用して平均値のバラツキ具合を検定します。 この検定はF値を検定統計量にするのでF検定の一種になり、分散分析で利用されるため特に分散分析F検定と呼ばれることがあります。 この手法では実験結果から求めた要因AのF値を有意確率p値に変換して有意水準の値と比べて検定するか、p値がちょうど有意水準の値になる時の基準のF値と比べて検定します。 (→1.6 統計的仮説検定の考え方 (5) F分布とF検定)

基準のF値は自由度と有意水準によって変化し、自由度または有意水準の値が大きくなるほど小さな値になります。 分子の自由度をφ1、分母の自由度をφ2とすると、有意水準αの時の基準のF値をF(φ12,α)と書き、第1自由度φ1、第2自由度φ2のF分布における100α%点といいます。 そして実験結果から求めた要因AのF値をFAと書くと、要因Aの検定を次のようにして行うことができます。

FA > F(φAR,α)の時、有意水準100α%で有意

F分布の100α%点は統計の教科書などに載っていて、例えば次のような値です。

F(1,60,0.05) = 4.001  F(2,60,0.05) = 3.150  F(1,∞,0.05) = 3.841   F(1,60,0.01) = 7.077  F(2,60,0.01) = 4.977  F(1,∞,0.01) = 6.635

またF値とt値またはχ2値との間には次のような関係があります。

F(1,φ2,α) = {t(φ2,α)}2   F(1,∞,α) = {t(∞,α)}2 = χ2(1,α)   φ1・F(φ1,∞,α) = χ21,α)

有意水準5%として、表4.1.2の分散比について検定すると次のようになります。

FA = 13.918(p = 0.0007) > F(2,12,0.05) = 3.885 … 有意水準5%で有意

データを情報と考えると、平方和は各要因の情報量であり、自由度はその担い手の数、そして分散は情報密度と考えることができます。 分散比は要因Aの分散と残差分散の比であり、要因Aによる分散が残差による分散の何倍あるか、言い換えれば要因Aの情報密度が誤差の情報密度の何倍濃いかを表す値になります。 そして有意水準5%の時の基準のF値はだいたい3〜4なので、要因Aの分散比が3〜4以上なら「有意」、つまり要因Aの情報密度が誤差の情報密度の3〜4倍以上濃ければ、その情報を「意味が有るもの」と考えることになります。

表4.1.2の場合は薬剤差の情報密度が個人差の情報密度の約14倍もあるので、薬剤差の情報は意味が有ると解釈することができます。 そして次のような統計的結論を採用することができます。

統計的結論:薬剤差による収縮期血圧平均値の変動は0ではない = 3群の収縮期血圧平均値はばらついている。

ただしこれは有意性検定ですから、実質科学的に意義があるほどばらついているかどうかまでは結論できません。 しかしバラツキ具合つまり分散を実質科学的に解釈するのは難しいので、全体の変動に対する要因Aによる変動の割合を求め、それをバラツキ具合の目安にするのが合理的です。 (注1)

R A 2 2 = 要因Aの平方和 全体の平方和 = 1480 2118 =0.699(69.9%)
寄与率RA2の95%信頼区間 下限:RL2 = 0.448  下限:RU2 = 0.887

この値は全変動のうち要因Aによって説明のつく変動の割合を表し、寄与率(関与率)または決定係数(coefficient of determination)と呼ばれます。 寄与率は最小値が0(0%)で最大値が1(100%)なので、実質科学的な解釈が比較的容易です。 例えば寄与率が0.5以上なら全変動の半分以上が要因Aによる変動ですから、要因Aによる変動は大いに意味が有ると考えられます。 表4.1.2の場合は寄与率が約70%もあるので薬剤差による変動は大いに意味が有る、つまり3群の平均値はばらついていると解釈して良いと思います。

ただしきちんとした医学的結論を導くためには、次のような点について検討する必要があります。

  1. 約70%という寄与率は医学的に意義があるか?
  2. A剤(プラセボ)の収縮期血圧平均値130mmHg(幅をもたせれば118〜142mmHg)に対して、B剤の平均値110mmHg(幅をもたせれば102〜118mmHg)、C剤の平均値108mmHg(幅をもたせれば102〜114mmHg)という値は医学的に見て低いといえるか?
  3. これらの平均値の違いは純粋に薬剤BまたはCの効果によるものか?
  4. この結果をそのまま高血圧患者全体に当てはめて良いか?

1番目の疑問点以外はすでに第3章で説明したものです。 これらの疑問点に対して全て肯定的に答えられるとしたら、次のような医学的結論を採用することができます。

医学的結論:薬剤A、B、Cの降圧効果は同一ではない。 すなわち薬剤B、Cには降圧効果がある。

寄与率の平方根をη(イータ)と書き、相関比(correlation ratio)と呼びます。 これは相関係数の一種であり、名義尺度のデータと計量尺度のデータの間の相関性または関連性の指標として用いられます。 名義尺度には大小関係がないため、「正の相関」や「負の相関」という概念はありません。 そのため相関比は0〜1の間の値になり、関連性の指標という性質が強い値です。

なおη2つまり寄与率のことを相関比と呼ぶ時もあります。 しかし相関係数を平方した値が寄与率になるということから、やはりηを相関比と呼ぶ方が合理的だと思います。 そのためここではηのことを相関比と呼ぶことにします。 相関比については第5書で詳しく説明します。 (→5.3 計数値の相関 (4) 名義尺度と計量尺度または順序尺度の回帰第7章 重回帰分析)

表4.1.1が、ある時点における使用薬剤の種類と収縮期血圧を観測するという横断的研究から得られたデータをまとめたものとすると、次のようなことが問題になります。

問題:投与薬剤の種類と収縮期血圧の間に関連性があるか?

この場合、相関比を関連性の評価指標にすることが医学的に妥当だとすると、帰無仮説と対立仮説を次のように表して統計的仮説検定を行うことができます。

H0:投与薬剤の種類と収縮期血圧の間に関連性はない → η = 0
H1:投与薬剤の種類と収縮期血圧の間にδη程度の関連性がある → η = δη>0

δηは医学的に意義のある相関比の値です。 例えば相関比が0.1以上あれば医学的に有意義な関連性があるとするとδη=0.1にします。 分散分析の原理と相関比の計算方法からわかるように、分散分析は要因Aによるバラツキ具合の検定であると同時に相関比の検定でもあります。 そのため上記の帰無仮説と対立仮説を分散分析によって検定することができます。 表4.1.1についての結果は次のようになります。 (注1)

相関比:η = RA = 0.836
検定:FA = 13.918(p = 0.0007) > F(2,12,0.05) = 3.885 … 有意水準5%で有意
推定:相関比の95%信頼区間 下限:ηL = RL = 0.669  下限:ηU = RU = 0.942

本来、一元配置分散分析は前向き研究から得られたデータを分析するための統計手法です。 しかし医学分野では、このように横断的研究から得られたデータにこの手法を適用することがあります。 その場合、評価指標が平均値のバラツキ具合ではなく相関比になるので注意が必要です。 この場合の統計的結論と医学的結論は次のようになります。

統計的結論:投与薬剤の種類と収縮期血圧の間には関連性がある。 その相関比は約0.836であり、幅をもたせれば0.669〜0.942の間である
医学的結論:投与薬剤の種類と収縮期血圧の間には関連性がある。 すなわち3種類の薬剤投与群の収縮期血圧は異なっている。

ただしこの場合は横断的研究から得られたデータを用いているため、投与薬剤の種類と収縮期血圧の関係を特定することはできません。 つまり投与した薬剤の効果によって収縮期血圧が変動したのか、それとも収縮期血圧の値を見て主治医が投与薬剤の種類を決定したのかわかりません。 そのため「投与薬剤の種類と収縮期血圧の間には関連性がある」ということしか言えないのです。 これは横断的研究の特徴であり、限界でもあります。

2) 多重比較

通常、分散分析は有意性検定であり、しかも検定結果が有意になっても「各群の平均値がばらついている」という定性的かつ漠然とした結論しか出せません。 例えば各群の背景因子が均一かどうかを検定したい時はこれでも良いでしょう。 しかし表4.1.1のように3種類の薬剤の効果を比較したい時は、次のように質問したくなるのも人情というものでしょう。

「それじゃあ具体的にどの薬剤とどの薬剤の効果に違いがあり、どの薬剤が一番効果があるんだ?」

このような時は分散分析ではなく多重比較(multiple comparison)という手法を用います。 この章の冒頭で少しふれたように、このような時に2標本t検定つまり2標本の平均値の検定を用いて2群ずつ比較することがありますが、これは大いに問題があります。 例えば表4.1.1のA剤(プラセボ)投与群、B剤投与群、C剤投与群の平均値を比較することを考えてみましょう。 仮に2標本t検定を用いて次のような3種類の検定を行ったとします。

B対Aの比較  C対Aの比較  B対Cの比較

この場合、3種類の検定のどれか1つ以上が有意水準5%で有意になれば、次のような3種類の結論の中の1つ以上を組み合わせた結論を採用することになります。

ファミリーとしての統計的結論:μA ≠ μB または/かつ μC ≠ μA または/かつ μB ≠ μC

つまり3種類の検定結果の中にどれか1つでも有意なものがあれば、それを”いいとこ取り”して総合的な結論を採用するわけです。 このような”いいとこ取り”した総合的な結論のことをファミリーとしての結論と呼ぶことがあります。

有意水準5%で有意とは「統計的結論が間違っている確率は5%以下である」、つまり本当は2群の母平均は等しいのに間違って等しくないという統計的結論を採用する危険性が5%程度あるという意味です。 したがって検定を3回行って有意水準5%で有意になった検定結果を”いいとこ取り”すれば、本当は3群の母平均が全て等しいにもかかわらず、間違って上記のファミリーとしての結論を採用する危険性が15%になってしまいます。

ファミリーとしての結論を採用する確率 ≒ 0.05 + 0.05 + 0.05 = 0.05×3 = 0.15 > 0.05

このことから検定を20回以上行えば、本当は各群の母平均が全て等しいにもかかわらず、間違って上記のようなファミリーとしての結論を採用する危険性がほぼ100%になってしまう、つまりどんな時でもファミリーとしての結論は「各群の母平均は全て同じというわけではない」となってしまうことがわかると思います。 まさに「下手な鉄砲も数撃ちゃ当たる!」というわけで、これは大いに問題です。

この問題は、複数の検定結果を”いいとこ取り”してファミリーとしての結論を採用するところに原因があります。 そこでファミリーとしての結論を採用する確率を増やさないためには、1回1回の検定にハンディキャップを付ける必要があります。 例えば表4.1.1の場合、ファミリーとしての結論を採用する確率を5%以下にするためには、1回1回の検定に関する有意水準を5/3%にし、その厳しい基準で有意な結論だけを採用する必要があるわけです。

そのためには1回1回の検定の有意確率p値を有意水準0.05/3と比べれば良いのですが、有意水準の値をいちいち変えるのは煩雑ですし、誤解される可能性もあります。 そこで普通は1回1回の検定結果のp値を3倍して0.05と比べるか、あるいはp値を3倍したことに相当するようにt値の計算式を修正して検定します。 そのような処理をした検定手法が多重比較です。 この手法を用いればファミリーとしての結論の有意確率を5%以下にすることができ、正々堂々と胸を張ってファミリーとしての結論を採用することができます。 (注2)

多重比較の理屈をわかりやすく説明するたとえ話として、次のようなワインとソムリエの話が有名です。

あるレストランのワイン貯蔵庫は管理があまり良くなく、全体の5%のものが悪くなっていた。 そのためこのレストランのソムリエが1本のワインをお客に出した時、それが悪くなっている危険性が5%あり、20回に1回はお客に謝る羽目になる。

ところがお客がワインを3本注文した時は、3本のワインのうち1本でも悪くなっていればソムリエは謝らなければならない。 そのため謝る危険率は3倍の15%になり、6〜7回に1回は謝る羽目になる。

1人のお客にワインを3本出した時に謝る危険性を5%にするためには、ワイン貯蔵庫の管理状態を向上させ、悪いワインの割合を5/3%に抑える必要がある。

このたとえ話のポイントは、3本のワインのうちどれか1本でも悪くなっていれば、それを”悪いとこ取り”してソムリエがお客に謝るところです。 お客が注文した3本のワインが全部悪くなっている時だけソムリエが謝るということなら、次のように約8000回に1回謝るだけです。 これならワイン貯蔵庫の管理状態は逆にもっと悪くてもかまわないわけです。

ワインが3本とも悪くなっている確率 = 0.05×0.05×0.05 = 0.000125

これと同様にファミリーとしての結論として「μA≠μB≠μC」だけを採用し、それ以外の結論は採用しないのなら、1回1回の検定にハンディキャップを付けた多重比較を行う必要はありません。 また1回1回の検定はそれぞれ独立で、それらを”いいとこ取り”したファミリーとしての結論を採用しないのなら、やはり多重比較は必要ありません。 ワインとソムリエの例え話でいえば、3人の別々のお客がそれぞれワインを1本ずつ注文し、それに対してソムリエがそれぞれのお客に別々にワインを1本ずつ出したのなら、ソムリエが1人のお客に対して謝る確率は5%のままですから、ワイン貯蔵庫の管理状態を向上させる必要はないわけです。

つまり多重比較が必要なのは1回1回の検定結果を”いいとこ取り”してファミリーとしての結論を採用する時だけであり、”いいとこ取り”が多重比較のキーワードです。 1回1回の検定結果を「AND(かつ)」で結合したファミリーとしての結論を採用する時とか、そもそも1回1回の検定結果を”いいとこ取り”せず、それぞれ独立に結論を採用する時は多重比較は必要ありません。

例えばある新薬Cの効果を検討する時、まず薬効のないプラセボAと比較して薬効があることを確認しておき、その上で、すでに効果があることがわかっている標準薬Bと比較して標準薬よりも薬効が強いことを確認するという、ステップ法という手順を用いることがあります。 この場合、最終的に「A(プラセボ)<B(標準薬)<C(新薬)」というAND結合したひとつの結論しか採用しないので、1回1回の検定に多重比較は必要ありません。 (注3)

またある疾患のリスクファクターを検討する時、多数のリスクファクター候補項目についてそれぞれ検定を行うことがあります。 この場合、多数のリスクファクターはそれぞれ独立に検定するだけであり、それらの検定結果を”いいとこ取り”してファミリーとしての結論を採用することはないので多重比較は必要ありません。 ところがリスクファクター候補が多数の遺伝子の時は、個々の遺伝子の検定に多重比較を用いる必要があると誤解している人がけっこういます。

このような場合はワインとソムリエのたとえ話よりも、次のような名医と藪医者のたとえ話の方が理解しやすいと思います。

あるところに正診率95%つまり誤診率5%の医者がいた。 この医者が1日に1人の患者を診断すると、平均して20日に1回しか誤診をしないので周囲から「名医!w('o')w」と評価される。

ところが噂を聞きつけて患者が押しかけ、この医者が1日に20人の患者を診断すると、平均して1日に1回は誤診をすることになり周囲から「藪医者!凸(-"-)」と評価されてしまう。

つまり患者が多くて繁盛するほど、藪医者と評価されてしまうことになる!

このたとえ話の矛盾の原因は、20人の患者の診断結果を”悪いとこ取り”して、1日の診断に対する誤診率で医者の腕前を評価している点にあります。 医者の腕前を正しく評価するには1回の診断に対する誤診率を指標にすべきであり、1日の診断に対する誤診率を指標にすべきではないのです。 このたとえ話と同様に、ある疾患のリスクファクター候補として多数の遺伝子を検討する時、個々の遺伝子の「腕前」を独立に評価したいのなら多重比較を行うべきではありません

反対に2種類の薬剤の効果を比較する試験で、多数の評価項目についてそれぞれ普通の検定を行ったり、男女別に層別してそれぞれ普通の検定を行ったりすることがよくあります。 この時、それぞれの評価項目とか層別の結果は独立に検討するだけで、それらを”いいとこ取り”して2種類の薬剤を総合的に比較しないのなら多重比較は必要ありません。

しかし実際には多数の評価項目の検定結果を”いいとこ取り”したり、層別の検定結果を”いいとこ取り”したりして、ひとつでも有意な結果があれば「こっちの薬剤の方が優れている!」という結論を採用することが多いと思います。 そのような場合は、個々の評価項目の検定または層別の検定に多重比較を用いる必要があります。

そうすると例えば20個の評価項目があれば、個々の評価項目の有意水準は0.05/20=0.0025(0.25%)という非常に小さな値になってしまうので、製薬企業の新薬開発担当者は、

「ひゃあぁ〜、0.25%で有意にならないとウチの薬が勝てないなんて、多重比較ってやたらと厳しいーっ!(*o*)」

と悲鳴を上げることでしょう。

しかし多重比較を行う場合は個々の評価項目の結果が目的ではなく、あくまでも「少なくとも1つ以上の評価項目でウチの薬剤が勝っている」というファミリーとしての結論を得ることが目的です。 そしてこのファミリーとしての結論は、20個の評価項目のうちのどれかひとつでも有意になれば得られます。 つまりファミリーとしての結論が得られる確率は、評価項目が1個の時よりも20個の時の方が20倍ほど高くなるわけです。

したがって多重比較を用いると評価項目が1個の時でも20個の時でもファミリーとしての結論が得られる確率は同じであり、その結論が間違っている確率つまり危険率も同じです。 そうなるように危険率を調整した手法が多重比較ですから、これは当然のことです。

ただし多重比較は3つ以上の群についてデータが測定されている時に、個々の群の平均値の間にどのような関係があるかを調べるために開発された手法です。 そのため原則として比較する群に対応が無く、独立であるということを前提にしています。 しかし多数のリスクファクターや多数の評価項目は対応のあるデータであり、お互いに相関があるのが普通です。 そのため多重比較を適用するのは本当は不適切です。

例えば複数の評価項目が完全に関連していて、お互いの相関係数が1だとします。 そうすると1つの項目が有意になれば他の全ての項目も有意になり、1つの項目が有意にならなければ他の全ての項目も有意にはなりません。 この場合は「少なくとも1つ以上の評価項目でウチの薬剤が勝っている」というファミリーとしての結論が得られる確率は評価項目が1個の時と全く同じであり、評価項目数に比例して高くはなりません。 そのためこのような場合に多重比較を適用すると、ファミリーとしての結論を得る確率が不当に低くなってしまいます。

実際のデータでは複数の評価項目が完全に関連していることはないでしょうが、ある程度の相関関係があっても不思議ではありません。 そのような場合は多重比較を適用するのではなく、多変量解析を適用する方が合理的です。 多変量解析は、お互いの相関関係を考慮して、多数のデータを総合的に解析するために開発された手法です。 この手法については第6章以後をご覧ください。 (→第6章 多変量解析の概念)

また検定とか有意水準とかいうもの自体がほとんど無意味なシロモノですから、統計学者の中には、

「多重比較が必要とか不必要とか、あんまり細かいことをガタガタいってもしょうがない。 検定そのものを廃止すればいいんだ!」

などと過激なことを主張する検定廃止論者がいます。 検定至上主義のお役所や医学・薬学界はマッ青になるでしょうが、はっきり言って私はこの意見に全く同感です。

また多重比較は正しく適用するのが難しく、非常に間違いやすい手法です、 そのためできるだけ試験の目的をひとつに絞り、多重比較を必要としない単純明快な試験デザインにするのが賢明です。

それはさて置き、多重比較は次のように大別されます。 (注4)

  1. ダネット型(Dunnett type):ダネットのd検定
    特定の群を対照として、他の全ての群を対照群と比較する時に用います。 以前は各群の例数が同じでないと使用できませんでしたが、現在は各群の例数が違っても使用できるように拡張した手法が開発されています。
  2. テューキー型(Tukey type):テューキーのq検定
    多群でリーグ戦を行う時、つまりあらゆる2群の比較をする時に用います。 やはり以前は各群の例数が同じでないと使用できませんでしたが、現在は各群の例数が違っても使用できるように拡張した手法が開発されています。
  3. ボンフェローニ型(Bonferroni type):ダン(Dunn)の多重比較
    単に検定結果の有意確率に検定回数をかけるだけの手法なので、あらゆる2群の比較だけでなく、複数の検定結果を”いいとこ取り”するものならどんな時でも使用できます。 計算が簡単なのでダネット型やテューキー型の代用としてよく利用されます。
  4. シェッフェ型(Scheffe type):シェッフェのs検定
    あらゆる2群の比較だけでなく、いくつかの群を合わせた平均値と、他のいくつかの群を合わせた平均値を比較する時にも用います。 最も汎用性の高い手法であり、ボンフェローニ型と並んでよく利用されます。

多重比較は2標本t検定と同様に医学的な同等範囲を決め、それに基いて対立仮説を設定して統計的仮説検定を行うことができます。 例えば表4.1.1のデータについて医学的な同等範囲を±10mmHgとすると、対立仮説は次のようになります。

H1:μB = μA±10 または/かつ μC = μA±10 または/かつ μC = μB±10

先行研究や予備試験の結果から群ごとの標準偏差——分散分析では残差分散の平方根に相当——推測値がわかっていれば、有意水準と信頼係数と検出力を設定し、上記の対立仮説と、分散分析と同じ帰無仮説に基づいて試験の必要例数を求めることができます。 例えば群ごとの標準偏差推測値が10mmHgで、有意水準を5%、信頼係数を95%、検出力を80%として必要例数を求めると1群22例、3群合計で66例になります。 表4.1.1のデータは1群5例しかないためこの必要例数を満足していませんが、これは説明のためのデータと割り切って、テューキー型多重比較とそれに伴う区間推定を行うと次のようになります。 (注5)

○B剤投与群対A剤投与群
検定:qo = 6.133(p = 0.0026) > q(3,12,0.05) = 3.773 … 有意水準5%で有意
δBAの95%同時信頼区間 = -20±12.3 → 下限:δBAL = -32.3 上限:δBAU = -7.7
○C剤投与群対A剤投与群
検定:qo = 6.747(p = 0.0012) > q(3,12,0.05) = 3.773 … 有意水準5%で有意
δCAの95%同時信頼区間 = -22±12.3 → 下限:δCAL = -34.3 上限:δCAU = -9.7
○C剤投与群対B剤投与群
検定:qo = 0.613(p = 0.9023) < q(3,12,0.05) = 3.773 … 有意水準5%で有意ではない
δCBの95%同時信頼区間 = -2±12.3 → 下限:δCBL = -14.3 上限:δCBU = 10.3

95%同時信頼区間(simultaneous confidence interval)は多重比較に対応する信頼区間であり、3つの信頼区間にそれぞれのδが同時に入っている確率が95%である区間を表します。 普通の95%信頼区間は、その中にδが95%の確率で入っている区間です。 そのためこの場合に普通の95%信頼区間を求めると、3つの信頼区間にそれぞれのδが同時に入っている確率は次のように約86%になってしまいます。 そこで3つの信頼区間にそれぞれのδが同時に入る確率を95%にするためには、個々の信頼区間の信頼係数を約98%にする必要があります。 これが95%同時信頼区間です。

0.95×0.95×0.95 ≒ 0.86
0.95(1/3) ≒ 0.98

これらの結果から次のようなファミリーとしての統計的結論を採用することができます。

ファミリーとしての統計的結論:A剤投与群とB剤投与群の収縮期血圧平均値と、A剤投与群とC剤投与群の収縮期血圧平均値は異なっている。
 B剤投与群とC剤投与群の収縮期血圧平均値はほぼ同じ可能性が高いが、信頼性が低いので結論は保留する。
 平均値の差はそれぞれ-20、-22、-2であり、幅をもたせればそれぞれ-32〜-8、-34〜-10、-14〜10の間である。

C剤投与群とB剤投与群の比較について結論を保留しているのは、同等範囲が±10であるのに対して同時信頼区間の下限がこの範囲から少しはみ出しているからです。 ただしこの程度のはみ出しは実際上は問題にならないと思います。

この結果から医学的結論を導くためには次のような点について検討する必要があります。

  1. A剤(プラセボ)の収縮期血圧平均値130mmHgに対して、B剤の平均値110mmHg、C剤の平均値108mmHgという値は医学的に低いと言えるか?
  2. これらの平均値の違いは純粋に薬剤BまたはCの効果によるものか?
  3. この結果をそのまま高血圧患者全体に当てはめて良いか?

これらの疑問点に対して全て肯定的に答えられるとしたら、次のような医学的結論を採用することができます。

医学的結論:薬剤B、Cには降圧効果があり、その降圧効果はほぼ同じである。

またF値についての説明からわかるように、一元配置分散分析と多重比較において群の数(水準数)が2つの時は2標本t検定に相当し、F値の平方根がt値に一致します。 (注6) (→3.3 2標本の計量値)

分散分析の結果は有意なのに、多重比較ではどの群間比較も有意にならないことがたまにあります。 分散分析は多群の平均値のバラツキ具合つまり平均値の差の合計が0かどうかを検定し、それによって平均値がばらついているかどうか結論します。 それに対して多重比較は2群ごとの平均値の差が0かどうかを個別に検定し、それを総合してファミリーとしての結論を採用します。 そのため個々の平均値の差は小さいながら、それを合計すればある程度大きくなるような時は、分散分析では有意になるものの、多重比較ではどの群間比較も有意にならないということが起きるわけです。

これは顔全体から受ける印象は何となく変だが、目だけ、鼻だけ見るとそう変でもないといった場合に相当します。 いわば分散分析が顔全体の印象を大雑把に検討する手法であるのに対して、多重比較は目、鼻などの部品をそれぞれ個別に検討し、それを総合して顔全体の印象をより詳細に検討する手法といえます。

このように分散分析と多重比較は目的が異なる手法なので目的に応じて使い分ける必要がありますし、両者の結果が食い違っても決して不思議ではありません。 そして同じデータに基いて大雑把な推測をした時と、より詳細な推測をした時を比べれば、当然のことながら、より詳細な推測をした時の信頼性は落ちざるを得なくなるわけです。 そのため全く同じ条件で必要例数を求めると、多重比較の方が多くなります。

分散分析を行ったところ検定結果が有意だったので、引き続き多重比較を行うことがよくあります。 しかし必要例数は分散分析よりも多重比較の方が多いので、多重比較を行う可能性がある時は、試験計画段階から多重比較を行うことを考慮して必要例数を求めておく必要があります。 そしてせっかくそれだけの例数を集めたのなら、分散分析の結果の如何によらず多重比較を行った方が便利です。 そうなると分散分析を行う意義は薄くなるので、最初から多重比較だけ行うことにした方がスッキリます。 つまり分散分析を行うのは、大雑把な結果だけが必要で詳細な結果は必要ない時だけということになります。

狡猾な予言者や占師は、できるだけ漠然とした、どうにでもとれるような内容の予言や占いをしておき、何か事が起こってしまってから無理矢理こじつけて、

「どうじゃ、ワシの予言どおりじゃろう!」

などとエラぶるものです。 これは何も予言者や占師の専売特許ではなく、詐欺師や政治家の得意技でもあります。 科学者たるもの、漠然とした結果だけで満足していてはいけないでしょう。


(注1) 要因Aの水準数をa、各水準の例数をr、全例数をnとして、表4.1.1を一般化すると次のようになります。

表4.1.3 一元配置分散分析の
一般的データ
群内No.A1AiAa全体
1y11yi1ya1 
::::::
jy1jyijyaj
::::::
ry1ryiryar
T1.Ti.Ta.TT
平均m1.mi.ma.mT

データyijを一元配置分散分析の基本式に従って分解し、平方和と自由度と分散を求めると次のようになります。

一元配置分散分析の基本式(一元配置分散分析モデル):(yij - μ) = αi + εij ≒ (yij - mT) = (mi. - mT) + (yij - mi.)
○全体
例数:n=a r
平方和:
自由度:φT = n - 1   分散:
○要因A
平方和:
自由度:φA = a - 1   分散:
○残差
平方和:
自由度:φR = φT - φA = n - a   分散:

各水準の例数ri(i=1,…,a)が不揃いの時は次のように計算式を変更します。

  

これらの値を分散分析表にまとめると次のようになります。

表4.1.4 分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
ASAφAVAFA=VA/VR
残差SRφRVR 
全体STφT 

以上のように、平方和と自由度は基本式に対応して行儀良く分解されます。 これが相加性であり、統計学上重要な性質です。 区間推定には残差分散を用い、例えばAi群の母平均μiの区間推定は次のように行います。

標準偏差:   標準誤差:
100(1-α)%信頼区間:
→ 下限:  上限:

また寄与率とF値の間には次のような関係があります。 この関係を利用するとF値と寄与率を相互に変換することができるので、検定結果を解釈する時に便利です。 (→5.1 相関係数と回帰直線 (注4))

:分散比 → 寄与率の変換式
:寄与率 → 分散比の変換式

各水準の母平均が全て同じではない時つまり要因Aの分散が0ではない時、FAは非心度λの非心F分布に従います。 λは全体の母平均と各水準の母平均の差を平方して合計した値であり、φA×FAによって推定することができます。 そして非心F分布の(α/2)点の値F(φAR,λ,α/2)と(1-α/2)点の値F(φAR,λ,1-α/2)を利用して、FAの区間推定を行うことができます。 さらにこれらの値を利用して寄与率と相関比の区間推定も行うことができます。 (→付録1 各種の確率分布)

FAの(1-α)%信頼区間  下限:FL = F(φARA×FA,α/2)  上限:FU = F(φARA×FA,1-α/2)
RA2の(1-α)%信頼区間  下限:  上限:
ηの(1-α)%信頼区間  下限:ηL = RL 上限:ηU = RU

表4.1.1のデータについて実際に計算してみましょう。


φT = 15 - 1 = 14   

φA = 3 - 1 = 2   
SR = ST - SA = 2118 - 1480 = 638
φR = 14 - 2 = 12   

  η = RA ≒ 0.836
FAの95%信頼区間  下限:FL = F(2,12,2×13.918,0.025) = 4.865  上限:FU = F(2,12,2×13.918,0.975) = 47.139
RA2の95%信頼区間  下限:  上限:
ηの95%信頼区間  下限:ηL = RL ≒ 0.669  上限:ηU = RU ≒ 0.942

ちなみに母集団の残差分散をσR2、要因Aの母平均の分散をσA2とすると、これらの母分散と分散分析から求めた不偏分散の間には次のような関係があります。

E(VR) = VR = σR2   E(VA) = VA = rσA2 + σR2


※各水準の例数rが同じ場合

VAの期待値にσR2が含まれるのは、VAは標本平均miを使って計算するのでmiの誤差であるSERが入り込むからです。 そのためσA2を推定する時は、SER2つまりσR2/rを引く必要があります。 このことと上記の結果から、各水準の例数をsにした時のσA2を推定する時は次のような式を用います。

各水準の例数をsにした時のσA2推定値:

品質管理などでは多くの場合、各水準の例数があらかじめ決められています。 ところが色々な事情でそれとは異なる例数で試験を行ってしまうことがあります。 そのような時はこの式を利用して決められた例数で試験をした時の結果を推定することができます。

(注2) 表4.1.1のA剤投与群、B剤投与群、C剤投与群の平均値を比較するために、次のような3種類の検定を行ったとします。

B対Aの比較  C対Aの比較  C対Bの比較

有意水準を5%とすると、帰無仮説H0が正しい時に3つの検定結果が全て有意にならない確率は、3つの検定がそれぞれ独立つまり無関係とすると次のようになります。

H0:μA = μB = μC (3群の平均値が全て等しい)
μC ≠ μAと結論しない確率 = 統計学的結論を保留する確率 = 1 - 0.05 = 0.95
μC ≠ μAと結論しない確率 = 統計学的結論を保留する確率 = 1 - 0.05 = 0.95
μC ≠ μBと結論しない確率 = 統計学的結論を保留する確率 = 1 - 0.05 = 0.95
3種類の結論を同時に保留する確率 = 0.95×0.95×0.95 = 0.857375
∴どれか1つ以上が他と違っているというファミリーとしての結論を採用する確率 = 1 - 0.857375 = 0.142625

最後の「どれか1つ以上が他と違っているというファミリーとしての結論を採用する確率」は、具体的には3つの検定結果が次のような7種類の結果のうちのどれかになる確率です。

μB ≠ μA かつ μCとμAは結論保留 かつ μCとμBは結論保留:確率 = 0.05×0.95×0.95 = 0.045125
μBとμAは結論保留 かつ μC ≠ μA かつ μCとμBは結論保留:確率 = 0.95×0.05×0.95 = 0.045125
μBとμAは結論保留 かつ μCとμAは結論保留 かつ μC ≠ μB:確率 = 0.95×0.95×0.05 = 0.045125
μB ≠ μA かつ μC ≠ μA かつ μCとμBは結論保留:確率 = 0.05×0.05×0.95 = 0.002375
μB ≠ μA かつ μCとμAは結論保留 かつ μC ≠ μB:確率 = 0.05×0.95×0.05 = 0.002375
μBとμAは結論保留 かつ μC ≠ μA かつ μC ≠ μB:確率 = 0.95×0.05×0.05 = 0.002375
μB ≠ μA かつ μC ≠ μA かつ μC ≠ μB:確率 = 0.05×0.05×0.05 = 0.000125
∴7種類の合計確率 = 0.142625

以上のように、全ての母平均が同じであるにもかかわらず、どれか1つ以上が他と違っているというファミリーとしての結論を採用する確率は約15%になります。 そのためファミリーとしての結論の実質的な有意水準つまり第1種のFWE(type I Familywise Error rate)は約15%になってしまいます。 そこでファミリーとしての結論の有意水準を5%にするためには、個々の検定の有意水準つまり第1種のPCE(Per-Comparion Error rate)を約5/3%にしておく必要があります。

なお上記の7種類の検定結果は、有意ではない時を「結論保留」にした有意性検定の結果です。 これを統計的仮説検定にし、有意ではない時を例えば「μA≒μBAとμBは実質科学的に許容範囲内でほぼ等しい)」という結論にするためには、第2種のFWE(type II Familywise Error rate)を求めて、第2種のPCE(Per-Comparion Error rate)を調整する必要があります。

しかし多重比較の対立仮説は、3種類の仮説を「または/かつ」で組み合わせた複雑なものになります。 そのため第2種のFWEを計算するのは非常に煩雑なため、普通は第2種のPCEの調整は行いません。 その代わり同時信頼区間を用いてμAとμBとμCの関係を検討する方が実際的です。 つまり多重比較が必要な場合も、検定よりも推定を重視する方が合理的なのです。 (→1.6 統計的仮説検定の考え方)

個々の検定の有意水準をαi(i=1,…,m)とし、それらの検定結果をいいとこ取りして導いたファミリーとしての結論を採用する有意水準をαとすると、一般に次のような関係が成り立ちます。


または :ボンフェローニの不等式

特にαiが全て同じ値の時は次のようになります。

     
ボンフェローニの不等式より

このボンフェローニの不等式を利用して、個々の検定の有意水準をα/mとするか、あるいは個々の検定の有意確率pをm倍して有意水準αと比べる多重比較手法をボンフェローニ型の多重比較といいます。 この方法で検定するとファミリーとしての結論を採用する有意水準がα以下になります。

p < α/mの時、有意水準αで有意 または 有意確率 = m×p < αの時、有意水準αで有意

例えばα=0.05、m=3の時は次のようになります。

p < 0.05/3 ≒ 0.016667の時、有意水準5%で有意 または 有意確率 = 3×p < 0.05の時、有意水準5%で有意
※有意水準αiを正確に計算すると次のようになる。

有意確率をm×pで求めると、時にはこの値が1以上になることがあります。 これは有意確率をα/mと比べる代わりにαと比べるために生じた見かけ上のものなので、気にすることなく有意確率を1にしてしまってかまいません。 そもそも有意確率は実験結果が棄却域に入っているかどうかを調べるための単なる目安にすぎず、それ自体に具体的な意味はあまりありません。 (→1.5 有意性検定の考え方)

また注意しなければならない点は、このように有意水準を調整した多重比較を行う必要があるのは個々の検定結果を”いいとこ取り”してファミリーとしての結論を採用する時だけだということです。 例えば個々の検定結果をいいとこ取りせず、ファミリーとしての結論の中の「μA≠μB≠μC(平均値が全て異なる)」というひとつの結論しか採用しないということが最初から決まっているとします。 この場合、帰無仮説H0が正しいとすると、間違ってこの結論を採用する確率は次のように0.0125%になります。

μB ≠ μAと結論する確率 = 0.05
μC ≠ μAと結論する確率 = 0.05
μC ≠ μBと結論する確率 = 0.05
μA ≠ μB ≠ μCと結論する確率 = 0.05×0.05×0.05 = 0.000125

この時、ファミリーとしての結論を採用する有意水準を5%にするためには、次のように個々の検定の有意水準は約37%で良いことになります。

αi3 = α = 0.05 →

このように個々の検定結果をいいとこ取りせず、「AND」で結合したひとつの結論だけを採用する時は多重比較は必要なく、むしろ個々の検定の有意水準を多重比較とは逆の方向に調整した検定を行う必要があります。

個々の検定の有意水準を約37%にすると、一見、非常に有意になりやすいように思えます。 しかしこの場合は3つの検定結果が全て有意にならなければ、ファミリーとしての結論を採用することができません。 それに対して3つの検定結果をいいとこ取りする時は、3つの検定のうちのどれかひとつでも有意になればファミリーとしての結論を採用することができます。 したがってファミリーとしての結論を採用する確率はどちらも同じです。 そうなるように個々の検定の有意水準を調整したのが多重比較ですから、これは当然のことです。

また多群の平均値を比較する時に限らず、複数の検定結果をいいとこ取りしてファミリーとしての結論を採用するような検定手法を多重検定(multiple test)と呼ぶことがあります。 例えば複数の項目について2群間で検定し、それらの結果をいいとこ取りしてファミリーとしての結論を採用するような時は多重比較ではなく多重検定と呼ぶ方がふさわしいでしょう。

ただし多重検定は複数の検定結果が独立という前提で行いますが、複数の項目はたいてい相関を持ちます。 そのため複数の項目を総合する時は多重検定ではなく多変量解析を適用すべきです。

(注3) このように個々の検定結果を「AND」で結合してファミリーとしての結論を作る手順を閉検定手順(closed testing procedure)または閉手順といいます。 そしてこの閉検定手順を利用して、3つの薬剤を比較する方法をステップ法といいます。 この手順に従えば各ステップの検定に多重比較あるいは多重検定は必要なく、ファミリーとしての結論の有意水準がα以下になることが保証されます。

(1) ステップ1(絶対条件)…B(標準薬)対A(プラセボ)の比較

試験の分析感度(sensitivity)を確認するための比較。 B > Aの時だけ次のステップに進む。

(2) ステップ2(必要条件)…C(新薬)対A(プラセボ)の比較

新薬の有効性(efficacy)を確認するための比較。 C > ACの時だけ次のステップに進む。

(3) ステップ3(十分条件)…C(新薬)対B(標準薬)の比較

新薬の優越性(superiority)を確認するための比較。 C > BであればC > B > Aという結論が採用できる。

製薬企業がこの試験を行う時、時間と費用を節約するために、3つの薬剤を用いた3群比較試験を1回だけ実施して検定だけこのステップ法に従うことが往々にしてあります。 しかし試験の分析感度が低い時、あるいは新薬の有効性が低いまたは新薬の副作用が多い時、各ステップごとに1回ずつ試験を行う方法では無駄な試験や危険な試験を中止することができます。 しかし検定だけステップ法に従った3群比較試験では無駄な試験や危険な試験を行ってしまうことになり、倫理的にも費用的にも問題があります。

また多重比較を行う3群比較試験では、個々の比較の有意水準が小さくなるため1群あたりの必要例数が少し多くなります。 それに対して検定だけステップ法に従った3群比較試験では、多重比較を行わないため1群あたりの必要例数が少なくなり時間と費用の節約になると思うかもしれません。

しかし多重比較を行う時は、個々の検定結果がひとつでも有意になればファミリーとしての結論を採用することができます。 そのためファミリーとしての結論を採用するための検出力は、個々の検定の検出力よりも大きくなります。 つまり個々の検定の有意水準が小さくなるのに対応して個々の検定の検出力も小さくなるので、(注5)で説明するように1群あたりの必要例数は多重比較を用いない時とあまり変わりません。

一方、ステップ法のファミリーとしての結論はAND結合なので、個々の検定結果が全て有意にならなければファミリーとしての結論を採用することができません。 そのため(注2)の最後で説明したように、個々の検定の有意水準はファミリーとしての有意水準よりも大きくなります。 その代わりそれに対応して個々の検定の検出力を大きくする必要があるので、多重比較と同様に1群あたりの必要例数はステップ法を用いない時とあまり変わりません。

(注4) 多重比較の計算式は次のとおりです。

(0) フィッシャー型:LSD(Least Significant Difference)法

この方法は試験の計画段階で指定した特定の2群の比較だけ行い、2種類以上の検定結果を総合したファミリーとしての結論は作らない特殊な方法です。 そのため厳密な意味では多重比較とはいえません。 しかし統計学の解説書に載っていたり、統計学ソフトに組み込まれていたりするので、一応、紹介しておきます。

分散分析の結果が有意という条件付きで、2種類以上の2群比較にフィッシャー型多重比較を用い、それの結果をいいとこ取りしてファミリーとしての結論を採用する手法をPLSD(Protected Least Significant Difference)法と呼ぶことがあります。 しかしこの手法は3群以上になると多重性の調整が不十分になるので、使用すべきではありません。

mp:特定のp群の平均値  mq:特定のq群の平均値   r:両群の例数(同一)
a:群数  VR:残差分散  φR:残差自由度
平均値の差:md = mq-mp
平均値の差の標準誤差:
検定統計量:
検定:|to| > t(φR,α)の時、有意水準100α%で有意
推定:平均値の差の100(1-α)%同時信頼区間
→ 下限:δL = md-t(φR,α)SEmd  上限:δU = md+t(φR,α)SEmd
※t(φR,α):自由度φRのt分布における100α%点
(1) ダネット型:ダネットのd検定

特定の群を対照として、他の全ての群を対照群と比較する時に用います。 群の数をaとすると、この手法では(a-1)回の検定を行います。 そしてそれらの検定は同じ対照群と比較するため、独立ではなくお互いに相関があります。 そのためファミリーとしての有意水準は個々の検定が独立の時よりも小さくなり、その結果として個々の検定の有意水準はボンフェローニ型よりも少し大きくなります。 つまり個々の検定結果が有意になりやすくなるわけです。

この手法はファミリーとしての結論の制約が厳しく、条件付きの結論しか採用できないのでそれは当然です。

m1:対照群の平均値  mq:q群の平均値   r:両群の例数(同一)
a:群数  VR:残差分散  φR:残差自由度
平均値の差:md = mq-m1
平均値の差の標準誤差:
検定統計量:
検定:|do| > d(a-1;φR,α)の時、有意水準100α%で有意
推定:平均値の差の100(1-α)%同時信頼区間
→ 下限:δL = md-d(a-1;φR,α)SEmd  上限:δU = md+d(a-1;φR,α)SEmd
※d(a-1;φR,α):ダネットの数表における群数a、自由度φRの100α%点

統計学の解説書などに載っているd(a-1;φR,α)の値は、各群の例数が等しいことを前提にして計算した値です。 各群の例数が異なると検定間の相関関係が変化し、ファミリーとしての有意水準が変わってしまいます。 そのため、それらの値は各群の例数が等しい時しか利用できません。 しかし現在は各群の例数が異なる時でも利用できる少々手の込んだ手法が開発され、どんな場合でもダネット型の多重比較を適用できるようになりました。 (→付録1 各種の確率分布 (10) 多変量t分布)

(2) テューキー型:テューキーのq検定、HSD(Honestly Significant Difference)法

多群でリーグ戦を行う時、つまりあらゆる2群の比較をする時に用います。 群の数をaとすると、この手法では{a×(a-1)/2}回の比較を行います。 そしてそれらの中には同じ群と比較するものがあるので、ダネット型と同様に個々の検定は独立ではなくお互いに相関があります。 そのためダネット型と同様に、個々の検定の有意水準はボンフェローニ型よりも少し大きくなって有意になりやすくなります。

mp:p群の平均値  mq:q群の平均値   r:両群の例数(同一)
a:群数  VR:残差分散  φR:残差自由度
平均値の差:md = mq-mp
平均値の差の標準誤差:
検定統計量:
検定:|qo| > q(a;φR,α)の時、有意水準100α%で有意
推定:平均値の差の100(1-α)%同時信頼区間
→ 下限:  上限:
※q(a;φR,α):スチューデント化範囲の数表における群数a、自由度φRの100α%点

統計学の解説書などに載っているq(a;φR,α)の値は、ダネットの数表と同様に各群の例数が等しいことを前提にして計算した値です。 そのため、それらの値は各群の例数が等しい時しか利用できません。 しかし現在は各群の例数が異なる時でも利用できるテューキー・クレーマー(Tukey-Kramer)法が開発されたため、どんな場合でもテューキー型の多重比較を適用できるようになりました。 (→付録1 各種の確率分布 (8) ステューデント化範囲の分布)

(3) ボンフェローニ型:ダンの多重比較

ボンフェローニの不等式を利用し、個々の検定の有意確率に検定回数をかけたものを多重比較の有意確率にするだけという極めて単純で基本的な手法です。 個々の検定の代わりにフィッシャー型の多重比較の計算式を用い、それで得られた有意確率に検定回数をかけてもかまいません。

個々の検定は独立であり、それらの結果をいいとこ取りしてファミリーとしての結論を採用するという非常に緩い条件の手法なので、個々の検定の有意水準が小さくなって有意になりにくい反面、応用範囲が広いという特徴があります。 そのためダネット型やテューキー型の代用として用いられたり、多重検定に用いられたりします。

応用範囲が広いので、どのような多重比較手法を用いれば良いかわからない時とか、多重比較手法がまだ開発されていない特殊な検定について多重比較を行いたい時は、とりあえずこの手法を用いておけば良いでしょう。

(4) シェッフェ型:シェッフェのs検定

最も汎用性が高く、したがって最も有意になりにくい手法です。 この手法もダネット型やテューキー型の代用として用いることができます。 でもその場合はボンフェローニ型の方が精度が良いので、この手法よりもボンフェローニ型を用いた方が良いでしょう。

mp:p群の平均値  mq:q群の平均値   rp:p群の例数   rq:q群の例数
a:群数  VR:残差分散  φA:要因Aの自由度
平均値の差:md = mq-mp
平均値の差の分散:
検定統計量:
検定:Fo > F(φAR,α)の時、有意水準100α%で有意
推定:平均値の差の100(1-α)%同時信頼区間
→ 下限:  上限:
※F(φAR,α):分散分析における基準のF値と同じ100α%点

シェッフェ型はいくつかの群を合わせた平均値と、他のいくつかの群を合わせた平均値を比較することもできます。 それがこの手法の大きな特徴であり、これを一般対比といいます。 一般対比は次のような式を用いて検定します。

ri:i群の例数  Cti:i群の係数
(例えばCt1 = 1,Ct2 = 1,Ct3 = -1,Ct4 = -1,Ct5 = 0,…,Cta = 0 等)
> F(φAR,α)の時、有意水準100α%で有意
図4.1.2 各種多重比較の両側p値(3群・自由度20) 図4.1.3 各種多重比較の両側p値(3群・自由度∞)

図4.1.2と図4.1.3は3群で自由度が20の時と無限大の時について、検定統計量をt値に統一して両側有意確率をプロットしたものです。 これらのグラフを見ると、有意確率が0.1以下の時はテューキー型はボンフェローニー型(3×p)で、ダネット型はボンフェローニー型(2×p)でうまく近似できることがわかります。 またt値が同じならシェッフェ型はどの手法よりも有意確率が大きくなるため、2群比較ではなく一般対比に用いた方が良いことがわかります。

表4.1.1のデータについて有意水準5%、信頼係数95%として、テューキー型多重比較を用いて実際に計算してみましょう。

○B剤投与群対A剤投与群
md = 110-130 = -20      
|qo| = 6.133(p = 0.0026) > q(3,12,0.05) = 3.773
δBAの95%同時信頼区間= → 下限:δBAL = -32.3 上限:δBAU = -7.7
○C剤投与群対A剤投与群
  |qo| = 6.747(p = 0.0012) > q(3,12,0.05) = 3.773
δCAの95%同時信頼区間 = -22±12.3 → 下限:δCAL = -34.3 上限:δCAU = -9.7
○C剤投与群対B剤投与群
  |qo| = 0.613(p = 0.9023) < q(3,12,0.05) = 3.773
δCBの95%同時信頼区間 = -2±12.3 → 下限:δCBL = -14.3 上限:δCBU = 10.3

同じデータにボンフェローニ型多重比較を用いると次のようになります。

○B剤投与群対A剤投与群
md = 110-130 = -20      
|to|の有意確率 = 0.00097 → p = 0.00097×3 = 0.0029 < 0.05
t(12,0.05/3) = 2.779より
δBAの95%同時信頼区間 = -20±2.779×4.612 ≒ -20±12.8 → 下限:δBAL = -32.8 上限:δBAU = -7.2
○C剤投与群対A剤投与群
  |to|の有意確率 = 0.00046 → p = 0.00046×3 = 0.0014 < 0.05
δCAの95%同時信頼区間 = -22±12.8 → 下限:δCAL = -34.8 上限:δCAU = -9.2
○C剤投与群対B剤投与群
  |to|の有意確率 = 0.672 → p = 0.672×3 = 2.016 → p = 1 > 0.05
δCBの95%同時信頼区間 = -2±12.8 → 下限:δCBL = -14.8 上限:δCBU = 10.8

普通の試験では各群の例数をできるだけ揃えた方が検定効率が良くなります。 例えばrp例のp群とrq例のq群を比較する場合、2群の合計例数が一定の時は次のように2群の例数が等しい時に標準誤差が最小になります。 そして標準誤差が小さいほど検定効率が良くなるため、2群の例数が等しい時に検定効率が最大になります。


n = rp+rq を一定にして の最小化 → rp = rqの時に最小

これに対して対照群(r1例)と他の(a-1)個の群(r例)を比較する時は、次のように対照群だけ例数を多くした方が検定効率が良くなります。

総例数n = r1 + (a - 1)r を一定にして の最小化
ラグランジュの未定乗数λを用いて表すと
r1+(a-1)r-n = 0 の束縛条件下での最小化
φを偏微分して0と置いた連立方程式を解くと
  

対照群はあまり面白みがないせいか、えてして他の群より少数例であったり、時には全く置かなかったりしがちです。 しかし対照群は試験がうまくコントロールされていたかどうかを確認する重要な存在であり、試験の原点に相当する群なので他の群以上に確実なデータでなければなりません。 必ずしっかりと設定するようにしましょう。

(注5) 多重比較の必要例数は多重比較の各種手法に対応して異なった計算式を利用する必要があります。 しかし必要例数の計算式は近似式なので、どうせ近似なら一番単純なボンフェローニー型の計算式を利用して求めるのが簡単で実際的です。 そこでボンフェローニー型の多重比較について必要例数を計算する原理を考えてみましょう。

多重比較では個々の検定結果がひとつでも有意になればファミリーとしての結論を採用することができます。 そのためファミリーとしての結論を採用するための検出力は個々の検定の検出力よりも大きくなります。 例えば個々の検定の検出力(1-βi)を80%つまりβエラーを0.2として3回の検定を行うとすると、対立仮説H1が正しい時に3回の検定が全て有意ではないという結果になる確率は次のようになります。

H1:μB = μA+δ* かつ μC = μA+δ* かつ μC = μB+δ* (3群の平均値は全てδ*だけ異なっている)
μA* < μB < μA*と結論する確率 = 0.2
μA* < μC < μA*と結論する確率 = 0.2
μB* < μC < μB*と結論する確率 = 0.2
μA ≒ μB ≒ μCと結論する確率 = 0.2×0.2×0.2 = 0.008
∴ファミリーとしての結論を採用する確率つまりファミリーとしての結論の検出力 = 1 - 00008 = 0.992

したがってこの場合、ファミリーとしての結論の検出力(1-β)を80%にするためには、次のように個々の検定の検出力は約40%で良いことになります。

β = βi3 = 0.2より
∴(1 - βi) ≒ 1-0.584804 = 0.415196 ≒ 1 - 0.2×3 = 0.4

ただし上記の対立仮説は実際には有り得ず、次のような対立仮説の方が現実的です。 そのため実際にはファミリーとしての結論の検出力は常に0.992にはならないものの、個々の検定の検出力は80%よりもかなり小さくても良いことは確かです。

H1:μB = μA+δ* かつ μC = μA+δ* かつ μC = μB (1群の平均値だけが他とδ*だけ異なっている)
ファミリーとしての結論の検出力 = 1 - 0.2×0.2×0.95 = 0.962
  または
H1:μB = μA+δ* かつ μC = μA+2×δ* かつ μC = μB+δ* (3群の平均値がδ*間隔で並んでいる)
ファミリーとしての結論の検出力 = 1 - 0.2×0.2×0.046 = 0.998

このように多重比較を用いる時は、個々の検定の有意水準が小さくなるのに対応して個々の検定の検出力が小さくても良くなります。 そこで2標本t検定における必要例数の計算式を応用して、次のような計算式で必要例数を求めることができます。


n:1群の例数  nc ≒ 1:正規近似補正   :群ごとの母標準偏差   δ:検出差
α:ファミリーとしての有意水準  β:ファミリーとしてのβエラー   (1-β):ファミリーとしての検出力
:個々の有意水準   :個々のβエラー   (1-βi):個々の検出力
t(∞,αi):正規分布における100αi%点   t(∞,2βi):正規分布における100・2βi%点
a:群数  m:検定回数  p:検定結果が有意になる回数  q:母平均が異なる群数
※テューキー型比較の場合:
ダネット型比較の場合:m = a-1、対照群の母平均が異なる時はp = a-1、その他の群の母平均が異なる時はp = 1

ここで注意しなければならないことは、母平均が他と異なる群の数が多いほど検定結果が有意になる回数が増えるということです。 例えばテューキー型比較の場合、全ての群の母平均がお互いに異なる時、検定結果が有意になる回数は検定回数と同じa(a-1)/2回になります。 しかし1群の母平均だけが他と異なる時は(a-1)回になります。

そして検定結果が有意になる回数が多いほどファミリーとしての検出力(1-β)が大きくなる——βが小さくなる——ため、個々の検定におけるβiは大きくてもかまいません。 つまり検定結果が有意になる回数が多いほど、βiの値は大きくなります。 しかし実際の試験では、どの群の母平均が他と異なるのか事前にわからないことが多いと思います。 そのような時は上記の母平均が異なる群数qは不明と考え、「少なくとも1回は検定結果が有意になる」と仮定し、βi=βにして必要例数を求めるのが無難です。

ファミリーとしての有意水準を5%、検出力を80%、群数を3、検出差を10、母標準偏差を10とし、テューキー型比較で少なくとも1回は検定結果が有意になる時の必要例数を求めると次のようになります。

a = 3  m = 3  αi = 0.05/3 = 0.0167  βi = β = 0.2   t(∞,0.0167) = 2.394  t(∞,0.4) = 0.842
  3群合計例数 = 66
※3群とも母平均が異なると仮定した場合:βi = 0.5848  n = 12   3群合計例数 = 36
※3群とも母平均が異なると仮定したステップ法の場合:αi = 0.3684   βi = 0.0717  n = 12  3群合計例数 = 36
※2群比較の場合:n = 17  2群合計例数 = 34

ステップ法のファミリーとしての結論はAND結合なので、個々の検定結果が全て有意にならなければファミリーとしての結論を採用することができません。 そのためファミリーとしての検出力は個々の検出力を掛け合わせたものになり、次のような関係が成り立ちます。


または
※βiが全て同じ値の時
     
ボンフェローニの不等式より

この不等式は多重比較における有意水準αをβで置き換えたものに相当します。 そしてこの式から、ファミリーとしての検出力を(1-β)にするためには個々の検出力を(1-β/m)にしなければならないことがわかると思います。 例えば3群比較でファミリーとしての検出力を80%にしたい時は、次のように個々の検出力を約93%にする必要があります。

(1-β) = 0.8 → β = 0.2
(1 - β/3) = (1 - 0.2/3) ≒ 0.933333

しかしこの場合、ファミリーとしての有意水準αを5%にするためには、次のように個々の有意水準αiは約37%で良いことになります。

αi3 = α = 0.05 →

この原理に従って必要例数を計算したものが、上例の「※3群とも母平均が異なると仮定したステップ法の場合」の結果です。 この場合の1群あたりの必要例数は、3群とも母平均が異なると仮定した時の多重比較の必要例数と変わらないことがわかると思います。 また2群比較の場合の必要例数と比べると、少なくとも1回は検定結果が有意になると仮定した時の多重比較の必要例数は少し多くなりますが、3群とも母平均が異なると仮定した時の必要例数は少し少なくなることがわかると思います。

つまり個々の検定結果をいいとこ取りする時はαエラーについて多重性の調整を、βエラーについてはその反対の調整をする必要があり、個々の検定結果をAND結合する時はβエラーについて多重性の調整を、αエラーについてはその反対の調整をする必要があるわけです。 そのため普通の検定を用いても多重比較を用いてもステップ法を用いても、結局のところ1群あたりの必要例数はあまり変わらないことになります。

要するにひとつの試験でひとつの同じような統計的結論を採用する時、元になるデータが同じで有意水準と検出力が同じならどんな検定法を用いようと同じくらいの努力——1群あたりの例数——が必要ということです。 よく考えてみれば、これは当然のことでしょう。 (→1.6 統計的仮説検定の考え方1.7 科学的研究の種類とデザイン (注1))

(注6) 一元配置分散分析において、要因Aの水準数aを2にすると次のように2標本t検定と一致します。

  φT = n-1

φA = 2-1 = 1  

φR = n-2  

ただし2標本t検定が本来は一方の群の平均値が他方よりも大きいか、または小さいかだけを検定する手法であるのに対して、一元配置分散分析は平均値が異なっているかどうかを検定する手法です。 そのため2標本t検定を両側検定として用いた時だけ一元配置分散分析と一致します。 (→1.6 統計的仮説検定の考え方 (4) 片側検定と両側検定)

また2標本t検定では普通は平均値とt値しか計算しませんが、分散分析では平方和や寄与率なども計算し、よりきめの細かい分析が可能です。 そのため対応のない2標本の平均値を両側検定で比較したい時は分散分析を用いた方が便利です。 第3章第3節の表3.3.3のデータに一元配置分散分析を適用すると、次のように確かに2標本t検定の結果と一致します。 (→3.3 2標本の計量値 (2) データに対応がない場合)

表4.1.5 表3.3.3の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
50015006.757
残差13321874 
全体183219 
FA = 6.757(p = 0.0181) > F(1,18,0.05) = 4.414 … 有意水準5%で有意
  
RA2 ≒ 0.273(27.3%)

2標本t検定と同様に、分散分析も各群の分散が等しいことを前提にしています。 そのため等分散性の検定としてバートレット(Bartlett)の手法というものがあります。 各群の分散をVi、自由度をφi=ri-1とすると、この手法は次のようなものです。

  
>χ2A,α)の時、有意水準100α%で有意

またバートレットの手法よりも単純で、しかし精度の悪いルビーン検定(Levene's test)という手法もあります。 これは、次のようにデータyijの偏差の絶対値を用いた分散分析に相当します。


dij = |yij-mi.|:i群におけるyijの偏差の絶対値   mdi.:i群におけるdijの平均値   mdT:dijの全平均値
SdA:dijの要因Aの平方和   VdA:dijの要因Aの分散   SdR:dijの残差平方和   VdR:dijの残差分散
W = Fo > F(φAR,α)の時、有意水準100α%で有意
※dijを平均値に関する偏差の絶対値の代わりに中央値に関する偏差の絶対値にすると、ブラウン・フォーサイス検定(Brown-Forsythe test)になる。

通常、これらの手法は有意性検定を行います。 そして検定結果が有意の時は「不等分散」と解釈し、有意ではない時は本来は結論保留ですが、「消極的ながら等分散」と解釈します。 しかし有意性検定は例数が多くなればたいてい有意になるので、結局のところ例数が少ないと等分散で、例数が多いと不等分散ということになってしまいます。

等分散性を厳密に検討するためには、科学的に有意義な等分散性の評価指標を決め、それについて等分散と評価できる許容範囲を設定して統計的仮説検定を行う必要があります。 これらの手法ではMまたはχ2、あるいはWがその評価指標になり得る値ですが、許容範囲を決めるのは相当に難しいと思います。 そのため致し方なく有意性検定を行っているのです。

しかし等分散性を検討するのは厳密さを追求するためですから、このいい加減さは非合理です。 しかも等分散性の検定を行うのは一元配置分散分析だけであり、二元配置以上の分散分析では通常は行いません。 さらに2標本t検定の例でわかるように、不等分散性を補正したとしてもごくわずかです。 そのため現実的には全て等分散として扱ってしまってかまいません。 (→3.3 2標本の計量値 (注2))