この章では、多標本のデータ処理に用いる統計手法について各論的に解説します。 それらの手法は第3章で説明した1・2標本のデータ処理に用いる統計手法を拡張したものであり、より汎用性があります。
データが計量値で標本の数が多数の時、平均値について色々な検討をするには「分散分析」または「ANOVA(アノーバ、ANalysis Of VAriance)」と呼ばれる手法を用います。 多標本の比較をする場合、t検定を何回も使用して2標本ずつ比較している論文をよく見かけます。 しかしそれは完全な間違いであり、本当はこの分散分析を用いなければなりません。 t検定という手法は分散分析においてたまたま標本の数が2つである時の別名であって、多標本に用いるべきものではありません。 このことについては、また後で詳しく説明します。
分散分析には目的に応じて色々な手法があり、データに対応がない場合に用いる「一元配置法(one-way layout)」と、対応がある場合に用いる「二元配置法(two-way layout)」とが代表的なものです。 話の都合上、これまでの章と順番を変えてデータに対応がない場合から説明しましょう。
医学や薬学では、対応のない多標本のデータがしばしば登場します。 例えばプラセボ(薬理作用を持たない形だけの偽薬)であるA剤を対照薬にして、B剤とC剤という2種類の血圧降下剤の効果を比較する場合を考えてみましょう。 高血圧患者15人を無作為に3群に分け、それぞれの群にA、B、C剤を投与して収縮期血圧を測定した結果が表4.1のようになったとします。
| 群内No. | A剤投与群 | B剤投与群 | C剤投与群 | 全体 |
|---|---|---|---|---|
| 1 | 116 | 106 | 108 | |
| 2 | 128 | 102 | 100 | |
| 3 | 129 | 108 | 108 | |
| 4 | 137 | 118 | 114 | |
| 5 | 140 | 116 | 110 | |
| 計 | 650 | 550 | 540 | 1740 |
| 平均 | 130 | 110 | 108 | 116 |
| 標準誤差 | 4.2 | 3.0 | 2.3 | 3.2 |
15個のデータは色々にバラツイていますが、よく見ると、これらのデータをバラツカせる原因として性質の異なった2種類の要因があることに気がつきます。 薬剤投与群別平均値が130、110、108とバラツイているのは、投与された薬剤の降圧作用が違っているためだと思われ、これは薬剤の違いを反映する系統的な意味のある変動です。 それに対して、例えばA剤投与群における5人のデータが116、128、129、137、140とバラツイているのは、その5人の個人差によるものだと思われ、これは個人差を生ずる原因がはっきりしない限り、意味のつかめない非系統的な変動です。
このように個々のデータを変動させている要因を分析し、意味のある要因による変動分すなわち「情報」と、はっきりと意味のつかめない要因による変動分すなわち「誤差」とに分解して、データを要約しようとする統計手法が「分散分析」です。 分散分析という名前は、統計学上、変動を要約する値は分散であり、この手法が分散を中心とした分析法であることに由来しています。
そしてデータを変動させる意味のある要因が1つだけで、その要因の内容を異にする対応のない群が多数ある場合を「一元配置分散分析」といいます。 一元配置分散分析では、通常、意味のある要因を「要因A」、要因の内容が異なる多群を「要因の水準」といいます。 例題では薬剤が要因Aに、A剤投与群、B剤投与群、C剤投与群の3群が水準に相当し、各群内における個人差が誤差に相当します。
ここでデータyを各要因による変動に分解して考えてみましょう。 もしデータが要因Aによっても個人差によっても変動しないのなら、全てのデータは同一の値になるはずです。 しかし普通は、要因Aによっても個人差によっても変動します。 そこで要因Aiに属するj番目の個人のデータyijについて、変動がない時の一定の値をμ、Aiによるデータの変動分をαi、個人差による変動分をεijとすると、yijまたは全変動(yij-μ)は次のように分解されます。
μを総平均(全群を合わせた平均)mTで、αiを各群の平均miと総平均との差(mi-mT)で、εijをデータyijと各群の平均との差(yij-mi)で推定すると、
例えば表4.1のA剤投与群における5番目のデータy15=140を基本式に対応して分解すると、次のようになります。
基本式における各種の変動は偏差の一種ですから、それらの平方を合計した平方和と、その変動の原因となる変数の数すなわち自由度と、平方和を自由度で割った分散とを求めて変動を要約することができます。 基本式に対応して、 (注1)
| 全体:平方和ST= | Σ i |
Σ j |
(yij-mT)2 |
| 分散VT= | ST ―― φT |
| 要因A:平方和SA= | Σ i |
Σ j |
(mi-mT)2 |
| 分散VA= | SA ―― φA |
| 個人差:平方和SR= | Σ i |
Σ j |
(yij-mi)2 |
| 分散VR= | SR ―― φR |
全体の平方和STと自由度φTは総平均に対する普通の平方和と自由度であり、要因Aの平方和SAと自由度φAは、各群のデータが全てその群の平均値に等しくて、個人差によるデータの変動がない時の平方和と自由度に相当します。 この時、要因Aの自由度は、総平均を変化させずに自由に変えられる群平均の個数になりますから、群数から1を引いた値になります。 要因Aの変動と個人差の変動を合わせたものが全体の変動になるので、通常、個人差の平方和SRはSTからSAを引いて求め、個人差の自由度φRもφTからφAを引いて求めます。 このため分散分析では個人差によるデータの変動、すなわち誤差のことを「残差(Residual)」と呼びます。 また分散は平方和を自由度で割った値であり、1自由度当たりの平方和を表しますので「平均平方和(Ms、Mean of square)」と呼ばれることもあります。
こうして求めた各種の値を、次のような「分散分析表(ANOVA table)」と呼ばれる表にまとめます。
| 要因 | 平方和SS | 自由度φ | 平均平方和Ms(分散V) | 分散比F |
|---|---|---|---|---|
| A | SA | φA | VA | FA=VA/VR |
| 残差 | SR | φR | VR | |
| 全体 | ST | φT | ||
例題における問題は、
データを情報と考えると、平方和は要因の情報量であり、自由度はその担い手の数、そして分散は情報密度と考えることができます。 分散比Fは要因Aの分散と残差分散の比で、要因Aによる変動が残差による変動の何倍あるか、言い換えれば要因Aの情報密度が誤差の情報密度の何倍濃いかを表す値です。 この分散比Fを利用すると、前述の帰無仮説を検定することができます。
もし要因Aによるデータの変動が0ならば、各群の平均値は全て等しくなり要因Aの分散は0になるはずです。 したがって分散比Fは要因Aによる変動がなければ0で、要因Aによる変動が大きいほど大きな値になり、前述の帰無仮説が正しい確率すなわち有意確率p値と反比例的な関係にあることがわかります。 このF値を検定統計量にする手法を「分散分析F検定」といいます。 この手法では、実験結果から求めたFAをp値に変換して有意水準の値と比べるか、p値がちょうど有意水準の値になる時の基準のF値と比べるかして検定します。 (→1.5 統計的仮説検定の考え方)
基準のF値は自由度と有意水準によって異なり、自由度と有意水準の値が大きくなるほど小さな値になります。 分子の自由度がφ1で分母の自由度がφ2、有意水準がαの時の基準のF値を「第1自由度φ1、第2自由度φ2のF分布における100・α%点」と呼び、F(φ1,φ2,α)と書くため、
しかしこの検定で有意になっても、単に、
「要因Aによる変動は0ではない」
| RA2=ηA2= | SA ―― ST |
このRA2は全情報のうち要因Aによって説明のつく情報の割合を表し、パーセント表示されて「寄与率」と呼ばれることが多い値です。 また寄与率の平方根を「η(イータ)」と書いて、「相関比(correlation ratio)」と呼ぶこともあります。 (→5.3 計数値の相関、第7章 重回帰分析)
有意水準5%として、表4.1の例題について実際に計算しますと次のようになります。
| 要因 | 平方和SS | 自由度φ | 平均平方和Ms(分散V) | 分散比F |
|---|---|---|---|---|
| 薬剤 | 1480 | 2 | 740 | 13.918 |
| 残差 | 638 | 12 | 53.167 | |
| 全体 | 2118 | 14 | ||
しかしこれは単なる統計的結論ですので、例によって医学的結論を考えなければなりません。 それには3群の平均収縮期血圧と寄与率について考察することが必要です。 つまりA剤(プラセボ)の平均収縮期血圧130mmHgに対して、B剤110mmHg、C剤108mmHgという値がどれほど意味のあるものなのか、データの全変動に対する薬剤効果の差による変動の割合(寄与率)が約70%あるということがどれほど意味のあるものなのか、といったことを考察するわけです。 これらが医学的にみても意味のあることであれば、
このように、分散分析よる結論は「要因Aによってデータが変動する」というだけの極めて素っ気ないものですので、
「それじゃあ、具体的にどの群とどの群との間に差があり、どの群が一番なんだ?」
この場合、このうちのどれか1つ以上が有意水準5%で有意になれば、
「統計的結論が間違っている確率は5%以下である」
「本当は2群が等しいのに、間違って等しくないという統計的結論を採用する危険性が5%程度ある」
最終的な結論の有意確率を5%以下にするためには、個々の比較についての有意水準を5/3%にし、その厳しい基準で有意な結論だけを採用する必要があります。 そのためには、個々の比較の有意確率p値を0.05/3と比べれば良いのですが、有意水準の値をいちいち変えるのは煩雑ですし誤解される可能性もあります。 そこで、普通は個々の比較のp値を3倍して0.05と比べるか、あるいはp値を3倍したことに相当するようにt値の計算式を修正するかします。 そのような処理をした検定手法を多重比較といいます。 この手法を用いれば最終的な結論の有意確率を5%以下にすることができ、正々堂々と胸を張って最終的な結論を採用することができます。 (注2)
多重比較の理屈をわかりやすく説明する例として、ワインとソムリエの例え話が有名です。 あるレストランのワイン貯蔵庫は管理があまり良くなく、全体の5%のものが悪くなってしまっていました。 このため、このレストランのソムリエが1本のワインをお客に出した時、それが悪くなっている危険性が5%ありますので、20回に1回はお客に謝らなければならない羽目になります。 つまり、ソムリエがお客に謝る危険率が5%というわけです。
しかしお客がワインを3本注文した時は、3本のワインのうち1本でも悪くなっていればソムリエは謝らなければなりませんので、謝る危険率は前述の計算のように15%になり、6〜7回に1回は謝らなければならない羽目になります。 1人のお客にワインを3本出した時に謝る危険性を5%にするためには、ワイン貯蔵庫の管理状態を向上させ、悪いワインの割合を5/3%に抑える必要があります。 これが多重比較の考え方です。
ただし個々の比較を総合した最終的な結論として、
また個々の比較だけが目的で、それらを総合した最終的な結論は採用しないということでしたら、やはり多重比較は必要ありません。 ワインとソムリエの例え話でいえば、3人の別々のお客がそれぞれワインを1本ずつ注文し、それに対してソムリエがそれぞれのお客に別々にワインを1本ずつ出したのなら、ソムリエが1人のお客に対して謝る確率は5%のままですから、ワイン貯蔵庫の管理状態を向上させる必要はありません。
つまり多重比較が必要な場合は、個々の比較を「OR(または)」で結合した最終的な結論を採用したい時だけで、個々の比較を「AND(かつ)」で結合した最終的な結論を採用する時とか、そもそも個々の比較を総合しない時には必要ありません。
例えばある新薬Cの効果を検討する時、まず薬効のないプラセボAと比較して薬効があることを確認しておき、その上ですでに効果があることがわかっている標準薬Bと比較して標準薬よりも薬効が強いことを確認することがあります(実際、そのような試験を僕も行いました。σ(^^;))。 この場合、最終的な結論として「A(プラセボ)<B(標準薬)<C(新薬)」というAND結合したひとつのものしか採用しないので、個々の比較に多重比較は必要ありません。 (注3)
またある疾患のリスクファクターを検討する時、多数のリスクファクター候補項目についてそれぞれ検定を行うことがあります。 この場合、多数のリスクファクターは独立に検討するだけであり、それらをORで結合した最終的な結論を採用することはないので多重比較は必要ありません。 ところがリスクファクター候補が多数の遺伝子の時は、「偽陽性の確率が増大するので個々の遺伝子の検定に多重比較を用いる必要がある」と誤解している人がけっこういます。
このような場合は、ワインとソムリエよりも名医と藪医者の例え話の方が理解しやすいでしょう。 正診率95%つまり誤診率5%の医者がいたとします。 この医者が1日に1人の患者を診断したとしますと、平均して20日に1回しか誤診をしないので周囲から「名医!w('o')w」と評価されます。 ところが同じ医者が1日に20人の患者を診断したとしますと、平均して1日に1回は誤診をすることになり周囲から「藪医者!凸(-"-)」と評価されてしまいます。 つまり患者が多くて繁盛するほど、藪医者と評価されてしまうわけです。
この矛盾の原因は20人の患者の診断結果をORで結合し、1日の診断に対する誤診率で医者の腕前を評価している点にあります。 医者の腕前を正しく評価するには1回の診断に対する誤診率を指標にすべきであり、1日の診断に対する誤診率を指標にすべきではないのです。 この例え話と同様に、ある疾患のリスクファクター候補として多数の遺伝子を検討する時、個々の遺伝子の「腕前」を独立に評価したいのなら多重比較を行うべきではありません。
反対に2つの薬剤の薬効を比べる試験で、多数の評価項目についてそれぞれ普通の検定を行ったり、男女別に層別してそれぞれ普通の検定を行ったりすることがよくあります。 この時、それぞれの評価項目とか層別の結果は独立に検討するだけで、それらをORで結合して2つの薬剤を総合的に比較しないのならば多重比較は必要ありません。 しかし実際には多数の評価項目の検定結果をORで結合したり、層別の検定結果をORで結合したりして、ひとつでも有意な結果があれば「こっちの薬剤の方が優れている!」という結論を採用することが多く、そのような場合は個々の評価項目の検定または層別の検定に多重比較を用いる必要があります。
例えば20個の評価項目があれば、個々の評価項目の有意水準は0.05/20=0.0025(0.25%)という非常に小さな値になってしまいますので、製薬企業の新薬開発担当者は、
「ひゃあぁ〜、0.25%で有意にならないとウチの薬が勝てないなんて、多重比較ってやたらと厳しいーっ!」
しかし多重比較を行う場合は個々の評価項目の結果が目的ではなく、あくまでも「少なくとも1つ以上の評価項目でウチの薬剤が勝っている」という総合的な結果を得ることが目的であり、この総合的な結果は20個の評価項目のうちのどれかひとつでも有意になれば得られます。 つまり総合的な結果が得られる確率は、評価項目が1つの時よりも20個の時の方が20倍ほど高くなります。 したがって評価項目が1個の場合でも20個の場合でも最終的な結果が得られる確率は同じであり、その結論が間違っている確率つまり危険率も同じです。 そうなるように危険率を調整した手法が多重比較ですから、これは当然のことです。
ただし多重比較は3つ以上の群についてデータが測定されている時に、個々の群の平均値の間にどのような関係があるかを調べるために開発された手法ですから、比較する群に対応が無く、独立であるということを前提にしています。 しかし多数のリスクファクターや多数の評価項目は原則として対応のあるデータであり、お互いに相関があるのが普通ですから、多重比較を適用するのは本当は不適切です。 このような場合は、お互いの相関関係を考慮して多数のデータを総合的に解析するために開発された手法である多変量解析を適用するのが本来です。 多変量解析については第6章以後をご覧ください。 (→第6章 多変量解析)
また検定とか有意水準とかいうもの自体がほとんど無意味なシロモノですから、統計学者の中には、
「多重比較が必要とか不必要とか、あんまり細かいことをガタガタいってもしょうがない。 検定そのものを廃止すればいいんだ!」
それはさて置き、多重比較は次のように大別されます。 (注4)
ボンフェローニ型の多重比較を用いて実際に例題について計算してみますと、次のような結果になります。
この結果より、
分散分析の結果は有意なのに、多重比較ではどの群間比較も有意にならないことがたまにあります。 これは、顔全体から受ける印象は何となく変だが、目だけ、鼻だけ見るとそう変でもないといった場合に相当します。
分散分析は多群の平均値の差の合計が0かどうかを検定し、それによって要因Aがデータを変動させるかどうかを結論するのに対して、多重比較は2群ごとの平均値の差が0かどうかを個別に検定し、それを総合してファミリーとしての最終的な結論を採用します。 このため個々の平均値の差は小さいながら、それを合計すればある程度大きくなるような場合は、分散分析では有意になるものの、多重比較では平均値の差が誤差に隠されてしまい、どの群間比較も有意にならないということが起きます。
いわば、分散分析が顔全体の印象を大雑把に検討することを目的にした手法であるのに対して、多重比較は目、鼻などの部品をそれぞれ個別に検討し、それを総合して顔全体の印象をより詳細に検討しようという手法といえます。 このように分散分析と多重比較は目的が異なる手法ですから、両者の結果が食い違っても不思議ではないのです。 そして同じデータから大雑把な推測をした時と、より詳細な推測をした時を比べれば、当然のことながら、より詳細な推測をした時の信頼性は落ちざるを得なくなるわけです。
狡猾な予言者や占師は、できるだけ漠然とした、どうにでもとれるような内容の予言や占いをしておき、何か事が起こってしまってから無理矢理こじつけて、
「どうじゃ、ワシの予言どおりじゃろう!」
またF値についての説明からもわかりますように、一元配置分散分析と多重比較において群の数(水準数)が2つの場合は2標本t検定に相当し、F値の平方根がt値に一致します。 (注5) (→3.3 2標本の計量値)
| 群内No. | A1 | … | Ai | … | Aa | 全体 |
|---|---|---|---|---|---|---|
| 1 | y11 | … | yi1 | … | ya1 | |
| : | : | … | : | … | : | |
| j | y1j | … | yij | … | yaj | |
| : | : | … | : | … | : | |
| r | y1r | … | yir | … | yar | |
| 計 | T1. | … | Ti. | … | Ta. | TT |
| 平均 | m1. | … | mi. | … | ma. | mT |
変動がない時の一定の値をμ、要因Aiによるデータの変動分をαi、Ai群のj番目という対象による変動分をεijとすると、全変動(yij-μ)は基本式に対応して次のように分解されます。
| ST= | a Σ i=1 |
r Σ j=1 |
(yij-mT)2=ΣΣyij2-n・mT2=ΣΣyij2- | TT2 ―― n |
| SA= | a Σ i=1 |
r Σ j=1 |
(mi.-mT)2= | a Σ i=1 |
r・mi.2-n・mT2=Σ | Ti.2 ――― r |
- | TT2 ―― n |
| SR= | a Σ i=1 |
r Σ j=1 |
(yij-mi.)2=ΣΣyij2- | a Σ i=1 |
r・mi.2 |
| =(ΣΣyij2-n・mT2)-(Σr・mi.2-n・mT2)=ST-SA |
| n= | a Σ i=1 |
ri |
| SA= | a Σ i=1 |
Ti.2 ――― ri |
- | TT2 ―― n |
以上のように、平方和と自由度は基本式に対応して行儀良く分解されます。 これは「相加性(additivity)」と呼ばれる、統計学上重要な性質です。 分散はそれぞれの平方和を対応する自由度で割って求めるため、相加性はありません。
| 総変動の分散:VT= | ST ―― φT |
| 要因Aの分散:VA= | SA ―― φA |
| 要因Aの寄与率:RA2= | SA ―― SR |
| 残差分散:VR= | SR ―― φR |
| 標準誤差:SE=√( | VR ―― ri |
) |
例題について実際に計算してみましょう。
| ST=203958- | 17402 ――― 15 |
=203958-201840=2118 |
| VT= | 2118 ――― 14 |
≒151.286 |
| SA=( | 6502 ――― 5 |
+ | 5502 ――― 5 |
+ | 5402 ――― 5 |
- | 17402 ――― 15 |
)=1480 |
| VA= | 1480 ――― 2 |
=740 |
| VR= | 638 ―― 12 |
≒53.167 |
| FA= | 740 ―――― 53.167 |
≒13.918 (p=0.0007)>F(2,12,0.05)=3.885 |
| RA2= | 1480 ――― 2118 |
≒0.699(69.9%) |
ちなみに母集団の残差分散をσR2、要因Aの母平均の分散をσA2とすると、これらの母分散と分散分析から求めた不偏分散の間には次のような関係があります。
| E( | VA ―― r |
)=σA2+ | σR2 ―― r |
=σA2+SER2 |
| ∴σA2=E( | VA ―― r |
)- | σR2 ―― r |
= | VA-VR ――― r |
| σA2推定値= | VA ―― r |
+VR( | 1 ― s |
- | 1 ― r |
) |
品質管理などでは、多くの場合、各水準の例数があらかじめ決められています。 ところが、色々な事情でそれとは異なる例数で試験を行ってしまった時に、決められた例数で試験をした時の結果を推定するためにこの式を用います。
したがって分散分析の結果が有意になった時に採用する定性的な結論は、次のようになります。
統計的仮説検定の考え方から、これはμA、μB、μCについて具体的な値を指定した対立仮説の採用ではないことに注意してください。 (→1.5 統計的仮説検定の考え方)
分散分析では、結論をこの4種類の中のどれかひとつに絞り込むことはできません。 そこで結論をどれかひとつに絞り込むために、次のような3種類の検定を行うことにします。
これら3種類の検定結果のうち、どれか1つ以上が有意になれば前述の4種類の結論のうちの1つを採用し、3つとも有意ではない時だけ結論を保留するか、または具体的な対立仮説を否定した定性的な結論「μA≒μB≒μC(3つの平均値はほぼ等しい)」を採用します。 つまり検定結果を「OR(または)」で結合し、それによって導くことのできる結論を最終的な結論として採用するわけです。 このように、個々の検定結果を総合して導いた最終的な結論を「ファミリーとしての結論」と呼ぶことにします。
帰無仮説H0が正しい時に3つの検定結果が全て有意にならない確率は、3つの検定結果がそれぞれ独立事象で互いに他に無関係な時、有意水準αを0.05としますと次のようになります。
したがってこの場合、全ての平均値が同じであるにもかかわらず、どれか1つ以上が他と違っているという4種類の結論のうちの1つを採用する確率は約15%になり、最終的なファミリーとしての結論の実質的な有意水準つまり「第1種のFWE(type I Familywise Error rate)」は約15%になってしまいます。 最終的なファミリーとしての結論の有意水準を5%にするためには、個々の検定の有意水準つまり「第1種のPCE(Per-Comparion Error rate)」を約5/3%にしておく必要があります。
なお7種類の検定結果の中には、一見すると辻褄が合わず、最終的なファミリーとしての結論としてどれを採用すれば良いのか判断しがたいものもあります。 しかしこれらの検定結果はあくまでも確率的なものであり、最終的な結論も確率的な表現になりますので数学的には矛盾するわけではありません。
例えば1番目の検定結果はAとBだけが違っていてAとC、BとCはほぼ同じという意味ですが、AとBが違っていてAとCがほぼ同じなら、当然、BとCは違っているはずですから、一見すると辻褄が合いません。 これは例えば平均値がA<C<Bの順に並んでいて、A対Cの検定の有意確率とB対Cの検定の有意確率が0.1程度で、A対Bの検定の有意確率だけが0.05以下であるというような時に起こります。
「有意ではない」ということを「等しい」と考えてしまうと、この結果は解釈不能です。 しかし「2群の差は事前に設定した医学的に意味のある検出差以内である」と考えれば、「AとBの差は検出差以上である可能性が高いが、AとC、BとCの差は検出差以内である可能性が高い」と解釈することになり、何の矛盾もありません。 ただしそのためには、1.5 統計的仮説検定の考え方で説明したように、事前に有意水準と検出力と検出差を決め、しっかりと例数設計を行うことが必要です。
事前にそのような設計をしていない時は統計的仮説検定ではなく有意性検定になり、「有意ではない」ということは「結論保留」ということになります。 したがってそのような場合は「A<Bであることはほぼ確実にいえるが、A<B=CまたはA<C<Bのどちらであるかはこのデータだけで決定することはできない」と解釈しなければなりません。 これはとりもなおさず再試験が必要ということで、検証的研究の予備研究として行う探索的研究ならかまいませんが、検証的研究では試験失敗ということに他なりません。 検証的研究では事前にしっかりと例数設計をすることが重要だということが、このことからもわかると思います。
事前に検出差を決める場合、分散分析と多重比較では検出差の決め方が異なるので注意が必要です。 分散分析はA、B、Cの3群の平均値のバラツキ具合、つまり各群の平均値と総平均値のズレの合計が0かどうかを検定するため、検出差として総平均値とのズレの合計を決めるだけでよく、各群の平均値の差まで具体的に決める必要はありません。 それに対して多重比較の場合は、2群ごとの平均値の差が0かどうかを検定するため、2群ごとの平均値の差を具体的に決める必要があります。
しかし実際問題として、総平均値とのズレの合計や、各群の平均値の差を合理的かつ科学的に決めるのは非常に難しいことです。 また分散分析や多重比較の対象になるデータは比較的複雑な構造をしているため、これらの手法を用いなければならない研究は、どちらかといえば探索的な性格を持つことになります。 このため分散分析や多重比較を適用する時は、現実的には統計的仮説検定ではなく有意性検定を行うことが多くなりがちです。
さて、個々の検定の有意水準をαi(i=1,…,m)とし、それらをORで結合して導いたファミリーとしての結論の中のひとつを採用する有意水準をαとしますと、一般に次のような関係が成り立ちます。
| (1-α)=(1-α1)…(1-αm)= | m Π i=1 |
(1-αi) |
| (1-α)≧(1- | m Σ i=1 |
αi) または α≦ | m Σ i=1 |
αi |
特にαiが全て同じ値の時は次のようになります。
このボンフェローニの不等式を利用して個々の検定の有意水準をα/mとするか、または個々の検定の有意確率pをm倍して有意水準αと比べる多重比較手法を「ボンフェローニ型の多重比較」といいます。
例えばα=5、m=3の時は次のようになります。
この方法で検定すると、ファミリーとしての結論のひとつを採用する有意水準がα以下に抑えられます。 なお場合によってはm×pが1以上になることがありますが、これは有意確率をα/mと比べる代わりにαと比べるために生じた見かけ上のものですから、気にする必要はありません。 そもそも有意水準は実験結果が棄却域に入っているかどうかを調べるための単なる目安にすぎず、それ自体に具体的な意味はあまりありません。
また注意しなければならない点は、このように有意水準を調整した多重比較を行う必要があるのは、多くのファミリーとしての結論の中からどれかひとつの結論を採用する時だけだということです。 例えばファミリーとしての結論の中の「μA≠μB≠μC(平均値が全て異なる)」というひとつの結論しか採用しないということが最初から決まっていれば、帰無仮説H0が正しいとして、
となり、実質的な有意水準は0.0125%になります。 この時、最終的な結論を採用する有意水準を5%にするためには、
と、個々の検定の有意水準は約37%で良いことになります。 このように個々の検定結果を「AND(かつ)」で結合したひとつの結論だけを採用する時は多重比較は必要なく、むしろ個々の検定の有意水準を多重比較とは逆の方向に調整した検定を行う必要があります。
個々の検定の有意水準を約37%にすると、一見、非常に有意になりやすいように思えます。 しかしこの場合は3つの検定結果が全て有意にならなければ、最終的な結論を採用することができません。 それに対して個々の検定を「OR(または)」で結合した結論のうちのひとつを採用する場合は、3つの検定のうちのどれかひとつでも有意になれば最終的な結論を採用することができます。 したがって最終的な結論を採用する確率はどちらも同じです。 そうなるように個々の検定の有意水準を調整したものが多重比較ですから、これは当然のことです。
また多群の平均値を比較する場合に限らず、複数の検定結果を総合して最終的なファミリーとしての結論を採用するような検定手法を「多重検定(multiple test)」と呼ぶことがあります。 例えば複数の項目について2群間で検定し、それらの結果を総合して最終的なファミリーとしての結論を採用するような場合は、多重比較ではなく多重検定と呼ぶ方がふさわしいでしょう。 ただし多重検定は複数の検定結果が独立という前提のものが多いのに対して、複数の項目は相関を持つことが多いため、多重検定ではなく多変量解析を適用する方が適切な場合が多いでしょう。
試験の分析感度(sensitivity)を確認するための比較。 A<Bの時だけ次のステップに進む。
新薬の有効性(efficacy)を確認するための比較。 A<Cの時だけ次のステップに進む。
新薬の優越性(superiority)を確認するための比較。 B<CであればA<B<Cという結論が採用できる。
製薬企業がこの試験を行う場合、時間と費用を節約するために3つの薬剤を用いた3群比較試験を1回だけ実施し、検定を行う時だけこのステップ法に従うことが往々にしてあります。 しかし試験の分析感度が低い場合、あるいは新薬の有効性が低いまたは新薬の副作用が多い場合、各ステップごとに1回ずつ試験を行う方法では、無駄な試験や危険な試験を中止することができます。 しかし検定だけステップ法に従った3群比較試験では、無駄な試験や危険な試験を行ってしまうことになり、倫理的にも費用的にも問題があります。
また多重比較を行う3群比較試験では、個々の比較の有意水準が小さい値になるため1群あたりの必要例数が多くなるのに対して、検定だけステップ法に従った3群比較試験では多重比較を行わないため1群あたりの必要例数が少なくなり、時間と費用の節約になると思うかもしれません。 しかし多重比較を行う時の最終的な結論はOR結合であり、個々の検定結果がひとつでも有意になれば最終的な結論を採用することができるので、最終的な結論を採用するための検出力は個々の検定の検出力よりも大きくなります。
例えば個々の検定の検出力(1-β)を80%つまりβエラーを0.2として3回の検定を行うとしますと、対立仮説H1が正しい時に3回の検定が全て有意ではないという結果になる確率は次のようになります。
したがってこの場合、最終的な結論の検出力を80%にするためには、
と、個々の検定の検出力は約40%で良いことになります。 このように多重比較を用いる時は、個々の検定の有意水準が小さくなるのに対応して個々の検定の検出力も小さくてすむので、1群あたりの必要例数は多重比較を用いない時とあまり変わりません。
一方、ステップ法の最終的な結論はAND結合なので、個々の検定結果が全て有意にならなければ最終的な結論を採用することができません。 このため最終的な結論を採用するための検出力は、個々の検定の検出力を掛け合わせたものになります。 個々の検定の検出力を(1-βi)(i=1,…,m)とし、それらをANDで結合して導いたファミリーとしての結論を採用するための検出力を(1-β)としますと、一般に次のような関係が成り立ちます。
| (1-β)=(1-β1)…(1-βm)= | m Π i=1 |
(1-βi) |
| (1-β)≧(1- | m Σ i=1 |
βi) または β≦ | m Σ i=1 |
βi |
特にβiが全て同じ値の時は次のようになります。
これは多重比較における有意水準αをβで置き換えたものに相当し、最終的な結論の検出力を(1-β)にするためには、個々の検定の検出力を(1-β/m)にしなければならないことがわかると思います。
例えば3群比較で最終的な結論の検出力を80%にしたい時は、
となり、個々の検定の検出力を約93%にする必要があります。 しかしこの場合、(注2)の最後で説明したように、最終的な結論の有意水準αを5%にするためには、
と、個々の検定の有意水準αiは約37%で良いことになります。 このため個々の検定の検出力が大きくなるのに対応して個々の検定の有意水準も大きくなるので、多重比較と同様に、1群あたりの必要例数はステップ法を用いない時とあまり変わりません。
つまり個々の検定結果をOR結合する場合はαエラーについて多重性の調整を、βエラーについてはその反対の調整をする必要があり、個々の検定結果をAND結合する場合はβエラーについて多重性の調整を、αエラーについてはその反対の調整をする必要があるわけです。 したがって普通の検定を用いても多重比較を用いてもステップ法を用いても、1群あたりの必要例数は結局のところあまり変わらないことになります。
要するにひとつの試験でひとつの統計的結論を採用する場合、元になるデータが同じで有意水準と検出力が同じならば、どんな手法を用いようとも同じくらいの努力(1群あたりの例数)が必要ということで、これはよく考えてみれば当然のことです。 (→1.5 統計的仮説検定の考え方)
この方法は試験の計画段階で指定した特定の2群の比較だけ行い、2種類以上の検定結果を総合したファミリーとしての結論は作らない特殊な方法であり、厳密な意味では多重比較とはいえません。 しかし統計学の解説書に載っていたり、統計学ソフトに組み込まれていたりしますので、一応、紹介しておきます。
分散分析の結果が有意という条件付きで、2種類以上の2群比較にフィッシャー型多重比較を用い、それらを総合してファミリーとしての結論を採用する手法を「PLSD(Protected Least Significant Difference)法」と呼ぶことがあります。 しかしこの手法は、3群以上になると多重性の調整が不十分なものになるので使用すべきではありません。
| to= | md ――――― √(2VR/r) |
| δL=md-t(φR,α)・√( | 2VR ―― r |
) |
| δU=md+t(φR,α)・√( | 2VR ―― r |
) |
特定の群を対照として、他の全ての群を対照群と比較する時に用います。 この手法では群の数をaとすると(a-1)回の検定を行い、それらの検定は同じ対照群と比較するため独立ではなくお互いに相関があります。 このためファミリーとしての有意水準は各検定が独立である場合よりも小さくなり、その結果として個々の検定の有意水準はボンフェローニ型よりも少し大きくなります。 つまり個々の検定結果が有意になりやすくなるわけですが、ファミリーとしての結論の制約が厳しく、条件付きの結論しか採用できないのでこれは当然のことです。
| do= | md ――――― √(2VR/r) |
| δL=md-d(a-1;φR,α)・√( | 2VR ―― r |
) |
| δU=md+d(a-1;φR,α)・√( | 2VR ―― r |
) |
統計学の教科書などに載っているd(a-1;φR,α)の値は、各群の例数が等しいことを前提にして計算した値です。 各群の例数が異なると検定間の相関関係が変化し、ファミリーとしての有意水準が変わってしまうためこの値は各群の例数が等しい時しか利用できません。 しかし最近は各群の例数が異なる時はd(a-1;φR,α)の値を補正して検定する少々手の込んだ手法が開発され、例数が異なる場合でもダネット型の多重比較を適用できるようになりました。
多群でリーグ戦を行う時、つまりあらゆる2群の比較をする時に用います。 群の数をaとすると{a×(a-1)/2}回の比較を行い、その中には同じ群と比較するものがあるので、ダネット型と同様に各検定は独立ではなくお互いに相関があります。 このためダネット型と同様に、各検定の有意水準はボンフェローニ型よりも少し大きくなります。
| qo= | md ――――― √(VR/r) |
| δL=md- | q(a;φR,α) ―――――― √2 |
・√( | 2VR ―― r |
) |
| δU=md+ | q(a;φR,α) ―――――― √2 |
・√( | 2VR ―― r |
) |
統計学の教科書などに載っているq(a;φR,α)の値は、Dunnettの数表と同様に各群の例数が等しいことを前提にして計算した値のため、各群の例数が等しい時しか利用できません。 しかし最近は各群の例数が異なる時はq(a;φR,α)の値を補正して検定する少々手の込んだ手法が開発され、例数が異なる場合でもチューキー型の多重比較を適用できるようになりました。
ボンフェローニの不等式を利用し、個々の検定の有意確率に検定回数をかけたものを多重比較の有意確率にするだけという、極めて単純で基本的な手法です。 個々の検定の代わりにフィッシャー型の多重比較の計算式を用い、それで得られた有意確率に検定回数を掛けてもかまいません。
個々の検定は独立であり、それらをORで結合して得られる結論をファミリーとしての結論にするという非常に緩い条件の手法なので、個々の検定の有意水準が小さくなって有意になりにくい反面、応用範囲が広いという特徴があります。 各群の例数が異なる時にダネット型やチューキー型の代用として用いるのはもちろん、どのような多重比較手法を用いれば良いかわからない時とか、多重比較手法がまだ開発されていない特殊な検定について多重比較を行いたい時は、とりあえずこの手法を用いておけば良いでしょう。
最も汎用性が高く、したがって最も有意になりにくい手法です。 この手法も各群の例数が異なる時にダネット型やチューキー型の代用として用いることができますが、その場合はボンフェローニ型の方が効率が良いので、この手法よりもボンフェローニ型を用いた方が良いでしょう。
| Fo= | md2 ―――――――――― (1/rp+1/rq)VR・φA |
| δL=md-√{φAF(φA,φR,α)・( | 1 ―― rp |
+ | 1 ―― rq |
)VR} |
| δU=md+√{φAF(φA,φR,α)・( | 1 ―― rp |
+ | 1 ―― rq |
)VR} |
シェッフェ型はいくつかの群を合わせた平均値と、他のいくつかの群を合わせた平均値を比較することもできます。 これがこの手法の大きな特徴で、これを「一般対比」といい、次のような計算式を用います。
| a Σ i=1 |
Cti=0 (例えばCt1=1,Ct2=1,Ct3=-1,Ct4=-1,Ct5=0,…,Cta=0等) |
| Fo= | (ΣCtimi)2 ――――――――― Σ(Cti/ri)VR・φA |
ボンフェローニ型を用いて実際に例題について計算してみましょう。
| to= | |130-110| ―――――――― √(2×53.167/5) |
| to= | |130-108| ―――――――― √(2×53.167/2) |
| to= | |110-108| ―――――――― √(2×53.167/5) |
同じデータにシェッフェ型を用いると次のようになります。
| Fo= | (130-110)2 ――――――――――― (1/5+1/5)×53.167×2 |
| Fo= | (130-108)2 ――――――――――― (1/5+1/5)×53.167×2 |
| Fo= | (110-108)2 ――――――――――― (1/5+1/5)×53.167×2 |
普通の実験では各群の例数はできるだけ揃えた方が効率が良いのですが、1つの群が対照群で、他の全ての群をこれと比較したい時には対照群だけ例数を多くした方が効率が良くなります。 rp例のp群とrq例のq群を比較する時は、その標準誤差が小さいほど効率が良くなります。
| SE=√{( | 1 ―― rp |
+ | 1 ―― rq |
)・VR} |
合計例数を一定にして標準誤差を最小にするには、
| 1 ―― rp |
+ | 1 ―― rq |
= | rp+rq ―――― rp・rq |
の最小化 |
と、両群の例数が等しい時が最も効率が良くなります。 これに対して対照群(r1例)と他の(a-1)個の群(r例)を比較する時は、
| 1 ―― r1 |
+ | 1 ― r |
= | r1+r ――― r1・r |
の最小化 |
ということになります。 これはラグランジュの未定乗数λを用い、
| φ(r1,r)=( | 1 ―― r1 |
+ | 1 ― r |
)+λ・{r1+(a-1)・r-n} の最小化 |
と表すことができます。 φを偏微分して0と置いた連立方程式を解きますと、次のように対照群だけ例数を多くした方が効率が良くなることがわかります。
| ∂φ ――― ∂r1 |
=- | 1 ―― r12 |
+λ=0 |
| ∂φ ――― ∂r |
=- | 1 ―― r2 |
+(a-1)・λ=0 |
| 1 ―― r12 |
= | 1 ―――――― {(a-1)・r2} |
対照群はあまり面白みがないせいか、えてして他の群より少数例であったり、時には全く置かなかったりしがちです。 しかし対照群のデータはその実験のベースラインを定め、実験条件がうまくコントロールされていたかどうかを確認する重要なものですから、他の群以上に確実なデータでなければなりません。 必ずしっかりと設定するようにしましょう。
| ST= | 2 Σ i=1 |
ri Σ j=1 |
yij2- | TT2 ―― n |
= | r1 Σ j=1 |
y1j2+ | r2 Σ j=1 |
y2j2- | TT2 ―― n |
| SA= | 2 Σ i=1 |
Ti.2 ――― ri |
- | TT2 ―― n |
= | T1.2 ――― r1 |
+ | T2.2 ――― r2 |
- | (T1.+T2.)2 ―――――― n |
| = | n・r2T1.2+n・r1T2.2-r1r2(T1.+T2.)2 ―――――――――――――――――― n・r1r2 |
| = | r22T1.2-2r1r2T1.T2.+r12T2.2 ―――――――――――――― n・r1r2 |
| = | (r2T1.-r1T2.)2 ―――――――― n・r1r2 |
= | (r1r2m1.-r1r2m2.)2 ―――――――――― n・r1r2 |
| = | (m1.-m2.)2r1r2 ―――――――― r1+r2 |
=md2・ | r1r2 ――― r1+r2 |
| VA= | SA ―― φA |
| SR=ST-SA | =Σy1j2+Σy2j2- | TT2 ―― n |
-Σ | Ti.2 ――― ri |
- | TT2 ―― n |
| =Σy1j2- | T1.2 ―― r1 |
+Σy2j2- | T2.2 ――― r2 |
| VR= | SR ―― φR |
= | SS ―――― r1+r2-2 |
=V |
| FA= | VA ―― VR |
= | md2・(r1r2) ―――――― V(r1+r2) |
| = | md2 ――――――― (1/r1+1/r2)V |
=to2 |
ただし、2標本t検定が本来は一方の群の平均値が他方よりも大きいか、または小さいかだけを検定する手法であるのに対して、一元配置分散分析は平均値が異なっているかどうかを検定する手法です。 そして2標本t検定を両側検定として用いた時だけ、一元配置分散分析と一致します。 (→1.5 統計的仮説検定の考え方)
また2標本t検定では平均値とt値しか求めませんが、分散分析では平方和や寄与率なども求め、よりきめの細かい分析が可能です。 このため、対応のない2標本を両側検定として利用する場合は、本当は分散分析を適用するべきです。 3.3節表3.7のデータに一元配置分散分析を適用すると、次のように確かに2標本t検定の結果と一致します。 (→3.3 2標本の計量値)
| 要因 | 平方和SS | 自由度φ | 平均平方和Ms(分散V) | 分散比F |
|---|---|---|---|---|
| 群 | 500 | 1 | 500 | 6.757 |
| 残差 | 1332 | 18 | 74 | |
| 全体 | 1832 | 19 | ||
また2標本t検定と同様、分散分析でも各群の分散が等しいことを前提としています。 そのため等分散性の検定として「バートレット(Bartlett)の手法」というものがあります。 各群ごとの分散をVi、自由度をφi=ri-1としますと、
| M=ln(10)・[(Σφi)log{ | Σ(φiVi) ――――― Σφi |
}-Σφilog(Vi)] |
| C=1+ | Σ(1/φi)-1/Σφi ――――――――― 3(a-1) |
| χo2= | M ― C |
しかし2標本t検定と同様、不分散性を補正したとしてもごくわずかですから、実際は全て等分散として扱っています。