データが計数値で標本の数が2つの場合には主にノンパラ手法が用いられます。 そしてデータが順序尺度の時と名義尺度の時とでは扱いが異なり、データに対応があるかないかでも手法が多少異なります。
データが順序尺度か順序分類尺度の時には順位を利用した手法を適用します。 順位を利用した手法にも対応のある統計手法と対応のない統計手法とがあります。
前節表3.5のデータを10きざみでグレード付けして、重症度に相当するような順序分類尺度としてみましょう。 計量値のままでも、1きざみにグレード付けしたものと考えれば同じように扱うことができますし、データが本物の重症度でも全く同様に扱うことができます。
| No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|
| 投与前 | 5 | 6 | 4 | 4 | 6 | 4 | 3 | 5 | 4 | 4 |
| 投与後 | 4 | 4 | 3 | 3 | 5 | 4 | 3 | 3 | 4 | 2 |
| 差(後−前) | -1 | -2 | -1 | -1 | -1 | 0 | 0 | -2 | 0 | -2 |
順序分類尺度の場合には要約値として中央値と最頻値が重要になります。 投与前の中央値と最頻値はどちらもグレード4で、分布の中心位置はそのあたりです。
投与後の中央値はグレード3とグレード4の間ですが、計量値と違ってグレードの平均3.5という分類は存在しません。 したがってどちらのグレードを中央値としてもかまいませんが、分布の中心位置はグレード3とグレード4の間であるととらえておくのが正確でしょう。 最頻値はやはりグレード3とグレード4で、どちらも4例ずつあります。 このことと図3.12から、投与後は度数分布がグレードの小さい方に半ランクほど移動したことがわかります。
この場合はデータに対応があるため、前後のグレードの差を求めることによって1標本に還元することができます。 検定の帰無仮説は前後のグレードの差の母中央値をδ'とすると、次のように表すことができます。
このデータにはウィルコクソンの1標本検定(ウィルコクソンの符号付き順位検定)を適用することができ、グレードの差の分布についてその中心位置が0かどうかを検討することができます。 計算手順は3.2節と同様で、有意水準5%とした時の結果は次のとおりです。 (注1)
| 差の絶対値 | 1 | 2 | 計 | 順位和 | 順位平均 |
|---|---|---|---|---|---|
| 正の例数 | 0 | 0 | 0 | 0 | 0 |
| 負の例数 | 4 | 3 | 7 | 28 | 4 |
| 順位 | 2.5 | 6 | - | 28 | 4 |
グレードの差の分布を見ますと、その中心位置は-1〜-2にあり投与後は1〜2ランクほどグレードが小さくなっているようです。 計量値の場合と同様に、このことが医学的にみてもGOTの低下としてとらえられ、自然変動も無視できる程度であれば、
この方法はよく用いられていますが、実は少々問題があります。 それは、順序尺度のデータは数字と数字の間隔が異なり、四則演算をすることができないため、本来はグレードの差を計算することはできないということです。
例えば、表3.10の差の絶対値が1の4例は、投与前のグレードが4から3に変化したものが2例、5から4に変化したものが1例、6から5に変化したものが1例の合計です。 ところがグレード3、4、5、6の間隔が同じとは限らないため、これらのグレードの差も全て同じ大きさとは限らず、本来は同じ順位で評価することはできないはずです。 これが、この方法の問題点です。
そこでこのような場合に、グレードの差を用いずに、投与前後のグレード分布の中央位置を比較する手法が開発されています。 それが「フリードマン(Friedman)の検定」という手法です。 表3.9のデータにフリードマンの検定を適用すると、次のようになります。
普通はグレードの差が近似的に計算できると考えて、ウィルコクソンの符号付き順位検定を多用します。 しかし理論的な厳密さが要求される時には、この手法を用いた方が良いでしょう。 また、この手法は時期の数が3つ以上でも適用することができます。 そのため第4章の第2節で詳しく説明しますので、そちらをご覧ください。 (→4.2 多標本の計数値)
次は前節表3.7のデータを10きざみでグレード付けして、やはり重症度に相当するような順序分類尺度にしてみましょう。 表3.7は表3.5と同じ数値ですから、グレード付けしたものは表3.9の投与後を正常人群に、投与前を慢性肝炎群にしたものになります。 そして対応のある場合と同様に計量値のままでも、あるいはデータが本物の重症度や改善度の時でも全く同様に扱うことができます。
| No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
|---|---|---|---|---|---|---|---|---|---|---|
| 正常群 | 4 | 4 | 3 | 3 | 5 | 4 | 3 | 3 | 4 | 2 |
| 慢性肝炎群 | 5 | 6 | 4 | 4 | 6 | 4 | 3 | 5 | 4 | 4 |
表3.9と同様、正常群の中央値はグレード3と4の中間で分布の中心位置はそのあたりにあり、慢性肝炎群の中央値はグレード4で分布の中心位置はそのあたりにあります。 このことから、正常群と比べると慢性肝炎群は度数分布がグレードの大きい方に半ランクほどズレていることがわかります。
この場合はデータに対応がないため1標本に還元することができません。 そこで2群を込みにしてグレードに順位を付け、その順位と例数から群別に順位和を求めます。
| グレード | 2 | 3 | 4 | 5 | 6 | 計 | 順位和 | 順位平均 |
|---|---|---|---|---|---|---|---|---|
| 正常群の例数 | 1 | 4 | 4 | 1 | 0 | 10 | 78 | 7.8 |
| 慢性肝炎群の例数 | 0 | 1 | 5 | 2 | 2 | 10 | 132 | 13.2 |
| 順位 | 1 | 4 | 11 | 17 | 19.5 | - | 210 | 10.5 |
順位付けにおける同位の値の扱いは3.2節と同じです。 もし両群のグレード分布の中心位置が同じならば、両群の順位和(例数が異なる時には順位平均)は等しくなり、中心位置にズレがあれば両群の順位和は異なるはずです。
このことを利用して両群のグレード分布の中心位置が等しいかどうかを検討する手法が、「ウィルコクソンの2標本検定」または「ウィルコクソンの順位和検定(rank sum test)」あるいは「マン・ホイットニィ(Mann-Whitney)のU検定」と呼ばれるもので、計量値における2標本t検定に相当します。 この検定の帰無仮説は、
この場合の順位和も近似的に正規分布をしますので、順位和の差と順位和の標準誤差を利用して検定統計量z値を求め、有意確率p値を計算することができます。 またp値を計算する代わりに、正規分布における100・α%点の値t(∞,α)と比べ、
有意水準5%として例題について計算しますと、次のようになります。
この結果についての考察点は2標本t検定と同様で、両群のグレード分布の中心位置が半ランクほどズレているということが医学的にみても意味があり、両群の背景因子もほとんど同じであったなら、
データに対応がある場合でも対応がない場合でも、順位を利用した検定で注意しなければならない点は、これらの検定はあくまでも順位分布の中心位置のズレを検出する手法であり、平均値のズレを検出するものではないという点です。 例えば、次のような2種類のデータがあったとします。
| 群 | 著効 | 有効 | 無効 | 悪化 | 著明悪化 | 計 |
|---|---|---|---|---|---|---|
| 薬剤1投与群 | 0 | 40 | 40 | 0 | 0 | 80 |
| 薬剤2投与群 | 40 | 0 | 0 | 40 | 0 | 80 |
| 計 | 40 | 40 | 40 | 40 | 0 | 160 |
| 群 | 著効 | 有効 | 無効 | 悪化 | 著明悪化 | 計 |
|---|---|---|---|---|---|---|
| 薬剤1投与群 | 0 | 40 | 40 | 0 | 0 | 80 |
| 薬剤2投与群 | 40 | 0 | 0 | 0 | 40 | 80 |
| 計 | 40 | 40 | 40 | 0 | 40 | 160 |
2つの表を見比べれば、たいていの人が、表3.13では薬剤1と薬剤2の効果は同じだが、表3.14では薬剤2の方が効果が悪いと判断するでしょう。 しかしこれらのデータにウィルコクソンの順位和検定を適用した結果は、どちらも全く同じです。 表3.14では悪化例がないため、著明悪化は無効の次の順位になり、順位分布の中心位置は薬剤1投与群も薬剤2投与群も同じになります。 このためウィルコクソンの順位和検定の結果は、表3.13と同じように「薬剤1と薬剤2の効果は全く同じである」ということになってしまうのです。
そもそも順位を利用した手法は、データの値そのものではなく順位を指標にすることによって、飛び離れた値を飛び離れない値として処理するために開発され手法ですから、これは当然のことです。 しかし悪化と著明悪化を全く同じに扱うというのは、医学的にはどう考えても不合理です。
このような場合は著効を1、有効を2、無効を3、悪化を4、著明悪化を5と数量化してt検定を適用する方が合理的です。 グレードを単純に1、2、…、5と数量化するのは何となく納得できないという場合は、例えば数量化理論などを使って合理的な数量化を行うことも可能です。 上の2種類のデータに単純な数量化法を適用すると、次のようになります。 この場合は、表3.13では2群の平均値は全く同じであり、表3.14では2群の平均値は少しズレているということになり、医学的に納得できる結果になります。
t検定はデータが正規分布しなければ適用できないと思われていますが、正規性のないデータに適用してもあまり誤差はありません。 しかも検定で必要な正規性は、誤差の正規性つまり群ごとの平均値に対する残差の正規性であり、データそのものの正規性ではありません。 また正規分布は数学的な理論分布であり、厳密に正規分布するデータは実際にはありません。 このためt検定は、実際にはデータの誤差が近似的に正規分布するという性質を利用した検定手法ということになります。 一方、ノンパラメトリック手法である順位和検定は、誤差が正規分布するという性質は利用しませんが、ここで説明したように、実は順位和が近似的に正規分布するという性質を利用しています。
このように、t検定に限らず順位和検定もχ2検定も含めてほとんどの検定は数学的に理想化されたモデルに基づいて計算していて、そのモデルを現実のデータに近似的に当てはめることができるという前提で利用しています。 不正確な現実データに理想的な数学モデルをあてはめるわけですから、どのような手法を用いようともしょせんは近似にすぎません。 どうせ近似なら、科学的に解釈しやすく目的に合った手法を用いるべきです。 安心してt検定をお使いください。 (→2.3 パラメトリック手法とノンパラメトリック手法)
データが名義尺度の時には度数を利用した手法を適用します。 度数を利用した手法にも、やはり対応のある手法と対応のない手法とがあります。
前節表3.5の慢性肝炎患者10例のGOTを、薬剤A投与前後で値が低下したものと上昇したものとに分類し、分類尺度にしてみましょう。
| GOT | 上昇 | 低下 | 計 |
|---|---|---|---|
| 例数 | 2 | 8 | 10 |
投与前後でGOTが変化しないとしたら、低下も上昇も同じ確率で起こり両者の例数はほぼ一致するはずです。 したがって投与前後でGOTが変化したかどうかを検討するには、理論確率π=0.5の二項検定すなわち符号検定を適用することができます。
有意水準5%、信頼係数95%としてこのデータについて実際に計算しますと、次のような結果になります。 (注3)
| 低下確率:p= | 8 ―― 10 |
=0.8(80%) |
この結果では信頼区間に基準値0.5を含んでおり、検定は有意になっていません。 1.4節で説明したように、「有意ではない」ということは「差がない」または「同等である」という意味ではなく「結論を保留する」という意味ですので、とりあえず次のような統計的結論を採用して医学的結論は保留します。
これはあくまでも結論保留であり、「慢性肝炎患者のGOTは薬剤Aの投与後変化しない」という意味ではありませんので、低下確率80%という値が医学的にみて意味があり、高い確率と考えられるのならば、もう少しデータ数を増やして再検討する価値があると判断したほうが賢明です。
例えば低下確率80%のまま例数を15例に増やすと、
| GOT | 上昇 | 低下 | 計 |
|---|---|---|---|
| 例数 | 3 | 12 | 15 |
| 低下確率:p= | 12 ―― 15 |
=0.8(80%) |
医学的に考察しなければならない値である低下確率は、どちらも同じ80%なのですが、全体の例数が5例増えただけで検定結果が有意になります。 何度も説明してきましたように、検定とはデータの信頼性を表すだけで実質的な意味はほとんどないということが、この例からもよくわかると思います。
このように、統計的な有意性というものは医学的結論を導くための前提または必要条件であり、十分条件ではありません。 十分条件は結果が医学的な規準を満足しているかどうかであり、それを検討しない限り、医学研究の本来の目的である医学的結論を導くことはできません。
表3.15のように、前後で低下したものと上昇したものに分類する時、前後で値が変化しないものつまり不変例があると、その扱いに困ることになります。 そのような場合は次のような処理が考えられます。
単純な方法であり、普通はこの方法を用います。 ただしこの方法は、不変例が多い時には次のような問題があります。
不変例をランダムに低下例または上昇例に分類すれば、両者はほぼ同数になるはずです。 このため低下例と上昇例の差には影響を与えず、例数だけが増えることになります。 その結果、検定効率が上がり、データの内容をある程度正確に反映します。 ただし、この方法は恣意的になりやすいため、説得力に欠けるきらいがあります。
例えば「不変例の割合が50%より大きい時は不変と結論する」という基準にしておき、不変の例数と、低下または上昇の例数を数えます。 そしてその例数に符号検定を適用すれば、不変例が50%より大きいかどうかを検定することができます。
ただし、この場合は不変例の割合が50%かどうかの検定ではなく、50%より大きいかどうかの検定ですから、両側検定ではなく片側検定になります。 また基準値を50%ではなく例えば80%にすると、符号検定ではなく、理論確率を0.8にした二項検定を適用しなければなりません。 検定結果が有意ではなく、不変ではないということになれば、あらためて(a)か(b)の方法で低下か上昇かを検定します。
この方法では、基準値を科学的かつ客観的に決める必要があります。 それは実際にはかなり難しいことですが、それさえできればこの方法が実質科学的に最も合理的です。
以上のような方法以外に、上昇を1、不変を0、低下を-1と数量化して、その平均値が0かどうかを1標本t検定で検定するという方法も考えられます。 これは勝ち・引き分け・負けの勝ち点を決めて、勝ち点合計を指標にするサッカーのWカップ方式のようなものです。 それに対して、引き分けを除外して勝ち負けの出現率を符号検定する方法は、引き分けを除外して勝率を指標にするプロ野球のペナントレース方式に相当します。 引き分けが多い時は、ペナントレース方式よりもWカップ方式の方がどう考えても合理的です。
表3.15はもともと計量値を計数化したデータですから、この方法よりも元のデータをそのまま計量値として扱う方が合理的です。 しかし最初から「勝ち」、「引き分け」、「負け」という3分類のデータで、引き分けの例数が多い場合は、このような方法も一考に値すると思います。
次に表3.7の正常人と慢性肝炎患者のGOTを、40未満を「正常」、40以上を「異常」と分類して対応のない分類データにしてみましょう。
| GOT | 正常 | 異常 | 計 |
|---|---|---|---|
| 正常群 | 5 | 5 | 10 |
| 慢性肝炎群 | 1 | 9 | 10 |
| 計 | 6 | 14 | 20 |
このように2群のデータを2種類に分類したものを、「2×2分割表」または「4分表」と呼びます。 縦と横の分類は群や正常・異常だけではなくどんな分類法でもかまわず、統計学ではよく利用される表です。 この場合、両群合わせた正常率と異常率は、
| 正常率:1-p= | 6 ―― 20 |
=0.3 |
| 異常率:p= | 14 ―― 20 |
=0.7 |
| GOT | 正常 | 異常 | 計 |
|---|---|---|---|
| 正常群 | 3 | 7 | 10 |
| 慢性肝炎群 | 3 | 7 | 10 |
| 計 | 6 | 14 | 20 |
この理論度数と実際の例数つまり実現度数とのくい違いを利用すれば、両群の母集団における正常例・異常例の発生率が等しいかどうかを検定することができます。 その手法を「フィッシャーの直接確率計算法による検定(Fisher's exact test)」といい、二項検定と同じように、t値のような検定統計量を用いずに有意確率p値を直接計算することができます。
正常人群と慢性肝炎群のGOT異常率をそれぞれπN、πHとしますと、この場合の帰無仮説は、
| 正常群の異常率:p= | 5 ―― 10 |
=0.5 (50%) |
| 慢性肝炎群の異常率:p= | 9 ―― 10 |
=0.9 (90%) |
実現度数と理論度数のくい違いは、計量値でいえば個々のデータと平均との偏差に相当します。 そこでそのくい違いを平方し、理論度数で割って1理論度数当りのくい違い量とした値はちょうど分散のようなものに相当し、それによって実現度数と理論度数のくい違いの大きさを要約することができます。 その値を各度数ごとに計算して合計したものを「χ2(カイジジョウ)値」といい、この値はくい違いが大きくなるほど大きな値になり、くい違いがなければ0になります。
したがってこのχ2値は、有意確率p値すなわち「実現度数と理論度数のくい違いはない」という帰無仮説が正しい確率と反比例的な関係があることになり、t値と同じように検定統計量として利用することができます。 このχ2値を用いてフィッシャーの直接確率計算法と同じような検定を行う手法を「2×2のχ2検定」といい、フィッシャーの直接確率計算法を正規近似した手法に相当します。
分割表における縦と横の合計度数のことを「周辺度数」といい、周辺度数を変化させないで、自由に値を変えられる度数の個数を「自由度」といいます。 例えば表3.17では10、10、6、14が周辺度数であり、5、5、1、9の度数のうちどれか1つを変化させますと、周辺度数を変えないためには他の3つの値を変えなければなりません。 つまり1つの度数は自由に値を変えられますが、他の3つの値は自動的に決まってしまいます。 したがって2×2分割表における度数の自由度は1になります。
t検定と同様にχ2検定でも、実験結果のχ2値からp値を求めて有意水準と比べる代わりに、p値がちょうど有意水準と等しくなる時のχ2値と実験結果のχ2値を比べることができます。 その基準のχ2値は度数の自由度によって違い、当然、自由度が増えるほど大きな値になります。 自由度がφの時の基準のχ2値のことを「自由度φのχ2分布における100・α%点」といい、「χ2(φ,α)」と書きます。 この値は統計の教科書などに載っていて、
2×2のχ2検定に用いられるのは自由度が1の時のもので、実験結果から求められたχ2値をχo2と書きますと、
また2×2のχ2検定と同じような原理を利用しているものの、直接確率計算法に対する近似法が若干異なったものに「マンテル・ヘンツェル(Mantel-Haenszel)の検定」と呼ばれる手法があります。 この手法は2×2のχ2検定よりわずかに小さいχ2値が得られ、χ2検定よりも一般性があるので生命表解析など色々な場面で利用されます。 これは2×2分割表のデータを順位が2つだけの順序分類尺度と考えて、ウィルコクソンの2標本検定を適用したものと本質的に同一の手法です。 有意水準5%として例題について計算すると次のようになります。 (注6) (→4.4 4.2 多標本の計数値 (2) 名義尺度 (注3))
フィッシャーの直接確率計算法は非常に面倒な計算をしなければならないものの、正確な値が得られます。 他の2つの手法は計算は簡単ですがあくまでも近似計算法ですので、コンピュータが利用できれば直接確率計算法を用いるべきでしょう。
例題についての結果は有意ではありませんが、これも表3.15の結果と同じく、例数さえ多ければ同じ内容でも有意になります。 したがって両群の異常率の違い40%について医学的に考察し、それが医学的に意味のあるものであればとりあえず次のような統計的結論だけを採用し、医学的結論は保留して再検討する余地を残します。 このデータについても、両群の異常率は変えずにもう10例ほどデータを増やすと結果は有意になります。
正常群と慢性肝炎群の異常率の違いを比較するということについて別の見方をしますと、GOTの正常・異常の分類が群の違いによって影響を受けない、つまり群とGOTの正常・異常はお互いに独立であるという意味にも解釈できます。 そこでこのχ2検定やマンテル・ヘンツェルの検定を「独立性の検定」または「関連性の検定」と呼ぶことがあります。 (→5.3 計数値の相関 (注2))
ちなみに、群とGOTの正常・異常の分類の関連性を表す値として「オッズ比(見込み比、odds ratio)」または「交差積比(cross-product)」と呼ばれる値があります。 この値は2×2分割表の対角線上のデータをかけてそれを比にした値であり、表3.17について計算すると次のようになります。
| OR= | 9×5 ――― 5×1 |
=9 |
オッズ比は群とGOTの正常・異常の分類の間に関連性が全くない時は1になり、関連性がある時は1未満の値または1よりも大きな値になります。 この性質を利用して、マンテル・ヘンツェルの検定と同じような関連性の検定を行うことができます。 有意水準5%として例題について計算すると次のようになります。 (注7)
横の分類数が2つ以上の時にもフィッシャーの直接確率計算法による検定と同じような原理を利用した同じような手法が適用でき、2群における分類パターンの違いを検討することができます。 この場合、直接確率計算法は非常に計算が複雑になるため、一般にはχ2検定が用いられます。 群が2つで分類数がnの時のχ2検定を「2×nのχ2検定」と呼び、さらに一般化して群がmで分類数がnの時のχ2検定を「m×nのχ2検定」と呼びます。
どれも原理は2×2の時と同じで、実現度数と理論度数のくい違いを平方し、それを理論度数で割った値を合計して検定統計量χo2値とします。 m×n分割表における度数の自由度は(m-1)×(n-1)になりますので、検定は、
有意水準5%として、次のような2×3分割表のデータに2×3のχ2検定を適用してみましょう。 (注8)
| 疾患 | 高血圧 | 心臓病 | 高脂血症 | 計 |
|---|---|---|---|---|
| 薬剤A投与群 | 12 | 10 | 8 | 30 |
| 薬剤B投与群 | 8 | 10 | 12 | 30 |
| 計 | 20 | 20 | 20 | 60 |
しつこいようですが、「有意ではない」ということは「データの信頼性が低いから結論を保留する」という意味であって、「差がない」もしくは「同等である」などという意味では決してありません。 したがって、検定結果が統計的に有意ではないからといって同等性を証明したことにはならず、あくまでも実験結果を実質科学的に考察し、両群の差が実質科学的には無視できる程度で両群がほぼ同等と考えられる時、初めて同等性を証明したことになります。
上例の場合も、両群の疾患分布パターンに違いがあるかどうかは高血圧と高脂血症における4例の食い違い、つまり発生率にすれば13%の差について医学的に考察することが重要です。 もし、この程度の食い違いならば医学的には無視してもかまわないとすれば、
| Tn= | 7×8 ――― 2 |
=28 T+=0 T-=28 |
| p=2× | 1 ― 27 |
=0.0156 |
| E(T+)= | 28 ―― 2 |
=14 |
| K=1- | (43-4)+(33-3) ――――――― 2×7×8×15 |
=0.95 |
| V(T+)=0.95× | 7×8×15 ――――― 24 |
=33.25 |
| zo= | 0-14+0.5 ――――― √(33.25) |
≒-2.341 (p=0.0192) |
| zo= | 0-14 ――――― √(33.25) |
≒-2.428 |
| E(Tm)= | m(m+n+1) ――――― 2 |
| V(Tm)=m・V(i)+ | m(m-1) ―――― 2 |
・2C(i,i')= | mn(m+n+1) ――――― 12 |
| K=1- | Σ(g3-g) ―――――――――― (m+n-1)(m+n)(m+n+1) |
| V(Tm)=K・ | mn(m+n+1) ――――― 12 |
| x=Tm- | m(m+n+1) ――――― 2 |
とし、 |
| zo= | x-sgn(x)・0.5 ――――――― √{V(Tm)} |
連続修正の扱いはウィルコクソンの1標本検定と同じで、|zo|>2の時は修正を省き、
| zo= | x ――――― √{V(Tm)} |
この手法は最初にm=nの場合についてウィルコクソンが開発し、その後、マン(Mann)とホイットニィ(Whitney)がUという値を利用してm≠nの場合まで拡張したため、「マン・ホイットニィのU検定」とも呼ばれています。 U検定ではA群のm個のデータそれぞれが、B群のn個のデータのうちの何個より大きいかを考えます。 その個数をUmとしますと、これはA群のm個のデータとB群のn個のデータで総当たり戦を行った時のA群の勝ち数を表す値になり、次のようにして求めることができます。
| Si,j= | ┌1 …A群のデータxi>B群のデータxj(勝ち) |
| ├0.5 …A群のデータxi=B群のデータxj(引き分け) | |
| └0 …A群のデータxi<B群のデータxj(負け) |
| Um= | m Σ i |
n Σ j |
Si,j |
UmとTmの間には次のような関係があります。
| Um=Tm- | m(m+1) ―――― 2 |
| Tmの最小値= | m(m+1) ―――― 2 |
Tmの最大値= | m(m+2n+1) ――――― 2 |
| E(Um)=E(Tm)- | m(m+1) ―――― 2 |
= | mn ―― 2 |
| V(Um)=V(Tm)= | mn(m+n+1) ――――― 12 |
| x=Um- | mn ―― 2 |
=Tm- | m(m+1) ―――― 2 |
- | mn ―― 2 |
=Tm- | m(m+n+1) ――――― 2 |
とし、 |
| zo= | x-sgn(x)・0.5 ――――――― √{V(Um)} |
= | x-sgn(x)・0.5 ――――――― √{V(Tm)} |
ウィルコクソンの1標本検定と同じように、この手法でも順位和から同位のない時の有意確率p値を直接計算することができます。 考え方は全く同様ですが、TmよりもUmの方が扱いやすいためUmに関する漸化式で表します。
| 順位の全組み合せ数=(m+n)Cm= | (m+n)! ―――― m!n! |
| U=T- | m(m+1) ―――― 2 |
とし、 |
| f(U)= | f'(m,n,U) ――――― (m+n)Cm |
=f'(m,n,U)・ | m!n! ―――― (m+n)! |
| F'(m,n,U≧mn)=F'(m,n,mn)=(m+n)Cm= | (m+n)! ―――― m!n! |
| F'(m,n,U)=F'(n,m,U)= | U Σ i=0 |
f'(m,n,i) |
| F(U)= | F'(m,n,U) ――――― (m+n)Cm |
=F'(m,n,U)・ | m!n! ―――― (m+n)! |
| 片側確率 p=F(T- | N(N+1) ―――― 2 |
)=F(U) |
例題について実際に計算すると次のようになります。
| U=78- | 10×11 ―――― 2 |
=23 |
| (10+10)C10= | 20! ―――― 10!10! |
=184756 |
| p=2× | 3996 ―――― 184756 |
≒0.0433 |
| E(Tm)= | 10×21 ―――― 2 |
=105 |
| K=1- | (53-5)+(93-9)+(33-3)+(23-2) ―――――――――――――― 19×20×21 |
≒0.891 |
| V(Tm)=0.891× | 10×10×21 ―――――― 12 |
≒155.92 |
| zo= | 78-105+0.5 ―――――― √(155.92) |
≒-2.122 (p=0.0338) |
| zo= | 78-105 ―――――― √(155.92) |
≒-2.162 |
直接計算で求めたp値は同位がない時のものであり、例題のデータは同位が多いため本来はもう少し小さな値になります。 上の確率分布図より、p値が5%以下(|zo|値にして2以上)では連続修正を省いた方が近似は良くなることがわかると思います。
| p=2・pr=2×( | 10! ――― 8!2! |
+ | 10! ――― 9!1! |
+ | 10! ――― 10!0! |
)×0.510= | 56 ―― 512 |
| ≒0.1094 > 0.05 |
| p= | 12 ―― 15 |
= | 8 ―― 10 |
=0.8 |
| p=2・pr=2×( | 15! ――― 12!3! |
+ | 15! ――― 13!2! |
+ | 15! ――― 14!1! |
+ | 15! ――― 15!0! |
)×0.515 |
| = | 576 ――― 16384 |
≒0.0352 < 0.05 |
| 分類 | B1 | B2 | 計 |
|---|---|---|---|
| A1 | a | b | m |
| A2 | c | d | n |
| 計 | S | F | N |
| H0:π1=π2=π (≒p= | S ― N |
:両群共通確率) |
この帰無仮説のもとで上表のような結果を得る確率paは、S個とF個に分類されたN個のものから無作為にm個を取り出した時、それがa個とb個とに分類される確率になります。 帰無仮説だけ見ると、paはB1分類に関して理論確率をπ≒S/Nにした二項分布になるように思えます。 しかしこの場合はN個の有限母集団からm個の標本を非復元抽出法によって取り出すと考えられるため、理論確率πが定数扱いできず、二項分布とは別の「超幾何分布(hypergeometric distribution)」と呼ばれる分布になります。
| pa= | SCa・FCb ――――― NCm |
= | S! ――― a!c! |
・ | F! ――― b!d! |
・ | m!n! ――― N! |
| = | S!F!m!n! ―――――― a!b!c!d!N! |
… 超幾何分布 |
| pa= | S!F!m!n! ―――――― a!b!c!d!N! |
= | m! ――― a!b! |
・ | S! ―― c! |
・ | F! ―― d! |
・ | n! ―― N! |
| = | m! ――― a!b! |
・ | S(S-1)…(S-a+1)・F(F-1)…(F-b+1) ――――――――――――――――― N(N-1)…(N-n+1) |
| = | m! ――― a!b! |
・ | S(S-1)…(S-a+1) ―――――――― N(N-1)…(N-a+1) |
・ | F(F-1)…(F-b+1) ―――――――― (N-a)…(N-n+1) |
| pa≒ | m! ――― a!b! |
・πa・(1-π)b … 二項分布 |
非復元抽出法とは一度取り出した標本を元に戻さずに次の標本を取り出す抽出法のことで、この場合はm個の標本を取り出したため残りがn個になっているということです。 これに対して、一度取り出した標本を母集団に戻してから次の標本を取り出す方法を復元抽出法といいます。 復元抽出法の場合はm個の標本を取り出した後、それを元に戻してから次のm個を取り出しますので、残りの個数という概念はなくなります。 このため母集団の例数はN個のままであり、理論確率πは定数になりますのでpaは二項分布になります。
B1に分類される確率がA1群とA2群で等しいという帰無仮説のもとでaを変化させた時、つまり周辺度数を固定して表内度数を変化させた時、表の種類は(最小の周辺度数+1)個できます。 したがって最小の周辺度数をSとしますと、度数aの確率密度関数f(a)と確率分布関数F(a)は次のようになります。 (→付録1 各種の確率分布)
| f(a)= | S!F!m!n! ―――――― a!b!c!d!N! |
| F(a)= | a Σ i=0 |
f(i)= | a Σ i=0 |
S!F!m!n! ――――――――――――― i!(m-i)!(S-i)!(F-m+i)!N! |
これが超幾何分布の確率密度関数と確率分布関数であり、二項分布よりもわずかに幅の狭い分布になります。 この超幾何分布を利用して前述の帰無仮説を検定する手法が、フィッシャーの直接確率計算法による検定です。 二項検定と同様に、この検定も本来は片側検定用です。 つまり2群の出現率は等しいという帰無仮説に対して、一方の群の出現率の方が高い(または低い)という対立仮説を設定し、超幾何分布の片側だけに棄却域を設けて検定を行います。
しかし、実際には両側検定として利用するのが普通ですから、上記の2つの対立仮説を同時に設定し、分布の両側に棄却域を設けます。 そして、有意水準αの値を分布の両側にα/2ずつ割り振り、
| aL Σ i=0 |
f(i)≦ | α ―― 2 |
| α ―― 2 |
≧ | S Σ i=aU |
f(i) |
| a- | Sm ―― N |
= | aN-Sm ――― N |
= | a(a+b+c+d)-(a+c)(a+b) ――――――――――― N |
= | ad-bc ――― N |
| pL= | aL Σ i=0 |
f(i) |
| pU= | S Σ i=aU |
f(i) |
超幾何分布は、2群の例数が異なると左右非対称の分布になります。 このため分布の上側確率と下側確率の値が異なり、時には2pが1を超えてしまったりすることがあります。 このため、両側確率を単純に2pとして計算せず、分布の左右で別々に確率を積分し、それを合計した値にすべきだという議論があります。
しかし、両側検定は有意水準α/2の片側検定を分布の左右で1回ずつ行う検定であり、片側確率をα/2と比べる代わりに、片側確率を2倍してαと比べているだけです。 このため、片側確率を単純に2倍した2pを両側確率にしてしまってかまいませんし、2pが1を超えてしまった時は、単に両側確率を1にしてしまってかまいません。 分布の左右で別々に確率を累積し、それを合計した値を両側確率にする方法では、両側確率がα以下になっても、実験結果が棄却域に入っていないという矛盾が起こり得ます。 (→1.5 統計的仮説検定の考え方 (注3))
例題について実際に計算すると次のようになります。
| p=2×( | 6!14!10!10! ―――――― 5!5!1!9!20! |
+ | 6!14!10!10! ――――――― 6!4!0!10!20! |
) |
| =2×( | 3×8×7 ―――― 17×19 |
+ | 7 ――――― 4×17×19 |
)= | 91 ―― 646 |
≒0.1409>0.05 |
| a- | Sm ―― N |
= | aN-Sm ――― N |
= | a(a+b+c+d)-(a+c)(a+b) ――――――――――― N |
= | ad-bc ――― N |
| b- | Fm ―― N |
= | bN-Fm ――― N |
= | b(a+b+c+d)-(b+d)(a+b) ――――――――――― N |
= | bc-ad ――― N |
| c- | Sn ―― N |
= | cN-Sn ――― N |
= | c(a+b+c+d)-(a+c)(c+d) ――――――――――― N |
= | bc-ad ――― N |
| d- | Fn ―― N |
= | dN-Fn ――― N |
= | d(a+b+c+d)-(b+d)(c+d) ――――――――――― N |
= | ad-bc ――― N |
| χo2=( | |ad-bc| ―――― N |
-0.5)2・ | N ―― Sm |
+( | |bc-ad| ―――― N |
-0.5)2・ | N ―― Fm |
| +( | |bc-ad| ―――― N |
-0.5)2・ | N ―― Sn |
+( | |ad-bc| ―――― N |
-0.5)2・ | N ―― Fn |
| = | (|ad-bc|-0.5・N)2 ――――――――― N2 |
・N( | 1 ―― Sm |
+ | 1 ―― Fm |
+ | 1 ―― Sn |
+ | 1 ―― Fn |
) |
| = | (|ad-bc|-0.5・N)2N ―――――――――― SFmn |
このχ2値は近似的に自由度1のχ2分布をします。 自由度φのχ2分布は左右非対称な分布で、その確率密度関数f(χ2)は次のようになります。
| f(χ2)= | (χ2)φ/2-1 ――――――― 2φ/2Γ(φ/2) |
・exp(- | χ2 ―― 2 |
) |
χ2値は実現度数と理論度数のズレの大きさを表し、ズレが大きいほど大きな値になります。 このためズレがないということが帰無仮説になり、ズレがあるということが対立仮説になります。 そしてそれらの仮説は、2群の出現率が等しいという帰無仮説と、2群の出現率が異なっているという対立仮説と等価になります。
| H0:π1=π2=π (≒p= | S ― N |
:両群共通確率) |
これらの仮説を検定するχ2検定は、分布の片側だけに棄却域を設定する片側検定になります。 このため、統計の本などに載っている自由度φのχ2分布における100・α%点の値χ2(φ,α)は、
フィッシャーの直接確率計算法による検定は、一方の群の出現率が高い(または低い)という1つの対立仮説を、超幾何分布分布の片側だけに棄却域を設けて検定する、片側検定が本来です。 そして両側検定では、一方の群の出現率が高いという対立仮説と、一方の群の出現率が低いという対立仮説の2つを、超幾何分布分布の両側に棄却域を設けて同時に検定します。
それに対してχ2検定は、2群の出現率が異なっているという1つの対立仮説を、χ2分布の片側に棄却域を設けて検定する片側検定です。 2群の出現率が異なっているという対立仮説は、一方の群の出現率が高いという対立仮説と、一方の群の出現率が低いという対立仮説を合わせたものになるため、χ2検定は、結果としてフィッシャーの直接確率計算法による両側検定に対応することになります。
もしχ2検定を両側で行うと、χ2分布の両側に棄却域を設け、2群の出現率が異なっているという対立仮説と、2群の出現率が一致しすぎるという対立仮説を同時に検定することになります。 後者は現実にはほとんど有り得ない対立仮説ですから、原則としてχ2検定に両側検定はありません。
A1群とA2群において、B1の出現率つまりB1に分類される確率に注目し、その差を正規近似すると次のようになります。
| A1群における分類確率p1= | a ― m |
| A2群における分類確率p2= | c ― n |
| d=p1-p2= | a ― m |
- | c ― n |
| V(d)=V(p1)+V(p2)=( | 1 ― m |
+ | 1 ― n |
)・π(1-π)≒( | 1 ― m |
+ | 1 ― n |
)・ | S ― N |
・ | F ― N |
| = | SF ―― mnN |
| zo={( | a ― m |
- | c ― n |
)-sgn( | a ― m |
- | c ― n |
)( | 0.5 ―― m |
+ | 0.5 ―― n |
)}・√( | mnN ―― SF |
) |
100・(1-α)%信頼区間は、差の分散を群別に推定して次のようになります。
| V(d)=V(p1)+V(p2) |
| ≒ | 1 ― m |
・ | a ― m |
・ | b ― m |
+ | 1 ― n |
・ | c ― n |
・ | d ― n |
= | ab ―― m3 |
+ | cd ―― n3 |
| 下限:δL=( | a ― m |
- | c ― n |
) |
| -{t(∞,α)・( | ab ―― m3 |
+ | cd ―― n3 |
)+( | 0.5 ―― m |
+ | 0.5 ―― n |
)} |
| 上限:δU=( | a ― m |
- | c ― n |
) |
| +{t(∞,α)・( | ab ―― m3 |
+ | cd ―― n3 |
)+( | 0.5 ―― m |
+ | 0.5 ―― n |
)} |
zoを平方すると、次のように2×2のχ2検定におけるχo2値と一致します。
| zo2={| | a ― m |
- | c ― n |
|-( | 0.5 ―― m |
+ | 0.5 ―― n |
)}2・ | mnN ―― SF |
| ={|an-cm|-(0.5n+0.5m)}2・ | mnN ―― SF |
| ={|ad-bc|-0.5・N)2・ | N ―― SFmn |
=χo2 |
ただし分類確率の差の検定は、フィッシャーの直接確率計算法による検定に対応し、本来は一方の群の確率が大きい(または小さい)かどうかだけを検定する片側検定です。 それに対してχ2検定は、2群の分類確率に違いがあるかどうかを片側検定します。 しかし分類確率の差の検定を、2群の分類確率に違いがあるかどうかを検定する両側検定として用いると、フィッシャーの直接確率計算法による検定の両側検定に対応し、さらにχ2検定と一致します。
例題について実際に計算してみましょう。
| χo2=(|5×9-5×1|-0.5×20)2× | 20 ――――――― 6×14×10×10 |
≒2.143 |
| d= | 5 ―― 10 |
- | 1 ―― 10 |
=0.4 |
| V(d)=5× | 5 ―― 103 |
+1× | 9 ―― 103 |
=0.0034 |
| t(∞,0.05)・府V(d)}+( | 0.5 ―― 10 |
+ | 0.5 ―― 10 |
) |
| =1.96×(0.0034)+0.1≒0.46 |
| E(a)=mπ≒ | mS ―― N |
| V(a)=mπ(1-π)・ | N-m ―― N-1 |
≒m・ | S ― N |
・ | F ― N |
・ | n ―― N-1 |
= | SFmn ――――― N2・(N-1) |
| N-m ―― N-1 |
:有限修正 |
| χmo2= | {|a-E(a)|-0.5}2 ―――――――― V(a) |
= | {|a-Sm|-0.5}2 ――――――― N |
・ | N2・(N-1) ――――― SFmn |
| = | {|ad-bc|-0.5・N}2・(N-1) ――――――――――――― SFmn |
χmo2値を普通のχo2値と比較すると、
| χmo2= | {|ad-bc|-0.5・N}2・N ――――――――――― SFmn |
・ | N-1 ―― N |
=χo2 | ・ | N-1 ―― N |
同じデータにウィルコクソンの2標本検定をあてはめると、順位は2つだけで、
| 平均順位r1= | S+1 ―― 2 |
r2=S+ | F+1 ―― 2 |
TN= | N(N+1) ―――― 2 |
| SCa・FCb= | S! ――― a!c! |
・ | F! ――― b!d! |
| pa= | SCa・FCb ――――― NCm |
= | S!F!m!n! ―――――― a!b!c!d!N! |
| Tm=a・r1+b・r1=a( | S+1 ―― 2 |
)+b(S+ | F+1 ―― 2 |
) |
| E(Tm)= | m(N+1) ―――― 2 |
| Tm-E(Tm)=a( | S+1 ―― 2 |
)+b(S+ | F+1 ―― 2 |
)-m( | N+1 ―― 2 |
) |
| = | aS+2bS+bF-(a+b)(S+F) ――――――――――― 2 |
= | bS-aF ――― 2 |
= | bc-ad ――― 2 |
| K=1- | (S3-S)+(F3-F) ――――――― N3-N |
= | N3-N-S3+S-F3+F ―――――――― (N-1)N(N+1) |
| = | 3SF(S+F) ―――――― (N-1)N(N+1) |
= | 3SF ―――――― (N-1)(N+1) |
| V(Tm)=K・ | mn(N+1) ―――― 12 |
= | 3SF ―――――― (N-1)(N+1) |
・ | mn(N+1) ―――― 12 |
= | SFmn ―――― 4(N-1) |
| z= | {Tm-E(Tm)} ―――――― 府V(Tm)} |
= | bc-ad ――― 2 |
・府 | SFmn ―――― 4(N-1) |
} |
| =(ad-bc)・( | N-1 ――― SFmn |
) |
| z2= | (ad-bc)2(N-1) ――――――― SFmn |
=χm2 |
| z2= | (|Tm-E(Tm)|-0.5)2 ――――――――― V(Tm) |
=( | |bc-ad| ―――― 2 |
-0.5)2・ | SFmn ―――― 4(N-1) |
| = | (|ad-bc|-1)2(N-1) ――――――――― SFmn |
| χmo2= | (|5×9-5×1|-0.5×20)2×19 ―――――――――――――― 6×14×10×10 |
≒2.036 |
| Odds= | π ――― 1-π |
表3.20においてA1におけるB1またはB2のオッズをOA1とし、A2におけるB1またはB2のオッズをOA2とすると、これらの値とそのオッズ比ORは次のようになります。
| OA1= | a/m ―― b/m |
= | a ― b |
| OA2= | c/n ―― d/n |
= | c ― d |
| OR= | OA1 ―― OA2 |
= | a/b ―― c/d |
= | ad ―― bc |
このように、オッズ比は分類A1における分類B1とB2のオッズOA1と、分類A2における分類B1とB2のオッズOA2の比です。 このためA2のオッズに対して、A1のオッズが何倍あるかを表す値になります。 この値は分類Aと分類Bの関連性が全くない時は1になり、関連性があるほど1から離れます。 ただし相関係数のように上下限が決まっているわけではないので、関連性の程度を表す指標としては相関係数ほど便利ではありません。 しかしオッズ比は計算が簡単であり、データの集め方に対して不変性を持っているので、医学研究ではよく用いられます。 (→1.7 科学的研究の種類とデザイン)
データの集め方に対して不変性を持っているということは、どのようにしてデータを集めても値が変わらないということです。 例えば上記の計算はA1の例数mとA2の例数nを指定してデータを集め、それらのデータのB分類を調べてa、b、c、dを得た時の計算方法です。 それに対してB1の例数SとB2の例数Fを指定してデータを集め、それらのデータのA分類を調べてa、b、c、dを得た時の計算方法は次のようになり、どちらも同じ式になります。
| OB1= | a/S ―― c/S |
= | a ― c |
| OB2= | b/F ―― d/F |
= | b ―― d |
| OR= | OB1 ―― OB2 |
= | a/c ―― b/d |
= | ad ―― bc |
オッズ比を対数変換した対数オッズ比は近似的に正規分布をするので、この性質を利用して検定と推定を行うことができます。 検定は対数オッズ比が0かどうか、つまりオッズ比が1かどうかの検定であり、A分類とB分類の関連性の検定になります。
| V(ln(OR))≒ | 1 ― a |
+ | 1 ― b |
+ | 1 ― c |
+ | 1 ― d |
= | 1 ― w |
| χo2= | {ln(OR)}2 ――――― V(ln(OR)) |
=w・{ln(OR)}2 |
重みの計算式からわかるように、オッズ比の検定と推定はa、b、c、dの中に0のものがあると計算できません。 このためa、b、c、dの中に0のものがある時は、これらの値を次のように置きなおして計算します。 これを「ウールフ(Woolf)の修正」といいます。
表3.17の例題にオッズ比とその検定を適用してみましょう。
| OR= | 5×9 ――― 1×5 |
= | 9 |
| V(ln(OR))≒ | 1 ― 5 |
+ | 1 ― 5 |
+ | 1 ― 1 |
+ | 1 ― 9 |
≒1.511 |
| 検定:χo2= | 2.1972 ―――― 1.511 |
≒3.195(p=0.0739)<χ2(1,0.05)=3.841 |
| 分類 | B1 | … | Bj | … | Bn | 計 |
|---|---|---|---|---|---|---|
| A1 | x11 | … | x1j | … | x1n | X1 |
| A2 | x21 | … | x2j | … | x2n | X2 |
| 計 | Y1 | … | Yj | … | Yn | N |
帰無仮説は、
| Ai分類の出現率pAi= | Xi ―― N |
(i=1,2) |
| Bj分類の出現率pBj= | Yj ―― N |
(j=1,…,n) |
| xijの理論出現率pij=pAi・pBj= | Xi ―― N |
・ | Yj ―― N |
| xijの理論度数x~ij=N・pAi・pBj=N・ | Xi ―― N |
・ | Yj ―― N |
= | Xi・Yj ―――― N |
| χo2= | 2 Σ i=1 |
n Σ j=1 |
{ | (xij-x~ij)2 ―――――― x~ij |
}=N{ | 2 Σ i=1 |
( | 1 ―― Xi |
・ | n Σ j=1 |
xij2 ――― Yj |
)-1} |
| = | N2 ―――― X1・X2 |
・( | n Σ j=1 |
xij2 ――― Yj |
- | X12 ―― N |
) |
例題について実際に計算すると次のようになります。
| χo2= | 602 ―――― 30×30 |
×( | 122 ―― 20 |
+ | 102 ―― 20 |
+ | 82 ―― 20 |
- | 302 ―― 60 |
)=1.6 |