玄関雑学の部屋雑学コーナー統計学入門

(2) 名義尺度(分類データ)

1) 2分類の場合

データが名義尺度の時は四則演算が行えないだけでなくデータに順位を付けることさえできません。 そこでデータの度数(例数)を用いて色々な統計計算を行い、平均値や順位平均の代わりに出現率を要約値として利用します。

例として第1節の表3.1.1のデータを名義尺度に変換してみましょう。 ここでも170mg/dLをTCの正常値と考えて、これを基準値μ0にします。 そしてTCの値が170より大きいものを異常、170以下のものを正常と判定して、その例数を数えると次表のようになります。

表3.2.3 TCの判定
(TC>170)
TCの判定正常異常
例数01010

もし母集団のデータが基準値170を中心にしてその上下で同じように分布していれば正常と異常の出現率は等しくなり、それはどちらも50%になるはずです。 そのため基準になるTC異常出現確率をπ0で表し、母集団におけるTC異常出現率をπで表すと、帰無仮説を次のように表すことができます。

H0:π = π0 = 0.5

1回の試行で2種類の事象のどちらかが起き、しかもその事象が起きる確率が常に一定である試行のことをベルヌーイ試行(Bernoulli trial)と呼びます。 そしてベルヌーイ試行をn回行った時、一方の事象が起きる頻度xは図3.2.4のような二項分布(binomial distribution)と呼ばれる分布をします。

母集団のTC異常出現率がπの時、母集団からn例を無作為抽出してTC異常出現例がxあるということは、異常という事象が起きる確率がπであるベルヌーイ試行をn回行い、異常がx回起きたことに相当します。 そのためTC異常出現例数xは図3.2.4のような二項分布をします。 そこでこの分布を利用して、母集団のTC異常出現率πが基準になる理論確率π0と等しいかどうかを検定することができます。 その手法を二項検定(binomial test)といいます。 この検定はt値のような検定統計量を用いずに有意確率p値を直接計算することができます。

図3.2.7 二項分布 B(x;10,0.5)

二項検定はこの例のように基準の理論確率π0を0.5にする時が最も多いため、これを特に符号検定(sign test)と呼びます。 母中央値が基準値と等しい時、基準値の上下のデータの割合は等しくなりTC異常出現率は0.5になります。 そのため符号検定では帰無仮説を次のように表すことができます。

H0:母中央値と基準値は等しい。

ただし帰無仮説をこのように表すことができるのは符号検定だけであり、一般的な二項検定ではこのように表すことはできません。 つまり二項検定はあくまでも出現率に関する検定であり、中央値に関する検定ではないということです。

この検定の対立仮説を設定するには、「TC異常出現率がこの範囲内ならTCが基準値よりも異常に高いまたは低いわけではない」という出現率に関する医学的な許容範囲を決める必要があります。 出現率の最低値は0(0%)で最大値は1(100%)ですから、例えば医学的な許容範囲をπ0±0.1とすると対立仮説を次のように表すことがてきます。

H1:π = π0±0.1 (π = 0.4 または π = 0.6)

表3.2.3のデータについて有意水準5%として計算すると次のようになります。 (注1)

TC異常の理論度数:x* = 10×0.5 = 5   TC異常の実現度数:x = 10  出現率 = 1(100%)
検定:p = 0.0020 < 0.05 … 有意水準5%で有意
πの95%信頼区間:下限 = 0.6915(度数にすると7) 上限 = 1(度数にすると10)

図3.2.7のように二項分布は平均nπ、分散nπ(1-π)の正規分布で近似することができます。 そこでウィルコクソンの1標本検定と同様に、検定統計量z値を利用して正規検定推定を行うことができます。 そしてその場合も理論確率π0=0.5の時は特にマクネマー(McNemar)の検定と呼ばれており、符号検定を正規近似したものになります。 表3.2.3のデータについて有意水準5%として計算すると次のようになります。 (注2)

|zo| = 2.846(p = 0.0044) > t(∞,0.05) = 1.96 … 有意水準5%で有意
πの95%信頼区間 = 1±0.05 → 下限 = 0.95(度数にすると10) 上限 = 1.05 → 1(度数にすると10)

この手法によるp値と二項検定のp値を比べると誤差は0.01(1%)以下であり、かなり正確な近似であることがわかります。 ただし信頼区間の下限は少し違いがあります。 これは実際の出現率が1(100%)であり、信頼区間が分布の端にあるため近似が悪いからです。 一般に二項検定の正規近似は理論確率が0.5に近いほど正確になります。

二項検定は計算が複雑なので、近似的な簡便法として上記のような正規近似手法が開発されました。 しかしコンピュータを手軽に利用できる現在では、二項検定も簡単に計算することができます。

ただし二項検定は検出力を求めるのが難しいので有意性検定には向いているものの、統計的仮説検定には向いていません。 統計的仮説検定に向いていないということは、事前に試験の必要例数を求めるのが難しいということです。 したがって事前に試験の必要例数を求めてから統計的仮説検定を行うという正当な手順で検定を行いたい時は二項検定よりも正規近似法の方が適しています

この場合は、どちらの手法を用いても次のような統計的結論を採用することができます。

統計的結論:高脂血症患者のTCは170以上の異常値を示すことが多い。 その確率はほぼ100%であり、幅をもたせれば69〜100%の間である。

そしてこの異常値出現率は下限の69%でも医学的な正常範囲50±10%を超えているので、次のような医学的結論を採用することができます。

医学的結論:高脂血症患者のTCは170以上の異常値になる確率が高い。

また表3.2.3のデータについて、正常を-1、異常を+1の順位データと考えてウィルコクソンの1標本検定を適用することもできます。 その場合はマクネマーの検定と本質的に同じ手法になります。 (注3)

2) 多分類の場合

名義尺度のデータは分類数が3つ以上になることも有り得ます。 例えば脂質異常症患者40名について脂質異常症のタイプを調べたところ表3.2.4のようになっていたとします。

表3.2.4 脂質異常症のタイプ
タイプ高LDL-C血症低LDL-C血症高TG血症低G血症
例数16614440

もしタイプの標準的な割合がわかっていれば、この表のタイプの割合が標準的かどうかチェックできます。 でも話を単純にするために全てのタイプが同じ割合かどうかをチェックしたいとします。 すると母集団における各タイプの割合は全て4分の1つまり25%になるはずです。 そこで母集団における各タイプの出現率をπ1、π2、π3、π4で表すと、帰無仮説を次のように表すことができます。

H0:π1 = π2 = π3 = π4 = 0.25

この場合、表3.2.4の各タイプが観察される現象はベルヌーイ試行になり、それが4種類あることになります。 すると表3.2.4の各度数は二項分布を拡張した多項分布(multinomial distribution)と呼ばれる分布をします。 そして二項検定と同様に多項分布を利用して上記の帰無仮説を検定することができ、その手法を多項検定(multinomial test)といいます。 しかし多項検定は非常に複雑な手法なので、二項分布を正規分布で近似して近似検定を行うのと同じように近似検定を用いるのが普通です。 その近似手法が理論度数実現度数の食い違いを利用した出現率の検定です。

もし帰無仮説が正しいとすると各タイプは同じ例数になるので、表3.2.4は表3.2.5のようになるはずです。 これが理論度数です。 そして表3.2.4が実現度数であり、両者の食い違いが大きいほど帰無仮説が正しい確率が低くなります。

表3.2.5 脂質異常症タイプの理論度数
タイプ高LDL-C血症低LDL-C血症高TG血症低G血症
例数1010101040

理論度数と実現度数のくい違いは、計量値でいえば個々のデータと平均値との差つまり偏差に相当します。 そしてそのくい違いを平方して理論度数で割って1理論度数当りの平方くい違い量にし、さらにその値を各度数ごとに計算して合計したものをχ2(カイジジョウ)値といい、これは平方和に相当します。 このχ2値は理論度数と実現度数のくい違いが大きいほど、つまり各タイプの出現率がバラバラなほど大きな値になるのでt値のように検定統計量として利用することができます。 そこでχ2値を利用した検定のことを一般にχ2検定といい、出現率の検定もχ2検定の一種になります。

また表3.2.4の4つの度数のうち、自由に値を変えられる度数の個数を自由度といいます。 この場合はπ1234=1という束縛条件があるので自由度は3になります。 χ2検定はt検定と同様に実験結果のχ2値から有意確率p値を求めて有意水準と比べたり、p値が有意水準と等しくなる時のχ2値と実験結果のχ2値を比べるなどして検定します。 そして基準のt値が自由度によって値が異なるように、基準のχ2値も自由度によって値が異なります。

表3.2.4について有意水準5%として計算すると次のようになります。 (注4) なおχ2検定については第4節で詳しく説明します。 (→3.4 2標本の計数値 (2)名義尺度)

χo2 = 10.4(p = 0.0155) > χ2(3,0.05) = 7.815 … 有意水準5%で有意

出現率の検定は遺伝子分野で行われるハーディ・ワインベルグ平衡(HWE:Hardy-Weinberg equilibrium)の検証にも利用できます。 サイズが十分に大きく、自然選択や突然変異がなく、個体の出入りがない集団は世代が移り変わっても遺伝子頻度と遺伝子型頻度が一定になります。 この状態をハーディ・ワインベルグ平衡にあるといいます。 例えばある母集団から無作為抽出した60名について、対立遺伝子Aとaからなる遺伝子型を調べたところ表3.2.6のようになっていたとします。

表3.2.6 遺伝子型の例数
遺伝子型AAAaaa
例数(遺伝子数)30(60)20(40)10(20)60(120)

母集団における遺伝子Aの頻度つまり母出現率をπとし、遺伝子aの母出現率を(1-π)とすると、相同染色体上の父親由来遺伝子と母親由来遺伝子がお互いに独立でハーディ・ワインベルグ平衡にある時、各遺伝子型の理論的出現率は次のようになります。

AAの理論的出現率:π2  Aaの理論的出現率:2π(1-π)  aaの理論的出現率:(1-π)2

これは2枚の硬貨を同時に投げて表と表、表と裏、裏と裏になる確率と同じ原理で求められます。 つまり硬貨の表が出る確率を0.5とすると裏が出る確率も0.5になり、表と表になる確率は0.5×0.5=0.25、表と裏になる確率は2×0.5×0.5=0.5、裏と裏になる確率は0.5×0.5=0.25になります。 そして2種類の対立遺伝子を2枚の硬貨とすると、3種類の遺伝型は2枚の硬貨を同時に投げた結果が表と表=AA、表と裏=Aa、裏と裏=aaになることに対応します。 この関係に基づいて表3.2.6を対立遺伝子のクロス集計表にすると次のようになります。

表3.2.7 対立遺伝子のクロス集計表
父親由来遺伝子\母親由来遺伝子Aa
AnAA=30(60個)nAa=10(20個)nA=40(80個)
anaA=10(20個)naa=10(20個)na=20(40個)
nA=40(80個)na=20(40個)nt=60(120個)

表3.2.7のnAaとnaAは遺伝子型がAaの20名を10名ずつ割り振っています。 そして括弧に入れた数字は、対になった対立遺伝子を2つの遺伝子と数えた時の遺伝子数です。 2枚の硬貨を同時に投げた時、「硬貨を投げる」という行為は1回ですが、硬貨が表になるか裏になるかという結果は2回と数えます。 そして硬貨に関する確率を計算する時は、投げた硬貨の枚数つまり投げた回数の2倍の数を基にして計算します。 それと同様に遺伝子に関する確率を計算する時は人数を2倍した遺伝子数を基にして計算します。

表3.2.7のデータからπと(1-π)、そしてAAとAaとaaの理論的出現率を次のように推定できます。

πの推定値:
(1-π)の推定値:
AAの理論的出現率推定値:
Aaの理論的出現率推定値:
aaの理論的出現率推定値:

これらの推定値を用いて表3.2.6の理論度数を計算すると次のようになります。 そして表3.2.6の遺伝子数について、有意水準5%として出現率の検定を行うと次のようになります。 (注4)

表3.2.8 遺伝子型の理論度数
遺伝子型AAAaaa
理論例数(理論遺伝子数)26.67(53.34)26.67(53.34)6.66(13.32)60(120)
χo2 = 7.5(p = 0.0062) > χ2(1,0.05) = 3.841 … 有意水準5%で有意

また表3.2.7は父親由来遺伝子と母親由来遺伝子の関係を表すクロス集計表と捉えることもできます。 すると第4節で説明するクラメール(H. Cramer)の連関係数(coefficient of contingency)を求めて、連関係数の検定を行うことができます。 表3.2.7の遺伝子数について有意水準5%として計算すると次のようになります。 (→3.4 2標本の計数値 (2)名義尺度)

クラメールの連関係数:V=0.25 寄与率:r2=V2=0.0625
χo2 = 7.5(p = 0.0062) > χ2(1,0.05) = 3.841 … 有意水準5%で有意
連関係数の95%信頼区間:下限=0.071 上限=0.429
※連関係数が0ではなくて0.071〜0.429程度と考えられるので、父親由来遺伝子と母親由来遺伝子の間には弱い関連性がある→HWEに達していない

上記のように出現率の検定と連関係数の検定は同じ結果になります。 表3.2.7は表3.2.6のAaの例数をnAaとnaAに半分ずつ分配した表ですから、これは当然です。 そしてこのことから出現率の検定を利用したハーディ・ワインベルグ平衡の検証は、父親由来遺伝子と母親由来遺伝子が独立であるかどうかを連関係数を指標として検討していると解釈できることがわかります。


(注1) 表3.2.3のデータを一般化すると次のようになります。

表3.2.9 二項データ
データの有無
例数xyn

母集団における「有」の出現率をπとすると、無作為抽出したn個のデータが独立なら、上表のような結果を得る確率pxと度数xの確率密度関数f(x)確率分布関数F(x)は次のようになります。


  

これは二項式を展開した次のような式において、a=π、b=1-πと置いたものに対応しています。 そのためf(x)は二項分布と呼ばれ、B(x;n,π)と書かれます。

(a + b)n = nC0a0bn + … + nCxaxby + … + nCnanb0

π=0.5の時、f(x)は次のように簡単になり、図3.2.7のような左右対称の分布になります。 (→付録1 各種の確率分布)

二項分布を利用して検定を行う場合、出現率に関する科学的な許容範囲をδとすると帰無仮説と対立仮説は次のようになります。

H0:π = π0
H1:π = π0±δ (π = π0 - δ または π = π0 + δ)

二項検定は本来は片側検定用ですから、上記の対立仮説を検定するためには両側検定を行う必要があります。 そこで有意水準をαとすると、2種類の対立仮説に対応して分布の両側に棄却域を設定し、それぞれ確率をα/2ずつ割り振ります。 そして次のような条件を満足する度数xL、xUまでを棄却域にします。

  

この時、二項分布は離散分布で、しかも左右対称とは限らないので棄却域の面積つまり合計確率がαにほぼ一致するとは限りません。 例えば下側棄却域の合計確率は0に近いのに対して、上側棄却域の合計確率はほぼα/2であるということが起こり得ます。 そんな時は、下側棄却域の確率と上側棄却域の確率の合計がほぼαになるまで片方の棄却域を広げても良いという考え方があります。

しかし両側検定は有意水準α/2の片側検定を分布の両側で1回ずつ行う検定ですから、この考え方は間違いです。 そのため有意確率p値を利用した二項検定は、次のように片側検定の有意確率を2倍するという方法で行います。 このことは第4節で説明するフィッシャーの正確検定と同じであり、詳しい説明は第1章第6節の(注3)を参照してください。 (→1.6 統計的仮説検定の考え方 (注3)3.4 2標本の計数値 (注2))

実験結果の度数xが分布の下側(x < nπ0)の時:→ p = 2 pL (2 pL > 1 なら p = 1にする)
実験結果の度数xが分布の上側(x > nπ0)の時:→ p = 2 pU (2 pU > 1 なら p = 1にする)
p < αの時、有意水準100α%で有意
※片側検定の時はpLまたはpUをそのままpにして検定する。

表3.2.3のデータついて実際に計算してみましょう。

x = 10 > 10×0.5 = 5 より分布の上側:
p = 2×0.000977 ≒ 0.0020 < 0.05 → 標本度数10が上側棄却域に入っている=有意水準5%で有意
図3.2.7 二項分布 B(x;10,0.5) 図3.2.8 直接計算と近似計算の両側p値

推定は二項分布とベータ分布(β distribution)F分布(F distribution)の関係を利用して行います。 二項分布は離散分布なので信頼区間を正確に求められません。 そこで二項分布を実数にまで拡張したベータ分布を利用します。 ベータ分布は二項分布の階乗関数を実数に拡張してガンマ関数にし、変数を度数から出現率にした分布であり、度数xとyを固定した時の出現率πの分布に相当します。 さらにベータ分布は寄与率の分布でもあるので、寄与率と分散比の変換式を利用してF分布で表すことができます。 (→第5章 相関分析と回帰分析 (注4)付録1 各種の確率分布)

○二項分布とベータ分布とF分布の関係

 (0 ≦ t ≦ 1、m1,m2 > 0)
m1 = r+1:F(r)が累積する度数の個数  m2 = n-r:F(r)が累積しない度数の個数
φ1 = 2m1 φ2 = 2m2
:寄与率
:分散比F → 寄与率t(出現率π)の変換式
:寄与率t(出現率π) → 分散比Fの変換式
V1 = VA:自由度φ1のχ2分布に従う値(要因Aの分散)
V2 = VR:自由度φ2のχ2分布に従う値(残差分散)   RA2:要因Aの寄与率
f(r):変数r(度数)、全例数nの二項分布の確率密度関数  F(r):f(r)の確率分布関数
f(t;m1,m2):変数t(π)、第1自由度m1、第2自由度m2のベータ分布の確率密度関数
f(F;φ12):変数F、第1自由度φ1、第2自由度φ2のF分布の確率密度関数
F(F;φ12):f(F;φ12)の確率分布関数
○πの100(1-α)%信頼区間
・上限
二項分布の下側確率:φ1 = 2m1 = 2(x+1)、φ2 = 2m2 = 2yとして

※通常のF分布表には上側確率が(1-α/2)になる時の値がF(φ12,1-α/2)として記載されている。 そのため上記のF分布のφ1とφ2を入れ替え、分散比Fを逆数にした1/Fを信頼区間の計算に用いる。
 (度数=nπU)
F(φ12,1-α/2):第1自由度φ1=2y、第2自由度φ2=2(x+1)のF分布における100(1-α/2)%点
※度数は四捨五入によって整数化する
・下限
二項分布の上側確率:φ1 = 2m1 = 2x、φ2 = 2m2 = 2(y+1)として

※上記のF分布のφ1とφ2を入れ替え、分散比Fを逆数にした1/Fを信頼区間の計算に用いる。
 (度数 = nπL)
 F(φ12,α/2):第1自由度φ1 = 2(y+1)、第2自由度φ2 = 2xのF分布における100α/2%点
※度数は四捨五入によって整数化する

この信頼区間をクロッパー・ピアソン(Clopper-Pearson)の正確信頼区間といいます。 (注2)で説明するように二項分布は正規分布で近似でき、その近似正規分布を利用して信頼区間を求めることもできます。 しかしそうして求めた信頼区間よりも、上記のようにF分布を利用して求めた信頼区間の方が正確です。 そのため通常はクロッパー・ピアソンの正確信頼区間を用います。

表3.2.3のデータについて実際に計算してみましょう。

πの95%信頼区間
下限:φ1 = 2×1 = 2、φ2 = 2×10 = 20、F(2,20,0.025) = 4.46126 → (度数 = 7)
上限:φ1 = 0、φ2 = 2×11 = 22、F(0,22,0.975) = 0 → (度数 = 10)

表3.2.3は極端なデータなので、次のようなデータを用いて信頼区間をグラフにしてみましょう。

表3.2.10 二項データの例
データの有無
例数3710
図3.2.10 正規分布を利用した信頼区間 図3.2.11 ベータ分布を利用した信頼区間
○クロッパー・ピアソン法によるπの95%信頼区間
 下限:φ1 = 2×8 = 16、φ2 = 2×3 = 6、F(16,6,0.025) = 5.24386 → (度数 = 1)
 上限:φ1 = 2×7 = 14、φ2 = 2×4 = 8、F(14,8,0.975) = 0.304387 → (度数 = 7)
 ※この手法ではπの下限はベータ分布f(t;3,8)で求め、上限はベータ分布f(t;4,7)で求める。
 ※ベータ分布は二項分布の度数を固定した時の出現率の分布であり、下限と上限で度数を累積する方向が異なる
  そのため図3.2.11のように2種類のベータ分布を用いる。
○正規近似法(連続修正有)によるπの95%信頼区間:(注2)参照
 
 πL = 0.3 - 0.334026 = -0.0511395 (度数 = 0)  πU = 0.3 + 0.334026 = 0.651139 (度数 = 7)
 ※二項分布B(x;10,0.3)を正規分布で近似すると、平均値=3、分散=2.1の正規分布N(3,2.1)になる。
 ※その分布を利用して度数xの95%信頼区間を求めると図3.2.10のようになる。
  これは上式で求めた出現率の信頼区間を例数倍して度数にした時の信頼区間に相当する。
 ※この場合は二項分布が左右対称ではないので正規近似法による信頼区間の下限が負の値になってしまい、近似がやや悪い。

(注2) 表3.2.4の二項データを「1:有 0:無」とコード化したダミーデータdで表し、計量値扱いして平均値と分散を計算すると次のようになります。

標本平均:   母平均:
平方和:
不偏分散:   母分散:
∴E(x) = E(Σdi) = nE(di) = nπ   V(x) = V(Σdi) = nV(di) = nπ(1-π)

以上のように、xの母平均と母分散つまり二項分布B(x;n,π)の期待値と分散はnπとnπ(1-π)になります。 そしてこれらを用いてxを標準化すると次のようになります。



上式から出現率pは標本平均に相当し、その期待値はπ、分散はπ(1-π)/nになることがわかります。 これは計量尺度のデータにおいて、標本平均の分散がデータの母分散σをnで割った値つまり標準誤差の平方になることに相当します。 そしてこのことから中心極限定理によって出現率の分布は近似的に正規分布になる、つまり二項分布を正規分布で近似できることがわかります。 (→1.3 データの要約方法)

図3.2.9 連続修正の原理

二項分布を正規分布で近似して検定と推定を行う時は、順位和の分布を正規分布で近似して検定と推定を行う時と同様に連続修正を施す必要があります。 離散分布である二項分布をヒストグラムにすると、図3.2.9のように度数xの確率値を(x-0.5)〜(x+0.5)の幅の柱状グラフとして表します。 そして度数xの上側有意確率は度数xから度数nまでの確率値の合計すなわち図3.2.9の度数xから右側の柱状グラフの合計面積になります。

一方、二項分布の近似正規分布は点(x,xの確率値)の近く、つまり度数xの柱状グラフの中心近くを通ります。 そのためこの近似正規分布でx〜∞の確率値を積分した値は、二項分布の上側確率よりも少し小さな値になってしまいます。 そこで近似正規分布で(x-0.5)〜∞の確率値を積分すれば、二項分布の上側確率値により近似するはずです。 これが連続修正またはイェーツ(Yates)の補正の原理です。 (→3.2 1標本の計数値 (注2)3.4 2標本の計数値 (2)名義尺度 (注3))

連続修正は有意確率を正確に求めるための便宜的な方法、つまりxが棄却域に入っているかどうかを正確に判定するための便宜的な方法にすぎません。 そのため連続修正を施したことに応じてxが0.5だけ変化したり、出現率が0.5/nだけ変化するわけではないことに注意してください。 そして連続修正を施すとかえって有意確率が不正確になる時は連続修正を施す必要はありません。


ただし
x - nπ < 0 の時 sgn(x - nπ) = -1
x - nπ = 0 の時 sgn(x - nπ) = 0
x - nπ > 0 の時 sgn(x - nπ) = 1

π=π0=0.5とすると次のようになり、これがマクネマーの検定になります。

符号関数sgn(x)については(1)順序尺度の(注2)をご覧ください。 図3.2.7と図3.2.8を見ると、この近似はかなり正確なことと、p値がだいたい0.01くらいまでは連続修正を施した方が近似が良くなることがわかると思います。 そのためウィルコクソンの1標本検定と違って、通常はzoの値によらず全て連続修正を施します

推定は理論確率πが実際の出現率poと等しいと仮定し、その時の二項分布を正規近似して次のように行います。 その際、連続修正の原理に基づいて信頼区間を広げるように連続修正を施します。

πの100(1-α)%信頼区間:
下限: (度数=nπL)
上限: (度数=nπU)

信頼区間の下限が0以下になった時は0、上限が1以上になった時は1にし、度数は四捨五入によって整数化します。 この信頼区間はxの出現確率がpoの二項分布を正規近似して求めたものであるのに対して、検定ではxの出現確率が検定の基準値π0――例えば0.5――の二項分布を正規近似して行います。 これら2種類の近似正規分布は分散が異なる――nπ0(1-π0)とnpo(1-po)――ので、(1-α)の度数が含まれる信頼区間の幅が一致するとは限りません。 そのため検定では有意水準5%で有意にもかかわらず、推定では95%信頼区間にπ0が含まれるという矛盾した現象が起こり得ます。

そこで検定と推定の整合性を取るために、検定も推定もxの出現確率がπ0の二項分布を正規近似して行うという方法があります。 この方法では検定で有意水準5%で有意になれば推定では必ず95%信頼区間にπ0は含まれないという結果になり、両者の結果が矛盾しません。 ただしこの方法で求めた信頼区間は母出現率がπ0ではなく標本出現率poに近いと信頼区間の精度が低くなってしまいます。 そのため普通は上記の式で推定を行います。 このように一般に検定結果と推定結果は一致するとは限りません。 (→1.5 有意性検定の考え方 (注1))

表3.2.3のデータについて実際に計算してみましょう。

検定:(p = 0.0044) > t(∞,0.05) = 1.96
πの95%信頼区間:
πL = 1 - 0.05 = 0.95 (度数 = 10)  πU = 1 + 0.05 = 1.05 → 1 (度数 = 10)

ここで離散分布の検定と推定の関係についてもう少し突っ込んで考えてみましょう。 第1章第3節で説明したように、要約値が連続分布する時は95%信頼区間には95%の要約値が含まれます。 そして信頼区間外の領域が5%棄却域になり、そこには5%の要約値が含まれます。 ところが出現率のように要約値が離散分布する時は95%信頼区間に95%の要約値が含まれるとは限らず、5%棄却域に5%の要約値が含まれるとは限りません。 (→1.3 推定)

例えば図3.2.7の二項分布B(x;10,0.5)では、有意水準5%の時の下側棄却域は度数0と1で上側棄却域は度数9と10です。 そしてこの棄却域に含まれる標本度数の割合は0.01074+0.01074≒0.0215であり、全体の2.24%しかありません。 さらにこの棄却域外の度数2〜8が95%信頼区間に相当し、そこに含まれる標本度数の割合は1-0.0214=0.9785であり、全体の97.85%もあります。

図3.2.7 二項分布 B(x;10,0.5)

このことから要約値が離散分布する時は5%棄却域には5%以下の要約値が含まれ、95%信頼区間には95%以上の要約値が含まれることがわかります。 したがって額面上は有意水準5%の検定でも実際の要約値が棄却域に入る確率は5%以下であり、額面上は信頼係数95%の信頼区間でも実際の要約値が信頼区間に入る確率は95%以上である、つまり離散分布を用いた検定の実質的なαエラーは5%以下であり、信頼区間の実質的な信頼係数は95%以上になるわけです。

そもそも二項分布B(x;10,0.5)の両側棄却域は度数0と10(p=0.0020)、度数0〜1と9〜10(p=0.0215)、度数0〜2と8〜10(p=0.1094)、度数0〜3と7〜10(p=0.3438)、度数0〜4と6〜10(p=0.7539)の5種類だけです。 そのため実質的なαエラーも5種類だけであり、有意水準を0.01、0.05、0.1などと細かく分類して検定するのはほとんど無意味です。 何しろ例数が10例なので出現率や確率の有効数字は小数点以下1桁だけであり、小数点以下2桁目についてあれこれ検討するのは無意味なのがわかると思います。

また出現率の場合、検定は二項分布を利用するか、二項分布を正規分布で近似して行います。 これは母出現率がπ0である母集団から得られる標本出現率の理論分布を用いた検定です。 ところが信頼区間は実際の標本出現率poに基づいたベータ分布を利用して求めるか、poに基づいた二項分布を正規近似して求めます。 これらは標本集団のデータから求めた信頼区間なので、検定結果と推定結果が一致するとは限らないのは当然です。

例えば図3.2.7の二項分布B(x;10,0.5)の場合、5%棄却域に入っているのは度数0、1、9、10であり、度数2〜8は95%信頼区間に入っています。 それに対してそれぞれの度数が標本度数と仮定し、それから求めた標本出現率に基づいて95%信頼区間を求めると、クロッパー・ピアソン法による信頼区間は度数2〜8の時は母出現率π0=0.5を含み、度数0、1、9、10の時は0.5を含みません。 これは度数0、1、9、10は棄却域に入っていることを意味し、検定結果と矛盾しません。

しかし正規近似法による信頼区間は連続修正を施しても施さなくても度数0、1、2、8、9、10の時に母出現率0.5を含まず、度数2と8の時は検定結果と矛盾します。 これは母出現率0.5の時の信頼区間に標本度数2と8が入っているにもかかわらず、標本度数2と8の時の信頼区間には母出現率0.5が入っていない、つまり検定結果は有意ではないのに推定結果では有意になる現象であり、診断学でいう偽陽性に相当します。 これは度数2と8(出現率0.2と0.8)の時の正規近似法による信頼区間の幅が、母出現率0.5の時の二項分布による信頼区間の幅よりも狭いことが原因です。

この関係をクロス集計表で表すと次のようになります。

表3.2.11 検定結果と推定結果のクロス集計表(10例)
(母出現率=0.5・クロッパー・ピアソン法)
検定結果(母集団)\推定結果(標本集団)95%信頼区間5%棄却域
95%信頼区間0.9785←(e)00.9785←(a)
5%棄却域00.0215←(e)0.0215←(b)
0.9785←(c)0.0215←(d)1
(a)母出現率=0.5の時の二項分布の95%信頼区間(度数2〜8)に標本度数が入る確率=1-(b)
(b)母出現率=0.5の時の二項分布の5%棄却域(度数0・1・9・10)に標本度数が入る確率=実質的αエラー
(c)標本度数から求めた95%信頼区間(ベータt分布利用・標本度数によって異なる)に母出現率=0.5が入る確率
(d)標本度数から求めた5%棄却域(95%両側信頼区間外)に母出現率=0.5が入る確率=1-(c)
(e)検定結果と推定結果が一致する確率=0.9785+0.0215=1
表3.2.12 検定結果と推定結果のクロス集計表(10例)
(母出現率=0.5・正規近似法)
検定結果(母集団)\推定結果(標本集団)95%信頼区間5%棄却域
95%信頼区間0.89060.08790.9785
5%棄却域00.02150.0215
0.89060.10941
検定結果と推定結果が一致する確率=0.8906+0.0215=0.9121

上表のように、クロッパー・ピアソン法による推定結果は二項検定の結果と全て一致するので一致率は100%です。 それに対して正規近似法による推定結果は偽陽性の確率が0.0879あるので一致率は91.21%になり、精度が少し悪くなります。

また二項検定の実質的αエラーは0.0215しかなく、クロッパー・ピアソンの信頼区間の実質的な信頼係数つまり被覆確率(母数を含む信頼区間の割合)は0.9785もあります。 そのため一見すると二項検定は検出力が低く、クロッパー・ピアソンの信頼区間は精度が悪いように思えるかもしれません。 事実、クロッパー・ピアソン法と正規近似法の被覆確率を比較すると正規近似法の方が平均的に信頼係数に近い値なので、クロッパー・ピアソンの信頼区間の精度を疑問視した論文が発表されたことがあります。 (Agreti, A.and Coull, B.A;American Statistian, 52, p119-126, 1998 参照)

しかし二項検定の実質的αエラーが小さな値になるのは離散分布の棄却域の割合が額面よりも小さくなることを反映しているのであり、実は正確な値です。 またクロッパー・ピアソンの信頼区間の被覆確率が大きな値になるのは離散分布の信頼区間の割合が額面よりも大きくなることを反映しているのであり、けっして精度が悪いわけではありません。 そして表3.2.11と表3.2.12を比べると、出現率の信頼区間として正規近似法よりもクロッパー・ピアソン法の方が精度が良いことがわかると思います。

またコンピュータで疑似乱数を発生させて出現率の検定と推定のシミレーションを行い、その結果を報告した論文がたまにあります。 しかし母集団から無作為抽出したn例のデータについて全ての組み合わせを理論的に求め、全組み合わせ数に対する特定の組み合わせの割合(出現確率)を計算したものが二項分布です。 そのためわざわざ偶然に任せた不正確なシミュレーションをしなくても、二項分布を用いて正確な実質的αエラーや被覆確率を計算して表3.2.11や表3.2.12のようなクロス集計表を作成することができます。

離散分布は例数が増えれば連続分布に近づくので、実質的αエラーも被覆確率も額面の値に近づきます。 例えば例数が100例の時の二項検定の検定結果と推定結果のクロス集計表は次のようになります。

表3.2.13 検定結果と推定結果のクロス集計表(100例)
(母出現率=0.5・クロッパー・ピアソン法と連続修正有の正規近似法)
検定結果(母集団)\推定結果(標本集団)95%信頼区間5%棄却域
95%信頼区間0.964800.9648
5%棄却域00.03520.0352
0.96480.3521
検定結果と推定結果が一致する確率=0.9648+0.0352=1
表3.2.14 検定結果と推定結果のクロス集計表(100例)
(母出現率=0.5・連続修正無の正規近似法)
検定結果(母集団)\推定結果(標本集団)95%信頼区間5%棄却域
95%信頼区間0.94310.02170.9648
5%棄却域00.03520.0352
0.94310.05691
検定結果と推定結果が一致する確率=0.9431+0.0352=0.9783

上表のように、100例の時は二項検定の実質的αエラーが0.0352になり額面の0.05に近づきます。 そして正規分布による二項分布の近似も良くなるので、クロッパー・ピアソン法だけでなく連続修正を施した正規近似法による推定結果も検定結果と100%一致します。 さらに連続修正を施さない正規近似法による推定結果は偽陽性の確率が0.0217に減り、一致率が97.83%に上がります。

またクロッパー・ピアソン法と連続修正を施した正規近似法による信頼区間の被覆確率が0.9648であるのに対して、連続修正を施さない正規近似法による信頼区間の被覆確率は0.9431であり、見かけ上は額面の0.95により近い値です。 しかしこれは偽陽性の確率が0.0217あるのでたまたま0.95に近い値になったのであり、決して精度が良いわけではありません。 離散分布の信頼区間の割合は必ず0.95以上になるので、被覆確率が0.95未満の信頼区間はいくら額面の0.95に近くても精度が悪いと解釈する必要があります。

検定結果と推定結果の関係は例数だけでなく母出現率によっても変わります。 そこで例数が10例と100例の時について、母出現率を変化させた時の被覆確率と実質的αエラー、そして検定結果と推定結果の一致率の変化をグラフ化してみました。 グラフが不連続に変化しているのは、二項分布が離散分布であり、母出現率を連続的に変化させても被覆確率などが不連続に変化するからです。

図3.2.13 二項分布(10例)の被覆確率 図3.2.14 二項分布(10例)の実質的αエラー 図3.2.15 二項分布と区間推定の一致率(10例)
図3.2.16 二項分布(100例)の被覆確率 図3.2.17 二項分布(100例)の実質的αエラー 図3.2.18 二項分布と区間推定の一致率(100例)

これらのグラフの青い曲線は母集団から求めた二項分布の信頼区間の割合つまり実質的信頼係数と、棄却域の割合つまり実質的αエラーであり、同時にクロッパー・ピアソン法の被覆確率と実質的αエラーでもあります。 クロッパー・ピアソン法の信頼区間および棄却域は母集団から求めた二項分布の信頼区間および棄却域と常に一致するので、被覆確率と実質的αエラーは同じ曲線になります。 そのため図3.2.15と図3.2.18の二項検定と区間推定の一致率は全て1になり、一致率1のところに横に引いた青い直線になります。

青い曲線と大半が重なっている濃い灰色の曲線は母出現率を用いた正規近似法による被覆確率と実質的αエラー、そして一致率です。 この方法は母出現率から求めた二項分布を正規近似して行うので、二項検定との一致率は高くなります。

緑の曲線は連続修正を施した正規近似法による被覆確率と実質的αエラー、そして一致率です。 この方法は標本出現率から求めた二項分布を正規近似して行う方法なので、二項検定との一致率は低くなります。 ところが100例の時の被覆確率は平均的には0.95に近く、一見するとクロッパー・ピアソン法よりも精度が良いように思えてしまいます。 しかしそれは偽陽性があるのでたまたま0.95に近いだけであり、決して精度が良いわけではないのは前述のとおりです。

赤い曲線は連続修正を施さない正規近似法による被覆確率と実質的αエラー、そして一致率です。 この方法は連続修正を施さないので二項検定との一致率は最も低くなります。 母出現率を用いた正規近似法と標本出現率を用いた正規近似法を比較すると、母出現率を用いた方が信頼区間の精度が高いことがわかります。 ということは本当の母出現率が標本出現率に近い時は標本出現率を用いた正規近似法の方が精度が高いということです。

これらのグラフを見ると、クロッパー・ピアソン法による信頼区間および棄却域は母出現率の値によらず母集団から求めた二項分布の信頼区間および棄却域と一致するので、検定の帰無仮説が正しい時でも対立仮説が正しい時でも正確なことがわかります。 このことからクロッパー・ピアソン法による信頼区間が正確信頼区間と呼ばれるわけがわかり、二項検定に対応する区間推定法としてはこの方法を用いるのが合理的であることがわかると思います。 そして正規近似法としては標本出現率を用いて連続修正を施したものが精度が最も高いこともわかると思います。

ちなみに平均値の場合でも、母集団から求めた標本平均値の理論分布を用いて行った検定結果と、標本集団のデータから求めた標本平均値の理論分布を用いて行った検定結果は一致するとは限りません。 これは標本集団から求めた母分散の推定値である不偏分散に誤差があり、母分散を正確に推定できないことが原因です。 しかし平均値の場合は実際の検定も推定も標本集団のデータから求めた理論分布を用いて行うので、標本平均値が検定の棄却域に入れば信頼区間には入らず、検定結果と推定結果は必ず一致します。 (→付録2 中心極限定理のシミュレーション−平均値と中央値)

連続修正の原理を逆に離散分布に適用し、離散分布で上側確率を求める時は度数xの確率値を半分にして合計確率を求めるという方法があります。 その方法で求めた有意確率をmid-P valueといいます。 この値は連続修正を施さなくても近似正規分布の上側確率値と近似し、離散分布と連続分布の整合性が良くなります。

しかしmid-P valueでは非合理なことが起きます。 この考え方に従えば、棄却域を設定する時、棄却域の最後の度数の確率を半分にして確率を合計し、それがαを超えないところまでを棄却域にします。 例えば図3.2.12の二項分布B(x;4,0.5)において、右端の度数4の出現確率は0.0625です。 するとその確率の半分は0.03125ですから、片側有意水準(片側検定の有意水準)5%では棄却域は度数4だけになります。

図3.2.12 二項分布 B(x;4,0.5)

そして実際の出現度数が4だった時、その確率値を半分にするので0.0312<0.05になり、出現度数4は棄却域に入っていると判定されて有意水準5%で有意になります。 その結果、「母出現率=0.5」という帰無仮説を棄却して、帰無仮説を否定した対立仮設「母出現率>0.5」を採用します。

ところが出現度数4の出現確率そのものは6.25%あるので、帰無仮説が正しい時に出現度数が4になる確率は6.25%あります。 これは有意水準5%(αエラー5%)つまり「帰無仮説が正しいにもかかわらず帰無仮説を間違って棄却する危険性は5%未満」という建前と矛盾します。 そのため有意確率としてmid-P valueを用いるのはお勧めできません

ちなみに図3.2.12からわかるように、片側有意水準5%とすると二項分布B(x;4,0.5)には棄却域が存在しません。 棄却域が存在しないということは、どんな結果になっても決して有意にはならないということです。 これは、たった4例の試験では95%以上信頼できる結論は得られないということであり、常識から考えて当たり前のことです。 mid-P valueを用いるとたった4例の試験でも有意になり得る、つまり95%以上信頼できる結論が得られることになり、かなり非常識な考え方だということが実感できると思います。

(注3) 表3.2.9のデータを順序尺度と考えてみましょう。

表3.2.9 二項データ
データの有無
例数xyn

この場合、n例全てが同位の値であり、「有」となったx例を「+群」、「無」となったy例を「-群」として、ウィルコクソンの1標本検定を適用すると次のようになります。

平均順位:
        

n例全てが同じ順位のため順位和T+の種類は例数xだけで決まり、0からTnまで全部で(n+1)種類しかありません。 そしてその度数fはn例からx例を取り出す組み合せの数になり、順位の全組み合せ数は2nになります。 するとxの分布は、次のように理論確率0.5の二項分布になります。 したがって表3.2.9のデータに対するウィルコクソンの1標本検定の直接確率計算は符号検定と一致します。

頻度関数:
確率密度関数:

正規近似計算は次のようになり、やはり符号検定の正規近似検定であるマクネマーの検定に一致します。 ただし連続修正の施し方がウィルコクソンの1標本検定とマクネマーの検定で異なるため、連続修正を加えると多少異なった値になります。 しかしこれは本質的な違いではありません。



(注4) 表3.2.4のデータを一般化すると次のようになります。

表3.2.15 多項データ
分類A1AiAa
実現度数n1ninaN
出現率π1πiπa1

帰無仮説と対立仮説は次のようになります。

H0:Aiの出現率はπiである。(i=1,…,a)
H1:Aiの出現率はπ1ではない。(i:1,…,a のうちのどれか1つ以上)

この仮説のもとで、各種の値は次のようになります。

niの理論度数:
検定統計量:
自由度:φ = a - 1
検定:χo2 > χ2(φ,α)の時、有意水準100α%で有意

表3.2.4のデータについて実際に計算してみましょう。

自由度:φ = 4 - 1 = 3
検定:

表3.2.6のデータについても実際に計算してみましょう。

自由度:φ = 1 (3種類の分類の理論的出現率はπだけで決まるため)
検定:
クラメールの連関係数:  寄与率:r2 = V2 = 0.0625

一般的なχ2検定とクラメールの連関係数については第4節の(注3)(注6)を御覧ください。 (→3.4 2標本の計数値 (2)名義尺度)