玄関雑学の部屋雑学コーナー統計学入門

(2) 名義尺度(分類データ)

データが名義尺度の時は四則演算が行えないだけでなくデータに順位を付けることさえできません。 そこでデータの度数(例数)を用いて色々な統計計算を行い、平均値や順位平均の代わりに出現率を要約値として利用します。

例として第1節の表3.1.1のデータを名義尺度に変換してみましょう。 ここでも170mg/dLをTCの正常値と考えて、これを基準値μ0にします。 そしてTCの値が170より大きいものを異常、170以下のものを正常と判定して、その例数を数えると次表のようになります。

表3.2.3 TCの判定(TC>170)
TCの判定正常異常
例数01010

もし母集団のデータが基準値170を中心にしてその上下で同じように分布していれば正常と異常の出現率は等しくなり、それはどちらも50%になるはずです。 そのため基準になるTC異常出現確率をπ0で表し、母集団におけるTC異常出現率をπで表すと、帰無仮説を次のように表すことができます。

H0:π=π0=0.5

母集団のTC異常出現率がπの時、母集団からn例を無作為抽出した時のTC異常出現例数xは図3.2.4のような二項分布(binomial distribution)と呼ばれる分布をします。 そこでこの分布を利用して、母集団のTC異常出現率πが基準になる理論確率π0と等しいかどうかを検定することができます。 その手法を二項検定(binomial test)といいます。 この検定はt値のような検定統計量を用いずに有意確率p値を直接計算することができます。

図3.2.7 二項分布 B(x|10,0.5)

二項検定はこの例のように基準の理論確率π0を0.5にする時が最も多いため、これを特に符号検定(sign test)と呼びます。 母中央値が基準値と等しい時、基準値の上下のデータの割合は等しくなりTC異常出現率は0.5になります。 そのため符号検定では帰無仮説を次のように表すことができます。

H0:母中央値と基準値は等しい。

ただし帰無仮説をこのように表すことができるのは符号検定だけであり、一般的な二項検定ではこのように表すことはできません。 つまり二項検定はあくまでも出現率に関する検定であり、中央値に関する検定ではないということです。

この検定の対立仮説を設定するには、「TC異常出現率がこの範囲内ならTCが基準値よりも異常に高いまたは低いわけではない」という出現率に関する医学的な許容範囲を決める必要があります。 出現率の最低値は0(0%)で最大値は1(100%)ですから、例えば医学的な許容範囲をπ0±0.1とすると対立仮説を次のように表すことがてきます。

H1:π=π0±0.1 (π=0.4 または π=0.6)

表3.2.3のデータについて有意水準5%として計算すると次のようになります。 (注1)

TC異常の理論度数:x*=10×0.5=5   TC異常の実現度数:x=10  出現率=1(100%)
検定:p=0.0020<0.05…有意水準5%で有意
πの95%信頼区間:下限=0.6915(度数にすると7) 上限=1(度数にすると10)

図3.2.7のように二項分布は平均nπ、分散nπ(1-π)の正規分布で近似することができます。 そこでウィルコクソンの1標本検定と同様に、検定統計量z値を利用して正規検定推定を行うことができます。 そしてその場合も理論確率π0=0.5の時は特にマクネマー(McNemar)の検定と呼ばれており、符号検定を正規近似したものになります。 表3.2.3のデータについて有意水準5%として計算すると次のようになります。 (注2)

|zo|=2.846(p=0.0044)>t(∞,0.05)=1.96 … 有意水準5%で有意
πの95%信頼区間=1±0.05 → 下限=0.95(度数にすると10) 上限=1.05→1(度数にすると10)

この手法によるp値と二項検定のp値を比べると誤差は0.01(1%)以下であり、かなり正確な近似であることがわかります。 ただし信頼区間の下限は少し違いがあります。 これは実際の出現率が1(100%)であり、信頼区間が分布の端にあるため近似が悪いからです。 一般に二項検定の正規近似は理論確率が0.5に近いほど正確になります。

二項検定は計算が複雑なので、近似的な簡便法として上記のような正規近似手法が開発されました。 しかしコンピュータを手軽に利用できる現在では、二項検定も簡単に計算することができます。 したがって表3.2.3のようなデータについては、できる限り正確な二項検定を用いるべきです。

この場合は、どちらの手法を用いても次のような統計的結論を採用することができます。

統計的結論:高脂血症患者のTCは170以上の異常値を示すことが多い。 その確率はほぼ100%であり、幅をもたせれば69〜100%の間である。

そしてこの異常値出現率は下限の69%でも医学的な正常範囲50±10%を超えているので、次のような医学的結論を採用することができます。

医学的結論:高脂血症患者のTCは170以上の異常値になる確率が高い。

また表3.2.3のデータについて、正常を-1、異常を+1の順位データと考えてウィルコクソンの1標本検定を適用することもできます。 その場合はマクネマーの検定と本質的に同じ手法になります。 (注3)


(注1) 表3.2.3のデータを一般化すると次のようになります。

表3.2.4 二項データ
データの有無
例数xyn

母集団における「有」の出現率をπとすると、無作為抽出したn個のデータが独立なら、上表のような結果を得る確率pxと度数xの確率密度関数f(x)確率分布関数F(x)は次のようになります。


  

これは二項式を展開した次のような式において、a=π、b=1-πと置いたものに対応しています。 そのためf(x)は二項分布と呼ばれ、B(x|n,π)と書かれます。

(a + b)n=nC0a0bn + … + nCxaxby + … + nCnanb0

π=0.5の時、f(x)は次のように簡単になり、図3.2.7のような左右対称の分布になります。 (→付録1 各種の確率分布)

二項分布を利用して検定を行う場合、出現率に関する科学的な許容範囲をδとすると帰無仮説と対立仮説は次のようになります。

H0:π=π0
H1:π=π0±δ (π=π0 - δ または π=π0 + δ)

二項検定は本来は片側検定用ですから、上記の対立仮説を検定するためには両側検定を行う必要があります。 そこで有意水準をαとすると、2種類の対立仮説に対応して分布の両側に棄却域を設定し、それぞれ確率をα/2ずつ割り振ります。 そして次のような条件を満足する度数xL、xUまでを棄却域にします。

  

この時、二項分布は離散分布で、しかも左右対称とは限らないため棄却域の面積つまり合計確率がα/2にピッタリ一致するとは限りません。 例えば下側棄却域の合計確率は0に近いのに対して、上側棄却域の合計確率はほぼα/2であるということが起こり得ます。 そんな時は、下側棄却域の確率と上側棄却域の確率の合計がαになるまで片方の棄却域を広げても良いという考え方があります。

しかし両側検定は有意水準α/2の片側検定を分布の両側で1回ずつ行う検定ですから、この考え方は間違いです。 そのため有意確率p値を利用した二項検定は、次のように片側検定の有意確率を2倍するという方法で行います。 このことは第4節で説明するフィッシャーの正確検定と同じであり、詳しい説明は第1章第6節の(注3)を参照してください。 (→1.6 統計的仮説検定の考え方 (注3)3.4 2標本の計数値 (注2))

実験結果の度数xが分布の下側(x<nπ0)の時:→ p=2 pL (2 pL>1 なら p=1にする)
実験結果の度数xが分布の上側(x>nπ0)の時:→ p=2 pU (2 pU>1 なら p=1にする)
p≦αの時、有意水準100α%で有意
※片側検定の時はpLまたはpUをそのままpにして検定する。

表3.2.3のデータついて実際に計算してみましょう。

x=10>10×0.5=5 より分布の上側:
p=2×0.000977≒0.0020<0.05
図3.2.7 二項分布 B(x|10,0.5) 図3.2.8 直接計算と近似計算の両側p値

推定は二項分布とF分布の関係を利用して次のように行います。 (→第5章 相関と回帰 (注4)付録1 各種の確率分布)

○二項分布とF分布の関係:出現率を寄与率と考え、出現率のオッズを分散比と考えると二項分布をF分布で表すことが可能

ただし F(F,φ12):変数F、第1自由度φ1、第2自由度φ2のF分布の確率分布関数
φ1=2(x+1), φ2=2y, :寄与率→分散比の変換式より

ただし φ1=2(y+1), φ2=2x,
○πの100(1-α)%信頼区間:分散比→寄与率の変換式より
下限: (度数=nπL)
ただし F(φ12,α/2):第1自由度φ1、第2自由度φ2のF分布における100α/2%点、φ1=2(y+1), φ2=2x
上限: (度数=nπU)
ただし φ1=2y, φ2=2(x+1)
※度数は四捨五入によって整数化する

表3.2.3のデータについて実際に計算してみましょう。

πの95%信頼区間
下限:φ1=2×1=2、φ2=2×10=20、F(2,20,0.025)=4.46126 → (度数=7)
上限:φ1=0、φ2=2×11=22、F(0,22,0.975)=0 → (度数=10)

(注2) 二項分布B(x|n,π)の期待値と分散は次のようになります。

E(x)=nπ  V(x)=nπ(1-π)

これらを用いてxを標準化すると次のようになります。

  

xを例数nで割ったp0は(注3)の表3.2.4における「有」の出現率であり、データを「0:無 1:有」というダミー変数で表した時の標本平均に相当します。 そして上式から出現率の期待値はπ、分散はπ(1-π)/nになることがわかります。 これは計量尺度のデータにおいて、標本平均の分散がデータの母分散σをnで割った値つまり標準誤差の平方になることに相当します。 そしてこのことから中心極限定理によって出現率の分布は近似的に正規分布になる、つまり二項分布を正規分布で近似できることがわかります。 (→1.3 データの要約方法)

図3.2.9 連続修正の原理

二項分布を正規分布で近似して検定と推定を行う時は、順位和の分布を正規分布で近似して検定と推定を行う時と同様に連続修正を施す必要があります。 離散分布である二項分布をヒストグラムにすると、図3.2.9のように度数xの確率値を(x-0.5)〜(x+0.5)の幅の柱状グラフとして表します。 そして度数xの上側有意確率は度数xから度数nまでの確率値の合計、すなわち図3.2.9の度数xから右側の柱状グラフの合計面積になります。

一方、二項分布の近似正規分布は点(x,xの確率値)の近く、つまり度数xの柱状グラフの中心近くを通ります。 そのためこの近似正規分布でx〜∞の確率値を積分した値は、二項分布の上側確率よりも少し小さな値になってしまいます。 そこで近似正規分布で(x-0.5)〜∞の確率値を積分すれば、二項分布の上側確率値により近似するはずです。 これが連続修正またはイェーツ(Yates)の補正の原理です。 (→3.2 1標本の計数値 (注2)3.4 2標本の計数値 (2)名義尺度 (注3))

連続修正は有意確率を正確に求めるため、つまりxが棄却域に入っているかどうかを正確に判定するための便宜的な方法にすぎません。 そのため連続修正を施したことに応じてxが0.5だけ変化したり、出現率が0.5/nだけ変化するわけではないことに注意してください。 そして連続修正を施すとかえって有意確率が不正確になる時は、連続修正を施す必要はありません。


ただし
x - nπ<0 の時 sgn(x-nπ)=-1
x - nπ=0 の時 sgn(x-nπ)=0
x - nπ>0 の時 sgn(x-nπ)=1

π=π0=0.5とすると次のようになり、これがマクネマーの検定になります。

符号関数sgn(x)については(1)順序尺度の(注2)をご覧ください。 図3.2.7と図3.2.8を見ると、この近似はかなり正確なことと、p値がだいたい0.01くらいまでは連続修正を施した方が近似が良くなることがわかると思います。 そのためウィルコクソンの1標本検定と違って、通常はzoの値によらず全て連続修正を施します

推定は理論確率πが実際の出現率p0と等しいと仮定し、その時の二項分布を正規近似して次のように行います。 その際、連続修正の原理に基づいて、信頼区間を広げるように連続修正を施します。

πの100(1-α)%信頼区間:
下限: (度数=nπL)
上限: (度数=nπU)

信頼区間の下限が0以下になった時は0、上限が1以上になった時は1にし、度数は四捨五入によって整数化します。 この信頼区間はxの出現確率がp0の二項分布を正規近似して求めたものであるのに対して、検定ではxの出現確率が検定の基準値π0――例えば0.5――の二項分布を正規近似して行います。 これら2種類の近似正規分布は分散が異なる――nπ0(1-π0)とnp0(1-p0)――ため、(1-α)の度数が含まれる範囲の幅が一致するとは限りません。 そのため検定では有意水準5%で有意にもかかわらず、推定では95%信頼区間にπ0が含まれるという矛盾した現象が起こり得ます。

そこで検定と推定の整合性を取るために、検定も推定もxの出現確率がπ0の二項分布を正規近似して行うという方法があります。 この方法では検定で有意水準5%で有意になれば、推定では必ず95%信頼区間にπ0は含まれないという結果になり、両者の結果が矛盾しません。 ただしこの方法で求めた信頼区間は幅が狭くなることが多く、実際には95%の確率で母出現率を含まない(母出現率を含む信頼区間を得る確率が95%未満になる)ということが起きます。 そのため普通は上記の式で推定を行います。 このように、一般に検定結果と推定結果は一致するとは限りません。 (→1.5 有意性検定の考え方 (注1))

表3.2.3のデータについて実際に計算してみましょう。

検定:(p=0.0044)>t(∞,0.05)=1.96
πの95%信頼区間:
πL=1 - 0.05=0.95(度数10)  πU=1 + 0.05=1.05 → 1(度数10)

連続修正の原理を逆に離散分布に適用し、離散分布で上側確率を求める時は度数xの確率値を半分にして合計確率を求めるという方法があります。 その方法で求めた有意確率をmid-P valueといいます。 この値は連続修正を施さなくても近似正規分布の上側確率値と近似し、離散分布と連続分布の整合性が良くなります。

しかしmid-P valueでは非合理なことが起きます。 この考え方に従えば、棄却域を設定する時、棄却域の最後の度数の確率を半分にして確率を合計し、それがα以下になるところまでを棄却域にします。 例えば図3.2.9のヒストグラムにおいて、右端の度数nの出現確率が0.1だとします。 するとその確率の半分は0.05ですから、片側有意水準5%では棄却域は度数nだけになります。

そして実際の度数xがnだった時、その確率値を半分にするため0.05になり、xは棄却域に入っていると判定され有意水準5%で有意になります。 ところが度数xつまり度数nの出現確率そのものは10%あるため、帰無仮説が正しい時に度数がnになる確率は10%あることになります。 これは有意水準5%つまり「帰無仮説を否定した結論が間違っている危険性は5%程度」という建前と矛盾します。 そのため有意確率としてmid-P valueを用いるのはお勧めできません

(注3) 表3.2.4のデータを順序尺度と考えてみましょう。

表3.2.4 二項データ
データの有無
例数xyn

この場合、n例全てが同位の値であり、「有」となったx例を「+群」、「無」となったy例を「-群」として、ウィルコクソンの1標本検定を適用すると次のようになります。

平均順位:
        

n例全てが同じ順位のため順位和T+の種類は例数xだけで決まり、0からTnまで全部で(n+1)種類しかありません。 そしてその度数fはn例からx例を取り出す組み合せの数になり、順位の全組み合せ数は2nになります。 するとxの分布は、次のように理論確率0.5の二項分布になります。 したがって表3.2.4のデータに対するウィルコクソンの1標本検定の直接確率計算は符号検定と一致します。

頻度関数:
確率密度関数:

正規近似計算は次のようになり、やはり符号検定の正規近似検定であるマクネマーの検定に一致します。 ただし連続修正の施し方がウィルコクソンの1標本検定とマクネマーの検定で異なるため、連続修正を加えると多少異なった値になります。 しかしこれは本質的な違いではありません。