玄関雑学の部屋雑学コーナー統計学入門

5.3 計数値の相関と回帰

データが計数値の場合、2つの項目間の関連性を要約するには主にノンパラメト リックな手法が用いられます。 それらの手法は原理的には計量値の相関分析や回帰分析と同様ですが、データとして順位や度数を用いるところが違っています。

(1) 順序尺度の相関

まずデータが順序尺度の場合から説明しましょう。 表5.1のデータについて、体長と尾長のそれぞれに順位を付けて順序尺度にしてみましょう。

表5.7 マウスの体長順位と尾長順位
No.体長体長順位(rx)尾長尾長順位(ry)
110.0078.047
28.0056.954
313.00107.586
49.0068.819
511.0088.338
614.00119.9610
76.0037.245
84.0014.261
912.00910.8411
107.0044.822
115.0025.683
平均9.0067.506

次に実測値の代りに順位rxとryを用いて、普通の相関係数を計算してみましょう。

rs= Srxry
――――――――
√(SrxrxSryry)
= Σ(rxi-mrx)(ryi-mry)
―――――――――――――――
√{Σ(rxi-mrx)2Σ(ryi-mry)2}
=0.818
寄与率:rs2= Srxry2
――――――
SrxrxSryry
=0.669(66.9%)

このようにして求めたrsを「スピアマンの順位相関係数(Spearman's rank correlation coefficient)」といいます。 計量値の代わりに順位を用いただけですから、この相関係数と寄与率が意味することは通常の相関係数と同じですし、値も第1節の結果とほとんど変わりません。 このデータには同位の値はありませんが、もし同位の値があれば今までと同じように平均順位を用いて計算します。 (→3.1 1標本の計数値)

また普通の相関係数と同様に順位相関係数の検定も行なうことができ、通常は普通の相関係数の検定と同じように次のように計算します。

帰無仮説H0:ρs(母順位相関係数)=0
順位相関係数の標準誤差:SErs=√( 1-rs2
―――
n-2
)=0.1918
検定統計量:to= rs
―――
SErs
|to|≧t(n-2,α)の時有意水準100・α%で有意
|to|=4.269(p=0.0021)>t(9,0.05)=2.262…有意水準5%で有意

しかしウィルコクソンの2標本検定との関連を考えますと、次のように計算したほうが合理的だと思います。 (注1)

検定統計量:zo=rs√(n-1)
|zo|≧t(∞,α)の時有意水準100・α%で有意
|zo|=2.587(p=0.0097)>t(∞,0.05)=1.96…有意水準5%で有意

データが重症度のような順序分類尺度の場合にも、同位の値が多くはなるでしょうが全く同様に順位相関係数を計算することができます。 しかしこんな時には、例えば重症度を、

症状なし:0  軽症:1  中等症:2  重症:3

というデータにし、これをそのまま計量値として扱ってしまって普通の平均値や相関係数を求めても一向に差し支えありませんし、そちらの方が結果の解釈が容易になります。 実際問題として順位やら何やらワケのわからないシロモノを使うよりも、多少不正確でもワケのわかりやすい手法を使う方が賢明です。

また、

「例え計量尺度のデータでも、正規分布しない時とかデータ数が少ない時とか直線性が低い時は、普通の相関係数ではなく順位相関係数を計算しないといかん!」

などと主張する人がいます。 しかし、これはデータに関する実質科学的(例えば医学的)な考察を無視した乱暴な主張ですから、こんな主張を鵜呑みにする必要はありません。

順位相関係数は2つのデータの順位の間の相関性を表すラフな指標であり、実測値の間の相関性を表す指標ではありません。 例えば図5.12のように2つのデータの間に対数的な関係があったとします。 このデータについて普通の相関係数と順位相関係数を計算しますと、それぞれ0.95と1になります。 これは「2つのデータの計量的な大小関係は完全には一致していないが、順序の大小関係は完全に一致している」ということを意味しています。

図5.12 対数的な散点図

実質科学的に見て、2つのデータの計量的な関係ではなく順序関係が重要であり、順序関係が一致しているかどうかを評価したいのでしたら、順位相関係数を指標にすべきです。 しかし2つのデータの計量的な関係が重要であり、「2つのデータの大小関係はだいたい一致しているが、値の大きい部分では一方のデータは頭打ちの傾向がある」ということに実質科学的な意味があるのでしたら、普通の相関係数を指標にすべきです。 そしてその頭打ちの傾向が例えば対数関係で表現できるかどうかを検討したいとしたら、一方のデータを対数変換してから相関係数を計算し、実測値を用いた時の相関係数と比べて値が大きくなるか小さくなるかを調べる、といった検討が必要になります、

このように普通の相関係数を用いるか順位相関係数を用いるかは、データの正規性やデータ数や直線性といった数学的な要因で決めるべきではなく、あくまでも実質科学的な要因で決めるべきです。 また順序尺度のデータはデータとデータの間隔が等しくなく、四則演算を行うことができないので原理的に回帰分析を適用することはできません。 しかし順序尺度のデータをそのまま計量尺度のデータとして扱ってしまってもかまわない時がけっこうありますので、そのような時は回帰分析を適用することができます。 (→2.2 パラメトリック手法とノンパラメトリック手法)

(2) 名義尺度の相関

次にデータが名義尺度の場合について説明しましょう。 表5.1のデータを8cm未満と8cm以上の2種類に分類し、名義尺度にしてみましょう。

表5.8 マウスの体長分類と尾長分類
体長分類\尾長分類8cm未満8cm以上
8cm未満404
8cm以上257
6511

名義尺度のデータでは一般に分類間に大小関係はないので、今までのような意味での相関関係はあり得ません。 しかし2つの分類の間に何らかの関連性があり、一方の分類が他方の分類に影響を与えるということは考えられます。 上の表でいいますと、体長と尾長の間に正の相関性があれば両者が同じ分類になるようなマウスが多くなり、左上と右下のカラムの例数が増えると思われます。 もう少し一般化していいますと、縦または横の分類ごとにながめた時、横または縦の分類パターン(表5.8では「4−0」と「2−5」)に違いがあることになります。

このような関連性を要約する値としては、3章4節第4章第2節(2)で述べたχ2値があります。 しかしχ2値は例数と自由度によって最大値が異なり、値を比較するのに不便です。 そこで総例数をNとし、縦と横の分類数のうち小さい方の値をsとして、

θ2=R2= χo2
――――
N(s-1)

と、総例数と自由度で割った値を用います。 この値を「クラメール(Cramer)の関連係数(coefficient of contingency)」と呼びますが、実はχ2検定における寄与率R2に他なりません。 (→3.4 2標本の計数値4.2 多標本の計数値 (2)名義尺度)

データが2×2分割表の時は自由度が1になりますので、次のようにχ2値を総例数Nで割るだけになります。

θ2=R2= χo2
―――
N
2

この値の平方根を特に「φ(ファイ)係数」または「4分点相関係数」と呼び、心理学の分野でよく用いられています。 また当然のことながら、χ2検定を利用して関連係数についての検定を行なうことができます。 しかし何度もしつこく述べてきたように、この検定に実質的な意味はほとんどありません。 また順序尺度のデータと違って名義尺度のデータは計量尺度のデータとして扱うことはできないので、回帰分析を適用することはできません。

表5.8のデータについて実際に計算すると次のようになります。 (注2)

θ22=0.476(47.6%)
θ=φ=0.690
χo2=2.753(p=0.0971)<χ2(1,0.05)=3.841…有意水準5%で有意ではない

以上のように検定結果は有意ではありませんが、関連係数が50%近くありますので、体長と尾長の分類間には関連があるかもしれないと考えておいた方が良いでしょう。

2×2分割表において2種類の分類間の関連性を表す指標としては、φ係数の他に第3章第4節で説明したオッズ比ORがあります。 この値は関連性が全くない時は1になり、関連性がある時は1未満または1よりも大きくなります。 ただしφ係数のように上下限が決まっているわけではないので、関連性の程度を表す指標としてはφ係数ほど便利ではありません。 またこの値は比に基づいているので、データの中に0のものがあると計算できなかったり、関連性を的確に表さなかったりすることがあります。 表5.8のデータについて実際に計算すると次のようになります。 (注3)

OR=19.8
χo2=3.179(p=0.0745)<χ2(1,0.05)=3.841…有意水準5%で有意ではない

(3) 名義尺度と計量尺度の相関

一方のデータが名義尺度で他方が計量尺度の場合にも、相関係数に相当する要約値を求めることができます。 表5.1のデータについて、体長だけを8cm未満と8cm以上に分類してみましょう。

表5.9 マウスの体長分類と尾長
No.体長体長分類(0:8cm未満,1:8cm以上)尾長
110.0018.04
28.0016.95
313.0017.58
49.0018.81
511.0018.33
614.0019.96
76.0007.24
84.0004.26
912.00110.84
107.0004.82
115.0005.68
平均9.000.647.50

このようなデータについては名義尺度のデータを0と1のダミー変数にし、計量尺度のデータはそのままで形式的に両者の相関係数と寄与率を計算します。 ただし相関係数の符号はダミー変数の決め方によって変わりますので、相関係数の絶対値を取り、それを「相関比η(correlation ratio、イータ)」と呼びます。 この値は名義尺度のデータの分類法と計量尺度のデータの間の関連性を要約する値で、分類ごとに計算した平均値が異なっているほど大きな値になります。

表5.9からも見当が付くと思いますが、これは第4章第1節で説明した一元配置分散分析における要因Aの寄与率とその平方根に他なりません。 したがって、この時の相関係数の検定は分散分析そのものになります。 (→4.1 多標本の計量値5.1 相関係数と回帰直線 (注4))

表5.9のデータについて実際に計算すると次のようになります。

r=η=0.781
r2=0.610(61.0%)
to=3.750(p=0.0046)>t(9,0.05)=2.262…有意水準5%で有意

(4) 名義尺度と計量尺度の回帰

一方のデータが名義尺度で他方が計量尺度の場合には、回帰直線を求めることができます。 第1節と同じように表5.9の体長を生後日数と読みかえると、この表は生後日数を8日未満と8日以上に分類した時の尾長の変化を表しているととらえることができます。 このデータに回帰分析を適用すると、説明変数である生後日数がダミー変数であり、目的変数である尾長が計量尺度の時の回帰直線を求めることになります。

表5.9のデータについて実際に計算すると次のようになります。

回帰直線 y(尾長)=5.5+3.14429x(生後日数のダミー変数)
r2=0.610(61.0%)
to=3.750(p=0.0046)>t(9,0.05)=2.262…有意水準5%で有意
図5.13 生後日数分類と尾長の回帰直線

この時、回帰直線の定数5.5は生後日数が8日未満の群における尾長の平均値になり、回帰係数3.14429は、生後日数が8日以上の群における尾長の平均値と8日未満の群における尾長の平均値の差になります。 つまりこの時の回帰分析は、対応のないt検定に相当します。 対応のないt検定は2群の平均値の差を検定する手法です。 これは見方を変えれば、群という要因によって目的の項目のデータが変動するかどうかを調べていると解釈することができます。 つまり群を説明変数にし、項目を目的変数にした回帰分析を行っていることに相当するわけです。

またこの時の回帰直線が2群の平均値を通ることから、回帰直線は説明変数がある特定の値の時の目的変数の平均値に相当する、つまり平均値を2次元に拡張したものであることがわかると思います。 (→5.1 相関係数と回帰直線 (注4))

これとは反対に説明変数である生後日数は計量尺度のままにして、目的変数である尾長を8cm未満と8cm以上に分類した時も回帰直線を求めることができます。 ただし目的変数は確率変数でなければならないので、0/1のダミー変数をそのまま用いるのでなく、ある説明変数の値における1の出現率を用います。 表5.1に体長を生後日数にし、尾長を2分類にして、見やすいように生後日数の小さい順に並べて直したものが表5.10です。

表5.10 マウスの生後日数と尾長分類
No.生後日数尾長8cm未満8cm以上8cm以上の出現率
84.004.261010
115.005.681010
76.007.241010
107.004.821010
28.006.951010
49.008.810111
110.008.040111
511.008.330111
912.0010.840111
313.007.581010
614.009.960111
平均9.007.500.5450.455-0.455

この表のままでも計算できますが、尾長8cm以上の出現率が0か1になってしまい、出現率が直線的に増加している様子がわかりづらいと思います。 そこで体長を5cm間隔でまとめてしまい、次のような表にします。

表5.11 マウスの生後日数分類と尾長分類
生後日数分類尾長8cm未満尾長8cm以上8cm以上の出現率
4-5(4.5)2020
6-10(8)3250.4
11-14(12.5)1340.75
全体65110.455

表5.11の場合、説明変数である生後日数分類の値をどのようにするかが問題です。 一番もっともらしいのは分類の中央の値にすることであり、表5.11の生後日数分類の括弧の中の値がそれです。 単純なものとしては単に1、2、3という値にする方法があります。 その場合は、一見、順序尺度または順序分類尺度と名義尺度の回帰分析のように思えます。 しかし順序尺度と計量尺度の本質的な違いは、数字と数字の間隔が等間隔で四則演算ができるかどうかです。 この場合は数字と数字の間隔が等間隔ですし、同位の値の処理もしません。 したがって順序尺度のデータではなく、あくまでも計量尺度のデータです。 そうでないと回帰直線を当てはめることができません。

目的変数は尾長8cm以上の出現率であり、生後日数4.5の時が0、8の時が0.4、12.5の時が0.75になります。 しかしこれら3つの出現率はそれを計算したデータ数が異なりますので、均等に扱わず、データ数が多い出現率ほど重要視して回帰直線を計算します。 そのような計算方法を「重み付き最小2乗法」といい、回帰直線を求める時に利用した最小2乗法の一種です。 表5.11のデータについて実際に計算すると次のようになります。

回帰直線 p(尾長8cm以上の出現率)=-0.355+0.0899x(生後日数分類の値)
r2=0.280(28.0%)
直線性(回帰係数)の検定:χβ2=3.084(p=0.0791)<χ2(1,0.05)=3.841…有意水準5%で有意ではない
異質性(ズレ)の検定:χLOF2=0.051(p=0.8208)<χ2(1,0.05)=3.841…有意水準5%で有意ではない
図5.14 生後日数と尾長8cm以上出現率の回帰直線

直線性つまり回帰係数の検定統計量にt値ではなくχ2値を用いているのは、目的変数が普通の計量値ではなく出現率であり、ノンパラメトリックな回帰分析になるからです。 この回帰係数の検定を「コックラン・アーミテージ(Cochran-Armitage)の傾向検定」といいます。 この手法では回帰係数の検定だけでなく、回帰直線からのズレの検定も行うことができます。 その検定が異質性(ズレ)の検定であり、この検定結果が有意の時は回帰直線からのズレがあることになります。 (注4)

ちなみに、表5.10のデータにコックラン・アーミテージの傾向検定を適用すると次のようになります。 この場合は説明変数を計量値のまま計算しているため、寄与率が大きくなっています。 コックラン・アーミテージの傾向検定は、表5.11のように説明変数が順序分類尺度で目的変数が名義尺度の時に適用することが多いため、説明変数は順序分類尺度のデータでないと適用できないと誤解している人がけっこういます。 しかしこの手法の説明変数は計量尺度が本来ですから、表5.10のようなデータをわざわざ表5.11のような表にする必要はありません。

回帰直線 p(尾長8cm以上の出現率)=-0.445+0.1x(生後日数)
r2=0.403(40.3%)
直線性(回帰係数)の検定:χo2=4.437(p=0.0352)>χ2(1,0.05)=3.841…有意水準5%で有意
異質性(ズレ)の検定:χo2=6.563(p=0.6825)<χ2(9,0.05)=16.919…有意水準5%で有意ではない

以上のことをまとめますと、データが計量値の場合に限らず、どんな場合でも関連性を要約する原理は同じであり、寄与率によって関連性の割合を表すことができるということがわかると思います。


(注1) スピアマンの順位相関係数の計算式を少し展開してみましょう。 例数をnとし、ペアになった順位の差をd=rx-ryとしますと、

Σrxi=Σryi=Σi= n(n+1)
――――
2
 (i=1,…,n)
Σrxi2=Σryi2=Σi2= n(n+1)(2n+1)
―――――――
6
di=rxi-ryi
Σdi2=Σ(rxi-ryi)2=Σrxi2-2Σrxiryi+Σryi2
   = n(n+1)(2n+1)
―――――――
6
-2Σrxiryi+ n(n+1)(2n+1)
―――――――
6
Σrxiryi= n(n+1)(2n+1)
―――――――
6
- Σdi2
―――
2

同位の値がg個ある時、2乗和は(g3-g)/12だけ小さくなりますから、次のような同意の補正を行います。

xについての同位の補正Kx=Σ(gx3-gx)  gx:xの同位の個数
yについての同位の補正Ky=Σ(gy3-gy)  gy:yの同位の個数
Σrxiryi= n(n+1)(2n+1)
―――――――
6
- Kx+Ky
―――
24
- Σdi2
―――
2
Srxry=Σ(rxi-mrx)(ryi-mry)=Σrxiryi- (Σrxi)(Σryi)
――――――――
n
   = n(n+1)(2n+1)
―――――――
6
- Kx+Ky
―――
24
- Σdi2
―――
2
- {n(n+1)/2}2
――――――
n
   = 1

12
{2n(n+1)(2n+1)- Kx+Ky
―――
2
-6Σdi2-3n(n-1)2}
   = 1
――
12
{n(n+1)(n-1)- Kx+Ky
―――
2
-6Σdi2}
Srxrx=Σ(rxi-mrx)2=Σrxi2- (Σrxi)2
―――――
n
   = n(n+1)(2n+1)
―――――――
6
- Kx
――
12
- {n(n+1)/2}2
――――――
n
   = 1
――
12
{n(n+1)(n-1)-Kx}
Sryry=Σ(ryi-mry)2=Σryi2- (Σryi)2
―――――
n
   = n(n+1)(2n+1)
―――――――
6
- Ky
――
12
- {n(n+1)/2}2
――――――
n
   = 1
――
12
{n(n+1)(n-1)-Ky}

ここで6Σdi2=D、n(n+1)(n-1)=n3-n=Aと書きますと、次のようになります。

rs= Srxry
――――――――
√(SrxrxSryry)
= A-(Kx+Ky)/2-D
―――――――――
√{(A-Kx)(A-Ky)}

表5.7のデータについて実際に計算してみましょう。

A=10×11×12=1320
Kx=Ky=0
D=6×(1+22+22+1+32+22+42+1)=240
rs= 1320-240
―――――
1320
≒0.818
rs2= (1320-240)2
――――――
13202
≒0.669(66.9%)
to= 0.818
――――――――
√{(1-0.669)/9}
≒4.296
|to|=4.269(p=0.0021)>t(9,0.05)=2.262
zo=0.818×√(10)≒2.587
|zo|=2.587(p=0.0097)>t(∞,0.05)=1.96

ウィルコクソンの2標本検定における順位データを、

A群:ry11,…,ry1i,…,ry1m  (i=1,…,m)
B群:ry21,…,ry2j,…,ry2n  (j=1,…,n)

とし、A群に属す時には「1」、B群に属す時には「0」という値をとるダミー変数rxを対応させます。

A群:ry=ry11,…,ry1i,…,ry1m  (i=1,…,m)
 rx=1,…,1,…,1 
B群:ry=ry21,…,ry2j,…,ry2n  (j=1,…,n)
 rx=0,…,0,…,0 

このデータについてスピアマンの順位相関係数を計算してみましょう。

A群の平均順位mrx1=n+ m+1
――
2
= 2n+m+1
――――
2
B群の平均順位mrx2= n+1
――
2
T1=Σryi
T2=Σryj
T=T1+T2= (m+n)(m+n+1)
―――――――
2
Kx=(m3-m)+(n3-n)
Ky=Σ(g3-g)
A=(m+n-1)(m+n)(m+n+1)
D=6{Σ(mrx1-ryi)2+Σ(mrx2-ryj)2}
 =6{Σmrx12+Σmrx22+Σrxi2+Σryj2-(2n+m+1)T1-(n+1)T2}
 =6{ (m+n)(m+n+1)(2m+2n+1)
―――――――――――
3
- Kx+Ky
―――
12
  -(2n+m+1)T1-(n+1)(T-T1)}
 =2(m+n)(m+n+1)(2m+2n+1) - Kx+Ky
―――
2
  -3(n+1)(m+n)(m+n+1)-6(m+n)T1
 =(m+n)(m+n+1)(4m+n-1) - Kx+Ky
―――
2
-6(m+n)T1
Srxry=(m+n-1)(m+n)(m+n+1)-(m+n)(m+n+1)(4m+n-1)+6(m+n)T1
   =6(m+n)T1-3m(m+n)(m+n+1)
Srxrx=(m+n-1)(m+n)(m+n+1)-(m3-m)-(n3-n)=3mn(m+n)
Sryry=(m+n-1)(m+n)(m+n+1)-Σ(g3-g)
   =(m+n-1)(m+n)(m+n+1){1- Σ(g3-g)
――――――――――
(m+n-1)(m+n)(m+n+1)
}
   =(m+n-1)(m+n)(m+n+1)・K
    (K:ウィルコクソンの2標本検定における同位の補正)
rs= 6(m+n)T1-3m(m+n)(m+n+1)
――――――――――――――――
√{3mn(m+n)2(m+n-1)(m+n+1)・K}
≒0.818
 = T1-m(m+n)(m+n+1)/2
――――――――――――――
√{K・mn(m+n-1)(m+n+1)/12}
rs・√(m+n-1)= T1-m(m+n)(m+n+1)/2
――――――――――
√{K・mn(m+n+1)/12}
=zo
rs2= zo2
―――
m+n-1
= χo2
―――
m+n-1

以上のように、この場合のスピアマンの順位相関係数はウィルコクソンの2標本検定において連続修正を加えない式、すなわち群数が2つの場合のクリスカル・ウォーリスのH検定と深い関連があり、スピアマンの順位相関係数を平方した寄与率と、H検定における要因Aの寄与率は一致することがわかります。 計量値においても相関係数と分散分析一元配置法との間にこれと同じような関係があったことを考えますと、順位相関係数の検定としては次のような式を用いる方が合理的だと思います。 (→3.4 2標本の計数値4.2 多標本の計数値 (1) 順序尺度)

検定統計量:zo=rs・√(m+n-1)
|zo|≧t(∞,α)の時有意水準100・α%で有意

(注2) 2×2分割表のデータを0と1のダミー変数にし、相関係数を計算してみましょう。

表5.10 2×2分割表
分類B1(0)B2(1)
A1(0)abm
A2(1)cdn
SFN
xi=0(A1) または 1(A2)
yi=0(B1) または 1(B2)
Sxx=Σxi2- (Σxi)2
――――
N
=n- n2
――
N
= n(N-n)
――――
N
= nm
――
N
Syy=Σyi2- (Σyi)2
――――
N
=F- F2
――
N
= F(N-F)
――――
N
= FS
――
N
Sxy=Σxiyi- (Σxi)(Σyi)
―――――――
N
=d- Fn
――
N
= Nd-Fn
―――
N
  = (a+b+c+d)d-(b+d)(c+d)
―――――――――――
N
= ad-bc
―――
N
r= Sxy
――――――
√(SxxSyy)
= (ad-bc)/N
―――――――――
√{(FS/N)(nm/N)}
= ad-bc
―――――
√(SFmn)
r2= (ad-bc)2
――――
SFmn
= (ad-bc)2N
―――――
SFmn
1

N
= χo2
―――
N
= χm2
―――
N-1
r=φ=θ
r222
χo2:2×2分割表における連続修正をしないχ2
χm2:2×2分割表における連続修正をしないマンテル・ヘンツェルの検定のχ2

以上のように、この時の寄与率がクラメールの関連係数になり、相関係数がφ係数になります。 ただし(注1)で説明したように、一方の順位が2つだけ時のスピアマンの順位相関係数がウィルコクソンの2標本検定に一致し、3章4節(注6)で説明したように、2×2分割表にウィルコクソンの2標本検定をあてはめるとマンテル・ヘンツェルの検定と一致します。 したがってクラメールの関連係数またはφ係数の検定は、χ2検定ではなくマンテル・ヘンツェルの検定を用いる方が合理的です。

χ2検定のことを「独立性の検定」または「関連性の検定」と呼ぶことがあります。 これはこの検定が多群の出現率の差の検定であると同時に、近似的にクラメールの関連係数の検定でもあるからです。 しかし厳密に言いますと、関連性の検定は母集団からN個の標本を取り出し、それを分類Aと分類Bという2種類の方法で分類した時の、分類間の関連性の有無を検定する手法です。 それに対して出現率の差の検定は、A1群という母集団からm例の標本を取り出した時のB1分類の出現率がa/mであり、A2群という母集団からn例の標本を取り出した時のB1分類の出現率がc/nである時の、出現率の差を検定する手法です。

これらはよく似た概念ですが、母集団の設定と標本の取り出し方が微妙に違います。 この微妙な違いがχ2検定とマンテル・ヘンツェルの検定の微妙な違いに反映されていると考え、出現率の差の検定にはχ2検定を用い、関連性の検定にはマンテル・ヘンツェルの検定を用いるという考え方もあります。 ただし両者の違いは離散分布を連続分布で近似する時のわずかな違いであり、本質的な違いではありません。 したがって実質的にはどちらの手法を用いてもかまわないでしょう。 (→3.4 2標本の計数値 (注4))

表5.8のデータについて実際に計算してみましょう。

θ22= (4×5-2×0)2
―――――――
4×7×6×5
≒0.476(47.6%)
θ=φ= 4×5-2×0
――――――――
√(4×7×6×5)
≒0.690
χo2= (|4×5-2×0|-0.5×11)2×11
――――――――――――――
4×7×6×5
≒2.753
χo2=2.753(p=0.0971)<χ2(1,0.05)=3.841
χm2= (|4×5-2×0|-0.5×11)2×10
――――――――――――――
4×7×6×5
≒2.503
χm2=2.503(p=0.1136)<χ2(1,0.05)=3.841

一般的なm×n分割表についての計算式は4.2 多標本の計数値 (2)名義尺度 (注1)で説明しましたので、そちらを参照してください。 (→3.4 2標本の計数値4.2 多標本の計数値 (2) 名義尺度)

(注3) 3.4 2標本の計数値 (注7)で説明した計算式を用いて、表5.8のデータについてオッズ比を計算してみましょう。 この場合、データ中に0のものがあるのでウールフの修正を行います。 ウールフの修正を行うと値が不正確になりますが、この修正をしないと計算できないので致し方ありません。

OR= (4+0.5)×(5+0.5)
―――――――――
(2+0.5)×(0+0.5)
= 24.75
―――
1.25
=19.8
ln(OR)=ln(19.8)≒2.986
V(ln(OR))≒ 1
――
4.5
+ 1
――
5.5
+ 1
――
2.5
+ 1
――
0.5
≒2.804
χo2= 2.9862
――――
2.804
≒3.179(p=0.0745)<χ2(1,0.05)=3.841

オッズ比はその名の通り比に基づいた値なので、例数が少ない時は関連性を的確に表さない時があります。 例えば次のような2つの2×2分割表についてφ係数とオッズ比を計算すると、両者の特徴がよくわかると思います。 この場合、A1分類におけるB1分類の出現率とA2分類におけるB1分類の出現率は、表5.11では20%と10%であるのに対して表5.12では2%と1%です。 この出現率からするとやはり表5.11の方が関連性が高いと考えられ、φ係数の方が関連性を的確に表していることがわかります。

表5.11 2×2分割表-1
分類B1B2
A12080100
A21090100
30170200
φ= 20×90-10×80
―――――――――――
√(100×100×30×170)
≒0.140
OR= 20×90
――――
10×80
=2.25
表5.12 2×2分割表-2
分類B1B2
A1298100
A2199100
3197200
φ= 2×99-1×98
―――――――――――
√(100×100×3×197)
≒0.041
OR= 2×99
――――
1×98
≒2.020

(注4) 表5.11を一般化すると次のような表になります。

表5.12 説明変数と出現率
説明変数例数非出現例数出現例数出現率
x1n1s1r1p1
:::::
xinisiripi
:::::
xknkskrkpk
全体NSRp

この表の説明変数と出現率に回帰直線を当てはめ、出現率の推定値と推定誤差と直線回帰式を次のように表します。

これらの式に基づいて回帰分析を行う場合、推定誤差を例数と推定誤差の分散の逆数で重み付けして最小2乗法を適用します。 例数で重み付けするのは多くの例から求められた出現率ほど重要視するからであり、推定誤差の分散の逆数で重み付けするのは誤差の少ない出現率ほど重要視するからです。 また出現率πは二項分布し、その二項分布は平均π、分散π(1-π)の正規分布で近似できます。 したがって出現率piの重みwiは次のようになります。

回帰分析の帰無仮説は説明変数の影響がない、つまり回帰係数aが0ということです。 この時、piは全て同じ値になり、その分散も同じ値になります。 その時の出現率を全体の出現率pで推定すると、次のようになります。

この時、最小2乗法の指標になる平方誤差の合計は次のように表されます。

このように、重み付き平方誤差を最小にするという規準を用いた最小2乗法を「重み付け最小2乗法」といいます。 この時の最小2乗解と回帰分析の各種パラメーターは次のようになり、これらは目的変数が名義尺度の時の回帰分析に相当します。 そして一般には、この中の直線性の検定のことをコックラン・アーミテージの傾向検定と呼びます。










表5.13 分散分析表
要因平方和自由度χ2
直線性(回帰)Sβφβχβ2
異質性(ズレ)SLOFφLOFχLOF2
全体Syyφy 
直線性(回帰)の検定:χβ2≧χ2β,α)の時、有意水準100・α%で有意
異質性(ズレ)の検定:χLOF2≧χ2LOF,α)の時、有意水準100・α%で有意

平方和がそのままχ2値になるのは、出現率に重みとして例数を掛けているため、出現率とその推定値の誤差が実現度数と理論度数の食い違いに相当し、それを平方して合計した平方和がχ2値に相当するからです。 表5.11のデータについて実際に計算してみましょう。





ちなみにkが2でx1=0、x2=1とすると、次のようにコックラン・アーミテージの傾向検定は2群の出現率の差の検定、つまり2×2のχ2検定(ただし連続修正無)に一致します。 (→3.4 2標本の計数値 (注5))


このことから、2×2のχ2検定は説明変数も目的変数も名義尺度の時の回帰分析に相当することがわかります。 これに対して、マンテル・ヘンツェルの検定は名義尺度の相関分析に相当します。 説明変数が名義尺度で目的変数が計量値の場合、相関分析と回帰分析は一致しましたが、目的変数も名義尺度の場合は相関分析と回帰分析が微妙に異なります。 これは離散分布を連続分布で近似する時の微妙な差を反映したものであり、本質的な違いではありません。

しかし相関分析がどちらの変数も確率変数であるのに対して、回帰分析は目的変数だけが確率変数である点が異なります。 つまり本質的に相関分析は横断的研究で得られたデータを分析する手法であり、回帰分析は前向き研究で得られたデータを分析する手法です。 そしてどちらの場合でも寄与率を計算することができます。 ただし寄与率は、相関分析の場合は2つの変数が共有している情報量の割合を表し、回帰分析の場合は目的変数の全変動のうち説明変数によって説明がつく割合を表します。