データが計数値の場合、2つの項目間の関連性を要約するには主にノンパラメト リックな手法が用いられます。 それらの手法は原理的には計量値の相関分析や回帰分析と同様ですが、データとして順位や度数を用いるところが違っています。
まずデータが順序尺度の場合から説明しましょう。 表5.1のデータについて、体長と尾長のそれぞれに順位を付けて順序尺度にしてみましょう。
| No. | 体長 | 体長順位(rx) | 尾長 | 尾長順位(ry) |
|---|---|---|---|---|
| 1 | 10.00 | 7 | 8.04 | 7 |
| 2 | 8.00 | 5 | 6.95 | 4 |
| 3 | 13.00 | 10 | 7.58 | 6 |
| 4 | 9.00 | 6 | 8.81 | 9 |
| 5 | 11.00 | 8 | 8.33 | 8 |
| 6 | 14.00 | 11 | 9.96 | 10 |
| 7 | 6.00 | 3 | 7.24 | 5 |
| 8 | 4.00 | 1 | 4.26 | 1 |
| 9 | 12.00 | 9 | 10.84 | 11 |
| 10 | 7.00 | 4 | 4.82 | 2 |
| 11 | 5.00 | 2 | 5.68 | 3 |
| 平均 | 9.00 | 6 | 7.50 | 6 |
| rs= | Srxry ―――――――― √(SrxrxSryry) |
= | Σ(rxi-mrx)(ryi-mry) ――――――――――――――― √{Σ(rxi-mrx)2Σ(ryi-mry)2} |
=0.818 |
| 寄与率:rs2= | Srxry2 ―――――― SrxrxSryry |
=0.669(66.9%) |
このようにして求めたrsを「スピアマンの順位相関係数(Spearman's rank correlation coefficient)」といいます。 計量値の代わりに順位を用いただけですから、この相関係数と寄与率が意味することは通常の相関係数と同じですし、値も第1節の結果とほとんど変わりません。 このデータには同位の値はありませんが、もし同位の値があれば今までと同じように平均順位を用いて計算します。 (→3.1 1標本の計数値)
また普通の相関係数と同様に順位相関係数の検定も行なうことができ、通常は普通の相関係数の検定と同じように次のように計算します。
| 順位相関係数の標準誤差:SErs=√( | 1-rs2 ――― n-2 |
)=0.1918 |
| 検定統計量:to= | rs ――― SErs |
データが重症度のような順序分類尺度の場合にも、同位の値が多くはなるでしょうが全く同様に順位相関係数を計算することができます。 しかしこんな時には、例えば重症度を、
また、
「例え計量尺度のデータでも、正規分布しない時とかデータ数が少ない時とか直線性が低い時は、普通の相関係数ではなく順位相関係数を計算しないといかん!」
順位相関係数は2つのデータの順位の間の相関性を表すラフな指標であり、実測値の間の相関性を表す指標ではありません。 例えば図5.12のように2つのデータの間に対数的な関係があったとします。 このデータについて普通の相関係数と順位相関係数を計算しますと、それぞれ0.95と1になります。 これは「2つのデータの計量的な大小関係は完全には一致していないが、順序の大小関係は完全に一致している」ということを意味しています。
実質科学的に見て、2つのデータの計量的な関係ではなく順序関係が重要であり、順序関係が一致しているかどうかを評価したいのでしたら、順位相関係数を指標にすべきです。 しかし2つのデータの計量的な関係が重要であり、「2つのデータの大小関係はだいたい一致しているが、値の大きい部分では一方のデータは頭打ちの傾向がある」ということに実質科学的な意味があるのでしたら、普通の相関係数を指標にすべきです。 そしてその頭打ちの傾向が例えば対数関係で表現できるかどうかを検討したいとしたら、一方のデータを対数変換してから相関係数を計算し、実測値を用いた時の相関係数と比べて値が大きくなるか小さくなるかを調べる、といった検討が必要になります、
このように普通の相関係数を用いるか順位相関係数を用いるかは、データの正規性やデータ数や直線性といった数学的な要因で決めるべきではなく、あくまでも実質科学的な要因で決めるべきです。 また順序尺度のデータはデータとデータの間隔が等しくなく、四則演算を行うことができないので原理的に回帰分析を適用することはできません。 しかし順序尺度のデータをそのまま計量尺度のデータとして扱ってしまってもかまわない時がけっこうありますので、そのような時は回帰分析を適用することができます。 (→2.2 パラメトリック手法とノンパラメトリック手法)
次にデータが名義尺度の場合について説明しましょう。 表5.1のデータを8cm未満と8cm以上の2種類に分類し、名義尺度にしてみましょう。
| 体長分類\尾長分類 | 8cm未満 | 8cm以上 | 計 |
|---|---|---|---|
| 8cm未満 | 4 | 0 | 4 |
| 8cm以上 | 2 | 5 | 7 |
| 計 | 6 | 5 | 11 |
このような関連性を要約する値としては、3章4節と第4章第2節(2)で述べたχ2値があります。 しかしχ2値は例数と自由度によって最大値が異なり、値を比較するのに不便です。 そこで総例数をNとし、縦と横の分類数のうち小さい方の値をsとして、
| θ2=R2= | χo2 ―――― N(s-1) |
データが2×2分割表の時は自由度が1になりますので、次のようにχ2値を総例数Nで割るだけになります。
| θ2=R2= | χo2 ――― N |
=φ2 |
表5.8のデータについて実際に計算すると次のようになります。 (注2)
2×2分割表において2種類の分類間の関連性を表す指標としては、φ係数の他に第3章第4節で説明したオッズ比ORがあります。 この値は関連性が全くない時は1になり、関連性がある時は1未満または1よりも大きくなります。 ただしφ係数のように上下限が決まっているわけではないので、関連性の程度を表す指標としてはφ係数ほど便利ではありません。 またこの値は比に基づいているので、データの中に0のものがあると計算できなかったり、関連性を的確に表さなかったりすることがあります。 表5.8のデータについて実際に計算すると次のようになります。 (注3)
一方のデータが名義尺度で他方が計量尺度の場合にも、相関係数に相当する要約値を求めることができます。 表5.1のデータについて、体長だけを8cm未満と8cm以上に分類してみましょう。
| No. | 体長 | 体長分類(0:8cm未満,1:8cm以上) | 尾長 |
|---|---|---|---|
| 1 | 10.00 | 1 | 8.04 |
| 2 | 8.00 | 1 | 6.95 |
| 3 | 13.00 | 1 | 7.58 |
| 4 | 9.00 | 1 | 8.81 |
| 5 | 11.00 | 1 | 8.33 |
| 6 | 14.00 | 1 | 9.96 |
| 7 | 6.00 | 0 | 7.24 |
| 8 | 4.00 | 0 | 4.26 |
| 9 | 12.00 | 1 | 10.84 |
| 10 | 7.00 | 0 | 4.82 |
| 11 | 5.00 | 0 | 5.68 |
| 平均 | 9.00 | 0.64 | 7.50 |
このようなデータについては名義尺度のデータを0と1のダミー変数にし、計量尺度のデータはそのままで形式的に両者の相関係数と寄与率を計算します。 ただし相関係数の符号はダミー変数の決め方によって変わりますので、相関係数の絶対値を取り、それを「相関比η(correlation ratio、イータ)」と呼びます。 この値は名義尺度のデータの分類法と計量尺度のデータの間の関連性を要約する値で、分類ごとに計算した平均値が異なっているほど大きな値になります。
表5.9からも見当が付くと思いますが、これは第4章第1節で説明した一元配置分散分析における要因Aの寄与率とその平方根に他なりません。 したがって、この時の相関係数の検定は分散分析そのものになります。 (→4.1 多標本の計量値、5.1 相関係数と回帰直線 (注4))
表5.9のデータについて実際に計算すると次のようになります。
一方のデータが名義尺度で他方が計量尺度の場合には、回帰直線を求めることができます。 第1節と同じように表5.9の体長を生後日数と読みかえると、この表は生後日数を8日未満と8日以上に分類した時の尾長の変化を表しているととらえることができます。 このデータに回帰分析を適用すると、説明変数である生後日数がダミー変数であり、目的変数である尾長が計量尺度の時の回帰直線を求めることになります。
表5.9のデータについて実際に計算すると次のようになります。
またこの時の回帰直線が2群の平均値を通ることから、回帰直線は説明変数がある特定の値の時の目的変数の平均値に相当する、つまり平均値を2次元に拡張したものであることがわかると思います。 (→5.1 相関係数と回帰直線 (注4))
これとは反対に説明変数である生後日数は計量尺度のままにして、目的変数である尾長を8cm未満と8cm以上に分類した時も回帰直線を求めることができます。 ただし目的変数は確率変数でなければならないので、0/1のダミー変数をそのまま用いるのでなく、ある説明変数の値における1の出現率を用います。 表5.1に体長を生後日数にし、尾長を2分類にして、見やすいように生後日数の小さい順に並べて直したものが表5.10です。
| No. | 生後日数 | 尾長 | 8cm未満 | 8cm以上 | 計 | 8cm以上の出現率 |
|---|---|---|---|---|---|---|
| 8 | 4.00 | 4.26 | 1 | 0 | 1 | 0 |
| 11 | 5.00 | 5.68 | 1 | 0 | 1 | 0 |
| 7 | 6.00 | 7.24 | 1 | 0 | 1 | 0 |
| 10 | 7.00 | 4.82 | 1 | 0 | 1 | 0 |
| 2 | 8.00 | 6.95 | 1 | 0 | 1 | 0 |
| 4 | 9.00 | 8.81 | 0 | 1 | 1 | 1 |
| 1 | 10.00 | 8.04 | 0 | 1 | 1 | 1 |
| 5 | 11.00 | 8.33 | 0 | 1 | 1 | 1 |
| 9 | 12.00 | 10.84 | 0 | 1 | 1 | 1 |
| 3 | 13.00 | 7.58 | 1 | 0 | 1 | 0 |
| 6 | 14.00 | 9.96 | 0 | 1 | 1 | 1 |
| 平均 | 9.00 | 7.50 | 0.545 | 0.455 | - | 0.455 |
この表のままでも計算できますが、尾長8cm以上の出現率が0か1になってしまい、出現率が直線的に増加している様子がわかりづらいと思います。 そこで体長を5cm間隔でまとめてしまい、次のような表にします。
| 生後日数分類 | 尾長8cm未満 | 尾長8cm以上 | 計 | 8cm以上の出現率 |
|---|---|---|---|---|
| 4-5(4.5) | 2 | 0 | 2 | 0 |
| 6-10(8) | 3 | 2 | 5 | 0.4 |
| 11-14(12.5) | 1 | 3 | 4 | 0.75 |
| 全体 | 6 | 5 | 11 | 0.455 |
表5.11の場合、説明変数である生後日数分類の値をどのようにするかが問題です。 一番もっともらしいのは分類の中央の値にすることであり、表5.11の生後日数分類の括弧の中の値がそれです。 単純なものとしては単に1、2、3という値にする方法があります。 その場合は、一見、順序尺度または順序分類尺度と名義尺度の回帰分析のように思えます。 しかし順序尺度と計量尺度の本質的な違いは、数字と数字の間隔が等間隔で四則演算ができるかどうかです。 この場合は数字と数字の間隔が等間隔ですし、同位の値の処理もしません。 したがって順序尺度のデータではなく、あくまでも計量尺度のデータです。 そうでないと回帰直線を当てはめることができません。
目的変数は尾長8cm以上の出現率であり、生後日数4.5の時が0、8の時が0.4、12.5の時が0.75になります。 しかしこれら3つの出現率はそれを計算したデータ数が異なりますので、均等に扱わず、データ数が多い出現率ほど重要視して回帰直線を計算します。 そのような計算方法を「重み付き最小2乗法」といい、回帰直線を求める時に利用した最小2乗法の一種です。 表5.11のデータについて実際に計算すると次のようになります。
直線性つまり回帰係数の検定統計量にt値ではなくχ2値を用いているのは、目的変数が普通の計量値ではなく出現率であり、ノンパラメトリックな回帰分析になるからです。 この回帰係数の検定を「コックラン・アーミテージ(Cochran-Armitage)の傾向検定」といいます。 この手法では回帰係数の検定だけでなく、回帰直線からのズレの検定も行うことができます。 その検定が異質性(ズレ)の検定であり、この検定結果が有意の時は回帰直線からのズレがあることになります。 (注4)
ちなみに、表5.10のデータにコックラン・アーミテージの傾向検定を適用すると次のようになります。 この場合は説明変数を計量値のまま計算しているため、寄与率が大きくなっています。 コックラン・アーミテージの傾向検定は、表5.11のように説明変数が順序分類尺度で目的変数が名義尺度の時に適用することが多いため、説明変数は順序分類尺度のデータでないと適用できないと誤解している人がけっこういます。 しかしこの手法の説明変数は計量尺度が本来ですから、表5.10のようなデータをわざわざ表5.11のような表にする必要はありません。
以上のことをまとめますと、データが計量値の場合に限らず、どんな場合でも関連性を要約する原理は同じであり、寄与率によって関連性の割合を表すことができるということがわかると思います。
| Σrxi=Σryi=Σi= | n(n+1) ―――― 2 |
(i=1,…,n) |
| Σrxi2=Σryi2=Σi2= | n(n+1)(2n+1) ――――――― 6 |
| = | n(n+1)(2n+1) ――――――― 6 |
-2Σrxiryi+ | n(n+1)(2n+1) ――――――― 6 |
| Σrxiryi= | n(n+1)(2n+1) ――――――― 6 |
- | Σdi2 ――― 2 |
| Σrxiryi= | n(n+1)(2n+1) ――――――― 6 |
- | Kx+Ky ――― 24 |
- | Σdi2 ――― 2 |
| Srxry=Σ(rxi-mrx)(ryi-mry)=Σrxiryi- | (Σrxi)(Σryi) ―――――――― n |
| = | n(n+1)(2n+1) ――――――― 6 |
- | Kx+Ky ――― 24 |
- | Σdi2 ――― 2 |
- | {n(n+1)/2}2 ―――――― n |
| = | 1 ― 12 |
{2n(n+1)(2n+1)- | Kx+Ky ――― 2 |
-6Σdi2-3n(n-1)2} |
| = | 1 ―― 12 |
{n(n+1)(n-1)- | Kx+Ky ――― 2 |
-6Σdi2} |
| Srxrx=Σ(rxi-mrx)2=Σrxi2- | (Σrxi)2 ――――― n |
| = | n(n+1)(2n+1) ――――――― 6 |
- | Kx ―― 12 |
- | {n(n+1)/2}2 ―――――― n |
| = | 1 ―― 12 |
{n(n+1)(n-1)-Kx} |
| Sryry=Σ(ryi-mry)2=Σryi2- | (Σryi)2 ――――― n |
| = | n(n+1)(2n+1) ――――――― 6 |
- | Ky ―― 12 |
- | {n(n+1)/2}2 ―――――― n |
| = | 1 ―― 12 |
{n(n+1)(n-1)-Ky} |
| rs= | Srxry ―――――――― √(SrxrxSryry) |
= | A-(Kx+Ky)/2-D ――――――――― √{(A-Kx)(A-Ky)} |
表5.7のデータについて実際に計算してみましょう。
| rs= | 1320-240 ――――― 1320 |
≒0.818 |
| rs2= | (1320-240)2 ―――――― 13202 |
≒0.669(66.9%) |
| to= | 0.818 ―――――――― √{(1-0.669)/9} |
≒4.296 |
ウィルコクソンの2標本検定における順位データを、
| A群: | ry= | ry11, | …, | ry1i, | …, | ry1m | (i=1,…,m) |
| rx= | 1, | …, | 1, | …, | 1 | ||
| B群: | ry= | ry21, | …, | ry2j, | …, | ry2n | (j=1,…,n) |
| rx= | 0, | …, | 0, | …, | 0 |
| A群の平均順位mrx1=n+ | m+1 ―― 2 |
= | 2n+m+1 ―――― 2 |
| B群の平均順位mrx2= | n+1 ―― 2 |
| T=T1+T2= | (m+n)(m+n+1) ――――――― 2 |
| =6{ | (m+n)(m+n+1)(2m+2n+1) ――――――――――― 3 |
- | Kx+Ky ――― 12 |
| -(2n+m+1)T1-(n+1)(T-T1)} |
| =2(m+n)(m+n+1)(2m+2n+1) | - | Kx+Ky ――― 2 |
| -3(n+1)(m+n)(m+n+1)-6(m+n)T1 |
| =(m+n)(m+n+1)(4m+n-1) | - | Kx+Ky ――― 2 |
-6(m+n)T1 |
| =(m+n-1)(m+n)(m+n+1){1- | Σ(g3-g) ―――――――――― (m+n-1)(m+n)(m+n+1) |
} |
| rs= | 6(m+n)T1-3m(m+n)(m+n+1) ―――――――――――――――― √{3mn(m+n)2(m+n-1)(m+n+1)・K} |
≒0.818 |
| = | T1-m(m+n)(m+n+1)/2 ―――――――――――――― √{K・mn(m+n-1)(m+n+1)/12} |
| rs・√(m+n-1)= | T1-m(m+n)(m+n+1)/2 ―――――――――― √{K・mn(m+n+1)/12} |
=zo |
| rs2= | zo2 ――― m+n-1 |
= | χo2 ――― m+n-1 |
以上のように、この場合のスピアマンの順位相関係数はウィルコクソンの2標本検定において連続修正を加えない式、すなわち群数が2つの場合のクリスカル・ウォーリスのH検定と深い関連があり、スピアマンの順位相関係数を平方した寄与率と、H検定における要因Aの寄与率は一致することがわかります。 計量値においても相関係数と分散分析一元配置法との間にこれと同じような関係があったことを考えますと、順位相関係数の検定としては次のような式を用いる方が合理的だと思います。 (→3.4 2標本の計数値、4.2 多標本の計数値 (1) 順序尺度)
| 分類 | B1(0) | B2(1) | 計 |
|---|---|---|---|
| A1(0) | a | b | m |
| A2(1) | c | d | n |
| 計 | S | F | N |
| Sxx=Σxi2- | (Σxi)2 ―――― N |
=n- | n2 ―― N |
= | n(N-n) ―――― N |
= | nm ―― N |
| Syy=Σyi2- | (Σyi)2 ―――― N |
=F- | F2 ―― N |
= | F(N-F) ―――― N |
= | FS ―― N |
| Sxy=Σxiyi- | (Σxi)(Σyi) ――――――― N |
=d- | Fn ―― N |
= | Nd-Fn ――― N |
| = | (a+b+c+d)d-(b+d)(c+d) ――――――――――― N |
= | ad-bc ――― N |
| r= | Sxy ―――――― √(SxxSyy) |
= | (ad-bc)/N ――――――――― √{(FS/N)(nm/N)} |
= | ad-bc ――――― √(SFmn) |
| r2= | (ad-bc)2 ―――― SFmn |
= | (ad-bc)2N ――――― SFmn |
・ | 1 ― N |
= | χo2 ――― N |
= | χm2 ――― N-1 |
以上のように、この時の寄与率がクラメールの関連係数になり、相関係数がφ係数になります。 ただし(注1)で説明したように、一方の順位が2つだけ時のスピアマンの順位相関係数がウィルコクソンの2標本検定に一致し、3章4節(注6)で説明したように、2×2分割表にウィルコクソンの2標本検定をあてはめるとマンテル・ヘンツェルの検定と一致します。 したがってクラメールの関連係数またはφ係数の検定は、χ2検定ではなくマンテル・ヘンツェルの検定を用いる方が合理的です。
χ2検定のことを「独立性の検定」または「関連性の検定」と呼ぶことがあります。 これはこの検定が多群の出現率の差の検定であると同時に、近似的にクラメールの関連係数の検定でもあるからです。 しかし厳密に言いますと、関連性の検定は母集団からN個の標本を取り出し、それを分類Aと分類Bという2種類の方法で分類した時の、分類間の関連性の有無を検定する手法です。 それに対して出現率の差の検定は、A1群という母集団からm例の標本を取り出した時のB1分類の出現率がa/mであり、A2群という母集団からn例の標本を取り出した時のB1分類の出現率がc/nである時の、出現率の差を検定する手法です。
これらはよく似た概念ですが、母集団の設定と標本の取り出し方が微妙に違います。 この微妙な違いがχ2検定とマンテル・ヘンツェルの検定の微妙な違いに反映されていると考え、出現率の差の検定にはχ2検定を用い、関連性の検定にはマンテル・ヘンツェルの検定を用いるという考え方もあります。 ただし両者の違いは離散分布を連続分布で近似する時のわずかな違いであり、本質的な違いではありません。 したがって実質的にはどちらの手法を用いてもかまわないでしょう。 (→3.4 2標本の計数値 (注4))
表5.8のデータについて実際に計算してみましょう。
| θ2=φ2= | (4×5-2×0)2 ――――――― 4×7×6×5 |
≒0.476(47.6%) |
| θ=φ= | 4×5-2×0 ―――――――― √(4×7×6×5) |
≒0.690 |
| χo2= | (|4×5-2×0|-0.5×11)2×11 ―――――――――――――― 4×7×6×5 |
≒2.753 |
| χm2= | (|4×5-2×0|-0.5×11)2×10 ―――――――――――――― 4×7×6×5 |
≒2.503 |
一般的なm×n分割表についての計算式は4.2 多標本の計数値 (2)名義尺度 (注1)で説明しましたので、そちらを参照してください。 (→3.4 2標本の計数値、4.2 多標本の計数値 (2) 名義尺度)
| OR= | (4+0.5)×(5+0.5) ――――――――― (2+0.5)×(0+0.5) |
= | 24.75 ――― 1.25 |
=19.8 |
| V(ln(OR))≒ | 1 ―― 4.5 |
+ | 1 ―― 5.5 |
+ | 1 ―― 2.5 |
+ | 1 ―― 0.5 |
≒2.804 |
| χo2= | 2.9862 ―――― 2.804 |
≒3.179(p=0.0745)<χ2(1,0.05)=3.841 |
オッズ比はその名の通り比に基づいた値なので、例数が少ない時は関連性を的確に表さない時があります。 例えば次のような2つの2×2分割表についてφ係数とオッズ比を計算すると、両者の特徴がよくわかると思います。 この場合、A1分類におけるB1分類の出現率とA2分類におけるB1分類の出現率は、表5.11では20%と10%であるのに対して表5.12では2%と1%です。 この出現率からするとやはり表5.11の方が関連性が高いと考えられ、φ係数の方が関連性を的確に表していることがわかります。
| 分類 | B1 | B2 | 計 |
|---|---|---|---|
| A1 | 20 | 80 | 100 |
| A2 | 10 | 90 | 100 |
| 計 | 30 | 170 | 200 |
| φ= | 20×90-10×80 ――――――――――― √(100×100×30×170) |
≒0.140 |
| OR= | 20×90 ―――― 10×80 |
=2.25 |
| 分類 | B1 | B2 | 計 |
|---|---|---|---|
| A1 | 2 | 98 | 100 |
| A2 | 1 | 99 | 100 |
| 計 | 3 | 197 | 200 |
| φ= | 2×99-1×98 ――――――――――― √(100×100×3×197) |
≒0.041 |
| OR= | 2×99 ―――― 1×98 |
≒2.020 |
| 説明変数 | 例数 | 非出現例数 | 出現例数 | 出現率 |
|---|---|---|---|---|
| x1 | n1 | s1 | r1 | p1 |
| : | : | : | : | : |
| xi | ni | si | ri | pi |
| : | : | : | : | : |
| xk | nk | sk | rk | pk |
| 全体 | N | S | R | p |
これらの式に基づいて回帰分析を行う場合、推定誤差を例数と推定誤差の分散の逆数で重み付けして最小2乗法を適用します。 例数で重み付けするのは多くの例から求められた出現率ほど重要視するからであり、推定誤差の分散の逆数で重み付けするのは誤差の少ない出現率ほど重要視するからです。 また出現率πは二項分布し、その二項分布は平均π、分散π(1-π)の正規分布で近似できます。 したがって出現率piの重みwiは次のようになります。
回帰分析の帰無仮説は説明変数の影響がない、つまり回帰係数aが0ということです。 この時、piは全て同じ値になり、その分散も同じ値になります。 その時の出現率を全体の出現率pで推定すると、次のようになります。
このように、重み付き平方誤差を最小にするという規準を用いた最小2乗法を「重み付け最小2乗法」といいます。 この時の最小2乗解と回帰分析の各種パラメーターは次のようになり、これらは目的変数が名義尺度の時の回帰分析に相当します。 そして一般には、この中の直線性の検定のことをコックラン・アーミテージの傾向検定と呼びます。









| 要因 | 平方和 | 自由度 | χ2値 | |
|---|---|---|---|---|
| 直線性(回帰) | Sβ | φβ | χβ2 | |
| 異質性(ズレ) | SLOF | φLOF | χLOF2 | |
| 全体 | Syy | φy | ||
平方和がそのままχ2値になるのは、出現率に重みとして例数を掛けているため、出現率とその推定値の誤差が実現度数と理論度数の食い違いに相当し、それを平方して合計した平方和がχ2値に相当するからです。 表5.11のデータについて実際に計算してみましょう。




ちなみにkが2でx1=0、x2=1とすると、次のようにコックラン・アーミテージの傾向検定は2群の出現率の差の検定、つまり2×2のχ2検定(ただし連続修正無)に一致します。 (→3.4 2標本の計数値 (注5))

このことから、2×2のχ2検定は説明変数も目的変数も名義尺度の時の回帰分析に相当することがわかります。 これに対して、マンテル・ヘンツェルの検定は名義尺度の相関分析に相当します。 説明変数が名義尺度で目的変数が計量値の場合、相関分析と回帰分析は一致しましたが、目的変数も名義尺度の場合は相関分析と回帰分析が微妙に異なります。 これは離散分布を連続分布で近似する時の微妙な差を反映したものであり、本質的な違いではありません。
しかし相関分析がどちらの変数も確率変数であるのに対して、回帰分析は目的変数だけが確率変数である点が異なります。 つまり本質的に相関分析は横断的研究で得られたデータを分析する手法であり、回帰分析は前向き研究で得られたデータを分析する手法です。 そしてどちらの場合でも寄与率を計算することができます。 ただし寄与率は、相関分析の場合は2つの変数が共有している情報量の割合を表し、回帰分析の場合は目的変数の全変動のうち説明変数によって説明がつく割合を表します。