玄関雑学の部屋雑学コーナー統計学入門

第5章 相関と回帰

この章では相関分析と回帰分析の計算原理と使い分け、そして間違いやすい相関と回帰、さらに計数値の相関について解説します。

5.1 相関係数と回帰直線

あるデータと別のデータとの間に関連がある時に、その関連性を要約する手法には「相関係数(correlation coefficient)」を中心にした相関分析と、「回帰直線(regression line)」を中心にした回帰分析とがあります。 これらの手法は広く利用されているわりに(あるいは利用されているからこそ)、間違って用いられることが多いものです。 誤用の原因は値の計算原理と深くかかわっていますので、原理をよく理解して正しく利用するようにしましょう。

(1) 相関分析(correlation analysis)

相関係数はxとyの因果関係(一方のデータが原因になり、結果として他方を変動させる関係)とは無関係に、一方の値が大きい時に他方の値も大きい(または小さい)かどうかを現象論的に要約するものです。 このため一方が原因で他方が結果という因果関係ではなく、お互いに影響を及ぼしあっているという相関関係の指標として利用されます。 まず相関係数の求め方から説明しましょう。 マウスを無作為に11匹選び、体長xと尾長yを測定した結果が表5.1のようになったとします。 そしてそのデータを一般化したものが表5.2です。

表5.1 マウスの体長と尾長
No.体長(x)尾長(y)
1108.04
286.95
3137.58
498.81
5118.33
6149.96
767.24
844.26
91210.84
1074.82
1155.68
平均97.50

 

表5.2 一般化データ
No.xy
1x1y1
:::
ixiyi
:::
平均mxmy

このままでは体長と尾長の関係がよくわかりませんので、とりあえず散点図を描いてデータの分布状態が目に見えるようにしてみましょう。

図5.1 体長と尾長の散点図 図5.2 標準化した散点図

図5.1に示したように、両者の関係は直線的のようです。 では、どうすればxとyの直線関係を要約できるか考えてみましょう。 最初に座標軸x−yの原点をプロットの重心(mx、my)に移動して、新しい座標軸X−Yを作ってみます。 これは数学的には、次のようにデータを平均からの偏差に変換したことに相当します。

X=dx=x-mx  Y=dy=y-my

こうしますと、新しい座標系X−Yの第I・III象限はプロットが多く、第II・IV象限は少ないということに気が付くと思います。 このような時にはXとYは符号をほぼ同じにし、一方が正ならば他方も正という関係があります。 これを「正の相関関係」といいます。 反対に第II・IV象限にプロットが多く、第I・III象限に少ない時には、一方が正ならば他方は負という「負の相関関係」関係があります。

データの個数では定性的なことしか要約できませんので、XとYの積が第I・III象限では正に、第II・IV象限では負になることに目を付けて次のような値を作ります。

Sxy= n
Σ
i=1
Xi・Yi=Σ(xi-mx)(yi-my)
  = Σxi・yi-n・mx・my=Σxiyi- (Σxi)(Σyi)
―――――――
n

これは偏差の積を合計した値ですから、「積和(sum of product)」と呼ばれています。 積和が正になれば第I・III象限にプロットが多く、xとyには正の相関があり、反対に負になれば第II・IV象限にプロットが多く、xとyには負の相関があることになります。 したがって、この値によって相関性を定量的に要約することができます。 第1章で説明しましたように、データxの変動の要約値である平方和と分散は次のような式で表されます。 (→1.3 データの要約方法)

SS=Sxx= n
Σ
i=1
Xi2=Σ(xi-mx)2=Σ(xi-mx)(xi-mx)
V=Vxx= Sxx
――
n-1

この式からもわかるように積和は平方和の親類で、xとyが一緒に変動する量を表しています。 そして分散と同じように積和を自由度で割って1自由度あたりの変動にした値を「共分散(covariance)」と呼び、これも相関性の要約値になります。

C=Vxy= Sxy
――
n-1

しかし積和や共分散はデータの単位やバラツキによって値が変化してしまい、他のデータと相関の程度を比べる指標としては不都合です。 そこで偏差をそれぞれの標準偏差で割って、データの単位やバラツキとは無関係な値にします。 これを「xの標準化(規準化)」といい、標準化したデータの要約値は次のように非常に簡単になります。

zx= X
――
SDx
= x-mx
―――
SDx
zy= Y
――
SDy
= y-my
―――
SDy
平均:mzx=mX=0  mzy=mY=0
標準偏差:SDzx=1  SDzy=1

表5.1のデータを標準化した散点図が図5.2で、この時の共分散は次のようになります。

C=Vzxzy= Szxzy
―――
n-1
= n
Σ
i=1
zxizyi
――――
n-1
= 1
――
n-1
Σ xi-mx
―――
SDx
yi-my
―――
SDy
 = 1
――
n-1
Sxy
―――――――――――――――
√{Sxx/(n-1)}・√{Syy/(n-1)}
= Sxy
――――――
√(SxxSyy)
 =r (-1≦r≦1)

この標準化されたデータの共分散を「相関係数」と呼び、「r」で表しています。 相関係数はデータの単位やバラツキとは無関係な値で、xとyが完全に直線関係の時、

zx=±zy より r=±1

となり、それ以外では-1と1の間の値になります。 このことから、相関係数はxとyの関係が直線的でないと不正確になることがわかります。 したがってxとyの関係が直線的でない時は、データ変換などをして直線的な関係にしてから計算しなければなりません。

相関係数はこのように相関性の要約値ですが、xとyの関連度をそのまま表しているわけではありません。 相関係数を平方した値を「寄与率(関与率)」または「決定係数(coefficient of determination)」と呼び、この値がxとyが関連している程度すなわちxとyが共有している情報量の割合を表しています。

r2= Sxy2
――――
SxxSyy
 (0≦r2≦1)

例えば相関係数が0.5の時はxとyが50%ほど関連していると誤解しがちですが、

r=0.5  ∴r2=0.25(25%)

となり、実は25%しか関連していないのです。

また実質的にはほとんど無意味ですが、母集団の相関係数つまり母相関係数をρ(ロー)としますと、t値を利用してρが0かどうかを検定することができます。 (注1)

帰無仮説H0:ρ=0
相関係数の標準誤差:SEr=√( 1-r2
―――
n-2
)
検定統計量:to= r
――
SEr
|to2|≧t(n-2,α)の時有意水準100・α%で有意

この検定も今までのものと同様、たとえ有意になっても

「母相関係数ρは0ではない」

つまり、

「実験から得られた相関係数rは信頼できる」

ということを意味しているいるだけです。 例えばr=0.1でも、n≧500ならば有意水準5%で有意になります。 相関係数が0.1ということは寄与率が1%であり、xとyは情報を1%共有しているだけです。 いくら何でも情報共有率1%で、「xとyは関連がある」などと大それたことを主張する人はいないでしょう。

今までと同様、やはりここでも実質科学的な考察が重要であり、それには相関係数よりも寄与率を参考にすべきです。 寄与率がどの程度なら相関ありと考えるかは実験内容やデータの種類によって異なりますが、次のような基準をおおよその目安にすれば良いでしょう。

関連あり:r2≧0.5(50%)   |r|≧0.7
影響あり:r2≧0.25(25%)  |r|≧0.5

ここで有意水準5%として、表5.1の例題について実際に計算してみましょう。

Sxx=1001- 99×99
――――
11
=110
Syy=660.1727- 82.51×82.51
―――――――
11
≒41.2727
Sxy=797.6- 99×82.51
―――――
11
=55.01
r= 55.01
―――――――――
√(110×41.2727)
≒0.816
r2= 55.012
―――――――
110×41.2727
≒0.667(66.7%)
|to|=4.239 (p=0.0022)>t(9,0.05)=2.262…有意水準5%で有意

ご覧のように、検定結果が有意ですから、相関係数と寄与率の値が信頼できます。 そして寄与率が約67%もありますので、マウスの体長と尾長には正の相関があると言えそうです。 ただし、相関係数も寄与率もあくまでも現象論的な相関性の要約値であり、実質科学的な因果関係を証明するものではありません。 したがってこの結果だけから、

「マウスの体長と尾長には直線的な因果関係がある」

と結論することはできませんし、どちらが原因でどちらが結果かということも決定できません。 本当に因果関係があるかどうかは、それを説明する理論を生物学的な面から考察し、その理論を別の実験によって証明してから結論すべきです。

この場合は、マウスの成長という第3の因子が体長と尾長の両方に作用したため、見かけ上の相関が現れたと思われます。 ですから、いくら相関が高いからといって、マウスの体を引っ張ったら尻尾が長くなった、という現象は見られないでしょう。

(2) 回帰分析(regression analysis)

相関係数が因果関係とは無関係なのに対して、回帰直線はxが原因でyがその結果であるという因果関係がある時に、xがyに与える影響を直線によって要約するものです。 この時のxのことを「説明変数(explanatory variable)」または「独立変数」と呼び、yのことを「目的変数(criterion variable)」または「従属変数」と呼びます。 したがって回帰直線が本来の意味を持つのは、例えば薬の用量と反応の関係のように、データの間に明確な因果関係がある時または因果関係を想定している時だけです。 これは、しばしば誤解されていることです。

表5.1の例題についてxをマウスの生後日数と読みかえ、yはそのまま尾長として、生後日数が尾長に与える影響を調べてみることにしましょう。 両者の間に直線関係y=α+βxがあるとしますと、yの各データは次のように表すことができます。

yi=α+βxii
α:定数(y切片)  β:係数(傾き)  εi:yiの誤差
図5.3 回帰直線のグラフ的解釈

あるxの値からその時のyの値を推定する式は、yの推定値をy~とすると次のように表されます。

y~=α+βx  推定誤差:ε=y-y~

この式を「直線回帰式」または「1次回帰式」といい、傾きβを「回帰係数(regression coefficient)」といいます。 この式から一番もっともらしいyを推定するためには、推定値y~と実際のデータyとの差εをできるだけ小さくするようにαとβを決めてやれば良いことになります。 εは偏差の一種で正・負があり、合計すると0になってしまいますので、次のように2乗したものの合計を最小にするようにαとβを決めてやります。

Q= n
Σ
i=1
εi2=Σ(yi-y~i)2 → 最小

これが有名な「最小2乗法(Least Squares method、LS法)」の原理です。 計算は頭が痛くなりますので省略しますが、結果は次のようになります。 なお普通はαとβは母集団の値を表し、標本集団のデータから計算されたαとβの推定値はaとbで表します。 (注2)

回帰係数(傾き):b= Sxy
――
Sxx
定数(y切片):a=my-bmx
直線回帰式:y~=a+bx

相関係数はxとyの因果関係とは無関係な値ですから、定義式はxとyを入れ替えても変りません。 このような式を「xとyに関する対称式」といいます。 それに対して直線回帰式はあくまでもxからyを最も正確に推定するための式ですから、xとyに関して対称ではなく、xとyを入れ替えると違う式になってしまいます。 例えばyが原因でxがその結果という因果関係がある時に、yからxを最も正確に推定するa'とb'は次のようになります。

回帰係数(傾き):b'= Sxy
――
Syy
定数(x切片):a'=mx-b'my
直線回帰式:x~=a'+b'y

この直線回帰式は、xからyを推定する直線回帰式をxに関して解いた式とは一致しません。

y=a+bx
∴x= -a

b
+ 1

b
y
1

b
= Sxx
――
Sxy
≠b'= Sxy
――
Syy
-a
――
b
=mx- my
――
b
≠a'=mx-b'my

したがって回帰直線を計算する時はデータ間の因果関係をはっきりさせ、原因となるデータを説明変数xに、結果であるデータを目的変数yにするように注意しなければなりません。 またxとyをグラフ化する場合、通常は原因xを横軸に、結果yを縦軸にします。

回帰直線はデータの単位やバラツキによって傾きやy切片が変化してしまい、他のデータと比べる時に不都合です。 そこでxとyを標準化してから回帰直線を求めますと、次のようになります。

zx= X
――
SDx
= x-mx
―――
SDx
zy= Y
――
SDy
= y-my
―――
SDy
bs= Szxzy
―――
Szxzx
= Sxy/(SDxSDy)
―――――――
Sxx/SDx2
= Sxy
――
Sxx
・√( Sxx
――
Syy
)
 = Sxy
――――――
√(SxxSyy)
=r
a=mzy-bsmzx=0
直線回帰式:zy=bszx=rzx

この時の回帰係数bsを「標準回帰係数」と呼び、相関係数と一致します。 したがってzyに誤差がなくてデータのプロットが全て直線上に乗ってしまえば、標準回帰係数は1または-1になります。 (注3)

回帰直線の信頼性の目安として、相関係数の場合と同じく寄与率を利用することができます。

寄与率:r2= Sxy2
――――
SxxSyy

この時の寄与率はyの全変動のうちxによって説明できる割合を表し、まさしくxがyに寄与する率になります。 寄与率の目安は相関分析の時と同様ですが、一般に回帰直線を利用する時はxとyの因果関係がはっきりしていることが多いので、相関係数に比べてより大きな寄与率が要求されると考えた方がよいでしょう。

また実質的にはほとんど無意味ですが、母集団の回帰係数つまり母回帰係数βが0かどうかを検定することができます。 (注4)

帰無仮説H0:β=0
回帰係数の標準誤差:SEb=√{ Syy-Sxy2/Sxx
―――――――
(n-2)Sxx
}
検定統計量:to= b
――
SEb
= Sxy
――
Sxx
・√{ (n-2)Sxx
―――――――
Syy-Sxy2/Sxx
}
        = Sxy
――――――
√(SxxSyy)
・√{ n-2
―――――――――
1-Sxy2/(Sxx・Syy)
}= r
――
SEr
|to2|≧t(n-2,α)の時有意水準100・α%で有意

このように、この検定は相関係数の検定と全く同じものになります。 したがってたとえ結果が有意になっても、

「母回帰係数βは0ではない」

つまり、

「実験から得られた回帰係数bは信頼できる」

ということをいっているにすぎず、実質的な意味はほとんどありません。

厳密に言いますと、この検定は回帰誤差εiが近似的に正規分布するという仮定を必要とします。 回帰分析を適用するには説明変数と目的変数が正規分布に従わなければならない、とよく誤解されています。 しかし直線回帰式を求めること自体に正規性は必要ではなく、回帰係数の検定を行う時だけしか必要ではありません。 しかもその正規性も目的変数の回帰誤差だけに必要であり、目的変数そのものではありませんし、説明変数には全く必要ではありません。 そもそも説明変数は原理的に任意の値に設定することができますので、目的変数と違って確率変数である必要はないのです。

相関係数は2つの変数の間に特定の因果関係を想定せず、どちらの変数も確率変数であるという前提で計算します。 したがって相関係数が厳密に計算できるのは、横断的研究で得られたデータだけということになります。 それに対して回帰直線は原因である説明変数を任意に指定し、結果である目的変数が確率変数であるという前提で計算します。 したがって回帰直線が厳密に計算できるのは、前向き研究で得られたデータだけということになります。 このことが、2つの手法を適切に使い分ける際の大きなポイントになります。 (注5) (→1.7 科学的研究の種類とデザイン)

有意水準5%として表5.1の例題について実際に計算すると、次のように相関係数の検定と全く同じ結果になります。

Sxx=110
Syy≒41.2727
Sxy=55.01
SEb≒0.1179
b= 55.01
―――
110
≒0.5
a=7.5-0.5×9=3
r2=0.667(66.7%)
|to|=4.239 (p=0.0022)>t(9,0.05)=2.262…有意水準5%で有意

この結果から、尾長の変動のうち約67%は生後日数という因子で説明がつき、1日あたり0.5cmの割で長くなることがわかります。 相関分析と違って、この場合は因果関係がある程度わかっていますから、マウスを2日ほど成長させれば、尾が1cmほど長くなるでしょう。


(注1) 相関係数は検定を行うだけでなく、信頼区間を求めることもできます。 ただし相関係数は上限と下限が-1と+1に決まっているため、相関係数の標準誤差をそのまま用いて信頼区間を求めることはできず、「フィッシャーのz変換(z-transformation)」という変換を利用して近似的に求めます。

z=tanh-1(r)= 1

2
ln( 1+r
――
1-r
)
100・(1-α)%信頼区間:
下限ρL=tanh{z-t(∞,α)・ 1
――――
√(n-3)
}
上限ρU=tanh{z+t(∞,α)・ 1
――――
√(n-3)
}

表5.1の例題について実際に計算すると次のようになります。

z=tanh-1(0.816421)= 1

2
ln( 1.816421
―――――
0.183579
)≒1.14599
95%信頼区間:
 下限ρL=tanh(1.14599-1.96× 1
――
√8
)
     =tanh(1.14599-0.692952)≒0.424391
 上限ρU=tanh(1.14599+1.96× 1
――
√8
)
     =tanh(1.14599+0.692952)≒0.766812

(注2) 最小2乗法の計算は次のようにします。 誤差の平方を合計したQはaとbの関数と考えられ、次のように表すことができます。

Q(a,b)= n
Σ
i=1
εi2=Σ(yi-y~i)2=Σ{yi-(a+bxi)}2
   =b2Σxi2-2bΣxiyi+2abΣxi-2aΣyi+na2+Σyi2

この関数が最小値になる時のaとbが求める解ですから、Q(a,b)をaとbで偏微分して、それぞれ0と置いた連立方程式を解けばよいことになります。

∂Q
――
∂a
=2na-2Σyi+2bΣxi=0
∂Q
――
∂b
=2bΣxi2-2Σxiyi+2aΣxi=0
a= Σyi
―――
n
- bΣxi
―――
n
=my-bmx
b= Σxiyi-(Σxi)(Σyi)/n
―――――――――――
Σxi2-(Σxi)2/n
= Sxy
――
Sxx
∴y~=a+bx=(my- Sxy
――
Sxx
mx)+ Sxy
――
Sxx
x

こうして求めた解は次のような好ましい性質を持ちます。

・不偏性:期待値(平均)が母数に一致する。
  E(a)=α  E(b)=β
・有効性:他の推定量に比べて分散が最小になる。
  V(a)→最小  V(b)→最小

このような推定量を「BLUE(best linear unbiased estimator、最良線形不偏推定量)」といいます。(Gauss-Markovの定理)

(注3) 標準回帰係数が相関係数と一致するのは回帰直線の時だけです。 xの2次以上の項がある回帰曲線つまり多項回帰式や、xが多数ある重回帰式の場合は標準回帰係数と相関係数は一致しません。 (→7.2 重回帰分析の解釈)

(注4) 図5.1を見ながら、分散分析と同様にデータyiを分解してみましょう。

yiy+(y~iy)+(yi-y~i)
(yiy)=(y~iy)+(yi-y~i)
ただしy~i=α+βxi

ここでμy≒my、α≒a、β≒bと推定すると、

(yi-my)=(y~i-my)+(yi-y~i)
  ={(a+bxi)-(a+bmx)}+{yi-(a+bxi)}=b(xi-mx)+{yi-(a+bxi)}
Q(a,b)= n
Σ
i=1
εi2=Σ(yi-y~i)2=Σ{(yi-my)-(y~i-my)}2
  =Σ(yi-my)2-2Σ(yi-my)(y~i-my)+Σ(y~i-my)2
  =Σ(yi-my)2-2Σ(yi-my){b(xi-mx)}+Σ{b(xi-mx)}2
  =Syy-2bSxy+b2Sxx =Syy-2( Sxy
――
Sxx
)Sxy+( Sxy
――
Sxx
)2Sxx
  =Syy- Sxy2
―――
Sxx
総変動の平方和:ST=Σ(yi-my)2=Syy
    自由度:φTy=n-1
    分散:VT=Vy= Syy
――
φy
回帰の平方和:Sβ=bSxy= Syy2
―――
Sxx
   自由度:φβ=1
   分散:Vβ= Sβ
――
φβ
残差の平方和:SR=Q(a,b)=Syy-Sβ
   自由度:φRyβ=n-2
   分散:VR= SR
――
φR
回帰係数の標準誤差:SEb=√( VR
――
Sxx
)
Syy=Sβ+SR
寄与率:r2= Sβ
――
Syy
= Sxy2
――――
SxxSyy

以上より、回帰の検定と回帰係数の信頼区間は次のようになります。

帰無仮説H0:β=0
Fβ= Vβ
――
VR
= Sxy2/Sxx
―――――――――――
(Syy-Sxy2/Sxx)/(n-2)
  = Sxy2/(SxxSyy)
――――――――――――――
{1-Sxy2/(SxxSyy)}/(n-2)
= r2
―――――――
(1-r2)/(n-2)
  =( r
――
SEr
)2=to2
Fβ≧F(φβR,α)の時有意水準100・α%で有意
100・(1-α)%信頼区間:
 下限βL=β-t(φR,α)・SEb
 上限βU=β+t(φR,α)・SEb
表5.3 回帰の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
回帰SβφβVβFβ=Vβ/VR
残差SRφRVR 
全体Syyφy 

この回帰についての分散分析は、要因Aが連続量である一元配置分散分析に相当します。 この時、総変動のうち回帰によって説明される変動の割合が寄与率になり、上式に示したように相関係数の平方に一致します。 実は「寄与率」とはこのことから付けられた名前なのです。 また回帰の検定つまり回帰係数の検定は相関係数の検定と同じものであり、F値の平方根がt値に一致します。

表5.1の例題について実際に計算してみましょう。

Sxx=1001- 99×99
――――
11
=110
Syy=660.1727- 82.51×82.51
―――――――
11
≒41.2727
Sxy=797.6- 99×82.51
―――――
11
=55.01
r2= 55.012
―――――――
110×41.2727
≒0.667(66.7%)
Sβ= 55.012
――――
110
≒27.51
SEb=√( 1.5292
――――
110
)≒0.1179
Fβ≒17.990 (p=0.0022)>F(1,9,0.05)={t(9,0.05)}2=5.117
95%信頼区間:
 下限βL=0.5-2.262×0.1179=0.5-0.2667≒0.233
 上限βU=0.5+2.262×0.1179=0.5+0.2667≒0.767
表5.4 例題の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
回帰27.5100127.510017.990
残差13.762791.5292 
全体41.272710 

対応のないt検定つまり群の数が2つの時の一元配置分散分析におけるデータを、

A1群:y11,…,y1i,…,y1n  (i=1,…,n)
A2群:y21,…,y2j,…,y2m  (j=1,…,m)

とすると、これらのデータは要因Aによって2群に分類されており、データ内容が異なっている原因は要因Aの内容(水準)であると考えられます。 そこでA1群に属す時には「1」、A2群に属す時には「0」という値をとる変数xを作り、

A1群:y=y11,…,y1i,…,y1n  (i=1,…,n)
 x=1,…,1,…,1 
A2群:y=y21,…,y2j,…,y2m  (j=1,…,m)
 x=0,…,0,…,0 

と対応させると、xとyの間に因果関係を想定することができます。 このような変数xのことを「ダミー変数(dummy variable)」と呼ぶことがあります。 このデータに回帰分析を適用してみましょう。

図5.4 対応のない2群の回帰分析
直線回帰式:y~=a+bx
mx= n
Σ
i=1
x1i
――
n+m
= n
――
n+m
my=( n
Σ
i=1
y1i+ m
Σ
j=1
y2j) 1
――
n+m
Sxx=Σx1i2- (Σx1i)2
―――――
n+m
=n- n2
――
n+m
= nm
――
n+m
Syy=(Σy1i2+Σy2j2)- (Σy1i+Σy2j)2
――――――――
n+m
Sxy=Σx1iy1i- (Σx1i)(Σy1i+Σy2j)
―――――――――――
n+m
  =Σy1i- n(Σy1i+Σy2j)
――――――――
n+m
= nm
――
n+m
(my1-my2)
b= Sxy
――
Sxx
= nm
――
n+m
(my1-my2)・ n+m
――
nm
=my1-my2
a=my-bmx= Σy1i+Σy2j
――――――
n+m
-(my1-my2) n
――
n+m
=my2
ST=Syy
φTy=n+m-1
Sβ= Sxy2
―――
Sxx
= nm
――
n+m
(my1-my2)2
φβ=1
SR=ST-SA=Syy-Sβ
  =(Σy1i2+Σy2j2)- (Σy1i+Σy2i)2
――――――――
n+m
- nm
――
n+m
(my1-my2)2
  =Σy1i2- (Σy1i)2
―――――
n
+Σy2j2- (Σy2j)2
―――――
m
  =SS1+SS2=SS
φRyβ=n+m-2
SR
――
φR
= SS
―――
n+m-2
=V
r2= Sβ
――
Syy
= Sxy2
――――
SxxSyy
帰無仮説H0:β=μ12=0
Fβ= Sββ
―――――
SRR
= nm
――
n+m
(my1-my2)2
――――――
V
  = (my1-my2)2
――――――――
{(n+m)/(nm)}V
=to2
Fβ≧F(φβR,α)の時有意水準100・α%で有意

以上のように、この時の回帰係数bは2群の平均値の差となり、回帰係数の検定は要因Aの検定つまり対応のないt検定と一致します。 そしてこの時の相関係数rは名義尺度である群分類と計量値との間の相関性を表す値と解釈できますので、「相関比η(correlation ratio、イータ)」と呼ぶことがあります。 回帰分析で重要なものは回帰係数と寄与率ですから、対応のないt検定で重要なものは本当は平均値の差と寄与率であり、検定は実質的にほとんど意味がないことがこのことからもわかると思います。 (→5.3 計数値の相関・(3)名義尺度と計量値の場合)

一元配置分散分析におけるF値と寄与率の間には、一般に次のような関係があります。

F= R2β
――――――
(1-R2)/φR
R2= φβF
―――――
φβF+φR

したがって、対応のないt検定におけるt値と寄与率の関係は次のようになります。 (→3.3 2標本の計量値4.1 多標本の計量値)

t2= r2
―――――
(1-r2)/φ
r2= t2
―――
t2
= (my1-my2)2/V
――――――――――――――
(my1-my2)2/V+φ(n+m)/(nm)
φ=n+m-2

このように分散分析やt検定の結果は比較的簡単に寄与率に翻訳することができますので、実験結果について科学的な考察をする時は検定結果よりもむしろ寄与率を重要な指標として用いるべきです。 もちろん、最も重要なものは平均値などの要約値であることはいうまでもありません。

ちなみに、2群の平均値の差を標準偏差で割った値(my1-my2)/SDのことを「効果量(effect size)」ということがあります。 これは2群の平均値の差を標準化したものであり、データの単位とは無関係な値になります。 このためこの値は、2群の平均値の差の大きさの目安として使われます。 しかしこの値は上限と下限が理論的に無制限であり、解釈が難しい時があります。 それに対して寄与率は上限と下限が決まっているので解釈が容易であり、一般性があるため2群の平均値の差だけでなく多くの場合に利用できます。 しかも上式のように効果量と例数から簡単に導くことができますので、効果量よりも寄与率の方が便利な指標だと思います。

(注5) 母集団からランダムに選択された値を取る変量のことを「変数型」といい、試験者が任意の値に設定した変量のことを「母数型」といいます。 2つの変量がどちらも変数型の時は相関分析系の手法を適用し、説明変数が母数型で、目的変数が変数型の時は回帰分析系の手法を適用します。

横断的研究では原因因子と結果因子を区別せずどの因子も制御せずに観測するため、説明変数も目的変数も変数型になります。 したがって2つの因子の関連性を要約するには、相関分析系の手法が適しています。 それに対して前向き研究では原因因子を制御して結果因子を前向きに観測するため、説明変数が母数型になり目的変数が変数型になります。 したがって2つの因子の関連性を要約するには、回帰分析系の手法が適しています。 後ろ向き研究では結果因子を制御して原因因子を後ろ向きに観測するため、説明変数が変数型になり、結果変数が母数型になります。 この場合は結果変数の値を導き出す一番もっともらしい説明変数の値を分析する、判別分析系の手法が適しています。

普通の分散分析は、説明変数が名義尺度の時の回帰分析に相当します。 しかし名義尺度のデータが変数型の時は、一方が名義尺度の時の相関分析に相当し、母数型の時とは計算法が少し異なります。 しかし実際の研究現場では、両者の違いを厳密に区別せずに利用していることが多いようです。