玄関雑学の部屋雑学コーナー統計学入門

第5章 相関と回帰

この章では相関分析と回帰分析の計算原理と使い分け、そして間違いやすい相関と回帰、さらに一致係数と各種手法の相互関係について解説します。

5.1 相関係数と回帰直線

あるデータと別のデータの間の関連性を要約する手法には相関係数(correlation coefficient)を中心にした相関分析と、回帰直線(regression line)を中心にした回帰分析があります。 これらの手法は広く利用されているわりに(あるいは利用されているからこそ)、しばしば間違って用いられます。 誤用の原因は値の計算原理と深く関わっているので、原理をよく理解して正しく利用するようにしましょう。

(1) 相関分析(correlation analysis)

相関係数は2種類のデータについて、一方の値が大きい時に他方の値も大きい(または小さい)かどうかを現象論的に要約する値です。 そのため因果関係ではなく相関関係の指標として利用されます。 相関関係は2種類のデータがお互いに影響を与え合っている相互関連性A←→Bのことであり、例えば人間関係はたいてい相関関係です。 それに対して因果関係は一方のデータだけが他方に影響を与えるA(原因)→B(結果)の関係であり、例えば喫煙によって肺癌が発症するという関係は因果関係です。

まず相関係数の求め方から説明しましょう。 マウスの体長と尾長の関係を調べるためにマウスを無作為に11匹選び、体長(x)と尾長(y)を測定した結果が表5.1.1のようになったとします。 これは全体の例数だけを指定し、原因も結果も指定しない横断的研究から得られたデータですから、体長にも尾長にも誤差があることに注意してください。

表5.1.1 マウスの体長と尾長
個体No.体長(x)尾長(y)
1108.04
286.95
3137.58
498.81
5118.33
6149.96
767.24
844.26
91210.84
1074.82
1155.68
平均97.50

このままでは体長と尾長の関係がよくわかりません。 そこでとりあえず散布図を描いて、データの分布状態が目に見えるようにしてみましょう。

図5.1.1 体長と尾長の散布図 図5.1.2 標準化した散布図

図5.1.1に示したように両者の関係は直線的のようです。 では、どうすればxとyの直線関係を要約できるか考えてみましょう。 説明のために、ここからは表5.1.1を一般化した表5.1.2に基づいて数式を書きます。 最初に座標軸x−yの原点をプロットの重心(mx、my)に移動して、新しい座標軸X−Yを作ってみます。 これは、数学的には次のようにデータを平均からの偏差に変換したことに相当します。

X=dx=x - mx  Y=dy=y - my
表5.1.2 一般化データ
No.xy
1x1y1
:::
ixiyi
:::
nxnyn
平均mxmy

こうすると新しい座標系X−Yの第I・III象限にプロットが多く、第II・IV象限は少ないことに気が付くと思います。 このような時はXとYの符号はほぼ同じになり、一方が正なら他方も正という関係があります。 これを正の相関関係といいます。 反対に第II・IV象限にプロットが多く第I・III象限に少ない時は、一方が正なら他方は負という負の相関関係があります。

でもデータの個数では定性的なことしか要約できません。 そこでXとYの積が第I・III象限では正に、第II・IV象限では負になることに目を付けて次のような値を作ります。

これは偏差の積を合計した値のため積和(sum of product)と呼ばれています。 積和が正になれば第I・III象限にプロットが多くてxとyには正の相関があり、反対に負になれば第II・IV象限にプロットが多くてxとyには負の相関があることになります。 そのためこの値によって相関性を定量的に要約することができます。

第1章で説明したように、データxの変動の要約値である平方和と分散は次のような式で表されます。 (→1.3 データの要約方法)


この式からわかるように積和は平方和の親類であり、xとyが一緒に変動する量を表しています。 そして分散と同じように、積和を自由度で割って1自由度あたりの変動にした値を共分散(covariance)と呼びます。 これも相関性の要約値になります。

しかし積和や共分散はデータの単位やバラツキ具合によって値が変化してしまい、他のデータと相関の程度を比べる指標としては不都合です。 そこで偏差をそれぞれの標準偏差で割って、データの単位やバラツキ具合とは無関係な値にします。 これをデータの標準化(規準化)といいます。 標準化したデータの要約値は次のように非常に単純になります。

  
平均:mzx=mX=0 mzy=mY=0   標準偏差:SDzx=1 SDzy=1

表5.1.1のデータを標準化した散布図が図5.1.2で、この時の共分散は次のようになります。

この標準化されたデータの共分散を相関係数(Pearsonの積率相関係数)と呼び、rで表します。 相関係数はデータの単位やバラツキ具合とは無関係な値であり、xとyが完全に直線関係の時、

zx=±zy より r=±1

となり、それ以外では-1と1の間の値になります。 このことから相関係数はxとyの関係が直線的でないと不正確になることがわかります。 したがってxとyの関係が直線的でない時は、データ変換などをして直線的な関係にしてから計算しなければなりません。

また相関係数はxとyがお互いに同じ程度に影響を与え合っていることを前提にした値です。 しかし現実の相関関係はxとyが同じ程度に影響を与え合っているとは限らず、xがyに与える影響よりもyがxに与える影響の方が小さいことも有り得ます。 そしてxはyに影響を与えるものの、yはxに影響を与えていないというのが因果関係です。 そのため相関係数は現実の相関関係を近似的に表す指標であることをよく理解しておく必要があります。

相関係数を平方した値を寄与率(関与率)または決定係数(coefficient of determination)と呼びます。 相関係数がxとyが共有する情報の割合を表すのに対して、寄与率はxとyが共有する情報量の割合を表します。 統計学における情報量はデータのバラツキつまり変動のことであり、計量値の場合は平方和または積和で表されます。 そして分散または共分散は情報密度に相当し、情報の担い手ひとつ――つまり1自由度――あたりの情報量を表します。 これは統計学の世界ではデータを平方した値に相加性があり、自由度と平方和が比例することからきています。

寄与率:

例えば相関係数が0.5の時、xとyはデータを50%共有していますが、情報量としては25%共有しているだけです。 xとyの関連度の指標として現場の研究者は相関係数を用いることが多いので、この場合は「xとyは半分ほど関連している」と解釈します。 しかし統計学者は寄与率を用いることが多いので、「xとyは4分の1程度関連している」と解釈します。 そのため関連度に関する感覚が研究者と統計学者でずれることがよくあります。

r=0.5  ∴r2=0.25(25%)

また母集団の相関係数つまり母相関係数をρ(ロー)とすると、t値を利用してρが0かどうかを検定することができます。

帰無仮説 H0:ρ=0
有意性検定の対立仮説 H0:ρ≠0
統計的仮説検定の対立仮説 H0:ρ=±δρρ:相関係数の検出差=科学的に有意義な相関係数の値)
相関係数の標準誤差:   検定統計量:
検定:|to2|≧t(n-2,α)の時、有意水準100α%で有意
推定:相関係数の信頼区間については(注1)参照

これまでと同様に、相関係数の検定にも有意性検定と統計的仮説検定があります。 そして「相関がある」とか「相関がない」ということを厳密に検討するためには、科学的に有意義な相関係数の値δρを指定して統計的仮説検定と推定を行う必要があります。 (→1.6 統計的仮説検定の考え方)

しかし実際の研究現場でδρを指定するのは難しいので、たいていは有意性検定を行うだけです。 その場合、たとえ検定結果が有意になっても次のようなことしか結論できません。

「実験から得られた相関係数rの値が信頼できるから、ほぼ確実に母相関係数ρは0ではない」

この結論は「相関がある」とは異なることに注意してください。 「相関がある」と結論するためには、母相関係数の値が科学的に有意義な値δρ以上でなければなりません。 例えばr=0.1でもn≧500なら有意水準5%で有意になります。 相関係数が0.1ということは寄与率が1%であり、xとyの情報量共有率は1%だけです。 いくら何でも情報量共有率が1%しかないのに、「xとyは関連がある」などと大それたことを主張する人はいないでしょう。

また有意ではない時は次のように結論を保留します。 この結論は「相関がない」とは異なることに注意してください。 「相関がない」と結論するためには母相関係数の値がδρよりも小さい必要があります。

「実験から得られた相関係数rの値が信頼できないから、母相関係数ρは0ではないとは断言できない → 結論を保留する」

δρを設定する時は寄与率を参考にすると良いでしょう。 寄与率がどの程度なら相関ありと考えるかは実験内容やデータの種類によって異なりますが、次のような基準をおおよその目安にすれば良いでしょう。

関連あり:r2≧0.5(50%)   |r|≧0.7
影響あり:r2≧0.25(25%)  |r|≧0.5

ここで有意水準5%として表5.1.1の例題について実際に計算してみましょう。 (注1)

     
  
検定:|to|=4.239 (p=0.0022)>t(9,0.05)=2.262 … 有意水準5%で有意
推定:相関係数の95%信頼区間 下限:ρL=0.424  上限:ρU=0.951
統計的結論:体長と尾長の相関係数は0ではない。 それは0.816であり、幅をもたせれば0.424〜0.951の間である。

ご覧のように相関係数の検定結果が有意であり、寄与率が約67%もあります。 そして95%信頼区間の下限が0.4を超えていて、寄与率は最低でも16%程度あります。 これらのことからマウスの体長と尾長には正の相関があると言えそうです。

ただし相関係数も寄与率もあくまでも現象論的な相関性の要約値であり、科学的な相関関係つまり相互関連性を証明するものではありません。 したがってこの結果だけから、

「マウスの体長と尾長には直線的な相関関係がある」

と結論することはできません。 本当に相関関係があるかどうかは、それを説明する理論を生物学的な面から考察し、その理論を別の実験によって証明してから結論すべきです。

この場合はマウスの成長という第3の因子が体長と尾長の両方に作用したため、見かけ上の相関が現れたと思われます。 つまり体長と尾長がお互いに影響を与え合っているわけではなく、マウスの成長が原因で体長と尾長が結果という2種類の因果関係があり、原因が同じため体長と尾長の両方が同じように変動したと考えられます。 ですからいくら相関が高いからといって、「マウスの体を引っ張ったら尾が長くなり、尾を引っ張ったら体が長くなった!」という現象は起こらないでしょう。

(2) 回帰分析(regression analysis)

相関係数が相関関係の指標であるのに対して、回帰直線はxが原因でyがその結果という因果関係がある時に、xがyに与える影響を直線によって要約するものです。 この時のxのことを説明変数(explanatory variable)または独立変数と呼び、yのことを目的変数(criterion variable)または従属変数と呼びます。 したがって回帰直線が本来の意味を持つのは、例えば薬の用量と反応の関係のように、2つのデータの間に明確な因果関係がある時または因果関係を想定している時だけです。 これはよく誤解されています。

マウスの生後日数(x)による尾長(y)の変化を調べるために、生後4〜14日のマウスを各1匹ずつ選び、尾長を測定した結果が表5.1.3のようになったとします。 これは原因を指定して結果を観測した前向き研究から得られたデータですから、尾長にだけ誤差があることに注意してください。

表5.1.3 マウスの生後日数と尾長
個体No.生後日数(x)尾長(y)
144.26
255.68
367.24
474.82
586.95
698.81
7108.04
8118.33
91210.84
10137.58
11149.96
平均97.50

両者の間に近似的な直線関係y=α+βxがある時、yの各データは次のように表すことができます。

yi=α + βxi + εi   α:定数(y切片) β:係数(傾き) εi:yiの誤差
図5.1.3 xからyへの回帰直線 図5.1.4 yからxへの回帰直線

あるxの値からその時のyの値を推定する式は次のように表されます。

  推定誤差:

この式を直線回帰式または1次回帰式といい、傾きβを回帰係数(regression coefficient)といいます。 この式から一番もっともらしいyを推定するためには、推定誤差εをできるだけ小さくするようにαとβを決めてやれば良いことになります。 εは偏差の一種で正・負があり、合計すると0になってしまいます。 そこで次のように2乗して合計した値を最小にするようにαとβを決めてやります。

→ 最小

これが有名な最小2乗法(Least Squares method、LS法)の原理です。 計算は複雑なので(注2)を見ていただくとして、結果は次のようになります。 なお普通は母集団の定数と傾きをαとβで表し、標本集団のデータから計算されたαとβの推定値はaとbで表します。 (注2)

回帰係数(傾き):   定数(y切片):a=my - b m   直線回帰式:

相関係数はxとyが同程度に影響を与え合っていることを前提にした値のため、xとyを入れ替えても定義式は変りません。 このような式をxとyに関する対称式といいます。 それに対して直線回帰式はxが原因でyが結果という因果関係がある時に、xからyを最も正確に推定する式のためxとyに関して対称ではなく、xとyを入れ替えると違う式になってしまいます。 例えばyが原因でxが結果という因果関係がある時に、yからxを最も正確に推定するa'とb'は次のようになります。

回帰係数(傾き):   定数(x切片):a'=mx - b'my   直線回帰式:

この直線回帰式はxからyを推定する直線回帰式をxに関して解いた式とは一致しません。 xからyを推定する直線回帰式(xからyへの回帰直線)は、図5.1.3に示したようにxには誤差がなく、yにだけ誤差εがあるという前提で求めた式です。 それに対してxからyを推定する直線回帰式(yからxへの回帰直線)は、図5.1.4に示したようにxには誤差がなく、yにだけ誤差があるという前提で求めた式です。 そのため両者が一致しないのは当然です。

y=a + bx  ∴
  

したがって回帰直線を計算する時はデータ間の因果関係をはっきりさせ、原因となるデータを説明変数xに、結果であるデータを目的変数yにするように注意しなければなりません。 そして原因xは研究者が任意の値を指定した誤差のない値であり、結果yは誤差のある観測データというのが本来です。 またxとyをグラフ化する場合、普通は原因xを横軸に、結果yを縦軸にします。

ちなみにxが原因でyが結果の時の回帰係数bと、yが原因でxが結果の時の回帰係数b'を掛け合わせると寄与率になり、その平方根を取った値に共分散と同じ符号を付けると相関係数になります。 このことから、相関係数はxとyがお互いに影響を与え合っている程度を表す指標であることが何となくわかると思います。

回帰直線はデータの単位やバラツキによって傾きやy切片が変化してしまい、他のデータと比べる時に不都合です。 そこでxとyを標準化してから回帰直線を求めると次のようになります。

  

a=mzy - bsmzx=0
直線回帰式:zy=bszx=r zx

この時の回帰係数bs標準回帰係数と呼び、相関係数と一致します。 したがってzyに誤差がなくてデータのプロットが全て直線上に乗ってしまえば、標準回帰係数は1または-1になります。 (注3)

回帰直線の信頼性の目安として、相関分析と同様に寄与率を利用することができます。 この時の寄与率はyの全変動(平方和)のうちxによって説明できる割合を表し、まさしくxがyに寄与する率になります。

寄与率:

寄与率の目安は相関分析とほぼ同様です。 しかし回帰直線を利用する時はxとyの因果関係がはっきりしていることが多いので、相関係数に比べてより大きな寄与率が要求されると考えた方が良いでしょう。

また母集団の回帰係数つまり母回帰係数をβとすると、相関係数と同様にt値を利用してβが0かどうかを検定することができます。 (注4)

帰無仮説H0:β=0 有意性検定の対立仮説 H0:β≠0
統計的仮説検定の対立仮説 H0:β=±δββ:回帰係数の検出差=科学的に有意義な回帰係数の値)
回帰係数の標準誤差:
検定統計量:
検定:|to2|≧t(n-2,α)の時、有意水準100α%で有意
推定:100(1-α)%信頼区間=b±t(φR,α)SEb → 下限:βL=b - t(φR,α)SEb  上限:βU=b + t(φR,α)SEb

このように回帰係数の検定は相関係数の検定と全く同じものになります。 そして「直線関係がある」ということを厳密に検討するためには、相関係数と同様に科学的に有意義な回帰係数の値δβを指定して統計的仮説検定と推定を行う必要があります。 (→1.6 統計的仮説検定の考え方)

しかし実際の研究現場でδβを指定するのはやはり難しいので、たいていは有意性検定を行うだけです。 その場合、たとえ検定結果が有意になっても次のようなことしか結論できません。

「実験から得られた回帰係数bの値が信頼できるから、ほぼ確実に母回帰係数βは0ではない」

相関係数の検定と同様に、この結論は「直線関係がある」とは異なることに注意してください。 「直線関係がある」と結論するためには、母回帰係数の値が科学的に有意義な値δβ以上であり、しかも寄与率がある程度大きくなければなりません。

また有意ではない時は次のように結論を保留します。 この結論は「直線関係がない」とは異なることに注意してください。 「直線関係がない」と結論するためには母回帰係数の値がδβよりも小さい必要があります。

「実験から得られた回帰係数bの値が信頼できないから、母回帰係数βは0ではないとは断言できない → 結論を保留する」

厳密に言うと、回帰係数の検定は回帰誤差εiが近似的に正規分布するという仮定を必要とします。 回帰分析を適用するには説明変数と目的変数が正規分布しなければならないと、よく誤解されています。 しかし直線回帰式を求めること自体に正規性は必要ではなく、説明変数と目的変数の間の近似的な直線性だけが必要です。 正規性は回帰係数の検定を行う時だけ必要になります。 しかもその正規性は目的変数の回帰誤差の正規性であり、目的変数そのものの正規性ではありません。 そして説明変数に正規性は必要ありません。 そもそも説明変数は研究者が任意の値を設定するため目的変数と違って誤差変動しない、つまり確率変数ではないのです。

相関係数は2つの変数の間に特定の因果関係を想定せず、どちらの変数も確率変数であるという前提で計算します。 したがって相関係数が厳密に計算できるのは横断的研究で得られたデータだけということになります。 それに対して回帰直線は原因である説明変数の値を研究者が任意に指定し、結果である目的変数が確率変数であるという前提で計算します。 したがって回帰直線が厳密に計算できるのは前向き研究で得られたデータだけということになります。 これが2つの手法を適切に使い分けるための大きなポイントです。 (注5) (→1.8 科学的研究の種類とデザイン)

有意水準5%として、表5.1.3の例題について実際に計算すると次のようになります。 実は表5.1.3は表5.1.1の体長を生後日数に変え、データを生後日数順に並べ替えたものです。 そのため寄与率は同じ値になりますが、その解釈は異なります。 また検定結果も同じになりますが、この場合は相関係数ではなく回帰係数の検定です。

Sxx=110  Syy≒41.2727  Sxy=55.01   SEb≒0.1179
  a=7.5 - 0.5×9=3  r2=0.667(66.7%)
検定:|to|=4.239 (p=0.0022)>t(9,0.05)=2.262 … 有意水準5%で有意
推定:回帰係数の95%信頼区間=0.5±0.2667 → 下限:βL=0.233 上限:βU=0.767
統計的結論:生後日数と尾長の回帰直線の回帰係数は0ではない。 それは0.5であり、幅をもたせれば0.23〜0.767の間である。

この結果から尾長の変動のうち約67%は生後日数という因子で説明がつき、1日あたり0.5cmの割で長くなることがわかります。 相関分析と違って、この場合は因果関係がある程度わかっています。 そのため「マウスが2日ほど成長したら、尾が1cm程度長くなった!」という現象が起こるでしょう。


(注1) 相関係数の信頼区間は相関係数の標準誤差を用いて求めることができます。

100(1-α)%信頼区間=r±t(n-2,α)SEr → 下限:ρL=r - t(n-2,α)SEr  下限:ρU=r + t(n-2,α)SEr

ただし、この式で信頼区間を求めると信頼区間が-1または+1を超えてしまうことがあります。 相関係数の検定は母相関係数が0の時の標本相関係数の分布を利用し、その分布は左右対称です。 ところが信頼区間は、母相関係数がr(データから求めた相関係数)と等しい時の標本相関係数分布を利用して求めます。 相関係数は下限が-1で上限が+1のため、母相関係数が0ではない時の標本相関係数の分布は左右非対称になります。 そのため上記の式のように、母相関係数が0の時の左右対称な標本相関係数の分布をそのまま当てはめて信頼区間を求めると、信頼区間が-1〜+1の範囲からはみ出してしまう時があるのです。

そこで標本相関係数の分布をほぼ左右対称にして信頼区間が-1〜+1の間に収まるように、通常はフィッシャーのz変換(z-transformation)を利用して求めます。 (→2.2 データの分布と統計手法 (注6))

フィッシャーのz変換:
逆変換:
100(1-α)%信頼区間 下限:  上限:

表5.1.1の例題について、2種類の方法で計算すると次のようになります。

標準誤差を用いる方法:95%信頼区間=0.816±2.262×0.1925=0.816±0.435 → 下限:ρL=0.381 上限:ρU=1.251 → 1
フィッシャーのz変換を用いる方法:
95%信頼区間 下限:  上限:

この結果から、標準誤差を用いる方法では上限が1を超えてしまうのに対して、フィッシャーのz変換を用いる方法では上限が1未満になり、後者の方が合理的であることがわかります。 ただしフィッシャーのz変換を用いる方法では検定結果は有意水準5%で有意にもかかわらず信頼区間に0を含むという、一見すると矛盾した現象が起こり得ます。

これは検定で用いる標本分布と、推定で用いる標本分布の性質が異なっているからです。 これは相関係数だけでなく一般的な統計量にも当てはまるため、一般に検定結果と推定結果は一致するとは限りません。 (→1.5 有意性検定の考え方 (注1))

ちなみにフィッシャーのz変換を利用すると2つの相関係数の差を検定することができます。 本文中で説明したように1つの回帰係数の検定と1つの相関係数の検定は同じものになります。 しかし2つの相関係数の差の検定はフィッシャーのz変換を利用して行うのに対して、2つの回帰係数の差の検定は回帰係数の標準誤差を利用して行うので同じものにはなりません。 それらの手法については第8章をご覧ください。 (→8.2 共分散分析結果の解釈 (注1))

(注2) 最小2乗法は次のように計算します。 誤差の平方を合計したQはaとbの関数になるので、次のように表すことができます。

この関数が最小値になる時のaとbが求める解です。 そこでQ(a,b)をaとbで偏微分し、それぞれを0と置いた連立方程式を解きます。

  
  

こうして求めた解は次のような好ましい性質を持ちます。 そしてこのような推定量をBLUE(Best Linear Unbiased Estimator、最良線形不偏推定量)といいます。 (Gauss-Markovの定理) (→1.4 推定 (注4))

この場合、xは確率変数ではなくyだけが確率変数という前提で計算しています。 xも確率変数の時は次のような条件を満足していれば上記の式で解を求めることができ、その解はBLUEになります。

現実のデータがこの条件を満足するのは少々難しいと思います。 しかしはっきり言って「xとyの関係が直線で近似できる」という条件を満足する方がよほど難しく、回帰直線にはかなりの誤差があるのが普通です。 そのためxも確率変数の時でも、あまり厳密に考えずに回帰直線を適用しているのが現状だと思います。

(注3) 標準回帰係数が相関係数と一致するのは回帰直線の時だけです。 xの2次以上の項がある回帰曲線つまり多項回帰式やxが多数ある重回帰式では、標準回帰係数と相関係数は一致するとは限りません。 (→7.2 重回帰分析の解釈)

(注4) 図5.1.3の模式図を見ながら、分散分析と同様にデータyiを分解してみましょう。

  
ただし
ここでμy≒my、α≒a、β≒bと推定すると


○全体
平方和:   自由度:φTy=n - 1   分散:
○回帰
平方和:   自由度:φβ=1  分散:
○残差
平方和:SR=Q(a,b)=Syy - Sβ   自由度:φRyβ=n - 2   分散:
回帰係数の標準誤差:
Syy=Sβ + SR
寄与率:

以上より、回帰の検定と推定は次のようになります。

帰無仮説 H0:β=0

検定:Fβ≧F(φβR,α)の時、有意水準100α%で有意
推定:100(1-α)%信頼区間=b±t(φR,α)SEb → 下限:βL=b - t(φR,α)SEb  上限:βU=b + t(φR,α)SEb
表5.1.4 回帰の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
回帰SβφβVβFβ=Vβ/VR
残差SRφRVR 
全体Syyφy 

この回帰に関する分散分析は要因Aが連続量である一元配置分散分析に相当します。 この時、全体の変動のうち回帰によって説明される変動の割合が寄与率になり、上式に示したように相関係数の平方と一致します。 寄与率とは、実はこのことから付けられた名前なのです。 また回帰の検定つまり回帰係数の検定は相関係数の検定と同じものであり、F値の平方根がt値に一致します。

表5.1.3の例題について実際に計算してみましょう。

     
    
検定:Fβ≒17.990 (p=0.0022)>F(1,9,0.05)={t(9,0.05)}2=5.117
推定:95%信頼区間=0.5±2.262×0.1179=0.5±0.2667 → 下限:βL=0.233 上限:βU=0.767
表5.1.5 例題の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
回帰27.5100127.510017.990
残差13.762791.5292 
全体41.272710 

対応のないt検定つまり群の数が2つの時の一元配置分散分析のデータは、次のように表すことができます。

A1群:y11,…,y1i,…,y1n (i=1,…,n)
A2群:y21,…,y2j,…,y2m (j=1,…,m)

これらのデータは要因Aによって2群に分類されており、データ内容が異なっている原因は要因Aの内容(水準)であると考えられます。 そこでA1群に属す時には「1」、A2群に属す時には「0」という値をとる変数xを作り、次のように対応させるとxとyの間に因果関係を想定することができます。 このような変数xのことをダミー変数(dummy variable)と呼びます。 このデータに回帰分析を適用してみましょう。

A1群:y=y11,…,y1i,…,y1n (i=1,…,n)
 x=1,…,1,…,1 
A2群:y=y21,…,y2j,…,y2m (j=1,…,m)
 x=0,…,0,…,0 
図5.1.5 対応のない2群の回帰分析
直線回帰式:
  
  

  
ST=Syy  φTy=n + m - 1
  φβ=1

φRy - φβ=n + m - 2
  
回帰係数の検定の帰無仮説 H0:β=μ1 - μ2=0

Fβ≧F(φβR,α)の時、有意水準100α%で有意

以上のように、この時の回帰係数bは2群の平均値の差になり、回帰係数の検定は要因Aの検定つまり対応のないt検定と一致します。 そしてこの時の相関係数rは名義尺度である群分類と計量値との間の相関性を表す値と解釈できるので、相関比(correlation ratioと呼びη(イータ)で表すことがあります。 またηを平方したη2つまり寄与率を相関比と呼ぶこともあります。 しかし相関係数を平方した値が寄与率になるということから、やはりηを相関比と呼ぶのが合理的でしょう。

回帰分析で重要な指標は回帰係数と寄与率です。 それと同様に対応のないt検定つまり2群の平均値の差の検定で重要な指標は、やはり平均値の差と寄与率です。 (→5.3 計数値の相関・(3)名義尺度と計量値の場合)

一元配置分散分析におけるF値と寄与率の間には次のような関係があります。

:寄与率 → 分散比の変換式
:分散比 → 寄与率の変換式

したがって対応のないt検定におけるt値と寄与率の関係は次のようになります。 (→3.3 2標本の計量値4.1 多標本の計量値)



φ=n + m - 2
:効果量(effect size、Cohen's d)

このように分散分析やt検定の結果は比較的簡単に寄与率に翻訳することができます。 そのため試験結果について科学的な考察をする時は、検定結果よりもむしろ寄与率を重要な指標として用いるべきです。 もちろん最も重要なものは平均値などの要約値であることは言うまでもありません。

ちなみに2群の平均値の差を標準偏差で割った値dのことを効果量(effect size)またはコーヘンのd(Cohen's d)と呼ぶことがあります。 これは2群の平均値の差を標準化したものであり、データの単位とは無関係な値になります。 そのためこの値は2群の平均値の差の大きさの目安として使われます。 しかしこの値は上限と下限が無制限であり、解釈が難しい時があります。

それに対して寄与率は下限が0、上限が1と決まっているので解釈が容易です。 しかも上式のように効果量と例数から簡単に導くことができる上、一般性があるので2群の平均値の差だけでなく多くの場合に利用できます。 そのため効果量の定義を拡張して寄与率も効果量に含め、r属の効果量と呼んでコーヘンのdと区別することがあります。 (→1.6 統計的仮説検定の考え方)

(注5) 母集団からランダムに選択された値を取る変量のことを変数型といい、研究者が任意の値に設定した変量のことを母数型といいます。 2つの変量がどちらも変数型の時は相関分析系の手法を適用し、説明変数が母数型で目的変数が変数型の時は回帰分析系の手法を適用します。

横断的研究では原因因子と結果因子を区別せず、どちらの因子も制御せずに観測するため説明変数も目的変数も変数型になります。 したがって2つの因子の関連性を要約するには相関分析系の手法が適しています。 それに対して前向き研究では原因因子を制御して結果因子を前向きに観測するため、説明変数が母数型になり目的変数が変数型になります。 したがって2つの因子の関連性を要約するには回帰分析系の手法が適しています。

後ろ向き研究では結果因子を制御して原因因子を後ろ向きに観測するため説明変数が変数型になり、結果変数が母数型になります。 この場合は結果変数の値を導き出す一番もっともらしい説明変数の値を分析する判別分析系の手法が適しています。

普通の分散分析は説明変数が名義尺度の時の回帰分析に相当します。 しかし名義尺度のデータが変数型の時は一方が名義尺度で他方が計量尺度の時の相関分析に相当し、母数型の時とは計算法が少し異なります。 しかし実際の研究現場では両者の違いを厳密に区別せずに解析することが多いようです。