玄関雑学の部屋雑学コーナー統計学入門

第5章 相関分析と回帰分析

この章では相関分析と回帰分析の計算原理と使い分け、そして間違いやすい相関分析と回帰分析、さらに一致係数と各種手法の相互関係について解説します。

5.1 相関係数と回帰直線

あるデータと別のデータの間の関連性を分析する手法には相関係数(correlation coefficient)を中心にした相関分析と、回帰直線(regression line)を中心にした回帰分析があります。 これらの手法は広く利用されているわりに――あるいは利用されているからこそ――しばしば間違って用いられます。 誤用の原因は値の計算原理と深く関わっているので、原理をよく理解して正しく利用するようにしましょう。

(1) 相関分析(correlation analysis)

相関係数は2種類のデータについて、一方の値が大きい時に他方の値も大きい(または小さい)かどうかを現象論的に要約する指標です。 そのため因果関係ではなく相関関係の指標として利用されます。 相関関係は2種類のデータがお互いに影響を与え合っているA←→Bのことであり、例えば人間関係はたいてい相関関係です。 それに対して因果関係は一方のデータだけが他方に影響を与える原と結関係A→Bのことであり、例えば喫煙によって肺癌が発症するという関係は因果関係です。

まず相関係数の求め方から説明しましょう。 マウスの体長と尾長の関係を調べるためにマウスを無作為に11匹選び、体長(x)と尾長(y)を測定した結果が表5.1.1のようになったとします。 これは全体の例数だけを指定して原因も結果も指定しない横断的研究から得られたデータですから、体長にも尾長にも誤差があることに注意してください。

表5.1.1 マウスの体長と尾長
個体No.体長(x)尾長(y)
1108.04
286.95
3137.58
498.81
5118.33
6149.96
767.24
844.26
91210.84
1074.82
1155.68
平均値97.50

このままでは体長と尾長の関係がよくわかりません。 そこでとりあえず散布図を描いて、データの分布状態が目に見えるようにしてみましょう。

図5.1.1 体長と尾長の散布図 図5.1.2 標準化した散布図

図5.1.1に示したように両者の関係は直線的のようです。 では、どうすればxとyの直線的な関係を要約できるか考えてみましょう。 説明のために、ここからは表5.1.1を一般化した表5.1.2に基づいて数式を書きます。 最初に座標軸x−yの原点をプロットの重心(mx、my)に移動して、新しい座標軸X−Yを作ってみます。 これは、数学的には次のようにデータを平均からの偏差に変換したことに相当します。

X = dx = x - mx  Y = dy = y - my
表5.1.2 一般化データ
No. x  y 
1x1y1
:::
ixiyi
:::
nxnyn
平均値mxmy

こうすると新しい座標系X−Yの第I・III象限にプロットが多く、第II・IV象限は少ないことに気が付くと思います。 このような時はXとYの符号はほぼ同じになり、一方が正なら他方も正という関係があります。 XとYの間に正の相関関係があるとプロットがこのように分布します。 反対にXとYの間に負の相関関係があると第II・IV象限にプロットが多く、第I・III象限は少なくなってXとYの符号が反対になります。

でもデータの個数では定性的なことしか要約できません。 そこでXとYの積が第I・III象限では正に、第II・IV象限では負になることに目を付けて次のような値を作ります。

これは偏差の積を合計した値なので積和(sum of product)と呼ばれています。 積和が正になれば第I・III象限にプロットが多くてxとyには正の相関がありそうで、反対に負になれば第II・IV象限にプロットが多くてxとyには負の相関がありそうです。 そのためこの値によって相関性を定量的に要約することができます。

第1章で説明したように、データxの変動の要約値である平方和と分散は次のような式で表されます。 (→1.3 データの要約方法)


この式からわかるように積和は平方和の親類であり、xとyが一緒に変動する量を表しています。 そして分散と同じように、積和を自由度で割って1自由度あたりの変動にした値を共分散(covariance)と呼びます。 これも相関性の要約値になります。

しかし積和や共分散はデータの単位やバラツキ具合によって値が変化してしまい、相関の程度を表すための普遍的な指標としては不都合です。 そこで偏差をそれぞれの標準偏差で割って、データの単位やバラツキ具合とは無関係な値にします。 これをデータの標準化(規準化)といいます。 標準化したデータの要約値は次のように非常に単純になります。

  
平均:mzx = mX = 0 mzy = mY = 0   標準偏差:SDzx = 1 SDzy = 1

表5.1.1のデータを標準化した散布図が図5.1.2で、この時の共分散は次のようになります。

この標準化されたデータの共分散を相関係数(Pearsonの積率相関係数)と呼び、「r」で表します。 この値は共分散(covariance)に基づいた相関(correlation)の指標なので、本来は「c」で表すべきだと思います。 ところが相関係数の概念を提唱したゴールトン(Francis Galton)が、相関係数よりも前に彼自身が提唱した回帰直線(regression line)との類似性から「r」を使い、それが定着したのです。 (注6)

相関係数はデータの単位やバラツキ具合とは無関係な値であり、xとyが完全に直線関係の時、

zx = ±zy より r = ±1

となり、それ以外では-1と1の間の値になります。 このことから相関係数はxとyの関係が直線的でないと不正確になることがわかります。 したがってxとyの関係が直線的でない時は、データ変換などをして直線的な関係にしてから計算しなければなりません。

また相関係数はxとyがお互いに同じ程度に影響を与え合っていることを前提にした値です。 しかし現実の相関関係はxとyが同じ程度に影響を与え合っているとは限らず、xがyに与える影響よりもyがxに与える影響の方が小さいことも有り得ます。 そしてxはyに影響を与えるものの、yはxに影響を与えないというのが因果関係です。 そのため相関係数は現実の相関関係を近似的に要約する不完全な指標であることをよく理解しておく必要があります。

相関係数を平方した値を寄与率(関与率)または決定係数(coefficient of determination)と呼びます。 相関係数がxとyが共有する情報の割合を表すのに対して、寄与率はxとyが共有する情報量の割合を表します。 統計学における情報量はデータのバラツキつまり変動のことであり、計量値の場合は平方和または積和で表されます。 そして分散または共分散は情報密度に相当し、情報の担い手ひとつ――つまり1自由度――あたりの情報量を表します。 これは統計学の世界ではデータを平方した値に相加性があり、自由度と平方和が比例することからきています。

寄与率:

例えば相関係数が0.5の時、xとyはデータを50%共有していますが、情報量としては25%共有しているだけです。 xとyの関連度の指標として現場の研究者は相関係数を用いることが多いので、この場合は「xとyは半分ほど関連している」と解釈します。 しかし統計学者は寄与率を用いることが多いので、「xとyは4分の1程度関連している」と解釈します。 そのため関連度に関する感覚が研究者と統計学者でずれることがよくあります。

r = 0.5  ∴r2 = 0.25(25%)

また母集団の相関係数つまり母相関係数をρ(ロー)とすると、ρが0かどうかを検定することができます。 その場合、検定手法として自由度(n - 2)のt分布を用いる方法とフィッシャーのz変換(z-transformation)を用いる方法があります。 自由度(n - 2)のt分布を用いる方法は次に説明する回帰係数の検定と全く同じ方法であり、回帰分析と整合性があるので便利です。 しかしこの方法はρが0以外の値かどうかを検定する時は不正確になり、しかも推定の精度はあまり良くありません。

それに対してz変換を用いる方法はρが0以外の値かどうかを検定する時も精度が良く、推定の精度はt分布を利用する方法よりも常に良くなります。 そのため通常はρが0かどうかを検定する時だけt分布を用いる方法を採用し、それ以外の時と推定は常にz変換を用いる方法を採用することが多いと思います。 しかし相関分析と回帰分析は適用する場面が異なり、回帰分析との整合性を無理に取る必要はないので検定も推定もz変換を用いる方法を採用するのが合理的だと思います。 (注1)

帰無仮説 H0:ρ = 0
有意性検定の対立仮説 H1:ρ ≠ 0
統計的仮説検定の対立仮説 H1:ρ = ±δρρ:相関係数の検出差=科学的に有意義な相関係数の値)
・自由度(n-2)のt分布を用いる方法
 相関係数の標準誤差:   検定統計量:
 検定:|to| > t(n - 2,α)の時、有意水準100α%で有意
 推定:100(1 - α)%信頼区間 ρLU = r ± t(n - 2,α)SEr → 下限:ρL = r - t(n - 2,α)SEr  上限:ρU = r + t(n - 2,α)SEr
・フィッシャーのz変換を用いる方法
 フィッシャーのz変換:   逆変換:
 検定統計量:
 検定:|zo| > t(∞,α)の時、有意水準100α%で有意
 推定:100(1 - α)%信頼区間 下限:  上限:
 ※自由度の平方根相当の値として√(n - 2)ではなく√(n - 3)を用いるのは少数例の時の近似を良くするため

またこれまでと同様に、相関係数の検定にも有意性検定と統計的仮説検定があります。 そして「相関がある」とか「相関がない」ということを厳密に検討するためには、科学的に有意義な相関係数の値δρを指定して統計的仮説検定と推定を行う必要があります。 (→1.6 統計的仮説検定の考え方)

しかし実際の研究現場でδρを指定するのは難しいので、たいていは有意性検定を行うだけです。 その場合、たとえ検定結果が有意になっても次のようなことしか結論できません。

「実験から得られた相関係数rの値が信頼できるから、ほぼ確実に母相関係数ρは0ではない」

この結論は「相関がある」とは異なることに注意してください。 「相関がある」と結論するためには母相関係数の値が科学的に有意義な値δρ以上でなければなりません。 例えばr = 0.1でもn ≧ 500なら有意水準5%で有意になります。 相関係数が0.1ということは寄与率が1%であり、xとyの情報量共有率は1%だけです。 情報量共有率が1%しかないのに、いくら何でも「xとyは関連がある」などと大それたことを主張する人はいないでしょう。

また有意ではない時は次のように結論を保留します。 この結論は「相関がない」とは異なることに注意してください。 「相関がない」と結論するためには母相関係数の値がδρよりも小さい必要があります。

「実験から得られた相関係数rの値が信頼できないから、母相関係数ρは0ではないとは断言できない → 結論を保留する」

δρを設定する時は寄与率を参考にすると良いでしょう。 寄与率がどの程度なら相関ありと考えるかは実験内容やデータの種類によって異なりますが、統計学的には次のような基準をおおよその目安にすれば良いでしょう。

関連あり:r2 ≧ 0.5(50%)   |r| ≧ 0.7
影響あり:r2 ≧ 0.25(25%)  |r| ≧ 0.5

ここで有意水準5%として表5.1.1の例題について実際に計算してみましょう。

・自由度9のt分布を用いる方法
       
    
 検定:|to| = 4.239(p = 0.0022) > t(9,0.05) = 2.262 … 有意水準5%で有意
 推定:95%信頼区間 ρLU = 0.816 ± 2.262×0.1925 = 0.816 ± 0.435 → 下限:ρL = 0.381 上限:ρU = 1.251 → 1
・フィッシャーのz変換を用いる方法
    zo = 1.14599×√8 ≒ 3.241
 検定:|zo| = 3.241(p = 0.0012) > t(∞,0.05) = 1.960 … 有意水準5%で有意
 推定:95%信頼区間 下限:  上限:
統計学的結論:体長と尾長の相関係数は0ではない。 それは0.816であり、幅をもたせれば0.424〜0.951の間である。

御覧のように自由度(n - 2)のt分布を用いる方法もz変換を用いる方法も、相関係数の検定結果は有意です。 しかし95%信頼区間は自由度(n - 2)のt分布を用いる方法では上限が1を超えてしまうのに対して、フィッシャーのz変換を用いる方法では上限が1未満になり、後者の方が合理的であることがわかります。

そして寄与率が約67%もあり、相関係数の信頼区間の下限が0.4を超えていることから、寄与率は最低でも16%程度あります。 これらのことからマウスの体長と尾長には正の相関関係がある可能性がありそうです。

しかし相関係数も寄与率もあくまでも現象論的な要約値であり、科学的な相関関係つまり相互関連性を証明するものではありません。 したがってこの結果だけから、

「マウスの体長と尾長には直線的な相関関係がある」

と結論することはできません。 本当に相関関係があるかどうかは、それを説明する理論を生物学的な面から考察し、その理論を別の実験によって証明してから結論すべきです。

この場合はマウスの成長という第3の因子が体長と尾長の両方に作用したので、体長と尾長の相関係数が大きくなったと考えられます。 つまり体長と尾長の間に相関関係(お互いに影響を与え合っている関係)があるわけではなく、マウスの成長が原因で体長と尾長が結果という2種類の因果関係があり、原因が同じため体長と尾長の両方が同じように変動したと考えられます。 このような現象を見かけの相関とか擬似相関(Spurious correlation)――本当は相関関係ではないのに、見かけ上は相関関係に見えてしまう擬似的な相関関係――と呼ぶことがあります。

そのためいくら相関係数が大きいからといって、「マウスの体を引っ張ったら尾が長くなり、尾を引っ張ったら体が長くなった!」という現象は起こらないでしょう。

相関係数に限らず、様々な統計学的指標は様々な現象を数学的に要約するための不完全な要約値にすぎません。 そのため実際に起きている現象がどのようなものであるかを科学的知見に基づいて検討し、それが明確になったところで、その内容を数学的に要約するにはどの統計学的指標がふさわしいかを検討するのが本来です。 統計学的指標に基づいて、実際に起きている現象をこれこれだと決めつけるのは本末転倒です。

相関係数についても、2つのデータの間に相関関係がある時に、その内容を数学的に要約するために相関係数を用いるのが本来です。 いくら相関係数が大きいからといって、それだけで「2つのデータの間に相関関係がある!」と結論するのは本末転倒です。 でも相関係数については、何故かそのように誤解してしまう傾向が強いようです。

例えば、よく引用される「相関関係は因果関係を含意しない(Correlation does not imply causation)」という迷言(^^;)がそれをよく表しています。 そもそも相関関係と因果関係は別々の現象であり、どちらかがどちらかの十分条件や必要条件というわけではありません。 しかし「相関係数が大きい=相関関係がある」と誤解してしまうと、ついついこのような迷言を信じてしまいがちだと思います。

この迷言は、本当は「相関係数が大きいことは因果関係または相関関係を含意しない」というべきでしょう。 つまり相関係数が大きいことは因果関係または相関関係の必要条件ですが十分条件ではなく、逆に因果関係または相関関係は相関係数が大きいことの十分条件ですが必要条件ではないのです。 そのため相関係数が大きくても相関関係または因果関係があるとは限らず、相関関係または因果関係がなくても相関係数が大きいことが有り得ます。

また無相関とは本来は「相関関係がない」という意味ですが、往々にして「相関係数が0である」という意味に解釈されがちです。 これも「相関係数が大きい=相関関係がある」という誤解が原因でしょう。 そのため無相関よりも独立という表現の方が誤解しにくいと思います。 独立とは「関連性がない」つまり「相関関係も因果関係もない」という意味ですから、必ず無相関関係かつ無因果関係になります。

(2) 回帰分析(regression analysis)

相関係数が相関関係の指標であるのに対して、回帰直線はxが原因でyがその結果という因果関係がある時に、xがyに与える影響を直線によって要約する指標です。 この時のxのことを説明変数(explanatory variable)または独立変数と呼び、yのことを目的変数(criterion variable)または従属変数と呼びます。 したがって回帰直線が本来の意味を持つのは、例えば薬の用量と反応の関係のように2つのデータの間に明確な因果関係がある時または因果関係を想定している時だけです。 これはよく誤解されています。

マウスの生後日数(x)による尾長(y)の変化を調べるために、生後4〜14日のマウスを各1匹ずつ選び、尾長を測定した結果が表5.1.3のようになったとします。 これは原因を指定して結果を観測した前向き研究から得られたデータですから、尾長にだけ誤差があることに注意してください。

表5.1.3 マウスの生後日数と尾長
個体No.生後日数(x) 尾長(y) 
144.26
255.68
367.24
474.82
586.95
698.81
7108.04
8118.33
91210.84
10137.58
11149.96
平均値97.50

両者の間に近似的な直線関係y = α + βxがある時、yの各データを次のように表すことができます。

yi = α + βxi + εi   α:切片(x = 0の時のyの値) β:回帰係数(傾き) εi:yiの誤差
図5.1.3 xからyへの回帰直線 図5.1.4 yからxへの回帰直線

あるxの値からその時のyの値を推定する式は次のように表されます。

  推定誤差:

この式を直線回帰式または1次回帰式といい、αを切片(intercept)、βを回帰係数(regression coefficient)といいます。 この式から一番もっともらしいyを推定するには、推定誤差εをできるだけ小さくするようにαとβを決めてやれば良いことになります。 しかしεは偏差の一種であり正・負があるので、実際にはεの絶対値の合計をできるだけ小さくする必要があります。 そこで次のように2乗して合計した値を最小にするようにαとβを決めてやります。

→ 最小

これが有名な最小2乗法((Ordinary)Least Squares method、LS法またはOLS法)の原理です。 計算は複雑なので(注2)を見ていただくとして、結果は次のようになります。 なお普通は母集団の切片と回帰係数をαとβで表し、標本集団のデータから計算したαとβの推定値はaとbで表します。 (注2)

回帰係数:   切片:a = my - b m   直線回帰式:

相関係数はxとyが同程度に影響を与え合っていることを前提にした値ですから、xとyを入れ替えても定義式は変りません。 このような式をxとyに関する対称式といいます。 それに対して直線回帰式はxが原因でyが結果という因果関係がある時に、xからyを最も正確に推定する式です。 そのためxとyに関して対称ではなく、xとyを入れ替えると違う式になってしまいます。 例えばyが原因でxが結果という因果関係がある時に、yからxを最も正確に推定するa'とb'は次のようになります。

回帰係数:   切片:a' = mx - b'my   直線回帰式:

この直線回帰式はxからyを推定する直線回帰式をxに関して解いた式とは一致しません。 xからyを推定する直線回帰式(xからyへの回帰直線)は、図5.1.3に示したようにxには誤差がなく、yにだけ誤差εがあるという前提で求めた式です。 それに対してyからxを推定する直線回帰式(yからxへの回帰直線)は、図5.1.4に示したようにyには誤差がなく、xにだけ誤差があるという前提で求めた式です。 そのため両者が一致しないのは当然です。

y = a + bx  ∴
  

したがって回帰直線を計算する時はデータ間の因果関係をはっきりさせ、原因となるデータを説明変数xに、結果であるデータを目的変数yにするように注意しなければなりません。 そして原因xは研究者が任意の値を指定した誤差のない値であり、結果yは誤差のある観測データというのが本来です。 またxとyをグラフ化する場合、普通は原因xを横軸に、結果yを縦軸にします。

ちなみにxが原因でyが結果の時の回帰係数bと、yが原因でxが結果の時の回帰係数b'を掛け合わせると寄与率になり、その平方根を取った値に共分散と同じ符号を付けると相関係数になります。 このことから相関係数はxとyがお互いに影響を与え合っている程度を表す指標であることが何となくわかると思います。

回帰直線はデータの単位やバラツキによって切片や回帰係数が変化してしまい、他のデータと比べる時に不都合です。 そこでxとyを標準化してから回帰直線を求めると次のようになります。 この時の回帰係数bs標準回帰係数と呼び、相関係数と一致します。 したがってzyに誤差がなくてデータのプロットが全て直線上に乗ってしまえば、標準回帰係数は1または-1になります。 (注3)

  

a = mzy - bsmzx = 0
直線回帰式:zy = bszx = r zx

回帰直線の信頼性の目安として、相関分析と同様に寄与率を利用することができます。 この時の寄与率はyの全変動(平方和)のうちxによって説明できる割合を表し、まさしくxがyに寄与する割合になります。

寄与率:

寄与率の目安は相関分析とほぼ同様です。 しかし回帰直線を利用する時はxとyの因果関係がはっきりしていることが多いので、相関係数に比べてより大きな寄与率が要求されると考えた方が良いでしょう。

また母集団の回帰係数つまり母回帰係数をβとすると、自由度(n - 2)のt分布を利用してβが0かどうかを検定することができます。 (注4)

帰無仮説H0:β = 0
有意性検定の対立仮説 H1:β ≠ 0
統計的仮説検定の対立仮説 H1:β = ±δββ:回帰係数の検出差=科学的に有意義な回帰係数の値)
回帰係数の標準誤差:
検定統計量:
検定:|to2| > t(n - 2,α)の時、有意水準100α%で有意
推定:100(1-α)%信頼区間 βLU = b ± t(φR,α)SEb → 下限:βL = b - t(φR,α)SEb  上限:βU = b + t(φR,α)SEb

このように回帰係数の検定はt分布を利用した相関係数の検定と全く同じものになります。 そして「直線関係がある」ということを厳密に検討するためには、相関係数と同様に科学的に有意義な回帰係数の値δβを指定して統計的仮説検定と推定を行う必要があります。 (→1.6 統計的仮説検定の考え方)

しかし実際の研究現場でδβを指定するのはやはり難しいので、たいていは有意性検定を行うだけです。 その場合、たとえ検定結果が有意になっても次のようなことしか結論できません。

「実験から得られた回帰係数bの値が信頼できるから、ほぼ確実に母回帰係数βは0ではない」

相関係数の検定と同様に、この結論は「直線的な因果関係がある」とは異なることに注意してください。 「直線的な因果関係がある」と結論するためには母回帰係数の値が科学的に有意義な値δβ以上であり、しかも寄与率がある程度大きくなければなりません。

また有意ではない時は次のように結論を保留します。 この結論は「直線的な因果関係がない」とは異なることに注意してください。 「直線的な因果関係がない」と結論するためには母回帰係数の値がδβよりも小さい必要があります。

「実験から得られた回帰係数bの値が信頼できないから、母回帰係数βは0ではないとは断言できない → 結論を保留する」

厳密にいうと回帰係数の検定は回帰誤差εiが近似的に正規分布するという仮定が必要です。 回帰分析を適用するには説明変数と目的変数が正規分布しなければならない、とよく誤解されています。 しかし直線回帰式を求めること自体に正規性は必要ではなく、説明変数と目的変数の間の近似的な直線性だけが必要です。

正規性は回帰係数の検定を行う時だけ必要になります。 しかもその正規性は目的変数の回帰誤差の正規性であり、目的変数そのものの正規性ではありません。 そして説明変数に正規性は必要ありません。 そもそも説明変数は研究者が任意の値を設定するので目的変数と違って誤差変動しない、つまり確率変数ではないのです。

相関係数は2つの変数の間に相関関係を想定し、どちらの変数も確率変数であるという前提で計算します。 したがって相関係数が正確に計算できるのは横断的研究で得られたデータだけということになります。 それに対して回帰直線は原因である説明変数の値を研究者が任意に指定し、結果である目的変数が確率変数であるという前提で計算します。 したがって回帰直線が正確に計算できるのは前向き研究で得られたデータだけということになります。 これが2つの手法を適切に使い分けるための大きなポイントです。 (注5) (→1.8 科学的研究の種類とデザイン)

有意水準5%として、表5.1.3の例題について実際に計算すると次のようになります。 実は表5.1.3は表5.1.1の体長を生後日数に変え、データを生後日数順に並べ替えたものです。 そのため寄与率は同じ値になりますが、その解釈は異なります。 また検定はt分布を用いた相関係数の検定と同じ結果になります。

Sxx = 110  Syy ≒ 41.2727  Sxy = 55.01   SEb ≒ 0.1179
  a = 7.5 - 0.5×9 = 3  r2 = 0.667(66.7%)
検定:|to| = 4.239(p = 0.0022) > t(9,0.05) = 2.262 … 有意水準5%で有意
推定:回帰係数の95%信頼区間 βLU = 0.5 ± 0.2667 → 下限:βL = 0.233 上限:βU = 0.767
統計学的結論:生後日数と尾長の回帰直線の回帰係数は0ではない。 それは0.5であり、幅をもたせれば0.23〜0.767の間である。

この結果から尾長の変動のうち約67%は生後日数という因子で説明がつき、1日あたり0.5cmの割で長くなることがわかります。 表5.1.1の相関分析と違って、この場合は因果関係がある程度わかっています。 そのため「マウスが2日ほど成長したら尾が1cm程度長くなった!」という現象が起こり得るでしょう。


(注1) 相関係数はブラヴェ(Auguste Bravais)2次元正規分布のパラメータとして導入した指標であり、それをゴールトン(Francis Galton)が2種類のデータの相互関連性の強さを表す指標と解釈し、さらにピアソン(Karl Pearson)が現在のような数式で定式化しました。 そして2種類のデータが2次元正規分布をすると仮定すると、標本相関係数の密度関数f(r)は次のようになることをフィッシャー(Rinald Aylmer Fisher)が発見しました。


n:例数 ρ:母相関係数 r:標本相関係数
:ガウス型超幾何関数
:ポッホハマー記号で表した上昇階乗ベキ
2次元正規分布の確率密度関数:

μx、μy:xとyの母平均   σ2x、σ2y:xとyの母分散   ρ:xとyの母相関係数
D2マハラノビスの平方距離(汎距離を平方した値) (→9.4 多変量正規分布とマハラノビスの汎距離付録1 各種の確率分布 (8) 多変量正規分布)

ρ = 0の時、密度関数f(r)は次のように簡単になります。

この密度関数に相関係数の検定用のt = r/SEr = r√{(n-2)/(1-r2)}を代入すると、次のように自由度φ=n - 2のt分布になります。 (→1.4 推定 (注1)付録1 各種の確率分布 (3) t分布)

このことから帰無仮説をρ = 0にした検定は回帰係数の検定と同じになり、どちらか一方の変数の回帰誤差が近似的に正規分布していれば自由度(n - 2)のt分布を利用して計算可能になります。 そして中心極限定理によって回帰誤差が近似的に正規分布していなくてもnが20以上あればrが近似的に正規分布するので、相関の検定も回帰係数の検定も計算可能になります。 (→付録3 中心極限定理のシミュレーション−回帰係数と相関係数)

しかしρ ≠ 0の時、上記の密度関数は左右非対称になって自由度(n - 2)のt分布からずれます。 そのため帰無仮説をρ ≠ 0にした検定や推定で自由度(n - 2)のt分布を用いると結果の誤差が大きくなり、信頼区間が-1〜+1の範囲からはみ出してしまう時があります。 そこで通常はフィッシャーのz変換を利用してrの分布を正規分布に近似させ、信頼区間が-1〜+1の間に収まるようにします。 (→2.2 データの分布と統計手法 (注6))

ところが自由度(n - 2)のt分布を利用して検定をしておきながらz変換を用いて推定を行うと、検定結果は有意にもかかわらず信頼区間に0を含むという、一見すると矛盾した現象が起こり得ます。 そのため検定も推定もz変換を用いるのが合理的です。

ただしt分布を用いる時でもz変換を用いる時でも、検定で用いる標本相関係数の分布は中心がρ = 0の分布であるの対して、推定で用いる標本相関係数の分布は中心がρ = r(標本相関係数)の分布です。 そして検定で用いる標本相関係数の分布における棄却域は、その分布における信頼区間外の範囲です。 そのため検定で用いる標本相関係数の分布における信頼区間と推定で用いる標本相関係数の分布の信頼区間の幅が同じなら、検定結果と推定結果は必ず一致します。

t分布や正規分布の場合は2種類の信頼区間の幅は――信頼区間の下限が-1より小さくなったり、上限が1より大きくなったりすることはあっても――必ず一致するので、検定結果と推定結果は必ず一致します。 しかし例えば二項分布の場合は2種類の信頼区間の幅が一致するとは限らないので、検定結果と推定結果が一致するとは限りません。 したがって一般に検定結果と推定結果は一致するとは限りません。 (→1.5 有意性検定の考え方 (注1))

ちなみにフィッシャーのz変換を利用すると2つの相関係数の差を検定することができます。 その場合、1つの相関係数の検定と違って検定も推定もフィッシャーのz変換を利用して行います。 それに対して2つの回帰係数の差の検定はt分布を利用して行うので、同じものにはなりません。 それらの手法については第8章をご覧ください。 (→8.2 共分散分析結果の解釈 (注1))

(注2) 最小2乗法は次のように計算します。 誤差の平方を合計したQはaとbの関数になるので、次のように表すことができます。

この関数が最小値になる時のaとbが求める解です。 そこでQ(a,b)をaとbで偏微分し、それぞれを0と置いた連立方程式を解きます。

  
  

こうして求めた解は次のような好ましい性質を持ちます。 そしてこのような推定量をBLUE(Best Linear Unbiased Estimator、最良線形不偏推定量)といいます。 (Gauss-Markovの定理) (→1.4 推定 (注4))

この場合、xは確率変数ではなくyだけが確率変数という前提で計算しています。 xも確率変数の時は次のような条件を満足していれば上記の式で解を求めることができ、その解はBLUEになります。

現実のデータがこの条件を満足するのは少々難しいと思います。 しかしはっきりいって「xとyの関係が直線で近似できる」という条件を満足する方がよほど難しく、回帰直線にはかなりの誤差があるのが普通です。 そのためxも確率変数の時でも、あまり厳密に考えずに回帰直線を適用しているのが現状だと思います。

また回帰係数の推定と検定を行う時だけ回帰誤差の近似的な正規性が必要になります。 しかし中心極限定理によって回帰誤差が近似的に正規分布していなくてもnが20以上あれば標本回帰係数が近似的に正規分布するので、回帰係数の推定と検定が計算可能になります。 そして現実問題としてxとyの近似的な直線性による誤差に比べればBLUE解の近似性による誤差も回帰誤差の近似的な正規性による誤差も遥かに小さいので、細かいことにこだわらず、推定も検定も気楽に行えば良いと思います。 (→付録3 中心極限定理のシミュレーション−回帰係数と相関係数)

(注3) 標準回帰係数が相関係数と一致するのは回帰直線の時だけです。 xの2次以上の項がある回帰曲線つまり多項回帰式やxが多数ある重回帰式では、標準回帰係数と相関係数は一致するとは限りません。 (→7.2 重回帰分析の解釈)

(注4) 図5.1.3の模式図を見ながら、分散分析と同様にデータyiを分解してみましょう。

  
ただし
ここでμy ≒ my、α ≒ a、β ≒ bと推定すると


○全体
平方和:   自由度:φT = φy = n - 1   分散:
○回帰
平方和:   自由度:φβ = 1  分散:
○残差
平方和:SR = Q(a,b) = Syy - Sβ   自由度:φR = φy - φβ = n - 2   分散:
切片の分散と標準誤差:  
回帰係数の分散と標準誤差:  
Syy = Sβ + SR
寄与率:

以上より、回帰の検定と推定は次のようになります。

帰無仮説 H0:β = 0

検定:Fβ > F(φβR,α)の時、有意水準100α%で有意
推定:100(1 - α)%信頼区間 βLU =b ± t(φR,α)SEb → 下限:βL = b - t(φR,α)SEb  上限:βU = b + t(φR,α)SEb
表5.1.4 回帰の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
回帰SβφβVβFβ = Vβ/VR
残差SRφRVR 
全体Syyφy 

この回帰に関する分散分析は要因Aが連続量である一元配置分散分析に相当します。 この時、全体の変動のうち回帰によって説明される変動の割合が寄与率になり、上式に示したように相関係数の平方と一致します。 寄与率とは、実はこのことから付けられた名前なのです。 また回帰の検定つまり回帰係数の検定はt分布を利用した相関係数の検定と同じものであり、F値の平方根がt値に一致します。

表5.1.3の例題について実際に計算してみましょう。

     
    
検定:Fβ ≒ 17.990(p = 0.0022) > F(1,9,0.05) = {t(9,0.05)}2 = 5.117
推定:95%信頼区間 βLU = 0.5 ± 2.262×0.1179 = 0.5 ± 0.2667 → 下限:βL = 0.233 上限:βU = 0.767
表5.1.5 例題の分散分析表
要因平方和SS自由度φ平均平方和Ms(分散V)分散比F
回帰27.5100127.510017.990
残差13.762791.5292 
全体41.272710 

対応のないt検定つまり群の数が2つの時の一元配置分散分析のデータは、次のように表すことができます。

A1群:y11,…,y1i,…,y1n (i = 1,…,n)
A2群:y21,…,y2j,…,y2m (j = 1,…,m)

これらのデータは要因Aによって2群に分類されており、データ内容が異なっている原因は要因Aの内容(水準)であると考えられます。 そこでA1群に属す時には「1」、A2群に属す時には「0」という値をとる変数xを作り、次のように対応させるとxとyの間に因果関係を想定することができます。 このような変数xのことをダミー変数(dummy variable)と呼びます。 このデータに回帰分析を適用してみましょう。

A1群:y=y11,…,y1i,…,y1n (i = 1,…,n)
 x=1,…,1,…,1 
A2群:y=y21,…,y2j,…,y2m (j = 1,…,m)
 x=0,…,0,…,0 
図5.1.5 対応のない2群の回帰分析
直線回帰式:
  
  

  
ST = Syy  φT = φy = n + m - 1
  φβ = 1

φR = φy - φβ = n + m - 2
  
回帰係数の検定の帰無仮説 H0:β = μ1 - μ2=0

Fβ > F(φβR,α)の時、有意水準100α%で有意

以上のように、この時の回帰係数bは2群の平均値の差になり、回帰係数の検定は要因Aの検定つまり対応のないt検定と一致します。 そしてこの時の相関係数rは名義尺度である群分類と計量値との間の関連性を表す値と解釈できるので、相関比(correlation ratioと呼びη(イータ)で表すことがあります。 またηを平方したη2つまり寄与率を相関比と呼ぶこともあります。 しかし相関係数を平方した値が寄与率になるということから、やはりηを相関比と呼ぶのが合理的でしょう。

回帰分析で重要な指標は回帰係数と寄与率です。 それと同様に対応のないt検定つまり2群の平均値の差の検定で重要な指標は、やはり平均値の差と寄与率です。 (→5.3 計数値の相関・(3)名義尺度と計量値の場合)

一元配置分散分析におけるF値と寄与率の間には次のような関係があります。

:寄与率 → 分散比の変換式
:分散比 → 寄与率の変換式

したがって対応のないt検定におけるt値と寄与率の関係は次のようになります。 (→3.3 2標本の計量値4.1 多標本の計量値)



φ = n + m - 2
:効果量(effect size)

このように分散分析やt検定の結果は比較的簡単に寄与率に翻訳することができます。 そのため試験結果について科学的な考察をする時は、検定結果よりもむしろ寄与率を重要な指標として用いるべきです。 もちろん最も重要なものは平均値などの要約値であることはいうまでもありません。

ちなみに2群の平均値の差を母標準偏差で割った値dのことを効果量(effect size)と呼ぶことがあります。 そして効果量にはコーヘンのd(Cohen's d)ヘッジのg(Hedges' g)があり、前者が記述統計学的な効果量つまり母標準偏差を標本標準偏差で推測した時の値であり、後者が推測統計学的な効果量つまり母標準偏差を不偏分散の平方根で推測した時の値です。 でも現在は推測統計学が主流なので、コーヘンのdといいながら、実際にはヘッジのgを計算していることが多いと思います。

効果量は2群の平均値の差を標準化したものであり、データの単位とは無関係な値になります。 そのためこの値は2群の平均値の差の大きさの目安として使われます。 しかしこの値は上限と下限が無制限であり、解釈が難しい時があります。

それに対して寄与率は下限が0、上限が1と決まっているので解釈が容易です。 しかも上式のように効果量と例数から簡単に導くことができる上、一般性があるので2群の平均値の差だけでなく多くの場合に利用できます。 そのため効果量の定義を拡張して寄与率も効果量に含め、r族の効果量と呼んでd属の効果量と区別することがあります。 (→1.6 統計的仮説検定の考え方)

(注5) 母集団からランダムに選択された値を取る変量のことを変数型といい、研究者が任意の値に設定した変量のことを母数型といいます。 2つの変量がどちらも変数型の時は相関分析系の手法を適用し、説明変数が母数型で目的変数が変数型の時は回帰分析系の手法を適用します。

横断的研究では原因因子と結果因子を区別せず、どちらの因子も制御せずに観測するので説明変数も目的変数も変数型になります。 したがって2つの因子の関連性を要約するには相関分析系の手法が適しています。 それに対して前向き研究では原因因子を制御して結果因子を前向きに観測するので説明変数が母数型になり目的変数が変数型になります。 したがって2つの因子の関連性を要約するには回帰分析系の手法が適しています。

後ろ向き研究では結果因子を制御して原因因子を後ろ向きに観測するので、説明変数が変数型になり結果変数が母数型になります。 この場合は結果変数の値を導き出す一番もっともらしい説明変数の値を分析する判別分析系の手法が適しています。

普通の分散分析は説明変数が名義尺度の時の回帰分析に相当します。 しかし名義尺度のデータが変数型の時は一方が名義尺度で他方が計量尺度の時の相関分析に相当し、母数型の時とは計算法が少し異なります。 しかし実際の研究現場では両者の違いを厳密に区別せずに解析することが多いようです。

(注6) 「Co-Relations and Their Measurement」(Francis Galton、1888年)