玄関雑学の部屋雑学コーナー統計学入門

5.5 各種手法の相互関係

相関分析または回帰分析と他の手法の間には深い関係があります。 そのことはこれまでにも各手法の解説の中で説明してきましたが、ここでその関係をまとめておきましょう。

(1) 相関分析

相関分析は2つの変数の間に相関関係――2つの変数がお互いに影響を与え合っている相互関連性――があり、しかもどちらの変数も確率変数であるという前提で適用します。 したがって相関分析が厳密に適用できるのは横断的研究から得られた相関関係のあるデータだけということになります。 そしてお互いに影響を与え合っている程度、つまり相関関係の強さを要約することが主目的になります。 ただし実際の研究現場では、2つの変数の関係が不明な時に相関関係または因果関係があるかどうかを探索するために用いることが多いと思います。 (注1) (→5.1 相関係数と回帰直線 (注5))

図5.5.1 相関分析と他の手法の関係
表5.5.1 相関分析系の手法の相互関係
 変数2(確率変数)
計量尺度順序尺度名義尺度
変数1
(確率変数)
計量尺度相関分析スペアマンの順位相関係数相関比+一元配置分散分析
順序尺度スペアマンの順位相関係数スペアマンの順位相関係数順位相関比+クリスカル・ウォーリスの検定
名義尺度相関比+一元配置分散分析順位相関比+クリスカル・ウォーリスの検定四分点相関係数(φ係数)+マンテル・ヘンツェルの検定
クラメールの連関係数+χ2検定

(a) 2つの変数が計量尺度の時

最も基本的であり、図5.5.1の左上の図のように普通の相関係数を求め、その検定および推定を行います。 そして2つの変数が情報量をどの程度共有しているかを表す指標として寄与率を求めます。 (→5.1 相関係数と回帰直線 (1)相関分析)

(b) 一方の変数が計量尺度でもう一方の変数が順序尺度または両方の変数が順序尺度の時

図5.5.1の左下の図のように2つの変数を順位データに変換し、それを用いて相関分析を行うとスペアマンの順位相関係数とその検定および推定になります。 (→5.3 計数値の相関分析と回帰分析 (1)順序尺度の相関分析)

(c) 一方の変数が計量尺度でもう一方の変数が名義尺度の時

図5.5.1の右上の図のように名義尺度の変数を0/1のダミーデータに変換し、それを用いて相関分析を行うと相関係数が相関比になり、その検定が一元配置分散分析または2標本t検定になります。 (→5.3 計数値の相関分析と回帰分析 (3)名義尺度と計量尺度または順序の相関分析)

(d) 一方の変数が順序尺度でもう一方の変数が名義尺度の時

図5.5.1の右上の図のように名義尺度の変数を0/1のダミーデータに変換し、それを用いて相関分析を行うと相関係数が順序相関比になり、その検定がクリスカル・ウォーリスのH検定またはウィルコクソンの2標本検定になります。 (→5.3 計数値の相関分析と回帰分析 (3)名義尺度と計量尺度または順序尺度の相関分析)

(e) 両方の変数が名義尺度の時

図5.5.1の右下の図のように名義尺度の変数を0/1のダミーデータに変換し、それを用いて相関分析を行うと相関係数が四分点相関係数またはクラメールの連関係数になり、その検定がマンテル・ヘンツェルの検定またはχ2検定になります。 (注2) (→5.3 計数値の相関分析と回帰分析 (2)名義尺度の相関分析)

(2) 回帰分析

回帰分析は説明変数が原因で目的変数が結果という因果関係があり、目的変数だけが確率変数であるという前提で計算します。 したがって回帰分析が厳密に適用できるのは前向き研究で得られた因果関係のあるデータだけということになります。 そして説明変数が目的変数に及ぼしている影響を分析し、因果関係を計量的に要約することが主目的になります。 (注3)

図5.5.2 回帰分析と他の手法の関係
表5.5.2 回帰分析系の手法の相互関係
 目的変数Y(確率変数)
計量尺度順序尺度名義尺度
説明変数X
(非確率変数)
計量尺度回帰分析順序ロジスティック回帰分析コクラン・アーミテージの傾向分析
ロジスティック回帰分析
順序尺度回帰分析順序ロジスティック回帰分析コクラン・アーミテージの傾向分析
ロジスティック回帰分析
名義尺度平均値の差の検定
一元配置分散分析
ウィルコクソンの順位和検定
クリスカル・ウォーリスの検定
出現率の差の検定
χ2検定

(a) 2つの変数が計量尺度の時

最も基本的であり、図5.5.2の左上の図のように普通の回帰直線を求め、その回帰係数の検定および推定を行います。 そして回帰直線の当てはまり具合を表す指標として寄与率を求めます。 (→5.1 相関係数と回帰直線 (2)回帰分析)

(b) 説明変数が順序尺度で目的変数が計量尺度の時

この場合は順序尺度のデータを適当に計量尺度化し、それを用いて回帰分析を行います。 説明変数は確率変数ではないため、目的変数との関係が直線的であり、かつ実質科学的に妥当なものであればどのように計量尺度化してもかまいません。 (→5.1 相関係数と回帰直線 (2)回帰分析)

(c) 説明変数が計量尺度または順序尺度で目的変数が順序尺度の時

この場合は順序尺度を適当に計量尺度化して回帰分析を適用するか、それとも順序ロジスティック回帰分析を適用します。 順序ロジスティック回帰分析については第10章で説明します。 (→10.5 順序ロジスティック回帰分析)

(d) 説明変数が計量尺度または順序尺度で目的変数が名義尺度の時

図5.5.2の左下の図のように目的変数を0/1のダミーデータに変換し、それを用いて回帰分析を行うと、回帰係数の検定がコクラン・アーミテージの傾向検定になります。 (注4) (→5.3 計数値の相関分析と回帰分析 (4) 名義尺度と計量尺度または順序尺度の回帰分析)

目的変数を出現率に変換し、さらにそれをロジスティック変換してから回帰分析を適用するとロジスティック回帰分析になります。 ロジスティック回帰分析については第10章で説明します。 (→10.1 ロジスティック回帰分析の原理)

またデータが前向き研究ではなく後ろ向き研究で得られた時は、回帰分析ではなく判別分析を適用します。 判別分析は目的変数が0/1のダミー変数の時の回帰分析に相当しますが、目的変数ではなく説明変数が確率変数のため最小2乗法の代わりに最尤法という特殊な方法を利用して回帰分析を行います。 (→9.1 判別分析の原理)

(e) 説明変数が名義尺度で目的変数が計量尺度の時

図5.5.2の右上の図のように説明変数を0/1のダミーデータに変換し、それを用いて回帰分析を行うと回帰係数が平均値の差に、回帰係数の検定が一元配置分散分析または2標本t検定になります。 つまり群によって平均値が違うかどうかを検定することは群の違いが目的変数に影響を及ぼすかどうかを検討することに相当し、広い意味で回帰分析になるのです。 (→5.3 計数値の相関分析と回帰分析 (4) 名義尺度と計量尺度または順序尺度の回帰分析)

(f) 説明変数が名義尺度で目的変数が順序尺度の時

図5.5.2の右上の図のように説明変数を0/1のダミーデータに変換し、目的変数として順位を用いた回帰分析を行うと回帰係数が順位平均値の差に、回帰係数の検定がクリスカル・ウォーリスのH検定またはウィルコクソンの2標本検定になります。 つまり群によって順位平均値が違うかどうかを検定することは群の違いが目的変数に影響を及ぼすかどうかを検討することに相当し、広い意味で回帰分析になるのです。 (→5.3 計数値の相関分析と回帰分析 (4)名義尺度と計量尺度または順序尺度の相関分析)

(g) 両方の変数が名義尺度の時

図5.5.2の右下の図のように2つの変数を0/1のダミーデータに変換し、それを用いて回帰分析を行うと回帰係数が出現率の差になり、回帰係数の検定がχ2検定になります。 つまり群によって出現率が違うかどうかを検定することは群の違いが目的変数に影響を及ぼすかどうかを検討することに相当し、広い意味で回帰分析になるのです。 (注5) (→5.3 計数値の相関分析と回帰分析 (2) 名義尺度の相関分析)

以上のように、色々な統計手法が広い意味で相関分析か回帰分析に相当することがわかると思います。 科学的研究では、ある項目と別の項目の間の関係を分析し、その間に相関関係または因果関係があるかどうか、あるとすれば相関関係はどの程度の強さか、または原因項目が結果項目にどのような影響を及ぼしているかということを分析するのが普通です。

したがって相関分析と回帰分析は科学的研究の基本的な分析手法ということになります。 そのため統計手法の多くが広義の相関分析か回帰分析に相当するのは当然と言えるでしょう。


(注1) 相関分析では2つの変数がどちらも確率変数であると想定します。 そして第1節の(注1)で説明したように、検定と推定を厳密に行いたい時は2つの変数が近似的に次のような2次元正規分布をすると仮定します。

確率密度関数:

μx、μy:xとyの母平均   σ2x、σ2y:xとyの母分散   ρ:xとyの母相関係数
D2:マハラノビスの平方距離(汎距離を平方した値)、自由度2のχ2分布に従う (→9.4 多変量正規分布とマハラノビスの汎距離付録1 各種の確率分布 (8) 多変量正規分布)

この2次元正規分布において、確率密度f(x,y)を一定にするとD2は一定になります。 そしてX=x-μx、Y=y-μyと置くと次のようになります。

上式は座標軸の原点を楕円の中心、つまりxとyの母平均の点に移動した時の楕円を表す式になります。 そして点(x,y)が楕円内に含まれる確率を(1-α)とすると、次のような関係があります。


D22(2,α):自由度2のχ2分布における100α%点

例えばα=0.05として(1-α)=0.95とすると次のようになります。 これを95%等確率偏差楕円または95%信頼楕円といいます。

D22(2,0.05)=5.991

変数が3つ以上の時は、2次元正規分布を多変量に拡張した多変量正規分布になります。 多変量正規分布については第9章で説明します。 (→9.4 多変量の場合)

母平均や母分散や母相関係数といった母集団のパラメーターが不明で、標本集団のデータから推測したパラメーターを用いる時は次のようになります。 ただしこの式はパラメーターの推測誤差は考慮しておらず、それぞれのパラメーターは点推定値を用いています。

D2=2F(2,φR,α)  X=x - mx   Y=y - my


mx、my:xとyの標本平均  V(x)、V(y):xとyの不偏分散   r:xとyの相関係数

信頼楕円は個々のプロットの100(1-α)%が含まれる範囲を2次元的に表したものです。 それに対して第1章で説明した信頼区間は標本平均の100(1-α)%が含まれる範囲を1次元的に表したものです。 そこで2次元の時にxとyの標本平均のプロット(mx,my)の100(1-α)%が含まれる範囲を計算すると次のようになります。 (→1.4 推定)

:mxの分散      :myの分散   
:mxとmyの共分散
  

このように標本平均のプロット(mx,my)の100(1-α)%が含まれる範囲はSDの代わりにSEを使用したものになり、信頼楕円の半径を√nで割った楕円になります。 混乱を避けるために1次元と2次元の用語を統一するとしたら、この楕円のことを100(1-α)%信頼楕円(confidence ellipse)と呼ぶ方が良いと思います。 そして1次元の時に100(1-α)%のデータが含まれる範囲を100(1-α)%許容限界(tolerance limit)と呼ぶことがあるので、100(1-α)%等確率偏差楕円のことは100(1-α)%許容楕円(tolerance ellipse)と呼ぶべきでしょう。

また1次元の時にデータが異常値かどうかをチェックするための棄却検定という手法がありました。 この棄却検定で計算される棄却範囲は標本平均の誤差とデータのバラツキを合わせた時の信頼区間、つまり標本平均の推測誤差まで考慮した時に母集団のデータの100(1-α)%が含まれる範囲に相当します。 この範囲のことを100(1-α)%棄却限界と呼ぶことがあります。 (→2.6 尺度合わせと異常値)

それと同様の範囲を2次元で計算すると次のようになります。 これは意味としては100(1-α)%棄却楕円ですが、通常は100(1-α)%予測楕円(prediction ellipse)と呼ばれます。 一般に母集団のパラメーターは不明ですから、母集団のデータの100(1-α)%が含まれる範囲としては許容楕円よりもこの予測楕円を用いる方が合理的です。

:mxに誤差がある時の不偏分散   :myに誤差がある時の不偏分散
:mxとmyに誤差がある時の共分散
  
図5.5.3 信頼楕円・許容楕円・棄却楕円

ちなみに信頼楕円と回帰直線の交点を求めてみましょう。 信頼楕円の式をYについて解くと次のようになります。


かつ

回帰直線をXとYで表すと次のようになります。

直線回帰式:y=a + bx
  

この式のYを信頼楕円の式に代入して、信頼楕円と直線回帰式の交点を求めると次のようになります。



… Xの最小値と最大値。 この時

回帰直線は信頼楕円の長軸と一致すると思われがちですが、実はそうではなく上記のようにXの最小値と最大値つまりy軸と平行に引いた直線と信頼楕円との接点を通ります。 そのため信頼楕円の長軸よりも傾きが少し小さくなります。 そしてxとyを入れ替えた回帰直線つまりyの値からxの値を推定する回帰直線は、x軸と平行に引いた直線と信頼楕円との接点を通ります。 そのため信頼楕円の長軸よりも傾きが少し急になります。 これらのことは図5.5.3を見れば感覚的に納得できる思います。

一般に楕円は座標軸を回転すれば簡単な式で表すことができます。 信頼楕円の場合は、次の式から求められるθだけ座標軸を回転すれば簡単な式で表すことができます。 その簡単な式から楕円の長軸の長さと短軸の長さ、そして長軸の式を求めることができます。


  
C(x,y)=0、V(x)>V(y)の時:、C(x,y)=0、V(x)<V(y)の時:
C(x,y)>0、V(x)>V(y)の時:、C(x,y)<0、V(x)<V(y)の時:
C(x,y)<0、V(x)>V(y)の時:、C(x,y)>0、V(x)<V(y)の時:
C(x,y)>0、V(x)=V(y)の時:、C(x,y)<0、V(x)=V(y)の時:
回転後の楕円の式:a'X'2 + b'Y'2=2F(2,φR,α)(1-r2)V(x)V(y)
ただしX'とY'は回転後のX座標とY座標、a'、b'は次の方程式の2根である。
t2 - {V(x)+V(y)}t + V(x)V(y)(1-r2)=0

と置くと

※a'<b'とすればaが長軸、bが短軸になる
長軸の傾き:bm=tan(θ)   長軸の式:y=(my - bmmx) + bmx=am + bmx
※x1=x、x2=yとした主成分分析における第1主成分軸ベクトルを1=[a11 a12]'とすると

この信頼楕円の長軸は主成分分析の第1主成分軸と一致します。 そして長軸の式のことを主軸回帰(MA回帰:Major axis regression)または主成分回帰と呼び、xとyの両方に誤差がある時の回帰直線として利用することがあります。 しかし回帰分析はxには誤差がなく、yだけに誤差がある時の分析法であり、前向き研究で得られたデータを分析するための手法です。 xとyの両方に誤差がある時は、回帰分析ではなく相関分析や主成分分析または因子分析といった横断的研究から得られたデータを分析するための手法を用いるべきでしょう。

ちなみに信頼楕円の長軸の傾きはV(x)とV(y)とV(x,y)の大小関係に依存します。 そのため図5.5.3のようなグラフを描く時に、X軸とY軸を異なる縮尺にすると見かけ上の長軸の傾きが変わってしまいます。 そしてX軸とY軸を標準化して標準偏差単位にすると、信頼楕円の見かけ上の長軸の傾きは必ず45度または-45度になります。 この見かけ上の長軸の傾きの式を元のデータの単位に戻すと、次のようにxからyを回帰した時の回帰係数と、yからxを回帰した時の回帰係数の幾何平均になると同時に、yとxの分散比の平方根にもなります。


bxy:x→yの回帰係数  byx:y→xの回帰係数   Fyx:yとxの分散比

この傾きbsを用いた回帰直線のことを標準主軸回帰(SMA回帰:Standard Major axis regression)または幾何平均回帰(Geometric Mean regression)と呼び、主軸回帰と同じようにxとyの両方に誤差がある時の回帰直線として利用することがあります。 X軸とY軸を標準偏差単位でグラフ化した時、この回帰直線の傾きは45°になり、信頼楕円の見かけ上の長軸と一致します。 しかし計算原理からわかるように、この回帰直線にはbxyとbyxが両方とも負の場合、回帰係数bsが正になってしまうという致命的な欠点があります。 したがってこの回帰直線はbxyとbyxがどちらも正の時しか意味を持ちません

このようにX軸とY軸の縮尺を変えると、信頼楕円の長軸の見かけ上の傾きは変わります。 しかし普通の回帰直線が信頼楕円の最大値と最小値を通るという関係は変わらないため、どんな場合でも回帰直線はy軸と平行に引いた直線と信頼楕円との接点を通ります。 そしてX軸とY軸を標準化して標準偏差単位にすると、回帰直線の傾きは相関係数と一致します。

なお座標軸を回転する前の座標(X,Y)と回転後の座標(X',Y')の関係は、ここと同じ雑学コーナーに展示してある「ベクトルと行列」の第7章をご覧ください。 (→「ベクトルと行列・第7章 逆行列」)

(注2) 2つの確率変数が名義尺度で、それを0/1のダミー変数で表した時、データの分布は二項分布的になります。 そのため二項分布を正規分布で近似し、さらにそれを平方したχ2分布を利用して相関係数の検定を行います。 それがマンテル・ヘンツェルの検定です。

出現率の差の検定に用いるχ2検定は回帰係数の検定に相当し、マンテル・ヘンツェルの検定よりもわずかに大きいχ2値になります。 しかしそれは離散分布を連続分布で近似する時のわずかな違いであり、本質的な違いではありません。 その証拠に直接確率計算はどちらも同じものになります。 (→5.3 計数値の相関分析と回帰分析 (注2))

(注3) 相関分析と同様に回帰分析の場合も信頼区間を求めることができます。 まずyの推測値の信頼区間は次のようになります。 この信頼区間は母集団のy推測値の100(1-α)%が含まれる範囲を表し、信頼限界と呼ぶことが多いようです。




x=x0の時のy推測値の100(1-α)%信頼限界:
mx:xの標本平均  Sxx:xの平方和  VR:残差分散
:y推定値とmyの共分散   t(n-2,α):自由度(n-2)のt分布における100α%点

この100(1-α)%信頼限界において、x=mxの時の値を計算すると次のようになります。

これはt値と残差分散が少し異なるだけで、平均値の信頼限界(信頼区間)とほぼ同じ式であることがわかると思います。 つまり回帰直線は平均値を2次元に拡張したものに相当し、y推測値の信頼限界は平均値の信頼限界を2次元に拡張したものに相当することになります。 これを利用して、平均値の信頼限界に基づいて試験の必要例数を求めるのと同様の方法で回帰分析の必要例数を求めることができます。 (→1.4 推定)

また|x-mx|をxの標準偏差SDxと同じにすると次のようになります。

この式から信頼限界の幅はx=mxの時が最も狭く、xがmxから離れるほど広くなり、x=mx±SDxの時は約√2倍になることがわかります。 そして(1/n)項と同様に{(x-mx)2/Sxx}項もnが大きくなるほど小さくなることもわかると思います。 この式を利用して、平均値の信頼限界に基づいて試験の必要例数を求めるのと同様の方法で回帰分析の必要例数を求めることができます。 (→1.8 科学的研究の種類 (注1))

次にyの信頼限界を求めてみましょう。 もしaとbに誤差がない、つまりy推測値に誤差がないとすると次のようになります。 これが許容限界になります。


x=x0の時のyの100(1-α)%許容限界:
x=mxの時:

しかし実際にはaとbには誤差があるので次のようになります。 これが棄却限界です。 回帰分析の場合は棄却限界のことを予測限界(prediction limit)と呼びます。


x=x0の時のyの100(1-α)%予測限界:
x=mxの時:
図5.5.4 信頼限界・許容限界・予測限界

説明変数が2つ以上になった重回帰分析でも、これと同様に3種類の信頼限界を計算することができます。 重回帰分析の信頼限界については第7章で説明します。 (→7.2 重回帰分析結果の解釈 (注3))

通常、回帰分析ではxの値を指定してyの値を推測します。 しかしその逆に、yの値を指定してxの値を逆推定したい時もたまにあります。 その場合、xの逆推定値は次のようにして回帰式から逆算することができます。

xの逆推定値:

この場合、yにもbにも誤差があるのでxの逆推定値の信頼区間は少し複雑になります。 一般に、2つの確率変数xとyの比の信頼区間は次のようなフィーラー(Fieller)の式で求めます。


  t=t(φ,α):自由度φのt分布における100α%点

g<0.1の時はg=0とした近似式も用いられます。 そしてこの近似式はデルタ法(delta method)によって求めた比の分散を用いた信頼区間と一致します。 (→2.4 差と比とパーセントの使い分け (注2))


… デルタ法による近似分散

このフィーラーの式を利用して、xの逆推定値の信頼限界と予測限界を求めると次のようになります。

○100(1-α)%信頼限界:回帰直線上のy推測値として特定の値を指定した時にxの逆推定値の100(1-α)%が含まれる範囲

     C(yd,b)=0
  t=t(n-2,α):自由度(n-2)のt分布における100α%点


※g<0.1の時はg=0とした次のような近似式も用いられる。

○100(1-α)%予測限界(棄却限界):回帰直線を求めたデータとは独立にyの値を観測した時にxの逆推定値の100(1-α)%が含まれる範囲


  C(yd,b)=0

※g=0とした近似式

この逆推定に用いたy推定値とyの信頼限界曲線の交点を求めてみましょう。


このように2本の信頼限界曲線上でy推定値=y推定値0になる時のxは、g=0とした時のx0の信頼限界に相当します。 つまり回帰直線上のy推定値として特定の値を指定した時のxの逆推定値はy=y推定値という直線と回帰直線の交点になり、逆推定値の信頼限界はy=y推定値という直線とy推定値の2本の信頼限界曲線の交点付近になるわけです。 そしてこの関係は予測限界についても同様に成り立ちます。

xの逆推定値とその予測限界は用量反応直線を利用した用量の逆推定で用いられます。 (→13.1 用量反応直線 (注2))

(注4) 目的変数が確率変数であり、それが0/1のダミー変数のため回帰誤差は二項分布的になります。 そこで二項分布を正規分布で近似し、さらにそれを平方したχ2分布を利用して回帰係数の検定を行います。 それがコクラン・アーミテージの傾向検定です。 つまり目的変数を0/1のダミー変数で表した回帰分析は出現率の回帰分析に相当します。 (→5.3 計数値の相関分析と回帰分析 (注4))

(注5) 目的変数が確率変数であり、それが0/1のダミー変数のため回帰誤差は二項分布的になります。 そこで二項分布を正規分布で近似し、さらにそれを平方したχ2分布を利用して回帰係数の検定を行います。 そして説明変数も0/1のダミー変数ですから、回帰係数の検定は出現率の差の検定に用いるχ2検定になります。 それに対してマンテル・ヘンツェルの検定は、原理的には相関係数の検定に相当します。 (→5.3 計数値の相関分析と回帰分析 (注2))