玄関雑学の部屋雑学コーナー統計学入門

5.5 各種手法の相互関係

相関分析または回帰分析と他の手法との間には深い関係があります。 そのことはこれまでにも各手法の解説の中で説明してきましたが、ここでその関係をまとめておきましょう。

(1) 相関分析

相関分析は2つの変数の間に特定の因果関係を想定せず、どちらの変数も確率変数であるという前提で適用します。 したがって相関分析が厳密に適用できるのは、横断的研究で得られたデータだけということになります。 そしてこの場合は2つの変数の間の現象論的な相関関係を要約し、因果関係の有無を探索することが主目的になります。 (注1) (→5.1 相関係数と回帰直線 (注5))

図5.17 相関分析と他の手法の関係
表5.21 相関分析系の手法の相互関係
 変数2(確率変数)
計量尺度順序尺度名義尺度
変数1
(確率変数)
計量尺度(ピアソンの)相関係数+検定スペアマンの順位相関係数+検定相関比+一元配置分散分析
順序尺度スペアマンの順位相関係数+検定スペアマンの順位相関係数+検定順位相関比+クリスカル・ウォーリスのH検定
名義尺度相関比+一元配置分散分析順位相関比+クリスカル・ウォーリスのH検定クラメールの連関係数+χ2検定
4分点相関係数(φ係数)+マンテル・ヘンツェルの検定

(a) 2つの変数が計量尺度の時

最も基本的であり、図5.17の左上の図のように普通の相関係数rを求め、その検定および推定を行います。 そして2つの変数が情報をどの程度共有しているかを表す指標として、寄与率を求めます。 (→5.1 相関係数と回帰直線 (1) 相関分析)

(b) 一方の変数が計量尺度でもう一方の変数が順序尺度または両方の変数が順序尺度の時

図5.17の左下の図のように2つの変数を順位データに変換し、それを用いて相関分析を行うと、スペアマンの順位相関係数rsとその検定になります。 (→5.3 計数値の相関と回帰 (1) 順序尺度の相関)

(c) 一方の変数が計量尺度でもう一方の変数が名義尺度の時

図5.17の右上の図のように名義尺度の変数を0/1のダミーデータに変換し、それを用いて相関分析を行うと、相関係数が相関比ηになり、その検定が一元配置分散分析または2標本t検定になります。 (→5.3 計数値の相関と回帰 (3) 名義尺度と計量尺度または順序の相関)

(d) 一方の変数が順序尺度でもう一方の変数が名義尺度の時

図5.17の右上の図のように名義尺度の変数を0/1のダミーデータに変換し、それを用いて相関分析を行うと、相関係数が順序相関比になり、その検定がクリスカル・ウォーリスのH検定またはウィルコクソンの順位和検定になります。 (→5.3 計数値の相関と回帰 (3) 名義尺度と計量尺度または順序尺度の相関)

(e) 両方の変数が名義尺度の時

図5.17の右下の図のように名義尺度の変数を0/1のダミーデータに変換し、それを用いて相関分析を行うと、相関係数が4分点相関係数またはクラメールの連関係数θ2の平方根になり、その検定がχ2検定またはマンテル・ヘンツェルの検定になります。 つまり2種類の分類の独立性の検定とは2種類の分類の関連性の検定でもあり、広い意味で相関分析になるのです。 (注2) (→5.3 計数値の相関と回帰 (2) 名義尺度の相関)

(2) 回帰分析

回帰分析は説明変数が原因であり、目的変数が結果でありかつ確率変数であるという前提で計算します。 したがって回帰分析が厳密に適用できるのは、前向き研究で得られたデータだけということになります。 そしてこの場合は説明変数が目的変数に及ぼしている影響を分析し、因果関係の検証を行うことが主目的になります。 (注3)

図5.18 回帰分析と他の手法の関係
表5.22 回帰分析系の手法の相互関係
 目的変数Y(確率変数)
計量尺度順序尺度名義尺度
説明変数X
(非確率変数)
計量尺度直線回帰式+回帰係数の検定順序ロジスティック回帰分析コクラン・アーミテージの傾向検定
ロジスティック回帰分析
順序尺度直線回帰式+回帰係数の検定順序ロジスティック回帰分析コクラン・アーミテージの傾向検定
ロジスティック回帰分析
名義尺度平均値の差+一元配置分散分析順位平均の差+クリスカル・ウォーリスのH検定出現率の差+χ2検定

(a) 2つの変数が計量尺度の時

最も基本的であり、図5.18の左上の図のように普通の直線回帰式を求め、その回帰係数の検定および推定を行います。 そして直線回帰式の当てはまり具合を表す指標として寄与率を求めます。 (→5.1 相関係数と回帰直線 (2)回帰分析)

(b) 説明変数が順序尺度で目的変数が計量尺度の時

この場合は順序尺度のデータを適当に計量尺度化し、それを用いて回帰分析を行います。 説明変数は確率変数ではないため、目的変数との関係が直線的であり、かつ実質科学的に妥当なものであれば、どのように計量尺度化してもかまいません。 (→5.1 相関係数と回帰直線 (2) 回帰分析)

(c) 説明変数が計量尺度または順序尺度で目的変数が順序尺度の時

この場合は順序尺度を適当に計量尺度化して回帰分析を適用するか、それとも順序ロジスティック回帰分析を適用します。 順序ロジスティック回帰分析については第10章で説明します。 (→10.5 順序ロジスティック回帰分析)

(d) 説明変数が計量尺度または順序尺度で目的変数が名義尺度の時

図5.18の左下の図のように目的変数を0/1のダミーデータに変換し、それを用いて回帰分析を行うと、回帰係数の検定がコクラン・アーミテージの傾向検定になります。 (注4) (→5.3 計数値の相関と回帰 (4) 名義尺度と計量尺度または順序尺度の回帰)

目的変数を出現率に変換し、さらにそれをロジスティック変換してから回帰分析を適用するとロジスティック回帰分析になります。 ロジスティック回帰分析については第10章で説明します。 (→10.1 ロジスティック回帰分析の原理)

またデータが前向き研究ではなく後ろ向き研究で得られた時は、回帰分析ではなく判別分析を適用します。 判別分析は目的変数が0/1のダミー変数の時の回帰分析に相当しますが、目的変数ではなく説明変数が確率変数のため、最小2乗法の代わりに最尤法という特殊な方法を使って回帰分析を行います。 (→9.1 判別分析の原理)

(e) 説明変数が名義尺度で目的変数が計量尺度の時

図5.18の右上の図のように説明変数を0/1のダミーデータに変換し、それを用いて回帰分析を行うと、回帰係数が平均値の差に、回帰係数の検定が一元配置分散分析または2標本t検定になり、寄与率が相関比の平方になります。 つまり群によって平均値が違うかどうかを検定することは、群の違いが目的変数に影響を及ぼすかどうかを検討することに相当し、広い意味で回帰分析になるのです。 (→5.3 計数値の相関と回帰 (4) 名義尺度と計量尺度または順序尺度の回帰)

(f) 説明変数が名義尺度で目的変数が順序尺度の時

図5.18の右上の図のように説明変数を0/1のダミーデータに変換し、目的変数として順位を用いた回帰分析を行うと、回帰係数が順位平均の差に、回帰係数の検定がクリスカル・ウォーリスのH検定またはウィルコクソンの順位和検定になり、寄与率が順位相関比の平方になります。 つまり群によって順位平均が違うかどうかを検定することは、群の違いが目的変数に影響を及ぼすかどうかを検討することに相当し、広い意味で回帰分析になるのです。 (→5.3 計数値の相関と回帰 (4) 名義尺度と計量尺度または順序尺度の相関)

(g) 両方の変数が名義尺度の時

図5.18の右下の図のように2つの変数を0/1のダミーデータに変換し、それを用いて回帰分析を行うと、回帰係数が出現率の差になり、回帰係数の検定がχ2検定になり、寄与率がクラメールの連関係数になります。 つまり群によって出現率が違うかどうかを検定することは、群の違いが目的変数に影響を及ぼすかどうかを検討することに相当し、広い意味で回帰分析になるのです。 (注5) (→5.3 計数値の相関と回帰 (2) 名義尺度の相関)

以上のように、色々な統計手法が広い意味で相関分析か回帰分析に相当することがわかると思います。 科学的研究では、ある項目と別の項目の間の関係を分析し、その間に因果関係があるかどうか、あるとすれば原因となる項目が結果となる項目にどのような影響を及ぼしているか、ということを分析するのが普通です。 したがって相関分析と回帰分析は、科学的研究の基本的な分析手法ということになります。

その意味からすれば、統計学的手法の多くが広義の相関分析か回帰分析に相当するのは当然のことといえるでしょう。


(注1) 相関分析では2つの変数がどちらも確率変数であると想定します。 そして原則として、次のような2次元正規分布をすると仮定します。



μx、μy:xとyの母平均  σ2x、σ2y:xとyの母分散
ρ:xとyの母相関係数
D2:マハラノビスの汎距離。自由度2のχ2分布に従う

この2次元正規分布において、確率密度f(x,y)を一定にするとD2は一定になります。 そしてX=x-μx、Y=y-μyと置くと次のようになります。

上式は座標軸の原点を楕円の中心、つまりxとyの母平均の点に移動した時の楕円を表す式になります。 そして点(x,y)が楕円内に含まれる確率を(1-α)とすると次のようになります。


D22(2,α):自由度2のχ2分布における100α%点

例えばα=0.05として(1-α)=0.95とすると次のようになります。 これを「95%等確率偏差楕円」または「95%信頼楕円」といいます。

D22(2,0.05)=5.991

変数の数が3つ以上の場合は、2次元正規分布を多変量に拡張した多変量正規分布になります。 多変量正規分布については第9章で説明します。 (→9.4 多変量の場合)

母平均や母分散や母相関係数といった母集団のパラメーターが不明で、標本集団のデータから推測したパラメーターを用いる場合は次のようになります。 ただしこの式はパラメーターの推測誤差は考慮しておらず、それぞれのパラメーターを点推定した値を用いています。

D2=2F(2,φR,α)
X=x-mx  Y=y-my


mx、my:xとyの標本平均  V(x)、V(y):xとyの不偏分散
r:xとyの相関係数

信頼楕円は、個々のプロットの100(1-α)%が含まれる範囲を2次元的に表したものです。 それに対して第1章で説明した信頼区間は母平均値が100(1-α)%の確率で存在する範囲、つまり標本平均の100(1-α)%が含まれる範囲を1次元的に表したものです。 そこで2次元の場合にxとyの母平均のプロット(μxy)が100(1-α)%の確率で存在する範囲、つまり標本平均のプロット(mx,my)の100(1-α)%が含まれる範囲を計算すると次のようになります。 (→1.4 推定)





このように標本平均のプロット(mx,my)の100(1-α)%が含まれる範囲はSDの代わりにSEを使用したものになり、信頼楕円の半径を√nで割った楕円になります。 混乱を避けるために1次元と2次元の用語を統一するとしたら、この楕円のことを「100(1-α)%信頼楕円」と呼ぶ方が良いと思います。 そして1次元の場合に100(1-α)%のデータが含まれる範囲を「100(1-α)%許容限界(tolerance limit)」と呼ぶことがあるので、100(1-α)%等確率偏差楕円のことは「100(1-α)%許容楕円」と呼ぶべきでしょう。

また1次元の場合に、データが異常値かどうかをチェックするための棄却検定という手法がありました。 この棄却検定で計算される棄却範囲は標本平均の誤差とデータのバラツキを合わせた時の信頼区間、つまり母平均の推測誤差まで考慮した時に、母集団のデータの100(1-α)%が含まれる範囲に相当します。 この範囲のことを「100(1-α)%棄却限界」と呼ぶことがあります。 (→2.6 尺度合わせと異常値)

それと同様の範囲を2次元の場合で計算すると次のようになります。 これを「100(1-α)%棄却楕円」と呼ぶことにしましょう。 一般に母集団のパラメーターは不明ですから、母集団のデータの100(1-α)%が含まれる範囲としては許容楕円よりもこの棄却楕円を用いる方が合理的です。





図5.19 信頼楕円・許容楕円・棄却楕円

ちなみに信頼楕円と回帰直線の交点を求めてみましょう。 信頼楕円の式をYについて解くと次のようになります。


かつ

回帰直線をXとYで表すと次のようになります。

直線回帰式:y=a+bx


この式のYを信頼楕円の式に代入して、信頼楕円と直線回帰式の交点を求めると次のようになります。



…Xの最小値と最大値
この時

回帰直線は信頼楕円の長軸と一致すると思われがちですが、実はそうではなく、上記のようにXの最小値と最大値、つまりy軸と平行に引いた直線と信頼楕円との接点を通ります。 このため、信頼楕円の長軸よりも傾きが少し小さくなります。 そしてxとyを入れ替えた回帰直線、つまりyの値からxの値を推定する回帰直線は、x軸と平行に引いた直線と信頼楕円との接点を通ります。 このため、信頼楕円の長軸よりも傾きが少し急になります。 これらのことは、図5.19を見れば感覚的に納得できる思います。

一般に、楕円は座標軸を回転すれば簡単な式で表すことができます。 信頼楕円の場合は、次の式から求められるθだけ座標軸を回転すれば簡単な式で表すことができます。 その簡単な式から楕円の長軸の長さと短軸の長さ、そして長軸の式を求めることができます。




V(x,y)=0、V(x)>V(y)の時:、 V(x,y)=0、V(x)<V(y)の時:
V(x,y)>0、V(x)>V(y)の時:、 V(x,y)<0、V(x)<V(y)の時:
V(x,y)<0、V(x)>V(y)の時:、 V(x,y)>0、V(x)<V(y)の時:
V(x,y)>0、V(x)=V(y)の時:、 V(x,y)<0、V(x)=V(y)の時:
回転後の楕円の式:
ただしX'とY'は回転後のX座標とY座標、a'、b'は次の方程式の2根である。


と置くと

※a'<b'とすればaが長軸、bが短軸になる
長軸の傾き:
長軸の式:

この信頼楕円の長軸は主成分分析の第1主成分軸と一致します。 そして長軸の式のことを「主軸回帰(MA回帰:Major axis regression)」または「主成分回帰」と呼び、xとyの両方に誤差がある時の回帰直線として利用することがあります。

しかし回帰分析はxには誤差がなく、yだけに誤差がある時の分析法であり、前向き研究で得られたデータを分析するための手法です。 xとyの両方に誤差がある場合は、回帰分析ではなく相関分析や主成分分析または因子分析といった、横断的研究で得られたデータを分析するための手法を用いるべきでしょう。

ちなみに、信頼楕円の長軸の傾きはV(x)とV(y)とV(x,y)の大小関係に依存します。 このため図5.19のようなグラフを描く時に、X軸とY軸を異なる縮尺にすると見かけ上の長軸の傾きが変わってしまいます。 そしてX軸とY軸を標準化して標準偏差単位にすると、信頼楕円の長軸の傾きは必ず45度または-45度になります。

しかしX軸とY軸の縮尺を変えても、回帰直線が信頼楕円の最大値と最小値を通るという関係は変わらないため、どんな場合でも回帰直線はy軸と平行に引いた直線と信頼楕円との接点を通ります。 そしてX軸とY軸を標準化して標準偏差単位にすると、回帰直線の傾きは相関係数と一致します。

なお座標軸を回転する前の座標(X,Y)と回転後の座標(X',Y')の関係は、ここと同じ雑学コーナーに展示してある「ベクトルと行列」の第7章をご覧ください。 (→「ベクトルと行列・第7章 逆行列」)

(注2) 2つの変数が確率変数であり、それが0/1のダミー変数のため、データの分布は正規分布的ではなく二項分布的になります。 このため相関係数の検定は、t分布ではなくχ2分布を利用して行います。 それがマンテル・ヘンツェルの検定です。 普通のχ2検定は回帰係数の検定に相当し、マンテル・ヘンツェルの検定よりもわずかに大きいχ2値になります。 しかしそれは離散分布を連続分布で近似する時のわずかな違いであり、本質的な違いではありません。 その証拠に、直接確率計算はどちらも同じものになります。 (→5.3 計数値の相関と回帰 (注2))

(注3) 相関分析と同様に、回帰分析の場合も信頼区間を求めることができます。 この場合の信頼区間は母集団の回帰直線が100(1-α)%の確率で含まれる範囲、つまり標本集団の回帰直線の100(1-α)%が含まれる範囲を表します。


mx:xの標本平均 Sxx:xの平方和 VR:残差分散
t(n-2,α):自由度(n-2)のt分布における100α%点

この100(1-α)%信頼区間において、xがmxの時の値を計算すると次のようになります。

これはt値と残差分散が少し異なるだけで、平均値の信頼区間とほぼ同じ式であることがわかると思います。 つまり、回帰直線は平均値を2次元に拡張したものに相当し、回帰直線の信頼区間は平均値の信頼区間を2次元に拡張したものに相当することになります。

信頼区間と同様に、回帰直線の許容限界と棄却限界も次のようにして計算することができます。 回帰分析の場合は、棄却限界のことを「予測限界(prediction limit)」と呼び、個々のプロットが含まれる範囲として普通はこちらを用います。

・100(1-α)%許容限界…回帰直線に誤差がない場合に、個々のプロットの100(1-α)%が含まれる範囲


・100(1-α)%棄却限界(予測限界)…回帰直線に誤差がある場合に、個々のプロットの100(1-α)%が含まれる範囲


図5.20 信頼区間・許容限界・予測限界

説明変数が2つ以上になった重回帰分析でも、これと同様に3種類の信頼区間を計算することができます。 重回帰分析の信頼区間については、第7章で説明します。 (→7.2 重回帰分析結果の解釈 (注3))

(注4) 目的変数が確率変数であり、それが0/1のダミー変数のため、回帰誤差は正規分布的ではなく二項分布的になります。 このため回帰係数の検定は、t分布ではなくχ2分布を利用して行います。 それがコクラン・アーミテージの傾向検定です。 つまり目的変数を0/1のダミー変数で表した回帰分析は、出現率の回帰分析に相当します。 (→5.3 計数値の相関と回帰 (注4))

(注5) 目的変数が確率変数であり、それが0/1のダミー変数のため、回帰誤差は正規分布的ではなく二項分布的になります。 このため回帰係数の検定は、t分布ではなくχ2分布を利用して行います。 そして説明変数も0/1のダミー変数ですから、回帰係数の検定は出現率の差の検定になり、普通のχ2検定になります。

それに対してマンテル・ヘンツェルの検定は、原理的には相関係数の検定に相当します。 ただし、両者は本質的には同じ手法です。 (→5.3 計数値の相関と回帰 (注2))