玄関雑学の部屋雑学コーナー統計学入門

付録3 中心極限定理のシミュレーション−回帰係数と相関係数

1.回帰係数と相関係数の分布

回帰係数は原理的に平均値と同じ統計量なので、中心極限定理によって漸近的に正規分布をします。 それに対して相関係数は2種類のデータが2次元正規分布に従うと仮定すると次のような分布をします。 (→5.1 相関係数と回帰直線 (注1))


n:例数 ρ:母相関係数 r:標本相関係数
:ガウス型超幾何関数
:ポッホハマー記号で表した上昇階乗ベキ
2次元正規分布の確率密度関数:

μx、μy:xとyの母平均   σ2x、σ2y:xとyの母分散   ρ:xとyの母相関係数
D2:マハラノビスの平方距離(汎距離を平方した値)

2つの変数が無相関つまりρ=0の時、密度関数は簡単な式になり、その式に相関係数の検定用のt値を代入すると自由度φ=n-2のt分布になります。

ρ=0の時:
上式にを代入すると

このことからρ=0の時、相関係数はt分布をすることがわかります。 そしてt分布はn→∞の時に正規分布になるので、回帰係数と同様に相関係数も漸近的に正規分布をすることになります。 そこで回帰係数と相関係数について中心極限定理のシミュレーションをしてみましょう。

2.回帰係数が0で回帰誤差が正規分布する時

回帰係数は回帰誤差が正規分布をする時、正確に正規分布をします。 そして相関係数はρ=0の時に回帰係数と同じ分布をするので、一方の変数の回帰誤差が正規分布をする時は正確に正規分布をします。 そして回帰分析では目的変数は確率変数ですが、説明変数は確率分布ではなく研究者が任意の値を指定します。 そこで次のような手順で説明変数xと目的変数yを作成し、2変量の母集団にします。 (→5.1 相関係数と回帰直線 (注2))

  1. 半閉区間(-2,2]を等間隔に10万分割して10万個のxを作る。
  2. 平均値=0、標準偏差=1の正規乱数を10万個発生させてyにし、それをxに対応させる。
  3. これは回帰係数が0のy=ε 〜 N(0,12)という関数になり、理論上の母回帰係数と母相関係数はどちらも0になる。

この母集団の散布図が図 付録3.1です。 ただし10万個のプロットをまともに描くと黒い帯になってしまうので、見やすいように間引いてプロットしてあります。 この散布図を見るとxは等間隔に一様分布(確率分布ではなく任意の値を指定した分布)をしていて、yは正規分布状に分布していることがわかると思います。

この母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差(=統計量の標準偏差)が同じ値の理論累積分布も描いたグラフが図 付録3.2と図 付録3.3です。

図 付録3.1 母集団(回帰誤差:正規乱数) 図 付録3.2 標本回帰係数(回帰誤差:正規乱数) 図 付録3.3 標本相関係数(回帰誤差:正規乱数)

図 付録3.2の赤色の曲線は標本集団が10例の時の標本回帰係数の累積度数分布であり、その曲線とほとんど重なった黒色の点線は累積正規分布です。 そして緑色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が100例の時の標本回帰係数の累積度数分布と累積正規分布であり、青色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が1000例の時の標本回帰係数の累積度数分布と累積正規分布です。

一方、図 付録3.3の赤色の曲線は標本集団が10例の時の標本相関係数の累積度数分布であり、その曲線とかなり重なった黒色の点線は自由度8の累積t分布です。 そして緑色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が100例の時の標本相関係数の累積度数分布と自由度98の累積t分布であり、青色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が1000例の時の標本相関係数の累積度数分布と自由度998の累積t分布です。

また標本回帰係数と標本相関係数を求める操作を繰り返した時の、それぞれの平均値、標準誤差、歪度、尖度の推移をグラフにしたのが図 付録3.4〜図 付録3.11です。 各グラフの黒色の点線で描いた横軸に平行な直線は、それぞれの指標の理論値を表します。

図 付録3.4 平均値の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.5 平均値の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.6 標準誤差の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.7 標準誤差の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.8 歪度の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.9 歪度の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.10 尖度の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.11 尖度の推移(標本相関係数・回帰誤差:正規乱数)

標本相関係数はt分布をし、t分布は正規分布よりもわずかに背が低いので尖度が負になります。 図 付録3.11では標本集団の例数が10例の時は確かに尖度がわずかに負になっているものの、100例と1000例の時の尖度はほとんど0になっています。 このことから例数が100例以上あればt分布はほぼ正規分布になり、標本相関係数は近似的に正規分布をすることがわかると思います。

標本回帰係数と標本相関係数の最終的な分布の基礎統計量は次のようになります。 これらの基礎統計量と図 付録3.1〜図 付録3.11から、母集団の回帰誤差が近似的に正規分布をしている時は標本回帰係数は近似的に正規分布をし、標本相関係数は近似的に自由度(n-2)のt分布をし、例数が多いと近似的に正規分布をすることがわかると思います。

○母集団:母回帰係数=-0.00313531 母相関係数=-0.00362166
 X:母平均=0 母標準偏差=1.1547 母歪度√β1=0(左右対称) 母尖度β2=1.8(鈍峰、正規分布は3)
 Y:母平均=-0.00392886 母標準偏差=0.999636 母歪度√β1=-0.00538143(ほぼ左右対称) 母尖度β2=2.99569(ほぼ正規)

○標本集団のデータが10例の時
・標本回帰係数:標準誤差理論値=0.306059(母回帰係数と標本集団の例数と有限修正因子から求めた理論値)
 平均値=-0.00107817 標準誤差=0.314408 歪度g1=0.0778743(ほぼ左右対称) 尖度g2=0.989114(ほぼ正規、正規分布は0)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=-0.603〜βU=0.596729)に入った標本回帰係数の個数=9438(94.38%)
 母集団から求めた5%両側棄却域(95%両側信頼区間外)に入った標本回帰係数の個数=10000-9438=562(5.62%)
 標本集団から求めた95%両側信頼区間(自由度=8のt分布利用:標本集団によって微妙に異なる)に母回帰係数=-0.00313531が入った回数=9462(94.62%)
 標本集団から求めた5%両側棄却域(95%両側信頼区間外)に標本回帰係数が入った回数=10000-9462=538(5.38%)
・標本相関係数:標準誤差理論値=0.353535(母相関係数と標本集団の例数と有限修正因子から求めた理論値)
 平均値=-0.00236217 標準誤差=0.338564 歪度g1=0.00964801(ほぼ左右対称) 尖度g2=-0.592895(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=-0.631807〜ρU=0.627435)に入った標本相関係数の個数=9449(94.49%)
 母集団から求めた5%両側棄却域(自由度=8のt分布利用:ρL=-0.818875、ρU=0.811632)に入った標本相関係数の個数=34(0.34%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=-0.00362166が入った回数=9449(94.49%)
 標本集団から求めた5%両側棄却域(自由度=8のt分布利用:標本集団によって微妙に異なる)に標本相関係数が入った回数=538(5.38%)
※有限修正因子:母集団が有限の時、標本集団の統計量の分散が少し小さくなるのを補正するための値=
 n:母集団の例数 u:標本集団の例数

○標本集団のデータが100例の時
・標本回帰係数:標準誤差理論値=0.087406
 平均値=-0.00277604 標準誤差=0.0865076 歪度g1=0.0247907(ほぼ左右対称) 尖度g2=0.0737208(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=-0.174448〜βU=0.168177)に入った標本回帰係数の個数=9521(95.21%)
 母集団から求めた5%両側棄却域(95%両側信頼区間外)に入った標本回帰係数の個数=10000-9521=479(4.79%)
 標本集団から求めた95%両側信頼区間(自由度=98のt分布利用:標本集団によって微妙に異なる)に母回帰係数=-0.00313531が入った回数=9523(95.23%)
 標本集団から求めた5%両側棄却域(95%両側信頼区間外)に標本回帰係数が入った回数=10000-9523=477(4.77%)
・標本相関係数:標準誤差理論値=0.100965
 平均値=-0.0032196 標準誤差=0.0997388 歪度g1=0.0164184(ほぼ左右対称) 尖度g2=-0.000766472(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=-0.199898〜ρU=0.192934)に入った標本相関係数の個数=9518(95.18%)
 母集団から求めた5%両側棄却域(自由度=98のt分布利用:ρL=-0.203983、ρU=0.196739)に入った標本相関係数の個数=427(4.27%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=-0.00362166が入った回数=9518(95.18%)
 標本集団から求めた5%両側棄却域(自由度=98のt分布利用:標本集団によって微妙に異なる)に標本相関係数が入った回数=475(4.75%)

○標本集団のデータが1000例の時
・標本回帰係数:標準誤差理論値=0.0272662
 平均値=-0.00311405 標準誤差=0.0273688 歪度g1=0.0163826(ほぼ左右対称) 尖度g2=0.0354079(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=-0.056576〜βU=0.0503054)に入った標本回帰係数の個数=9494(94.94%)
 母集団から求めた5%両側棄却域(95%両側信頼区間外)に入った標本回帰係数の個数=10000-9494=506(5.06%)
 標本集団から求めた95%両側信頼区間(自由度=998のt分布利用:標本集団によって微妙に異なる)に母回帰係数=-0.00313531が入った回数=9500(95.00%)
 標本集団から求めた5%両側棄却域(95%両側信頼区間外)に標本回帰係数が入った回数=10000-9500=500(5.00%)
・標本相関係数:標準誤差理論値=0.0314957
 平均値=-0.00358867 標準誤差=0.0316122 歪度g1=0.0181869(ほぼ左右対称) 尖度g2=0.0334833(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=-0.0656〜ρU=0.0583845)に入った標本相関係数の個数=9502(95.02%)
 母集団から求めた5%両側棄却域(自由度=998のt分布利用:ρL=-0.0654271、ρU=0.0581838)に入った標本相関係数の個数=509(5.09%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=-0.00362166が入った回数=9502(95.02%)
 標本集団から求めた5%両側棄却域(自由度=998のt分布利用:標本集団によって微妙に異なる)に標本相関係数が入った回数=498(4.98%)

母集団の回帰誤差としてコンピュータで発生させた疑似正規乱数を用いたので、上記のように母回帰係数と母相関係数は正確に0にはなりません。 しかしどちらの値も絶対値が0.01未満ですから、事実上、0と考えて良いと思います。 そしてxの分布は一様分布なので母歪度は0で左右対称ですが、母尖度が1.8で鈍峰です。 それに対してyの分布は近似的に母平均値が0で母標準偏差が1の正規分布です。 そして母回帰係数が近似的に0なのでyがそのまま回帰誤差になります。

また上記のように標本集団の例数が10例の時も100例の時も1000例の時も標本回帰係数は近似的に正規分布をし、標本相関係数は近似的に自由度(n-2)のt分布をします。 そしてその平均値は例数が多いほど母回帰係数と母相関係数に近似し、標準誤差は標準誤差理論値と近似します。 この標準誤差理論値は標本回帰係数と標本相関係数の標準誤差を求める時と同様に、母回帰係数および母相関係数の分散と標本集団の例数と有限修正因子から理論的に求めることができます。 (→5.1 相関係数と回帰直線)

理論上、標本回帰係数は平均値が母回帰係数と同じ値で、標準誤差が標準誤差理論値と同じ値の正規分布をします。 そこで母回帰係数と標準誤差理論値を用いて推定の95%信頼区間と検定の5%棄却域を求めることができます。 例えば標本集団のデータが10例の時、上記のように95%信頼区間の下限はβL=-0.603で、上限はβU=0.596729になります。 そしてこの95%信頼区間に入った標本回帰係数の数は9438個であり、全体の94.38%でした。

さらにこの95%信頼区間外の領域が2.5%下側棄却域と2.5%上側棄却域になり、そこに入った標本回帰係数の数は10000-9438=562個であり、全体の5.62%でした。 これが母集団から求めた95%信頼区間と有意水準5%の検定結果です。

しかし実際のデータでは母回帰係数と標本回帰係数の標準誤差はたいてい不明です。 そのため母回帰係数として母回帰係数推定値――検定では帰無仮説で仮定した母回帰係数の値つまり0――を用い、標準誤差は標本集団のデータから求めた不偏分散を用いて計算します。 そのため標本集団ごとに信頼区間と棄却域が微妙に変化します。

しかしそれでも上記のように標本集団の例数が10例の時に95%信頼区間に入った標本回帰係数は9462個(94.62%)であり、5%棄却域に入った標本回帰係数は10000-9462=5384個(5.38%)でした。 これが標本集団から求めた95%信頼区間と有意水準5%の検定結果であり、普通の95%信頼区間と有意水準5%の検定結果です。

一方、母相関係数が0の時の標本相関係数は、理論的に平均値が0で標準誤差が標準誤差理論値と同じ値の自由度(n-2)のt分布をします。 そこで標準誤差理論値を用いて検定の5%棄却域を求めることができます。 しかし母相関係数が0ではない時は標本相関係数はt分布をしません。 そこで普通はフィッシャーのz変換を利用して標本相関係数を近似的に正規分布するように変換し、その近似正規分布を用いて95%信頼区間を求めます。 そのため95%信頼区間の上下限と5%棄却域の上下限が一致するとは限りません

例えば標本集団のデータが10例の時は、上記のようにフィッシャーのz変換を利用して求めた95%信頼区間の下限はρL=-0.631807で、上限はρU=0.627435になります。 そしてこの95%信頼区間に入った標本相関係数は9449個(94.49%)でした。

ところが自由度8のt分布から求めた95%信頼区間の下限はρL=-0.818875で、上限はρU=0.811632になり、フィッシャーのz変換を利用して求めた95%信頼区間と少し異なります。 そしてこの95%信頼区間外の領域が2.5%下側棄却域と2.5%上側棄却域になり、そこに入った標本相関係数は34個(0.34%)でした。 したがって95%信頼区間に入った標本相関係数は10000-34=9966個であり、フィッシャーのz変換を利用して求めた95%信頼区間に入った標本相関係数の個数(9449)よりも少し多くなっています。

これはフィッシャーのz変換を利用して求めた95%信頼区間とt分布から求めた95%信頼区間の違いだけではありません。 図 付録3.3の標本集団の例数が10例の時の標本相関係数の累積度数分布を見るとわかるように、例数が少ないので分布の両端がt分布から少しずれていることも影響しています。

その証拠に標本集団の例数が100例の時と1000例の時は標本相関係数の累積度数分布はt分布と非常によく近似しています。 そのためフィッシャーのz変換を利用して求めた95%信頼区間に入った標本相関係数の個数と、t分布から求めた95%信頼区間に入った標本相関係数の個数はよく似ています。

また標本集団から求める95%信頼区間つまり普通の95%信頼区間もフィッシャーのz変換を利用して求めます。 そして普通の5%棄却域は自由度(n-2)のt分布から求めます。 そのため両者の上下限は一致するとは限りません。 事実、標本集団の例数が10例の時、標本集団から求めた95%信頼区間に母相関係数が入った回数は9449回(94.49%)でした。 それに対して5%棄却域に標本相関係数が入った回数は538回(5.38%)ですから、t分布から求めた95%信頼区間に母相関係数が入った回数は10000-538=9462回になり、両者は一致しません。

それからフィッシャーのz変換を利用して求める95%信頼区間は相関係数の値と信頼係数と標本集団の例数に依存します。 そのため標本相関係数の平均値が母相関係数と一致すれば、母集団から求めた95%信頼区間に入る標本相関係数の個数と、標本集団から求めた95%信頼区間に母相関係数が入る回数は一致します。 したがって母集団と標本集団の整合性と推定結果と検定結果の整合性という意味では、推定も検定もフィッシャーのz変換を利用する方が合理的です。

一方、回帰係数の検定結果との整合性という意味では、検定は回帰係数の検定と同じt分布を利用する方が便利です。 そのため一般には相関係数の検定は回帰係数の検定と同じt分布を利用し、推定はフィッシャーのz変換を利用するという妥協案を採用することが多いと思います。

また上記のように標本集団の例数が100例の時も1000例の時も、母集団から求めた時も標本集団から求めた時も、回帰係数と相関係数の95%信頼区間と5%棄却域の結果はほぼ理論通りになっています。 このことから回帰誤差が近似的に正規分布する時は回帰係数と相関係数の推定結果と検定結果の信頼性は非常に高い、つまりxとyが2次元正規分布に従わなくても相関係数の推定結果と検定結果の信頼性は非常に高いことがわかると思います。

3.回帰係数が0ではなくて回帰誤差が正規分布する時

次に母回帰係数と母相関係数が0ではない時についてもシミュレーションをしてみましょう。 今度は次のような手順で説明変数xと目的変数yを作成し、2変量の母集団にします。

  1. 半閉区間(-2,2]を等間隔に10万分割して10万個のxを作る。
  2. 母回帰係数を0.5にするためにyfit=0.5・xという値を10万個作る。
  3. 平均値=0、標準偏差=1の正規乱数を10万個発生させてyfitに加え、それをyにする。

この母集団の散布図が図 付録3.12であり、図 付録3.1と同様に見やすいように間引いてプロットしてあります。 そして赤色の直線はxとyfitの関数です。 この散布図を見るとxは等間隔に一様分布していて、yの回帰誤差は正規分布状に分布していることがわかると思います。 この時、xは等間隔の一様分布であることとyは正規分布していないことに注意してください。

次に回帰係数が0の時と同様に、この母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差が同じ値の理論累積分布を描いたグラフが図 付録3.13と図 付録3.14です。 これらのグラフの曲線が表すものは図 付録3.2と図 付録3.3と同様です。

図 付録3.12 母集団(回帰誤差:正規乱数) 図 付録3.13 標本回帰係数(回帰誤差:正規乱数) 図 付録3.14 標本相関係数(回帰誤差:正規乱数)

標本回帰係数の分布の中心は母回帰係数の値になり、分布状態は回帰誤差だけに依存することを確認するために、実は図 付録3.12の正規乱数はわざと図 付録3.1と同じものを流用し、標本集団を無作為抽出する時の乱数も同じものを流用しています。 そのため図 付録3.13の累積度数分布は図 付録3.2の累積度数分布の平均を0.5に移動しただけで、形は全く同じです。

それに対して母相関係数が0ではない時は標本相関係数の分布はt分布にならず、xとyの分布に依存した特殊な分布になります。 そのため図 付録3.14の累積度数分布は図 付録3.3の累積度数分布の平均を0.5に移動しただけでなく、形が少し異なります。 このことは標本集団の例数が10例の時の累積度数分布がt分布から少しずれていることからわかると思います。 ただし標本集団の例数が多くなると中心極限定理によって正規分布に近似するので、例数が100例の時と1000例の時の累積度数分布は図 付録3.3の累積度数分布とよく似ています。

また母回帰係数が0の時と同様に、標本回帰係数と標本相関係数の平均値、標準誤差、歪度、尖度の推移をグラフにしたのが図 付録3.15〜図 付録3.22です。 標本回帰係数のグラフは平均値が0.5付近に平行移動しただけであり、標準誤差のグラフも歪度のグラフも尖度のグラフも母回帰係数が0の時と全く同じグラフです。

図 付録3.15 平均値の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.16 平均値の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.17 標準誤差の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.18 標準誤差の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.19 歪度の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.20 歪度の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.21 尖度の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.22 尖度の推移(標本相関係数・回帰誤差:正規乱数)

それに対して標本相関係数のグラフは母相関係数が0の時のグラフと比べるとt分布に対する近似が悪くなっています。 特に歪度が負の値になっていて、分布がわずかに右傾していることがわかります。 これは母相関係数が約0.5なので標本相関係数の分布の中心が0.5付近になっていて、しかも相関係数は上限が1なので分布の右側が詰まって狭くなっていることが原因です。 そしてその結果、標準誤差が理論値よりもわずかに小さくなっています。

標本回帰係数の分布の中心も0.5付近になっていますが、回帰係数は上限がないので分布の右側が詰まることはありません。 そのため分布全体が0.5付近にそのまま移動しているだけなので分布状態が変わらないのです。

この時の標本回帰係数と標本相関係数の最終的な分布の基礎統計量は次のようになります。 今回は母回帰係数と母相関係数が0ではなく、そのことを帰無仮説にした検定は現実にはまず行いません。 そこで検定結果についてはシミュレーションをせず、推定結果についてだけシミュレーションをしました。

○母集団:母回帰係数=0.496865 母相関係数=0.497782
 X:母平均=0 母標準偏差=1.1547 母歪度√β1=0(左右対称) 母尖度β2=1.8(鈍峰)
 Y:母平均=-0.00392886 母標準偏差=1.15257 母歪度√β1=-0.00683242(ほぼ左右対称) 母尖度β2=2.93602(ほぼ正規)

○標本集団のデータが10例の時
・標本回帰係数:標準誤差理論値=0.306059
 平均値=0.498922 標準誤差=0.314408 歪度g1=0.0778743(ほぼ左右対称) 尖度g2=0.989114(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=-0.103〜βU=1.09673)に入った標本回帰係数の個数=9438(94.38%)
 標本集団から求めた95%両側信頼区間(自由度=8のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0.496865が入った回数=9462(94.62%)
・標本相関係数:標準誤差理論値=0.306624
 平均値=0.486309 標準誤差=0.260932 歪度g1=-0.842051(ほぼ左右対称) 尖度g2=0.635897(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=-0.19203〜ρU=0.858378)に入った標本相関係数の個数=9501(95.01%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0.497782が入った回数=9501(95.01%)

○標本集団のデータが100例の時
・標本回帰係数:標準誤差理論値=0.087406
 平均値=0.497224 標準誤差=0.0865076 歪度g1=0.0247907(ほぼ左右対称) 尖度g2=0.0737208(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=0.325552〜βU=0.668177)に入った標本回帰係数の個数=9521(95.21%)
 標本集団から求めた95%両側信頼区間(自由度=98のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0.496865が入った回数=9523(95.23%)
・標本相関係数:標準誤差理論値=0.0875674
 平均値=0.497608 標準誤差=0.072569 歪度g1=-0.248652(ほぼ左右対称) 尖度g2=0.0780507(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=0.334022〜ρU=0.632371)に入った標本相関係数の個数=9586(95.86%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0.497782が入った回数=9586(95.86%)

○標本集団のデータが1000例の時
・標本回帰係数:標準誤差理論値=0.0272662
 平均値=0.496886 標準誤差=0.0273688 歪度g1=0.0163826(ほぼ左右対称) 尖度g2=0.0354079(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=0.443424〜βU=0.550305)に入った標本回帰係数の個数=9494(94.94%)
 標本集団から求めた95%両側信頼区間(自由度=998のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0.496865が入った回数=9500(95.00%)
・標本相関係数:標準誤差理論値=0.0273165
 平均値=0.497799 標準誤差=0.0229271 歪度g1=-0.0737912(ほぼ左右対称) 尖度g2=0.0258942(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=0.449665〜ρU=0.543018)に入った標本相関係数の個数=9552(95.52%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0.497782が入った回数=9552(95.52%)

標本回帰係数の分布は母回帰係数が0の時の分布を平均値が0.5付近に平行移動しただけです。 そのため上記のように平均値以外の分布の指標は母回帰係数が0の時と同じで、母集団から求めた95%信頼区間に入った標本回帰係数の個数と、標本集団から求めた95%信頼区間に母回帰係数が入った回数も母回帰係数が0の時と同じです。 このことから回帰係数の推定と検定はyの回帰誤差だけに依存することがわかると思います。

それに対して標本相関係数の分布は母相関係数が0の時の分布とは少し異なります。 そのため上記のように分布の指標も、母集団から求めた95%信頼区間に入った標本回帰係数の個数も、標本集団から求めた95%信頼区間に母回帰係数が入った回数も母回帰係数が0の時と少し異なります。 しかしそれらの個数や回数の値そのものは約95%になっています。 このことから一方の変数の回帰誤差が近似的に正規分布していれば、母相関係数が0ではない時も相関係数の推定と検定は信頼性が高いことがわかると思います。

4.回帰誤差が正規分布しない時

今度は回帰誤差が正規分布しない時について検討してみましょう。 そのためには正規乱数の代わりに一様乱数を用いるだけです。 しかし実際に一様乱数を用いてシミュレーションをしてみると、正規乱数の時とあまり変わらない結果になるので面白くありません。 そこで次のような手順で説明変数xと目的変数yを作成し、母相関係数が0の時と母相関係数が0.5の時の母集団にします。

  1. 母相関係数を0にするために、原点(0,0)を中心にした半径1の円を描く。
  2. その円の円周を等間隔に10万分割し、各分割点のx座標とy座標をxとyにする。
    これは全円周角2πを等間隔に10万分割した時の円周角θを用いてx=cos(θ)、y=sin(θ)を求めることに相当する。
  3. 次に母相関係数を0.5にするために、原点(0,0)を中心にし、母相関係数を0.5、xとyの標準偏差を1とした時の等確率偏差楕円を描く。
  4. その楕円の円周を10万分割し、各分割点のx座標とy座標をxとyにする。
    これは全円周角2πを等間隔に10万分割した時の円周角θを用いてx=a・cos(θ)、y=b・sin(θ)を求めることに相当する。(a:長軸、b:短軸)

この母集団の散布図が図 付録3.23であり、黒色の円が母相関係数が0の時で赤色の楕円が母相関係数が0.5の時です。 どちらも曲線に見えますが、実際には10万個のプロットが連なったものです。 この場合はxもyも回帰誤差も正規分布をしておらず、相当に特殊な分布をしています。 (→5.5 各種手法の相互関係 (注1))

回帰誤差が正規分布する時と同様に、これらの母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差が同じ値の理論累積分布を描いたグラフが図 付録3.24〜図 付録3.27です。 これらのグラフの曲線が表すものは図 付録3.2と図 付録3.2と同様です。

図 付録3.23 母集団(回帰誤差:円・楕円) 図 付録3.24 標本回帰係数(回帰誤差:円) 図 付録3.25 標本相関係数(回帰誤差:円)
図 付録3.26 標本回帰係数(回帰誤差:楕円) 図 付録3.27 標本相関係数(回帰誤差:楕円)

図 付録3.24〜図 付録3.27を見ると、回帰誤差が図 付録3.23のように相当に特殊な分布をしていても、そして母回帰係数と母相関係数が0の時も0ではない時も、標本回帰係数と標本相関係数は中心極限定理によって近似的に正規分布をすることがわかると思います。 これらのグラから中心極限定理の有効性と、この定理が推測統計学の基本定理である理由がわかると思います。

また標本回帰係数と標本相関係数の平均値、標準誤差、歪度、尖度の推移をグラフにしたものが図 付録3.28〜図 付録3.43です。 母相関係数が0の時も0ではない時も、標準誤差以外の指標は標本集団の例数が多くなると理論値に近似しています。 ところが標本回帰係数の標準誤差は理論値よりも20〜30%程度小さく、標本相関係数の標準誤差はそれよりもさらに10%程度小さくなっています。

図 付録3.28 平均値の推移(標本回帰係数・回帰誤差:円) 図 付録3.29 平均値の推移(標本相関係数・回帰誤差:円)
図 付録3.30 標準誤差の推移(標本回帰係数・回帰誤差:円) 図 付録3.31 標準誤差の推移(標本相関係数・回帰誤差:円)
図 付録3.32 歪度の推移(標本回帰係数・回帰誤差:円) 図 付録3.33 歪度の推移(標本相関係数・回帰誤差:円)
図 付録3.34 尖度の推移(標本回帰係数・回帰誤差:円) 図 付録3.35 尖度の推移(標本相関係数・回帰誤差:円)
図 付録3.36 平均値の推移(標本回帰係数・回帰誤差:楕円) 図 付録3.37 平均値の推移(標本相関係数・回帰誤差:楕円)
図 付録3.38 標準誤差の推移(標本回帰係数・回帰誤差:楕円) 図 付録3.39 標準誤差の推移(標本相関係数・回帰誤差:楕円)
図 付録3.40 歪度の推移(標本回帰係数・回帰誤差:楕円) 図 付録3.41 歪度の推移(標本相関係数・回帰誤差:楕円)
図 付録3.42 尖度の推移(標本回帰係数・回帰誤差:楕円) 図 付録3.43 尖度の推移(標本相関係数・回帰誤差:楕円)

これは図 付録3.23のように回帰誤差が円または楕円なので座標上の右上と右下、そして左上と左下にプロットが存在しないことが原因です。 図 付録3.1と図 付録3.12を見れば何となくわかるように、回帰誤差が正規分布や普通の一様分布をする時は座標上の右上と右下、そして左上と左下に少数ながらプロットが存在します。 そのため標本回帰係数も標本相関係数も絶対値の大きな値が少数ながら存在し、分布の幅が広くなって標準誤差が理論値に近似します。

ところが回帰誤差が円または楕円の時はこの部分にプロットが存在しません。 そのため標本回帰係数も標本相関係数も絶対値の大きな値になりにくく、分布の幅が狭くなって標準誤差が理論値よりも小さくなってしまうのです。

そのため下記のように95%信頼区間に入る標本回帰係数と標本相関係数の割合は95%よりも大きくなり、5%棄却域に入る標本回帰係数と標本相関係数の割合は5%よりも小さくなります。 しかし図 付録3.24〜図 付録3.27を見ればわかるように、標本回帰係数と標本相関係数の分布は中心極限定理によって近似的に正規分布をしています。 そのため標準誤差として理論値ではなく実際の値を用いると、それらの割合は約95%と約5%になります。

現実のデータで図 付録3.23のような特殊な分布をするものはほとんど存在しないでしょう。 しかし2つの項目間の関連性が非常に強いと、回帰誤差が特殊な分布をする可能性も0ではありません。 そのため回帰係数と相関係数の推定結果と検定結果は平均値の推定結果と検定結果よりも慎重に検討する必要があります。

●回帰誤差が円の時
○母集団:母回帰係数=0 母相関係数=0
 X:母平均=0 母標準偏差=0.707107 母歪度√β1=0(左右対称) 母尖度β2=1.5(鈍峰)
 Y:母平均=0 母標準偏差=0.707107 母歪度√β1=0(左右対称) 母尖度β2=1.5(鈍峰)
※yの母標準偏差の理論値は次のようになる。

∴SDy = √(1/2) ≒ 0.707107
※xの母標準偏差の理論値も同様にして0.707107になる。

○標本集団のデータが10例の時
・標本回帰係数:標準誤差理論値=0.353537
 平均値=0.00103182 標準誤差=0.285559 歪度g1=0.00786714(ほぼ左右対称) 尖度g2=1.41866(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=-0.692921〜βU=0.692921)に入った標本回帰係数の個数=9768(97.68%)
 母集団から求めた5%両側棄却域(95%両側信頼区間外)に入った標本回帰係数の個数=10000-9768=232(2.32%)
 標本集団から求めた95%両側信頼区間(自由度=8のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0が入った回数=9839(98.39%)
 標本集団から求めた5%両側棄却域(95%両側信頼区間外)に標本回帰係数が入った回数=10000-9839=161(1.61%)
・標本相関係数:標準誤差理論値=0.353537
 平均値=-0.000140993 標準誤差=0.262851 歪度g1=0.0179011(ほぼ左右対称) 尖度g2=-0.112918(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=-0.629626〜ρU=0.629626)に入った標本相関係数の個数=9835(98.35%)
 母集団から求めた5%両側棄却域(自由度=8のt分布利用:ρL=-0.815259、ρU=0.815259)に入った標本相関係数の個数=8(0.08%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0が入った回数=9835(98.35%)
 標本集団から求めた5%両側棄却域(自由度=8のt分布利用:標本集団によって微妙に異なる)に標本相関係数が入った回数=161(1.61%)

○標本集団のデータが100例の時
・標本回帰係数:標準誤差理論値=0.100965
 平均値=0.000496056 標準誤差=0.0709723 歪度g1=-0.0972204(ほぼ左右対称) 尖度g2=0.154274(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=-0.197888〜βU=0.197888)に入った標本回帰係数の個数=9941(99.41%)
 母集団から求めた5%両側棄却域(95%両側信頼区間外)に入った標本回帰係数の個数=10000-9941=59(0.59%)
 標本集団から求めた95%両側信頼区間(自由度=98のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0が入った回数=99.31(99.31%)
 標本集団から求めた5%両側棄却域(95%両側信頼区間外)に標本回帰係数が入った回数=10000-9931=69(0.69%)
・標本相関係数:標準誤差理論値=0.100965
 平均値=0.000486015 標準誤差=0.0708741 歪度g1=-0.0971444(ほぼ左右対称) 尖度g2=0.136695(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=-0.196418〜ρU=0.196418)に入った標本相関係数の個数=9930(99.30%)
 母集団から求めた5%両側棄却域(自由度=98のt分布利用:ρL=-0.200362、ρU=0.200362)に入った標本相関係数の個数=58(0.58%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0が入った回数=9930(99.30%)
 標本集団から求めた5%両側棄却域(自由度=98のt分布利用:標本集団によって微妙に異なる)に標本相関係数が入った回数=69(0.69%)

○標本集団のデータが1000例の時
・標本回帰係数:標準誤差理論値=0.0314959
 平均値=0 標準誤差=0.0225376 歪度g1=-0.0706394(ほぼ左右対称) 尖度g2=-0.0067092(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=-0.0617309〜βU=0.0617309)に入った標本回帰係数の個数=9940(99.40%)
 母集団から求めた5%両側棄却域(95%両側信頼区間外)に入った標本回帰係数の個数=10000-9940=60(0.60%)
 標本集団から求めた95%両側信頼区間(自由度=998のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0が入った回数=9940(99.40%)
 標本集団から求めた5%両側棄却域(95%両側信頼区間外)に標本回帰係数が入った回数=10000-9940=60(0.60%)
・標本相関係数:標準誤差理論値=0.0314959
 平均値=0 標準誤差=0.0225517 歪度g1=-0.0723365(ほぼ左右対称) 尖度g2=0.000614414(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=-0.0619931〜ρU=0.0619931)に入った標本相関係数の個数=9940(99.40%)
 母集団から求めた5%両側棄却域(自由度=998のt分布利用:ρL=-0.0618059、ρU=0.0618059)に入った標本相関係数の個数=62(0.62%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0が入った回数=9940(99.40%)
 標本集団から求めた5%両側棄却域(自由度=998のt分布利用:標本集団によって微妙に異なる)に標本相関係数が入った回数=60(0.60%)

●回帰誤差が楕円の時
○母集団:母回帰係数=0.5 母相関係数=0.5
 X:母平均=0 母標準偏差=0.707107 母歪度√β1=0(左右対称) 母尖度β2=1.5(鈍峰)
 Y:母平均=0 母標準偏差=0.707107 母歪度√β1=0(左右対称) 母尖度β2=1.5(鈍峰)

○標本集団のデータが10例の時
・標本回帰係数:標準誤差理論値=0.306172
 平均値=0.501509 標準誤差=0.246548 歪度g1=0.0159591(ほぼ左右対称) 尖度g2=1.58426(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=-0.100087〜βU=1.10009)に入った標本回帰係数の個数=9769(97.69%)
 標本集団から求めた95%両側信頼区間(自由度=8のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0.5が入った回数=9852(98.52%)
・標本相関係数:標準誤差理論値=0.306172
 平均値=0.488447 標準誤差=0.205201 歪度g1=-0.831347(ほぼ左右対称) 尖度g2=1.11136(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=-0.189184〜ρU=0.859153)に入った標本相関係数の個数=9860(98.60%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0.5が入った回数=9935(99.35%)

○標本集団のデータが100例の時
・標本回帰係数:標準誤差理論値=0.0874385
 平均値=0.500993 標準誤差=0.0620566 歪度g1=0.00902977(ほぼ左右対称) 尖度g2=0.0342187(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=0.328624〜βU=0.671376)に入った標本回帰係数の個数=9937(99.37%)
 標本集団から求めた95%両側信頼区間(自由度=98のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0.5が入った回数=9943(99.43%)
・標本相関係数:標準誤差理論値=0.0874385
 平均値=0.499841 標準誤差=0.0539021 歪度g1=-0.131932(ほぼ左右対称) 尖度g2=-0.0540259(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=0.336643〜ρU=0.63414)に入った標本相関係数の個数=9945(99.45%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0.5が入った回数=9986(99.86%)

○標本集団のデータが1000例の時
・標本回帰係数:標準誤差理論値=0.0272763
 平均値=0.500132 標準誤差=0.0192438 歪度g1=0.0593057(ほぼ左右対称) 尖度g2=0.00407868(ほぼ正規)
 母集団から求めた95%両側信頼区間(正規分布利用:βL=0.446539〜βU=0.553461)に入った標本回帰係数の個数=9945(99.45%)
 標本集団から求めた95%両側信頼区間(自由度=998のt分布利用:標本集団によって微妙に異なる)に母回帰係数=0.5が入った回数=9948(99.48%)
・標本相関係数:標準誤差理論値=0.0272763
 平均値=0.499999 標準誤差=0.0166055 歪度g1=-0.014966(ほぼ左右対称) 尖度g2=-0.00361701(ほぼ正規)
 母集団から求めた95%両側信頼区間(フィッシャーのz変換利用:ρL=0.452018〜ρU=0.545097)に入った標本相関係数の個数=9949(99.49%)
 標本集団から求めた95%両側信頼区間(フィッシャーのz変換利用:標本集団によって微妙に異なる)に母相関係数=0.5が入った回数=9985(99.85%)

以上のシミュレーションから、回帰誤差が近似的に正規分布をしていなくても、標本集団の例数が10例以上あれば中心極限定理によって標本回帰係数は近似的に正規分布をするので、推定結果と検定結果の信頼性は高いことがわかると思います。 そしてxとyが近似的に2次元正規分布をしていなくても、標本集団の例数が10例以上あれば中心極限定理によって標本相関係数は近似的に正規分布をするので、推定結果と検定結果の信頼性は高いこともわかると思います。

そして回帰分析と相関分析は2変量解析ですから、信頼性の高い回帰係数と相関係数を得るためには少なくとも20例以上の例数が必要です。 したがって20例以上の例数で回帰分析と相関分析を行えば、回帰誤差の正規性とか2つの項目の2次元正規性などに無闇にこだわらず、回帰係数と相関係数の推定結果と検定結果を素直に信頼して良いことになります。 (→7.2 重回帰分析結果の解釈)