玄関雑学の部屋雑学コーナー統計学入門

付録3 中心極限定理のシミュレーション−回帰係数と相関係数

1.回帰係数と相関係数の分布

回帰係数は原理的に平均値と同じ統計量なので、中心極限定理によって漸近的に正規分布をします。 それに対して相関係数は2種類のデータが2次元正規分布に従うと仮定すると次のような分布をします。 (→5.1 相関係数と回帰直線 (注1))


n:例数 ρ:母相関係数 r:標本相関係数
:ガウス型超幾何関数
:ポッホハマー記号で表した上昇階乗ベキ
2次元正規分布の確率密度関数:

μx、μy:xとyの母平均   σ2x、σ2y:xとyの母分散   ρ:xとyの母相関係数
D2:マハラノビスの平方距離(汎距離を平方した値)

2つの変数が無相関つまりρ=0の時、密度関数は簡単な式になり、その式に相関係数の検定用のt値を代入すると自由度φ=n-2のt分布になります。

ρ=0の時:
上式にを代入すると

このことからρ=0の時、相関係数はt分布をすることがわかります。 そしてt分布はn→∞の時に正規分布になるので、回帰係数と同様に相関係数も漸近的に正規分布をすることになります。 そこで回帰係数と相関係数について中心極限定理のシミュレーションをしてみましょう。

2.回帰係数が0で回帰誤差が正規分布する時

回帰係数は回帰誤差が正規分布をする時、正確に正規分布をします。 そして相関係数はρ=0の時に回帰係数と同じ分布をするので、一方の変数の回帰誤差が正規分布をする時は正確に正規分布をします。 そして回帰分析では目的変数は確率変数ですが、説明変数は確率分布ではなく研究者が任意の値を指定します。 そこで次のような手順で説明変数xと目的変数yを作成し、2変量の母集団にします。 (→5.1 相関係数と回帰直線 (注2))

  1. 半閉区間(-2,2]を等間隔に10万分割して10万個のxを作る。
  2. 平均値=0、標準偏差=1の正規乱数を10万個発生させてyにし、それをxに対応させる。
  3. これは回帰係数が0のy=ε 〜 N(0,12)という関数になり、理論上の母回帰係数と母相関係数はどちらも0になる。

この母集団の散布図が図 付録3.1です。 ただし10万個のプロットをまともに描くと黒い帯になってしまうので、見やすいように間引いてプロットしてあります。 この散布図を見るとxは等間隔に一様分布(確率分布ではなく任意の値を指定した分布)をしていて、yは正規分布状に分布していることがわかると思います。

この母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差(=統計量の標準偏差)が同じ値の理論累積分布も描いたグラフが図 付録3.2と図 付録3.3です。

図 付録3.1 母集団(回帰誤差:正規乱数) 図 付録3.2 標本回帰係数(回帰誤差:正規乱数) 図 付録3.3 標本相関係数(回帰誤差:正規乱数)

図 付録3.2の赤色の曲線は標本集団が10例の時の標本回帰係数の累積度数分布であり、その曲線とほとんど重なった黒色の点線は累積正規分布です。 そして緑色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が100例の時の標本回帰係数の累積度数分布と累積正規分布であり、青色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が1000例の時の標本回帰係数の累積度数分布と累積正規分布です。

一方、図 付録3.3の赤色の曲線は標本集団が10例の時の標本相関係数の累積度数分布であり、その曲線とかなり重なった黒色の点線は自由度8の累積t分布です。 そして緑色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が100例の時の標本相関係数の累積度数分布と自由度98の累積t分布であり、青色の曲線と、その曲線とほとんど重なった黒色の点線は標本集団が1000例の時の標本相関係数の累積度数分布と自由度998の累積t分布です。

また標本回帰係数と標本相関係数を求める操作を繰り返した時の、それぞれの平均値、標準誤差、歪度、尖度の推移をグラフにしたのが図 付録3.4〜図 付録3.11です。 各グラフの黒色の点線で描いた横軸に平行な直線は、それぞれの指標の理論値を表します。

図 付録3.4 平均値の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.5 平均値の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.6 標準誤差の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.7 標準誤差の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.8 歪度の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.9 歪度の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.10 尖度の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.11 尖度の推移(標本相関係数・回帰誤差:正規乱数)

標本相関係数はt分布をし、t分布は正規分布よりもわずかに背が低いので尖度が負になります。 図 付録3.11では標本集団の例数が10例の時は確かに尖度がわずかに負になっているものの、100例と1000例の時の尖度はほとんど0になっています。 このことから例数が100例以上あればt分布はほぼ正規分布になり、標本相関係数は近似的に正規分布をすることがわかると思います。

標本回帰係数と標本相関係数の最終的な分布の基礎統計量は次のようになります。 これらの基礎統計量と図 付録3.1〜図 付録3.11から、母集団の回帰誤差が近似的に正規分布をしている時は標本回帰係数は近似的に正規分布をし、標本相関係数は近似的に自由度(n-2)のt分布をし、例数が多いと近似的に正規分布をすることがわかると思います。

○母集団:母回帰係数=-0.00313531 母相関係数=-0.00362166
 X:母平均=0 母標準偏差=1.1547 母歪度√β1=0(左右対称) 母尖度β2=1.8(鈍峰、正規分布は3)
 Y:母平均=-0.00392886 母標準偏差=0.999636 母歪度√β1=-0.00538143(ほぼ左右対称) 母尖度β2=2.99569(ほぼ正規)

○標本集団のデータが10例の時
・標本回帰係数:標準誤差理論値=0.306059(母回帰係数と標本集団の例数と有限修正因子から求めた理論値)
 有限修正因子:母集団が有限の時、標本集団の統計量の分散が少し小さくなるのを補正するための値=
 n:母集団の例数 u:標本集団の例数
 平均値=-0.00107817 標準誤差=0.314408 歪度g1=0.0778743(ほぼ左右対称) 尖度g2=0.989114(ほぼ正規、正規分布は0)
表 付録3.1 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・10例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9176(91.76)←(e)262(2.62)9438(94.38)←(a)
信頼区間外286(2.86)276(2.76)←(e)562(5.62)←(b)
9462(94.62)←(c)538(5.38)←(d)10000(100)
 (a)母集団から求めた95%両側信頼区間:正規分布利用 βL=-0.603〜βU=0.596729 に入った標本回帰係数の個数
 (b)母集団から求めた95%両側信頼区間に入らなかった標本回帰係数の個数
 (c)標本集団から求めた95%両側信頼区間:自由度=8のt分布利用(標本集団によって微妙に異なる)に母回帰係数=-0.00313531が入った回数
 (d)標本集団から求めた95%両側信頼区間に標本回帰係数が入らなかった回数
 (d)標本集団から求めた95%両側信頼区間に母回帰係数=-0.00313531が入らなかった回数=5%両側棄却域に標本回帰係数が入った回数
 (e)母集団と標本集団の判定が一致している標本回帰係数の個数=9176+276=9452(94.52%:一致率)
・標本相関係数:標準誤差理論値=0.353535(母相関係数と標本集団の例数と有限修正因子から求めた理論値)
 平均値=-0.00236217 標準誤差=0.338564 歪度g1=0.00964801(ほぼ左右対称) 尖度g2=-0.592895(ほぼ正規)
表 付録3.2 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・10例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9449(94.49)0(0.00)9449(94.49)
信頼区間外13(0.13)538(5.38)551(5.51)
9462(94.62)538(5.38)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=-0.631807〜ρU=0.627435
 標本集団から求めた95%両側信頼区間:自由度=8のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9449+538=9987(99.87%:一致率)
表 付録3.3 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・10例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9449(94.49)0(0.00)9449(94.49)
信頼区間外0(0.00)551(5.51)551(5.51)
9449(94.49)551(5.51)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9449+551=10000(100%:一致率)

○標本集団のデータが100例の時
・標本回帰係数:標準誤差理論値=0.087406
 平均値=-0.00277604 標準誤差=0.0865076 歪度g1=0.0247907(ほぼ左右対称) 尖度g2=0.0737208(ほぼ正規)
表 付録3.4 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・100例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9439(94.39)82(0.82)9521(95.21)
信頼区間外84(0.84)395(3.95)479(4.79)
9523(95.23)477(4.77)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=-0.174448〜βU=0.168177
 標本集団から求めた95%両側信頼区間:自由度=98のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9439+395=9834(98.34%:一致率)
・標本相関係数:標準誤差理論値=0.100965
 平均値=-0.0032196 標準誤差=0.0997388 歪度g1=0.0164184(ほぼ左右対称) 尖度g2=-0.000766472(ほぼ正規)
表 付録3.5 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・100例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9518(95.18)0(0.00)9518(95.18)
信頼区間外7(0.07)475(4.75)482(4.82)
9525(95.25)475(4.75)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=-0.199898〜ρU=0.192934
 標本集団から求めた95%両側信頼区間:自由度=98のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9518+475=9993(99.93%:一致率)
表 付録3.5 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・100例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9518(95.18)0(0.00)9518(95.18)
信頼区間外0(0.00)482(4.82)482(4.82)
9518(95.18)482(4.82)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9518+482=10000(100%:一致率)

○標本集団のデータが1000例の時
・標本回帰係数:標準誤差理論値=0.0272662
 平均値=-0.00311405 標準誤差=0.0273688 歪度g1=0.0163826(ほぼ左右対称) 尖度g2=0.0354079(ほぼ正規)
表 付録3.7 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・1000例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9471(94.71)23(0.23)9494(94.94)
信頼区間外29(0.29)477(4.77)506(5.06)
9500(95.00)500(5.00)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=-0.056576〜βU=0.0503054
 標本集団から求めた95%両側信頼区間:自由度=998のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9471+477=9948(99.48%:一致率)
・標本相関係数:標準誤差理論値=0.0314957
 平均値=-0.00358867 標準誤差=0.0316122 歪度g1=0.0181869(ほぼ左右対称) 尖度g2=0.0334833(ほぼ正規)
表 付録3.8 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・1000例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9502(95.02)0(0.00)9502(95.02)
信頼区間外0(0.00)498(4.98)498(4.98)
9502(95.02)498(4.98)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=-0.0656〜ρU=0.0583845
 標本集団から求めた95%両側信頼区間:自由度=998のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9502+498=10000(100%:一致率)
表 付録3.9 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・1000例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9502(95.02)0(0.00)9502(95.02)
信頼区間外0(0.00)498(4.98)498(4.98)
9502(95.02)498(4.98)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9502+498=10000(100%:一致率)

母集団の回帰誤差としてコンピュータで発生させた疑似正規乱数を用いたので、上記のように母回帰係数と母相関係数は正確に0にはなりません。 しかしどちらの値も絶対値が0.01未満ですから、事実上、0と考えて良いと思います。 そしてxの分布は一様分布なので母歪度は0で左右対称ですが、母尖度が1.8で鈍峰です。 それに対してyの分布は近似的に母平均値が0で母標準偏差が1の正規分布です。 そして母回帰係数が近似的に0なのでyがそのまま回帰誤差になります。

また上記のように標本集団の例数が10例の時も100例の時も1000例の時も標本回帰係数は近似的に正規分布をし、標本相関係数は近似的に自由度(n-2)のt分布をします。 そしてその平均値は例数が多いほど母回帰係数と母相関係数に近似し、標準誤差は標準誤差理論値と近似します。 この標準誤差理論値は標本回帰係数と標本相関係数の標準誤差を求める時と同様に、母回帰係数および母相関係数の分散と標本集団の例数と有限修正因子から理論的に求めることができます。 (→5.1 相関係数と回帰直線)

理論上、標本回帰係数は平均値が母回帰係数と同じ値で、標準誤差が標準誤差理論値と同じ値の正規分布をします。 そこで母回帰係数と標準誤差理論値を用いて推定の95%信頼区間と検定の5%棄却域を求めることができます。 例えば標本集団のデータが10例の時、上記のように95%信頼区間の下限はβL=-0.603で、上限はβU=0.596729になります。 そしてこの95%信頼区間に入った標本回帰係数の数は9438個であり、全体の94.38%でした。

さらにこの95%信頼区間外の領域が2.5%下側棄却域と2.5%上側棄却域になり、そこに入った標本回帰係数の数は10000-9438=562個であり、全体の5.62%でした。 これが母集団から求めた95%信頼区間と有意水準5%の検定結果です。

しかし実際のデータでは母回帰係数と標本回帰係数の標準誤差はたいてい不明です。 そのため母回帰係数として母回帰係数推定値――検定では帰無仮説で仮定した母回帰係数の値つまり0――を用い、標準誤差は標本集団のデータから求めた不偏分散を用いて計算します。 そのため標本集団ごとに信頼区間と棄却域が微妙に変化します。 そしてその結果、母集団から求めた信頼区間と棄却域に入った標本回帰係数の個数と、標本集団から求めた信頼区間に母回帰係数が入った回数と棄却域に標本回帰係数が入った回数は微妙に食い違います。

例えば表 付録3.1のように標本集団から求めた95%信頼区間に母回帰係数が入った回数は9462回あり、全体の94.62%でした。 この割合を被覆確率と呼ぶことがあります。 そしてこの95%信頼区間に母回帰係数が入らなかった回数、つまり標本集団から求めた5%棄却域に標本回帰係数が入った回数は538回あり、全体の5.38%でした。 これが普通の95%信頼区間と有意水準5%の検定結果です。

この数字だけ見ると、母集団から求めた信頼区間に入った標本回帰係数の個数9438または棄却域に入った標本回帰係数の個数562と24個しか違わいないように見えます。 しかしその内訳を見ると、母集団と標本集団の判定が一致しているのは9176+276=9452個(一致率:94.52%)であり、262+286=548個(不一致率:5.48%)は判定が食い違っています。

この262個の標本回帰係数は母集団から求めた信頼区間に入っているにもかかわらず、標本集団から求めた信頼区間に母回帰係数が入っていません。 これは無作為に抽出した標本集団のデータがたまたま同じような値ばかりで不偏分散が小さくなり、標本集団から求めた信頼区間の幅が狭くなって母回帰係数が入らず、「標本回帰係数は棄却域に入っている」つまり「有意」と判定されてしまったのです。 したがってこの262個は診断学でいう「偽陽性」ということになります。

それに対して286個の標本回帰係数は母集団から求めた棄却域に入っているにもかかわらず、標本集団から求めた棄却域に標本回帰係数が入っていません。 これは無作為に抽出した標本集団のデータのバラツキが大きくて不偏分散が大きくなり、標本集団から求めた信頼区間の幅が広くなって母回帰係数が入り、「標本回帰係数は棄却域に入っていない」つまり「有意ではない」と判定されてしまったのです。 したがってこの286個は診断学でいう「偽陰性」ということになります。

95%信頼区間の被覆確率が94.62%という結果は、見かけ上は信頼区間と棄却域の信頼性はかなり高いと思いがちです。 ところが実際には標本回帰係数が母回帰係数の近くにあるにもかかわらず、信頼区間の幅が本来よりも狭いので母回帰係数が信頼区間に入らないことが2.86%あり、標本回帰係数が母回帰係数から遠く離れているにもかかわらず、信頼区間の幅が本来よりも広いので母回帰係数が信頼区間に入ることが2.86%あるのです。 そのため信頼区間と棄却域の信頼性は見かけよりも低いと考える必要があります。

この母集団と標本集団の判定の食い違いは不偏分散の信頼性の低さが原因ですから、標本集団の例数が多くなれば少なくなるはずです。 事実、標本集団の例数が100例の時の一致率は98.34%であり、1000例の時の一致率は99.48%ですから、一致率は次第に高くなっています。

以上のことから、標本集団の例数が10例でも100例でも1000例でも、標本集団から求めた信頼区間に母回帰係数が入った回数の割合は約95%で、棄却域に標本回帰係数が入った回数の割合は約5%であり、一見すると信頼区間と検定結果の信頼性は例数とは無関係のように思えます。 しかし母集団から求めた本来の信頼区間と検定結果との一致率は例数が多くなるほど高くなり、信頼区間と検定結果の信頼性が高くなることがわかります。 ただし例数が10例でも一致率が94.52%もあるので、t分布を利用した信頼区間と検定結果の信頼性はかなり高いといえるでしょう。

一方、母相関係数が0の時の標本相関係数は、理論的に平均値が0で標準誤差が標準誤差理論値と同じ値の自由度(n-2)のt分布をします。 そこで標準誤差理論値を用いて95%信頼区間と5%棄却域を求めることができます。 しかし母相関係数が0ではない時は標本相関係数はt分布をしません。 そこでフィッシャーのz変換を利用して標本相関係数を近似的に正規分布するように変換し、その近似正規分布を用いて95%信頼区間を求めました。

例えば標本集団のデータが10例の時は、上記のようにフィッシャーのz変換を利用して求めた95%信頼区間の下限はρL=-0.631807で、上限はρU=0.627435になります。 そしてこの95%信頼区間に入った標本相関係数は9449個(94.49%)であり、この信頼区間外つまり5%棄却域に入った標本相関係数は10000-9449=551個(5.51%)でした。 これが母集団から求めた相関係数の95%信頼区間と有意水準5%の検定結果です。

それに対して標本集団から求めた95%信頼区間はフィッシャーのz変換を利用して求めますが、検定は自由度(n-2)のt分布を利用して行う、つまり5%棄却域はt分布から求めるのが普通です。 そのため信頼区間と棄却域の上下限が一致するとは限りません。 そこで標本集団から求めた信頼区間と棄却域として自由度(n-2)のt分布を利用した方法とフィッシャーのz変換を利用した方法の両方を行い、結果を比べてみました。

例えば標本集団の例数が10例の時、自由度8のt分布を利用して標本集団から求めた95%信頼区間に母相関係数が入った回数は9462回(94.62%)であり、5%棄却域に標本相関係数が入った回数は10000-9462=538回(5.38%)でした。 そして母集団と標本集団の判定が一致していたのは9949+538=9987回(99.87%)でした。 回帰係数と同様に判定の不一致は標本集団の不偏分散の信頼性の低さが原因なので、標本集団の例数が増えるほど母集団との一致率が高くなります。

それに対してフィッシャーのz変換を利用して標本集団から求めた95%信頼区間に母相関係数が入った回数は9449回(94.49%)であり、5%棄却域に標本相関係数が入った回数は10000-9449=551回(5.51%)でした。 そしてこの場合は母集団と標本集団の判定が全て一致していて、一致率は100%でした。 フィッシャーのz変換は相関係数の値と標本集団の例数から信頼区間を求め、標本集団の不偏分散は使いません。 そのため不偏分散の信頼性の低さによる母集団と標本集団の判定の不一致が生じず、標本集団の例数とは無関係に一致率が100%になるのです。

したがって母集団と標本集団の判定の一致度という意味と推定と検定の整合性という意味で、推定も検定もフィッシャーのz変換を利用する方が合理的です。 ただし回帰係数の検定結果との整合性という意味では、検定は回帰係数の検定と同じt分布を利用する方が便利です。 そのため通常は母相関係数が0の時の相関係数の検定は回帰係数の検定と同じt分布を利用し、推定はフィッシャーのz変換を利用するという妥協案を採用することが多いと思います。

しかし母相関係数が0ではない時の相関係数の検定――例えば2種類の相関係数を比較する場合――はフィッシャーのz変換を利用するので、どんな時でも相関係数の推定と検定はフィッシャーのz変換を利用する方が合理的だと思います。

また上記のように標本集団の例数が10例でも100例でも1000例でも、相関係数の推定結果と検定結果はほぼ理論通りになっています。 このことから回帰誤差が近似的に正規分布する時は相関係数の推定結果と検定結果の信頼性は非常に高い、つまりxとyが2次元正規分布に従わなくても相関係数の推定結果と検定結果の信頼性は非常に高いことがわかると思います。

3.回帰係数が0ではなくて回帰誤差が正規分布する時

次に母回帰係数と母相関係数が0ではない時についてもシミュレーションをしてみましょう。 今度は次のような手順で説明変数xと目的変数yを作成し、2変量の母集団にします。

  1. 半閉区間(-2,2]を等間隔に10万分割して10万個のxを作る。
  2. 母回帰係数を0.5にするためにyfit=0.5・xという値を10万個作る。
  3. 平均値=0、標準偏差=1の正規乱数を10万個発生させてyfitに加え、それをyにする。

この母集団の散布図が図 付録3.12であり、図 付録3.1と同様に見やすいように間引いてプロットしてあります。 そして赤色の直線はxとyfitの関数です。 この散布図を見るとxは等間隔に一様分布していて、yの回帰誤差は正規分布状に分布していることがわかると思います。 この時、xは等間隔の一様分布であることとyは正規分布していないことに注意してください。

次に回帰係数が0の時と同様に、この母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差が同じ値の理論累積分布を描いたグラフが図 付録3.13と図 付録3.14です。 これらのグラフの曲線が表すものは図 付録3.2と図 付録3.3と同様です。

図 付録3.12 母集団(回帰誤差:正規乱数) 図 付録3.13 標本回帰係数(回帰誤差:正規乱数) 図 付録3.14 標本相関係数(回帰誤差:正規乱数)

標本回帰係数の分布の中心は母回帰係数の値になり、分布状態は回帰誤差だけに依存することを確認するために、実は図 付録3.12の正規乱数はわざと図 付録3.1と同じものを流用し、標本集団を無作為抽出する時の乱数も同じものを流用しています。 そのため図 付録3.13の累積度数分布は図 付録3.2の累積度数分布の平均を0.5に移動しただけで、形は全く同じです。

それに対して母相関係数が0ではない時は標本相関係数の分布はt分布にならず、xとyの分布に依存した特殊な分布になります。 そのため図 付録3.14の累積度数分布は図 付録3.3の累積度数分布の平均を0.5に移動しただけでなく、形が少し異なります。 このことは標本集団の例数が10例の時の累積度数分布がt分布から少しずれていることからわかると思います。 ただし標本集団の例数が多くなると中心極限定理によって正規分布に近似するので、例数が100例の時と1000例の時の累積度数分布は図 付録3.3の累積度数分布とよく似ています。

また母回帰係数が0の時と同様に、標本回帰係数と標本相関係数の平均値、標準誤差、歪度、尖度の推移をグラフにしたのが図 付録3.15〜図 付録3.22です。 標本回帰係数のグラフは平均値が0.5付近に平行移動しただけであり、標準誤差のグラフも歪度のグラフも尖度のグラフも母回帰係数が0の時と全く同じグラフです。

図 付録3.15 平均値の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.16 平均値の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.17 標準誤差の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.18 標準誤差の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.19 歪度の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.20 歪度の推移(標本相関係数・回帰誤差:正規乱数)
図 付録3.21 尖度の推移(標本回帰係数・回帰誤差:正規乱数) 図 付録3.22 尖度の推移(標本相関係数・回帰誤差:正規乱数)

それに対して標本相関係数のグラフは母相関係数が0の時のグラフと比べるとt分布に対する近似が悪くなっています。 特に歪度が負の値になっていて、分布がわずかに右傾していることがわかります。 これは母相関係数が約0.5なので標本相関係数の分布の中心が0.5付近になっていて、しかも相関係数は上限が1なので分布の右側が詰まって狭くなっていることが原因です。 そしてその結果、標準誤差が理論値よりもわずかに小さくなっています。

標本回帰係数の分布の中心も0.5付近になっていますが、回帰係数は上限がないので分布の右側が詰まることはありません。 そのため分布全体が0.5付近にそのまま移動しているだけなので分布状態が変わらないのです。 この時の標本回帰係数と標本相関係数の最終的な分布の基礎統計量は次のようになります。

○母集団:母回帰係数=0.496865 母相関係数=0.497782
 X:母平均=0 母標準偏差=1.1547 母歪度√β1=0(左右対称) 母尖度β2=1.8(鈍峰)
 Y:母平均=-0.00392886 母標準偏差=1.15257 母歪度√β1=-0.00683242(ほぼ左右対称) 母尖度β2=2.93602(ほぼ正規)

○標本集団のデータが10例の時
・標本回帰係数:標準誤差理論値=0.306059
 平均値=0.498922 標準誤差=0.314408 歪度g1=0.0778743(ほぼ左右対称) 尖度g2=0.989114(ほぼ正規)
表 付録3.10 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・10例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9176(91.76)262(2.62)9438(94.38)
信頼区間外286(2.86)276(2.76)562(5.62)
9462(94.62)538(5.38)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=-0.103〜βU=1.09673
 標本集団から求めた95%両側信頼区間:自由度=8のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9176+276=9452(94.52%:一致率)
・標本相関係数:標準誤差理論値=0.306624
 平均値=0.486309 標準誤差=0.260932 歪度g1=-0.842051(ほぼ左右対称) 尖度g2=0.635897(ほぼ正規)
表 付録3.11 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・10例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9501(95.01)0(0.00)9501(95.01)
信頼区間外238(2.38)261(2.61)499(4.99)
9739(97.39)261(2.61)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=-0.19203〜ρU=0.858378
 標本集団から求めた95%両側信頼区間:自由度=8のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9501+261=9762(97.62%:一致率)
表 付録3.12 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・10例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9501(95.01)0(0.00)9501(95.01)
信頼区間外0(0.00)499(4.99)499(4.99)
9501(95.01)499(4.99)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9501+499=10000(100%:一致率)

○標本集団のデータが100例の時
・標本回帰係数:標準誤差理論値=0.087406
 平均値=0.497224 標準誤差=0.0865076 歪度g1=0.0247907(ほぼ左右対称) 尖度g2=0.0737208(ほぼ正規)
表 付録3.13 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・100例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9439(94.39)82(0.82)9521(95.21)
信頼区間外84(0.84)395(3.95)479(4.79)
9523(95.23)477(4.77)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=0.325552〜βU=0.668177
 標本集団から求めた95%両側信頼区間:自由度=98のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9439+395=9834(98.34%:一致率)
・標本相関係数:標準誤差理論値=0.0875674
 平均値=0.497608 標準誤差=0.072569 歪度g1=-0.248652(ほぼ左右対称) 尖度g2=0.0780507(ほぼ正規)
表 付録3.14 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・100例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9586(95.86)0(0.00)9586(95.86)
信頼区間外229(2.29)185(1.85)414(4.14)
9815(98.15)185(1.85)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=0.334022〜ρU=0.632371
 標本集団から求めた95%両側信頼区間:自由度=98のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9586+185=9771(97.71%:一致率)
表 付録3.15 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・100例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9586(95.86)0(0.00)9586(95.86)
信頼区間外0(0.00)414(4.14)414(4.14)
9586(95.86)414(4.14)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9586+414=10000(100%:一致率)

○標本集団のデータが1000例の時
・標本回帰係数:標準誤差理論値=0.0272662
 平均値=0.496886 標準誤差=0.0273688 歪度g1=0.0163826(ほぼ左右対称) 尖度g2=0.0354079(ほぼ正規)
表 付録3.16 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・1000例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9471(94.71)23(0.23)9494(94.94)
信頼区間外29(0.29)477(4.77)506(5.06)
9500(95.00)500(5.00)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=0.443424〜βU=0.550305
 標本集団から求めた95%両側信頼区間:自由度=998のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9471+477=9948(99.48%:一致率)
・標本相関係数:標準誤差理論値=0.0273165
 平均値=0.497799 標準誤差=0.0229271 歪度g1=-0.0737912(ほぼ左右対称) 尖度g2=0.0258942(ほぼ正規)
表 付録3.17 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・1000例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9552(95.52)0(0.00)9552(95.52)
信頼区間外260(2.60)188(1.88)448(4.48)
9812(98.12)188(1.88)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=0.449665〜ρU=0.543018
 標本集団から求めた95%両側信頼区間:自由度=988のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9552+188=9740(97.40%:一致率)
表 付録3.18 母集団と標本集団のクロス集計表
(回帰誤差:正規乱数・1000例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9552(95.52)0(0.00)9552(95.52)
信頼区間外0(0.00)448(4.48)448(4.48)
9552(95.52)448(4.48)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9552+448=10000(100%:一致率)

標本回帰係数の分布は母回帰係数が0の時の分布を平均値が0.5付近に平行移動しただけです。 そのため上記のように平均値以外の分布の指標は母回帰係数が0の時と同じで、母集団から求めた95%信頼区間に入った標本回帰係数の個数と標本集団から求めた95%信頼区間に母回帰係数が入った回数、そして母集団と標本集団の判定の一致率も母回帰係数が0の時と同じです。 このことから回帰係数の推定と検定はyの回帰誤差だけに依存することがわかると思います。

それに対して標本相関係数の分布は母相関係数が0の時の分布とは少し異なります。 そのため上記のように分布の指標も、母集団から求めた95%信頼区間に入った標本回帰係数の個数と標本集団から求めた95%信頼区間に母回帰係数が入った回数、そして母集団と標本集団の判定の一致率も母回帰係数が0の時と少し異なります。

そしてt分布を利用した推定結果と検定結果は精度が悪いのに対して、フィッシャーのz変換を利用した推定結果と検定結果は精度が高くなっています。 このことから一方の変数の回帰誤差が近似的に正規分布していれば、母相関係数が0ではない時もフィッシャーのz変換を利用した相関係数の推定と検定は信頼性が高いことがわかると思います。

4.回帰誤差が正規分布しない時

今度は回帰誤差が正規分布しない時について検討してみましょう。 そのためには正規乱数の代わりに一様乱数を用いるだけです。 しかし実際に一様乱数を用いてシミュレーションをしてみると、正規乱数の時とあまり変わらない結果になるので面白くありません。 そこで次のような手順で説明変数xと目的変数yを作成し、母相関係数が0の時と母相関係数が0.5の時の母集団にします。

  1. 母相関係数を0にするために、原点(0,0)を中心にした半径1の円を描く。
  2. その円の円周を等間隔に10万分割し、各分割点のx座標とy座標をxとyにする。
    これは全円周角2πを等間隔に10万分割した時の円周角θを用いてx=cos(θ)、y=sin(θ)を求めることに相当する。
  3. 次に母相関係数を0.5にするために、原点(0,0)を中心にし、母相関係数を0.5、xとyの標準偏差を1とした時の等確率偏差楕円を描く。
  4. その楕円の円周を10万分割し、各分割点のx座標とy座標をxとyにする。
    これは全円周角2πを等間隔に10万分割した時の円周角θを用いてx=a・cos(θ)、y=b・sin(θ)を求めることに相当する。(a:長軸、b:短軸)

この母集団の散布図が図 付録3.23であり、黒色の円が母相関係数が0の時で赤色の楕円が母相関係数が0.5の時です。 どちらも曲線に見えますが、実際には10万個のプロットが連なったものです。 この場合はxもyも回帰誤差も正規分布をしておらず、相当に特殊な分布をしています。 (→5.5 各種手法の相互関係 (注1))

回帰誤差が正規分布する時と同様に、これらの母集団から10例、100例、1000例のxとyを無作為抽出して標本集団にし、標本回帰係数と標本相関係数を求めるという操作を1万回繰り返して、1万個の標本回帰係数と標本相関係数を求めます。 そしてそれらの累積度数分布を描き、さらに平均値と標準誤差が同じ値の理論累積分布を描いたグラフが図 付録3.24〜図 付録3.27です。 これらのグラフの曲線が表すものは図 付録3.2と図 付録3.2と同様です。

図 付録3.23 母集団(回帰誤差:円・楕円) 図 付録3.24 標本回帰係数(回帰誤差:円) 図 付録3.25 標本相関係数(回帰誤差:円)
図 付録3.26 標本回帰係数(回帰誤差:楕円) 図 付録3.27 標本相関係数(回帰誤差:楕円)

図 付録3.24〜図 付録3.27を見ると、回帰誤差が図 付録3.23のように相当に特殊な分布をしていても、そして母回帰係数と母相関係数が0の時も0ではない時も、標本回帰係数と標本相関係数は中心極限定理によって近似的に正規分布をすることがわかると思います。 これらのグラから中心極限定理の有効性と、この定理が推測統計学の基本定理である理由がわかると思います。

また標本回帰係数と標本相関係数の平均値、標準誤差、歪度、尖度の推移をグラフにしたものが図 付録3.28〜図 付録3.43です。 母相関係数が0の時も0ではない時も、標準誤差以外の指標は標本集団の例数が多くなると理論値に近似しています。 ところが標本回帰係数の標準誤差は理論値よりも20〜30%程度小さく、標本相関係数の標準誤差はそれよりもさらに10%程度小さくなっています。

図 付録3.28 平均値の推移(標本回帰係数・回帰誤差:円) 図 付録3.29 平均値の推移(標本相関係数・回帰誤差:円)
図 付録3.30 標準誤差の推移(標本回帰係数・回帰誤差:円) 図 付録3.31 標準誤差の推移(標本相関係数・回帰誤差:円)
図 付録3.32 歪度の推移(標本回帰係数・回帰誤差:円) 図 付録3.33 歪度の推移(標本相関係数・回帰誤差:円)
図 付録3.34 尖度の推移(標本回帰係数・回帰誤差:円) 図 付録3.35 尖度の推移(標本相関係数・回帰誤差:円)
図 付録3.36 平均値の推移(標本回帰係数・回帰誤差:楕円) 図 付録3.37 平均値の推移(標本相関係数・回帰誤差:楕円)
図 付録3.38 標準誤差の推移(標本回帰係数・回帰誤差:楕円) 図 付録3.39 標準誤差の推移(標本相関係数・回帰誤差:楕円)
図 付録3.40 歪度の推移(標本回帰係数・回帰誤差:楕円) 図 付録3.41 歪度の推移(標本相関係数・回帰誤差:楕円)
図 付録3.42 尖度の推移(標本回帰係数・回帰誤差:楕円) 図 付録3.43 尖度の推移(標本相関係数・回帰誤差:楕円)

これは図 付録3.23のように回帰誤差が円または楕円なので座標上の右上と右下、そして左上と左下にプロットが存在しないことが原因です。 図 付録3.1と図 付録3.12を見れば何となくわかるように、回帰誤差が正規分布や普通の一様分布をする時は座標上の右上と右下、そして左上と左下に少数ながらプロットが存在します。 そのため標本回帰係数も標本相関係数も絶対値の大きな値が少数ながら存在し、分布の幅が広くなって標準誤差が理論値に近似します。

ところが回帰誤差が円または楕円の時はこの部分にプロットが存在しません。 そのため標本回帰係数も標本相関係数も絶対値の大きな値になりにくく、分布の幅が狭くなって標準誤差が理論値よりも小さくなってしまうのです。

そのため下記のように95%信頼区間に入る標本回帰係数と標本相関係数の割合は95%よりも大きくなり、5%棄却域に入る標本回帰係数と標本相関係数の割合は5%よりも小さくなります。 しかし図 付録3.24〜図 付録3.27を見ればわかるように、標本回帰係数と標本相関係数の分布は中心極限定理によって近似的に正規分布をしています。 そのため標準誤差として理論値ではなく実際の値を用いると、それらの割合は約95%と約5%になります。

現実のデータで図 付録3.23のような特殊な分布をするものはほとんど存在しないでしょう。 しかし2つの項目間の関連性が非常に強いと、回帰誤差が特殊な分布をする可能性も0ではありません。 そのため回帰係数と相関係数の推定結果と検定結果は平均値の推定結果と検定結果よりも慎重に検討する必要があります。

<回帰誤差が円の時>

○母集団:母回帰係数=0 母相関係数=0
 X:母平均=0 母標準偏差=0.707107 母歪度√β1=0(左右対称) 母尖度β2=1.5(鈍峰)
 Y:母平均=0 母標準偏差=0.707107 母歪度√β1=0(左右対称) 母尖度β2=1.5(鈍峰)
※yの母標準偏差の理論値は次のようになる。

∴SDy = √(1/2) ≒ 0.707107
※xの母標準偏差の理論値も同様にして0.707107になる。

○標本集団のデータが10例の時
・標本回帰係数:標準誤差理論値=0.353537
 平均値=0.00103182 標準誤差=0.285559 歪度g1=0.00786714(ほぼ左右対称) 尖度g2=1.41866(ほぼ正規)
表 付録3.19 母集団と標本集団のクロス集計表
(回帰誤差:円・10例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9684(96.84)84(0.84)9768(97.68)
信頼区間外155(1.55)77(0.77)232(2.32)
9839(98.39)161(1.61)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=-0.692921〜βU=0.692921
 標本集団から求めた95%両側信頼区間:自由度=8のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9684+77=9761(97.61%:一致率)
・標本相関係数:標準誤差理論値=0.353537
 平均値=-0.000140993 標準誤差=0.262851 歪度g1=0.0179011(ほぼ左右対称) 尖度g2=-0.112918(ほぼ正規)
表 付録3.20 母集団と標本集団のクロス集計表
(回帰誤差:円・10例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9835(98.35)0(0.00)9835(98.35)
信頼区間外4(0.04)161(1.61)165(1.65)
9839(98.39)161(1.61)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=-0.629626〜ρU=0.629626
 標本集団から求めた95%両側信頼区間:自由度=8のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9835+161=9996(99.96%:一致率)
表 付録3.21 母集団と標本集団のクロス集計表
(回帰誤差:円・10例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9835(98.35)0(0.00)9835(98.35)
信頼区間外0(0.00)165(1.65)165(1.65)
9839(98.39)165(1.65)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9835+165=10000(100%:一致率)

○標本集団のデータが100例の時
・標本回帰係数:標準誤差理論値=0.100965
 平均値=0.000496056 標準誤差=0.0709723 歪度g1=-0.0972204(ほぼ左右対称) 尖度g2=0.154274(ほぼ正規)
表 付録3.22 母集団と標本集団のクロス集計表
(回帰誤差:円・100例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9917(99.17)24(0.24)9941(99.41)
信頼区間外14(0.14)45(0.45)59(0.59)
9931(99.31)69(0.69)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=-0.197888〜βU=0.197888
 標本集団から求めた95%両側信頼区間:自由度=98のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9917+45=9962(99.62%:一致率)
・標本相関係数:標準誤差理論値=0.100965
 平均値=0.000486015 標準誤差=0.0708741 歪度g1=-0.0971444(ほぼ左右対称) 尖度g2=0.136695(ほぼ正規)
表 付録3.23 母集団と標本集団のクロス集計表
(回帰誤差:円・100例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9930(99.30)0(0.00)9930(99.30)
信頼区間外1(0.01)69(0.69)70(0.70)
9931(99.31)69(0.69)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=-0.196418〜ρU=0.196418
 標本集団から求めた95%両側信頼区間:自由度=98のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9930+69=9999(99.99%:一致率)
表 付録3.24 母集団と標本集団のクロス集計表
(回帰誤差:円・100例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9930(99.30)0(0.00)9930(99.30)
信頼区間外0(0.00)70(0.70)70(0.70)
9930(99.30)70(0.70)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9930+70=10000(100%:一致率)

○標本集団のデータが1000例の時
・標本回帰係数:標準誤差理論値=0.0314959
 平均値=0 標準誤差=0.0225376 歪度g1=-0.0706394(ほぼ左右対称) 尖度g2=-0.0067092(ほぼ正規)
表 付録3.25 母集団と標本集団のクロス集計表
(回帰誤差:円・1000例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9936(99.36)4(0.04)9940(99.40)
信頼区間外4(0.04)56(0.56)60(0.60)
9940(99.40)60(0.60)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=-0.0617309〜βU=0.0617309
 標本集団から求めた95%両側信頼区間:自由度=998のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9936+56=9992(99.92%:一致率)
・標本相関係数:標準誤差理論値=0.0314959
 平均値=0 標準誤差=0.0225517 歪度g1=-0.0723365(ほぼ左右対称) 尖度g2=0.000614414(ほぼ正規)
表 付録3.26 母集団と標本集団のクロス集計表
(回帰誤差:円・1000例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9940(99.40)0(0.00)9940(99.40)
信頼区間外0(0.00)60(0.60)60(0.60)
9940(99.40)60(0.60)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=-0.0619931〜ρU=0.0619931
 標本集団から求めた95%両側信頼区間:自由度=998のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9940+60=10000(100%:一致率)
表 付録3.27 母集団と標本集団のクロス集計表
(回帰誤差:円・1000例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9940(99.40)0(0.00)9940(99.40)
信頼区間外0(0.00)60(0.60)60(0.60)
9940(99.40)60(0.60)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9940+60=10000(100%:一致率)

<回帰誤差が楕円の時>

○母集団:母回帰係数=0.5 母相関係数=0.5
 X:母平均=0 母標準偏差=0.707107 母歪度√β1=0(左右対称) 母尖度β2=1.5(鈍峰)
 Y:母平均=0 母標準偏差=0.707107 母歪度√β1=0(左右対称) 母尖度β2=1.5(鈍峰)

○標本集団のデータが10例の時
・標本回帰係数:標準誤差理論値=0.306172
 平均値=0.501509 標準誤差=0.246548 歪度g1=0.0159591(ほぼ左右対称) 尖度g2=1.58426(ほぼ正規)
表 付録3.28 母集団と標本集団のクロス集計表
(回帰誤差:楕円・10例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9694(96.94)75(0.75)9769(97.69)
信頼区間外158(1.58)73(0.73)231(2.31)
9852(98.52)148(1.48)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=-0.100087〜βU=1.10009
 標本集団から求めた95%両側信頼区間:自由度=8のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9694+73=9767(97.67%:一致率)
・標本相関係数:標準誤差理論値=0.306172
 平均値=0.488447 標準誤差=0.205201 歪度g1=-0.831347(ほぼ左右対称) 尖度g2=1.11136(ほぼ正規)
表 付録3.29 母集団と標本集団のクロス集計表
(回帰誤差:楕円・10例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9860(98.60)0(0.00)9860(98.60)
信頼区間外75(0.75)65(0.65)140(1.40)
9935(99.35)65(0.65)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=-0.189184〜ρU=0.859153
 標本集団から求めた95%両側信頼区間:自由度=8のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9860+65=9925(99.25%:一致率)
表 付録3.30 母集団と標本集団のクロス集計表
(回帰誤差:楕円・10例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9860(98.60)0(0.00)9860(98.60)
信頼区間外0(0.00)140(1.40)140(1.40)
9860(98.60)140(1.40)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9860+140=10000(100%:一致率)

○標本集団のデータが100例の時
・標本回帰係数:標準誤差理論値=0.0874385
 平均値=0.500993 標準誤差=0.0620566 歪度g1=0.00902977(ほぼ左右対称) 尖度g2=0.0342187(ほぼ正規)
表 付録3.31 母集団と標本集団のクロス集計表
(回帰誤差:楕円・100例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9926(99.26)11(0.11)9937(99.37)
信頼区間外17(0.17)46(0.46)63(0.63)
9943(99.43)57(0.57)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=0.328624〜βU=0.671376
 標本集団から求めた95%両側信頼区間:自由度=98のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9926+46=9972(99.72%:一致率)
・標本相関係数:標準誤差理論値=0.0874385
 平均値=0.499841 標準誤差=0.0539021 歪度g1=-0.131932(ほぼ左右対称) 尖度g2=-0.0540259(ほぼ正規)
表 付録3.32 母集団と標本集団のクロス集計表
(回帰誤差:楕円・100例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9945(99.45)0(0.00)9945(99.45)
信頼区間外41(0.41)14(0.14)55(0.55)
9986(99.86)14(0.14)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=0.336643〜ρU=0.63414
 標本集団から求めた95%両側信頼区間:自由度=98のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9945+14=9959(99.59%:一致率)
表 付録3.33 母集団と標本集団のクロス集計表
(回帰誤差:楕円・100例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9945(99.45)0(0.00)9945(99.45)
信頼区間外0(0.00)55(0.55)55(0.55)
9945(99.45)55(0.55)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9945+55=10000(100%:一致率)

○標本集団のデータが1000例の時
・標本回帰係数:標準誤差理論値=0.0272763
 平均値=0.500132 標準誤差=0.0192438 歪度g1=0.0593057(ほぼ左右対称) 尖度g2=0.00407868(ほぼ正規)
表 付録3.34 母集団と標本集団のクロス集計表
(回帰誤差:楕円・1000例・回帰係数)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9942(99.42)3(0.03)9945(99.45)
信頼区間外6(0.06)49(0.49)55(0.55)
9948(99.48)52(0.52)10000(100)
 母集団から求めた95%両側信頼区間:正規分布利用 βL=0.446539〜βU=0.553461
 標本集団から求めた95%両側信頼区間:自由度=998のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本回帰係数の個数=9942+49=9991(99.91%:一致率)
・標本相関係数:標準誤差理論値=0.0272763
 平均値=0.499999 標準誤差=0.0166055 歪度g1=-0.014966(ほぼ左右対称) 尖度g2=-0.00361701(ほぼ正規)
表 付録3.35 母集団と標本集団のクロス集計表
(回帰誤差:楕円・1000例・相関係数・t分布)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9949(99.49)0(0.00)9949(99.49)
信頼区間外36(0.36)15(0.15)51(0.51)
9985(99.85)15(0.15)10000(100)
 母集団から求めた95%両側信頼区間:フィッシャーのz変換利用 ρL=0.452018〜ρU=0.545097
 標本集団から求めた95%両側信頼区間:自由度=998のt分布利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9949+15=9964(99.64%:一致率)
表 付録3.36 母集団と標本集団のクロス集計表
(回帰誤差:楕円・1000例・相関係数・z変換)
母集団\標本集団信頼区間(%)信頼区間外(%)計(%)
信頼区間9949(99.49)0(0.00)9949(99.49)
信頼区間外0(0.00)51(0.51)51(0.51)
9949(99.49)51(0.51)10000(100)
 標本集団から求めた95%両側信頼区間:フィッシャーのz変換利用(標本集団によって微妙に異なる)
 母集団と標本集団の判定が一致している標本相関係数の個数=9949+51=10000(100%:一致率)

以上のシミュレーションから、回帰誤差が近似的に正規分布をしていなくても標本集団の例数が10例以上あれば中心極限定理によって標本回帰係数は近似的に正規分布をするので、推定結果と検定結果の信頼性は高いことがわかると思います。 そしてxとyが近似的に2次元正規分布をしていなくても標本集団の例数が10例以上あれば中心極限定理によって標本相関係数は近似的に正規分布をするので、推定結果と検定結果の信頼性は高いこともわかると思います。

そして回帰分析と相関分析は2変量解析ですから、信頼性の高い回帰係数と相関係数を得るためには少なくとも20例以上の例数が必要です。 したがって20例以上の例数で回帰分析と相関分析を行えば、回帰誤差の正規性とか2つの項目の2次元正規性などに無闇にこだわらず、回帰係数と相関係数の推定結果と検定結果を素直に信頼して良いことになります。 (→7.2 重回帰分析結果の解釈)