玄関雑学の部屋雑学コーナー統計学入門

付録3 中心極限定理のシミュレーション

1.中心極限定理

1章3節中心極限定理(CLT:central limit theorem)の説明をしました。 中心極限定理は「母集団がどんな分布をしていても標本平均値(などの十分統計量)の分布は漸近的に正規分布に近似する」というもので、推測統計学の基本定理です。 漸近的に(asymptotically)とは標本集団の例数が多いほど正規分布により近似するという意味であり、 母集団が正規分布していれば標本集団の例数とは無関係に標本平均値は正規分布します。 (→1.3 データの要約方法)

図1.3.3 母集団のデータ分布 → 図1.3.4 標本平均値の分布

医学分野にはデータの正規性をやたらと問題にしたがる悪しき慣習があり、データが近似的に正規分布していないと、平均値の代わりに中央値などのノンパラメトリックな指標を使ったり、平均値の検定(t検定)の代わりに順位和検定などのノンパラメトリックな手法を使いたがります。 しかしデータがどんな分布をしていても、中心極限定理によって標本平均値は近似的に正規分布します。 そしてパラメトリック手法は標本平均値の近似的な正規性に基づいた手法であり、元のデータの正規性に基づいているわけではありません。 そこで中心極限定理がどの程度有効なのかシミュレーションしてみましょう。

2.母集団が一様分布の時

まず母集団のデータが図1.3.3のような一様分布の時について検討してみましょう。 一様分布の例として、1から10万までの整数10万個を母集団のデータにします。 この母集団は全てのデータが1個の離散型一様分布(discrete uniform distribution)であり、その累積度数分布と、母平均値と母標準偏差が同じ時の累積正規分布つまり理論累積度数分布を描くと図 付録3.1のようになります。

図 付録3.1 母集団:整数 図 付録3.2 標本平均値(母集団:整数)

この母集団から10例のデータを無作為抽出して標本集団にし、標本平均値を求めます。 そしてその10例を母集団に戻してから、また10例のデータを無作為抽出して標本平均値を求めるという操作を1万回繰り返すと、1万個の標本平均値が得られます。 その標本平均値の累積度数分布と、平均値と標準偏差――この場合は標準誤差――が同じ時の累積正規分布を描くと、図 付録3.2の赤色の曲線と、その曲線とほとんど重なった黒色の点線になります。

それと同様にして標本集団のデータ数を100例、1000例にした時の標本平均値の累積度数分布と、平均値と標準誤差が同じ時の累積正規分布を描くと、図 付録3.2の緑色の曲線と、その曲線とほとんど重なった黒色の点線、そして青色の曲線と、その曲線とほとんど重なった黒色の点線になります。

これら4種類の分布の基礎統計量は次のようになります。 これらの基礎統計量と図 付録3.1と図 付録3.2から、母集団のデータがたとえ一様分布でも、標本集団のデータが10例以上あれば中心極限定理によって標本平均値はほぼ正規分布することがわかると思います。 またこの母集団は1から10万までの順位分布でもあり、標本平均値は順位平均値に相当します。 そのため母集団の標準偏差と標本平均値の標準偏差を理論的に求めることができます。 (→3.2 1標本の計数値 (注2))

また1章4節5節で説明したように、検定と推定は中心極限定理に基いて行います。 そこで母集団のデータから求めた標本平均値の理論的分布における2.5%の下側棄却域と2.5%の上側棄却域に入った標本平均値の個数と、標本集団のデータから求めた95%信頼区間に母平均値が入った回数も数えました。 それらの結果を見るとどれも5%と95%に近く、棄却域とαエラー、そして信頼区間と信頼係数の意味がわかると思います。 (→1.4 推定1.5 有意性検定の考え方)

○母集団
 母平均値=50000.5 母標準偏差=
 母歪度√β1=0(左右対称) 母尖度β2=1.8(鈍峰、正規分布は3)
○標本集団のデータが10例の時の標本平均値:標準誤差理論値=
 平均値=49934 標準誤差(標準偏差)=9137.45
 歪度g1=0.0136473(ほぼ左右対称) 尖度g2=-0.0904937(ほぼ正規、正規分布は0)
 母集団の5%両側棄却域(μL=32109.4未満とμU=67891.6より大)に入った標本平均値の個数=495(4.95%)
 標本集団から求めた95%両側信頼区間に母平均値=50000.5が入った回数=9461(94.61%)
○標本集団のデータが100例の時の標本平均値:標準誤差理論値=
 平均値=50003.4 標準誤差(標準偏差)=2870.61
 歪度g1=0.0615469(ほぼ左右対称) 尖度g2=-0.0400781(ほぼ正規)
 母集団の5%両側棄却域(μL=44345.4未満とμU=55655.6より大)に入った標本平均値の個数=493(4.93%)
 標本集団から求めた95%両側信頼区間に母平均値=50000.5が入った回数=9509(95.09%)
○標本集団のデータが1000例の時の標本平均値:標準誤差理論値=
 平均値=50011.1 標準偏差(標準偏差)=897.759
 歪度g1=0.0343089(ほぼ左右対称) 尖度g2=0.0122502(ほぼ正規)
 母集団の5%両側棄却域(μL=48220.3未満とμU=51780.7より大)に入った標本平均値の個数=479(4.79%)
 標本集団から求めた95%両側信頼区間に母平均値=50000.5が入った回数=9530(95.3%)
:有限修正因子(母集団が有限の時、標本平均値の分散が少し小さくなることを補正するための値)

参考までに、標本平均値を求める操作を繰り返した時の標本平均値の平均値、標準誤差、歪度、尖度の推移をグラフにしたのが図 付録3.3〜図 付録3.6です。 各グラフの黒色の点線で描いた横軸に平行な直線は、それぞれの指標の理論値を表します。

これらのグラフを見ると、繰り返し数が少なくても、どの指標も理論値から大きくずれることはなく、繰り返し数がだいたい5000回以上になると値が安定することがわかると思います。 また歪度以外の指標は標本集団の例数が多いほど理論値からのズレが小さい傾向があることもわかると思います。 歪度については母集団のデータが左右対称で、標本平均値の分布も近似的に左右対称になるはずなので、標本集団の例数とは無関係に歪度が変化し、その変化は無作為抽出のランダム性に依存していると考えられます。

厳密に言うと、繰り返し数が多くなるほど標本平均値の平均値つまり期待値が母平均値により近似するのは、中心極限定理によるものではなく標本平均値の不遍性(推定量の期待値が母数に一致する性質)によるものです。 また標本集団の例数が多いほど母平均値により近似するのは、標本平均値の一致性(標本集団の例数を無限に大きくすると推定量の母数に一致する性質)によるものです。 そしてこれらのことは標準誤差にも当てはまります。 それに対して繰り返し数が多くなるほど歪度と尖度が0に近づく、つまり標本平均値の分布が正規分布に近似するのは中心極限定理によるものです。 (→1.4 推定 (注4))

図 付録3.3 平均値の推移(母集団:整数) 図 付録3.4 標準誤差の推移(母集団:整数) 図 付録3.5 歪度の推移(母集団:整数) 図 付録3.6 尖度の推移(母集団:整数)

3.母集団が正規分布の時

次に母集団のデータが正規分布の時について検討してみましょう。 母平均値が0、母標準偏差が1の正規乱数を10万個発生させ、それを母集団のデータにします。 この母集団について第1節と同じ方法で標本平均値を求め、結果を同じようにグラフ化したものが図 付録3.7〜図 付録3.12です。

図 付録3.7の母集団の累積度数分布を見ると、実際のデータの累積度数分布と累積正規分布がほぼ重なっていることがわかります。 そして図 付録3.8の標本平均値の累積度数分布を見ると、やはり実際のデータの累積度数分布と累積正規分布がほぼ重なっていることがわかります。

図 付録3.7 母集団:正規乱数 図 付録3.8 標本平均値(母集団:正規乱数)
○母集団
 母平均値=0 母標準偏差=1 母歪度√β1=-0.00538143(ほぼ左右対称) 母尖度β2=2.99569(ほぼ正規)
○標本集団のデータ数が10個の時の標本平均値:標準誤差理論値=
 平均値=0.000870599 標準誤差=0.315401
 歪度g1=-0.0559355(ほぼ左右対称) 尖度g2=0.0368697(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.619767未満とμU=0.619767より大)に入った標本平均値の個数=506(5.06%)
 標本集団から求めた95%両側信頼区間に母平均値=0が入った回数=9490(94.9%)
○標本集団のデータ数が100個の時の標本平均値:標準誤差理論値=
 平均値=-0.00027772 標準誤差=0.101434
 歪度g1=-0.0259188(ほぼ左右対称) 尖度g2=0.0747582(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.195899未満とμU=0.195899より大)に入った標本平均値の個数=545(5.45%)
 標本集団から求めた95%両側信頼区間に母平均値=0が入った回数=9455(94.55%)
○標本集団のデータ数が1000個の時の標本平均値:標準誤差理論値=
 平均値=0 標準誤差=0.0320308
 歪度g1=0.034364(ほぼ左右対称) 尖度g2=-0.00189647(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.0616691未満とμU=0.0616691より大)に入った標本平均値の個数=546(5.46%)
 標本集団から求めた95%両側信頼区間に母平均値=0が入った回数=9472(94.72%)

また標本集団を求める操作を繰り返した時の標本平均値の平均値、標準誤差、歪度、尖度の推移のグラフを見ると、理論値からのズレの大きさや値の安定性は母集団が一様分布の時とほとんど変わらないことがわかります。 ただしこの場合は歪度だけでなく尖度も標本集団の例数とは無関係に変化しています。 これは母集団のデータが近似的に正規分布で、標本平均値の分布も近似的に正規分布になるからだと考えられます。

図 付録3.9 平均値の推移(母集団:正規乱数) 図 付録3.10 標準誤差の推移(母集団:正規乱数) 図 付録3.11 歪度の推移(母集団:正規乱数) 図 付録3.12 尖度の推移(母集団:正規乱数)

以上のシミュレーションから、母集団のデータが正規分布していなくても中心極限定理によって標本平均値は近似的に正規分布し、その様子は母集団のデータが正規分布している時とほとんど変わらないことがわかります。 そしてこのことから母集団のデータが正規分布していなくても、また標本集団の例数が少なくても中心極限定理によって標本平均値は近似的に正規分布するので、平均値の推定結果と検定結果の信頼性はかなり高く、パラメトリック手法を安心して使えることがわかると思います。

4.中央値の時

次は標本中央値について検討してみましょう。 標本中央値は標本最小値や標本最大値のような極値(extreme value)の一種ですから、次のような極値分布((extreme value distribution)をします。

確率密度関数:
 f(x):母集団のデータxの確率密度関数 F(x):母集団のデータxの確率分布関数
単純化のために標本数nを奇数としてn=2m + 1とすると、標本中央値はxm+1になる。
標本中央値の確率密度関数:

標本中央値の確率密度関数をテーラー展開すると正規分布に近似するので、標本中央値にも中心極限定理が成り立ちます。 ただし標本中央値の分散は次のように母中央値の確率密度に依存します。 そのため標本平均値と違って標準誤差が母集団のデータの分布状態に依存するという少々厄介な特徴があります。

標本中央値の分散:
 V(x):母分散 μ':母中央値
※母集団のデータが標準正規分布N(0,1)の時:

標準誤差が母集団のデータの分布状態に依存するということは、検定や推定によって標本中央値から母中央値を推測するには母集団のデータの分布状態を知る必要があるということです。 そのため平均値と違って中央値そのものを検定したり、推定したりする普遍的で精度の高い手法は存在しません

以上のことを確認するために第1節・第2節と同じように母集団が一様分布の時と正規分布の時について標本中央値を求め、結果をグラフ化したものが図 付録3.13〜図 付録3.22です。 母集団のデータから求めた5%の棄却域と標本集団のデータから求めた95%信頼区間は、母集団のデータが正規分布すると仮定して求めました。

図 付録3.1 母集団:整数 図 付録3.13 標本中央値(母集団:整数) 図 付録3.14 中央値の平均値の推移(母集団:整数) 図 付録3.15 中央値の標準誤差の推移(母集団:整数) 図 付録3.16 中央値の歪度の推移(母集団:整数) 図 付録3.17 中央値の尖度の推移(母集団:整数)
○母集団
 母平均値=50000.5 母標準偏差=
 母歪度√β1=0(左右対称) 母尖度β2=1.8(鈍峰)
○標本集団のデータが10例の時の標本中央値:標準誤差理論値=
 平均値=49794.2 標準誤差(標準偏差)=13751.5
 歪度g1=0.0263994(ほぼ左右対称) 尖度g2=-0.345537(ほぼ正規)
 母集団の5%両側棄却域(μL=27577.3未満とμU=72423.7より大)に入った標本中央値の個数=1062(10.62%)
 標本集団から求めた95%両側信頼区間に母中央値=50000.5が入った回数=8458(84.58%)
○標本集団のデータが100例の時の標本中央値:標準誤差理論値=
 平均値=50038.9 標準誤差(標準偏差)=4936.66
 歪度g1=0.100809(ほぼ左右対称) 尖度g2=0.0520008(ほぼ正規)
 母集団の5%両側棄却域(μL=42912.8未満とμU=57088.2より大)に入った標本中央値の個数=1509(15.09%)
 標本集団から求めた95%両側信頼区間に母中央値=50000.5が入った回数=7529(75.29%)
○標本集団のデータが1000例の時の標本中央値:標準誤差理論値=
 平均値=50020.5 標準偏差(標準偏差)=1549.08
 歪度g1=0.0443075(ほぼ左右対称) 尖度g2=0.00239202(ほぼ正規)
 母集団の5%両側棄却域(μL=47769.3未満とμU=52231.7より大)に入った標本中央値の個数=1464(14.64%)
 標本集団から求めた95%両側信頼区間に母中央値=50000.5が入った回数=7544(75.44%)
※標準誤差理論値は母集団のデータが正規分布の時の値
図 付録3.7 母集団:正規乱数 図 付録3.18 標本中央値(母集団:正規乱数) 図 付録3.19 中央値の平均値の推移(母集団:正規乱数) 図 付録3.20 中央値の標準誤差の推移(母集団:正規乱数) 図 付録3.21 中央値の歪度の推移(母集団:正規乱数) 図 付録3.22 中央値の尖度の推移(母集団:正規乱数)
○母集団
 母平均値=0 母標準偏差=1 母歪度√β1=-0.00538143(ほぼ左右対称) 母尖度β2=2.99569(ほぼ正規)
○標本集団のデータ数が10個の時の標本平均値:標準誤差理論値=
 平均値=0.00352484 標準誤差=0.371121
 歪度g1=-0.0536098(ほぼ左右対称) 尖度g2=0.105994(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.775085未満とμU=0.778441より大)に入った標本中央値の個数=386(3.86%)
 標本集団から求めた95%両側信頼区間に母中央値=0.0016778が入った回数=9175(91.75%)
○標本集団のデータ数が100個の時の標本平均値:標準誤差理論値=
 平均値=0.00246649 標準誤差=0.126168
 歪度g1=-0.0097949(ほぼ左右対称) 尖度g2=-0.0121009(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.243846未満とμU=0.247201より大)に入った標本中央値の個数=498(4.98%)
 標本集団から求めた95%両側信頼区間に母中央値=0.0016778が入った回数=8804(88.04%)
○標本集団のデータ数が1000個の時の標本平均値:標準誤差理論値=
 平均値=0.00171011 標準誤差=0.0397939
 歪度g1=-0.0401049(ほぼ左右対称) 尖度g2=0.0239598(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.075613未満とμU=0.0789686より大)に入った標本中央値の個数=524(5.24%)
 標本集団から求めた95%両側信頼区間に母中央値=0.0016778が入った回数=8767(87.67%)

以上のように母集団のデータがどんな分布をしていても、標本中央値の分布は近似的に正規分布になります。 ところが標本平均値と違って母集団のデータの分布状態によって標準誤差が変化するので、標本中央値の標準誤差は不遍性が低くなります。 そのため母集団のデータから求めた5%の棄却域に入る標本中央値の個数は5%になるとは限らず、標本集団のデータから求めた95%信頼区間に母中央値が入る回数も95%になるとは限りません。 このことから中央値そのものを検定したり、推定したりする普遍的で精度の高い手法が存在しない理由がわかると思います。

このように平均値に関する統計手法はデータの分布状態には依存しないので普遍性があるのに対して、中央値に関する統計手法はデータの分布状態に依存するので普遍性がないという特徴があります。 そのためデータの分布状態がわからない時に中央値を使うのは不適切であり、平均値を使った方が良いことがわかると思います。 したがって医学分野の悪しき慣習に反して、結局のところデータがどんな分布をしていても中央値ではなく平均値を使った方が無難であるということになります。