玄関雑学の部屋雑学コーナー統計学入門

付録3 中心極限定理のシミュレーション

1.中心極限定理

1章3節中心極限定理(CLT:central limit theorem)の説明をしました。 中心極限定理は「母集団がどんな分布をしていても標本平均値(などの十分統計量)の分布は漸近的に正規分布に近似する」というもので、推測統計学の基本定理です。 漸近的に(asymptotically)とは標本集団の例数が多いほど正規分布により近似するという意味であり、 母集団が正規分布していれば標本集団の例数とは無関係に標本平均値は正規分布します。 (→1.3 データの要約方法2.2 データの分布と統計手法 (注5))

図1.3.3 母集団のデータ分布 → 図1.3.4 標本平均の分布

医学分野にはデータの正規性をやたらと問題にしたがる悪しき慣習があり、データが近似的に正規分布していないと平均値の代わりに中央値などのノンパラメトリックな指標を使ったり、平均値の検定(t検定)の代わりに順位和検定などのノンパラメトリックな手法を使いたがります。 しかしデータがどんな分布をしていても中心極限定理によって標本平均値は近似的に正規分布します。 そしてパラメトリック手法は標本平均値の近似的な正規性に基づいた手法であり、元のデータの正規性に基づいているわけではありません。 そこで中心極限定理がどの程度有効なのかシミュレーションしてみましょう。

2.母集団が一様分布の時

まず母集団のデータが図1.3.3のような一様分布の時について検討してみましょう。 一様分布の例として1から10万までの整数10万個を母集団のデータにします。 この母集団は全てのデータが1個の離散型一様分布(discrete uniform distribution)であり、その累積度数分布と、母平均と母標準偏差が同じ時の理論的累積度数分布つまり累積正規分布を描くと図 付録3.1のようになります。

図 付録3.1 母集団:整数 図 付録3.2 標本平均(母集団:整数)

この母集団から10例のデータを無作為抽出して標本集団にし、標本平均値を求めます。 そしてその10例を母集団に戻してから、また10例のデータを無作為抽出して標本平均値を求めるという操作を1万回繰り返すと1万個の標本平均値が得られます。 その標本平均値の累積度数分布と、平均値と標準偏差――この場合は標準誤差――が同じ時の累積正規分布を描くと図 付録3.2の赤色の曲線と、その曲線とほとんど重なった黒色の点線になります。

それと同様にして標本集団のデータ数を100例、1000例にした時の標本平均値の累積度数分布と、平均値と標準誤差が同じ時の累積正規分布を描くと図 付録3.2の緑色の曲線と、その曲線とほとんど重なった黒色の点線、そして青色の曲線と、その曲線とほとんど重なった黒色の点線になります。

これら4種類の分布の基礎統計量は次のようになります。 これらの基礎統計量と図 付録3.1と図 付録3.2から、母集団のデータがたとえ一様分布でも標本集団のデータが10例以上あれば中心極限定理によって標本平均値はほぼ正規分布することがわかると思います。 またこの母集団は1から10万までの順位分布でもあり、標本平均値は順位平均値に相当します。 そのため母平均と母分散と母標準偏差と、標本平均値の標準偏差つまり標準誤差を理論的に求めることができます。 (→3.2 1標本の計数値 (注2))

○母集団
 母平均=50000.5 母標準偏差=
 母歪度√β1=0(左右対称) 母尖度β2=1.8(鈍峰、正規分布は3)
○標本集団のデータが10例の時の標本平均値:標準誤差理論値=
 平均値=49934 標準誤差=9137.45
 歪度g1=0.0136473(ほぼ左右対称) 尖度g2=-0.0904937(ほぼ正規、正規分布は0)
 母集団から求めた5%両側棄却域(μL=32109.4未満とμU=67891.6より大)に入った標本平均値の個数=495(4.95%)
 母集団から求めた95%両側信頼区間に母平均=50000.5が入った標本平均値の個数=10000-495=9505(95.05%)
 標本集団から求めた5%両側棄却域(標本集団によって微妙に異なる)に入った標本平均値の個数=539(5.39%)
 標本集団から求めた95%両側信頼区間に母平均=50000.5が入った標本平均値の個数=10000-539=9461(94.61%)
○標本集団のデータが100例の時の標本平均値:標準誤差理論値=
 平均値=50003.4 標準誤差=2870.61
 歪度g1=0.0615469(ほぼ左右対称) 尖度g2=-0.0400781(ほぼ正規)
 母集団の5%両側棄却域(μL=44345.4未満とμU=55655.6より大)に入った標本平均値の個数=493(4.93%)
 母集団から求めた95%両側信頼区間に母平均=50000.5が入った標本平均値の個数=10000-493=9507(95.07%)
 標本集団から求めた5%両側棄却域(標本集団によって微妙に異なる)に入った標本平均値の個数=491(4.91%)
 標本集団から求めた95%両側信頼区間に母平均=50000.5が入った標本平均値の個数=10000-491=9509(95.09%)
○標本集団のデータが1000例の時の標本平均値:標準誤差理論値=
 平均値=50011.1 標準偏差=897.759
 歪度g1=0.0343089(ほぼ左右対称) 尖度g2=0.0122502(ほぼ正規)
 母集団の5%両側棄却域(μL=48220.3未満とμU=51780.7より大)に入った標本平均値の個数=479(4.79%)
 母集団から求めた95%両側信頼区間に母平均=50000.5が入った標本平均値の個数=10000-479=9521(95.21%)
 標本集団から求めた5%両側棄却域(標本集団によって微妙に異なる)に入った標本平均値の個数=470(4.70%)
 標本集団から求めた95%両側信頼区間に母平均=50000.5が入った標本平均値の個数=10000-470=9530(95.3%)
有限修正因子(母集団が有限の時、標本平均値の分散が少し小さくなるのを補正するための値)

1章4節5節で説明したように、推定と検定は中心極限定理に基いて行います。 母集団のデータから求めた標本平均値の理論的分布は近似的に正規分布になり、その平均値は母平均と一致し、標準偏差つまり標準誤差は母分散と標本集団の例数から理論的に求めることができます。 そしてその分布における2.5%の下側棄却域と2.5%の上側棄却域も理論的に求めることができます。 (→1.4 推定1.5 有意性検定の考え方)

そこで、その下側棄却域と上側棄却域に入った標本平均値の数を数えました。 例えば標本集団のデータが10例の時は上記のように下側棄却域の上限μLが32109.4になり、上側棄却域の下限μUが67891.6になります。 そしてこれらの値によって決まる両側棄却域に入った標本平均値の数は495個であり、全体の4.95%でした。 この割合がαエラーつまり有意水準です。

またμL=32109.4〜μU=67891.6の幅35782.2は95%両側信頼区間と同じです。 そのため標本平均値を中心にしてこの幅の95%信頼区間を設定すると、この間に母平均が入っている標本平均値の数は10000-495=9505個になり、全体の95.05%になります。 これが95%信頼区間の意味です。

しかし実際のデータでは、たいてい母平均と分散は不明です。 そのため母平均として母平均推定値――検定では帰無仮説で仮定した母平均の値――を用い、標準誤差は標本集団のデータから求めた不偏分散を用いて計算します。 そのため標本集団ごとに棄却域と信頼区間が微妙に変化します。 しかしそれでも上記のように、標本集団の例数が10例でも100例でも1000例でも標本集団から求めた両側棄却域に入った標本平均値の割合は約5%、両側信頼区間に母平均が入っている標本平均値の割合は約95%でした。 これらの結果から棄却域と有意水準(αエラー)、そして信頼区間と信頼係数の意味がわかると思います。

実際に平均値の推定と検定行う時は平均値の分布をそのまま用いず、平均値を標準化した値の分布を用います。 それによってどんなデータでも統一的に扱うことができて便利だからです。 その際、理想的には平均値を母平均と母分散から求めた標準誤差で標準化し、z=(標本平均値−母平均)/標準誤差とします。 母平均と母分散は定数なので標準化したz値は近似的に標準正規分布N(0,12)をします。

図 付録3.23の赤色の曲線は、標本集団のデータが10例の時の標本平均値を母平均50000.5と母分散から求めた標準誤差理論値9128.3で標準化してz値にし、その累積度数分布を標本集団数1万で割って相対累積度数分布にしたものです。 そしてその曲線とほとんど重なった黒色の点線は標準正規分布の確率分布関数です。 この標準正規分布の下側棄却域の上限は-1.96であり、上側棄却域の下限は1.96です。 そしてこれらの値に標準誤差理論値9128.3を掛けて母平均50000.5を足すと32109.4と67891.6になり、それが前述の母平均と母分散から求めた下側棄却域の上限μLと上側棄却域の下限μUになります。

図 付録3.23 標準化標本平均値(母集団:整数) 図 付録3.24 標準化標本平均値(母集団:正規乱数)

しかし実際のデータでは母平均と分散はたいてい不明なので、母平均推定値と標本集団の不偏分散から求めた標準誤差で標本平均値を標準化し、t=(標本平均値−母平均推定値)/標準誤差とします。 不偏分散は標本集団ごとに微妙に変わるので、標準化したt値は標準正規分布ではなく近似的に自由度(標本集団の例数-1)のt分布をします。

図 付録3.23の緑色の曲線は、標本集団のデータが10例の時の標本平均値を母平均推定値(この場合は母平均50000.5を使用)と不偏分散から求めた標準誤差で標準化してt値にし、その累積度数分布を標本集団数1万で割って相対累積度数分布にしたものです。 そしてその曲線とほとんど重なった黒色の点線は自由度9のt分布の確率分布関数です。 このt分布の下側棄却域の上限は-2.262であり、上側棄却域の下限は2.262です。 そしてこれらの値に標本集団ごとに微妙に異なる標準誤差を掛けて母平均推定値50000.5を足すと、標本集団ごとに微妙に異なる下側棄却域の上限μLと上側棄却域の下限μUが求められます。

それらの両側棄却域とそれに基づく両側信頼区間を用いて検定と推定を行うと、母平均と母分散から求めた両側棄却域と両側信頼区間を用いた検定結果と推定結果とほぼ同じ結果になります。 これが平均値の検定つまりt検定の原理です。

図 付録3.23の母集団は1から10万までの整数である離散型一様分布です。 そのため母平均と母分散を理論的に求めることができます。 そして標本平均値は順位平均値に相当するので、標本平均値の標準誤差を母平均と母分散から理論的に求めることができます。 したがって図 付録3.23の標準正規分布を使って推定と検定を行うことができます。 これが順位和検定の正規近似検定の原理です。 (→3.2 1標本の計数値)

一方、図 付録3.24は母集団が正規乱数の時の標準化標本平均値のグラフです。 2つのグラフを見ると非常によく似ていて、母集団が一様分布でも正規分布でも標準化した標本平均値はほぼ同じ分布をすることがわかります。 したがって母集団のデータが正規分布していなくても、標本集団の例数が少なくてもt検定は有効であり、順序尺度のデータを計量尺度扱いしてt検定を適用してもかまわないことになります。

そしてこのことから、統計学の解説書などによく書かれている、

「たとえ計量尺度のデータでも正規分布しない時とかデータ数が少ない時はt検定などのパラメトリック手法は使えないので、順位和検定などのノンパラメトリック手法を適用しなければならない!」

という説明を鵜呑みにしない方が良いことがわかると思います。

それから母平均推定値に偏りがあると標準化したt値の平均が0にならず、分布の形も少し変わります。 それが非心t分布です。 図 付録3.23と図 付録3.24の青色の曲線は母平均推定値を(母平均+1標準誤差)にした時のt値の相対累積度数分布です。 そしてその曲線とほとんど重なった黒色の点線は自由度9、非心度1の非心t分布の確率分布関数です。

統計的的仮説検定では帰無仮説が正しい時の母平均をμとすると、対立仮設が正しい時の母平均は(μ+δ)にします。 そして実際のt値は帰無仮説が正しいと仮定してμと不偏分散から求めます。 そのため帰無仮説が正しい時はt分布をしますが、対立仮設が正しい時は母平均推定値に−δだけ偏りがあるので非心t分布をします。 そこで非心t分布を利用して、対立仮設が正しい時に検定結果が有意にならない確率つまりβエラーと、検定結果が有意になる確率つまり検出力(1-β)を求めることができます。

したがって図 付録3.23と図 付録3.24はt検定と順位和検定の原理を模式化したグラフであると同時に、統計的仮説検定の原理を模式化したグラフでもあります。 (→1.6 統計的仮説検定の考え方)

また参考までに標本平均値を求める操作を繰り返した時の標本平均値の平均値、標準誤差、歪度、尖度の推移をグラフにしたのが図 付録3.3〜図 付録3.6です。 各グラフの黒色の点線で描いた横軸に平行な直線は、それぞれの指標の理論値を表します。

図 付録3.3 平均値の推移(母集団:整数) 図 付録3.4 標準誤差の推移(母集団:整数) 図 付録3.5 歪度の推移(母集団:整数) 図 付録3.6 尖度の推移(母集団:整数)

これらのグラフを見ると、繰り返し数が少なくてもどの指標も理論値から大きくずれることはなく、繰り返し数がだいたい5000回以上になると値が安定することがわかると思います。 また歪度以外の指標は標本集団の例数が多いほど理論値からのズレが小さい傾向があることもわかると思います。 歪度については母集団のデータが左右対称で、標本平均値の分布も近似的に左右対称になるはずなので、標本集団の例数とは無関係に歪度が変化し、その変化は無作為抽出のランダム性に依存していると考えられます。

厳密に言うと、繰り返し数が多くなるほど標本平均値の平均値つまり期待値が母平均により近似するのは、中心極限定理によるものではなく標本平均値の不偏性(推定量の期待値が母数に一致する性質)によるものです。 また標本集団の例数が多いほど母平均により近似するのは、標本平均値の一致性(標本集団の例数を無限に大きくすると推定量の母数に一致する性質)によるものです。 それに対して繰り返し数が多くなるほど歪度と尖度が0に近づく、つまり標本平均値の分布が正規分布に近似するのは中心極限定理によるものです。 (→1.4 推定 (注4))

3.母集団が正規分布の時

次に母集団のデータが正規分布の時について検討してみましょう。 母平均が0、母標準偏差が1の正規乱数を10万個発生させ、それを母集団のデータにします。 この母集団について第1節と同じ方法で標本平均値を求め、結果を同じようにグラフ化したものが図 付録3.7〜図 付録3.12です。 そして標本平均値を3通りの方法で標準化した値の相対累積度数分布と、その理論確率分布関数をグラフ化したものが前述の図 付録3.24です。

図 付録3.7の母集団の累積度数分布を見ると、実際のデータの累積度数分布と累積正規分布がほぼ重なっていることがわかります。 そして図 付録3.8の標本平均値の累積度数分布を見ると、やはり実際のデータの累積度数分布と累積正規分布がほぼ重なっていることがわかります。 また図 付録3.23と図 付録3.24は非常によく似ていて、母集団のデータが離散一様分布でも正規乱数でも標準化した標本平均値はほぼ同じ分布をすることがわかります。

図 付録3.7 母集団:正規乱数 図 付録3.8 標本平均(母集団:正規乱数)
○母集団
 母平均=0 母標準偏差=1 母歪度√β1=-0.00538143(ほぼ左右対称) 母尖度β2=2.99569(ほぼ正規)
○標本集団のデータ数が10個の時の標本平均値:標準誤差理論値=
 平均値=0.000870599 標準誤差=0.315401
 歪度g1=-0.0559355(ほぼ左右対称) 尖度g2=0.0368697(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.619767未満とμU=0.619767より大)に入った標本平均値の個数=506(5.06%)
 母集団から求めた95%両側信頼区間に母平均=0が入った標本平均値の個数=10000-506=9494(94.94%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本平均値の個数=510(5.10%)
 標本集団から求めた95%両側信頼区間に母平均=0が入った標本平均値の個数=10000-510=9490(94.90%)
○標本集団のデータ数が100個の時の標本平均値:標準誤差理論値=
 平均値=-0.00027772 標準誤差=0.101434
 歪度g1=-0.0259188(ほぼ左右対称) 尖度g2=0.0747582(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.195899未満とμU=0.195899より大)に入った標本平均値の個数=545(5.45%)
 母集団から求めた95%両側信頼区間に母平均=0が入った標本平均値の個数=10000-545=9455(94.55%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本平均値の個数=545(5.45%)
 標本集団から求めた95%両側信頼区間に母平均=0が入った標本平均値の個数=10000-545=9455(94.55%)
○標本集団のデータ数が1000個の時の標本平均値:標準誤差理論値=
 平均値=0 標準誤差=0.0320308
 歪度g1=0.034364(ほぼ左右対称) 尖度g2=-0.00189647(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.0616691未満とμU=0.0616691より大)に入った標本平均値の個数=546(5.46%)
 母集団から求めた95%両側信頼区間に母平均=0が入った標本平均値の個数=10000-546=9454(94.54%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本平均値の個数=528(5.28%)
 標本集団から求めた95%両側信頼区間に母平均=0が入った標本平均値の個数=10000-528=9472(94.72%)

また標本集団を求める操作を繰り返した時の標本平均値の平均値、標準誤差、歪度、尖度の推移のグラフを見ると、理論値からのズレの大きさや値の安定性は母集団が一様分布の時とほとんど変わらないことがわかります。 ただしこの場合は歪度だけでなく尖度も標本集団の例数とは無関係に変化しています。 これは母集団のデータが近似的に正規分布であり、標本平均値の分布も近似的に正規分布になるからだと考えられます。

図 付録3.9 平均値の推移(母集団:正規乱数) 図 付録3.10 標準誤差の推移(母集団:正規乱数) 図 付録3.11 歪度の推移(母集団:正規乱数) 図 付録3.12 尖度の推移(母集団:正規乱数)

以上のシミュレーションから、母集団のデータが正規分布していなくても中心極限定理によって標本平均値は近似的に正規分布し、その様子は母集団のデータが正規分布している時とほとんど変わらないことがわかります。 そしてこのことから母集団のデータが正規分布していなくても、また標本集団の例数が少なくても、中心極限定理によって標本平均値は近似的に正規分布するので平均値の推定結果と検定結果の信頼性はかなり高く、パラメトリック手法を安心して使えることがわかると思います。

4.中央値の時

次は標本中央値について検討してみましょう。 標本中央値は標本最小値や標本最大値のような極値(extreme value)の一種ですから、次のような極値分布((extreme value distribution)をします。

確率密度関数:
 f(x):母集団のデータxの確率密度関数 F(x):母集団のデータxの確率分布関数
単純化のために標本数nを奇数としてn=2m + 1とすると、標本中央値はxm+1になる。
標本中央値の確率密度関数:

標本中央値の確率密度関数をテーラー展開すると正規分布に近似するので、標本中央値にも中心極限定理が成り立ちます。 ただし標本中央値の分散は次のように母中央値の確率密度に依存します。 そのため標本平均値と違って標準誤差が母集団のデータの分布状態に依存するという少々厄介な特徴があります。

標本中央値の分散:
 V(x):母分散 μ':母中央値
※母集団のデータが標準正規分布N(0,12)の時:

標準誤差が母集団のデータの分布状態に依存するということは、推定や検定によって標本中央値から母中央値を推測するには母集団のデータの分布状態を知る必要があるということです。 そのため平均値と違って中央値そのものを検定したり、推定したりする普遍的で精度の高い手法は存在しません

以上のことを確認するために第1節・第2節と同じように母集団が一様分布の時と正規分布の時について標本中央値を求め、結果をグラフ化したものが図 付録3.13〜図 付録3.22です。 母集団のデータから求めた5%の棄却域と、標本集団のデータから求めた95%信頼区間は母集団のデータが正規分布すると仮定して求めました。

図 付録3.1 母集団:整数 図 付録3.13 標本中央値(母集団:整数) 図 付録3.14 中央値の平均値の推移(母集団:整数) 図 付録3.15 中央値の標準誤差の推移(母集団:整数) 図 付録3.16 中央値の歪度の推移(母集団:整数) 図 付録3.17 中央値の尖度の推移(母集団:整数)
○母集団
 母平均=50000.5 母標準偏差=
 母歪度√β1=0(左右対称) 母尖度β2=1.8(鈍峰)
○標本集団のデータが10例の時の標本中央値:標準誤差理論値=
 平均値=49794.2 標準誤差=13751.5
 歪度g1=0.0263994(ほぼ左右対称) 尖度g2=-0.345537(ほぼ正規)
 母集団の5%両側棄却域(μL=27577.3未満とμU=72423.7より大)に入った標本中央値の個数=1062(10.62%)
 母集団から求めた95%両側信頼区間に母中央値=50000.5が入った標本中央値の個数=10000-1062=8938(89.38%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本中央値の個数=1542(15.42%)
 標本集団から求めた95%両側信頼区間に母中央値=50000.5が入った標本中央値の個数=10000-1542=8458(84.58%)
○標本集団のデータが100例の時の標本中央値:標準誤差理論値=
 平均値=50038.9 標準誤差=4936.66
 歪度g1=0.100809(ほぼ左右対称) 尖度g2=0.0520008(ほぼ正規)
 母集団の5%両側棄却域(μL=42912.8未満とμU=57088.2より大)に入った標本中央値の個数=1509(15.09%)
 母集団から求めた95%両側信頼区間に母中央値=50000.5が入った標本中央値の個数=10000-1509=8491(84.91%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本中央値の個数=2471(24.71%)
 標本集団から求めた95%両側信頼区間に母中央値=50000.5が入った標本中央値の個数=10000-2471=7529(75.29%)
○標本集団のデータが1000例の時の標本中央値:標準誤差理論値=
 平均値=50020.5 標準偏差=1549.08
 歪度g1=0.0443075(ほぼ左右対称) 尖度g2=0.00239202(ほぼ正規)
 母集団の5%両側棄却域(μL=47769.3未満とμU=52231.7より大)に入った標本中央値の個数=1464(14.64%)
 母集団から求めた95%両側信頼区間に母中央値=50000.5が入った標本中央値の個数=10000-1464=8536(85.36%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本中央値の個数=2456(24.56%)
 標本集団から求めた95%両側信頼区間に母中央値=50000.5が入った標本中央値の個数=10000-2456=7544(75.44%)
※標準誤差理論値は母集団のデータが正規分布の時の値
図 付録3.7 母集団:正規乱数 図 付録3.18 標本中央値(母集団:正規乱数) 図 付録3.19 中央値の平均値の推移(母集団:正規乱数) 図 付録3.20 中央値の標準誤差の推移(母集団:正規乱数) 図 付録3.21 中央値の歪度の推移(母集団:正規乱数) 図 付録3.22 中央値の尖度の推移(母集団:正規乱数)
○母集団
 母平均=0 母標準偏差=1 母歪度√β1=-0.00538143(ほぼ左右対称) 母尖度β2=2.99569(ほぼ正規)
○標本集団のデータ数が10個の時の標本中央値:標準誤差理論値=
 平均値=0.00352484 標準誤差=0.371121
 歪度g1=-0.0536098(ほぼ左右対称) 尖度g2=0.105994(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.775085未満とμU=0.778441より大)に入った標本中央値の個数=386(3.86%)
 母集団から求めた95%両側信頼区間に母中央値=0.0016778が入った標本中央値の個数=10000-386=9614(96.14%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本中央値の個数=825(8.25%)
 標本集団から求めた95%両側信頼区間に母中央値=0.0016778が入った標本中央値の個数=10000-825=9175(91.75%)
○標本集団のデータ数が100個の時の標本中央値:標準誤差理論値=
 平均値=0.00246649 標準誤差=0.126168
 歪度g1=-0.0097949(ほぼ左右対称) 尖度g2=-0.0121009(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.243846未満とμU=0.247201より大)に入った標本中央値の個数=498(4.98%)
 母集団から求めた95%両側信頼区間に母中央値=0.0016778が入った標本中央値の個数=10000-498=9502(95.02%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本中央値の個数=1196(11.96%)
 標本集団から求めた95%両側信頼区間に母中央値=0.0016778が入った回数=10000-1196=8804(88.04%)
○標本集団のデータ数が1000個の時の標本中央値:標準誤差理論値=
 平均値=0.00171011 標準誤差=0.0397939
 歪度g1=-0.0401049(ほぼ左右対称) 尖度g2=0.0239598(ほぼ正規)
 母集団の5%両側棄却域(μL=-0.075613未満とμU=0.0789686より大)に入った標本中央値の個数=524(5.24%)
 母集団から求めた95%両側信頼区間に母中央値=0.0016778が入った標本中央値の個数=10000-524=9476(94.76%)
 標本集団の5%両側棄却域(標本集団によって微妙に異なる)に入った標本中央値の個数=1233(12.33%)
 標本集団から求めた95%両側信頼区間に母中央値=0.0016778が入った標本中央値の個数=10000-1233=8767(87.67%)

以上のように母集団のデータがどんな分布をしていても、標本中央値の分布は近似的に正規分布になります。 ところが標本平均値と違って母集団のデータの分布状態によって標準誤差が変化するので、標本中央値の標準誤差は不偏性が低くなります。 そのため5%棄却域に入る標本中央値の個数は5%になるとは限らず、95%信頼区間に母中央値が入る標本中央値の個数も95%になるとは限りません。 このことから中央値そのものを検定したり、推定したりする普遍的で精度の高い手法が存在しない理由がわかると思います。

このように平均値に関する統計手法はデータの分布状態には依存しないので普遍性があるのに対して、中央値に関する統計手法はデータの分布状態に依存するので普遍性がないという特徴があります。 そのためデータの分布状態がわからない時に中央値を使うのは不適切であり、平均値を使った方が良いことがわかると思います。 そして医学分野の悪しき慣習に反して、結局のところデータがどんな分布をしていても中央値ではなく平均値を使った方が無難であるということになります。