玄関雑学の部屋雑学コーナー統計学入門

付録

付録1 各種の確率分布

(1) 正規分布(normal distribution)

二項分布の極限として導かれたもので、実験の測定誤差など大部分のデータはそのまま、あるいは適当な変数変換により正規分布をします。 統計学上最も広く応用されている基本的な分布で、平均μ、分散σ2の正規分布をN{μ,σ2}と書きます。

・正規分布の確率密度関数


平均:E(x)=μ  分散:V(x)=σ2
歪度:√β1=0  尖度:β2=3

・正規分布の確率分布関数

μ=0、σ2=12となるように、xを次のように標準化したzを正規偏位(NED、normal deviate)と呼びます。 そして、この時の正規分布を標準正規分布と呼び、N{0,12}と書きます。

・標準正規分布の確率密度関数


・標準正規分布の確率分布関数


erf(x)は誤差関数(Error function)と呼ばれる関数であり、標準正規分布において、データが-z(=-x√2)〜z(=x√2)の間に含まれる確率を表します。 ただしerf(x)は奇関数のため、xが負の場合は関数値が負になります。 また相補誤差関数(Complementary Error function)erfc(x)という関数も定義されていて、この関数はデータが-z〜zの間に含まれない確率を表します。



ここでt=z/√2と置いて置換積分を適用すると、

・有意確率p値(両側)

片側確率はp/2とします。

図 付録.1 標準正規分布(確率密度関数) 図 付録.2 標準正規分布(確率分布関数)
図 付録.3 正規分布の両側p値

対数変換した変数y=ln(x)が正規分布に従う時、変数xの従う分布を対数正規分布またはジブラ分布(Gibrat's distribution)といいます。 yの平均をμy、分散をσy2とすると、その確率密度関数と確率分布関数は次のようになります。



(-∞<y=ln(x)<∞、0<x<∞、Φ(・)は標準正規分布の確率分布関数を表す)
図 付録.4 対数正規分布(確率密度関数)

xの平均をμx、中央値をμx'、幾何平均をμx*、分散をσx2、変動係数をCVxとすると、これらのパラメーターとyのパラメーターの間には次のような関係があります。






ここで、exの級数展開による近似式、

より、CVx≪1の時は次のように近似できます。

y''=log(x)と常用対数を用いた時は、次のようになるので注意が必要です。





原理的には、変動係数が一定のデータすなわち比例尺度のデータは対数正規分布に従い、標準偏差が一定のデータすなわち間隔尺度のデータは通常の正規分布に従います。

(2) χ2分布(chi-square distribution)

正規分布N{μ,σ2}に従う母集団からn個の標本変量xiを取り出した時、そのxiを標準化した正規偏位ziの2乗和はχ2分布に従います。


この時、お互いに独立なziの個数を自由度(degree of freedom)といい、自由度nのχ2分布をχ2[n]と書きます。 μが未知の時は、標本平均で代用して次のようになります。



これは自由度[n-1]のχ2分布に従います。 定義より、自由度1のχ2分布は標準正規分布の平方に一致します。

χ2の式を次のように変形すると、不偏分散Vに(n-1)/σ2を掛けた式になります。 このことから、不偏分散に(n-1)/σ2を掛けたものは自由度[n-1]のχ2分布をすることがわかります。

・χ2分布の確率密度関数



ガンマ関数Γ(x)は階乗関数n!を実数にまで拡張した関数であり、次のようなものです。


・φ=1の時


f(z):標準正規分布の確率密度関数

・φ=2の時

・χ2分布の確率分布関数



Γx(y)は不完全ガンマ関数であり、次のようなものです。

ガンマ関数の計算

・φ:偶数の時

・φ:奇数の時

・有意確率p値(片側)


両側確率は2pとします。

図 付録.5 χ2分布(確率密度関数) 図 付録.6 χ2分布の片側p値

(3) t分布(t distribution、Student distribution)

正規分布N{μ,σ2}に従う母集団からn個の標本変量xiを取り出し、標本平均mを求めて、これを標準化すると次のようになります。


このzは標準正規分布N{0,12}に従う正規偏位です。 一方、zとは独立で、かつ自由度[n-1]のχ2分布に従う値χ2を用いて次のような値tを作ると、このtは自由度[n-1]のt分布に従います。

χ2分布のところで説明したように、不偏分散Vに(n-1)/σ2を掛けた値はχ2になります。 そこで上式のχ2を不偏分散の式にすると、次のように標本平均mを不偏分散Vを用いて標準化した値になります。 σ2が未知の場合は、このように不偏分散を用いてmを標準化し、その値tは自由度[n-1]のt分布に従います。

t分布はn→∞の時、標準正規分布と一致します。

・t分布の確率密度関数





・φ=∞の時


f(z):標準正規分布の確率密度関数

ベータ関数Β(x,y)はガンマ関数を組み合わせた関数であり、次のようなものです。




・t分布の確率分布関数

・φ:奇数



φ=1の時:
 
φ=3の時:
 

・φ:偶数



φ=2の時:
 

・有意確率p値(両側)

・φ:奇数

φ=1の時:
 
φ=3の時:
 
φ>3の時:
 

・φ:偶数

φ=2の時:
 
φ>2の時:
 

片側確率はp/2とします。

図 付録.7 t分布(確率密度関数) 図 付録.8 t分布の両側p値

(4) F分布(F distribution)

互いに独立にχ2分布に従うχ121]、χ222]について、それぞれを自由度で割って比を取った値は、第1自由度φ1、第2自由度φ2のF分布に従います。

正規分布N{μ,σ2}に従う母集団から、互いに独立に2組の標本変量xi、xi'を取り出し、正規偏位の2乗和を作ると、


と、それぞれχ2分布に従います。 μが未知の時は、各群の標本平均m1とm2で代用して次のようになります。


これらを自由度で割って比を取ると、次のように不偏分散V1とV2の比になります。 したがって不偏分散の比は、第1自由度[n1-1]、第2自由度[n2-1]のF分布に従います。

F分布には次のような性質があります。



・F分布の確率密度関数





・φ1=1の時


f(t):t[φ2]分布

・φ2=∞の時


f(χ2):χ21]分布、ただしχ21・F

・F分布の確率分布関数


Βγ(x,y)は不完全ベータ関数であり、次のようなものです。

ここで、次のように置きます。

・φ1:奇数、φ2:奇数



φ2=1の時:
 
φ2=3の時:
 

φ1=1の時:B=0

・φ1:奇数・偶数、φ2:偶数

・φ1:偶数、φ2:偶数・奇数

・有意確率p値(片側)

両側確率は2pとします。

図 付録.9 F[2,φ2]分布(確率密度関数) 図 付録.10 F[2,φ2]分布の片側p値
図 付録.11 F[3,φ2]分布(確率密度関数) 図 付録.12 F[3,φ2]分布の片側p値

(5) 二項分布(binominal distribution)

事象Aの起こる理論確率をπとし、n回中r回Aが起こる確率の分布を二項分布と呼びます。 これは二項検定や符号検定(π=0.5とした二項検定)に用いられます。

・二項分布の確率密度関数


・π=0.5の時




nが大きい時、二項分布は正規分布N{nπ,nπ(1-π)}によって近似できます。

・二項分布の確率分布関数

・有意確率p値(片側)



とすると、

ただし、

両側確率は2pとし、2p>1ならば1にします。

図 付録.13 二項分布[n=10,p=0.3] 図 付録.14 二項分布[n=10]の片側p値

(6) 超幾何分布(hypergeometric distribution)

つぼの中に白球S個、赤球F個が入っていて、m個取り出した時、白球a個、赤球(m-a)個となる確率の分布を超幾何分布と呼びます。 これは2×2分割表において、分類Aと分類Bが独立の時に、3.4 2標本の計数値の表3.18のような結果を得る確率に相当し、フィッシャーの直接確率計算法による検定に用いられます。

表3.18 2×2分割表
分類B1B2
A1abm
A2cdn
SFN

・超幾何分布の確率密度関数





・超幾何分布の確率分布関数

・有意確率p値(片側)

S≦F、n、mかつad≧bcとなるように原表を置きなおし、



とすると、次のようになります。

ただし、

両側確率は2pとし、2p>1ならば1にします。

図 付録.15 超幾何分布[S=n=10,F=m=20] 図 付録.16 超幾何分布[S=n=10,F=m=20]の片側p値

(7) 各種分布のパーセント点の近似計算(有意確率p値からの逆近似計算)

各種分布のパーセント点を計算するには、ニュートン(Newton)法を利用してp値から逆算します。 分布の値をz、それをp値に変換する関数をp(z)とすると、その手順は次のとおりです。

(i) 与えられた有意確率p*から、次のような近似式を用いて初期値z0を求めます。

○正規分布N{0,12}

・ロジット変換

・ヘスティング(Hessting)の最良近似式

ただし、


c1=2.515517  c2=0.802853  c3=0.010328
d1=1.432788  d2=0.189269  d3=0.001308

○χ2分布


u(p*):正規分布の100p*%点(前述の近似式を利用して求める)

・φ>2の時:ウィルソン・ヒルファーティ(Wilson-Hilferty)の近似式



u(p):正規分布の100p%点(前述の近似式を利用して求める)

○t分布


・φ>2の時


u(p*):正規分布の100p*%点(前述の近似式を利用して求める)

○F分布



t(φ,p*):t[φ]分布の100p*%点(前述の近似式を利用して求める)

・φ1、φ2>1の時







u(p):正規分布の100p%点(前述の近似式を利用して求める)

(ii) p0=p(z0)を計算し、p*値とほぼ等しいかチェックします。

ならば計算を終了し、収束したz0を100p*パーセント点z*とします。

収束しない場合は次の手順を実行します。

(iii) z0付近における関数p(z)を直線で近似します。

実際には、p(z)が指数関数的なため、対数変換したln{p(z)}を直線で近似します。 それには、次のようにテイラー(Taylor)展開を利用します。



ln{p(z)}の微分係数つまり近似直線の傾きbは、次のような差分法を用いて計算します。


(iv) p(z)の近似直線を利用して、p*からz*を近似的に逆算します。



この結果、z1はz*に近づくはずなので、z0をz1で更新して収束するまで(ii)以後をくり返します。

図 付録.17 ニュートン法によるp値の逆計算