玄関雑学の部屋雑学コーナー統計学入門

1.4 推定

(1) 推定と検定

データの要約法の次は推定と検定について説明しましょう。 そもそも推測統計学すなわち近代統計学では標本集団の要約値から母集団の要約値つまり母数を確率的に推測し、それによって母集団の様子を記述します。 この時、母数を推測する手法として推定(estimation)検定(test)の2種類があります。

推定は母数がどれほどの値なのかを推測する手法であり、検定は母数が科学的に意味のある基準値と等しいか等しくないかを○×式で推測する手法です。 つまり推定はpH計のような定量試験に相当し、検定はリトマス試験紙のような定性試験に相当するといえるでしょう。

図1.4.1 統計学的推論

統計学はこの2本の柱からできていて、当然、定量試験である推定の方がより重要です。 ところが実際の研究現場では推定よりも検定の方がはるかに頻繁に利用されていて、検定の方が重要だと思い込んでいる人が多いのは何とも残念なことです。 これは、ひとえに○×試験が大好きな厚生労働省や文部科学省等のお役所の責任であり、彼等の謀略によって広められた悪しき慣習です。 彼等は○×式なら自分達で判断する必要がなく負担が軽くなる――いや、本当は定量結果を自分達で判断できないという、まことに我侭な理由から検定を偏愛しているのです。

(2) 点推定

まずは推定について説明しましょう。 知名度の点では検定に劣る推定ですが、重要性という点では検定を凌駕していて、その概念は検定よりもわかりやすいと思います。 推定は求められた標本集団の要約値から母数を確率的に推測する手法です。 これには点推定(point estimation)区間推定(interval estimation)というの2つの方法があります。

点推定は数学的には不確実ですが一般人には確実な手法であり、その名のとおり「これだ!」とばかりにただ1点で母数を推定する方法です。 例えば母平均と母標準偏差を推定する時、次のように標本平均をそのまま母平均と考え、不偏分散の平方根をそのまま母標準偏差と考えてしまうのです。

  

ちなみにμとσの上に付いている記号「^」は「ハット」と読み、まさしく山をかけた推定値であることを表します。 例えば第1節の体重測定の例では、母平均と母標準偏差を次のように推定します。 何しろ山カンで推定した値ですから、これらが「ピンポーン!」と正解になる確率は低い——数学上は無限小——のですが、実用上はこれで十分でしょう。 (注4)

  

(3) 区間推定

区間推定は数学的には確実なものの一般人には不確実な手法であり、これもその名のとおり、ある程度の幅を持たせて母数を推定する方法です。 その幅のことを信頼区間(CI:Confidence Interval)といい、信頼区間の下限と上限のことを信頼限界(CL:Confidence Limits)といいます。 そして信頼区間に母数が入っている確率を信頼係数(confidence coefficient)または信頼度といいます。

第3節で説明したように標本平均の分布は漸近的に正規分布になり、その平均値つまり標本平均の平均値は母平均と一致し、標本平均の標準偏差は標準誤差になります。 そして正規分布の性質から、母平均±2標準誤差の間に約95%の標本平均が含まれます。 したがってある実験結果から標本平均と標準誤差を得た時、標本平均±2標準誤差の幅を設ければ、その間に約95%の確率で母平均が入ることになります。 その幅の下限μLと上限μUは次のようになり、これを95%信頼区間(95%CI)といいます。

95%信頼区間下限:μL = m - 2×SE  上限:μU = m + 2×SE

厳密にいうと、SEに掛ける係数2は母標準偏差からSEを求めた時は値が変わりませんが、不偏分散の平方根で母標準偏差を推測してSEを求めた時は自由度(n-1)によって値が少し変わります。 この係数をt値といい、t(n-1,0.05)と書きます。 このt値の中の0.05つまり5%は95%の範囲から外れる標本平均の割合のことです。 数学者はへそ曲がりなので、信頼係数ではなく(1−信頼係数)を重要視するのです。 t(n-1,0.05)は2に近い値ですが、自由度と(1-信頼係数)によって値が変化し、次のように自由度が大きいほど、また(1−信頼係数)が大きいほど少し小さな値になります。 (注1) (→付録1 各種の確率分布)

t(60,0.01) = 2.66  t(60,0.05) = 2  t(∞,0.05) = 1.96 ≒ 2

正確な95%信頼区間と、それを一般化した100(1-α)%信頼区間はt(n-1,α)を利用して次のように計算します。

95%信頼区間 下限:μL = m - t(n-1,0.05)×SE 上限:μU = m + t(n-1,0.05)×SE
100(1-α)%信頼区間 下限:μL = m - t(n-1,α)×SE 上限:μU = m + t(n-1,α)×SE (0<α<1)
図1.3.3 母集団のデータ分布 → 図1.4.2 標本平均の分布と信頼区間

この場合の区間推定は実験結果から得られた標本平均の左右つまり両側に信頼区間を設定するので、厳密には両側信頼区間といいます。 そのためt(n-1,α)は両側用であり、標本平均の分布において中央部分の面積——図1.4.3の分布の灰色部分の面積——が(1-α)になるような値です。 そして信頼区間幅の半分つまりt(n-1,α)×SEが推定の実質的な精度を表すので、これを絶対精度(absolute precision)と呼ぶことがあります。

標本平均の右または左だけに信頼区間を設定することも可能であり、それを片側信頼区間といいます。 その場合はt(n-1,2α)を用いて下限をμL=m-t(n-1,2α)×SEにして上限をμU=∞にするか、下限をμL=-∞にして上限をμU=m+t(n-1,2α)×SEにします。 この場合は標本平均の分布の左端または右端の部分の面積がαになり、それ以外の部分の面積が(1-α)になります。 そして原則として片側検定には片側信頼区間が対応し、両側検定には両側信頼区間が対応します。 (→1.6 統計的仮説検定の考え方 (3) 片側検定と両側検定)

(2) 信頼区間の解釈

信頼係数は95%つまりα=(1−信頼係数)=0.05がよく用いられます。 第1節の体重測定の例で正確な95%信頼区間を求めると次のようになります。

標本平均:m = 60  (不偏)標準偏差:SD = 10  標準誤差:
μL = m - t(99,0.05)×SE = 60 - 1.984×1 = 58.016 ≒ 58
μU = m + t(99,0.05)×SE = 60 + 1.984×1 = 61.984 ≒ 62

この推定結果から「母平均は95%の確率でほぼ58〜62の間にある」といえます。 ただし厳密にいうと、95%信頼区間の意味するところは次のようなものです。

「もし母平均が標本平均と同じ値だったら、その母集団からサンプリングされた標本平均のうち95%のものが含まれる区間が95%信頼区間である」

本来、母平均は値が変化しない定数であり、標本平均と信頼区間の方が確率的に変動します。 そのため厳密にはこんなややこしい解釈になるわけです。 でもこの解釈ではほとんど物の役に立たないので、もう少しかみ砕いた表現にすると次のようになります。

95%信頼区間を100回得たら、そのうち95回は信頼区間の間に母平均が入っている

1つの95%信頼区間の中に母平均が入っている確率は、本当は95%ではなく0%(入っていない)か100%(入っている)です。 そしてその0%か100%の信頼区間が100個あった時、そのうちの95個は見事に当たり(100%)であり、残りの5個は残念ながらハズレ(0%)です。 そのため95%のことを信頼確率とは呼ばず、わざわざ信頼係数と呼んでいるのです。 (→付録3 中心極限定理のシミュレーション)

天気予報で使われる「雨の降る確率」も、この信頼区間と同じようなものです。 つまり「雨の降る確率が95%ある」ということは、厳密には次のような意味です。

雨の降る確率95%の日が100日あれば、そのうち95日は雨が降り(100%)、残りの5日は雨が降らない(0%)

しかし実用上はこんなややこしい解釈をする必要はなく、「母平均は95%の確率でほぼ58〜62の間にある」とか「今日の雨の降る確率は95%だ」と解釈してしまってかまいません。 (注2)

一般に、信頼係数は大きいにこしたことはありません。 しかし信頼係数100(1-α)%を大きくする、つまりαを小さくするとt(n-1,α)の値が大きくなり、信頼区間が幅広くなってしまいます。 いくら信頼係数が大きくても、例えば「母平均は99.9%の確率で0〜1000の間にある」などという信頼区間があまりに広い推定は実用的ではありません。 これは、

「明日の天気は晴れ時々曇り、一時雨か雪あるいは雹、所によっては槍も降り、ひょっとすると飛行機か人工衛星か隕石も落ちてくるでしょう」

などという天気予報のようなもので、外れることは少ないでしょうが、まるで雲をつかむような話でほとんど実用になりません。

それとは反対に信頼係数を犠牲にすれば信頼区間を狭くすることができます。 しかし、どうしても信頼度の高い推定をしたい時もあるでしょう。 信頼係数を変えずに信頼区間を狭くするには標準誤差を小さくする必要があります。 標準誤差SEは次のような値でした。

この値を小さくするには例数を多くして分母を大きくするか、それともバラツキの少ないデータを集めて分子を小さくしなければなりません。 これらはどちらも実験を行う研究者の努力如何にかかっている要因です。 何事も額に汗して努力しなければ、それなりの報酬は得られないものです。

推定は漁師(Fisher!)が水面に映った魚(Poisson!)の影mを見て、魚μを捕まえることに例えることができます。 点推定は銛で「エイッ!」と一突きの方法であり、区間推定は幅のある投網を「ヨッコラショッ!」と打つことに相当します。 銛は手軽に扱える反面、魚に当る確率は低くなります。 それに対して投網を打つには技術を要する反面、魚を捕まえる確率は高くなります。 また投網の幅が広ければ魚を捕まえる確率は高くなる反面、網の扱いが厄介です。 反対に投網の幅が狭ければ網は扱いやすい反面、魚を捕まえる確率は低くなります。

図1.4.4 点推定と区間推定

このように点推定も区間推定も一長一短を持っていますが、普通は点推定だけ行い、重要な時だけ区間推定を行うのが一般的です。 そのため評価指標になることが多い平均値は区間推定をよく行うのに対して、標準偏差の区間推定は滅多に行いません。 しかし分散の区間推定法を応用して、標準偏差の区間推定を行うこともできます。 (注3)


(注1) 標本平均mと基準値μ0の差δを、標本平均の標準偏差すなわち標準誤差によって標準化した値をt値といいます。

この時、もし母分散σ2が既知なら次のように計算し、このt値は中心極限定理によって近似的に正規分布をします(元のデータxが正規分布していれば、このt値は正確に正規分布します)。

  

ところが普通はσ2は未知なので、不偏分散Vで代用して次のように計算します。

  

このt値は正規分布をせずに、背が若干低くて横幅の広い分布になります。 それをt分布(t distribution、Student distribution)といい、その確率密度関数f(t)は自由度をφ=n-1とすると次のようになります。

ただしガンマ関数Γ(x)は階乗関数n!を実数にまで拡張した関数であり、次のように定義されています。


Γ(x+1) = x・Γ(x)  Γ(n+1) = n!  Γ(1) = Γ(2) = 1   

またベータ関数Β(x,y)はガンマ関数を組み合わせた関数であり、次のように定義されています。

  
Β(x,y) = Β(y,x)  

t分布はφ→∞の時、正規分布になります。 t分布表に載っている100α%点t(φ,α)は、f(t)についての積分値が次のようになる時の値です。 つまりαはt分布における分布の両裾の面積に相当し、これを両側確率といいます。 (→付録1 各種の確率分布)

このt分布を発見したのは、ダブリンの老舗ビール会社ギネスビールの統計技師をしていたゴセット(William Sealy Gosset)という人です。 ゴセットはスチューデント(Student)というペンネームで論文を書いていて、論文中ではt値のことを「z値」と呼んでいました。 ところがt値とその分布の重要性が広く認められたので、スチューデントの名前から文字を取って「t値」と呼ばれるようになりました (頭文字のsはすでに標準偏差の記号として使われていたので、2番目のtが取られたのです)。 そのため現在でもこの値のことをスチューデントのt値と呼ぶことがあります。

ちなみにゴセットがペンネームを使ったのは、ギネス社が従業員の研究発表を認めていなかったからです。 そのためギネス社がゴセットの統計学上の業績を知ったのは、1937年に彼が心臓発作で急死した後だったそうです。 後年、有名なギネスブックを出すことになるギネス社にしてはリサーチ不足であり、灯台下暗しといったところでしょう。

さらにちなみに、あの悪名高い偏差値は本質的にこのt値と同一のものであり、統計学以外にはあまり意味のない値です。 それをこともあろうに人間のランク付けに使うなどというのは愚の骨頂で、お役人の謀略は何と教育現場にも蔓延しており、いたいけな青少年の精神をジワジワと蝕んでいるのです!

(注2) 標本平均を標準化する時、不偏分散でSEを求めると正規分布ではなくt分布をします。 t値は、

であり、両側用のt分布表には分布の両裾の面積がαになる時の値がt(φ,α)として載っています。 したがってt(φ,α)×SE=m-μより、

mL = μ - t(φ,α)×SE 〜 mU = μ + t(φ,α)×SE

の間には100(1-α)%の標本平均が含まれることになります。 そのため100(1-α)%信頼区間は次のようになります。

μL = m - t(φ,α)×SE  μU = m + t(φ,α)×SE

正規分布の場合はφ=∞であり、t(∞,0.05)=1.96≒2なので、95%信頼区間は次のように近似できます。

μL ≒ m - 2×SE  μU ≒ m + 2×SE

この時の信頼区間の意味は次のようなものです。

「N(μ,σ2)に従う母集団からn例の標本集団を無作為にサンプリングし、信頼係数(1-α)の信頼区間を計算するということを何度も繰り返した時、それらの信頼区間内にμを含むものの割合は(1-α)である」
 平ったくいうと
μを含む信頼区間を得る確率は(1-α)である」

母平均μは定数であり、確率的に変動するのは実は信頼区間の方です。 そしてμが含まれる信頼区間を得る確率が(1-α)なのです。 そこで普通の意味の確率ではないことを表すために、信頼確率ではなく信頼係数または信頼度という用語をわざわざ使っているのです。 (→付録3 中心極限定理のシミュレーション)

(注3) 不偏分散を次のように変形すると、少し歪んだχ2分布(chi-square distribution)という分布をします。

← 「不偏分散Vに(n-1)/σ2を掛けた値であるχ2が自由度(n-1)のχ2分布に従う」という意味

χ2分布の確率密度関数f(χ2)は自由度をφとすると次のようになります。 (→付録1 各種の確率分布)

この性質を利用して母分散σ2の信頼区間を求めることができます。 そしてその平方根が母標準偏差σの信頼区間になります。

100(1-α)%信頼区間 下限:  上限:
<例>n=10、V=100、α=0.05の時
95%信頼区間 下限:  上限:

(注4) 第3節の(注6)で説明したように、未知母数θの推定量をTとすると、その期待値が母数に等しくなる時、Tのことを不偏推定量(unbiased estimator)といいます。 そして不偏推定量の中で分散が最小のものを最小分散不偏推定量(MVUE:Minimum Variance Unbiased Estimator)または一様最小分散不偏推定量(UMVUE:Uniformly Minimum Variance Unbiased Estimator)といいます。 またTが確率密度関数が正則――母数に関して滑らかな関数である――という緩い条件(正則条件)の下でθに確率収束する時、Tのことを一致推定量(consistent estimator)といいます。

不偏性(unbiasedness):E(T) = θ
有効性(efficiency):V(T) → 最小
一致性(consistency):任意のε>0に対して (確率収束)

n例のデータから求めた推定量Tnがnを無限に大きくすると母数θに一致する時、「Tnはθに確率収束する」といい、この性質を一致性(consistency)といいます。 nを無限に大きくすれば、事実上、母集団全体を観測したことになるので、Tnはθに一致しなければ推定量の意味がありません。 そのため一致性は推定量として必須の性質です。

推定量Tを求める方法は色々あり、積率法(モーメント法、method of moment)最尤法(ML法、maximum likelihood method)がよく用いられます。 例えば積率法による母平均μと母分散σ2の推定量は次のようになります。 ちなみに回帰分析で利用される最小2乗法(LS法、Least Squares method)は積率法の一種であり、定数項だけの回帰式の解は標本平均になります。 (→2.3 パラメトリック手法とノンパラメトリック手法 (注2)7.1 重回帰モデル (注1))

原点まわりのr次積率:μ'r = E(xr)   平均まわりのr次積率:μr = E(x - μ)r
母平均の積率推定量: … 標本平均
母分散の積率推定量: … 標本分散

最尤法は尤度が最も高い母数を推定する方法であり、フィッシャーが開発しました。 そしてデータが正規分布する時、最尤推定量(maximum likelihood estimator)は最小2乗推定量(least squares estimator)と一致します。 例えばデータが正規分布する時、μとσ2の最尤推定量は次のように最小2乗推定量と一致します。 なお最尤法の詳しい説明は9.3節の(注1)を参照してください。 (→9.3 1変量の場合 (注1))

xiの確率密度関数:
尤度関数:
対数尤度関数:
μとσ2の最尤推定量は対数尤度関数を最大にする時のμとσ2 → 対数尤度関数をμとσ2で偏微分して0と置いた連立方程式――尤度方程式(likelihood equation)の解
… (1)
… (2)
(1)式より … 標本平均
これを(2)式に代入して … 標本分散

一般に、母数ベクトルθに関する対数尤度関数L(θ)は最大値を持ち、その時のθが最尤推定量になります。 しかしL(θ)の偏微分方程式を解析的に解くのは困難なことが多いので、通常はニュートン(Newton)法などを利用して近似解を求めます。 ニュートン法はL(θ)の最大値付近を放物線つまり2次曲線で近似し、最大値になる時のθを近似的に求める手法です。 そしてニュートン法で用いる2次偏微分係数行列(ヘスの行列)は、L(θ)の最大値付近の曲率を表す計量行列です。 この曲率が大きいほど推定量の変動幅が小さくなるため、これは推定量の確実性を表す指標になります。 (→10.3 ロジスティック回帰分析の計算方法 (注2))

図10.3.2 ニュートン・ラプソン法の模式図

ただしL(θ)は上に凸の曲線なので、この曲率は負の値になります。 そこでこの曲率の符号を反転させた値の期待値を求めると、それは推定量の確実性を表す指標つまりデータx1,…,xnが持つ情報量の多さを表す指標になります。 これをフィッシャーの情報量(Fisher's information)と呼び、の符号を反転させた行列の期待値E(-)をfと書いてフィッシャーの情報行列(Fisher's information matix)と呼んでいます。 そして最尤推定量には漸近的正規性があり、その分散がフィッシャーの情報量の逆数になることをフィッシャーが証明しました。

その後、不偏推定量の分散の理論的な最小値がフィッシャーの情報行列の逆行列の対角要素[f]jj-1になることを、クラメール(Harald Cramer)ラオ(C.R.Rao)が証明しました。 そのため[f]jj-1クラメール−ラオの下限(Cramer-Rao's lower bound)と呼ばれています。

フィッシャーの情報行列:
クラメール−ラオの不等式(Cramer-Rao's inequality):V(Tj) ≧ [f(θ)]jj-1

分散がクラメール−ラオの下限に一致する不偏推定量のことを有効推定量(efficent estimator)といい、これは当然、最小分散不偏推定量になります。 そしてデータが正規分布する時、最尤推定量も積率推定量も有効推定量になります。 データが正規分布しない時、最尤推定量は漸近的有効推定量(asymptotically efficent estimator)――例数が増えるほど有効推定量に近づく推定量――になりますが、積率推定量は漸近的有効推定量になるとは限りません。 そのため統計学の解説書などには、たいてい「データが正規分布しない時は最尤推定量を用いるべきだ!」と書かれています。

しかし最尤推定量はたいてい解析的に解けないので、ニュートン法などを利用して近似的に求めます。 そしてニュートン法は初期値と収束条件によって収束する値が異なるので計算条件によって近似解が異なり、しかもそれが真値にどの程度近似しているかは不明です。 そのためそれを悪用すれば近似解の値を恣意的に操作することも不可能ではありません。

実際、最尤推定量は統計ソフトによっても、計算した人によっても値が微妙に異なります。 そのため理論的には分散が最小になるはずが、実際に求められた値にはバラツキがあります。 それに対して積率推定量は解析的に解けるので誰が計算しても同じ値になり、バラツキはありません。 これらのことを考慮すると「データが正規分布しない時は最尤推定量を用いるべきだ!」という主張を鵜呑みにせず、科学的に最も意義のある推定量を選択するのが実際的です。