玄関雑学の部屋雑学コーナー統計学入門

第3章 1・2標本のデータ処理

この章では1標本の計量値と計数値の処理、2標本の計量値と計数値の処理を通して、具体的な統計手法について各論的に解説します。

3.1 1標本の計量値

いよいよ統計手法の各論に入ります。 これからは多少退屈な話が続きますので、途中で睡魔が襲ってきたら遠慮なくお休みください。 ただし、コンピュータの前で寝てしまうとヨダレでキーボードが汚れますし体にも悪いですから、しかるべき場所でお休みになるようお勧めします。

さて、データが計量値で標本の数が1つの場合に、平均について色々な推測をしたい時には「1標本t検定(one sample t-test)」とそれに伴う推定を適用します。 この検定は第1章で説明した検定と同じもので、1標本の母平均がある基準値と等しいかどうかを調べる手法です。

第1章で説明したように、t値を用いる検定のことを「t検定」と呼びます。 しかしt分布を利用する検定には平均値以外の要約値に関する手法もあるため、平均値に関する検定のことを、正式には「平均値の検定」と呼びます。 ところが実際の研究現場では、平均値の検定のことを慣習的に「t検定」と呼んでいるため、ここでは平均値の検定のことをt検定と呼ぶことにします。

第1章の例を少し変形して、

問題:高脂血症患者は総コレステロール(TC)の値が異常に高いかどうか?

について調べてみましょう。 仮に220mg/dlをTCの正常値と考えてこれを基準値μ0とし、母集団である高脂血症患者全体のTCの母平均をμとします。 そうすると、検定の帰無仮説は次のように表されます。

H0:μ=μ0=220

この帰無仮説を検定するために無作為に選んだ高脂血症患者10例についてTCを測定し、その結果が表3.1のようになったとします。

表3.1 高脂血症患者10例のTC(mg/dl)
No.12345678910
TC219221221222222224225227231238
図3.1 度数分布 図3.2 累積度数分布

表3.1の値をグラフ化すると図3.1と図3.2のようになります。 図中に破線で示した曲線はデータが正規分布する場合の理論的分布曲線で、この曲線と実際の分布を比べることによってデータの正規性を検討することができます。 (→2.2 ノンパラメトリック手法とパラメトリック手法)

有意水準5%、信頼係数95%として上例について実際に計算すると、次のようになります。 (注1)

n=10  m=225  SD=6  SE=1.8
|to|=2.757 (p=0.0222)>t(9,0.05)=2.262…有意水準5%で有意
95%信頼区間:下限μL=220.9  上限μU=229.1

この計算結果と図3.1と図3.2より、

統計的結論:高脂血症患者のTCの母平均は220よりも大きく、ほぼ225付近、幅をもたせれば221〜229の間である。

ということになります。 しかしこれは単なる統計的な結論で、本当に重要なのは、

「225という平均値が医学的にどれほどの意義を持つか?」

つまり、

「正常或の上限220より5高いということが、医学的にみてどれほど異常であるといえるか?」

ということです。 この5という値が医学的にみても異常であれば、

医学的結論:高脂血症患者のTCの平均は異常に高い値を示す。

ということになります。 もし5という値が医学的にみると異常に高いとはいえないのでしたら、

医学的結論:高脂血症患者のTCの平均は異常に高い値を示すわけではない。

ということになります。

どこかのお役所のように、統計的結論をそのまま医学的結論とするような無責任この上ないことはしないようにしましょう。


(注1) 計算式と例題についての計算結果は以下のとおりです。 SSやVの意味を忘れてしまった人はもう一度第1章を御覧ください。 (→1.3 データの要約方法)

例題のデータを一般化してx1、x2、…、xi、…、xnと表しますと、

標本平均値:m= x1+x2+…+xi+…+xn
―――――――――
n
= Σx
――
n
平方和:SS=Sxx=Σ(x-m)2=Σx2-n・m2=Σx2- (Σx)2
――――
n
不偏分散:V= SS
―――
n-1
標準偏差:s=SD=√V
標準誤差:SE=√( V

n
)= s
――
√n
検定統計量:to= m-μ0
―――
SE
t(n-1,α):自由度(n-1)のt分布における100・α%点
検定:|to|≧t(n-1,α)の時有意水準100・α%で有意
推定:100・(1-α)%信頼区間
   下限μL=μ-t(n-1,α)・SE  上限μU=μ+t(n-1,α)・SE
m= 219+221+221+222+222+224+225+227+231+238
――――――――――――――――――――
10
= 2250
―――
10
=225
SS=(2192+2212+2212+2222+2222+2242+2252+2272+2312+2382)
   - 22502
―――
10
=506546- 5062500
――――
10
=296
V= 296
――
9
≒32.9
s=√( 296
――
9
)≒6
SE=√( 296
―――
9×10
)≒1.8
to= 225-220
―――――――
√(296/9/10)
≒2.757
|to|=2.757 (p=0.0222)>t(9,0.05)=2.262
95%信頼区間:
   下限μL=225-2.262×1.8≒220.9  上限μU=225+2.262×1.8≒229.1