玄関雑学の部屋雑学コーナー統計学入門

第3章 1・2標本のデータ処理

この章では1標本の計量値と計数値の処理方法、2標本の計量値と計数値の処理方法の説明を通して、具体的な統計手法について各論的に解説します。

3.1 1標本の計量値

いよいよ統計手法の各論に入ります。 これからは多少退屈な話が続きますので、途中で睡魔が襲ってきたら遠慮なくお休みください。 ただしコンピュータの前で寝てしまうと涎でキーボードが汚れますし、体にも悪いので、しかるべき場所でお休みになるようお勧めします。

さてデータが計量値で標本の数が1つの時に、平均値について色々な推測をするには1標本t検定(one sample t-test)とそれに対応する区間推定を用います。 この手法は第1章で説明した検定と同じものであり、1標本の母平均がある基準値と等しいかどうかを調べる手法です。 この手法のように、検定統計量としてt値を利用する検定のことを一般にt検定と呼びます。 しかしt値を利用する検定には平均値以外の要約値——例えば相関係数や回帰係数等——に関するものもあります。 そのため平均値に関する検定のことを正式には平均値の検定と呼びます。 ところが実際の研究現場では平均値の検定のことをt検定と呼ぶ慣習(悪習?)があるので、ここではその慣習に従うことにします。 (→1.5 有意性検定の考え方1.6 統計的仮説検定の考え方)

第1章の例を少し変形し、次のような問題について調べることにしましょう。

問題:脂質異常症患者は総コレステロール(TC)の値が異常に高いまたは低いか?

通常、脂質異常症はTCやトリグリセリド(TG)の値によって診断するので、この問題は少々ナンセンスです。 そして脂質異常症はTCの値が高いかどうかを問題にするのが普通なので、「TCの値が異常に高いか?」という問題を設定するのが自然です。 でも統計手法の説明をわかりやすくするために、あえて上記のような問題を設定しました。

今、TCが高いか低いかを評価するためには、平均値を評価指標にすることが医学的に妥当だとします。 そして仮に170mg/dLをTCの正常値と考えて、これを基準値μ0にし、母集団である脂質異常症患者全体のTCの母平均をμとします。 さらに「TCが異常に高いまたは低いわけではない」と言える範囲、つまり医学的な正常範囲を170±30mg/dL未満とします。 そうすると検定の帰無仮説と対立仮説は次のように表されます。

H0:μ=μ0=170
H1:μ=μ0±30 (μ=140 または μ=200)

統計的仮説検定を用いるためには、計画段階でこれらの仮説を検証するのに必要な例数を求めます。 例えば予備試験や先行研究の結果から、TCの標準偏差推測値が約10であることがわかっているとします。 そして有意水準5%、信頼係数95%、検出力80%として、検出差30、標準偏差10の時の必要例数を求めると3例になります。 (注1)

そこで無作為に選んだ高脂血症患者10例についてTCを測定したところ、表3.1.1のようになったとします。 この表3.1.1のデータを度数分布と累積度数分布によってグラフ化すると、図3.1.1と図3.1.2のようになります。 図中の破線で描いた青色の曲線はデータが正規分布する時の理論的分布曲線です。 この理想分布曲線と実際の分布を比べることによって、正規分布からのズレの程度を評価することができます。 そして結果を解釈する時に、正規分布からのズレの程度を考慮して医学的な考察を加えます。 (→2.3 ノンパラメトリック手法とパラメトリック手法)

表3.1.1 脂質異常症患者のTC(mg/dL)
No.12345678910
TC219221221222222224225227231238
図3.1.1 度数分布 図3.1.2 累積度数分布

表3.1.1のデータに1標本t検定と推定を適用すると次のようになります。 (注2)

例数=10  平均値=225  標準偏差=6  標準誤差=1.8
検定:|to|=2.757(p=0.0222)>t(9,0.05)=2.262 … 有意水準5%で有意
推定:母平均μの95%信頼区間=225±4.1 → 下限:μL=220.9  上限:μU=229.1

実際の標準偏差は6であり、計画段階の推測値である10よりも小さくなっています。 そのためこのデータの検出力は十分だと思われますが、念の為に検出力分析をすると検出力は約100%になり十分であることがわかります。 (注3)

図3.1.1と図3.1.2を見ると、このデータの分布は正規分布にかなり近いようです。 そのため上記の検定結果と推定結果の信頼性はかなり高いと判断して良いと思います。 そこで次のような統計的結論を採用することができます。

統計的結論:脂質異常症患者のTCの母平均は170よりも大きい。 母平均の値は約225であり、幅をもたせれば221〜229の間である。

しかしこれは単なる統計的な結論であり、本当に重要なのは次のようなことです。

225という平均値が医学的にどれほどの意義を持つか?
 つまり
正常値170よりも55高いということが医学的にどれほど異常であるか?

この場合、母平均の95%信頼区間の下限が221であり、信頼区間が医学的な正常範囲である170±30未満から高い方に完全に外れています。 そのため次のような医学的結論を採用することができます。

医学的結論:脂質異常症患者のTCは異常に高い値を示す。

もし95%信頼区間が医学的な正常範囲内にすっぽりと収まっていたとしたら、次のような医学的結論を採用することになります。

医学的結論:脂質異常症患者のTCは正常範囲内に納まっていて、異常に高いまたは低いとは言えない。

この結果を論文化する時は統計的結論だけでなく医学的結論まで記載し、さらに必要に応じて考察を加えます。 どこかのお役所のように、統計的結論をそのまま医学的結論にするような無責任なことはしないようにしましょう。


(注1) この場合の必要例数は、1標本t検定の必要例数の計算式であるお座敷(式)を利用して計算します。 有意水準α=0.05、検出力(1-β)=0.8つまりβ=0.2、母標準偏差σ=10、検出差δ=30とすると次のようになります。 (→1.8 科学的研究の種類とデザイン (注1))

お座敷(式):
t(∞,0.05)=1.96  t(∞,0.4)=0.841  nc=2

(注2) 表3.1.1のデータを一般化してx1、x2、…、xi、…、xnと表すと、1標本t検定の計算式は以下のとおりです。 SSやVの意味を忘れてしまった人は、第1章をもう一度ご覧ください。 (→1.3 データの要約方法)

標本平均値:
平方和:   不偏分散:
標準偏差:   標準誤差:
検定統計量:
検定:|to|≧t(n-1,α)の時、有意水準100α%で有意
推定:μの100(1-α)%信頼区間=μ±t(n-1,α)SE → 下限:μL=μ - t(n-1,α)SE 上限:μU=μ + t(n-1,α)SE
※t(n-1,α):自由度(n-1)のt分布における100α%点

表3.1.1のデータについて実際に計算してみましょう。



     

|to|=30.328(p=2.254×10-10)>t(9,0.05)=2.262
μの95%信頼区間=225±2.262×1.8≒225±4.1 → 下限:μL=220.9 上限:μU=229.1

(注3) 有意水準α=0.05、母標準偏差σ=6、検出差δ=30、例数n=10とすると、検出力は次のようになります。 (→1.6 統計的仮説検定の考え方 (注4))

○非心t分布を利用した正確な計算
t(n-1,λ,β)=t(n-1,α)=2.262   
t(9,15.811,β)=2.262の時、β=4.27436×10-15
∴検出力=(1 - β)≒1
○t分布を利用した近似計算

t(9,0.05)=2.262より 
t(9,2β)=13.549の時、2β=2.7201×10-7 (β=1.3600×10-7)
∴検出力=(1 - β)≒1