玄関雑学の部屋雑学コーナー統計学入門

1.6 統計的仮説検定の考え方

(1) 有意性検定と統計的仮説検定

第5節で説明した検定の考え方はフィッシャーが考案した有意性検定です。 しかし現在ではネイマン(Jerzy Neyman)ピアソン(Egon Pearson)流の統計的仮説検定(statistical hypothesis testing)または仮説検定(test of hypothesis)と呼ばれる手法が主流になっています。

有意性検定は対立仮説の正しい確率が非常に高い時だけ結論として採用する手法であり、対立仮説の正しい確率が低い時は結論を保留します。 そのため検定結果が有意にならない時は結論を採用することができません。 これは非常に誤解されやすく、有意性検定の大きな欠点です。

また平均値が基準値とぴったり同じでない限り、例数さえ増やせば検定結果は必ず有意になります。 そして現実には平均値が基準値とピッタリ一致することはほとんど有り得ません。 そのためわざわざ検定を行わなくても「母平均値は基準値とは異なる」という対立仮説を採用できる、つまり事実上、検定は必要ないことになります。

そこで、この点を改善するためにネイマンとピアソンが開発した手法が統計的仮説検定です。 例えば第5節と同じ問題を設定し、日本人全体から100名の標本集団を抽出して体重を測定したところ平均値が51kg、標準偏差が10kgになったとします。

問題:日本人の平均体重は50kgか?
95%信頼区間: → 95%信頼区間に基準値50kgが含まれているので有意水準5%で有意ではない
統計学的結論:日本人の平均体重は50kgではないと断言できないので結論保留

ここで「日本人の平均体重は50kgか?」という問題は、よく考えると「日本人の平均体重が50kgと数学的にピッタリ一致しているか?」という意味ではなく、実際には「日本人の平均体重が医学的に許容できる範囲でほぼ50kgか?」という意味だとわかると思います。 例えば日本人の平均体重が50.01kgだったとしたら、誰でも「日本人の平均体重は50kgではない」とは結論せず、「日本人の平均体重はほぼ50kgである」と結論するでしょう。

そこで体重の医学的な許容範囲を±5kg以内とする、つまり±5kgよりも小さい体重の変動は医学的な意義がなく、無視できると仮定します。 すると45〜55kgの範囲の体重は実質的に50kgと変わらないことになります。 そして上記の95%信頼区間49〜53kgはこの医学的許容範囲にすっぽりと入っているので、次のような結論が95%以上の確率で正しいことになります。

統計学的結論:日本人の平均体重は45kgよりも重く55kgよりも軽い=日本人の平均体重は実質的に50kgと等しい → 問題の答えは△

この結論は、

統計学的結論:日本人の平均体重は50kgである → 問題の答えは○

とは違いますが、医学的にはほぼ同じ意味になります。

図1.6.1 信頼区間と統計的仮説検定

この5kgは医学的な誤差範囲であり、「δ*」などと書いて(最小)検出差(scientific significant difference)と呼ばれます。 統計的仮説検定はこのように科学的に意味のある検出差つまり科学的な誤差範囲と、信頼区間つまり数学的な誤差範囲を利用して、検定結果が有意ではない時も結論を採用します。 これが有意性検定と違うところです。

(2) 統計的仮説検定の手順

有意性検定と同様に、統計的仮説検定も正式には母集団と母数を基準にした手順で行います。

1) 問題を設定する

これは形式上は有意性検定と同じですが、より現実的な意味に解釈します。

問題:日本人の平均体重は50kgか? → 日本人の平均体重は実質的に50kgと等しいか?

2) 帰無仮説と対立仮説を設定する

統計的仮説検定の帰無仮説は有意性検定と同じですが、対立仮説は科学的に意味のある検出差δ*を用いて具体的に設定します。

H0:日本人の平均体重は50kgである(μ = μ0 または δ = μ - μ0=0)
H1:日本人の平均体重は45kgまたは55kgである(μ = μ0 ± δ* または δ = μ - μ0 = ±δ* = ±5)

ここで注意しなければならないことは、この対立仮説は単に帰無仮説を否定しただけの漠然とした仮説ではなく、無数に考えられる具体的な対立仮説の中のひとつであるということです。 そのため帰無仮説が正しい確率をpとすると、この対立仮説が正しい確率を(1-p)として計算することはできません。 その代わり帰無仮説が正しい確率を計算するのと同じような方法で、この対立仮説が正しい確率を計算できます。

3) 有意水準と検出力を決める

統計的仮説検定では有意水準だけでなく検出力も決めます。 検出力(power)は対立仮説が正しい時に検定結果が有意になる確率のことです。 そして1からこの値を引いた値は対立仮説が正しい時に検定結果が有意にならない確率になり、これをβエラーといいます。 検出力とβエラーについては後で詳しく説明します。

有意水準を5%にする:α = 0.05、信頼係数(1-α) = 0.95
検出力を80%にする:(1-β) = 0.8、β = 0.2

4) 母集団から標本集団を無作為抽出する

これは有意性検定と同じです。 ただし後述するように、本来は試験に必要な例数を求めてから標本集団を無作為抽出します。

日本人全体から100名の人を無作為抽出して標本集団にする

5) 標本集団のデータを測定して要約値を求める

今回は次のような結果になったとします。

例数:n = 100  標本平均値:m = 51  標準偏差:SD = 10

6) 帰無仮説が正しいと仮定した時の標本平均値の分布と、対立仮説が正しいと仮定した時の標本平均値の分布を描く

有意性検定と同様に、まず帰無仮説が正しいと仮定した時の母集団を想定し、その母集団からn例の標本集団を無作為抽出して標本平均値を求め、それを無限回繰り返した時の標本平均値の分布を描きます。 次に対立仮説が正しいと仮定した時の母集団を想定し、同じようにして標本平均値の分布を描きます。 (注1)

帰無仮説が正しい時:μ = μ0 = 50  σ ≒ SD = 10  SE = 1 (図1.6.2の中央の標本平均値の分布参照)
対立仮説が正しい時:
  μ = μ0 - δ* = 45  σ ≒ SD = 10  SE = 1 (図1.6.2の左側の標本平均値の分布参照)
   または
  μ = μ0 + δ* = 55  σ ≒ SD = 10  SE = 1 (図1.6.2の右側の標本平均値の分布参照)
図1.6.2 統計的仮説検定の模式図

7) それぞれの標本平均値の分布における棄却域を求める

有意性検定と同様に、まず帰無仮説が正しいと仮定した時の標本平均値の分布で棄却域を求めます。 この場合は第5節で求めた棄却域と同じです。

下限棄却域:mL = μ0 - t(99,0.05)×SE = 50 - 1.984×1 = 48.016より小 (図1.6.2の中央の標本平均値の分布の左端の薄い灰色の部分)
上限棄却域:mU = μ0 + t(99,0.05)×SE = 50 + 1.984×1 = 51.984より大 (図1.6.2の中央の標本平均値の分布の右端の薄い灰色の部分)
(参考) 95%信頼区間:下限μL≒49 上限μU≒53

この時、図1.6.2の下段左側の標本平均値の分布でmL=48.016以上の範囲の面積(薄い灰色の部分)はβになり、右側の標本平均値の分布でmU=51.984以下の範囲の面積(薄い灰色の部分)もβになります。 この2つの範囲は対立仮説の棄却域に相当し、実際の標本平均値がこの範囲に入った時は対立仮説を棄却します。 対立仮説の棄却域の境界値は帰無仮説の棄却域の境界値と同じ値になります。 そのため標本平均値は必ずどこかの棄却域に入ります

また対立仮説の棄却域は左右の標本平均値の分布の片側にしかなく、その面積はβ/2ではなくβです。 これはμ=μ0*とμ=μ0*は相反事象であり、どちらか一方しか起こらないのでβを2つに分ける必要がないからです。

8) 標本平均値がどの棄却域に入っているか調べる

有意性検定と同様に、次のような方法で調べることができます。

○方法1:標本平均値と帰無仮説の棄却域の上限または下限を比較する
m = 51 < mU = 51.984 → mは帰無仮説の棄却域に入っていない → 95%信頼区間49〜53の間に基準値μ0 = 50が含まれている → 対立仮説の棄却域に入っている
○方法2:標本平均値と基準値の距離を標準誤差単位にした値toが、基準値と帰無仮説の棄却域上限または下限の距離を標準誤差単位にした値より大きいかどうか調べる
to = (51 - 50)/1 = 1 < (51.984 - 50)/1 = 1.984 = t(99,0.05) → mは帰無仮説の棄却域に入っていない → 対立仮説の棄却域に入っている
○方法3:t分布において、toから右側の部分の面積がα/2よりも小さいかどうか調べる

実際にはtoから右側の面積を2倍した値つまり有意確率(p値)とαを比較します。

to = 1から右側の面積×2 = → mは帰無仮説の棄却域に入っていない → 対立仮説の棄却域に入っている

9) 標本平均値が帰無仮説の棄却域に入っている時、帰無仮説を否定した仮説を統計学的結論として採用する

有意水準5%で有意 → 統計学的結論:日本人の平均体重は50kgではない

これは対立仮説「日本人の平均体重は45kgまたは55kgである」の採用ではなく、帰無仮説「日本人の平均体重は50kgである」を否定した定性的な結論である点に注意してください。 あくまでも検定は定性試験なので母平均値について定性的な結論しか採用できないのです。 そしてこの結論が間違っている確率は長い目で見てαエラーよりも小さくなり、この場合は5%よりも小さくなります。

10) 標本平均値が対立仮説の棄却域に入っている時、対立仮説を否定した仮説を統計学的結論として採用する

有意水準5%で有意ではない → 統計学的結論:日本人の平均体重は45kgよりも重く55kgよりも軽い

これも帰無仮説「日本人の平均体重は50kgである」の採用ではなく、対立仮説「日本人の平均体重は45kgまたは55kgである」を否定した定性的な結論です。 そして図1.6.2からわかるように対立仮説の棄却域はmL〜mUの間ですから、対立仮説を否定した定性的な結論は「日本人の平均体重は45kg〜55kgの間である」つまり「日本人の平均体重は45kgよりも重く55kgよりも軽い」ということになります。

この場合、45〜55kgの範囲内は医学的には誤差範囲です。 したがってこの結論は「日本人の平均体重は50kgである」という結論と実質的に同じ意味になります。 そしてこの結論が間違っている確率は長い目で見てβエラー以下になり、この場合は20%以下になります。

11) 統計学的結論を科学的に評価して科学的結論を下す

○有意の時

母平均値の推測値51kgは基準値50kgに比べて1kg重く、この1kgという数字は信頼できます。 しかしこの差は医学的に有意義な差ではないので、次のような医学的結論を下します。

医学的結論:日本人の平均体重は50kgではないが、実施的には50kgと変わらない
○有意ではない時

母平均値は45kgよりも大きく55kgよりも小さいということが信頼できます。 そしてこの範囲は医学的な誤差範囲なので、次のような医学的結論を下します。

医学的結論:日本人の平均体重は実質的に50kgと等しい

(3) αエラーとβエラー

このように統計的仮説検定は試験結果に基づいて、より可能性の少ない具体的な仮説を否定し、その反対の意味を持つ定性的な結論を採用する手法です。 そしてどのような結論を採用するにしても、それが間違っている確率を明言しておくのです。 それによって結論保留という曖昧な検定結果がなくなります。 この点が有意性検定と大きく異なるところです。

帰無仮説が正しい時または対立仮説が正しい時に対して、検定結果が有意になる確率と有意にならない確率をまとめると表1.6.1のようになります。

表1.6.1 統計的仮説検定表
 統計学的結論
有意:μ≠μ0有意ではない:|μ-μ0|<δ*
真実H0:μ=μ0α1-α
H1:μ=μ0±δ*1-ββ
α:αエラー、第1種のエラー(アワテの言い過ぎ)
β:βエラー、第2種のエラー(ボンヤリの見逃し)
1-β:検出力(power)

αは真実がμ=μ0であるにもかかわらず、アワテテμ≠μ0と言い過ぎてしまう確率であり、これが有意水準です。 この確率は、疾患の診断学において正常な人がある検査を受けて陽性になる確率つまり偽陽性率に相当します。 (1-α)は真実がμ=μ0であり、結論も|μ-μ0|<δ*となって、シグナルを検出しない確率です。 この確率は正常な人がある検査を受けて陰性になる確率つまり特異度(specificity)に相当します。

βは真実がμ=μ0*またはμ=μ0*であるにもかかわらず、ボンヤリして|μ-μ0|<δ*とシグナルを見逃してしまう確率です。 この確率は病気の人がある検査を受けて陰性になる確率つまり偽陰性率に相当します。 (1-β)は真実がμ=μ0*またはμ=μ0*であり、結論もμ≠μ0となってシグナルを検出する確率なので検出力または検定力と呼ばれています。 この確率は病気の人がある検査を受けて陽性になる確率つまり感度(sensitivity)に相当します。 (→9.2 群の判別と診断率)

感度と特異度が不明な検査は使い物にならないのと同様に、αとβを設定しない検定は使い物になりません。 有意性検定は特異度だけがわかっていて感度がわかっていない検査に相当するので、検査結果が陰性つまり検定結果が有意にならなかった時は結論を保留するしかないのです。

また前節の「(6)有意確率の意味」で説明したように、有意確率p値が非常に小さい時は、例えば「有意水準0.1%で有意」などと表現することがよくあります。 しかし感度と特異度と同様にα(偽陽性率)とβ(偽陰性率)の間にもトレードオフの関係があるので、αを小さくすれば必然的にβが大きくなります

例えばα=0.05、β=0.2つまり有意水準5%、検出力80%という条件の検定を行った結果、p<0.001になったので「有意水準0.1%で有意」つまり「α=0.001で有意」と表現したとします。 この時、α=0.001に対応するのはだいたいβ≒0.75つまり「検出力25%」になります。 これは感度25%、特異度99.9%の検査に相当し、非常に偏った信頼性の低い検定を行ったことになってしまいます。 したがって試験計画時にα=0.05、β=0.2と設定したのなら、いくらp値が小さくても「(検出力80%の検定を行った結果)有意水準5%で有意」と表現するべきです。

それから繰り返しになりますが、有意になった時はμ=μ0の否定すなわちμ≠μ0の採用であり、μ=μ0−δ*またはμ=μ0*の採用ではありません。 つまり有意になってもμ=μ0−δ*またはμ=μ0*という具体的な対立仮説を証明したわけではなく、μ≠μ0という定性的な結論を採用したにすぎません。 同様に有意にならなかった時はμ=μ0±δ*の否定すなわち|μ-μ0|<δ*という定性的な結論の採用であり、μ=μ0という具体的な帰無仮説を証明したわけではありません。

検定はあくまでも定性試験なので定性的な結論しか得られません。 μについて具体的な値を推測するには定量試験である推定を行う必要があります。 (注2)

(4) 片側検定と両側検定

これまでに説明した検定では母平均値が基準値と等しいかどうかを問題にしていました。 しかし場合によっては母平均値が基準値よりも大きいかどうか、または小さいかどうかだけを問題にすることがあります。 例えば体重測定の例の「日本人の平均体重が50kgか否か?」という問題は、日本人に肥満傾向があるのか、それとも痩せ傾向があるのかの両方を問題にしたものです。

しかし日本人に肥満傾向があるかどうかだけを問題にしたい時は「日本人の平均体重が50kgよりも大きいか否か?」を問題にします。 このような場合、帰無仮説は変わりませんが、対立仮説が次のように単純になります。

H0:日本人の平均体重は50kgである (μ = μ0 または δ = μ - μ0 = 0)
H1:日本人の平均体重は55kgである (μ = μ0 + δ* または δ = μ - μ0 = δ*=5)

この時の統計的仮説検定を模式図にすると図1.6.3のようになり、図1.6.2よりも単純になります。 この場合、図のH0の分布つまり帰無仮説が正しい時の標本平均値の分布において、母平均値よりも値が大きい方にかけ離れた標本平均値だけを問題にするので棄却域は分布の右側つまり上側だけに設定します。

このように分布の片側だけに棄却域を設定する検定を片側検定(one-tailed test)といいます。 それに対して、これまでの検定のように分布の両側に棄却域を設定する検定を両側検定(two-tailed test)といいます。 そして図1.6.3のように、原則として片側検定には片側信頼区間が対応し、両側検定には両側信頼区間が対応します。 (→1.4 推定)

図1.6.3 統計的仮説検定の模式図(片側検定)

片側検定では有意水準αの値を分布の右側つまり上側だけに割り振るので上側棄却域の面積が倍になり、下限値mUが両側検定のmUよりも小さくなります。 そのため試験結果の標本平均値mが棄却域に入っているかどうかを判定する基準が次のように少し変わります。 (注3)

○方法1
 mU = μ0 + t(φ,2α)×SE < mの時、mは棄却域に入っているから有意 → μ0 < μL(片側信頼区間の下限)の時、μ0は信頼区間に含まれていないから有意
○方法2
 m - μ0 > mU - μ0の時、mは棄却域に入っているから有意
○方法3
 > t(φ,2α)の時、棄却域に入っているから有意
○方法4
 toから右側の面積=∫tof(t)dt = p < αの時、棄却域に入っているから有意

統計学の解説書などに載っている一般的なt分布表は、たいてい両側検定用のものです。 そのため分布の両側の棄却域の合計面積がαになる時の値、つまり分布の片側の棄却域の面積がα/2になる時の値が記載されています。 したがって分布の片側棄却域の面積がαになる時のt値はt分布表の自由度φ=n-1の100×2α%点の値t(φ,2α)になります。 もし片側検定用のt分布表があれば、分布の片側棄却域の面積がαになる時のt値はt(φ,α)になります。

帰無仮説が正しい時または対立仮説が正しい時に対して試験結果が有意になる確率と有意にならない確率をまとめると、片側検定の場合は表1.6.2のようになります。

表1.6.2 統計的仮説検定表(片側検定)
 結論
有意:μ>μ0有意ではない:μ<μ0*
真実H0:μ=μ0α1-α
H1:μ=μ0*1-ββ
α:αエラー、第1種のエラー(アワテの言い過ぎ)
β:βエラー、第2種のエラー(ボンヤリの見逃し)
1-β:検出力(power)

この場合、検定結果が有意になった時はμ=μ0の否定すなわちμ>μ0の採用であり、有意にならなかった時はμ=μ0*の否定すなわちμ<μ0+δ*の採用です。 これらの結論はやはり定性的な結論の採用であり、μ=μ0という具体的な帰無仮説やμ=μ0*という具体的な対立仮説を証明したわけではありません。

ちなみに製薬企業が実施する臨床試験などで、たまに「有意水準を2.5%にした片側検定」という表現を見かけることがあります。 これは図1.6.2の片側棄却域だけを設定する検定ですから「有意水準を5%にした両側検定」と実質的に同じと思うかもしれません。

しかし片側検定は分布の一方だけに棄却域を設定するので、そこに標本平均値が入った時だけ有意になり、標本平均値がもう一方の棄却域に入っていたとしても有意にはなりません。 そのため薬剤が有効な時だけ「薬剤は有効である」という結論を採用し、薬剤が有害な時は「薬剤は有効ではない」という結論を採用します。 つまり都合の良い結果の時だけ良い結論を採用し、都合の悪い結果の時は曖昧な結論を採用するわけです。 これは製薬企業にとっては好都合でしょうが、決して科学的な態度ではありません。 このような場合は、やはり「有意水準を5%にした両側検定」の方が合理的です。

(5) F分布とF検定

実際の研究現場では母平均値が基準値と等しいかどうかを問題にすることが多く、両側検定を行うのが一般的です。 しかし実は検定の基本は片側検定なのです。 そのため母平均値が基準値と等しいかどうかを問題する場合でも、適切な検定手法を用いれば片側検定を行うことができます。

例えば体重測定の例では母平均値と基準値の差を検定の指標にしましたが、差ではなく差を平方した値を検定の指標にすれば片側検定を行うことができます。 その場合、帰無仮説と対立仮説が次のように変わります。

H0:日本人の平均体重は50kgである(μ = μ0 または δ2 = (μ - μ0)2 = 0)
H1:日本人の平均体重は45kgまたは55kgである(μ = μ0±δ* または δ2 = (μ - μ0)2 = (δ*)2 = 25)

この場合、母集団から100例の標本集団を無作為抽出して標本平均値と標準誤差を計算し、それらの値からt値を計算する代わりにt値を平方した値であるF値を計算します。 するとそのF値は漸近的にF分布(F distribution)と呼ばれる分布をします。 このF分布はフィッシャーが発見したので、フィッシャーの頭文字を取ってこのように呼ばれています。

図1.5.2 母集団のデータ分布 → 図1.5.3 標本平均値の分布と信頼区間 → 図1.6.4 F分布

F値はt値を平方した値ですから、標本平均値の分布の中心からかけ離れた両裾の部分がどちらも分布の右側に対応します。 そのため帰無仮説の棄却域は分布の右側つまり上側だけに設定すれば良いことになります。 そして有意確率p値は試験結果から計算したFoから右側の面積になり、F分布をFoから∞まで積分することによって求められます。

このようにF値を利用した検定のことをF検定といいます。 t検定と違ってF検定は片側検定が普通であり、片側検定によってt検定の両側検定と同等の検定を行うことができます。 そのため統計学の解説書などに載っている一般的なF分布表は片側検定用のものです。 (→付録1 各種の確率分布)

図1.6.5 F検定における棄却域とp値

両側検定のことを分布の両側に棄却域を設定する検定法ではなく、母平均値が基準値と異なっているかどうか、つまり母平均値が基準値よりも小さいかどうかと、母平均値が基準値よりも大きいかどうかの両方を検定する検定法と誤解することがたまにあります。 そのような誤解をすると、F検定のことを両側検定と誤解してしまうので注意してください。 F検定は第4章で説明する分散分析でも用いられます。 (→4.1 多標本の計量値)

このように検定したい問題についてじっくりと考え、素直で単純な帰無仮説と対立仮説を設定すれば、どんな場合でも片側検定による検定手法を適用することができます。 検定は片側検定が基本ですから、できれば片側検定を行えるような検定手法を適用するのがお勧めです。 例えば体重測定の例では、母平均値が基準値と異なっているかどうかを検定したい時はt検定の両側検定ではなくF検定を適用し、母平均値が基準値よりも大きいかどうかだけを検定したい時、あるいは基準値よりも小さいかどうかだけを検定したい時はt検定の片側検定を適用するのがお勧めです。

(6) 検定の特性式と必要例数の計算式

図1.6.2と図1.6.3からわかるようにα、β、δ*、SD(σ)、nの間には次のような関係があり、これを検定の特性式といいます。 この式には検定で重要な5つのパラメターが全て含まれていて、「四畳半で釈迦と孔子とキリストとアリストテレスが、クレオパトラのお酌で一杯やっているような式」なのでお座敷(式)と呼ばれる……ことはめったにありませんが、私はそう呼んでいます。

片側検定の場合:
両側検定の場合:

このお座敷(式)を変形し、t分布を正規分布で近似すると次のように例数nに関する式になります。 そしてこの式を利用して試験に必要な例数(sample size)を近似的に求めることができます。

片側検定の場合:
両側検定の場合:
nc = 1または2:t分布を正規分布で近似したことによる補正
:効果量(effect size)

統計的仮説検定では試験計画の段階で有意水準αと、検出力(1-β)と、検出すべき科学的に意味のある差δ*を決め、予備試験や参考文献から標準偏差σを推測し、この式を用いて試験の必要例数を求めます。 例えば両側検定の有意水準を5%、検出力を90%、検出差を5とし、予備試験の結果から標準偏差が10と推測される時、試験の必要例数は次のようになります。

この式の意味は母平均値が基準値よりも5だけ大きく、標準偏差が10の母集団から、44例の標本集団を取り出して試験を行えば、90%の確率で有意水準5%で有意になる、つまり試験を10回行えば、そのうちの9回は有意になるということです。

予備試験の結果から母平均値が基準値より大きい(または小さい)ことと、母平均値と基準値の差がだいたい予測されていて、その予測差δを検証するために試験を行うこともあります。 その場合は予測差δをそのまま検出差δ*にして片側検定を行います。 しかし残念ながら現状では予備試験をあまりしっかりとは行わず、検証すべき仮説が不明確なことが多いので検定は念のために両側検定を行うのが普通です。

そして医学分野では両側検定を行う前提で有意水準を5%、検出力を80%にし、予備試験または探索型研究の結果から推測した予測差δを検出差δ*にして試験の必要例数nを求めるのが一般的です。 すると図1.6.2からわかるように、試験の結果が予想通りになって、実際の標本平均値の差がδ*と一致すると有意確率はp=0.005〜0.01程度になります。 このp値から、実際の標本平均値の差がδ*と多少違っていても検定結果は有意水準5%で有意になる可能性が高いことがわかり、「検出力80%」という意味を実感できると思います。

図1.6.2において t(n-1,α) = t(n-1,0.05) ≒ 2  t(n-1,2β) = t(n-1,0.4) ≒ 0.85
∴to = δ*/SE = 2.85 → t(n-1,α) = 2.85 から α = p = 0.005〜0.01

ちなみに検出差δ*を標準偏差σで割って標準化した値dのことを効果量(effect size)またはコーヘンのd(Cohen's d)あるいはヘッジのg(Hedges' g)といいます。 この値は標準化されているので差の大きさを表す一般的な指標になります。 そのためメタアナリシス(Meta-analysis)では標準化平均差(SMD:Standard mean difference)と呼び、計量尺度のデータの評価指標としてよく用います。 (→4.4 繰り返しのある多標本・多時期の計数値 (注5))

ただし効果量は上限と下限が無制限であり、解釈が難しい時があります。 そこで効果量の下限を0に、上限を1にして、より一般性を持たせた値として寄与率という指標があります。 寄与率は効果量と例数から簡単に導くことができるので効果量よりも便利です。 そのため効果量の定義を拡張して寄与率も効果量に含め、r族の効果量と呼んでd属の効果量と区別することがあります。 (→5.1 相関係数と回帰直線 (注4))

(7) 検出力分析

αとβについては、帰無仮説と対立仮説を同等に扱い、どちらの仮説を棄却するにしても、その時のエラーの確率を同じにするという意味で同じ値にするのが合理的です。 しかしαとβを同じ値にすると検出力が大きくなり、試験の必要例数が非常に多くなってしまいます。 そこでボンヤリの見逃しが多少はあっても、アワテの言い過ぎをできるだけ低く抑えたいという意味で、普通はβをαの2〜4倍の値にします。 現在は有意水準を5%にすることが多いので、β=0.1〜0.2つまり検出力を80〜90%にします。

診断学に例えれば、これは感度が80〜90%、特異度が95%の検査ということになり、感度よりも特異度を優先していることになります。 つまり病気の人を多少は見逃しても、病気ではない人を病気と誤診する危険性を低く抑えようということであり、疑わしきは罰せずということになります。

このようにαとβについてはある程度決まった基準がありますが、検出差δ*を決定するのはかなりの難問であり、自信を持ってδ*を設定できる研究者はめったにいません。 δ*をきちんと設定している数少ない例として、後発医薬品――ジェネリック医薬品、業界用語でゾロ品――が先発医薬品と同じ薬効を持っていることを検証するための生物学的同等性試験(Bioequivalence Study、BE試験、生同試験)があります。 この試験ではδ*を「対照薬の平均値の20%」としていて、対照薬と試験薬の平均値の差の90%信頼区間が対照薬の平均値の±20%の範囲内に入っていれば生物学的に同等と評価します。 (→14.5 生物学的同等性試験)

δ*を科学的な許容範囲と考えれば、αとβは数学的な許容範囲のようなものです。 そのため個人的にはαとβを同じ値にして感度と特異度のバランスをとり、しかも数学的な許容範囲と科学的な許容範囲を同じにして、α=β=δ*=0.2つまり有意水準を20%、検出力を80%、検出差を20%にするのが妥当だと思っています。 医学分野のデータは誤差が大きいので数学的な信頼性は80%程度でかまわないと思いますし、この条件なら試験の必要例数もあまり多くなりません。 しかし堅気の統計学者や厚生労働省や医学雑誌の査読者は、おそらくこの意見に賛成してくれないでしょう。 (→1.8 科学的研究の種類とデザイン (注1))

また医学分野では予備試験をしっかりと行う研究者はめったにおらず、実際の研究現場では試験の計画段階で必要例数の計算を行わず、ぶっつけ本番で試験をすることが多いようです。 しかしぶっつけ本番で試験をすると、結果が有意ではなかった時に母平均値と基準値の差が小さかったのか、それとも検出力が足りなかったのかはっきりしません。 また事前に必要例数を計算しても、何らかの理由で例数が足らなくなった時や実際の試験結果の標準偏差が予想した値よりも大きかった時は、その試験が事前に計画した検出力を確保しているかどうかを確認する必要があります。

そこで事前に必要例数を計算した時も、ぶっつけ本番で試験をした時も、試験終了後にαとδ*、そして実際の例数nと標準偏差SDから、その試験における検出力を計算し、それが事前に設定した値以上であるかどうかを確認します。 これを検出力分析(power analysis)といいます。 例えば事前に標準偏差を予測して必要例数を計算したものの、実際の試験では必要例数を確保できなかったり、標準偏差が予想よりも大きかったりした場合、図1.6.2の模式図は実際には次のようになります。

図1.6.8 統計的仮説検定の実際の模式図

この実際の模式図ではαとδ*は事前に設定した値をそのまま用い、例数と標準偏差は実際の試験の値を用いています。 そのため図1.6.2と比較すると標準誤差SE'が少し大きくなっています。 その結果、下側棄却域の上限m'Lが少し小さく、上側棄却域の下限m'Uが少し大きくなり、帰無仮説を保留する範囲=対立仮設を棄却する範囲が広くなると同時に信頼区間の幅が広くなっています。 そのため標本平均値が上側棄却域に入らず対立仮設の棄却域に入っているので帰無仮説を保留して対立仮設を棄却する、つまり「有意ではない」という結果になっています。

これはβエラー(図ではβ')が大きくなって検出力(1-β')が小さくなり、事前に予想した基準値と母平均値の差を検出できないほど感度の低い試験になってしまったことを表しています。 また信頼区間の幅が広くなったので標本平均値の誤差が大きくなり、基準値μ0が信頼区間に含まれています。 そのため標本平均値と信頼区間に基づいて母平均値について科学的に考察する時も、精度の悪い曖昧な考察になってしまいます。

前述のように(1-α)は診断学の特異度に相当し、(1-β)感度に相当します。 そのため試験終了後に検出力分析を行わずに検定を実施して、検定結果が有意かどうか検討するのは、感度が不明の検査を行って検査結果が陽性か陰性か検討することに相当します。 感度と特異度が不明の検査が無意味であるのと同様に、αとβが不明な統計的仮説検定は無意味です。

性能が不明の検査道具を使って検査するのがナンセンスなことは誰でもわかるはずなのに、医学分野に限らず実際の研究現場では検出力分析をあまり行わない不可思議な風潮があります。 しかし事前に必要例数を計算した時も、ぶっつけ本番で試験をした時も、試験終了後に検出力分析を行って検出力を計算し、統計的仮説検定の性能を調べておくことは検定という検査道具を正しく利用するために非常に大切です。 (注4)

ただし検出力が事前に設定した条件を満足していて、結果が有意になったからといって、その試験がめでたく成功したというわけではありません。 結果が有意になったということはμ≠μ0という定性的な数学的結論を採用しただけであり、μ=μ0*という具体的な科学的結論を証明したわけではないからです。 試験が成功したかどうかは、あくまでも試験結果を科学的に評価して初めてわかることです。 統計的結論は科学的結論を下す際の単なる参考資料にすぎず、それがそのまま試験の結論になることはあり得ない、いやあってはならないことなのです。


(注1) 対立仮説が正しい時、標本平均値mを基準値よりも検出差だけ大きい値(μ0*)と、不偏分散から求めた標準誤差SEで標準化すると漸近的にt分布をします。

ところが実際のt値は帰無仮説が正しいと仮定して、mをμ0とSEで標準化します。

このt値はt分布ではなく非心t分布(noncentral t distribution)と呼ばれる分布をします。 その確率密度関数f(t)は自由度をφ=n-1、非心度をλ=δ*/SEとすると次のようになります。 (→付録1 各種の確率分布付録2 中心極限定理のシミュレーション−平均値と中央値)


:非心度

この非心t分布はt分布によく似ていますが、中心がt分布のように0ではなく非心度λになり、わずかに左右非対称になります。 図1.6.2と図1.6.3のH1の標本平均値の分布をμ0とSEで標準化すると、正確には非心t分布になります。 そのためt(φ,2β)の値は正確には非心度λ、自由度φの非心t分布における100β%点の値t(φ,λ,β)を用いる必要があります。 ただし一般的な統計数値表にはt(φ,2β)の値として上側確率がβになる時のt値が載っているのに対して、t(φ,λ,β)の値は下側確率がβになる時のt値が載っています。 そのため検定の特性式は、t(φ,2β)の代わりに{λ-t(φ,λ,β)}を用いて次のようになります。

片側検定の場合:
両側検定の場合:

しかし非心t分布はt分布で近似でき、t分布は正規分布で近似できるので、必要例数の計算式ではt分布も非心t分布も正規分布で近似するのが普通です。 なお非心t分布に対して、普通のt分布のことを中心t分布(central t distribution)と呼ぶことがあります。 また母分散でSEを求めると定数になるので、t値は非心t分布ではなく平均値が(μ0+δ*)にずれた正規分布をします。

(注2) 試験結果からμ≠μ0という定性的な結論を採用した時に、真実がμ=μ0*という具体的なものである確率は逆確率(原因の確率)に関するベイズの定理から次のようになります。 (→付録6 ベイズ統計学)

P(H |有意) = 1 P(H )P(有意|H ) 11 P(H )P(有意|H ) + P(¬H )P(有意|¬H ) 1111
P(H1|有意):有意になった時に、H1が正しい事前確率(陽性予測値)
P(H1):H1が正しい確率
P(¬H1):H1が間違っている確率 = 1 - P(H1)≠P(H0)
P(有意|H1):H1が正しい時に、有意になる条件付確率 = 1 - β
P(有意|¬H1):H1が間違っている時に、有意になる条件付確率 ≠ P(有意|H0) = α

この確率は検査結果が陽性の時に本当に病気である逆確率つまり陽性予測値(positive predictive value、陽性的中率)に相当します。 陽性予測値は(1-α)とも(1-β)とも別の値であることに注意してください。

(1-α)は真実がμ=μ0である時に、|μ-μ0|<δ*という結論を採用する条件付確率P(有意ではない|H0)であり、特異度に相当します。 (1-β)は真実がμ=μ0*である時にμ≠μ0という結論を採用する条件付確率P(有意|H1)であり、感度に相当します。 特異度と感度は陽性予測値P(H1|有意)または陰性予測値P(H0|有意ではない)とは別の値です。

ここで問題なのは対立仮説H1:μ=μ0*は帰無仮説H0:μ=μ0を否定する無数の仮説のひとつにすぎず、

¬H1 ≠ H0 つまり P(¬H1) ≠ P(H0)
∴P(H1) + P(H0) ≠ P(H1) + P(¬H1) = 1

であるということです。 そのため何らかの方法でP(H1)が求められたとしてもP(有意|¬H1)を求めることは難しく、研究現場で一番知りたいと思われる陽性予測値P(H1|有意)つまり試験結果が有意の時に対立仮説が正しい確率を求めることは困難です。

このように検定は定性試験ですから、検定結果が有意になっても対立仮設が正しい確率を求めることはできず、μの具体的な値を推測することもできません。 μについて具体的な値を推測するためには定量的な推定を行う必要があります。

(注3) 分布の種類によっては左右対称ではなかったり離散分布だったりするので、両側検定における左右の棄却域の面積が同じ値ではなかったり、片側の有意確率を2倍した値が1を超えてしまったりすることがあります。 例えば二項検定フィッシャーの正確検定ではそのようなことがよく起こります。 (→3.2 1標本の計数値 (注1)3.4 2標本の計数値 (注2))

そこでそのような時は片側の有意確率を単純に2倍して両側の有意確率にせず、分布の左右で別々に確率を積分し、それを合計した値を有意確率にすべきだという考えがあります。 有意確率のことを「試験結果の標本度数または標本平均値が棄却域に入っているかどうかを判定するための目安」ではなく、「帰無仮説が正しい時に、試験結果の標本度数または標本平均値以上に極端な値が得られる確率」と解釈する人達は特にそのように考えがちです。 そして有名な統計ソフトのSASやRなどは、その計算方法を採用しています。

しかし分布の種類によっては分布の左右で別々に確率を積分して合計した値がα未満になっても、試験結果の標本平均値が棄却域に入っていないという非合理なことが起こり得ます。

例えばある疾患について、プラセボ投与群20例と薬剤A投与群10例の改善/非改善を判定したところ表1.6.3のようになったとします。 この時、2群の改善率をフィッシャーの正確検定(Fisher's exact test)と、その近似手法である2×2のχ2検定(連続修正あり)によって比較すると次のようになります。 (→3.4 2標本の計数値)

表1.6.3 改善率の2群間比較-1
非改善(%)改善(%)計(%)
プラセボ投与群16(80)4(20)20(100)
薬剤A投与群4(40)6(60)10(100)
20(67)10(33)30(100)
・フィッシャーの正確検定
 片側有意確率:pu = 0.0387 > 0.025 … 片側有意水準2.5%で有意ではない
 両側有意確率:p = 2×pu = 0.0774 > 0.05 … 両側有意水準5%で有意ではない
 特殊な両側有意確率:p = pl + pu = 0.0448 < 0.05 … 両側有意水準5%で有意
・χ2検定(連続修正あり)
 χo2 = 3.169(p=0.0751) < χ2(1,0.05) = 3.841 … 片側有意水準5%で有意ではない
・2群の改善率の差 = 0.4(40%) 95%信頼区間:下限 = -0.03(-3%) 上限 = 0.83(83%)

この場合、フィッシャーの正確検定は薬剤A投与群の改善例数6に注目し、このカラムの度数が図1.6.6のような超幾何分布することを利用して検定を行います。 この分布は非対称離散分布になり、両側有意水準が0.05(5%)の時は分布の左右でそれぞれ累積確率が0.025以上にならないところまでを棄却域にします。 すると下側棄却域は左端の度数0だけになり、その確率は0.0061です。 そして上側棄却域は右端の4つの度数7〜10になり、その合計確率は0.0048です。

図1.6.6 非対称離散分布の棄却域と両側確率

この時、表1.6.3の薬剤A投与群の改善例数6が標本度数6であり、その出現確率は0.0339です。 したがって上側確率puは6から10までの度数の出現確率を合計した値である0.0387になり、これは0.025以上なので標本度数6は上側棄却域に入っていません。 一方、下側確率plは左端から確率を累積していき、「試験結果の標本度数以上に極端な値が得られる確率」という考え方に従って上側確率以上にならないところまで累積した値にします。 この場合は、それが下側棄却域と同じ左端の度数0だけなのでpl=0.0061になります。

そうすると下側確率plと上側確率puを合計した特殊な両側有意確率は0.0448になり、0.05未満になります。 その結果、試験結果の標本度数6は棄却域に入っていないにもかかわらず、両側有意確率が0.05未満なので両側検定の結果は有意になってしまいます。 これは明らかに非合理です。 でも実はこのような場合があるからこそ、この特殊な両側有意確率を求める方法に製薬企業が飛びつき、やがてそれがR等の統計ソフトにまで採用されてしまったのです。

この特殊な両側有意確率を求める方法に合わせるために、このような場合は分布の左右にα/2ずつ確率を割り振らず、左右の確率の合計がα以上にならないように棄却域を設定するという考え方が提案されました。 この考え方に従って図1.6.6の標本度数6まで棄却域にすると、上側棄却域の合計確率は0.0387になり0.025以上になりますが、左右合計した確率は0.0448になり0.05以上になりません。 その結果、標本度数は棄却域に含まれて有意になり、上側確率と下側確率を合計した特殊な両側有意確率の結果と矛盾しなくなります。

しかしこのような棄却域の設定方法では矛盾が起こります。 例えばある疾患について、プラセボ投与群100例と薬剤A投与群100例の改善/非改善を判定したところ表1.6.4のようになったとします。 この時、改善率に関するフィッシャーの正確検定と2×2のχ2検定(連続修正あり)の結果は次のようになります。

表1.6.4 改善率の2群間比較-2
非改善(%)改善(%)計(%)
プラセボ投与群57(57)43(43)100(100)
薬剤A投与群43(43)57(57)100(100)
100(50)100(50)200(100)
・フィッシャーの正確検定
 片側有意確率:pu = 0.0328 > 0.025 … 片側有意水準2.5%で有意ではない
 両側有意確率:p = 2×pu = 0.0657 > 0.05 … 両側有意水準5%で有意ではない
 特殊な両側有意確率:p = pl + pu = 0.0657 > 0.05 … 両側有意水準5%で有意ではない
・χ2検定(連続修正あり)
 χo2 = 3.38(p=0.066) < χ2(1,0.05) = 3.841 … 片側有意水準5%で有意ではない
・2群の改善率の差 = 0.14(14%) 95%信頼区間:下限 = -0.007(-0.7%) 上限 = 0.29(29%)

この場合の薬剤A投与群の改善例数57の度数は図1.6.7のような超幾何分布をします。 この分布は度数51を中心にして左右対称な対称離散分布になります。 そのため上側確率puを2倍した両側有意確率と、下側確率plと上側確率puを合計した特殊な両側有意確率は同じ値になり、どちらも有意水準5%で有意ではなく、両者の検定結果は一致します。

ところが図1.6.7において、左側の度数0から度数42までの43個の度数の確率を累積すると0.0168になります。 そしてそれと対称位置にある右側の度数58から度数100までの43個の度数の確率を累積すると、やはり0.0168になります。 さらに度数43と度数57の出現確率は、どちらも0.0160になります。

この時、度数43か度数57の度数のどちらか一方を棄却域に入れると、入れた方の棄却域の合計確率は0.0328になって0.025以上になりますが、棄却域全体の合計確率は0.0496になり0.05以上になりません。 しかし両方の度数を棄却域に入れると棄却域全体の合計確率は0.0656になって0.05以上になってしまいます。 そのため「左右の確率の合計がα以上にならないように棄却域を割り振る」という考えに従うと、どちらか一方の度数だけを棄却域に入れる必要があります。 しかしこのような場合、どちらの度数を棄却域に入れるべきか合理的に決定することはできません

このように「分布の左右の確率の合計がα以上にならないように棄却域を割り振る」という考え方では棄却域を合理的に設定できない時があります。 したがってやはり分布の両側にα/2ずつ確率を割り振り、どちらの棄却域も合計確率がα/2以上にならないようにするのが合理的です。

以上のように分布の左右で別々に確率を累積し、それを合計した値を両側確率にする特殊な方法では標本度数が棄却域に入っているかどうかを正しく判定できない時があります。 それに対して標本度数が存在する側の片側確率を2倍する方法では、標本度数が棄却域に入っているかどうかを必ず正しく判定することができます。

つまり両側検定は有意水準α/2の片側検定を分布の左右で1回ずつ行う検定であり、片側有意確率をα/2と比べる代わりに片側有意確率を2倍してαと比べているのです。 そのため片側有意確率を単純に2倍した値を両側有意確率にしてしまってかまいません。 そしてその値が1を超えてしまった時は、単に両側有意確率を1にしてしまってかまいません。

検定の本質は標本度数が棄却域に入っているかどうかを調べることなので、標本度数が存在する側の棄却域で有意水準α/2の片側検定を行えば十分です。 標本度数が存在しない側の棄却域を対象にして、わざわざ有意水準α/2の片側検定を行う必要はありませんし、分布の両側で「試験結果の標本度数以上に極端な値が得られる確率」を求める必要もありません。 そのような計算方法で両側有意確率を求めると、標本度数が棄却域に入っているかどうかを正しく判定することはできません。

くどいようですが有意確率は試験結果の標本度数または標本平均値が棄却域に入っているかどうかを判定するための目安にすぎず、値そのものに実質的な意味はあまりないのです。 (→1.5 有意性検定の考え方 (6)有意確率の意味)

(注4) 検出力(1-β)は検定の特性式から求めることができます。 片側検定も両側検定も理屈は同じですから、ここでは両側検定について求めてみましょう。

○非心t分布を利用した正確な計算法
→ t(φ,λ,β) = t(φ,α)
t分布を利用した近似計算法と同様にしてt(φ,α)の値を求め、t(φ,λ,β)の値を求めて非心t値→p値変換によってβを求める。
検出力 = 1 - β
○t分布を利用した近似計算法

最後の式のφとσを実際の例数nとSDから求め、δ*とαに事前に設定した値を代入し、p値→t値の逆変換からt(φ,α)の値を求め、t(φ,2β)の値を求めてt値→p値変換によって2βを求める。
検出力 = 1 - β

この検出力はt検定の検出力です。 検出力は検定手法によって異なり、検定手法の有用性を表す指標のひとつになります。 有意水準αが同じという条件で、特定の対立仮説に関して検出力が最大の検定のことを最強力検定(MP:Most Powerful test)といいます。 そしてどんな対立仮説に関しても検出力が最大の検定のことを一様最強力検定(UMP:Uniformly Most Powerful test)といいます。

データが正規分布する時、t検定は母平均値に関する一様最強力検定になります。 しかしデータが正規分布からずれると検出力が悪くなるので、一様最強力検定になるとは限りません。 そして正規分布からのズレが大きいと、順位和検定等のノンパラメトリック検定よりも検出力が悪くなります。 そのため統計学の解説書などに「データが正規分布しない時はノンパラメトリック手法を使うべきだ!」と書かれていることがあり、これをそのまま盲信している人も多いと思います。

しかしノンパラメトリック手法はあくまでも順位平均値の検定なので帰無仮説と対立仮説の内容がt検定とは異なります。 そのためデータが正規分布しない時はノンパラメトリック検定が母平均値に関する最強力検定になる、というわけではありません。 したがって「平均値の検定よりも順位平均値の検定の方が検出力が高いので順位平均値の検定を用いる」というのは「天体望遠鏡よりも顕微鏡の方が倍率が高いので顕微鏡を使って天体観測をする」ようなものであり、科学的に非合理です。 (→2.3 パラメトリック手法とノンパラメリック手法 (注1))