玄関雑学の部屋雑学コーナー統計学入門

1.6 統計的仮説検定の考え方

(1) 有意性検定と統計的仮説検定

第5節で説明した検定の考え方はフィッシャーが考案した有意性検定です。 しかし現在ではネイマン(Jerzy Neyman)ピアソン(Egon Pearson)流の統計的仮説検定(statistical hypothesis testing)または仮説検定(test of hypothesis)と呼ばれる手法が主流になっています。

有意性検定は対立仮説の正しい確率が非常に高い時だけ結論として採用する手法であり、対立仮説の正しい確率が低い時は結論を保留します。 そのため検定結果が有意にならない時は結論を採用することができません。 これは非常に誤解されやすく、有意性検定の大きな欠点です。

また平均値が基準値とぴったり同じでない限り、例数さえ増やせば検定結果は必ず有意になります。 そして実際問題として、平均値が基準値とピッタリと一致することは現実には有り得ません。 そのためわざわざ検定を行わなくても「母平均は基準値とは異なる」という対立仮説を採用することができる、つまり事実上、検定は必要ないということになってしまいます。

そこでこの点を改善するためにネイマンとピアソンが開発した手法が統計的仮説検定です。 例えば第5節と同じ問題を設定し、日本人全体から100名の標本集団を抽出して体重を測定したところ平均値が51kg、標準偏差が10kgだったとします。

問題:日本人の平均体重は50kgか?
95%信頼区間: → 95%信頼区間に基準値50kgが含まれているため有意水準5%で有意ではない
統計学的結論:日本人の平均体重は50kgではないと断言できないため結論保留

ここで「日本人の平均体重は50kgか?」という問題は、よく考えると「日本人の平均体重が50kgと数学的にピッタリ一致しているか?」という意味ではなく、実際には「日本人の平均体重が医学的に許容できる範囲でほぼ50kgか?」という意味です。 例えば日本人の平均体重が50.01kgだったとしたら、誰でも「日本人の平均体重は50kgではない」とは結論せず、「日本人の平均体重はほぼ50kgである」と結論するでしょう。

そこで体重の医学的な許容範囲を±5kg以内とする、つまり±5kgよりも小さい体重の変動は医学的な意義がなく、無視できると仮定します。 すると45〜55kgの範囲の体重は実質的に50kgと変わらないことになります。 そして上記の95%信頼区間49〜53kgはこの医学的許容範囲にすっぽりと入っているため、次のような結論が95%以上の確率で正しいことになります。

統計学的結論:日本人の平均体重は45kgよりも重く55kgよりも軽い=日本人の平均体重は実質的に50kgと等しい → 問題の答えは△

この結論は、

統計学的結論:日本人の平均体重は50kgである → 問題の答えは○

とは違いますが、医学的には実質的に同じ意味になります。

図1.6.1 信頼区間と統計的仮説検定

この5kgは医学的な誤差範囲であり、「δ*」などと書いて(最小)検出差(scientific significant difference)と呼ばれます。 統計的仮説検定はこのように科学的に意味のある検出差つまり科学的な誤差範囲と、信頼区間つまり数学的な誤差範囲を利用して、検定結果が有意ではない時も結論を採用します。 これが有意性検定と違うところです。

(2) 統計的仮説検定の手順

有意性検定と同様に、統計的仮説検定も正式には母集団と母数を基準にした手順で行います。

1) 問題を設定する

これは形式上は有意性検定と同じですが、より現実的な意味に解釈します。

問題:日本人の平均体重は50kgか? → 日本人の平均体重は実質的に50kgと等しいか?

2) 帰無仮説と対立仮説を設定する

統計的仮説検定の帰無仮説は有意性検定と同じですが、対立仮説は科学的に意味のある検出差δ*を用いて具体的に設定します。

H0:日本人の平均体重は50kgである(μ=μ0 または δ=μ - μ0=0)
H1:日本人の平均体重は45kgまたは55kgである(μ=μ0±δ* または δ=μ - μ0=±δ*=±5)

ここで注意しなければならないことは、この対立仮説は単に帰無仮説を否定しただけの漠然とした仮説ではなく、無数に考えられる具体的な対立仮説の中のひとつであるということです。 そのため帰無仮説が正しい確率をpとすると、この対立仮説が正しい確率を(1-p)として計算することはできません。 その代わり帰無仮説が正しい確率を計算するのと同じような方法でこの対立仮説が正しい確率つまり検出力(1-β)と、間違っている確率つまりβエラーを計算することができます。

3) 有意水準と検出力を決める

統計的仮説検定では有意水準だけでなく検出力も決めます。 検出力(power)は対立仮説が正しい時に、統計学的結論として対立仮説を採用する確率のことです。 そして1からこの値を引いた値が、対立仮説が間違っている時に統計学的結論として対立仮説を採用する確率になり、これをβエラーといいます。 検出力とβエラーについては後で詳しく説明します。

有意水準を5%にする:α=0.05、信頼係数(1-α)=0.95
検出力を80%にする:(1-β)=0.8、β=0.2

4) 母集団から標本集団を無作為抽出する

これは有意性検定と同じです。

日本人全体から100名の人を無作為抽出して標本集団にする

5) 標本集団のデータを測定して要約値を求める

今回は次のような結果になったとします。

例数:n=100  標本平均値:m=51  標準偏差:SD=10

6) 帰無仮説が正しいと仮定した時の標本平均値の分布と、対立仮説が正しいと仮定した時の標本平均値の分布を描く

有意性検定と同様に、まず帰無仮説が正しいと仮定した時の母集団を想定し、その母集団からn例の標本集団を無作為抽出して標本平均値を求め、それを無限回繰り返した時の標本平均値の分布を描きます。 次に対立仮説が正しいと仮定した時の母集団を想定し、同じようにして標本平均値の分布を描きます。 (注1)

帰無仮説が正しい時:μ=μ0=50  σ≒SD=10  SE=1 (図1.6.2の中央の標本平均値の分布参照)
対立仮説が正しい時:
  μ=μ0 - δ*=45  σ≒SD=10  SE=1 (図1.6.2の左側の標本平均値の分布参照)
   または
  μ=μ0 + δ*=55  σ≒SD=10  SE=1 (図1.6.2の右側の標本平均値の分布参照)
図1.6.2 統計的仮説検定の模式図

7) 標本平均値の分布における棄却域を求める

有意性検定と同様に、帰無仮説が正しいと仮定した時の標本平均値の分布で棄却域を求めます。 この場合は第5節で求めた棄却域と同じです。

下限棄却域:mL0 - t(99,0.05)×SE=50 - 1.984×1=48.016以下 (図1.6.2の中央の標本平均値の分布の左端の薄い灰色の部分)
上限棄却域:mU0 + t(99,0.05)×SE=50 + 1.984×1=51.984以上 (図1.6.2の中央の標本平均値の分布の右端の薄い灰色の部分)
(参考) 95%信頼区間:下限μL≒49  上限μU≒53

この時、図1.6.2の左側の標本平均値の分布でmL=48.016以上の範囲の面積(薄い灰色の部分)はβになり、右側の標本平均値の分布でmU=51.984以下の範囲の面積(薄い灰色の部分)もβになります。 この2つの範囲は対立仮説の棄却域に相当し、実際の標本平均値がこの範囲に入った時は対立仮説を棄却します。 対立仮説の棄却域の境界値は帰無仮説の棄却域の境界値と同じ値になります。 そのため標本平均値は必ずどこかの棄却域に入ることになります。

また対立仮説の棄却域は左右の標本平均値の分布の片側にしかなく、その面積はβ/2ではなくβです。 これはμ=μ0*とμ=μ0*は相反事象であり、どちらか一方しか起こらないのでβを2つに分ける必要がないからです。

8) 標本平均値が棄却域に入っているかどうかを調べる

有意性検定と同様に、次のような方法で調べることができます。

○方法1:標本平均値と棄却域の上限または下限を比較する
標本平均値=51は上側棄却域の下限=51.984よりも小さいから棄却域に入っていない
○方法2:標本平均値と基準値の距離を標準誤差単位にした値が、基準値と棄却域上限または下限の距離を標準誤差単位にした値より大きいかどうか調べる
to=(51 - 50)/1=1は (51.984 - 50)/1=1.984=t(99,0.05)よりも小さいから棄却域に入っていない
○方法3:t分布において、実際の標本平均値から求めたt値から右側の部分の面積がα/2よりも小さいかどうか調べる

実際には標本平均値から求めたt値から右側の面積を2倍した値つまり有意確率p値とαを比較します。

to=1から右側の面積×2=∫1f(t)dt×2=p=0.3198は0.05よりも大きいから棄却域に入っていない

9) 標本平均値が棄却域に入っている時、帰無仮説を否定した仮説を統計学的結論として採用する

有意水準5%で有意 → 統計学的結論:日本人の平均体重は50kgではない

これは対立仮説「日本人の平均体重は45kgまたは55kgである」の採用ではなく、あくまでも帰無仮説「日本人の平均体重は50kgである」の否定である点に注意してください。 検定は定性試験ですから、母平均について定性的な結論しか採用できないのです。 そしてこの結論が間違っている確率は帰無仮説の棄却域の面積つまりαエラー以下になり、この場合は5%以下になります。

10) 標本平均値が棄却域に入っていない時、対立仮説を否定した仮説を統計学的結論として採用する

有意水準5%で有意ではない → 統計学的結論:日本人の平均体重は45kgよりも重く55kgよりも軽い

これも帰無仮説「日本人の平均体重は50kgである」の採用ではなく、あくまでも対立仮説「日本人の平均体重は45kgまたは55kgである」を否定した定性的な結論です。 そして図1.6.2からわかるように対立仮説の棄却域はmL〜mUの間ですから、対立仮説を否定した定性的な結論は「日本人の平均体重は45kg〜55kgの間である」つまり「日本人の平均体重は45kgよりも重く55kgよりも軽い」ということになります。

この場合、45〜55kgの範囲内は医学的には誤差範囲です。 したがってこの結論は「日本人の平均体重は50kgである」という結論と実質的には同じ意味になります。 そしてこの結論が間違っている確率は対立仮説の棄却域の面積つまりβエラー以下になり、この場合は20%以下になります。

11) 統計学的結論を科学的に評価して科学的結論を下す

○有意の時

母平均の推測値51kgは基準値50kgに比べて1kg重いことになります。 この差が医学的に有意義な差ではないなら次のような医学的結論を下します。

医学的結論:日本人の平均体重は50kgではないが、実施的には50kgと変わらない
○有意ではない時

母平均は45kgよりも大きく55kgよりも小さいことになります。 この範囲が医学的な誤差範囲なら次のような医学的結論を下します。

医学的結論:日本人の平均体重は実質的に50kgと等しい

(3) αエラーとβエラー

このように統計的仮説検定は実験結果に基づいて、より可能性の少ない具体的な仮説を否定し、その反対の意味を持つ定性的な結論を採用する手法です。 そしてどのような結論を採用するにしても、それが間違っている確率を明言しておくのです。 それによって結論保留という曖昧な検定結果がなくなります。 この点が有意性検定と大きく異なるところです。

帰無仮説が正しい時または対立仮説が正しい時に対して、検定結果が有意になる確率と有意にならない確率をまとめると表1.6.1のようになります。

表1.6.1 統計的仮説検定表
 結論
有意:μ≠μ0有意ではない:|μ-μ0|<δ*
真実H0:μ=μ0α1-α
H1:μ=μ0±δ*1-ββ
α:αエラー、第1種のエラー(アワテの言い過ぎ)
β:βエラー、第2種のエラー(ボンヤリの見逃し)
1-β:検出力(power)

αは真実がμ=μ0であるにもかかわらず、アワテテμ≠μ0と言い過ぎてしまう確率であり、これが有意水準です。 この確率は、疾患の診断学において正常な人がある検査を受けて陽性になる確率つまり偽陽性率に相当します。 (1-α)は真実がμ=μ0であり、結論も|μ-μ0|<δ*となって、シグナルを検出しない確率です。 この確率は正常な人がある検査を受けて陰性になる確率つまり特異度(specificity)に相当します。

βは真実がμ=μ0*またはμ=μ0*であるにもかかわらず、ボンヤリして|μ-μ0|<δ*とシグナルを見逃してしまう確率です。 この確率は病気の人がある検査を受けて陰性になる確率つまり偽陰性率に相当します。 (1-β)は真実がμ=μ0*またはμ=μ0*であり、結論もμ≠μ0となってシグナルを検出する確率なので検出力または検定力と呼ばれています。 この確率は病気の人がある検査を受けて陽性になる確率、つまり感度(sensitivity)に相当します。 (→9.2 群の判別と診断率)

繰り返しになりますが、有意になった時はμ=μ0の否定すなわちμ≠μ0の採用であり、μ=μ0−δ*またはμ=μ0*の採用ではありません。 つまり有意になってもμ=μ0−δ*またはμ=μ0*という具体的な対立仮説を証明したわけではなく、μ≠μ0という定性的な結論を採用したにすぎません。 同様に有意にならなかった時はμ=μ0±δ*の否定すなわち|μ-μ0|<δ*という定性的な結論の採用であり、μ=μ0という具体的な帰無仮説を証明したわけではありません。

検定はあくまでも定性試験なので定性的な結論しか得られません。 μについて具体的な値を推測するには定量試験である推定を行う必要があります。 (注2)

(4) 片側検定と両側検定

これまでに説明した検定では母平均が基準値と等しいかどうかを問題にしていました。 しかし場合によっては母平均が基準値よりも大きいかどうか、または小さいかどうかだけを問題にすることがあります。 例えば体重測定の例の「日本人の平均体重が50kgか否か?」という問題は、日本人に肥満傾向があるのか、それとも痩せ傾向があるのかの両方を問題にしたものです。

しかし日本人に肥満傾向があるかどうかだけを問題にしたい場合は、「日本人の平均体重が50kgよりも大きいか否か?」を問題にします。 このような場合、帰無仮説は変わりませんが、対立仮説が次のように単純になります。

H0:日本人の平均体重は50kgである (μ=μ0 または δ=μ - μ0=0)
H1:日本人の平均体重は55kgである (μ=μ0 + δ* または δ=μ - μ0*=5)

この時の統計的仮説検定を模式図にすると図1.6.3のようになり、図1.6.2よりも単純になります。 この場合、図のH0の分布つまり帰無仮説が正しい時の標本平均値の分布において、母平均よりも値が大きい方にかけ離れた標本平均値だけを問題にするため棄却域は分布の右側つまり上側だけに設定します。

このように分布の片側だけに棄却域を設定する検定を片側検定(one-tailed test)といいます。 それに対して、これまでの検定のように分布の両側に棄却域を設定する検定を両側検定(two-tailed test)といいます。

図1.6.3 統計的仮説検定の模式図(片側検定)

片側検定では有意水準αの値を分布の右側つまり上側だけに割り振るため上側棄却域の面積が倍になり、下限値mUが両側検定のmUよりも小さくなります。 そのため実験結果の標本平均値mが棄却域に入っているかどうかを判定する基準が次のように少し変わります。 (注3)

○方法1
 mU0 + t(φ,2α)×SE≦mの時、mは棄却域に入っているから有意
○方法2
 m - μ0≧mU - μ0の時、mは棄却域に入っているから有意
○方法3
 ≧t(φ,2α)の時、棄却域に入っているから有意
○方法4
 toから右側の面積=∫tof(t)dt=p≦αの時、棄却域に入っているから有意

統計学の解説書などに載っている一般的なt分布表は、たいてい両側検定用のものです。 そのため分布の両側の棄却域の合計面積がαになる時の値、つまり分布の片側の棄却域の面積がα/2になる時の値が記載されています。 したがって分布の片側棄却域の面積がαになる時のt値はt分布表の自由度φ=n-1の100×2α%点の値t(φ,2α)になります。 もし片側検定用のt分布表があれば、分布の片側棄却域の面積がαになる時のt値はt(φ,α)になります。

帰無仮説が正しい時または対立仮説が正しい時に対して実験結果が有意になる確率と有意にならない確率をまとめると、片側検定の場合は表1.6.2のようになります。

表1.6.2 統計的仮説検定表(片側検定)
 結論
有意:μ>μ0有意ではない:μ<μ0*
真実H0:μ=μ0α1-α
H1:μ=μ0*1-ββ
α:αエラー、第1種のエラー(アワテの言い過ぎ)
β:βエラー、第2種のエラー(ボンヤリの見逃し)
1-β:検出力(power)

この場合、検定結果が有意になった時はμ=μ0の否定すなわちμ>μ0の採用であり、有意にならなかった時はμ=μ0*の否定すなわちμ<μ0+δ*の採用です。 これらの結論はやはり定性的な結論の採用であり、μ=μ0という具体的な帰無仮説やμ=μ0*という具体的な対立仮説を証明したわけではありません。

(5) F分布とF検定

実際の研究現場では母平均が基準値と等しいかどうかを問題にすることが多く、両側検定を行うのが一般的です。 しかし実は検定の基本は片側検定なのです。 そのため母平均が基準値と等しいかどうかを問題する場合でも、適切な検定手法を用いれば片側検定を行うことができます。

例えば体重測定の例では母平均と基準値の差を検定の指標にしましたが、差ではなく差を平方した値を検定の指標にすれば片側検定を行うことができます。 その場合、帰無仮説と対立仮説が次のように変わります。

H0:日本人の平均体重は50kgである(μ=μ0 または δ2=(μ - μ0)2=0)
H1:日本人の平均体重は45kgまたは55kgである(μ=μ0±δ* または δ2=(μ - μ0)2=(δ*)2=25)

この場合、母集団から100例の標本集団を無作為抽出して標本平均値と標準誤差を計算し、それらの値からt値を計算する代わりに、t値を平方した値であるF値を計算します。 するとそのF値は漸近的にF分布(F distribution)と呼ばれる分布をします。 このF分布はフィッシャーが発見したため、フィッシャーの頭文字を取ってこのように呼ばれています。

図1.5.2 母集団のF分布 → 図1.5.3 標本平均値の分布と信頼区間 → 図1.6.4 F分布

F値はt値を平方した値ですから、標本平均値の分布の中心からかけ離れた両裾の部分がどちらも分布の右側に対応します。 そのため帰無仮説の棄却域は分布の右側つまり上側だけに設定すれば良いことになります。 そして有意確率p値は実験結果から計算したFoから右側の面積になり、F分布をFoから∞まで積分することによって求められます。

このようにF値を利用した検定のことをF検定といいます。 t検定と違ってF検定は片側検定が普通であり、片側検定によってt検定の両側検定と同等の検定を行うことができます。 そのため統計学の解説書などに載っている一般的なF分布表は片側検定用のものです。 (→付録1 各種の確率分布)

図1.6.5 F検定における棄却域とp値

両側検定のことを分布の両側に棄却域を設定する検定法ではなく、母平均が基準値と異なっているかどうか、つまり母平均が基準値よりも小さいかどうかと、母平均値が基準値よりも大きいかどうかの両方を検定する検定法と誤解することがたまにあります。 そのような誤解をすると、F検定のことを両側検定と誤解してしまうので注意してください。 F検定は第4章で説明する分散分析でも用いられます。 (→4.1 多標本の計量値)

このように検定したい問題についてじっくりと考え、素直で単純な帰無仮説と対立仮説を設定すれば、どんな場合でも片側検定による検定手法を適用することができます。 検定は片側検定が基本ですから、できれば片側検定を行えるような検定手法を適用するのがお勧めです。 例えば体重測定の例では、母平均が基準値と異なっているかどうかを検定したい時はt検定の両側検定ではなくF検定を適用し、母平均が基準値よりも大きいかどうかだけを検定したい時、あるいは基準値よりも小さいかどうかだけを検定したい時はt検定の片側検定を適用するのがお勧めです。

(6) 検定の特性式と必要例数の計算式

図1.6.2と図1.6.3からわかるようにα、β、δ*、SD(σ)、nの間には次のような関係があり、これを検定の特性式といいます。 この式には検定で重要な5つのパラメターが全て含まれていて、「四畳半で釈迦と孔子とキリストとアリストテレスが、クレオパトラのお酌で一杯やっているような式」なのでお座敷(式)と呼ばれる……ことはめったにありませんが、私はそう呼んでいます。

片側検定の場合:
両側検定の場合:

このお座敷(式)を変形し、t分布を正規分布で近似すると次のように例数nに関する式になります。 そしてこの式を利用して実験に必要な例数(sample size)を近似的に求めることができます。

片側検定の場合:
両側検定の場合:
nc=1または2:t分布を正規分布で近似したことによる補正
:効果量(effect size、Cohenのd)

統計的仮説検定では実験計画の段階で有意水準αと、検出力(1-β)と、検出すべき科学的に意味のある差δ*を決め、予備実験や参考文献から標準偏差σを推測し、この式を用いて実験の必要例数を求めます。 例えば両側検定の有意水準を5%、検出力を90%、検出差を5とし、予備実験の結果から標準偏差が10と推測される時、実験の必要例数は次のようになります。

この式の意味は、母平均が基準値よりも5だけ大きく、標準偏差が10の母集団から、44例の標本集団を取り出して実験を行えば、90%の確率で有意水準5%で有意になる、つまり実験を10回行えば、そのうちの9回は有意になるということです。

予備実験の結果から母平均が基準値より大きい(または小さい)ことと、母平均と基準値の差がだいたい予測されていて、その予測差δを検証するために実験を行うこともあります。 その場合は予測差δをそのまま検出差δ*にして片側検定を行います。 しかし残念ながら現状では予備実験をあまりしっかりとは行わず、検証すべき仮説が不明確なことが多いので検定は念のために両側検定を行うのが普通です。

ちなみに検出差δ*を標準偏差σで割って標準化した値dのことを効果量(effect size)またはコーヘンのd(Cohen's d)といいます。 この値は標準化されているので差の大きさを表す一般的な指標になります。 ただし効果量は上限と下限が無制限であり、解釈が難しい時があります。 そこで効果量の下限を0に、上限を1にして、より一般性を持たせた値として寄与率という指標があります。 寄与率は効果量と例数から簡単に導くことができるため効果量よりも便利な指標です。 そのため効果量の定義を拡張して寄与率も効果量に含め、r属の効果量と呼んでコーヘンのdと区別することがあります。 (→5.1 相関係数と回帰直線 (注4))

(7) 検出力分析

αとβについては、帰無仮説と対立仮説を同等に扱い、どちらの仮説を棄却するにしてもその時のエラーの確率を同じにするという意味で同じ値にするのが合理的です。 しかしαとβを同じ値にすると検出力が大きくなり、実験の必要例数が非常に多くなってしまいます。 そこでボンヤリの見逃しが多少はあっても、アワテの言い過ぎをできるだけ低く抑えたいという意味で、普通はβをαの2〜4倍の値にします。 現在は有意水準を5%にすることが多いので、β=0.1〜0.2つまり検出力を80〜90%にします。

診断学に例えれば、これは感度が80〜90%、特異度が95%の検査ということになり、感度よりも特異度を優先していることになります。 つまり病気の人を多少は見逃しても、病気ではない人を病気と誤診する危険性を低く抑えようということであり、疑わしきは罰せずということになります。

このようにαとβについてはある程度決まった基準がありますが、検出差δ*を決定するのはかなりの難問であり、自信を持ってδ*を設定できる研究者はめったにいません。 δ*をきちんと設定している数少ない例として、後発医薬品――ジェネリック医薬品、業界用語でゾロ品――が先発医薬品と同じ薬効を持っていることを検証するための生物学的同等性試験(Bioequivalence Study、BE試験、生同試験)があります。 この試験ではδ*を「対照薬の平均値の20%」としていて、対照薬と試験薬の平均値の差の90%信頼区間が対照薬の平均値の±20%の範囲内に入っていれば生物学的に同等と評価します。 (→14.5 生物学的同等性試験)

δ*が科学的な許容範囲だとすければ、αとβは数学的な許容範囲のようなものです。 そのため個人的にはαとβを同じ値にして感度と特異度のバランスをとり、しかも数学的な許容範囲と科学的な許容範囲を同じにして、α=β=δ*=0.2つまり有意水準を20%、検出力を80%、検出差を20%にするのが妥当だと思っています。 医学分野のデータは誤差が大きいので数学的な信頼性は80%程度でかまわないと思いますし、この条件なら試験の必要例数もあまり多くなりません。 しかし堅気の統計学者や厚生労働省や医学雑誌の査読者は、おそらくこの意見に賛成してくれないでしょう。 (→1.8 科学的研究の種類とデザイン (注1))

また医学分野では予備実験をしっかりと行う研究者はめったにおらず、実際の研究現場では実験の計画段階で必要例数の計算を行わず、ぶっつけ本番で実験をすることが多いようです。 しかしぶっつけ本番で実験をすると、結果が有意ではなかった時に、母平均と基準値の差が小さかったのか、それとも検出力が足りなかったのかがわかりません。 また事前に必要例数を計算しても、何らかの理由で例数が足らなくなった時や実際の実験結果の標準偏差が予想した値よりも大きかった時は、その実験が事前に計画した検出力を確保しているかどうかを確認する必要があります。

そこで事前に必要例数を計算した場合も、ぶっつけ本番で実験をした場合も、実験終了後にαとδ*、そして実際の例数nと標準偏差SDから、その実験における検出力(1-β)を計算し、それが事前に設定した値以上であるかどうかを確認します。 これを検出力分析(power analysis)といいます。 残念ながら実際の研究現場では必要例数の計算も検出力分析もめったに行われませんが、統計的仮説検定を正しく利用するためには非常に大切なことです。 (注4)

ただし検出力が事前に設定した条件を満足していて、結果が有意になったからといって、その実験がめでたく成功したというわけではありません。 結果が有意になったということはμ≠μ0という定性的な数学的結論を採用しただけであり、μ=μ0*という具体的な科学的結論を証明したわけではないからです。 実験が成功したかどうかは、あくまでも実験結果を科学的に評価して初めてわかることです。 統計的結論は科学的結論を下す際の単なる参考資料にすぎず、それがそのまま実験の結論になることはあり得ない、いやあってはならないことなのです。


(注1) 対立仮説が正しいと仮定した場合、標本平均値mを基準値よりも検出差だけ大きい値μ0*と標準誤差SEで標準化すると、母分散σ2が未知の時は漸近的にt分布をします。

ところが実際のt値は帰無仮説が正しいと仮定した場合と同じく、mをμ0とSEで標準化します。

この時のt値は母分散が既知なら平均値が(μ0+δ*)にずれた正規分布をします。 しかし母分散が未知の時はt分布ではなく非心t分布(noncentral t distribution)と呼ばれる分布をします。 その確率密度関数f(t)は自由度をφ=n-1、非心度をλ=δ*/SEとすると次のようになります。 (→付録1 各種の確率分布)


:非心度

この非心t分布はt分布によく似ていますが、中心がt分布のように0ではなく非心度λになり、わずかに左右非対称になります。 図1.6.2と図1.6.3のH1の標本平均値の分布をμ0とSEで標準化すると、正確には非心t分布になります。 そのためt(φ,2β)の値は正確には非心度λ、自由度φの非心t分布における100β%点の値t(φ,λ,β)を用いる必要があります。 ただし一般的な統計数値表にはt(φ,2β)の値として上側確率がβになる時のt値が載っているのに対して、t(φ,λ,β)の値は下側確率がβになる時のt値が載っています。 そのためt(φ,2β)の代わりに{λ-t(φ,λ,β)}を用いて検定の特性式は次のようになります。

片側検定の場合:
両側検定の場合:

しかし非心t分布はt分布で近似でき、t分布は正規分布で近似できるため、必要例数の計算式ではt分布も非心t分布も正規分布で近似するのが普通です。 なお非心t分布に対して、普通のt分布のことを中心t分布(central t distribution)と呼ぶことがあります。

(注2) 実験結果からμ≠μ0という定性的な結論を採用した時に、真実がμ=μ0*という具体的なものである確率は原因の確率に関するベイズの定理から次のようになります。


P(H1|有意):有意になった時に、H1が正しい事前確率(陽性予測値)
P(H1):H1が正しい確率
P(¬H1):H1が間違っている確率=1 - P(H1)≠P(H0)
P(有意|H1):H1が正しい時に、有意になる条件付確率=1 - β
P(有意|¬H1):H1が間違っている時に、有意になる条件付確率≠P(有意|H0)=α

この確率は検査結果が陽性の時に本当に病気である確率つまり陽性予測値(positive predictive value、陽性的中率)に相当します。 陽性予測値は(1-α)とも(1-β)とも別の値であることに注意してください。

(1-α)は真実がμ=μ0である時に、|μ-μ0|<δ*という結論を採用する条件付確率P(有意ではない|H0)であり、特異度に相当します。 (1-β)は真実がμ=μ0*である時にμ≠μ0という結論を採用する条件付確率P(有意|H1)であり、感度に相当します。 特異度と感度は陽性予測値P(H1|有意)または陰性予測値P(H0|有意ではない)とは別の値です。

ここで問題なのは、対立仮説H1:μ=μ0*は帰無仮説H0:μ=μ0を否定する無数の仮説のひとつにすぎず、

¬H1≠H0 つまり P(¬H1)≠P(H0)
∴P(H1) + P(H0)≠P(H1) + P(¬H1)=1

であるということです。 そのため何らかの方法でP(H1)が求められたとしても、P(有意|¬H1)を求めることは難しく、研究現場で一番知りたいと思われる陽性予測値P(H1|有意)つまり実験結果が有意の時に対立仮説が正しい確率を求めることは困難です。

このように検定は定性試験ですから、検定結果が有意になっても対立仮設が正しい確率を求めることはできず、μの具体的な値を推測することもできません。 μについて具体的な値を推測するためには定量的な推定を行う必要があります。

(注3) 分布の種類によっては左右対称ではなかったり離散分布だったりするため、両側検定における左右の棄却域の面積が同じ値ではなかったり、片側の有意確率を2倍した値が1を超えてしまったりすることがあります。 例えば二項検定フィッシャーの正確検定ではそのようなことがよく起こります。 (→3.2 1標本の計数値 (注1)3.4 2標本の計数値 (注2))

そのためそのような時は片側の有意確率を単純に2倍して両側の有意確率にせず、分布の左右で別々に確率を積分し、それを合計した値を有意確率にすべきだという議論があります。 しかし分布の種類によっては分布の左右で別々に確率を積分して合計した値がα以下になっても、実験結果の標本平均値が棄却域に入っていないということが起こり得ます。

例えば図1.6.6のような非対称離散分布において、有意水準を0.05(5%)にし、分布の左右でそれぞれ累積確率が0.025を超えないところまでを棄却域にしたとします。 その結果、下側棄却域が分布の左端の1つの度数だけで、その確率が0.02になり、上側棄却域が分布の右端の2つの度数で、その合計確率が0.02になったとします。 そして実験結果の標本度数が上側棄却域から1つ外れた度数になり、その出現確率が0.008だったとします。 (図1.6.6のグラフでは、上側確率が0.02で標本度数の出現確率が0.008というのは少々無理があります。 でもこれは説明のための模式図であり、正確なグラフではないと割り切って見てください。(^_-))

図1.6.6 非対称離散分布の棄却域と両側確率

この時、上側確率puは標本度数から右側の3つの確率を合計した値である0.028になり、これは0.025を超えます。 一方、下側確率plは、棄却域と同じ考え方に基づいて左端から確率を累積していき、上側確率を超えないところまで累積した値にします。 この場合はそれが下側棄却域と同じ左端の1つの度数だけになったとすると、その確率は0.02になります。

そうすると下側確率plと上側確率puを合計した両側有意確率は0.048になり、0.05よりも小さくなります。 その結果、実験結果の標本度数は棄却域に入っていないにもかかわらず、両側有意確率が0.05以下のため両側検定の結果は有意になってしまいます。

このような場合、分布の左右にα/2ずつ確率を割り振らず、左右の確率の合計がαを超えないように棄却域を設定するという考え方もあります。 この考え方に従えば、図1.6.6の標本度数まで棄却域にすると上側棄却域の合計確率は0.028になり0.025を超えますが、左右合計した確率は0.048になり0.05を超えません。 その結果、標本度数は棄却域に含まれて有意になり、上側確率と下側確率を合計した両側有意確率の結果と矛盾しません。

しかしこのような棄却域の設定方法では矛盾が起こります。 例えば図1.6.7において、左端から2つの度数の確率を累積すると0.02になり、3番目の度数の出現確率が0.008だとします。 そして右端から2つの度数の確率を累積するとやはり0.02になり、3番目の度数の出現確率が0.008だとします。

この時、左端から3番目の度数と右端から3番目の度数のどちらか一方を棄却域に入れると、入れた方の棄却域の合計確率は0.028になって0.025を超えますが、棄却域全体の合計確率は0.048になり0.05を超えません。 しかし両方の度数を棄却域に入れると、棄却域全体の合計確率は0.056になって0.05を超えてしまいます。 このような場合、どちらの度数を棄却域に入れるべきか合理的に決定することはできません。

このように「分布の左右の確率の合計がαを超えないように棄却域を割り振る」という考え方では、棄却域を合理的に設定できない時があります。 したがってやはり分布の両側にα/2ずつ確率を割り振り、どちらの棄却域も合計確率がα/2を超えないように設定するのが合理的です。

図1.6.7 対称離散分布の両側棄却域

以上のように分布の左右で別々に確率を累積し、それを合計した値を両側確率にする合計する方法では、標本度数が棄却域に入っているかどうかを正しく判定できない時があります。 それに対して標本度数が存在する側の片側確率を2倍する方法では、標本度数が棄却域に入っているかどうかを必ず正しく判定することができます。

つまり両側検定は有意水準α/2の片側検定を分布の左右で1回ずつ行う検定であり、片側有意確率をα/2と比べる代わりに片側有意確率を2倍してαと比べているのです。 そのため片側有意確率を単純に2倍した値を両側有意確率にしてしまってかまいません。 そしてその値が1を超えてしまった時は、単に両側有意確率を1にしてしまってかまいません。

検定の本質は標本度数が棄却域に入っているかどうかを調べることなので、標本度数が存在する側の棄却域で有意水準α/2の片側検定を行えば十分です。 標本度数が存在しない側の棄却域を対象にして、わざわざ有意水準α/2の片側検定を行う必要はありません。 分布の両側の確率を合計した値を両側有意確率と考えてしまうと、標本度数が存在する側の確率だけでなく標本度数が存在しない側の確率まで計算し、それらの合計を両側有意確率にする理由が納得できないと思います。

くどいようですが有意確率は実験結果の標本度数または標本平均値が棄却域に入っているかどうかを判定するための目安にすぎず、値そのものに実質的な意味はあまりないのです。

(注4) 検出力(1-β)は検定の特性式から求めることができます。 片側検定も両側検定も理屈は同じですから、ここでは両側検定について求めてみましょう。

○非心t分布を利用した正確な計算法
→ t(φ,λ,β)=t(φ,α)
t分布を利用した近似計算法と同様にしてt(φ,α)の値を求め、t(φ,λ,β)の値を求めて非心t値→p値変換によってβを求める。
検出力=1 - β
○t分布を利用した近似計算法

最後の式のφとσを実際の例数nとSDから求め、δ*とαに事前に設定した値を代入し、p値→t値の逆変換からt(φ,α)の値を求め、t(φ,2β)の値を求めてt値→p値変換によって2βを求める。
検出力=1 - β

この検出力はt検定の検出力です。 検出力は検定手法によって異なり、検定手法の有用性を表す指標のひとつになります。 有意水準αが同じという条件で、特定の対立仮説に関して検出力が最大の検定のことを最強力検定(MP:Most Powerful test)といいます。 そしてどんな対立仮設に関しても検出力が最大の検定のことを一様最強力検定(UMP:Uniformly Most Powerful test)といいます。

データが正規分布する時、t検定は母平均に関する一様最強力検定になります。 しかしデータが正規分布からずれると検出力が悪くなるので、一様最強力検定になるとは限りません。 そして正規分布からのズレが大きいと、順位和検定等のノンパラメトリック検定よりも検出力が悪くなります。 そのため統計学の解説書などに「データが正規分布しない時はノンパラメトリック手法を使うべきだ!」と書かれていることがあり、これをそのまま盲信している人も多いと思います。

しかしノンパラメトリック手法は順位平均値の検定だったり、出現率の検定だったりするため、帰無仮説と対立仮説の内容がt検定とは異なります。 そのためデータが正規分布しない時はノンパラメトリック検定が母平均に関する最強力検定になる、というわけではありません。 したがって「平均値の検定よりも順位平均値の検定の方が検出力が高いので順位平均値の検定を用いる」というのは、「天体望遠鏡よりも顕微鏡の方が倍率が高いので顕微鏡を使って天体観測をする」ようなもので、科学的に非合理です。 (→2.3 パラメトリック手法とノンパラメリック手法 (注1))