検定の次は、統計学のもうひとつの柱である推定について説明しましょう。 知名度の点では検定に劣る推定ですが、その概念は比較的わかりやすく、重要性という点では検定を凌駕しています。 推定は、求められた標本集団の要約値から、母集団の要約値すなわち母数を確率的に推測する手法です。 これには、「点推定(point estimation)」と「区間推定(interval estimation)」というの2つの方法があります。
点推定は、数学的には不確実ですが一般人には確実な手法で、その名のとおり「これだ!」とばかりにただ1点で母数を推定する方法です。 つまり、次のように標本集団の要約値をそのまま母数と考えてしまうのです。
| μ≒ | ∧ μ |
=μ~=m | σ≒ | ∧ σ |
=σ~=s=彪=府 | Σ(x-m)2 ―――― n-1 |
} |
例えば第1節の体重測定の例では、母平均と母標準偏差を次のように推定します。
区間推定は、数学的には確実ですが一般人には不確実な手法で、これもその名のとおり、ある程度の幅を持たせて母数を推定する方法です。 その幅のことを「信頼区間(CI、Confidence Interval)」または「信頼限界(CL、Confidence Limits)」といい、その間に母数が入っている確率を「信頼係数(confidence coefficient)」または「信頼度」といいます。
第3節で説明したように、標本平均の分布は漸近的に正規分布になり、その平均値つまり標本平均の平均値は母平均と一致し、標本平均の標準偏差は標準誤差になります。 そして正規分布の性質から、母平均±2標準誤差の間に約95%の標本平均が含まれます。 したがって、ある実験結果から標本平均と標準誤差を得た時、逆に標本平均±2標準誤差の幅を設ければ、その間に約95%の確率で母平均が入ることになります。 その幅の下限μLと上限μUは次のようになり、これを「95%信頼区間」といいます。
ただし正確な95%信頼区間は、t分布における自由度φ=n-1の5%点の値t(n-1,0.05)を利用して計算します。 t(n-1,0.05)は2に近い値ですが、自由度によって値が少し変化します。
この場合の区間推定は、実験結果から得られた標本平均の上下、つまり両側に信頼区間を設定するので両側検定に対応します。 このため、t(n-1,α)も両側検定用の値を用います。 これは標本平均の分布において、中央部分の面積が(1-α)になることに対応します。 片側検定と対応するように、標本平均の上または下だけに信頼区間を設定することも可能であり、その場合は片側検定用のt(n-1,2α)値を用います。
信頼係数は有意水準の裏返しに相当するため、95%すなわちα=0.05がよく用いられます。 第4節の体重測定の例で95%信頼区間を求めると、次のようになります。
ただし厳密にいうと、95%信頼区間の意味するところは次のようなものです。
「95%信頼区間を100回得たならば、そのうち95回はその間に母平均が入っている」
天気予報で使われている「雨の降る確率」もこの信頼区間と同じようなものであり、「雨の降る確率が95%ある」ということは次のような意味です。
「雨の降る確率95%の日が100日あれば、そのうち95日は雨が降り(100%)、残りの5日は雨が降らない(0%)」
一般に、信頼係数は大きいにこしたことはありません。 しかし信頼係数100・(1-α)%を大きくする、つまりαを小さくするとt(n-1,α)の値が大きくなり、信頼区間が幅広くなってしまいます。 いくら信頼係数が大きくても、例えば「母平均は99.9%の確率で0〜1000の間にある」などといった、信頼区間があまりに幅広い推定は実用的ではありません。 これは、
「明日の天気は晴れ時々曇り、一時雨か雪あるいは雹、所によっては槍も降り、ひょっとすると飛行機か人工衛星も落ちてくるでしょう」
それとは反対に、信頼係数を犠牲にすれば信頼区間を狭くすることができます。 しかし、どうしても信頼度の高い推定をしたい時もあるでしょう。 信頼係数を変えずに信頼区間を狭くするには、標準誤差を小さくする必要があります。 標準誤差SEは、次のような値でした。
| SE= | σ ―― 貧 |
≒ | SD ―― 貧 |
この値を小さくするためには、例数を多くして分母を小さくするか、それともばらつきの少ないデータを集めて、分子を小さくしなければなりません。 これらは、どちらも実験を行う研究者の努力如何にかかっている要因です。 何事も額に汗して努力しなければ、それなりの報酬は得られないものです。
推定は、漁師(fisher!)が水面に映った魚の影mを見て、魚μを捕まえることに例えることができます。 点推定は銛で「エイッ!」と一突きの方法であり、区間推定は幅のある投網を「ヨッコラショッ!」と打つことに相当します。 銛は手軽に扱える反面、魚に当る確率は低くなります。 それに対して、投網を打つには技術を要する反面、魚を捕まえる確率は高くなります。 また投網の幅が広ければ、魚を捕まえる確率は高くなる反面、網の扱いが厄介です。 反対に投網の幅が狭ければ、網は扱いやすい反面、魚を捕まえる確率は低くなります。
このように点推定も区間推定も一長一短を持っていますが、普通は点推定で推定しておき、重要な場合にだけ区間推定を行うのが一般的です。
95%信頼区間には、95%の確率で母平均μが含まれます。 したがって、もし検定の基準値μ0がこの間に含まれていなければ、母平均が基準値と等しい確率は5%以下になります。 これは、μ=μ0という帰無仮説の正しい確率が5%以下ということであり、とりもなおさず有意水準5%で有意ということに他なりません。 反対に、基準値μ0が95%信頼区間に含まれていれば、母平均が基準値と等しい確率は5%以上になり、有意水準5%で有意になりません。 このことから、推定を行ってしまえば検定を行う必要はないことがわかると思います。 図1.14と図1.8を見比べれば、区間推定と検定の関係を理解することができると思います。
また検定では、たとえ結果が有意になっても、ただ単に母平均が基準値と等しくないということしか推測できません。 しかし推定では母平均の含まれる区間がわかるので、母平均が特定の基準値だけでなく、信頼区間から外れるあらゆる値と等しくないということまで推測できます。
例えば第4節の体重測定の例のように、母平均が基準値50と等しいかどうかを検定したいとします。 この時の95%信頼区間は58〜62であり、この間に基準値50は含まれていません。 したがって、当然、有意水準5%で有意になります。 しかもこの信頼区間から、基準値が50の時だけでなく、55でも65でも、とにかく58〜62以外の値だったら、どんな時でも有意水準5%で有意になることがわかります。
ここで統計的仮説検定と同じように、実質科学的に意味のある基準値をμ0、実質科学的に意味のある具体的な差、つまりこの差より小さい差は実質科学的には誤差範囲であるという差をδ*とします。 この時、検定結果と推定結果と実質科学的な判断との関係は図1.15のようになります。 この図から、実質科学的判断の材料としては検定結果よりも推定結果の方が重要なだけでなく、検定結果だけから実質科学的な判断をするのは危険であることがわかると思います。
| 検定結果 | 推定結果 | 医学的な判断 | |
|---|---|---|---|
| (1) | 有意ではない | μ≒μ0 | 母平均は基準値とほぼ等しい |
| (2) | 有意ではない | μ=μ0〜μ0+δ* | この結果だけでは判断できない、もっと検出力を高くする必要がある |
| (3) | 有意 | μ0<μ<μ0+δ* | 母平均は基準値と実質的に変わらない |
| (4) | 有意 | μ≒μ0+δ* | 母平均は基準値と実質的に変わらない可能性が高い |
| (5) | 有意 | μ≒μ0+δ* | 母平均は基準値よりも大きい可能性が高い |
| (6) | 有意 | μ0+δ*<μ | 母平均は基準値よりも大きい |
第4節の最初で、検定は定性試験であり推定は定量試験だから、推定の方がより重要であると説明しました。 それは以上のような理由によるものです。 つまり定量試験である推定を行ってしまえば、定性試験である検定を行う必要はありません。 その上、定性試験である検定結果だけに基づいて実質科学的判断をするのは、非常に危険なのです。
例えば、ある溶液をpH計で測定してpH2とわかれば、わざわざリトマス試験紙を用いて、酸性であることをもう一度確認するヒマ人はいないでしょう。 またリトマス試験紙だけでは、酸性の強さまではわかりません。 リトマス紙の取り柄は簡便性ですが、検定は推定よりもむしろ複雑な手法であり、決して簡便ではありません。 唯一の取り柄といったら、○×式を偏愛するお役所受けが良いということだけでしょう。
現在の研究現場では検定ばかりが偏重されていて、推定を利用するにしても、「信頼区間に基準値が含まれていないから有意だ」といった本末転倒な使われ方をしています。 しかし定量試験である推定をもっと重要視して欲しいですし、推定結果を実質科学的に評価するという本来の使い方をして欲しいものです。
有意性検定の欠点を補うために、「ハンディキャップ方式の検定」という手法が考えられています。 この手法は、有意性検定に統計的仮説検定の考え方を一部だけ導入したものであり、推定とも関係が深いのでついでに説明しておきましょう。 通常の有意性検定は、母平均μと基準値μ0との差δが0かどうかを検定します。 しかしハンディキャップ方式の検定では、δが実質科学的に意味のある具体的な差δ*かどうかを検定します。
前節で説明したように、αエラー、βエラー、検出差δ*を事前に決定し、試験の必要例数を確保した上で、次のように検定します。
この検定方式で有意になった時は図1.15の(3)〜(6)のどれかに相当し、推定結果と組み合わせて実質科学的な判断を行います。 反対に有意にならなかった時は、βがα/2(片側検定の場合はα)と同じ値ならば図1.15の(1)に相当し、実質科学的に同等ということになります。 βの値がα/2より大きい場合は、信頼区間がδ*よりも大きくなり、(2)の可能性もあります。 このため、結果が有意になった時と同じ程度の信頼性で実質科学的に同等と断言することはできません。 つまり結論の信頼性を一定以上の水準にするためには、βとα/2(片側検定の場合はα)を同じ値にするのが理想なのです。
この検定方式の中の対立仮説H1を帰無仮説H0の否定形にして、実質的な対立仮説を省略し、帰無仮説の検証部分だけにした検定方式が有意性検定です。 有意検定は母平均と基準値が数学的に同値かどうかを検定するため、同等性検定に対して「非同値検定」と呼ぶことができます。
有意性検定つまり非同値検定は、δ*を設定しないためαエラーは決められるもののβエラーは決められず、必要例数の計算ができません。 このため、どんな例数で試験をしてもかまいませんが、結果が有意になった時しか仮説を検証することができず、有意にならない時は結論を保留することになります。 したがって有意にならない時は、実質的に試験失敗であり、再試験が必要ということになります。
統計的仮説検定では、事前の探索試験などから母平均μを推定し、その値と基準値μ0との差をδ*として設定し、検出力を決めて必要例数を計算することもできます。 ただし、その場合はδ*が実質科学的に意味のある値になるとは限らず、対立仮説が意味のある仮説になる保証はないため、有意ではない時は意味のある結論になるとは限りません。 つまり統計的仮説検定では、δ*が実質科学的に意味のある値でない限り、βエラーが実質科学的な意味を持つとは限らないのです。
αエラーとδ*を事前に決定し、次のように検定します。
この検定方式は、同等性検定の対立仮説H1を帰無仮説H0にし、βエラーをαエラーにした有意性検定に相当します。 そして両側検定では、μがμ0+δ*よりも大きくて実質科学的に優れていること、またはμがμ0+δ*よりも小さくて実質科学的に非優越であることを検定します。 この検定方式では、優越性または非優越性だけを検証する片側検定を行うことも可能であり、その場合は両側検定との整合性を保つために有意水準をα/2にします。
この検定方式で優越性が有意になった時は図1.15の(6)に相当し、実質科学的な優越性が検証できます。 反対に非優越性が有意になった時は(1)または(3)に相当し、実質科学的な非優越性が検証できます。 したがって、これは実質科学的な意味まで考慮した優れた検定方式ですが、非同値検定に比べて有意になりにくいので、実際の研究現場では残念ながらほとんど利用されていません。 それどころか、この検定方式の代わりに、非同値検定のことを優越性検定と呼ぶ悪しき習慣が薬業界や医学界に蔓延していて、数学的な非同値性を実質科学的な優越性と取り違えている人達が多いのには全く困ったもんです。 (注2)
αエラーとδ*を事前に決定し、次のように検定します。
この検定方式は、優越性検定または非優越性検定の反対であり、同等性検定のもうひとつの対立仮説H1を帰無仮説H0にした有意性検定に相当します。 そして両側検定では、μがμ0-δ*よりも小さくて実質科学的に劣性であること、またはμがμ0-δ*よりも大きくて実質科学的に非劣性であることを検定します。 優越性検定または非優越性検定と同様に、劣性または非劣性だけを検証する片側検定を行うことも可能であり、その場合は両側検定との整合性を保つために有意水準をα/2にします。
この検定方式で劣性が有意になった時は図1.15の(6)のマイナス側に相当し、実質科学的な劣性が検証できます。 反対に非劣性が有意になった時は(1)または(3)のマイナス側に相当し、実質科学的な非劣性が検証できます。
この場合の非劣性検定は、具体的な対立仮説を設定しない有意性検定なので、同等性検定と違って必要例数の設計ができず、ぶっつけ本番で試験を実施することになります。 このため、製薬企業で行う新薬開発のための臨床試験などで人気があります。 しかしこの検定方式では、結果が有意になった時しか非劣性を検証することができず、有意にならない時は再試験が必要になります。 つまり同等性試験と比べると、「ハイリスク・ハイリターン」な検定方式であるといえるでしょう。
非優越性検定と非劣性検定は、同等性検定の対立仮説を帰無仮説にした片側検定であり、βをα/2にした同等性検定の対立仮説の検証部分に相当します。 つまりβをα/2にした同等性の両側検定は、非同値検定と非優越性検定と非劣性検定を一度に行う検定方式ということになります。 こうすれば理論的に首尾一貫する上、検出力の設定と必要例数の計算ができる合理的な検定方式になります。 したがって製薬企業には人気がありませんが、非同値検定や非優越検定や非劣性検定を行うよりも、βをα/2にした同等性の両側検定を行う方が科学的かつ合理的です。
以上のような3種類の検定方式と、μの100・(1-α)%信頼区間の関係を模式図にしたものが図1.16です。 この図は図1.15を90度回転し、もう少し数学的にした模式図に相当します。 この図から、3種類の検定方式の結果は、μの100・(1-α)%信頼区間を用いれば全て予測できることがわかると思います。 つまり区間推定を行えば、このような複雑な検定を行う必要は全くないわけです。 このことから、定性試験である検定よりも、定量試験である推定の方がより重要であることがよく理解できると思います。
| t= | m-μ ――― SE |
= | δ ―― SE |
このように、信頼区間の意味は「N{μ,σ2}に従う母集団からn例の標本集団を無作為にサンプリングし、信頼係数(1-α)の信頼区間を計算するということを何度も繰り返した時、それらの信頼区間内にμを含むものの割合は(1-α)である」ということです。 実際の研究現場では1つの信頼区間が得られるだけであり、母平均μは定数ですから、その信頼区間にμが含まれる確率は(1-α)ではなく本当は0か1です。 このため普通の意味の確率ではないことを表すために、「信頼確率」ではなく「信頼係数」または「信頼度」という用語をわざわざ使っています。
一見すると、これらの主張は論理的なように思えますが、実は突っ込みどころ満載の欺瞞に満ちた主張です。 まず1番目の主張は、「医学的な優越性」ではなく「統計的な優越性」、つまり「非同値性」または「医学的な同等以上」の検証にすぎません。 これは、μ0をプラセボの母平均として、次のような結果になったということです。
図1.17に示したように、これは新薬の母平均μがμ0よりも大きいという意味であり、μがμ0+δ*よりも大きいという意味ではありません。 したがって新薬はプラセボと医学的に同等という可能性もあり、決して医学的な優越性を検証したわけではありません。 医学的な優越性を検証するためには、次のように本来の優越性試験で有意になる必要があります。
2番目の主張は、この主張だけなら間違いではなく、確かに新薬と標準薬は医学的に同等であるといえます。 しかし標準薬のプラセボに対する優越性が小さい場合、例えば標準薬の母平均μs=μ0+δ*とすると、この標準薬に対する非劣性試験は、新薬の母平均μがプラセボの母平均μ0と等しいかどうかを検定する、非同値検定と同じものになります。 その結果、プラセボと医学的に同等の新薬でも、次のように標準薬に対する非劣性試験で有意になることがあります。
この結果はμがμ0よりも大きいという意味にすぎませんから、新薬がプラセボと医学的に同等でも、標準薬に対する医学的な同等性が検証できてしまいます。 そして、この新薬を標準薬として次の新薬を同じ手順で開発すると、次のように母平均が標準薬の母平均よりもδ*/2だけ低い新薬が、またしても「標準薬と医学的同等」と判断されてしまいます。
もちろん、1番目のステップで新薬がプラセボと同等以上であることを検証しておけば、こういった悪循環に陥るのを防ぐことはできます。 しかし、その場合でもプラセボと医学的に同等の新薬が開発され、プラセボと医学的に同等の薬剤が標準薬になるという危険は避けられません。
そういった危険性を排除するためには、プラセボに対する新薬と標準薬の優越性を本来の優越性検定で検定し、それぞれがプラセボに対して医学的に優越であることを検証することが必要です。 そして、いやしくも「新薬」を開発するためには、少なくとも標準薬に対して医学的に同等以上であることを、非同値検定で検証することが必要でしょう。
3番目の主張にも問題があります。 新薬と標準薬が医学的に同等であるということは、ある点で新薬にメリットがあれば、必ずどこか別の点でデメリットがあるということです。 そのメリットとデメリットを十分検討し、デメリットに多少目をつぶっても、メリットに医学的・社会的な価値があると考えられれば、消極的ながら新薬の有用性を主張することができます。
ただし、そのメリットがある特定項目の改善率が標準薬よりも良いといったことですと、「4.1 多標本の計量値」で説明する多重性の問題が生じます。 例えば、20個の項目について新薬と標準薬の改善率を比較した場合、有意水準5%で検定すれば、両者の薬効が全く同じ時でも1項目くらいは偶然に有意な結果になります。
この現象を防ぐためには、検定手法として多重検定という手法を用いるか、それとも多変量解析を用いる必要があります。 ところが、残念なことに現在の薬業界や医学界では、項目別の検定に多重検定が用いられることはなく、多変量解析もほとんど用いられません。 このため、全く偶然に有意になった結果がメリットと判断され、標準薬とまるで変わらない新薬が開発されてしまう危険性があります。
また項目別の検討は試験の主目的ではなく、あくまでも副次的かつ探索的な目的にすぎません。 このため、項目別に医学的に意味のある差δ*を設定したり、項目別に必要例数の計算をしたりすることはなく、検定の信頼性が保証されません。 したがって、本当に項目別の検討を指標としてメリットを検証したいのなら、それを目的にした検証試験をあらためて実施するべきです。
このような欺瞞に満ちた新薬開発法が薬業界でまかり通っているのは、画期的な新薬が開発しにくくなったことが大きな原因です。 つまり、従来の薬剤よりも確実に優れた画期的な新薬を開発するのが難しくなったため、従来の薬剤とほとんど変わらない薬でも、何とか誤魔化して新薬らしく開発してしまおうという、いわば製薬企業の苦肉の策なのです。 薬業界で飯を食っている人は仕方がないとして(^^;)、薬業界とは無関係な人までがこのような苦肉の策に騙されてはいけません。