玄関雑学の部屋雑学コーナー統計学入門

1.7 ハンディキャップ方式の検定

(1) 推定と検定の関係

ここで推定と検定の関係をあらためて整理しておきましょう。 第6節と同様に科学的に意味のある基準値をμ0、科学的な誤差範囲をδ*とします。 この時、検定結果と推定結果と科学的な判断との関係は図1.7.1のようになります。 この図から科学的判断の材料としては検定結果よりも推定結果の方が重要なだけでなく、検定結果だけから科学的な判断をするのは危険であることがわかると思います。

また図1.7.1の(2)から信頼区間は数学的な誤差範囲であり、これが科学的な誤差範囲であるδ*より大きいと医学的な判断はできないことがわかります。 第6節で説明した必要例数の計算式は信頼区間がδ*以下になる例数を求めていることに相当し、検出力分析は信頼区間がδ*以下かどうかを分析していることに相当します。 そのため検出力分析によって必要な検出力が確保されていることが確認された時は、図1.7.1の(2)のような結果は発生しません。

図1.7.1 検定結果と信頼区間
 検定結果推定結果医学的な判断
(1)有意ではないμ≒μ0母平均は基準値とほぼ等しい
(2)有意ではないμ=μ0〜μ0+δ*この結果だけでは判断できない、検出力をもっと高くする必要がある
(3)有意μ0<μ<μ0+δ*母平均は基準値と実質的に変わらない
(4)有意μ≒μ0+δ*母平均は基準値と実質的に変わらない可能性が高い
(5)有意μ≒μ0+δ*母平均は基準値よりも大きい可能性が高い
(6)有意μ0+δ*<μ母平均は基準値よりも大きい

第4節の最初で推定は定量試験であり検定は定性試験だから、推定の方がより重要であると説明しました。 それは以上のような理由によるものです。 つまり定量試験である推定を行ってしまえば、定性試験である検定を行う必要はありません。 その上、定性試験である検定結果だけに基づいて科学的判断をするのは非常に危険なのです。

例えば、ある溶液をpH計で測定してpH2とわかれば、わざわざリトマス試験紙を用いて酸性であることをもう一度確認するヒマ人はいないでしょう。 またリトマス試験紙だけでは酸性の強さまではわかりません。 それと同様に第5節の体重測定の例のように母平均が基準値50と等しいかどうかを検定したい時、95%信頼区間が58〜62の間に基準値50は含まれていないため、当然、有意水準5%で有意になります。 しかもこの信頼区間から基準値が50の時だけでなく55でも65でも、とにかく58〜62以外の値だったらどんな時でも有意水準5%で有意になることがわかります。

このように推定では母平均の含まれる区間がわかるので、母平均が特定の基準値だけでなく、信頼区間から外れるあらゆる値と等しくないということまで推測できます。 それに対して検定では、たとえ結果が有意になってもただ単に母平均が基準値と等しくないということしか推測できません。 リトマス紙には簡便性という取り柄がありますが、検定は推定よりもむしろ複雑な手法であり決して簡便ではありません。 唯一の取り柄といったら、○×式を偏愛するお役所受けが良いということだけでしょう。

現在の研究現場では検定ばかりが偏重されていて、推定を利用するにしても「信頼区間に基準値が含まれていないから有意だ」といった本末転倒な使われ方をしています。 定量試験である推定をもっと重要視して欲しいですし、推定結果を科学的に評価するという本来の使い方をして欲しいものです。

(2) ハンディキャップ方式の検定

有意性検定の欠点を補うためにハンディキャップ方式の検定という手法が考えられています。 この手法は有意性検定に統計的仮説検定の考え方を一部だけ導入したものであり、推定とも関係が深いのでついでに説明しておきましょう。 通常の有意性検定は母平均μと基準値μ0との差δが0かどうかを検定します。 しかしハンディキャップ方式の検定ではδが科学的に意味のある具体的な差δ*かどうかを検定します。

(a) 通常の統計的仮説検定(αβδ方式の検定)…同等性検定

第6節で説明したようにαエラー、βエラー、検出差δ*を事前に決定し、試験の必要例数を確保した上で次のように検定します。

H0:μ=μ0
H1:μ=μ0 - δ* または μ=μ0 + δ*
有意確率p≦αの時、有意水準αで有意 → H0を棄却しμ≠μ0(非同値)を採用 … 間違える確率=α
有意確率p>αの時、有意水準αで有意ではない → H1を棄却し|μ - μ0|<δ*(実質的同等)を採用 … 間違える確率=β

この検定方式で有意になった時は図1.7.1の(3)〜(6)のどれかに相当し、推定結果と組み合わせて科学的な判断を行います。 反対に有意にならなかった時は、βがα/2(片側検定の場合はα)と同じ値なら図1.7.1の(1)に相当し、科学的に同等ということになります。 βの値がα/2より大きい時は信頼区間がδ*よりも大きくなり、(2)の可能性もあります。 そのため結果が有意になった時と同じ程度の信頼性で「科学的に同等」と断言することはできません。 つまり結論の信頼性を一定以上の水準にするためにはβとα/2(片側検定の場合はα)を同じ値にするのが理想なのです。

この検定方式の中の対立仮説H1を帰無仮説H0の否定形にして実質的な対立仮説を省略し、帰無仮説の検証部分だけにした検定方式が有意性検定です。 有意性検定は母平均と基準値が数学的に同値かどうかを検定するため、同等性検定に対して非同値検定と呼ぶことができます。

有意性検定つまり非同値検定はδ*を設定しないため、αエラーは決められるもののβエラーは決められません。 そのため必要例数の計算ができず、どんな例数で試験をしてもかまいません。 その代わり結果が有意になった時しか仮説を検証することができず、有意にならない時は結論を保留することになります。 したがって有意にならない時は実質的に試験失敗であり、再試験が必要ということになります。

統計的仮説検定では事前の探索試験などから母平均μを推定し、その値と基準値μ0との差をδ*として設定し、検出力を決めて必要例数を計算することもできます。 ただしその場合はδ*が科学的に意味のある値になるとは限らず、対立仮説が意味のある仮説になる保証はありません。 そのため検定結果が有意ではない時は意味のある結論になるとは限りません。 つまり統計的仮説検定ではδ*が科学的に意味のある値でない限り、βエラーが科学的な意味を持つとは限らないのです。

(b) ハンディキャップ方式の有意性検定…優越性検定または非優越性検定

αエラーとδ*を事前に決定し、次のように検定します。

H0:μ=μ0 + δ* (δ*≠0)
有意確率p≦αの時、有意水準αで有意 → H0を棄却しμ<μ0 + δ*(実質的非優越) または μ0 + δ*<μ(実質的優越)を採用 … 間違える確率=α
有意確率p>αの時、有意水準αで有意ではない → H0を保留 … 結論保留、再試験必要

この検定方式は同等性検定の対立仮説H1を帰無仮説H0にし、βエラーをαエラーにした有意性検定に相当します。 そして両側検定ではμがμ0*よりも大きくて科学的に優れていること、またはμがμ0*よりも小さくて科学的に非優越であることを検定します。 この検定方式では優越性または非優越性だけを検証する片側検定を行うことも可能であり、その場合は両側検定との整合性を保つために有意水準をα/2にします。

この検定方式で優越性が有意になった時は図1.7.1の(6)に相当し、科学的な優越性が検証できます。 反対に非優越性が有意になった時は(1)または(3)に相当し、科学的な非優越性が検証できます。 したがってこれは科学的な意味まで考慮した優れた検定方式です。 しかし非同値検定に比べて有意になりにくいので、実際の研究現場では残念ながらほとんど利用されていません。

それどころかこの検定方式の代わりに非同値検定のことを優越性検定と呼ぶ悪しき習慣が薬業界や医学界に蔓延していて、数学的な非同値性を科学的な優越性と取り違えている人達が多いのには全く困ったもんです。 (注1)

(c) ハンディキャップ方式の有意性検定…劣性検定または非劣性検定

αエラーとδ*を事前に決定し、次のように検定します。

H0:μ=μ0 - δ* (δ*≠0)
有意確率p≦αの時有、意水準αで有意 → H0を棄却しμ<μ0 - δ*(実質的劣性) または μ0 - δ*<μ(実質的非劣性)を採用 … 間違える確率=α
有意確率p>αの時、有意水準αで有意ではない → H0を保留…結論保留、再試験必要

この検定方式は優越性検定または非優越性検定の反対であり、同等性検定のもうひとつの対立仮説H1を帰無仮説H0にした有意性検定に相当します。 そして両側検定ではμがμ0*よりも小さくて科学的に劣性であること、またはμがμ0*よりも大きくて科学的に非劣性であることを検定します。 優越性検定または非優越性検定と同様に劣性または非劣性だけを検証する片側検定を行うことも可能であり、その場合は両側検定との整合性を保つために有意水準をα/2にします。

この検定方式で劣性が有意になった時は図1.7.1の(6)のマイナス側に相当し、科学的な劣性が検証できます。 反対に非劣性が有意になった時は(1)または(3)のマイナス側に相当し、科学的な非劣性が検証できます。

この場合の非劣性検定は具体的な対立仮説を設定しない有意性検定なので、同等性検定と違って必要例数の設計ができず、ぶっつけ本番で試験を実施することになります。 そのため製薬企業で行う新薬開発のための臨床試験などで人気があります。 しかしこの検定方式では結果が有意になった時しか非劣性を検証することができず、有意にならない時は再試験が必要になります。 つまり同等性試験と比べるとハイリスク・ハイリターンな検定方式であると言えるでしょう。

非優越性検定と非劣性検定は同等性検定の対立仮説を帰無仮説にした片側検定であり、βをα/2にした同等性検定の対立仮説の検証部分に相当します。 つまりβとα/2を同じ値にした同等性の両側検定は、非同値検定と非優越性検定と非劣性検定を一度に行う検定方式ということになります。 こうすれば理論的に首尾一貫する上、検出力の設定と必要例数の計算ができる合理的な検定方式になります。

したがって製薬企業には人気がありませんが、非同値検定や非優越検定や非劣性検定を行うよりも、βとα/2を同じ値にした同等性の両側検定を行う方が科学的かつ合理的です。

図1.7.2 3種類の検定方式と信頼区間の関係

以上のような3種類の検定方式と、μの100(1-α)%信頼区間の関係を模式図にしたものが図1.7.2です。 この図は図1.7.1をもう少し数学的にした模式図に相当します。 この図から、3種類の検定方式の結果はμの100(1-α)%信頼区間を用いれば全て予測できることがわかると思います。 つまり区間推定を行えば、上記のような複雑な検定を行う必要は全くないわけです。

このことからも、定性試験である検定よりも定量試験である推定の方が重要であることが理解できると思います。 (注2)


(注1) 困ったことに、現在の薬業界には非同値検定のことを優越性検定と呼び、同等性検定の代わりに非劣性検定を行うという悪しき習慣があります。 例えば新薬を開発する場合、次のような手順で新薬の有用性を主張することがよくあります。

  1. まず薬効のないプラセボと非同値検定を行い、有意になった時は「優越性検定でプラセボに対する優越性が検証された」と主張する。
  2. 次に、すでにプラセボに対する優越性が確認されている標準的な薬剤と非劣性検定を行い、有意になれば「非劣性検定で標準薬と同等であることが検証された」と主張する。
  3. その上で標準薬よりも副作用が少ない、またはある項目の改善率が標準薬よりも良いといったメリットを見つけて新薬の有用性を主張する。

一見するとこれらの主張は論理的なように思えますが、実は突っ込みどころ満載の欺瞞に満ちた主張です。 まず1番目の主張は医学的な優越性ではなく統計的な優越性つまり非同値性の検証にすぎません。 これはμ0をプラセボの母平均として、次のような結果になったということです。

H0:μ=μ0とした非同値検定で有意
つまりμ0 + δ*/2<試験結果における新薬の標本平均m → μ0<新薬の母平均μ

図1.7.3に示したようにこれは新薬の母平均μがプラセボの母平均μ0よりも大きいという意味であり、μがμ0*よりも大きいという意味ではありません。 したがって新薬はプラセボと医学的に同等という可能性もあり、決して医学的な優越性を検証したわけではありません。 医学的な優越性を検証するためには、次のように本来の優越性試験で有意になる必要があります。

H0:μ=μ0*とした優越性値検定で有意
つまりμ0 + 1.5×δ*<試験結果における新薬の標本平均m → μ0 + δ*<新薬の母平均μ

2番目の主張はこの主張だけなら間違いではなく、確かに新薬と標準薬は医学的に同等であるといえます。 しかし標準薬のプラセボに対する優越性が小さい場合、例えば標準薬の母平均μs0*とすると、この標準薬に対する非劣性試験は、新薬の母平均μがプラセボの母平均μ0と等しいかどうかを検定する非同値検定と同じものになります。 その結果、プラセボと医学的に同等の新薬でも次のように標準薬に対する非劣性試験で有意になることがあります。

H0:μ=μs - δ*=(μ0 + δ*) - δ*0とした非劣性検定で有意
つまりμ0 + δ*/2<試験結果における新薬の標本平均m → μ0<新薬の母平均μ

この結果はμがμ0よりも大きいという意味にすぎません。 そのため新薬がプラセボと医学的に同等でも、標準薬に対する医学的な同等性が検証できてしまいます。 そしてこの新薬を標準薬として次の新薬を同じ手順で開発すると、次のように母平均が標準薬の母平均よりもδ*/2だけ低い新薬がまたしても標準薬と医学的同等と判断されてしまいます。

H0:μ=μs - δ*=(μ0 + δ*/2) - δ*0 - δ*/2とした非劣性検定で有意
つまりμ0<試験結果における新薬の標本平均m → μ0 - δ*/2<新薬の母平均μ

この手順を繰り返していくと、恐ろしいことに数回後にはプラセボよりも医学的に劣った新薬が堂々と開発されてしまうことになるのです!

図1.7.3 標準薬に対する非劣性検定の非合理性

もちろん1番目のステップで新薬がプラセボと同等以上であることを検証しておけば、こういった悪循環に陥るのを防ぐことはできます。 しかしその場合でもプラセボと医学的に同等の新薬が開発され、プラセボと医学的に同等の薬剤が標準薬になるという危険は避けられません。

そういった危険性を排除するためにはプラセボに対する新薬と標準薬の優越性を本来の優越性検定で検定し、それぞれがプラセボに対して医学的に優越であることを検証することが必要です。 そしていやしくも新薬を開発するためには、少なくとも標準薬に対して医学的に同等以上であることを非同値検定で検証することが必要でしょう。

○プラセボに対する新薬と標準薬の優越性検定
H0:μ=μ0 + δ*とした優越性検定で有意
つまりμ0 + 1.5×δ*<試験結果における新薬または標準薬の標本平均m → μ0 + δ*<μ、μs
○標準薬に対する新薬の非同値検定
H0:μ=μsとした非同値検定で有意
つまりμs + δ*/2<試験結果における新薬の標本平均m → μs<μ

3番目の主張にも問題があります。 「標準薬よりも副作用が少ない」とか「ある項目の改善率が標準薬よりも良い」といったことは、「優越性検定」と偽称した非同値検定で検定するのが普通です。 そのため図1.7.1の(3)のように標準薬と実質的に同等でも非同値検定で有意になることが有り得ます。 その結果、新薬の有効性は標準薬に対して非劣性のため同等であり、副作用は標準薬に対して優越のため少ないと言いながら、実は有効性でも副作用でも標準薬と実質的に同等ということが起こり得ます。

またたとえ副作用が標準薬よりも実質的に少なかったり、ある項目の改善率が標準薬よりも実質的に良かったとしてもまだ問題があります。 新薬と標準薬が医学的に同等であるということは、ある点で新薬にメリットがあれば必ずどこか別の点でデメリットがあるということです。 そのメリットとデメリットを十分検討し、デメリットに多少目をつぶってもメリットに医学的・社会的な価値があると考えられれば、消極的ながら新薬の有用性を主張することができます。

ただしそのメリットがある特定項目の改善率が標準薬よりも良いといったことなら、「4.1 多標本の計量値」で説明する多重性の問題が生じます。 例えば20個の項目について新薬と標準薬の改善率を比較した場合、有意水準5%で検定すれば両者の薬効が全く同じ時でも1項目くらいは偶然に有意な結果になります。

この現象を防ぐためには検定手法として多重検定という手法を用いるか、それとも多変量解析を用いる必要があります。 ところが残念なことに現在の薬業界や医学界では項目別の検定に多重検定が用いられることはなく、多変量解析もほとんど用いられません。 そのため全く偶然に有意になった結果がメリットと判断され、標準薬とまるで変わらない新薬が開発されてしまう危険性があります。

また項目別の検討は試験の主目的ではなく、あくまでも副次的かつ探索的な目的にすぎません。 そのため項目別に医学的に意味のある差δ*を設定したり、項目別に必要例数の計算をしたりすることはなく、検定の信頼性が保証されません。 したがって本当に項目別の検討を指標としてメリットを検証したいのなら、それを目的にした検証試験をあらためて実施するべきです。

このような欺瞞に満ちた新薬開発法が薬業界でまかり通っているのは、画期的な新薬が開発しにくくなったことが大きな原因です。 つまり従来の薬剤よりも確実に優れた画期的な新薬を開発するのが難しくなったため、従来の薬剤とほとんど変わらない薬でも何とか誤魔化して新薬らしく開発してしまおうという、いわば製薬企業の苦肉の策なのです。 薬業界で飯を食っている人は仕方がないとして、薬業界とは無関係な人までがこのような苦肉の策に騙されてはいけません。

(注2) 後発医薬品——先発医薬品の特許が切れるとゾロゾロ出てくるので業界用語でゾロ品といいますが、イメージが悪いので表向きはジェネリック医薬品と言い換えています——が先発医薬品と同じ薬効を持っていることを検証する試験として、生物学的同等性試験(Bioequivalence Study、BE試験)という試験があります。 (→14.5 生物学的同等性試験)

この試験は先発品と後発品を健常人に投与し、その血中濃度の時間的変化を比較することによって生物学的な同等性を検証します。 その場合、生物学的な同等性の範囲として、先発品と後発品の血中濃度の平均値の差が先発品の血中濃度の平均値の±20%以内という基準を用いています。

そして以前は推定よりも検定を優先し、同等性検定によって同等性を検証し、推定結果を参考程度に用いていました。 しかし近年は検定よりも推定を優先し、「平均値の差の90%信頼区間が同等性範囲内に収まる」つまり「平均値の差の90%信頼区間の下限と上限が同等性範囲に入る」ということで同等性を検証するようになっています。

90%信頼区間が±20%の同等性範囲内に収まるということは、α=0.1、β=α/2=0.05(検出力95%)、δ*=20%とした同等性検定の結果が有意ではないということと実質的に同じ意味です。 この条件では同等性検定の棄却域が-10%以下と10%以上になると同時に、90%信頼区間の幅がδ*と同じ20%になります。 そして平均値の差が±10%の範囲に入れば、検定結果が有意ではなくなると同時に90%信頼区間が±20%の同等性範囲内に収まります。

そして推定では、試験例数が少なくて検定の検出力が低くても――例えばβ=0.5(検出力50%)でも、先発品と後発品が全く同じ血中濃度で平均値の差が0なら、90%信頼区間が同等性範囲内に収まり同等性を検証することができます。 この条件では90%信頼区間の幅がδ*の2倍の40%になり、同等性範囲の幅と同じになるからです。 しかし同等性検定の場合は検出力が50%しかないため、検定結果が有意にならなかったとしても同等性を検証したとは評価されないでしょう。

図1.7.4 信頼区間と実質科学的同等範囲

ただし信頼区間の幅がδ*の2倍つまり同等性範囲と同じ時は、平均値の差が0でないと90%信頼区間が同等性範囲からはみ出してしまいます。 そこで実際には平均値の差が0でなくても、90%信頼区間が同等性範囲に収まるのに必要な例数を求めてから試験を行う必要があります。

例えば先発品と後発品の母平均が同じで、母平均の差が0だとします。 この時、母平均の差を基準値μ0=0とすると、標本平均の差mは図1.7.4のような正規分布をします。 そして信頼区間の下限が同等性範囲の下限μ0-δ*と一致する時の信頼区間を下端信頼区間、信頼区間の上限が同等性範囲の上限μ0+δ*と一致する時の信頼区間を上端信頼区間とします。

すると下端信頼区間の標本平均mlから上端信頼区間の標本平均muまでの標本平均が含まれる範囲の確率――図1.7.4の正規分布の灰色の部分――が(1-β)になるように調整すれば、信頼区間は(1-β)の確率で同等性範囲に収まります。 つまり検出力100(1-β)%で同等性が検証できることになります。 この原理に基づいて、信頼区間を利用した同等性の検証に必要な例数nを次のようにして求めることができます。



1-α:信頼係数  1-β:検出力  σ:母標準偏差  φ:自由度   nc=1 または 2:t分布を正規分布で近似したことによる補正
:効果量(effect size、Cohenのd)

この式から求めた必要例数は有意水準α、検出力(1-β/2)とした時の同等性の検定の必要例数に相当し、検出力を(1-β)とした時の検定の必要例数よりも少し多くなります。 また図1.7.4と図1.7.2を見比べると、この必要例数は母平均の差がμ0=0である時に、μ0-δ*を基準値にして片側有意水準α/2の非劣性検定を行い、検出力(1-β)で有意になると同時に、μ0+δ*を基準値にして片側有意水準α/2の非優越検定を行い、検出力(1-β)で有意になる時の必要例数に相当することがわかると思います。 そのため同等性の検証のための必要例数はこの式で求めるのが合理的です。

図1.7.5 母平均値の差が0ではない時の信頼区間

母平均の差が0ではなくδ(<δ*)の時は図1.7.5のようになり、下端信頼区間の標本平均mlから上端信頼区間の標本平均muまでの標本平均が含まれる範囲――図1.7.5の正規分布の灰色の部分――がμ0+δを中心にして左右非対称になります。 この時の必要例数は次のようにして求めます。

P((μ0-δ*)+t(φ,α)・SE-(μ0+δ)) ≦ m ≦ (μ0+δ*)-t(φ,α)・SE-(μ0+δ)=P(-δ*-δ+t(φ,α)・SE ≦ m ≦ δ*-δ-t(φ,α)・SE)≧1-β
※図1.7.5の正規分布の灰色の部分の確率が(1-β)以上になる。
この時の絶対精度t(φ,α)・SEは母平均の差が0の時の値よりも小さくなるので、母平均の差が0の時の必要例数nを初期値として、nを増やしながら上式を満足する時のnを求める。

この必要例数は実際的ではありますが、δがδ*に近いと必要例数が非常に多くなります。 そのため同等性の検証はδ=μ0=0を検証するためのものと割り切り、建前上は図1.7.4のようにδ=0とした時の必要例数を用いても良いと思います。 実際の生物学的同等性試験はクロスオーバーデザインで行うため、これらを少し修正した計算式を用いて必要例数を求めます。 それについては第14章の(注2)をご覧ください。 (→14.5 生物学的同等性試験 (注2))

同等性の検定では試験例数が多くて検出力が高くなるほど結果は有意になりやすくなり、同等性を検証できる可能性が低くなってしまいます。 本来は試験例数が多いほどより信頼性の高い結果が得られ、同等かどうか確実なことが言えるはずなのでこれは矛盾です。 しかし推定では試験例数が多ければ信頼区間幅が狭くなり、たとえ同等性検定の結果が有意になったとしても90%信頼区間が同等性範囲内に収まれば同等性を検証することができます。 これは定量試験である推定の特徴であり、定性試験である検定よりも優れた点です。

生物学的同等性試験だけでなく普通の試験でも、このような検定よりも推定を優先した利用法を積極的に用いて欲しいものです。