玄関雑学の部屋雑学コーナー統計学入門

1.5 有意性検定の考え方

(1) 信頼区間と検定

次は、いよいよ検定について説明しましょう。 検定は○×式の定性試験ですから、最初に必ず基準値と問題を設定します。 またまた第1節の体重測定の例を取り上げて、次のような問題について調べてみることにしましょう。

問題:日本人の平均体重は50kgか?

ここでは仮に50kgが医学的に意味のある標準体重だと考えて、この値を基準値μ0にします。 基準値は、このように医学的な正常値とか対照群の平均値とか治療前値のような、科学的に有意義な値にします。 この問題に対する回答は2つあり、次のように表現することができます。

H0:日本人の平均体重は50kgである(μ=μ0 または δ=μ-μ0=0) … 問題の答えは○
H1:日本人の平均体重は50kgではない(μ≠μ0 または δ=μ-μ0≠0) … 問題の答えは×

「H」はHypothesis(仮説)の意味で、これらの回答がまだ仮説段階のものであることを表しています。 そしてたいていは実験結果が50kgとぴったり一致することはなく、H0は無に帰することが多くなります。 そのためH0帰無仮説(null hypothesis)と呼ばれています。 それに対してH1H0と対立する仮説ですから、対立仮説(alternative hypothesis)と呼ばれています。

これら2つの仮説のどちらが正しいかを検証するために、母集団である日本人全体から100人の標本集団を無作為抽出して体重を測定したところ、平均値が60kg、標準偏差が10kgになったとします。 すると確かに平均値は50kgとは違いますから、普通の人間なら対立仮説の方が正しいと結論するでしょう。 ところがアニはからんや弟バカリ、数学者は普通の人間ではないので、

「これはあくまでも標本集団の結果だから、これだけで即断を下すのは早すぎる。 もし間違ったことを言ったら、人から後指を指されて学者生命が危うくなるだろう。 ここはひとつ、よほど確実に結論できない限りは何も言わずに誤魔化しておこう」

と小心なところを暴露してひたすら保身に走り、対立仮説の正しい確率を求めて、それが非常に大きな値の時しか結論を言わないのです。

そこで対立仮説が正しい確率を求める方法を考えてみましょう。 第4節で説明したように、日本人の平均体重つまり母平均値の95%信頼区間を求めると次のようになります。

母平均値μの95%信頼区間:μ=60±1.984×SE=60±1.984≒58〜62
図1.5.1 信頼区間と有意性検定

この推定結果から「母平均値は95%の確率で58〜62kgの間にある」、つまり「母平均値は95%以上の確率で50kgではない」と言えます。 したがって対立仮説H1を採用して次のように結論します。

統計学的結論:日本人の平均体重は50kgではない → 問題の答えは×

この結論が正しい確率は95%以上であり、間違っている危険性は5%以下になります。 この状態のことを統計用語では次のように持って回った言葉で表現します。

有意水準5%で有意 または 危険率5%で有意 または 有意水準5%で帰無仮説を棄却(reject)する

有意水準(significance level)または危険率(critical rate)は、実験結果をそのまま素直に信頼して対立仮説を結論として採用した時に、その結論が間違っている確率——つまり危険性の確率——を表します。 そのためαエラーとか第1種のエラーなどとも呼ばれています。 これは「どれほど小さな確率でなら、間違ったことをいっても大目に見てもらえるのか」ということを表す一種の合格水準です。 そしてその具体的な値αは、実験を行う前に様々な事情を考慮して、例えばα=0.05というように決めておきます。

したがって有意とは「対立仮説が95%以上正しい」つまり、

実験結果をそのまま素直に信頼して結論しても大丈夫、その結論は95%以上信頼できる

という意味です。 体重測定の例でいえば、検定結果が有意になった時は「日本人の平均体重は50kgではない」という対立仮説を統計学的結論として採用し、この結論が95%以上信頼できることになります。

それとは反対に、例えば95%信頼区間が、

母平均値μの95%信頼区間:μ=60±11=49〜71

だったとすると、母平均値はひょっとすると50kgかもしれず、95%以上の確率で50kgではないと言い切れません。 したがって対立仮説H1を採用することはできず、次のように結論します。

統計学的結論:日本人の平均体重は50kgではないと断言できない → 問題の答えは保留

この状態のことを統計用語では次のように表現します。

有意水準5%で有意ではない または 危険率5%で有意ではない または 有意水準5%で帰無仮説を保留する

これは帰無仮説H0の採用つまり、

統計学的結論:日本人の平均体重は50kgである → 問題の答えは○

とは違うことに注意してください。 これは、

実験結果をそのまま素直に信頼して結論すると間違ってしまう危険性が大きいので、はっきりした結論は保留する

という意味の、まるで政治家の国会答弁そこのけの曖昧模糊とした表現なのです。

その曖昧さのせいで、「有意ではない」ということを「帰無仮説を採用する」と誤解してしまうことがよくあります。 つまり検定結果が有意にならなかった時は、ついつい「日本人の平均体重は50kgである」という帰無仮説を採用してしまうのです。 これは大きな間違いです。

例えば95%信頼区間が49〜51kgだとしたら、「母平均値は50kgだ」という帰無仮説を採用してもかまわないでしょう。 しかし上記のように95%信頼区間が49〜71kgだとすると、母平均値が50kgである確率は非常に小さくなります。 このような状態で帰無仮説を採用するのは、どう考えても無理があります。 そこで致し方なく結論を保留することになるわけです。

結論保留とは、何となくあやふやで非科学的な感じがするかもしれません。 しかし誤差の多い不確かなデータから得られた結果を解釈する時は、確定的なことを断言する方がかえって非科学的になります。 科学的とは得られたデータから結論を明確にすることではなく、得られたデータから結論できる限界を明確にすることなのです。

以上のように、問題に対する回答のうち対立仮説の正しい確率が非常に大きい時だけそれを統計学的結論として採用し、対立仮説の正しい確率が大きくない時は結論を保留する検定を有意性検定(test of significance)といいます。 (注1)

(2) 有意性検定の手順

有意性検定は、前述のように基準値と推定結果を比較することによって行うことができます。 推定は定量試験であり検定は定性試験ですから、これは当然のことです。 そして推定を利用した検定の原理は現場の研究者にとってわかりやすいと思います。 しかし何しろ数学者は普通の人間ではないので、この方法では満足できません。 と言うのも推定は標本集団のデータから母数を推測するため、標本集団のデータによって母数の値がコロコロと変わってしまうからです。

本来、母集団というものは確定した集団であり、母数は値が変動しない定数です。 そして母集団から無作為抽出される標本集団の方が不確定な集団であり、標本集団の要約値は値が確率的に変動します。 そこで数学者は確定した集団である母集団と、定数である母数を基準にして検定の原理を考えます。 そして次に説明するような手順で有意性検定を行います。

しかし現場の研究者にとっては標本集団のデータと標本集団の要約値こそが確定した現実的なデータであり、母集団とか母数といったものは内容がわからない謎の存在です。 そのためこの検定手順は数学的すぎてとっつきにくく、理解するのが難しいかもしれません。 しかし何事も慣れですから、少々我慢して内容を理解するよう努力してみてください。

1) 問題を設定する

まず最初に基準値と問題を設定します。 これは検定の基礎ですから数学的な手順でも変わりません。

問題:日本人の平均体重は50kgか?

2) 帰無仮説と対立仮説を設定する

これも検定の基礎ですから数学的な手順でも変わりません。

H0:日本人の平均体重は50kgである(μ=μ0 または δ=μ - μ0=0)
H1:日本人の平均体重は50kgではない(μ≠μ0 または δ=μ - μ0≠0)

3) 有意水準を決める

次に有意水準の値つまりαエラーの値を決めます。 通常、有意水準は5%にすることが多いのですが、後述するように本来は問題の内容に応じて臨機応変に変えるべきです。

有意水準を5%にする:α=0.05、信頼係数(1-α)=0.95

4) 母集団から標本集団を無作為抽出する

実際の研究現場では標本集団の方が先にあり、その背景因子から準母集団を想定するのが普通です。 しかし数学的手順では、標本集団はあくまでも母集団から無作為抽出した集団ということにします。

日本人全体から100名の人を無作為抽出して標本集団にする

5) 標本集団のデータを測定して要約値を求める

体重の例では次のようになりました。

例数:n=100  標本平均値:m=60  標準偏差:SD=10

6) 帰無仮説が正しいと仮定した時の標本平均値の分布を描く

帰無仮説が正しいと仮定した時の母集団を想定し、その母集団からn例の標本集団を無作為抽出して標本平均値を求め、それを無限回繰り返した時の標本平均値の分布を描きます。 これは第3節で標準誤差を求めた時の方法と同じです。

帰無仮説が正しいと仮定する理由は、対立仮説を正しいと仮定すると具体的な母集団を想定することができないからです。 帰無仮説は母平均値が基準値と等しいという仮説であるのに対して、対立仮説は母平均値が基準値と等しくないという仮説です。 この仮説は母平均値の具体的な値を設定しないため、具体的な母集団を想定することができないのです。

母平均値:μ=μ0=50  標準偏差:σ≒SD=10  標準誤差:SE=1 (図1.5.3参照)
図1.5.2 母集団の分布 → 図1.5.3 標本平均値の分布 → 図1.5.4 t分布

7) 標本平均値の分布における棄却域を求める

6番で求めた標本平均値の分布で、まず母平均値を中心にして標本平均値の(1-α)が含まれる範囲を求めます。 これは第4節で95%信頼区間を求めた時の方法と同じです。 つまり標本平均値の分布が漸近的に正規分布になり、厳密にはt分布になることを利用して、標本平均値の(1-α)が含まれる範囲を次のようにして求めることができます。

下限:mL0 - t(99,0.05)×SE=50 - 1.984×1=48.016   上限:mU0 + t(99,0.05)×SE=50 + 1.984×1=51.984
範囲の幅=1.984×2=3.968≒4

この範囲の幅は95%信頼区間の幅と同じになります。 これは推定の原理そのものだからです。

95%信頼区間:μL=60 - 1.984×1=58.016≒58   μU=60 + 1.984×1=61.984≒62
信頼区間の幅=1.984×2=3.968≒4

標本平均値の分布において、(1-α)が含まれる範囲から外れる左右の端の部分を棄却域(critical region)といい、左側を下側棄却域、右側を上側側棄却域といいます。 この部分を棄却域というのは、この部分に実際の標本平均値が入った時に帰無仮説を棄却するからです。

下側棄却域:48.016以下  上側棄却域:51.984以上 (図1.5.3の標本平均値の分布の左右の薄い灰色の部分)

8) 標本平均値が棄却域に入っているかどうかを調べる

実際の標本平均値が棄却域に入っているかどうかは、次のような方法で調べることができます。

○方法1:標本平均値と棄却域の上限または下限を比較する

最も直接的でわかりやすい方法です。 図1.5.3から、この方法は母平均値の信頼区間に基準値が入るかどうかを調べることと同じであることがわかると思います。

標本平均値=60は上側棄却域の下限=51.984よりも大きいから棄却域に入っている → 95%信頼区間58〜62の間に基準値μ0=50が含まれていない
○方法2:標本平均値と基準値の距離を標準誤差単位にした値が、基準値と棄却域上限または下限の距離を標準誤差単位にした値より大きいかどうか調べる

標本平均値と基準値の距離を標準誤差で割って標準誤差単位にした値のことをt値といいます。 図1.5.4でいえばt値は(m-μ0)をSEで割った値であり、これによって標本平均値の分布がt分布になります。 このt分布において実際の標本平均値mはtoになります。 そして下側棄却域の上限mLは(mL0)/SE=-t(n-1,α)になり、上側棄却域の下限mUは(mU0)/SE=t(n-1,α)になります。 このt(n-1,α)は信頼区間を求める時にSEに掛ける係数そのものです。

標本平均値をわざわざt値に変換する理由は、t値に変換することによってデータの単位や基準値とは無関係な無単位の値になり、普遍的になるからです。 つまりt(n-1,α)は自由度(n-1)とαエラーの値だけで決まる普遍的な値なので、どんなデータでも実際の標本平均値から求めたtoとこの値を比べるだけで、標本平均値が棄却域に入っているかどうか調べることができるのです。

to=(60 - 50)/1=10は (51.984 - 50)/1=1.984=t(99,0.05)よりも大きいから棄却域に入っている
○方法3:t分布において、実際の標本平均値から求めたt値から右側の部分の面積がα/2よりも小さいかどうか調べる

有意水準がαなのにα/2と比べるのはわかりにくく、誤解を招く恐れがあります。 そこで実際には図1.5.4のt分布においてtoから右側の面積つまり確率を計算し、それを2倍した値を有意確率(significance probability)またはp値といい、この値がαよりも小さいかどうかを調べます。 このようにt値からp値を求めることをt値のp値変換といい、t分布を積分して求めます。

to=10から右側の面積×2=∫10f(t)dt×2=p=10-16は0.05よりも小さいから棄却域に入っている

この場合、有意確率が非常に小さいので、例えぱ有意水準0.1%で有意などと表現することがよくあります。 しかし結果に合わせて有意水準を変えるのは、サッカーでボールの動きに合わせてゴールマウスの位置を動かすようなものであり、ナンセンスです。 有意水準0.1%に対応する信頼区間は99.9%信頼区間であり、かなり幅が広くなります。 すると母平均値を狭い区間に絞り込むことができなくなり、明確な科学的結論を下すことができなくなってしまいます。 したがって有意確率がいくら小さくても有意水準αで有意と表現し、区間推定は(1-α)信頼区間を用いるべきです。

方法2と方法3のように、t値とt分布を利用した検定をt検定(t test)といいます。 t分布を利用する検定には平均値以外の要約値に関する手法もあります。 そのため平均値に関する検定のことを正式には平均値の検定と呼びます。 しかし実際の研究現場では平均値の検定のことを慣習的にt検定と呼んでいるので、ここでは平均値の検定のことをt検定と呼ぶことにします。

ちなみにtoの添え字「o」は「observed」のことであり、観測値から計算されたt値を表します。

9) 標本平均値が棄却域に入っている時、対立仮説を統計学的結論として採用する

棄却域は帰無仮説が正しい時に標本平均値の100α%が含まれる領域です。 そのためここに実際の標本平均値が入った時、帰無仮説が正しい確率はα以下になり、対立仮説が正しい確率は(1-α)以上になります。 そこで有意水準αで有意とし、対立仮説を統計学的結論として採用します。

有意水準5%で有意 → 統計学的結論:日本人の平均体重は50kgではない

10) 標本平均値が棄却域に入っていない時、統計学的結論を保留する

棄却域に実際の標本平均値が入っていない時は帰無仮説が正しい確率はαよりも大きくなり、棄却することができません。 そこで有意水準αで有意ではないとし、統計学的結論を保留します。

有意水準5%で有意ではない → 統計学的結論:保留

11) 統計学的結論を科学的に評価して科学的結論を下す

○有意の時

母平均値の推測値60kgは基準値50kgに比べて10kg重いことになります。 この差が医学的に有意義な差なら次のような医学的結論を下します。

医学的結論:日本人の平均体重は50kgよりも重い
○有意ではない時

母平均値の推測値60kgは基準値50kgに比べて10kg重いことになります。 この差が医学的に有意義な差だとしても、推測値60kgの信頼性が低いため確実なことはいえません。 そこで次のように医学的結論を保留します。

医学的結論:日本人の平均体重は50kgよりも重い可能性があるが、データの信頼性が低いので結論を保留する

(3) 統計学的有意と実質科学的有意義

巷では「有意である」または「有意ではない」という表現よりも、「有意差あり」または「有意差なし」という表現の方がよく用いられていて、有意差という言葉がさも統計用語のような顔をしてのさばっています。 しかしこれはあまり適切な表現ではなく、本当は「差は有意である」または「差は有意ではない」という方が適切な表現です。

例えば体重測定の例では、検定結果が有意になったので対立仮説を採用しました。 これは対立仮説が95%以上の確率で正しい、つまり、

「基準値μ0と母平均値μの差δが0ではない」

という結論が95%以上信頼できるという意味になります。

有意である」ということは「数学的に意味が有る」ということであり、簡単にいえば「実験結果の数字が信頼できる」ということです。 そのためこの場合は、

「基準値50kgと標本平均値60kgの差10kgは信頼できるから、基準値と母平均値の差はほぼ確実に0kgではない」

ということになります。 これは「優位である」とか「優れている」などといっているわけではなく、ましてや「科学的(例えば医学的)に意味が有る」などと大それたことをいっているわけでは決して決してありません。 科学的には無意味な差でも、数学的に信頼できれば有意になります。

例えば体重測定の例で、図1.5.5のように標本平均値が50.01kgだったとします。 この場合、基準値と標本平均値の差はわずか0.01kgつまり10gですが、信頼区間が非常に狭くてこの数字の信頼性が95%以上あれば有意になります。 しかしたった10gの差は医学的には無意味でしょう。

図1.5.5 有意でも実質科学的には無意味な差 図1.5.6 実質科学的に意味があっても有意ではない差

一方、検定結果が有意にならない時は結論を保留します。 「有意ではない」ということは「数学的に意味がない」ということであり、簡単にいえば「実験結果の数字は信頼できない」ということです。 そのためこの場合は、

「基準値μ0と母平均値μの差δが0ではない」

ということが数学的に95%以上は信頼できない、つまり、

「基準値50kgと標本平均値60kgの差10kgは信頼できないから、基準値と母平均値の差はもしかしたら0kgかもしれない」

ということになります。

これは「同等である」とか「科学的に差はない」などと大それたことをいっているわけではなく、「実験結果の数学的な信頼性が低いから、はっきりとした結論は保留する」ということをいっているにすぎません。 科学的には十分意味がある差でも、数学的な信頼性が低ければ有意にはなりません。

例えば体重測定の例で、図1.5.6のように標本平均値が60kgだったとします。 この場合、基準値と標本平均値の差は10kgもありますが、信頼区間が広くてこの数字の信頼性が95%未満なら有意にはならず、結論を保留します。 しかし10kgという差は医学的には十分意味があるので、もしこの数字の信頼性が94%程度あったとしたら「医学的に差はない」と結論しない方が賢明でしょう。

これらのことから、「有意差あり」または「有意差なし」という表現よりも「差は有意である」または「差は有意ではない」という表現の方が適切であることがわかると思います。 「有意差あり」という表現では「科学的に意味の有る差がある」という意味に誤解してしまいかねませんし、「有意差なし」という表現では「科学的に意味の有る差がない」つまり「科学的に同等である」という意味に誤解してしまいかねません。

しかし「差は有意である」という表現なら「差は数学的に意味がある」つまり「差は数学的に信頼できる」という本来の意味に解釈しやすく、「差は有意ではない」という表現なら「差は数学的に意味がない」つまり「差は数学的に信頼できない」という本来の意味に解釈しやすいと思います。

(4) S/N比としてのt値

このような有意という言葉の本来の意味はt値の定義式に端的に表されています。 t値は標本平均値と基準値の差を標準誤差で割って、標本平均値と基準値の距離を標準誤差単位にした値です。 しかし別の見方をすると分子の標本平均値と基準値の差は意味のある値つまりシグナルであり、分母の標準誤差は意味のない値つまりノイズであると考えられます。 したがってt値を次のように解釈することもできます。

t= 意味のある値 意味のない値 = シグナル ノイズ = S/N比

この値は通信工学などで用いられるS/N比(信号対ノイズ比)に相当します。 つまりt値が大きいほど、標準誤差というノイズに邪魔されずに標本平均値と基準値の差というシグナルをはっきりと検出することができるというわけです。 そして有意水準5%の時のt(n-1,0.05)の値は約2ですから、シグナルがノイズの約2倍以上あれば95%以上の確率で検出できるということになります。

t値が大きくなればS/N比が向上して実験結果が有意になります。 そしてt値を大きくするには、分子のシグナルつまり標本平均値と基準値の差がいくら小さくても分母のノイズつまり標準誤差を小さくすれば良いのです。 標準誤差は標準偏差を例数の平方根で割った値ですから、標準偏差が大きくても例数を増やせばいくらでも小さくなります。 したがって例数さえ多くすればどんな実験結果でも有意になる、つまり数学的に信頼できるようになるのです。

しかし非常に残念なことに「統計学的有意=科学的有意義」であり、「統計学的に有意になれば科学的にも意味がある」と思い込んでいる研究者が沢山います。 そして統計学的に有意になっただけで科学的にはまるで無意味な実験結果が大手を振ってまかり通っていたり、統計学的に有意にならなかったために科学的には十分意味のある実験結果が日の目を見ずに埋もれてしまったりしています。

このように統計学的有意と科学的有意義を混同する本末転倒な現象はもう一種の病気でして、有意症(significantosis)あるいは有意症症候群(significant syndrome)とでも呼ぶべき疾患です。 これは一度罹患するとなかなか治らない大変難治性の疾患であり、官公庁や各種学界や薬業界を中心にして大流行しています。 そして不幸なことにこの疾患に特効薬はなく、患者自身が統計学の本質をじっくりと理解する以外に治療法はありません。

図1.5.7 統計学の守備範囲と実質科学の守備範囲

推定や検定は、

「データを要約し、その要約値が『数学的に意味があるかどうか』すなわち『信頼できるかどうか』を確率的に評価する」

ということを目的にした数学的な手法です。 そのため数学的に信頼性の高い要約値を研究者に提示することしかできず、科学的な意義まで評価することはできません。 しかし本当に重要なのは、

「求められた要約値が科学的に意味のあるものなのかどうかを評価する」

ことです。 これは実験を行った現場の科学者が科学理論や経験に基づいて行うべきことであり、数学者が統計学によってするべきことではなく、またできるはずもないことです。

統計学は実験を上手に行うための道具にすぎず、実験の目的ではありません。

(5) 有意水準の決め方

薬業界や各種学会には、有意水準は5%が正式であると頑なに信じ込み、1%なら「高度に有意」だといって鬼の首でも取ったように狂喜乱舞し、10%を「有意の傾向」があるなどと称して未練がましく横目で見ている人が沢山います。 しかし有意水準5%というのは数字のキリが良いから昔から用いられているにすぎず、本当はどんな値を用いても間違いではありません。 いや、むしろ5%にこだわらず状況に応じて適当に変更すべきものなのです。

こんなエピソードがあります(ただし真偽のほどは定かではありません)。

フィッシャーが推計学を開発した時、有意水準を決める段になってハタと考えた。 彼は当時30才だったが、50才までは現役で研究を続け、その後は釣りでもしながら悠々自適の余生を送ろうと常々考えていた。 そこで、

「農作物が相手だから、これから毎年1回ずつ実験をするとして20年間に20回できることになる。 まあ、一生に一度ぐらいは間違いを犯しても神様はお許し下さるだろう」

と考えて、20回に1回間違える確率として有意水準を5%にしたのである。

この話を人から聞いた当のフィッシャーいわく、

「なるほど、それはうまい話だ。 実は私も、なぜ5%をよく使うのか説明を求められて困っていたんだ。 これからはそう答えることにしよう!」

…とまあ、有意水準5%というのはこれくらいいい加減なものなのです。 有意水準は結論が間違っている確率ですから、本来はその結論が間違っていた時にどの程度の被害を被るのか、どれほど重要な実験なのかを十分に考慮して適切に決めるべきです。

「昔からの習慣だから…」

とか、

「エライ人がそうしているから…」

だとかいった宗教的理由で、御神託式に決めるべきものではありません。

例えば癌の薬の効果を検証する試験と風邪薬の効果を検証する試験では、本来は有意水準を適当に変えるべきでしょう。 また薬剤の有効性の検証試験と副作用の検証試験でも、やはり有意水準を適当に変えるべきでしょう。 しかし現在はどんな場合でも画一的に有意水準を5%にすることが多いようです。 これも有意症症候群の代表的な症状のひとつであり、科学的または倫理的に大いに問題があります。

(注1) 平均値の場合は95%信頼区間に基準値が含まれなければ、必ず有意水準5%で有意になります。 そのため推定結果と検定結果は矛盾しません。 ところが平均値以外の要約値――例えば出現率――では、推定結果と検定結果が一致するとは限りません。

出現率は理論的に二項分布し、この分布は理論出現率の値によって分散つまり分布の広がり具合が異なります。 そして推定では実際のデータから得られた出現率――例えば0.8(80%)の二項分布を利用するのに対して、検定では帰無仮説が正しい時の基準出現率――例えば0.5(50%)の二項分布を利用します。 この2種類の二項分布は分散が異なるため、推定で用いる二項分布で求めた信頼区間――(1-α)の標本出現率が含まれる区間――の幅と、検定で用いる棄却域ではない区間――(1-α)の標本出現率が含まれる区間――の幅が異なります。

その結果、推定では95%信頼区間に基準出現率が含まれるにもかかわらず、検定では有意水準5%で有意になる、つまり実際のデータから得られた出現率が棄却域に入るという矛盾した現象が起こり得ます。 このように、一般に検定結果と推定結果は一致するとは限りません

両者の結果が食い違った場合、どちらの結果を信用したら良いかといえば、当然、推定結果です。 検定は単に「母平均値が基準値とは異なる」という定性的な結論が得られるだけであり、しかも例数が増えれば必ず有意になります。 これでは母平均値に関する科学的な検討はできませんし、わざわざ検定を行う必要はありません。

それに対して推定は「母平均値が58〜62の間である」という定量的な結論が得られるので、母平均値に関する科学的な検討ができます。 これらのことから、統計学者の中には検定廃止論を主張する人がいます。 実は、私もその主張に賛成です。 (→3.2 1標本の計数値 (2)名義尺度 (注2)4.2 2標本の計数値 (2)名義尺度 (注3))