玄関雑学の部屋雑学コーナー統計学入門

2.6 尺度合わせと外れ値

(1) 尺度合わせ

臨床試験などで次のような表をよく見かけます。

表2.6.1 全般改善度
著明改善中等度改善軽度改善不変悪化改善率
クダラン投与群8124535010065.0
プラセボ投与群02525351510050.0

全体:Mann-WhitneyのU検定 zo = 2.052 * (p = 0.0402)
改善率(軽度改善以上を改善とした時):χ2検定(2x2) χo2 = 4.010 * (p = 0.0452)

この表を度数分布図にすると次のようになります。

図2.6.1 クダラン群の度数分布図
図2.6.2 プラセボ群の度数分布図

第1節で説明したように、レベルの高い尺度のデータをレベルの低い尺度のデータに変換することを尺度合わせといいます。 表2.6.1の改善率は順序分類尺度である改善度を改善と非改善に2分類して名義尺度に変換したもので、尺度合わせの典型的な例です。 軽度改善以上を改善にしたということは、著明改善も中等度改善も軽度改善も医学的な意義は全て同じで、ひっくるめて改善と考えられ、同様に不変も悪化も医学的な意義は全て同じで、ひっくるめて非改善と考えられるという判断をしたことに他なりません。 (→2.1 データの種類と統計手法)

確かにそのように考えた方が良い時もあるでしょう。 しかし、それならなぜ最初から「改善」と「非改善」の2段階で判定しなかったのでしょうか? 医学的に何らかの意味があると判断したからこそ、5段階で判定したのではないでしょうか?

この場合はやはり最初に決めた5段階評価の結果が重要であり、改善率は単なる目安にすぎないと考えるべきでしょう。 目安ですからあまり信頼できない証拠に、表2.6.1で中等度改善以上を改善とした時の改善率はクダラン群20%に対してプラセボ群25%になり、結果が逆転してしまいます。 これではどちらを信用して良いのか判断に迷うでしょう。 しかしこれは単なる目安にすぎないので、気にしないで5段階評価の結果だけを信用しましょう。 レベルの高い尺度のデータほど多くの情報を持っていて、その情報のある面だけを取り上げたのが尺度合わせですから、別々の方法で尺度を合わせれば別々の結果になって当然なわけです。

尺度合わせが科学的に意義を持つのは、試験途中で計画段階には予測していなかったような事態が発生し、どうしても評価基準を変えざるを得なくなった時だけです。 もしそのような事態になったら、今度は古い評価基準による結果が科学的な意義を持たなくなります。 そのため古い評価基準による結果は捨て去り、尺度合わせをした結果だけを信頼しなければなりません。 しかし厳密に言えば、こんな時は新しい評価基準でもう一度試験をやり直すのが賢明でしょう。 そして結論的なことを言えば、原則として尺度合わせはするべきではなく、元のデータが持っている情報を最大限有効に利用することが大切です。

また医学分野では計量尺度のデータを特定の境界値で2分して、「0:境界値未満 1:境界値以上」という名義尺度のデータに変換して解析することがよくあります。 これも尺度合わせの一種であり、上記の例と同じ問題があります。 このタイプの尺度合わせはロジスティック回帰分析(logistic regression analysis)でよく行われるので、詳しい説明は第10章をご覧ください。 (→10.1 ロジスティック回帰分析の原理)

ちなみに表2.6.1のようなデータを尺度合わせして改善率を求めるのは、改善度という順序分類尺度のデータにノンパラメトリック手法であるマン・ホイットニィ(Mann-Whitney)のU検定を適用した時、何を評価指標にして2群を比較しているのか研究者——または製薬企業の臨床試験担当者——がよく理解していないことが原因のひとつです。

U検定は2群のデータを総当りで比較し、大きい方を勝ちとした時の2群の勝率を比較する検定手法です。 この勝率は図2.6.1および図2.6.2の度数分布図の中心位置のズレ、つまり順位平均値のズレ具合と比例します。 もし2群の順位平均値がズレていなければ、2群の勝率はどちらも50%になります。 もしズレていれば、順位の大きい方にズレている群の勝率が50%よりも大きくなります。 そして2群の度数分布が完全に分離していれば、2群の勝率は100%と0%になります。 このようにU検定は要約値としてデータの勝率を用いる手法であり、それは要約値として度数分布の中心位置つまり順位平均値を用いることに相当します。

したがって表2.6.1のデータにU検定を適用したということは、改善度の評価指標として勝率または順位平均値を用いることに他なりません。 そのため改善率の代わりに勝率を表記すれば、尺度合わせをしなくても2群の度数分布の中心位置のズレの目安をつけることができます。 勝率は0〜100%の間を変動し、改善率と同じような感覚で解釈することができる上に、改善率と違って尺度合わせする必要がないので正確かつ合理的です。 (→3.4 2標本の計数値)

例えば表2.6.1のデータについて著明改善→悪化の順に順位を付け、改善よりも悪化の方がデータが大きいということにします。 するとクダラン群の勝率は42%、プラセボ群の勝率は58%で、プラセボ群の方が悪化側に8%(例数にすれば16例分)ずれています。 表2.6.1と図2.6.1および図2.6.2を見れば、この8%という勝率の差を感覚的に理解することができると思います。

(2) 外れ値

データの中に1つか2つだけ他のものと極端に値が異なっているものがあって、

「こいつさえなければ、もっときれいな結果になるのに……!」

と、悔しい思いをされた方も多いと思います。 そこでそのにっくき外れ値(outlier)または異常値を抹殺せんものと棄却検定(rejection test)なるものを持ち出してきて、次のように居直っている論文をたまに見かけます。

「棄却検定によって科学的に棄却したんだ、何か文句あっか!?」

読む方は難しげな検定の名前を見ただけで畏れ入ってしまい、わけもわからずに納得してしまいがちですが、これが大いなる間違いなのです。 棄却検定とは、本当はデータを捨て去るためのものではなく外れ値かどうかチェックするためのもので、チェック検定とでも名付けるべき手法です。 この手法の原理は第1章で説明した検定と同様で、標本平均によって推定した母平均を基準値にし、目的のデータがこの基準値と異なっているかどうかを検定します。 (→1.5 有意性検定の考え方)

実際の計算式は外れ値まで含めた全例の例数をn、標本平均をm、標準偏差をSD、目的のデータをxとすると次のようになります。

> t(n-1,α)の時有意水準αで有意

式中で分母の標準誤差が第1章の式と多少違っているのは、基準値の代りに標本平均を、標本平均の代りにデータを用いたためです。 この手法は増山の棄却検定と呼ばれています。 これ以外にもトンプソン(Thompson)の棄却検定スミルノフ(Smirnov)の棄却検定などがあり、原理は全て同じです。 (注1)

本来、棄却検定は外れ値の許容範囲——この範囲より外側にあるデータは科学的に外れ値と考えられるという範囲——を決め、統計的仮説検定を行う必要があります。 有意性検定の場合は、例数が大くなれば外れ値のない分布でも両端のデータが必ず有意になってしまうからです。 そして棄却検定で有意になり、許容範囲から外れているデータは他のデータとは違った情報を含んでいる可能性が高く、データを変動させている原因をもう一度調べ直す必要があります。

そしてその原因が例えば試験の手違いとか、単なるデータの記入ミスとかいった試験の目的とは無関係な要因であった時に、初めて外れ値を棄却することになります。 原因が試験の目的と関係があったら、当然、そのデータは重要な結果になるので棄却するなどというのはとんでもないことです。

例えば薬の副作用は本質的に外れ値であり、これを棄却してしまったら副作用のある薬など無くなってしまい、製薬企業は大喜びするでしょう。 副作用と思われる外れ値がある時は、外れ値が発生した被験者と発生しない被験者を別々に解析し、どのような時にどれくらいの確率で副作用が発生し、どの程度の値になるか、そして副作用が発生しない被験者についてはどの程度の値になるか……といったことを詳細に検討するべきです。

またそれとは反対に試験ミスによって得られたデータは、たとえ棄却検定で有意にならず、許容範囲内に入っていたとしても、棄却しなければならないことは言うまでもありません。

原因不明の外れ値については次のような対処方法があります。

  1. 外れ値を除外して解析した結果と、外れ値を含めて解析した結果を比較検討する。 → 感度分析(sensitivity analysis)
  2. 外れ値を含めて解析する。
  3. データに順位を付け、順位を用いて解析する。 → ウィルコクソンが順位和検定を開発したのは外れ値の処理に困ったため
図2.6.3 外れ値の例

3番目の順位を利用する方法は尺度合わせに相当するためお勧めできません。 ウィルコクソンが順位和検定を開発したのは、実は外れ値の処理に困ったからです。 図2.6.3を見ればわかるように、データに順位を付けると外れ値が外れ値ではなくなります。 そのため順位和検定を適用すれば、たとえ外れ値があっても外れ値がない時と同じように検定することができます。 ところが外れ値が薬剤の副作用による異常値だとしたら、それを外れ値ではなくして解析するのは非合理です。 そんなことをすれば副作用が大幅に減って、やはり製薬企業は大喜びするでしょう。

また外れ値がある時は図2.6.3のようにデータの分布が歪むため、正規分布からずれることになります。 そこで「データが正規分布していない時はノンパラメトリック手法を用いよ!」という数学者の主張を盲信すると、このデータに順位和検定を適用して副作用を見逃してしまうことになります。 図2.6.3と第3節の図2.3.1を見れば、この主張が要約値に関する科学的な意義を無視した乱暴な主張であり、これを盲信することの危険性をよく理解できると思います。 (→2.3 パラメトリック手法とノンパラメトリック手法)

2番目の外れ値を含めて解析する方法は、結果だけ見ていたら外れ値が存在したことがわからないので、やはりあまりお勧めできません。

したがって1番目の感度分析を行う方法がお勧めです。 外れ値を除外して解析した結果は、外れ値は別の要因――例えば薬剤の副作用――で変動したと考えられるので別々に解析することにした時の、別の要因がない集団の結果をシミュレートしたものになります。 そして今後の研究によって同じような外れ値が多く観測されれば、外れ値だけで解析して、外れ値の正体とその発生要因――例えば副作用が発生しやすい要因――を突き止めることができるかもしれません。

外れ値を含めて解析した結果は、外れ値も他のデータと同じ要因で変動しているものの、たまたま外れ値の周辺のデータが観測されなかったと考えられる時の結果をシミュレートしたものになります。 そして現在のデータではどちらの解釈が正しいのか明確には判断できないので、正直に両方の結果を提示して、どちらの結果がより合理的と考えられるか考察しておきます。 つまり外れ値が存在したことを明記し、現在のデータから導き出される複数の結果とその解釈を列挙して、今後の検討の余地を残しておくわけです。

外れ値は要約された平均値だけを眺めていたら、ともすると見逃してしまいがちなものです。 しかしそれはひょっとすると何か新しい現象なのかもしれませんし、そこから新しい発見があるかもしれません。 事実、過去の偉大な発見の多くは、こうした外れ値について1つ1つ真剣に検討したからこその結果です。 レントゲンによるX線の発見しかり、フレミングによるペニシリンの発見しかり、パスツールによるワクチンの発見しかり、例をあげたら枚挙にいとまがありません。

「観察の分野では、幸運は備えのある人だけにもたらされる」

というパスツールの言葉は研究者にとって深く味わうべき言葉であると同時に、統計学の限界を暗示する言葉でもあります。

しょせん統計学はデータを要約するための手段にすぎず、データの科学的な意義を決定するためのものではありません。 いたずらに数字に振り回されて、科学の本質を見失ってしまうのは愚の骨頂です。


(注1) 母分散をσ2とすると、分子(x-m)の分散は次のようになります。

そして分子(x-m)の標準偏差すなわち標準誤差は次のようになります。

実際の計算ではσ2を不偏分散Vで推定して次のように計算します。