| 前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 | 第11章 | 第12章 | 第13章 | 第14章 | 付録 |
| 1 | 2 | 3 | 4 | 5 |
シグモイド曲線にはロジスティック曲線以外にも様々なものがあり、曲線に応じた変換法によって直線に変換することができます。 ロジスティック回帰分析と直接関係はありませんが、その中の代表的なものについて説明しておきましょう。
まず最初は、説明変数xと出現率pの関係が正規分布を積分した曲線、つまり累積正規分布曲線で表されるものです。 この場合は、説明変数と出現率の関係を直線にするために、累積正規分布の逆関数を利用したリンク関数で出現率を変換します。

yを「pのプロビット(probability unit)」といい、この変換をプロビット変換といいます。 ロジットと同じように、説明変数xとプロビットyの関係は直線になります。 プロビット変換で正規偏位zに5を足すのは、出現率が50%の時のプロビットの値を5にし、ちょうど真ん中というイメージにしたいからです。 しかし場合によっては5を足さず、出現率50%の時のプロビットの値を0にすることもあります。
第1節の表5.11の例で、尾長がちょうど8cmになる時の生後日数は、おそらくマウスによって異なるでしょう。 しかし一度8cm以上になれば、尻尾をちょん切らない限り、その後は8cm以上のままであり続けるでしょう。 つまり尾長が8cm以上になるという現象は、非可逆的な現象のはずです。
今、生後日数が10日のマウスを何匹か集めて尾長を測定したところ、40%のマウスの尾長が8cm以上だったとします。 この場合、その40%のマウスの尾長がちょうど8cmになった時の生後日数は0日から10日までのどれかであり、全個体がちょうど10日目に8cmになったのではないでしょう。 つまり、この場合の「尾長8cm以上の出現率が40%」というのは、生後日数0日から10日の間に尾長が8cm以上になったマウスを累積した値と考えられます。
次に、生後日数が15日のマウスを何匹か集めて尾長を測定すれば、その時の尾長8cm以上の出現率は、理論的には0日から10日までの出現率40%に、11日から15日までに尾長が8cm以上になったマウスの出現率を累積した値になるはずです。 その結果、生後日数と尾長8cm以上の出現率の関係は、必ず単調増加関係になります。
そして、尾長がちょうど8cmになる時の生後日数が正規分布すると仮定すると、生後日数と尾長8cm以上の出現率の関係は、必然的に正規分布を累積した曲線になります。 これが、プロビット変換におけるシグモイド曲線つまり累積正規分布曲線です。
このように、ある変数が増加するにしたがって非可逆的な反応が起き、その反応が起こる時の閾値が近似的に正規分布する時、ある変数とその反応の出現率は、近似的に累積正規分布曲線になります。 例えば薬剤の用量−反応曲線はその代表例であり、薬剤の用量と効果の関係を解析する時は累積正規分布曲線とプロビット変換を利用するのが一般的です。 (→13.4 プロビット分析)
累積正規分布曲線は、正規分布を積分した確率分布曲線に相当します。 そして確率分布曲線を微分した曲線、つまり確率密度分布は元の正規分布になり、これが閾値の分布になります。 この閾値分布の平均値はプロビット単位で5、標準偏差は1になります。 累積正規分布曲線と閾値分布をグラフ化すると、図10.3と図10.4の赤い曲線のようになります。

第1節で説明したように、説明変数xと出現率pの関係がロジスティック曲線で表されるものです。 この場合は、説明変数と出現率の関係を直線にするために、出現率をロジット変換します。
ロジスティック曲線は、人口予測のための関数として、1883年にピエール・フランソア・ベルハルスト(Pierre Francois Verhulst)によって提唱されたものです。 この曲線は、生物が生長する様子を表す成長曲線として、生物学分野では昔から利用されています。
医学・薬学分野では、この曲線は判別分析とロジスティック回帰分析で利用されています。 これは、第9章で説明したように、判別スコアから群1に属す確率pを求める計算式が、理論的にロジスティック曲線の式になるからです。 またロジスティック曲線は計算が比較的簡単なため、累積正規分布曲線の近似曲線として利用されることもあります。 (→9.6 ロジスティック曲線 (注1))
累積正規分布曲線とロジスティック曲線の違いは、ある反応に関する説明変数の閾値が正規分布する時に、説明変数と反応確率の関係が累積正規分布曲線になるのに対して、質的に異なる2つの群があり、それぞれの群の説明変数が正規分布する時に、説明変数と一方の群に属す確率の関係がロジスティック曲線になる点です。 この2つの概念は、よく似ていながら微妙に異なるため、累積正規分布曲線とロジスティック曲線も、よく似ていながら微妙に異なる曲線になります。
累積正規分布曲線と同様に、ロジスティック曲線を微分すると閾値の分布になり、閾値の平均値と標準偏差を求めることができます。 ただしロジスティック曲線から求めた閾値分布は、累積正規分布曲線から求めた閾値分布、つまり正規分布の近似分布であり、閾値が理論的にこのような分布をすることはあまり考えられません。 このため閾値を解析する時は、累積正規分布曲線とプロビット変換を利用した方が正確です。 ロジスティック曲線と閾値分布をグラフ化すると、図10.3と図10.4の青い曲線のようになります。 (注1)
説明変数xと出現率pの関係が、次のような正弦曲線で表されるものです。 この場合は、説明変数と出現率の関係を直線にするために、出現率を逆正弦変換します。
正弦曲線は累積正規分布曲線と形が似ていて、しかも計算が簡単なため、統計学分野で昔から利用されていました。 しかし累積正規分布曲線やロジスティック曲線のような具体的な意味がないため、現在はほとんど利用されなくなりました。
累積正規分布曲線と同様に、正弦曲線を微分すると閾値の分布になり、閾値の平均値と標準偏差を求めることができます。 ただし正弦曲線から求めた閾値分布は、累積正規分布曲線から求めた閾値分布つまり正規分布の近似分布であり、閾値が理論的にこのような分布をすることは考えられません。 このため閾値を解析する時は、累積正規分布曲線とプロビット変換を利用した方が正確です。 正弦曲線と閾値分布をグラフ化すると、図10.3と図10.4の緑の曲線のようになります。 (注2)
図10.3から、3つの曲線は出現率が0.5の時は一致し、出現率が0.05と0.95付近ではほぼ一致することがわかります。 このため、フィッシャーが有意水準の値として0.05を用いたのは、このことが理由であるという説があります。 フィッシャーは片側検定をベースにして検定理論を構築したため、片側検定の有意水準が0.05になる点は、そのまま累積正規分布曲線が0.05になる点ですから、これは大いに考えられることです。 (注3)
また3つのシグモイド曲線は、出現率が0.2から0.8あたりは直線で近似しても、それほど誤差はありません。 この性質を利用した手法が、出現率をそのまま用いた回帰分析と、それを利用したコクラン・アーミテージの傾向検定です。 薬剤の用量−反応解析でも、反応が計量値の時はたいてい直線で近似します。
さらに図10.4の閾値分布を見ると、ロジスティック曲線から求めた閾値分布は正規分布によく似ていますが、正弦曲線から求めた閾値分布は、ロジスティック曲線ほどは似ていないことがわかります。 正弦曲線と逆正弦変換があまり用いられなくなったのは、具体的な意味がないことと、この近似の悪さが原因です。


だからというわけではありませんが、検定は片側検定が本来であり、両側検定になると何かと誤解が生じやすくなります。 例えば、二項分布や超幾何分布のような非対称離散分布を利用して有意確率を求める場合、分布の片側確率を機械的に2倍すると1を超えてしまうことがあります。 両側検定は、有意水準α/2の片側検定を分布の左右で1回ずつ行う検定ですから、このような場合は有意確率を1にしてしまってかまいません。
しかし検定の原理を十分理解していないと、このような機械的な計算の意味を正しく解釈することは難しいと思います。 こういったことが、ただでさえ理解しにくい検定というものを、ますます複雑怪奇で理解しがたいものにしているような気がします。 したがって仮説を合理的に設定できるようならば、できれば単純明快な片側検定を適用した方が良いと思います。 実際、全ての検定手法は、それに最も相応しい仮説を検定する時は片側検定になります。 (→1.6 統計的仮説検定の考え方)