玄関雑学の部屋雑学コーナー統計学入門

10.2 各種のシグモイド曲線

(1) プロビット曲線とプロビット変換

シグモイド曲線(S字状曲線)にはロジスティック曲線以外にも様々なものがあり、曲線に応じた変換法によって直線に変換することができます。 ロジスティック回帰分析と関係が深いので、その中の代表的なものについて説明しておきましょう。

最初は説明変数xと出現率pの関係が累積正規分布曲線つまり正規分布を積分した曲線で表されるものです。 この場合は説明変数と出現率の関係を直線にするために、累積正規分布の逆関数を利用したリンク関数で出現率を変換します。

  :標準正規分布
z=Φ-1(p):Φ(z)の逆関数で、Φ(z)の関数値がpになる時の正規偏位z   y=z + 5:pのプロビット
y=a + bx

yをpのプロビット(probability unit)といい、pをyに変換することをプロビット変換、累積正規分布曲線のことをプロビット曲線といいます。 ロジットと同じように、説明変数xとプロビットyの関係は直線になります。 プロビット変換で正規偏位zに5を足すのは、出現率が50%の時のプロビットの値を5にして「ちょうど真ん中」というイメージにしたいからです。 しかし場合によっては5を足さず、出現率50%の時のプロビットの値を0にすることもあります。

第1節の表5.3.5の例で、尾長がちょうど8cmになる時の生後日数は、おそらくマウスによって異なるでしょう。 しかし一度8cm以上になれば、尻尾をちょん切らない限り、その後は8cm以上のままであり続けるでしょう。 つまり尾長が8cm以上になるという現象は非可逆的な現象のはずです。

今、生後日数が10日のマウスを何匹か集めて尾長を測定したところ、40%のマウスの尾長が8cm以上だったとします。 この場合、その40%のマウスの尾長がちょうど8cmになった時の生後日数は0日から10日までのどれかであり、全個体がちょうど10日目に8cmになったのではないでしょう。 つまりこの場合の「尾長8cm以上の出現率が40%」というのは、生後日数0日から10日の間に尾長が8cm以上になったマウスを累積した値と考えられます。

次に生後日数が15日のマウスを何匹か集めて尾長を測定すれば、その時の尾長8cm以上の出現率は、0日から10日までの出現率40%に11日から15日までに尾長が8cm以上になったマウスの出現率を累積した値になるはずです。 その結果、生後日数と尾長8cm以上の出現率の関係は必ず単調増加関係になります。 そして尾長がちょうど8cmになる時の生後日数が正規分布すると仮定すると、生後日数と尾長8cm以上の出現率の関係は必然的に正規分布を累積した曲線になります。 これがプロビット変換における累積正規分布曲線つまりプロビット曲線です。

このように、ある変数が増加するにしたがって非可逆的な反応が起き、その反応が起こる時の閾値が近似的に正規分布する時、ある変数とその反応の出現率は近似的にプロビット曲線になります。 例えば薬剤の用量−反応曲線はその代表例であり、薬剤の用量と効果の関係を解析する時はプロビット曲線を利用した回帰分析であるプロビット分析を利用するのが普通です。 (→13.4 プロビット分析)

プロビット曲線は正規分布を積分した確率分布曲線に相当します。 そして確率分布曲線を微分した曲線つまり確率密度分布は元の正規分布になり、これが閾値の分布になります。 この閾値分布の平均値はプロビット単位で5、標準偏差は1になります。 プロビット曲線と閾値分布をグラフ化すると、図10.2.1と図10.2.2の赤色の曲線になります。


y=z + 5 の平均値=5  標準偏差=1
図10.2.1 各種のシグモイド曲線 図10.2.2 シグモイド曲線の閾値分布
※横軸の単位をプロビット単位に標準化したもの

(2) ロジスティック曲線とロジット変換

第1節で説明したように、説明変数xと出現率pの関係がロジスティック曲線で表されるものです。 この場合は説明変数と出現率の関係を直線にするために出現率をロジット変換します。

  :pのロジット(対数オッズ)
y=a + bx

ロジスティック曲線は人口予測のための関数として、1883年にピエール=フランソア・フェルフルスト(Pierre-François Verhulst)によって提唱されたものです。 この曲線は生物が生長する様子を表す成長曲線として、生物学分野では昔から利用されています。

医学・薬学分野では、この曲線は判別分析とロジスティック回帰分析で利用されています。 その理由は、第9章で説明したように判別スコアから群1に属す確率pを求める計算式が理論的にロジスティック曲線の式になるからです。 またロジスティック曲線は計算が比較的簡単なため、プロビット曲線の近似曲線として利用されることもあります。 (→9.6 ロジスティック曲線 (注1))

プロビット曲線とロジスティック曲線の違いは、ある反応に関する説明変数の閾値が正規分布する時、説明変数と反応確率の関係がプロビット曲線になるのに対して、質的に異なる2つの群があり、それぞれの群の説明変数が正規分布する時、説明変数と一方の群に属す確率の関係がロジスティック曲線になる点です。 この2つの概念はよく似ていながら微妙に異なるため、プロビット曲線とロジスティック曲線もよく似ていながら微妙に異なる曲線になります。

この原理からすれば、リスクファクターと疾患の発症率の関係を分析するにはロジスティック曲線ではなくプロビット曲線を用いる方が合理的です。 しかしプロビット分析は計算が非常に面倒なので、現在はロジスティック回帰分析が多用されています。 そのためリスクファクターと疾患の発症率の関係を分析する目的でロジスティック回帰分析を利用する時は、あくまでもプロビット分析の近似法として利用していることをしっかりと認識しておく必要があります。

プロビット曲線と同様にロジスティック曲線を微分すると閾値の分布になり、閾値の平均値と標準偏差を求めることができます。 ただしロジスティック曲線から求めた閾値分布はプロビット曲線から求めた閾値分布つまり正規分布の近似分布であり、閾値が理論的にこのような分布をするとは考えられません。 そのため閾値を解析する時はプロビット曲線を利用した方が正確です。 ロジスティック曲線と閾値分布をグラフ化すると、図10.2.1と図10.2.2の青色の曲線になります。 (注1)


yの平均値=0  標準偏差=

(3) 正弦曲線と逆正弦変換

説明変数xと出現率pの関係が次のような正弦曲線で表されるものです。 この場合は説明変数と出現率の関係を直線にするために出現率を逆正弦変換します。 (→2.2 データの分布と統計手法 (注6))

p=sin2(y)   :pの逆正弦変換
y=a + bx

正弦曲線はプロビット曲線と形が似ていて、しかも計算が簡単なため統計学分野で昔から利用されていました。 しかしプロビット曲線やロジスティック曲線と違って具体的な意味がないため、現在はほとんど利用されなくなりました。

プロビット曲線と同様に正弦曲線を微分すると閾値の分布になり、閾値の平均値と標準偏差を求めることができます。 ただし正弦曲線から求めた閾値分布はプロビット曲線から求めた閾値分布つまり正規分布の近似分布であり、閾値が理論的にこのような分布をするとは考えられません。 そのため閾値を解析する時はプロビット曲線を利用した方が正確です。 正弦曲線と閾値分布をグラフ化すると図10.2.1と図10.2.2の緑色の曲線になります。 (注2)


yの平均値=0  標準偏差= (ラジアン)

図10.2.1から、3つの曲線は出現率が0.5の時は一致し、出現率が0.05と0.95付近ではほぼ一致することがわかります。 そのためフィッシャーが有意水準の値として0.05を用いたのは、このことが理由であるという説があります。 フィッシャーは片側検定をベースにして検定理論を構築しました。 そして片側検定の有意水準が0.05になる点はプロビット曲線が0.05になる点なので、これは大いに考えられることです。 (注3)

また3つのシグモイド曲線は、出現率が0.2から0.8あたりは直線で近似してもそれほど誤差はありません。 この性質を利用した手法が出現率をそのまま用いた回帰分析と、それを利用したコクラン・アーミテージの傾向検定です。 薬剤の用量−反応解析でも反応が計量値の時はたいてい直線で近似します。

さらに図10.2.2の閾値分布を見ると、ロジスティック曲線から求めた閾値分布は正規分布によく似ていますが、正弦曲線から求めた閾値分布はロジスティック曲線ほどは似ていないことがわかります。 正弦曲線と逆正弦変換があまり用いられなくなったのは具体的な意味がないことと、この近似の悪さが原因です。


(注1) ロジスティック曲線を微分すると次のようになります。

  ln(p)=-ln(1 + e-y)
     
  

(注2) 正弦曲線を微分すると次のようになります。

p=sin2(y)  
  

(注3) 現在は片側検定ではなく両側検定が用いられるのが普通です。 両側検定で有意水準が0.05になるのはプロビット曲線が0.025になる点であり、3つのシグモイド曲線は少しずれています。

だからというわけではありませんが、検定は片側検定が本来であり、両側検定になると何かと誤解が生じやすくなります。 例えば二項分布や超幾何分布のような非対称離散分布を利用して有意確率を求める時、分布の片側確率を機械的に2倍すると1を超えてしまうことがあります。 両側検定は有意水準α/2の片側検定を分布の左右で1回ずつ行う検定ですから、そのような時は有意確率を1にしてしまってかまいません。 しかし検定の原理を十分に理解していないと、このような機械的な計算の意味を正しく解釈することは難しいと思います。

こういったことが、ただでさえ理解しにくい検定というものをますます複雑怪奇で理解しがたいものにしているような気がします。 したがって仮説を合理的に設定できるようなら、できれば単純明快な片側検定を適用した方が良いと思います。 実際、全ての検定手法はそれに最も相応しい仮説を検定する時は片側検定になります。 (→1.6 統計的仮説検定の考え方)