この章ではロジスティック回帰分析の原理と結果の解釈、そして他の手法との関係について解説します。
ロジスティック回帰分析(logistic regression analysis)は、疾患のリスクファクターを分析するためによく用いられる多変量解析手法です。 この手法は、1948年にアメリカのフラミンガムで開始された、フラミンガム研究(Framingham study)のために開発されました。 フラミンガム研究は冠状動脈性疾患に関する大規模なコホート研究であり、複数のリスクファクターつまり「多重リスクファクター(multiple risk factor)」が疾患に及ぼす影響を分析することを目的のひとつにしています。 そしてそのために開発されたのがこのロジスティック回帰分析であり、現在も主として医学分野で用いられています。
この手法は、数学的には説明変数が計量尺度のデータで、目的変数が名義尺度を計量尺度化したデータである重回帰分析に相当します。 第5章で説明したように、説明変数が計量尺度で目的変数が名義尺度の場合、普通は目的変数を0/1のダミー変数で表し、さらにそれを1の出現率に計量尺度化して回帰直線を求め、その回帰係数の検定としてコックラン・アーミテージの傾向検定を行います。 (→5.3 計数値の相関と回帰)
しかし第5章 図5.14を見てわかるように、この場合の回帰直線は、原理的には有り得ない出現率0以下の領域と出現率1以上の領域まで入りこんでしまいます。 そこで説明変数と出現率の関係を直線で回帰せず、出現率0から1の間で変化する第9章 図9.16のようなシグモイド曲線で回帰する方が好ましいと考えられます。 例えば第5章 表5.11のデータについて、生後日数分類と尾長8cm以上の出現率を直線で回帰した場合と、シグモイド曲線で回帰した場合を比べると次のようなります。
| 生後日数分類 | 尾長8cm未満 | 尾長8cm以上 | 計 | 8cm以上の出現率 |
|---|---|---|---|---|
| 4-5(4.5) | 2 | 0 | 2 | 0 |
| 6-10(8) | 3 | 2 | 5 | 0.4 |
| 11-14(12.5) | 1 | 3 | 4 | 0.75 |
| 全体 | 6 | 5 | 11 | 0.455 |
| p= | 1 ―――――――――― 1+exp(4.258-0.445x) |
この場合のシグモイド曲線は、第9章で紹介したロジスティック曲線を利用しています。 シグモイド曲線には色々なものがありますが、ここでロジスティック曲線を利用したのは、この曲線を利用すると判別分析との整合性を取りやすいからです。 上記のシグモイド曲線において、出現率を対数オッズつまりロジットに変換すると次のようになります。
| ロジット:l=ln( | p ―― 1-p |
)=-4.258+0.445x |
これは生後日数分類を説明変数にし、ロジットを目的変数にした直線回帰式に相当します。 そこでこの式を一般化し、さらに説明変数を複数にすると、次のような重回帰型のモデルになります。 これを「線形ロジスティックモデル(linear logistic model)」といい、このモデルに基づいた回帰分析のことを、ロジスティック回帰分析またはロジット回帰分析(logit regression analysis)といいます。
| η=ln( | π ――― 1-π |
)=β0+β1x1+…+βjxj+…+βpxp+ε (j=1,…,p) |
このモデルは重回帰型ですから、偏回帰係数βjは、他の説明変数が一定で説明変数xjだけが「1」増加した時に、ロジットがいくつ変化するかを表す値になります。 そしてロジットは対数オッズですから、ロジットの変化量は対数オッズの変化量になります。 さらに対数オッズを指数変換して元のオッズに戻すと、対数オッズの変化量はオッズが何倍になるかを表す値、つまりオッズ比になります。 このため偏回帰係数βjを指数変換すると、他の説明変数が一定で説明変数xjだけが「1」増加した時のオッズ比になります。 このオッズ比は、他の説明変数の影響を取り除いたオッズ比になるため、「調整オッズ比(adjusted odds ratio)」と呼ばれることがあります。
| exp(η0)= | π0 ――― 1-π0 |
| exp(η1)= | π1 ――― 1-π1 |
| exp(βj)=exp(η1-η0)= | exp(η1) ――――― exp(η0) |
= | π1/(1-π1) ―――――― π0/(1-π1) |
=ORj (調整オッズ比) |
例えば、表5.11のロジスティック回帰分析の結果から生後日数分類のオッズ比を求めると次のようになります。
しかしこの値は生後日数が1日増加した時のオッズ比であり、生後日数分類が1つ上になった時のオッズ比ではありません。 例えば2番目の生後日数分類の値は8であり、3番目の生後日数分類の値は12.5です。 このため、2番目の生後日数分類と3番目の生後日数分類のオッズ比は、生後日数が4.5増加した時のオッズ比として計算する必要があります。 その場合のオッズ比は、次のように偏回帰係数を4.5倍してから指数変換して計算します。
表5.11のデータから、2番目の生後日数分類と3番目の生後日数分類の実際のオッズ比を計算すると次のようになります。
| 2番目の生後日数分類のオッズ= | 2 ― 3 |
≒0.667 |
| 3番目の生後日数分類のオッズ= | 3 ― 1 |
=3 |
| 実際のOR= | 3/1 ―― 2/3 |
= | 9 ― 2 |
=4.5 |
出現率が非常に低い時、オッズと出現率が近似するため、オッズ比と出現率比も近似します。 表5.11では「尾長8cm以上」というのが「反応有」に相当しますが、反応有が疾患の発症の場合、出現率比は相対危険度(相対リスク)になります。 このためオッズ比のことを、近似的に相対危険度と解釈することがよくあります。 しかしオッズ比のことを相対危険度と解釈できるのは、出現率がだいたい10%以下の時です。 しかも出現率が低い時は相対危険度の値の信頼性が低くなり、相対的な危険性という意味が怪しくなります。
このため出現率が低い時は、オッズ比が相対危険度に近似すると解釈するよりも、むしろ相対危険度がオッズ比に近似し、どちらも単なる関連性の指標にすぎなくなると解釈した方が妥当です。 したがってオッズ比のことを近似的に相対危険度と解釈するのは、本当は好ましくありません。 (→1.7 科学的研究の種類とデザイン)
例えば2番目の生後日数分類と3番目の生後日数分類の相対危険度を計算すると、次のようになります。
| 2番目の生後日数分類の出現率= | 2 ― 5 |
=0.4 |
| 3番目の生後日数分類の出現率= | 3 ― 4 |
=0.75 |
| 相対危険度= | 3/4 ―― 2/5 |
= | 15 ― 8 |
=1.875 |
線形ロジスティックモデルと第9章のロジスティック曲線を比べると、定数が異なるだけで、同じ形式の式であることがわかります。 試しに、表5.11のデータで尾長8cm以上を群1に、8cm未満を群2にして判別分析を適用し、群1に属す確率をロジスティック曲線で表すと次のようになります。 (→9.6 ロジスティック曲線)
| ロジスティック曲線:p= | 1 ――――――――――――――――― 1+{(1-π1)/π1}・exp(3.770-0.412x) |
| ロジット変換:l=ln( | p ―― 1-p |
)=ln( | π1 ――― 1-π1 |
)-3.770+0.412x |
| l=ln( | 5/11 ――― 6/11 |
)-3.770+0.412x=-0.182-3.770+0.412x=-3.952+0.412x |
このように、判別分析の結果をロジスティック曲線で表し、群1の事前確率として実際の群1の出現率を代入したものは、ロジスティック回帰分析の結果とよく似たものになります。 これがシグモイド曲線としてロジスティック曲線を利用する理由であり、これによってロジスティック回帰分析は判別分析の親類筋に当たる手法になります。
ただしロジスティック回帰分析は、疾患の発症に影響するリスクファクターを分析し、疾患が発症する前に、ある被験者が疾患を発症するかどうかを予測するための手法です。 そのためこの手法は、原則として前向き研究で得られたデータに適用し、説明変数としてはリスクファクターだけを用います。 そして上式からわかるように、ロジスティック回帰式の定数項には事前確率の情報は含まれておらず、実際のデータの出現率つまり発症率が定数項に反映されます。
それに対して判別分析は診断率の分析を多変量に拡張したものに相当し、疾患の診断に有用な診断指標を分析し、疾患が発症した後で、ある被験者が疾患であるかどうかを診断するための手法です。 そのためこの手法は、原則として後ろ向き研究で得られたデータに適用し、説明変数としては診断指標が本来ですが、リスクファクターを混合してもかまいません。 そして、判別分析におけるロジスティック曲線の定数項には事前確率の情報が含まれていて、それがなければ正しい出現率を求められません。 これは診断率の分析において、疾患の一般的な有病率つまり事前確率を使わなければ、正しい陽性予測値を求められないのと全く同じことです。 (→9.2 群の判別と診断率)
判別分析におけるロジスティック曲線に、上記の例のように事前確率として群1の実際の出現率を代入すれば、見かけ上の出現率は計算できます。 しかし後ろ向き研究では、群1の例数を任意に決定することができるため、群1の出現率も任意に決定できます。 このためロジスティック曲線によって計算する出現率も、任意の値にすることができてしまいます。 したがって、ロジスティック曲線を利用して正確な出現率を計算するためには、正確な事前確率が必要になります。
このように、ロジスティック回帰分析と判別分析は見かけ上はよく似た手法ですが、目的と適用すべきデータが明確に異なる手法です。 したがって目的とデータに応じて、両者をうまく使い分ける必要があります。
判別分析とロジスティック回帰分析の比較として、判別分析は多変量正規分布を前提にしているのに対して、ロジスティック回帰分析はそのような前提を必要としないので、ロジスティック回帰分析の方が実際のデータに適している、という説明をしている解説書があります。 しかしロジスティック回帰分析は、ロジットつまり対数オッズ比と説明変数の間に線形関係がある、という前提を必要としています。 これは、説明変数が多変量正規分布をするという前提と同じくらい、現実にはかなり無理がある前提です。
そして理論的には、説明変数が近似的に多変量正規分布をする時、対数オッズ比と説明変数の間に近似的な線形関係が成り立ちます。 つまり2つの手法が正当性を持つためには、全く同じ前提を必要としているのです。 したがって2つの手法の使い分けは、データの正規性といったことではなく、あくまでも分析の目的を主眼にすべきです。
基本的に、疾患が発症する前に、疾患が発症するかどうかをリスクファクターから予測するための手法がロジスティック回帰分析であり、疾患が発症した後で、疾患であるかどうかを診断指標から診断するための手法が判別分析です。 したがって、この基本を踏まえた上で2つの手法をうまく使い分けることが大切です。
ロジスティック回帰分析において、出現率をロジット変換するのは、説明変数と目的変数の関係を直線状つまり線形にするためです。 このように、目的変数を線形にするための変換関数のことをリンク関数といいます。 そして適当なリンク関数を利用すれば色々な回帰曲線を線形にすることができ、重回帰型モデルつまり線形モデルにすることができます。 そのようにして一般化した線形モデルのことを、「一般化線形モデル(generalized linear model、GLM)」といいます。
普通の線形モデルの場合、目的変数の回帰誤差が近似的に正規分布することを前提にして回帰分析を行います。 しかし一般化線形モデルの場合、目的変数の回帰誤差が正規分布ではなく、特殊な分布になることがよくあります。 そのような場合は、第9章で説明した最尤法を利用して回帰分析を行うことがあります。 (→9.3 1変量の場合)
ロジスティック回帰分析の場合も、ロジットの回帰誤差が特殊な分布になります。 このため回帰誤差が近似的に正規分布すると見なして、重回帰分析と同じように最小2乗法を利用して回帰分析を行う方法と、最尤法を利用した繰り返し近似計算によって回帰分析を行う方法の、2種類の計算法があります。 そしてコンピュータが発達した現在では、最尤法を利用する方法が主流になっています。
図10.1の回帰曲線は、最尤法を利用した繰り返し近似計算で求めたものです。 このため判別分析から求めたロジスティック曲線と比べると、定数と回帰係数が少し異なっていて、2本の曲線は微妙にずれます。
| p= | 1 ―――――――――― 1+exp(4.258-0.445x) |
| p= | 1 ―――――――――― 1+exp(3.952-0.412x) |
判別分析は、説明変数が近似的に多変量正規分布すると仮定して、最尤法を利用して計算します。 これは、目的変数を0/1のダミー変数にし、その回帰誤差が近似的に正規分布すると仮定して、最小2乗法を利用して計算することに相当します。 このためロジスティック回帰分析の計算結果とよく似たものになりますが、正確には一致しません。