前口上 | 目次 | 第1章 | 第2章 | 第3章 | 第4章 | 第5章 | 第6章 | 第7章 | 第8章 | 第9章 | 第10章 |
第11章 | 第12章 | 第13章 | 第14章 | 第15章 | 第16章 | 第17章 | 第18章 | 第19章 | 第20章 | 付録 |
1 | 2 | 3 | 4 | 5 |
この章ではロジスティック回帰分析の原理と結果の解釈方法、判別分析との関係、各種のシグモイド曲線、そして変数選択法について解説します。
ロジスティック回帰分析(logistic regression analysis)は疾患のリスクファクターを分析するためによく用いられる多変量解析です。 この手法は1948年にアメリカのフラミンガムで開始されたフラミンガム研究(Framingham study)のために開発されました。 フラミンガム研究は冠状動脈性疾患に関する大規模なコホート研究であり、複数のリスクファクターつまり多重リスクファクター(multiple risk factor)が疾患に及ぼす影響を分析することを目的のひとつにしています。 そしてそのために開発されたのがこのロジスティック回帰分析であり、現在も主に医学分野で用いられています。
この手法は説明変数が計量尺度のデータで、目的変数が名義尺度を計量尺度化したデータである重回帰分析に相当します。 第5章で説明したように、説明変数が計量尺度で目的変数が名義尺度の時、普通は目的変数を0/1のダミー変数で表し、さらにそれを1の出現率に計量尺度化して回帰直線を求め、その回帰係数の検定としてコクラン・アーミテージの傾向検定を行います。 (→5.3 計数値の相関分析と回帰分析)
しかし第5章の図5.3.3を見てわかるように、この場合の回帰直線は原理的には有り得ない出現率である0未満の領域と1よりも大きい領域まで入りこんでしまいます。 そこで説明変数と出現率の関係を直線で回帰せず、第9章の図9.6.1のように、出現率0から1の間でS字状に変化するシグモイド曲線で回帰する方が好ましいと考えられます。 例えば第5章の表5.3.5のデータについて、生後日数分類と尾長8cm以上の出現率を直線で回帰した時とシグモイド曲線で回帰した時を比べると次のようになります。
生後日数分類 | 尾長8cm未満 | 尾長8cm以上 | 計 | 8cm以上の出現率 |
---|---|---|---|---|
4-5(4.5) | 2 | 0 | 2 | 0 |
6-10(8) | 3 | 2 | 5 | 0.4 |
11-14(12.5) | 1 | 3 | 4 | 0.75 |
全体 | 6 | 5 | 11 | 0.455 |
この場合のシグモイド曲線は第9章で紹介したロジスティック曲線を利用しています。 シグモイド曲線には色々なものがありますが、ここでロジスティック曲線を利用したのは、この曲線を利用すると判別分析との整合性が良いからです。 上記のシグモイド曲線において、出現率を対数オッズつまりロジットに変換すると次のようになります。
これは生後日数分類を説明変数にし、ロジットを目的変数にした直線回帰式に相当します。 そこでこの式を一般化し、さらに説明変数を複数にすると次のような重回帰型のモデルになります。 これを線形ロジスティックモデル(linear logistic model)といい、このモデルに基づいた回帰分析のことをロジスティック回帰分析またはロジット回帰分析(logit regression analysis)といいます。
ロジスティックモデルは重回帰型ですから、偏回帰係数βjは他の説明変数が一定で説明変数xjだけが「1」増加した時にロジットがいくつ変化するかを表す値になります。 そしてロジットは対数オッズなのでロジットの変化量は対数オッズの変化量になります。 そのため対数オッズを指数変換して元のオッズに戻すと、対数オッズの変化量はオッズが何倍になるかを表す値つまりオッズ比になります。 したがって偏回帰係数βjを指数変換すると、他の説明変数が一定で説明変数xjだけが「1」増加した時のオッズ比になります。 このオッズ比は他の説明変数の影響を取り除いたオッズ比になるので調整オッズ比(adjusted odds ratio)と呼ばれることがあります。
例えば表5.3.5のロジスティック回帰分析の結果から、生後日数分類のオッズ比を求めると次のようになります。
このオッズ比から、生後日数分類の値つまり生後日数が「1」増加するとオッズが約1.6倍になることがわかります。 しかしこの値は生後日数が1日増加した時のオッズ比であり、生後日数分類が1つ上になった時のオッズ比ではありません。 例えば2番目の生後日数分類の値は8であり、3番目の生後日数分類の値は12.5です。 そのため2番目の生後日数分類と3番目の生後日数分類のオッズ比は、生後日数が4.5増加した時のオッズ比として計算する必要があります。 その場合のオッズ比は、次のように偏回帰係数を4.5倍してから指数変換して計算します。
表5.3.5のデータから、2番目の生後日数分類と3番目の生後日数分類の実際のオッズ比を計算すると次のようになります。
この値は偏回帰係数から計算した値と少し違います。 この違いは、偏回帰係数から計算した値が生後日数分類全体の平均的なオッズ比に相当することに起因します。 特に表5.3.5の場合、1番目の生後日数分類の出現率が0のため1番目の分類と2番目の分類のオッズ比が非常に大きくなり、平均的なオッズ比を大きくしてしまうのです。
医学分野ではオッズ比をよく用いるので、計量尺度の説明変数を特定の境界値で2分し、「0:境界値未満 1:境界値以上」という名義尺度のデータにしてオッズ比を強引に計算することがあります。 これは第2章で説明した尺度合わせの一種であり、データが持っている情報量を落としてしまい、結果の信頼性が低くなるので原則として避けるべきです。 (→2.6 尺度合わせと外れ値)
例えば表5.3.5の元となった第5章の表5.3.4のデータについて10を境界値にして生後日数を2分類にし、オッズ比を計算すると次のようになります。
生後日数分類 | 尾長8cm未満 | 尾長8cm以上 | 計 | 8cm以上の出現率 |
---|---|---|---|---|
10日未満(平均値=6.5) | 5 | 1 | 6 | 0.17 |
10日以上(平均値=12) | 1 | 4 | 5 | 0.8 |
全体 | 6 | 5 | 11 | 0.455 |
この時のオッズ比は、実は生後日数が10日未満の群の平均値6.5である時と10日以上の群の平均値12である時の値つまり生後日数が5.5増加した時のオッズ比に相当します。 生後日数が5.5日増加した時のオッズ比をロジスティック回帰分析の偏回帰係数から求めると次のようになります。 この値は実際のオッズ比と少し違いますが、その原因は表5.3.5の2番目の生後日数分類と3番目の生後日数分類の場合と同じです。
生後日数を境界値で2分類にした時、実際のデータが境界値の周辺に集中していると、境界値未満の群の平均値と境界値以上の群の平均値の差が小さくなりオッズ比も小さくなります。 それに対して実際のデータが境界値を中心にして広く分布していると、境界値未満の群の平均値と境界値以上の群の平均値の差が大きくなりオッズ比も大きくなります。
同一項目について境界値が同じなら別々の研究でも同じ条件に見え、両者のオッズ比を公平に比較することができるように思えてしまいます。 ところがたとえ境界値が同じでもデータの分布状態によってオッズ比が変わるので、実は公平な比較ではありません。 一方、実測値のままロジスティック回帰分析によってオッズ比を求めれば、それはデータが「1」増加した時のオッズ比になります。 そのためデータの分布状態が多少違ってもオッズ比はあまり変わらず、公平な比較をすることができます。
ただし例えば産婦人科領域における分娩回数のように、初回分娩は色々なリスクが高いものの、2回目はリスクがかなり低くなり、3回目以後はリスクがあまり変わらないということが有り得ます。 このような場合は分娩回数を実測値のまま用いるよりも、「0:初産婦 1:経産婦」という2分類データにしてオッズ比を求める方が実態をうまく反映します。
したがって原則として計量尺度のデータは実測値のまま説明変数にし、ロジスティック回帰分析によって求められたオッズ比そのものではなく、説明変数が医学的に意義のある値だけ増加した時のオッズ比を偏回帰係数から求め、それを医学的に検討するのが合理的です。 ただし分娩回数のように特定の境界値の前後で非連続的な変化をする時だけは、特定の境界値で2分してオッズ比を求めるのが合理的です。
それからオッズ比は2種類の値の比なので、出現率の差が同じでも例数が異なると異なる値になります。 普通の重回帰分析では2種類の説明変数x1とx2が独立なら、x2を含めた時のx1の偏回帰係数とx2を除外した時のx1の偏回帰係数の値は変わりません。 ところがロジスティック回帰分析ではx1とx2が独立でも、x2を含めた時のx1の調整オッズ比(指数変換した偏回帰係数)とx2を除外した時のx1の調整オッズ比は値が変わることがあります。
この現象は第4章のロジット検定の解説で詳しく説明したので、詳細はそちらを参照してください。 ここでは第4章の表4.4.6のデータにロジスティック回帰分析を適用した結果と、調整リスク比を求めることができるポアソン回帰分析を適用した結果を示しておきます。 (→4.4 繰り返しのある多標本・多時期の計数値、第15章 ポアソン回帰分析)
性別 | 薬剤 | 非改善(%) | 改善(%) | 計(%) |
---|---|---|---|---|
男 | 標準薬 | 25(50) | 25(50) | 50(100) |
新薬 | 5(10) | 45(90) | 50(100) | |
計 | 30(30) | 70(70) | 100(100) | |
女 | 標準薬 | 45(90) | 5(10) | 50(100) |
新薬 | 25(50) | 25(50) | 50(100) | |
計 | 70(70) | 30(30) | 100(100) | |
全体 | 標準薬 | 70(70) | 30(30) | 100(100) |
新薬 | 30(30) | 70(70) | 200(100) | |
計 | 100(50) | 100(50) | 200(100) |
上記の結果から、薬剤と性別が独立つまり標準薬群と新薬群の男女の割合が同じなら、リクス差(改善率の差)は性別の影響を受けないことがわかります。 それに対してリスク比(改善率の比)は、層別解析では性別の影響を受けるものの多変量解析(ポアソン回帰分析)では性別の影響を受けず、性別の影響を補正してもしなくても調整リスク比は変わらないことがわかります。 ところがオッズ比は、層別解析でも多変量解析(ロジスティック回帰分析)でも、性別の影響を補正した時の調整オッズ比と性別の影響を補正しない時の調整オッズ比の値が変わります。
これらのことから、たとえ特定の背景因子で層別無作為割り付けしても、また薬剤群の背景因子が揃っていて薬剤と背景因子が独立でも、オッズ比を指標にした薬剤比較はロジスティック回帰分析を用いて背景因子の影響を補正しなければならないことがわかると思います。
出現率が非常に低い時はオッズと出現率が近似するので、オッズ比と出現率比も近似します。 表10.1.1では「尾長8cm以上」というのが「反応有」に相当しますが、反応有が疾患の発症の場合、出現率比はリスク比RR(相対危険度)になります。 そのためオッズ比のことを近似的にリスク比と解釈することがよくあります。 しかしオッズ比のことをリスク比と解釈できるのは出現率がだいたい10%未満の時です。 しかも出現率が低い時はリスク比の値の信頼性が低くなり、相対的な危険性という意味が怪しくなります。
そのため出現率が低い時はオッズ比がリスク比に近似すると解釈するよりも、むしろリスク比がオッズ比に近似し、どちらも単なる関連性の指標にすぎなくなると解釈した方が妥当です。 したがってオッズ比のことを近似的にリスク比と解釈するのは本当は好ましくありません。 (→1.9 科学的研究のデザイン)
例えば表10.1.1の生後日数分類のリスク比を計算すると次のようになります。
出現率が比較的高いので実際のデータから計算したオッズ比20も、偏回帰係数から計算したオッズ比11.5594もこの値とはかなり違います。 したがってこのような時はオッズ比をリスク比と解釈するのは難しいことがよくわかると思います。 このような時はロジスティック曲線を利用して正確なリスク比を求めることができます。 例えば表5.3.5から求めたロジスティック曲線を利用して、生後日数が6.5日(生後日数10日未満の平均値)の時と12日(生後日数10日以上の平均値)の時のリスク比を求めると次のようになります。 オッズ比と違い、このリスク比は実際のリスク比に比較的近いことがわかると思います。
表5.3.5の尾長分類は、目的変数が名義尺度の時の回帰分析の説明をするために、あえて計量尺度である尾長のデータを8cmを境界値にして2分類にしています。 しかし目的変数が計量尺度の時は、それをわざわざ名義尺度にせず、計量尺度のまま回帰分析を適用する方が合理的です。 表5.3.5の元になった表5.1.3は生後日数も尾長も計量尺度であり、これに直線回帰分析を適用した結果は次のようなものでした。 (→5.1 相関係数と回帰直線)
個体No. | 生後日数(x) | 尾長(y) |
---|---|---|
1 | 4 | 4.26 |
2 | 5 | 5.68 |
3 | 6 | 7.24 |
4 | 7 | 4.82 |
5 | 8 | 6.95 |
6 | 9 | 8.81 |
7 | 10 | 8.04 |
8 | 11 | 8.33 |
9 | 12 | 10.84 |
10 | 13 | 7.58 |
11 | 14 | 9.96 |
平均 | 9 | 7.50 |
この回帰直線を利用すると生後日数が特定の値の時の尾長を推測できますし、尾長が8cmになる時の生後日数を逆算することもできます。 さらに回帰直線の予測限界を利用して、尾長が8cm以上になる確率を求めることができます。 そこでその確率を利用してリスク比を求めることができます。 例えば生後日数が6.5日の時と12日の時のリスク比を求めると次のようになります。 (注1)
このリスク比はロジスティック曲線を利用して求めたリスク比よりも大きな値です。 ロジスティック曲線と比べて回帰直線は信頼性が高く、回帰直線によって求めた目的変数の値の信頼性も高くなります。 つまりx = 6.5の時のy = 6.25と、x = 12の時のy = 9の信頼性が高いので、「yが8以上になるリスク比」も大きな値になるわけです。 ただしリスク比は目的変数が名義尺度の時のラフな指標です。 目的変数が計量尺度の時は回帰直線を利用して目的変数の値そのものを求めることができます。 したがってラフな指標であるリスク比をわざわざ求める必要はないでしょう。
線形ロジスティックモデルと第9章のロジスティック曲線を比べると、切片が異なるだけで同じ形式の式であることがわかります。 試しに表5.3.5のデータで尾長8cm以上を群1に、8cm未満を群2にして判別分析を適用し、群1に属す確率をロジスティック曲線で表すと次のようになります。 (→9.6 ロジスティック曲線)
ロジット変換の式において、群1の事前確率π1に実際の群1の出現率5/11を代入すると次のようになります。
このように判別分析の結果をロジスティック曲線で表し、群1の事前確率として実際の群1の出現率を代入したものはロジスティック回帰分析の結果とよく似たものになります。 これがシグモイド曲線としてロジスティック曲線を利用する理由であり、これによってロジスティック回帰分析は判別分析の親類筋に当たる手法になります。
ただしロジスティック回帰分析は疾患の発症に影響するリスクファクターを分析し、疾患が発症する前に被検者が疾患を発症するかどうかを予測するための手法です。 そのためこの手法は原則として前向き研究で得られたデータ(目的変数にだけ誤差がある)に適用し、説明変数としてはリスクファクターだけを用います。 そして上式からわかるようにロジスティック回帰式の切片には事前確率の情報は含まれておらず、実際のデータの出現率つまり発症率が切片に反映されます。 (→1.9 科学的研究のデザイン)
それに対して判別分析は診断率の分析を多変量に拡張した手法に相当し、疾患の診断に有用な診断指標を分析し、疾患が発症した後で被検者が疾患であるかどうかを診断するための手法です。 そのためこの手法は原則として後ろ向き研究で得られたデータ(説明変数にだけ誤差がある)に適用し、説明変数としては診断指標が本来ですが、リスクファクターを混合してもかまいません。 そして判別分析におけるロジスティック曲線の切片には事前確率の情報が含まれていて、それがなければ正しい出現率を求められません。 これは診断率の分析において、疾患の一般的な有病率つまり事前確率を使わなければ正しい陽性予測値を求められないのと全く同じ理屈です。
判別分析におけるロジスティック曲線に上記の例のように事前確率として群1の実際の出現率を代入すれば、見かけ上の出現率は計算できます。 しかし後ろ向き研究では群1の例数を任意に決定することができるので群1の出現率も任意に設定できます。 そのためロジスティック曲線によって計算する出現率も任意の値にすることができてしまいます。 したがってロジスティック曲線を利用して正確な出現率を計算するためには正確な事前確率が必要になります。 (→9.2 群の判別と診断率)
このようにロジスティック回帰分析と判別分析は見かけ上はよく似た手法ですが、目的と適用すべきデータが明確に異なる手法です。 したがって目的とデータに応じて両者をうまく使い分ける必要があります。
判別分析とロジスティック回帰分析の比較として、「判別分析は多変量正規分布を前提にしているのに対して、ロジスティック回帰分析はそのような前提を必要としないのでロジスティック回帰分析の方が実際のデータに適している」という説明をしている解説書があります。 しかしロジスティック回帰分析はロジットつまり対数オッズ比と説明変数の間に線形関係があるという前提を必要としています。 これは説明変数が多変量正規分布をするという前提と同じくらい、現実にはかなり無理がある前提です。
そして第9章で説明したように、説明変数が近似的に多変量正規分布をする時、対数オッズ比と説明変数の間に近似的な線形関係が成り立ちます。 つまり2つの手法が正当性を持つためには、全く同じ前提を必要としているのです。 したがって2つの手法の使い分けはデータの正規性といったことではなく、あくまでも分析の目的を主眼にすべきです。 (→9.6 ロジスティック曲線 (注1))
基本的に疾患が発症する前に、疾患が発症するかどうかをリスクファクターから予測するための手法がロジスティック回帰分析であり、疾患が発症した後で、疾患であるかどうかを診断指標から診断するための手法が判別分析です。 したがってこの基本を踏まえた上で、2つの手法をうまく使い分けることが大切です。
ロジスティック回帰分析において、出現率をロジット変換するのは説明変数と目的変数の関係を直線状つまり線形にするためです。 このように目的変数を線形にするための変換関数のことをリンク関数といいます。 そして適当なリンク関数を利用すれば色々な回帰曲線を線形にすることができ、重回帰型モデルつまり線形モデルにすることができます。 そのようにして一般化した線形モデルのことを一般化線形モデル(GLM:generalized linear model)といいます。
普通の線形モデルの場合、目的変数の回帰誤差が近似的に正規分布することを前提にして回帰分析を行います。 しかし一般化線形モデルの場合、目的変数の回帰誤差が正規分布ではなく特殊な分布になることがよくあります。 そのような場合は第9章で説明した最尤法を利用して回帰分析を行うことがあります。 (→9.3 1変量の場合)
ロジスティック回帰分析の場合もロジットの回帰誤差が特殊な分布になります。 そのため回帰誤差が近似的に正規分布するとみなして重回帰分析と同じように最小2乗法を利用して回帰分析を行う方法と、最尤法を利用した繰り返し近似計算によって回帰分析を行う方法の2種類の計算法があります。 そしてコンピュータが発達した現在では最尤法を利用する方法が主流になっています。
図10.1.1の回帰曲線は最尤法を利用した繰り返し近似計算で求めたロジスティック曲線です。 この回帰曲線の切片と回帰係数は、判別分析から求めたロジスティック曲線の切片と回帰係数とは少し異なっています。 そのため2本のロジスティック曲線を描くと図10.1.2のように微妙にずれます。 この図の「ロジスティック回帰分析のロジスティック曲線」は図10.1.1の回帰曲線と同じものです。
判別分析は説明変数が近似的に多変量正規分布すると仮定し、最尤法を利用して計算します。 これは目的変数を0/1のダミー変数にし、その回帰誤差が近似的に正規分布すると仮定して最小2乗法を利用して計算した結果と原理的に一致します。 そのためロジスティック回帰分析の計算結果とよく似たものになりますが、正確に一致するとは限りません。 (→9.5 変数の選択 (注2))
これらの式を利用してx = 6.5の時の片側予測限界上限が8になる時の信頼係数と、x = 12の時の片側予測限界下限が8になる時の信頼係数を求めてみましょう。