統計学入門−第10章

重回帰分析や判別分析と同様に、ロジスティック回帰分析にも各種の変数選択法が考えられています。ロジスティック回帰分析は目的変数がロジットになった重回帰分析に相当するので、変数の選択法も次のようにほとんど同じものがあります。 (→7.3 変数の選択)

変数指定法：医学・薬学等の実質科学的理論や知識によって適当な変数を指定する。

総当たり法：全ての変数の組み合わせを計算し、最も良いと思われるものを選択する。

逐次選択法：一定の規則に従って変数を逐次選択していく。

これらの手法のうち最も多用されるのは3番の逐次選択法です。この方法は変数の選択規則によって次のように細分化されます。なお重回帰分析では重寄与率の増減分を反映するF値を変数選択の指標にしました。しかしロジスティック回帰分析では重寄与率の増減分を反映する統計量を変数選択の指標にします。そして変数選択用統計量として、通常は偏回帰係数の検定に使用するワルドのχ²値を用います。

変数増加法(前進的選択法、forward selection method)
最初に全変数のうちロジットに対する変数選択用統計量が最大のものをロジスティック回帰式に取り込む。そしてそれ以後は、すでに取り込まれた変数との共有部分を除いて、単独で変数選択用統計量が最大の変数を取り込んでいく。これは、その変数を取り込んでロジスティック回帰式を計算した時、重寄与率の増加が最大になることを意味している。その際、変数選択用統計量があらかじめ決めておいた値、すなわち取り込み基準未満になった時に変数の取り込みを終了する。

変数減少法(後退的選択法、backward selection method)
最初に全変数を取り込み、以後は取り込まれた変数のうち単独で変数選択用統計量が最小のものを追い出していく。これは、その変数を追い出してロジスティック回帰式を計算した時、重寄与率の減少が最小になることを意味している。その際、変数選択用統計量があらかじめ決めておいた値、すなわち追い出し基準以上になった時に変数の追い出しを終了する。

変数増減法(stepwise forward selection method)
増加法と減少法を組み合わせた手法。まず増加法と同様に取り込み基準に従って変数を取り込む。そして1つ変数を取り込むたびに、すでに取り込んだ変数の中に減少法と同様の追い出し基準を満足するものがあるか調べ、あればそれを追い出してから、さらに変数の取り込みを続ける。この手法では取り込むべき変数も追い出すべき変数もなくなった時に変数の選択を終了する。
この方法はロジットに寄与する割合が大きい変数を少数選択するという特徴を持ち、逐次変数選択法の中で最も多用されている。

変数減増法(stepwise backward selection method)
増加法と減少法を組み合わせた手法。変数増減法とは逆に、まず減少法に従って全ての変数を取り込み、追い出し基準を満足するものを追い出す。そして1つ変数を追い出すたびに、すでに追い出した変数の中に増加法と同様の取り込み基準を満足するものがあるか調べ、あればそれを取り込み、さらに変数の追い出しを続ける。増減法と同じく、取り込むべき変数も追い出すべき変数もなくなった時に変数の選択を終了する。
この方法はロジットに寄与する割合が少ない変数を少数除外するという特徴を持ち、効率的な変数の組み合わせが得られる可能性が逐次変数選択法の中で最も高い。

(2) 変数増減法の手順

変数選択法の中で最も多用されるのは変数増減法です。そこで、この手法について順を追ってもう少し詳しく説明することにしましょう。 _(注1)

1) 変数の取り込み

最初にワルドのχ²値が最大の変数つまり単独でロジットに最も寄与している変数を探し、それが取り込み基準を満足するならロジスティック回帰式に取り込みます。仮にそれをx₁とすると、この時の状態は図10.4.1のようになります。

取り込み基準は「重寄与率に対する寄与分が回帰誤差の2倍より大きいこと」すなわち「ワルドのχ²値が2より大きい」にするのが一般的です。これは次のように表されます。

χ_in²の値は2と決められているわけではないものの、一般に2〜2.5ぐらいが適当だといわれています。

2) 次の変数の取り込み

次に残りの変数から今取り込んだ変数と共有する情報を取り除き、その上でワルドのχ²値が最大の説明変数を探します。そしてそれが取り込み基準を満足するならロジスティック回帰式に取り込みます。その変数をx_jとすると、この時の状態は図10.4.2のようになります。

3) 変数の追い出し

ここで今までに取り込んだ変数の中から単独でワルドのχ²値が最小のもの、つまりその変数を追い出した時に重寄与率の減少が最小になるものを探します。そしてそれが追い出し基準を満足しているなら追い出し、満足していないのならそのままにします。これは次のように表されます。

χ_out²の値はχ_in²以下ならどんな値でもかまいませんが、普通はχ_in²と同じ値にします。もしχ_out²＞χ_in²にすると、同じ説明変数が出たり入ったりを繰り返してしまうので注意が必要です。またχ_out² = 0にすると変数増加法になり、χ_in² = χ_out² = 0にすると全変数を強制的に取り込みます。

4) 変数選択の終了

変数を追い出した後、2番に戻って変数の取り込みを続けます。そして取り込む変数も追い出す変数もなくなるまで2番と3番の手順を繰り返します。

(3) 変数選択の例

表10.4.1のデータに変数増減法によるロジスティック回帰分析を適用すると次のようになります。なお取り込み基準χ_in²と追い出し基準χ_out²はどちらも2にしました。 _(注2)

表10.4.1 変数選択用テストデータ
No.	反応 1：有　0：無	説明変数
x₁	x₂	x₃
1	1	0	1	21
2	1	0	1	30
3	1	0	1	37
4	1	0	2	46
5	1	1	1	24
6	1	1	1	56
7	1	1	1	58
8	1	1	2	24
9	1	1	2	38
10	1	1	2	58
11	1	1	3	26
12	1	1	3	41
13	0	0	1	23
14	0	0	1	43
15	0	0	1	47
16	0	0	1	20
17	0	0	1	44
18	0	0	2	35
19	0	0	2	41
20	0	0	2	45
21	0	0	2	53
22	0	0	2	35
23	0	0	2	37
24	0	0	3	40
25	0	0	3	41
26	0	0	3	55
27	0	0	3	51
28	0	0	3	36
29	0	1	1	22
30	0	1	1	39
31	0	1	1	52
32	0	1	1	34
33	0	1	2	23
34	0	1	2	28
35	0	1	2	32
36	0	1	2	43
37	0	1	2	42
38	0	1	2	51
39	0	1	3	24
40	0	1	3	27
41	0	1	3	42
42	0	1	3	21
43	0	1	3	35
44	0	1	3	36

逐次変数選択法によって得られたロジスティック回帰式は、できるだけ少ない変数で、できるだけ精度良く出現率を予測するための簡便で実用的な予測式です。そのため例えば医学の臨床現場で、なるべく少ない項目で、なるべく正確に疾患の発症率を予測したい時などに用いると便利です。

しかし医学の研究現場では色々な項目が疾患の発症に単独でどの程度寄与しているか、つまり各項目のリスクファクターとしての重要度を調べたい時がしばしばあります。そのような時は対象とする全項目を入れたロジスティック回帰分析を行うべきであり、逐次変数選択を行うべきではありません。逐次変数選択を行った場合、選択されなかった変数は疾患の発症に寄与していないとは限りません。すでに選択された変数にその変数の情報が含まれているため重ねて選択する必要がないだけで、実は疾患の発症に寄与しているということも十分あり得ます。

そのため選択された変数が単独でどの程度の寄与をしているかということは、逐次変数選択の結果からは不正確にしかわかりません。また選択されなかった変数が疾患の発症にどの程度寄与しているか知るのは不可能です。したがって色々な項目が疾患の発症に単独でどの程度寄与しているか調べたい時、またはある項目が疾患の発症に寄与していないことを検証したい時などは逐次変数選択を行ってはいけません。

またこのようにして選択された変数の組み合わせは単に数字の大きさだけで機械的に選択されたものであり、科学的に最適なものでも、因果関係を考慮したものでもありません。そのため得られたロジスティック回帰式について科学的に十分吟味することが必要です。もしロジスティック回帰式の内容が科学的に解釈困難なら、特定の変数を強制的に取り込んだり追い出したりして色々なロジスティック回帰式を計算し、それらをよく検討して最終的な結果を選ぶべきです。

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

10.4 変数選択法

(1) 変数選択法の種類

(2) 変数増減法の手順

1) 変数の取り込み

2) 次の変数の取り込み

3) 変数の追い出し

4) 変数選択の終了

(3) 変数選択の例

1) 変数選択用統計量計算

2) 取り込み変数の選択

3) 最尤解を求める

4) 変数の追い出し

5) 変数選択の終了

1) 全ての変数の変数選択用統計量計算

2) 取り込み変数の選択

3) 最尤解を求める

4) 変数の追い出し

5) 未選択の変数の変数選択用統計量計算

6) 取り込み変数の選択

No.	反応 1：有　0：無	説明変数
No.	反応 1：有　0：無	x₁	x₂	x₃
1	1	0	1	21
2	1	0	1	30
3	1	0	1	37
4	1	0	2	46
5	1	1	1	24
6	1	1	1	56
7	1	1	1	58
8	1	1	2	24
9	1	1	2	38
10	1	1	2	58
11	1	1	3	26
12	1	1	3	41
13	0	0	1	23
14	0	0	1	43
15	0	0	1	47
16	0	0	1	20
17	0	0	1	44
18	0	0	2	35
19	0	0	2	41
20	0	0	2	45
21	0	0	2	53
22	0	0	2	35
23	0	0	2	37
24	0	0	3	40
25	0	0	3	41
26	0	0	3	55
27	0	0	3	51
28	0	0	3	36
29	0	1	1	22
30	0	1	1	39
31	0	1	1	52
32	0	1	1	34
33	0	1	2	23
34	0	1	2	28
35	0	1	2	32
36	0	1	2	43
37	0	1	2	42
38	0	1	2	51
39	0	1	3	24
40	0	1	3	27
41	0	1	3	42
42	0	1	3	21
43	0	1	3	35
44	0	1	3	36