統計学入門−第7章

重回帰モデルの説明変数がやたらに多いと、重回帰式を科学的に解釈する時にも、それによって目的変数の値を予測する時にも何かと面倒であまり実用的ではありません。そこで説明変数を選択するための手法が次のように色々と考えられています。

変数指定法：医学・薬学等の科学的理論や知識によって最適な説明変数を指定する。

総当たり法：全ての説明変数の組み合わせを計算し、最も良いと思われるものを選択する。

逐次選択法：一定の規則に従って説明変数を逐次選択していく。

もし1番の変数指定法ができるのなら、それが最善です。しかし実際には重回帰分析結果から、逆に科学的にも影響の強そうな説明変数の見当をつけることが多いと思います。重回帰分析に限らず多変量解析は探索的な性質の強い手法なので、事前に最適な変数が指定できる場合は少ないのです。

2番の総当たり法は、いわば力まかせの方法です。この方法が実行できればそれに越したことはありません。しかしいかんせんこの方法は計算量が膨大であり、おいそれと実行できる方法ではありません。例えば説明変数がp=10個の時には、次のように1023種類もの重回帰式を計算する必要があります。

コンピュータが発達した現代では、こんなものすごい計算も物理的には不可能ではありません。しかしそれらの結果を1つ1つ吟味して、最適なものを選び出すための人間の頭脳労働がたまったものではありません。金と力にものをいわせて腕ずくで物事を解決しようというのは、何事においてもあまり誉められたことではないでしょう。

ということは、結局、3番の逐次選択法が最も現実的な方法になります。この方法は変数の選択規則によって次のように細分化できます。

変数増加法(前進的選択法、forward selection method)
最初に全説明変数の中から目的変数に対する単寄与率が最大のものを重回帰式に取り込む。そしてそれ以後は、すでに取り込まれた説明変数との共有部分を除いて、単独で目的変数と共有している情報が最大の説明変数を取り込んでいく。これは、その変数を取り込んで重回帰式を計算した時、重寄与率の増加が最大になることを意味している。その際、重寄与率の増加があらかじめ決めておいた値すなわち取り込み基準未満になった時に変数の取り込みを終了する。

変数減少法(後退的選択法、backward selection method)
最初に全説明変数を重回帰式に取り込み、以後は取り込まれた説明変数のうち単独で目的変数と共有している情報が最小のものを追い出していく。これは、その変数を追い出して重回帰式を計算した時、重寄与率の減少が最小になることを意味している。この際、重寄与率の減少があらかじめ決めておいた値すなわち追い出し基準以上になった時に変数の追い出しを終了する。

変数増減法(stepwise forward selection method)
増加法と減少法を組み合わせた手法。まず変数増加法と同様に取り込み基準に従って変数を取り込む。そして変数を1つ取り込むたびに、すでに取り込んだものの中から変数減少法と同様の追い出し基準を満足するものがあるか調べ、あればそれを追い出してから、さらに変数の取り込みを続ける。この手法では取り込むべき変数も追い出すべき変数もなくなった時に変数の選択を終了する。
この手法は目的変数に対する影響が強い説明変数を少数選択するという特徴を持ち、逐次変数選択法の中で最も多用されている。

変数減増法(stepwise backward selection method)
増加法と減少法を組み合わせた手法。変数増減法とは逆に、まず変数減少法に従って全ての変数を取り込み、追い出し基準を満足するものを追い出す。そして変数を1つ追い出すたびに、すでに追い出したものの中から変数増加法と同様の取り込み基準を満足するものがあるか調べ、あればそれを取り込み、さらに変数の追い出しを続ける。変数増減法と同様に、取り込むべき変数も追い出すべき変数もなくなった時に変数の選択を終了する。
この手法は目的変数に対する影響が弱い説明変数を少数除外するという特徴を持ち、逐次変数選択法の中で効率的な変数の組み合わせが得られる可能性が最も高い。

「ゴチャゴチャしていてよくわからんが、とにかくやたらと込み入った方法らしいな……」

とお思いでしょう。そのとおり、これらは非常に複雑な方法なのです。

(2) 変数増減法の手順

変数選択法の中で最も多用されるのは変数増減法です。そこで、この方法の手順をもう少し詳しく説明することにしましょう。 _(注1)

1) 最初の変数の取り込み

最初に目的変数に対する単寄与率が最大の説明変数つまり目的変数との共有情報が最大の説明変数を探し、それが取り込み基準を満足するなら重回帰式に取り込みます。その変数をx₁とすると、この時の状態は図7.3.1のようになります。

情報の密度とは情報量すなわち平方和を、その情報の担い手の数すなわち自由度で割ったものであり、数学的には分散のことです。共有情報密度と残差密度を比べるには両者の比を計算します。その比は分散比つまりF値になるので取り込みのための基準値をF_inで表すと、前述の取り込み基準を次のように表すことができます。

F_inの値は2と決められているわけではありませんが、一般に2〜2.5ぐらいが適当だといわれています。 F値はF検定で用いる検定統計量なので、この値を利用して説明変数を取り込むことによって共有情報密度が濃くなるかどうか、つまりF値が1よりも大きいかどうかという検定を行うことができます。そしてその検定の有意確率p値を取り込み基準にする、という方法も考えられます。しかし変数選択という手法は探索的な研究に用いられる記述統計学的手法なので、推測統計学的手法である検定とは馴染みません。

例えばある説明変数の情報密度が同じでF値が同じでも、例数が少ない時はp値が大きくなって選択されず、例数が多い時はp値が小さくなって選択されるということが起こります。そして例数が非常に多くなれば原理的には全ての説明変数が有意になり、全ての変数を取り込むことになってしまいます。これでは変数選択の意味がありません。

また検定を用いるなら事前に作業仮説を設定し、それに基づいて例数設計を行う必要があります。しかし変数選択法を用いるのは選択すべき説明変数がわからないからであり、事前に選択結果を予測して作業仮説を立てることはできません。したがって変数選択基準として有意確率p値を用いるのはあまり合理的ではありません。

2) 次の変数の取り込み

次に残りの説明変数の中から今取り込んだ説明変数と共有する情報を取り除いた上で、目的変数と共有する情報が最大のものを探します。そしてその変数が取り込み基準を満足するなら重回帰式に取り込みます。その変数をx_jとすると、この時の状態は図7.3.2のようになります。

この時の単独共有情報が偏回帰平方和S_bjであり、重寄与率の増加分に相当します。

3) 変数の追い出し

ここで、今までに取り込んだ説明変数の中から単独共有情報が最小のものを探します。そしてその変数が追い出し基準を満足しているなら追い出し、満足していないならそのままにします。通常、追い出し基準は取り込み基準と対応した内容にするので次のようになります。

F_outはF_in以下ならどんな値でもかまいませんが、普通はF_inと同じ値にします。もしF_out ＞ F_inにすると同じ変数が出たり入ったりを繰り返してしまうので注意が必要です。またF_out = 0にすると変数の追い出しをせず、変数増加法と同じものになります。そしてF_in = F_out = 0にすると全ての変数を強制的に取り込みます。

4) 変数選択の終了

変数を追い出した後、2番に戻ってさらに変数の取り込みを続けます。そして取り込む変数も追い出す変数もなくなるまで2番と3番の手順を繰り返します。

(3) 変数選択の例

表6.1.1のデータに変数増減法を適用すると次のような結果になります。なお取り込み基準F_inと追い出し規準F_outはどちらも2にしました。

1) 最初の変数の取り込み

各説明変数の重症度に対する単寄与率を計算すると次のようになります。

この結果、最初の取り込み変数候補としてTCを選択します。そしてTCのF値を計算すると次のようになり、取り込み基準を満足しています。そこでまずTCを取り込みます。

2) 次の変数の取り込み

次にTCとの共有情報を取り除いた上でTGのF値を計算すると次のようになり、取り込み基準を満足しています。そこでTGを取り込みます。

2) 変数の追い出し

今取り込んだばかりのTGは除外するので、TCだけが追い出し変数候補になります。そしてTCのF値を計算すると次のようになり、追い出し基準を満足していません。そのためTCは追い出しません。

2) 変数選択の終了

以上で取り込む変数も追い出す変数もなくなりました。そのためこれで変数選択を終了します。

この場合は全ての変数を取り込んだので、変数選択法の結果は第2節の全変数を取り込んだ普通の重回帰分析の結果と同じになります。

(4) 変数選択法の注意点

逐次変数選択法によって得られた重回帰式は、できるだけ少ない説明変数で、できるだけ効率的に目的変数の値を予測するためのものです。そのため例えば医学の臨床現場で、なるべく少ない検査項目で、なるべく正確に特定の値を予測したい時などに用いると実用的で便利です。

しかし医学の研究現場では特定の値に対して色々な検査項目が単独でどの程度影響しているかを検討したい、つまり各検査項目の重要度を検討したい時がよくあります。そのような時は検討対象となる全ての検査項目を説明変数に入れた重回帰分析を行うべきであり、逐次変数選択を行うべきではありません。逐次変数選択を行った場合、選択されなかった説明変数が目的変数に影響を与えていないとは限りません。すでに選択された説明変数にその説明変数の情報が含まれているので重ねて選択する必要がないだけで、実際には目的変数に影響を与えているということも十分あり得ます。

例えば収縮期血圧と拡張期血圧のようにお互いに関連性の強い項目があった時、一方の値から他方の値を推測することがある程度はできます。そのため例えば収縮期血圧だけが選択され、拡張期血圧は選択されないということがよく起こります。ところが収縮期血圧が測定されておらず、拡張期血圧だけが測定されていたとすると、その場合は拡張期血圧が選択されるはずです。

このように、逐次変数選択の結果から選択されなかった説明変数の影響力を知ることは不可能です。さらに選択されなかった説明変数の影響は補正されないので、選択された説明変数が単独でどの程度の影響を目的変数に与えているかということも不正確にしかわかりません。したがって特定の値に対して色々な項目が単独でどの程度影響しているかを調べたい時、またはある項目が目的変数に対して影響していないことを確認したい時などは逐次変数選択を行うべきではありません。

逐次変数選択法によって得られた説明変数の組み合わせは科学的に最適なものというわけではなく、あくまでもその候補にすぎません。それが最適かどうかは、得られた重回帰式の内容が科学的に十分納得できるものであるかどうかで決まります。もし重回帰式の内容が科学的に解釈困難なら特定の説明変数を強制的に取り込んだり追い出したりして色々な重回帰式を計算し、それらの内容をよく吟味して最終的な結果を選ぶべきです。 _(注2)

多変量解析では面倒な計算はコンピュータ任せでもかまいませんが、結果の判断は人間が責任を持って行わなければなりません。これは何も統計学に限ったことではなく、コンピュータを利用した仕事は常にそうあるべきでしょう。

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

要因	平方和SS	自由度φ	平均平方和Ms(分散V)	分散比F
回帰	S_β	φ_β	V_β	F_β=V_β/V_R
残差	S_R	φ_R	V_R
全体	S_yy	φ_y

要因	平方和SS	自由度φ	平均平方和Ms(分散V)	分散比F
回帰	13.7516	2	6.8758	15.286
残差	3.1484	7	0.4498
全体	16.9	9

7.3 変数の選択

(1) 変数選択法の種類

(2) 変数増減法の手順

1) 最初の変数の取り込み

2) 次の変数の取り込み

3) 変数の追い出し

4) 変数選択の終了

(3) 変数選択の例

1) 最初の変数の取り込み

2) 次の変数の取り込み

2) 変数の追い出し

2) 変数選択の終了

(4) 変数選択法の注意点

1) 重回帰モデル

2) 積和行列に変換

3) 取り込み変数の選択

4) 変数の取り込み

5) 追い出し変数の選択

6) 変数の追い出し

7) 各種統計量の計算

1) 積和行列の計算とＡ₀の用意

2) ₀a₀₀ = 10で掃き出し

3) 取り込み変数の選択

4) ₁a₁₁=3090で掃き出し

5) 追い出し変数の選択

6) 取り込み変数の選択

7) ₂a₂₂=16676.375で掃き出し

8) 追い出し変数の選択

9) 各種統計量の計算

1) 自由度調整済み重寄与率R'²

2) 赤池の情報量基準AIC(Akaike's Information Criterion)

3) マローズ(C. L. Mallows)の当てはめ係数C_p

7.3 変数の選択

(1) 変数選択法の種類

(2) 変数増減法の手順

1) 最初の変数の取り込み

2) 次の変数の取り込み

3) 変数の追い出し

4) 変数選択の終了

(3) 変数選択の例

1) 最初の変数の取り込み

2) 次の変数の取り込み

2) 変数の追い出し

2) 変数選択の終了

(4) 変数選択法の注意点

1) 重回帰モデル

2) 積和行列に変換

3) 取り込み変数の選択

4) 変数の取り込み

5) 追い出し変数の選択

6) 変数の追い出し

7) 各種統計量の計算

1) 積和行列の計算とＡ0の用意

2) 0a00 = 10で掃き出し

3) 取り込み変数の選択

4) 1a11=3090で掃き出し

5) 追い出し変数の選択

6) 取り込み変数の選択

7) 2a22=16676.375で掃き出し

8) 追い出し変数の選択

9) 各種統計量の計算

1) 自由度調整済み重寄与率R'2

2) 赤池の情報量基準AIC(Akaike's Information Criterion)

3) マローズ(C. L. Mallows)の当てはめ係数Cp

1) 積和行列の計算とＡ₀の用意

2) ₀a₀₀ = 10で掃き出し

4) ₁a₁₁=3090で掃き出し

7) ₂a₂₂=16676.375で掃き出し

1) 自由度調整済み重寄与率R'²

3) マローズ(C. L. Mallows)の当てはめ係数C_p