統計学入門−第9章

重回帰分析と同様に判別分析でも、なるべく少ない変数で効率的に群を判別できるように変数を選択する手法が考えられています。判別分析は重回帰分析において目的変数が分類データになったものに相当するので、変数の選択法も次のようにほとんど同じものがあります。

変数指定法：医学・薬学等の実質科学的理論や知識によって適当な変数を指定する。

総当たり法：全ての変数の組み合わせを計算し、最も良いと思われるものを選択する。

逐次選択法：一定の規則に従って変数を逐次選択していく。

これらのうち最も多用されるのは、重回帰分析と同じく3番の逐次選択法です。この方法は変数の選択規則によって次のように細分化されます。

変数増加法(前進的選択法、forward selection method)
最初に全変数のうち判別に寄与する割合が最大のものを取り込む。そしてそれ以後は、すでに取り込まれた変数との共有部分を除いて、単独で判別に寄与する割合が最大の変数を取り込んでいく。これは、その変数を取り込んで判別関数を計算した時、判別効率の増加が最大になることを意味している。その際、判別効率の増加があらかじめ決めておいた値、すなわち取り込み基準未満になった時に変数の取り込みを終了する。

変数減少法(後退的選択法、backward selection method)
最初に全変数を取り込み、以後は取り込まれた変数のうち単独で判別に寄与している割合が最小のものを追い出していく。これは、その変数を追い出して判別関数を計算した時、判別効率の減少が最小になることを意味している。この際、判別効率の減少があらかじめ決めておいた値、すなわち追い出し基準以上になった時に変数の追い出しを終了する。

変数増減法(stepwise forward selection method)
増加法と減少法を組み合わせた手法。まず増加法と同様に取り込み基準に従って変数を取り込む。そして1つ変数を取り込むたびに、すでに取り込んだものの中で減少法と同様の追い出し基準を満足するものがないか調べ、あればそれを追い出してから、さらに変数の取り込みを続ける。この手法では取り込むべき変数も追い出すべき変数もなくなった時に変数の選択を終了する。
この手法は判別に寄与する割合が大きい変数を少数選択するという特徴を持ち、逐次変数選択法の中で最も多用されている。

変数減増法(stepwise backward selection method)
増加法と減少法を組み合わせた手法。変数増減法とは逆に、まず変数減少法に従って全ての変数を取り込み、追い出し基準を満足するものを追い出す。そして1つ変数を追い出すたびに、すでに追い出したものの中で増加法と同様の取り込み基準を満足するものがないか調べ、あればそれを取り込み、さらに変数の追い出しを続ける。変数増減法と同じく、取り込むべき変数も追い出すべき変数もなくなった時に変数の選択を終了する。
この手法は判別に寄与する割合が少ない変数を少数除外するという特徴を持ち、逐次変数選択法の中で効率的な変数の組み合わせが得られる可能性が最も高い。

(2) 変数増減法の手順

変数選択法の中で最も多用されるのは重回帰分析と同じく変数増減法です。そこで、この手法について順を追ってもう少し詳しく説明することにしましょう。 _(注1) (→7.3 変数の選択)

1) 最初の変数の取り込み

最初に1変数だけで判別した時に判別確率が最大となる変数つまり単独で判別効率を最大にする変数を探し、それが取り込み基準を満足するなら判別関数に取り込みます。その変数をx₁とすると、この時の状態は図9.5.1のようになります。

取り込み基準は「その変数を取り込むことによる判別効率の増加分が判別誤差の2倍より大きいこと」にするのが一般的です。それは重回帰分析と同じように次のように表されます。

F_inの値は2と決められているわけではありませんが、重回帰分析と同じく一般に2〜2.5ぐらいが適当だといわれています。

2) 次の変数の取り込み

次に残りの変数から今取り込んだ変数と共有する情報を取り除いた上で、判別効率の増加が最大の変数を探します。そしてその変数が取り込み基準を満足するなら判別関数に取り込みます。その変数をx_jとすると、この時の状態は図9.5.2のようになります。

3) 変数の追い出し

ここで今までに取り込んだ変数の中から単独で判別に関与している割合が最小のもの、つまりその変数を追い出した時に判別効率の減少が最小になるものを探します。そしてその変数が追い出し基準を満足しているなら追い出し、満足していないのならそのままにします。これも重回帰分析と同じように次のように表されます。

この値は各変数が単独で判別に寄与している割合を表し、数学的には分散分析に用いるF値と同じ統計量になります。 F_outの値はF_in以下ならどんな値でもかまいませんが、普通はF_inと同じ値にします。もしF_out ＞ F_inにすると、同じ変数が出たり入ったりを繰り返してしまうので注意が必要です。またF_out = 0にすると変数増加法になり、F_in = F_out = 0にすると全変数を強制的に取り込みます。これも重回帰分析と同様です。

4) 変数選択の終了

変数を追い出した後、2番に戻ってさらに変数の取り込みを続けます。そして取り込む変数も追い出す変数もなくなるまで2番と3番の手順を繰り返します。

(3) 変数選択法の注意点

逐次変数選択法によって得られた判別関数は、重回帰分析と同様にできるだけ少ない変数で、できるだけ効率的に群を判別するための簡便で実用的な判別関数です。そのため例えば医学の臨床現場で、なるべく少ない検査項目で、なるべく正確に群の判別を行いたい時などに用いると実用的で便利です。

しかし医学の研究現場では色々な検査項目が群の判別に単独でどの程度寄与しているか、つまり各検査項目の診断指標としての重要度を調べたい時がよくあります。そのような時は対象とする全検査項目を変数に入れた判別分析を行うべきであり、逐次変数選択を行うべきではありません。逐次変数選択を行った場合、選択されなかった変数は群の判別に寄与していないとは限りません。すでに選択された変数にその変数の情報が含まれているため重ねて選択する必要がないだけで、実際には判別に寄与しているということも十分あり得ます。

そのため選択された変数が単独でどの程度の寄与をしているかは、逐次変数選択の結果からは不正確にしかわかりません。また選択されなかった変数が判別にどの程度寄与しているかを知るのは不可能です。したがって色々な検査項目が群の判別に単独でどの程度寄与しているかを調べたい時、またはある検査項目が群の判別に寄与していないことを検証したい時などは逐次変数選択を行ってはいけません。

またこのようにして選択された変数の組み合わせは、単に数字の大きさだけで機械的に選択されたものです。科学的に最適なものでも、因果関係を考慮したものでもありません。そのため得られた判別関数について科学的に十分吟味することが大切です。もし判別関数の内容が科学的に解釈困難なら、特定の変数を強制的に取り込んだり追い出したりして色々な判別関数を計算し、それらをよく検討して最終的な結果を選ぶべきです。 _(注2) _(注3)

他の多変量解析と同じように、判別分析も大量の計算を必要とするので普通はコンピュータを利用して計算します。しかしコンピュータのアウトプットをそのまま無条件に採用してはいけません。

とかく世間には「コンピュータは間違いを犯さない」、「コンピュータは何でもできる」などというとんでもない迷信がはびこっていて、

と、まるでデルフォイ神殿の御神託のようにコンピュータのアウトプットを鵜飲みにしてしまうミーハーや、

「コンピュータがそう結論したんじゃ、何か文句あっか!!」

と、コンピュータを免罪符代りにして居直る輩がマスコミを始めとして色々なところに生息しています。

しかしたとえプログラムが完全で操作が完壁だとしても——実はコンピュータが犯したと称されるエラーのうち、99.9％以上のものが人間であるプログラマーとオペレーターの責任なのです——コンピュータにインプットするデータが不確実なものであれば、やはり不確実な結果しかアウトプットされません。

ゴミを入れればゴミを出し(GIGO)、宝を入れれば、うまくいけば宝を出す馬鹿正直なコンピュータですから、出されたモノがゴミか宝かは、くどいようですがやはり人間がしっかりと判断しなければいけません。 コンピュータは機械的な作業を速く正確に行なうための道具にすぎず、人間の知的作業や感覚的判断を肩代りしてくれる魔法の箱ではないのです。 _(注4)

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

9.5 変数の選択

(1) 変数選択法の種類

(2) 変数増減法の手順

1) 最初の変数の取り込み

2) 次の変数の取り込み

3) 変数の追い出し

4) 変数選択の終了

(3) 変数選択法の注意点

1) 単純積和行列作成

2) 積和行列に変換

3) 共分散行列に変換

4) 取り込み変数の選択

5) 変数の取り込み

6) 追い出し変数の選択

7) 変数の追い出し

8) 各種統計量の計算

1) 単純積和行列の計算

2) 積和行列に変換

3) Ａ₁の用意

4) 取り込み変数の選択

5) ₁a₁₁ = 322.75で掃き出し

6) 追い出し変数の選択

7) 取り込み変数の選択

8) ₂a₂₂ = 1523.8で掃き出し

9) 追い出し変数の選択

10) 各種統計量の計算

9.5 変数の選択

(1) 変数選択法の種類

(2) 変数増減法の手順

1) 最初の変数の取り込み

2) 次の変数の取り込み

3) 変数の追い出し

4) 変数選択の終了

(3) 変数選択法の注意点

1) 単純積和行列作成

2) 積和行列に変換

3) 共分散行列に変換

4) 取り込み変数の選択

5) 変数の取り込み

6) 追い出し変数の選択

7) 変数の追い出し

8) 各種統計量の計算

1) 単純積和行列の計算

2) 積和行列に変換

3) Ａ1の用意

4) 取り込み変数の選択

5) 1a11 = 322.75で掃き出し

6) 追い出し変数の選択

7) 取り込み変数の選択

8) 2a22 = 1523.8で掃き出し

9) 追い出し変数の選択

10) 各種統計量の計算

3) Ａ₁の用意

5) ₁a₁₁ = 322.75で掃き出し

8) ₂a₂₂ = 1523.8で掃き出し