玄関雑学の部屋雑学コーナー統計学入門

9.4 多変量の場合

(1) 多変量正規分布とマハラノビスの汎距離

次に変数が2つ以上の時の群の判別について考えてみましょう。 変数が1つの時、データが正規分布すると仮定して尤度を求めました。 それと同様に、変数が2つ以上の時もデータが正規分布すると仮定して尤度を求めることができます。 ただしこの場合の正規分布は普通のものではなく、変数が2つ以上あり、しかもその変数間に相関があるということを考慮した拡張正規分布で、「多変量正規分布(multivariate normal distribution)」と呼ばれています。 多変量正規分布の式は恐ろしく複雑で、見たとたんに頭が痛くなりますので省略しますが、例えば変数が2つの時の姿は図9.8のような感じになります。 (注1)

図9.8 2次元正規分布

変数が1つの時、データのバラツキ具合を表す値として偏差がありました。

偏差:di=xi-m

偏差はバラツキの指標であると同時に、見方によってはあるデータと平均値との距離、つまりあるデータが分布の中心からどの程度離れているかを表す指標と解釈することもできます。 しかし偏差が例えば「10」だとしても、データのバラツキが大きくて分布の幅が広い時の「10」と、データのバラツキが小さくて分布の幅が狭い時の「10」では平均値との距離感は違います。 そこで偏差を標準偏差で割って分布の幅に左右されない値にします。 これは元のデータxを標準化(規準化)したことに相当し、平均値が0、標準偏差が1になります。 この標準化した距離は分布の幅に左右されずに距離を表すことができる汎用距離のため、色々な場面で利用されます。 また距離の正負をなくすために標準化距離を平方した値もよく用いられ、それを「平方距離」といいます。 (→1.3 データの要約方法 (注1))

標準化距離:di= xi-m
―――
SD
平方距離:di2= (xi-m)2
――――
SD2
= (xi-m)2
――――
V

この平方距離を多変量に拡張したものを「マハラノビスの汎距離(Mahalanobis's generalized distance)」といい、「D2」で表します。 図9.8から何となくわかるように、一般に多変量分布は方向によって分布の幅が違います。 この分布を山に見立てた時、傾斜が急なところは相対的に長い距離になり、傾斜が緩やかなところは相対的に短い距離になります。 これを考慮した距離がマハラノビスの汎距離であり、マハラノビスの汎距離が同じ点を結ぶと、ちょうど地図の等高線のようになります。 この汎距離は、判別分析で重要な役目を果たします。

図9.9 マハラノビスの汎距離(r=0.5)

元のデータがp次元正規分布をする時、D2は自由度pのχ2分布をするという性質があります。 この性質を利用すると、図9.9の等高線状の楕円内部に含まれるデータの割合を計算することができます。 例えばD=1(D2=1)の楕円内には約39%、D=2(D2=4)の楕円内には約86%、D=3(D2=9)の楕円内には約99%のデータが含まれます。 逆に95%のデータが含まれる楕円はD22(2,0.05)=5.991より、分布の中心からの汎距離がD=2.448になる点を結んだ楕円になります。 この楕円を「95%信頼楕円」または「95%等確率偏差楕円」といい、お互いに相関を持つ2つのデータの2次元的な分布状態を表すのに利用されます。 図9.1の正常群と動脈硬化症群の楕円は、これを利用して描いたものです。 (注2)

(2) マハラノビスの汎距離を利用した群の判別

D2が自由度pのχ2分布をするという性質を利用すると、p次元正規分布をする特定の母集団からp種類の項目値を持つ個体が得られる確率、つまりその母集団の尤度を計算することができます。 そして尤度が計算できれば、前節で説明したように最尤法を利用して群の判別を行うことができます。 しかしマハラノビスの汎距離と尤度の間には反比例的な関係があるので、いちいち尤度を計算しなくても、母集団の中心からの汎距離を計算して一番近い群に判別するという方法でよいことになります。

例えば表9.1のTCとTGのデータを正常群と動脈硬化症群の母集団からサンプリングした標本集団のデータと考え、それぞれの母集団のTCとTGの母数を次のように推定します。

正常群:TCの母平均推定値=標本平均値=207 母標準偏差推定値=不偏標準偏差=18
  TGの母平均推定値=標本平均値=206 母標準偏差推定値=不偏標準偏差=59
  TCとTGの母相関係数推定値=標本相関係数=0.79
動脈硬化症群:TCの母平均推定値=標本平均値=251 母標準偏差推定値=不偏標準偏差=19
  TGの母平均推定値=標本平均値=209 母標準偏差推定値=不偏標準偏差=65
  TCとTGの母相関係数推定値=標本相関係数=0.75

これらの母数推定値とデータが2次元正規分布するという仮定から、あるTCとTGの値を持つ点についてそれぞれの母集団の中心からの汎距離を計算することができます。 これにより正常か動脈硬化かが不明な被検者についてTCとTGを測定し、その値に対する2つの母集団からの汎距離を比較することによって、どちらの群に属するか判別することが可能になります。 これは2つの母集団からの汎距離の差を計算し、その正負によって群を判別しても同じことで、その方がより直観的になります。 例えばあるTCとTGの値について正常群の中心からの汎距離がD02になり、動脈硬化症群の中心からの汎距離がD12になったとします。 そしてこれらの差をzとすると、次のようにして群を判別することができます。

z=D02-D12
z>0の時、動脈硬化症群と判別
z<0の時、正常群と判別

さらに話を単純にするために2つの母集団の標準偏差と相関係数が等しいと仮定すると、汎距離の計算が簡単になる上、どちらの母集団から見てももう一方の母集団の中心までの汎距離が同じになります。 そしてその母集団間の汎距離の中間点ではzが0になり、2群を判別する境界値になります。 これは2次元正規分布するTCとTGのデータをzという1つのデータに集約し、それを用いて前節の図9.6と同様の判別を行っていることに相当します。

この時、2つの母集団間の汎距離が大きいほど2つの母集団が離れていることになり、判別確率が高くなります。 このためこの中心間の汎距離のことを「判別効率(discrimant efficiency)」と呼ぶことがあります。 またこのように汎距離を単純化して計算した時のzが判別スコアになり、zを計算するための式が判別関数になります。 そして動脈硬化症群の判別スコアz1は平均値がD2/2、標準偏差がDの正規分布をし、正常群の判別スコアz2は平均値が-D2/2、標準偏差がDの正規分布をします。 この性質を利用すると、2群の中間点つまり判別スコアが0になる点までの汎距離に基づいて2つの母集団に含まれるデータの割合を計算することができ、これが理論的な判別確率になります。

図9.10 マハラノビスの汎距離を利用した判別

一般に判別関数は次のような式で表されます。 (注3)

z=a0+a1・x1+…+ap・xp
z>0の時、動脈硬化症群と判別
z<0の時、正常群と判別
判別効率(マハラノビスの汎距離)をD2とすると、D/2をp値変換して誤判別確率=p(判別確率=1-p)

2つの母集団間の汎距離が0の時は2つの母集団が重なっていることになり、判別は不可能になります。 このため汎距離が0かどうか、つまり2つの母集団が重なっているかどうかを検定する「ホッテリング(Hotelling)のT2検定」という手法が考案されています。 これは2標本t検定を多変量に拡張したものに相当し、T2検定という名前はそれを表しています。 そしてt検定と同様に、群と汎距離との関連性を表す指標として相関比を計算することができます。 しかし判別分析の場合は群の平均値の比較が目的ではなく個々の個体の判別が目的ですから、検定結果よりも相関比よりも、判別確率の方がより意味があります。 (注4) (→5.3 計数値の相関と回帰 (3) 名義尺度と計量値の場合)

(3) 判別分析結果の解釈

表9.1のデータについて実際に計算すると次のようになります。 この時の判別スコアをグラフ表示したものが図9.1の一番下にある、2群のプロットが最も分離して見える方向のプロットです。

z=-61.1636+0.3352・TC+0.0749・TG
ホッテリングのT2検定:T2=87.813 (p<0.001)
判別効率(マハラノビスの汎距離):D2=14.6355  相関比:η2=0.792
D/2=1.913  誤判別確率:p=0.0279(判別確率:1-p=0.9721)
この判別関数を用いて個々のデータを判別した場合
 No.1:z=-61.1636+0.3352×220-0.0749×110=4.3414>0…動脈硬化症と判別
 :(No.2〜No.24については自分で計算してみてください(^_-))
 No.25:z=-61.1636+0.3352×240-0.0749×320=-4.6836<0…正常と判別
∴感度=10/10=1(100%)  特異度=15/15=1(100%)  正診率=25/25=1(100%)

判別係数の大きさと符号は、一応、群の判別に各変数が寄与している大きさとその方向性を反映しています。 しかし重回帰分析と同様に、各データの単位やバラツキ具合が異なっているため判別係数の値で寄与の大きさを直接比較するわけにはいきません。 そこで重回帰分析における標準偏回帰係数と同様に、各変数が1標準偏差増加した時に判別スコアがいくつ変化するかを表す標準判別係数を計算し、これを各変数の寄与の大きさの目安にします。 標準判別係数は表9.1のデータでは次のようになります。

TCの標準判別係数=6.022  TGの標準判別係数=-4.602

判別分析の結果でTGの判別係数の符号がTG単独で判別した時と逆転しているのは、重回帰分析の偏回帰係数と同じような理由によるものです。 また判別分析は一応、群が原因で変数が結果という因果関係を想定しているものの、実際には変数としてリスクファクターを含めることもしばしばあります。 このため判別係数を解釈する時には、重回帰分析以上にきめ細かい注意が必要になります。 (→7.2 重回帰分析の解釈)

判別分析結果を評価する時の注意点は以下のとおりです。

  1. 誤差の少ない信頼のおける多数のデータ――目安として変数の数の10倍以上の例数――に適用したものであるか?
  2. 判別分析に組み込んだ項目が適当であるか?
  3. 組み込んだ項目は診断指標なのかリスクファクターなのか?
  4. 高い判別確率が得られているか?
  5. 判別関数が実質科学的に納得のいくものであるか?

(注1) 多変量正規分布の確率密度関数はベクトルと行列を利用して次のように表されます。




母(分散)共分散行列:
Σ=Σ'(対称行列)  |Σ|:Σの行列式  Σ-1Σの逆行列
μj:xjの母平均
σjjj2:xjの母分散
σijjiijσiσj:xiとxjの母共分散
ρij:xiとxjの母相関係数

p=1の時、当然のことながら、上式は次のように普通の正規分布の確率密度関数になります。

(注2) 普通の正規分布の確率密度関数において、指数項の中の(x-μ)22は平方距離d2に相当します。 したがって、確率密度関数を次のように表すことができます。


これと同様に、多変量正規分布の確率密度関数において、指数項の中の[-μ]'Σ-1[-μ]をD2で表すと確率密度関数を次のように表すことができます。


D2=[-μ]'Σ-1[-μ]

このD2がマハラノビスの汎距離です。 上式からわかるように、変数がp次元正規分布をする時、マハラノビスの汎距離が同じ値ならば確率密度は等しくなります。 この性質を2次元でグラフ表示したものが図9.9であり、信頼楕円または等確率偏差楕円です。 そして平方距離が自由度1のχ2分布をするのと同様に、マハラノビスの汎距離は自由度pのχ2分布をします。

そこでこれらの性質を利用して、品質管理における「2σ法」を多変量に拡張した「多変量管理」を行なうことができます。 「2σ法」は各データの偏差を調べ、それが標準偏差の2倍以上ある時は「何らかの異常によって得られた可能性の高いデータ」として検出する方法で、

と標準化距離が標準正規分布をし、それが2(正確には1.96)以上になる確率は5%しかないことを利用しています。

マハラノビスの汎距離を利用すれば1変量の場合も多変量の場合も同様に、

とすることができます。 ちなみにpが1と2の時は次のようになります。

・p=1の時

・p=2の時

(注3) p次元正規分布に従う2つの母集団g1とg2があり、それぞれの母平均ベクトルと母共分散行列がμ1Σ1μ2Σ2だったとします。 今、どちらの群に属すかわからない個体のデータベクトルをoとし、最尤法の原理に従ってこの個体がどちらの群に属すのか判別すると次のようになります。





D12=[o-μ1]'Σ1-1[o-μ1]  D22=[o-μ2]'Σ2-1[o-μ2]



判別をもう少し簡単にするために、2つの尤度を対数にしてその差をzとすると、

さらに2群の母共分散行列が等しく、Σ1=Σ2=Σとすると、


ここで、


と置くと次のようになります。

z=a0+o'=a0+a1xo1+…+ajxoj+…+apxop

この時のzを判別スコア、を判別係数、式全体を(線形)判別関数と呼び、定数a0を除いたものを特に「フィッシャーの線形判別関数(Fisher's linear discriminant function)」と呼ぶことがあります。 この判別関数を利用すると、個体を次のように判別することができます。


各変数が1標準偏差だけ変化した時の判別係数は、次のように各判別係数に変数の標準偏差をかけた値になります。


σj2jjΣのj番目の対角要素

判別スコアが0になる点つまり境界値は、次のように2群の中心からのマハラノビスの汎距離が等しくなる点になり、汎距離スケールにおける2群の中間点になります。 変数が1つの時の境界値は2群の母平均の中点になり「大山鳴動して鼠一匹」という感じでしたが、変数がp個の時はさすがに多少は物々しく、猫10匹ぐらいの感じにはなります。


∴D12=D22=D2

zの期待値と分散を求めると次のようになります。




したがって2群のzの期待値の差δzは、

と、2群の中心間のマハラノビスの汎距離になります。

群内分散に対するδzの平方の比Δ2を「判別効率」と呼び、この値が大きいほど2群の判別が効率良く行なえることを表します。 この値を求めると、次のようにやはり2群の中心間の汎距離になります。

がp次元正規分布に従う時、D2は自由度pのχ2分布に従い、両群の判別スコアz1、z2は次のような正規分布に従います。

z1〜N{D2/2,D2}  z2〜N{-D2/2,D2}

このこと、2群の境界値は判別スコアが0になる点であるという性質を利用して、誤判別確率と判別確率を求めることができます。 群g1に属す個体を群g2と誤って判別する確率をp12とし、反対に群g2に属す個体を群g1と誤って判別する確率をp21とすると、次のようになります。





判別確率=1-p

このように、誤判別確率は標準正規分布におけるD/2という値の片側確率になり、判別確率は1から誤判別確率を引いた値になります。

図9.11 誤判別確率と判別確率

実際のデータでは母平均ベクトルと母共分散行列はほとんど不明ですから、それぞれの群に属すことがはっきりしている個体のデータを測定し、それに基いて母平均ベクトルと母共分散行列を推定します。



積和行列:
S1jj=S1xjxj:x1jの平方和
S1ij=S1xixj:x1iとx1jの積和


積和行列:
S2jj=S2xjxj:x2jの平方和
S2ij=S2xixj:x2iとx2jの積和
=1+2

μ11  μ22  Σ
-1[1-2]  D2≒[1-2]'-1[1-2]

このような推定値を用いると、D2は自由度pのχ2分布ではなく、第1自由度p、第2自由度(n+h-2)のF分布をします。 ただしχ2(p)=p・F(p,∞)という関係から、実際にはD2/pが第1自由度p、第2自由度(n+h-2)のF分布をします。

(注4) 1変量の場合、母平均がある基準値と異なっているかどうかを検定する「1標本t検定」と、2群の母平均が異なっているかどうかを検定する「2標本t検定」がありました。 これらを多変量に拡張した手法がホッテリングのT2検定です。 まず1群の場合の1標本t検定は次のようになります。 (→3.1 1標本の計量値)





H0:μ=μ0  H1:μ≠μ0 に関して

後の説明のために、t値の式を次のようにも書いておきましょう。


母平均μの100(1-α)%信頼区間は次のようなります。


これらを多変量に拡張したホッテリングのT2検定は次のようになります。





H0μ=μ0  H1μμ0 に関して


または

母平均ベクトルμと、任意の変換η='μの100(1-α)%信頼区間は次のようになります。



次に2群の場合の2標本t検定は次のようになります。 (→3.3 2標本の計量値5.1 相関係数と回帰直線 (注4))


H0:μ12  H1:μ1≠μ2 に関して



母平均の差δ=μ12の100(1-α)%信頼区間は次のようなります。


これらを多変量に拡張したホッテリングのT2検定は次のようになります。


H0μ1=μ2  H1μ1μ2 に関して


または

母平均の差ベクトルδ=μ1-μ2と、任意の変換δ='δの100(1-α)%信頼区間は次のようになります。



多変量データは例数が多いので、ホッテリングのT2検定はたいてい有意になります。 これは群の中心が基準位置とズレている、あるいは2群の中心位置がズレているということを意味しているだけで、群の判別について具体的な情報を提供してくれるわけではありません。 したがってこの検定は実質的にはほとんど無意味で、判別確率の方が重要な意味を持っています。 今までしつこく述べてきたようにこのことはどんな検定にもあてはまることで、実際の要約値とそれに対する実質科学的考察が最も重要です。