統計学入門−第19章

正準相関分析では被験者ごとに正準変量の具体的な値である正準スコアを求め、それを用いて正順相関係数を求めます。表19.1.1のデータについては、項目がより少ないグループBの項目数と同じ5個の正準変量を求めることができます。そして個々の被験者についてグループAの臨床検査値A-1〜A-7の値から正準スコアu₁〜u₅を計算し、グループBの臨床検査値B-1〜B-5の値から正準スコアv₁〜v₅を計算することができます。

それら10種類の正準スコアを計算するには、A-1〜A-7またはB-1〜B-5の値にある係数を掛けて合計します。その係数のことを正準変量係数(coefficient of canonical variate)といい、表19.1.1のデータについては表19.2.1と表19.2.2のようになります。 _(注1)

表19.2.1 グループAの正準変量係数
項目	正準変量
u₁	u₂	u₃	u₄	u₅
切片	-14.7062092	0.3535831	-3.5341401	-9.4335730	2.5806944
A-1	0.1313409	-0.0620080	-0.1378697	0.1637980	-0.0681752
A-2	0.0385666	0.1014400	0.1302709	-0.0804796	0.0117847
A-3	0.0375708	-0.0134234	-0.0296236	0.0085044	0.0240954
A-4	0.0114738	0.0027616	0.1057379	0.0286957	-0.1704421
A-5	0.0153449	-0.0502680	0.0500902	-0.0320161	0.0208637
A-6	0.0153051	-0.0293820	-0.0731538	-0.0798401	-0.0309064
A-7	0.0017002	0.0294650	-0.0210992	0.1269287	0.0648822

表19.2.2 グループBの正準変量係数
項目	正準変量
v₁	v₂	v₃	v₄	v₅
切片	6.6950593	-39.6060509	5.0084590	9.2497642	-11.7335824
B-1	-1.2168351	2.3543756	-1.0565656	-1.8648514	-0.4030322
B-2	0.0055074	0.0245464	-0.0059729	0.0180891	-0.0113023
B-3	0.1344411	0.0720914	-0.1052602	-0.1363322	0.3946559
B-4	0.0009976	0.0586413	0.2340068	-0.2626705	-0.0238963
B-5	-0.0114158	0.0259766	0.0172341	0.0050825	0.0239891

＜正準スコアの例＞
○No.1の被験者：A-1 = 46　A-2 = 55　A-3 = 126　A-4 = 51　A-5 = 75.0　A-6 = 25　A-7 = 72 　B-1 = 6.8　B-2 = 489　B-3 = 27　B-4 = 8 B-5 = 360
u₁ = -14.7062092 + 0.1313409×46 + 0.0385666×55 + 0.0375708×126 + 0.0114738×51 + 0.0153449×75 + 0.0153051×25 + 0.0017002×72 = 0.4316292
u₂ = 0.3535831 - 0.0620080×46 + 0.1014400×55 - 0.0134234×126 + 0.0027616×51 - 0.0502680×75 - 0.0293820×25 + 0.0294650×72 = -0.8532617
u₃ = -3.5341401 - 0.1378697×46 + 0.1302709×55 - 0.0296236×126 + 0.1057379×51 + 0.0500902×75 - 0.0731538×25 - 0.0210992×72 = -0.6424099
u₄ = -9.4335730 + 0.1637980×46 - 0.0804796×55 + 0.0085044×126 + 0.0286957×51 - 0.0320161×75 - 0.0798401×25 + 0.1269287×72 = 0.9514485
u₅ = 2.5806944 - 0.0681752×46 + 0.0117847×55 + 0.0240954×126 - 0.1704421×51 + 0.0208637×75 - 0.0309064×25 + 0.0648822×72 = -0.1000971
v₁ = 6.6950593 - 1.2168351×6.8 + 0.0055074×489 + 0.1344411×27 + 0.0009976×8 - 0.0114158×360 = 0.6419017
v₂ = -39.6060509 + 2.3543756×6.8 + 0.0245464×489 + 0.0720914×27 + 0.0586413×8 + 0.0259766×360 = 0.174067
v₃ = 5.0084590 - 1.0565656×6.8 - 0.0059729×489 - 0.1052602×27 + 0.2340068×8 + 0.0172341×360 = 0.1373698
v₄ = 9.2497642 - 1.8648514×6.8 + 0.0180891×489 - 0.1363322×27 - 0.2626705×8 + 0.0050825×360 = 1.461711
v₅ = -11.7335824 - 0.4030322×6.8 - 0.0113023×489 + 0.3946559×27 - 0.0238963×8 + 0.0239891×360 = -0.9004112

正準相関分析を適用する場合、各項目の単位が同一とは限らないので各項目を標準化してから正準変量係数を求めます。そのため正準変量係数は正準スコアの標準偏差が1になるように調整されています。そして表19.2.1と表19.2.2の切片は正準スコアの平均値を0にするためのゲタです。 正準スコアは絶対値に意味があるのではなく、相対的な大きさに意味があります。そのため全体の平均値を0に、標準偏差を1に標準化するわけです。

また正準変量u₁〜u₅とv₁〜v₅は添字が同じuとvだけ相関があり、その他のものは独立です。つまり第1節の表19.1.4における正準変量1の正準相関係数0.851471はu₁とv₁の相関係数、正準変量2の正準相関係数0.72841はu₂とv₂の相関係数、正準変量3の正準相関係数0.610896はu₃とv₃の相関係数、正準変量4の正準相関係数0.393214はu₄とv₄の相関係数、正準変量5の正準相関係数0.324657はu₅とv₅の相関係数であり、これ以外の正準変量の組み合わせの相関係数は全て0です。そのためこれら5種類の正準変量と正準相関係数を、それぞれ独立に検討することができます。

(2) 正準負荷量

正準変量は主成分と同様の要約値ですから、それがどのような情報を要約したものか解釈する必要があります。それには表19.2.1と表19.2.2の正準変量係数がある程度は参考になります。しかし正準変量係数は各項目が「1」増加した時に、正準スコアがいくつ変化するかを表す値です。そのため各項目の単位や変動範囲が違うと、直接比較することはできません。

そこで正準変量と各項目との相関係数を求め、正準変量係数の代わりにそれを参考にして正準変量が表している情報を解釈するのが普通です。その相関係数のことを正準負荷量(canonical loading)といいます。表19.1.1のデータについて正準負荷量を求めると表19.2.3と表19.2.4のようになります。

表19.2.3 グループAの正準負荷量
項目	正準変量	項目の寄与率
u₁	u₂	u₃	u₄	u₅
A-1	0.676114	-0.264149	-0.110169	0.081208	-0.143811	0.566318
A-2	0.650729	0.611994	0.272747	-0.249034	0.168382	0.962746
A-3	0.747454	0.170360	-0.267166	0.059407	-0.037922	0.664055
A-4	0.238284	0.026678	0.355230	0.377776	-0.698228	0.813916
A-5	0.167670	-0.729804	0.531807	0.001046	0.340047	0.959180
A-6	0.376926	0.120429	-0.128519	-0.388773	0.025918	0.324910
A-7	0.106579	0.173532	0.366299	0.547915	0.440253	0.669681
正準変量の寄与率	0.239656	0.150182	0.102515	0.095173	0.121160	0.708686

表19.2.4 グループBの正準負荷量
項目	正準変量	項目の寄与率
v₁	v₂	v₃	v₄	v₅
B-1	-0.656159	0.269803	-0.551319	-0.422608	-0.118794	1
B-2	0.776043	0.528493	0.051490	0.192344	-0.280724	1
B-3	0.785737	0.156051	-0.282211	-0.255607	0.461831	1
B-4	0.624070	0.201352	0.574096	-0.425687	-0.243305	1
B-5	-0.691260	0.187391	0.407534	0.362677	0.435230	1
正準変量の寄与率	0.503495	0.090422	0.176383	0.118735	0.110966	1

表19.2.3のu₁の正準負荷量は全て正の値であり、A-3、A-1、A-2の絶対値が比較的大きくなっています。そのためu₁はA-1〜A-3を重視したグループA全体の平均値のようなもの、つまりレベルを表す要約値であると解釈できます。

一方、u₂の正準負荷量はA-1とA-5だけが負の値で、その他の項目は正の値になっています。これは(A-2＋A-3＋A-4＋A-6＋A-7) − (A-1＋A-5)という項目間の差を表すものであり、グループAの臨床検査値に関するタイプまたはパターンを表す要約値であると解釈できます。例えばグループAが肝機能に関する検査項目であり、A-1とA-5が慢性肝炎の時に上昇する検査項目であるのに対して、その他は急性肝炎の時に上昇する検査項目だとします。するとu₂が正の値なら急性肝炎であることを表し、負の値なら慢性肝炎であることを表すと解釈できます。

残りのu₃〜u₅の正準負荷量も正の値と負の値が混ざっているので、u₂とは別のタイプまたはパターンを表す要約値と解釈できます。

なお表19.2.3の項目の寄与率は、u₁〜u₅の正準変量によって各項目の情報のどの程度の割合が要約されているかを表す値です。そして正準変量の寄与率は、u₁〜u₅の各正準変量がA-1〜A-7の情報のどの程度の割合を要約しているかを表す値です。グループAは7個の項目があるのに対して正準変量は5個だけなので、どの寄与率も1未満です。

表19.2.4ではv₂の正準負荷量が全て正の値で、その他の正準負荷量は全て正の値と負の値が混ざっています。したがってv₂がグループB全体のレベルを表す要約値であり、それ以外はタイプまたはパターンを表す要約値と解釈できます。例えばグループBが腎機能に関する検査項目であり、B-1とB-5が腎炎の時に上昇する検査項目であるのに対して、その他は腎不全の時に上昇する検査項目だとします。するとv₁が正の値なら腎不全であり、負の値なら腎炎であることを表すと解釈できます。

そして正準変量1の正準相関係数が0.851471ですから、このv₁とグループAのu₁の間に強い相関関係があることになります。例えばu₁が肝機能全体のレベルつまり肝機能障害の程度を表す要約値で、v₁が腎機能のタイプを表す要約値——正なら腎不全、負なら腎炎——だとすると、肝機能障害の程度が重症なほど腎不全になる傾向が強いと解釈できます。

また正準変量2の正準相関係数が0.72841ですから、u₂とv₂の間にも強い相関関係があることになります。例えばu₂が肝炎のタイプを表す要約値——正なら急性肝炎、負なら慢性肝炎——で、v₂が腎機能全体のレベルを表す要約値つまり腎機能障害の程度を表す要約値だとすると、急性肝炎では腎機能障害の程度が重症になると解釈できます。

ただしこの場合の「急性肝炎→腎機能障害」という解釈は、医学的知見に基づいて因果関係を想定したものです。ところが正準相関分析は相関分析の一種ですから、2つのグループがお互いに影響を及ぼし合っているという前提で組み立てられています。 2つのグループの間に因果関係が想定される時は、本来は正準相関分析に対応する正準回帰分析いう手法を適用する必要がありますが、残念ながらそれはまだ開発されていません。そのため因果関係が想定される時でも、現在のところはとりあえず正準相関分析を適用するのが普通です。

なおグループBは5個の項目に対して正準変量も5個なので、項目の寄与率が全て1になり、正準変量の寄与率を合計した値も1になります。

(3) 交差負荷量

正準相関分析では交差負荷量(cross loading)という値も求めることができます。この値は一方のグループの正準変量と他方のグループの各項目の相関係数です。例えば表19.1.1のデータではグループAの正準変量u₁〜u₅とグループBの各項目B-1〜B-5の相関係数、およびグループBの正準変量v₁〜v₅とグループAの各項目A-1〜A-7の相関係数であり、それらは表19.2.5と表19.2.6のようになります。

表19.2.5 グループAの正準変量の交差負荷量
項目	正準変量	項目の寄与率
u₁	u₂	u₃	u₄	u₅
B-1	-0.558700	0.196527	-0.336799	-0.166175	-0.038567	0.493304
B-2	0.660778	0.384959	0.031455	0.075632	-0.091139	0.599837
B-3	0.669032	0.113669	-0.172401	-0.100508	0.149937	0.522829
B-4	0.531378	0.146667	0.350713	-0.167386	-0.078991	0.461131
B-5	-0.588588	0.136497	0.248961	0.142610	0.141300	0.467352
正準変量の寄与率	0.365035	0.047976	0.065825	0.018358	0.011696	0.508890

表19.2.6 グループBの正準変量の交差負荷量
項目	正準変量	項目の寄与率
v₁	v₂	v₃	v₄	v₅
A-1	0.575691	-0.192408	-0.067302	0.031932	-0.046689	0.376170
A-2	0.554077	0.445782	0.166620	-0.097924	0.054666	0.546062
A-3	0.636435	0.124092	-0.163211	0.023360	-0.012312	0.447784
A-4	0.202891	0.019433	0.217009	0.148547	-0.226684	0.162087
A-5	0.142766	-0.531597	0.324879	0.000411	0.110399	0.420712
A-6	0.320941	0.087722	-0.078512	-0.152871	0.008415	0.140303
A-7	0.090749	0.126402	0.223771	0.215448	0.142931	0.141133
正準変量の寄与率	0.173751	0.079684	0.038258	0.014715	0.012771	0.319179

交差負荷量は一方のグループの1つの正準変量と、他方のグループの各項目の偏相関係数のような値です。そして2つのグループの正準変量同士の相関係数つまり正準相関係数が大きければ、各項目の交差負荷量は正準負荷量と似た値になります。このデータの場合、5つの正準相関係数は高い値が多いので表19.2.5の値と表19.2.4の値は似ていて、表19.2.6の値と表19.2.3の値も似ています。このような時は、一方のグループの正準スコアを他方のグルーブの各項目の値からある程度推測できることになります。

交差負荷量の場合、正準変量の寄与率のことを冗長性指数(redundancy index)または冗長性割合(redundancy proportion)と呼ぶことがあります。冗長性とは重複度のことで、冗長性指数は2つのグループが共通で持っている情報量の大きさを表す指標になります。

(注1)　n例の被験者についてp種類の検査項目グループとq種類の検査項目グループが測定されていて、それらのデータ行列をＸとＹします。ただしこれらのグループの間に相関関係を想定するので、Ｘが説明変数群でＹが目的変数群というわけではなく、この区分は便宜的なものであり両者は同等です。このデータ行列について単純積和行列、積和行列、(分散)共分散行列を求めると次のようになります。

データ行列：

　(n ≧ p + q)
平均値ベクトル：

単純積和行列：

積和行列：

Ｓ_xx = Ｘ'Ｘ - nｍ_xｍ_x' 　　Ｓ_xy = Ｘ'Ｙ - nｍ_xｍ_y' = Ｓ_yx' 　　Ｓ_yy = Ｙ'Ｙ - nｍ_yｍ_y'
(分散)共分散行列：

ここでp次元の症例ベクトルｘ_i.'をベクトルａ上に正射影した合成変量をu_iとし、q次元の症例ベクトルｙ_i.'をベクトルｂ上に正射影した合成変量をv_iとします。するとu_iとv_iの相関係数は次のようになります。

この相関係数の平方つまり寄与率r²を最大にするｕとｖが正準変量になり、その時の相関係数が正準相関係数になります。それはラグランジュの未定乗数法を用いて求めることができます。

ラグランジュの未定乗数法の束縛条件：ａ'Ｖ_xxａ = ｂ'Ｖ_yyｂ = 1
この条件下での寄与率：

h(ａ,ｂ,λ,θ) = (ａ'Ｖ_xyｂ)² - λ(ａ'Ｖ_xxａ - 1) - θ(ｂ'Ｖ_yyｂ - 1) → 最大化
(1)

(2)

と置いた連立方程式を解く。
(1)より (ａ'Ｖ_xyｂ)Ｖ_xyｂ = λＶ_xxａ ← この式の両辺にａ'を前掛けすると (ａ'Ｖ_xyｂ)(ａ'Ｖ_xyｂ) = λ(ａ'Ｖ_xxａ)
(2)より (ａ'Ｖ_xyｂ)Ｖ_yxａ = θＶ_yyｂ ← この式の両辺にｂ'を前掛けすると (ａ'Ｖ_xyｂ)(ｂ'Ｖ_yxａ) = θ(ｂ'Ｖ_yyｂ)
∴(ａ'Ｖ_xyｂ)² = λ(ａ'Ｖ_xxａ) = θ(ｂ'Ｖ_yyｂ) → 束縛条件より λ = θ
ここでａａ' = Ｖ_xx^-1、ｂｂ' = Ｖ_yy^-1 より
(1) [Ｖ_xyＶ_yy^-1Ｖ_yx - λＶ_xx]ａ = ０_p → ａ≠０_p より |Ｖ_xx^-1Ｖ_xyＶ_yy^-1Ｖ_yx - λＩ_p| = 0
(2) [Ｖ_yxＶ_xx^-1Ｖ_xy - λＶ_yy]ｂ = ０_q → ｂ≠０_q より |Ｖ_yy^-1Ｖ_yxＶ_xx^-1Ｖ_xy - λＩ_q| = 0
となり、この固有方程式を解くことに帰着する。

この結果、非対称行列[Ｖ_xx^-1Ｖ_xyＶ_yy^-1Ｖ_yx]の固有値λが正準相関係数の寄与率r²になり、固有ベクトルをａ'Ｖ_xxａ = 1と規格化したものがｕの正準変量係数ベクトルになります。そしてｖの正準変量係数ベクトルは次のようにして求めることができます。

(ａ'Ｖ_xyｂ)²=λ(ｂ'Ｖ_yyｂ)=λ →

一般に[Ｖ_xx^-1Ｖ_xyＶ_yy^-1Ｖ_yx]の次元はm = min(p,q)なので、λ₁ ≧ … ≧ λ_m ＞ 0という固有値と、それに対応する固有ベクトルが求められます。そして第k番目の固有値λ_kと固有ベクトルａ_kを用いて、第k正準相関係数と正準変量を次のようにして求めることができます。

正準負荷量と交差負荷量は次のようになります。

ｕ_kとＸの正準負荷量：

ｖ_kとＹの正準負荷量：

ただし

ｕ_kのＸに対する寄与率：

ｖ_kのＹに対する寄与率：

(ｕ₁、…、ｕ_m)のｘ._jに対する寄与率：

(ｖ₁、…、ｖ_m)のｙ._jに対する寄与率：

ｕ_kとＹの交差負荷量：

ｖ_kとＸの交差負荷量：

ｕ_kのＹに対する寄与率(冗長性指数)：

ｖ_kのＸに対する寄与率(冗長性指数)：

(ｕ₁、…、ｕ_m)のｙ._jに対する寄与率：

(ｖ₁、…、ｖ_m)のｘ._jに対する寄与率：

表19.1.1のデータについて実際に計算してみましょう。

正準変量係数の計算を簡単にするために、実際の計算では共分散行列の代わりに相関行列から計算を始める
相関行列：

第1固有値：λ₁ = 0.725002 　　第1固有ベクトル：

第2固有値：λ₂ = 0.530581 　　第2固有ベクトル：

第3固有値：λ₃ = 0.373194 　　第3固有ベクトル：

第4固有値：λ₄ = 0.154617 　　第4固有ベクトル：

第5固有値：λ₅ = 0.105402 　　第5固有ベクトル：

これらの固有値の平方根が正準相関係数になります。これらの固有値と固有ベクトル、そしてＲ_yy^-1とＲ_yxから係数ベクトルｂを求めます。

ｕとＸの正準負荷量行例：

ｖとＹ正準変量負荷量行例：

R²_x1u = {0.676114² + (-0.264149)² + (-0.110169)² + 0.081208² + (-0.143811)²} ≒ 0.566318
R²_y1v = {(-0.656159)² + 0.269803² + (-0.551319)² + (-0.422608)² + (-0.118794)²} = 1
※以下の寄与率については計算を省略
ｕとＹの交差負荷量行例：

ｖとＸ交差量負荷量行例：

※以下の交差負荷量と交差負荷量の寄与率については計算を省略

係数ベクトルとＶ_xx、Ｖ_yy、ｍ_x、ｍ_yから正準変量係数を求めます。

ｕの正準変量係数行例：

ｖの正準変量係数行例：

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

19.2 正準変量

(1) 正準変量係数

(2) 正準負荷量

(3) 交差負荷量