玄関雑学の部屋雑学コーナー統計学入門

16.3 特殊な主成分分析

(1) 各項目の単位が異なる場合

医学・薬学分野で扱うデータは年齢、身長、体重などのように値の単位が異なるのが普通です。 その場合、主成分の解釈が非常に難しくなります。 例えば主成分スコアが「z=10+5×年齢+0.1×身長+3×体重」という式で表されるとしたら、この主成分を医学的に解釈するのは困難です。 そこでこのような時は各項目を標準化——平均値を引いて標準偏差で割る——し、単位とは無関係な値にしてから主成分分析を適用するという方法が考えられます。 表16.1.1のデータにその方法で主成分分析を適用すると次のような結果になります。 (注1)

○第1主成分
固有値:2.87553(寄与率=0.575107)  α係数=0.815298
標準化された主成分スコア:z1i=-8.1083152 + 0.0332681xi1 + 0.0168560xi2 + 0.0350442xi3 + 0.0243501xi4 + 0.0348603xi5
○第2主成分
固有値:1.19402(寄与率=0.238804)  α係数=0.205046
標準化された主成分スコア:z2i=0.9154987 - 0.0290948xi1 + 0.0291276xi2 - 0.0055649xi3 + 0.0293174xi4 - 0.0319942xi5
xi1、xi2、xi3、xi4、xi5:i番目の生徒の国語、数学、英語、理科、社会の点数
表16.3.1 標準化された主成分スコア
生徒ID第1主成分スコア第2主成分スコア
11.508520.0286941
20.3239462.04642
3-0.857434-0.659203
4-1.860210.284279
50.197482-1.6273
6-0.005365650.6756
70.817808-1.77336
80.696180.269094
9-0.1754040.752222
10-1.40767-0.278606
11-1.01288-0.570946
12-1.19311-0.489669
130.07079590.215057
142.072351.03995
150.783459-0.0941394
16-0.1014930.539637
17-0.5873231.61454
18-0.291770.227941
191.17942-1.45927
20-0.157293-0.740942
平均値00
図16.2.1 主成分のプロット 図16.3.1 標準化された主成分のプロット

項目を標準化した時は主成分スコアも標準化した方が解釈しやすいため、表16.3.1の主成分スコアは平均値が0で標準偏差が1になるように調整してあります。 そのため図16.2.1のプロットが楕円状に分布しているのに対して、図16.3.1のプロットは円状に分布しています。

このデータの場合、5個の項目は値の単位が全て同じですから、これらの結果は前節までの結果とあまり変わりません。 ただし表16.3.2の第2主成分の主成分負荷量を見ると符号が逆転しています。 そのため図16.2.1と図16.3.1を見比べると、図16.3.1ではプロットが上下反転していることがわかります。 したがってこの場合は第2主成分スコアが正なら「理科系」であり、負なら「文化系」と解釈することになります。

表16.3.2 主成分負荷量と寄与率
変数第1主成分第2主成分寄与率
国語0.787520-0.4438080.817153
数学0.6186050.6888250.857152
英語0.866601-0.0886760.758860
理科0.6966820.5405110.777518
社会0.797692-0.4717610.858872
図16.2.2 主成分負荷量のプロット 図16.3.2 標準化後の主成分負荷量のプロット

(注1) 各項目を標準化すると共分散行列が相関行列になります。 そのためこの時の主成分分析は、共分散行列の代わりに相関行列の固有値と固有ベクトルを求めることに帰着します。

第1主成分の固有値と固有ベクトル:[ - λn]=の固有値と固有ベクトル
第2主成分の固有値と固有ベクトル:[ - λn]a=の固有値と固有ベクトル
以下同様

表16.1.1のデータについて実際に計算すると次のようになります。


x1〜x5の分散合計=tr()=5
(1) の最大固有値とその固有ベクトルをベキ乗法によって求める
第1固有値:λ1=2.87553 (寄与率=2.87553/5=0.575107)
固有ベクトル:
※主成分スコアを標準化するために変数を固有値λ1で割り、さらにその時の主成分の平均値を引く
主成分の平均値:
主成分スコア:z1i=-4.7815789 + 0.0196187xi1 + 0.0099402xi2 + 0.0206660xi3 + 0.0143596xi4 + 0.0205575xi5
因子負荷量:
(2) 次の固有値と固有ベクトルをベキ乗法によって求める
の更新:
第2固有値:λ2=1.19402 (寄与率=1.19402/5=0.238804 累積寄与率=0.813911)
固有ベクトル:
主成分の平均値:
主成分スコア:z2i=0.8378221 - 0.0266263xi1 + 0.0266562xi2 - 0.0050927xi3 + 0.0268299xi4 - 0.0292796xi5
因子負荷量:

第2主成分までの累積寄与率が80%以上になったので、これで主成分の抽出を終了します。 なおこのように相関行列から主成分を抽出した時は、「固有値が1以上の主成分を抽出する」という抽出条件を用いる時もあります。