玄関雑学の部屋雑学コーナー統計学入門

16.2 主成分分析結果の解釈

(1) 主成分の解釈

第1節で求めた主成分分析の結果を利用して、表16.1.1の20名の生徒について第1主成分スコアと第2主成分スコアを求めると表16.2.1のようになります。 そしてそれらの値を2次元の散布図にプロットすると、図16.2.1のようになります。 なお図16.2.1の破線で描いた楕円は、95%のプロットが含まれる楕円つまり95%許容楕円です。 (→5.5 各種手法の相互関係 (注1))

第1主成分スコア:z1i=-114.538 + 0.2852530xi1 + 0.6659759xi2 + 0.3989357xi3 + 0.4916883xi4 + 0.2723964xi5
第2主成分スコア:z2i=-46.9847948 + 0.5339487xi1 - 0.5347619xi2 + 0.3382138xi3 - 0.1579885xi4 + 0.5381260xi5
xi1、xi2、xi3、xi4、xi5:i番目の生徒の国語、数学、英語、理科、社会の点数
表16.2.1 テスト結果と主成分スコア
生徒ID国語数学英語理科社会合計点第1主成分スコア第2主成分スコア
1728088567136741.25937.80096
2538862704431730.3239-32.157
34425503860217-30.36286.33459
42934432438168-44.3167-18.4819
56629663773271-11.990928.5075
651524372652834.90215-9.41482
773387540813073.2443134.3072
8697152637032523.2175-2.80777
935655850662744.43507-15.8228
104228462944189-39.3147-4.87857
115725384150211-32.69063.36213
125530403245202-34.9206-0.971886
1349616645622835.40817-4.86535
14739581857741164.6349-3.40693
15633674776531512.49515.2434
165041606753271-1.65413-3.98432
1742715552382582.58717-31.6919
185755534652263-3.7241-7.32121
19814778487833215.833231.9023
206645494063263-9.366098.3464
平均値565159516027600
図16.2.1 主成分スコアのプロット

また5教科のテスト結果の間の単相関係数を求めると表16.2.2のようになります。 主成分分析の結果を解釈する時は、この相関行列を参考にすると便利です。

表16.2.2 科目間の相関行列
 国語数学英語理科社会
国語10.2020.6150.3300.740
数学0.20210.4760.6440.176
英語0.6150.47610.4500.669
理科0.3300.6440.45010.324
社会0.7400.1760.6690.3241

第1主成分スコアの各変数の係数(重み)を見ると、符号が全て正のため合計点的な主成分つまりレベルを表す主成分であることがわかります。 そして国語と英語と社会の成分の絶対値が数学と理科よりも少し小さいことから、国語と英語と社会の重みを少し軽くして合計していることがわかります。

実際、表16.2.1の合計点と第1主成分スコアを比較すると、大小関係がよく似ていることがわかります。 そしてこれらの間の相関係数を計算すると0.976であり、非常に高い相関があります。 しかし5番目の生徒と16番目の生徒の合計点はどちらも271ですが、第1主成分は-11.9909と-1.65413であり、5番目の生徒の方が少し小さくなっていることがわかります。 これは5番目の生徒は国語と英語と社会の点数が数学と理科の点数より高いのに対して、16番目の生徒はその反対の傾向があるためです。

一方、第2主成分スコアの係数の符号は国語と英語と社会が正であり、数学と理科は負になっています。 このことから第2主成分はタイプを表す主成分であり、この主成分が大きいと「国語・英語・社会タイプ」つまり俗に言う「文化系」であり、小さいと「数学・理科タイプ」つまり「理科系」であることがわかります。 例えば5番目の生徒と16番目の生徒の第2主成分スコアはそれぞれ28.5075と-3.98432であり、前者が文化系で後者が理科系であることがわかります。

ただしこれは20名の生徒の中の相対的なタイプ分けであり、絶対的なものではありません。 例えばこの20名の生徒が全て国語専攻の生徒であり、文化系の科目が得意だとしても、全員の第2主成分が高い値になるわけではありません。 その場合でもやはり平均値が0になり、値が正で文化系と解釈される生徒と、値が負で理科系と解釈される生徒がほぼ半数ずつになります。

表16.2.2を見ると国語と英語と社会はお互いに相関が高く、数学と理科も相関が高いことがわかります。 このことから国語と英語と社会がひとつの学力を反映していて、数学と理科がそれとは別のもうひとつの学力を反映していると考えられます。 そのため第1主成分では国語と英語と社会の重みを数学と理科よりも少し軽くして、2つの学力を公平に合計しています。 そして第2主成分では(国語+英語+社会)-(数学+理科)という形式で2つの学力を比較しているわけです。

ちなみに学力には色々な種類があり、人にも様々な個性があります。 そのため学力を単純に文化系と理科系に2分したり、人の適性を単純に文化系と理科系に2分するのはあまり意味がないことが学問的にわかっています。 日本ではかなり早い段階で子供を文化系と理科系に分けたがるので、本人も周囲もそれを刷り込まれて、そのように思い込んでしまう傾向があるのは実に残念です。

(2) 主成分負荷量

表16.1.1の5科目のデータはテストの得点であり、値の単位も変動範囲も全て同じです。 そのため前述のように主成分スコアの係数を見れば、主成分が表している情報を適切に解釈することができます。 しかし医学・薬学分野で扱うデータは、年齢、身長、体重などのように値の単位も変動範囲も異なるのが普通です。 主成分スコアの係数は各変数が「1」増加した時に主成分スコアがいくつ変化するかを表す値のため、値の単位や変動範囲が違うと直接比較することはできません。

そこで主成分と元のデータとの相関係数を求め、係数の代わりにそれを参考にして主成分が表している情報を解釈するという方法が考えられます。 主成分分析ではその相関係数のことを主成分負荷量(principal component loading)または因子負荷量(factor loading)といいます。 因子負荷量は本来は因子分析で用いる用語ですが、主成分分析でも用いることがあります。 表16.2.1の2種類の主成分について主成分負荷量を求めると表16.2.3のようになり、それをプロットすると図16.2.2のようになります。 (注1) (→17.1 因子と因子分析)

表16.2.3 主成分負荷量と寄与率
変数第1主成分第2主成分寄与率
国語0.5703740.6952880.808751
数学0.858940-0.4491590.939521
英語0.7635940.4215860.760810
理科0.813428-0.1702120.690637
社会0.5634540.7248980.842958
図16.2.2 主成分負荷量のプロット

表16.2.3の右端の寄与率は、第1主成分の主成分負荷量と第2主成分の主成分負荷量をそれぞれ平方して合計した値です。 この値は各変数の情報のうち、2つの主成分によって集約された情報がどの程度の割合になるかを表します。 図16.2.2において各プロットの2つの座標の値が主成分負荷量ですから、これらを平方して合計した寄与率は原点から各プロットまでの距離を平方した値になります。 そのため主成分負荷量のプロットは、原点を中心にして描いた半径1の円の内部に入ります。 そしてプロットがこの円に近いほど寄与率が高くなります。

表16.2.3と図16.2.2を見ると、寄与率は数学が最も高く、理科が最も小さいことがわかります。 もし主成分を全て抽出して5個にすると、全ての変数の寄与率が1(100%)になります。 そして主成分負荷量を5次元座標にプロットすると、全てが半径1の超球面上にプロットされます。

このデータの場合、5個の項目は値の単位も変動範囲も同じなので、主成分スコアの係数と主成分負荷量はほぼ比例します。 そのためどちらの値を参考にして主成分を解釈しても内容は変わりません。 しかし普通は各項目の単位と変動範囲が同じとは限らないため、主成分負荷量を参考にして主成分を解釈するのが合理的です。

(3) クロンバックのα係数

第5章第4節で説明したように、心理学分野や社会学分野で行われるアンケート調査では同じような内容の複数の質問項目の回答を合計して下位尺度という値にし、これをデータとして利用することがよくあります。 この時、下位尺度データの信頼性を表す指標としてクロンバックのα係数(Cronbach's coefficient alpha)という値を用いることがあります。 この値が高ければ合計した複数項目の内部一貫性つまり複数項目の一致性が高くなり、下位尺度データの信頼性が高くなると言われています。 (→5.4 級内相関係数と一致係数17.3 因子分析と尺度開発)

これと同じ趣旨で主成分でもα係数を求め、主成分の信頼性の指標にすることがたまにあります。 ただしこの値は複数項目の一致性を表す指標のため、このデータの第1主成分のようなレベルを表す主成分だけ意味を持ちます。 第2主成分のようなタイプを表す主成分は、異なった情報を持つ項目の差を求め、それによってタイプを表すので複数項目の一致性は必然的に低くなります。

またα係数が1の時、複数項目のデータは全て一致していることになり、ひとつの項目だけあればその他の項目は必要ないということになります。 つまりα係数が1に近いということは、複数項目は情報を重複して持っていて、実際の情報量は見かけよりも少ないということになります。 したがって複数項目の内部一貫性が高いということは、実はそれほど多くの項目を観測しなくても、もっと少ない項目で効率的に情報を集めることができると解釈することも可能です。 そのためα係数は下位尺度の信頼性の指標というよりも、下位尺度の冗長性または重複性の指標と解釈することもできるわけです。

これらのことから、主成分分析におけるα係数は主成分の信頼性の指標として用いるよりも、主成分がレベルを表しているのかタイプを表しているのかを判断する時の参考として用いるのが良いと思います。 実際、このデータについてα係数を求めると次のようになります。 これらの値から第1主成分はレベルを表す主成分であり、第2主成分はタイプを表す主成分であることがわかります。 (注2)

第1主成分:α係数=0.704881  第2主成分:α係数=0.232632

(注1) 主成分負荷量は次のようにして求めることができます。

の単純積和行列:'='[]=[']
の積和行列:['] - ny'=['] - n(')'=
の共分散行列:=Λ
の相関行列=主成分負荷量行列:=c-1/2[Λ]Λ-1/2
ただし:
∴xjとziの主成分負荷量: (j=1,…,p、i=1,…,p)

例えばx2(数学)とz1(第1主成分)の主成分負荷量は次のようになります。

(注2) 主成分のα係数は次のようにして求めることができます。

(j=1,…,p、i=1,…,p)

例えば第1主成分のα係数は次のようになります。