統計学入門−第16章

第6章第2節で説明したように、医学や薬学分野では多数の評価項目を主観で総合した概括評価項目にしばしばお目にかかります。しかし心理学や社会学分野では、主観による概括評価項目の代わりにできるだけ客観的な概括評価項目を使用する傾向があります。

医学・薬学分野では評価項目そのものは臨床検査値のような客観的なデータが多いものの、その解釈に医学的な経験が必要であり、数値では表すことができない患者の様々な情報も概括評価項目に反映することがよくあります。それに対して心理学・社会学分野では評価項目そのものが主観に基づくものが多く、それらをさらに主観で総合して概括評価するとあまりに恣意的になってしまいがちです。医学・薬学分野で主観による概括評価項目が多用されるのに対して、心理学・社会学分野では客観的な概括評価項目が使用される傾向が強いのは、そのようなことが要因のひとつではないかと思います。 (→6.2 データの要約と多変量解析)

例えば、ある学校で20名の生徒を対象にして5科目のテストを行い、その結果が表16.1.1のようになったとします。このような時、普通は概括評価項目として合計点を用います。しかし科目間に関連性がある——例えば国語の成績が良いと英語の成績も良いという関係がある——と、単純な合計点は特定の学力(この場合は語学力)を偏重した概括評価になってしまう恐れがあります。

表16.1.1 テスト結果
生徒ID	国語	数学	英語	理科	社会	合計点
1	72	80	88	56	71	367
2	53	88	62	70	44	317
3	44	25	50	38	60	217
4	29	34	43	24	38	168
5	66	29	66	37	73	271
6	51	52	43	72	65	283
7	73	38	75	40	81	307
8	69	71	52	63	70	325
9	35	65	58	50	66	274
10	42	28	46	29	44	189
11	57	25	38	41	50	211
12	55	30	40	32	45	202
13	49	61	66	45	62	283
14	73	95	81	85	77	411
15	63	36	74	77	65	315
16	50	41	60	67	53	271
17	42	71	55	52	38	258
18	57	55	53	46	52	263
19	81	47	78	48	78	332
20	66	45	49	40	63	263
平均値	56	51	59	51	60	276

そこで科目間の関連性を考慮して、特定の学力に偏重しないように各科目に適当な重みを付けて合計点を求め、それを概括評価項目にすることが考えられます。その重みをデータに基づいて決定し、概括評価項目を数学的に求める手法を主成分分析(PCA：Principal Component Analysis)といい、求めた概括評価項目を主成分(principal component)といいます。

(2) 主成分の概念

主成分の概念を幾何学的に表すと図16.1.1のようになります。この図の横軸は評価項目x₁、縦軸は評価項目x₂で、お互いに関連性があります。この2つの評価項目を総合する時、情報の損失を最も少なくするような総合の仕方として楕円状に分布するプロットの長軸に各プロットを正射影する方法が考えられます。この時の楕円の長軸をz₁軸とすると、この軸に各プロットを正射影したものが主成分になります。

この主成分では各プロットと楕円の長軸との距離が情報の損失分に相当します。そしてx₁とx₂の相関係数が1つまり完全に関連している時は楕円が潰れて長軸に一致し、各プロットは楕円の長軸上に並びます。この時、x₁とx₂は同じ情報を持っていて、それが主成分に損失なく集約されます。

一方、楕円の短軸に各プロットを正射影して2つの評価項目を総合する方法も考えられます。この時、楕円の短軸をz₂軸とすると、この軸に各プロットを正射影したものも主成分になります。この主成分はz₁軸に正射影した主成分の情報損失分を集約したものであり、z₁軸のものを第1主成分と呼ぶのに対して第2主成分と呼びます。

図16.1.1からわかるように、z₁軸とz₂軸は直交するので第1主成分と第2主成分は独立になり、お互いに独立した情報を集約したものになります。そして第6章第2節で説明した概括評価項目z₁とz₃のように、第1主成分は2つの評価項目の合計点のようなもの、つまりレベルまたはサイズを表すものになり、第2主成分は2つの評価項目の差のようなもの、つまりタイプまたはシェイプを表すものになります。主成分分析では、たいていこのようにレベルを表す主成分とタイプを表す主成分が求められます。

(3) 主成分分析の実例

表16.1.1のデータに主成分分析を適用すると、次のような結果になります。 _(注1)

固有値(eigen value)は主成分の分散つまりバラツキ具合のことであり、この値が大きいほど多くの情報を集約していることを表します。また寄与率は固有値を全項目の分散の合計で割った値であり、主成分が全情報のうちのどの程度の割合の情報を集約しているかを表します。上記の結果から第1主成分は5教科の情報の約58％を集約していて、第2主成分は約25％を集約していることと、これら2つの主成分で全情報の約83％を集約していることがわかります。

図16.1.1からわかるように、主成分は項目数と同じ数だけ求めることができます。しかし主成分は多数の評価項目を総合して評価するためのものなので、本来は1つだけというのが理想です。ところがその主成分に集約された情報が少ないと重要な情報を見落としてしまう恐れがあります。そこで寄与率が大きい主成分から順番に求めていき、累積寄与率が大きくなったら——通常は80％以上——以後の主成分は無視するのが普通です。このデータの場合は2つの主成分の累積寄与率が約83％あるので、これで十分な情報を集約していると考えて良いと思います。

なおどちらの主成分スコア(主成分得点)の式にも切片があります。これは主成分スコアの平均値を0にするためのものであり、場合によっては切片を付けない時もあります。主成分スコアは絶対値に意味があるのではなく、相対的な大きさに意味があります。そのため全体の平均値を0にした方が解釈が簡単になるのです。

(注1)　主成分は次のようにして導出します。

データ行列：

　　平均値ベクトル：

単純積和行列：Ｘ'Ｘ　　積和行列：Ｓ = Ｘ'Ｘ - nｍｍ'
(分散)共分散行列：

相関行列：Ｒ = Ｄ_c^-1/2ＶＤ_c^-1/2
ただし

ここで、p次元の症例ベクトルｘ_i.'を単位ベクトル(大きさが1のベクトル)ａ上に正射影した1次元の合成変量をy_iとします。

y_i = ｘ_i.'ａ

ただしａ'ａ = 1

このy_iの情報集約分を最大にする、つまり分散を最大化する時のａを求めれば、それが第1主成分軸になります。それはラグランジュ(Labrange)の未定乗数法を用いて求めることができます。

y_iの分散：

ラグランジュの未定乗数法の束縛条件：ａ'ａ = 1
h(ａ,λ) = ａ'Ｖａ - λ(ａ'ａ - 1) → 最大化

と置くと [Ｖ - λＩ_p]ａ=０_p
ただし

：単位行列
ａ ≠ ０_pより　[Ｖ - λＩ_p]=０_p
これは|Ｖ - λＩ_p| = 0という固有方程式の根を求める固有値問題になる

固有値問題と固有値および固有ベクトルの求め方については「ベクトルと行列」の「9.固有値と固有ベクトル」を参照してください。この固有方程式を解いてＶの最大固有値λ₁とその固有ベクトルａ₁を求めれば、ａ₁が第1主成分軸になります。そしてこれらを用いて第1主成分の分散と主成分スコアの係数を求めることができます。

λ₁とａ₁をh(ａ,λ)の偏微分方程式に代入する：2Ｖａ₁ - 2λ₁ａ₁ = ０_p
この式にａ₁を前掛する：ａ₁'Ｖａ₁ - λ₁ａ₁'ａ₁ = 0
∴ａ₁'Ｖａ₁ = λ₁
第1主成分軸：ａ₁ 　　第1主成分の分散：ａ₁'Ｖａ₁ = λ₁
第1主成分スコア：z_1i = y_i - m_y = -m_y + ｘ_i'ａ₁ (切片-m_yを付けない場合もある)

次に第1主成分と独立つまりａ₁と直行し、かつ分散を最大化する時のａを求めれば、それが第2主成分軸になります。これもラグランジュの未定乗数法を用いて求めることができます。

ラグランジュの未定乗数法の束縛条件：ａ'ａ = 1 かつａ'ａ₁ = 0
h(ａ,λ,θ) = ａ'Ｖａ - λ(ａ'ａ - 1) - θ(ａ'ａ₁-0) → 最大化

と置くと [Ｖ - λＩ_p]ａ = θａ₁
この式にａ₁を前掛する：ａ₁'Ｖａ - λａ₁'ａ = θａ₁'ａ₁
λａ₁'ａ - λａ₁'ａ = θ より θ = 0
∴[Ｖ - λＩ_p]ａ = ０

これは第1主成分と同様の固有値問題になり、Ｖの2番目に大きな固有値λ₂とその固有ベクトルａ₂を求めればａ₂が第2主成分軸になります。そしてこれらを用いて第2主成分の分散と主成分スコアの係数を求めることができます。

第2主成分軸：ａ₂ 　　第2主成分の分散：ａ₂'Ｖａ₂ = λ₂
第2主成分スコア：z_2i = -m_y2 + ｘ_i'ａ₂

以下、同様にして第p主成分まで求めることができます。そしてp個の固有ベクトルを列ベクトルとする(p×p)の行列をＡとし、それに対応するp個の合成変量y_iを要素とする(n×p)の行列をＹとすると、これらと元のデータ行列Ｘの間には次のような関係があります。

　　Ａ^-1 = Ａ'

　　Ｙ = ＸＡ
Ｙの単純積和行列：Ｙ'Ｙ = [ＸＡ]'[ＸＡ] = Ａ'[Ｘ'Ｘ]Ａ
Ｙの積和行列：Ａ'[Ｘ'Ｘ]Ａ - nｍ_yｍ_y' = Ａ'[Ｘ'Ｘ]Ａ - n(Ａ'ｍ)(Ａ'ｍ)' = Ａ'[Ｘ'Ｘ - nｍｍ']Ａ = Ａ'ＳＡ
Ｙの共分散行列：

このように、主成分分析はＸを正規直交行列Ａで表される直交座標系に直交変換してＹを求めることに相当します。この時、Ｘの情報はＹに全て集約されます。そのためp個の主成分の分散つまり固有値を合計するとp個の変数の分散の合計と一致し、累積寄与率が100％になります。ただし、普通は主成分の累積寄与率が80％以上になったところで主成分の抽出を終了します。なお正規直交行列と直交変換については「ベクトルと行列」の「6.ベクトルの直交分解と直交変換」を参照してください。

表16.1.1のデータについて実際に計算すると次のようになります。

x₁〜x₅の分散合計 = 194.87 + 468.38 + 212.66 + 284.67 + 182.09 = 1342.68
(1) Ｖの最大固有値とその固有ベクトルをベキ乗法によって求める
第1固有値：λ₁ = 779.122　(寄与率 = 779.122/1342.68 = 0.580276)
固有ベクトル：

主成分の平均値：ｍ'ａ₁ = 114.538
主成分スコア：z_1i = -114.538 + 0.2852530x_i1 + 0.6659759x_i2 + 0.3989357x_i3 + 0.4916883x_i4 + 0.2723964x_i5
(2) 次の固有値と固有ベクトルをベキ乗法によって求める
Ｖの更新：

第2固有値：λ₂ = 330.428　(寄与率 = 330.428/1342.68 = 0.246097　累積寄与率 = 0.826372)
固有ベクトル：

主成分の平均値：ｍ'ａ₂ = 46.9847948
主成分スコア：z_2i = -46.9847948 + 0.5339487x_i1 - 0.5347619x_i2 + 0.3382138x_i3 - 0.1579885x_i4 + 0.5381260x_i5

第2主成分までの累積寄与率が80％以上になったので、これで主成分の抽出を終了します。

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

第16章　主成分分析

16.1 主成分と主成分分析

(1) 概括評価項目と主成分

(2) 主成分の概念

(3) 主成分分析の実例

第16章 主成分分析

16.1 主成分と主成分分析

(1) 概括評価項目と主成分

(2) 主成分の概念

(3) 主成分分析の実例

第16章　主成分分析