玄関雑学の部屋雑学コーナー統計学入門

6.2 データの要約と多変量解析

(1) 概括評価項目

表6.1.1のデータの中で、脂質異常症の重症度は他の2つと性質が多少異なるデータです。 このデータは他の2つのデータつまりTCとTGを主治医が要約して概括評価したものであり、平均値と同じような要約値の一種です。 医学や薬学分野では、このような概括評価項目にしばしばお目にかかります。

概括評価を行なうには色々な方法があり、個人によってその評価規準が異なっていて当然です。 しかし評価規準がバラバラでは何かと都合が悪いので、主観に頼らない客観的な評価規準を設定するひとつの方法として表6.1.1のTCとTGを数学的に要約して概括評価相当の値を作る方法を考えてみましょう。

一番単純なものは次のように2つのデータを合計する方法です。

z1 = TC + TG = 1×TC + 1×TG

この合計点をそのまま重症度としても、あるいは50刻みに分類するなど何らかの規準を設けてグレード分類し、それを重症度としてもかまいません。 いずれにせよ、それらは一種の脂質異常症総合重症度と呼び得る値です。 (注1)

多少手のこんだものとして、次のようにTGの値を半分にして合計する方法が考えられます。

これは、脂質異常症の判定では食事などの影響で値が変動しやすいTGよりも値が変動しにくいTCの方が重要なので、TGの重みを相対的に軽くして評価した方が実際的であるということを考慮した方法です。 この意味からすればz1はTCとTGをどちらも等しい重みで評価した値であると言えます。

次にちょっと変わったもので、TCとTGの差をとる方法を考えてみましょう。

z3 = TC - TG = 1×TC + (-1)×TG

この値は一体どういう意味を持つ要約値でしょうか? この値が正の大きな値になった時はTCが高くてTGが低く、負の大きな値になった時は逆にTCが低くてTGが高いことを表します。 したがってこの値は脂質異常症のタイプあるいはプロフィールまたはシェイプを表す要約値であると考えられます。 これはz1のような総合重症度とは別の情報を要約した相補的関係にある値であり、場合によっては非常に役立つものです。

例えばz1がある値以上の時を脂質異常症と判定し、そのような症例についてz3を計算したとします。 するとこの値によって脂質異常症のタイプを次のように大雑把に分類することができます。

z3:正で絶対値が大 … 高コレステロール血症(IIa型高脂血症)
z3:絶対値が小さい … 高コレステロール・高トリグリセリド血症(IIb型高脂血症)
z3:負で絶対値が大 … 高トリグリセリド血症(IV型高脂血症)

(2) 概括評価の幾何学的意味

以上のことを目に見えるようにグラフ化してみましょう。 表6.1.1のTCをX1軸に、TGをX2軸にしてデータをプロットすると図6.2.1のようになります。

図6.2.1 TCとTGの散布図

幾何学的に見るとTCとTGを合計した値z1は、45度の傾きを持つ直線x2=x1に各プロットから垂線を下し、原点からその点までの距離に√2をかけた値になります。 またTCとTGの差をとった値z3は、-45度の傾きを持つ直線x2=-x1に各プロットから垂線を下し、原点からその点までの距離に√2をかけた値になります。 図6.2.1からz1とz3が全く別の情報を要約したものであり、互いに相補的関係にあることが何となく理解できると思います。 (注2)

人間が概括評価を行なう時も、これと同じように各々のデータに適当な重みをつけて総合していることが多いと思います。 そしてその時の評価規準すなわち各データの重みは、その人間の頭脳に蓄えられた知識や経験に基いた「勘ピュータ」によって設定されます。 一言で言えば多変量解析は勘ピュータによって設定された評価規準の構造を分析したり、データに基いて数学的に評価規準を決めたりする手法です。

多変量解析は計算量が多いので、ほとんどの場合はコンピュータによって計算します。 でもいかんせんコンピュータは機械的思考オンリーの石頭ゆえ、客観的ではあるものの、医学・薬学的見地から見て科学的とはいえない評価規準を選びがちです。 そんな時にはコンピュータを責めずに元のデータをもう一度吟味し、データに含まれているゴミを取り除くなり、勘ピュータによってデータを要約し直すなりしましょう。

一般に信じられている迷信とは反対に、コンピュータが人間の勘ピュータにとうてい太刀打ちできないことはコンピュータ研究者には周知の事実です。 コンピュータは単にプログラマーが命じたプログラム通りに動く情報処理装置にすぎず、想像力とか洞察力のような知的能力を持っているわけではありません。

「チェスでコンピュータがチャンピオンに勝った!」というのは、本当は「(チェス名人の協力を得て)プログラマが作ったチェスプログラムがチャンピオンに勝った!」という意味であり、基本的には人間対人間の戦いです。 それを「人間がコンピュータに負けた!」といって大騒ぎする人達は、おそらくコンピュータの作動原理とプログラムというものの存在を知らないか、それとも自らの頭で物事を考え出す能力よりも、命じられたことを機械的に忠実に行う能力の方がより知的で優れていると思っているのでしょう。


(注1) 第2章第6節で説明したように、特別な理由がない限りグレーディングなどはしない方が賢明です。 せっかくデータが持っている貴重な情報をグレーディングなどでツブしてしまうことはありません。 実にもったいない話です。 (→2.6 尺度合わせと外れ値)

(注2) これらのことをより深く理解し、多変量解析を本格的に理解するにはベクトルと行列の知識が必要不可欠になります。 ベクトルと行列については、ここと同じ雑学コーナーに展示してある「ベクトルと行列」をご覧ください。 図6.2.1の意味を理解するためだけなら第1章〜第6章を読むだけで十分です。

…というわけで「ベクトルと行列」を読んでいただいたことにして、多変量解析の準備として基本統計量をベクトルと行列を用いて表現しておきましょう。 n例の症例についてp個の項目を測定したデータがあった時、それらはp個の項目ベクトルとも、n個の症例ベクトルともとらえることができ、次のようなデータ行列として表現することができます。

データ行列:   
item-j:第j番目の項目ベクトル(列ベクトル)   case-i':第i番目の症例ベクトル(行ベクトル)

図6.2.1のようなグラフではデータをp次元ベクトル空間におけるn個の症例ベクトルととらえることが多く、症例を点でプロットします。 しかし多変量解析では主としてn次元ベクトル空間におけるp個の項目ベクトルととらえます。 その観点で、ある項目のデータとその合計および平均値をベクトルで表現すると次のようになります。

データベクトル:      1ベクトル:   1/nベクトル:
合計:   平均値:

このように合計はベクトルnとデータベクトルの内積になり、平均値はそれをベクトル空間の次元数nで割ったもの、つまりn/nとの内積になります。 「ベクトルと行列・第4章」で説明しているように、ベクトルの内積はのなす角をθとすると‖‖‖‖cosθになります。 そして「ベクトルと行列・第6章」で説明しているように、に正射影したベクトルはを定数倍したaになり、その係数aは2つのベクトルの内積'を‖2で割った値になります。 この係数aはに正射影した時の影の長さ‖‖cosθを‖‖で割った値であり、を座標軸と考え、‖‖を1単位とした時のの座標値に相当します。

例えばnに正射影したベクトルは、次のようにnを平均値m倍した平均値ベクトルnになります。


平均値ベクトル:

図6.2.3を見るとわかるように、nは全ての直交座標軸と45度で交わる1次元部分空間上のベクトルです。 そしてこの1次元部分空間は「もし全てのデータが同じ値だとしたらどんな値になるか?」という具体的な意味を持つ空間です。 つまり平均値を求めるという操作はnの内積を求めて、それをベクトル空間の次元数で割るという操作であると同時に、nが存在する1次元部分空間に正射影して平均値ベクトルnを求める操作にも相当するわけです。

またnの各成分であるデータxiの出現度数に相当するので出現度数ベクトルと解釈できます。 それに対してn/nはxiの出現確率に相当するので出現確率ベクトルと解釈できます。 第1章・第3節で説明したように、平均値はデータにその出現確率を掛けて合計した期待値E(x)に相当します。 そして各データの出現度数や出現確率が異なる時は、一見すると出現度数ベクトルや出現確率ベクトルはnが存在する1次元部分空間上には存在しないように思えるかもしれません。 (→1.3 データの要約方法 (注3))

しかし例えばk種類のデータがあり、出現度数がそれぞれ異なっているとします。 この時、全ての出現度数の合計度数をnとすると、データは全部でn個あり、その中で同じ値のデータがk組あると解釈できます。 その場合、出現度数ベクトルの成分は全て1でn個あり、データベクトルの成分もn個あり(ただし同じ値の成分の組がk個ある)、これらのベクトルはn次元ベクトル空間上に存在します。


すると出現度数ベクトルはやはりnに、出現確率ベクトルはn/nになり、どちらもnが存在する1次元部分空間上に存在します。 したがってデータの出現度数または出現確率が異なっていても、平均値つまり期待値を求めるという操作はnが存在する1次元部分空間に正射影してnを求める操作に相当します。

またデータが無限個ある時の期待値は母平均に相当します。 その場合は無限次元のヒルベルト空間(Hilbert space)上に、確率関数p(x)と無限の成分を持つデータベクトルが存在することになります。 そしてp(x)は無限個の⊿p(無限小の確率値)に分解できて、やはりが存在する1次元部分空間上に存在します。 (→「ベクトルと行列・第10章 フーリエ展開」)

次に偏差ベクトルは次のようになり、これは平均値ベクトルnと直交します。 したがってデータの平均値と偏差を求めることは、データベクトルを平均値ベクトルnと偏差ベクトルに直交分解していることに相当します。

偏差ベクトル:

= n +   n

この時、偏差ベクトルが存在する部分空間は平均値ベクトルnが存在する1次元部分空間の直交補空間になり、次元数が(n-1)になります。 前述のように、nが存在する1次元部分空間は「もし全てのデータが同じ値だとしたらどんな値になるか?」という具体的な意味を持つ空間です。 しかしが存在する(n-1)次元部分空間は、偏差の原因がわからない限り具体的な意味を持たない誤差空間または残差空間です。

図6.2.2 データベクトルの直交分解 図6.2.3 データベクトルの直交分解例
     

さらに平方和と分散は次のようになります。

平方和:
分散:

このように分散は偏差ベクトルの大きさの平方を部分空間の次元数で割った値になります。 これは次のようにを部分空間の正規直交基底1、…、i、…、n-1で直交分解した時の、各分解ベクトルの大きさの平方を平均したものになります。

  

またnを直交分解したベクトルなので、次のようなことが成り立ちます。

= n+

dim{Rn} = n = dim{R1}+dim{Rn-1} = 1+(n-1)

このことからベクトルの大きさの平方は平方和に、ベクトル空間の次元は自由度に相当し、平方和の相加性はピタゴラスの定理に基づいていることがわかります。 不偏分散を計算する時、平方和を例数ではなく自由度で割る理由は、平方和がベクトルの大きさの平方に相当し、自由度がベクトル空間の次元に相当し、ベクトルの大きさの平方を1次元あたりの値にしたものが分散に相当するからです。 またベクトルはデータの集まりなので情報と考えると、ベクトルの大きさの平方は情報量に相当し、ベクトル空間の次元は情報の担い手の数に相当し、分散は1担い手あたりの情報量つまり情報密度に相当すると解釈できます。

標準偏差は次のようにの大きさを部分空間の次元数の平方根で割った値になります。 このように統計学では平方した値と例数が比例し、元の値は例数の平方根と比例することがしばしばあります。 これはピタゴラスの定理からわかるようにベクトルの大きさが次元数の平方根に比例するからです。 またデータを標準化すると、偏差ベクトルを‖‖で割って大きさを1に規準化し、それを次元数の平方根倍したものになります。

標準偏差:
標準化データ:   の標準偏差:

検定統計量tとFは次のようになり、tは1次元あたりのnの大きさを1次元あたりのの大きさで割った値になります。 そして平均値の検定はt値が2以上あれば有意水準5%で有意になるので、1次元あたりの平均値ベクトルの大きさが1次元あたりの偏差ベクトルの大きさの2倍以上あれば、平均値は数学的に95%以上信頼できると判断していることになります。

検定統計量:   
nの次元は1なので‖n‖=m√nを√nで割る必要はない。

また積和と共分散、そして相関係数は次のようになります。

積和:
共分散:
相関係数:

図6.2.4 相関係数の幾何学的解釈 図6.2.5 ベクトルの角度と相関係数

このように積和は2つの偏差ベクトルの内積になり、共分散はそれを次元数で割って1次元あたりの値にしたものになります。 そして2つの標準化ベクトルxyの共分散つまり相関係数は大きさを1に規準化した偏差ベクトルの内積になり、これは2つの規準化された偏差ベクトルをお互いに正射影した時の影の長さ、つまり2つの偏差ベクトルがなす角θの余弦(cosθ)になります。 したがって相関係数が0つまり無相関の時、xyは直交します。 このことから相関がないことを直交すると表現する時があります。

一方、xからyを推定する時の回帰直線の回帰係数と、yからxを推定する時の回帰直線の回帰係数は次のようになります。 この式から回帰係数は一方の偏差ベクトルを他方の偏差ベクトルに正射影した時の影の長さを、他方のベクトルの大きさで割って1単位あたりにした値と考えることができます。

x → yの回帰係数:
y → xの回帰係数:

またこの式から2つの偏差ベクトルの大きさが同じ、つまりxとyの分散が同じなら回帰係数と相関係数は一致することがわかります。 そしてxとyの標準化ベクトルは大きさが同じなので、xとyを標準化した時の回帰係数つまり標準回帰係数は相関係数と一致します。 したがって相関係数は2つの標準化したデータの回帰係数に一致し、それは2つの規準化された偏差ベクトルをお互いに正射影した時の影の長さ(cosθ)に相当すると考えることができます。 これらのことは、図6.2.5を見れば何となく感覚的にとらえることができると思います。

ちなみに余弦定理から、xyとその差ベクトル[x-y]と和ベクトル[x+y]について次のような関係が成り立ちます。 そしてこれらの式の両辺を(n-1)で割ることによって、合成変量の分散の式を導くことができます。 (→1.3 データの要約方法 (注4))

x-y2 = ‖x2 + ‖y2 - 2cos(θ)‖x‖‖y‖ = x'x + y'y - 2x'y
x+y2 = ‖x2 + ‖y2 - 2cos(π-θ)‖x‖‖y‖ = x'x + y'y + 2x'y

さらにエーベルの級内相関係数は次のようになります。

エーベルの級内相関係数:
x'yxy上に正射影した時の影の長さ‖x‖cosθを‖y‖倍した値 → ‖x‖cosθを1辺とし、‖y‖をもう1辺とする長方形の面積
x'x=‖x2:‖x‖を1辺とする正方形の面積   y'y=‖y2:‖y‖を1辺とする正方形の面積
x=yの時、x'yは最大値‖x2=‖y2になる → この時、2x'y=x'x+y'yとなりr11=1になる
-1 ≦ r11 ≦ 1  r:相関係数  rV:分散一致係数

このようにr11xyが一致している程度を表す指標、つまり偏差ベクトルが一致している程度を表す指標と解釈することができます。 そしてこの値の相関係数rの後ろのrVは、‖x2と‖y2の幾何平均と算術平均の比になっています。 この値はxyの大きさが等しい時だけ1になり、等しくない時は1よりも小さな値になり、一方の大きさが0の時は0になります。 したがってrVは偏差ベクトルの大きさの平方、つまり平方和の一致度を表す値と解釈することができます。 ただしこの場合、2つの偏差べクルトの次元数が等しいため、この値は分散の一致度を表す値にもなるので分散一致係数と呼ぶことにします。

このようにエーベルの級内相関係数r11は、2つの偏差ベクトルのなす角の一致度を表す相関係数rと、2つの偏差ベクトルの大きさの平方の一致度を表す分散一致係数rVの積として表すことができます。 (→4.ベクトル空間 3) 内積の幾何学的解釈5.4 級内相関係数と一致係数 (注1)12.6 周期共分散分析 (注2))

またに影響を与える第3のデータベクトルがあると、もう少し複雑な相関関係が考えられます。 この場合、の相関係数を求めた時の偏差ベクトルxyに、さらに偏差ベクトルzを考えると、これらの偏差ベクトルは全てnの直交補空間Rn-1上にあります。 そしてxyのなす角θdx-dyの余弦(cos)がの相関係数になります。

図6.2.6 偏相関係数と部分相関係数

ここでxyzに正射影したベクトルxzyzxyの直交分解に相当し、zからxyを推測する回帰ベクトルになります。 そしてxyzの直交補空間R⊥zn-2に正射影したベクトルx⊥zy⊥zは、xyからzの影響を取り除いたベクトルに相当します。 そのためx⊥zy⊥zのなす角θdx⊥z-dy⊥zの余弦はxyからzの影響を取り除いた時のxとyの相関係数に相当します。 これをxとyの偏相関係数(partial correlation coefficient)といい、rx/z・y/zと書きます。 偏相関係数はxとyの両方に影響を与える変数zがある時、zの影響を取り除いてxとyの相関関係を検討する時に有効な指標です。








(1-ryz2) ≦ 1 → rx/z・y ≧ rx/z・y/z
※直感的には θdx⊥z-dy ≧ θdx⊥z-dy⊥z → rx/z・y ≧ rx/z・y/z

さらにx⊥zyのなす角θdx⊥z-dyの余弦はだけからの影響を取り除いた時のxとy相関係数に相当します。 これをxとyの部分相関係数(part correlation coefficient)といい、rx/z・yと書きます。 図6.2.6からわかるようにθdx⊥z-dyは必ずθdx⊥z-dy⊥z以上の角度になるので、部分相関係数は必ず偏相関係数以上の値になります。 部分相関係数はxだけに直接的な影響を与え、yには直接的な影響は与えない変数zがある時に、xからzの影響を取り除いてyとの相関関係を検討する時に有効な指標です。