玄関雑学の部屋雑学コーナー統計学入門

6.2 データの要約と多変量解析

(1) 概括評価項目

表6.1.1のデータの中で、脂質異常症の重症度は他の2つと性質が多少異なるデータです。 このデータは他の2つのデータつまりTCとTGを主治医が要約して概括評価したものであり、平均値と同じような要約値の一種です。 医学や薬学分野では、このような概括評価項目にしばしばお目にかかります。

概括評価を行なうには色々な方法があり、個人によってその評価規準が異なっていて当然です。 しかし評価規準がバラバラでは何かと都合が悪いので、主観に頼らない客観的な評価規準を設定するひとつの方法として、表6.1.1のTCとTGを数学的に要約して概括評価相当の値を作る方法を考えてみましょう。

一番単純なものは次のように2つのデータを合計する方法です。

z1=TC + TG=1×TC + 1×TG

この合計点をそのまま重症度としても、あるいは50刻みに分類するなど何らかの規準を設けてグレード分類し、それを重症度としてもかまいません。 いずれにせよ、それらは一種の脂質異常症総合重症度と呼び得る値です。 (注1)

多少手のこんだものとして、次のようにTGの値を半分にして合計する方法が考えられます。

これは、脂質異常症の判定では食事などの影響で値が変動しやすいTGよりも値が変動しにくいTCの方が重要なので、TGの重みを相対的に軽くして評価した方が実際的であるということを考慮した方法です。 この意味からすれば、z1はTCとTGをどちらも等しい重みで評価した値であると言えます。

次にちょっと変わったもので、TCとTGの差をとる方法を考えてみましょう。

z3=TC - TG=1×TC + (-1)×TG

この値は一体どういう意味を持つ要約値でしょうか? この値が正の大きな値になった時はTCが高くてTGが低く、負の大きな値になった時は逆にTCが低くてTGが高いことを表します。 したがってこの値は脂質異常症のタイプあるいはプロフィールまたはシェイプを表す要約値であると考えられます。 これはz1のような総合重症度とは別の情報を要約した相補的関係にある値であり、場合によっては非常に役立つものです。

例えばz1がある値以上の時を脂質異常症と判定し、そのような症例についてz3を計算したとします。 するとこの値によって、脂質異常症のタイプを次のように大雑把に分類することができます。

z3:正で絶対値が大 … 高コレステロール血症(IIa型高脂血症)
z3:絶対値が小さい … 高コレステロール・高トリグリセリド血症(IIb型高脂血症)
z3:負で絶対値が大 … 高トリグリセリド血症(IV型高脂血症)

(2) 概括評価の幾何学的意味

以上のことを目に見えるようにグラフ化してみましょう。 表6.1.1のTCをX1軸に、TGをX2軸にしてデータをプロットすると図6.2.1のようになります。

図6.2.1 TCとTGの散布図

幾何学的に見るとTCとTGを合計した値z1は、45度の傾きを持つ直線x2=x1に各プロットから垂線を下し、原点からその点までの距離に√2をかけた値になります。 またTCとTGの差をとった値z3は、-45度の傾きを持つ直線x2=-x1に各プロットから垂線を下し、原点からその点までの距離に√2をかけた値になります。 図6.2.1からz1とz3が全く別の情報を要約したものであり、互いに相補的関係にあることが何となく理解できると思います。 (注2)

人間が概括評価を行なう時も、これと同じように各々のデータに適当な重みをつけて総合していることが多いと思います。 そしてその時の評価規準すなわち各データの重みは、その人間の頭脳に蓄えられた知識や経験に基いた「勘ピュータ」によって設定されます。 一言で言えば多変量解析は勘ピュータによって設定された評価規準の構造を分析したり、データに基いて数学的に評価規準を決めたりする手法です。

多変量解析は計算量が多いので、ほとんどの場合はコンピュータによって計算します。 でもいかんせんコンピュータは機械的思考オンリーの石頭ゆえ、客観的ではあるものの、医学・薬学的見地から見て科学的とはいえない評価規準を選びがちです。 そんな時にはコンピュータを責めずに元のデータをもう一度吟味し、データに含まれているゴミを取り除くなり、勘ピュータによってデータを要約し直すなりしましょう。

一般に信じられている迷信とは反対に、コンピュータが人間の勘ピュータにとうてい太刀打ちできないことはコンピュータ研究者には周知の事実です。 コンピュータは単にプログラマーが命じたプログラム通りに動く情報処理装置にすぎず、想像力とか洞察力のような知的能力を持っているわけではありません。

「チェスでコンピュータがチャンピオンに勝った!」というのは、本当は「(チェス名人の協力を得て)プログラマが作ったチェスプログラムがチャンピオンに勝った!」という意味であり、基本的には人間対人間の戦いです。 それを「人間がコンピュータに負けた!」といって大騒ぎする人達は、おそらくコンピュータの作動原理とプログラムというものの存在を知らないか、それとも自らの頭で物事を考え出す能力よりも、命じられたことを機械的に忠実に行う能力の方がより知的で優れていると思っているのでしょう。


(注1) 第2章第6節で説明したように、特別な理由がない限りグレーディングなどはしない方が賢明です。 せっかくデータが持っている貴重な情報をグレーディングなどでツブしてしまうことはありません。 実にもったいない話です。 (→2.6 尺度合わせと外れ値)

(注2) これらのことをより深く理解し、多変量解析を本格的に理解するにはベクトルと行列の知識が必要不可欠になります。 ベクトルと行列については、ここと同じ雑学コーナーに展示してある「ベクトルと行列」をご覧ください。 図6.2.1の意味を理解するためだけなら第1章〜第6章を読むだけで十分です。

…というわけで「ベクトルと行列」を読んでいただいたことにして、多変量解析の準備として基本統計量をベクトルと行列を用いて表現しておきましょう。 n例の症例についてp個の項目を測定したデータがあった時、それらはp個の項目ベクトルとも、n個の症例ベクトルともとらえることができ、次のようなデータ行列として表現することができます。

データ行列:   
item-j:第j番目の項目ベクトル(列ベクトル)   case-i':第i番目の症例ベクトル(行ベクトル)

図6.2.1のようなグラフではデータをp次元ベクトル空間におけるn個の症例ベクトルととらえることが多く、症例を点でプロットします。 しかし多変量解析では主としてn次元ベクトル空間におけるp個の項目ベクトルととらえます。 その観点で、ある項目のデータとその平均値をベクトルで表現すると次のようになります。

データベクトル:      1ベクトル:
合計:   平均値:

このように平均値はベクトルnとデータベクトルの内積をベクトル空間の次元数nで割ったものになります。 「ベクトルと行列・第4章」で説明しているように、内積とはあるベクトルを別のベクトルに射影した時の影の長さに相当します。 そのため平均値を求めることはnに射影して、その影の長さを求めることに相当します。 そしてnは基本ベクトル1に対応する基本的な座標軸を45度回転し、それをn次元に拡張した座標軸に対応します。 したがってn上に正射影した時の影ベクトルをanとすると、直交分解の式より、これは平均値を成分とする平均値ベクトルnになります。


… 平均値ベクトル

偏差ベクトルは次のようになり、これは平均値ベクトルnと直交します。 したがってデータの平均値と偏差を求めることは、データベクトルを平均値ベクトルnと偏差ベクトルに直交分解していることに相当します。

偏差ベクトル:

=n +   n

この時、偏差ベクトルが存在する部分空間は平均値ベクトルnが存在する1次元部分空間の直交補空間になり、次元数が(n-1)になります。 nが存在する1次元部分空間は「もし全てのデータが同じ値だとしたらどんな値になるか?」という具体的な意味を持つ空間です。 しかしが存在する(n-1)次元部分空間は、偏差の原因がわからない限り具体的な意味を持たない誤差空間または残差空間です。

図6.2.2 データベクトルの直交分解 図6.2.3 データベクトルの直交分解例
     

次に平方和と分散は次のようになります。

平方和:
分散:

このように分散は偏差ベクトルの大きさの平方を部分空間の次元数で割った値になります。 これは次のようにを部分空間の正規直交基底1、…、i、…、n-1で直交分解した時の、各分解ベクトルの大きさの平方を平均したものになります。

  

またnを直交分解したベクトルなので、次のようなことが成り立ちます。

=n+

dim{Rn}=n=dim{R1}+dim{Rn-1}=1+(n-1)

このことからベクトルの大きさの平方は平方和に、ベクトル空間の次元は自由度に相当し、平方和の相加性はピタゴラスの定理に基づいていることがわかります。 不偏分散を計算する時、平方和を例数ではなく自由度で割る理由は、平方和がベクトルの大きさの平方に相当し、自由度がベクトル空間の次元に相当し、ベクトルの大きさの平方を1次元あたりの値にしたものが分散に相当するからです。 またベクトルはデータの集まりなので情報と考えると、ベクトルの大きさの平方は情報量に相当し、ベクトル空間の次元は情報の担い手の数に相当し、分散は1担い手あたりの情報量つまり情報密度に相当すると解釈できます。

標準偏差は次のようにの大きさを部分空間の次元数の平方根で割った値になります。 このように統計学では平方した値と例数が比例し、元の値は例数の平方根と比例することがしばしばあります。 これはピタゴラスの定理からわかるようにベクトルの大きさが次元数の平方根に比例するからです。 またデータを標準化すると、偏差ベクトルを‖‖で割って大きさを1に規準化し、それを次元数の平方根倍したものになります。

標準偏差:
標準化データ:   の標準偏差:

検定統計量tとFは次のようになり、tは1次元あたりのnの大きさを1次元あたりのの大きさで割った値になります。 そして平均値の検定はt値が2以上あれば有意水準5%で有意になるので、1次元あたりの平均値ベクトルの大きさが1次元あたりの偏差ベクトルの大きさの2倍以上あれば、平均値は数学的に95%以上信頼できると判断していることになります。

検定統計量:   
nの次元は1なので‖n‖=m√nを√nで割る必要はない。

また積和と共分散、そして相関係数は次のようになります。

積和:
共分散:
相関係数:

図6.2.4 相関係数の幾何学的解釈 図6.2.5 ベクトルの角度と相関係数

このように積和は2つの偏差ベクトルの内積になり、共分散はそれを次元数で割って1次元あたりの値にしたものになります。 そして2つの標準化ベクトルxyの共分散つまり相関係数は大きさを1に規準化した偏差ベクトルの内積になり、これは2つの規準化された偏差ベクトルをお互いに正射影した時の影の長さ、つまり2つの偏差ベクトルがなす角θの余弦(cosθ)になります。 したがって相関係数が0つまり無相関の時、xyは直交します。 このことから相関がないことを直交すると表現する時があります。

一方、xからyを推定する時の回帰直線の回帰係数と、yからxを推定する時の回帰直線の回帰係数は次のようになります。 この式から回帰係数は一方の偏差ベクトルを他方の偏差ベクトルに正射影した時の影の長さを、他方のベクトルの大きさで割って1単位あたりにした値と考えることができます。

x→yの回帰係数:
y→xの回帰係数:

またこの式から2つの偏差ベクトルの大きさが同じ、つまりxとyの分散が同じなら回帰係数と相関係数は一致することがわかります。 そしてxとyの標準化ベクトルは大きさが同じなので、xとyを標準化した時の回帰係数つまり標準回帰係数は相関係数と一致します。 したがって相関係数は2つの標準化したデータの回帰係数に一致し、それは2つの規準化された偏差ベクトルをお互いに正射影した時の影の長さ(cosθ)に相当すると考えることができます。 これらのことは、図6.2.5を見れば何となく感覚的にとらえることができると思います。

ちなみに余弦定理から、xyとその差ベクトル[x-y]と和ベクトル[x+y]について次のような関係が成り立ちます。 そしてこれらの式の両辺を(n-1)で割ることによって、合成変量の分散の式を導くことができます。 (→1.3 データの要約方法 (注4))

x-y2=‖x2 + ‖y2 - 2cos(θ)‖x‖‖y‖=x'x + y'y - 2x'y
x+y2=‖x2 + ‖y2 - 2cos(π-θ)‖x‖‖y‖=x'x + y'y + 2x'y

さらにエーベルの級内相関係数は次のようになります。

エーベルの級内相関係数:
x'yxy上に正射影した時の影の長さ‖x‖cosθを‖y‖倍した値 → ‖x‖cosθを1辺とし、‖y‖をもう1辺とする長方形の面積
x'x=‖x2:‖x‖を1辺とする正方形の面積   y'y=‖y2:‖y‖を1辺とする正方形の面積
x=yの時、x'yは最大値‖x2=‖y2になる → この時、2x'y=x'x+y'yとなりr11=1になる
-1≦r11≦1  r:相関係数  rV:分散一致係数

このようにr11xyが一致している程度を表す指標、つまり偏差ベクトルが一致している程度を表す指標と解釈することができます。 そしてこの値の相関係数rの後ろのrVは、‖x2と‖y2の幾何平均と算術平均の比になっています。 この値はxyの大きさが等しい時だけ1になり、等しくない時は1よりも小さな値になり、一方の大きさが0の時は0になります。 したがってrVは偏差ベクトルの大きさの平方、つまり平方和の一致度を表す値と解釈することができます。 ただしこの場合、2つの偏差べクルトの次元数が等しいため、この値は分散の一致度を表す値にもなるので分散一致係数と呼ぶことにします。

このようにエーベルの級内相関係数r11は、2つの偏差ベクトルのなす角の一致度を表す相関係数rと、2つの偏差ベクトルの大きさの平方の一致度を表す分散一致係数rVの積として表すことができます。 (→4.ベクトル空間 3) 内積の幾何学的解釈5.4 級内相関係数と一致係数 (注1)12.6 周期共分散分析 (注2))