統計学入門−第6章

表6.1.1のデータの中で、脂質異常症の重症度は他の2つとは性質が多少異なるデータです。このデータは他の2つのデータつまりTCとTGを主治医が要約して概括評価したものであり、平均値と同じような要約値の一種です。医学や薬学分野では、このような概括評価項目にしばしばお目にかかります。

概括評価を行なうには色々な方法があり、個人によってその評価規準が異なっていて当然です。しかし評価規準がバラバラでは何かと都合が悪いので、主観に頼らない客観的な評価規準を設定するひとつの方法として表6.1.1のTCとTGを数学的に要約して概括評価相当の値を作る方法を考えてみましょう。

一番単純なものは次のように2つのデータを合計する方法です。

この合計点をそのまま重症度としても、あるいは50刻みに分類するなど何らかの規準を設けてグレード分類し、それを重症度としてもかまいません。いずれにせよ、それらは一種の脂質異常症総合重症度と呼び得る値です。 _(注1)

多少手のこんだものとして、次のようにTGの値を半分にして合計する方法が考えられます。

これは、脂質異常症の判定では食事などの影響で値が変動しやすいTGよりも値が変動しにくいTCの方が重要なので、TGの重みを相対的に軽くして評価した方が実際的であるということを考慮した方法です。この意味からすればz₁はTCとTGをどちらも等しい重みで評価した値であるといえます。

次にちょっと変わったもので、TCとTGの差をとる方法を考えてみましょう。

この値は一体どういう意味を持つ要約値でしょうか？この値が正の大きな値になった時はTCが高くてTGが低く、負の大きな値になった時は逆にTCが低くてTGが高いことを表します。したがってこの値は脂質異常症のタイプあるいはプロフィールまたはシェイプを表す要約値であると考えられます。これはz₁のような総合重症度とは別の情報を要約した相補的関係にある値であり、場合によっては非常に役立つものです。

例えばz₁がある値以上の時を脂質異常症と判定し、そのような症例についてz₃を計算したとします。するとこの値によって脂質異常症のタイプを次のように大雑把に分類することができます。

(2) 概括評価の幾何学的意味

以上のことを目に見えるようにグラフ化してみましょう。表6.1.1のTCをX₁軸に、TGをX₂軸にしてデータをプロットすると図6.2.1のようになります。

幾何学的に見るとTCとTGを合計した値z₁は、45度の傾きを持つ直線x₂ = x₁に各プロットから垂線を下し、原点からその点までの距離に√2をかけた値になります。またTCとTGの差をとった値z₃は、-45度の傾きを持つ直線x₂ = -x₁に各プロットから垂線を下し、原点からその点までの距離に√2をかけた値になります。図6.2.1からz₁とz₃が全く別の情報を要約したものであり、互いに相補的関係にあることが何となく理解できると思います。 _(注2)

人間が概括評価を行なう時も、これと同じように各々のデータに適当な重みをつけて総合していることが多いと思います。そしてその時の評価規準すなわち各データの重みは、その人間の頭脳に蓄えられた知識や経験に基いた「勘ピュータ」によって設定されます。一言でいえば多変量解析は勘ピュータによって設定された評価規準の構造を分析したり、データに基いて数学的に評価規準を決めたりする手法です。

多変量解析は計算量が多いので、ほとんどの場合はコンピュータによって計算します。でもいかんせんコンピュータは機械的思考オンリーの石頭ゆえ、客観的ではあるものの、医学・薬学的見地から見て科学的とはいえない評価規準を選びがちです。そんな時にはコンピュータを責めずに元のデータをもう一度吟味し、データに含まれているゴミを取り除くなり、勘ピュータによってデータを要約し直すなりしましょう。

一般に信じられている迷信とは反対に、コンピュータが人間の勘ピュータにとうてい太刀打ちできないことはコンピュータ研究者には周知の事実です。コンピュータは単にプログラマーが命じたプログラム通りに動く情報処理装置にすぎず、想像力とか洞察力のような知的能力を持っているわけではありません。

「チェスでコンピュータがチャンピオンに勝った！」というのは、本当は「(チェス名人の協力を得て)プログラマが作ったチェスプログラムがチャンピオンに勝った！」という意味であり、基本的には人間対人間の戦いです。それを「人間がコンピュータに負けた！」といって大騒ぎする人達は、おそらくコンピュータの作動原理とプログラムというものの存在を知らないか、それとも自らの頭で物事を考え出す能力よりも、命じられたことを機械的に忠実に行う能力の方がより知的で優れていると思っているのでしょう。

(注1)　第2章第6節で説明したように、特別な理由がない限りグレーディングなどはしない方が賢明です。せっかくデータが持っている貴重な情報をグレーディングなどでツブしてしまうことはありません。実にもったいない話です。 (→2.6 尺度合わせと外れ値)

(注2)　これらのことをより深く理解し、多変量解析を本格的に理解するにはベクトルと行列の知識が必要不可欠になります。ベクトルと行列については、ここと同じ雑学コーナーに展示してある「ベクトルと行列」をご覧ください。図6.2.1の意味を理解するためだけなら第1章〜第6章を読むだけで十分です。

…というわけで「ベクトルと行列」を読んでいただいたことにして、多変量解析の準備として基本統計量をベクトルと行列を用いて表現しておきましょう。 n例の症例についてp個の項目を測定したデータがあった時、それらはp個の項目ベクトルとも、n個の症例ベクトルともとらえることができ、次のようなデータ行列として表現することができます。

データ行列：

ｘ_item-j：第j番目の項目ベクトル(列ベクトル) 　　ｘ_case-i'：第i番目の症例ベクトル(行ベクトル)

図6.2.1のようなグラフではデータをp次元ベクトル空間におけるn個の症例ベクトルととらえることが多く、症例を点でプロットします。しかし多変量解析では主としてn次元ベクトル空間におけるp個の項目ベクトルととらえます。その理由は、p個の項目にはお互いに関連性があるのが普通なのでp次元ベクトル空間の座標軸が直交しないのに対して、n例の症例はお互いに独立であるのが普通なのでn次元ベクトル空間の座標軸が直交して数学的な取り扱いが簡単になるからです。

そこでn次元ベクトル空間におけるp個の項目ベクトルという観点で、ある項目のデータとその合計および平均値をベクトルで表現すると次のようになります。

データベクトル：

　　1ベクトル：

　　1/nベクトル：

合計：

　　平均値：

このように合計はベクトル１_nとデータベクトルｘの内積になり、平均値はそれをベクトル空間の次元数nで割ったもの、つまり１_n/nとｘの内積になります。「ベクトルと行列・第4章」で説明しているように、ベクトルｘとｙの内積はｘとｙのなす角をθとすると‖ｘ‖‖ｙ‖cosθになります。そして「ベクトルと行列・第6章」で説明しているように、ｘをｙに正射影したベクトルはｙを定数倍したaｙになり、その係数aは2つのベクトルの内積ｘ'ｙを‖ｙ‖²で割った値になります。この係数aはｘをｙに正射影した時の影の長さ‖ｘ‖cosθを‖ｙ‖で割った値であり、ｙを座標軸と考え、‖ｙ‖を1単位とした時のｘの座標値に相当します。

例えばｘを１_nに正射影したベクトルは、次のように１_nを平均値m倍した平均値ベクトルｍ_nになります。

平均値ベクトル：

図6.2.3を見るとわかるように、１_nは全ての直交座標軸と45度で交わる1次元部分空間上のベクトルです。そしてこの1次元部分空間は「もし全てのデータが同じ値だとしたらどんな値になるか？」という具体的な意味を持つ空間です。つまり平均値を求めるという操作はｘと１_nの内積を求めて、それをベクトル空間の次元数で割るという操作であると同時に、ｘを１_nが存在する1次元部分空間に正射影して平均値ベクトルｍ_nを求める操作にも相当するわけです。

また１_nはｘの各成分であるデータx_iの出現度数に相当するので出現度数ベクトルと解釈できます。それに対して１_n/nはx_iの出現確率に相当するので出現確率ベクトルと解釈できます。第1章・第3節で説明したように、平均値はデータにその出現確率を掛けて合計した期待値E(x)に相当します。そして各データの出現度数や出現確率が異なる時は、一見すると出現度数ベクトルや出現確率ベクトルは１_nが存在する1次元部分空間上には存在しないように思えるかもしれません。 (→1.3 データの要約方法　(注3))

しかし例えばk種類のデータがあり、出現度数がそれぞれ異なっているとします。この時、全ての出現度数の合計度数をnとすると、データは全部でn個あり、その中で同じ値のデータがk組あると解釈できます。その場合、出現度数ベクトルの成分は全て1でn個あり、データベクトルｘの成分もn個あり(ただし同じ値の成分の組がk個ある)、これらのベクトルはn次元ベクトル空間上に存在します。

すると出現度数ベクトルはやはり１_nに、出現確率ベクトルは１_n/nになり、どちらも１_nが存在する1次元部分空間上に存在します。したがってデータの出現度数または出現確率が異なっていても、平均値つまり期待値を求めるという操作はｘを１_nが存在する1次元部分空間に正射影してｍ_nを求める操作に相当します。

またデータが無限個ある時の期待値は母平均値に相当します。その場合は無限次元のヒルベルト空間(Hilbert space)上に、確率関数p(x)と無限の成分を持つデータベクトルｘが存在することになります。そしてp(x)は無限個の⊿p(無限小の確率値)に分解できて、やはり１_∞が存在する1次元部分空間上に存在します。 (→「ベクトルと行列・第10章　フーリエ展開」)

次に偏差ベクトルｄは次のようになり、これは平均値ベクトルｍ_nと直交します。したがってデータの平均値と偏差を求めることは、データベクトルｘを平均値ベクトルｍ_nと偏差ベクトルｄに直交分解していることに相当します。

偏差ベクトル：

∴ｘ = ｍ_n + ｄ　　ｍ_n ⊥ ｄ

この時、偏差ベクトルｄが存在する部分空間は平均値ベクトルｍ_nが存在する1次元部分空間の直交補空間になり、次元数が(n - 1)になります。前述のようにｍ_nが存在する1次元部分空間は「もし全てのデータが同じ値だとしたらどんな値になるか？」という具体的な意味を持つ空間です。しかしｄが存在する(n - 1)次元部分空間は、偏差の原因がわからない限り具体的な意味を持たない誤差空間または残差空間です。

さらに平方和と分散は次のようになります。

平方和：

分散：

このように分散は偏差ベクトルｄの大きさの平方を部分空間の次元数で割った値になります。これは次のようにｄを部分空間の正規直交基底ｚ₁、…、ｚ_i、…、ｚ_n-1で直交分解した時の、各分解ベクトルの大きさの平方を平均したものになります。

∴

またｍ_nとｄはｘを直交分解したベクトルなので、次のようなことが成り立ちます。

ｘ = ｍ_n + ｄ

dim{Rⁿ} = n = dim{R¹} + dim{R^n-1} = 1 + (n - 1)

このことからベクトルの大きさの平方は平方和に、ベクトル空間の次元は自由度に相当し、平方和の相加性は三平方の定理に基づいていることがわかります。不偏分散を計算する時、平方和を例数ではなく自由度で割る理由は、平方和がベクトルの大きさの平方に相当し、自由度がベクトル空間の次元に相当し、ベクトルの大きさの平方を1次元あたりの値にしたものが分散に相当するからです。またベクトルはデータの集まりなので情報と考えると、ベクトルの大きさの平方は情報量に相当し、ベクトル空間の次元は情報の担い手の数に相当し、分散は1担い手あたりの情報量つまり情報密度に相当すると解釈できます。

標準偏差は次のようにｄの大きさを部分空間の次元数の平方根で割った値になります。このように統計学では平方した値と例数が比例し、元の値は例数の平方根と比例することがしばしばあります。これは三平方の定理からわかるようにベクトルの大きさが次元数の平方根に比例するからです。またデータｘを標準化すると、偏差ベクトルｄを‖ｄ‖で割って大きさを1に規準化し、それを次元数の平方根倍したものになります。

標準偏差：

標準化データ：

　　ｚの標準偏差：

検定統計量tとFは次のようになり、tは1次元あたりのｍ_nの大きさを1次元あたりのｄの大きさで割った値になります。そして平均値の検定はt値が2以上あれば有意水準５％で有意になるので、1次元あたりの平均値ベクトルの大きさが1次元あたりの偏差ベクトルの大きさの2倍以上あれば、平均値は数学的に95％以上信頼できると判断していることになります。

検定統計量：

※ｍ_nの次元は１なので‖ｍ_n‖ = m√n を√nで割る必要はない。

また積和と共分散、そして相関係数は次のようになります。

積和：

共分散：

相関係数：

図6.2.4 相関係数の幾何学的解釈図6.2.5 ベクトルの角度と相関係数

このように積和は2つの偏差ベクトルの内積になり、共分散はそれを次元数で割って1次元あたりの値にしたものになります。そして2つの標準化ベクトルｚ_xとｚ_yの共分散つまり相関係数は大きさを1に規準化した偏差ベクトルの内積になり、これは2つの規準化された偏差ベクトルをお互いに正射影した時の影の長さ、つまり2つの偏差ベクトルがなす角θの余弦(cosθ)になります。したがって相関係数が0の時、ｄ_xとｄ_yは直交します。

このことから独立または無相関のことを直交すると表現する時があります。ただし相関係数が0でも独立または無相関とは限らないので、厳密にいうとこの表現は正確ではありません。 (→5.1 相関係数と回帰直線)

一方、xからyを推定する時の回帰直線の回帰係数と、yからxを推定する時の回帰直線の回帰係数は次のようになります。この式から回帰係数は一方の偏差ベクトルを他方の偏差ベクトルに正射影した時の影の長さを、他方のベクトルの大きさで割って1単位あたりにした値と考えることができます。

x → yの回帰係数：

y → xの回帰係数：

またこの式から2つの偏差ベクトルの大きさが同じ、つまりxとyの分散が同じなら回帰係数と相関係数は一致することがわかります。そしてxとyの標準化ベクトルは大きさが同じなので、xとyを標準化した時の回帰係数つまり標準回帰係数は相関係数と一致します。したがって相関係数は2つの標準化したデータの回帰係数に一致し、それは2つの規準化された偏差ベクトルをお互いに正射影した時の影の長さ(cosθ)に相当すると考えることができます。これらのことは、図6.2.5を見れば何となく感覚的にとらえることができると思います。

ちなみに余弦定理から、ｄ_xとｄ_yとその差ベクトル[ｄ_x - ｄ_y]と和ベクトル[ｄ_x + ｄ_y]について次のような関係が成り立ちます。そしてこれらの式の両辺を(n - 1)で割ることによって、合成変量の分散の式を導くことができます。 (→1.3 データの要約方法 (注4))

‖ｄ_x-ｄ_y‖² = ‖ｄ_x‖² + ‖ｄ_y‖² - 2cos(θ)‖ｄ_x‖‖ｄ_y‖ = ｄ_x'ｄ_x + ｄ_y'ｄ_y - 2ｄ_x'ｄ_y
‖ｄ_x+ｄ_y‖² = ‖ｄ_x‖² + ‖ｄ_y‖² - 2cos(π-θ)‖ｄ_x‖‖ｄ_y‖ = ｄ_x'ｄ_x + ｄ_y'ｄ_y + 2ｄ_x'ｄ_y
∴

さらにエーベルの級内相関係数は次のようになります。

エーベルの級内相関係数：

ｄ_x'ｄ_y：ｄ_xをｄ_y上に正射影した時の影の長さ‖ｄ_x‖cosθを‖ｄ_y‖倍した値 → ‖ｄ_x‖cosθを1辺とし、‖ｄ_y‖をもう1辺とする長方形の面積
ｄ_x'ｄ_x = ‖ｄ_x‖²：‖ｄ_x‖を1辺とする正方形の面積　　ｄ_y'ｄ_y = ‖ｄ_y‖²：‖ｄ_y‖を1辺とする正方形の面積
ｄ_x=ｄ_yの時、ｄ_x'ｄ_yは最大値‖ｄ_x‖² = ‖ｄ_y‖²になる → この時、2ｄ_x'ｄ_y = ｄ_x'ｄ_x + ｄ_y'ｄ_yとなりr₁₁ = 1 になる
-1 ≦ r₁₁ ≦ 1　　r：相関係数　　r_V：分散一致係数

このようにr₁₁はｄ_xとｄ_yが一致している程度を表す指標、つまり偏差ベクトルが一致している程度を表す指標と解釈することができます。そしてこの値の相関係数rの後ろのr_Vは‖ｄ_x‖²と‖ｄ_y‖²の幾何平均と算術平均の比になっています。この値はｄ_xとｄ_yの大きさが等しい時だけ1になり、等しくない時は1よりも小さな値になり、一方の大きさが0の時は0になります。したがってr_Vは偏差ベクトルの大きさの平方、つまり平方和の一致度を表す値と解釈することができます。ただしこの場合、2つの偏差べクルトの次元数が等しく、この値は分散の一致度を表す値にもなるので分散一致係数と呼ぶことにします。

このようにエーベルの級内相関係数r₁₁は、2つの偏差ベクトルのなす角の一致度を表す相関係数rと、2つの偏差ベクトルの大きさの平方の一致度を表す分散一致係数r_Vの積として表すことができます。 (→4.ベクトル空間　3) 内積の幾何学的解釈、5.4 級内相関係数と一致係数 (注1)、12.6 周期共分散分析 (注2))

またｘとｙに影響を与える第3のデータベクトルｚがあると、もう少し複雑な相関関係が考えられます。この場合、ｘとｙの相関係数を求めた時の偏差ベクトルｄ_xとｄ_yに、さらに偏差ベクトルｄ_zを考えると、これらの偏差ベクトルは全て１_nの直交補空間R^n-1上にあります。そしてｄ_xとｄ_yのなす角θ_dx-dyの余弦(cos)がｘとｙの相関係数になります。

図6.2.6 偏相関係数と部分相関係数

ここでｄ_xとｄ_yをｄ_zに正射影したベクトルｄ_xzとｄ_yzはｄ_xとｄ_yの直交分解に相当し、ｄ_zからｄ_xとｄ_yを推測する回帰ベクトルになります。そしてｄ_xとｄ_yをｄ_zの直交補空間R_⊥z^n-2に正射影したベクトルｄ_x⊥zとｄ_y⊥zは、ｄ_xとｄ_yからｄ_zの影響を取り除いたベクトルに相当します。そのためｄ_x⊥zとｄ_y⊥zのなす角θ_{dx⊥z-dy⊥z}の余弦はｄ_xとｄ_yからｄ_zの影響を取り除いた時のxとyの相関係数に相当します。これをxとyの偏相関係数(partial correlation coefficient)といい、r_x/z・y/zと書きます。偏相関係数はxとyの両方に影響を与える変数zがある時、zの影響を取り除いてxとyの相関関係を検討する時に有効な指標です。

(1 - r_yz²) ≦ 1 → r_x/z・y ≧ r_x/z・y/z
※直感的には θ_dx⊥z-dy ≧ θ_{dx⊥z-dy⊥z} → r_x/z・y ≧ r_x/z・y/z

さらにｄ_x⊥zとｄ_yのなす角θ_dx⊥z-dyの余弦はｘだけからｚの影響を取り除いた時のxとy相関係数に相当します。これをxとyの部分相関係数(part correlation coefficient)といい、r_x/z・yと書きます。図6.2.6からわかるようにθ_dx⊥z-dyは必ずθ_{dx⊥z-dy⊥z}以上の角度になるので、部分相関係数は必ず偏相関係数以上の値になります。部分相関係数はxだけに直接的な影響を与え、yには直接的な影響は与えない変数zがある時に、xからzの影響を取り除いてyとの相関関係を検討する時に有効な指標です。

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

6.2 データの要約と多変量解析

(1) 概括評価項目

(2) 概括評価の幾何学的意味