玄関雑学の部屋雑学コーナー統計学入門

第6章 多変量解析の概念

この章では多変量解析の基本的な概念と多変量データの要約方法、そして多変量解析手法の分類と手法間の相互関係について解説します。

6.1 多変量解析の目的

(1) 多変量データと多変量解析

ある対象から得られた、お互いに関連のある多種類のデータを多変量データまたは多特性データといい、そのようなデータを総合的に要約する手法を多変量解析(multivariate analysis)といいます。 医学や薬学で用いられるデータは人間や動物といった多種の機能が複雑にからみ合った有機システムから得られるものが多く、本質的に多変量データと考えられます。 そのため医学や薬学の研究では多変量解析を適用すべき場面にしばしば遭遇します。

多変量解析はかなり以前から開発されていたものの、何しろ計算がとてつもなくやっかいなため一般にはあまり利用されていませんでした。 ところがコンピュータの急速な発達によって誰でも手軽に複雑な計算ができるようになり、近年は色々な分野でこの手法が利用されています。 今後も色々な分野でますます頻繁に利用されるようになることは間違いないでしょう。

これまで説明してきた従来の手法を、多変量解析に対して単変量解析(univariate analysis)または1変量解析といいます。 そして数学的には、単変量解析は変量が1つという特別な場合として多変量解析に包含されます。 したがって多変量解析を理解すれば単変量解析もおのずと理解することができ、統計学全般を総括的に把握することができるようになります。 例えて言うなら山の頂上に登って、そこから山全体を眺めるようなものです。 多変量解析という頂上から眺めれば、単変量解析という麓の様子と、麓から頂上までの道のりを一目瞭然に展望することができ、統計学山全体の様子を総括的に把握することができるのです。

この章以後は今まで以上に耳慣れない言葉や複雑な概念の説明が増え、面食らったり、めげそうになったりすることがますます多くなると思います。 しかし恐ろしげな用語に惑わされず、入り組んだ理論の迷路に音を上げす、ぜひ頑張ってお読みいただきたいと思います。 あなたのチャレンジ精神に期待し、御健闘をお祈りします!

(2) 多変量解析の概念

今、10例の脂質異常症患者について総コレステロール(TC)とトリグリセリド(TG)を測定し、脂質異常症の重症度を判定したデータが表6.1.1のようになったとします。 このデータは項目が3つの多変量データになるため、本来なら多変量解析を適用すべきものです。 しかし従来は1項目ずつ単変量解析を適用し、医学的な知識や直感に基いてそれらの結果を総合的に評価することが多かったと思います。 例えば項目ごとに平均値と標準偏差を求め、2項目ずつ組み合わせて3つの相関係数を計算し、それら9つの値を眺めて全体的な内容を直感的に把握していたわけです。

多変量解析はこれらのデータ全体を数学的に要約し、総合的な要約値を求めます。 したがってデータを総合的に要約する時の客観的な規準が与えられ、しかも医学的な考察を加えるべき要約値も少なくなるので、より効率的に厳密な検討をすることができます。

表6.1.1 脂質異常症患者の
TCとTG
患者No.TCTG重症度
12201100
22301501
32401502
42402501
52502003
62601503
72602502
82602901
92702504
102802904
図6.1.1 単変量解析と多変量解析

ただし注意しなければならないことは、単変量解析も多変量解析もデータに含まれている情報を要約することが目的であり、得られた要約値は元のデータの質をそのまま反映するということです。

多変量解析を用いたからといって、単変量解析で良い結果が得られなかったデータから目を見張るような素晴らしい結果が得られるわけではありません。 単変量解析よりも多変量解析の方がデータの質を敏感に反映することが多いため、いい加減な方法で得られた、誤差が多くて質の悪いデータに適用した時には、かえって信頼性の乏しい結果が得られてしまいます。 つまり統計学の基本GIGO(ガイゴウ、Garbage In Garbage Out――ゴミを入れればゴミが出てくる!)により忠実なのです。

多変量解析は単変量解析では得られないような素晴らしい結果を得るためのものではなく、むしろ単変量解析で良い結果が得られている時に、それらの結果を客観的に要約するためのものと理解すべきです。

(3) 多変量解析の特徴

多変量解析の1つの長所——見方によっては短所でもあります——は、データを要約する時の理論的な厳密さにあります。 単変量解析を用いた時は、個々の項目に関する要約値を研究者の個人的な主観に基づいて総合的に要約します。 そのため最終的な結果は、良い意味でも悪い意味でも研究者の個人的な主観を色濃く反映します。 そして結果の妥当性やデータの信頼性を検討する時にも、いきおい個人的な主観に左右される部分が多くなり、客観的な検討を加えることが困難になってしまいます。

それに対して多変量解析を用いた時は、全てのデータを数学に基づいて総合的に要約します。 そのため最終的な結果は誰がやっても同じものになり、結果の妥当性やデータの信頼性について客観的で厳密な検討を加えることが容易になります。 つまり理論的に厳密だということは得られる結果が正しいことを保障するものではなく、その結果が正しいのか間違っているのか、白黒はっきりさせることができる、言葉を変えればデータが信頼できるかできないかがはっきりわかるということなのです。

質の良いデータに多変量解析を適用した時は、往々にして至極当たり前の常識的な事実を確認するだけの結果しか得られないことがあります。 優秀な研究者は長い間の経験に基いて多変量解析と原理的に同様なことを頭の中で無意識のうちに行なっていて、その結果、暗黙のうちにその分野での常識というものができあがっていくものです。

わずかなデータから驚くべき結論を導きだしてしまう洞察力という人間独特の能力と、豊富な経験とによって裏打ちされた優秀な研究者の「勘」は、時として偉大な威力を発揮するものであり、それは非科学的であるにもかかわらず科学的研究には必要不可欠な要素です。 科学は実験によってのみ発達してきたのでもなければ、理論によってのみ発達してきたわけでもなく、研究者の鋭い勘によって発見された新しい現象や原理が、逆に実験や理論の発達を促してきたことが多いのです。 科学史を紐解けばすぐわかるように、これはまぎれもない歴史的事実です。 (注1)

多変量解析は——いや、むしろ統計学そのものはと言っても良いでしょう——人間のそういった能力を何とか数学的にシミュレートし、勘の鈍い凡人にも同様なことが行なえるようにした模造品にすぎません。 だから多変量解析を適用して至極当たり前の常識的な結果になった時は、それは良い結果であり、データの信頼性を証明するものなのです。 反対にそれまでの常識に反する結果になった時は、それまでの常識が間違っていたと考えるよりも、むしろデータに何らかのゴミが入っていたと考えた方が賢明です。

このように多変量解析という手法は質の悪いデータを質の良いデータに変えてしまう魔法の装置ではなく、いわば人間の職人をマネたデータ組み立て装置のようなものです。 単変量解析はデータという材料から1つ1つの部品を作る小さな装置で、それらを組み立てて製品にするのは人間が行なわなければなりません。 したがって組み立て方を知らなければちゃんとした製品を組み立てることができず、未完成な製品を発表したり、部品だけを——製品ではないことを隠すために時にはこれ見よがしに——羅列したりしてしまいがちです。

多変量解析はデータという材料をインプットするだけで部品作りから組み立てまで全て自動的に行なってくれ、製品をアウトプットしてくれる大がかりな装置です。 人間が組み立てるわけではないので、個性に乏しい無機的な製品になることは否めません。 しかし同じ材料を用いれば誰がやっても同じ製品ができ、大量生産することも科学的研究の対象になることも可能です。

ただし出来上がった製品の質は1つ1つの部品の質によって決まり、つまるところ材料の質に決定的に左右されます。 質の悪い材料を用いたり、材料の中にゴミが混ざっていたりした場合、人間なら長年の経験と勘によって何とか使用に耐えるだけの製品を組み立ててしまうといった職人芸も可能です。 しかし悲しいかな血の通わぬ機械ではそういうわけにもいかず、真正直に見るも無残なガラクタを作ってしまうのです。

ところが遺憾なことに、最新の装置を用いて作ったというだけで、製品の良し悪しとは無関係にただひたすら恐れ入って自分でもマネしてみたり、頭から否定的な目で眺めて無視したりする人達がいます。 これはひとえにその装置の作動原理や内部構造をよく理解していない——場合によっては理解しようとしない——ことに原因があります。

時流に乗り遅れまいと、我が身の個性も省みず無闇に流行を追う軽佻浮薄な態度や、昔ながらの因習を頑なに守り通し、新しいものを頑として認めようとしない偏屈な料簡は、複雑怪奇な人間世界ならいざしらず、単純明快な科学の世界では無用の長物でしょう。 どんな仮説や理論にも明鏡止水の澄み切った心で接し、自分の目で確かめ、頭で理解した上で、おもむろに正誤の判断を下し、玉として用いるなり石として捨て去るなりしたいものです。 (注2)


(注1) 優秀な研究者の鋭い勘が科学を発展させた例は、枚挙にいとまがないほどあります。 その中で大陸移動説を提唱して現在の地球物理学の祖となった、ドイツの気象学者アルフレッド・ウェゲナーの例は実に印象的です。

1910年頃、何気なく世界地図を見ていたウェゲナーは、ふと諸大陸の形がちょうどジグゾーパズルのごとくぴったりと1つにはまり合うことに気付きました。 私事で恐縮ですが、私もその昔、小学校の教室の壁に貼ってあった世界地図を見ていて、アフリカ大陸と南アメリカ大陸の海岸線が不思議なほどピッタリとはまり合うことに気づき、奇妙な興味を持ったことを覚えています。

凡人の私と違って鋭い科学的勘の持ち主だったウェゲナーは、

「これはひょっとしたら大昔の地球には巨大な1つの大陸しかなく、ある時それが分裂し、地球の表面を移動していって現在のような諸大陸の姿になったのではないか…?」

と考えました。 「何故、彼はそんなとてつもないことを思いついたのか?」などと尋ねられても困ります。 それが勘の勘たる所以です。

これだけなら単なるファンタスティックな思い付きの域を出ず、せいぜいSF小説のネタになるぐらいが関の山でした。 しかし彼の非凡なところは、忍耐強く地道な努力によって、その単なる思い付きを洞察力に富んだ魅力的な学説にまで育てあげたところです。 (とは言うものの、ウェゲナーの時代にそんな奇抜なアイデアによるSF小説が出現していたとしたら、これはまさしく驚嘆すべきことで、「日本沈没」の作者小松左京も真青になって最敬礼することでしょう。 ウェゲナーが科学一筋の真面目な学者であり、アシモフやホイルのようにSF作家を兼ねていなかったことは、SF界にとってはなはだ残念なことだと言わねばなりません)

専門の気象学以外にも地質学、古生物学等、その当時の最先端の知識を漁り求め、ありとあらゆるデータを積み重ねて、とうとう自説を確信するにいたった彼は、1915年、今や古典となった名著「大陸及び大洋の起源」を刊行し、大陸移動説を提唱して地学学界に大きな衝撃を与えました。 今から1世紀も前に、現在の地球物理学の発展形態をそのままたった一人で先取りした、まさに地球物理学の祖と呼ぶにふさわしい人物と言えましょう。

しかしウェゲナーの大陸移動説は異端の説として当時の地学学界から猛烈な反論や非難を浴び、特に大陸移動の原動力が不明であるという致命的な欠陥を突かれ、やがて「まっとうな」学者からは見放されてしまいました。 さすがのウェゲナーにとっても「動かぬこと大地のごとき」大陸を動かすのは容易なことではなく、また当時の科学知識だけでは、いかな天才といえどもその原動力を解明するのは不可能に近いことだったのです。

保守的な周囲の反発にあって孤立無援の闘いを強いられることは、いつの時代でも、またどんな分野でも先駆者たる人が一度は辿らねばならないイバラの道です。

ところが1950年代の末になり、古地磁気学や海洋底地学の発達によって大陸移動説は劇的な復活をとげました。 そしてウェゲナーの切り開いた道を若く優秀な研究者達が次々と拡張し整備して、大陸移動説は近代的なプレート・テクトニクス理論として生まれ変り、現在の固体地球科学へと急速に発展してきました。

大陸移動説復活の立役者の一人、イギリスのヴァインは「事の正当性を統計的に調べたか?」という質問に対し、

「私は統計はやりません。 ただ事実を取り扱うのみです!」

と鼻息荒く答えています。

地学革命の一端を担っているというヴァイン先生の当たるべからざる心意気と、揺るぎない自信とがうかがわれる胸のすくようなこの言葉は、期せずして統計学盲信の風潮に対する痛烈な批判にもなっています。

(注2) このような研究者の態度として、イギリスの物理学者ブラッケットによる「否定的実験」が有名です。

地磁気の原理がまだ不明であった1940年代、すでに物理学者として数々の業績をあげていたブラッケットは「地球のような巨大な物体が自転すれば、必然的に1つの磁石になる」という学説を提唱しました。

著名な学者の大胆な学説に学界は注目し、彼自身、その検証のために恐ろしく精密な磁力計を開発して実験を行ないました。 しかし必死の努力も空しく、その結果は否定的でした。 そこでこの古武士(イギリスですから、古騎士というべきでしょうか?)の趣ある老学者はその否定的結論をきちんと論文にまとめ、「否定的実験」と題して発表したのです。

自説に自信を持ちながらも、実験データを曲解することなく公平無私な目で眺めて冷静に適確な科学的判定を下し、なおかつ学者としての面子をもかえりみず、科学のためにあえて結果を発表したこのブラッケットの態度は、科学者として当然と言えば当然の態度です。 でも我等俗人にはなまなかなことでは真似できない、粋な態度と言えましょう。

この話には象徴的な後日談があります。 ブラッケットがこの実験のために開発した超高感度の磁力計は、その後の古地磁気学の発達に大いに貢献し、(注1)で説明した大陸移動説復活に間接的なきっかけを与えることになったのです。