この章では多変量解析の基本的な概念と手法の分類について解説します。
ある対象から得られた、お互いに関連のある多種類のデータを「多変量データ」または「多特性データ」といい、そのようなデータを総合的に要約する手法を「多変量解析(multivariate analysis)」といいます。 医学や薬学で用いられるデータは、人間や動物といった多種の機能が複雑にからみ合った有機システムから得られるものが多く、本質的に多変量データと考えられます。 このため医学や薬学の研究では、多変量解析を適用すべき場面にしばしば遭遇します。
多変量解析はかなり以前から開発されていたのですが、何しろ計算がとてつもなくやっかいなため、一般にはあまり利用されていませんでした。 ところがコンピュータの急速な発達によって、誰でも手軽に複雑な計算ができるようになり、近年は色々な分野でこの手法が利用され始めています。 今後も医学・薬学分野に限らず、色々な分野でますます頻繁に利用されるようになることは間違いないでしょう。
これまで説明してきた従来の手法を、多変量解析に対して「単変量解析(univariate analysis)」または「1変量解析」といいます。 そして数学的には、単変量解析は変量が1つという特別な場合として多変量解析に包含されてしまいます。 したがって――おいそれと理解するわけにはいかないのですが――多変量解析を理解すれば、単変量解析もおのずと理解することができ、統計学全般を統括的に把握することができるようになります。 例えていうなら山の頂上に登って、そこから山全体を眺めるようなものです。 多変量解析という頂上から眺めれば、単変量解析という麓の様子と、麓から頂上までの道のりを一目瞭然に展望することができ、統計学山全体の様子を総括的に把握することができるのです。
この章より以後では、今まで以上に耳慣れない言葉や複雑な概念の説明が増え、面食らったり、めげそうになったりすることがますます多くなると思います。 しかし恐ろしげな用語に惑わされず、入り組んだ理論の迷路にめげないで、ぜひ頑張ってお読みいただきたいと思います。 あなたのチャレンジ精神に期待し、御健闘をお祈りします!
さて、10例の高脂血症患者について総コレステロール(TC)とトリグリセリド(TG)を測定し、高脂血症の重症度を判定したデータが表6.1のようになったとします。 このデータは項目が3つの多変量データになりますから、本来なら多変量解析を適用すべきものです。 しかし従来は1項目ずつ単変量解析を適用し、医学的な知識や直観に基いてそれらの結果を総合的に評価することが多かったと思います。 例えば項目ごとに平均値と標準偏差を求め、2項目ずつ組み合わせて3つの相関係数を計算し、それら9つの値を眺めて全体的な内容を直観的に把握していたわけです。
多変量解析はこれらのデータ全体を数学的に要約してしまい、総合的な要約値を求めます。 したがってデータを総合的に要約する場合の客観的な規準が与えられ、しかも医学的な考察を加えるべき要約値も少なくなりますので、より効率的に厳密な検討をすることができます。
| 患者No. | TC | TG | 重症度 |
|---|---|---|---|
| 1 | 220 | 110 | 0 |
| 2 | 230 | 150 | 1 |
| 3 | 240 | 150 | 2 |
| 4 | 240 | 250 | 1 |
| 5 | 250 | 200 | 3 |
| 6 | 260 | 150 | 3 |
| 7 | 260 | 250 | 2 |
| 8 | 260 | 290 | 1 |
| 9 | 270 | 250 | 4 |
| 10 | 280 | 290 | 4 |
ただし注意しなければならないことは、単変量解析も多変量解析もデータに含まれている情報を帰納的に要約することが目的であって、得られた要約値はもとのデータの質をそのまま反映するということです。 多変量解析を用いたからといって、単変量解析で良い結果が得られなかったデータから目を見張るような素晴らしい結果が得られるわけではありません。
単変量解析よりも多変量解析の方がデータの質を敏感に反映することが多く、いいかげんな方法で得られた、誤差が多く質の悪いデータに適用した場合には、かえって矛盾した信頼性の乏しい結果が得られてしまうものなのです。 多変量解析は単変量解析では得られないような素晴らしい結果を得るためのものではなく、むしろ「単変量解析で良い結果が得られている時に、それらの結果を客観的に要約するためのものである」と理解すべきです。
多変量解析の1つの長所――見方によっては短所でもありますが――は、データを要約する時の理論的な厳密さにあります。 単変量解析を用いた時は個々の項目に関する要約値を研究者の個人的な主観に基づいて総合的に要約するため、最終的な結果は良い意味でも悪い意味でも研究者の個人的な主観を色濃く反映することになります。 このため結果の妥当性やデータの信頼性を検討する時にも、いきおい個人的な主観に左右される部分が多くなり、客観的な検討を加えることが困難になってしまいます。
それに対して多変量解析を用いた時は全てのデータを数学に基づいて総合的に要約するため、最終的な結果は誰がやっても同じものになり、結果の妥当性やデータの信頼性について客観的で厳密な検討を加えることが容易になります。 つまり「理論的に厳密だ」ということは得られる結果が正しいことを保障するものではなく、「その結果が正しいのか間違っているのか、白黒はっきりさせることができる」言葉を変えれば「データが信頼できるかできないかがはっきりわかる」ということなのです。
質の良いデータに多変量解析を適用した時には、極あたりまえの常識的な事実を確認するだけの結果しか得られないことが往々にしてあります。 優秀な研究者というものは長い間の経験に基いて多変量解析と原理的に同様なことを頭の中で無意識のうちに行なっていて、その結果、暗黙のうちにその分野での常識というものができあがっていくものです。
わずかなデータから驚くべき結論を導きだしてしまう洞察力という人間独特の能力と、豊富な経験とによって裏打ちされた優秀な研究者の「勘」というものは、時として偉大な威力を発揮するものであり、それは非科学的であるにもかかわらず科学的研究には必要不可欠な要素です。 科学は実験によってのみ発達してきたのでもなければ理論によってのみ発達してきたわけでもなく、研究者の鋭い勘によって発見された新しい現象や原理が逆に実験や理論の発達を促してきたことが多いのです。 科学史を紐解けばすぐわかるように、これは厳然たる歴史的事実です。 (注1)
多変量解析は――いや、むしろ統計学そのものはといってもよいでしょう――人間のそういった能力を何とか数学的にシミュレートし、勘のニブい凡人にも同様なことが行なえるようにした(出来の悪い、と私には思えるのですが)模造品にすぎないのです。 だから多変量解析を適用して極めてあたりまえの常識的な結果になった時は、それは良い結果であり、データの信頼性を証明するものなのです。 反対にそれまでの常識に反する結果になった時は、それまでの常識が間違っていたと考えるよりも、むしろデータに何らかのゴミが入っていたと考えた方が賢明です。
このように多変量解析という手法は質の悪いデータを質の良いデータに変えてしまう魔法の装置ではなく、いわば人間の職人をマネたデータ組み立て装置のようなものです。 単変量解析はデータという材料から1つ1つの部品を作る小さな装置で、それらを組み立てて製品にするのは人間が行なわなければなりません。 したがって組み立て方を知らなければちゃんとした製品を組み立てることができず、未完成な製品を発表したり、部品だけを、製品ではないことを隠すために時にはこれ見よがしに羅列したりしてしまいがちです。
多変量解析はデータという材料をインプットするだけで部品作りから組み立てまで全て自動的に行なってくれ、製品をアウトプットしてくれる大掛かりな装置です。 人間が組み立てるわけではありませんから、個性に乏しい無機的な製品になることは否めませんが、同じ材料を用いれば誰がやっても同じ製品ができ、大量生産することも科学的研究の対象になることも可能です。 ただし出来上がった製品の質は1つ1つの部品の質によって決まり、つまるところ材料の質に決定的に左右されることになります。 質の悪い材料を用いたり、材料の中にゴミが混ざっていたりした場合、人間ならば長年の経験と勘によって何とか使用に耐えるだけの製品を組み立ててしまうといった職人芸も可能です。 しかし悲しいかな血の通わぬ機械ではそういうわけにもいかず、真正直に見るも無残なガラクタを作ってしまうのです。
ところが遺憾なことに、最新の装置を用いて作ったというだけで製品の良し悪しとは無関係にただひたすら恐れ入って自分でもマネしてみたり、頭から否定的な目で眺めて無視したりする人々がいます。 これはひとえにその装置の作動原理や内部構造をよく理解していない、場合によっては理解しようとしないことに原因があります。
時流に乗り遅れまいと我が身の個性も省みず無闇に流行を追う軽佻浮薄な態度や、昔ながらの因習を頑なに守り通し、新しいものを頑として認めようとしない偏屈な料簡は、複雑怪奇な人間世界ならいざしらず、単純明快な科学の世界には無用の長物でしょう。 どんな仮説や理論にも明鏡止水の澄み切った心で接し、自分の目で確かめ、頭で理解した上でおもむろに正誤の判断を下し、玉として用いるなり石として捨て去るなりしたいものです。 (注2)
1910年頃、何気なく世界地図を見ていたウェゲナーは、ふと諸大陸の形がちょうどジグゾーパズルのごとくぴったりと1つにはまり合うことに気づきました。 私事で恐縮ですが、私もその昔、小学校の教室の壁に貼ってあった世界地図を見ていて、アフリカ大陸と南アメリカ大陸の海岸線が不思議なほどピッタリとはまり合うことに気づき、奇妙な興味を持ったことを覚えています。
凡人の私と違って鋭い科学的勘の持ち主だったウェゲナーは、これはひょっとしたら大昔の地球には巨大な1つの大陸しかなく、ある時それが分裂し、地球の表面を移動していって現在のような諸大陸の姿になったのではないか、と考えました。 「何故、彼はそんなとてつもないことを思いついたのか?」などと尋ねられても困ります、それが勘の勘たる所以です。
これだけなら単なるファンタスティックな思いつきの域を出ず、せいぜいSF小説のネタになるぐらいが関の山でしたが、彼の非凡なところは、忍耐強く地道な努力によってその単なる思いつきを洞察力に富んだ魅力的な学説にまで育てあげたところです。 (とはいうもののウェゲナーの時代にそんな奇抜なアイデアによるSF小説が出現していたとしたら、これはまさしく驚嘆すべきことで、「日本沈没」の作者小松左京も真青になって最敬礼することでしょう。 ウェゲナーが科学一筋の真面目な学者であり、アシモフやホイルのようにSF作家を兼ねていなかったことは、SF界にとってはなはだ残念なことだといわねばなりません)
専門の気象学以外にも地質学、古生物学等、その当時の最先端の知識を漁り求め、ありとあらゆるデータを積み重ねて、とうとう自説を確信するにいたった彼は、1915年、今や古典となった名著「大陸及び大洋の起源」を刊行し、大陸移動説を提唱して地学学界に大きな衝撃を与えました。 70年以上も前に、現在の地球物理学の発展形態をそのままたった一人で先取りした、まさに地球物理学の祖と呼ぶにふさわしい人物といえましょう。
しかしウェゲナーの大陸移動説は異端の説として当時の地学学界から猛烈な反論や非難を浴び、特に大陸移動の原動力が不明であるという致命的な欠陥を突かれ、やがて「まっとうな」学者からは見放されてしまいました。 さすがのウェゲナーにとっても「動かぬこと大地のごとき」大陸を動かすのは容易なことではなく、また当時の科学知識だけでは、いかな天才といえどもその原動力を解明するのは不可能に近いことだったのです。 保守的な周囲の反発にあって孤立無援の闘いを強いられることは、いつの時代でも、またどんな分野でも先駆者たる人が一度は辿らねばならないイバラの道です。
ところが1950年代の末になり、古地磁気学や海洋底地学の発達によって大陸移動説は劇的な復活をとげました。 そしてウェゲナーの切り開いた道を若く優秀な研究者達が次々と拡張し整備して、大陸移動説は近代的なプレート・テクトニクス理論として生まれ変り、現在の固体地球科学へと急速に発展してきました。
大陸移動説復活の立役者の一人、イギリスのヴァインは「事の正当性を統計的に調べたか?」という質問に対し、
「私は統計はやりません。 ただ事実を取り扱うのみです!」
地磁気の原理がまだ不明であった1940年代に、すでに物理学者として数々の業績をあげていたブラッケットは「地球のような巨大な物体が自転すれば、必然的に1つの磁石になる」という学説を提唱しました。
著名な学者の大胆な学説に学界は注目し、彼自身、その検証のために恐ろしく精密な磁力計を開発して実験を行ないました。 しかし、必死の努力も空しくその結果は否定的でした。 そこでこの古武士(イギリスですから、古騎士というべきでしょうか?)の趣ある老学者は、その否定的結論をきちんと論文にまとめ、「否定的実験」として発表したのです。
自説に自信を持ちながらも、実験データを曲解することなく公平無私な目で眺めて冷静に適確な科学的判定を下し、なおかつ学者としての面子をもかえりみず科学のためにあえて結果を発表したこのブラッケットの態度は、科学者として当然といえば当然の態度ですが、我等俗人にはなまなかなことでは真似できない粋な態度といえましょう。
この話には象徴的な後日談があります。 ブラッケットがこの実験のために開発した超高感度の磁力計はその後の古地磁気学の発達に大いに貢献し、(注1)で説明した大陸移動説復活に間接的なきっかけを与えることになったのです。