少し前までは、「統計学」の代わりに「推計学」あるいは「推測統計学」という言葉がよく使われていました。 統計学と推計学の違いは何でしょうか? それを説明するために、少々蘊蓄を傾けることをお許し願って、統計学の歴史を紐解いてみましょう。
統計学の歴史は大変古く、紀元前3000年頃の古代エジプトにおける、かのピラミッド建設のための基礎調査や、紀元前2300年頃の中国における人口調査などにその萌芽を見い出すことができます。 まさに「4000年の歴史を秘めた幻の学問」といったところです。 しかしこの時代には、さすがにその芽が花開くまでには至りませんでした。
統計学(statistics)という言葉と概念が確立したのは17世紀頃です。 この時代の統計学は国勢調査を研究する学問として発展し、ラテン語のstatus(国家)にちなんでstaticsticsと名付けられました。 その後、確率論を取り入れ、19世紀末から20世紀初頭にかけてゴールトン(Francis Galton)、ピアソン(Karl Pearson)等によって体系的に整理されました。 この時代の統計学は、データを要約して調査対象の情報を数学的に記述することが中心でしたので、「記述統計学(descriptive statistics)」あるいは「古典統計学」と呼ばれています。 (注1)
どんな学問でも、ある出来事がターニングポイントになって、それ以前と以後とでその学問の内容が大きく変貌してしまった場合、普通、以前のものを「古典」と呼び、以後のものを「近代」と呼びます。 例えば物理学において、1900年のプランク(Max Karl Ernst Ludwig Plank)による「量子論」と、1905年および1915年のアインシュタイン(Albert Einstein)による「相対論」によって、それまでのニュートン力学が「古典物理学」になってしまい、「近代物理学」が確立したことはあまりにも有名です。
統計学では、そのターニングポイントは1925年にやってきました。 この年に、イギリスのロンドン郊外にあるロザムステッド農事試験場の統計技師をしていたフィッシャー(Rinald Aylmer Fisher)が「研究者のための統計的方法」という本を発刊し、新しい統計学を提唱しました。 これによって、統計学は画期的な変革を遂げることになりました。 (注2)
フィッシャーは、我々が行う実験や試験の対象となる集団は、非常に多くの例からなる、ある理想的な集団の標本にすぎないということに気付いたのです。 そしてさらに、実験や試験の対象となる集団について測定したデータと、理想的な集団について測定したデータでは、数学的な取り扱いを変える必要があるということを発見しました。 前節の例でいえば、100人の人達は日本人という集団の標本(といって失礼なら代表)であって、決して日本人全体というわけではありません。 したがって平均値60kgや標準偏差10kgという値も、その100人の集団の要約値であって、日本人全体の要約値ではありません。
ところが我々が本当に知りたいのは、実は日本人全体の要約値の方なのです。 そうでなければ、日本人全体に当てはまるような普遍的な法則は発見できません。 つまり青春物語風にいいますと、
「ああ、本当のことって何だろう……? 青い空なんか大嫌いだーっ!!」
フィッシャーが考えた新しい統計学は、
「標本集団の要約値から母集団の要約値を確率的に推測し、それによって母集団の様子を記述する」
そしてその後、近代統計学はネイマン(Jerzy Neyman)、ピアソン(Egon Sharpe Pearson)等の人々によりさらに発展し、ますます複雑怪奇になって、我々庶民の頭を悩ませるに至っている次第です。
このように推測統計学では、標本集団のデータに基づいて母集団の様子を確率的に推測します。 このため標本集団は、母集団の正しい代表になるように、非常に注意深く選ばれなければなりません。 幸いなことに、国会議員さん達と違って、賄賂もコネも権力も入り込めない、文字通り公明正大な「無作為抽出(random sampling)」という標本抽出法が考案されています。
「無作為」というと、まるで「デタラメに」あるいは「いきあたりばったりに」標本を抽出するように思われるかもしれません。 しかし標本抽出法でいう「無作為」とは、
「母集団を構成する個々の人または個体を等しい確率で抽出する」
アンケートを利用した世論調査などでは、対象とする母集団から標本集団を無作為抽出することは原理的には可能です。 しかし医学や薬学の研究現場で行う実験や試験では、対象とする母集団から標本集団を無作為抽出することはほとんど不可能です。 例えば糖尿病患者を対象とした試験を行う場合、母集団は日本全体の糖尿病患者になります。 その日本全体の糖尿病患者から標本集団を無作為抽出しようとすると、患者全員に番号を付けておき、乱数表などを利用して特定の患者を抽出することになります。 しかし、日本全体の糖尿病患者を全員特定することは事実上不可能です。 また時間の経過とともに患者数は流動的に変化するため、母集団を正確に特定することも原理的に不可能です。
このような場合は、たまたま集められた標本集団の背景因子から、母集団を逆に規定します。 このような母集団のことを「準母集団(quasi-population)」といいます。 背景因子とは集団の特徴を表す項目のことであり、性、年齢などが代表的です。 例えば、たまたま集めた糖尿病患者100名は、年齢が40〜60歳であり、男女の比率が2対1だったとします。 そうすると、この標本集団の準母集団は年齢が40〜60歳で、男女比が2対1という制限付きの集団になります。 この制限付きの準母集団は、日本人全体の糖尿病患者という真の母集団とは少し異なります。
同じような内容の試験を行っても、場合によって全く違った結果になり、その解釈に苦しんだり、議論の的になったりすることがよくあります。 それは実は科学理論の問題ではなく、試験の準母集団の違いによることも多いようです。 試験のデータから得られた結論を適用できるのは、その試験の標本集団と同じ背景因子を持つ準母集団だけです。 このため同じような内容の試験でも、たまたま集められた標本集団の背景因子が異なり、その準母集団が異なっていれば、違った結果になっても不思議ではありません。 試験を行う研究者がこのあたりの事情をよく認識していないことが、統計学不信の一因になっているようにも思われます。
平均への回帰とは、親の身長が非常に高いと、その子供の身長は親よりも低くなり、親の身長が非常に低いと、その子供の身長は親よりも高くなって、平均値の方向に回帰する傾向があるという現象のことです。 この平均への回帰現象が存在しないと、ある集団における身長のばらつきが次第に大きくなり、一定の範囲に収まらなくなってしまいます。 この現象は身長だけでなく色々な値で観測されていて、これによってある集団の特徴が安定に保たれることになります。
また彼は、指紋が人によって異なっているということを発見し、指紋の分類法を考案したことでも有名です。 ただし指紋の個人性を最初に発見し、それが犯罪捜査に有用だと提案した最初の人物は彼ではなく、明治初期に宣教師兼医師として来日したフォールズ(Henry Faulds)です。 フォールズは、当時の日本で行われていた拇印の習慣を見て、指紋が人によって異なっていて、しかも生涯変わらないということを発見し、それが犯罪捜査に有用だと気づいたのです。
一方、ピアソンは元々は政治学を専攻していて、科学哲学と数学的モデルの本質を研究することに関心を持っていました。 しかしゴールトンの影響を受けて人類学と統計学の研究を始め、データの分布の歪み具合を表す「歪度(わいど)」と、分布の尖り具合を表す「尖度(せんど)」を定義しました。 (→2.2 パラメトリック手法とノンパラメトリック手法 (注4))
ちなみに統計学と同様に確率論も頭が痛くなる数学ですが、実は博打好きな数学者が、何とか賭けに勝とうとして発達させたものなのです。 ですから難しげな数式や用語に惑わされず、気楽な気持ちで取り組みましょう。
メンデルの実験データは、実はかなりの程度メイキングされたものだったのです。 このメイキングはメンデル自身が行ったのではなく、彼の実験を手伝っていた下僕が行ったとも言われています。 主人思いの下僕は、主人を喜ばせようと、主人が望んでいるようなデータだけを提出したというのです。