玄関雑学の部屋雑学コーナー統計学入門

付録6 ベイズ統計学

1.ベイズの定理

この「統計学入門」で解説した統計学は、現在、最も広く用いられているネイマン・ピアソン流の統計学を中心にしています。 統計学にはこれ以外にも色々な流派があります。 その流派のひとつであるベイズ統計学(ベイジアン統計学、Bayesian Statistics)について簡単に紹介しておきます。 ベイズ統計学はベイズの定理(Bayes's theorem)に基づいた統計学ですから、まずはベイズの定理について説明しましょう。

ベイズの定理は18世紀の牧師兼数学者であるトーマス・ベイズ(Thomas Bayes)によって発見された、逆確率つまり原因の確率に関する定理です。 確率の乗法定理から、ある事象E1(例えば病気)が起こる確率と、別の事象E2(例えば発熱)が起こる確率、そしてそれらが同時に起こる確率について次の関係が成り立ちます。

P(E1):E1が起こる確率  P(E2):E2が起こる確率  P(E1 ∩ E2):E1とE2が同時に起こる確率
P(¬E1):E1が起きない確率  P(¬E2):E2が起きない確率  P(¬E1 ∩ ¬E2):E1とE2がどちらも起きない確率
P(E1|E2):E2が起きたという条件下でE1が起こる条件付き確率  P(E2|E1):E1が起きたという条件下でE2が起こる条件付き確率
P(E1 ∩ E2)=P(E1)P(E2|E1)=P(E2)P(E1|E2)

この関係からP(E1|E2)について次のような式が成り立ちます。 これがベイズの定理です。 ベイズの定理の特徴は、この関係がE1とE2の因果関係や時間的な前後関係とは無関係に成り立つことです。

図 付録6.1 2つの事象のベン図

例えばE1が病気でP(E1)=0.2とし、E2が発熱でP(E2)=0.4とし、病気が原因で発熱する確率がP(E2|E1)=0.8とすると、この状態を図6.1のように表すことができます。 そしてベイズの定理から、発熱E2が起きた時にその原因が病気E1である確率はP(E1|E2)=0.16/0.4=0.4であることがわかります。

このようにベイズの定理を利用すると、発熱した後でその原因が病気である確率を計算することができます。 つまり過去に起こった事柄に基いてこれから起こることの確率を計算するのではなく、現在起きている事柄に基づいて過去に起きたであろうことの確率を計算するという、逆確率つまり原因の確率を計算することができるのです。

また病気E1が起こる一般的な確率P(E1)を事前確率(prior probability)とし、発熱が起こった後でその原因が病気である確率つまり病気にかかっている確率P(E1|E2)を事後確率(posterio probability)とすると、病気が原因で発熱する確率P(E2|E1)は発熱の原因が病気である尤度(もっともらしさ、likelihood)に相当します。 そしてベイズの定理は「事前確率×尤度(情報)=事後確率」という関係を表す式でもあることがわかります。 (→9.3 1変量の場合 (1) 尤度と最尤法)

例えば病気と発熱の例では、発熱という情報がなければ「病気である確率は0.2」という一般論的なことしかしか言えません。 ところが発熱したという情報と発熱に関する病気の尤度を知ることによって、「病気である確率は0.4」と少し確実なことが言えるわけです。 この理論は実際に病気の診断に応用されています。 (→9.2 群の判別と診断率)

2.ベイズ統計学

ベイズ統計学はベイズの定理に基づく「事前確率×尤度(情報)=事後確率」という考え方と、確率を主観的なものと解釈する考え方を中心にして統計学を再構築したものです。 従来の統計学では確率を頻度的なものと解釈します。 それに対してベイズ統計学では確率を主観的なものと解釈します。

例えばコインを投げて表が出る確率は、従来の頻度的確率でもベイズ確率でも0.5とします。 しかし「100万年前に火星に生命が存在した確率」は頻度的確率では定義できないのに対して、ベイズ確率では例えば0.001と定義します。

つまり頻度的確率はランダム性に基づいて「不確かさ」を定量化するのに対して、ベイズ確率は情報不足に基づいて「不確かさ」を定量化するのです。 そうしないと「原因の確率」つまり「すでに起きてしまったことの確率(すでに起きてしまったことだから確率は0か1、または確率そのものを定義することができないんじゃないの…!?)」を合理的に解釈することはできません。

ベイズ統計学では、ベイズの定理に基づいた次のような式を用いて推定や検定を行います。


p(θ):母数θに関する確率関数=事前分布(prior distribution)←上記のベイズの定理におけるP(E1)に相当
p(x|θ):母数がθである時にデータxが観測される条件付き確率関数←上記のベイズの定理におけるP(E2|E1)に相当
p(θ|x):データxが観測された時に母数がθである条件付き確率関数=事後分布(posterio distribution)←上記のベイズの定理におけるP(E1|E2)に相当
∫p(θ)p(x|θ)dθ:母数θが全領域について変化した時にデータxが観測される累積確率←上記のベイズの定理におけるP(E2)に相当

事前分布はどんなものでもかまいませんが、例えば正規分布N{μ002}とすると、上記の式から次のような関係を導くことができます。 これは平方完成(completion of the square)と呼ばれる展開です。

  
μ0:事前分布における母平均(事前情報)  σ02:事前分布における母分散(事前情報)
μ1:事後分布における母平均  σ12:事後分布における母分散
n:観測データの例数  mx:観測データから求めた標本平均(母平均推測値)  V:観測データから求めた不偏分散(母分散推測値)

この式からμ1はμ0とmxの信頼性(誤差の逆数)で重み付けした加重平均になることと、μ1の誤差は情報が増えた分だけ少なくなることがわかります。 事前情報μ0がない時はσ02=∞として、次のようにネイマン・ピアソン流の統計学の結果と一致します。

  

また事前情報μ0が絶対的な時はσ02=0として、次のようにどんなmxが得られてもμ10になります。

  

このようにベイズ統計学は事前情報とデータから得られた情報を組み合わせて、事前情報をより確実性の高いものに更新しています。 これは我々が日常的に行っている推論方式と同じため、ネイマン・ピアソン流の統計学よりもむしろ馴染みやすいと思います。 しかし事前情報とその確実性を恣意的に決めることができるため、どうしても主観的になりがちです。 そのため客観的な情報が少なく(つまり頻度的な確率を求めにくい)、個人の経験やカンに基づいた情報に頼りがちな分野、例えば経済学分野などに適していると思います。

それに対して医学や薬学などの自然科学分野では、客観的なデータに基づいて理論を構築するのが主流です。 そのため事前情報は作業仮説を組み立てるために利用し、その作業仮説を客観的なデータに基づいて検証するための数学的ツールのひとつとして統計学を用います。 そして必要に応じて実験や試験を何度も繰り返すことができるため(つまり頻度的な確率を求めやすい)、ネイマン・ピアソン流の統計学の方が適していると思います。

いずれにせよネイマン・ピアソン流の統計学もベイズ統計学も一長一短があり、万能ではありません。 そのためそれらの特徴をよく理解して、目的に応じて適切に使い分けることが大切です。