玄関雑学の部屋雑学コーナー統計学入門

1.3 データの要約方法

(1) 度数分布図

では、どのようにしてデータを要約し、どのように集団の様子を記述するのでしょうか? それを説明するために、第1節の体重測定の例をもう一度取り上げてみましょう。

データを要約したい時は、まず始めにデータを見やすいようにグラフ化します。 それには横軸にデータの値を取り、縦軸にその数をプロットした度数分布図(frequency distribution)を用います。 一般的な度数分布図ではデータの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットします。 この図が度数分布図と呼ばれるわけは、データの数のことを数学では度数と呼ぶからです。

図1.3.1 度数分布図

体重測定のデータを度数分布図で表したところ、図1.3.1-Aのようになったとします。 このように最初にデータを目に見えるようにグラフ化するということは大変重要なことです。 これによってデータを感覚的に把握することができるので、要約値を求めなくてもデータの内容についてある程度の情報を得ることができますし、データの分析方法について重要なヒントが得られたりします。 「百聞は一見にしかず」です。 面倒臭がらずにグラフを描くように心がけましょう。

データの数が多いと図1.3.1-Aの度数分布はもっと滑らかなものになり、理想的には図1.3.1-Bのようなベル形(和風にいえばツリガネ形)のグラフになります。 このような形の分布のことを正規分布(normal distribution)といいます。 この分布はガウス(Johann Carl Friedrich Gauss)というネズミ(マウス!)の化物のような名前の人物によって発見されたと言われていたため、ガウス分布とも呼ばれています。 (注1)

次に度数分布図を眺めながら、データ内容を把握するのに最も適した要約値を検討します。 最初の要約値として、とりあえず平均値を求めてみましょう。 平均値は次の式のように全部のデータを足し合わせて例数で割った値です。 体重測定の例ではこの値が60kgになりました。 (注2)

普通、平均値はmeanの頭文字をとって「m」と表記したり、データを表す記号xの上に横線を引き「x(エックスバー)」と表記したりします。 また「Σ(シグマ)」は「合計する(sum)」という意味の数学記号で、数学者の怠惰な性格をよく表しています。 (注3)

平均値は全データの重心になります。 そのため図1.3.1の横軸を長い棒と考えて、データxiがプロットされる位置に一定の重さの錘をぶら下げたとすると、その棒は平均値の位置で釣り合いがとれます。 正規分布は左右対称ですから、平均値は分布の中央の値かつ最も度数の多い値になります。

分布の中央の値を中央値(メジアン、median)、最も度数の多い値を最頻値(モード、mode)といい、これらはデータの代表値としてよく用いられます。 要約値も代表値も統計量ですが、ここでは平均値のように複数のデータを四則演算によって要約した統計量を要約値と呼び、そのような要約をしないポイント的な統計量を代表値と呼ぶことにします。 (注7)

ちなみに高校の頃、「メジアン」という数学の問題集がありました。 でもとても中くらいの問題などという生やさしいものではなく、「マキシマム(最大値)」とでも呼ぶべきものでした。 またモードはファッション雑誌などによくある「今年の秋のトップモード」のモードと同じです。 でもあんな格好をして外を歩けるのは相当大胆な人でしょうから、むしろ最貧値(モーダメ、modame)とでもいった方が適切でしょう。 それにしても秋に流行するファッションが、どうして春からわかっているのでしょうか? 人間社会と女心はいくら統計学を用いたところで理解できず、数学的にはまことに不可解です。

平均値の次はデータのばらつき具合を表す要約値である標準偏差を求めてみましょう。 統計学では「ばらつき」のことを偏差(deviation)と呼び、次のように定義します。

di=xi - m

ばらつきの要約値を求めるためには、この偏差の平均を計算すれば良いと思うかもしれません。 しかし、いかんせん偏差には正負があり、合計すると0になってしまいます。 それは平均値が全データの重心だからです。 そこで次のように偏差の平方を平均してから平方根をとります。 (注4)

  

SSのことを平方和(Sum of Squares)、Vのことを分散(Variance)といい、統計学上は分散Vがばらつきの要約値になります。 しかしながら分散は平方された値のため、我々人類には馴染みにくくて不便です(数学者は、人類とは別種のhomo mathematicsに属しています)。 そこで平方根を取り、元のデータの単位に戻した値sを標準偏差と呼んで、もっぱらこちらを愛用しています。 体重測定の例では、この値が10kgになりました。

図1.3.1-Bに示したように、正規分布では平均値から分布の変曲点までの距離が標準偏差になります。 そして平均値±標準偏差の間に全データの約68%が、平均値±2標準偏差の間には全データの約95%が含まれます。 品質管理で使われる2σ(シグマ)法は、この性質を利用しています。

正規分布は例数、平均値、標準偏差によって分布の形が完全に決定するため、これら3つの値によって全部の情報を要約することができます。 そして現実のデータは、大半が近似的に正規分布をします。 このため普通はこれら3つの値によってデータを要約し、集団の様子を記述します。 つまり例数によって標本集団の規模を記述し、平均値によって集団の中心位置を記述し、標準偏差によって集団のばらつき具合を記述するわけです。

人間に例えれば例数は体重に相当し、平均値は身長に相当し、標準偏差はプロポーションに相当すると思えば良いでしょう。 プロポーションは人間(の特に女性)ですとお馴染みの3つの数値で表現しますが、分布では1つでおしまいですし、魅惑的なカーブでもありません。 色気のない話で全く残念です。

(2) 標準偏差と不偏標準偏差

さて、今求めた平均値と標準偏差は100人の標本集団のもので、これを標本平均標本標準偏差といいます。 これら標本集団の要約値に対して、母集団の様子を記述する要約値のことを母数(パラメーター、parameter)といいます。 そして母数はギリシャ文字で書くのが普通です。 このため母集団の平均値つまり母平均を、mに相当するギリシャ文字のμ(ミュー)で表し、母集団の標準偏差つまり母標本偏差を、sに相当するギリシャ文字のσ(シグマ)で表します。 母集団の分散つまり母分散については、Vに相当するギリシャ文字がないためσ2(シグマ2乗)で表します。 (注5)

標本集団は母集団の代表ですから、標本集団の要約値と母集団の要約値は近似すると考えられます。 このため、

μ≒m  σ2≒V

と、母平均値は標本平均で近似でき、母分散は標本分散で近似できると思われるでしょう。 ところがどっこいさにあらず、母平均の方は確かに標本平均で近似できますが、母分散の方は少々ヘソ曲がりで、次のようにnの代わりに(n-1)で割った方がより近似します。

なぜ(n-1)で割った方が近似が良いのかというと、それは平均値の定義式と関係があります。 例えば100人の標本集団の平均値が60だったとします。 この時、一見すると、ばらついているデータは100個あるように思えます。 しかし平均値の定義式からわかるように、平均値を固定すると99個は勝手に変動できますが、最後の1個は平均値を60にするために勝手には変動できず、決った値になってしまいます。 つまりそのデータは自分の意思(?)で動いているのではなく、他のデータの尻ぬぐいのためにイヤイヤながら動かされているのです。

このような関係を一次従属(linear dependent)と呼び、自由に変動できるデータのことを独立変数(independent variable)、独立変数によって値が決められるデータのことを従属変数(dependent variable)、独立変数の個数を自由度(degree of freedom)といいます。 ばらつきの原因になっているのは独立変数ですから、自由度すなわち(n-1)で割って、1自由度あたりの偏差平方を計算した方が理屈に合っているのです。

このため標本集団のデータから母分散を推測する時は、自由度で割った式が用いられます。 そして、この値は正式には不偏分散(unbiased variance)と呼ばれています。 「不偏」というのは「偏らない」という意味であり、不偏分散で推定すると偏らずにうまく近似できることを表しています。 したがって母標準偏差も、次のように不偏分散の平方根によって推定します。 (注6)

不偏標準偏差について、数学的には正確ではないものの、概念的には次のように考えるとわかりやすいかもしれません。

母集団の分布は左右に広く広がっている

分布の左右の端の部分は度数が少ないため標本集団に選ばれる可能性が低い

そのため標本集団の分布は左右の端が少し切れている

母集団の標準偏差を推測する時は標本集団の標準偏差よりも少し大きな値にした方が近似が良い

平方和をnで割る代わりに(n-1)で割って少し大きな値にしたものを不偏標準偏差する

(3) 標準誤差

標準偏差とよく似た値として、標準誤差いわゆるSE(Standard Error)があります。 SDとSEの違いをご存知でしょうか? 実は、この違いをはっきりと理解している人は案外少ないのです。 そこで標準誤差の求め方を説明することにしましょう。

先程の例ではデータの度数分布図を描きましたが、今度は標本平均の度数分布図を描いてみましょう。 先程は標本平均として60を得たので、この値をm1としてプロットします。 次に100人の標本集団を一旦母集団に戻してしまい、改めてまた(おそらくは別の)100人を無作為抽出して平均値m2を計算します。 そうするとそのm2は60に近い値ではあるでしょうが、多少違った値になるでしょう。 仮にm2が55になったとして、それをまた度数分布図にプロットします。

こうした操作を暇にあかせてくどくしつこく繰り返していくと、無限回目(!)にはとうとう図1.3.2の右の分布のようなきれいな標本平均の分布ができ上ります。 そしてこの分布に関して次のことが成り立ちます。

図1.3.2 標本平均の分布
  1. 母集団がどんな分布をしていても――図1.3.2の左の分布のような一様分布でも――標本平均の分布は漸近的に正規分布に近似する。 これを中心極限定理(CLT:central limit theorem」という。 (「漸近的に(asymptotically)」とは標本集団の例数が多いほど正規分布により近似するという意味。 母集団が正規分布していれば標本平均はどんな例数でも正規分布する) (注7)
  2. 標本平均の平均値mは母平均μと一致する。
    m
  3. 標本平均の標準偏差smは、標本集団の例数をn、母標準偏差をσとすると次のようになる。

実は、この標本平均の分布における標準偏差sm、つまり標本平均の標準偏差のことを標準誤差と呼びます。 ただし母標準偏差σは普通は未知ですから、標本集団から計算した母標準偏差推測値sで代用して次のように計算します。 (注8)

一言でいえば、標準誤差は標本平均のばらつきであり、標本平均で母平均を推測する時の誤差の大きさを表す指標になります。 そして上式からわかるように、例数が増えれば増えるほど標準誤差は小さくなります。 そのため標本平均で母平均を推測した時の誤差が小さくなり、標本平均の信頼性が増します。 これは考えてみれば当然のことで、データ数が多いほど実験結果が信頼できるようになるという常識を裏打ちしています。 つまり標準誤差とは、「ヘタな鉄砲も数射ちゃ当る」という格言を数学的に表現した値なのです。

このような標準誤差の意味を考えると、よく見かける図1.3.3のような平均値の経時的変化を示すグラフでは、平均値の上下に標準誤差を付け加えるのが適切だということがわかります。 なぜなら、このグラフの意味するところは次のようなことだからです。

「実験結果では標本集団の平均値はグラフの折れ線のように変化した。 しかしこの標本平均で本当の平均値つまり母平均を推測すると、標準誤差程度の推測誤差がある。 このため母平均は、標本平均の上下に標準誤差をプラス・マイナスした幅の間を変化していると考えられる。 だから、このグラフはそのような帯状のグラフとして見てほしい」

標準誤差は推測統計学独特の指標であり、記述統計学にはありません。 このことは標準誤差の求め方から考えて、容易に理解できると思います。 したがって平均値の上下に標準誤差を描くということは、単に標本集団の様子をグラフ化しているだけではなく、母集団の様子を推測してグラフ化している、つまり記述統計学ではなく推測統計学を適用している、ということを明示することにもなります。

それに対して例えばAという錠剤100錠とBという錠剤100錠の重さを測定したところ、平均値はどちらも同じだったが、データのばらつきはA錠の方が小さかった、つまり錠剤の均一性はA錠の方が高かったとします。 このことをグラフ化したい時は、図1.3.4のように平均値の上下に標準偏差を付け加えるのが適切です。

なぜなら、平均値の上下に標準誤差を付け加えると母平均の推測範囲を表すグラフになり、データのばらつき具合を表すグラフではなくなってしまうからです。 このグラフの意味するところは次のようなことです。

A錠もB錠も平均値は同じだが、個々の錠剤のバラツキはA錠の方が小さい。 したがってA錠の方が錠剤の均一性が高い、つまりA錠の方が錠剤を製造する技術は優れている」

図1.3.3 体重の推移 図1.3.4 錠剤の重量

このように標準偏差と標準誤差はその意味するところを十分に考えて、適切に使い分ける必要があります。

「SEの方が小さくて、グラフの格好が良いから…」

とか、

「何だか知らんが、皆がそうするから…」

といった、高度に政治的な判断で使い分けてはいけません。 (注9)


(注1) ガウスは天体観測の測定誤差を研究していて、誤差に関する微分方程式の解として正規分布を導きました(1809年)。 しかしガウスより前に、ド・モアブル(Abraham de Moivre)が二項分布の極限として正規分布を定式化しています(1733年)。

いずれにせよ正規分布の確率密度関数f(x)は、確率変数をx、平均値をμ、分散をσ2とすると次のようになります。 これをN{μ,σ2}と書きます。

分布の平均値を0、分散を1にすることを標準化(規準化、standardization)といいます。 これは確率変数を次のように変換することに相当します。

前述の正規分布を標準化すると次のようになります。 これをN{0,12}と書きます。

正規分布は理想分布であり、現実のデータで厳密に正規分布するものはありません。 しかしたいていのデータは近似的に正規分布しますし、対数変換等の適当な変数変換によって近似的に正規分布するデータも数多くあります。 また大部分の統計量は中心極限定理により漸近的に正規分布します。 そのため正規分布は統計学上最も応用の多い基本的な分布とされています。 (→付録1 各種の確率分布)

(注2) 連続変数xについての平均値は、xの確率密度関数をf(x)とすると次のように定義されています。

μ=E(x)=∫xf(x)dx

関数E(x)は期待値とも呼ばれ、xが無限個ある時の平均値すなわち母平均に相当します。 E(x)には次のような性質があります。

(注3) 「x(エックスバー)」の上線は、実は特殊なスタイルシートを用いて表記しています。 しかしブラウザによっては上線が表示できないものもあるため、ここでは平均値の記号はできるだけ「m」を用いることにします。

(注4) 連続変数xについての分散はxの確率密度関数をf(x)とすると次のように定義され、偏差平方の期待値を意味します。 これはxが無限個ある場合の分散すなわち母分散に相当します。

σ2=V(x)=E({x - E(x)}2)=E(x2 - 2xE(x) + {E(x)}2)=E(x2) - 2E(x)E(x) + {E(x)}2=E(x2) - {E(x)}2=∫x2f(x)dx - μ2

関数V(x)には次のような性質があります。

ばらつきの要約値として、偏差平方を平均する代わりに偏差の絶対値を平均した平均偏差(MD:mean deviation)という指標もあります。

この値は添え字が少ないためウェブ上では書きやすいのですが、数学的な取り扱いが面倒なためほとんど使われません。

(注5) 厳密に言えば母数は要約値というよりも母集団の性質を左右する定数のことであり、その定数によって確率変数の挙動が決定されていると考えます。 しかしここでは母数も統計量と同様に要約値としてとらえることにします。

(注6) 一般に未知母数θの推定量をTとすると、次のようにその期待値が母数に等しくなる時、Tのことを不偏推定量(unbiased estimator)と呼びます。

E(T)=θ

標本平均は次のように不偏性を持っています。

分散については少々ややこしく、

(x - μ)=(x - m) + (m - μ)
(x - μ)2=(x - m)2 + (m - μ)2 + 2(x - m)(m - μ)
Σ(x - μ)2=Σ(x - m)2 + Σ(m - μ)2 + 2Σ(x - m)(m - μ)=Σ(x - m)2 + n(m - μ)2 + 2(nm - nm)(m - μ)=Σ(x - m)2 + n(m - μ)2

と置いて両辺の期待値を取ると、

E{Σ(x - μ)2}=E{Σ(x - m)2} + E{n(m - μ)2}
nE{(x - μ)2}=E{Σ(x - m)2} + nE{(m - μ)2}
nV(x)=E{Σ(x - m)2} + nV(m)

xiはお互いに独立のためC(xi,xj)=0になり、V(m)は次のようになります。

その結果、次のように自由度で割った時の分散が母分散の不偏推定量になります。

nV(x)=nσ2=E{Σ(x - m)2} + σ2
E{Σ(x - m)2}=(n - 1)σ2

例数nで割った分散は、次のように母分散よりσ2/nだけ小さい方に偏っています。

厳密に言うと、標準偏差については次のように不偏分散の平方根を用いても不偏推定量にはなりません。 しかし正確な不変標準偏差を計算するのは非常に面倒なので、通常はこの値で母標準偏差を推定しています。

E(V)=E(s2)=E(s s)≒{E(s)}2 + C(s,s)={E(s)}2 + V(s)
{E(s)}2≒E(V) - V(s)

(注7) 中心極限定理は経験則から始まり、1810年代にラプラス(Pierre Simon Laplace)によって部分的に証明され、1930年代にレヴィ(Paul Levy)とリンデンベルグ(Jarl Waldemar Lindeberg)によって完全に証明されました。 少々ややこしいですが、統計学で最も重要な基本定理なのでその証明を書いておきます。

中心極限定理:確率変数xi(i=1,…,n)が同一の分布に従い、お互いに独立である(idd:independently, identically distributed)として
 E(xi)=μ  V(xi)=σ2     とすると
 …n→∞の時、zの確率密度関数が標準正規分布に収束する:分布収束(または法則収束)
証明:と置くとziは同一の分布に従い、お互いに独立であり E(zi)=0 V(zi)=1 となる。
 さらに
 
 として、ynの積率母関数をMyn(t)とすると
 
 
 
 
 ∴
 ここでexp(t2/2)はN{0,12}の積率母関数だから
 
※確率変数xについて
Mx(t)=E{exp(t x)}  -∞<t<∞
をxの積率母関数(mgf:moment generating function)といいます。 正規分布に従う確率変数x〜N{μ,σ2}と、標準正規分布に従う確率変数z〜N{0,12}の積率母関数は次のようになります。
  
※確率変数xについて

原点まわりのr次積率(r次モーメント、moment of order r about zero)といい、μr'と書きます。 (→2.3 パラメトリック手法とノンパラメトリック手法 (注1))
E(x)=μ、V(x)=σ2の時 μ0'=1 μ1'=μ μ2'=μ22
E(x)=0、V(x)=1の時 μ1'=0 μ2'=1

この証明には「確率変数xiが同一の分布に従い、お互いに独立である」という条件がついています。 しかしこの中の「同一の分布」という条件を緩め、同一の分布でなくても次のような条件を満足していれば中心極限定理が成り立つことが証明されました。

E(xi)=μi  V(xi)=σi2
xiの分布関数をFi(x)とし、と置くと、任意のτに対して
ならば
逆に
ならば
※分布関数F(x)については第2章第2節の(注1)を参照してください。

これをリンドベルグの条件(またはリンドベルグ=レヴィ条件)といい、xiが同一の分布に従わない時でも中心極限定理が成り立つための必要十分条件になります。 この一見しただけでは理解しにくい条件を平ったく言うと次のようになります。

の各項 有界である → 個々の値xiが無限に大きくなったり小さくなったりせず、変動が一様に小さい

この条件は非常に単純であり、実際の研究現場で遭遇するデータはほとんどこの条件を満足しています。 そのため実際の研究現場で得られたデータから求めた標本平均はほとんど近似的に正規分布します。 ただし中央値は確率変数の和に基づく統計量ではないため、一般には正規分布しません(データが正規分布していれば正規分布する)。 つまり複数のデータを要約した要約値的な統計量は中心極限定理が成り立つのに対して、中央値のように代表値的な統計量は中心極限定理が成り立たないのです。

医学分野では無闇にデータの正規性を問題視し、パラメトリックな手法よりもノンパラメトリックな手法を好む悪しき慣習があります。 しかしこのリンドベルグの条件から、実はデータがどんな分布をしていても標本平均は近似的に正規分布するのに対して、中央値は正規分布しないことがわかると思います。 そのため平均値を評価指標にしたパラメトリック手法の結果は、観測データにあまり依存せず普遍性があるのに対して、中央値を評価指標にしたノンパラメトリック手法の結果は、観測データに依存するため普遍性がないという好ましくない特徴があります。 (→2.3 パラメトリック手法とノンパラメトリック手法 (注1))

また次のような条件を満足する時は、「お互いに独立である」という条件も不必要なことが証明されています。

  1. xiが無限に大きくなったり小さくなったりせず、変動が一様に小さい。
  2. xiは全体としてランダムに発生するが、次に発生する値xiの最良の推定値は直前の値xi-1である。

このような条件を満足する一連のデータセットSをマルチンゲール(Martingale)といいます。 マルチンゲールではデータxiはi個のデータセットSiと(i-1)個のデータセットSi-1の差として定義され、マルチンゲール差(Martingale difference)と呼ばれます。

またワシリー・ヘフディング(Wassily Hoeffding)は平均値を一般化して、xiの特殊な線型結合であるU-統計量(U-statistics)を定義しました。 そしてこのU-統計量がリンドベルグの条件を満足していて、中心極限定理が成り立つことを証明しました。

U-統計量:
h(x1,…,xr):全ての順列に対して不変な関数  :1≦i1<i2<…<ir≦nを満たす全ての組み合わせ(i1,…,ir)についての和
Unは次のような母数θの不偏推定量になっている。
E(Un)=E{h(x1,…,xr)}=∫…∫h(x1,…,xr)dF1(x)…dFr(x)=θ
※h(x)=xとするとUnは標本平均になり、h(x)=iとするとUnは順位平均になり、h(x)=(0または1)とするとUnは出現率になる。

標本平均や出現率だけでなく、ノンパラメトリック手法で用いられる順位平均等の統計量もU-統計量に相当するため中心極限定理が成り立ちます。 つまりパラメトリック手法もノンパラメトリック手法も、どちらも中心極限定理による統計量の正規性を用いているのであり、元のデータの正規性を用いているわけではないのです。

さらに1970年代にオッド・アーラン(Odd Aalen)が、臨床試験で取り扱う一般的なデータがマルチンゲールに相当することを証明しました。 そのため医学分野の研究で取り扱うほとんどのデータは中心極限定理が成り立つことになります。

(注8) 一般に統計量の標準偏差を標準誤差と呼び、SEと書きます。 しかし普通は平均値について議論することが多いので、単に標準誤差といえば、平均値の標準誤差すなわちSEM(Standard Error of Mean)を指すことになっています。 実際、欧米の科学論文では「SEM」と正確に表記することが多いようです。

次のように標本平均の平均値(期待値)は母平均μになり、標本平均の標準偏差つまり標準誤差はσ/√nになります。

    

(注9) 母集団の標準偏差は不偏分散の平方根、つまり自由度で割った標準偏差で推定します。 しかし母集団のデータのばらつきを厳密に推定するには、標準偏差と標準誤差を合わせた次のような値を用いる必要があります。

xのばらつき:

母集団のデータのばらつきをこの値で推定する理由は、ばらつきの基準値である母平均を標本平均で推定するためです。 つまり、ばらつきの基準値そのものにも標準誤差に相当する推定誤差が含まれているため、その分だけデータのばらつきの推定値が大きくなるのです。 この原理に基づいて別の母集団に含まれる可能性の高い外れ値をチェックしようという手法が、第2章で説明する棄却検定です。 (→2.6 尺度合わせと外れ値)