玄関雑学の部屋雑学コーナー統計学入門

1.3 データの要約方法

(1) 度数分布図

では、どのようにしてデータを要約し、どのように集団の様子を記述するのでしょうか? それを説明するために、第1節の体重測定の例をもう一度取り上げてみましょう。

データを要約したい時は、まず始めにデータを見やすいようにグラフ化します。 それには横軸にデータの値を取り、縦軸にその数をプロットした度数分布図(frequency distribution)を用います。 一般的な度数分布図ではデータの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットします。 この図が度数分布図と呼ばれるわけは、データの数のことを数学では度数と呼ぶからです。

図1.3.1 度数分布図

体重測定のデータを度数分布図で表したところ、図1.3.1-Aのようになったとします。 このように、最初にデータを目に見えるようにグラフ化するということは大変重要なことです。 これによってデータを感覚的に把握することができるので、要約値を求めなくても、データの内容についてある程度の情報を得ることができますし、データの分析方法について重要なヒントが得られたりします。 「百聞は一見にしかず」です。 面倒臭がらずにグラフを描くように心がけましょう。

データの数が多いと図1.3.1-Aの度数分布はもっと滑らかなものになり、理想的には図1.3.1-Bのようなベル形(和風にいえばツリガネ形)のグラフになります。 このような形の分布のことを正規分布(normal distribution)といいます。 この分布はガウス(Johann Carl Friedrich Gauss)というネズミ(マウス!)の化物のような名前の人物によって発見されたと言われていたため、ガウス分布とも呼ばれています。 (注1)

次に度数分布図を眺めながら、データ内容を把握するのに最も適した要約値を検討します。 最初の要約値として、とりあえず平均値を求めてみましょう。 平均値は、次の式のように全部のデータを足し合わせて例数で割った値です。 体重測定の例では、この値が60kgになりました。 (注2)

普通、平均値はmeanの頭文字をとって「m」と表記したり、データを表す記号xの上に横線を引き「x(エックスバー)」と表記したりします。 また「Σ(シグマ)」は「合計する(sum)」という意味の数学記号で、数学者の怠惰な性格をよく表しています。 (注3)

平均値は全データの重心になります。 そのため図1.3.1の横軸を長い棒と考えて、データxiがプロットされる位置に一定の重さの錘をぶら下げたとすると、その棒は平均値の位置で釣り合いがとれます。 正規分布は左右対称ですから、平均値は分布の中央の値かつ最も度数の多い値になります。 分布の中央の値を中央値(メジアン、median)、最も度数の多い値を最頻値(モード、mode)といい、やはり要約値の一種です。

ちなみに高校の頃、「メジアン」という数学の問題集がありました。 でも、とても中くらいの問題などという生やさしいものではなく、「マキシマム(最大値)」とでも呼ぶべきものでした。 またモードは、ファッション雑誌などによくある「今年の秋のトップモード」のモードと同じです。 でも、あんな格好をして外を歩けるのは相当大胆な人でしょうから、むしろ最貧値(モーダメ、modame)とでもいった方が適切でしょう。 それにしても、秋に流行するファッションがどうして春からわかっているのでしょうか? 人間社会と女心はいくら統計学を用いたところで理解できず、数学的にはまことに不可解です。

平均値の次は、データのばらつき具合を表す要約値である標準偏差を求めてみましょう。 統計学では「ばらつき」のことを偏差(deviation)と呼び、次のように定義します。

di=xi-m

ばらつきの要約値を求めるためには、この偏差の平均を計算すれば良いと思うかもしれません。 しかし、いかんせん偏差には正負があり、合計すると0になってしまいます。 それは平均値が全データの重心だからです。 そこで次のように偏差の平方を平均してから平方根をとります。 (注4)


SSのことを平方和(Sum of Squares)、Vのことを分散(Variance)といい、統計学上は分散Vがばらつきの要約値になります。 しかしながら分散は平方された値のため、我々人類には馴染みにくくて不便です(数学者は、人類とは別種のhomo mathematicsに属しています)。 そこで平方根を取り、元のデータの単位に戻した値sを標準偏差と呼んで、もっぱらこちらを愛用しています。 体重測定の例では、この値が10kgになりました。

図1.3.1-Bに示したように、正規分布では平均値から分布の変曲点までの距離が標準偏差になります。 そして平均値±標準偏差の間に全データの約68%が、平均値±2標準偏差の間には全データの約95%が含まれます。 品質管理で使われる2σ(シグマ)法は、この性質を利用しています。

正規分布は例数、平均値、標準偏差によって分布の形が完全に決定するため、これら3つの値によって全部の情報を要約することができます。 そして現実のデータは、大半が近似的に正規分布をします。 このため普通はこれら3つの値によってデータを要約し、集団の様子を記述します。 つまり例数によって標本集団の規模を記述し、平均値によって集団の中心位置を記述し、標準偏差によって集団のばらつき具合を記述するわけです。

人間に例えれば例数は体重に相当し、平均値は身長に相当し、標準偏差はプロポーションに相当すると思えば良いでしょう。 プロポーションは人間(の特に女性)ですとお馴染みの3つの数値で表現しますが、分布では1つでおしまいですし、魅惑的なカーブでもありません。 色気のない話で全く残念です。

(2) 標準偏差と不偏標準偏差

さて、今求めた平均値と標準偏差は100人の標本集団のもので、これを標本平均標本標準偏差といいます。 これら標本集団の要約値に対して、母集団の様子を記述する要約値のことを母数(パラメーター、parameter)といいます。 そして母数はギリシャ文字で書くのが普通です。 このため母集団の平均値つまり母平均を、mに相当するギリシャ文字のμ(ミュー)で表し、母集団の標準偏差つまり母標本偏差を、sに相当するギリシャ文字のσ(シグマ)で表します。 母集団の分散つまり母分散については、Vに相当するギリシャ文字がないためσ2(シグマ2乗)で表します。 (注5)

標本集団は母集団の代表ですから、標本集団の要約値と母集団の要約値は近似すると考えられます。 このため、

μ≒m  σ2≒V

と、母平均値は標本平均で近似でき、母分散は標本分散で近似できると思われるでしょう。 ところがどっこいさにあらず、母平均の方は確かに標本平均で近似できますが、母分散の方は少々ヘソ曲がりで、次のようにnの代わりに(n-1)で割った方がより近似します。

なぜ(n-1)で割った方が近似が良いのかというと、それは平均値の定義式と関係があります。 例えば100人の標本集団の平均値が60だったとします。 この時、一見すると、ばらついているデータは100個あるように思えます。 しかし平均値の定義式からわかるように、平均値を固定すると99個は勝手に変動できますが、最後の1個は平均値を60にするために勝手には変動できず、決った値になってしまいます。 つまりそのデータは自分の意思(?)で動いているのではなく、他のデータの尻ぬぐいのためにイヤイヤながら動かされているのです。

このような関係を一次従属(linear dependent)と呼び、自由に変動できるデータのことを独立変数(independent variable)、独立変数によって値が決められるデータのことを従属変数(dependent variable)、独立変数の個数を自由度(degree of freedom)といいます。 ばらつきの原因になっているのは独立変数ですから、自由度すなわち(n-1)で割って、1自由度あたりの偏差平方を計算した方が理屈に合っているのです。

このため標本集団のデータから母分散を推測する時は、自由度で割った式が用いられます。 そして、この値は正式には不偏分散(unbiased variance)と呼ばれています。 「不偏」というのは「偏らない」という意味であり、不偏分散で推定すると偏らずにうまく近似できることを表しています。 したがって母標準偏差も、次のように不偏分散の平方根によって推定します。 (注6)

不偏標準偏差について、数学的には正確ではないものの、概念的には次のように考えるとわかりやすいかもしれません。

母集団の分布は左右に広く広がっている

分布の左右の端の部分は度数が少ないため標本集団に選ばれる可能性が低い

そのため標本集団の分布は左右の端が少し切れている

母集団の標準偏差を推測する時は標本集団の標準偏差よりも少し大きな値にした方が近似が良い

平方和をnで割る代わりに(n-1)で割って少し大きな値にしたものを不偏標準偏差する

(3) 標準誤差

標準偏差とよく似た値として、標準誤差いわゆるSE(Standard Error)があります。 SDとSEの違いをご存知でしょうか? 実は、この違いをはっきりと理解している人は案外少ないのです。 そこで標準誤差の求め方を説明することにしましょう。

先程の例ではデータの度数分布図を描きましたが、今度は標本平均の度数分布図を描いてみましょう。 先程は標本平均として60を得たので、この値をm1としてプロットします。 次に100人の標本集団を一旦母集団に戻してしまい、改めてまた(おそらくは別の)100人を無作為抽出して平均値m2を計算します。 そうするとそのm2は60に近い値ではあるでしょうが、多少違った値になるでしょう。 仮にm2が55になったとして、それをまた度数分布図にプロットします。

こうした操作を暇にあかせてくどくしつこく繰り返していくと、無限回目(!)にはとうとう図1.3.2のようなきれいな標本平均の分布ができ上ります。 そしてこの分布に関して、次のことが成り立ちます。

図1.3.2 標本平均の分布
  1. 母集団がどんな分布をしていても、標本平均の分布は漸近的に正規分布に近似する。 これを中心極限定理(central limit theorem」という。 (「漸近的」とは、標本集団の例数が多いほど、正規分布に対する近似が良くなるという意味)
  2. 標本平均の平均値mは母平均μと一致する。
    m
  3. 標本平均の標準偏差smは、標本集団の例数をn、母標準偏差をσとすると次のようになる。
    sm=SDm= σ
    ――

実は、この標本平均の分布における標準偏差sm、つまり標本平均の標準偏差のことを標準誤差と呼びます。 ただし母標準偏差σは普通は未知ですから、標本集団から計算した母標準偏差推測値sで代用して次のように計算します。 (注7)

一言でいえば、標準誤差は標本平均のばらつきであり、標本平均で母平均を推測する時の誤差の大きさを表す指標になります。 そして上式からわかるように、例数が増えれば増えるほど標準誤差は小さくなります。 そのため標本平均で母平均を推測した時の誤差が小さくなり、標本平均の信頼性が増します。 これは考えてみれば当然のことで、データ数が多いほど実験結果が信頼できるようになるという常識を裏打ちしています。 つまり標準誤差とは、「ヘタな鉄砲も数射ちゃ当る」という格言を数学的に表現した値なのです。

このような標準誤差の意味を考えると、よく見かける図1.3.3のような平均値の経時的変化を示すグラフでは、平均値の上下に標準誤差を付け加えるのが適切だということがわかります。 なぜなら、このグラフの意味するところは次のようなことだからです。

「実験結果では、標本集団の平均値はグラフの折れ線のように変化した。 しかしこの標本平均で本当の平均値つまり母平均を推測すると、標準誤差程度の推測誤差がある。 このため母平均は、標本平均の上下に標準誤差をプラス・マイナスした幅の間を変化していると考えられる。 だから、このグラフはそのような帯状のグラフとして見てほしい」

標準誤差は推測統計学独特の指標であり、記述統計学にはありません。 このことは標準誤差の求め方から考えて、容易に理解できると思います。 したがって平均値の上下に標準誤差を描くということは、単に標本集団の様子をグラフ化しているだけではなく、母集団の様子を推測してグラフ化している、つまり記述統計学ではなく推測統計学を適用している、ということを明示することにもなります。

それに対して、例えばAという錠剤100錠とBという錠剤100錠の重さを測定したところ、平均値はどちらも同じだったが、データのばらつきはA錠の方が小さかった、つまり錠剤の均一性はA錠の方が高かったとします。 このことをグラフ化したい時は、図1.3.4のように平均値の上下に標準偏差を付け加えるのが適切です。

なぜなら、平均値の上下に標準誤差を付け加えると母平均の推測範囲を表すグラフになり、データのばらつき具合を表すグラフではなくなってしまうからです。 このグラフの意味するところは次のようなことです。

A錠もB錠も平均値は同じだが、個々の錠剤のバラツキはA錠の方が小さい。 したがってA錠の方が錠剤の均一性が高い、つまりA錠の方が錠剤を製造する技術は優れている」

図1.3.3 体重の推移 図1.3.4 錠剤の重量

このように標準偏差と標準誤差はその意味するところを十分に考えて、適切に使い分ける必要があります。

「SEの方が小さくて、グラフの格好が良いから…」

とか、

「何だか知らんが、皆がそうするから…」

といった、高度に政治的な判断で使い分けてはいけません。 (注8)


(注1) 正規分布の式を最初に定式化したのはガウスではなく、実はガウスより前の数学者ド・モアブル(Abraham de Moivre)です。 そしてド・モアブルよりも前に、ベルヌイ(Daniel Bernoulli)がその式を偶然発見したともいわれています。

いずれにせよ正規分布の確率密度関数f(x)は、確率変数をx、平均値をμ、分散をσ2とすると次のようになります。

分布の平均値を0、分散を1にすることを標準化(規準化、standardization)といいます。 これは確率変数を次のように変換することに相当します。

前述の正規分布を標準化すると次のようになります。

正規分布は理想分布であり、現実のデータで厳密に正規分布するものはありません。 しかしたいていのデータは近似的に正規分布しますし、対数変換等の適当な変数変換によって近似的に正規分布するデータも数多くあります。 また大部分の統計量は、中心極限定理により漸近的に正規分布します。 このため正規分布は統計学上最も応用の多い基本的な分布とされています。 (→付録1 各種の確率分布)

(注2) 連続変数xについての平均値は、xの確率密度関数をf(x)とすると次のように定義されています。

μ=E(x)=遅f(x)dx

関数E(x)は期待値とも呼ばれ、xが無限個ある時の平均値すなわち母平均に相当します。 E(x)には次のような性質があります。

(注3) 「x(エックスバー)」の上線は、実は特殊なスタイルシートを用いて表記しています。 しかしブラウザによっては上線が表示できないものもあるため、ここでは平均値の記号はできるだけ「m」を用いることにします。

(注4) 連続変数xについての分散は、xの確率密度関数をf(x)とすると次のように定義され、偏差平方の期待値を意味します。 これはxが無限個ある場合の分散、すなわち母分散に相当します。

σ2=V(x)=E({x-E(x)}2)=E(x2-2x・E(x)+{E(x)}2)
  =E(x2)-2E(x)E(x)+{E(x)}2=E(x2)-{E(x)}2=遅2f(x)dx-μ2

関数V(x)には次のような性質があります。

ばらつきの要約値として、偏差平方を平均する代わりに偏差の絶対値を平均した平均偏差(MD:mean deviation)という指標もあります。

この値は添え字が少ないためウェブ上では書きやすいのですが、数学的な取り扱いが面倒なためほとんど使われません。

(注5) 厳密に言えば母数は要約値というよりも母集団の性質を左右する定数のことであり、その定数によって確率変数の挙動が決定されていると考えます。 しかし、ここでは母数も統計量と同様に要約値としてとらえることにします。

(注6) 一般に未知母数θの推定量をTとすると、次のようにその期待値が母数に等しくなる時、Tのことを不偏推定量(unbiased estimator)と呼びます。

E(T)=θ

標本平均は次のように不偏性を持っています。

分散については少々ややこしく、

(x-μ)=(x-m)+(m-μ)
(x-μ)2=(x-m)2+(m-μ)2+2(x-m)(m-μ)
Σ(x-μ)2=Σ(x-m)2+Σ(m-μ)2+2Σ(x-m)(m-μ)
  =Σ(x-m)2+n(m-μ)2+2(nm-nm)(m-μ)
  =Σ(x-m)2+n(m-μ)2

と置いて両辺の期待値を取ると、

E(Σ(x-μ)2)=E(Σ(x-m)2)+E(n(m-μ)2)
n・E((x-μ)2)=E(Σ(x-m)2)+n・E((m-μ)2)
n・V(x)=E(Σ(x-m)2)+n・V(m)

ここで、xiはお互いに独立のためC(xi,xj)=0になり、V(m)は次のようになります。

その結果、次のように自由度で割った時の分散が母分散の不偏推定量になります。

n・V(x)=n・σ2=E(Σ(x-m)2)+σ2
E(Σ(x-m)2)=(n-1)σ2

例数nで割った分散は、次のように母分散よりσ2/nだけ小さい方に偏っています。

厳密に言うと標準偏差については、次のように不偏分散の平方根を用いても不偏推定量にはなりません。 しかし正確な不変標準偏差を計算するのは非常に面倒なので、通常はこの値で母標準偏差を推定しています。

E(V)=E(s2)=E(s・s)≒{E(s)}2+C(s,s)={E(s)}2+V(s)
{E(s)}2≒E(V)-V(s)

(注7) 一般に統計量の標準偏差を標準誤差と呼び、SEと書きます。 しかし普通は平均値について議論することが多いので、単に標準誤差といえば、平均値の標準誤差すなわちSEM(Standard Error of Mean)を指すことになっています。 実際、欧米の科学論文では「SEM」と正確に表記することが多いようです。

次のように標本平均の平均値(期待値)は母平均μになり、標本平均の標準偏差つまり標準誤差はσ/貧になります。



(注8) 母集団の標準偏差は不偏分散の平方根、つまり自由度で割った標準偏差で推定します。 しかし母集団のデータのばらつきを厳密に推定するには、標準偏差と標準誤差を合わせた次のような値を用いる必要があります。

xのばらつき:

母集団のデータのばらつきをこの値で推定する理由は、ばらつきの基準値である母平均を標本平均で推定するためです。 つまり、ばらつきの基準値そのものにも標準誤差に相当する推定誤差が含まれているため、その分だけデータのばらつきの推定値が大きくなるのです。 この原理に基づいて別の母集団に含まれる可能性の高い外れ値をチェックしようという手法が、第2章で説明する棄却検定です。 (→2.6 尺度合わせと外れ値)