玄関雑学の部屋雑学コーナー統計学入門

1.3 データの要約方法

(1) 度数分布図

統計学ではデータをどのようにして要約し、集団の様子をどのように記述するのでしょうか? それを説明するために第1節の体重測定の例をもう一度取り上げてみましょう。

データを要約したい時は、まず始めにデータを見やすいようにグラフ化します。 それには横軸にデータの値を取り、縦軸にその数をプロットした度数分布図(frequency distribution)を用います。 一般的な度数分布図ではデータの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットします。 この図が度数分布図と呼ばれるわけは、データの数のことを数学では度数と呼ぶからです。

図1.3.1 度数分布図(例数が多い場合) 図1.3.2 度数分布図(例数が多い場合)

体重測定のデータを度数分布図で表したところ、図1.3.1のようになったとします。 このように最初にデータを目に見えるようにグラフ化する(見える化する)のは大変重要です。 これによってデータを感覚的に把握することができるので、要約値を求めなくてもデータの内容についてある程度の情報を得ることができますし、データの分析方法について重要なヒントが得られたりします。 「百聞は一見にしかず」です、面倒臭がらずにグラフを描くように心がけましょう。

データの数が多いと図1.3.1の度数分布はもっと滑らかなものになり、理想的には図1.3.2のようなベル形――和風にいえば釣り鐘形――のグラフになります。 このような形の分布のことを正規分布(normal distribution)といいます。 この分布はガウス(Johann Carl Friedrich Gauss)というネズミ(マウス!)の化物のような名前の人物によって発見されたといわれていたのでガウス分布とも呼ばれています。 (注1)

次に度数分布図を眺めながら、データ内容を把握するのに最も適した要約値を検討します。 最初の要約値として、とりあえず平均値(mean)を求めてみましょう。 平均値は次式のように全部のデータを足し合わせて例数で割った値です。 体重測定の例ではこの値が60kgになりました。 (注2)

普通、平均値はmeanの頭文字をとって「m」と表記したり、データを表す記号xの上に横線を引き「x(エックスバー)」と表記したりします。 また「Σ(シグマ)」は「合計する(sum)」という意味の数学記号であり、数学者の怠惰な性格をよく表しています。 (注3)

平均値は全データの重心になります。 そのため図1.3.1の横軸を長い棒と考えて、データxiがプロットされる位置に一定の重さの錘をぶら下げると、その棒は平均値の位置で釣り合いがとれます。 そして正規分布は左右対称のため、平均値は分布の中央の値かつ度数が最も多い値になります。

分布の中央の値を中央値(メジアン、median)、度数が最も多い値を最頻値(モード、mode)といい、これらはデータの代表値としてよく用いられます。 要約値も代表値も統計量ですが、ここでは平均値のように複数のデータを四則演算によって要約した統計量を要約値と呼び、そのような要約をしないポイント的な統計量を代表値と呼ぶことにします。 (注7)

ちなみに高校の頃、「メジアン」という数学の問題集がありました。 でも、とても中くらいの問題などという生やさしいものではなく、「マキシマム(最大値)」とでも呼ぶべきものでした。 またモードはファッション雑誌などによくある「今年の秋のトップモード」のモードと同じです。 でも、あんな格好をして外を歩けるのは相当大胆な人でしょうから、むしろ最貧値(モーダメ、modame)とでもいった方が適切でしょう。 それにしても秋に流行するファッションが、どうして春からわかっているのでしょうか? 人間社会と女心はいくら統計学を用いたところで理解できず、数学的にはまことに不可解です。

平均値の次はデータのばらつき具合を表す要約値である標準偏差(SD:Standard Deviation)を求めてみましょう。 統計学では「ばらつき」のことを偏差(deviation)と呼び、次のように定義します。

di = xi - m

ばらつきの要約値を求めるには、この偏差の平均を計算すれば良いと思うかもしれません。 しかし、いかんせん偏差には正負があり、合計すると0になってしまいます。 それは平均値が全データの重心だからです。 そこで、次のように偏差の平方を平均してから平方根をとります。 (注4)


SSのことを平方和(Sum of Squares)、Vのことを分散(Variance)といい、統計学上は分散がばらつきの要約値になります。 しかしながら分散は平方された値ですから、我々人類には馴染みにくくて不便です(数学者は人類亜種であるhomo mathematicsに属しています)。 そこで平方根を取り、元のデータの単位に戻した値sまたはSDを標準偏差と呼んで、もっぱらこちらを愛用しています。 体重測定の例では、この値が10kgになりました。

図1.3.2に示したように、正規分布では平均から分布の変曲点までの距離が標準偏差になります。 そして平均±標準偏差の間に全データの約68%が含まれ、平均±2標準偏差の間には全データの約95%が含まれ、平均±3標準偏差の間に全データの約99.7%が含まれます。 品質管理で使われる2σ(シグマ)法はこの性質を利用しています。 また3σ範囲から外れるデータは1000個中3個しかない、いわゆる千三つ(千回のうち三回ぐらいしか本当のことを言わない嘘つきという意味――コメディアン「せんだみつを」の芸名の由来)であり、3σ範囲を「事実上の全て」という意味で使うことがあります。

正規分布は例数、平均、標準偏差によって分布の形が完全に決定します。 そのためこれら3つの値によって全部の情報を要約することができます。 そして現実のデータは大半が近似的に正規分布をします。 そこで普通はこれら3つの値によってデータを要約し、集団の様子を記述します。 つまり例数によって標本集団の規模を記述し、平均によって集団の中心位置を記述し、標準偏差によって集団のばらつき具合を記述するわけです。

人間に例えれば例数は体重に相当し、平均は身長に相当し、標準偏差はプロポーションに相当すると思えば良いでしょう。 プロポーションは人間(の特に女性)ですと、お馴染みの3つの数値で表現しますが、分布では1つでおしまいですし、魅惑的なカーブでもありません。 色気のない話で全く残念です。

(2) 分散と不偏分散

さて、今求めた平均値と標準偏差は100人の標本集団のものであり、これを標本平均標本標準偏差といいます。 これら標本集団の要約値に対して、母集団の様子を記述する要約値のことを母数(population parameter)といいます。 母数は普通はギリシャ文字で表記するので、母集団の平均値つまり母平均をmに相当するギリシャ文字のμ(ミュー)で表し、母集団の標準偏差つまり母標本偏差をsに相当するギリシャ文字のσ(シグマ)で表します。 そして母集団の分散つまり母分散は、Vに相当するギリシャ文字がないのでσ2(シグマ2乗)で表します。 (注5)

標本集団は母集団の代表ですから、標本集団の要約値と母集団の要約値は近似すると考えられます。 そのため次のように母平均は標本平均で近似でき、母分散は標本分散で近似できると思われるでしょう。

μ ≒ m  σ2 ≒ V

ところがどっこいさにあらず、母平均の方は確かに標本平均で近似できますが、母分散の方は少々ヘソ曲がりで、標本分散では近似が悪い時があるのです。 標本集団が1個だけで、しかも例数が多い時は母分散を標本分散で近似できます。 ところが標本集団を何度も無作為抽出して標本分散を計算し、それらを平均した時は次のようにnの代わりに(n-1)で割った方が近似が良いのです。

なぜ(n-1)で割った方が近似が良いかというと、それは平均値の定義式と関係があります。 例えば100人の標本集団の平均値が60だったとします。 この時、一見するとばらついているデータは100個あるように思えます。 しかし平均値の定義式からわかるように、平均値を固定すると99個は勝手に変動できますが、最後の1個は平均値を60にするために勝手には変動できず、決った値になってしまいます。 つまりそのデータは自分の意思(?)で動いているのではなく、他のデータの尻ぬぐいのためにイヤイヤながら動かされているのです。

平均値の定義式はn個の変数xiによって定義された関数であり、平均値は関数の値になります。 このような関数において、関数の値を固定した時、値を自由に変えられる変数の個数を自由度(degree of freedom)といいます。 ばらつきの原因になっているのは値を自由に変えられる変数ですから、自由度すなわち(n-1)で割って1自由度あたりの偏差平方を計算した方が理屈に合っているのです。

それから標本集団を何度も無作為抽出すると、標本平均は微妙にバラついて母平均とは少し異なる値になります。 そうすると標本平均に基づいて計算した標本分散も微妙にバラついて、母分散とは少し異なる値になります。 標本平均が母平均とは少し異なる値になった時は、データを母集団全体から満遍なく無作為抽出したのではなく、たまたま小さい値や大きい値に偏って抽出してしまった時のばずです。 そしてそのような時は標本平均に基づいて計算した標本分散は母分散よりも少し小さな値になるはずです。

したがって標本集団を何度も無作為抽出して標本分散を何個も計算し、それらを平均した値は母分散よりもわずかに小さな値になります。 そこで平方和をnで割る代わりに、ばらつきの原因である自由度(n-1)で割って分散の値を少し大きく補正してやると母分散により近似するのです。

このことから標本集団のデータから母分散を推測する時は通常は自由度で割った値を用い、これを正式には不偏分散(unbiased variance)と呼びます。 「不偏」というのは「偏らない」という意味であり、長い目で見ると――つまり標本集団を何度も無作為抽出して不偏分散の平均値を求めると――母分散を偏らずにうまく近似できることを表しています。 したがって母標準偏差も次のように不偏分散の平方根によって推測します。 (注6)

少数例の標本集団を何度も無作為抽出するのではなく、非常に多数例の標本集団を1回だけ無作為抽出して母分散を推測する時は不偏分散ではなく標本分散の方が母分散に近似します。 そもそもそのような多数例の標本集団――今流行中のビッグデータはこれに近い――は母集団に近いので推測統計学よりも記述統計学の方が適しています。 母集団を対象にした記述統計学では標本分散が母分散そのものになるので不偏分散という概念はありません。

(3) 標準誤差

標準偏差とよく似たものに標準誤差(SE:Standard Error)という値があります。 SDとSEの違いをご存知でしょうか? 実は、この違いをはっきりと理解している人は案外少ないのです。 そこで標準誤差の求め方を説明することにしましょう。

最初の例ではデータの度数分布図を描きましたが、今度は標本平均の度数分布図を描いてみましょう。 この例では標本平均として60を得たので、この値をm1としてプロットします。 次に100人の標本集団を一旦母集団に戻してしまい、あらためてまた――おそらくは別の――100人を無作為抽出して標本平均m2を計算します。 そうするとそのm2は60に近い値ではあるでしょうが、多少違った値になるでしょう。 仮にm2が55になったとして、それをまた度数分布図にプロットします。

図1.3.3 母集団のデータ分布 → 図1.3.4 標本平均の分布

こうした操作を暇にあかせてくどくしつこく繰り返していくと、無限回目(!)にはとうとう図1.3.4のようなきれいな標本平均の分布ができ上ります。 そしてこの分布に関して次のことが成り立ちます。 (→付録2 中心極限定理のシミュレーション−平均値と中央値)

  1. 母集団がどんな分布をしていても――図1.3.3のような一様分布でも――標本平均の分布は漸近的に正規分布に近似する。 これを中心極限定理(CLT:central limit theorem」という。
    ※「漸近的に(asymptotically)」とは標本集団の例数が多いほど正規分布により近似するという意味。 母集団が正規分布していれば、標本平均はどんな例数でも正規分布する。 (注7)
    ※図1.3.3のような一様分布では(最大値-最小値)2=12×σ2になるので、(μ-最小値)≒1.7×σになる。
  2. 標本平均の平均値mは母平均μと一致する。
    m = μ
  3. 標本平均の標準偏差smは、標本集団の例数をn、母標準偏差をσとすると次式で求められる。

この標本平均の分布における標準偏差smつまり標本平均の標準偏差のことを標準誤差と呼びます。 ただし母標準偏差σは普通は未知ですから、標本集団から計算した母標準偏差推測値sで代用して次のように計算します。 (注8)

一言でいえば標準誤差は標本平均のばらつきであり、標本平均で母平均を推測する時の誤差の大きさを表す指標になります。 そして上式からわかるように、例数が増えれば増えるほど標準誤差は小さくなります。 そのため標本平均で母平均を推測した時の誤差が小さくなり、標本平均の信頼性が増します。 これは考えてみれば当然のことであり、データ数が多いほど実験結果が信頼できるようになるという常識を裏打ちしています。 つまり標準誤差とは「ヘタな鉄砲も数射ちゃ当る」という格言を数学的に表現した値なのです。

例えば肥満症の人達100名があるダイエット法を実施し、ダイエット開始時、2週後、4週後に体重を測定した時の標本平均の経時的変化をグラフ化したところ、図1.3.5の折れ線のようになったとします。 標準誤差の意味を考えると、このグラフでは標本平均の上下に標準誤差を付け加えるのが適切だとわかります。 なぜなら、このグラフの意味するところは次のようなことだからです。

「標本平均つまり100名の標本集団の平均値はグラフの折れ線のように変化した。 しかしこの標本平均から母平均つまり肥満症の人全員がダイエットを実施した時の平均値を推測すると、標準誤差程度の推測誤差がある。 そのため母平均は標本平均の上下に標準誤差をプラス・マイナスした幅の間を変化する可能性が高い。 だから、このグラフはそのような帯状のグラフとして見てほしい

標準誤差は推測統計学独特の指標であり、記述統計学にはありません。 このことは標準誤差の求め方から考えて容易に理解できると思います。 したがって平均値の上下に標準誤差を描くということは、単に標本集団の様子をグラフ化しているだけではなく母集団の様子を推測してグラフ化している、つまり記述統計学ではなく推測統計学を適用していると明示することにもなります。 そしてこの意味では第4節で説明する平均値の信頼区間を描くのが本来であり、標準誤差は信頼区間の簡便な代用品です。 事実、比較的新しく用いられるようになった要約値――例えばオッズ比やハザード比等――をグラフ化する時は信頼区間を描くのが普通です。

図1.3.5 体重の推移 図1.3.6 錠剤の重量

それに対して例えばAという錠剤100錠とBという錠剤100錠の重さを測定したところ、平均値はどちらも同じもののデータのばらつきはA錠の方が小さかった、つまり錠剤の均一性はA錠の方が高かったとします。 このことをグラフ化したい時は図1.3.6のように平均値の上下に標準偏差を付け加えるのが適切です。 なぜなら平均値の上下に標準誤差を付け加えると母平均の推測範囲を表すグラフになり、データのばらつき具合を表すグラフではなくなってしまうからです。 このグラフの意味するところは次のようなものです。

「A錠もB錠も平均値は同じだが、個々の錠剤のバラツキはA錠の方が小さい。 したがってA錠の方が錠剤の均一性が高い、つまりA錠の方が錠剤を製造する技術は優れている」

このように標準偏差と標準誤差はその意味するところを十分に考えて、適切に使い分ける必要があります。

「SEの方が小さくてグラフの格好が良いから……」
 とか
「何だか知らんが皆がそうするから……」

といった高度に政治的な判断で使い分けてはいけません。 (注9)


(注1) ガウスは天体観測の測定誤差を研究していて、誤差に関する微分方程式の解として正規分布を導きました(1809年)。 しかしガウスより前にド・モアブル(Abraham de Moivre)が二項分布の極限として正規分布を定式化しています(1733年)。

いずれにせよ正規分布の確率密度関数(pdf:probability densoty function)f(x)は確率変数xと、2つのパラメータ(parameter、媒介変数)μ(平均)とσ2(分散)を用いて次のように表されます。 そしてこれをN(μ,σ2)とも書きます。

 (-∞<x<∞、-∞<μ<∞、σ>0)

この式の本質的な部分はexp項であり、これを積分すると次のようになります。 したがって定数項にするための規格化定数です。

分布の平均を0、分散を1にすることを標準化(standardization)または規準化といいます。 これは確率変数を次のように変換することに相当します。

前述の正規分布を標準化すると次のようになります。 これをN(0,12)またはΦ(z)と書き、標準正規分布といいます。

正規分布は理想分布であり、現実のデータで厳密に正規分布するものはありません。 しかしたいていのデータは近似的に正規分布しますし、対数変換等の適当な変数変換によって近似的に正規分布するデータも数多くあります。 そこで推測統計学では、通常は母集団のデータが近似的に正規分布すると仮定し、正規分布の性質に基づいて母数を推測します。

このように、あるデータが近似的に特定の確率分布(probability function)に従うと仮定することを確率モデル(statistical model)といいます。 そして母集団のデータを近似的に確率モデルで表し、それを利用して母集団の性質を推測する時は統計モデル(statistical model)といいます。

厳密に言うと、正規分布におけるμとσ2は要約値ではなく確率分布の性質を決定するパラメータ(媒介変数)です。 そして正規分布を利用した統計モデルでは母平均をμで推測し、母分散をσ2で推測します。 そのため統計モデルにおけるμとσ2は要約値というよりも母集団の性質を決定するパラメータつまり母数(population parameter)です。 しかし現実の母集団では母数は要約値の性質が強いので、母数を母集団の要約値と考えてしまってかまいません。

それからたいていのデータが近似的に正規分布するだけでなく、大部分の統計量は中心極限定理により漸近的に正規分布します。 そのため正規分布は最も応用の多い基本的な分布とされています。 (→2.2 データの分布と統計手法 (注1)、→付録1 各種の確率分布)

(注2) 連続変数xについての平均は、xの確率密度関数をf(x)とすると次のように定義されています。

関数E(x)は期待値とも呼ばれ、xが無限個ある時の平均値すなわち母平均に相当します。 E(x)には次のような性質があります。

(注3) 「x(エックスバー)」の上線は特殊なスタイルシートを用いて表記しています。 しかしブラウザによっては上線が表示できないものもあるので、ここでは平均値の記号はできるだけ「m」を用いることにします。

(注4) 連続変数xについての分散は、xの確率密度関数をf(x)とすると次のように定義されています。 これは偏差平方の期待値を意味し、xが無限個ある時の分散すなわち母分散に相当します。

関数V(x)には次のような性質があります。

ばらつきの要約値として、偏差平方を平均する代わりに偏差の絶対値を平均した平均偏差(MD:mean deviation)という指標もあります。

この値は添え字が少ないのでウェブ上では書きやすいのですが、数学的な取り扱いが面倒なためほとんど使われません。

(注5) 厳密にいえば母数は要約値というよりも母集団の性質を左右する定数のことであり、その定数によって確率変数の挙動が決定されていると考えます。 しかしここではわかりやすいように母数も要約値としてとらえることにします。

また母集団の平均は永遠に未知のことが多く、概念的な値なので「母平均」といい、標本集団の平均は具体的な値なので「平均値」と「値」を付けて区別することがあります。 しかし両者を厳密に使い分けるのは面倒なので、ここでは抽象的な「平均」と具体的な「平均値」をあまり区別せずに使うことにします。

(注6) 一般に未知母数θの推定量をTとすると、次のようにその期待値が母数に等しくなる時、Tのことを不偏推定量(unbiased estimator)と呼びます。

E(T) = θ

標本平均は次のように不偏性を持っています。

分散については少々ややこしく、

(x - μ) = (x - m) + (m - μ)
(x - μ)2 = (x - m)2 + (m - μ)2 + 2(x - m)(m - μ)
Σ(x - μ)2 = Σ(x - m)2 + Σ(m - μ)2 + 2Σ(x - m)(m - μ) = Σ(x - m)2 + n(m - μ)2 + 2(nm - nm)(m - μ) = Σ(x - m)2 + n(m - μ)2

と置いて両辺の期待値を取ると、

E(Σ(x - μ)2) = E(Σ(x - m)2) + E(n(m - μ)2)
nE((x - μ)2) = E(Σ(x - m)2) + nE((m - μ)2)
nV(x) = E(Σ(x - m)2) + nV(m)

xiはお互いに独立なのでC(xi,xj)=0になり、V(m)は次のようになります。 これは(注8)で説明する標本平均の分散であり、この平方根が標準誤差SEになります。

したがって次のように例数nで割った分散つまり標本分散に、標本平均の分散つまり標準誤差の平方を足した値が母分散に相当します。 そしてその結果、自由度(n-1)で割った分散が母分散の不偏推定量になります。 この不偏分散と自由度の関係は、データをベクトル空間上のベクトルで表すとより直感的に理解できると思います。 (→6.2 データの要約と多変量解析 (注2))

nV(x) = nσ2 = E(Σ(x - m)2) + σ2


標本分散は、次のように母分散より標準誤差の平方分だけ小さい方に偏っています。 標本分散は標本平均の分散を考慮していないので、母分散を少し小さく推測してしまうのです。

ただし第4節の(注4)で説明するように母分散の積率推定量も最尤推定量も標本分散になり、母分散に対する一致性(consistency)は不偏分散よりも標本分散の方が少し良くなります。 しかし一致性よりも不偏性と回帰分析における残差分散との整合性を優先して、通常は不偏分散で母分散を推測します。 (→1.4 推定 (注4)6.2 データの要約と多変量解析 (注2))

また厳密にいうと、標準偏差は次のように不偏分散の平方根を用いても不偏推定量にはなりません。

E(V) = E(s2) = E(ss) ≒ {E(s)}2 + C(s,s) = {E(s)}2 + V(s)
{E(s)}2 ≒ E(V) - V(s)

しかし正確な不変標準偏差を計算するのは少々面倒ですし、統計学ではあくまでも分散がばらつき具合の指標です。 そのため不偏性よりもV=s2という関係の方を優先して、通常は不偏分散の平方根で母集団の標準偏差を推測します。

(注7) 中心極限定理は経験則から始まり、1810年代にラプラス(Pierre Simon Laplace)によって部分的に証明され、1930年代にレヴィ(Paul Levy)リンドベルグ(Jarl Waldemar Lindeberg)によって完全に証明されました。 少々ややこしいですが、統計学で最も重要な基本定理なのでその証明を書いておきます。

中心極限定理:確率変数xi(i=1,…,n)が同一の分布に従い、お互いに独立である(idd:independently, identically distributed)として、
 E(xi) = μ  V(xi) = σ2       とすると
  … n→∞の時、zの確率密度関数が標準正規分布に収束する:分布収束または法則収束
証明:と置くとziは同一の分布に従い、お互いに独立であり、
 E(zi) = 0  V(zi) = 1
となる。 さらに、
 
として、ynの積率母関数をMyn(t)とすると、
 
 
 
 
 ∴
ここでexp(t2/2)はN(0,12)の積率母関数だから、
 
※確率変数xについて、次のような関数Mx(t)をxの積率母関数(mgf:moment generating function)という。
 Mx(t) = E{exp(t x)}  (-∞<t<∞)
正規分布に従う確率変数x〜N(μ,σ2)と、標準正規分布に従う確率変数z〜N(0,12)の積率母関数は次のようになる。
    
※確率変数xについて、次のような期待値E(xr)を原点まわりのr次積率(r次モーメント、moment of order r about zero)といい、μ'rと書く。 (→2.3 パラメトリック手法とノンパラメトリック手法 (注2))
 
 E(x) = μ、V(x) = σ2の時 μ'0 = 1  μ'1 = μ   μ'2 = μ22
 E(x) = 0、V(x) = 1の時 μ'1 = 0  μ'2 = 1

この証明には「確率変数xiが同一の分布に従い、お互いに独立である」という条件がついています。 しかしこの中の「同一の分布」という条件を緩め、同一の分布でなくても次のような条件を満足していれば中心極限定理が成り立つことが証明されました。

E(xi) = μi   V(xi) = σi2
xiの分布関数をFi(x)とし、と置くと任意のτに対して、
  ならば  
逆に
  ならば  
※分布関数F(x)については第2章第2節の(注1)参照

これをリンドベルグの条件(またはリンドベルグ=レヴィ条件)といい、xiが同一の分布に従わない時でも中心極限定理が成り立つための必要十分条件になります。 この一見しただけでは理解しにくい条件を平ったくいうと次のようになります。

の各項有界である → 個々の値xiが無限に大きくなったり小さくなったりせず、変動が一様に小さい

この条件は非常に単純であり、実際の研究現場で遭遇するデータはほとんどこの条件を満足しています。 そのため実際の研究現場で得られたデータから求めた標本平均はほとんど近似的に正規分布します。 ただし標本中央値は近似的に正規分布するものの、標本平均と違って分散がデータの分布状態に依存します。 そのためデータの分布状態がわかっている時しか中央値を評価指標にすることはできません

医学分野では無闇にデータの正規性を問題視し、パラメトリックな手法よりもノンパラメトリックな手法を好む悪しき慣習があります。 しかしデータがどんな分布をしていても標本平均は近似的に正規分布し、その分散はデータの分布状態に依存しないのに対して、中央値は近似的に正規分布するものの、その分散がデータの分布状態に依存します。 そのため平均を評価指標にしたパラメトリック手法の結果はデータにあまり依存せず普遍性があるのに対して、中央値を評価指標にしたノンパラメトリック手法の結果はデータに依存するので普遍性がないという好ましくない特徴があります。 (→2.3 パラメトリック手法とノンパラメトリック手法 (注1)付録2 中心極限定理のシミュレーション−平均値と中央値)

また次のような条件を満足する時は「お互いに独立である」という条件も不必要なことが証明されています。

  1. xiが無限に大きくなったり小さくなったりせず、変動が一様に小さい。
  2. xiは全体としてランダムに発生するが、次に発生する値xiの最良の推定値は直前の値xi-1である。

このような条件を満足する一連のデータセットSをマルチンゲール(Martingale)といいます。 マルチンゲールではデータxiはi個のデータセットSiと(i-1)個のデータセットSi-1の差として定義され、マルチンゲール差(Martingale difference)と呼ばれます。

またワシリー・ヘフディング(Wassily Hoeffding)は、平均値を一般化してxiの特殊な線形結合であるU-統計量(U-statistics)を定義しました。 そしてこのU-統計量がリンドベルグの条件を満足していて、中心極限定理が成り立つことを証明しました。

U-統計量:
:1≦i1<i2<…<ir≦nを満たす全ての組み合わせ(i1,…,ir)についての和
h(x1,…,xr):全ての順列に対して不変な関数
Unは次のような母数θの不偏推定量になっている。

※h(x) = xとするとUnは標本平均になり、h(x) = iとするとUnは順位平均になり、h(x) = (0または1)とするとUnは出現率になる。

標本平均や出現率だけでなく、ノンパラメトリック手法で用いられる順位平均等の統計量もU-統計量に相当するので中心極限定理が成り立ちます。 つまりパラメトリック手法もノンパラメトリック手法も中心極限定理による統計量の正規性を用いているのであり、元のデータの正規性を用いているわけではないのです。

さらに1970年代にオッド・アーラン(Odd Aalen)が、臨床試験で取り扱う一般的なデータがマルチンゲールに相当することを証明しました。 そのため医学分野の研究で取り扱うほとんどのデータは中心極限定理が成り立つので、パラメトリック手法を安心して用いて良いということになります。

(注8) 一般に統計量の標準偏差を標準誤差と呼び、SEと書きます。 しかし普通は平均値について議論することが多いので、単に標準誤差といえば平均値の標準誤差すなわちSEM(Standard Error of Mean)を指すことになっています。 実際、欧米の科学論文では「SEM」と正確に表記することが多いようです。

次のように標本平均の平均値(期待値)は母平均μになり、標本平均の標準偏差つまり標準誤差はになります。

  

(注9) 母集団の標準偏差は不偏分散の平方根つまり自由度で割った標準偏差で推定します。 しかし母集団のデータのばらつきを厳密に推定するには、標準偏差と標準誤差を合わせた次のような値を用いる必要があります。

xのばらつき:

母集団のデータのばらつきをこの値で推定する理由は、ばらつきの基準値である母平均を標本平均で推定するためです。 つまりばらつきの基準値そのものにも標準誤差に相当する推定誤差が含まれているので、その分だけデータのばらつきの推定値が大きくなるのです。 この原理に基づいて別の母集団に含まれる可能性の高い外れ値をチェックしようという手法が第2章で説明する棄却検定です。 (→2.6 尺度合わせと外れ値)