玄関雑学の部屋雑学コーナー統計学入門

2.2 データの分布と統計手法

(1) 度数分布図と累積度数分布図

データに統計手法を適用する場合、まず始めにデータの分布状態を目で見てから適当な手法を選択します。 データが1項目の時には、「度数分布図(frequency distribution)」や「累積度数分布図(cumulative frequency distribution)」を描きます。 度数分布図は直観的にわかりやすいのですが、例数が少ないとあまり見栄えのしないものになりがちですし、度数を数える区間幅(これを「級間」といいます)や区間数(これを「階級数」といいます)によって分布の形が変わってしまいます。

そこで、データを小さい順に累積した累積度数分布図を併用すると便利です。 累積度数分布図は単調増加の性質を持つ「シグモイド曲線(sigmoid curve、S字状曲線)」となり、慣れないとなかなか理解しにくいと思います。 しかし例数が少なくても一応の格好がとれ、データを区間に区切る必要がないので分布の形が一定になります。 (注1)

図2.1 度数分布図と累積度数分布図

データが対応のある2項目の時には、それぞれの項目をX軸とY軸にし、ペアになった個々のデータをプロットした「散布図(scatter diagram)」または「散点図」と呼ばれる図を描きます。 その際、なるべく基本的な項目つまり原因項目をX軸にし、その項目によって影響を受けると思われる項目つまり結果項目をY軸にします。

図2.2 散布図

(2) 位置母数と尺度母数

次にこれらの図を眺めながら、データ内容を把握するのに最適な要約値を検討します。 母集団の要約値を母数といい、平均値のように分布の中心位置を表す母数を「位置母数(location parameter)」、標準偏差のように分布のバラツキぐあいを表す母数を「尺度母数(scale parameter)」といいます。

代表的な位置母数には次のようなものがあります。

代表的な尺度母数には次のようなものがあります。

(3) 箱ヒゲプロット

主要な位置母数と尺度母数をひとつのグラフに描き、しかもデータの分布状態まである程度把握できるようにしようという非常に欲張りな図が、チューキー(John Wilder Tukey)によって考案されています。 それが図2.3の右側に描いた「箱ヒゲプロット(box and whisker plot)」または「箱ヒゲ図」と呼ばれるものです。 この図は次のような手順で描きます。

  1. データの25%タイル点(Q1、第1四分位点)と75%タイル点(Q3、第3四分位点)により、全データの50%が含まれる箱を描く。
  2. 中央値(Q2、第2四分位点)を横線で描く。
  3. 平均値を「*」または「+」で描く。ただし、これは省略されることが多い。
  4. 箱の長さhの1.5倍を箱の上下に取り、それを超えない内側のデータまでヒゲを引く(内堀)。ただし、最小値と最大値までヒゲを引く方法や、5%タイルと95%タイルまでヒゲを引く方法もある。
  5. ヒゲの上下に1.5hの長さを取り、その範囲にあるデータをはずれ値として「○」でプロットする(外堀)。ただし、最小値と最大値までヒゲを引く方法ではこれは描かない。
  6. さらに、外堀の外側にあるデータを極外値として「●」でプロットする。ただし、最小値と最大値までヒゲを引く方法ではこれは描かない。
図2.3 箱ヒゲプロット

Q1、Q2、Q3を「四分位点(quartile)」または「ヒンジ(hinge)」といいます。 これらの値は、データを小さい順に累積していった時、25%が含まれる値、50%が含まれる値つまり中央値、そして75%が含まれる値になります。 そしてQ1からQ3までの範囲を「ヒンジ散布度」または「IQR(interquartile range)」といい、これが箱の長さhになります。 図2.3には、参考のために中央に個々のデータをプロットし、左側に一般的な平均値±標準偏差のプロットを描いています。 これらのプロットと箱ヒゲプロットを比べると、箱ヒゲプロットの特徴がよくわかると思います。 (注3)

データが正規分布する場合、平均値±標準偏差の間に約68%のデータが含まれます。 そして箱ヒゲプロットでは、箱の中に50%のデータが含まれますが、これはほぼ平均値±0.67×標準偏差に相当します。 さらに、内堀の間つまり下のヒゲから上のヒゲまでの間には、約99%のデータが含まれます。 図2.3では平均値±標準偏差の幅と内堀の幅がほぼ等しくなっていますが、これはデータ数が少ないためであり、データ数が多くなると内堀の幅がもっと広くなります。 ヒゲの長さを1.5hではなく1hにすると、内堀の間には約96%のデータが含まれ、これはほぼ平均値±2×標準偏差に相当します。 このため、ヒゲの長さを1hにする方法もあります。

分布の特徴を最大値、最小値、中央値(Q2)、Q1、Q3の5つの値で要約することを五数要約といいます。 箱ヒゲプロットは五数要約を具体的にグラフ表示した図であり、うまく利用すれば大変有用です。 しかしデータが多いとはずれ値が増えたり、ヒゲが非常に長くなったりして、あまり実用的ではなくなってしまいます。 このため箱ヒゲプロットは、データ数が比較的少ない時に用いる方が効果的です。 また、箱ヒゲプロットは要約値をグラフ表示するのが主目的ですから、データの分布状態をグラフ表示することが主目的の時は、度数分布か累積度数分布を用いる方が便利です。

(4) 対数正規分布

正規分布では平均値=中央値=最頻値であり、平均±2標準偏差の間に約95%のデータが含まれてしまいます。 そこで分布が近似的に正規分布とみなせる時には、普通は平均値と標準偏差によってn個のデータを要約します。 しかし分布が正規分布と極端に異なっている時は、3つの位置母数が一致するとは限らず、要約値としてどれを用いるべきか検討が必要です。

例えば普通の会社における給与分布は、図2.4のような分布をすることが多いと思います。 このような分布では、一般に3つの位置母数は一致しません。 このような給与分布の会社で、仮に全社員一律5%の賃上げをしたとします。 そうすると、実際の賃上げ金額は元の給与が高い社員ほど高くなりますから、賃上げ後の給与分布は図2.4の破線のようになります。

その結果、平均給与はある程度上昇したように見えますが、中央値と最頻値はあまり変わらず、大部分の社員の給与は平均給与の上昇ほど上昇してはいないことになります。 このため平均値の上昇幅と、我々が感覚的に感じる上昇幅が食い違うことになり、何となく数字に騙されたような「割り切れない気持ち」を抱くことになります。

図2.4 給与分布

実際には、元の給与が高い社員ほど高い賃上げ率にする、「上に厚く下に薄い」賃上げをすることが多いでしょう。 そうすると、この例以上に給与格差はひどくなり、我々平社員の不満感が募るのも当然なわけです。 国民所得などでも全く同様で、円高だとか貿易黒字だとかいっても、もともと裕福な極一部の限られた人間だけが恩恵にあずかり、国民の大多数は、相変らずウサギ小屋で毎日の生活とローンの支払いとに汲々としているのが現実なのです。

……どうも、この手の話題になりますと貧乏人のビガミ根性がモロに出てしまっていけません、話題を経済学から医学に戻しましょう。

図2.4の給与分布は、元のデータを対数変換したデータが正規分布をする「対数正規分布(ジブラ分布、Gibrat's distribution)」に近い分布です。 医学や薬学で扱うデータも近似的に対数正規分布をするものがあり、特に物質の濃度が関係する時には対数正規性が顕著になるようです。 このため薬理学などでは、薬物の用量データとして対数変換した対数用量y=log(用量)を用いることが常識になっています。

これは、たいていの薬物は対数用量と薬理反応が正比例することが多く、その結果としてLD50などの用量データが対数正規性を持つからです。 このようなデータは対数変換してから平均値などを計算し、それを要約値として用いるのが理にかなっています。 ちなみに、データを対数変換してから平均値を計算し、それを指数変換して元のデータと同じ単位に戻した値は、幾何平均値と一致します。 (注4)

しかし分布の形が対数正規分布に似ているからといって、無条件に対数変換してしまうのは問題があります。 対数変換したデータは通常のデータとは意味が異なり、下手をすると実質科学的な解釈ができなくなってしまいかねないからです。

例えば常用対数で変換したデータが、薬剤投与前後で「1」増加したとします。 これは投与前値が1だったものは投与後は10になり、投与前値が10だったものは投与後は100になるということです。 したがって、投与前値1のものが9増加して10になることと、投与前値10のものが90増加して100になることが、医学的または薬学的に同じ意義を持たなければ、「対数変換したデータが1増加した」というをまともに解釈できなくなってしまいます。 そしてその結果、対数変換したデータの平均値が要約値としての意味を失ってしまいます。

そこでデータを順序尺度的に扱ってしまい、平均値の代りに中央値を、標準偏差の代わりに範囲を用いてデータを要約することが考えられます。 中央値や範囲は対数変換したデータの平均値や標準偏差のように理解しにくくはありませんし、データがどんな分布をしていても値があまり変化しません。 数学者は、データの分布状態が変わっても値が変わらない「不変性」というものを重んじるため、このような時は中央値を用いることを推奨します。

しかし要約値を決める際の最も重要なポイントは、データの分布状態ではなく、医学などの実質科学的に見てどの要約値が一番意味を持つかということです。

図2.5 投与前後の血圧分布

例えば血圧が正常範囲の正常群と、血圧が少し高めの軽症高血圧群、血圧がもう少し高めの中症高血圧群、血圧がかなり高めの重症高血圧群があったとします。 高血圧に限らずどんな疾患でも、普通は正常群の人数が圧倒的に多く、軽症群、中症群、重症群になるにしたがって人数が減ります。 このため、正常群と高血圧群の両方を含んだ集団の血圧分布を描くと、図2.5の左の黒い線で描いたグラフのような分布になります。

一見すると、この分布は対数正規分布のように見えます。 しかし、実は4つの群の血圧分布は近似的に正規分布であるにもかかわらず、それらを合わせてしまったために、分布の右裾が長くなり、対数正規分布のような形になっているのです。 医学分野で扱う対象は、このように大部分の正常群とごく少数の疾患群からなる集団のことが多く、それが、データが対数正規分布に似た形になる原因のひとつであると考えられます。

今、これらの集団に降圧剤を投与したところ、高血圧群だけ血圧が低下して、図2.5の右のグラフのようになったとします。 この場合、投与前後で大部分のデータは変化しませんから、平均値は低下しますが中央値は変化しません。 こんな時、医学的に考えて、血圧は全体として低下したと見るべきなのでしょうか、それとも低下していないと見るべきでしょうか? 言葉を変えれば、医学的に意味がある要約値は平均値でしょうか、それとも中央値でしょうか?

要約値の不変性を重んじる数学者ならば、このような場合は「分布状態が変化しても値が変わらない中央値の方が、数学的に意味がある」と主張するかもしれません。 しかし実質科学的な意味を重んじる医学研究者ならば、「投与前後の分布状態の変化を反映する平均値の方が、医学的に意味がある」と主張すると思います。

このように、要約値を決める時に最も重要なものは、あくまでも実質科学的な判断であり、分布状態に関する数学的な判断は二の次であるべきです。


(注1) 度数分布を描く際の一般的規準が、次のように色々と提唱されています。

(1) 級間hと階級数nの規準

実際の級間はこれらの式によって求められた値に近く、区切りの良い値を選びます。

(2) 注意点

確率変数xの行動を規定する関数を「密度関数(density function)」あるいは「頻度関数(frequency function)」と呼び、f(x)と書きます。 これに対して密度関数を累積(積分)したものを「(累積)分布関数(cumulative distribution function)」と呼び、F(x)と書きます。 例えば、正規分布の場合には次のようになります。


F(x)に例数nを掛けますと、データが正規分布する時の理論的累積度数分布になります。 しかしf(x)に例数nを掛けたものは級間が1σの時の理論的度数分布になり、実際の度数分布と比べるには都合の悪い場合もあります。 そこで級間hとF(x)を用いて次のように理論度数を計算し、これによって級間がhの時の理論的度数分布を描くことができます。

検定における有意確率(p値)もF(x)を利用して計算しますし、我々には馴染みが薄いのですが、統計学上はf(x)よりもF(x)の方が重要なのです。

(注2) 連続分布における中央値は、変数xの確率密度関数をf(x)、確率分布をF(x)とすると、

となる時のμ'と定義されています。

(注3) 四分位点の公式は次のとおりです。




xQ1、xQ2、xQ3:第1四分位点、第2四分位点、第3四分位点がある階級の下限値
fQ1、fQ2、fQ3:第1四分位点、第2四分位点、第3四分位点がある階級の度数
FQ1、FQ2、FQ3:第1四分位点、第2四分位点、第3四分位点がある階級の累積度数
h:階級の幅  n:標本数

実際のデータは連続分布ではなく離散分布になるため、パーセンタイル値の公式は次のようになります。

ところがこの公式で計算した25%タイル値と75%タイル値は、四分位点とは異なることがあります。 これはデータが離散分布であり、ちょうどパーセンタイル値と一致する値が存在しないことがあるからです。 このため離散分布の時の四分位点については、考え方によって色々な計算式があります。 そのうち、代表的な計算式は次のようなものです。

例えばデータが5個あり、それらがx1=10、x2=11、x3=12、x4=13、x5=14だったとします。 この時のパーセンタイル値と四分位点を上記の公式によって計算すると、次のようになります。

パーセンタイル値と四分位点の模式図

上の模式図を見ると、それぞれの値の特徴がわかると思います。 パーセンタイル値は、累積度数が0である点を仮想的にx0=-∞として考え、x0〜x5までの累積度数分布を折れ線で近似して、その近似曲線について25%タイル、50%タイル、75%タイルを計算した値になります。 このため、それぞれの値は四分位点とは一致しません。

第1の公式で計算した四分位点は、x1〜x5の範囲を4分割して、四分位点を計算した値になります。 第2の公式で計算した四分位点は、x0=-∞とx6=+∞という値を仮想的に考え、x0〜x6の範囲を4分割して、四分位点を計算した値になります。 第3の公式で計算した四分位点は、まずx1〜x5の中央値を計算してQ2とし、その後でx1〜Q2と、Q2〜x5の中央値を計算した値になります。

3つの公式は、Q2だけは中央値と一致しますが、それ以外の値は一致するとは限りません。 この例では第1の公式と第3の公式で計算した値はたまたま一致していますが、必ず一致するとは限りません。 個人的には、第1の公式で計算した値が最も妥当だと思います。

(注4) 対数正規分布はデータxを対数変換したy=ln(x)が正規分布するもので、yの平均をμy、分散をσy2とすると、その確率密度関数f(x)は次のようになります。

xの平均をμx、中央値をμx'、幾何平均をμx*、分散をσx2、変動係数をCVxとすると、これらのパラメターとyのパラメターの間には次のような関係があります。







ここでexの級数展開による近似式、


より、CVx<<1の時は次のように近似できます。


y''=log(x)と常用対数を用いた時は次のようになるため、注意が必要です。





原理的には、変動係数が一定のデータすなわち比例尺度のデータは対数正規分布をし、標準偏差が一定のデータすなわち間隔尺度のデータは通常の正規分布をします。 (→2.5 標準誤差、標準偏差、変動係数の使い分け付録1 各種の確率分布)