玄関雑学の部屋雑学コーナー統計学入門

第2章 データの基本処理

この章では統計学で取り扱うデータの種類とそれに対応した統計学手法、パラメトリック手法とノンパラメトリック手法の違い、データの基本的な処理方法などを解説します。

2.1 データの種類と統計手法

(1) 尺度によるデータの分類

統計学で取り扱うデータの内容は、大雑把にいって測ったものと数えたものに大別されます。 これをデータの「尺度(scale)」といいます。 このあたりも、簡単なものをわざわざ難しくする数学者の面目躍如たるところであります。 尺度によってデータの種類を分類しますと、以下のようになります。

I. 計量値(measured)

身長160cm、体重60kgなどというように測る性質のデータのことで、単に「データ」といえば大方の場合このデータをさします。 このデータは数値と数値の間隔が等しいかどうかで、さらに次のように分類されます。

I-1 計量尺度(metric scale)

身長、体重など最も一般的なもので、データが具体的な連続した数値で与えられ、数値と数値の間隔が等しいものです。 数値と数値の間隔が等しいという意味は、例えば1と2の間隔と、2と3の間隔が同じく1であり、四則演算を行うことができるという意味です。 何をあたり前のことをいっているんだとお思いでしょうが、次に説明する順序尺度では驚くなかれ(驚いてもかまいませんが)この間隔が違っていて、四則演算ができないのです。

厳密にいえば、このデータも絶対0点があるかないかによって「比例尺度(ratio scale)」と「間隔尺度(interval scale)」とに細分されます。 比例尺度のデータは値が10の時には1変動し、値が100の時には10変動するような比例関係があるデータです。 例えばある溶液をピペットで一定量計り取るような場合、同じ1ccの測定誤差でも、濃度が1%の時と10%の時とを比べますと内容量の誤差は1対10になります。 この比例関係のため、値が0の時には変動も0になり絶対0点があることになります。

それに対して間隔尺度のデータは、値が10の時にも100の時にも同じように1変動するようなデータです。 例えば身長測定の場合、1mの可愛い子供でも2mのむくつけき大男でも、身長計による測定誤差は同じです。 この場合、変動はデータの値と無関係になり絶対0点はないことになります。

医学・薬学分野でよく利用される統計手法は、どちらかといえばデータが間隔尺度であることを前提にしているものが多いようです。 しかし、この分野でよく利用される変動係数(CV)は、原則として比例尺度のデータでしか意味がありません。 これについては後で詳しく検討する予定です。 (→2.5 標準誤差、標準偏差、変動係数の使い分け)

I-2 順序尺度(ordinal、ranking scale)

体重を軽い順に40kg<42kg<50kg……と並べ、それに順番を1、2、3、……と付けた場合、この順番というデータは一見普通の計量値のようですが、数値と数値の間隔が同じではありません。 つまり1と2の間隔と、2と3の間隔は同じではありませんし、それは数量的な意味の1でもありません。 このため1+1=2という関係が成り立たず、通常の四則演算が行えないことになります。 このようなデータのことを順序尺度のデータといいます。 このデータは考え方によってはII-1の順序分類尺度とみなすことができますので、統計学上はどちらも同じように扱います。

II. 計数値(enumerated)

男10人・女15人というように、数える性質のデータです。 実験対象の属性をいくつかのカテゴリーに分類して、各カテゴリーに属する例数を数えます。 このデータも、カテゴリー間に順序が付けられるかどうかでさらに次のように分類されます。

II-1 順序分類尺度(ordered-categorical scale)

重症・中等症・軽症・無症状といった疾患の重症度のように、カテゴリー間に実質科学的な順序が付けられるデータのことです。 このようなデータは軽症+中等症=重症というような四則演算が行えず、平均値や標準偏差を計算することができません。 そのためデータそのものではなく、データに順序を付けて、その順序を用いて色々な統計計算を行います。

順序尺度のデータは具体的な計量値に順番を付けたものか、もしくは潜在的な計量値を順序として表現したものです。 それに対してこの順序分類尺度のデータは、分類したカテゴリーにたまたま順序が付けられたものであるという点に違いがあります。 とはいっても、実際にはどちらも全く同じ扱いをしますので、両者の違いを気にかける必要はありません。

また体重と標準体重による肥満度について、-10%未満を「ヤセ」、-10〜+10%を「普通」、+10%以上を「デブ」とグレーディングすれば、医学的・健康的な意味で順序分類尺度のデータになります。 しかしテストの点数や偏差値などで人間をグレーディングしたものは、文部省的・受験的な意味では順序分類尺度のデータになっても、科学的・人間的な意味では順序分類尺度のデータにはなりません。

順序尺度や順序分類尺度のデータは必然的に整数になるので、整数しか存在しない離散データまたは不連続データは全て順序尺度であり、計量尺度は連続データしかあり得ないと誤解している人がいます。 しかし計量尺度と順序尺度の根本的な違いは、数字と数字の間隔が等間隔で四則演算が行えるかどうかという点であり、連続データか離散データかという点ではありません。 いくら離散データでも数字と数字の間隔が等間隔で四則演算が行えれば、それは計量尺度として扱うことができます。

また順序尺度または順序分類尺度のデータをそのまま計量尺度として扱ってしまっても大勢に影響はなく、それほど問題はありませんし、場合によっては計量尺度扱いした方が良いこともあります。 実際、心理学や社会学分野ではこのような順序分類尺度のデータが多いのですが、気楽に計量尺度として扱って合計したり平均を計算したりしています。 数学者などは重箱の隅をほじくりかえしていちいち口うるさいことをいいたがりますが、細かいことに目くじらを立てず、万事鷹揚に構え、大局的見地から物事を見るようにしたいものです。 (→3.4 2標本の計数値)

II-2 名義尺度(categorical、nominal scale)

有・無、男・女、日・中・韓・他などのように、カテゴリー間に実質科学的な順序が付けられないデータのことであり、「分類データ」とも呼ばれます。 また順序が付けられても、2分類しかなければ実際上は名義尺度として扱います。 このデータは男+女=恋愛というような四則演算が行えず、平均値や標準偏差を計算できないだけでなく、データに順番をつけることさえできません。 このためデータの度数(例数)に注目し、それを用いて色々な統計計算を行います。

なお性については順序が付くと強く主張する人もいますが、カテゴリー間の順序は、その人が属するカテゴリーによって異なるのが常のようです。 また国や人種についてもカテゴリー間に順序があると思い込んでいる人々がいるのは、何ともなさけない限りです。

以上に説明しましたデータの尺度は、I-1→I-2→II-1→II-2の順に情報量が少なくなりレベルが低いと表現されます。 例えばI-1の計量尺度のデータである体重を小さい順に並べて順番を付ければI-2の順序尺度のデータになり、10kgごとにグレーディングすればII-1の順番分類尺度のデータとなり、さらに50kgを境界値として軽量級と重量級に2分類すればII-2の名義尺度のデータになります。 しかしその反対に名義尺度のデータを順序尺度や計量尺度のデータにすることは、特別な場合を除いて不可能です。 これがレベルが高いとか低いとかいわれるゆえんです。

レベルの高いデータをレベルの低いデータに変換する、いわゆる「尺度合わせ」についてはその実質科学的に意味するところをしっかりと吟味しなければなりません。 これについては後で詳しく検討する予定ですが、原則として尺度合わせはするべきではなく、もとのデータが持っている情報を最大限有効に利用することが大切です。 (→2.6 尺度合わせと異常値)

尺度によるデータの分類をまとめますと表2.1のようになります。

表2.1 データの尺度
データ計量値等間隔……計量尺度絶対0点あり…比例尺度連続量
絶対0点なし…間隔尺度
不等間隔…順序尺度離散量
計数値順序あり…順序分類尺度
順序なし…名義尺度

(2) 標本の数によるデータの分類

次に標本の数とデータに対応があるかないかということによってデータを分類しますと、以下のようになります。 対応のあるデータというのは、同じ被験者から同時にまたは時期を変えて2つ以上のデータが得られた場合のように、お互いに共通の基盤があるデータのことです。 これに対して対応のないデータは、別々の薬を投与した別々の患者群のようにお互いに共通の基盤がないデータのことです。 統計学上は共通の基盤があるデータには相関関係があり、共通の基盤がないデータには相関関係がないつまり独立であると考えます。

I. 1標本(one sample)

第1章の例のように、1群から得られた1種類のデータのことです。 最も基本的なデータで、計量値の場合には基準値との検定や平均値の推定などを、計数値の場合には基準出現度数との検定や出現度数の推定などを行います。

II. 2標本(two sample)

2標本以上ではデータに対応があるかないかで扱いが違います。

II-1 対応あり

1つの群から同時に得られた2項目のデータについては、相関や回帰直線などを求めてデータ間の関係を要約したり、比や差を計算して1標本に還元したりします。 同一項目について時期を変えて得られた2つのデータについては、差や比を計算して変化量や変化率に変換し1標本に還元して扱います。

差が良いかそれとも比が適当かについては後で詳しく検討しますが、原則として比例尺度は比に変換し、間隔尺度は差に変換すると理解しておいてください。 (→2.4 差と比とパーセントの使い分け)

II-2 対応なし

2群から得られた同一項目のデータで、2群の比較が主になります。 データが計量値の場合には平均値の差の検定や平均値の差の推定などを、計数値の場合には出現度数の比較検定や出現率の比較などを行います。

III. 多標本(multi sample)

一般には多標本は2標本の拡張と考えられますが、統計手法上はむしろ2標本の方が多標本の特殊な場合であると考えた方が適しています。

III-1 対応あり

1つの群から同時に得られた多項目のデータについては、重相関や重回帰分析などの多変量解析を適用します。 同一項目について時間を変えて得られた多時期のデータについては、例えば平均するなり何なりして1標本に還元して扱うか、時系列解析を適用します。

III-2 対応なし

多群から得られた同一項目のデータで、多群の比較が主になります。 全ての群をひっくるめて比較するには分散分析を、2群ずつ取り出して比較するには多重比較を用います。

データの尺度と標本の数および対応の有無でデータを分類し、統計手法と対応させて整理しますと表2.2のようになります。 この表には検定の名前だけしか書いてありませんが、それぞれの検定にはそれに関連する推定も伴っていると考えてください。 といってもどんな内容の統計手法か皆目見当もつかないものがあると思いますが、ここはとりあえず私の顔を立てて、「なるほど!」としたり顔をしておいてください。

表2.2 データの種類と統計手法
尺度\標本数1標本2標本多標本
対応あり対応なし対応あり対応なし
比例尺度
または
間隔尺度
1標本t検定 対応のあるt検定(1標本t検定)
相関分析
回帰分析
対応のないt検定(2標本t検定) 二元配置分散分析+多重比較
多変量解析
時系列解析
一元配置分散分析+多重比較
順序尺度
または
順序分類尺度
ウィルコクソン(Wilcoxon)の1標本検定 ウィルコクソン(Wilcoxon)の符号付き順位検定(ウィルコクソンの1標本検定)
スペアマン(Spearman)の順位相関係数
ウィルコクソン(Wilcoxon)の順位和検定(ウィルコクソンの2標本検定、マン・ホイットニィ(Mann-Whitney)のU検定) フリードマン(Friedman)の検定+多重比較
拡張マンテル(Mantel)検定・一般化拡張マンテル検定
クリスカル・ウォーリス(Kruskal-Wallis)のH検定+多重比較
田口の累積法
名義尺度 二項検定
χ2検定(1×n)
符号検定
マクネマー(McNemar)の検定
コクラン・アーミテージ(Cochran-Armitage)の傾向検定
フィッシャー(Fisher)の直接確率計算法による検定
χ2検定(2×n)
マンテル・ヘンツェル(Mantel-Haenszel)の検定
コクラン(Cochran)のQ検定
マンテル・ヘンツェル(Mantel-Haenszel)の検定+ブレスロー・デイ(Breslow-Day)の検定
多変量解析
生命表解析
佐藤の無相関検定
χ2検定(m×n)

統計手法というものはデータを把握しやすいようにする道具ですから、上手に使えばなかなか便利なものですが、使い方を誤れば凶器(狂気?)にもなります。

「お役所がこれを使えといったからそうした」

とか、

「エライ人がこんなふうに使っていたからマネをした」

などといったポリシーのない使い方はやめて、なぜその道具が開発され、どのように使うべきものなのかをじっくり考えてから、最適なものを上手に使いこなしましょう。 数学は科学技術と同じように諸刃の剣です。 政治や権力がからむとロクなことにはなりません。