玄関雑学の部屋雑学コーナー統計学入門

2.4 差と比とパーセントの使い分け

(1) 差と比の違い

薬剤の投与前後で血圧を測定した時のように対応のある2標本データの要約をする場合、前後の差を計算して変化量にしたり、差を前値で割って100を掛け前値に対する変化率にしたりして、1標本データに還元して扱います。 変化量にしろ変化率にしろわりと無造作に計算していますが、実はここにも統計学の落とし穴が隠されています。 差や差のパーセントを計算するということがどういった意味を持っているのか、ここでもう一度しっかりと考えてみましょう。

差を計算して変化量に変換するのは、個々のデータの変化量を比較したり、平均変化量を求めて全体としてどの程度変化したかを要約したりするためです。 しかし、もし変化量が前値によって影響を受けるとすると一体どういうことになるでしょうか?

例えば、血圧は前値の大きな人ほどよく低下するとします。 そうしますと同じように10mmHg低下したといっても、前値が180mmHgの時と140mmHgの時とでは意味が違います。 つまり同じ低下量ならば、前値が低いほど実質的によく低下したと考えられるわけです。 また前値がバラバラの集団ならば、低下量を平均することも通常とは違った意味になります。 したがって変化量が正確な意味を持つのは前値が変化量に影響を与えないデータ、つまり間隔尺度的な変化をするデータだけということになります。

では、変化率についてはどうでしょうか? 変化率というのは前値に対する変化量の率を表すもの、すなわちもし前値が100であったなら変化量はいくつになるかということを意味する値です。 つまり、前値がバラバラでは比較しにくいから無理矢理同じにしてしまおうという乱暴な値なのです。 前値が同じになれば比較は簡単になり、一見、成程と納得しやすいでしょう。 しかしこれが変化率の思うツボ、その目論見が成功するには、前値が10の時1低下したのなら100の時は10低下するという保障がなければなりません。

したがって変化率が正確な意味を持つのは前値と変化量が比例するデータ、つまり比例尺度的な変化をするデータだけということになります。 後値を前値で割った比や、それに100を掛けたパーセントについても原理的には変化率と全く同様です。 (注1)

データがどちらの種類であるのかおおよその見当をつけるには、やはりグラフを利用するのが一番です。 今、X軸を前値x、Y軸を後値yとして、ペアになった個々のデータをプロットした散布図が図2.7のようになったとします。 前値と後値は相関があるのが普通ですから、プロットは直線的に並びxとyとの関係は、次のような式に要約されます。 これは、ご存知のように「回帰直線」と呼ばれています。

y=α+βx
図2.7 前値と後値の散布図

差dを計算するということは、上式より、

d=y-x=(α+βx)-x=α+(β-1)x

となり、前値と差の回帰直線の傾きは、前値と後値の回帰直線の傾きβから1を引いた値になります。 この式からわかるように、普通は前値xが差dに影響してしまうのですが、β≒1の時にはほとんど影響しなくなります。 つまり直線の傾きが45°に近い時には、データはほぼ間隔尺度的な変化をすることになり、差を計算しても良いことになります。

また前値と後値の比rは次のようになり、比と前値の逆数の回帰直線の傾きは、前値と後値の回帰直線の定数αになり、定数はβになります。 さらに差dをパーセントに変換した変化率d(%)は次のようになり、結局、比rに帰着します。

r= y

x
= α+βx
――――
x
= α

x
d(%)= d

x
・100= 100(y-x)
―――――
x
=100( y

x
-1)=100(r-1)=100r-100

この式からわかるように、α≒0の時は前値xが比rに影響しなくなります。 つまり直線が原点を通る時には、データはほぼ比例尺度的な変化をすることになり、比を計算しても良いことになります。

回帰直線が原点を通らず、傾きも45°ではない時は、この回帰直線を利用して前値の影響を取り除いてから差を計算する、「共分散分析」という非常に便利な手法を用いなければなりません。 しかし残念ながらこの手法はいまひとつ知名度が低く、あまり利用されていません。 (→第8章 共分散分析)

一般に、血圧のように一定の正常域がある臨床検査値は、前値が異常な値ほどより強く正常な状態に戻ろうとする、いわゆる「初期値の法則」があります。 だから、これらの臨床検査値はどちらかといえば比例尺度的な変化に近いかと思うと、これがさにあらず、正常域の付近では前値に無関係に変化することが多くなり、間隔尺度的な変化に近くなったりします。 はなはだ始末の悪いデータですが、こんなタチの悪いデータの場合には理解しやすくて危険の少ない差を計算しておくのが無難でしょう。 (注2)

(2) 差の平均値と平均値の差の違い

次にまた面倒な話ですが、「差の平均値」と「平均値の差」とでは意味が違い、「変化率の平均値」と「平均値の変化率」とでは意味も値も違う、ということもあまり知られていません。 一般に、データを変換してから要約したものとデータを要約してから変換したものとでは(あぁ、ややこしい!)、意味も値も全く異なるのです。

たまたま差の平均値と平均値の差は同じ値になりますが、その意味するところは多少違います。 差の平均値は個々のデータの変化量を要約した値であり、差の標準偏差を求めることによって変化量のバラツキぐあいまで要約することができます。 しかし平均値の差はすでに要約されている値を用いた全体的な比較であり、差の標準偏差を求めることはできません。 つまり、差の平均値に比べて差の標準偏差の分だけ情報量が少ないのです。 そのかわり個々のデータがわかっていなくても平均値さえわかっていれば計算できるので、対応のないデータにおいても求めることができます。

変化率の平均値は個々のデータの変化率を要約した値ですから、全てのデータの前値を100に統一したならば全体としていくつぐらい変化したか、ということを表していて、前値による変化量の補正ということが主な目的です。 この値は、前後のデータを前値に対するパーセントに変換した時の差の平均値に相当します。

前値(%)= 前値
――
前値
×100=100
後値(%)= 後値
――
前値
×100
変化率(%)= 後値-前値
―――――
前値
×100=後値(%)-前値(%)=後値(%)-100

したがってこの時、平均値として扱わなければならない値はパーセントに変換したデータの前後平均値であり、前値の平均値は必然的に100となります。 そして、変化率の平均値はパーセントに変換した平均値の差と一致します。

これに対して平均値の変化率は、

平均値の変化率= 後値の平均値-前値の平均値
―――――――――――――
前値の平均値
×100

であり、個々のデータの前値が全て一定であれば変化率の平均値と一致します。 この値は、前後の平均値しかわかっていない時に変化率の平均値の代りに使用する単なる目安にすぎず、個々のデータがわかっている時は変化率の平均値を用いるべきです。 もちろん、変化率の平均値も平均値の変化率も比例尺度のデータでしか意味を持ちませんので注意が必要です。

以上の値を、例えば次のようなデータについて実際に計算してみましょう。

前値後値前値(%)後値(%)変化率(%)
109-110090-10
1020+10100200+100
10090-1010090-10
10090-1010090-10
100101+1100101+1
平均値6462-2100114.2+14.2
平均値の差=-2平均値の変化率=-3.125%

ご覧のように差の平均値と平均値の差は同じ値になり、変化率の平均値はパーセントに変換したデータの平均値の差と同じ値となっています。 しかし、変化率の平均値と平均値の変化率とでは値どころか符号まで違っています。 そしてもとのデータの平均値は後値の方が低いにもかかわらず、パーセントに変換したデータの平均値は後値の方が高くなっています。

「何じゃこれは? 前後で値は上ったのか下がったのか、一体どっちなんじゃ!?」

とお思いでしょうが、これらは同じ情報を別の値で表現したものではなく、それぞれ意味の違う情報を要約した目的の異なる値ですので結果が違っていて当然なのです。

このあたりが統計学のややこしいところですが、前にも説明しましたように、もしこのデータが比例尺度ならばパーセントに変換したデータと変化率の平均値が正確な意味を持ち、前後で値は上ったと考えられます。 しかし間隔尺度であったならばそのままのデータと差の平均値が正確な意味を持ち、前後で値は下がったと考えるのが適当です。 また平均値の変化率は前後の平均値しかわかっていない時に変化率の平均値の代りに用いる値ですから、この場合はあまり意味を持ちません。

データの種類がどちらかはっきりしない時には、そのままのデータと差の平均値だけを採用して、一応、前後で値は下がったと考えておくのが安全でしょう。


(注1) 比と割合と率は混同されて使われることの多い用語ですが、厳密には全て異なる概念です。 これらは次のように定義されています。

血圧の変化率は初期値に対する単位量あたりの変化量に相当するため、この定義に従うと率(rate)になります。

(注2) もとのデータが正規分布をする時、差に変換したデータは正規分布をしますが、比に変換したデータは正規分布をしません。 そして比の分散は、次のように平均の関数になり、はなはだ扱いにくいものになってしまいます。

V( x

y
)≒ E(x)2
―――
E(y)2
・(CVx2+CVy2-2ρ・CVx・CVy)
ρ:xとyの母相関係数  CVx、CVy:x、yの変動係数

しかし、実際の実験データはもともと正規分布するかどうかあやしいものが多いのですから、細かいことは気にかけず、比に変換したデータも近似的に正規分布すると考えてしまって差し支えありません。 (こんなことをいうと、数学者などの口うるさい連中が目の色を変えて文句をいうかもしれませんが、馬耳東風と無視しておきましょう)