玄関雑学の部屋雑学コーナー統計学入門

2.4 差と比とパーセントの使い分け

(1) 差と比の違い

薬剤の投与前後で血圧を測定した時のように、対応のある2標本データの要約をする時、前後の差を計算して変化量にしたり、差を前値で割って100をかけ、前値に対する変化率にしたりして、1標本データに還元して扱います。 変化量にしろ変化率にしろわりと無造作に計算していますが、実はここにも統計学の落とし穴が潜んでいます。 差や差のパーセントを計算するということがどういった意味を持っているのか、ここでもう一度しっかりと考えてみましょう。

差を計算して変化量に変換するのは、個々のデータの変化量を比較したり、変化量の平均値を求めて、全体としてどの程度変化したかを要約したりするためです。 しかしもし変化量が前値によって影響を受けるとすると、一体どういうことになるでしょうか?

例えば血圧は前値の大きな人ほどよく低下するとします。 そうすると同じように10mmHg低下したといっても、前値が180mmHgの時と140mmHgの時とでは意味が違います。 つまり同じ低下量なら、前値が低いほど実質的によく低下したと考えられるわけです。 また前値がバラバラの集団では、低下量を平均することも通常とは違った意味になります。 したがって変化量が正確な意味を持つのは、前値が変化量に影響を与えないデータつまり間隔尺度的な変化をするデータだけということになります。

では変化率についてはどうでしょうか? 変化率は前値に対する変化量の率を表すもの、すなわちもし前値が100だったら変化量はいくつになるかということを意味する値です。 つまり前値がバラバラでは比較しにくいから、無理矢理同じにしてしまおうという乱暴な値なのです。 前値が同じになれば比較は簡単になり、一見、成程と納得しやすいでしょう。 しかしこれが変化率の思うツボ、その目論見が成功するには、前値が10の時1低下するなら100の時は10低下するという確証が必要です。

したがって変化率が正確な意味を持つのは、前値と変化量が比例するデータつまり比例尺度的な変化をするデータだけということになります。 後値を前値で割った比や、それに100をかけたパーセントについても原理的には変化率と全く同様です。 (注1)

データがどちらの種類であるのかおおよその見当をつけるには、やはりグラフを利用するのが一番です。 今、X軸を前値x、Y軸を後値yとして、ペアになった個々のデータをプロットした散布図が図2.4.1のようになったとします。 前値と後値は相関があるのが普通ですから、プロットは直線的に並び、xとyとの関係は次のような式で近似的に表されます。 これは第5章で説明する回帰直線です。 (→第5章 相関と回帰)

図2.4.1 前値と後値の散布図
y=α+βx

差dを計算するということは、上式より次のようなります。

d=y-x=(α+βx)-x=α+(β-1)x

この式から、前値xと差dの回帰直線の傾きは、前値と後値の回帰直線の傾きβから1を引いた値になることがわかります。 そのため普通は前値xが差dに影響してしまいますが、β≒1の時はほとんど影響しなくなります。 つまり前値と後値の回帰直線の傾きがほぼ45°の時、データは間隔尺度的な変化をすることになり、差を計算しても良いことになります。

また前値と後値の比rは次のようになります。

r= y

x
= α+βx
――――
x
= α

x

この式から、前値の逆数(1/x)と比rの回帰直線の傾きは、前値と後値の回帰直線の定数αになることがわかります。 そのため普通は前値xが比rに影響してしまいますが、α≒1の時はほとんど影響しなくなります。 つまり前値と後値の回帰直線がほぼ原点を通る時、データは比例尺度的な変化をすることになり、比を計算しても良いことになります。

さらに差dをパーセントに変換した変化率d(%)は次のようになり、結局、比rに帰着します。

d(%)= d

x
×100= 100(y-x)
―――――
x
=100( y

x
-1)=100(r-1)=100r-100

回帰直線が原点を通らず、傾きも45°ではない時は、回帰直線を利用して前値の影響を取り除いてから差を計算する共分散分析という手法を用いる必要があります。 この手法は非常に便利ですが、いまひとつ知名度が低くて、残念ながらあまり利用されていません。 (→第8章 共分散分析)

一般に血圧のように一定の正常域がある臨床検査値は、前値が異常な値であるほどより強く正常な状態に戻ろうとする、いわゆる初期値の法則があります。 そのためこれらの臨床検査値は比例尺度的な変化に近いかと思うと、これがさにあらず、正常域の付近では前値とは無関係に変化することが多くなり、間隔尺度的な変化に近くなったりします。 はなはだ始末の悪いデータですが、こんなタチの悪いデータの場合には、理解しやすくて危険の少ない差を計算しておくのが無難でしょう。 (注2)

(2) 差の平均値と平均値の差の違い

次にまた面倒な話ですが、差の平均値平均値の差は意味が違い、変化率の平均値平均値の変化率は意味も値も違うということもあまり知られていません。 一般にデータを変換してから要約したものと、データを要約してから変換したものは意味も値も異なるのです。 (←あぁ、ややこしい!)

たまたま差の平均値と平均値の差は同じ値になりますが、その意味するところは多少違います。 差の平均値は個々のデータの変化量を要約した値であり、差の標準偏差を求めることによって変化量のバラツキ具合まで要約することができます。 しかし平均値の差はすでに要約されている値を用いた全体的な比較であり、差の標準偏差を求めることはできません。 つまり差の平均値に比べて、差の標準偏差の分だけ情報量が少ないのです。 その代わり個々のデータがわかっていなくても平均値さえわかっていれば計算できるので、対応のないデータでも求めることができます。

変化率の平均値は個々のデータの変化率を要約した値です。 つまり全てのデータの前値を100に統一したら全体としていくつぐらい変化したかということを表していて、前値による変化量の補正ということが主な目的です。 この値は前後のデータを前値に対するパーセントに変換した時の、差の平均値に相当します。

前値(%)= 前値
――
前値
×100=100
後値(%)= 後値
――
前値
×100
変化率(%)= 後値-前値
―――――
前値
×100=後値(%)-前値(%)=後値(%)-100

この時、前値をパーセントに変換した値は必然的に100になり、その平均値も100になります。 そして変化率の平均値は、パーセントに変換した前値の平均値とパーセントに変換した後値の平均値の差、つまりパーセントに変換した後値の平均値から100を引いた値になります。

これに対して平均値の変化率は次のような式で計算する値であり、個々のデータの前値が全て一定の時は変化率の平均値と一致します。

平均値の変化率= 後値の平均値-前値の平均値
―――――――――――――
前値の平均値
×100

この値は前後の平均値しかわかっていない時に、変化率の平均値の代わりに使用する単なる目安にすぎず、個々のデータがわかっている時は変化率の平均値を用いるべきです。 もちろん変化率の平均値も平均値の変化率も、比例尺度のデータでしか意味を持たないので注意が必要です。

以上の値を、表2.4.1のデータについて実際に計算してみましょう。

表2.4.1 平均値の差と平均値の変化率
前値後値前値(%)後値(%)変化率(%)
109-110090-10
1020+10100200+100
10090-1010090-10
10090-1010090-10
100101+1100101+1
平均値6462-2100114.2+14.2
平均値の差=-2平均値の変化率=-3.125%

ご覧のように差の平均値と平均値の差は同じ値になり、変化率の平均値はパーセントに変換した前値と後値の平均値の差と同じ値になっています。 しかし変化率の平均値と平均値の変化率では、値どころか符号まで違っています。 そして元のデータの平均値は後値の方が低いにもかかわらず、パーセントに変換したデータの平均値は後値の方が高くなっています。

「何じゃこれは? 前後で値は上ったのか下がったのか、一体どっちなんじゃ!?」

とお思いでしょうが、これらは同じ情報を別の値で表現したものではなく、それぞれ意味の違う情報を要約した目的の異なる値です。 そのため結果が違っても不思議ではないのです。

このあたりが統計学のややこしいところですが、もしこのデータが比例尺度的な変化をするのなら、パーセントに変換したデータと変化率の平均値が正確な意味を持ち、前後で値は上ったと考えられます。 しかし間隔尺度的な変化をするのなら、実測値のままのデータと差の平均値が正確な意味を持ち、前後で値は下がったと考えられます。 また平均値の変化率は、前後の平均値しかわかっていない時に変化率の平均値の代わり用いる値ですから、この場合はあまり意味を持ちません。

データの種類がどちらかはっきりしない時は、実測値のままのデータと差の平均値を採用して、一応、前後で値は下がったと考えておくのが無難でしょう。


(注1) 比と割合と率は混同されて使われることの多い用語ですが、厳密には全て異なる概念です。 これらは次のように定義されています。

例えば血圧の変化率は初期値に対する単位量あたりの変化量に相当するため、この定義に従うと率(rate)になります。

(注2) 元のデータが正規分布をする時、差に変換したデータは正規分布をしますが、比に変換したデータは正規分布をしません。 そして比の分散は次のように平均の関数になり、はなはだ扱いにくいものになってしまいます。

V( x

y
)≒ E(x)2
―――
E(y)2
(CVx2+CVy2-2ρCVxCVy)
ρ:xとyの母相関係数  CVx、CVy:x、yの変動係数

しかし現実のデータで厳密に正規分布するものはないので、細かいことは気にかけず、通常は比に変換したデータも近似的に正規分布すると考えてしまって差し支えありません。 (こんなことを言うと、数学者などの口うるさい連中が目の色を変えて文句をいうかもしれませんが、馬耳東風と無視しておきましょう)