玄関雑学の部屋雑学コーナー統計学入門

2.5 標準誤差・標準偏差・変動係数・偏り

(1) 標準誤差、標準偏差、変動係数の使い分け

標準誤差SE標準偏差SD変動係数CV(coefficient of variation)はどれもバラツキを要約する値ですが、これらの使い分けは間違いやすい統計手法の堂々ベスト3に入ります。 一言でいえば標準偏差と変動係数はデータのバラツキ具合を要約する値であり、標準誤差は標本平均のバラツキ具合を要約する値すなわち標本平均に含まれている誤差の大きさを表す値です。 標準偏差と標準誤差の使い分けについては第1章で説明したのでそちらを参照していただくとして、ここでは標準偏差と変動係数の使い分けについて説明しましょう。 (→1.3 データの要約方法)

変動係数は標準偏差ほど頻繁には使われないせいか、その意味があまり理解されていないようです。 変動係数は変化係数あるいは変異係数ともいわれ、次のように平均値に対する標準偏差の率として定義されています。

CV = σ μ (100を掛けてパーセント表示する場合が多い)

この式から類推できるように、変動係数が本質的に意味を持つのは標準偏差が平均値に比例するようなデータすなわち比例尺度のデータだけです。

図2.5.1 CVを使うデータ 図2.5.2 標準偏差を使うデータ

比例尺度のデータは図2.5.1のように標準偏差と平均値が比例し、平均値が10の時には1変動し、100の時には10変動するという性質があります。 例えばある溶液をピペットで一定量計り取る場合、同じ1ccの測定誤差でも濃度が1%の時と10%の時を比べると溶質(溶けている物質)量の誤差は1対10になります。

それに対して間隔尺度のデータは図2.5.2のように平均値と無関係に標準偏差が一定で、平均値が10の時にも100の時にも同じように1変動するという性質があります。 例えば身長測定の場合、1mの可愛い子供でも2mのむくつけき大男でも身長計による測定誤差は同じです。

比例尺度のデータは2群の平均値が異なっていると平均値に比例して標準偏差も異なります。 そのため2つの群のデータのバラツキ具合を比較する時、標準偏差をバラツキの指標として用いることができずに不便です。 そこで平均値が異っていてもバラツキ具合を比較できるように、標準偏差を平均値で割って平均値と無関係になるように補正したのが変動係数です。 したがって元々標準偏差と平均値が無関係な間隔尺度のデータでは変動係数は無意味などころか平均値と反比例するようになり、かえって公平な比較ができないことになります。

また原理的に変動係数が一定のデータつまり比例尺度のデータは対数正規分布をし、標準偏差が一定のデータつまり間隔尺度のデータは通常の正規分布をします。 したがって比例尺度のデータは対数変換してから平均値と標準偏差を求め、それらをデータの要約値として用いると正確です。 しかし何しろ対数変換した値はその内容がすぐにピンと来ず、要約値としての用をなさないうらみがあります。 そこで普通は平均値と変動係数をデータの要約値として用いているのです。 (→2.2 データの分布と統計手法)

例えば男女それぞれ50人について体重を測定したところ、平均値と標準偏差が次のようになったとします。

男性:60±12kg(変動係数20%)  女性:40±10kg(変動係数25%)

このデータに基づいて体重のバラツキ具合を男女間で比較したいとします。 すると標準偏差は男性の方が大きな値ですが変動係数は女性の方が大きな値なので、どちらの要約値を信用して良いのか判断に迷います。 体重を比例尺度と仮定すると、変動係数が20%なので、もし男性の平均値が女性と同じ40なら標準偏差は40×0.2=8になります。 すると男性のバラツキは女性よりも小さいと考えられます。 反対に体重を間隔尺度と仮定すると、標準偏差は平均値に無関係なので男性のバラツキは女性よりも大きいと考えられます。

あるデータが比例尺度か間隔尺度かを調べるには、いくつかの群の平均値とその標準偏差をプロットします。 そして平均値が大きくなるにつれて標準偏差も大きくなれば比例尺度ですし、平均値と無関係に標準偏差がほぼ一定ならば間隔尺度です。 またデータの度数分布図を描いた時、それが左傾の傾向を持つ、つまりデータの小さい部分に比べて大きい部分の方がなだらかな分布なら——これが対数正規分布の特徴です——比例尺度と考えられ、左右対称の分布なら間隔尺度と考えられます。

以上のことからわかるように、データのバラツキ具合を他のデータと比較したい時は、最初にデータが比例尺度か間隔尺度かを調べる必要があります。 もし比例尺度なら平均値と標準偏差を求めて標準偏差を変動係数に変換して用いるか、データを対数変換してから標準偏差を求めます。 もし間隔尺度なら標準偏差をそのまま用います。 データがどちらの尺度か不明の時は平均値を明示して標準偏差をそのまま用いるのが無難でしょう。

また身長と体重のバラツキ具合を比較したい時のように、内容が全く異なるデータのバラツキ具合を比較したい時もあります。 そのような時は標準偏差を直接比較することができないので、便宜的に変動係数を用います。

厳密に言えば、その時も2つのデータがどちらも比例尺度であることを確認する必要があります。 しかしそんな時はどちらの項目のバラツキが大きいかを厳密に比べるというよりも、平均値に対して標準偏差がどの程度の比率になるかをバラツキの目安にし、それを2つの項目で比較する程度のことが多いと思います。 そのため2つのデータが比例尺度であることを厳密に確認する必要はないと思います。

(2) 偏りとバラツキ

一般にデータに誤差があるという時の誤差は、統計学的には系統誤差(systematic error)つまり偏り(bias)偶然誤差(random error)つまりバラツキに分けられます。 母平均をμ、標本平均をm、データをxiとし、μを真値とすると、偏りとバラツキの関係は次のようになります。

xi = μ + α(偏り) + εi(バラツキ) ≒ μ + (m-μ) + (xi-m)
※SDは1例あたりの平均的なバラツキを表す
図2.5.3 偏りとバラツキ

これに関連してデータの正確さを表す言葉についても統計的な用語が決まっていて、偏りの程度を正確度(accuracy)といい、バラツキの程度を精度(precision)といいます。 理想的には正確で精度が高いのが一番です。 しかし標本平均などを利用して偏りの大きさについて推定することが可能なら、正確度よりも精度の方が優先します。 これは図2.5.3のように銃で標的を狙う時、精度が高ければ、たとえ偏りがあっても照準を調整することによって標的に命中させられることに対応します。

図2.5.4 正確度と精度

偏りの原因が例えば疾患とか性差といったように特定できる場合、偏りは意味のある情報つまりシグナルになり、バラツキはノイズになります。 大雑把に言えば統計学とはデータの変動をシグナルとノイズに分離し、S/N比(信号対ノイズ比)つまりt値などを利用してシグナルの信頼性を評価する学問と言えるでしょう。 (→1.5 有意性検定の考え方)

(3) 医学研究における偏り

医学分野で行われる臨床試験や臨床研究は、その特殊性からデータに色々な偏りが入る可能性があります。 それらの偏りには次のようなものがあります。

1) 選択バイアス(selection bias)

○有病者・罹患者バイアス(prevalence-incidence bias)

症例対照研究または横断的研究で罹病期間が長い患者を対象にする場合、罹患直後に治癒または死亡した患者が症例群に入らず、症例群が真の患者集団を正しく代表しない偏りが生じます。 これが有病者・罹患者バイアスです。 ネイマン(Neyman)バイアスともいいます。

例えば心筋梗塞のリスクファクターを検討するための症例対照研究では、心筋梗塞発症直後に死亡した患者は症例群には入りません。 そのため症例群は心筋梗塞を発症してもすぐには死亡しなかった症例が多くなり、心筋梗塞で死亡するリスクファクターの影響が実際よりも小さく評価される可能性があります。

○入院バイアス(admission rate bias)

研究対象の疾患以外で入院している患者を対照群にした場合、研究対象のリスクファクターが色々な疾患の原因になっていて入院しやすい傾向があると、対照群にリスクファクターを保有している患者が入りやすくなる偏りが生じます。 これが入院バイアスであり、研究対象の疾患に対するリスクファクターの影響が実際よりも小さく評価されます。 バークソン(Berkson)バイアスともいいます。

例えば肺癌に対するタバコの影響を検討するための症例対照研究で、入院患者から症例群と対照群を選択したとします。 その場合、タバコは色々な疾患のリスクファクターになるので、タバコが原因で心筋梗塞などに罹患して入院している患者が対照群に選ばれる可能性が高くなります。 すると対照群の喫煙率が高くなり、タバコの影響が実際よりも小さく評価される可能性があります。

○診断バイアス(diagnostic suspicion bias)

リスクファクターを保有していると疾患と診断されやすい傾向があると、リスクファクターを保有している患者が症例群に入りやすい偏りが生じます。 これが診断バイアスであり、リスクファクターの影響が実際よりも大きく評価されます。

例えば医師が喫煙習慣のある患者は念の為に肺癌の精密検査をしていて、喫煙習慣のない患者は精密検査をしていなかったとします。 すると喫煙習慣のある患者は肺癌の発見率が高くなり、症例群に入りやすくなります。 その結果、タバコの影響が実際よりも大きく評価される可能性があります。

○非協力者バイアス(non-respondent bias)

リスクファクターを保有している患者が被験者になることを拒否しやすいと、リスクファクターを保有している患者は疾患群に入りにくくなる偏りが生じます。 これが非協力者バイアスであり、リスクファクターの影響が実際よりも小さく評価されます。 その反対にリスクファクターを保有している患者が積極的に被験者になりやすいと、リスクファクターを保有している患者が疾患群に入りやすくなる偏りが生じます。 これを積極協力者バイアス(volunteer bias)といい、リスクファクターの影響が実際よりも大きく評価されます。 両方合わせて自己選択バイアス(self-selection bias)ということもあります。

例えば酒好きな肝機能障害患者が、飲酒について色々と説教されるのを嫌がって被験者になるのを拒否したとします。 すると症例群には飲酒歴のある患者が少なくなり、飲酒の影響が実際よりも小さく評価される可能性があります。

○さらけ出しバイアス(unmasking bias)

疾患の発症率自体は高くしないものの、疾患の発症を見つけやすくする症状を起こすリスクファクターがあったとすると、それを保有している患者は疾患の発見率が高くなり、疾患群に入りやすくなる偏りが生じます。 これがさらけ出しバイアスであり、リスクファクターの影響が実際よりも大きく評価されます。 発見兆候バイアス(detection signal bias)ともいいます。

例えば女性よりも男性の方が発熱しやすい疾患があったとします。 すると男性は疾患の発見率が高くなり、症例群に入りやすくなります。 その結果、性の影響が実際よりも大きく評価される可能性があります。

2) 情報バイアス(information bias)

○リコールバイアス(recall bias)

疾患に罹患していると質問に対して真剣に考えるのでリスクファクターを保有していたことを思い出しやすい傾向があり、症例群の方がリスクファクター保有率が高くなる偏りが生じます。 これがリコールバイアスであり、リスクファクターの影響が実際よりも大きく評価されます。

例えば肺癌に対するタバコの影響を検討するための症例対照研究で、疾患群の被験者が喫煙歴について質問され、真剣に考えて過去の受動喫煙の可能性を思い出したとします。 それに対して対照群の被験者はあまり真剣に考えず、受動喫煙の可能性を無視したとします。 すると疾患群の受動喫煙率が高くなり、タバコの影響が実際よりも大きく評価される可能性があります。

○曝露疑いバイアス(exposure suspicion bias)

質問者がリスクファクターの影響について特定の予断を持っていて、相手が症例群か対照群かで質問の仕方を変えると被験者の回答内容に偏りが生じます。 これが曝露疑いバイアスであり、リスクファクターの影響が強いという予断を持っていると影響が実際よりも大きく評価され、リスクファクターの影響が弱いという予断を持っていると影響が実際よりも小さく評価されます。

例えば質問者が「肺癌に対するタバコの影響は強い」という予断を持っていて、症例群の被験者に対しては「過去にタバコを吸っていたのではありませんか?よく思い出してください」と質問し、対照群の被験者に対しては「過去にタバコを吸ったことはありますか?」と質問したとします。 その結果、症例群は過去の受動喫煙を思い出した被験者が多くなり、対照群は過去の受動喫煙を思い出した人が少なかったとすると、タバコの影響が実際よりも大きく評価される可能性があります。

○家族情報バイアス(family information bias)

疾患に罹患していて、その疾患についてある程度の情報を持っている被験者は家族が同じ疾患に罹患していることに気付きやすくなります。 その結果、症例群の家族歴有の割合が高くなる偏りが生じます。 これが家族情報バイアスであり、家族歴の影響が実際よりも大きく評価されます。

例えば狭心症を対象にした研究で、症例群の被験者は家族が胸痛発作を起こしたことをよく覚えていて、家族歴を有にする傾向があるとします。 すると症例群の家族歴有の割合が高くなり、家族歴の影響が実際よりも大きく評価される可能性があります。

3) 交絡バイアス(confounding bias)

リクスファクターと疾患の両方に影響を与える因子があり、その因子の大きさが症例群と対照群で異なっているとリスクファクターの評価に偏りが生じます。 これが交絡バイアスであり、その因子のことを交絡因子(confounding factor)といいます。 交絡因子に関する詳しい説明は第8章をご覧ください。 (→第8章 共分散分析)

交絡バイアス以外のバイアスは、バイアスが生じる原因によって分類したものであるのに対して、交絡バイアスは原因ではなく交絡因子が偏っているという現象面から分類したものです。 そのため他のバイアスと重なる場合が有り得ます。 例えば選択バイアスのせいで症例群の交絡因子に偏りが生じてしまった時は、選択バイアスであると同時に交絡バイアスと考えることもできます。

このせいか交絡バイアスの解釈は分野によって微妙に異なっているようです。 往々にしてデータが得られた後でバイアスを補正する方法を検討することが多い統計学専門家にとって、交絡バイアスは理解しやすい分類です。 しかし試験計画を立案したり、試験結果を解釈したりする研究者にとっては、交絡バイアスよりも選択バイアスなどの原因による分類の方が理解しやすいと思います。

4) 割付バイアス(allocation bias)

第1章で説明したように、無作為化比較対照試験(RCT:Randomized Controlled Trial)二重盲検試験(DBT:Bouble Blind Trial)では被験者を無作為に2群に分けてプラセボと実薬を割り付けます。 この時、次のような偏りが生じる可能性があります。 (→1.9 科学的研究のデザイン)

○割付の隠蔽(allocation concealment)

割付担当者が薬剤と被験者のことを事前に知っていると割付が無作為に行われず、プラセボ群と実薬群の背景因子が均等ではなくなる偏りが生じます。 例えば軽症の患者にはプラセボを割り付け、重症の患者には実薬を割り付けると、2群の重症度が均等ではなくなる可能性があります。

○不完全な盲検化(incomplete blinding)

非治療群にプラセボを投与しなかったり、プラセボと実薬が識別可能だったりすると、プラセボ群と実薬群のプラセボ効果に偏りが生じます。 例えば実薬は苦い味がするのにプラセボは苦い味がしないと、被験者が薬剤を服用した時にプラセボか実薬かすぐにわかってしまい、プラセボ群と実薬群でプラセボ効果が均等ではなくなる可能性があります。

5) 評価バイアス(assessment bias)

評価項目が自覚症状のように主観が入りやすい項目の場合、盲検化しない試験では評価に次のような偏りが生じる可能性があります。

○症例や評価項目の不完全な検討(incomplete accounting)

症例の選択基準や除外基準が曖昧だと採用される症例に偏りが生ずる可能性があります。 また評価基準が曖昧だと評価に偏りが生ずる可能性があります。

○選択的結果報告(selective outcome reporting)

薬剤の効果や副作用等を判断する時に主治医の主観が入り、それらを選択的に報告すると評価に偏りが生じる可能性があります。

6) 公表バイアス(publication bias)

研究結果がネガティブの場合、それが論文化されて公表される可能性は小さくなります。 またネガティブな結果の論文を科学雑誌に投稿すると、受理されない可能性もあります。 そのため公表された論文だけ見ていると、実際の結果よりも良く評価される可能性があります。 これが公表バイアスです。

公表バイアスをなくすには全ての研究を登録制にして、結果の公表を義務化する必要があります。 しかしそれは現実には実施困難です。 そのため市場に出回っている薬剤の効果は添付文書に書かれているよりも少し割り引いて考える必要があります。 ただしどの程度割り引いて考えれば良いかは、その薬剤を開発した製薬企業以外は――もしかしたら開発した製薬企業も――はっきりとはわからないでしょう。