玄関雑学の部屋雑学コーナー統計学入門

5.4 級内相関係数と一致係数

相関係数は2つのデータの大小関係が一致しているかどうかを表す指標です。 このためデータの大小関係さえ一致していれば、データの値そのものが一致していなくても高い値になります。 しかし場合によっては、データの値そのものが一致しているかどうかを調べたいことがあります。 例えばある症例の疾患の重症度を複数の医師が判定し、それらの重症度判定が一致しているかどうかを調べたい時などがそれに相当します。 このような時のために、一致度を表す指標が色々と考えられています。

(1) 級内相関係数(Intraclass Correlation Coefficient、ICC)

ある疾患にかかっている患者が10名いて、その人達の重症度を3名の評価者が評価したデータが表5.14のようになったとします。 この時、話を簡単にするために、グレードではなく0点から100点までのアナログスケールで重症度を評価したとします。 そして3名の評価者の評価を平均した値を、「評価平均」として表に追加しました。

表5.14 3名の評価者の重症度評価結果
症例No.評価者1評価者2評価者3評価平均
115102115
230143827
334423637
452384043
558514250
669786370
776887279
888908487
991949894
1095879693

このような時に、3名の評価者の評価が一致しているかどうかを表す値として「エーベルの級内相関係数(Ebel's intraclass correlation coefficient)」と呼ばれる値があります。 表5.14についてこの値を計算すると次のようになります。

エーベルの級内相関係数:r11≒0.938
(参考)
・評価者1と評価者2のデータの相関係数:r=0.958
・評価者1と評価者3のデータの相関係数:r=0.957
・評価者1と評価者2のデータの相関係数:r=0.924

参考までに、3名の評価者間の相関係数も計算しておきました。 このデータのように、級内相関係数が高い時は相関係数も高くなりますが、その逆に相関係数が高いからといって級内相関係数が高くなるとは限りません。 また級内相関係数は、相関係数と同様に-1〜1の間の値になります。 そして偶然の一致程度の一致の時は0になり、完全一致の時は1になり、完全に反対で一致する時、つまりデータの間に負の相関があり、一方のデータの大小関係を反対にするともう一方のデータと完全一致する時は-1になります。

級内相関係数と相関係数の関係を模式的に表すと、図5.15のようになります。 x1とx2の回帰直線の傾きaが1ではなく、定数bも0ではなくても、全てのプロットが直線上に乗っていれば相関係数は1になります。 しかし全てのプロットが直線上に乗っていても、aが1でなければ級内相関係数は1にはなりません。 ただし級内相関係数は、aが1であればbが0でなくても1になります。 つまりx1とx2の差が一定であり、x2はx1にゲタbを履かせただけであれば、両者が完全に一致していなくても級内相関係数は1になります。

図5.15 相関係数と級内相関係数の違い

また3名の評価者の評価を平均した評価平均を最終的な重症度データとした時、このデータの信頼性(reliability)を表す値も定義されていて、それは次のようになります。

エーベルの級内相関係数:r33≒0.978
※一般に、評価者がb名の時はrbbと表す

3名の評価者の一致度r11が大きくなれば、評価平均の信頼性が高くなりr33が大きくなります。 このためr11は3名の評価者のデータの一致度を表すと同時に、データの平均的な信頼性を表す指標にもなります。 r11とr33はよく似ていますが、別の意味を持つ値ですから混同しないように注意してください。 (注1)

心理学分野や社会学分野で行われるアンケート調査では、同じような内容の複数の質問項目の回答を合計して「下位尺度」という値にし、これをデータとして利用することがしばしばあります。 この時、下位尺度データの信頼性を表す指標として「クロンバッハのα係数(Cronbach's coefficient alpha)」という値を用いることがあります。 合計した複数項目の内部一貫性つまり複数項目の一致性が高ければ、下位尺度データの信頼性が高くなります。 このためα係数は下位尺度データの信頼性を表すと同時に、合計した複数項目の一貫性を表す指標としても用いられます。 この値は、実はエーベルの級内相関係数rbbと同じものです。 (→17.3 因子スコアと尺度開発)

このように、統計用語の中には分野が違うと別の名称で呼ばれるものがけっこうあります。 それには歴史的な経緯があるため、ある程度は仕方のないことでしょう。 級内相関係数つにいては、色々な値を包含したより一般的な値が定義されていて、それを表5.14について計算すると次のようになります。 (注2)

ICC(1,1)≒0.942 … 1人の評価者が複数回評価した時の評価者内信頼性(Intra-rater reliability)
ICC(1,3)≒0.980 … 1人の評価者が複数回評価した時の評価平均の信頼性
※一般に、評価回数がb回の時はICC(1,b)と表す
ICC(2,1)≒0.942 … 複数の評価者が1回評価した時の評価者間信頼性(Inter-rater reliability、変量モデル)
ICC(2,3)≒0.980 … 複数の評価者が1回評価した時の評価平均の信頼性(変量モデル)
※一般に、評価者がb名の時はICC(2,b)と表す
ICC(3,1)=r11≒0.938 … 複数の評価者が1回評価した時の評価者間信頼性(Inter-rater reliability、母数モデル)
ICC(3,3)=r33≒0.978 … 複数の評価者が1回評価した時の評価平均の信頼性(母数モデル)
※一般に、評価者がb名の時はICC(3,b)と表す

ICC(2,1)またはICC(2,b)とICC(3,1)またはICC(3,b)の違いは、評価者に関して変量モデル(random effect model)か母数モデル(fixed model、固定モデルとも呼ばれる)かの違いです。 変量モデルというのは、多くの評価者がいて、その中のたまたまb名の評価者を選択して評価を行うというモデルです。 このモデルでは、同じ試験を何度も行った時、b名の評価者はいつも同じ人とは限らず、変数扱いしなければなりません。 したがってこれは評価者よりも評価項目に注目したモデルであり、特定の評価項目の信頼性を検討したい時に用います。

それに対して母数モデルというのは、特定のb名の評価者が評価を行うというモデルです。 このモデルでは、同じ試験を何度も行った時、b名の評価者はいつも同じ人であり、定数扱いします。 したがってこれは評価項目よりも評価者に注目したモデルであり、特定の評価者の信頼性を検討したい時に用います。

ちなみに、どちらの場合も被験者は多くの被験者からたまたま選ばれた10名であり、被験者に関しては変量モデルになります。 このため評価者に関してだけ母数モデルの場合を、混合モデル(mixed model)と呼ぶことがあります。

心理学や社会学分野では特定の評価者が評価を行うことが多く、母数モデルの方が一般的です。 そしてこの母数モデルのICC(3,1)とICC(3,b)が、エーベルの級内相関係数r11とrbbに相当します。 これらの級内相関係数は、複数の評価者のデータが完全に一致していなくても、ある評価者のデータに定数を足せば(または引けば)他の評価者のデータに一致する時には1になります。 しかしICC(1,1)、ICC(1,b)、ICC(2,1)、ICC(2,b)は、複数回の評価または複数の評価者のデータが完全に一致していなければ1にはなりません。 つまり図5.15における回帰直線の傾きaが1で、定数bが0の時しか1にはなりません。

(3) ケンドールの一致係数W(Kendall's coefficient of concordance)

データが順序尺度の時にも、一致度を表す指標が色々と定義されています。 その中の代表的なものとして、「ケンドールの一致係数W」という値があります。 この値は、級内相関係数のように複数の評価者の一致度を表す指標ではなく、被験者の一致度を表す指標です。 例えば表5.14のデータを順序尺度として扱い、ケンドールの一致係数を計算すると次のようになります。

ケンドールの一致係数:W=0

実はこのWは、4.2 多標本の計数値で説明したフリードマンの検定における、要因Bの寄与率RB2と同じものです。 フリードマンの検定は対応のある順序尺度データが多標本ある時に、その多標本の順序分布の中心位置が等しいかどうかを検定する手法です。 表5.14は対応のある順序尺度のデータが3標本あるので、このデータにフリードマンの検定を適用すると、3名の評価者の順序分布の中心位置、つまり重症度分布の中心位置が等しいかどうかを検定することになります。 表5.14について実際に計算すると次のようになります。 (→4.2 多標本の計数値 (1) 順序尺度(順序データ) 2) データに対応がある場合)

・要因B(評価者)
 χo2=0 (p=1)<χ2(2,0.05)=5.991…有意水準5%で有意ではない
 RB2=0(0%)

この場合のRB2は、データの全変動のうち要因Bつまり評価者の違いによって説明できる割合を表します。 このデータの場合は評価者の違いによって説明できる割合が0、つまり評価者の重症度分布の中心位置は全く等しいということになります。 仮にこの値が1になったとすると、データの変動は全て評価者の違いによるものであり、被験者と評価者の交互作用による変動はない、つまり被験者ごとの評価パターンが全員同じであるということになります。 このことから、RB2は被験者の評価パターンの一致度を表すことになり、ケンドールの一致係数Wと同じものになるのです。

ただし、今求めたいものは評価者の一致度です。 そこで表5.14の縦と横を入れ替えてからケンドールの一致係数を計算すれば、その場合は評価者の一致度を表すはずです。 表5.14の縦と横を入れ替えて実際に計算すると、次のようになります。 (注3)

表5.15 3名の評価者の重症度評価結果(表5.14の縦と横を入れ替えたもの)
評価者\症例No.1No.2No.3No.4No.5No.6No.7No.8No.9No.10
評価者115303452586976889195
評価者210144238517888909487
評価者321383640426372849896
ケンドールの一致係数:W=0.960
 χo2=25.909 (p=0.0021)<χ2(9,0.05)=16.919…有意水準5%で有意

このWは評価者の一致度を表し、順序尺度におけるエーベルの級内相関係数と同じような意味の値になります。 ただし厳密には、Wを次のように変形するとエーベルの級内相関係数r11相当の値になります。 そしてこの値は、複数の評価者から2人ずつのペアを作ってスペアマンの順位相関係数を計算し、それを平均した順位相関平均rsに一致します。

順位相関平均:rs= bW-1
―――
b-1
≒r11   (b:評価者数)
表5.15の場合:rs=0.939≒r11=0.938
スピアマンの順位相関係数:
 評価者1 vs 評価者2 rs=0.915
 評価者1 vs 評価者3 rs=0.976
 評価者2 vs 評価者3 rs=0.927
 順位相関平均 rs=0.939

さらにrsを基にして、エーベルの級内相関係数rbb相当の値を計算することができます。

信頼性係数:rbb= brs
―――――
1+(b-1)rs
≒rbb  … b人のデータを平均した値を評価データにした時の信頼性
表5.15の場合:r33=0.979≒r33=0.978

bが2の時、ケンドールの一致係数とスピアマンの順位相関係数の関係は次のようになります。 つまり順位相関係数の下限を0にし、変動範囲を半分にして上限を1にしたものがケンドールの一致係数になるわけです。 このためエーベルの級内相関係数と違って、ケンドールの一致係数は負の値にはなりません。

rs=2W-1
∴W= rs+1
―――
2
表5.15の評価者1と評価者2だけの場合:W=0.9576
 rs=2×0.9576-1=0.915

順位相関係数は、データの順位の大小関係が一致しているかどうかの指標です。 このため2つの項目のデータの間隔がいくら異なっていても、順位はどちらも1番からデータ数番までになり、順位相関係数が1になれば両方の順位は一致します。 したがって順位相関係数が1の時の順位の回帰直線を計算すれば、その傾きは1になり、定数は0になります。 このことから、順位相関係数は一致係数と同じような意味を持つものであることがわかります。

(3) 一致係数κ(matching coefficient kappa)

データが名義尺度の時にも、一致度を表す指標が色々と定義されています。 100名の被験者がいて、その人達がある疾患にかかっているかどうかを2名の医師が診断し、その結果をまとめたものが表5.16のようになったとします。

表5.16 ある疾患の診断結果
医師1\医師2正常疾患
正常401050
疾患104050
5050100

この時、2名の医師の診断結果の一致度を表す値として「一致係数κ」または「コーヘンのκ係数(Cohen's coefficient kappa)」と呼ばれる値があります。 表5.16についてこの値を計算すると次のようになります。 (注4)

一致係数:κ=0.6
 帰無仮説H0:κ=0
 |zo|=6(p<0.0001)>t(∞,0.05)=1.96…有意水準5%で有意

κは度数集計表の対角線上に全てのデータが集まった時、つまり完全一致の時は1になり、偶然の一致程度の一致の時は0になります。 そして級内相関係数と同じように、データの一致度が悪い時は負の値になることもあります。

κは分類数が3つ以上の時でも計算することができます。 例えばある疾患の患者100名について、重症度を2名の医師が3段階で評価し、その結果をまとめたものが表5.17のようになったとします。 このデータについてκを計算すると次のようになります。

表5.17 ある疾患の重症度評価
医師1\医師2軽症中等症重症
軽症1917743
中等症726538
重症312419
295516100
一致係数:κ=0.198
 帰無仮説H0:κ=0
 |zo|=2.802(p=0.0051)>t(∞,0.05)=1.96…有意水準5%で有意

この場合のκは、3段階の重症度を名義尺度として扱った時の一致度を表します。 しかし重症度は順序尺度のデータですから、本来は順序尺度として扱った方が合理的です。 その場合、ケンドールの一致係数を用いることができますが、κを順序尺度に拡張した「重み付き一致係数κw(weighted kappa)」を用いることもできます。 表5.17についてこの値を計算すると次のようになります。 (注5)

重み付き一致係数:κw=0.197
 帰無仮説H0:κw=0
 |zo|=1.627(p=0.1038)<t(∞,0.05)=1.96…有意水準5%で有意ではない

表5.16と表5.17は評価者が2名しかいませんが、評価者が3名以上の時でも一致係数を計算することができます。 ただし順序尺度の場合は、重み付き一致係数κwを用いるよりも、ケンドールの一致係数Wと、それに基づいた順位相関平均rsと信頼性係数rbbを用いた方が便利でしょう。


(注1) エーベルの級内相関係数は繰り返しの無い二元配置型のデータに適用するため、繰り返しの無い二元配置分散分析の結果から計算することができます。 第4章で求めている二元配置分散分析の各種統計量から、次のようにして計算します。 (→4.1 多標本の計量値 (2) データに対応がある場合 (注1))


b=2の時、要因B1、B2の平方和をS11、S22、積和をS12とすると、普通の相関係数との関係は次のようになります。

 

 
SA-SR=2S12  SA+SR=S11+S22


0≦rV≦1 … S11=S22の時1、S11=0またはS22=0の時0

rVはS11とS22が等しければ1になり、どちらかが0ならば0になります。 したがってこの値は、要因B1とB2の平方和または分散が一致しているかどうかを表す一致係数相当の値と解釈することができます。 このようにb=2の時のエーベルの級内相関係数は相関係数と分散の一致係数をかけた値であり、要因B1とB2の相関係数が1で、かつ分散が等しい時だけ1になります。 (→6.2 データの要約と多変量解析 (注2))

表5.14のデータについて実際に計算してみましょう。




評価値または測定値の信頼性を表す指標として「信頼係数(coefficient of reliability または reliability coefficient)」という値があります。 これは、評価値の分散の中で真値の分散が占める割合として、次のように定義されています。


実際のデータでは真値は不明なため、真値の分散を直接求めることはできません。 そこで、色々な推定法が考案されています。 エーベルの級内相関係数rbbは、要因Aの分散の中で(要因Aの分散-残差分散)の占める割合を表します。 これは、要因Aの各水準の平均値つまり個体の平均値を評価値と考え、残差分散を誤差分散と考えた時の、信頼係数の推定値と解釈することができます。 このため、rbbを信頼性の指標のひとつとして利用することができます。

実際のデータでは、要因Aの分散よりも残差分散の方が大きくなることがあるため、rbbが0よりも小さくなることがあります。 これは、被験者の平均値のバラツキよりも、残差のバラツキつまり被験者と評価者の交互作用によるバラツキの方が大きいことを表します。 そのような場合は真値の分散を推定することができず、信頼性の指標としてrbbを利用するのは不適当ということになります。

ある測定値の信頼性係数がρの時、測定をm回繰り返して、その平均値を測定値とした時の信頼性係数ρmは次のようになります。 これを「スペアマン・ブラウン(Spearman-Brown)の公式」といいます。

r11にスペアマン・ブラウンの公式を当てはめると、次のようにrbbと一致します。 この関係は一般的な級内相関係数にも当てはまりますし、順位相関平均rsから信頼性係数rbbを求める時にも利用します。

またスペアマン・ブラウンの公式から、設定された信頼性を確保するために必要な測定回数を求めることができます。 ただしこの場合の信頼性は測定値の分散の中で真値の分散が占める割合であり、いわば相対的な信頼性にすぎません。 測定値にはどの程度の誤差が含まれていて、何桁目まで信頼できるか、といった絶対的な信頼性を検討するには、V(α)やV(ε)の値そのものを実質科学的に検討する必要があります。

(注2) 一般的な級内相関係数は、次のようなモデルに基づいて導かれます。

1) Case1

1人の評価者がa人の被験者をそれぞれb回評価した時の、評価者内信頼性を求めたい場合です。 この時の評価値は次のように分解され、これは一元配置分散分析の基本式に相当します。 したがって、Case1は一元配置モデルになります。

繰り返しの無い二元配置分散分析の要因Bを、評価者がb回繰り返して評価したものと考えて残差に含めれば、一元配置分散分析になります。 このモデルから、次のようにしてICC(1,1)とICC(1,b)を導くことができます。



b回の評価平均値を評価値とすると、評価誤差の分散がb分の1になります。 このため、この時の信頼性係数は次のようになります。


2) Case2

b人の評価者がa人の被験者を1回評価した時の、評価者間信頼性を求めたい場合です。 この時の評価値は次のように分解され、これは二元配置分散分析の基本式に相当します。 したがって、Case2は二元配置モデルになります。 この場合、評価者は多くの評価者からたまたま選ばれたb人であり、変量モデルになります。





b人の評価平均値を評価値とすると、評価者と評価誤差の分散がb分の1になります。 このため、この時の信頼性係数は次のようになります。


2) Case3

特定のb人の評価者がa人の被験者を1回評価した時の、評価者間信頼性を求めたい場合です。 この場合、評価者は特定のb人であり、評価者に関して母数モデルになります。 この時の評価値を分解すると、二元配置分散分析の基本式において、評価者の効果が定数になったものになります。 したがって、Case3は被験者が変量モデルで評価者が母数モデルという、二元配置型の混合モデルになります。 この時の級内相関係数は、分母の評価値の分散から評価者の分散を引いておく必要があります。





b人の評価平均値を評価値とすると、評価誤差の分散がb分の1になります。 このため、この時の信頼性係数は次のようになります。


級内相関係数の特徴を理解するために、評価値のパターンによって級内相関係数の値がどのように変化するかを見てみましょう。 話を単純にするために被験者も評価者も2名とし、表5.18のような4つのパターンの評価値を考えます。

表5.18 評価値の4つの変動パターン
被験者\評価者パターン1  パターン2  パターン3  パターン4
評価者1評価者2  評価者1評価者2  評価者1評価者2  評価者1評価者2
被験者133  34  32  31
被験者211  12  12  13

これら4つの評価値の変動パターンと級内相関係数の関係を模式的に表すと、図5.16のようになります。 図の中で、級内相関係数全体に当てはまる場合は「ICC」と表記し、Case1の2種類の級内相関係数に当てはまる場合は「ICC(1)」と表記し、Case2の2種類の級内相関係数に当てはまる場合は「ICC(2)」と表記し、Case3のの2種類の級内相関係数に当てはまる場合は「ICC(3)」と表記しています。

図5.16 評価値の変動パターンとICCの関係

図5.16の上の4つのグラフは、2名の被験者についての2名の評価者の評価値を、二元配置型の折れ線グラフで描いたものです。 これらのグラフでは、同じ被験者についての2名の評価者の評価値の違いを、時期変動のようなイメージで描いています。 それに対して下の4つのグラフは、同じデータを評価者1と評価者2の関係を表す散布図として描いたものです。 これらのグラフは図5.15と同じ原理で描いたものであり、被験者1と被験者2は散布図上の2つのプロットになります。 上下のグラフを見比べると、二元配置分散分析と級内相関係数の関係を感覚的に理解することができると思います。

パターン1は、評価者1と評価者2の評価値が完全に一致するパターンです。 この場合、二元配置分散分析では被験者間差つまり要因Aの効果があり、評価者間差つまり要因Bの効果はなく、被験者と評価者の交互作用つまり誤差はないということになります。 そして評価者1と評価者2の回帰直線はy=xになり、級内相関係数は1になります。

パターン2は、評価者1よりも評価者2の方が、必ず一定の値だけ評価値が高いパターンです。 この場合、二元配置分散分析では被験者間差があり、評価者間差もあり、被験者と評価者の交互作用はないということになります。 そして評価者1と評価者2の回帰直線はy=x+1になり、ICC(1)とICC(2)は1未満に、ICC(3)は1になります。

パターン3は、評価者1の評価値は被験者ごとに異なっているのに対して、評価者2の評価値は一定というパターンです。 この場合、二元配置分散分析では被験者間差があり、評価者間差はなく、被験者と評価者の交互作用があるということになります。 そして評価者1と評価者2の回帰直線はy=2になり、級内相関係数は0になります。

パターン4は、評価者1と評価者2の評価値が正反対というパターンです。 この場合、二元配置分散分析では被験者間差はなく、評価者間差もなく、被験者と評価者の交互作用だけがあるということになります。 そして評価者1と評価者2の回帰直線はy=4-xになり、級内相関係数は負になります。

表5.18のデータについて級内相関係数を計算すると、実際には図5.16に記載した値にはならないものがあります。 これは分散の推定値が近似値であり、理論どおりの値にならないことがあるからです。 また級内相関係数は原則として-1〜1の間の値になりますが、やはり分散の推定値が近似値のため、-1より小さくなることがあります。

表5.14のデータについて、級内相関係数を実際に計算してみましょう。






(注3) ケンドールの一致係数は、フリードマンの検定における要因Bの寄与率と同じものです。 第4章で求めたフリードマンの検定における要因Bの寄与率は次のとおりでした。 (→4.2 多標本の計数値 (1) 順序尺度(順序データ) 2) データに対応がある場合 (注4))

今の場合は縦と横を入れ替えて要因Bを評価者にするため、計算する時に注意が必要です。 表5.15のデータについて実際に計算してみましょう。

表5.19 評価者別重症度順位(表5.14のデータを評価者別に順位付けしたもの)
評価者\症例No.1No.2No.3No.4No.5No.6No.7No.8No.9No.10同位の数
評価者112345678910-
評価者212435689107-
評価者313245678109-
順位和37911151822252926-



(注4) 一般的な一致係数κは、b人の評価者がn例の被験者をc種類に分類した時の一致度を計算します。 その計算法は反復計算を必要とする非常な複雑なものであるため、普通はb=2として、2人の評価者の一致係数を計算します。 その場合、まず最初に2人の評価者が評価したデータを次のような分割表にまとめます。

表5.20 2人の評価者の評価データ
評価者1\評価者2B1BjBc
A1n11n1jn1cn1.
:::::
Aini1nijnicni.
:::::
Acnc1ncjnccnc.
n.1n.jn.cn

この表を基にして、一致係数κは次のように計算します。






表5.16と表5.17のデータについて実際に計算してみましょう。

・表5.16






・表5.17





分類の数が2つだけの時、κは次のような式で求められます。

さらにn11=n22、n12=n21の時は次のようになり、κは順位相関係数rs、4分点相関係数θ(φ係数)、エーベルの級内相関係数r11と一致します。 (→5.3 計数値の相関と回帰)

κの値がわかっていると、2人の評価者の評価が偶然一致する確率pcから完全一致率p0を求めることができます。 そして上記のようにκは4分点相関係数と近似するため、2つの評価者の間に相関がある時、相関係数と両者の評価から完全一致率を近似的に求めることができます。

p0=pc+(1-pc)κ≒pc+(1-pc

この関係を利用すると、2つの項目の間に相関がある時に、2つの項目の正常/異常が一致する確率を近似的に求めることができます。

(注5) 重み付き一致係数κwは表5.20を基にして次のように計算します。

行列の重み:




≧t(∞,α)の時、有意水準αで有意

表5.17のデータについて実際に計算してみましょう。