玄関雑学の部屋雑学コーナー統計学入門

5.4 級内相関係数と一致係数

相関係数は2つのデータの大小関係が一致しているかどうかを表す指標です。 そのためデータの大小関係さえ一致していれば、データの値そのものが一致していなくても高い値になります。 しかし場合によってはデータの値そのものが一致しているかどうかを調べたい時があります。 例えば臨床検査値の新しい測定方法を開発し、その測定値が従来の方法で測定した値と一致しているかどうかを調べたい時とか、同一症例の疾患の重症度を複数の医師が判定し、それらの重症度判定が一致しているかどうかを調べたい時などがそれに相当します。 そのような時のために一致度を表す指標が色々と考えられています。

(1) 級内相関係数(ICC:Intraclass Correlation Coefficient)

ある疾患にかかっている患者が10名いて、その人達の重症度を3名の評価者が評価したデータが表5.4.1のようになったとします。 この時、話を簡単にするために、グレードではなく0点から100点までのアナログスケールで重症度を評価したとします。 そして3名の評価者の評価を平均した値を評価平均値として表に追加しました。

表5.4.1 3名の評価者の重症度評価結果
症例No.評価者1評価者2評価者3評価平均値
115102115
230143827
334423637
452384043
558514250
669786370
776887279
888908487
991949894
1095879693

このような時に、3名の評価者の評価が一致しているかどうかを表す値としてエーベルの級内相関係数(Ebel's intraclass correlation coefficient)と呼ばれる値があります。 表5.4.1についてこの値を計算すると次のようになります。

エーベルの級内相関係数:r11≒0.938
※参考
評価者1と評価者2のデータの相関係数:r=0.958
評価者1と評価者3のデータの相関係数:r=0.957
評価者1と評価者2のデータの相関係数:r=0.924

参考までに3名の評価者間の相関係数も計算しておきました。 このデータのように級内相関係数が高い時は相関係数も高くなりますが、その逆に相関係数が高いからといって級内相関係数が高くなるとは限りません。 また級内相関係数は相関係数と同様に-1〜1の間の値になります。 そして偶然の一致程度の一致の時は0になり、完全一致の時は1になり、完全に反対で一致する時つまりデータの間に負の相関があり、一方のデータの大小関係を反対にするともう一方のデータと完全一致する時は-1になります。

級内相関係数と相関係数の関係を模式的に表すと図5.4.1のようになります。 x1とx2の回帰直線の傾きaが1ではなく、切片bも0ではなくても、全てのプロットが直線上に乗っていれば相関係数は1になります。 しかし全てのプロットが直線上に乗っていても、aが1でなければ級内相関係数は1にはなりません。 ただし級内相関係数はaが1であればbが0でなくても1になります。 つまりx1とx2の差が一定であり、x2はx1にゲタbを履かせただけであれば、両者が完全に一致していなくても級内相関係数は1になります。

図5.4.1 相関係数と級内相関係数の違い

また3名の評価者の評価を平均した評価平均値を最終的な重症度データとした時、そのデータの信頼性(reliability)を表す値r33も定義されています。 この時のr33は次のようになります。

エーベルの級内相関係数:r33≒0.978
※一般に評価者がb名の時はrbbと表す

3名の評価者の一致度r11が大きくなれば、評価平均値の信頼性が高くなりr33も大きくなります。 そのためr11は3名の評価者のデータの一致度を表すと同時に、データの平均的な信頼性を表す指標にもなります。 r11とr33はよく似ていますが、別の意味を持つ値ですから混同しないように注意してください。 (注1)

心理学分野や社会学分野で行われるアンケート調査では、同じような内容の複数の質問項目の回答を合計して下位尺度という値にし、これをデータとして利用することがよくあります。 この時、下位尺度データの信頼性を表す指標としてクロンバックのα係数(Cronbach's coefficient alpha)という値を用いることがあります。 合計した複数項目の内部一貫性つまり複数項目の一致性が高ければ、下位尺度データの信頼性が高くなります。 そのためα係数は下位尺度データの信頼性を表すと同時に、合計した複数項目の一貫性を表す指標としても用いられます。 実は、この値はエーベルの級内相関係数rbbと同じものです。 (→16.2 主成分分析結果の解釈17.3 因子スコアと尺度開発)

このように統計用語の中には研究分野が違うと別の名称で呼ばれるものがあります。 それには歴史的な経緯があるため、ある程度は仕方のないことでしょう。 級内相関係数つにいては色々な値を包含したより一般的な値が定義されていて、それを表5.4.1について計算すると次のようになります。 (注2)

ICC(1,1)≒0.942 … 1人の評価者が複数回評価した時の評価者内信頼性(Intra-rater reliability)
ICC(1,3)≒0.980 … 1人の評価者が複数回評価した時の評価平均値の信頼性
ICC(1,1)の95%信頼区間  下限:ICC(1,1)L=0.848 上限:ICC(1,1)u=0.984
ICC(1,3)の95%信頼区間  下限:ICC(1,3)L=0.943 上限:ICC(1,3)u=0.995
※一般に評価回数がb回の時はICC(1,b)と表す
ICC(2,1)≒0.942 … 複数の評価者が1回評価した時の評価者間信頼性(Inter-rater reliability、変量モデル)
ICC(2,3)≒0.980 … 複数の評価者が1回評価した時の評価平均値の信頼性(変量モデル)
ICC(2,1)の95%信頼区間  下限:ICC(2,1)L=0.845 上限:ICC(2,1)u=0.984
ICC(2,3)の95%信頼区間  下限:ICC(2,3)L=0.942 上限:ICC(2,3)u=0.995
※一般に評価者がb名の時はICC(2,b)と表す
ICC(3,1)=r11≒0.938 … 複数の評価者が1回評価した時の評価者間信頼性(Inter-rater reliability、母数モデル)
ICC(3,3)=r33=α係数≒0.978 … 複数の評価者が1回評価した時の評価平均値の信頼性(母数モデル)
ICC(3,1)の95%信頼区間  下限:ICC(3,1)L=0.831 上限:ICC(3,1)u=0.983
ICC(3,3)の95%信頼区間  下限:ICC(3,3)L=0.936 上限:ICC(3,3)u=0.994
※一般に評価者がb名の時はICC(3,b)と表す

ICC(2,1)・ICC(2,b)とICC(3,1)・ICC(3,b)の違いは、評価者に関して変量モデル(random effect model)母数モデル(fixed model、固定モデルとも呼ばれる)かの違いです。 変量モデルは多くの評価者がいて、その中のたまたまb名の評価者を選択して評価を行うモデルです。 このモデルでは同じ試験を何度も行った時、b名の評価者はいつも同じ人とは限らず、変数扱いしなければなりません。 したがってこれは評価者よりも評価項目に注目したモデルであり、特定の評価項目の信頼性を検討したい時に用います。

それに対して母数モデルは特定のb名の評価者が評価を行うモデルです。 このモデルでは同じ試験を何度も行った時、b名の評価者はいつも同じ人であり、定数扱いします。 したがってこれは評価項目よりも評価者に注目したモデルであり、特定の評価者の信頼性を検討したい時に用います。

ちなみに、どちらの場合も被験者は多くの被験者からたまたま選ばれた10名であり、被験者に関しては変量モデルになります。 そのため評価者に関してだけ母数モデルの場合を混合モデル(mixed model)と呼ぶことがあります。

心理学や社会学分野では特定の評価者が評価を行うことが多く、母数モデルの方が一般的です。 そしてこの母数モデルのICC(3,1)とICC(3,b)がエーベルの級内相関係数r11とrbbに相当します。 これらの級内相関係数は複数の評価者のデータが完全に一致していなくても、ある評価者のデータに定数を足せば他の評価者のデータに一致する時には1になります。 しかしICC(1,1)、ICC(1,b)、ICC(2,1)、ICC(2,b)は複数回の評価または複数の評価者のデータが完全に一致している時だけ1になります。 つまり図5.4.1における回帰直線の傾きaが1で、切片bが0の時だけ1になるのです。

これらのICCを組み合わせると評価者内信頼性と評価者間信頼性を独立に評価し、さらに評価者内信頼性と評価者間信頼性を統合した全体的な信頼性を評価することができます。 例えば新しく開発された検査項目について、測定値の信頼性(再現性)を評価するために、10名の被験者について2名の測定者がそれぞれ2回測定した結果が表5.4.2のようになったとします。

表5.4.2 2名の測定者の2回の測定結果
被験者ID測定者A測定者B
1回目2回目平均値1回目2回目平均値
D01126122124131125128
D02137143140141141141
D03113119116115105110
D04153143148135144139.5
D05146157151.5150149149.5
D06161157159160160160
D07110109109.5105113109
D08145151148152156154
D09126141133.5132122127
D10114126120130125127.5

このデータについて、まず測定者ごとにICC(1,1)を用いて測定者内信頼性を評価します。 次に測定者ごとの2回の測定値の平均値をデータにして、ICC(3,1)を用いて測定者間信頼性を評価します。 そして最後にそれらの結果を総合することによって、測定値の全体的な信頼性を評価することができます。

○測定者Aの測定者内信頼性
 ICC(1,1)=0.880  ICC(1,2)=0.936
○測定者Bの測定者内信頼性
 ICC(1,1)=0.932  ICC(1,2)=0.965
○AとBの平均値を用いた時の測定者間信頼性
 ICC(3,1)=0.950  ICC(3,2)=0.974
○測定値の全体的な信頼性
 全体的な信頼性=0.936(AのICC(1,2))×0.965(BのICC(1,2))×0.950(AとBのICC(3,1))
  =0.903(測定者内信頼性)×0.950(測定者間信頼性)=0.858

この結果から「この測定値は測定者内信頼性よりも測定者間信頼性の方が少し高い」つまり「同じ測定者が何回も測定した時の測定値は少しばらつくものの、それらを平均値したデータは測定者が変わってもほとんどばらつかない」ということがわかります。

ちなみに2名の測定者の2回の測定値を合わせてICCを求めると次のようになります。 これは被験者内信頼性と被験者間信頼性をごっちゃにして計算した結果であり、間違った計算方法です。 でも表5.4.2のようなデータの場合、うっかりするとこのような計算を行ってしまいがちなので注意が必要です。

○2名の測定者の2回の測定値についての信頼性
 ICC(3,1)=0.908  ICC(3,4)=0.975

(2) ケンドールの一致係数W(Kendall's coefficient of concordance)

データが順序尺度の時にも一致度を表す指標が色々と定義されています。 その中の代表的なものとしてケンドールの一致係数Wがあります。 この値は級内相関係数のように複数の評価者の一致度を表す指標ではなく、被験者の一致度を表す指標です。 例えば表5.4.1のデータを順序尺度として扱い、ケンドールの一致係数を計算すると次のようになります。

ケンドールの一致係数:W=0

実は、このWは4.2 多標本の計数値で説明したフリードマンの検定における要因Bの寄与率RB2と同じものです。 フリードマンの検定は対応のある順序尺度データが多標本ある時に、その多標本の順位平均値が等しいかどうかを検定する手法です。 表5.4.1は対応のある順序尺度のデータが3標本あるので、このデータにフリードマンの検定を適用すると3名の評価者の順位平均値つまり重症度分布の中心位置が等しいかどうかを検定することになります。 表5.4.1について実際に計算すると次のようになります。 (→4.2 多標本の計数値 (1)順序尺度 2)データに対応がある場合)

順位平均値:評価者1=2  評価者2=2  評価者3=2
フリードマンの検定:χo2=0 (p=1)<χ2(2,0.05)=5.991 … 有意水準5%で有意ではない
要因B(評価者)の寄与率=ケンドールの一致係数:RB2=W=0

この場合のRB2は、データの全変動のうち要因Bつまり評価者の違いによって説明できる割合を表します。 このデータの場合は評価者の違いによって説明できる割合が0、つまり評価者の順位平均値は全て等しいことになります。 仮にこの値が1になったとすると、データの変動は全て評価者の違いによるものであり、被験者と評価者の交互作用による変動はない、つまり3名の評価者の評価パターンが全ての被験者で同じであるということになります。 このことからRB2は被験者の評価パターンの一致度を表すことになり、ケンドールの一致係数Wと同じものになるのです。

ただし、今求めたいものは評価者の一致度です。 そこで表5.4.1の縦と横を入れ替えてケンドールの一致係数を計算すれば、その場合は評価者の一致度を表すはずです。 表5.4.1の縦と横を入れ替えて実際に計算すると次のようになります。 (注3)

表5.4.3 3名の評価者の重症度評価結果(表5.4.1の縦と横を入れ替えたもの)
評価者\症例No.1No.2No.3No.4No.5No.6No.7No.8No.9No.10
評価者115303452586976889195
評価者210144238517888909487
評価者321383640426372849896
順位平均値:No1=1 No.2=2.3 No.3=3 No.4=3.7 No.5=5 No.6=6 No.7=7.3 No.8=8.3 No.9=9.7 No.10=8.7
フリードマンの検定:χo2=25.909(p=0.0021)<χ2(9,0.05)=16.919 … 有意水準5%で有意
要因B(症例)の寄与率=ケンドールの一致係数:RB2=W=0.960

この時の要因Bの寄与率RB2つまりケンドールの一致係数Wは評価者の一致度を表し、順序尺度におけるエーベルの級内相関係数と同じような意味の値になります。 ただし厳密には、Wを次のように変形するとエーベルの級内相関係数r11相当の値になります。 そしてこの値は複数の評価者から2人ずつのペアを作ってスペアマンの順位相関係数を計算し、それを平均した順位相関平均rsに一致します。

順位相関平均: (b:評価者数)
表5.4.2の順位相関平均:rs=0.939≒r11=0.938
スピアマンの順位相関係数:評価者1vs評価者2 rs=0.915  評価者1vs評価者3 rs=0.976 評価者2vs評価者3 rs=0.927

さらに順位相関平均を基にして、エーベルの級内相関係数rbb相当の値を計算することができます。

信頼性係数: … b人のデータを平均した値を評価データにした時の信頼性
表5.4.2の信頼性係数:r33=0.979≒r33=0.978

bが2の時、ケンドールの一致係数とスピアマンの順位相関係数の関係は次のようになります。 つまり順位相関係数の下限を0にし、変動範囲を半分にして上限を1にしたものがケンドールの一致係数になるわけです。 そしてこの関係を利用して、順位相関係数の信頼区間からケンドールの一致係数の信頼区間を求めることができます。

  rs=2W - 1

この式からケンドールの一致係数は、順位相関係数が-1の時つまり2つの評価が正反対で全く一致していない時は0になり、順位相関係数が1の時つまり2つの評価が完全に一致している時は1になり、負の値にはならないことがわかります。 順位相関係数が0の時は2つの評価が完全不一致と完全一致の間であり、ケンドールの一致係数は0.5になります。 これは2つの評価が偶然の一致程度に一致していることを意味しています。 ケンドールの一致係数はこのような性質を持つ指標のため、値を解釈する時は注意が必要です。

例えば表5.4.3の評価者1と評価者2について、順位相関係数と一致係数を計算すると次のようになります。

スペアマンの順位相関係数:rs=0.915
検定:|zo|=2.745(p=0.0060)>t(∞,0.05)=1.96 … 有意水準5%で有意
順位相関係数の95%信頼区間 下限:ρL=0.674 上限:ρU=0.980
※この検定結果と推定結果から「順位相関係数は0より大きい」つまり「ケンドールの一致係数は0.5より大きい」と結論できる。
ケンドールの一致係数:W=(0.915 + 1)×0.5=0.958
一致係数の95%信頼区間 下限:WL=0.837 上限:WU=0.990

この結果から、順位相関係数よりも一致係数の方が値が大きくなる傾向があることがわかります。 そして次で説明する一致係数κと比較することによって、ケンドールの一致係数の性質がより明確になります。

(3) 一致係数κ(matching coefficient kappa)

データが名義尺度の時にも一致度を表す指標が色々と定義されています。 例えば100名の被験者がいて、その人達がある疾患にかかっているかどうかを2名の医師が診断し、その結果をまとめたものが表5.4.4のようになったとします。

表5.4.4 ある疾患の診断結果
医師1\医師2正常疾患
正常401050
疾患104050
5050100

この時、2名の医師の診断結果の一致度を表す値として一致係数κ(カッパ)またはコーヘンのκ係数(Cohen's coefficient kappa)と呼ばれる値があります。 表5.4.4についてこの値を計算すると次のようになります。 (注4)

一致係数:κ=0.6
検定:|zo|=6(p<0.0001)>t(∞,0.05)=1.96 … 有意水準5%で有意
一致係数の95%信頼区間 下限:κL=0.443 上限:κU=0.757
統計的結論:2名の医師の診断結果の一致係数は0ではない。 それは0.6であり、幅をもたせれば0.443〜0.757の間である。

κはクロス集計表の対角線上に全てのデータが集まった時つまり完全一致の時は1になり、偶然の一致程度の一致の時は0になります。 そして対角線上のデータよりもそれから外れるデータの方が多い時、つまり2名の医師が反対の診断をしている時は負の値になります。

κは分類数が3つ以上の時でも計算することができます。 例えばある疾患の患者100名について重症度を2名の医師が3段階で評価し、その結果をまとめたものが表5.4.5のようになったとします。 このデータについてκを計算すると次のようになります。

表5.4.5 ある疾患の重症度評価
医師1\医師2軽症中等症重症
軽症1917743
中等症726538
重症312419
295516100
一致係数:κ=0.198
検定:|zo|=2.802(p=0.0051)>t(∞,0.05)=1.96 … 有意水準5%で有意
一致係数の95%信頼区間 下限:κL=0.044 上限:κU=0.352
統計的結論:2名の医師の重症度評価の一致係数は0ではない。 それは0.198であり、幅をもたせれば0.044〜0.352の間である。

この場合のκは3段階の重症度を名義尺度として扱った時の一致度を表します。 しかし重症度は順序尺度のデータですから、本来は順序尺度として扱った方が合理的です。 そしてその場合、普通はケンドールの一致係数を用います。 しかしκを順序尺度に拡張した重み付き一致係数κw(weighted kappa)を用いることもできます。 表5.4.5についてこの値を計算すると次のようになります。 (注5)

重み付き一致係数:κw=0.197
検定:|zo|=1.057(p=0.2904)<t(∞,0.05)=1.96 … 有意水準5%で有意ではない
重み付き一致係数の95%信頼区間 下限:κwL=-0.040 上限:κwU=0.435
統計的結論:2名の医師の重症度評価の一致係数は0.197であり、幅をもたせれば-0.040〜0.435の間である。
 したがって0ではない可能性が高いが、信頼性が低いので結論は保留する。

表5.4.4と表5.4.5は評価者が2名しかいませんが、評価者が3名以上の時でも一致係数を計算することができます。 ただし評価者が3名以上の重み付き一致係数を求めるには複雑な計算が必要なので、順序尺度の時はケンドールの一致係数Wと順位相関平均rs、そして信頼性係数rbbを用いた方が便利でしょう。 表5.4.5についてスペアマンの順位相関係数とケンドールの一致係数を計算すると次のようになります。

スペアマンの順位相関係数:rs=0.215  寄与率:rs2=0.046
検定:|zo|=2.141(p=0.0322)>t(∞,0.05)=1.96 … 有意水準5%で有意
順位相関係数の95%信頼区間 下限:ρsL=0.020 上限:ρsU=0.395
※この検定結果と推定結果から「順位相関係数は0より大きい」つまり「ケンドールの一致係数は0.5より大きい」と結論できる。
ケンドールの一致係数:W=(0.215 + 1)×0.5=0.608
一致係数の95%信頼区間 下限:WL=0.510 上限:WU=0.697

表5.4.5で2名の医師の重症度評価が一致しているものは49例(軽症19+中等症26+重症4)あり、1段階食い違っているものは41例、2段階食い違っているものは10例あります。 もし2名の医師の重症度評価が偶然の一致程度の一致とすると、一致している例数は100/3≒33例ほどのはずです。 そのため表5.4.5のデータは全体として(49+α)%ほど一致していると見ることもできますし、偶然の一致より(16+α)%ほど多く一致していると見ることもできます。

この前者の見方に対応する指標がケンドールの一致係数であり、後者の見方に対応する指標が重み付き一致係数です。 つまり偶然の一致程度の一致の時、重み付き一致係数は0になるのに対してケンドールの一致係数は0.5になるので、両者を比較する時はケンドールの一致係数から0.5を引く必要があるわけです。 これらの一致係数を解釈する時は、この点に注意する必要があります。


(注1) エーベルの級内相関係数は繰り返しの無い二元配置型のデータに適用するため、繰り返しの無い二元配置分散分析の結果を利用して計算することができます。 第4章で求めた二元配置分散分析の各種統計量から次のようにして計算します。 (→4.1 多標本の計量値 (2)データに対応がある場合 (注1))

表4.1.9 二元配置分散分析の
一般的データ
要因B1BjBb平均値
A1y11y1jy1bT1.m1.
::::::::
Aiyi1yijyibTi.mi.
::::::::
Aaya1yajyabTa.ma.
T.1T.jT.bTT
平均m.1m.jm.bmT
表4.1.10 分散分析表
要因平方和SS自由度φ平均平方和Ms分散比F
ASAφAVAFA=VA/VR
BSBφBVBFB=VB/VR
残差SRφRVR 
全体STφT 
  

表5.4.1のデータについて実際に計算してみましょう。

     
  
SR=23144.7 - 22162.7 - 19.5=962.5   
  

b=2の時、要因B1、B2の平方和をS11、S22、積和をS12とすると、級内相関係数と相関係数の関係は次のようになります。 (→4.1 多標本の計量値 (2)データに対応がある場合 (注2))

  





SA-SR=2S12   SA+SR=S11+S22


※rVはS11とS22の幾何平均と算術平均の比になっている。 そこで幾何平均と算術平均の大きさを比較するために両者を平方した値の差を取ると
(等号はS11=S22の時のみ)
∴0≦rV≦1…S11=S22の時1、S11=0またはS22=0の時0

上記のようにrVはS11とS22が等しければ1になり、等しくなければ1未満になり、どちらかが0なら0になります。 したがってこの値は要因B1とB2の平方和または分散が一致しているかどうかを表す一致係数相当の値、つまり分散一致係数と解釈することができます。 分散の一致性を表す指標として分散比Fがあります。 そして分散比と分散一致係数の間には次のような関係があります。


※例えばF=4の時

このようにb=2の時のエーベルの級内相関係数は相関係数と分散一致係数をかけた値であり、要因B1とB2の相関係数が1で、かつ分散が等しい時だけ1になります。 また分散比が0〜∞の値であるのに対して分散一致係数は0〜1の値なので、分散の一致度を表す指標としてはこの場合は分散一致係数の方が便利です。 (→6.2 データの要約と多変量解析 (注2))

評価値または測定値の信頼性を表す指標として信頼性係数(coefficient of reliability または reliability coefficient)という値があります。 これは評価値の分散の中で真値の分散が占める割合として次のように定義されています。

x=α + ε  V(x)=V(α) + V(ε)  C(α,ε)=0
x:評価値  α:真値  ε:評価誤差
(0≦ρ≦1)

実際のデータでは真値は不明なため真値の分散を直接求めることはできません。 そこで色々な推定法が考案されています。 エーベルの級内相関係数rbbは要因Aの分散の中で(要因Aの分散-残差分散)の占める割合を表します。 これは要因Aの各水準の平均値つまり個体の平均値を評価値と考え、残差分散を誤差分散と考えた時の信頼性係数の推定値と解釈することができます。 そのためrbbを信頼性の指標のひとつとして利用することができます。

実際のデータでは要因Aの分散よりも残差分散の方が大きくなることがあるため、rbbが0よりも小さくなることがあります。 これは被験者の平均値のバラツキよりも、残差のバラツキつまり被験者と評価者の交互作用によるバラツキの方が大きいことを表します。 そのような場合は真値の分散を推定することができず、信頼性の指標としてrbbを利用するのは不適当ということになります。

ある測定値の信頼性係数がρの時、測定をm回繰り返して、その平均値を測定値とした時の信頼性係数ρmは次のようになります。 これをスペアマン・ブラウン(Spearman-Brown)の公式といいます。

r11にスペアマン・ブラウンの公式を当てはめると、次のようにrbbと一致します。 この関係は一般的な級内相関係数にも当てはまりますし、順位相関平均rsから信頼性係数rbbを求める時にも利用します。

またスペアマン・ブラウンの公式から、設定された信頼性を確保するために必要な測定回数を求めることができます。 ただしこの場合の信頼性は測定値の分散の中で真値の分散が占める割合であり、いわば相対的な信頼性にすぎません。 測定値にはどの程度の誤差が含まれていて、何桁目まで信頼できるかといった絶対的な信頼性を検討するにはV(α)やV(ε)の値そのものを実質科学的に検討する必要があります。

クロンバックのα係数は第4章の表4.1.12の表記法に従うと次のように定義されています。

下位尺度:   個々の項目yijの分散:   Cjk(yij,yik):yijとyikの共分散、Cjj(yij,yij)=Vj(yij)
下位尺度の分散:

個々の項目がお互いに独立の時は∑Cjk=0になり、α=0になります。 個々の項目のデータがお互いに完全に一致している時、または定数を足せば完全に一致する時は∑Cjk=b(b-1)Vjに、∑Vj+∑Cjk=b2Vjになり、α=1になります。

下位尺度と個々の項目の分散を平方和で表すと、次のようにαはrbbと一致します。



(注2) 一般的な級内相関係数は次のようなモデルに基づいて導かれます。

1) Case1

1人の評価者がa人の被験者をそれぞれb回評価した時の評価者内信頼性を求めたい場合です。 この時の評価値は次のように分解され、これは一元配置分散分析の基本式に相当します。 したがってCase1は一元配置モデルになります。

xij=μ + αi + εij   V(x)=V(α) + V(ε)
xij:被検者iのj番目の評価値  μ:母平均   αi:被検者iの効果  εij:被検者iのj番目の評価誤差

繰り返しの無い二元配置分散分析において、要因Bを評価者がb回繰り返して評価したものと考えて残差に含めれば一元配置分散分析になります。 このモデルから次のようにしてICC(1,1)とICC(1,b)を導くことができます。

VA≒bV(α) + V(ε)




※VB+R=0の時、ICC(1,1)=1

VB+R=0になるのはSB=SR=0の時であり、要因Bつまりb回の測定値の平均値が全て等しく、しかも残差つまり要因Aと要因Bの交互作用がない時です。 要因Aと要因Bの交互作用がないということは、被検者ごとのb回の測定値の変動パターンが全て同じということです。 被検者ごとのb回の測定値の変動パターンが全て同じで、かつ平均値が全て等しいということは、b回の測定値が全て同じということです。 このことから被検者ごとのb回の測定値が全て一致している時はICC(1,1)=1になることがわかります。

b回の評価平均値を評価値とすると評価誤差の分散がb分の1になります。 そのためこの時の信頼性係数は次のようになります。



ICC(1,1)とICC(1,b)は分散比に相当するため、分散比の信頼区間を求める計算式を利用して信頼区間を求めることができます。 (→3.3 2標本の計量値 (注2))

     
F(a-1,a(b-1),α/2):第1自由度(a-1)、第2自由度a(b-1)のF分布における100(α/2)%点の値(上側確率がα/2になる点)
F(a-1,a(b-1),1-α/2):第1自由度(a-1)、第2自由度a(b-1)のF分布における100(1-α/2)%点の値
ICC(1,1)の100(1-α)%信頼区間 下限: 上限:
ICC(1,b)の100(1-α)%信頼区間 下限: 上限:

2) Case2

b人の評価者がa人の被験者を1回評価した時の評価者間信頼性を求めたい場合です。 この時の評価値は次のように分解され、これは二元配置分散分析の基本式に相当します。 したがってCase2は二元配置モデルになります。 この場合、評価者は多くの評価者からたまたま選ばれたb人であり、変量モデルになります。

xij=μ + αi + βj + εij   V(x)=V(α) + V(β) + V(ε)
xij:被検者iのj番目の評価値  μ:母平均   αi:被検者iの効果  βj:評価者jの効果
εij:被検者iのj番目の評価誤差(被検者iと評価者jの交互作用)
VA≒V(α) + V(ε)  VB≒aV(β) + V(ε)   VR≒V(ε)




※VB=VR=0の時、ICC(2,1)=1

上式から、ICC(1,1)と同様にb回の測定値の平均値が全て等しく、被検者ごとのb回の測定値の変動パターンが全て同じ時はICC(2,1)=1になる、つまり被検者ごとのb回の測定値が全て一致している時はICC(2,1)=1になることがわかります。 b人の評価平均値を評価値とすると評価者と評価誤差の分散がb分の1になります。 そのためこの時の信頼性係数は次のようになります。

  

ICC(2,1)とICC(2,b)の信頼区間は次のようになります。

  
FL=F(a-1,φ,α/2)   FU=F(φ,a-1,α/2) (φは四捨五入で整数化する)
ICC(2,1)の100(1-α)%信頼区間
 下限:  上限:
ICC(2,b)の100(1-α)%信頼区間
 下限:  上限:

2) Case3

特定のb人の評価者がa人の被験者を1回評価した時の評価者間信頼性を求めたい場合です。 この場合、評価者は特定のb人であり、評価者に関して母数モデルになります。 この時の評価値を分解すると、二元配置分散分析の基本式において評価者の効果が定数になったものになります。 したがってCase3は被験者が変量モデルで評価者が母数モデルである二元配置型の混合モデルになります。 この時の級内相関係数は分母の評価値の分散から評価者の分散を引いておく必要があります。

xij=μ + αi + βj + εij   V(x)=V(α) + αβj2 + V(ε)
xij:被検者iのj番目の評価値  μ:母平均   αi:被検者iの効果  βj:評価者jの効果
εij:被検者iのj番目の評価誤差(被検者iと評価者jの交互作用)
VA≒bV(α) + V(ε)   VB≒aβj2 + V(ε)   VR≒V(ε)



※VR=0の時、ICC(3,1)=1

上式から、この場合はb回の測定値の平均値が異なっていても、被検者ごとのb回の測定値の変動パターンが全て同じならICC(3,1)=1になることがわかります。 そのためb回の測定値が定数値だけ異なっている、つまりx2=x1+bという関係があればICC(3,1)=1になります。 b人の評価平均値を評価値とすると評価誤差の分散がb分の1になります。 そのためこの時の信頼性係数は次のようになります。



… クロンバックのα係数

ICC(3,1)とICC(3,b)の信頼区間は次のようになります。

     
ICC(3,1)の100(1-α)%信頼区間
 下限:  上限:
ICC(3,b)の100(1-α)%信頼区間
 下限:  上限:

級内相関係数の特徴を理解するために、評価値のパターンによって級内相関係数の値がどのように変化するかを見てみましょう。 話を単純にするために被験者も評価者も2名とし、表5.4.6のような4つのパターンの評価値を考えます。

表5.4.6 評価値の4つの変動パターン
被験者\評価者パターン1  パターン2  パターン3  パターン4
評価者1評価者2  評価者1評価者2  評価者1評価者2  評価者1評価者2
被験者133  34  32  31
被験者211  12  12  13

これら4つの評価値の変動パターンと級内相関係数の関係を模式的に表すと、図5.4.2のようになります。 図の中で級内相関係数全体に当てはまる時は「ICC」と表記し、Case1の2種類の級内相関係数に当てはまる時は「ICC(1)」と表記し、Case2の2種類の級内相関係数に当てはまる時は「ICC(2)」と表記し、Case3の2種類の級内相関係数に当てはまる時は「ICC(3)」と表記してあります。

図5.4.2 評価値の変動パターンとICCの関係

図5.4.2の上の4つのグラフは、2名の被験者についての2名の評価者の評価値を二元配置型の折れ線グラフで描いたものです。 これらのグラフでは、同じ被験者についての2名の評価者の評価値の違いを時期変動のようなイメージで描いています。 それに対して下の4つのグラフは、同じデータを評価者1と評価者2の関係を表す散布図として描いたものです。 これらのグラフは図5.4.1と同じ原理で描いたものであり、被験者1と被験者2は散布図上の2つのプロットになります。 上下のグラフを見比べると、二元配置分散分析と級内相関係数の関係を感覚的に理解することができると思います。

パターン1は評価者1と評価者2の評価値が完全に一致するパターンです。 この場合、二元配置分散分析では被験者間差つまり要因Aの効果があり、評価者間差つまり要因Bの効果はなく、被験者と評価者の交互作用つまり誤差はないということになります。 そして評価者1と評価者2の回帰直線はy=xになり、級内相関係数は1になります。

パターン2は評価者1よりも評価者2の方が必ず一定の値だけ評価値が高いパターンです。 この場合、二元配置分散分析では被験者間差があり、評価者間差もあり、被験者と評価者の交互作用はないということになります。 そして評価者1と評価者2の回帰直線はy=x+1になり、ICC(1)とICC(2)は1未満に、ICC(3)は1になります。

パターン3は評価者1の評価値は被験者ごとに異なっているのに対して、評価者2の評価値は一定というパターンです。 この場合、二元配置分散分析では被験者間差があり、評価者間差はなく、被験者と評価者の交互作用があるということになります。 そして評価者1と評価者2の回帰直線はy=2になり、級内相関係数は0になります。

パターン4は評価者1と評価者2の評価値が正反対というパターンです。 この場合、二元配置分散分析では被験者間差はなく、評価者間差もなく、被験者と評価者の交互作用だけがあるということになります。 そして評価者1と評価者2の回帰直線はy=4-xになり、級内相関係数は負になります。

表5.4.6のデータについて級内相関係数を計算すると、実際には図5.4.2に記載した値にならないものがあります。 これは分散の推定値が近似値であり、理論どおりの値にならないことがあるからです。 また級内相関係数は原則として-1〜1の間の値になりますが、やはり分散の推定値が近似値のため-1より小さくなることがあります。

表5.4.1のデータについて、実際に級内相関係数とその95%信頼区間を計算してみましょう。


  
     
ICC(1,1)の95%信頼区間:   
ICC(1,3)の95%信頼区間:   


     FL=F(9,19,0.025)=2.880052   FU=F(19,9,0.025)=3.683338
ICC(2,1)の95%信頼区間:   
ICC(2,3)の95%信頼区間:   
  
     
ICC(3,1)の95%信頼区間:   
ICC(3,3)の95%信頼区間:   

級内相関係数を用いて2名の評価者の評価が一致しているかどうか、または2種類の測定機器の測定値が一致しているかどうかを検討したい時がよくあります。 その場合、信頼性の高い級内相関係数を得るためにはa(被検者数または検体数)がどれくらい必要かが問題になります。

「信頼性の高い級内相関係数」というのは、級内相関係数の信頼区間が級内相関係数の医学的許容範囲内――級内相関係数のゆらぎがこの範囲に収まっていれば、医学的にはほぼ同等と考えられる範囲――に収まっている状態と考えられます。 そこで級内相関係数の信頼区間幅が医学的許容範囲以下になる時のa(被験者数または検体数)を求めれば、それが試験の必要例数になります。 これは信頼区間を用いた試験の必要例数の計算方法と同じ原理です。 (→1.7 ハンディキャップ方式の検定 (注2)1.8 科学的研究の種類 (注1))

ただし級内相関係数の場合、信頼区間幅が標本級内相関係数の上下で対称ではありません。 そこで標本級内相関係数と信頼区間の下限までの幅が医学的許容範囲内であれば、「信頼性の高い級内相関係数」と解釈することにします。 級内相関係数は値が高いほど一致度が高いので、信頼区間の上限が問題になることはほとんどないと考えられるからです。

例としてICC(3,1)についてaを求める方法を考えてみましょう。 まず試験目的から考えて「一致度が高い」と考えられるICC(3,1)の値をiccとし、医学的に許容できる信頼区間の下限値をiccLとします。 そして一致度を評価したい評価者数または測定機器数をb、信頼係数を(1-α)とすると、ICC(3,1)の信頼区間の下限を求める式から次の関係が成り立ちます。



  

最後の式で、iccとiccLとbから求めたFoLと、aとbとαから求めたF(a-1,(a-1)(b-1),α/2)が一致する時のaが試験の必要例数になります。 そしてF(a-1,(a-1)(b-1),α/2)はaとbが大きくなるほど小さな値になります。 そこでa=2から始めてaを増やしていき、F(a-1,(a-1)(b-1),α/2)≦FoLになる時のaを求めれば良いことになります。 そしてaが求まれば、FoとF(a-1,(a-1)(b-1),1-α/2)から信頼区間の上限値ICC(3,1)Uを求めることができます。

例えばICC(3,1)=0.95、ICC(3,1)L=0.9、b=2、信頼係数=0.95(α=0.05)として、aを求めると次のようになります。

  

F(30,30,0.025)=2.074、F(31,31,0.025)=2.049 より a=32
F(31,31,0.975)=0.488 より 

これと同様の方法で、標本級内相関係数と信頼区間の上限からaを求めることもできます。 またこれと同様の方法で、他の級内相関係数のaも求めることができます。

(注3) ケンドールの一致係数は、フリードマンの検定における要因Bの寄与率と同じものです。 第4章で求めたフリードマンの検定における要因Bの寄与率は次のとおりでした。 (→4.2 多標本の計数値 (1)順序尺度 2)データに対応がある場合 (注4))

この場合は縦と横を入れ替えて要因Bを評価者にするため、計算する時に注意が必要です。 表5.4.3のデータについて実際に計算してみましょう。

表5.4.7 評価者別重症度順位(表5.4.3のデータを評価者別に順位付けしたもの)
評価者\症例No.1No.2No.3No.4No.5No.6No.7No.8No.9No.10同位の数
評価者112345678910-
評価者212435689107-
評価者313245678109-
順位和37911151822252926-
T1=3 T2=7 T3=9 T4=11  T5=15 T6=18 T7=22  T8=25 T9=29 T10=26
  K=1
  

(注4) 一般的な一致係数κは、b人の評価者がn例の被験者をc種類に分類した時の一致度を計算します。 その計算法は反復計算を必要とする非常な複雑なもののため、普通はb=2として2人の評価者の一致係数を計算します。 その場合、まず最初に2人の評価者が評価したデータを次のような分割表にまとめます。

表5.4.8 2人の評価者の評価データ
評価者1\評価者2B1BjBc
A1n11n1jn1cn1.
:::::
Aini1nijnicni.
:::::
Acnc1ncjnccnc.
n.1n.jn.cn

この表を基にして一致係数κは次のように計算します。

     
完全一致率:
偶然一致する確率:

検定用分散:   推定用分散:
>t(∞,α)の時、有意水準100α%で有意
※検定用分散として次のような近似式が使われることがある。

表5.4.4と表5.4.5のデータについて実際に計算してみましょう。

○表5.4.4
  
pc=0.5×0.5 + 0.5×0.5=0.5   
検定用分散:
検定:
推定用分散:
95%信頼区間:   
○表5.4.5
     
     
  pc=0.43×0.29 + 0.38×0.55 + 0.19×0.16=0.3641

検定用分散:
検定:
推定用分散:
95%信頼区間:   

分類の数が2つだけの時、κは次のような式で求められます。

また(注1)より、分類の数が2つだけの時の順位相関係数rs、四分点相関係数(φ係数)、エーベルの級内相関係数r11=ICC(3,1)は次のようになります。 (→5.3 計数値の相関分析と回帰分析)


  (rV:分散一致係数)

これらの式からn11=n22、n12=n21の時、次のようにκは順位相関係数、四分点相関係数、エーベルの級内相関係数と一致することがわかります。

κの値がわかっていると、2人の評価者の評価が偶然一致する確率pcから完全一致率p0を求めることができます。 そして上記のようにκは四分点相関係数と近似するため、2つの評価者の間に相関がある時、相関係数と両者の評価から完全一致率を近似的に求めることができます。

p0=pc + (1 - pc)κ≒pc + (1 - pc

この関係を利用すると、2つの項目の間に相関がある時に2つの項目の正常/異常が一致する確率を近似的に求めることができます。

(注5) 重み付き一致係数κwは表5.4.8を基にして次のように計算します。

行列の重み:
  

検定用分散:   推定用分散:
>t(∞,α)の時、有意水準100α%で有意

表5.4.5のデータについて実際に計算してみましょう。

w11=1   w12=w23=w21=w32=0.5   w31=w13=0



検定用分散:
検定:<t(∞,0.05)=1.960
推定用分散:
95%信頼区間: