統計学入門−第5章

相関係数は2つのデータの直線的な大小関係が一致しているかどうかを表す指標です。そのためデータの直線的な大小関係さえ一致していれば、データの値そのものが一致していなくても高い値になります。しかし場合によってはデータの値そのものが一致しているかどうかを調べたい時があります。例えば臨床検査値の新しい測定方法を開発し、その測定値が従来の方法で測定した値と一致しているかどうかを調べたい時とか、同一症例の疾患の重症度を複数の医師が判定し、それらの重症度判定が一致しているかどうかを調べたい時などがそれに相当します。そのような時のために一致度を表す指標が色々と考えられています。

(1) 級内相関係数(ICC：Intraclass Correlation Coefficient)

ある疾患にかかっている患者が10名いて、その人達の重症度を3名の評価者が評価したデータが表5.4.1のようになったとします。この時、話を簡単にするために、グレードではなく0点から100点までのアナログスケールで重症度を評価したとします。そして3名の評価者の評価を平均した値を評価平均値として表に追加しました。

表5.4.1 3名の評価者の重症度評価結果
症例No.	評価者1	評価者2	評価者3	評価平均値
1	15	10	21	15
2	30	14	38	27
3	34	42	36	37
4	52	38	40	43
5	58	51	42	50
6	69	78	63	70
7	76	88	72	79
8	88	90	84	87
9	91	94	98	94
10	95	87	96	93

このような時に、3名の評価者の評価が一致しているかどうかを表す値としてエーベルの級内相関係数(Ebel's intraclass correlation coefficient)と呼ばれる値があります。表5.4.1についてこの値を計算すると次のようになります。

参考までに3名の評価者間の相関係数も計算しておきました。このデータのように級内相関係数が高い時は相関係数も高くなりますが、その逆に相関係数が高いからといって級内相関係数が高くなるとは限りません。また級内相関係数は相関係数と同様に-1〜1の間の値になります。そして偶然の一致程度の一致の時は0になり、完全一致の時は1になり、完全に反対で一致する時つまりデータの間に負の関連性があり、一方のデータの大小関係を反対にするともう一方のデータと完全一致する時は-1になります。

級内相関係数と相関係数の関係を模式的に表すと図5.4.1のようになります。 x₁とx₂の回帰直線の傾きaが1ではなく、切片bも0ではなくても、全てのプロットが直線上に乗っていれば相関係数は1になります。しかし全てのプロットが直線上に乗っていても、aが1でなければ級内相関係数は1にはなりません。ただし級内相関係数はaが1であればbが0でなくても1になります。つまりx₁とx₂の差が一定であり、x₂はx₁にゲタbを履かせただけであれば、両者が完全に一致していなくても級内相関係数は1になります。

また3名の評価者の評価を平均した評価平均値を最終的な重症度データとした時、そのデータの信頼性(reliability)を表す値r₃₃も定義されています。この時のr₃₃は次のようになります。

3名の評価者の一致度r₁₁が大きくなれば、評価平均値の信頼性が高くなりr₃₃も大きくなります。そのためr₃₃は3名の評価者のデータの一致度を表すと同時に、データの平均的な信頼性を表す指標にもなります。 r₁₁とr₃₃はよく似ていますが、別の意味を持つ値ですから混同しないように注意してください。 _(注1)

心理学分野や社会学分野で行われるアンケート調査では、同じような内容の複数の質問項目の回答を合計して下位尺度という値にし、これをデータとして利用することがよくあります。この時、下位尺度データの信頼性を表す指標としてクロンバックのα係数(Cronbach's coefficient alpha)という値を用いることがあります。合計した複数項目の内部一貫性つまり複数項目の一致性が高ければ、下位尺度データの信頼性が高くなります。そのためα係数は下位尺度データの信頼性を表すと同時に、合計した複数項目の一貫性を表す指標としても用いられます。実は、この値はエーベルの級内相関係数r_bbと同じものです。 (→16.2 主成分分析結果の解釈、17.3 因子スコアと尺度開発)

このように統計用語の中には研究分野が違うと別の名称で呼ばれるものがあります。それには歴史的な経緯があるので、ある程度は仕方のないことでしょう。級内相関係数については色々な値を包含した、より一般的な値が定義されていて、それを表5.4.1について計算すると次のようになります。 _(注2)

ICC(2,1)・ICC(2,b)とICC(3,1)・ICC(3,b)の違いは、評価者に関して変量モデル(random effect model)か母数モデル(fixed model、固定モデルとも呼ばれる)かの違いです。変量モデルは多くの評価者がいて、その中のたまたまb名の評価者を選択して評価を行うモデルです。このモデルでは同じ試験を何度も行った時、b名の評価者はいつも同じ人とは限らず、変数扱いしなければなりません。したがってこれは評価者よりも評価項目に注目したモデルであり、特定の評価項目の信頼性を検討したい時に用います。

それに対して母数モデルは特定のb名の評価者が評価を行うモデルです。このモデルでは同じ試験を何度も行った時、b名の評価者はいつも同じ人であり、定数扱いします。したがってこれは評価項目よりも評価者に注目したモデルであり、特定の評価者の信頼性を検討したい時に用います。

ちなみに、どちらの場合も被験者は多くの被験者からたまたま選ばれた10名であり、被験者に関しては変量モデルになります。そのため評価者に関してだけ母数モデルの場合を混合モデル(mixed model)と呼ぶことがあります。

心理学や社会学分野では特定の評価者が評価を行うことが多く、母数モデルの方が一般的です。そしてこの母数モデルのICC(3,1)とICC(3,b)がエーベルの級内相関係数r₁₁とr_bbに相当します。これらの級内相関係数は複数の評価者のデータが完全に一致していなくても、ある評価者のデータに定数を足せば他の評価者のデータに一致する時には1になります。しかしICC(1,1)、ICC(1,b)、ICC(2,1)、ICC(2,b)は複数回の評価または複数の評価者のデータが完全に一致している時だけ1になります。つまり図5.4.1における回帰直線の傾きaが1で、切片bが0の時だけ1になるのです。

これらのICCを組み合わせると評価者内信頼性と評価者間信頼性を独立に評価し、さらに評価者内信頼性と評価者間信頼性を統合した全体的な信頼性を評価することができます。例えば新しく開発された検査項目について測定値の信頼性(再現性)を評価するために、10名の被験者について2名の測定者がそれぞれ2回測定した結果が表5.4.2のようになったとします。

このデータについて、まず測定者ごとにICC(1,1)を用いて測定者内信頼性を評価します。次に測定者ごとの2回の測定値の平均値をデータにして、ICC(3,1)を用いて測定者間信頼性を評価します。そして最後にそれらの結果を総合することによって、測定値の全体的な信頼性を評価することができます。

この結果から「この測定値は測定者内信頼性よりも測定者間信頼性の方が少し高い」つまり「同じ測定者が何回も測定した時の測定値は少しばらつくものの、それらを平均値したデータは測定者が変わってもほとんどばらつかない」ということがわかります。

表5.4.2 2名の測定者の2回の測定結果
被験者ID	測定者A	測定者B
1回目	2回目	平均値	1回目	2回目	平均値
D01	126	122	124	131	125	128
D02	137	143	140	141	141	141
D03	113	119	116	115	105	110
D04	153	143	148	135	144	139.5
D05	146	157	151.5	150	149	149.5
D06	161	157	159	160	160	160
D07	110	109	109.5	105	113	109
D08	145	151	148	152	156	154
D09	126	141	133.5	132	122	127
D10	114	126	120	130	125	127.5

ちなみに2名の測定者の2回の測定値を合わせてICCを求めると次のようになります。これは被験者内信頼性と被験者間信頼性をごっちゃにして計算した結果であり、不適切な計算方法です。でも表5.4.2のようなデータの場合、うっかりするとこのような計算を行ってしまいがちなので注意が必要です。

(2) ケンドールの一致係数W(Kendall's coefficient of concordance)

データが順序尺度の時にも一致度を表す指標が色々と定義されています。その中の代表的なものとしてケンドールの一致係数Wがあります。この値は級内相関係数のように複数の評価者の一致度を表す指標ではなく、被験者の一致度を表す指標です。例えば表5.4.1のデータを順序尺度として扱い、ケンドールの一致係数を計算すると次のようになります。

実は、このWは4.2 多標本の計数値で説明したフリードマンの検定における要因Bの寄与率R_B²と同じものです。フリードマンの検定は対応のある順序尺度データが多標本ある時に、その多標本の順位平均値が等しいかどうかを検定する手法です。表5.4.1は対応のある順序尺度のデータが3標本あるので、このデータにフリードマンの検定を適用すると3名の評価者の順位平均値つまり重症度分布の中心位置が等しいかどうかを検定することになります。表5.4.1について実際に計算すると次のようになります。 (→4.2 多標本の計数値　(1)順序尺度　2)データに対応がある場合)

この場合のR_B²はデータの全変動のうち要因Bつまり評価者の違いによって説明できる割合を表します。このデータの場合は評価者の違いによって説明できる割合が0、つまり評価者の順位平均値は全て等しいことになります。仮にこの値が1になったとすると、データの変動は全て評価者の違いによるものであり、被験者と評価者の交互作用による変動はない、つまり3名の評価者の評価パターンが全ての被験者で同じであるということになります。このことからR_B²は被験者の評価パターンの一致度を表すことになり、ケンドールの一致係数Wと同じものになるのです。

ただし、今求めたいものは評価者の一致度です。そこで表5.4.1の縦と横を入れ替えてケンドールの一致係数を計算すれば、その場合は評価者の一致度を表すはずです。表5.4.1の縦と横を入れ替えて実際に計算すると次のようになります。 _(注3)

表5.4.3 3名の評価者の重症度評価結果(表5.4.1の縦と横を入れ替えたもの)
評価者＼症例	No.1	No.2	No.3	No.4	No.5	No.6	No.7	No.8	No.9	No.10
評価者1	15	30	34	52	58	69	76	88	91	95
評価者2	10	14	42	38	51	78	88	90	94	87
評価者3	21	38	36	40	42	63	72	84	98	96

この時の要因Bの寄与率R_B²つまりケンドールの一致係数Wは評価者の一致度を表し、順序尺度におけるエーベルの級内相関係数と同じような意味の値になります。ただし厳密には、Wを次のように変形するとエーベルの級内相関係数r₁₁相当の値になります。そしてこの値は複数の評価者から2人ずつのペアを作ってスペアマンの順位相関係数を計算し、それを平均した順位相関平均値r_sに一致します。

さらに順位相関平均値を基にして、エーベルの級内相関係数r_bb相当の値を計算することができます。

bが2の時、ケンドールの一致係数とスピアマンの順位相関係数の関係は次のようになります。つまり順位相関係数の下限を0にし、変動範囲を半分にして上限を1にしたものがケンドールの一致係数になるわけです。そしてこの関係を利用して順位相関係数の信頼区間からケンドールの一致係数の信頼区間を求めることができます。

この式からケンドールの一致係数は、順位相関係数が-1の時つまり2つの評価が正反対で全く一致していない時は0になり、順位相関係数が1の時つまり2つの評価が完全に一致している時は1になり、負の値にはならないことがわかります。順位相関係数が0の時は2つの評価が完全不一致と完全一致の間であり、ケンドールの一致係数は0.5になります。これは2つの評価が偶然の一致程度に一致していることを意味しています。ケンドールの一致係数はこのような性質を持つ指標なので値を解釈する時は注意が必要です。

例えば表5.4.3の評価者1と評価者2について、順位相関係数と一致係数を計算すると次のようになります。

この結果から、順位相関係数よりも一致係数の方が値が大きくなる傾向があることがわかります。そして次で説明する一致係数κと比較することによって、ケンドールの一致係数の性質がより明確になります。

(3) 一致係数κ(matching coefficient kappa)

データが名義尺度の時にも一致度を表す指標が色々と定義されています。例えば100名の被験者がいて、その人達がある疾患にかかっているかどうかを2名の医師が診断し、その結果をまとめたものが表5.4.4のようになったとします。

表5.4.4 ある疾患の診断結果
医師1＼医師2	正常	疾患	計
正常	40	10	50
疾患	10	40	50
計	50	50	100

この時、2名の医師の診断結果の一致度を表す値として一致係数κ(カッパ)またはコーヘンのκ係数(Cohen's coefficient kappa)と呼ばれる値があります。表5.4.4についてこの値を計算すると次のようになります。 _(注4)

κはクロス集計表の対角線上に全てのデータが集まった時つまり完全一致の時は1になり、偶然の一致程度の一致の時は0になります。そして対角線上のデータよりもそれから外れるデータの方が多い時、つまり2名の医師が反対の診断をしている時は負の値になります。

κは分類数が3つ以上の時でも計算することができます。例えばある疾患の患者100名について重症度を2名の医師が3段階で評価し、その結果をまとめたものが表5.4.5のようになったとします。このデータについてκを計算すると次のようになります。

表5.4.5 ある疾患の重症度評価
医師1＼医師2	軽症	中等症	重症	計
軽症	19	17	7	43
中等症	7	26	5	38
重症	3	12	4	19
計	29	55	16	100

この場合のκは3段階の重症度を名義尺度として扱った時の一致度を表します。しかし重症度は順序尺度のデータですから、本来は順序尺度として扱った方が合理的です。そしてその場合、普通はケンドールの一致係数を用います。しかしκを順序尺度に拡張した重み付き一致係数κ_w(weighted kappa)を用いることもできます。表5.4.5についてこの値を計算すると次のようになります。 _(注5)

表5.4.4と表5.4.5は評価者が2名しかいませんが、評価者が3名以上の時でも一致係数を計算することができます。ただし評価者が3名以上の重み付き一致係数を求めるには複雑な計算が必要なので、順序尺度の時はケンドールの一致係数Wと順位相関平均値r_s、そして信頼性係数r_bbを用いた方が便利でしょう。表5.4.5についてスペアマンの順位相関係数とケンドールの一致係数を計算すると次のようになります。

表5.4.5で2名の医師の重症度評価が一致しているものは49例(軽症19+中等症26+重症4)あり、1段階食い違っているものは41例、2段階食い違っているものは10例あります。もし2名の医師の重症度評価が偶然の一致程度の一致とすると、一致している例数は100/3≒33例ほどのはずです。そのため表5.4.5のデータは全体として(49+α)％ほど一致していると見ることもできますし、偶然の一致より(16+α)％ほど多く一致していると見ることもできます。

この前者の見方に対応する指標がケンドールの一致係数であり、後者の見方に対応する指標が重み付き一致係数です。つまり偶然の一致程度の一致の時、重み付き一致係数は0になるのに対してケンドールの一致係数は0.5になるので、両者を比較する時はケンドールの一致係数から0.5を引く必要があるわけです。これらの一致係数を解釈する時は、この点に注意する必要があります。

(注1)　エーベルの級内相関係数は繰り返しの無い二元配置型のデータに適用するので、繰り返しの無い二元配置分散分析の結果を利用して計算することができます。第4章で求めた二元配置分散分析の各種統計量から次のようにして計算します。 (→4.1 多標本の計量値　(2)データに対応がある場合 (注1))

表4.1.9 二元配置分散分析の一般的データ
要因	B₁	…	B_j	…	B_b	計	平均値
A₁	y₁₁	…	y_1j	…	y_1b	T₁.	m₁.
:	:	:	:	:	:	:	:
A_i	y_i1	…	y_ij	…	y_ib	T_i.	m_i.
:	:	:	:	:	:	:	:
A_a	y_a1	…	y_aj	…	y_ab	T_a.	m_a.
計	T.₁	…	T._j	…	T._b	T_T	−
平均	m.₁	…	m._j	…	m._b	−	m_T

表4.1.10 分散分析表
要因	平方和SS	自由度φ	平均平方和Ms	分散比F
A	S_A	φ_A	V_A	F_A = V_A/V_R
B	S_B	φ_B	V_B	F_B = V_B/V_R
残差	S_R	φ_R	V_R
全体	S_T	φ_T

表5.4.1のデータについて実際に計算してみましょう。

S_R = 23144.7 - 22162.7 - 19.5 = 962.5 　　

b = 2の時、要因B₁、B₂の平方和をS₁₁、S₂₂、積和をS₁₂とすると、級内相関係数と相関係数の関係は次のようになります。 (→4.1 多標本の計量値　(2)データに対応がある場合 (注2))

S_A - S_R = 2S₁₂ 　　S_A + S_R = S₁₁ + S₂₂

※r_VはS₁₁とS₂₂の幾何平均値と算術平均値の比になっている。そこで幾何平均値と算術平均値の大きさを比較するために両者を平方した値の差を取ると

≧ 0 (等号はS₁₁ = S₂₂の時のみ)
∴0 ≦ r_V ≦ 1…S₁₁ = S₂₂ の時は r_V = 1、S₁₁ = 0 または S₂₂ = 0 の時は r_V = 0

上記のようにr_VはS₁₁とS₂₂が等しければ1になり、等しくなければ1未満になり、どちらかが0なら0になります。したがってこの値は要因B₁とB₂の平方和または分散が一致しているかどうかを表す一致係数相当の値、つまり分散一致係数と解釈することができます。分散の一致性を表す指標として分散比Fがあります。そして分散比と分散一致係数の間には次のような関係があります。

→

※例えばF = 4の時

このようにb = 2の時のエーベルの級内相関係数は相関係数と分散一致係数をかけた値であり、要因B₁とB₂の相関係数が1で、かつ分散が等しい時だけ1になります。また分散比が 0〜∞ の値であるのに対して分散一致係数は 0〜1 の値なので、分散の一致度を表す指標としてはこの場合は分散一致係数の方が便利です。 (→6.2 データの要約と多変量解析 (注2))

評価値または測定値の信頼性を表す指標として信頼性係数(coefficient of reliability または reliability coefficient)という値があります。これは評価値の分散の中で真値の分散が占める割合として次のように定義されています。

x = α + ε　　V(x) = V(α) + V(ε)　　C(α,ε) = 0
x：評価値　　α：真値　　ε：評価誤差

　(0 ≦ ρ ≦ 1)

実際のデータでは真値は不明なので真値の分散を直接求めることはできません。そこで色々な推定法が考案されています。エーベルの級内相関係数r_bbは要因Aの分散の中で(要因Aの分散 − 残差分散)の占める割合を表します。これは要因Aの各水準の平均値つまり個体の平均値を評価値と考え、残差分散を誤差分散と考えた時の信頼性係数の推定値と解釈することができます。そのためr_bbを信頼性の指標のひとつとして利用することができます。

実際のデータでは要因Aの分散よりも残差分散の方が大きくなることがあるので、r_bbが0よりも小さくなることがあります。これは被験者の平均値のバラツキよりも、残差のバラツキつまり被験者と評価者の交互作用によるバラツキの方が大きいことを表します。そのような場合は真値の分散を推定することができず、信頼性の指標としてr_bbを利用するのは不適当ということになります。

ある測定値の信頼性係数がρの時、測定をm回繰り返して、その平均値を測定値とした時の信頼性係数ρ_mは次のようになります。これをスペアマン・ブラウン(Spearman-Brown)の公式といいます。

r₁₁にスペアマン・ブラウンの公式を当てはめると、次のようにr_bbと一致します。この関係は一般的な級内相関係数にも当てはまりますし、順位相関平均値r_sから信頼性係数r_bbを求める時にも利用します。

またスペアマン・ブラウンの公式から、設定された信頼性を確保するために必要な測定回数を求めることができます。ただしこの場合の信頼性は測定値の分散の中で真値の分散が占める割合であり、いわば相対的な信頼性にすぎません。測定値にはどの程度の誤差が含まれていて、何桁目まで信頼できるかといった絶対的な信頼性を検討するにはV(α)やV(ε)の値そのものを実質科学的に検討する必要があります。

クロンバックのα係数は第4章の表4.1.12の表記法に従うと次のように定義されています。

下位尺度：

　　個々の項目y_ijの分散：

C_jk(y_ij,y_ik)：y_ijとy_ikの共分散、C_jj(y_ij,y_ij) = V_j(y_ij)
下位尺度の分散：

個々の項目がお互いに独立の時は∑C_jk = 0になり、α = 0になります。個々の項目のデータがお互いに完全に一致している時、または定数を足せば完全に一致する時は ∑C_jk = b(b-1)V_j に、∑V_j+∑C_jk = b²V_j になり、α = 1になります。

下位尺度と個々の項目の分散を平方和で表すと、次のようにαはr_bbと一致します。

(注2)　一般的な級内相関係数は次のようなモデルに基づいて導かれます。

1) Case1

1人の評価者がa人の被験者をそれぞれb回評価した時の評価者内信頼性を求めたい場合です。この時の評価値は次のように分解され、これは一元配置分散分析の基本式に相当します。したがってCase1は一元配置モデルになります。

x_ij = μ + α_i + ε_ij 　　V(x) = V(α) + V(ε)
x_ij：被検者iのj番目の評価値　　μ：母平均値　　α_i：被検者iの効果　　ε_ij：被検者iのj番目の評価誤差

繰り返しの無い二元配置分散分析において、要因Bを評価者がb回繰り返して評価したものと考えて残差に含めれば一元配置分散分析になります。このモデルから次のようにしてICC(1,1)とICC(1,b)を導くことができます。

V_A ≒ bV(α) + V(ε)

∴

※V_B+R = 0 の時、ICC(1,1) = 1

V_B+R = 0 になるのは S_B = S_R = 0の時であり、要因Bつまりb回の測定値の平均値が全て等しく、しかも残差つまり要因Aと要因Bの交互作用がない時です。要因Aと要因Bの交互作用がないということは、被検者ごとのb回の測定値の変動パターンが全て同じということです。被検者ごとのb回の測定値の変動パターンが全て同じで、かつ平均値が全て等しいということは、b回の測定値が全て同じということです。このことから被検者ごとのb回の測定値が全て一致している時は ICC(1,1)=1 になることがわかります。

b回の評価平均値を評価値とすると評価誤差の分散がb分の1になります。そのためこの時の信頼性係数は次のようになります。

∴

ICC(1,1)とICC(1,b)は分散比に相当するので、分散比の信頼区間を求める計算式を利用して信頼区間を求めることができます。 (→3.3 2標本の計量値 (注2))

F(a - 1,a(b - 1),α/2)：第1自由度(a - 1)、第2自由度a(b - 1)のF分布における100(α/2)％点の値(上側確率がα/2になる点)
F(a - 1,a(b - 1),1-α/2)：第1自由度(a - 1)、第2自由度a(b - 1)のF分布における100(1 - α/2)％点の値
ICC(1,1)の100(1 - α)％信頼区間　下限：

　上限：

ICC(1,b)の100(1 - α)％信頼区間　下限：

　上限：

2) Case2

b人の評価者がa人の被験者を1回評価した時の評価者間信頼性を求めたい場合です。この時の評価値は次のように分解され、これは二元配置分散分析の基本式に相当します。したがってCase2は二元配置モデルになります。この場合、評価者は多くの評価者からたまたま選ばれたb人であり、変量モデルになります。

x_ij = μ + α_i + β_j + ε_ij 　　V(x) = V(α) + V(β) + V(ε)
x_ij：被検者iのj番目の評価値　　μ：母平均値　　α_i：被検者iの効果　　β_j：評価者jの効果
ε_ij：被検者iのj番目の評価誤差(被検者iと評価者jの交互作用)
V_A ≒ V(α) + V(ε)　　V_B ≒ aV(β) + V(ε) 　　V_R ≒ V(ε)
∴

※V_B = V_R = 0の時、ICC(2,1) = 1

上式から、ICC(1,1)と同様にb回の測定値の平均値が全て等しく、被検者ごとのb回の測定値の変動パターンが全て同じ時は ICC(2,1) = 1 になる、つまり被検者ごとのb回の測定値が全て一致している時は ICC(2,1) = 1 になることがわかります。 b人の評価平均値を評価値とすると評価者と評価誤差の分散がb分の1になります。そのためこの時の信頼性係数は次のようになります。

∴

ICC(2,1)とICC(2,b)の信頼区間は次のようになります。

F_L = F(a - 1,φ,α/2) 　　F_U = F(φ,a - 1,α/2) (φは四捨五入で整数化する)
ICC(2,1)の100(1 - α)％信頼区間
　下限：

　上限：

ICC(2,b)の100(1 - α)％信頼区間
　下限：

　上限：

2) Case3

特定のb人の評価者がa人の被験者を1回評価した時の評価者間信頼性を求めたい場合です。この場合、評価者は特定のb人であり、評価者に関して母数モデルになります。この時の評価値を分解すると、二元配置分散分析の基本式において評価者の効果が定数になったものになります。したがってCase3は被験者が変量モデルで評価者が母数モデルである二元配置型の混合モデルになります。この時の級内相関係数は分母の評価値の分散から評価者の分散を引いておく必要があります。

x_ij = μ + α_i + β_j + ε_ij 　　V(x) = V(α) + αβ_j² + V(ε)
x_ij：被検者iのj番目の評価値　　μ：母平均値　　α_i：被検者iの効果　　β_j：評価者jの効果
ε_ij：被検者iのj番目の評価誤差(被検者iと評価者jの交互作用)
V_A ≒ bV(α) + V(ε) 　　V_B ≒ aβ_j² + V(ε) 　　V_R ≒ V(ε)
∴

※V_R = 0 の時、ICC(3,1) = 1

上式から、この場合はb回の測定値の平均値が異なっていても、被検者ごとのb回の測定値の変動パターンが全て同じなら ICC(3,1) = 1 になることがわかります。そのためb回の測定値が定数値だけ異なっている、つまり x₂=x₁+b という関係があれば ICC(3,1) = 1 になります。 b人の評価平均値を評価値とすると評価誤差の分散がb分の1になります。そのためこの時の信頼性係数は次のようになります。

∴

… クロンバックのα係数

ICC(3,1)とICC(3,b)の信頼区間は次のようになります。

ICC(3,1)の100(1 - α)％信頼区間
　下限：

　上限：

ICC(3,b)の100(1 - α)％信頼区間
　下限：

　上限：

級内相関係数の特徴を理解するために、評価値のパターンによって級内相関係数の値がどのように変化するかを見てみましょう。話を単純にするために被験者も評価者も2名とし、表5.4.6のような4つのパターンの評価値を考えます。

表5.4.6 評価値の4つの変動パターン
被験者＼評価者	パターン1		パターン2		パターン3		パターン4
被験者＼評価者	評価者1	評価者2	評価者1	評価者2	評価者1	評価者2	評価者1	評価者2
被験者1	3	3	3	4	3	2	3	1
被験者2	1	1	1	2	1	2	1	3

これら4つの評価値の変動パターンと級内相関係数の関係を模式的に表すと図5.4.2のようになります。図の中で級内相関係数全体に当てはまる時は「ICC」と表記し、Case1の2種類の級内相関係数に当てはまる時は「ICC(1)」と表記し、Case2の2種類の級内相関係数に当てはまる時は「ICC(2)」と表記し、Case3の2種類の級内相関係数に当てはまる時は「ICC(3)」と表記してあります。

図5.4.2の上の4つのグラフは、2名の被験者についての2名の評価者の評価値を二元配置型の折れ線グラフで描いたものです。これらのグラフでは、同じ被験者についての2名の評価者の評価値の違いを時期変動のようなイメージで描いています。それに対して下の4つのグラフは、同じデータを評価者1と評価者2の関係を表す散布図として描いたものです。これらのグラフは図5.4.1と同じ原理で描いたものであり、被験者1と被験者2は散布図上の2つのプロットになります。上下のグラフを見比べると、二元配置分散分析と級内相関係数の関係を感覚的に理解することができると思います。

パターン1は評価者1と評価者2の評価値が完全に一致するパターンです。この場合、二元配置分散分析では被験者間差つまり要因Aの効果があり、評価者間差つまり要因Bの効果はなく、被験者と評価者の交互作用つまり誤差はないということになります。そして評価者1と評価者2の回帰直線は y = x になり、級内相関係数は1になります。

パターン2は評価者1よりも評価者2の方が必ず一定の値だけ評価値が高いパターンです。この場合、二元配置分散分析では被験者間差があり、評価者間差もあり、被験者と評価者の交互作用はないということになります。そして評価者1と評価者2の回帰直線は y = x + 1 になり、ICC(1)とICC(2)は1未満に、ICC(3)は1になります。

パターン3は評価者1の評価値は被験者ごとに異なっているのに対して、評価者2の評価値は一定というパターンです。この場合、二元配置分散分析では被験者間差があり、評価者間差はなく、被験者と評価者の交互作用があるということになります。そして評価者1と評価者2の回帰直線は y = 2 になり、級内相関係数は0になります。

パターン4は評価者1と評価者2の評価値が正反対というパターンです。この場合、二元配置分散分析では被験者間差はなく、評価者間差もなく、被験者と評価者の交互作用だけがあるということになります。そして評価者1と評価者2の回帰直線は y = 4 - x になり、級内相関係数は負になります。

表5.4.6のデータについて級内相関係数を計算すると、実際には図5.4.2に記載した値にならないものがあります。これは分散の推定値が近似値であり、理論どおりの値にならないことがあるからです。また級内相関係数は原則として-1〜1の間の値になりますが、やはり分散の推定値が近似値のため-1より小さくなることがあります。

表5.4.1のデータについて、実際に級内相関係数とその95％信頼区間を計算してみましょう。

ICC(1,1)の95％信頼区間：

ICC(1,3)の95％信頼区間：

F_L = F(9,19,0.025) = 2.880052 　　F_U = F(19,9,0.025) = 3.683338
ICC(2,1)の95％信頼区間：

ICC(2,3)の95％信頼区間：

ICC(3,1)の95％信頼区間：

ICC(3,3)の95％信頼区間：

級内相関係数を用いて2名の評価者の評価が一致しているかどうか、または2種類の測定機器の測定値が一致しているかどうかを検討したい時がよくあります。その場合、信頼性の高い級内相関係数を得るためにはa(被検者数または検体数)がどれくらい必要かが問題になります。

「信頼性の高い級内相関係数」というのは、級内相関係数の信頼区間が級内相関係数の医学的許容範囲内――級内相関係数のゆらぎがこの範囲に収まっていれば、医学的にはほぼ同等と考えられる範囲――に収まっている状態と考えられます。そこで級内相関係数の信頼区間幅が医学的許容範囲以下になる時のa(被験者数または検体数)を求めれば、それが試験の必要例数になります。これは信頼区間を用いた試験の必要例数の計算方法と同じ原理です。 (→1.7 ハンディキャップ方式の検定 (注2)、1.8 科学的研究の種類 (注1))

ただし級内相関係数の場合、信頼区間幅が標本級内相関係数の上下で対称ではありません。そこで標本級内相関係数と信頼区間の下限までの幅が医学的許容範囲内であれば、「信頼性の高い級内相関係数」と解釈することにします。級内相関係数は値が高いほど一致度が高いので、信頼区間の上限が問題になることはほとんどないと考えられるからです。

例としてICC(3,1)についてaを求める方法を考えてみましょう。まず試験目的から考えて「一致度が高い」と考えられるICC(3,1)の値をiccとし、医学的に許容できる信頼区間の下限値をicc_Lとします。そして一致度を評価したい評価者数または測定機器数をb、信頼係数を(1 - α)とすると、ICC(3,1)の信頼区間の下限を求める式から次の関係が成り立ちます。

→

＞ 1

最後の式で、iccとicc_Lとbから求めたF_oLと、aとbとαから求めた F(a - 1,(a-1)(b-1),α/2) が一致する時のaが試験の必要例数になります。そしてF (a - 1,(a-1)(b-1),α/2) はaとbが大きくなるほど小さな値になります。そこで a = 2 から始めてaを増やしていき、F(a - 1,(a-1)(b-1),α/2) ≦ F_oL になる時のaを求めれば良いことになります。そしてaが求まれば、F_oと F(a - 1,(a-1)(b-1),1-α/2) から信頼区間の上限値ICC(3,1)_Uを求めることができます。

例えばICC(3,1) = 0.95、ICC(3,1)_L = 0.9、b = 2、信頼係数 = 0.95(α = 0.05)として、aを求めると次のようになります。

F(30,30,0.025) = 2.074、F(31,31,0.025) = 2.049　より　a = 32
F(31,31,0.975) = 0.488　より　

これと同様の方法で標本級内相関係数と信頼区間の上限からaを求めることもできます。またこれと同様の方法で他の級内相関係数のaも求めることができます。

(注3)　ケンドールの一致係数は、フリードマンの検定における要因Bの寄与率と同じものです。第4章で求めたフリードマンの検定における要因Bの寄与率は次のとおりでした。 (→4.2 多標本の計数値　(1)順序尺度　2)データに対応がある場合 (注4))

この場合は縦と横を入れ替えて要因Bを評価者にするので、計算する時に注意が必要です。表5.4.3のデータについて実際に計算してみましょう。

表5.4.7 評価者別重症度順位(表5.4.3のデータを評価者別に順位付けしたもの)
評価者＼症例	No.1	No.2	No.3	No.4	No.5	No.6	No.7	No.8	No.9	No.10	同位の数
評価者1	1	2	3	4	5	6	7	8	9	10	-
評価者2	1	2	4	3	5	6	8	9	10	7	-
評価者3	1	3	2	4	5	6	7	8	10	9	-
順位和	3	7	9	11	15	18	22	25	29	26	-

T₁ = 3　T₂ = 7　T₃ = 9　T₄ = 11 　T₅ = 15　T₆ = 18　T₇ = 22 　T₈ = 25　T₉ = 29　T₁₀ = 26

　　K = 1

(注4)　一般的な一致係数κは、b人の評価者がn例の被験者をc種類に分類した時の一致度を計算します。その計算法は反復計算を必要とする非常な複雑なものなので、普通は b = 2 として2人の評価者の一致係数を計算します。その場合、まず最初に2人の評価者が評価したデータを次のような分割表にまとめます。

表5.4.8 2人の評価者の評価データ
評価者1＼評価者2	B₁	…	B_j	…	B_c	計
A₁	n₁₁	…	n_1j	…	n_1c	n₁.
:	:	…	:	…	:	:
A_i	n_i1	…	n_ij	…	n_ic	n_i.
:	:	…	:	…	:	:
A_c	n_c1	…	n_cj	…	n_cc	n_c.
計	n.₁	…	n._j	…	n._c	n

この表を基にして一致係数κは次のように計算します。

完全一致率：

偶然一致する確率：

検定用分散：

　　推定用分散：

＞ t(∞,α)の時、有意水準100α％で有意
※検定用分散として次のような近似式が使われることがある。

表5.4.4と表5.4.5のデータについて実際に計算してみましょう。

○表5.4.4

p_c = 0.5×0.5 + 0.5×0.5 = 0.5 　　

検定用分散：

検定：

＞ t(∞, 0.05) = 1.96
推定用分散：

95％信頼区間：

○表5.4.5

　　p_c = 0.43×0.29 + 0.38×0.55 + 0.19×0.16 = 0.3641

検定用分散：

検定：

＞ t(∞, 0.05) = 1.96
推定用分散：

95％信頼区間：

分類の数が2つだけの時、κは次のような式で求められます。

また(注1)より、分類の数が2つだけの時の順位相関係数r_s、四分点相関係数(φ係数)、エーベルの級内相関係数 r₁₁ = ICC(3,1) は次のようになります。 (→5.3 計数値の相関分析と回帰分析)

　　(r_V：分散一致係数)

これらの式からn₁₁ = n₂₂、n₁₂ = n₂₁の時、次のようにκは順位相関係数、四分点相関係数、エーベルの級内相関係数と一致することがわかります。

κの値がわかっていると、2人の評価者の評価が偶然一致する確率p_cから完全一致率p_oを求めることができます。そして上記のようにκは四分点相関係数と近似するので、2つの評価者の間に相関がある時、相関係数と両者の評価から完全一致率を近似的に求めることができます。

p_o = p_c + (1 - p_c)κ ≒ p_c + (1 - p_c)φ

この関係を利用すると、2つの項目の間に関連性がある時に2つの項目の正常／異常が一致する確率を近似的に求めることができます。

(注5)　重み付き一致係数κ_wは表5.4.8を基にして次のように計算します。

行列の重み：

検定用分散：

　　推定用分散：

＞ t(∞,α)の時、有意水準100α％で有意

表5.4.5のデータについて実際に計算してみましょう。

w₁₁ = 1 　　w₁₂ = w₂₃ = w₂₁ = w₃₂ = 0.5 　　w₃₁ = w₁₃ = 0

検定用分散：

検定：

＜ t(∞,0.05) = 1.960
推定用分散：

95％信頼区間：

前口上	目次	第1章	第2章	第3章	第4章	第5章	第6章	第7章	第8章	第9章	第10章
第11章	第12章	第13章	第14章	第15章	第16章	第17章	第18章	第19章	第20章	付録

症例No.	評価者1	評価者2	評価者3	評価平均値
1	15	10	21	15
2	30	14	38	27
3	34	42	36	37
4	52	38	40	43
5	58	51	42	50
6	69	78	63	70
7	76	88	72	79
8	88	90	84	87
9	91	94	98	94
10	95	87	96	93

症例No.	評価者1	評価者2	評価者3	評価平均値
1	15	10	21	15
2	30	14	38	27
3	34	42	36	37
4	52	38	40	43
5	58	51	42	50
6	69	78	63	70
7	76	88	72	79
8	88	90	84	87
9	91	94	98	94
10	95	87	96	93

5.4 級内相関係数と一致係数

(1) 級内相関係数(ICC：Intraclass Correlation Coefficient)

(2) ケンドールの一致係数W(Kendall's coefficient of concordance)

(3) 一致係数κ(matching coefficient kappa)

1) Case1

2) Case2

2) Case3

症例No.	評価者1	評価者2	評価者3	評価平均値
1	15	10	21	15
2	30	14	38	27
3	34	42	36	37
4	52	38	40	43
5	58	51	42	50
6	69	78	63	70
7	76	88	72	79
8	88	90	84	87
9	91	94	98	94
10	95	87	96	93