Clinical Journal Club 12. κ係数による一致度の評価

実際の臨床業務ではしばしば起こることですが、病理診断や画像診断では診断医によって診断が異なる可能性があります。

例えば、現在のIgA腎症の病理組織分類は、予後良好群、予後比較的良好群、予後比較的不良群、予後不良群の4群から構成されています。同じ腎病理組織像を見ても、医師Aは「比較的予後不良群」と診断し、医師Bは「比較的予後良好群」と診断するかもしれません。「比較的予後不良」と診断されれば、「5～20年以内に透析に移行する可能性がある」わけですが、「比較的予後良好群」と診断された場合、「透析に至る可能性がかなり低い」わけであり、患者さんが受ける印象は大きく異なりますし、当然ながら治療方針も異なってくる可能性があります。

理想的な病理組織分類、画像診断分類とは、正確に予後を予測する分類である事は当然ですが、誰が何度診断しても同じ診断が得られる分類であるべきです。カテゴリー変数（名義変数、順序変数）として表現される診断の一致度（reproducibility）を評価するために、よく利用される統計学的手法がκ係数（kappa statistic）です。

κ係数（kappa statistic）

κ係数（kappa statistic）は、二人の観察者間の診断の一致度（reproducibility）を評価する指標です。なお、この場合の診断とは、悪性 or 良性、grade 1～5の様にカテゴリー変数（名義変数、順序変数）でなければなりません。κ係数（kappa statistic）は、0～1の値をとり、値が大きいほど一致度（reproducibility）が高い事になります。一般に、κ係数（kappa statistic）は右図の様に判定され、κ係数≧0.6であれば、観察者間の一致度（reproducibility）が十分高いと判断されます。

κ係数（kappa statistic）の計算方法

実際にκ係数（kappa statistic）を計算してみましょう。例えば、病理医Aと病理医Bが病理組織標本200例を観察し、良性 or 悪性の2段階で評価を行いました。

病理医Aは200例中20例を悪性と診断し、病理医Bは200例中25例を悪性と診断しました。そのうち、病理医Aも病理医Bも悪性と診断したのが15例であり、良性と診断したのが170例です。したがって、病理医Aと病理医Bの診断の実際の一致度（A_observed）は、下記の計算式から、0.9250です。

次に、病理医Aと病理医Bの診断が偶然一致する確率（A_{expected by chance}）を計算すると、下記の計算式から、0.8000になります。

したがって、下記の計算式で定義されるκ係数（kappa statistic）は、0.6250であり、病理医Aと病理医Bの診断の一致度（reproducibility）は、Goodである事がわかります。

重み付けκ係数（weighted κ statistics）

悪性 or 良性の2段階の分類であれば、観察者間の一致度（reproducibility）を上記の様に評価できます。しかしながら、分類が多段階の場合、一致しなかった標本をすべて不一致として扱うと問題が生じる可能性があります。二人の病理医が、IgA腎症の組織学的予後分類と同様の、下記の4段階の組織分類（Grade 1～4）に従って、標本を評価するとします。

二人の評価が「一致」した場合のみをreproducibility有りとすると、上記のA、B、Cは全く同等に扱われてしまいます。しかしながら、4段階という順序変数を用いて評価しているのですから、A、B、Cを全く同等に扱うのは不自然です。Aは「おしい」と判定し、Cは「全く駄目」と判定するべきです。そこで、通常は、一致 > A > B > Cとなる様な重み付けをしたκ係数（weighted kappa statistic）を計算します。

一般には、k段階の順序変数を用いて評価した場合の行列ijには、上記の計算式で得られた値を重み付けとして、κ係数（kappa statistic）に反映させます。

例えば、2人の病理医が100枚のプレパラートを4段階の組織分類に従って評価したところ、上記の結果が得られたとします。

この場合、重み付けκ係数（weighted kappa statistic）は、上記の様に左右の表を掛け合わせて計算します。したがって、重み付けκ係数（weighted kappa statistic）は、

重み付けκ統計量 = 0.20 X 1 + 0.06 X 8/9 + 0.03 X 5/9 + 0.02 X 0 + ... = 0.869

になり、二人の病理医の一致度（reproducibility）は極めて高いと評価されます。

三人以上の観察者間のκ係数（kappa statistic）

二人の観察者間の一致度（reproducibility）を評価するのがκ係数（kappa statistic）ですが、三人以上の観察者間の一致度（reproducibility）を評価するためにはどうしたらいいのでしょか。実は、現時点では定まった方法はなく、様々な方法が提唱されています。詳細は、下記の参考文献をご覧下さい。

参考文献

Kundel H. L. et al. Measurement of observer agreement. Radiology 2003; 228:303-8