トップページ > 臨床研究の紹介 > Clinical Journal Club > 1. 多重比較

Clinical Journal Club 1. 多重比較

Familywise Error Rate

   さいころを1回振って、が出る確率は1/6 = 0.167です。
   さいころを2回振って、が1回も出ない確率は、(5/6)2 = 0.694です。したがって、さいころを2回振って、1回でもが出る確率は、1-(5/6)2 = 0.306です。

   当然ながら、さいころを振れば振るほど、1回でもが出る確率が上がっていきます。さいころを20回振って、一度もが出ない確率は、わずか0.026です。

さいころを振る回数と1回でもが出る可能性

 

   さいころを繰り返し振るという事と、有意水準α = 0.05の検定を繰り返すという事は、確率論的には全く同じ事です。検定を繰り返せば繰り返すほど、偶然棄却される帰無仮説が増えます。複数回繰り返された検定全体において帰無仮説が棄却される可能性を、familywise error rateと呼びます。

   有意水準α = 0.05の検定を20回繰り返すと、1回でも帰無仮説棄却される可能性(familywise error rate)は0.642です。100回繰り返すと、familywise error rateは0.994です。検定を繰り返すという多重比較を行う場合、それぞれの検定の有意水準を0.05よりも小さくしなければ、familywise error rateを0.05にする事ができません。

検定回数とFamilywise Error Rate

 

Familywise Error Rateを調整する方法

   Familywise error rateを調整する方法として、(1)F統計量やt統計量等の統計量に基づいた方法と(2)それらの統計量から算出されたp値のみを操作する方法があります。統計量を用いた方法(1)としては、F統計量を用いたFisher's least significant difference (Fisher's LSD)法、t統計量を用いたTukey's honestly significant difference (Tukey's HSD)法、t統計量を用いてcontrol群と非コントロール群の比較のみを行うDunnet法等が開発されました。

   統計量ではなく、p値を調整する方法(2)としては、Bonferroni法Holm法が挙げられます。これらの方法は、統計量に依存しないため、どのような検定に対しても利用できるため、汎用性が高い方法です。以下、Bonferroni法とHolm法について解説します。

 

Bonferroni法

   検定総数がNの場合、それぞれの検定の有意水準をαからα/Nに変更する方法が、Bonferroni法です。検定総数が20ならば、20個の検定全てにおいて、有意水準を0.05/20 = 0.0025に変更します。非常に保守的なfamilywise error rateの調整法であり、βエラーの可能性が高くなります。したがって、「p値 > α/N」となった帰無仮説は採択されるのではなく、棄却が保留されると考えるのが妥当です。

 

Holm法

   非常に保守的なBonferroni法の有意水準を、もう少し緩くしたのがHolm法です。Bonferroni法に比べて、あまり知られていないHolm法ですが、JAMAに掲載された研究にも使われています(A. O. Chan et al. JAMA 298:1412-1419 (2007))。Bonferroni法では、N個の検定全てにおいて同一のα水準(= α/N)を採用しましたが、Holm法ではp値の大きさに従って、α水準が異なります。以下、Holm法の具体的な方法を説明します。

(1) N個の帰無仮説を、p値の小さい順に並べます。

(2) 最もp値が小さい第1順位の帰無仮説の有意水準をα/Nにします。
「p値 < α/N」であれば、第1順位の帰無仮説を棄却し、対立仮説を採択します。
「p値 > α/N」であれば、第1順位以下のすべての帰無仮説の判定を保留します。

(3) 第1順位の帰無仮説が棄却された場合、第2順位の帰無仮説の有意水準をα/(N-1)にします。
「p値 < α/(N-1)」であれば、第2順位の帰無仮説を棄却し、対立仮説を採択します。
「p値 > α/(N-1)」であれば、第2順位以下のすべての帰無仮説の判定を保留します。

(4) 上記を繰り返します。第(k-1)順位の帰無仮説が棄却されたならば、第k順位の有意水準をα/(N+1-k)にします。p値 < α/(N+1-k)となる最大のkを見つけ出し、第1〜k順位の帰無仮説を棄却し、第(k+1)順位以降の帰無仮説の判定を保留します。

 

Bonferroni法とHolm法の比較

   5個の帰無仮説のp値が、0.002、0.011、0.012、0.040、0.043の場合、Bonferroni法及びHolm法で棄却される帰無仮説は下記の通りです。Holm法において、第4順位の帰無仮説の判定が保留されたため、第5順位の帰無仮説は、p値にかかわらず、判定が保留されている事に注意して下さい。

 

順位 p値 Bonferroni法 採択する仮説 Holm法 採択する仮説
1 0.002 < 0.05/5 = 0.010 対立仮説 < 0.05/5 = 0.010 対立仮説
2 0.011 < 0.05/5 = 0.010 対立仮説 < 0.05/4 = 0.013 対立仮説
3 0.012 > 0.05/5 = 0.010 (保留) < 0.05/3 = 0.017 対立仮説
4 0.040 > 0.05/5 = 0.010 (保留) > 0.05/2 = 0.025 (保留)
5 0.043 > 0.05/5 = 0.010 (保留) (保留)

 

False Discovery Rate (FDR)を調整する方法

   Bonferroni法やHolm法によるfamilywise error rateの調整は、「何回検定を繰り返しても、全体のαレベル(familywise error rate)は0.05を超えないようにするぞ!」という非常に保守的な方法です。したがって、本当は有意差があるのに、帰無仮説が棄却されないというβエラーが問題になります。

   そこで、ある程度αエラーを許容して、βエラーを起こす可能性を小さくする方法の一つとして、false discovery rateを調整するという方法が開発されました。false discovery rateは、簡単に言うと、「棄却された全ての帰無仮説のうち、αエラーが含まれている確率」です。

 

検定の結果
帰無仮説を採択 帰無仮説を棄却
真の帰無仮説 u v (αエラー) n
偽の帰無仮説 t (βエラー) s N-n
N-R R N

 

   上表の様に、N個の帰無仮説を検討した結果、R個の帰無仮説が棄却され、N-R個の帰無仮説が採択されたとします。そのうち、真の帰無仮説がn個存在したとすれば、偽の帰無仮説はN-n個存在します。帰無仮説の真偽と検定の結果の関係u、v、t、sを、上表の様に定義します。RとNは計測可能な数字ですが、u、v、t、s、nは実際には計測不能な未知の数字であり、研究の対象そのものです。familywise error rateは、v≧1となる確率:P(v≧1)と定義されます。一方、false discovery rateは、次のように定義されます。

False Discovery Rate: q = v/R

   q = 0.05とされる事が多いみたいですが、研究の目的次第では、0.1や0.5にしても構いません。q = 0.5に設定すれば、棄却された帰無仮説のうち、真の帰無仮説が半分含まれている事になります。

 

Benjamini & Hochberg法(BH法)によるFalse Discovery Rateの調整

   1995年にBenjaminiとHochbergが、false discovery rateを調整する方法(BH法)を発表しました1。その後、様々な改良法が考案されていますが、ここではBH原法の具体的な方法を紹介します。

(1) N個の帰無仮説を、p値の小さい順に並べ、p1 ≦ p2 ≦ p3 ≦・・・≦ pNに相当する帰無仮説をH1、H2、H3・・・、HNと定義します。

(2) i = Nとする。

(3) Pi ≦ q X i/N を満たすならば、k = iとして(4)に進みます。そうでなければ、iにi-1を代入して、この手順を繰り返します。なお、i = 1まで達したならば、どの帰無仮説も棄却する事なく終了します。

(4) H1、H2、H3・・・、Hkを棄却します。

1Benjamini Y. Hochberg Y. Controling the false discovery rate: a pratical and powerful approach to multiple testing. J. R. Statist. Soc. ser.B, 57(1): 298-300 (1995)

 

Bonferroni法、Holm法、BH法の比較

  Familywise error rateを調整するBonferroni法、Holm法とfalse disvery rateを調整するBH法は、どれくらい検出力が異なるのでしょうか。下図は、familywise error rate = 0.05、false discovery rate (q) = 0.05に設定し、帰無仮説を20個(N = 20)検討した場合、統計学的に有意と判定されるp値の閾値です。Holm法は小さいp値から順番に検討していくのに対して、BH法は大きいp値から検討をしていきます。Familywise error rateを調整する場合とFalse discovery rateを調整する場合では、p値の閾値が大きく異なります。