疫学と医療統計学と遺伝学と時々、大学院生活

疫学を専門とする大学院生の研究に関する備忘録的ページ。

連続値データから二値データに変換するときの問題

こんばんは。今日は統計解析において議論の的になる「二分法(dichotomization)について」記事を書いておきます。僕のように医学をメインにデータ解析をする人には馴染みの深い問題かと思います。「二分法」の問題については、最近日本語の訳書が発売された『ダメな統計学〜悲惨なほど完全なる手引書〜(アレックスラインハート著・西原史暁訳)*1』にも[7. 連続性の誤り]として紹介されています。ある変数Aについて、ある基準値よりも高い人と低い人という風にデータを二分することについて、連続データのまま解析するよりも検定力が低下することが知られています。今回は、『Consequences of dichotomization(Federov VV, 2009)』をもとに、連続データを二値データに変換する問題とその程度について、論じていきます(正規分布を取る変数に絞って)。

1. 二分法(dichotomization)の利点

結果の解釈が簡単になる。これに尽きるのでは?
この論文中にも、

"the technique can be a useful tool for the reporting of final results to non-statistical communities."

と書いてあるように、結果をまとめて報告するときには、わかりやすくなる。これは『ダメな統計学〜悲惨なほど完全なる手引書〜』にも書かれていることだが、「中性脂肪が1mg/dl高くなるにつれて、オッズが0.001ずつ増加する」よりも「中性脂肪が高い群では低い群に比べて、心血管疾患のリスクが2.3倍になる」という方が一般的には理解しやすいはずです。

2. 二分法の問題

検出力の低下でしょう。
f:id:ryosukefujii0320:20170515181547p:plain

上図では、最適なカットオフポイントとの差とそれによる情報量の損失(検出力の低下)との関係を図示しています(右の縦軸は、情報の損失を補うために必要なサンプル数の比)。正規分布している連続量について、二分化を用いた場合の図が、(a)となっていて、(b)ロジスティック分布、(c)コーシー分布、(d)二重指数分布(ラプラス分布)の場合の情報量の損失を表しています。

この図を見てわかるように、cutoffが0(つまり、平均値や中央値で二分化する)に設定できた場合(これが最高のパターン)がもっとも情報の損失は最低限に抑えれることがわかります。ちなみに連続値データ(正規分布)を二分化することで最低でも36%の情報は失います。また、カットオフポイントが少しずれるだけでもかなりの情報を損失するとともに、それを補うためにはサンプルが必要になります。例えば、カットオフを最適化しても、100人の連続量を扱うのと比較すると、二値化データを扱う場合は157人のデータと同義であることも示唆されています*2

ここで思うことは、、、

じゃあ、毎回データを得てから、その平均値なり中央値を後から(A posteriori)選べばいいじゃないかということ。そうすれば、常に36%の損失で済むのに。こう思うのではないでしょうか。しかし、そこにもいくつかの問題が存在しています。

1. 他の研究と比較できない

Fedorovらの論文中には"data-driven choice of cut points does not allow for comparisons of different studies"と記載されている(これは参考文献[*3]に記述されている)。たとえば、ある研究Aで対象としたBMIの平均値が30で、その値をもとに集団を「肥満群」と「非肥満群」に二分した場合、26の人は「非肥満群」に分類されます。しかし、ある研究Bで対象としたBMIの平均値は25でした。この場合、BMI26の人は「肥満群」に分類されます。そうなると、このカットオフ値の違う研究を比較することは難しくなります。

2. 実際のimplication(意味合い)がない

Fedorovらの論文中には"the empirical cut point lacks any real-life implications"と記述されていて、中央値や平均値で二つの集団に分けることはなんらかの生物学的な意味には立脚していないので、そのような分割は果たしてどういった解釈を持つのかは不明になりがちである。

最後に

今回は、Fedorovらの論文の一部を紹介した形になりました。今回、連続データを二値化することで大きく情報を落とす危険性が把握できました。連続量で解析できるものに関しては、そのままの解析を試み、恣意的なカットオフ値による二分法を用いた解析はなるべく避けたほうが良いと思われます。また、連続値を二分するときには、これまでの先行研究や学会等が定めた基準値によって二分するようにこころがけたいと思います。

20170515 RF

参考文献

*1:ダメな統計学〜悲惨なほど完全なる手引書〜(アレックスラインハート著・西原史暁訳)

*2:Cox DR. Note on grouping. Journal of American Statistical Association 1957; 52:543–547.

*3:Altman DG. Statistics in medical journals: some recent trends. Statistics in Medicine 2000; 19:3275–3289.