集団の構造化（ Population Stratification） - 統計学と疫学と時々、助教生活

今回は遺伝疫学のトピックの一つである「集団の構造化（population stratification）」についてまとめる。

集団の構造化とは

集団の構造化とは、、、

サンプル集団中に異なる遺伝的背景を持つサンプルが混在している状態をいう。すなわち、人種、民族、地域差により、遺伝的背景が異なるサンプルが混合して完全には均一化していない状態である。集団の構造化により、マーカーアレルが異なる場合があるため、ケースコントロール解析などの解析では偽陽性の原因となる。

特に以下の2つの条件が満たされている場合に結果に影響が出る。

アレルもしくは遺伝子型の頻度が部分的な集団で異なる場合、
部分集団間で疾患の発生率が異なる場合

集団の構造化の例

次の例を考えると、より分かりやすいだろう。
糖尿病に関連する遺伝子を調査するために、糖尿病患者と対照者をアメリカのニューヨークで別々に集めるとする。
症例群にはアフリカ系アメリカ人（African America）が多く、対照群には白人（Caucasian）が多いとする。
この症例と対照で関連解析を行った場合には、糖尿病とは何も関係のないアフリカ系アメリカ人と白人の間で頻度の異なる座位の変異が糖尿病と関連があると「偽陽性」を示すことが考えれらる。（あたかも人種によるSNPsの頻度が疾患と関連があるように見えてしまう状況）

日本人は遺伝的に比較的均一な集団であるが、鹿児島から沖縄にかけての集団では本土の遺伝的な背景を持った集団とは異なることが知られており、注意が必要である。

集団の構造化に対するアプローチ

集団の構造化を解決するためには、それぞれの部分集団におけるcase-control研究の実施なども一つの方法であるが、多くはサンプルサイズの問題からなかなか実現性が乏しい。

そこで集団の構造化を修正する方法としてはGenomic Controlが最もpopularである。
Genomic ControlとはPSによってインフレーションを起こしたZ値をInflation factor（ ${\lambda_{GC}}$ ）で補正する方法である。

${ \lambda_{GC}=\frac{median\{Z^2_{CATT,1}, Z^2_{CATT,2}, ... ,Z^2_{CATT,M}\}}{0.456} }$

集団のサイズが大きい場合、この（ ${\lambda_{GC}} \approx 1$ ）であれば、PSがないもしくはPSがあるときも（ ${\lambda_{GC}} \approx \delta^{*2}_n/\delta^2_n$ ）と考えられる。 ${\lambda_{GC}} \ge 1$ であれば、何も補正しない場合、結果を歪める危険性がある。
この問題を修正するために、 ${Z^2_{CATT}/\lambda}$ としてz値を算出することでre-scaleする。
${\lambda}$ に用いるのは中央値ではなく、平均値を用いることも提唱されているが、それらは ${\lambda}$ を過大評価する恐れがあるとも言われている。

まとめ

いずれにしても、PSがGWASなどの多くのSNPsを扱う研究において研究結果を歪める危険性を持っている。その事実を熟知した上で、対処方法を学び、より妥当性のある研究を実施することが重要である。さらに詳細な記述は下記に示す文献を参照されたい。

参考文献

鎌谷直之. 2007. 『遺伝統計学入門』東京. 岩波書店
Gan Zheng, Yaning Yang, Xiaofeng Zhu, Robert C. Elston, Analysis of genetic association studies. Springer-Verlag New York. 2012.

20160118
RF