今回はGWASのデータ解析のプロセスの中でも最も重要と言っても過言ではないQuality Controlについてまとめる。
米国Vanderbilt大学(生物統計等で著名な大学)のStephan Turnerらが2011年に発表した「Quality Control Procedures for Genome Wide Association Studies」[1] を参考にする。
概要
GWASは家族や集団を対象とした研究だけでなく、臨床現場でも行われるようになってきた。しかし、そのデータの実践的な活用はそのデータの質に依存している。electronic Medical Records and Genomics networkによって支援を受け、National Human Genome Research Instituteのgenomic working groupはQCのストラテジーを発展させた。GWASのQCプロセスについてのフローチャートは以下の図1に示されている通りである。四角はそれぞれのステップを、円形はデータの入力と出力を、台形はデータのフィルタリングを示している。
図1. A flowchart overview of the entire GWAS QC process.
内容
ゲノムデータのフォーマット
研究デザインに関わらず、典型的な一行一個人のデータ形式(pedfile)を取る。最初の6行にはfamily ID、individual ID、mother ID、father ID、sex, phenotypeが入力され、そのあとに遺伝子多型のデータが2列に分かれて入力されている。
QCのためのpedfile作成の時にはforward strand もしくは reverse strand由来のアレルかを明確にすることが重要である。
Sample Quality
サンプルのクオリティ
最も初歩的なミスとしてサンプルデータのハンドリングミスがあり、そのミスを発見するためにもそれぞれの個人が報告した性別と遺伝子データから予測した性別をチェックする(PLINKでは--check-sexでX染色体のヘテロ接合度を求めることができる)。もし、なんらかの不一致があれば、研究の質問票やEMRを見直す必要がある。
サンプルの関連性
サンプル間の親族関係は自己報告されているものと遺伝的なデータを比較することで可能になっている。この過程はすべてのデータで行う必要はなく、100,000SNPsあれば推定には十分である。また、ここで二人のIBD(同祖的アレルの数)の確率を算出し、血縁関係を推定する。例えば、どの座位においてもIBDの二つのアレルを保有している場合、一卵性の双生児もしくは同じサンプルを二度計測したものと考えることもできる。IBDの概念については参考サイト1を参照されたい。このIBDの概念に基づいて、IBDが0である座位の割合とIBDが1である座位の割合をプロットする(図2)。
図2. Points in this plot show pairs of individuals plotted by their degree of the relatedness
このプロットではサンプル同士の関係性を明らかにするだけでなく、隠された関係も明らかにすることができる。図2でも対角線上に並んでいる全く関連のしていないサンプル(黒)と遠縁のサンプル(青)が明らかになっている。ここですべてを関連のないサンプルとしてこの先の研究に使用した場合はtype I errorもしくはII errorが発生していた可能性があった。そのため、先には混合モデルを使用した回帰分析を要する。
ちなみに図3はすべての個人間で近交係数が0.05を超える場合の分布を示したものであり、関係性の度合いを示す図である。
図3. Histogram showing the distribution of pairwise kinship coefficients (over 0.05)
亜集団の有無
2016年1月18日のエントリー「集団の構造化(Population Stratification)」で述べた問題である。本論文では、まずはじめに均一な遺伝集団からのサンプルの選択を推奨している。基本的に自己申告している人種と遺伝的に同定した人種はほぼ一致していることが知られている [2]。多くの施設のサンプルをまとめて解析する(joint analysis)場合には、この問題に気をつける必要がある。ここでもgenomic control法がthe most appropriate variationとして紹介されている。
そのほかには大規模なサンプルサイズにも効率的なPCA(主成分分析)を実行するEigenstrat [3, 4] が紹介されている。Eigenstratを実行するEigensoftは無償のオープンソースであるが、これを走らせるためには密度の高いgenotyping(100,000の高い質を保ったSNPsが推奨レベル)が必要になる。Eigensoftは10個の主成分に分割するが、このうちで表現型を有意に関連するものがあれば、それ以降の解析では補正項目として調整する必要がありそうである。
サンプルごとのGenotypingの成功率
データセット内でGenotypingの失敗の割合が高い(NAが多い)個人はそのDNAの質が低い可能性がある。このようなサンプルは異常な遺伝子型の同定につながる危険性があることからそれ以降の解析からは除去することが一般的であり、call rateのカットオフ値としてはおよそ98〜99%が推奨される。これはあくまで推奨値であり、それぞれの研究デザインに適したcall rateを閾値として設定して良い。PLINKでは--missingを使用すると、genotyping efficiencyを求めることができる。
Marker Quality
マーカーごとのGenotypingの成功率
先述の個人間のcall rateによるQCに引き続いて、マーカーごとのcall rateに従ってもQCを実行する。マーカーのQCも先ほど同様に98〜99%のcall rateが推奨されている。
マイナーアレルの頻度(Minor allele frequency: MAF)
かなりレアなSNPの検出力は極めて乏しいため、マイナーアレルの頻度(MAF)が数%以下のSNPは除外されることが一般的である。図4ではn=10,000と十分なサンプルサイズでの関連を検出する統計学的なパワーを示しているが、1%以下ではかなりパワーしかないことがわかる。その閾値はサンプルサイズとeffect sizeに依存する。パワーを計算するCaTS Power [5]やQuanto [6] で容易にGWASのためのパワーを算出できる。MAFはPLINKで--freqオプションで表示できる。--mafオプションで解析から除外できる。一般的にはMAFが5%以下や1%以下のSNPを除外している論文をしばしば目にする。
ハーディ・ワインベルグ平衡(Hardy-Weinberg Equilibrium: HWE)
HWEのチェックはGWASのデータQCの最終段階でもある。HWEからの逸脱は、遺伝子型同定のミス、集団の構造化、本当に表現型と関連のある場合が想定される。HWEの考え方とその詳細については近日中にまとめる予定である。PLINKでは--hardyで実行される。
case-control studyでHWEから逸脱した場合には、caseではなくcontrolでHWEに従うかテストしてみるべきである。なぜなら、caseよりもcontrolの方がHWEに従う可能性が高いからである。同様に複数の人種が存在する中では、それぞれの人種でHWEを算出するべきである。
処理・測定単位による影響
数千、数万人レベルのDNAを処理するためにはいくつかの単位に分けて処理する必要がある(96well plateの使用など)。それぞれの処理によって集団の構造化のようにプレートの中にcaseとcontrolの割合が異なるなどの不均一性が生じる。
理想的には、それぞれ異なる表現型、性別、人種、その他補正項目を持つ個人のサンプルは無作為にプレート上に配置されるとともに、現代の正確な遺伝子同定技術からすると処理間のエラーはないものと考える。典型的かつ簡易な検定方法をしては、プレートごとのMAFや平均のcall rateを算出する方法が挙げられる。
関連解析後のQC
表現型と多型との間の関連解析を実行した後に、QCの指標で評価すべきである。一つは予測と観察された有意となったSNPを比較する。もちろん、異なるgenotyping technology を用いた再現性の研究はされるべきである。
まとめ
今回の論文はPLINKにてQCを行うことを前提としていたが、今後はそれぞれの項目の方法をRを使用して実施するコードを勉強する。
参考文献
- Turner S, et al. (2011) Quality Control Procedures for Genome Wide Association Studies. Curr Protoc Hum Genet.
- Tang H, et al. (2005) Genetic Structure, Self-Identified Race/Ethnicity, and Confounding in Case-Control Association Studies. Am J Hum Genet.
- Price AL, et al. (2006) Principal components analysis corrects for stratification in genome-wide studies. Nat Genet.
- Patterson N, et al. (2006) Population structure and eigenanalysis. PLos One Genet.
- Skol AD, et al. (2006) Joint analysis is more efficient than replication based analysis for two-stage genome-wide association studies. Nat Genet.
- Gauderman WJ. (2002) Sample size requirements for matched case-control studies of gene-environment interaction. Stat Med.
20160118
RF