疫学と医療統計学と遺伝学と時々、大学院生活

疫学を専門とする大学院生の研究に関する備忘録的ページ。

質的形質の解析手法1-まずは表を書く-

今回は質的な形質をアウトカム(疾患の有無、基準値以上もしくは以下)とするデータの評価方法の第一歩について記述する。例によって、遺伝子多型を利用した解説ではあるが、一般的な質的変数の評価も非常に似ているので、参考にしてほしい。
(なお、今回の資料は鎌谷直之著『遺伝統計学入門』の8.3から5を参考にしている。)

はじめに

今回は質的解析の第一歩である表の作成についてまとめる。解析法の詳細自体は次回以降にする。

解析のつかみ=表にする

質的な表現型(疾患の有無など)を扱う場合、解析の手法として2×2もしくは3の表を作成した後、その有意性について統計学的な検定を用いる。つまり、A群では疾患を持つものの割合がa群でのそれと異なるか否かを検定するのである。その方法としてはピアソンの {\chi^2}法かフィッシャーの正確法を用いることが多い。もちろん、その結果(オッズ比やリスク比)の解釈はそれぞれの研究のデザイン(症例対照もしくはコホートや介入研究)に依存することが多いので注意が必要である。下の表は遺伝子多型のアレルがAとa(遺伝子多型で考えればAA, Aa, aaの組み合わせ)の場合で、個体の表現型は疾患を持っているか否かの2つである。つまり2(表現型)×3(遺伝子多型)の表が作成できる。質的アウトカムを扱う解析ではここが最も初歩の段階となる。

表1. 簡単な偶現表(contingency table)

AA Aa aa
疾患群(D) dAA dAa daa
対照群(N) nAA nAa naa


遺伝子多型を扱う場合には、遺伝継承の法則に応じてAAとAaを同じ群として解析することもある。
その一方で、Aaとaaを同じカテゴリーとすることもあり、それに応じて表の作成法は下記の表2と表3のように異なる。
(結局、「個人の表現型としてアレルよりも遺伝子型(ジェノタイプ)であるから解析はアレルベースよりもジェノタイプベースで解析するべきだ」との説もあるし、「アレルごとにmRNAの表現量やタンパク発現量は変化する」というSNPもあるからgenotype-basedもallele-basedの解析も行うべきであるというのが個人的な見解である。)

表2. Aアレルの優性(dominant)モード

AA+Aa aa
疾患群(D) dAA+dAa daa
対照群(N) nAA+nAa naa

表3. Aアレルの劣性(recessive)モード

AA Aa+aa
疾患群(D) dAA dAa+daa
対照群(N) nAA nAa+naa

まとめ

このように整理することが解析の第一歩となる。もちろん、遺伝子を扱う場合は上述のようにメンデルの遺伝形式などを頭に入れておく必要はある。一方で、表を作成した後の解析については次回紹介するように、質的変数を相手にする場合使用するピアソンの {\chi^2}法かフィッシャーの正確法を用いる。つまり、何度も言うようだが正しい表の作成がa SNPと表現型との関連を探索するはじめの1歩なのである。

今回はここまでにしておく


20160208
RF