読者です 読者をやめる 読者になる 読者になる

疫学と医療統計学と遺伝学と時々、大学院生活

疫学を専門とする大学院生の研究に関する備忘録的ページ。

Rで遺伝子多型とアレルの頻度を算出するコマンド:genotype()

今日はあるSNP(一塩基多型)の遺伝子多型とアレルの頻度を算出するコマンドを紹介する。今回は2016年1月に発売された『実践でわかる!Rによる統計遺伝学』の内容も参考にしている。

初めに

今回使用するデータを丸善のサポートページ(http://pub.maruzen.co.jp/book_magazine/support/r_toukeiidengaku/index.html)からダウンロード指定使用した。

#fileEncodingはmacの人のみで良いかと思います
fms <- read.delim("FMS_data.txt", header=T, sep="\t", fileEncoding = "cp932")

#fmsというデータを扱うことを宣言する
attach(fms)
パッケージのダウンロード
install.packages("genetics")
library(genetics)
メインのコード
Geno <- genotype(actn3_rs1815739, sep="")
summary(Geno)
結果
Number of samples typed: 1217 (87.1%)

Allele Frequency: (2 alleles)
   Count Proportion
C   1389       0.57
T   1045       0.43
NA   360         NA


Genotype Frequency:
    Count Proportion
C/C   397       0.33
C/T   595       0.49
T/T   225       0.18
NA    180         NA

Heterozygosity (Hu)  = 0.4902142
Poly. Inf. Content   = 0.3699565
コードと結果(NAを除外した場合)
Geno <- genotype(na.omit(actn3_rs1815739), sep="")
summary(Geno)

Number of samples typed: 1217 (100%)

Allele Frequency: (2 alleles)
  Count Proportion
C  1389       0.57
T  1045       0.43


Genotype Frequency:
    Count Proportion
C/C   397       0.33
C/T   595       0.49
T/T   225       0.18

Heterozygosity (Hu)  = 0.4902142
Poly. Inf. Content   = 0.3699565
最後に

もちろん手で計算するような感覚でコードを書くのもいいと思います。
ですが、その仕組みも理解できるようになればこういった関数もかなり便利だと思います。

参考文献

Andrea S Foulkes 『Applied statistical genetics with R』(2009)
www.amazon.co.jp

西山毅監訳 『実戦でわかる!Rによる統計遺伝学』(2016)
www.amazon.co.jp


この本はUse R!の訳本であり、監訳者にもお会いしたが、Rのコードも新しくしたし、内容もかなりブラッシュアップされているからいいよ!とのことであった。
これまで遺伝統計の本は主に、法則や概念的な部分を説明する本が多かったが、この本はかなり実践的で役に立つ。
今後はこの本も使って、知識の定着を図りたい。


20160425
RF