疫学と医療統計学と遺伝学と時々、大学院生活

疫学を専門とする大学院生の研究に関する備忘録的ページ。

R for beginners vol.3 「データのクリーニングと編集」

今回は先週のデータ入力や出力に続いて、実際の解析を行うにあたって必要なNAの除外や列の追加などのコマンドを学習する。 (今回で3回目であるが、この5回のコースは初心者Rユーザーのためのものであり、基本的な内容で構成されていることを再度確認してお…

R package'tableone'のCreateTableOne関数で表1を書く

今回は疫学などヒトを対象とした研究で対象者の特性として、主な変数の要約することが多くありますが、その表1(table1)を描き、csvとして出力できる便利な関数の紹介です。 その便利な関数はCreateTableOne()関数です。(パッケージはtableoneと言うもので…

Rで残差補正された値を求める

Rの例としてよく使用されるirisデータを用いて、残差を簡単に求める。 特に今回は例として、Sepal.Length(がくの長さ)とSepal.Width(がくの幅)について、残差を求める head(iris) ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.…

R for beginners vol.2 「データの入出力とサブセット」

今回は前週に引き続き、第2回「Rのデータセットの扱い方(入力と出力及びサブセット)」に移る。R for beginners vol.1 「Rの紹介と基本的なコマンド」 jojoshin.hatenablog.com 【今回の狙い】データの取り込み、書き出し方法やデータセットの整理ができる…

R for beginners vol.1 「Rの紹介と基本的なコマンド」

今回から全部で5回ほどに分けて、Rの基本をマスターできる記事(全くの知識がない者向け)を一週間おきに公開する。 Rのコマンド等は言うまでもなくたくさんの方が公開されているので、そちらを参照して頂いた方が良いかもしれない。 一回あたり1.5hを目安に…

R ダミー変数を使用した回帰分析?

今回も比較的簡単な内容であるが、ダミー変数を使用した回帰分析について記録しておく。 ダミー変数は例えば、男女をそれぞれ0,1と与えたものである。性別の水準(level)は男と女の2つであり、ダミー変数は1つで良い。 一方で、「低」「中」「高」のように3…

R 役に立つ小技5選 vol.3

今回は第3回目となる『R役に立つ小技5選』についての記事です。 前回と前々回の記事は下にリンクがあるので、ご参照ください。 No.1 Macを使用して、Rでグラフを日本語で書くと、文字化けするのを解消する方法 par(family="Osaka") hist(データ名, xlab="x軸…

Genetic model (遺伝モデル)とは

今回は特定の遺伝継承のパターンであるGenetic modelについて、記述する。 ここではよく扱われる4つのパターンの性質を定義する。 前提条件 AとBというアレルを持つマーカーMを仮定する。 マーカーMの遺伝子型は、、と表記する。 アレルの頻度は、と表記する…

Rで遺伝子多型とアレルの頻度を算出するコマンド:genotype()

今日はあるSNP(一塩基多型)の遺伝子多型とアレルの頻度を算出するコマンドを紹介する。今回は2016年1月に発売された『実践でわかる!Rによる統計遺伝学』の内容も参考にしている。 初めに 今回使用するデータを丸善のサポートページ(http://pub.maruzen.co…

Rでポアソン回帰分析

今回はRで学ぶデータサイエンスシリーズ『カテゴリカルデータ分析』の第7章ポアソン回帰分析のついてまとめる。 (超基本かと存じます) はじめに ポアソン分布というのは交通事故に代表されるように、その事象が発生する確率が極めて小さい事象に関する分布…

Rでlag effectを探索するときのベクトル生成

今回は気温や湿度、大気中の汚染物質が我々の健康に及ぼす影響について分析する際に用いたいLag effectについてのベクトル生成について記述する。Aというベクトル(1から100までの長さ100のベクトル)に関して過去15日の指標を蓄積したベクトルを作成すると…

R package 'estatapi'を使用して、公開されている政府統計を取得、解析する

今回は先日公開されたばかりのRパッケージ'estatapi'を使用して、政府統計を取得し、可視(グラフ)化する。 ちなみに参照する統計表は様々な行動の時間などを収録している社会生活基本調査ということのみ決めておく。 (注意)横に大きなデータは見づらくて…

IBM Edge2015でのPharmacogeneticsに関するプレゼンテーション

今回はIBM Edge2015でのPharmacogenetics(ゲノム薬理学)による個別化医療に関するScott Megill, CEO of Coriell Life Sciencesのpresentationを紹介する。すぐにご覧頂けるように、動画はこのサイトに埋め込んでおきました。www.youtube.com ご覧できない…

American Statistical Association のp値に関する文言について

はじめに どうもご無沙汰しております。先日までアメリカ(SFOからLA、ヨセミテ国立公園など)に旅行(研究ではなく)しておりましたので、更新できませんでした。今回は2016年3月7日にAmerican Statistical Association (ASA)が発表したp値に関する文書「Th…

R package'nnet'と'MASS'を用いて多項ロジスティック回帰分析を行う

今回はRのパッケージ'nnet'を用いて、多項ロジスティック回帰分析を実施する。 はじめに よく医学の論文で目にするのが「ロジスティック回帰分析」である。このように何も定義していない場合は、結果変数が二値(Yes or No)である二項ロジスティック回帰分…

R package 'ggmap'を用いたマッピング

今回は'ggmap'と呼ばれるパッケージを使用して、愛知県にあるナゴヤドームへの経路(最寄駅(大曽根駅)から)を図示することにする。 1. 早速、パッケージのインストールと読み出す install.packages("ggmap") library(ggmap) 2. 地名で緯度経度をグーグル…

R 役に立つ小技5選 vol.2

今回は先日(2016-02-02)の記事「R 役に立つ小技5選」で紹介したものと同様にRの役に立つちょっとしたコマンドvol.2を紹介する。 jojoshin.hatenablog.com No.1 二つのデータフレームを指定の列で結合し、共通の行のみ残す。 merge(x = データフレーム1, y …

飲酒と遺伝子の関係

今回は飲酒と遺伝子の話。 比較的わかりやすい内容で、数少ない一般の人にも読みやすい記事にしました。 はじめに お酒に「強い」「弱い」ってありますよね。顔が赤くなったり、気持ち悪くなったり、二日酔いになったり、それぞれ個人差があると思いますが、…

R package 'SKAT'を用いて、SKATを実行する

今回はSNP-set Kernel Association Test(SKAT)と呼ばれるrare-variantの解析手法についてRのパッケージ'SKAT'を用いて、解説する。 追記 20160908に新しいSKATの記事を公開しています。基本的にはこのページの内容を参照していただき、さらに詳しいところ…

質的形質の解析手法1-まずは表を書く-

今回は質的な形質をアウトカム(疾患の有無、基準値以上もしくは以下)とするデータの評価方法の第一歩について記述する。例によって、遺伝子多型を利用した解説ではあるが、一般的な質的変数の評価も非常に似ているので、参考にしてほしい。 (なお、今回の…

R 役に立つ小技5選

今回はデータハンドリングで役に立つ小技を5つだけ紹介する。(個人的に忘れやすいが、意外と役に立つものをpick upする) NO.1 「『不正なマルチバイト文字があります』のエラーを出ないようにする(おそらくmac OS Xのみ)」 このエラーについてはexcelの…

Rでglmを用いてオッズ比を算出するコマンド

今回はRを用いた場合のオッズ比の求め方を記述しておく。 (オッズ比がで求めることができることを知っていれば、簡単に理解できる。) はじめに 医学研究を行う上で、なんらかの指標で群分けしたグループでのある事象のおこりやすさ(オッズ)を比較するこ…

mach2datのexample dataを動かす方法

今日はimputationされたGWASデータの解析を行うのツールであるmach2datの使用方法について記述する。 (全く分からず情報系の友人に尋ねたところすぐに返事が来て、できるようになった。大変ありがたい限りである。) mach2datとは machによってインピュテー…

Power Programの紹介

今回はsingle marker analysisでのサンプルサイズとパワーアナリシスに有用なNational Cancer Instituteによって開発されたフリーツールを紹介する。This introduction to the Power program, which is a useful tool to calculate smaple size and power fo…

QCの実行

今回は先日書いたGWASのQCに関して、『Primer to Analysis of Genomic Data using R』の第3章のサンプルデータを使用して実施する。 はじめに ここで使用するデータはヒトではなく、83頭の羊54,977SNPsを使用してトレーニングする。今回のSNPsはイルミナ社の…

ゆったり、やくも

今回は本ブログの一部「時々、大学院生」といった当たりの話題です。実は鳥取県米子市で行われる第26回日本疫学会学術大会に向けて移動しております。もちろん学会での発表がメインなのですが、地方に行くとその地域の乗り物や文化に触れる楽しみがあります…

コーヒー摂取と健康(死亡)との関連

今回は一般的な話題であり、多くの人に興味を持ってもらえる「コーヒーと健康」についてまとめる。実際に、数万人規模を対象とした生活習慣と健康との関連を明らかにできるのも「疫学研究」の醍醐味である。 はじめに 以前からコーヒーを飲むことが健康に良…

R package 'maptools'と'spsurvey'を利用して、カラーマップを作成する。

今回は様々な指標をカラーマップを使用して、地図上に見やすく可視化するコードについてまとめる。 (特別なパッケージとしてはmaptoolsとspsurveyが挙げられる。) 今回は事例として、愛知県の男女の平均寿命を地図上にプロットすることを最終目的とする。 …

GWASにおけるQC(Quality control)の手順

今回はGWASのデータ解析のプロセスの中でも最も重要と言っても過言ではないQuality Controlについてまとめる。 米国Vanderbilt大学(生物統計等で著名な大学)のStephan Turnerらが2011年に発表した「Quality Control Procedures for Genome Wide Associatio…

R package 'qqman'の基本的な使用法

今回はRのqqmanというパッケージの基本的な使い方をまとめる。 【ページ下部に追記あり(20160922)】 概要 現在、ゲノム全体10万から50万ほどのSNPsと疾患との関連を探索するGWASが可能になっている。そこでその結果を可視化する際に用いるのがマンハッタン…