読者です 読者をやめる 読者になる 読者になる

疫学と医療統計学と遺伝学と時々、大学院生活

疫学を専門とする大学院生の研究に関する備忘録的ページ。

statistics

連続値データから二値データに変換するときの問題

こんばんは。今日は統計解析において議論の的になる「二分法(dichotomization)について」記事を書いておきます。僕のように医学をメインにデータ解析をする人には馴染みの深い問題かと思います。「二分法」の問題については、最近日本語の訳書が発売された…

リッジ回帰による多重共線性の問題回避について

今回は、リッジ回帰によって多重共線性の問題を回避できることを簡単にまとめておきます(わかりやすくまとめたつもりです)。先日(4/28)の記事で紹介した『リッジ回帰を用いた異常検知』で、「リッジ回帰は、多重共線性の問題を回避できる」という性質に…

R 時系列データの異常部位検出(近傍法)

今回も先ほど公開した記事と同様に、『入門機械学習による異常検知-Rによる実践ガイド-』(コロナ社、井出剛著、2015)の中にある「7.1 近傍法による異常検知」ということで、この内容をなぞり、最後に時系列データ解析の際に重要になる窓幅(どれだけの地点…

R リッジ回帰モデルと異常検知

今回は、『入門機械学習による異常検知-Rによる実践ガイド-』(コロナ社、井出剛著、2015)の「6.3 リッジ回帰と異常検知(P165-172)」の内容をもとに政府・官公庁データをもとにして作成した都道府県別の10万人あたりの自殺者数を予測するモデルを作成し、…

R package "BLR"でベイジアンラッソ(Bayesian Lasso regression)

あけましておめでとうございます(疫学会や予防早期医療創成センターのワークショップ等への参加もあり、一ヶ月ぶりの更新です)。 今回はRのパッケージ"BLR"を用いて、ベイジアンラッソを実行する。ちなみに参考にするのは、Cedric Gondroらによる『Genome …

レアバリアント解析

今回はレアバリアント解析についてまとめた資料を公開しておきます。 このスライドの内容 内容は、Lee S, et al (2014) Rare-variant association analysis: Study designs and statistical tests. Am J Hum Genet. をもとにしています。他にも日本語の書籍*…

R package"VennDiagram"でベン図を書く

今日はベン図を描きたいと思います。 (今回は例として、東海三県での多い名字30位についてベン図を書いてみようと思う) パッケージの読み込み library(VennDiagram) まずはベン図で書きたいそれぞれのカテゴリに含まれる要素を書き出す aichi <- c("鈴木","…

R package'metap'を使用して、p値の統合をする

こんにちは。今回は異なる環境や場所で行った同様の実験や研究によって導かれたp値を統合しようという試みがあった時の対処法について、Fisher's methodを取り上げて、今回は説明します。 FIsher's methodとは i個あるp値のlogをとった値を足し合わせて、そ…

R package 'SKAT'を用いて、SKATを実行する vol.2

こんばんは。前回のSKATの記事の内容に少し付け加え(Kernelの種類を増やして検討しただけ)をします。基本的な解析は前回の記事をご参照下さい。 jojoshin.hatenablog.com はじめに 前回の記事にも記載した通り、SKAT()は二値のアウトカムには適しておらず…

Multivariate と Multivariable(どちらも多変量)の違いについて

MultivariateもMultivariableってどっちも「多変量」? こんな疑問を持ったことのある人もいるのではないかと思います。確かに、"Multivariate"と"Multivariable"のどちらも辞書では「多変量」となります。疫学や公衆衛生の分野だけでなく、共変量で調整した…

R for beginners vol.4 「データの要約とビジュアライゼーション」

今回はデータの整頓から少し分析に近いことを始めます。その中でデータを要約し、図示することが解析の一歩かと思い今回の内容にしています。R for beginners vol.1 「Rの紹介と基本的なコマンド」 jojoshin.hatenablog.comR for beginners vol.2 「データの…

RでSteel-Dwass(スティールドゥワス)検定をする

今日はノンパラメトリックな多重比較の一例として、Steel.Dwass testのRでの実行方法を記載する。 (2016年6月13日にコメントされたようにsteel-dwassについてNSM3パッケージにあるコマンドについて追記した。) 方法1 Steel.dwass検定は下記のHP(群馬大学…

Rで残差補正された値を求める

Rの例としてよく使用されるirisデータを用いて、残差を簡単に求める。 特に今回は例として、Sepal.Length(がくの長さ)とSepal.Width(がくの幅)について、残差を求める head(iris) ## Sepal.Length Sepal.Width Petal.Length Petal.Width Species ## 1 5.…

Genetic model (遺伝モデル)とは

今回は特定の遺伝継承のパターンであるGenetic modelについて、記述する。 ここではよく扱われる4つのパターンの性質を定義する。 前提条件 AとBというアレルを持つマーカーMを仮定する。 マーカーMの遺伝子型は、、と表記する。 アレルの頻度は、と表記する…

Rで遺伝子多型とアレルの頻度を算出するコマンド:genotype()

今日はあるSNP(一塩基多型)の遺伝子多型とアレルの頻度を算出するコマンドを紹介する。今回は2016年1月に発売された『実践でわかる!Rによる統計遺伝学』の内容も参考にしている。 初めに 今回使用するデータを丸善のサポートページ(http://pub.maruzen.co…

Rでポアソン回帰分析

今回はRで学ぶデータサイエンスシリーズ『カテゴリカルデータ分析』の第7章ポアソン回帰分析のついてまとめる。 (超基本かと存じます) はじめに ポアソン分布というのは交通事故に代表されるように、その事象が発生する確率が極めて小さい事象に関する分布…

Rでlag effectを探索するときのベクトル生成

今回は気温や湿度、大気中の汚染物質が我々の健康に及ぼす影響について分析する際に用いたいLag effectについてのベクトル生成について記述する。Aというベクトル(1から100までの長さ100のベクトル)に関して過去15日の指標を蓄積したベクトルを作成すると…

American Statistical Association のp値に関する文言について

はじめに どうもご無沙汰しております。先日までアメリカ(SFOからLA、ヨセミテ国立公園など)に旅行(研究ではなく)しておりましたので、更新できませんでした。今回は2016年3月7日にAmerican Statistical Association (ASA)が発表したp値に関する文書「Th…

R package 'SKAT'を用いて、SKATを実行する

今回はSNP-set Kernel Association Test(SKAT)と呼ばれるrare-variantの解析手法についてRのパッケージ'SKAT'を用いて、解説する。 追記 20160908に新しいSKATの記事を公開しています。基本的にはこのページの内容を参照していただき、さらに詳しいところ…