疫学と医療統計学と遺伝学と時々、大学院生活

疫学を専門とする大学院生の研究に関する備忘録的ページ。

罰則付き・正則化回帰モデルについて(About penalized/regularized regression model)

久しぶりの更新になりました。6月末の北海道でのISEE-ISES AC2016への参加とその後は論文執筆に集中していました。ISEE-ISESのアジア支部総会では、pre-conference workshopにも参加し、distributed lag non linear model(DLNM)という時系列分析の一種を学びました。間近で研究者と解析方法についてお話しすることは、解析法の理解および習得の質とスピードに大きく影響することを改めて感じました。内容についてはまた後日こちらにもUPする予定です。

さて、今回は高次元データ解析において盛んに研究されてきた罰則付き回帰モデル(別名:正則化回帰モデル、penalized/regularized regression model)についてまとめます。(複雑な式はなるべく控えて記述しますので、細かい原理は参考文献を参照下さい)

背景および問題

次世代シーケンサーなどの近年の技術的な進歩により、多くの研究者が疾患の遺伝要因の解明に取り組んでいます。特にゲノムワイド関連研究(Genome Wide Association Study: GWAS)と呼ばれる研究は50〜100万個の一塩基多型(single nucleotide polymorphism: SNP)を用いて、ゲノム全体の遺伝子と形質との関連を調べる手法として盛んに行われてきました。一方で、このような高次元のデータ解析には既存の統計学的な方法ではいくつかの課題が存在しています。そのうちの一つが『p >> n問題』です。これは、扱う変数(この場合は遺伝子多型の数、p)が症例数(n)よりもはるかに多い状態を言います。こうしたデータの解析には計算機の高い能力と膨大な時間を必要とします。しかし、この問題に対して、次元を削減する方法として正則化回帰モデルが挙げられています。

正則化回帰モデルとは

正則化回帰モデル(regularized (penalized) regression model)は通常の最小二乗法に制約(罰則)を付け加えて推定量を縮小させる解析法で、制約付き最小二乗法や罰則化回帰モデルとも呼ばれています。大きな特徴としては、1)推定量の算出と2)変数選択です。特に変数選択では、変数を自動的に削減し、解釈のしやすいように少ない変数のモデルを選択できるのも大きな利点です(遺伝子・遺伝子相互作用などの問題もあり)。今回は正則化回帰モデルのうち、基本的なridge回帰、lasso回帰、elastic netの3つについてその特徴を記述します。

1. Ridge回帰

Ridge回帰は線形回帰モデルの回帰係数の二乗和を罰則項とした推定法として提唱されました(Horel and Kennard (1970))。ridge回帰では予測因子(独立変数)がアウトカム(従属変数)と関連がある場合には、分散が小さく誤差も小さくなるという長所があります。一方で、回帰係数を0の方向に縮小するのみであり(完全に0にはならない)、説明変数が非常に多いモデルではモデルの解釈が複雑になる欠点があります。
f:id:ryosukefujii0320:20160706172049p:plain

2. Lasso回帰

Lasso回帰は回帰係数の絶対値の和を正則化項にした推定法です(Tibshirani(1996))。その特徴は、lasso回帰はridge回帰と異なり回帰係数を0にするため、モデルの選択と同時に変数選択を行える点です。すなわち、目的変数に影響のある説明変数だけが自動的に選択できるので、モデルに含まれる変数の数も限定され、解釈が容易(スパースな解が求めることができる)になります。一方で主な欠点として、複数の相関が強い説明変数が存在する場合にはそのグループの中で一つの変数のみを選択することが挙げられます。さらに、p>>nの場合にはn個の説明変数の効果しか探索することができず、十分に個人の遺伝的な性質を検討できない結果につながる可能性もあります。
f:id:ryosukefujii0320:20160706172138p:plain

3. Elastic net

Elastic netはlasso回帰におけるモデル内に取り込める説明変数の数に制限がある問題点を対処できる推定法として提唱されました(Zou and Hastie (2005))。特徴はridge回帰とlasso回帰の両者を組み合わせた罰則化項を持ち、αが0から1の範囲を自由に取ることができる点です。
f:id:ryosukefujii0320:20160706172238p:plain

RidgeとLasso回帰の変数選択性の問題

f:id:ryosukefujii0320:20160706172820p:plain
前述の通り、lasso回帰はridge回帰と異なり変数選択性を持っています。その性質を図示したものがこの図です。この図は二つの回帰係数のみを想定して、正則回帰の性質をわかりやすく図示しています。赤色の楕円は残差平方和(RSS)の等高線であり、同一の線の上であれば、同じRSSを取ることを意味しています。また、青色の部分は罰則領域であり、ridge回帰は絶対値の二乗なので「円」、lasso回帰は「正方形を45度回転したような図」になっています。正則化回帰というのは青色の領域内(これが罰則)で、なるべく内側の等高線(最小のRSS)を取る回帰係数(この場合はβ1とβ2)を選択するモデルというのが本質的な部分になります。この罰則部分を変えることで様々な性質を持つ回帰モデルを作ることができるわけです。ちなみにelastic netは(α=0.5の場合)ridge回帰とlasso回帰の中間のような形をした罰則領域を持ちます。

最後に

今回は非常に簡単に正則化回帰モデルをまとめた。特に詳細に読むことをオススメするのは原著もそうだが、参考文献[5]のAn Introduction to Statistical Learning with Applications in RのP214あたりからである。
これらの基本的な正則化モデルに加え様々なモデルが提唱されている。また、機会があればgrouped lassoやfused lasso、adaptive lassoなどの方法も紹介したい。

参考文献・書籍(個人的には[5]の書籍はオススメです)

[1] Ridge Regression: Biased Estimation for Nonorthogonal Problems, Horel and Kennard (1970)
[2] Regression shrinkage and selection via the lasso, Tibshirani(1996)
[3] Regularization and variable selection via the elastic net, Zou and Hastie (2005)
[4] 正則化法を用いたロジスティック回帰モデルによる多次元データでの変数選択手法に関する研究
[5] An Introduction to Statistical Learning with Applications in R, Springer(http://www-bcf.usc.edu/~gareth/ISL/
Amazon CAPTCHA
f:id:ryosukefujii0320:20160706180854p:plain



20160706
RF