読者です 読者をやめる 読者になる 読者になる

疫学と医療統計学と遺伝学と時々、大学院生活

疫学を専門とする大学院生の研究に関する備忘録的ページ。

「論文の図って大事だぞ!!(特に小標本の場合)」っていう論文の紹介

クイズ:これ何を意味している図でしょう?

f:id:ryosukefujii0320:20160624001750p:plain



どうもこんばんは。みなさん冒頭の棒グラフとその横のデータの分布を示した図の意味は分かったでしょうか。結論から言えば、右のようにデータの分布が異なっても、実は同じ棒グラフになるという事例でした。
(もちろん、表の真下にある検定結果も異なっています。これは恐ろしい問題ですね。)

というわけで、今回は珍しく、論文紹介をしたいと思います。きっかけは友達とスタバで「データの要約や図示」について話してたことで、この論文の存在を思い出し、何言ってたかなーときちんと整理しようと思いました。

今回紹介する論文は

Beyond Bar and Line Graphs:
Time for a New Data Presentation Paradigm

(Weissgerber TL, et al. PLOS BIOLOGY (2015))です。

イントロ

まず、この論文(レビュー)では2014年1月1日から3月31日までに生理学系の雑誌に掲載された論文のうち703報について検討しています。
生理学系の雑誌は、ヒトを対象とした研究から動物実験、in vitroの実験まで幅広い研究領域を持っていることを理由に選ばれています。
イントロでは、「論文の図ってめちゃめちゃ大事」というメッセージを冒頭にして、その後に図示の方法について現状とそれに対する理想的な方法をまとめています。

まず、今の図示=イケてないの説明や理由はこんな感じで記述されています。
f:id:ryosukefujii0320:20160624010552j:plain

それに対して、理想的な論文内の図はこんな感じと記載されています。
f:id:ryosukefujii0320:20160624010600j:plain

いよいよ本題

f:id:ryosukefujii0320:20160624010612j:plain
彼らがレビューした論文の中で、棒グラフを少なくとも1個以上含む論文はなんと85.6%でした。このうちの多く(77.6%)はmean±SEで示していて、一方でmean±SDは15.3%でした。
また、折れ線グラフや点とエラーバーのグラフも少なくとも1個以上の論文が61.3%でした。これらに対して、データの分布などの情報を提供することができる図を一個以上使用している論文は、散布図13.4%、箱ひげ図5.3%、ヒストグラム8.0%にとどまっていました。

f:id:ryosukefujii0320:20160624001736p:plain
さて、ここで同じデータを棒グラフにSDやSEを表示したものと単変量の散布図を示したものを並列して表示します。これだけでも大きく印象が異なります。特に棒グラフではデータの分布に関する情報はマスキングされます。この論文では、小標本の場合には分布を重視したunivariateなscatter plot(パネルCのような図)を推奨しています。また、mean±SEかmean±SDかどちらで表すべきかは、生物統計などの専門家でも意見が分かれています。なので、使う側としてはそれぞれの意味を知っておくことを推奨しています。(これには同意です。)

最後に、分布の情報を含んだ図示が活発な議論を生み、読者をより良い執筆者にするというような内容のまとめがありました。

標本数が十分多い場合にのみ有効な要約統計量

f:id:ryosukefujii0320:20160624003623p:plain
今回の研究では上の図に示すように、1グループあたりの最小標本数の中央値は4であり(25%値は3、75%値は6)、最大標本数の中央値は10であり(25%値は6、75%値は15)でした。
この場合には単変量の散布図(univariate scatter plot)をこの筆者らは推奨しています。また、棒グラフ、折れ線グラフ、箱ひげ図による統計量の要約は、十分な標本数の時に有効であるとしています。また、ヒストグラムも同様であり、標本数がなければ分布の形状を把握することは困難であると記述してます。

まとめ(リコメンド)

論文の最後に下記の事項を提案しています。
f:id:ryosukefujii0320:20160624010621j:plain

この論文のすごくいいところ

早速、散々論文でも推奨するだけあって、univariateなscatter plot(対応のあり・なし)を描けるエクセルのフリーツールを紹介してくれています。もし、使いたい方は下記のURLにアクセスしてください。
https://www.ctspedia.org/do/view/CTSpedia/TemplateTesting

最後に

いろんな状況もあり、一概に「この時はこの図」とは言えないのも現状です(分野によっても大きく異なります)。ビッグデータだのなんだの言われるこのご時世ですが、医学のまれな疾患や生態学の観察困難な生物などの小標本データの解析はまだまだ存在します。小標本の場合には、分布の異なる一つのデータの扱い方によって大きく結果が異なります。その点で分布の情報を明らかにして、議論するのは正当かつ有意義なことだと思います(まさに統計リテラシー的な部分)。確かに、論文の最後に述べているようにこういうベーシックな統計を教える統計家、疫学、公衆衛生などの分野の先生は往々にして、大規模なデータを扱っていることを前提にするので、気をつけようと思いました。


ご意見やご感想、その他不備等ありましたらコメントお願いします。


20160624
RF