American Statistical Association のp値に関する文言について

はじめに

どうもご無沙汰しております。先日までアメリカ（SFOからLA、ヨセミテ国立公園など）に旅行（研究ではなく）しておりましたので、更新できませんでした。今回は2016年3月7日にAmerican Statistical Association (ASA)が発表したp値に関する文書「The ASA’s statement on p-values: context, process, and purpose」についてまとめておきます。個人的な見解はまとめに少々記載しています。

内容（ASAのpress releaseみたいなものを参考にします）

＜今回のようにp値に関する文言を出す目的・理由＞

量的な評価の解釈を見直すこと
科学的な研究の再現性に関して注目が高くなっていることを広く知らせるため

また、近年は科学的な研究の量が増えており、さらに扱うデータも複雑かつ膨大であることが統計学への知識を必要とし、正しく方法を選び、分析を実施し、正しく解釈することが重要になっているとも述べている。

この文書の中で『良い統計家は良い科学的な研究（実践）^*1において、欠かすことのできない要素である』とも述べられている。
^*1良い研究デザインの設計とその実践、種々の数値的かつ図示による要約、研究のベースにある現象の理解、そしてその背景における結果の解釈、データの要約が意味する量的また論理的な理解とその報告

ASAのエグゼクティブ・ディレクターのRon Wassersteinは「p値は決して、科学的な根拠としての代替とすることを目的としてはいけない」と言っています。また、この文書で"post p < 0.05 era"に対する研究を行うことを記述しています。

また、Jessica Uttsは「ずっとp値がいくつかの分野において、論文にできるか否かを検討するgatekeeper（門番）をしてきた」と述べて、「この明らかな出版バイアスは'file-drawer effect'（ネガティブな結果は報告しない）につながり、統計学的に有意となった研究は出版され、科学的に重要とされる研究は出版されないことになる」と危惧している。また、それは「'p-hacking' and 'data dredging' （p値を偽ったり、データを総ざらしする行為）につながる」とも言っている。

文書で記載している6つの原則

（実際の論文にはそれぞれの原則について簡単な段落が設けてあり、解説されている）

p値が特定のモデルにおいて、データがどれぐらい矛盾しているか（一致しないか）を示している
p値は仮説が正しいという確率や偶然によってそのデータが生じる確率を測るものではない
科学的な結論やビジネス、政策の決定に関して、p値が閾値（一般的には0.05）を通過したという理由だけに依存するべきでない
正しい推論は透明性とfull reportingが必要である
p値もしくは統計学的な有意性は結果の重要性や効果の大きさを測るものではない
p値自体、モデルや仮説を扱う上で良い指標とはならない

「このような内容やその背景にある理由は決して新しいものではなく、統計家や科学者の間では数十年もの間議論されてきた問題である」と前述のUttsは述べている。「しかし、今回は統計家の”コミュニティ”（つまり特定の組織）が初めてこの問題を扱っている」とも

最後に、Wasserteinは「このような議論が科学者のコミュニティに広がり、解釈したり、情報交換したり、そして研究で統計学的な方法による結果を用いる際のより細かいアプローチにつながることを期待している」と統計学（今回は特にp値の問題）の正しい使用への期待を述べている。

まとめ

確かに、これまでp値の議論は山ほどされているし、自身も何度かNatureなどの科学誌が特集しているのも目にしている。今回のASAのstatementがブラックボックス統計学をしている人たちの目に留まればいいし、自身もきちんと解析の裏にある事象を見ていかなければいけないと実感した。

追記（20160310）

この記事をまとめた後で、大学院生の後輩が「有意差検定で...」と学部生に指導している姿を見て、現実的にp値の使用方法を間違えている光景を目の当たりにした。たしかに、統計学の教育の中で分析法は習うけど、p値の扱いってあんまりきちんと扱った印象がない（もちろんp値って何かという簡単な話はある）。ここに今回のような問題が蔓延する原因があり、もう少し組織立った対策が今後は必要だと感じた。

20160310
RF