統計学と疫学と時々、助教生活

疫学を専門とする助教の研究に関する備忘録的ページ。

【2021年夏】データの可視化おすすめ書籍5選|アカデミア版

さてさて、8月もあっという間に終わり9月に入っております。今回は、データの可視化に関する書籍について、独断と偏見によって5冊を選出し、簡単なレビューとともに紹介したいと思います(2021年9月1日現在)*1。「書籍は一通り読んでいるので・・・」という方には、書籍以外にも可視化に関する論文を番外編として紹介しておりますので、ぜひそちらをご覧ください!それでは、早速紹介していきます。

f:id:ryosukefujii0320:20210831183631j:plain

【1. データ分析のためのデータ可視化入門】

www.kspub.co.jp

書誌情報
著者 キーラン・ヒーリー著、瓜生真也・江口哲史・三村喬生訳
出版年 2021年
ページ数 365ページ
価格 3520円
出版社 講談社
書評

「入門」と題してあるものの、この一冊があれば、可視化についてほとんどのことが網羅できると言っても過言ではないバランスのとれた書籍だと思います。こちらは、デューク大学のキーラン・ヒーリー教授が書いた『Data Visualization: A practical introduction』の翻訳書になりますが、この内容を日本語で読めるのは大変有り難い限りです。(英語verは、オンラインでフリーで読むことができます)

特に「第1章 データを見る」はデータ可視化を行う前に必読のセクションだと思います。まさに、この本の目指す可視化の動機〔why〕が示されています。個人的には、この「文法」を学ぶことで、様々な状況(データタイプ、変数の数など)に適したグラフの選択、描画をスムーズに進めることが出来ると思います。

個人的にこの書籍で嬉しかったもう一点は、地図情報の可視化についてもまとめられている点です。「第7章 地図を描画する」では、アメリカ(恐らく原著の影響で)を題材として様々な地理空間データを可視化するデザインが扱われています。専門書で扱われることの多い地図データがこのように含まれているのは大変勉強になりましたし、公衆衛生・疫学的な観点からも貴重な情報と思いました。日本地図の可視化に関する情報は、翻訳者の1人である瓜生さんのページ*2が参考になります。

【2. Rグラフィックスクックブック ―ggplot2によるグラフ作成のレシピ集】

www.oreilly.co.jp

書誌情報
著者 ウィンストン・チャン著、石井弓美子・河内崇・瀬戸山雅人訳
出版年 2019年
ページ数 451ページ
価格 3960円
出版社 オライリージャパン
書評

Rでの可視化といえば、この本を思い浮かべる方が多いんではないでしょうか。内容自体は辞書であるかと思えば、使いやすいマニュアルであり、これがあれば「描けない(実装できない)グラフはない」というほど痒いところまで手が届く一冊です。

本書の1番の魅力はggplot2の真髄とも言える書き加える記法やその自由度をフルにカバーしている点だと思います。さらに、それらを一つずつ細分化し「レシピ」として紹介しているので、目次を見るだけで、やりたい処理が簡単に見つけることができます。

また、「15章 データの前処理」として、可視化に必要なデータの加工が簡潔にわかりやすく説明されています。ここも困った時のhow toとして使用できそうです。

一方で、可視化に関する哲学はほとんど記されていませんし、各グラフの特徴については整理されているわけではありません(ggplot2の本なのでそれでOK)。可視化に関する理論的な部分は、他書で学んでおく必要はありそうです。

【3. データビジュアライゼーションーデータ駆動型デザインガイドー】

www.asakura.co.jp

書誌情報
著者 アンディ・カーク著、黒川利明訳
出版年 2021年
ページ数 272ページ
価格 4950円
出版社 朝倉書店
書評

やはり、なんといっても「49種類の実例から学ぶグラフ表現」が本書のハイライトだと思います。各グラフを1ページに落とし込んだ部分は、まさにハンドブックとしての真髄ですね。そのほかにも、情報の可視化について一線で取り組む実務者の思考がコラムとして散りばめられている点も特筆すべき内容です。より「生き生き」した可視化マニュアル本という印象です。

立場・役割の違いや読者(届け先)によるチェックポイントの違いなど、よりビジネス的な視点での議論が多いですが、同じような考え方はアカデミアでも転用できそう。研究室のミーティングから学会発表、論文執筆、就職プレゼンなど多様な状況に合わせて変化させることは確かに重要になります。

個人的な意見ですが、各種グラフをCHARTSという分類によりグループ分けしている点が、少し馴染みがなく分かりづらい印象を受けました。また、特定のプログラミング言語での実践方法を取り上げる内容はありません。

【4. 情報可視化ーデータ分析・活用のためのしくみと考えかたー】

www.morikita.co.jp

書誌情報
著者 髙間康史著
出版年 2017年
ページ数 117ページ
価格 2640円
出版社 森北出版
書評

可視化の哲学に優れた書籍だと思います。「可視化」を詳しく勉強したい人にオススメ。可視化の結果、洞察を得て、何かの行動に変える、など日常的に行われている事象やプロセスを上手く言語化しています。また、実際に可視化したものをどのように届けるか、というアウトプットの方法論まで汎用性の高い内容(特定のプログラム言語を出さない形式)で紹介しています。

可視化の意味を明確に分解していたり(例:ストーリーテリング、探索的データ分析、モニタリング)、実際に生成したグラフなどを可視化する際に、システム上気をつけるべきポイントもかなり細かく記されていて(例:どのように提示するのか、どんな機能があると良いのか、など)、大変勉強になりました。

各グラフの長所や短所などには、ほとんど触れていないこと、一般的な説明に終始していること、それらを実践する特定の言語やソフトウェアについては触れていない(著者もあえて記していないことを前書きで宣言している)ことから即戦力には欠けるかもしれません。

【5. Fundamentals of Data Visualization】

clauswilke.com

書誌情報
著者 Wilke CO.
出版年 2019年
ページ数 390ページ
価格 69.99 USD
出版社 O’Reilly Media, Inc.
書評

この書籍がオンラインでフリーにアクセスできることは、正直感謝しかありません。分量とそこから得られる知識のバランスから言っても、研究者(何らかのアウトプットをする者)として一読に値すると思います。

特筆すべきポイントとしては、「bad」「ugly」など良くない事例を実際に示して、それに対する解決策を明示していることが挙げられます。これは、文章で理論的な側面を説明されるよりも直感的に理解を進めるもので、個人的には一番気に入っている点です。さらに、Rのコードがgithubにて全て公開されている点も実践的な評価を押し上げています。

さらに、「Miscellaneous topics」(雑多な題材)として、画質の問題やReproducibility/Repeatabilityの問題にも触れており、可視化について幅広い領域をカバーしています。

これらの強みに対して、文章内での参考文献が少ないことは若干気になるポイントではあります。実践を支える理論的な背景(それを示す文献)を説明する部分も割り当てられていますが、他の書籍に比べると相対的に少なく感じます。ただし、「Annotated bibliography」として巻末に文献をまとめて提示しているので、それぞれのトピックで詳しく知りたい場合は、こちらを参照するといいかもしれません。

【番外編:論文・執筆ガイドライン

可視化について学ぼうとすると、書籍を頼りがちですが、、、この辺りの論文やガイドラインには、データの可視化についてのエッセンスが詰め込まれています。

最後に

紹介は以上です。ご覧くださりありがとうございました。個人的には、1+2(5も無料で読める)が有れば(理論を理解し実践できれば)かなり可視化レベルは上がると思います。さらに、詳しく色んなケースに対応できるようにするには3ないし4を読むと良いのかなと感じています。

恐らく多様な習熟度によってインプットすべき情報や使いたいプログラミング言語は異なるかと思いますが、少しでも参考になれば良いかと思います。


20210901
RF


———————————————————————
ちなみに、こんな書籍やウェブサイトもあります(一応、可視化に関連しそうな書籍・ウェブサイトで、読んだものはすべて載せておきます)。

【プログラミング・アプリケーション系】
【特殊系(地理空間データ)】

*1:著者は疫学と呼ばれる医学分野を専門とし、またRを中心に使用する研究者です

*2:Rを使った地理空間データの可視化と分析: https://tsukubar.github.io/r-spatial-guide/