目次
データの見方/捉え方
学生/社会人関係なく様々な場面でデータを目にします。
データ専門職と呼ばれるデータアナリストやデータサイエンティストでなくても、
昨今はデータを扱うスキルが求められています。
データと一言で言っても、Xの投稿に対するいいね数のような量的なデータだけでなく、
「大変満足」「満足」「不満」「大変不満」などのような質的なデータの場合もあります。どちらにおいてもデータを正しく捉えて適切な解釈を加える必要がありますが、そのために必要な技術は多岐にわたります。
今回は、データの見方/捉え方をデータ解釈学と定義し、ある書籍を参考にしながら記事を書いていこうと思います。
データ解釈学
『データ解釈学』は、データの解釈に焦点を当てた学問分野について詳述した書籍であり、
特に統計学やデータサイエンスを活用するための基本的な概念や手法を解説しています。
本書は、データの背後にある意味を正しく把握し、適切な意思決定に結びつけるための考え方や手法を学ぶことを目的としています。
>>分析者のためのデータ解釈学入門
構成と内容の概要
『データ解釈学』は、以下の三部で構成されています。
各部について、簡単に説明していこうと思います。
第一部 データの性質に関する基礎知識
この部では、以下の章に分けられています。
観測は簡単ではない/誤差とばらつき/データに含まれるバイアス/交絡因子と因果関係/データサンプリングの方法論
第一部を読むと、データを扱うことの難しさはデータ分析だけでなく、そもそも分析するためのデータを収集すること自体も難しいことがわかると思います。
データ収集が難しい理由は、身の回りにあるデータは基本的に誤差を含んでいるからです。
誤差:真の値と観測した値とのずれのこと
また、誤差は、ランダム誤差+バイアスで構成されています。
ランダム誤差:観測するたびに観測値が異なる値を表示してしまう原因
バイアス:何度観測しても含まれる一定の誤差(体重を測る場合の服の重さ)
ランダム誤差やバイアスを無視してしまうと分析するためのツールがどれだけ優秀でも正しい結果は得られません。
データの意を反しない程度にいかにこれらの誤差を取り除くかが重要となります。
第二部 データの分析に関する基礎知識
この部では、以下の章に分けられています。
データの扱い/一変数データの振る舞い/変数の間の関係を調べる/多変量データの解釈する/数理モデリングの要点
データを正しい形で与えられたとして、問題設定の仕方や分析手法を正しく選択するには、
分析の目的と手法全体の俯瞰的な理解が必要となります。
最近では、データ分析するためのツールの発展により比較的誰でも簡単に分析ができるようになってきました。
しかし、その状況に合わせた分析目的の設定や手法の選定は現場にいる方の選球眼が必要になります。
どんな課題を解決したいのかをしっかりと定めた上で、
・因子分析
・主成分分析
・クラスター分析
・仮設検定
・推定
などの手法を選定します。
第三部 データの解釈・活用に関する基礎知識
この部では、以下の章に分けられています。
データ分析の罠/データ解釈の罠/データ活用の罠
データ分析において最も重要な過程が、結果の解釈です。
実際には、一度の分析で解決することはほとんどなく、様々な手法を組み合わせて総合的に判断していきます。また、分析者にとって都合の良いように解釈してしまう認知バイアスによって、本質的でない特徴を拡大解釈してしまう場合もあります。
第三部では、このように結果の解釈で起こりがちな問題を紹介していきます。
まとめ
さいごまで読んでいただきありがとうございました!
このブログでは統計学を学びたい学生/社会人向けに記事を書いています。
【最新】こちらの記事がおすすめ!
>>データアナリストになりたい方が読むべき本一覧
質問や感想はコメントへ!