目次
検定が使用される場面
統計学における「検定」は、データを分析して仮説が正しいかどうかを判断するための手法です。
例えば、新薬が従来の薬よりも効果があるかどうかを検証する場合や、ある商品がターゲット市場でどの程度受け入れられているかを調べる際に利用されます。
具体的には、「平均値が異なるかどうか」や「あるパラメータが特定の値と一致しているかどうか」といった問いに対して、データを基に結論を出すために行われます。このような場面で、Z検定やT検定がよく用いられます。
T検定の概要と計算式
T検定は、小さなサンプルサイズ(通常は30以下)の場合や母集団の標準偏差が不明な場合に用いられます。
T検定には、以下の三つの主要なタイプがあります。
1標本T検定
あるサンプルの平均が特定の値と異なるかどうかを検証します。
\(t = \displaystyle\frac{\bar{X} – \mu}{\frac{s}{\sqrt{n}}}\)
ここで、\(\bar{X}\) は標本平均、\(\mu\) は比較対象の母平均、\(s\) は標本の標準偏差、\(n\) はサンプルサイズです。
2標本T検定
二つの独立したサンプルの平均値が異なるかどうかを検証します。
\(t = \displaystyle\frac{\bar{X}_1 – \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}}\)
ここで、\(\bar{X}_1と\bar{X}_2\) はそれぞれのサンプルの平均、\(s_1\) と \(s_2\) はそれぞれのサンプルの標準偏差、\(n_1\) と \(n_2\) はそれぞれのサンプルサイズです。
対応のあるT検定
同じ被験者グループに対して異なる条件下で測定を行い、その結果を比較します。
\(t = \displaystyle\frac{\bar{D}}{\frac{s_D}{\sqrt{n}}}\)
ここで、\(\bar{D}\) は差の平均、\(s_D\) は差の標準偏差、\(n\) は対数です。
Z検定の概要と計算式
Z検定は、通常、サンプルサイズが大きく(30以上)、母集団の標準偏差が既知の場合に用いられます。
Z検定の代表的なタイプは以下の通りです。
1標本Z検定
あるサンプルの平均が特定の値と異なるかどうかを検証します。
\(Z = \displaystyle\frac{\bar{X} – \mu}{\frac{\sigma}{\sqrt{n}}}\)
ここで、\(\bar{X}\) は標本平均、\(\mu\) は母平均、\(\sigma\) は母集団の標準偏差、\(n\) はサンプルサイズです。
2標本Z検定
二つの独立したサンプルの平均値が異なるかどうかを検証します。
\(Z = \displaystyle\frac{\bar{X}_1 – \bar{X}_2}{\sqrt{\frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2}}}\)
ここで、\(\bar{X}_1\) と \(\bar{X}_2\) はそれぞれのサンプルの平均、\(\sigma\) は母集団の標準偏差、\(n_1\) と \(n_2\) はそれぞれのサンプルサイズです。
T検定とZ検定の使い分け
T検定とZ検定は、使用条件によって使い分けられます。基本的には以下のように判断します。
① サンプルサイズ
サンプルサイズが小さい場合(一般的に30以下)はT検定を、大きい場合はZ検定を使用します。
② 母集団の標準偏差の既知/未知
母集団の標準偏差が既知であればZ検定を、未知であればT検定を使用します。
③データの性質
データが正規分布に従うと仮定できる場合、T検定でもZ検定でも使用可能ですが、データの分布が不明瞭な場合は、非パラメトリック検定の検討も必要です。
Z検定とT検定の例題
Z検定の例題
問題:ある学校で、生徒の平均テストスコアが85点であるとします。この学校の新しい学習プログラムの導入後に、100人の生徒を対象にテストを実施したところ、平均スコアが87点、標準偏差が10点でした。このプログラムが成績に有意な影響を与えたかをZ検定で検証します。
解答:
帰無仮説 (\(H_0\)):プログラム導入後の平均スコアは85点である。
対立仮説 (\(H_1\)):プログラム導入後の平均スコアは85点ではない。
\(Z = \displaystyle\frac{87 – 85}{\frac{10}{\sqrt{100}}} = \frac{2}{1} = 2\)
有意水準5%でのZ値:1.96
結論:計算されたZ値が 1.96 を超えているため、帰無仮説を棄却し、プログラムが有意に成績に影響を与えたと結論付けられます。(Z値は正規分布表に載っています。ネットで検索して見てみましょう。)
T検定の例題
問題:同じ学校で、あるクラスの生徒の期末試験の得点が10人のサンプルで得られました。平均得点は80点、標準偏差は5点でした。このクラスの生徒の平均得点が75点よりも有意に高いかどうかをT検定で検証します。
解答:
帰無仮説 (\(H_0\)):クラスの平均得点は75点である。
対立仮説 (\(H_1\)):クラスの平均得点は75点よりも高い。
\(t = \displaystyle\frac{80 – 75}{\frac{5}{\sqrt{10}}} = \frac{5}{1.58} \approx 3.16\)
自由度9での有意水準5%のt値:約2.262
結論:計算されたt値が2.262を超えているため、帰無仮説を棄却し、このクラスの平均得点が75点よりも有意に高いと結論付けられます。(t値はt分布表に載っています。ネットで検索して見てみましょう。)
まとめ
Z検定とT検定は、データの性質やサンプルサイズに応じて使い分けられる重要な統計手法です。
適切な検定を選択することで、データに基づいた信頼性の高い結論を導くことができます。
実際のデータを使用して検定を行う際には、仮説の設定とその検証が鍵となります。Z検定とT検定の使い分けを理解することで、データ分析の精度を高めることができるでしょう。
さいごまで読んでいただきありがとうございました!
このブログでは統計学を学びたい学生/社会人向けに記事を書いています。
【最新】こちらの記事がおすすめ!
>>データアナリストになりたい方が読むべき本一覧
質問や感想はコメントへ!