カイ二乗検定の基本概念
カイ二乗検定(\(\chi^2\) 検定)は、主に二つの種類があり、適合度の検定と独立性の検定に分けられます。
以下では、それぞれの検定について詳しく解説し、理論と式を使って説明します。
カイ二乗検定は、観測された頻度データと期待される頻度データの差が偶然の範囲内であるかを評価する検定方法です。この「期待される頻度」とは、もしデータが仮説通りの分布に従っていると仮定した場合の期待値を指します。
カイ二乗検定において、次のようにカイ二乗値(\(\chi^2\) 値)を計算します。
$$\chi^2 = \sum \frac{(O_i – E_i)^2}{E_i}$$
ここで、
- \(O_i\):カテゴリ ( i ) の観測された頻度です。
- \( E_i\):カテゴリ ( i ) に期待される頻度です。
- \( \sum\):各カテゴリに対して合計をとる操作を示します。
例)サイコロを \(60\) 回振った場合、
| 目 | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| 回数 | 8 | 12 | 10 | 14 | 9 | 7 |
この場合、「回数」が \(E_i\) にあたり、さいころ一つ一つの目が出る確率は \(\frac{1}{6}\) なので \(60\div\frac{1}{60}=10\) が \(E_i\) にあたります。
\(\chi^2\) 値が大きいほど、観測値と期待値のずれが大きいことを示し、仮説が成り立たない可能性が高くなります。この\(\chi^2\) 値をもとに、カイ二乗分布に従う確率を計算し、\(p\) 値を求めます。通常、\(p\) 値が \(0.05\) 未満であれば有意とし、仮説を棄却する判断が行われます。
適合度の検定
適合度の検定は、たとえば、サイコロを \(60\) 回投げたとき、各目がほぼ均等に出るかどうかを調べたい場合、適合度の検定を使用します。
適合度の検定の手順
- 帰無仮説と対立仮説の設定
帰無仮説 \(H_0\):データは指定された分布に従う。
対立仮説 \(H_1\):データは指定された分布に従わない。 - 期待値の計算
観測されたカテゴリごとに、期待される頻度 \(E_i\) を計算します。たとえば、サイコロを \(60\) 回振る場合、各目が均等に出るならば、期待される頻度は \(E_i = 60 / 6 = 10\) になります。 - カイ二乗値の計算
各カテゴリについて、観測頻度 \(O_i\) と期待頻度 \(E_i\) を用いてカイ二乗値 \(\chi^2\) を計算します。
$$\chi^2 = \sum \frac{(O_i – E_i)^2}{E_i}$$ - 自由度の決定とp値の計算
自由度 \(df\) は、カテゴリ数 \(k\) から \(1\) を引いたものとして計算します。 \(df = k – 1\)
自由度に応じて、カイ二乗分布表から \(p\) 値を確認します。\(p\) 値が \(0.05\) 未満であれば、帰無仮説を棄却し、データが指定された分布に従っていないと判断します。
適合度の検定の例
サイコロを60回振り、それぞれの目が出た回数が以下であったとします。
| 目 | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| 回数 | 8 | 12 | 10 | 14 | 9 | 7 |
期待される頻度は10です。つまり、目によって出る回数に変化はないと仮定し、その仮定を受容するのか棄却するのかを \(\chi^2\) 値を計算することで推定していきます。
\(\chi^2 = \displaystyle\frac{(8-10)^2}{8}+\frac{(12-10)^2}{12}+\frac{(10-10)^2}{10}+\frac{(14-10)^2}{14}+\frac{(9-10)^2}{9}+\frac{(7-10)^2}{7}\)
\(=\displaystyle\frac{4}{8}+\frac{4}{12}+\frac{0}{10}+\frac{16}{14}+\frac{1}{9}+\frac{9}{7}\)
\(=\displaystyle\frac{1}{2}+\frac{1}{3}+\frac{0}{10}+\frac{8}{7}+\frac{1}{9}+\frac{9}{7}\)
\(=\displaystyle\frac{5}{6}+\frac{17}{7}+\frac{1}{9}\)
\(=\displaystyle\frac{105}{126}+\frac{306}{126}+\frac{14}{126}=\frac{425}{126}=3.37\)
\(\chi^2\) 分布表より、\(\chi^2<\chi^2_{0.05}(5)=11.0705\) なので、最初にした仮定を受容することになり「目によって出る回数は変化しない(可能性が高い)」と言えます。
独立性の検定
独立性の検定は、二つのカテゴリ変数の間に関係があるかどうかを検証するために使われます。例えば、性別と商品の購入状況が関係しているかを調べたい場合に独立性の検定を用います。
独立性の検定の手順
- 帰無仮説と対立仮説の設定
帰無仮説 \(H_0\):\(2\) つの変数は独立している。
対立仮説 \(H_1\):\(2\) つの変数は独立していない。 - 期待頻度の計算
行列形式でデータを配置し、各セルの期待頻度 \(E_{ij}\) を計算します。期待頻度は次の式で求めます。
$$E_{ij} = \displaystyle\frac{(\text{行合計} \times \text{列合計})}{\text{総合計}}$$ - カイ二乗値の計算
各セルについてカイ二乗値を計算し、全セル分を合計して \(\chi^2\) 値を求めます。 - 自由度の決定とp値の計算
自由度は、行数を \(r\)、列数を \(c\) として以下のように計算します。\(df = (r – 1)(c – 1)\)
自由度に基づき、カイ二乗分布表から \(p\) 値を確認します。通常、\(p\) 値が \(0.05\) 未満であれば帰無仮説を棄却し、\(2\) つの変数が独立していないと判断します。
独立性の検定の例
以下のようなデータが得られたとします。
| 観測頻度 | 購入 | 未購入 | |
|---|---|---|---|
| 男性 | 20 | 30 | 50 |
| 女性 | 40 | 10 | 50 |
| 60 | 40 | 100 |
期待頻度を各セルに対して計算し、\(\chi^2\) 値を求めます。
与えられた観測頻度から期待頻度を算出します。
\(E_{ij} = \displaystyle\frac{(\text{行合計} \times \text{列合計})}{\text{総合計}}\) より
| 期待頻度 | 購入 | 未購入 | |
|---|---|---|---|
| 男性 | 30 | 20 | 50 |
| 女性 | 30 | 20 | 50 |
| 60 | 40 | 100 |
\(=\displaystyle\frac{(20-30)^2}{30}+\frac{(30-20)^2}{20}+\frac{(30-40)^2}{30}+\frac{(10-20)^2}{20}\)
\(=\displaystyle\frac{200}{30}+\frac{200}{20}\)
\(=\displaystyle\frac{5}{3}=1.6666 \cdots \)
\(\chi^2\) 分布表より、\(\chi^2<\chi^2_{0.05}(5)=3.84\) なので、最初にした仮定を受容することになり、\(2\) つの変数は独立している。つまり、関連していない可能性が高い。
カイ二乗検定の限界と注意点
カイ二乗検定を適用する際には、いくつかの制約と注意点があります。
- 期待頻度の制限: 期待頻度が5未満のセルが多い場合、カイ二乗検定は適さないとされ、例えばフィッシャーの正確確率検定などの別の検定が推奨されます。
- 連続性の補正: 2×2のクロス集計表に対しては、連続性の補正(イェーツの補正)を適用することがあり、これはカイ二乗値を小さくする補正です。
おわりに
さいごまで読んでいただきありがとうございました!
- 大学受験数学で困っている方
- 公務員試験の数学で困っている方
- 統計学(統計検定)の勉強で困っている方
個人家庭教師やってるので、ぜひコメントやXでご連絡ください。(Xはこちら)
私自身、数学に関して順風満帆に理解できてきたわけではありませんでした。
周りを見渡せば数学の天才がゴロゴロいて、そんな人たちに比べれば私は足元にも及びませんでした。
だからこそ、わからない、理解できない方の気持ちを少しはわかってあげられると自負しております。
数学に困っている方の一助になれれば幸いです。
ご連絡お待ちしております。



質問や感想はコメントへ!