この記事を書いたのはこんな人

- 国立大学大学院数学科修了
- 元教員
- 統計検定準1級
- 数学検定準1級
- kaggler
この記事を書いたのはこんな人
yu-to☑️ 国立大学大学院数学科修了
☑️ 元教員
☑️ 数学検定準1級
☑️ 統計検定準1級
☑️ kaggler
はじめに
チェビシェフの不等式と、それを使った大数の法則(弱大数の法則)の証明を、途中式もできるだけ丁寧にまとめていきます。
前提と記号
確率変数 \(X\):\(X_1\), \(X_2\), \(\dots\), \(X_n\) は独立で同一分布に従うとする。その期待値を \(\mu\), 分散を \(\sigma^2\) とする。
まず、チェビシェフの不等式の前に、その元となる マルコフの不等式 を証明します。そのあとでチェビシェフを導き、最後に 弱大数の法則 を証明します。
マルコフの不等式
\(X\) を 非負な確率変数、\(a>0\) を実数とするとき、
$$P(X \ge a) \le \frac{E[X]}{a}$$
が成り立つ。
証明)指示関数を
\(\mathbf{1}_{\{X \ge a\}} = \begin{cases} 1 & (X \ge a \text{ のとき})\\ 0 & (X < a \text{ のとき}) \end{cases}\)と書きます。このとき、
\begin{align} E[Y] &= E[Y \{ \mathbf{1}_{\{X\ge a\}}+\mathbf{1}_{\{X < a\}} \}]\\ &\geq E[Y \{ \mathbf{1}_{\{X\ge a\}} \}]\\ &\geq a E[\{ \mathbf{1}_{\{X\ge a\}} \}]\\ &= a P(Y \geq a) \end{align}両辺を \(a > 0\) で割ると
$$P(X \ge a) \le \frac{E[X]}{a}$$
となり、マルコフの不等式が示されました。
チェビシェフの不等式
次に、本題のチェビシェフの不等式を示します。これは「平均から大きく外れる確率」を分散を用いて上から抑える不等式です。
確率変数 \(X\) が有限な期待値 \(\mu=E[X]\) と有限な分散 \(\sigma^2=Var(X)\) を持つとする。
任意の \(\varepsilon>0\) に対して
$$P(|X – \mu| \ge \varepsilon) \le \frac{\sigma^2}{\varepsilon^2}$$
が成り立つ。
証明)
\(Y=(X-\mu)^2\) とおくと、必ず \(Y\leq 0\) なのでマルコフの不等式が使えます。パラメータとして \(a=\varepsilon^2>0\) をとると
$$P(Y \ge \varepsilon^2) \le \frac{E[Y]}{\varepsilon^2}$$
となります。ここで左辺は
$$P(Y \ge \varepsilon^2)=P \bigl((X – \mu)^2 \ge \varepsilon^2\bigr)$$
ですが、\((X – \mu)^2 \ge \varepsilon^2\) は両辺非負なので平方根をとると、ゆえに
\begin{align} P(Y \ge \varepsilon^2)&=P \bigl((X – \mu)^2 \ge \varepsilon^2\bigr)\\ &=P(|X – \mu| \ge \varepsilon) \end{align}となります。一方、右辺の期待値 \(E[Y]\) は
$$E[Y] = E[(X – \mu)^2] = Var(X) = \sigma^2$$
です。よって、マルコフの不等式から
\begin{align} P(|X – \mu| \ge \varepsilon) &= P(Y \ge \varepsilon^2)\\ &\le \frac{E[Y]}{\varepsilon^2}= \frac{\sigma^2}{\varepsilon^2} \end{align}が得られます。これでチェビシェフの不等式が証明されました。
弱大数の法則(チェビシェフを使った証明)
\(X_1\), \(X_2\), \(\dots\) を独立同分布な確率変数列とする。それぞれの期待値と分散を \(E[X_i] = \mu,\quad Var(X_i) = \sigma^2 < \infty\)とする。
標本平均 \(\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\) について、任意の \(\varepsilon > 0\) に対して
$$\lim_{n \to \infty} P(|\overline{X}_n – \mu| \ge \varepsilon) = 0$$
が成り立つ。これは「標本平均が真の平均 に確率的に近づく」、つまり \(\overline{X}_n\) が \(\mu\) に確率収束することを意味します。
ステップ 1:\(\overline{X}_n\) の期待値
\(\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\) なので、期待値の線形性より
\begin{align} E[\overline{X}_n] &=E\left[\frac{1}{n}\sum_{i=1}^n X_i\right]\\ &=\frac{1}{n}\sum_{i=1}^n E[X_i] \end{align}仮定より \(E[X_i] = \mu\) なので
\begin{align} E[\overline{X}_n] &=\frac{1}{n}\sum_{i=1}^n \mu\\ &=\frac{1}{n} \cdot n\mu = \mu \end{align}つまり、標本平均の期待値は元の母平均 \(\mu\) と一致します。
ステップ 2:\(\overline{X}_n\) の分散
分散の定義より
$$Var(\overline{X}_n) = Var\left(\frac{1}{n}\sum_{i=1}^n X_i\right)$$
まず、定数倍の分散の公式 \(Var(cY) = c^2 Var(Y)\)を使うと
\begin{align} Var(\overline{X}n) &=Var\left(\frac{1}{n}\sum_{i=1}^n X_i\right)\\ &=\frac{1}{n^2} Var\left(\sum_{i=1}^n X_i\right) \end{align}さらに、\(X_i\) が互いに独立であるので、分散は加法的になり
$$Var\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n Var(X_i)$$
となります。仮定より \(\mathrm{Var}(X_i) = \sigma^2\) なので
$$Var\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n \sigma^2= n\sigma^2$$
したがって、
$$Var(\overline{X}_n) = \frac{1}{n^2} \cdot n\sigma^2= \frac{\sigma^2}{n}$$
が得られます。
ステップ 3:チェビシェフの不等式の適用
チェビシェフの不等式より、任意の \(\varepsilon > 0\) に対して
$$P(|Y – E[Y]| \ge \varepsilon) \le \frac{\mathrm{Var}(Y)}{\varepsilon^2}$$
が成り立つので、ここで \(Y = \overline{X}_n\) として適用します。
$$P(|\overline{X}_n – E[\overline{X}_n]| \ge \varepsilon) \le \frac{Var(\overline{X}_n)}{\varepsilon^2}$$
ステップ 1 より \(E[\overline{X}_n] = \mu\)、ステップ 2 より \(Var(\overline{X}_n) = \sigma^2 / n\) だったので
$$P(|\overline{X}_n – \mu| \ge \varepsilon) \le \frac{\sigma^2 / n}{\varepsilon^2}= \frac{\sigma^2}{n\varepsilon^2}$$
を得ます。
ステップ 4:極限をとる
上の不等式はすべての \(n\) に対して成り立つので、両辺の \(n \to \infty\) の極限を考えます。右辺は
$$\frac{\sigma^2}{n\varepsilon^2} \rightarrow 0 (n \rightarrow \infty)$$
です。左辺は確率で \(0\) 以上 \(1\) 以下の範囲にあります。不等式
$$0 \le P(|\overline{X}_n – \mu| \ge \varepsilon)\le \frac{\sigma^2}{n\varepsilon^2}$$
が成り立つので、はさみうちの原理により
$$\lim_{n \to \infty} P(|\overline{X}_n – \mu| \ge \varepsilon) = 0$$
が従います。これは「任意の固定された \(\varepsilon > 0\) に対して、\(n\) を大きくすると、標本平均が \(\mu\) から \(\varepsilon\) 以上ズレる確率は \(0\) に近づく」ということです。従って、\(\overline{X}_n\) は \(\mu\) に確率収束するので、弱大数の法則が証明されました。
まとめ
さいごまで読んでいただきありがとうございました!
- 大学受験数学で困っている学生の方
- 公務員試験の数学で困っている学生/社会人の方
- 統計学(統計検定)の勉強で困っている学生/社会人の方
個人家庭教師やってるので、ぜひコメントやXでご連絡ください。(Xはこちら)
時間や料金などは相談して決められればと思っておりますが、塾に通うよりは高コスパかなと思います。また、基本的にはオンラインでの授業を想定していますが、場所によっては直接の指導が可能です。(プロフィール)
これまでは塾講師や高校で働いていたのですが、現在はデータサイエンティストとして活動しています。社会やビジネスで数学がどのように使われているのか、そういった話も交えながら進められればと思っております。
数学に困っている方の一助になれれば幸いです。
ご連絡お待ちしております。



質問や感想はコメントへ!