メニュー
yu-to
管理者
本ブログを運営しているyu-toと申します。

統計学に関する記事を基礎、応用、実践に分けて投稿していきます。
高校数学に関する記事も多く投稿しているので、イチから学びたい社会人にもおすすめです。
カテゴリー

不偏性とは? “ズレ” と “ブレ” を考える統計学の思想

  • URLをコピーしました!

この記事を書いたのはこんな人

  • 国立大学大学院数学科修了
  • 元教員
  • 統計検定準1級
  • 数学検定準1級
  • 家庭教師やってます(こちら

この記事を書いたのはこんな人

yu-to

☑️ 国立大学大学院数学科修了
☑️ 元教員
☑️ 数学検定準1級
☑️ 統計検定準1級
☑️ 家庭教師(こちら

目次

ズレとブレ

統計学では、「推定が当たったかどうか」だけではなく、

  • どれくらいズレているか
  • どれくらいブレているか

を考えます。この違いを理解するために、まずは的当てを想像してみましょう。

「ズレ」と「ブレ」のうち、“平均的にズレていない性質”を表す概念が、不偏性です。式で書くとこんな感じ

$$E[\hat{\theta}]=\theta$$

不偏性は統計学において非常に重要な考え方ですが、同時に「不偏なら最強」というわけでもありません。この記事では、不偏性の意味と必要性、そして限界について理論的に解説していきます。

推定とはなにか

統計学では、知りたい真の値を「母数」と呼びます。例えば母平均を \(\mu\) とします。しかし通常、母集団全体を観測することはできません。そこで、母集団から一部だけを取り出して調査します。その標本を

$$X_1, X_2, \dots, X_n$$

とすると、母平均を推定する最も基本的な方法は標本平均です。

$$\bar{X}
=
\displaystyle\frac{1}{n}\sum_{i=1}^n X_i$$

ここで重要なのは、\(\bar{X}\) は固定値ではなく、「確率変数」であるということです。つまり、標本の取り方によって値が変わります。

「あるときは真の平均より大きくなり、あるときは小さくなる。」

そのため統計学では、

「この推定方法は長期的にどのような性質を持つのか」

を考えます。

不偏性の定義

推定量 \(\hat{\theta}\) が、母数 \(\theta\) に対して不偏であるとは、

$$E[\hat{\theta}] = \theta$$

が成立することを言います。これは、

「同じ標本抽出を何回も繰り返したとき、推定値の平均が真の値に一致する」

という意味です。例えば標本平均について期待値を計算すると、

$$E[\bar{X}]
=
E\left[
\displaystyle\frac{1}{n}\sum_{i=1}^n X_i
\right]$$

$$=
\displaystyle\frac{1}{n}\sum_{i=1}^n E[X_i]$$

各標本の期待値は母平均なので、\(E[X_i] = \mu\) となり、

$$= \displaystyle\frac{1}{n}(\mu + \mu + \cdots +\mu)$$

$$= \displaystyle\frac{1}{n} \cdot n\mu =\mu$$

したがって、

$$E[\bar{X}]
=
\mu$$

となります。つまり標本平均は、母平均の不偏推定量です。

なぜ必要なのか

不偏性が重要視される理由は、「推定方法そのものに偏りがない」ことを保証するからです。例えば、次のような推定量を考えます。

$$\hat{\mu} = \bar{X} + 10$$

この期待値は、

$$E[\hat{\mu}]
=
E[\bar{X}] + 10
=
\mu + 10$$

となります。つまり、この推定量は平均的に常に10だけ大きく推定してしまいます。このようなズレを「バイアス(偏り)」と呼びます。バイアスは、

$$\mathrm{Bias}(\hat{\theta})
=
E[\hat{\theta}] – \theta$$

で定義されます。不偏性とは、

$$\mathrm{Bias}(\hat{\theta}) = 0$$

という状態です。つまり統計学では、「平均的に間違った推定をしていないか」を非常に重視しているのです。特に頻度主義統計では、同じ実験を無限回繰り返したときの長期的な性質を重要視します。不偏性は、その代表的な概念と言えます。

不偏性だからと言って最強ではない

ここが統計学の本質的に面白い部分です。不偏性は重要ですが、「不偏だから良い推定量」とは限りません。なぜなら、推定量には「ズレ」だけではなく、「ブレ」も存在するからです。

例えば、不偏推定量でも分散が非常に大きければ、推定値は毎回大きく変動します。一方で、少しバイアスがあっても、ブレが小さい推定量の方が実用的には優れている場合があります。

推定誤差全体を評価する代表的な指標が、平均二乗誤差(MSE)です。

$$\mathrm{MSE}
=
E[(\hat{\theta}-\theta)^2]$$

このMSEは、


\begin{aligned}
\mathrm{MSE}&=E \big[\{ (\hat{\theta}-E[{\hat{\theta}}]) + (E[\hat{\theta}]-\theta) \}^2 \big]\\
&=E \big[(\hat{\theta}-E[{\hat{\theta}}])^2 + 2(\hat{\theta}-E[\hat{\theta}])(E[\hat{\theta}]-\theta)+ (E[\hat{\theta}]-\theta)^2\big]\\
&=E[(\hat{\theta}-E[{\hat{\theta}}])^2] + (E[\hat{\theta}]-\theta)^2\\
&=\mathrm{Var}(\hat{\theta})
+
\mathrm{Bias}(\hat{\theta})^2
\end{aligned}

※\(E[\hat{\theta}-E[\hat{\theta}]]=E[\hat{\theta}]-E[\hat{\theta}]=0\)

と分解できます。つまり誤差には、

  • 分散(ブレ)
  • バイアス(ズレ)
改めて的の例を見てみてください!

の両方が関係しているのです。これは機械学習にもつながる重要な考え方です。例えばリッジ回帰では、あえて少しバイアスを入れる代わりに分散を減らし、未知データへの予測性能を高めています。つまり実務では、

「完全に不偏か」よりも、「全体としてどれくらい誤差が小さいか」

の方が重要になることが多いのです。

まとめ

不偏性とは、

$$E[\hat{\theta}] = \theta$$

が成立する性質であり、「長期的に見て平均的に正しい推定」を意味します。統計学では、推定方法そのものに偏りがないことを重視するため、不偏性は非常に重要な概念です。一方で、現実のデータ分析では標本数は有限であり、実際には1回しか推定できないことも多くあります。そのため、

  • 不偏性
  • 分散
  • MSE

などを総合的に考える必要があります。統計学は、「1回当たるか」ではなく、「長期的にどう振る舞うか」を考える学問です。不偏性は、その統計学的な思想を最もよく表している概念の1つと言えるでしょう。

さいごまで読んでいただきありがとうございました!

  • 大学受験数学で困っている学生の方
  • 公務員試験の数学で困っている学生/社会人の方
  • 統計学(統計検定)の勉強で困っている学生/社会人の方

個人家庭教師やってるので、ぜひコメントやXでご連絡ください。(Xはこちら

時間や料金などは相談して決められればと思っておりますが、塾に通うよりは高コスパかなと思います。また、基本的にはオンラインでの授業を想定していますが、場所によっては直接の指導が可能です。(プロフィール

これまでは塾講師や高校で働いていたのですが、現在はデータサイエンティストとして活動しています。社会やビジネスで数学がどのように使われているのか、そういった話も交えながら進められればと思っております。

数学に困っている方の一助になれれば幸いです。

ご連絡お待ちしております。

  • URLをコピーしました!

質問や感想はコメントへ!

コメントする

CAPTCHA


目次