メニュー
yu-to
管理者
本ブログを運営しているyu-toと申します。

高校数学の解説や公務員試験問題の解説、データサイエンスについての記事を書いていきます!

「データサイエンス×教育」に興味があり、日々勉学に励んでいます。

少しでも役に立つ情報の発信をしていきますのでぜひ読んでください。

また、同志からのお声がけはとても励みになります。ぜひ、コメントやメール、SNS等でご連絡ください!
カテゴリー
統計学初学者サポートこちらをクリック

【データの分析】『分散』データAの分散とデータBの分散から全体データの分散を求める問題

  • URLをコピーしました!

統計学を約10年間勉強してきました。
現在は、統計スキルを自身のキャリアに活用してきた方法をブログで発信しています。

  • 大学の研究テーマ「主成分分析を使った正しい評価方法」

  • 大学院の研究テーマ「階層的区間クラスタリング」

  • 統計検定2級所持

  • Kaggleのコンペに参加

統計学を約10年間勉強してきました。
現在は統計スキルを自身のキャリアに活用してきた方法をブログで発信しています。

  • 大学の研究テーマ「主成分分析を使った正しい評価方法」

  • 大学院の研究テーマ「階層的区間クラスタリング」

  • 統計検定2級所持

  • Kaggleのコンペに参加

目次

2つの分散から1つの分散を求める

今回は、2つのグループの平均値と分散が与えられているとき、その2つを合わせた全体集合の平均値を分散を求める問題です。

平均値は代表値の1つであり、分散はデータの散らばりを表しています。データの散らばりを計算する方法はいくつか種類がありますが、その中でも分散は、各データが平均値からどれくらい離れているか(散らばっているか)を表す値です。

代表値を扱った問題にチャレンジしてみたい方はこちらをチェック

平均値と分散/標準偏差

大きさ \(n\) のデータの値を \(x_1\), \(x_2\), \(\cdots\), \(x_n\) とするとき、

$$\bar{x}=\displaystyle\frac{1}{n}(x_1+x_2+\cdots +x_n)$$

大きさ \(n\) のデータの値を \(x_1\), \(x_2\), \(\cdots\), \(x_n\) とするとき、

分散 \(s^2\)

 $$s^2=\displaystyle\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots +(x_n-\bar{x})^2\}$$

また、\(s^2=\bar{x^2}-(\bar{x})^2\) で計算できる。

標準偏差 \(s\)

  \begin{eqnarray} s &=& \sqrt{\displaystyle\frac{1}{n}\{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots +(x_n-\bar{x})^2\}}\\ &=& \sqrt{\bar{x^2}-(\bar{x})^2} \end{eqnarray}

分散や標準偏差の計算が不安な方はこちらをチェック!

分散と標準偏差の違いがピンとこない方はこちらをチェック!

平均値・分散の問題

ある集団はAとBの2つのグループで構成されている。データを集計したところ、それぞれのグループの個数、平均値、分散は右の表のようになった。このとき、集合全体の平均値と分散を求めよ。

グループ個数平均値分散
A201624
B601228

平均値・分散の問題(答案の例)

 グループ A の総和は、\(16\times 20=320\)
 グループ B の総和は、\(12\times 60=720\)

したがって、全データの総和は、\(320+720=1040\) 。以上のことから平均を求める。

$$1040\div 80=\displaystyle\frac{1040}{80}=13(平均値)$$

グループ A の変量を \(a\) でデータの値を、

 \(a_1\), \(a_2\), \(\cdots\), \(a_{20}\)

グループ B の変量を \(b\) でデータの値を、

 \(b_1\), \(b_2\), \(\cdots\), \(b_{60}\)

とおき、それぞれの分散を \(s_a\), \(s_b\) とおくと、\(s_a=\bar{a^2}-(\bar{a})^2\) より

\begin{eqnarray} \bar{a^2} &=& s_a+(\bar{a})^2\\ &=& 24+16^2=280 \end{eqnarray}

ここで、\(\bar{a^2}=\displaystyle\frac{1}{20}(a^2_1+a^2_2+\cdots +a^2_{20})\) より

$$a^2_1+a^2_2+\cdots +a^2_{20}=280\times 20=5600$$

同様にして、\(s_b=\bar{b^2}-(\bar{b})^2\) より

\begin{eqnarray}  \bar{b^2} &=& s_b+(\bar{b})^2\\ &=& 28+12^2=172 \end{eqnarray}

ここで、\(\bar{b^2}=\displaystyle\frac{1}{60}(b^2_1+b^2_2+\cdots +b^2_{60})\) より

$$b^2_1+b^2_2+\cdots +b^2_{60}=172\times 60=10320$$

以上のことから、

$$a^2_1+a^2_2+\cdots +a^2_{20}+b^2_1+b^2_2+\cdots +b^2_{60}=5600+10320$$

よって、

\begin{eqnarray} \displaystyle\frac{1}{80}\times (a^2_1+a^2_2+\cdots +a^2_{20}+b^2_1+b^2_2+\cdots +b^2_{60}) &=& \displaystyle\frac{1}{80}\times (5600+10320)\\ &=& \displaystyle\frac{5600+10320}{80}\\ &=& 70+129=199 \end{eqnarray}

したがって、\(199-169=30\)(分散)

平均値・分散の問題(解説)

データの総和は、(平均値)\(\times\)(個数)で求めることが出来る。

よって、

 グループ A の総和は、\(16\times 20=320\)
 グループ B の総和は、\(12\times 60=720\)

したがって、全データの総和は、\(320+720=1040\)。以上のことから平均を求める。

$$1040\div 80=\displaystyle\frac{1040}{80}=13(平均値)$$

また、全体の分散は、全体のデータの変量を \(x\) とすると、

 (分散)\(=\bar{x^2}-(\bar{x})^2\)

となる。

\((\bar{x})^2=13^2=169\) なので、\(\bar{x^2}\) を求める必要がある。

$$\bar{x^2}=\displaystyle\frac{1}{80}(x^2_1+x^2_2+\cdots +x^2_{80})\cdots ※$$

と表すこともできる。

勝手に文字を出現させられないので、各文字の説明をしながら問題を解き進めて行きましょう!

グループ A の変量を \(a\) でデータの値を、

 \(a_1\), \(a_2\), \(\cdots\), \(a_{20}\)

グループ B の変量を \(b\) でデータの値を、

 \(b_1\), \(b_2\), \(\cdots\), \(b_{60}\)

とおくと、

$$x^2_1+x^2_2+\cdots +x^2_{80}=a^2_1+a^2_2+\cdots +a^2_{20}+b^2_1+b^2_2+\cdots +b^2_{60}$$

と表すことができる。それぞれの分散を \(s_a\), \(s_b\) とおくと、\(s_a=\bar{a^2}-(\bar{a})^2\) より

\begin{eqnarray} \bar{a^2} &=& s_a+(\bar{a})^2\\ &=& 24+16^2=280 \end{eqnarray}

ここで、\(\bar{a^2}=\displaystyle\frac{1}{20}(a^2_1+a^2_2+\cdots +a^2_{20})\) より

$$a^2_1+a^2_2+\cdots +a^2_{20}=280\times 20=5600$$

同様にして、\(s_b=\bar{b^2}-(\bar{b})^2\) より

\begin{eqnarray} \bar{b^2} &=& s_b+(\bar{b})^2\\ &=& 28+12^2=172 \end{eqnarray}

ここで、\(\bar{b^2}=\displaystyle\frac{1}{60}(b^2_1+b^2_2+\cdots +b^2_{60})\) より

$$b^2_1+b^2_2+\cdots +b^2_{60}=172\times 60=10320$$

以上のことから、

\begin{eqnarray} x^2_1+x^2_2+\cdots +x^2_{80} &=& a^2_1+a^2_2+\cdots +a^2_{20}+b^2_1+b^2_2+\cdots +b^2_{60}\\ &=& 5600+10320 \end{eqnarray}

よって、※ に当てはめると、

\begin{eqnarray} \bar{x^2} &=& \displaystyle\frac{1}{80}\times (5600+10320)\\ &=& \displaystyle\frac{5600+10320}{80}\\ &=& 70+129=199 \end{eqnarray}

したがって、(分散)\(=\bar{x^2}-(\bar{x})^2\)に当てはめると、\(199-169=30\)(分散)

おわりに

今回は、2つのグループの平均値と分散が与えられているとき、その2つを合わせた全体集合の平均値を分散を求める問題でした。

さいごまで読んでいただきありがとうございました!

このブログでは統計学を学びたい学生/社会人向けに記事を書いています。

【最新】こちらの記事がおすすめ!

>>

  • URLをコピーしました!

質問や感想はコメントへ!

コメントする

目次