Notes_JP

あまり知られていないこと

【例】中心極限定理の応用:測定値と標準誤差,コイン投げ

世の中に正規分布があふれる背景の一つに,中心極限定理が成り立つことが挙げられます.
測定の際に現れる標準誤差の理解に欠かせないなど,応用上でも重要です.

中心極限定理 (Central limit theorem, CLT)

平均$\mu$,分散$\sigma^2$の独立同一分布に従う確率変数列$X_1,...,X_n$を考える. このとき, \begin{align} S_n:=\frac{X_1+\cdots +X_n}{n} \end{align} に対して \begin{align} \lim_{n\to\infty} P\Biggl(\frac{(S_n-\mu)}{\sigma/\sqrt{n}}\leq z\Biggr) &=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^z e^{-x^2/2}\,\mathrm{d}x \end{align} が成立する.

従って,$n$が十分大きいとき
\begin{align}
P\left(S_n\leq z\right)
&=P\left(\frac{(S_n-\mu)}{\sigma/\sqrt{n}} \leq \frac{(z-\mu)}{\sigma/\sqrt{n}}\right)\\
&\simeq\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{\frac{(z-\mu)}{\sigma/\sqrt{n}}} e^{-x^2/2}\,\mathrm{d}x\\
&=\frac{1}{\sqrt{2\pi(\sigma/\sqrt{n})^2}}\int_{-\infty}^z\exp\left[-\frac{(x-\mu)^2}{2(\sigma/\sqrt{n})^2}\right]\,\mathrm{d}x
\end{align}
となります.これは,平均$\mu$,分散$\sigma^2/n$の正規分布です.

応用例

測定値と標準誤差

「ノギスで物体の長さを繰り返し測定する」場合について考えましょう.
このとき,測定値は毎回同じ値ではなく,ある分布に従うはずです.

「真値が,この分布の平均値$\mu$に一致する」と仮定しましょう.

$n$回の測定で真値(=平均値)を推定する事を考えます.
$i$回目の測定値を与える確率変数を$X_i$ (平均$\mu$, 分散$\sigma^2$)とするとき,平均値の推定値は
\begin{align}
S_n=\frac{X_1+\cdots +X_n}{n}
\end{align}
で与えられます(参考:【点推定】平均・分散・標準偏差を推定する方法 - Notes_JP).

さて,この推定値も真値の回りである分布に従います.
(つまり,「$n$回の測定の平均値」は毎回同じ値にはなりません.)

中心極限定理によれば,$n$が十分大きい場合には「確率変数$S_n$の分布の標準偏差」は$\sigma/\sqrt{n}$で与えられます.

これを標準誤差と呼びます.
式からわかるように,より多くの測定をして平均を取ることで標準誤差を小さくすることができます.


ここで,$n$回の測定による$\sigma$の推定値は
\begin{align}
\sqrt{ \frac{1}{n-1}\sum_{i=1}^n \left(X_i-\bar{X}\right)^2}
\end{align}
で与えられる(参考:【点推定】平均・分散・標準偏差を推定する方法 - Notes_JP)ので,標準誤差は以下の式で推定できます:

標準誤差の推定値
\begin{align} \sqrt{ \frac{1}{n(n-1)}\sum_{i=1}^n \left(X_i-\bar{X}\right)^2} \end{align}

Gaussの誤差論

上では,「真値が,測定値の分布の平均値$\mu$に一致する」と仮定しました.

実は,「系統誤差」を除けば,測定値は

  • 平均値が真値$\mu$
  • 分散が「偶然誤差の分散$\sigma^2$」

の正規分布に従うことが示されます.

このとき,中心極限定理を用いることなく「$n$回の測定の平均値」の分布が

  • 平均値が真値$\mu$
  • 分散が$\sigma^2/n$

の正規分布に従うことが示されます.

例えば,確率論 (岩波基礎数学選書)$\S 4.8$を参照して下さい.

コイン投げ

$n$回のコイン投げで,表の出た回数$T_n$が$(a,b]$の範囲にある確率$P(a < T_n\leq b)$を見積もる事を考える.

$X_n$を
\begin{align}
X_n=
\begin{cases}
\,1&(n\text{回目に表})\\
\,0&(n\text{回目に裏})
\end{cases}
\end{align}
で定めると,$\{X_n\}$は独立確率変数列となる.

$P(X_n=1)=P(X_n=0)=1/2$より$\mu=\sigma=1/2$なので,表の出た回数
\begin{align}
T_n:=X_1+\cdots +X_n
\end{align}
は$n$が十分大きいときに
\begin{align}
P\Biggl(a < T_n\leq b\Biggr)
&\simeq\frac{1}{\sqrt{2\pi(1/2\sqrt{n})^2}}\int_{a}^{b} \exp\left[-\frac{(x-1/2)^2}{2(1/2\sqrt{n})^2}\right]\,\mathrm{d}x
\end{align}
と見積もることができる.

参考文献/参考記事

確率論 (岩波基礎数学選書)
はじめての誤差論 - 武内@筑波大