Notes_JP

あまり知られていないこと

【点推定】サンプルから,分布の平均・分散・標準偏差を推定する方法

ある分布から,有限個のサンプルを取り出して「元の分布」の情報を推定する方法について解説します.
これは,何かの「測定」を行う際には避けられない話題です.
なぜなら,「測定」とは『「測定値を確率変数とする分布」からの無作為抽出』とみなせるからです.

【疑問】どうやって「有限個のサンプル」から平均・分散・標準偏差を推定する?

「ノギスを使って,ある物体の長さを繰り返し測定する」場合を考えましょう.
このとき,測定値は毎回同じ値ではなく,ある分布に従うはずです.

測定を$N$回繰り返して,

『「測定値の分布」の平均・分散・標準偏差を推定する』
にはどうしたら良いでしょうか.

平均値を推定する方法?

平均値については,$N$回の測定値$a_1,...,a_N$を平均すれば良さそうに思えます:
\begin{align}
\bar{a}=\frac{a_1+\cdots+a_N}{N}
\end{align}
これはつまり,測定値からなる集合$\{a_1,...,a_N\}$がすべての要素だと思ったときの平均を計算しているわけです.
(測定値が$a_i$となる確率は$1/N$)

分散を推定する方法?

分散も同様に,$\{a_1,...,a_N\}$が全ての要素だと思って計算した分散
\begin{align}
\sigma^2_a=\frac{1}{N}\sum_{i=1}^N\left(a_i-\bar{a}\right)^2
\end{align}
で推定出来るのではないかと予想できます.

この推定法は正しいのか?

これらの推測は平均値については正しく,分散については正しくないことがわかります.
以下で詳しく見てみましょう.

【一般化】無作為標本の推定量

無作為標本 / Random sample

上の「$N$回測定をする」という操作は,「無作為標本」呼ばれる概念に一般化されます:

無作為標本 / Random sample
独立で同一の確率分布に従う確率変数列$\{X_i\}_{i=1}^N$を無作為標本と呼ぶ.

(以下では,確率変数列$\{X_i\}_{i=1}^N$の従う確率分布の平均値を$\mu$, 標準偏差を$\sigma$と表すことにします.)


このとき,上で考えた平均(標本平均 / Sample mean)は
\begin{align}
\bar{X}=\frac{1}{N}\sum_{i=1}^N X_i,
\end{align}
分散は
\begin{align}
S^2=\frac{1}{N}\sum_{i=1}^N \left(X_i-\bar{X}\right)^2
\end{align}
という確率変数を考えることに対応しています.


これらの「推定量」は確率変数なので,ある分布に従います .
($N$個のサンプル自体が,ある分布から取り出したものなので,当然ですね)

不偏推定量 / Unbiased estimator

『推定量の分布の平均値』が『推定したい値の真値』と一致することは,「性質が良い」推定量の条件と言えるでしょう.
この性質を持つ推定量を,不偏推定量 / Unbiased estimatorと呼びます.

注:不偏推定量が「性質が良い」推定量である理由
多くの場合,平均値は最頻値に近い値をとるため,不偏推定量は真値と一致する確率が高いです.
特に,標本平均$\displaystyle\bar{X}=\frac{1}{N}\sum_{i=1}^N X_i$は,中心極限定理により$N$が大きくなると正規分布 (平均値=最頻値) に近づきます.
加えて,$N$を大きくすれば「標本平均$\displaystyle\bar{X}$の分散」を小さくでき,推定値の精度が良くなります.
詳しくは,以下の記事を参照して下さい.
wpqtqpqp.hatenablog.com



今回の場合で言えば,以下が成立するかどうかがポイントとなるわけです:

  • 確率変数$\bar{X}$の平均値が,$X_i$の分布の平均値$\mu$に一致するか
  • 確率変数$S^2$の平均値が,$X_i$の分布の分散$\sigma^2$に一致するか


では,実際に計算してみましょう.

平均値

$EX_i=\mu$であることから,
\begin{align}
E\bar{X}=\frac{1}{N}\sum_{i=1}^N EX_i=\mu.
\end{align}
従って,$\displaystyle\bar{X}=\frac{1}{N}\sum_{i=1}^N X_i$は不偏推定量です.

分散

確率変数の独立性から$E\left[(X_i-\mu)(X_j-\mu) \right]=\delta_{ij}\sigma^2$なので,
\begin{align}
V(\bar{X})
&=E\left[(\bar{X}-E\bar{X})^2\right]\\
&= E\left[\frac{1}{N}\sum_{i=1}^N(X_i-\mu)\right]^2
=\frac{1}{N^2}\sum_{i,j=1}^N E\left[(X_i-\mu)(X_j-\mu)\right]
= \frac{1}{N^2}\sum_{i=1}^N \sigma^2\\
&=\frac{\sigma^2}{N}
\end{align}
が成立します.よって,
\begin{align}
ES^2
&=\frac{1}{N}\sum_{i=1}^N \left[E(X_i^2)-E(\bar{X}^2)\right]\\
&=\frac{1}{N}\sum_{i=1}^N\left[V(X_i)+(EX_i)^2\right]-\left[V(\bar{X})+(E\bar{X})^2\right]
=(\sigma^2+\mu^2)-\left(\frac{\sigma^2}{N}+\mu^2\right)\\
&=\sigma^2-\frac{\sigma^2}{N}
\end{align}
となり,真値である$\sigma^2$から$\sigma^2/N$だけシフトしていることがわかります.

従って,このシフト分を補正した
\begin{align}
s^2=\frac{N}{N-1}S^2=\frac{1}{N-1}\sum_{i=1}^N \left(X_i-\bar{X}\right)^2
\end{align}
が不偏推定量となります(不偏分散 / Unbiased variance).

まとめ

無作為標本$\{X_i\}_{i=1}^N$において,平均・分散の不偏推定量はそれぞれ \begin{align} &\bar{X}=\frac{1}{N}\sum_{i=1}^N X_i\\ &s^2=\frac{1}{N-1}\sum_{i=1}^N \left(X_i-\bar{X}\right)^2 \end{align} で与えられる.

参考文献

数理統計学 (数学シリーズ)
確率・統計