【ベイズの定理】ベン図でわかる条件付き確率

POINT
  • ベン図を使えば,条件付き確率・ベイズの定理が簡単に理解できる.
  • ベイズの定理の応用例を紹介.
  • 結論:下図より,$A$が起こったときに$B$が起こる確率は$P(B|A)=\dfrac{P(A\cap B)}{P(A)}=\dfrac{P(B)P(A|B)}{P(A)}$となることがわかる!
    ベイズの定理
    ベイズの定理

わかりにくい条件付き確率・ベイズの定理も,ベン図を使えば直感的に理解することができます!

【関連記事】

確率とベン図

2つの事象$A$, $B$を考えます.

$A$, $B$としては,例えば以下が考えられます:

事象$A$ 事象$B$
サイコロで偶数が出る サイコロで6が出る
40℃以上の熱がある インフルエンザである
金髪である 外国人である
信号が青である (自分が)信号が青であることを認識している


このとき,事象$A$, $B$の包含関係はベン図を使って

2事象のベン図
事象$A$と事象$B$を表すベン図 ($\Omega$は全事象を表す).
と表すことができます.つまり,事象$A$, $B$には
  • Aが起こり,Bは起きない
  • Aは起こらないが,Bは起こる
  • AもBも起こる
  • AもBも起こらない
という4通りの場合が考えられます.

以下では,各事象のベン図に占める面積が,確率と等しくなるように描かれていることにしましょう.つまり,事象$A$の起こる確率$P(A)$は「ベン図における面積」で表されます.

条件付き確率とベン図

事象$A$が起こったとことがわかったとき,確率を表すベン図は,下図の左から右のように変化します.

このとき,「右図の確率」は「左の図で使っていた(確率測度)$P$」で表すことができません.なぜなら,全事象が$A$となるため,右図の(確率測度)$\tilde{P}$は

\begin{aligned}
\tilde{P}(A)=1,\quad
\tilde{P}(A^c)=0
\end{aligned}
を満たすはずですが,$P$は一般にこの性質をもたないからです.
条件付き確率とベン図
事象Aが起こったときのベン図($A$が全事象になる).

確率はベン図の面積比ですから,$P$と$\tilde{P}$には次の関係が成り立つことがわかります(*1):

\begin{aligned}
\tilde{P}(B)=\frac{P(A\cap B)}{P(A)}.
\end{aligned}

通常,$\tilde{P}(B)$を$P(B|A)$で表します.以降ではこの記法を使います.

ここで注意すべきは,

一般には,$P(B|A)$と$P(A|B)$は等しくない
ということです.つまり,事象$A$と事象$B$のどちらが起こったのかによって,その後$A\cap B$の起こる確率は異なります.これは,以下のベン図のように,$P(A)$に対する$P(A\cap B)$の面積比と,$P(B)$に対する$P(A\cap B)$の面積比が異なることを意味しています:
条件付き確率とベン図
事象AとBどちらが起こるかによって確率は異なる.


このことを,最初に挙げた事象$A$, $B$の例で考えたのが次です.当たり前ですね.

$P(B|A)$ $P(A|B)$
サイコロで偶数が出たときに,その目が6である確率 ($=1/3$) $\neq$ サイコロで6が出たときに,その目が偶数である確率 ($=1$)
40℃以上の熱があったときに,インフルエンザである確率. $\neq$ インフルエンザのときに,40℃以上の熱が出る確率.
金髪である人が,外国人である確率. $\neq$ 外国人が金髪である確率.
信号が青であるときに,(自分が)信号が青であると思っている確率. $\neq$ (自分が)信号が青であると思っているときに,信号が青である確率.

ベイズの定理

上のベン図から,$P(B|A)$と$P(A|B)$はそれぞれ$P(A)$と$P(B)$の大きさから決まることがわかります.実際,上の2式から$P(A\cap B)$を消去すれば,次の関係式が導かれます.この関係式は,「ベイズの定理」と呼ばれます:
ベイズの定理
$\displaystyle P(B|A)=\frac{P(B)P(A|B)}{P(A)}$


ベイズの定理を使うと,$P(A|B)$の情報から$P(B|A)$を計算することができます.具体例を見てみましょう.

【例】病気の診断

ベイズの定理は「病気の診断」に応用できます.つまり,「病気の診断」とは,

  • $P(S|D)$:「病気$D$」のときに,「症状$S$」が現れる確率

をデータとして蓄積し,

  • $P(D|S)$:「症状$S$」が現れたときに「病気$D$」である確率

を求める問題と言えます.そして,この問題は,ベイズの定理を用いて

\begin{aligned}
P(D|S)=\frac{P(D)P(S|D)}{P(S)}
\end{aligned}
と求めることができるのです.


特に,病気が$(D_1,...,D_n)$のうちいずれかであることがわかっている場合には,

\begin{aligned}
P(S)
&=\sum_{j=1}^n P(S \cap D_j) \\
&=\sum_{j=1}^n P(D_j)P(S|D_j)
\end{aligned}
であることから
\begin{aligned}
P(D_i|S)=\frac{P(D_i)P(S|D_i)}{\sum_j P(D_j)P(S|D_j)}
\end{aligned}
と計算できます.

【例】人間の直感とベイズの定理

ダニエル・カーネマン「ファスト&スロー」第16章で扱われている例を紹介します.以下の2つの問を考えてみましょう.


夜,市内1台のタクシーがひき逃げをした.但し,
  • 目撃者は,タクシーが青色だったと証言している.
  • 目撃者がタクシーの色を正しく判別できる確率は80%.
であることがわかっている.このとき,青のタクシーがひき逃げをした確率は,以下の「ケース1」と「ケース2」のどちらが大きくなるか.

  • ケース1
    • 市内に走るタクシーは,85%が緑のタクシー,15%が青のタクシーである.
    • タクシーの色とひき逃げのしやすさは無関係である.
  • ケース2
    • 市内に走るタクシーは,50%が緑のタクシー,50%が青のタクシーである.
    • 過去の事故の85%は緑のタクシーが関与している.

まずは,現実で上の状況に直面した場合を想像して,直感的に答えてみてください.






実は,ケース1,ケース2のどちらも同じ確率(41%)になります.しかし,著者によると「人は因果関係を持たない情報を無視する傾向がある」そうです.これは,次の表で表すことができます:

与えられた情報人の行う推定
ケース1 母集団の情報 情報を無視する:80%に近い値を予想する
ケース2 因果関係の情報 情報を重視する:ベイズの定理から導かれる値(41%)に近い値を予想する


それでは実際にベイズの定理を用いて計算をしてみましょう.まずは,事象を以下で定めます:

事象A 事象B
目撃者が青と言う ひき逃げをしたタクシーの色が青である

このとき,求めたい確率は「目撃者がタクシーが青だったと証言したとき,青タクシーがひき逃げをした確率」です.これは,ベイズの定理を用いて計算することができます:

求めたい確率
$\displaystyle P(B|A)=\frac{\textcolor{red}{P(B)}\textcolor{blue}{P(A|B)}}{\textcolor{green}{P(A)}}$

したがって,右辺の3つの確率を計算すれば良いことがわかります.

まず,ケース1・2で共通の条件である

  • 「目撃者はタクシーが青だと証言」
  • 「目撃者は80%の確率でタクシーの色を正しく判別できる」
ことは,次を意味しています:
\begin{aligned}
\textcolor{blue}{P(A|B)=0.8},P(A|B^c)=0.2.
\end{aligned}

次に,ケース1・2におけるそれぞれの異なるタクシーの情報は,どちらも

\begin{aligned}
\textcolor{red}{P(B)=0.15},P(B^c)=0.85
\end{aligned}
を意味しています.詳しく見てみましょう:
  • ケース2では,条件の文章が直接この式を意味しています.
  • ケース1では,(遭遇したタクシーの色が青である確率) = (ひき逃げをしたタクシーの色が青である確率)であることを確認する必要があります.直感的に明らかなようにも思えますが,ちゃんとベイズの定理から示せます.まず,事象C,Dを以下で定めましょう:

    事象B 事象C 事象D
    ひき逃げをしたタクシーの色が青である 遭遇したタクシーの色が青である タクシーがひき逃げをする


    • タクシーの色とひき逃げのしやすさは無関係であることは,$P(D|C)=P(D|C^c)=P(D)$を意味するので,$P(B)=P(C|D)=P(C)P(D|C)/P(D)=P(C)$であることがわかります.
    • あるいは,次のようにも考えられます.タクシーの色とひき逃げのしやすさは無関係であることは,$P(C\cap D)=P(C)P(D)$を意味する(独立事象)ので,$P(B)=P(C|D)=P(C\cap D)/P(D)=P(C)$.

最後に,$P(A)$は次のように計算できます:

\begin{aligned}
\textcolor{green}{P(A)}
&=P(A\cap B) + P(A\cap B^c)\\
&=P(B)P(A|B) + P(B^c)P(A|B^c)\\
&=0.29.
\end{aligned}


以上を「求めたい確率の式」に代入すれば

\begin{aligned}
P(B|A)=\frac{P(B)P(A|B)}{P(A)}\simeq 0.41
\end{aligned}
であることがわかります.直感的には80%付近と予想する人が多いなかで,実際の確率はその半分程度なのです.

参考文献/記事

*1:$P(A)$は規格化定数というわけです