ベイズの定理
いま、ベイズの定理が熱い。古典的確率論の一つの定理であるが、現在、検索エンジン
でよく利用される Google の高いヒット率を支えたり、Intel や Microsoft
におけるアプリ
ケーション開発の数学的基礎として注目を集めているらしい。
どのような形でベイズの定理が応用されるのか、大いに興味があるが、浅学の身で想像
の域を越えない。ベイズの定理自身は驚くほど単純で、ある方は定理そのものは覚えなく
てもいいと断言するくらい、自ら直ぐに導ける程度のものである。
ここでは、このベイズの定理について、いくつかの話題を眺めてみようと思う。
「5回に1回の割合で帽子を忘れるくせのあるK君が、正月に A、B、C 3軒を順に年始
回りをして家に帰ったとき、帽子を忘れてきたことに気がついた。2軒目の家 B に忘れて
きた確率を求めよ。」
これは、今から20年ほど前に早稲田大学で出題された入試問題である。
「帽子を忘れたこと」に現在気づき、その原因となる過去の事実「Bで忘れたこと」の確率
を問うもので、当時は、とてもセンセーショナルな問題であった。
果たして何人の受験生が条件つき確率の問題ととらえ、正しく答えられたのか、大いに
興味があるところである。(正直に告白すると、この問題を初めて見たとき、それまで経験
してきた確率の問題とは異なる雰囲気に、ある種の戸惑いを感じたことを覚えている。)
このような問題に対しては、ベイズの定理が活躍する。
確率の計算で、事象 A が起こったという条件のもとに考える事象 B の確率は、A
のもと
での B が起こる条件つき確率といわれ、記号で PA(B) と書かれる。
(P(B|A)という書き方もあるが、記号的に好きではないので、ここでは用いない。)
この条件つき確率というのは、新たな起こりうる全ての場合を事象 A とし、そのうちの
B
の起こる事象 A∩B の割合を求めるものである。
よって、
![]()
が成り立つ。
このページで話題とするベイズの定理は、これとは逆に、PB(A) という確率を求めるた
めの公式である。
すなわち、A という原因で B が起こったときに、その原因の起こる確率を求めようとする
ものである。
そこで、P(A) を原因 A の存在確率(事前確率)、PB(A) を原因の確率(事後確率)と
もいう。
また、PB(A) には、次のような解釈もできる。
何も手持ちの情報がない状態では、Aのおこる確率は、P(A)であるが、結果として、Bが
起こった以上、Aのおこる確率を再評価する必要がある。その確率が、PB(A) である。
いま、事象 B は、互いに排反な事象 A1、A2、・・・、An のどれかが起こったときに、初め
て起こるものとする。ただし、P(A1)+P(A2)+・・・+P(An)=1 とする。
このとき、
![]()
が成り立つ。 これを、ベイズの定理(1764年)という。
(トーマス・ベイズ(1710〜1761)は、イギリスの確率論研究家で、彼の最も重要な論文
Essay Toward Solving a Problem in the Doctorine of Chances
は、死後3年たった1764年になって初めて出版された。)
上記は、何やら難しそうな形をしているが、結局のところ、
![]()
と書いた方が覚えやすいかもしれない。この式に、
![]()
を代入すれば、ベイズの定理が成り立つことは、ほとんど明らかであろう。
冒頭の早稲田大学の問題は、次のように解かれる。
帽子を忘れるという事象を、E とすると、求める確率は、PE(B) である。
このとき、P(E)=P(A)+P(B)+P(C)
=1/5+(4/5)×(1/5)+(4/5)×(4/5)×(1/5)=61/125 で、
P(E∩B)=P(B)=(4/5)×(1/5)=4/25
よって、 PE(B)=20/61 となる。
ベイズの定理により、ある試行の結果において、ある事象が起こったことが分かったとき、
それに先行する事象の確率を評価することが可能になった。ただ、実際問題として、事前
確率 P(Ak) が不明という場合も少なくない。その場合は、全ての事前確率が等しいとみな
して計算することが多いらしいが、数学的な態度からはあやしいといわざるを得ない。
医学系の入試問題に、「ある病気の検査で陽性になった場合、どの程度心配すべきか」
という類のものが、よく確率分野の問題として出題される。
日本では、ある疾病 M に罹患している割合は、千分の50 と推定されている。この疾病
に罹患しているかどうかを知る検査 T は不完全で、Mに罹患している人は、80
%の割合
で陽性反応が出るが、Mに罹患していない人でも 15 %の割合で陽性反応が出てしまう。
いま、ある人がこの検査を受けて、陽性反応が出た。果たして、この人が疾病 M に罹患
している割合は如何ほどになるであろうか?
(解) E : 陽性反応が出る事象 、M : 疾病 M に罹患している事象 とすると、
求める確率は、 PE(M) である。
ここで、P(E)=P(M∩E)+P(Mc∩E)
=(50/1000)(80/100)+(950/1000)(15/100)
=18250/100000
P(M∩E)=4000/100000
したがって、 PE(M)=4000/18250≒0.219 となり、疾病 M に罹患している
確率は、22%位となる。
陽性反応が出ても、疾病 M に罹患している確率が、22%位にしかならないということは、
本人にとってはかなり微妙な数値で、検査自体があまり意味がないものと判断されるだろう。
上記では、1回だけの検査で判断しているが、このような検査を繰り返してみることは一
般に行われるところである。
ある工場で、製品が規格内である確率が、0、9であるとする。製品を検査するとき、規格
内の製品は、確率0.95で合格と判定され、規格外の製品は、確率0.15で合格と判定さ
れるという。いま、一つの製品が、この検査で2度合格と判定されたとき、この製品が規格
内の製品である確率を求めよ。
(解) E : 1回の検査で合格と判定される事象、M : 製品が規格内である事象 とする。
また、各回の検査は互いに独立事象であると仮定することができる。
2回の検査で、事象 E が2回起こる事象を、E2 で表すとき、
求める確率は、 PE2(M) である。
ここで、P(E2)=P(M∩E2)+P(Mc∩E2)
=(0.9)(0.95)2+(0.1)(0.15)2
=3258/4000
P(M∩E2)=3249/4000
したがって、 PE2(M)=3249/3258≒0.997237569 となる。
このことから、上記の検査で2度合格した製品を「規格品」として失敗するのは、1万個
の製品のうち28個程度ということになる。
これは、1回の検査で判断する場合(PE(M)≒0.982758621)に比べて、格段の信憑
性の上昇である。
因みに、3度の検査で合格した製品が規格品である確率は、0.99956281
4度の検査で合格した製品が規格品である確率は、0.999930945
このように、精度が低い検査方法でも繰り返しという操作を重ねれば、ある程度の精度が
維持できることが分かる。
最近、新納浩幸 著 「数理統計学の基礎」(森北出版)を眺めていたら、面白い問題が
あった。
区別のつかない3つの袋の中に、それぞれ 赤・赤、赤・白、白・白 の2つの球が入っ
ている。
いま、1つの袋を選び、その中から1つの球を取りだしたところ、赤球であった。残りのも
う一つの球が白球である確率を求めよ。
確率の計算に不慣れな場合、もう1個は赤球、白球のどちらかしかないから確率は1/2
と答えがちである。しかしながら、これは、誤りである。
この問題に対して、ベイズの定理は明解に答えてくれる。
Aの袋には、赤・赤、Bの袋には、赤・白、Cの袋には、白・白 の球が入っているものと
し、R:赤球である事象、B:Bの袋である事象 とする。
最初に赤球を取りだし、残りが白球であるということは、Bの袋を選ぶということなので、
求める確率は、PR(B)である。
このとき、
PR(B)=P(B∩R)/P(R)
=P(B∩R)/(P(A∩R)+P(B∩R)+P(C∩R))
=(1/3)・(1/2)/((1/3)・1+(1/3)・(1/2)+(1/3)・0)
=1/3
となる。
確率が1/2と答えられた方は、多分、残りの赤球、白球が対等で、同様に確からしいと
考えてのことだろう。
しかしながら、実は、残りの赤球、白球は対等の関係にはなっていない。「赤・赤」が曲者
で、「赤1・赤2」と考えれば、残りの球の可能性は、「赤1、赤2、白」となるので、「残りの球
が白である確率は1/3である」ということが理解される。
この問題に対して、新納浩幸 氏は、3つの誤解があると説明している。
(第1の誤解) 赤球を取りだしたということは、最初に選んだ袋は、AまたはBの袋。
残りの球が白ということは、Bの袋を選ぶということ。
よって、確率は、1/2
(最初に取りだした球が赤ということから、Aの袋を選んだ可能性の方がBの
袋を選んだ可能性より高い。よって、A、Bを選ぶということは対等の関係に
はなっていない。)
(第2の誤解) 最初に赤球、次に白球ということは、Bの袋を選んだということ。
よって、確率は、1/3
(最初に取りだした球が赤で、残りの球も赤という確率は、上記の考え方だと、
Aの袋を選ぶ確率の1/3となるが、実際は、2/3である。)
(第3の誤解) Aの袋(赤1、赤2)、Bの袋(赤3、白1)、Cの袋(白2、白3)とすると、Bの
袋を選ぶということは、赤1、赤2、赤3 から赤3 を選ぶことに等しいので、
確率は、1/3
(Aの袋(赤1、赤2、赤3)、Bの袋(赤4、白1)、Cの袋(白2、白3)とする。
上記の考え方だと、求める確率は1/4となるが、実際は、1/3である。)
アメリカのクイズ番組に次のような問題が出されたことがあるということを同僚の方に伺
った。後で調べると、どうも、モンティ・ホール司会のゲームショー「Let's make a deal」
で出題された問題(1990年)らしい。
区別のつかない3つの箱があり、その中に1個だけ、当たりくじの入っている箱がある。
まず、解答者に箱を選んでもらう。司会者は、どの箱に当たりくじが入っているかを知って
いるので、残った2つの箱から当たりくじの入っていない箱を1個だけ取り除く。
そこで、司会者は解答者にたたみかけるように、「選んだ箱を変えるチャンスを1度だけ
あげます!どうしますか?」(日本のテレビだったら、「ファイナルアンサ〜?」とでもいうの
であろうか)
果たして、解答者は箱を変えた方がいいのであろうか?それとも、そのままの方がいい
のであろうか?
この問題も一見すると、箱は2つしかなく、どちらかに当たりくじが入っているので、どちら
を選ぼうとも確率は半々と錯覚しがちである。
アメリカのクイズ問題は上記で考えた問題とよく似ている。すなわち、解答者が箱を選ぶ
ということを、「赤球」を選んだという風に考える。(もちろん、白球としてもよい。)そうすると、
司会者が外すべき箱は、白・白の袋に該当し、白球がはずれということになる。
すると、上記の計算から分かるように、選んだ箱に当たりくじが入っている確率は、1/3
であり、ここは、当然箱を変えた方がよいことになる。
「司会者が必ず当たりくじの入っていない箱を取り除く」というのがポイントで、今選んだ
箱に当たりくじが入っていなければ、司会者は必ず当たりくじの入っている方の箱を残す
ということである。このことからも、箱を変えた方がよいことは了解されるだろう。
このモンティ・ホール問題について、科学雑誌「Newton」(2008年4月号)に特集記事
人はなぜ確率に弱いのか? 直感と計算の「ズレ」にせまる
があり、今野紀雄先生(横浜国立大学)の説明図がとても分かりやすかった。
| 司会者が箱を取り除く前 | 司会者が箱を取り除いた後 | |
![]() |
![]() |
上図を眺めていると、箱を変えた方がよいということが直観的に明らかですね!
この問題と同様の問題が、
「平成教育委員会 2010 !! 新春ウル寅授業SP !! 」(フジTV系 1/3 18:30〜21:09)
の特別授業の第2問に出題された。
3つのお年玉袋があり、そのうちの一つだけにお年玉が入っている。ある人がそのうちの
一つを選んだところ、残りの二つのうちの一つでお年玉が入っていない袋を、何故か教えら
れた。このとき、先ほど選んだ袋を換えてもいいよと言われたとき、換えた方がいいのか悪
いのか、どちらだろうか?
お年玉袋を換えないで当たるということは、もともとお年玉が入っている袋を選んだわけで、
その確率は1/3である。それに対して、お年玉袋を換えて当たるということは最初に選んだ
お年玉袋ははずれで、その確率は2/3になる。このことから、お年玉袋を換えた方が当たり
の確率は大きくなる。
(コメント) 換えない場合と換える場合の確率を比較するところがポイントですね!番組中
のたけし先生の説明がとても分かりやすかったです!
上記のような場面設定では箱を変えた方が有利であるが、例えば、テストの○×の問題
で、分からない問題には適当に○×をつける(多分このような人が多いと思う?)場合、意
外と最初のインスピレーションが正しかったりなんかする。変に考え直して、解答を書き換
えると、「バツ」になる場合が多いように感じる。これは、道案内する適切な司会者がいな
いからだろうか?それとも確率は単なる机上の空論なのであろうか?
次のような問題も興味深い。
Aさんには、2人の子供がいる。あるとき町でAさんにあったら、息子さんと一緒だった。
Aさんのもう一人の子供が男の子である確率を求めよ。
この問題に対して、ベイズの定理は明解に答えてくれる。
Aさんの子供を出生順に並べて、
X:男・男である事象、Y:男・女である事象、Z:女・男である事象、W:女・女である事象
とする。また、M:男の子である事象 とする。
町で出会って、子供の一人が男の子であることが分かって、もう一人の子供も男の子で
あるということは、事象Xが起こるということなので、求める確率は、PM(X)である。
このとき、
PM(X)=P(X∩M)/P(M)
=P(X∩M)/(P(X∩M)+P(Y∩M)+P(Z∩M)+P(W∩M))
=(1/4)・1/((1/4)・1+(1/4)・(1/2)+(1/4)・(1/2)+(1/4)・0)
=1/2
となる。
この問題に対して、ともすると、求める確率は、1/3 であると答える人がいるかもしれな
い。しかし、それは、誤りである。
X、Y、Z、Wの4通りあり、それらは同様に確からしいとして、Wを除いた
X、Y、Zの3つ
からXを選ぶ確率として、1/3 とするのだろうが、実は、Aさんに息子さんがいるという情
報を得た段階で、X、Y、Z、Wの4通りが同様に確からしいとは言えなくなってしまうのだ。
実際に、PM(X)=1/2、PM(Y)=1/4、PM(Z)=1/4、PM(W)=0 である。
このように、原因の存在確率 P(X)、P(Y)、P(Z)、P(W) は、Mという結果により、
再評価され、原因の確率 PM(X)、PM(Y)、PM(Z)、PM(W) が定まる。
以下、工事中
(参考文献:御園生善尚 他著 統計学大要 (養賢堂)
田代嘉宏 著 確率と統計 (裳華房)
岡安 實 著 確率・統計 (旺文社)
渡部隆一 著 確率 (共立出版)
渡辺信三 著 ベイズの公式 (数研出版)
グネジェンコ・ヒンチン 著 渋谷政昭・渡辺 毅 訳 確率論入門 (東京図書)
新納浩幸 著 「数理統計学の基礎」(森北出版))