ベイズの定理                              戻る 

 いま、ベイズの定理が熱い。古典的確率論の一つの定理であるが、現在、検索エンジン
でよく利用される Google の高いヒット率を支えたり、Intel や Microsoft におけるアプリ
ケーション開発の数学的基礎として注目を集めているらしい。

 どのような形でベイズの定理が応用されるのか、大いに興味があるが、浅学の身で想像
の域を越えない。ベイズの定理自身は驚くほど単純で、ある方は定理そのものは覚えなく
てもいいと断言するくらい、自ら直ぐに導ける程度のものである。

 ここでは、このベイズの定理について、いくつかの話題を眺めてみようと思う。

 「5回に1回の割合で帽子を忘れるくせのあるK君が、正月に A、B、C 3軒を順に年始
回りをして家に帰ったとき、帽子を忘れてきたことに気がついた。2軒目の家 B に忘れて
きた確率を求めよ。」


 これは、以前、早稲田大学で出題された入試問題である。
平成26年2月9日付けで、よおすけさんから、1976年に文学部が出題したものとご教示いただきました。
 よおすけさんに感謝します。


 「帽子を忘れたこと」に現在気づき、その原因となる過去の事実「Bで忘れたこと」の確率
を問うもので、当時は、とてもセンセーショナルな問題であった。

 果たして何人の受験生が条件つき確率の問題ととらえ、正しく答えられたのか、大いに
興味があるところである。(正直に告白すると、この問題を初めて見たとき、それまで経験
してきた確率の問題とは異なる雰囲気に、ある種の戸惑いを感じたことを覚えている。)

 このような問題に対しては、ベイズの定理が活躍する。

 確率の計算で、事象 A が起こったという条件のもとに考える事象 B の確率は、A のもと
での B が起こる条件つき確率といわれ、記号で (B) と書かれる。
               (P(B|A)という書き方もあるが、記号的に好きではないので、ここでは用いない。)

 この条件つき確率というのは、新たな起こりうる全ての場合を事象 A とし、そのうちの B
の起こる事象 A∩B の割合を求めるものである。

 よって、
         

が成り立つ。

 このページで話題とするベイズの定理は、これとは逆に、(A) という確率を求めるた
めの公式である。

 すなわち、A という原因で B が起こったときに、その原因の起こる確率を求めようとする
ものである。

 そこで、P(A) を原因 A の存在確率(事前確率)、P(A) を原因の確率(事後確率)と
もいう。

 また、P(A) には、次のような解釈もできる。

 何も手持ちの情報がない状態では、Aのおこる確率は、P(A)であるが、結果として、Bが
起こった以上、Aのおこる確率を再評価する必要がある。その確率が、P(A) である。


 いま、事象 B は、互いに排反な事象 A1、A2、・・・、A のどれかが起こったときに、初め
て起こるものとする。ただし、P(A1)+P(A2)+・・・+P(A)=1 とする。
 このとき、
       

が成り立つ。 これを、ベイズの定理(1764年)という。

      (トーマス・ベイズ(1710〜1761)は、イギリスの確率論研究家で、彼の最も重要な論文
       Essay Toward Solving a Problem in the Doctorine of Chances
      は、死後3年たった1764年になって初めて出版された。)


 上記は、何やら難しそうな形をしているが、結局のところ、

       

と書いた方が覚えやすいかもしれない。この式に、

    

を代入すれば、ベイズの定理が成り立つことは、ほとんど明らかであろう。

 冒頭の早稲田大学の問題は、次のように解かれる。

 帽子を忘れるという事象を、E とすると、求める確率は、P(B) である。
このとき、P(E)=P(A)+P(B)+P(C)
          =1/5+(4/5)×(1/5)+(4/5)×(4/5)×(1/5)=61/125 で、
      P(E∩B)=P(B)=(4/5)×(1/5)=4/25
よって、 P(B)=20/61 となる。



  (追記) この問題について、当HPの掲示板「出会いの泉」に、HN「kaze」さんから質問
      の書き込みがあった。(平成23年5月13日付け)

        はじめまして。上記の問題を見たとき、「Aで忘れる確率が1/5、Bで忘れるの
        は、Aで忘れず、Bで忘れている確率」と思い、
          P(E∩B)=P(B)=(4/5)×(1/5)=4/25 (16%)
        と考えたのですが、間違っているでしょうか?
         単純に忘れる確率が、20%なのに、Bに忘れる確率が、
          P(B)=20/61 (32.8%)
        と上がってしまう理由がわかりません。


    この「kaze」さんの質問に対して、当HPがいつもお世話になっているHN「らすかる」
   さんが答えられた。(平成23年5月13日付け)

    もし問題が、

     「5回に1回の割合で帽子を忘れるくせのあるK君が、正月に、A、B、C 3軒を順に
     年始回りをして家に帰ったとき、2軒目の家 B に忘れてくる確率を求めよ。」

   だとすると、4/25(16%)が正解になりますが、この16%というのは、「どの家にも帽子
   を忘れてこない場合」がある場合です。

    つまり、 (1) Aに忘れる→20%  (2) Bに忘れる→16%  (3) Cに忘れる→12.8%
   そして、 (4) 忘れない→51.2%

   となりますね。しかし問題は、「帽子を忘れた場合」という条件がついていますから、(4)
   はあり得ず、(1)〜(3)の合計が100%となるように、すべて定数倍しなければいけない
   わけです。(1):(2):(3)=25:20:16ですから、(2)は20/61となりますね。

   (コメント) 帽子をかぶって家を出て年始回りを終えて家に帰っても、帽子のことに無
         頓着で、帽子をかぶっているのかいないのか全く不明な場合は、「kaze」さ
         んの計算でいいのですが、問題では家に帰って頭に手をやって帽子がない
         ことに気づいてしまったんですね!それで、家に帰って帽子がないという前
         提で、Bで帽子を忘れたことを再評価することが必要になります。忘れたとい
         う事実が確定している以上、Bで忘れた確率も増加します。

(参考 → 関連話題「嘘つきの真実」)

 ベイズの定理により、ある試行の結果において、ある事象が起こったことが分かったとき、
それに先行する事象の確率を評価することが可能になった。ただ、実際問題として、事前
確率 P(A) が不明という場合も少なくない。その場合は、全ての事前確率が等しいとみな
して計算することが多いらしいが、数学的な態度からはあやしいといわざるを得ない。

 医学系の入試問題に、「ある病気の検査で陽性になった場合、どの程度心配すべきか」
という類のものが、よく確率分野の問題として出題される。

 日本では、ある疾病 M に罹患している割合は、千分の50 と推定されている。この疾病
に罹患しているかどうかを知る検査 T は不完全で、Mに罹患している人は、80 %の割合
で陽性反応が出るが、Mに罹患していない人でも 15 %の割合で陽性反応が出てしまう。
 いま、ある人がこの検査を受けて、陽性反応が出た。果たして、この人が疾病 M に罹患
している割合は如何ほどになるであろうか?


(解) E : 陽性反応が出る事象 、M : 疾病 M に罹患している事象  とすると、
   求める確率は、 P(M) である。
    ここで、P(E)=P(M∩E)+P(M∩E)
            =(50/1000)(80/100)+(950/1000)(15/100)
            =18250/100000
      P(M∩E)=4000/100000
   したがって、 P(M)=4000/18250≒0.219 となり、疾病 M に罹患している
  確率は、22%位となる。  (終)

 陽性反応が出ても、疾病 M に罹患している確率が、22%位にしかならないということは、
本人にとってはかなり微妙な数値で、検査自体があまり意味がないものと判断されるだろう。


(追記) 平成28年12月31日付け

 上記の類題をあげておこう。

 日本では、ある疾病 M に罹患している割合は、1万分の1と推定されている。この疾病に
罹患しているかどうかを知る検査 T では、Mに罹患している人が陽性と判定される割合も、
Mに罹患していない人を陰性と判定される割合も、ともに99 %であるという。
 いま、ある人がこの検査を受けて、陽性反応が出た。果たして、この人が疾病 M に罹患
している割合は如何ほどになるであろうか?


(解) E : 陽性反応が出る事象 、M : 疾病 M に罹患している事象  とすると、
   求める確率は、 P(M) である。
    ここで、P(E)=P(M∩E)+P(M∩E)
            =(1/10000)(99/100)+(9999/10000)(1/100)
            =989901/1000000
      P(M∩E)=99/1000000
   したがって、 P(M)=99/989901≒0.0001 となり、疾病 M に罹患している
  確率は、0.01%位となる。


(コメント) 検査精度が高いので、陽性と判定されても気にすることはないのかな?


 上記では、1回だけの検査で判断しているが、このような検査を繰り返してみることは一
般に行われるところである。

 ある工場で、製品が規格内である確率が、0、9であるとする。製品を検査するとき、規格
内の製品は、確率0.95で合格と判定され、規格外の製品は、確率0.15で合格と判定さ
れるという。いま、一つの製品が、この検査で2度合格と判定されたとき、この製品が規格
内の製品である確率を求めよ。


(解) E : 1回の検査で合格と判定される事象、M : 製品が規格内である事象 とする。
   また、各回の検査は互いに独立事象であると仮定することができる。
    2回の検査で、事象 E が2回起こる事象を、E2 で表すとき、
   求める確率は、 P2(M) である。
    ここで、P(E2)=P(M∩E2)+P(M∩E2
            =(0.9)(0.95)2+(0.1)(0.15)2
            =3258/4000
      P(M∩E2)=3249/4000
   したがって、 P2(M)=3249/3258≒0.997237569 となる。

  このことから、上記の検査で2度合格した製品を「規格品」として失敗するのは、1万個
の製品のうち28個程度ということになる。
これは、1回の検査で判断する場合(P(M)≒0.982758621)に比べて、格段の信憑
性の上昇である。

 因みに、3度の検査で合格した製品が規格品である確率は、0.99956281
      4度の検査で合格した製品が規格品である確率は、0.999930945

このように、精度が低い検査方法でも繰り返しという操作を重ねれば、ある程度の精度が
維持できることが分かる。


(追記) 次は、岐阜薬科大学(2015)の入試問題である。「原因の確率」を問う条件付き
    確率の問題としては有名であろう。このような問題は、今後も出題される可能性が非
    常に高い。無条件に期待値を出題することができなくなったためだ。問題文で期待値
    の定義を与え、解かせることは可能のようで、実際にそのような形で出題した大学も
    見受けられる。今、司法試験問題漏洩で何かと話題の明治大学だ。
                                      (平成27年9月12日付け)

 ある病気Xにかかっている人が4%いる集団Aがある。病気Xを診断する検査で、病気Xにか
かっている人が正しく陽性と判断される確率は、80 %である。また、この検査で病気Xにかか
っていない人が誤って陽性と判断される確率は、10 %である。

(1) 集団Aのある人がこの検査を受けたところ、陽性と判断された。この人が病気Xにかか
  っている確率はいくらか。

(2) 集団Aのある人がこの検査を受けたところ、陰性と判断された。この人が実際には病気
  Xにかかっている確率はいくらか。


(解) Y:陽性と判断される事象とすると、題意より、

     P(X)=0.04、P(Y)=0.8、PX~(Y)=0.1

  なので、 P(Y)=P(X∩Y)+P(X~∩Y)=0.04×0.8+0.96×0.1=0.128

(1) 求める確率は、 P(X)=P(X∩Y)/P(Y)=0.032/0.128=1/4

(2) 求める確率は、 PY~(X)=P(X∩Y~)/P(Y~)
                   ={P(X)−P(X∩Y)}/P(Y~)=0.008/0.872=1/109

                                                    (終)


 最近、新納浩幸 著 「数理統計学の基礎」(森北出版)を眺めていたら、面白い問題が
あった。

 区別のつかない3つの袋の中に、それぞれ 赤・赤、赤・白、白・白 の2つの球が入っ
ている。
 いま、1つの袋を選び、その中から1つの球を取りだしたところ、赤球であった。残りのも
う一つの球が白球である確率を求めよ。


 確率の計算に不慣れな場合、もう1個は赤球、白球のどちらかしかないから確率は1/2
と答えがちである。しかしながら、これは、誤りである。

 この問題に対して、ベイズの定理は明解に答えてくれる。

 Aの袋には、赤・赤、Bの袋には、赤・白、Cの袋には、白・白 の球が入っているものとし、
R:赤球である事象、B:Bの袋である事象 とする。
 最初に赤球を取りだし、残りが白球であるということは、Bの袋を選ぶということなので、
求める確率は、P(B)である。
このとき、
       P(B)=P(B∩R)/P(R)
            =P(B∩R)/(P(A∩R)+P(B∩R)+P(C∩R))
            =(1/3)・(1/2)/((1/3)・1+(1/3)・(1/2)+(1/3)・0)
            =1/3
となる。

 確率が1/2と答えられた方は、多分、残りの赤球、白球が対等で、同様に確からしいと
考えてのことだろう。

 しかしながら、実は、残りの赤球、白球は対等の関係にはなっていない。「赤・赤」が曲者
で、「赤1・赤2」と考えれば、残りの球の可能性は、「赤1、赤2、白」となるので、「残りの球
が白である確率は1/3である」ということが理解される。

 この問題に対して、新納浩幸 氏は、3つの誤解があると説明している。

(第1の誤解) 赤球を取りだしたということは、最初に選んだ袋は、AまたはBの袋。
         残りの球が白ということは、Bの袋を選ぶということ。
          よって、確率は、1/2

        (最初に取りだした球が赤ということから、Aの袋を選んだ可能性の方がBの
        袋を選んだ可能性より高い。よって、A、Bを選ぶということは対等の関係に
        はなっていない。)

(第2の誤解) 最初に赤球、次に白球ということは、Bの袋を選んだということ。
           よって、確率は、1/3

        (最初に取りだした球が赤で、残りの球も赤という確率は、上記の考え方だと、
         Aの袋を選ぶ確率の1/3となるが、実際は、2/3である。)

(第3の誤解) Aの袋(赤1、赤2)、Bの袋(赤3、白1)、Cの袋(白2、白3)とすると、Bの
         袋を選ぶということは、赤1、赤2、赤3 から赤3 を選ぶことに等しいので、
         確率は、1/3

        (Aの袋(赤1、赤2、赤3)、Bの袋(赤4、白1)、Cの袋(白2、白3)とする。
         上記の考え方だと、求める確率は1/4となるが、実際は、1/3である。)

 アメリカのクイズ番組に次のような問題が出されたことがあるということを同僚の方に伺
った。後で調べると、どうも、モンティ・ホール司会のゲームショー「Let's make a deal
で出題された問題(1990年)らしい。

 区別のつかない3つの箱があり、その中に1個だけ、当たりくじの入っている箱がある。
まず、解答者に箱を選んでもらう。司会者は、どの箱に当たりくじが入っているかを知って
いるので、残った2つの箱から当たりくじの入っていない箱を1個だけ取り除く。
 そこで、司会者は解答者にたたみかけるように、「選んだ箱を変えるチャンスを1度だけ
あげます!どうしますか?」(日本のテレビだったら、「ファイナルアンサ〜?」とでもいうの
であろうか)
 果たして、解答者は箱を変えた方がいいのであろうか?それとも、そのままの方がいい
のであろうか?


 この問題も一見すると、箱は2つしかなく、どちらかに当たりくじが入っているので、どちら
を選ぼうとも確率は半々と錯覚しがちである。ある著名な数学者も間違えてしまったらしい。

 アメリカのクイズ問題は上記で考えた問題とよく似ている。すなわち、解答者が箱を選ぶ
ということを、「赤球」を選んだという風に考える。(もちろん、白球としてもよい。)そうすると、
司会者が外すべき箱は、白・白の袋に該当し、白球がはずれということになる。

 すると、上記の計算から分かるように、選んだ箱に当たりくじが入っている確率は、1/3で、
残っているもう一つの箱が当たる確率が2/3になるので、ここは、当然箱を変えた方がよい
ことになる。

 「司会者が必ず当たりくじの入っていない箱を取り除く」というのがポイントで、今選んだ
箱に当たりくじが入っていなければ、司会者は必ず当たりくじの入っている方の箱を残す
ということである。このことからも、箱を変えた方がよいことは了解されるだろう。

 このモンティ・ホール問題について、科学雑誌「Newton」(2008年4月号)に特集記事

  人はなぜ確率に弱いのか?  直感と計算の「ズレ」にせまる

があり、今野紀雄先生(横浜国立大学)の説明図がとても分かりやすかった。

司会者が箱を取り除く前   司会者が箱を取り除いた後
 

 上図を眺めていると、箱を変えた方がよいということが直観的に明らかですね!


(追記) 平成29年8月29日付け

 また、別な理解の仕方もある。瀬山士郎先生の「数学よもやま話」を参考にさせていただ
いた。

 解答者が1つの箱を選び、司会者が2つの箱を選んだものと考えるのである。このとき、解
答者の当たる確率は1/3で、司会者の当たる確率は2/3である。司会者にとって、当たりで
ない箱がどちらかであることは分かっているので、その箱が手元にあろうが捨ててしまおうが
確率には影響がない。

 従って、解答者の当たる確率は1/3、司会者の当たる確率は2/3なので、箱を取りかえた
方がよいことが分かる。

 この「3」という数字がこのカラクリにおいて実に巧妙である。箱の個数を10個にしてみる
と、「3」の持つ不思議さが実感できる。

 解答者は1つの箱を無作為に選ぶので、当たる確率は、1/10である。司会者は9つの箱
を得るので、司会者が当たる確率は、9/10である。この中から、当たりでない8個の箱を取
り去っても依然として司会者が当たる確率は、9/10である。

 従って、解答者は当然箱を司会者のものと交換した方が断然当たる確率は9倍にアップ
する。


 この問題と同様の問題が、

 「平成教育委員会 2010 !! 新春ウル寅授業SP !! 」(フジTV系 1/3 18:30〜21:09
の特別授業の第2問に出題された。

 3つのお年玉袋があり、そのうちの一つだけにお年玉が入っている。ある人がそのうちの
一つを選んだところ、残りの二つのうちの一つでお年玉が入っていない袋を、何故か教えら
れた。このとき、先ほど選んだ袋を換えてもいいよと言われたとき、換えた方がいいのか悪
いのか、どちらだろうか?


 お年玉袋を換えないで当たるということは、もともとお年玉が入っている袋を選んだわけで、
その確率は1/3である。それに対して、お年玉袋を換えて当たるということは最初に選んだ
お年玉袋ははずれで、その確率は2/3になる。このことから、お年玉袋を換えた方が当たり
の確率は大きくなる。

(コメント) 換えない場合と換える場合の確率を比較するところがポイントですね!番組中
      のたけし先生の説明がとても分かりやすかったです!


 上記のような場面設定では箱を変えた方が有利であるが、例えば、テストの○×の問題
で、分からない問題には適当に○×をつける(多分このような人が多いと思う?)場合、意
外と最初のインスピレーションが正しかったりなんかする。変に考え直して、解答を書き換
えると、「バツ」になる場合が多いように感じる。これは、道案内する適切な司会者がいな
いからだろうか?それとも確率は単なる机上の空論なのであろうか?

 次のような問題も興味深い。

 Aさんには、2人の子供がいる。あるとき町でAさんにあったら、息子さんと一緒だった。
Aさんのもう一人の子供が男の子である確率を求めよ。


 この問題に対して、ベイズの定理は明解に答えてくれる。

 Aさんの子供を出生順に並べて、
 X:男・男である事象、Y:男・女である事象、Z:女・男である事象、W:女・女である事象
とする。また、M:男の子である事象 とする。
 町で出会って、子供の一人が男の子であることが分かって、もう一人の子供も男の子で
あるということは、事象Xが起こるということなので、求める確率は、P(X)である。
このとき、
       P(X)=P(X∩M)/P(M)
            =P(X∩M)/(P(X∩M)+P(Y∩M)+P(Z∩M)+P(W∩M))
            =(1/4)・1/((1/4)・1+(1/4)・(1/2)+(1/4)・(1/2)+(1/4)・0)
            =1/2

 この問題に対して、ともすると、求める確率は、1/3 であると答える人がいるかもしれな
い。しかし、それは、誤りである。
 X、Y、Z、Wの4通りあり、それらは同様に確からしいとして、Wを除いた X、Y、Zの3つ
からXを選ぶ確率として、1/3 とするのだろうが、実は、Aさんに息子さんがいるという情
報を得た段階で、X、Y、Z、Wの4通りが同様に確からしいとは言えなくなってしまうのだ。
 実際に、P(X)=1/2、P(Y)=1/4、P(Z)=1/4、P(W)=0 である。

 このように、原因の存在確率 P(X)、P(Y)、P(Z)、P(W) は、Mという結果により、
再評価され、原因の確率 P(X)、P(Y)、P(Z)、P(W) が定まる。


(追記) 上記と同趣旨の問題をGAIさんよりご投稿いただいた。
                                     (平成28年10月14日付け)

 家には2人の子供がいます。「少なくとも一人は男の子です。」
さて、もう一人が女の子である確率P1は?

 更に同様に、「上の子は男の子です。」。さて、もう一人が女の子である確率P2は?

 家には3人の子供がいます。「少なくとも一人は男の子です。」
女の子がいる確率P3は?

 また、「一番上は男の子です。」。一番下が女の子である確率P4は?


 DD++さんからのコメントです。(平成28年10月14日付け)

 ヒトの出生比 105:100=21:20 を厳密に正しいと仮定します。

 家には2人の子供がいます。「少なくとも一人は男の子です。」
さて、もう一人が女の子である確率P1は?


 少なくとも一人が男の子である確率は、 1-(20/41)2

 男の子と女の子が一人ずつである確率は、 20/41×21/41×2

 よって、 P1 = 20/41×21/41×2/{1-(20/41)2} = 40/61

 更に同様に、「上の子は男の子です。」。さて、もう一人が女の子である確率P2は?

 P2 = 20/41

 家には3人の子供がいます。「少なくとも一人は男の子です。」
女の子がいる確率P3は?


 少なくとも一人が男の子である確率は、 1-(20/41)3

 男の子と女の子が両方いる確率は、 (20/41)2×21/41×3+(21/41)2×20/41×3

 よって、 P3 = {(20/41)2×21/41×3+(21/41)2×20/41×3/{1-(20/41)3} = 820/967

 また、「一番上は男の子です。」。一番下が女の子である確率P4は?

 P4 = 820/1261


 甲南大学の入試問題で次の問題も興味深い。

 本当のことを言う確率が80%の人が3人いる。1枚の硬貨を投げたところ、3人とも「表が
出た」と証言した。本当に表が出た確率を求めよ。

(解) 表が出る事象をA、3人とも「表が出た」と証言する事象をBとすると、求める確率は、

 P(A)である。ここで、 P(A)=1/2、P(B)=(80/100)3=64/125 なので、

 P(B)=(1/2)(64/125)+(1/2)(20/100)3=65/250

 よって、 P(A)=(1/2)(64/125)÷65/250=64/65  (終)


 産業医科大学(2016)の入試問題も、GAI さんの問題の類題である。3囚人問題と同じ
系列の有名問題らしい。

 ちょうど3人の子供がいる家庭を考える。3人の子供が

 (男,男,男)、(男,男,女)、(男,女,男)、(男,女,女)、(女,男,男)、(女,男,女)、
 (女,女,男)、(女,女,女)

である確率は各々1/8であるとする。この家庭を訪問したところ1人の女の子が顔を出した
として、残りの2人の子供がどちらも男の子である確率を求めよ。

(解) X:男2人+女である事象、W:女の子である事象 とすると、

 P(X)
=P(X∩W)/P(W)
=(3/8)・(1/3)/((3/8)・(1/3)+(3/8)・(2/3)+(1/8)・1)=1/4  (終)


(コメント) 答えは合っているかな?答えが、3/7とならないところがポイントなのだろう。



     以下、工事中



(参考文献:御園生善尚 他著 統計学大要 (養賢堂)
        田代嘉宏 著 確率と統計 (裳華房)
        岡安 實 著 確率・統計 (旺文社)
        渡部隆一 著 確率 (共立出版)
        渡辺信三 著 ベイズの公式 (数研出版)
        グネジェンコ・ヒンチン 著 渋谷政昭・渡辺 毅 訳 確率論入門 (東京図書)
        新納浩幸 著 「数理統計学の基礎」(森北出版))