Artikel

12.4: Teorema Bayes - Matematik


Pada bahagian ini kita menumpukan perhatian kepada masalah kebarangkalian bersyarat yang lebih kompleks yang mula kita lihat di bahagian terakhir.

Contoh 19

Andaikan penyakit tertentu mempunyai kadar kejadian 0.1% (iaitu, ia menghidapi 0.1% populasi). Ujian telah dibuat untuk mengesan penyakit ini. Ujian ini tidak menghasilkan negatif palsu (iaitu, sesiapa yang mempunyai penyakit ini akan menguji positifnya), tetapi kadar positif palsu adalah 5% (iaitu, kira-kira 5% orang yang mengambil ujian akan positif, walaupun mereka tidak menghidap penyakit itu). Katakan orang yang dipilih secara rawak mengambil ujian dan ujian positif. Apakah kebarangkalian orang ini benar-benar menghidap penyakit ini?

Penyelesaian

Terdapat dua cara untuk mendekati penyelesaian masalah ini. Satu melibatkan hasil penting dalam teori kebarangkalian yang disebut teorem Bayes. Kami akan membincangkan teorema ini sedikit masa kemudian, tetapi buat masa ini kami akan menggunakan alternatif dan, kami berharap, pendekatan yang lebih intuitif.

Mari kita pecahkan maklumat dalam masalah demi masalah.

Andaikan penyakit tertentu mempunyai kadar kejadian 0.1% (iaitu, ia menghidapi 0.1% populasi). Peratusan 0.1% dapat ditukar menjadi nombor perpuluhan dengan memindahkan tempat perpuluhan dua tempat ke kiri, untuk mendapatkan 0,001. Pada gilirannya, 0,001 dapat ditulis semula sebagai pecahan: 1/1000. Ini memberitahu bahawa kira-kira 1 dari setiap 1000 orang menghidap penyakit ini. (Sekiranya kita mahu, kita boleh menulis P(penyakit) = 0.001.)

Ujian telah dibuat untuk mengesan penyakit ini. Ujian ini tidak menghasilkan negatif palsu (iaitu, sesiapa yang mempunyai penyakit ini akan positif untuknya). Bahagian ini cukup mudah: setiap orang yang menghidap penyakit itu akan menguji positif, atau sebagai alternatif, setiap orang yang menguji negatif tidak mempunyai penyakit. (Kita juga boleh katakan P(positif | penyakit) = 1.)

Kadar positif palsu adalah 5% (iaitu, kira-kira 5% orang yang mengambil ujian akan positif, walaupun mereka tidak menghidap penyakit ini). Ini lebih mudah. Cara lain untuk melihatnya adalah bahawa setiap 100 orang yang diuji dan tidak mempunyai penyakit, 5 akan positif jika mereka tidak menghidap penyakit tersebut. (Kita juga boleh mengatakan bahawa (P ) (positif | tidak ada penyakit) = 0,05.)

Katakan orang yang dipilih secara rawak mengambil ujian dan ujian positif. Apakah kebarangkalian orang ini benar-benar menghidap penyakit ini? Di sini kita ingin mengira (P ) (penyakit | positif). Kita sudah tahu bahawa (P ) (positif | penyakit) = 1, tetapi ingat bahawa kebarangkalian bersyarat tidak sama jika keadaan diubah.

Daripada memikirkan semua kemungkinan yang telah kita kembangkan, mari kita buat situasi hipotetis dan terapkan fakta seperti yang dinyatakan di atas. Pertama, anggaplah kita memilih 1000 orang secara rawak dan menjalankan ujian. Berapa banyak yang kita jangkakan menghidap penyakit ini? Oleh kerana kira-kira 1/1000 dari semua orang menderita penyakit ini, ( frac {1} {1000} ) dari 1000 orang adalah 1. (Sekarang anda tahu mengapa kami memilih 1000.) Hanya 1 daripada 1000 subjek ujian yang sebenarnya mempunyai penyakit itu; 999 yang lain tidak.

Kami juga tahu bahawa 5% daripada semua orang yang tidak menghidap penyakit ini akan positif. Ada 999 orang bebas penyakit, jadi kami mengharapkan ((0,05) (999) = 49,95 ) (jadi, sekitar 50) orang untuk menguji positif yang tidak menghidap penyakit ini.

Sekarang kembali kepada soalan asal, pengkomputeran P(penyakit | positif). Terdapat 51 orang yang menguji positif dalam contoh kami (orang yang malang yang benar-benar menghidap penyakit ini, ditambah dengan 50 orang yang menguji positif tetapi tidak). Hanya satu dari mereka yang mempunyai penyakit ini

P (penyakit | positif) ( lebih kurang frac {1} {51} lebih kurang 0.0196 )

atau kurang dari 2%. Adakah ini mengejutkan anda? Ini bermaksud bahawa semua orang yang menguji positif, melebihi 98% tidak mempunyai penyakit.

Jawapan yang kami dapati adalah sedikit perkiraan, kerana kami membulatkan 49.95 hingga 50. Kami dapat menyelesaikan masalah dengan 100,000 subjek ujian, 100 daripadanya akan menghidap penyakit ini dan ((0,05) (99,900) = 4995 ) positif tetapi tidak menghidap penyakit ini, jadi kemungkinan tepat untuk menghidap penyakit ini jika anda menguji positif adalah

P (penyakit | positif) ( lebih kurang frac {100} {5095} lebih kurang 0.0196 )

yang hampir sama jawapannya.

Tetapi kembali kepada hasil yang mengejutkan. Dari semua orang yang positif, lebih dari 98% tidak menghidap penyakit ini. Sekiranya anda meneka kemungkinan seseorang yang positif mengidap penyakitnya sangat berbeza dengan jawapan yang tepat (2%), jangan merasa tidak enak. Masalah yang sama diajukan kepada doktor dan pelajar perubatan di Harvard Medical School 25 tahun yang lalu dan hasilnya dinyatakan pada tahun 1978 Jurnal Perubatan New England artikel. Hanya sekitar 18% peserta yang mendapat jawapan yang tepat. Sebilangan besar yang lain berpendapat bahawa jawapannya hampir 95% (mungkin mereka disesatkan oleh kadar positif palsu 5%).

Jadi sekurang-kurangnya anda harus merasa sedikit lebih baik bahawa sekumpulan doktor tidak mendapat jawapan yang tepat (dengan andaian anda menganggap jawapannya jauh lebih tinggi). Tetapi kepentingan penemuan ini dan hasil yang serupa dari kajian lain pada tahun-tahun yang berlanjutan bukan terletak pada membuat pelajar matematik merasa lebih baik tetapi dalam akibat yang mungkin ditimbulkan terhadap perawatan pesakit. Sekiranya doktor memikirkan kemungkinan keputusan ujian positif hampir menjamin bahawa pesakit mempunyai penyakit, mereka mungkin memulakan rejimen rawatan yang tidak perlu dan mungkin berbahaya pada pesakit yang sihat. Atau lebih buruk lagi, seperti pada awal-awal krisis AIDS ketika positif HIV sering disamakan dengan hukuman mati, pesakit mungkin mengambil tindakan drastik dan bunuh diri.

Seperti yang telah kita lihat dalam contoh hipotetis ini, tindakan yang paling bertanggungjawab untuk merawat pesakit yang positif akan memberi nasihat kepada pesakit yang kemungkinan besar mereka lakukan tidak menghidap penyakit ini dan untuk membuat ujian lebih lanjut, lebih dipercayai, untuk mengesahkan diagnosis.

Salah satu sebab mengapa doktor dan pelajar perubatan dalam kajian ini tidak begitu baik kerana masalah seperti itu, ketika disampaikan dalam jenis kursus statistik yang sering diambil oleh pelajar perubatan, diselesaikan dengan menggunakan teorema Bayes, yang dinyatakan sebagai berikut:

Teorema Bayes

(P (A | B) = frac {P (A) P (B | A)} {P (A) P (B | A) + P ( bar {A}) P (B | bar { A})} )

Dalam contoh awal kami, ini diterjemahkan ke

(P ( text {penyakit} | teks {positif}) = frac {P ( text {penyakit}) P ( teks {positif} | teks {penyakit})} {P ( teks {penyakit }) P ( teks {positif} | teks {penyakit}) + P ( teks {tanpa penyakit}) P ( teks {positif} | teks {tanpa penyakit})} )

Memasukkan nombor memberi

(P ( text {penyakit} | teks {positif}) = frac {(0.001) (1)} {(0.001) (1) + (0.999) (0.05)} lebih kurang 0.0196 )

yang betul-betul jawapan yang sama dengan penyelesaian asal kami.

Masalahnya ialah anda (atau pelajar perubatan biasa, atau bahkan profesor matematik biasa) lebih cenderung untuk mengingat penyelesaian asal daripada mengingat teorema Bayes. Ahli psikologi, seperti Gerd Gigerenzer, pengarang Risiko yang Dihitung: Bagaimana Mengetahui Bila Nombor Menipu Anda, telah menganjurkan bahawa kaedah yang terlibat dalam penyelesaian asli (yang disebut Gigerenzer sebagai kaedah "frekuensi semula jadi") digunakan sebagai pengganti Teorema Bayes. Gigerenzer melakukan kajian dan mendapati bahawa mereka yang berpendidikan dalam kaedah frekuensi semula jadi dapat mengingatnya jauh lebih lama daripada mereka yang diajar teorem Bayes. Apabila seseorang mempertimbangkan kemungkinan akibat hidup dan mati yang berkaitan dengan perhitungan tersebut, adalah bijaksana untuk mengindahkan nasihatnya.

Contoh 20

Penyakit tertentu mempunyai kadar kejadian 2%. Sekiranya kadar negatif palsu adalah 10% dan kadar positif palsu 1%, hitung kebarangkalian seseorang yang menguji positif benar-benar menghidap penyakit ini.

Penyelesaian

Bayangkan 10,000 orang yang diuji. Dari 10,000 ini, 200 akan menghidap penyakit ini; 10% daripadanya, atau 20, akan menguji negatif dan selebihnya 180 akan positif. Dari 9800 yang tidak mempunyai penyakit, 98 akan positif. Oleh itu, daripada 278 orang yang positif, 180 akan menghidap penyakit ini. Oleh itu

(P ( text {penyakit} | teks {positif}) = frac {180} {278} lebih kurang 0.647 )

jadi kira-kira 65% orang yang menguji positif akan menghidap penyakit ini.

Menggunakan teorema Bayes secara langsung akan memberikan hasil yang sama:

(P ( text {penyakit} | teks {positif}) = frac {(0.02) (0.90)} {(0.02) (0.90) + (0.98) (0.01)} = frac {0.018} {0.0278 } lebih kurang 0.647 )

Cubalah Sekarang 5

Penyakit tertentu mempunyai kadar kejadian 0.5%. Sekiranya tidak ada negatif palsu dan jika kadar positif palsu adalah 3%, hitung kebarangkalian seseorang yang menguji positif benar-benar menghidap penyakit ini.

Jawapan

Dari 100,000 orang, 500 akan menghidap penyakit ini. Dari jumlah tersebut, kesemuanya 500 akan positif. Dari 99,500 tanpa penyakit, 2,985 akan menguji positif dan 96,515 yang lain akan menguji negatif.

( mathrm {P} ( text {penyakit} | teks {positif}) = frac {500} {500 + 2985} = frac {500} {3485} lebih kurang 14,3 \% )


Perbandingan Model dan Pemodelan Hierarki

10.6 Kepekaan yang melampau terhadap pengedaran sebelumnya

Dalam banyak aplikasi perbandingan model Bayesian yang realistik, penekanan teori adalah pada perbezaan antara fungsi model & # x27 kemungkinan. Sebagai contoh, satu teori meramalkan pergerakan planet berdasarkan orbit elips di sekitar matahari, dan teori lain meramalkan pergerakan planet berdasarkan kitaran bulat dan epiklik di seluruh bumi. Kedua-dua model tersebut melibatkan parameter yang sangat berbeza. Dalam model seperti ini, bentuk pengagihan sebelumnya pada parameter tidak menjadi tumpuan, dan sering kali menjadi renungan. Tetapi, ketika melakukan perbandingan model Bayesian, bentuk sebelumnya sangat penting kerana faktor Bayes menyatukan fungsi kemungkinan yang ditimbang oleh pengedaran sebelumnya.

Seperti yang telah kita lihat berulang kali, perbandingan model Bayes melibatkan meminggirkan sebaran sebelumnya dalam setiap model. Oleh itu, kebarangkalian model model, dan faktor Bayes, sangat sensitif terhadap pilihan pengedaran sebelumnya. Sekiranya pengedaran sebelumnya berlaku untuk meletakkan banyak jisim kebarangkalian di mana pengagihan kemungkinan memuncak, maka kemungkinan marginal (iaitu, hlm(D | m)) akan besar. Tetapi jika taburan sebelumnya berlaku untuk meletakkan jisim kebarangkalian kecil di mana taburan kemungkinan, maka kemungkinan marginal akan kecil. Sensitiviti faktor Bayes terhadap pengedaran sebelumnya terkenal dalam literatur (mis., Kass & amp Raftery, 1995 Liu & amp Aitkin, 2008 Vanpaemel, 2010).

Semasa melakukan perbandingan model Bayesian, bentuk-bentuk yang tidak jelas sebelumnya dapat menghasilkan faktor Bayes yang sangat berbeza. Sebagai contoh, pertimbangkan lagi model yang mustahak berbanding yang mungkin & # x27s dari bahagian sebelumnya. Model yang mesti adil dicirikan sebagai versi beta sebelumnya dengan parameter bentuk a = 500 dan b = 500 (iaitu, mod ω = 0.5 dan kepekatan κ = 1000). Model yang mungkin & # x27s didefinisikan sebagai beta sebelumnya dengan parameter bentuk sebesar a = 1 dan b = 1. Andaikan kita mempunyai data dengan z = 65 dan N = 100. Maka faktor Bayes adalah

& gt z = 65 N = 100 pD (z, N, a = 500, b = 500) / pD (z, N, a = 1, b = 1)

Ini bererti bahawa apa-apa & # x27s-model mungkin disukai. Tetapi mengapa kita memilih nilai parameter bentuk tertentu untuk apa sahaja & model yang mungkin? Hanya intuisi yang menunjukkan pengagihan yang seragam. Sebaliknya, banyak ahli statistik matematik mengesyorkan bentuk yang berbeza sebelum menjadikannya tidak maklumat mengikut kriteria matematik tertentu (Lee & amp Webb, 2005 Zhu & amp Lu, 2004). Prior yang disyorkan adalah yang disebut Haldane sebelumnya, yang menggunakan pemalar bentuk yang hampir mendekati sifar, seperti a = b = 0.01. (Lihat Gambar 6.1, hlm. 128, untuk contoh sebaran beta dengan parameter bentuk kurang dari 1.) Dengan menggunakan Haldane sebelum menyatakan apa-apa & # x27s model yang mungkin, faktor Bayes adalah

& gt z = 65 N = 100 pD (z, N, a = 500, b = 500) / pD (z, N, a = 0.01, b = 0.01)

Ini bermaksud bahawa model yang mesti adil disukai. Perhatikan bahawa kita membalikkan faktor Bayes hanya dengan menukar dari beta "samar" (θ| 1, 1) sebelum beta "kabur" (θ| .01, .01) sebelumnya.

Tidak seperti perbandingan model Bayesian, ketika melakukan estimasi parameter berterusan Bayesian dalam model dan menggunakan sejumlah besar data secara realistik, taburan posterior pada parameter berterusan biasanya kuat terhadap perubahan sebelumnya yang tidak jelas. Tidak menjadi masalah jika yang sebelumnya sangat samar-samar atau hanya sedikit samar (dan ya, apa yang saya maksudkan dengan "sangat kabur" dan "hanya sedikit kabur" tidak jelas, tetapi intinya adalah bahawa itu tidak penting).

Sebagai contoh, pertimbangkan dua versi model yang mungkin & # x27s, menggunakan beta "samar-samar" (θ| 1,1) beta sebelumnya atau "kabur" (θ.01, .01) sebelumnya. Menggunakan data z = 65 dan N = 100, kita dapat menghitung taburan posterior pada θ. Bermula dengan beta (θ| 1, 1) menghasilkan beta (θ| 66, 36) posterior, yang mempunyai 95% HDI dari 0,554 hingga 0,738. (HDI dihitung dengan menggunakan fungsi HDIofICDF yang disertakan dengan program utiliti yang menyertai buku ini.) Bermula dengan beta (θ.01, .01) menghasilkan beta (θ| 65.01,35.01) posterior, yang mempunyai 95% HDI dari 0.556 hingga 0.742. HDI hampir sama. Khususnya, untuk kedua-dua perkara sebelumnya, penyebaran posterior menyingkirkan θ = 0.5, yang bermaksud bahawa hipotesis yang mesti adil bukanlah antara nilai yang boleh dipercayai. Untuk perbincangan tambahan dan contoh yang berkaitan, lihat Kruschke (2011a) dan Bahagian 12.2 buku ini.

10.6.1 Sebelum model yang berbeza harus diberitahu sama

Kami telah membuktikan bahawa perubahan yang kelihatan tidak berbahaya dalam kekaburan yang kabur sebelumnya secara dramatik dapat mengubah kemungkinan marginal model, dan oleh itu faktor Bayesnya dibandingkan dengan model lain. Apa yang boleh dilakukan untuk memperbaiki masalah? Salah satu pendekatan yang berguna adalah untuk memberi tahu semua model dengan sekumpulan kecil data perwakilan (sama untuk semua model). Idenya adalah bahawa bahkan sekumpulan kecil data mengatasi sebelumnya yang samar-samar, menghasilkan penyebaran parameter baru yang paling tidak "di taman permainan" nilai parameter yang wajar untuk model itu. Ini meletakkan model pada arena permainan yang sama masuk ke perbandingan model.

Dari mana data itu berasal, yang akan bertindak sebagai perwakilan kecil untuk memberitahu model sebelumnya? Mereka boleh datang dari penyelidikan sebelumnya. Mereka boleh menjadi fiksyen tetapi mewakili penyelidikan sebelumnya, selagi audiens analisis bersetuju bahawa data fiksyen itu sah. Atau, data boleh menjadi sebilangan kecil data dari penyelidikan yang sedang dilakukan. Sebagai contoh, 10% data secara rawak dapat memberitahu model sebelumnya, dan 90% selebihnya digunakan untuk mengira faktor Bayes dalam perbandingan model. Walau apa pun, data yang digunakan untuk memaklumkan kepada yang terdahulu harus mewakili data sebenar dan jumlahnya cukup besar sehingga dapat digunakan untuk mengatasi masalah yang tidak jelas sebelumnya. Tepatnya maksudnya akan bergantung pada perincian model, tetapi contoh ringkas berikut menggambarkan idea tersebut.

Ingatlah, dari bahagian sebelumnya, perbandingan model yang mesti adil dan model yang mungkin & # x27s. Bila z = 65 dengan N = 100, faktor Bayes berubah secara mendadak bergantung pada apakah model "samar-samar" & model yang mungkin menggunakan beta (θ| 1,1) sebelumnya atau beta (θ.01, .01) sebelumnya. Sekarang mari & # x27s mengira faktor Bayes setelah memberitahu kedua-dua model dengan hanya 10% data. Katakan bahawa subset 10% mempunyai 6 kepala dalam 10 flip, jadi 90% data selebihnya mempunyai z = 65 - 6 dan N = 100 − 10.

Katakan kita mulakan dengan beta (θ| 1,1) untuk model sebelumnya yang mungkin & # x27s. Kami memaklumkannya, dan model yang mesti adil, dengan subset 10%. Oleh itu, apa-apa model yang mungkin menjadi beta (θ| 1 + 6,1 +10 - 6) sebelumnya, dan model yang mesti adil menjadi beta (θ| 500 + 6, 500 + 10 - 6) sebelumnya. Faktor Bayes adalah

& gt z = 65-6 N = 100-10 pD (z, N, a = 500 + 6, b = 500 + 10-6) / pD (z, N, a = 1 + 6, b = 1 + 10- 6)

Sekarang mari & # x27s bermula dengan beta (θ| .01, .01) untuk apa sahaja & # x27s model yang mungkin. Faktor Bayes yang menggunakan maklumat awal yang lemah adalah

& gt z = 65-6 N = 100-10 pD (z, N, a = 500 + 6, b = 500 + 10-6) / pD (z, N, a = 0,01 + 6, b = 0,01 + 10- 6)

Oleh itu, faktor Bayes hampir tidak berubah sama sekali. Dengan kedua-dua model yang diberitahu oleh sebilangan kecil data perwakilan, faktor Bayes stabil.

Idea menggunakan sebilangan kecil data latihan untuk memberi maklumat sebelumnya untuk perbandingan model telah dibahas panjang lebar dalam literatur dan merupakan topik penyelidikan aktif. Gambaran keseluruhan selektif diberikan oleh JO Berger dan Pericchi (2001), yang membincangkan faktor-faktor lalai konvensional (misalnya, Jeffreys, 1961), faktor-faktor Bayes “intrinsik” (contohnya, JO Berger & amp Pericchi, 1996), dan faktor-faktor Bayes “pecahan” ( contohnya, O & # x27Hagan, 1995, 1997), antara lain.


Statistik Bayesian

Bukti Teorema Bayes & # x27s dan Lanjutannya

Teorema Bayes & # x27s mudah dibuktikan dengan memerhatikan bahawa:

Memandangkan itu hlm(A, B) bersamaan dengan hlm(B, A), sebelah kiri Persamaan. (3) dan (5) dapat ditetapkan sama, dan kami memperoleh:

Membahagi kedua-dua belah pihak dengan hlm(A) menghasilkan teorema Bayes & # x27s. Dalam perwakilan ini, teorema tidak dapat dipertikaikan. Walau bagaimanapun, ahli statistik Bayesian menggantikan B dengan "parameter" atau "hipotesis" dan A dengan "data" sehingga teorema muncul sebagai:

Penyebut sebelah kanan persamaan ini adalah kebarangkalian data marginal (sering disebut pemalar normalisasi), yang merupakan purata kebarangkalian data di bawah semua kemungkinan nilai parameter (θ). Dalam ruang parameter berterusan (S):

Dalam ruang parameter diskrit, kebarangkalian marginal data adalah:

Oleh kerana penyebutnya biasanya tidak memberi kami maklumat mengenai parameter, teorema Bayes & # x27 sering dikurangkan menjadi:

Dalam bahasa Bayesian, ungkapan ini mengatakan bahawa kebarangkalian posterior untuk sebanding dengan fungsi kemungkinan untuk data (atau kepadatan sampel untuk data) dikalikan dengan kebarangkalian sebelumnya untuk parameter. Posterior dipanggil kerana itu adalah anggaran kita untuk kemungkinan parameter setelah memerhatikan data tambahan yang sebelumnya disebut kerana ini mewakili kepercayaan kita tentang kebarangkalian untuk parameter sebelum memerhatikan data.

Untuk memberikan contoh penerapan teorema Bayes & # x27s, saya menunjukkan teorema mengenai data mengenai barah prostat. Anggaplah lelaki berusia 30 tahun positif pada ujian standard untuk kanser prostat. Anggap juga bahawa ujian itu mempunyai kadar ketepatan 90% untuk orang-orang dalam kumpulan umur itu, yang bermaksud bahawa ia akan memberikan hasil ujian positif kepada kes positif 90% sepanjang masa. Anggap saja, bagaimanapun, ujian juga menghasilkan keputusan positif palsu 10% dari waktu, antara bukan kes 10% akan menerima ujian positif. Jelas, persoalan yang menarik ialah adakah, berdasarkan hasil ujian positif, individu tersebut sebenarnya menghidap barah prostat, yang dapat dinyatakan sebagai hlm(ujian p.c.∣ +). Namun, kita tahu hlm(ujian +. p.c.), dan kita dapat memperoleh kadar kejadian barah prostat untuk usia 30 tahun, hlm(p.c.) (di sini, saya menggunakan anggaran harga untuk orang di bawah umur 45 tahun). Kami boleh mengganti maklumat yang diketahui dengan formula Bayes & # x27s:

Dalam kes ini, kami mempunyai perkara berikut:

Penyederhanaan menunjukkan bahawa kebarangkalian barah sebenarnya (posterior) menghidap barah pada usia 30 tahun, dengan ujian positif, adalah 0,0001. Tentunya kebarangkalian posterior kita untuk menghidap barah lebih besar daripada kebarangkalian kita sebelumnya, tetapi kebarangkalian posterior ini masih sedikit, menunjukkan kekurangan ujian dengan kadar positif palsu sederhana yang berlaku pada populasi berisiko rendah.


Kandungan

Teorema Bayes dinyatakan secara matematik sebagai persamaan berikut: [3]

Edit Bukti

Untuk acara Edit

Teorema Bayes mungkin berasal dari definisi kebarangkalian bersyarat:

di mana P (A ∩ B) < displaystyle P (A cap B)> adalah kebarangkalian bersama kedua-dua A dan B menjadi benar. Kerana

Untuk pemboleh ubah rawak berterusan Edit

Untuk dua pemboleh ubah rawak berterusan X dan Y, Teorema Bayes secara analog dapat berasal dari definisi ketumpatan bersyarat:

Ujian dadah Edit

Katakan, ujian tertentu untuk sama ada seseorang telah menggunakan ganja 90% sensitif, yang bermaksud kadar positif sebenar (TPR) = 0.90. Oleh itu, ia membawa kepada hasil positif 90% (pengenalan penggunaan dadah yang betul) bagi pengguna ganja.

Ujian ini juga spesifik 80%, yang bermaksud kadar negatif benar (TNR) = 0.80. Oleh itu, ujian dengan betul mengenal pasti 80% penggunaan bukan untuk pengguna, tetapi juga menghasilkan 20% positif palsu, atau kadar positif palsu (FPR) = 0.20, untuk bukan pengguna.

Dengan mengandaikan kelaziman 0.05, yang bermaksud 5% orang menggunakan ganja, berapakah kebarangkalian bahawa orang rawak yang menguji positif benar-benar pengguna ganja?

Nilai ramalan positif (PPV) ujian adalah bahagian orang yang benar-benar positif daripada semua ujian positif, dan dapat dikira dari sampel sebagai:

PPV = Benar positif / Diuji positif

Fakta bahawa P (Positif) = P (Positif ∣ Pengguna) P (Pengguna) + P (Positif ∣ Bukan pengguna) P (Bukan pengguna) < displaystyle P (< text>) = P (< teks> tengah < teks>) P (< teks>) + P (< teks> tengah < teks>) P (< teks>)> adalah penerapan langsung dari Hukum Keseluruhan Kebarangkalian. Dalam kes ini, dikatakan bahawa kebarangkalian seseorang menguji positif adalah kebarangkalian pengguna menguji positif, berkali-kali kebarangkalian menjadi pengguna, ditambah dengan kemungkinan bahawa pengguna tidak positif, kali kebarangkalian menjadi bukan pengguna .

Ini benar kerana pengguna klasifikasi dan bukan pengguna membentuk partisi satu set, iaitu kumpulan orang yang mengambil ujian ubat. Ini digabungkan dengan definisi kebarangkalian bersyarat dalam pernyataan di atas.

Walaupun seseorang menguji positif, kebarangkalian mereka adalah pengguna ganja hanya 19%, kerana dalam kumpulan ini hanya 5% orang adalah pengguna, kebanyakan positif adalah positif palsu yang berasal dari baki 95%.

Sekiranya 1,000 orang diuji:

  • 950 bukan pengguna dan 190 daripadanya memberikan positif palsu (0,20 × 950)
  • 50 daripadanya adalah pengguna dan 45 daripadanya memberikan benar positif (0,90 × 50)

Oleh itu, 1.000 orang menghasilkan 235 ujian positif, di mana hanya 45 orang pengguna dadah tulen, sekitar 19%. Lihat Gambar 1 untuk ilustrasi menggunakan kotak frekuensi, dan perhatikan betapa kecilnya kawasan merah jambu positif positif dengan kawasan biru positif positif.

Sensitiviti atau kekhususan

Kepentingan kekhususan dapat dilihat dengan menunjukkan bahawa walaupun kepekaan dinaikkan hingga 100% dan kekhususan tetap pada 80%, kebarangkalian seseorang yang menguji positif benar-benar menjadi pengguna ganja hanya meningkat dari 19% hingga 21%, tetapi jika kepekaannya dipegang pada 90% dan kekhususannya meningkat menjadi 95%, kebarangkalian meningkat menjadi 49%.

Kadar barah

Walaupun 100% pesakit dengan barah pankreas mempunyai simptom tertentu, apabila seseorang mempunyai simptom yang sama, itu tidak bermaksud bahawa orang ini mempunyai peluang 100% untuk mendapat barah pankreas. Anggaplah kadar kejadian barah pankreas adalah 1/100000, sementara 10/100000 individu yang sihat mempunyai simptom yang sama di seluruh dunia, kebarangkalian menghidap barah pankreas memandangkan simptomnya hanya 9.1%, dan 90.9% yang lain mungkin "positif palsu" ( iaitu, dikatakan palsu bahawa barah "positif" adalah istilah yang membingungkan apabila, seperti di sini, ujian itu memberikan berita buruk).

Berdasarkan kadar kejadian, jadual berikut menunjukkan jumlah yang sesuai bagi setiap 100,000 orang.

Yang kemudiannya boleh digunakan untuk mengira kebarangkalian menghidap barah apabila anda mempunyai simptom:

Harga item rosak Edit

Sebuah kilang menghasilkan item menggunakan tiga mesin — A, B, dan C — masing-masing menyumbang 20%, 30%, dan 50% dari outputnya. Daripada barang yang dihasilkan oleh mesin A, 5% juga mengalami kerosakan, 3% dari barang mesin B dan 1% mesin C mengalami kerosakan. Sekiranya item yang dipilih secara rawak rosak, berapakah kemungkinan ia dihasilkan oleh mesin C?

Sekali lagi, jawapannya dapat dicapai tanpa menggunakan rumus dengan menerapkan syarat pada sejumlah kes hipotesis. Sebagai contoh, jika kilang menghasilkan 1,000 barang, 200 akan dihasilkan oleh Mesin A, 300 oleh Mesin B, dan 500 oleh Mesin C. Mesin A akan menghasilkan 5% × 200 = 10 item yang rosak, Mesin B 3% × 300 = 9 , dan Mesin C 1% × 500 = 5, dengan jumlah keseluruhan 24. Oleh itu, kemungkinan item cacat yang dipilih secara rawak dihasilkan oleh mesin C adalah 5/24 (

Masalah ini juga dapat diselesaikan dengan menggunakan teorema Bayes: Let Xi menandakan peristiwa bahawa item yang dipilih secara rawak dibuat oleh i mesin ke (untuk i = A, B, C). Biarkan Y menandakan peristiwa bahawa item yang dipilih secara rawak rosak. Kemudian, kami diberi maklumat berikut:

Sekiranya barang itu dibuat oleh mesin pertama, maka kebarangkalian ia rosak adalah 0.05 iaitu, P(Y | XA) = 0.05. Secara keseluruhan, kami mempunyai

Untuk menjawab soalan asal, pertama kita dapati P(Y). Itu boleh dilakukan dengan cara berikut:

Oleh itu, 2.4% daripada jumlah output rosak.

Kami diberi itu Y telah berlaku, dan kami ingin mengira kebarangkalian bersyarat untuk XC. Dengan teorema Bayes,

Memandangkan item itu rosak, kebarangkalian ia dibuat oleh mesin C adalah 5/24. Walaupun mesin C menghasilkan separuh daripada jumlah output, ia menghasilkan pecahan yang jauh lebih kecil dari item yang rosak. Oleh itu, pengetahuan bahawa item yang dipilih itu cacat membolehkan kita menggantikan kebarangkalian sebelumnya P(XC) = 1/2 dengan kebarangkalian posterior yang lebih kecil P(XC | Y) = 5/24.

Tafsiran peraturan Bayes bergantung pada tafsiran kebarangkalian yang dinyatakan pada syarat. Dua tafsiran utama dijelaskan di bawah. Gambar 2 menunjukkan visualisasi geometri yang serupa dengan Gambar 1. Gerd Gigerenzer dan pengarang bersama telah berusaha keras untuk mengajar Bayes Rule dengan cara ini, dengan penekanan khusus untuk mengajarnya kepada doktor. [4] Contohnya ialah laman web Will Kurt, "Bayes 'Theorem with Lego," kemudian berubah menjadi buku, Bayesian Statistics the Fun Way: Memahami Statistik dan Kebarangkalian dengan Star Wars, LEGO, dan Rubber Duck. Zhu dan Gigerenzer mendapati pada tahun 2006 bahawa sedangkan 0% pelajar kelas 4, 5, dan 6 dapat menyelesaikan masalah perkataan setelah diajar dengan formula, 19%, 39%, dan 53% dapat setelah diajar dengan kotak frekuensi, dan bahawa pembelajaran sama ada teliti atau sifar. [5]

Tafsiran Bayesian Edit

Dalam tafsiran Bayesian (atau epistemologi), kebarangkalian mengukur "tahap kepercayaan". Teorema Bayes mengaitkan tahap kepercayaan terhadap proposisi sebelum dan selepas memperakui bukti. Sebagai contoh, anggap dipercayai dengan kepastian 50% bahawa duit syiling dua kali lebih mungkin untuk mendarat daripada ekor. Sekiranya duit syiling dibalik beberapa kali dan hasilnya diperhatikan, tahap kepercayaan itu mungkin akan naik atau turun, tetapi mungkin tetap sama, bergantung pada hasilnya. Untuk dalil A dan bukti B,

  • P (A), sebelumnya, adalah tahap kepercayaan awal dalam A.
  • P (A | B), posterior, adalah tahap kepercayaan setelah memasukkan berita bahawa B betul.
  • hasil tambah P(B | A) / P(B) mewakili sokongan B memperuntukkan A.

Untuk lebih lanjut mengenai penerapan teorema Bayes di bawah tafsiran kemungkinan Bayesian, lihat kesimpulan Bayesian.

Tafsiran Frequentist Edit

Dalam tafsiran sering, kebarangkalian mengukur "bahagian hasil". Contohnya, anggap eksperimen dilakukan berkali-kali. P(A) adalah bahagian hasil dengan harta benda A (yang terdahulu) dan P(B) adalah bahagian dengan harta B. P(B | A) adalah bahagian hasil dengan harta benda B daripada hasil dengan harta A, dan P(A | B) adalah bahagian mereka yang mempunyai A daripada mereka yang mempunyai B (posterior).

Peranan teorem Bayes digambarkan dengan gambarajah pokok seperti Rajah 3. Kedua-dua rajah membahagi hasil yang sama dengan A dan B dalam urutan yang berlawanan, untuk mendapatkan kebarangkalian terbalik. Teorema Bayes menghubungkan partisi yang berbeza.

Contoh Edit

Ahli entomologi melihat apa yang mungkin, kerana corak di punggungnya, menjadi subspesies kumbang yang jarang berlaku. Sebanyak 98% anggota subspesies langka mempunyai corak, begitu P(Corak | Langka) = 98%. Hanya 5% anggota subspesies biasa yang mempunyai corak. Subspesies langka adalah 0.1% daripada jumlah populasi. Seberapa besar kemungkinan kumbang ini mempunyai corak yang jarang berlaku: apakah itu P(Jarang | Corak)?

Dari bentuk teorema Bayes yang diperpanjang (kerana mana-mana kumbang jarang atau biasa),

Suntingan Acara

Bentuk ringkas Edit

Untuk acara A dan B, dengan syarat P(B) ≠ 0,

Dalam banyak aplikasi, misalnya dalam kesimpulan Bayesian, acara tersebut B telah diperbaiki dalam perbincangan, dan kami ingin mempertimbangkan kesannya terhadap kepercayaan kami terhadap pelbagai peristiwa yang mungkin berlaku A. Dalam keadaan seperti penyebut ungkapan terakhir, kebarangkalian bukti yang diberikan B, tetap apa yang ingin kita ubah adalah A. Teorema Bayes kemudian menunjukkan bahawa kebarangkalian posterior berkadar dengan pengangka, jadi persamaan terakhir menjadi:

Dengan kata lain, posterior sebanding dengan kemungkinan sebelumnya. [6]

Sekiranya peristiwa A1, A2,. saling eksklusif dan lengkap, iaitu salah satu daripadanya pasti berlaku tetapi tidak ada dua yang boleh berlaku bersama, kita dapat menentukan pemalar berkadar dengan menggunakan fakta bahawa kebarangkalian mereka mesti menambah satu. Contohnya, untuk acara tertentu A, acara A itu sendiri dan pelengkapnya ¬A eksklusif dan lengkap. Menunjukkan pemalar berkadar oleh c kita ada

Dengan menambah dua formula ini, kami menyimpulkannya

1 = c ⋅ (P (B | A) ⋅ P (A) + P (B | ¬ A) ⋅ P (¬ A)),

Bentuk Alternatif Edit

Satu lagi bentuk teorema Bayes untuk dua pernyataan atau hipotesis yang bersaing adalah:

Untuk tafsiran epistemologi:

Untuk dalil A dan bukti atau latar belakang B, [7]

  • P (A) < displaystyle P (A)> adalah kebarangkalian sebelumnya, tahap kepercayaan awal dalam A.
  • P (¬ A) < displaystyle P ( neg A)> adalah tahap kepercayaan awal yang sesuai dalam bukan-A, itu A adalah salah, di mana P (¬ A) = 1 - P (A)
  • P (B | A) < displaystyle P (B | A)> adalah kebarangkalian atau kemungkinan bersyarat, tahap kepercayaan dalam B memandangkan dalil itu A betul.
  • P (B | ¬ A) < displaystyle P (B | neg A)> adalah kebarangkalian atau kemungkinan bersyarat, tahap kepercayaan dalam B memandangkan dalil itu A adalah palsu.
  • P (A | B) < displaystyle P (A | B)> adalah kebarangkalian posterior, kebarangkalian A setelah mengambil kira B.

Borang lanjutan Edit

Selalunya, untuk beberapa partition <Aj> ruang sampel, ruang acara diberikan dalam bentuk P(Aj) dan P(B | Aj). Ia kemudian berguna untuk mengira P(B) menggunakan hukum kemungkinan besar:

Dalam kes khas di mana A adalah pemboleh ubah binari:

Pemboleh ubah rawak Edit

Pertimbangkan ruang sampel Ω yang dihasilkan oleh dua pemboleh ubah rawak X dan Y. Pada prinsipnya, teorema Bayes berlaku untuk peristiwa tersebut A = <X = x> dan B = <Y = y>.

Walau bagaimanapun, istilah menjadi 0 pada titik di mana salah satu pemboleh ubah mempunyai ketumpatan kebarangkalian hingga. Untuk tetap berguna, teorema Bayes mesti dirumuskan dari segi kepadatan yang berkaitan (lihat Derivasi).

Bentuk ringkas Edit

Sekiranya X adalah berterusan dan Y adalah diskrit,

Sekiranya X adalah diskrit dan Y berterusan,

Sekiranya kedua-duanya X dan Y berterusan,

Borang lanjutan Edit

Ruang acara berterusan sering dikonseptualisasikan dari segi pengangka. Maka berguna untuk menghilangkan penyebut menggunakan hukum kemungkinan besar. Untuk fY(y), ini menjadi integral:

Peraturan Bayes Sunting

dipanggil nisbah faktor atau kemungkinan Bayes. Kemungkinan antara dua peristiwa hanyalah nisbah kebarangkalian dua peristiwa tersebut. Oleh itu

Oleh itu, peraturan mengatakan bahawa kemungkinan posterior adalah kemungkinan sebelumnya kali faktor Bayes, atau dengan kata lain, posterior sebanding dengan kemungkinan masa sebelumnya.

Logik cadangan Edit

Teorema Bayes mewakili generalisasi kontraposisi yang dalam logik proposisi dapat dinyatakan sebagai:

Rumus yang sesuai dari segi kalkulus kebarangkalian adalah teorema Bayes yang dalam bentuknya diperluas dinyatakan sebagai:

Edit logik subyektif

Teorema Bayes mewakili kes khas pembalikan bersyarat dalam logik subjektif yang dinyatakan sebagai:

¬ B S) = (ω B ∣ A S, ω B ∣ ¬ A S) ϕ

Hence, the subjective Bayes' theorem represents a generalization of Bayes' theorem. [9]

Conditioned version Edit

A conditioned version of the Bayes' theorem [10] results from the addition of a third event C on which all probabilities are conditioned:

Derivation Edit

P ( A ∩ B ∩ C ) = P ( A ∣ B ∩ C ) P ( B ∣ C ) P ( C )

P ( A ∩ B ∩ C ) = P ( B ∩ A ∩ C ) = P ( B ∣ A ∩ C ) P ( A ∣ C ) P ( C )

The desired result is obtained by identifying both expressions and solving for P ( A ∣ B ∩ C ) .

Bayes' rule with 3 events Edit

In the case of 3 events - A, B, and C - it can be shown that:

Bayes' theorem is named after the Reverend Thomas Bayes ( / b eɪ z / c. 1701 – 1761), who first used conditional probability to provide an algorithm (his Proposition 9) that uses evidence to calculate limits on an unknown parameter, published as An Essay towards solving a Problem in the Doctrine of Chances (1763). He studied how to compute a distribution for the probability parameter of a binomial distribution (in modern terminology). On Bayes' death his family transferred his papers to his old friend, Richard Price (1723 – 1791) who over a period of two years significantly edited the unpublished manuscript, before sending it to a friend who read it aloud at the Royal Society on 23 December 1763. [1] [ page needed ] Price edited [12] Bayes's major work "An Essay towards solving a Problem in the Doctrine of Chances" (1763), which appeared in Philosophical Transactions, [13] and contains Bayes' theorem. Price wrote an introduction to the paper which provides some of the philosophical basis of Bayesian statistics and chose one of the two solutions offered by Bayes. In 1765, Price was elected a Fellow of the Royal Society in recognition of his work on the legacy of Bayes. [14] [15] On 27 April a letter sent to his friend Benjamin Franklin was read out at the Royal Society, and later published, where Price applies this work to population and computing 'life-annuities'. [16]

Independently of Bayes, Pierre-Simon Laplace in 1774, and later in his 1812 Théorie analytique des probabilités, used conditional probability to formulate the relation of an updated posterior probability from a prior probability, given evidence. He reproduced and extended Bayes's results in 1774, apparently unaware of Bayes's work. [note 1] [17] The Bayesian interpretation of probability was developed mainly by Laplace. [18]

Sir Harold Jeffreys put Bayes's algorithm and Laplace’s formulation on an axiomatic basis, writing that Bayes' theorem "is to the theory of probability what the Pythagorean theorem is to geometry". [19]

Stephen Stigler used a Bayesian argument to conclude that Bayes' theorem was discovered by Nicholas Saunderson, a blind English mathematician, some time before Bayes [20] [21] that interpretation, however, has been disputed. [22] Martyn Hooper [23] and Sharon McGrayne [24] have argued that Richard Price's contribution was substantial:

By modern standards, we should refer to the Bayes–Price rule. Price discovered Bayes's work, recognized its importance, corrected it, contributed to the article, and found a use for it. The modern convention of employing Bayes's name alone is unfair but so entrenched that anything else makes little sense. [24]

In genetics, Bayes' theorem can be used to calculate the probability of an individual having a specific genotype. Many people seek to approximate their chances of being affected by a genetic disease or their likelihood of being a carrier for a recessive gene of interest. A Bayesian analysis can be done based on family history or genetic testing, in order to predict whether an individual will develop a disease or pass one on to their children. Genetic testing and prediction is a common practice among couples who plan to have children but are concerned that they may both be carriers for a disease, especially within communities with low genetic variance. [ rujukan diperlukan ]

The first step in Bayesian analysis for genetics is to propose mutually exclusive hypotheses: for a specific allele, an individual either is or is not a carrier. Next, four probabilities are calculated: Prior Probability (the likelihood of each hypothesis considering information such as family history or predictions based on Mendelian Inheritance), Conditional Probability (of a certain outcome), Joint Probability (product of the first two), and Posterior Probability (a weighted product calculated by dividing the Joint Probability for each hypothesis by the sum of both joint probabilities). This type of analysis can be done based purely on family history of a condition or in concert with genetic testing. [ rujukan diperlukan ]

Using pedigree to calculate probabilities Edit

Hypothesis Hypothesis 1: Patient is a carrier Hypothesis 2: Patient is not a carrier
Prior Probability 1/2 1/2
Conditional Probability that all four offspring will be unaffected (1/2) · (1/2) · (1/2) · (1/2) = 1/16 About 1
Joint Probability (1/2) · (1/16) = 1/32 (1/2) · 1 = 1/2
Posterior Probability (1/32) / (1/32 + 1/2) = 1/17 (1/2) / (1/32 + 1/2) = 16/17

Example of a Bayesian analysis table for a female individual's risk for a disease based on the knowledge that the disease is present in her siblings but not in her parents or any of her four children. Based solely on the status of the subject’s siblings and parents, she is equally likely to be a carrier as to be a non-carrier (this likelihood is denoted by the Prior Hypothesis). However, the probability that the subject’s four sons would all be unaffected is 1/16 (½·½·½·½) if she is a carrier, about 1 if she is a non-carrier (this is the Conditional Probability). The Joint Probability reconciles these two predictions by multiplying them together. The last line (the Posterior Probability) is calculated by dividing the Joint Probability for each hypothesis by the sum of both joint probabilities. [25]

Using genetic test results Edit

Parental genetic testing can detect around 90% of known disease alleles in parents that can lead to carrier or affected status in their child. Cystic fibrosis is a heritable disease caused by an autosomal recessive mutation on the CFTR gene, [26] located on the q arm of chromosome 7. [27]

Bayesian analysis of a female patient with a family history of cystic fibrosis (CF), who has tested negative for CF, demonstrating how this method was used to determine her risk of having a child born with CF:

Because the patient is unaffected, she is either homozygous for the wild-type allele, or heterozygous. To establish prior probabilities, a Punnett square is used, based on the knowledge that neither parent was affected by the disease but both could have been carriers:

Homozygous for the wild-
type allele (a non-carrier)

Heterozygous (a CF carrier)

Homozygous for the wild-
type allele (a non-carrier)

Heterozygous (a CF carrier)

(affected by cystic fibrosis)

Given that the patient is unaffected, there are only three possibilities. Within these three, there are two scenarios in which the patient carries the mutant allele. Thus the prior probabilities are ⅔ and ⅓.

Next, the patient undergoes genetic testing and tests negative for cystic fibrosis. This test has a 90% detection rate, so the conditional probabilities of a negative test are 1/10 and 1. Finally, the joint and posterior probabilities are calculated as before.

Hypothesis Hypothesis 1: Patient is a carrier Hypothesis 2: Patient is not a carrier
Prior Probability 2/3 1/3
Conditional Probability of a negative test 1/10 1
Joint Probability 1/15 1/3
Posterior Probability 1/6 5/6

After carrying out the same analysis on the patient’s male partner (with a negative test result), the chances of their child being affected is equal to the product of the parents' respective posterior probabilities for being carriers times the chances that two carriers will produce an affected offspring (¼).

Genetic testing done in parallel with other risk factor identification. Edit

Bayesian analysis can be done using phenotypic information associated with a genetic condition, and when combined with genetic testing this analysis becomes much more complicated. Cystic Fibrosis, for example, can be identified in a fetus through an ultrasound looking for an echogenic bowel, meaning one that appears brighter than normal on a scan2. This is not a foolproof test, as an echogenic bowel can be present in a perfectly healthy fetus. Parental genetic testing is very influential in this case, where a phenotypic facet can be overly influential in probability calculation. In the case of a fetus with an echogenic bowel, with a mother who has been tested and is known to be a CF carrier, the posterior probability that the fetus actually has the disease is very high (0.64). However, once the father has tested negative for CF, the posterior probability drops significantly (to 0.16). [25]

Risk factor calculation is a powerful tool in genetic counseling and reproductive planning, but it cannot be treated as the only important factor to consider. As above, incomplete testing can yield falsely high probability of carrier status, and testing can be financially inaccessible or unfeasible when a parent is not present.


8.3 Bayes’ Long Theorem

We had to apply the Law of Total Probability first, before we could solve the taxicab problem with Bayes’ theorem, to calculate the denominator. This is so common that you’ll often see Bayes’ theorem written with this calculation built in. That is, the denominator (p(B)) is expanded out using the Law of Total Probability.

Bayes’ Theorem (long version)

Notice how there’s some repetition in the numerator and the denominator. The term (p(A)p(B given A)) appears both above and below. So, when you’re doing a calculation with this formula, you can just do that bit once and then copy it in both the top and bottom. Then you just have to do the bottom-right term to complete the formula.

Figure 8.5: A tree diagram for the long form of Bayes’ theorem. The definition of conditional probability tells us (p(A given B)) is the first leaf divided by the sum of the first and third leaves.

A tree diagram helps illuminate the long version of Bayes’ theorem. To calculate (p(A given B)) , the definition of conditional probability directs us to calculate (p(A wedge B)) and (p(B)) : [ p(A given B) = frac< p(A wedge B) >< p(B) >. ] Looking at the tree diagram in Figure 8.5, we see that this amounts to computing the first leaf for the numerator, and the sum of the first and third leaves for the denominator. Which yields the same formula as in the long form of Bayes’ theorem.


Applications

You have a disease test, and the probability that you will get a positive test result given that you have the disease is really, really high in other words the test has a very high accuracy rate. The problem is that there is a probability that you will get a positive test result even if you do not have the disease. And that you can simply calculate from Bayes law. The big point is, is that these probabilities are not the same as the probability that you will get a positive result given the disease is not the same as the probability that you will have the disease given a positive result.

These are two different probability distributions. And what makes them so different is the probability of disease and the probability of a positive test result. So if the disease is rare, the probability of disease will be very, very small.

Disease testing: A = Have disease, B = Tested positive.


Total Probability & Bayes’ Theorem

Next we derive the Law of Total Probability and Bayes’ theorem.

[ p(A) = p(A given B)p(B) + p(A given eg B)p( eg B). ]

Notice, the last line of this proof only makes sense if (p(B) > 0) and (p( eg B) > 0) . That’s the same as (0 < p(B) < 1) , which is why the theorem begins with the condition: “If (0 < p(B) < 1) …”.

Now for the first version of Bayes’ theorem:

And next the long version:

Bayes’ Theorem (long version)


12.4: Bayes Theorem - Mathematics

Bayes’ Theorem with Conditional Probability

Understanding of probability is must for a data science professional. Solutions to many data science problems are often probabilistic in nature. Hence, a better understanding of probability will help you understand & implement these algorithms more efficiently.

In this article, I will focus on conditional probability. For beginners in probability, I would strongly recommend that you go through this article before proceeding further.

A predictive model can easily be understood as a statement of conditional probability. For example, the probability of a customer from segment A buying a product of category Z in next 10 days is 0.80. In other words, the probability of a customer buying product from Category Z, given that the customer is from Segment A is 0.80.

In this article, I will walk you through conditional probability in detail. I’ll be using examples & real-life scenarios to help you improve your understanding.

1.1 Union of Events

We can define an event © of getting a 4 or 6 when we roll a fair die. Here event C is a union of two events:

In simple words we can say that we should consider the probability of (A ꓴ B) when we are interested in combined probability of two (or more) events

1.2 Intersection of Events

We can now say that the shaded region is the probability of both events A and B occurring together.

1.3 Disjoint Events

What if, you come across a case when any two particular events cannot occur at the same time
As you can see, there is no case for which event A & B can occur together. Such events are called disjoint event. To represent this using a Venn diagram:

Now that we are familiar with the terms Union, intersection and disjoint events, we can talk about independence of events.

2.Independent, Dependent & Exclusive Events

suppose we have two events — event A and event B.

If the occurrence of event A doesn’t affect the occurrence of event B, these events are called independent events.
Let’s see some examples of independent events.

Getting heads after tossing a coin AND getting a 5 on a throw of a fair die.
Choosing a marble from a jar AND getting heads after tossing a coin.
Choosing a 3 card from a deck of cards, replacing it, AND then choosing an ace as the second card.
Rolling a 4 on a fair die, AND then rolling a 1 on a second roll of the die.

In each of these cases the probability of outcome of the second event is not affected at all by the outcome of the first event.

2.1 Probability of independent events

In this case the probability of P (A ꓵ B) = P (A) * P (B)

2.2 Mutually exclusive and Exhaustive events

Mutually exclusive events are those events where two events cannot happen together.

The easiest example to understand this is the toss of a coin. Getting a head and a tail are mutually exclusive because we can either get heads or tails but never both at the same in a single coin toss.

A set of events is collectively exhaustive when the set should contain all the possible outcomes of the experiment. One of the events from the list must occur for sure when the experiment is performed.

For example, in a throw of a die, <1,2,3,4,5,6>is an exhaustive collection because, it encompasses the entire range of the possible outcomes.

Consider the outcomes “even” (2,4 or 6) and “not-6” (1,2,3,4, or 5) in a throw of a fair die. They are collectively exhaustive but not mutually exclusive.

2.3 Conditional Probability

Conditional probabilities arise naturally in the investigation of experiments where an outcome of a trial may affect the outcomes of the subsequent trials.

We try to calculate the probability of the second event (event B) given that the first event (event A) has already happened. If the probability of the event changes when we take the first event into consideration, we can safely say that the probability of event B is dependent of the occurrence of event A.

Let’s think of cases where this happens:

Drawing a second ace from a deck given we got the first ace
Finding the probability of having a disease given you were tested positive
Finding the probability of liking Harry Potter given we know the person likes fiction
And so on….

Here we can define, 2 events:

Event A is the probability of the event we’re trying to calculate.
Event B is the condition that we know or the event that has happened.
We can write the conditional probability as , the probability of the occurrence of event A given that B has already happened.

3. Bayes Theorem
The Bayes theorem describes the probability of an event based on the prior knowledge of the conditions that might be related to the event. If we know the conditional probability , we can use the bayes rule to find out the reverse probabilities .

The above statement is the general representation of the Bayes rule.

For the previous example — if we now wish to calculate the probability of having a pizza for lunch provided you had a bagel for breakfast would be = 0.7 * 0.5/0.6.

We can generalize the formula further.

If multiple events Ai form an exhaustive set with another event B.

We can write the equation as

5. Example of Bayes Theorem and Probability trees

Let’s take the example of the breast cancer patients. The patients were tested thrice before the oncologist concluded that they had cancer. The general belief is that 1.48 out of a 1000 people have breast cancer in the US at that particular time when this test was conducted. The patients were tested over multiple tests. Three sets of test were done and the patient was only diagnosed with cancer if she tested positive in all three of them.

Let’s examine the test in detail.

Sensitivity of the test (93%) — true positive Rate

Specificity of the test (99%) — true negative Rate

Let’s first compute the probability of having cancer given that the patient tested positive in the first test.

Sensitivity can be denoted as P (+ | cancer) = 0.93

Specificity can be denoted as P (- | no cancer)

Since we do not have any other information, we believe that the patient is a randomly sampled individual. Hence our prior belief is that there is a 0.148% probability of the patient having cancer.

The complement is that there is a 100–0.148% chance that the patient does not have CANCER. Similarly we can draw the below tree to denote the probabilities.

Let’s now try to calculate the probability of having cancer given that he tested positive on the first test i.e. P (cancer|+)

P (cancer and +) = P (cancer) * P (+) = 0.00148*0.93

P (no cancer and +) = P (no cancer) * P(+) = 0.99852*0.01

To calculate the probability of testing positive, the person can have cancer and test positive or he may not have cancer and still test positive.

This means that there is a 12% chance that the patient has cancer given he tested positive in the first test. This is known as the posterior probability.

5.1 Bayes Updating

Let’s now try to calculate the probability of having cancer given the patient tested positive in the second test as well.

Now remember we will only do the second test if she tested positive in the first one. Therefore now the person is no longer a randomly sampled person but a specific case. We know something about her. Hence, the prior probabilities should change. We update the prior probability with the posterior from the previous test.

Nothing would change in the sensitivity and specificity of the test since we’re doing the same test again. Look at the probability tree below.

Let’s calculate again the probability of having cancer given she tested positive in the second test.

P (cancer and +) = P(cancer) * P(+) = 0.12 * 0.93

P (no cancer and +) = P (no cancer) * P (+) = 0.88 * 0.01

To calculate the probability of testing positive, the person can have cancer and test positive or she may not have cancer and still test positive.

Now we see, that a patient who tested positive in the test twice, has a 93% chance of having cancer.

6. Frequentist vs Bayesian Definitions of probability

A frequentist defines probability as an expected frequency of occurrence over large number of experiments.

P(event) = n/N, where n is the number of times event A occurs in N opportunities.

The Bayesian view of probability is related to degree of belief. It is a measure of the plausibility of an event given incomplete knowledge.

The frequentist believes that the population mean is real but unknowable and can only be estimated from the data. He knows the distribution of the sample mean and constructs a confidence interval centered at the sample mean. So the actual population mean is either in the confidence interval or not in it.

This is because he believes that the true mean is a single fixed value and does not have a distribution. So the frequentist says that 95% of similar intervals would contain the true mean, if each interval were constructed from a different random sample.

The Bayesian definition has a totally different view point. They use their beliefs to construct probabilities. They believe that certain values are more believable than others based on the data and our prior knowledge.

The Bayesian constructs a credible interval centered near the sample mean and totally affected by the prior beliefs about the mean. The Bayesian can therefore make statements about the population mean by using the probabilities.


There is a web page for the text: Link to Goldstein Click the "jump to" button. You will find multiple choice Quizzes with answers.

2- Chart showing how cancer compares with other causes of death at various ages (NY times July 2, 2002). It is correct to say that 1 in 8 women will bevelop breast cancer in her lifetime? How does this compare with the chart? What kind of probabilities are these numbers?

7- Article on overall risk of catastrophic failure of Shuttle New York Times 12/4/1993
Question: What is the probability of at least one failure in 50 flights? in 100 flights?

10- New York Times, 9/6/2000 article on Firestone tires
Some natural questions: Identify the data in terms of conditional probability
Can one calculate the probability of a fatal accident?

11- Article on Tamoxifen and endometrial cancers, NY times 9/8/00.
Can one deduce the probability that a women who had breast cancer and takes tamoxifen developes endometrial cancer?

12- Article from NY Times, 9/27/2000 From an article on Income and Poverty. The NY Times understands the difference between the median and average.

13- Article on Nuclear Wepons
What "calculation" did the the officials at the Strategic Air Command make that led them to target one facility with 69 nuclear missiles?

14-Graph from Feb. 20, 2001
A graph of "Dangerous drivers and the age spectrum" It may be instructive to interpert this as a Histogram.

15- Article on Raloxifene and Breast Cancer from Feb. 26 issue of Breast Cancer Research and Treatment
What type of probability are these numbers? Could one compute the probability a woman with osteoporosis from the general population will contract Breast Cancer?

16- Some census data from March 6 2001 NY Times
Explain these numbers in terms of probabilities.

An article from the April 28 edition of the NY times on Bayes' theorem and life. Interesting examples of applications of Bayes theorem as well as the controversy about its use.
17-Adding art to the Rigor of Statistical Science

18- An article from the June 8, 2004 edition of the NY times on the "Fat Epidemic". An example of how statistics can present data in two ways which seem to contradict each other.

19-A study reported in the NY times "Aspirin is seen as preventing breast tumors"
I marked the data with ******. About half the women in the study had breast cancer. Can you determine the probability a woman in the study has breast cancer if she takes aspirin? If she does not take aspirin?

20- NY times 12/12/2009
Application of Bayes' theorem to the mammogram controversy. The argument is exactly the same as the one for TB testing covered in class.


1.2 Posterior Predictive Distribution

The posterior predictive distribution is the the probability of observing new data ( (y^) ) given the posterior distribution of the model parameters after observing training data, (p( heta | y^)) . [ p(y^ | y^) = int p(y^ | heta) p( heta | y^),d heta . ag <1.1>]

Many tradition statistical or machine learning methods proceed by estimating a “best” value of the parameters using training data, and then predicting evaluating data using that parameter. For example, we could calculate the maximum a posteriori estimate of of ( heta) given the training data, [ hat < heta>= arg max_ < heta>p( heta | y^) , ] and then use that for the distribution of evaluation data, [ p(y^ | y^ approx p(y^ | hat< heta>) . ] However, this does not incorporate the uncertainty in the estimates of ( heta) . The full form of the posterior predictive distribution in Equation ag <1.1>incorporates the uncertainty about ( heta) into the distribution of (p(y^ | heta)) .


Tonton videonya: TEOREMA BAYES. PROBABILITAS u0026 STATISTIKA (Disember 2021).