Theorema van Bayes
Het theorema van Bayes (ook regel van Bayes of stelling van Bayes) is een regel uit de kansrekening die de kans dat een bepaalde mogelijkheid ten grondslag ligt aan een gebeurtenis uitdrukt in de voorwaardelijke kansen op de gebeurtenis bij elk van de mogelijkheden. Het theorema is weliswaar genoemd naar Thomas Bayes, maar vrijwel zeker niet door hem geformuleerd[bron?], maar door Pierre-Simon Laplace, die vrij zeker inspiratie opdeed bij een postuum gepubliceerd artikel van Bayes uit 1763.[bron?] Het theorema komt voor in de Théorie analytique des probabilités van Laplace uit 1812. Het theorema wordt ook wel omkeerformule genoemd, omdat het de "omgekeerde" voorwaardelijke kans berekent. In formulevorm ziet het theorema er als volgt uit:
De gebeurtenis kan plaatsvinden onder de omstandigheid dat optreedt, maar ook als niet optreedt (Ac). Uitgaande van de voorwaardelijke kansen op gegeven de mogelijkheden wel en niet wordt de kans bepaald dat, uitgaande van de situatie dat daadwerkelijk gebeurd is, het de omstandigheid was waaronder is opgetreden.
De formule is een directe toepassing van de definitie van voorwaardelijke kans
en de wet van de totale kans die in dit geval luidt:
A-priori- en a-posteriori-kansen
bewerkenBij toepassing van het theorema wordt uitgegaan van een reeds bekende kans op een gebeurtenis , de zogenaamde a-priori-kans, op basis van eerder onderzoek. Bij gebrek daaraan kan hiervoor ook het oordeel van een ervaringsdeskundige worden gevraagd die een bepaalde waarschijnlijkheid toekent aan de gebeurtenis , bijvoorbeeld door te schatten dat een voorval voor 0,7 (70%) plausibel wordt geacht. Na waarneming van een gerelateerde gebeurtenis is kennis verkregen over de kans van optreden van . Deze nieuwe kans wordt de a-posteriori-kans genoemd en is juist de voorwaardelijke kans
De regel van Bayes vindt ook toepassing in kennissystemen.
Voorbeelden
bewerkenIn de bevolking lijdt 1 op de 100 mensen aan reumatoïde artritis. Er bestaat een test, de "reumatest", die bij reumapatiënten meestal positief is en bij niet-reumapatiënten meestal negatief. De test is echter niet 100% waterdicht en heeft een specificiteit (dat wil zeggen de kans op een negatieve test als de ziekte afwezig is) van 0,8 en een sensitiviteit (kans op een positieve test bij aanwezigheid van de ziekte) van 0,7.
Vraag: Is het zinvol om de bevolking met deze test op het voorkomen van reuma te testen?
Daartoe bepalen we wat de kans is op de ziekte als we een willekeurig iemand uit de bevolking testen en de uitslag positief is.
Met geven we aan dat de testpersoon aan de ziekte lijdt en met dat de uitslag van de test positief is. Uit de bovenstaande gegevens volgt:
- (kans dat iemand de ziekte heeft)
- (de kans op een positieve uitslag als de ziekte aanwezig is)
- (de kans op een negatieve uitslag als de ziekte afwezig is)
Met de regel van Bayes kunnen we nu berekenen:
Dus zelfs bij een positieve uitslag van de test is de kans dat de onderzochte persoon de ziekte heeft maar iets meer dan drie procent. De "reumatest" is in deze situatie nagenoeg onbruikbaar.
Coronazelftest
bewerkenEen praktisch voorbeeld in de epidemiologie uit 2021 illustreert het belang van dit theorema. De corona-zelftest van Roche heeft een sensitiviteit van 96,52% en een specificiteit van 99,68%.
Als "C19" staat voor de aanwezigheid van de ziekte COVID-19 ("corona") en + en − respectievelijk voor een positieve en een negatieve uitslag van de test, dan betekent dit:
en
Dat lijkt heel hoog. Maar als de prevalentie slechts 1 op 10.000 is, d.w.z.:
impliceert dit
en
Test men met deze test 10.000 willekeurig gekozen personen, onder wie zich dus vermoedelijk 1 besmette bevindt, dan zal vrijwel zeker de besmette een positieve uitslag krijgen. Maar van de 9999 niet besmette personen zullen er 32 een valspositieve uitslag krijgen. De 9967 personen met een negatieve uitslag weten bijna zeker dat ze niet besmet zijn. Maar van de 33 met een positieve uitslag is er slechts 1 besmet, alleen is onbekend wie dat is.
Deze hele berekening gaat ervan uit dat de geteste personen willekeurig gekozen zijn. Laat iemand zonder specifieke klachten zich voor alle zekerheid testen, dan geldt voor deze persoon:
en
In de praktijk laten veel mensen zich testen omdat ze bepaalde ziekteverschijnselen hebben. De prevalentie van COVID-19 in deze groep is veel hoger dan 0,0001. Veronderstel dat van deze groep 10% besmet is. Voor deze groep worden de getallen:
Generalisatie
bewerkenOnderscheidt men bij het optreden van de gebeurtenis niet slechts de mogelijkheden en niet , maar een reeks (disjuncte) mogelijkheden , die dus een partitie van de uitkomstenruimte vormen, dan luidt de regel:
Men kan nog algemener een soortgelijke regel formuleren voor kansverdelingen. Voor de simultane continue verdeling van twee stochastische variabelen en luidt deze:
Bayesiaanse statistiek
bewerkenDe bayesiaanse statistiek heeft het theorema van Bayes als uitgangspunt.
- (en) Een tutorial over Bayes en natuurkunde
- (en) Artikel over het Theorema van Bayes in de Stanford encyclopedia of Philosophy.