Theorema van Bayes

Het theorema van Bayes (ook regel van Bayes of stelling van Bayes) is een regel uit de kansrekening die de kans dat een bepaalde mogelijkheid ten grondslag ligt aan een gebeurtenis uitdrukt in de voorwaardelijke kansen op de gebeurtenis bij elk van de mogelijkheden. Het theorema is weliswaar genoemd naar Thomas Bayes, maar vrijwel zeker niet door hem geformuleerd[bron?], maar door Pierre-Simon Laplace, die vrij zeker inspiratie opdeed bij een postuum gepubliceerd artikel van Bayes uit 1763.[bron?] Het theorema komt voor in de Théorie analytique des probabilités van Laplace uit 1812. Het theorema wordt ook wel omkeerformule genoemd, omdat het de "omgekeerde" voorwaardelijke kans berekent. In formulevorm ziet het theorema er als volgt uit:

De gebeurtenis kan plaatsvinden onder de omstandigheid dat optreedt, maar ook als niet optreedt (Ac). Uitgaande van de voorwaardelijke kansen op gegeven de mogelijkheden wel en niet wordt de kans bepaald dat, uitgaande van de situatie dat daadwerkelijk gebeurd is, het de omstandigheid was waaronder is opgetreden.

De formule is een directe toepassing van de definitie van voorwaardelijke kans

en de wet van de totale kans die in dit geval luidt:

A-priori- en a-posteriori-kansen

bewerken

Bij toepassing van het theorema wordt uitgegaan van een reeds bekende kans   op een gebeurtenis  , de zogenaamde a-priori-kans, op basis van eerder onderzoek. Bij gebrek daaraan kan hiervoor ook het oordeel van een ervaringsdeskundige worden gevraagd die een bepaalde waarschijnlijkheid toekent aan de gebeurtenis  , bijvoorbeeld door te schatten dat een voorval voor 0,7 (70%) plausibel wordt geacht. Na waarneming van een gerelateerde gebeurtenis   is kennis verkregen over de kans van optreden van  . Deze nieuwe kans wordt de a-posteriori-kans genoemd en is juist de voorwaardelijke kans  

De regel van Bayes vindt ook toepassing in kennissystemen.

Voorbeelden

bewerken

In de bevolking lijdt 1 op de 100 mensen aan reumatoïde artritis. Er bestaat een test, de "reumatest", die bij reumapatiënten meestal positief is en bij niet-reumapatiënten meestal negatief. De test is echter niet 100% waterdicht en heeft een specificiteit (dat wil zeggen de kans op een negatieve test als de ziekte afwezig is) van 0,8 en een sensitiviteit (kans op een positieve test bij aanwezigheid van de ziekte) van 0,7.

Vraag: Is het zinvol om de bevolking met deze test op het voorkomen van reuma te testen?

Daartoe bepalen we wat de kans is op de ziekte als we een willekeurig iemand uit de bevolking testen en de uitslag positief is.

Met   geven we aan dat de testpersoon aan de ziekte lijdt en met   dat de uitslag van de test positief is. Uit de bovenstaande gegevens volgt:

  (kans dat iemand de ziekte heeft)
  (de kans op een positieve uitslag als de ziekte aanwezig is)
  (de kans op een negatieve uitslag als de ziekte afwezig is)

Met de regel van Bayes kunnen we nu berekenen:

 

Dus zelfs bij een positieve uitslag van de test is de kans dat de onderzochte persoon de ziekte heeft maar iets meer dan drie procent. De "reumatest" is in deze situatie nagenoeg onbruikbaar.

Coronazelftest

bewerken

Een praktisch voorbeeld in de epidemiologie uit 2021 illustreert het belang van dit theorema. De corona-zelftest van Roche heeft een sensitiviteit van 96,52% en een specificiteit van 99,68%.

Als "C19" staat voor de aanwezigheid van de ziekte COVID-19 ("corona") en + en − respectievelijk voor een positieve en een negatieve uitslag van de test, dan betekent dit:

 

en

 

Dat lijkt heel hoog. Maar als de prevalentie slechts 1 op 10.000 is, d.w.z.:

 

impliceert dit

 
 

en

 

Test men met deze test 10.000 willekeurig gekozen personen, onder wie zich dus vermoedelijk 1 besmette bevindt, dan zal vrijwel zeker de besmette een positieve uitslag krijgen. Maar van de 9999 niet besmette personen zullen er 32 een valspositieve uitslag krijgen. De 9967 personen met een negatieve uitslag weten bijna zeker dat ze niet besmet zijn. Maar van de 33 met een positieve uitslag is er slechts 1 besmet, alleen is onbekend wie dat is.

Deze hele berekening gaat ervan uit dat de geteste personen willekeurig gekozen zijn. Laat iemand zonder specifieke klachten zich voor alle zekerheid testen, dan geldt voor deze persoon:

 

en

 

In de praktijk laten veel mensen zich testen omdat ze bepaalde ziekteverschijnselen hebben. De prevalentie van COVID-19 in deze groep is veel hoger dan 0,0001. Veronderstel dat van deze groep 10% besmet is. Voor deze groep worden de getallen:

 
 
 

Generalisatie

bewerken

Onderscheidt men bij het optreden van de gebeurtenis   niet slechts de mogelijkheden   en niet  , maar een reeks (disjuncte) mogelijkheden  , die dus een partitie van de uitkomstenruimte vormen, dan luidt de regel:

 

Men kan nog algemener een soortgelijke regel formuleren voor kansverdelingen. Voor de simultane continue verdeling van twee stochastische variabelen   en   luidt deze:

 

Bayesiaanse statistiek

bewerken

De bayesiaanse statistiek heeft het theorema van Bayes als uitgangspunt.