donderdag 1 mei 2008

De Stelling van Bayes

Zoals ik verzocht in een eerdere post kreeg ik een "gastbijdrage" van Koen Vervloesem. Het lijkt er op dat Blogger een probleem heeft met het symbool "verticale streep". Op verschillende plaatsen heb ik in Koens tekst "X:Y" geschreven waar de normale (en dus ook die van Koen Vervloesem) notatie die streep zet op de plaats van het dubbel punt. Goed om in het achterhoofd te houden als je één van de links zou volgen. En voor de rest, heel erg bedankt, en nu maar snel over naar de tekst:

Koen Robeys vroeg me of ik een gastbijdrage wou leveren. Zijn motivatie: "Koen, een groot deel van de nadenkende wereld heeft het probleem [...] dat we "ongecijferd" zijn. Je weet wat ik bedoel. Het is mijn doordachte opinie dat jij in een positie bent om daar iets aan te doen. Ik zou het een eer vinden als je dat voor één keer hier deed" (1)

Nu vind ik gecijferdheid en ongecijferdheid eigenlijk verkeerde termen. Ik ben de laatste jaren steeds meer beginnen te beseffen dat cijfers niet het belangrijkste zijn in wiskunde, maar wel wiskundige concepten en de relaties daartussen. Ik interpreteer Koens vraag om een klein beetje ongecijferdheid weg te nemen in de wereld dan ook in dit licht: ik ga enkele wiskundige concepten en een bijbehorende stelling uitleggen die in heel wat omstandigheden belangrijk zijn, maar die veel te onbekend zijn bij het grote publiek (en helaas ook bij politici en andere "alfamannetjes" waar Koen zo vaak verzuchtingen over schrijft).

Concreet: ik ga het over waarschijnlijkheden hebben, over conditionele waarschijnlijkheden en de stelling van Bayes. Ons leven zit vol met onzekerheden en om daarin dan de juiste beslissingen te nemen (zowel op politiek als op persoonlijk vlak) is het handig dat je een beetje een gevoel hebt voor de waarschijnlijkheidstheorie in de wiskunde. Helaas houden heel wat redeneringen over onzekerheden geen rekening met conditionele waarschijnlijkheden (wat is de waarschijnlijkheid van X als we al weten dat Y het geval is). Filosofieprofessor Kwame Anthony Appiah pleit er al een aantal jaren voor dat elke universiteitsstudent, welke richting hij ook studeert, op het einde van zijn studie een basiskennis statistiek moet hebben. Een van zijn uitspraken is: "Learn Bayes' Theorem, it won't kill you." (2)

Laten we eerst onze termen eens duidelijk maken. Wat bedoelen we met waarschijnlijkheid? Stel dat ik een "eerlijke" dobbelsteen werp, dan is de waarschijnlijkheid dat het resultaat 1 is gelijk aan 1/6. Immers: elk van de zes zijden is even waarschijnlijk. Een waarschijnlijkheid is altijd een getal tussen 0 en 1, waarbij een onmogelijke gebeurtenis waarschijnlijkheid 0 heeft en iets dat zeker gebeurt waarschijnlijkheid 1. De waarschijnlijkheid dat een worp van een normale dobbelsteen 7 oplevert is dus gelijk aan 0, terwijl de waarschijnlijkheid dat de dobbelsteen een getal van 1 tot 6 oplevert, gelijk aan 1 is.

Er zijn een aantal rekenregels voor waarschijnlijkheden. Als we de waarschijnlijkheid van een gebeurtenis weten, kunnen we ook heel gemakkelijk de waarschijnlijkheid dat de gebeurtenis niet gebeurt berekenen: 1 - de waarschijnlijkheid van de gebeurtenis. Bijvoorbeeld: de waarschijnlijkheid dat we met een dobbelsteen geen 1 werpen, is 1 - 1/6 = 5/6. Een tweede rekenregel is: wat is de waarschijnlijkheid dat twee gebeurtenissen X en Y die onafhankelijk van elkaar zijn allebei gebeuren? Onafhankelijk betekent dat er geen verband is tussen beide gebeurtenissen. De rekenregel zegt dat we in dat geval de waarschijnlijkheden gewoon mogen vermenigvuldigen. Een voorbeeld: omdat we van twee dobbelstenen mogen veronderstellen dat ze onafhankelijk van elkaar zijn, is de kans dat we twee zessen gooien gelijk aan 1/6 x 1/6 = 1/36.

De waarschijnlijkheid dat ik een even getal werp, is gelijk aan 1/2, want de helft van de cijfers van een dobbelsteen zijn even. We hebben hier nu weer een rekenregel van de waarschijnlijkheidstheorie gebruikt, namelijk dat we waarschijnlijkheden van gebeurtenissen mogen optellen als ze elkaar uitsluiten. De waarschijnlijkheid dat ik een 2 gooi is 1/6, de waarschijnlijkheid dat ik een 4 gooi is ook 1/6, evenals de waarschijnlijkheid dat ik een 6 gooi. Aangezien ik niet bijvoorbeeld tegelijk 2 en 4 kan gooien met een dobbelsteen, sluiten deze gebeurtenissen elkaar uit en mogen we ze gewoon optellen als we ons afvragen wat de waarschijnlijkheid is dat we of 2 of 4 of 6 gooien (dus een even getal).

Wat nu als de gebeurtenissen elkaar niet uitsluiten en we toch de waarschijnlijkheid willen berekenen dat één van beide gebeurt? Stel bijvoorbeeld dat we een pak speelkaarten hebben (52 kaarten dus) en we willen de waarschijnlijkheid weten dat een willekeurige kaart uit het pak een schoppen is of een "beeldje" (boer, koning of koningin). De waarschijnlijkheid dat we een schoppen kaart hebben is 13/52. De waarschijnlijkheid dat we met een beeldje te maken hebben is 12/52 (want we hebben vier sets van 3 beeldjes). De waarschijnlijkheid dat we een schoppen òf een beeldje hebben is echter niet de som van deze twee. Want in die som zijn de schoppen beeldjes twee keer opgenomen, één keer in de waarschijnlijkheid voor schoppen kaarten en één keer in de waarschijnlijkheid voor beeldjes. De oplossing is simpel: trek er gewoon één keer de waarschijnlijkheid dat een kaart schoppen én beeldje is vanaf, dus 3/52. We bekomen dus in totaal 13/52 + 12/52 - 3/52 = 22/52 = 11/26.

Maar in het dagelijkse leven zitten onze vragen wel wat ingewikkelder in elkaar dan de kans dat we een 6 gooien of een schoppen boer trekken. Veel gebeurtenissen zijn niet onafhankelijk maar hangen van elkaar af. En als je in zo'n situatie de rekenregel voor het product van onafhankelijke gebeurtenissen gebruikt, ben je verkeerd bezig. De wiskundige John Allen Paulos (3) geeft in zijn boek "Innumeracy" een mooi voorbeeld. Als je een telefoonboek openslaat en er een willekeurige naam uit pikt, is de waarschijnlijkheid dat die persoon meer dan 120 kg weegt heel klein. Wanneer iemand je echter na het uitkiezen van de naam zegt dat die persoon meer dan 2 m groot is, dan is de conditionele waarschijnlijkheid dat die persoon ook meer dan 120 kg weegt veel hoger. Grootte en gewicht zijn namelijk geen onafhankelijke eigenschappen van een persoon.

Een conditionele waarschijnlijkheid is de waarschijnlijkheid van X wanneer we weten dat Y geldt, en noteren dit als P(X:Y). Lees: P van X gegeven Y. Deze conditionele waarschijnlijkheid kan berekend worden als P(X en Y)/P(Y). X en Y kunnen hier afhankelijk of onafhankelijk van elkaar zijn. Een handige rekenregel die het verband legt tussen verschillende conditionele waarschijnlijkheden is de stelling van Bayes (4): P(X:Y) = P(Y:X)P(X)/P(Y). Vergelijken we dit met de definitie van de conditionele waarschijnlijkheid P(X/Y) = P(X en Y)/P(Y), dan zien we dat in het algemeen (dus ook voor afhankelijke X en Y) geldt: P(X en Y) = P(Y:X)P(X).

Een vaak geciteerde situatie waarin het belang van conditionele waarschijnlijkheden duidelijk wordt, is een medische test. Stel dat we een test hebben voor HIV, die 99% accuraat is. Dit betekent: wanneer iemand HIV heeft, zal die test in 99% van de gevallen een positief resultaat geven, en wanneer de persoon geen HIV heeft, zal de test in 99% van de gevallen negatief zijn. Zo'n 0,2% van de Belgen heeft effectief HIV. Stel dat je nu de HIV-test hebt uitgevoerd en de dokter zegt je dat je positief test. Moet je nu depressief worden? Nog niet echt, want wat is nu de waarschijnlijkheid dat je effectief HIV hebt? Laten we dit eens uitrekenen met de rekenregels die we gezien hebben.

Wat weten we van de test? P(positief:HIV) = 0,99 en P(negatief:niet HIV) = 0,99. Maar als je met een positieve test geconfronteerd wordt, ben je geïnteresseerd in een andere waarde, namelijk P(HIV:positief). De stelling van Bayes kan ons hierbij helpen: P(HIV:positief) = P(positief:HIV)P(HIV)/P(positief). P(positief:HIV) is de accuraatheid van de test: 0,99. P(HIV) is ook gegeven: 0,002. Rest ons nog P(positief) te berekenen. De test kan positief zijn in het geval van HIV en in het geval van geen HIV, dus we tellen beide situaties op (ze sluiten elkaar immers uit en er zijn geen andere gevallen): P(positief) = P(positief:HIV)P(HIV) + P(positief:niet HIV)P(niet HIV). Al deze waardes hebben we gegeven, behalve P(positief:niet HIV), het zogenaamde false positive. Maar dit kunnen we eenvoudig berekenen: P(positief:niet HIV) = 1 - P(negatief:niet HIV) = 0,01. Nu moeten we gewoon alle waardes invullen: P(HIV:positief) = 0,99 x 0,002 / (0,99 x 0,002 + 0,01 x 0,998) = 0,165.

16,5% is dus de waarschijnlijkheid dat we HIV hebben wanneer de test positief is! En dat terwijl de test 99% accuraat is. De kans is dus eigenlijk groter dat we geen HIV hebben. Dit is een fundamenteel probleem met testen voor zeldzame gebeurtenissen: hoe zeldzamer de gebeurtenis waarvoor we een test hebben, hoe groter het aantal positieve tests die niet juist zijn. We veronderstellen vaak dat P(X:Y) ongeveer even groot is als P(Y:X), wat bekend staat als de "conditional probability fallacy". Dit voorbeeld met de HIV-test laat zien dat die veronderstelling niet altijd waar is. De stelling van Bayes laat direct zien waarom: P(X:Y) = P(Y:X)P(X)/P(Y). P(X:Y) is dus enkel ongeveer zo groot als P(Y:X) wanneer P(X) en P(Y) ongeveer even groot zijn. Dat is in ons HIV-voorbeeld niet het geval: P(positief) is gelijk aan 0,012, terwijl P(HIV) gelijk aan 0,002 is. Dit is een factor 6 verschil, ofwel het verschil tussen 16,5% en 99%. Mijn raad aan de lezers van Speels Maar Serieus: "Learn Bayes' Theorem, it can save your life."

(1) http://speelsmaarserieus.blogspot.com/2008/04/een-interessant-soort-stokje.html
(2) http://koan.filosofie.be/index.php?/archives/16-Basiskennis-statistiek-belangrijk.html
(3) http://www.math.temple.edu/~paulos/
(4) http://plato.stanford.edu/entries/bayes-theorem/

1 opmerking:

Koen Robeys zei

Wel, ik biecht op dat ik er serieus op heb zitten puzzelen.

Niks geen probleem met de woord-tekst: gebrek aan conceptueel inzicht in een realiteit die ik te oppervlakkig "gecijferdheid" had genoemd: dat was nu precies wat ik bedoel.

Op het einde zag ik ook *waarom* ik zoveel problemen had met al die X'en en Y'eren. Slecht lezen van mijn kant! De stelling, dus, zegt iets over P(XY) = P(YX)... en voor ik maar aan de daaropvolgende factor toekwam was ik er al in geslaagd over het hoofd te zien dat de X en de Y aan weerszijden van het "=" teken van plaats verwisseld waren!

Kortom: er IS een verband tussen (enerzijds) de kans dat X waar is als je Y al weet en (anderzijds) de kans dat Y waar is als je X al weet. En dat verband is een simpele proportie (PX/PY). En als je dat allemaal door hebt is het verband zeer simpel: als PX en PY ongeveer even groot zijn is het verband wat je intuïtie je al vertelde: zeer rechtlijnig.

Maar *alleen* als PX en PY ongeveer even groot zijn is dat zo, en de simpele formule toont je in één oogopslag waarom dat anders *niet* zo is. Als de fractie PX over PY significant verschilt van 1 gaat de intuïtie de mist in.

Maar hoe ga je dat allemaal inzien als je over het hoofd ziet dat de X en de Y van plaats zijn verwisseld?

Moraal van het verhaal: in dit geval was de oorzaak van mijn initiële "ongecijferdheid" helemaal niet dat "cijfers" en "wiskunde" veel te moeilijk voor me zijn (hoewel dat in veel gevallen, naar ik blijf vermoeden, wel zo zal zijn). Maar in *dit* geval was de oorzaak mijn nukkig, ongeduldig lezen; die typische schrikreactie tegen formules.

Dat inzicht, plus het feit dat ik nu toch een béétje die stelling begrijp, maken van deze gastbijdrage zeker de moeite waard. Ik hoop dat een paar andere lezers hier een soortgelijk gevoel aan overhouden.