zondag 18 mei 2008

Ik blijf piekeren over statistiek

Waar zouden we staan met onze bloggerij, als we niet af en toe elkaar deden nadenken? De gastbijdrage van de Conceptuele Ingenieur" (1) over statistiek blijft me bezighouden, een mengsel van dingen uit een ver verleden en pogingen die dingen vast te klikken aan wat ik van die gastbijdrage heb overgehouden...

De bijdrage ging over hoe je niet te snel moest besluiten dat je AIDS hebt, indien je positief scoort in een test - zelfs hoewel we weten dat de test 99% betrouwbaar is. Dat laatste vertelt ons namelijk iets als "als je de ziekte hebt zal je zeer waarschijnlijk positief scoren". Dat is evenwel iets heel anders dan "als je positief scoort heb je zeer waarschijnlijk de ziekte". Het bleek dat je een kans van slechts 16.5% hebt om de ziekte te hebben als je positief scoort!

Dat is zeer contra-intuïtief en zoals we vinden in de gastbijdrage komt dat doordat de kans dat een willekeurig individu de ziekte heeft zes keer kleiner is dan de kans dat hij positief scoort.

Laatst zat ik een beetje te fantaseren over het enige wat ik me nog herinner over statistiek: dingen als "als je iemands voornaam kent heb je een veel betere kans om te raden of het een man of een vrouw is, dan wanneer je die voornaam niet kent" (2). En puur bij wijze van oefening probeer ik dat nu in de termen van "conditionele waarschijnlijkheden" te gieten: als dat compleet de mist ingaat, en iemand vertelt me dat op een begrijpelijke wijze, dan heb ik er misschien nog iets van bijgeleerd ook.

Ik zou zo zeggen dat de kans dat iemand een man of een vrouw is 50% is. Noem dat P(X) = 0.50. En hoe zit het met de kans dat een willekeurige persoon een bepaalde voornaam heeft? Ik moet een paar assumpties invoeren. Zeg dat er 4 voornamen zijn zoals Sarah: duidelijk een vrouw. En er zijn 4 voornamen zoals Thomas: duidelijk een man. En verder zijn er de namen Chris en Dominique, en van elk van beide namen zijn er evenveel mannen als vrouwen. Tenslotte komen alle namen precies even vaak voor in de populatie.

Ik denk dat de kans dat een willekeurig gekozen individu een bepaalde naam heeft nu gelijk is aan 10%. Noem dat P(Y) = 0.10.

De vraag uit mijn eerdere tekst was: wat is de kans dat je kan raden of iemand man is of vrouw als je de voornaam hebt? Tenzij ik iets vreselijk over het hoofd zie is die kans met de bovenstaande assumpties 90%. Immers, met 80% van de voornamen weet je het zeker en van de andere 20% zal je de helft juist raden: er zijn immers evenveel mannen als vrouwen met die naam. En dus denk ik dat P(X:Y) = 0.90

Tegelijk zal niemand het als "contra-intuitief" beschouwen dat je niet zoveel kans hebt iemands naam te raden als je weet of het een man of een vrouw is: dat is integendeel triviaal. Zonder die informatie was de kans 10%. terwijl, als je weet dat iemand (bijvoorbeeld) een vrouw is, dan vallen de 4 namen die zeker een man zijn af. Van de 6 overblijvende namen weet ik eerlijk gezegd (ik biecht het blozend op) niet hoe ik omga met het feit dat er 2 zijn waarvan we niet zeker zijn: ik doe alsof de 6 overblijvende namen vrouwennamen zijn, en dus is de kans dat ik iemands voornaam raad als het een vrouw is 1 over 6 of 0.1666. Dus: P(Y:X) = 0.1666. Al iets beter dan 0.1000 maar nog lang niet de 0.90 van P(X:Y).

Edoch! De Conceptuele Ingenieur vertelde me dat P(X:Y) gelijk is aan P(Y:X) maal P(X)/P(Y). Wat ik blozend kom opbiechten is dat ik niet kan "zien" wat de kans is dat iemand een bepaalde voornaam heeft, gegeven dat het een man of een vrouw is. Ik vul "man of vrouw" in met de G van "geslacht" en "welke naam" met de N van naam. Dus wat ik niet kan bedenken is P(N:G). Maar wat ik al heb is dat P(G:N) = 90%, verder dat P(G) = 50% en P(N) = 10%. Dus ik moet invullen:

P(G:N) = 90% maal 10%/50% = 90% maal 1/5 = 18%.

Hmmmmm...

Mijn intuïtie hield jammerlijk stil op het punt waarop 16.66% het juiste resultaat zou zijn, indien ik nergens iets zeer simpels over het hoofd had gezien EN alle Chrissen en Dominiques vrouwen waren. Gegeven dat dat laatste maar in de helft van de gevallen waar was zou 16.66% alleen maar een behoorlijk goede schatting zijn. Pas ik vervolgens toe wat ik net van de Conceptuele Ingenieur heb geleerd, dan vind ik dat het juiste antwoord 18% is.

Ik trek stilaan mijn conclusies...

1. Ik denk dat ik de stelling van Bayes correct heb begrepen en toegepast.
2. Ik denk dat mijn scenario's hierboven (50% kans op m/v; 10% kans op een bepaalde voornaam in bovenstaande assumpties en de rest) correct zijn.
3. Het is op de rand van het pathetische (en naar zich laat vrezen de verkeerde rand) dat ik zelfs niet kon bedenken of de schatting van 16.66% nu te hoog of te laag was (ik zie intuïtief trouwens nog altijd niet in waarom 16.66% te laag was).

OK. Ik zou me, vanzelfsprekend, stukken beter voelen als ik punt (3) niet onder ogen hoefde te zien. Maar de 18% lijkt me te goed als "juist resultaat" voor mijn 16.66% als "benadering" om (1) en (2) te laten vallen.

En cerebrale types als ikzelf troosten zich met de gedachte dat ze blijkbaar iets hebben bijgeleerd en kunnen toepassen, waar ze geen flauw benul van hadden. Blijkbaar heb ik ook een voorbeeld gevonden waarin de stelling van Bayes helemaal niet contra-intuïtief is. Niet de stelling zelf lijkt het moeilijk geval te zijn, maar ons dagdagelijks inzicht in de verhouding tussen P(X) en P(Y)...

-------------------------------
(1) http://speelsmaarserieus.blogspot.com/2008/05/de-stelling-van-bayes.html
(2) http://speelsmaarserieus.blogspot.com/2008/05/nog-wat-simpele-statistiek.html

11 opmerkingen:

Anoniem zei

Hallo Koen,

In je toepassing van de stelling van Bayes ga je wat te vaag om met de formules, wat het nogal moeilijk maakt om je redenering te verifiëren. Zo begin je met "Ik zou zo zeggen dat de kans dat iemand een man of een vrouw is 50% is. Noem dat P(X) = 0.50." Dat is niet correct. Correct zou zijn: P(man) = 0.50 en P(vrouw) = 0.50. De uitdrukking P(X) = getal heeft geen betekenis zolang je voor de variabele X geen getalwaarde invult.

Voor "Noem dat P(Y) = 0.10." geldt hetzelfde: je hebt P(Thomas) = 0.10, P(Sarah) = 0.10, enzovoort. Overigens zou je om alle onduidelijkheid te vermijden iets moeten schrijven als P(X = man) en P(Y = Thomas) of nog duidelijker P(Geslacht = man) en P(Naam = Thomas), maar dat wordt wat omslachtig en daarom heb ik die notatie in mijn tekst over de stelling van Bayes ook niet gebruikt.

Hoe zou ik nu je vraag "wat is de kans dat je kan raden of iemand man is of vrouw als je de voornaam hebt?" oplossen? Allereerst moet je deze vraag omzetten zodat je er met de gegevens die je hebt iets mee kan doen. Je hebt als gegevens (ik gebruik de uitgebreide notatie om de gebruikte concepten duidelijker te maken):

P(X = man) = 0.50
P(X = vrouw) = 0.50
P(Y = Thomas1) = 0.10
P(Y = Thomas2) = 0.10
P(Y = Thomas3) = 0.10
P(Y = Thomas4) = 0.10
P(Y = Sarah1) = 0.10
P(Y = Sarah2) = 0.10
P(Y = Sarah3) = 0.10
P(Y = Sarah4) = 0.10
P(Y = Chris) = 0.10
P(Y = Dominique) = 0.10

P(X = man : Y = Chris) = 0.50
P(X = man : Y = Dominique) = 0.50

Wat vraag je nu? "wat is de kans dat je kan raden of iemand man is of vrouw als je de voornaam hebt?" Dit bestaat uit twee delen: wat is de kans dat... als iemand man is ... en wat is de kans dat... als iemand vrouw is... Beide zijn symmetrisch omdat in je voorbeeld de kansen hetzelfde zijn voor man of vrouw. We bekijken de vraag dus voor een man (en ik herformuleer): wat is de kans dat iemand man is als je een potentieel mannelijke voornaam hebt. Ik sluit de exclusief vrouwelijke namen dus uit, want de kans dat die persoon dan man is, is gelijk aan 0.

In symbolen is dit:

(P(X = man : Y = Thomas1) x P(Y = Thomas1) + ... + P(X = man : Y = Thomas4) x P(Y = Thomas4) + P(X = man : Y = Chris) x P(Y = Chris) + P(X = man : Y = Dominique) x P(Y = Dominique)) / (P(Y = Thomas1) + ... + P(Y = Dominique))
= (1 x 0.1 + 1 x 0.1 + 1 x 0.1 + 1 x 0.1
+ 0.50 x 0.1 + 0.50 x 0.1) / 0.6
= (0.4 + 0.1) / 0.6 = 0.83

Je lijkt me iets anders te doen, klopt dat? Ik kan je niet helemaal volgen, bekijk mijn oplossing eens.

Koen Robeys zei

Eerst en vooral: bedankt om er zelfs maar naar te willen kijken: natuurlijk zijn mijn uiteenzettingen zeer verward, om één enkele reden: totale onwetendheid van het onderwerp.

Dus ik zie in dat je herformuleringen correct zijn en troost me met het idee dat de grote lijnen van wat ik wou zeggen toch min of meer duidelijk waren.

Maar wat probeere ik nu eigenlijk te doen? Beeld je in dat je 100 blanco kaartjes voor je ziet: een random gekozen deel van de bevolking, en elk kaartje stelt één mens voor. De kans dat een willekeurig kaartje een man is, is 50%. De kans dat een willekeurig kaartje Thomas heet lijkt me 10%, onder mijn assumpties.

Maar als je op de achterkant van het kaartje een voornaam geschreven zag? Ik denk dat je dan niet 50% van de kaartjes juist zal raden, maar 90%: steeds onder mijn assumpties.

En hoe ziet het verhaal er uit als je op het kaartje zag staan dat de persoon een man of een vrouw was? Stel dat je nu een voornaam moest raden; dat je kreeg "hier is een man, dat is de kans dat hij Thomas heet?"... Je zou nu méér dan 10% kans hebben, nietwaar? Hoevéél meer?

Ik weet het niet. Ploeterend tot waar ik geraakt ben kwam ik uit op 16.66% dat ik een correcte voornam zou kiezen, PLUS het besef dat dat niet helemaal juist zou zijn.

En met mijn "begrip" van de stelling van Bayes heb ik vervolgens "uitgerekend" dat het juiste antwoord, onder mijn assumpties over de verdeling van de voornamen, 18% zou zijn.

Dat was wat ik probeerde te doen. Op het eerste zicht is dat iets heel anders dan wat jij uitrekende - hoewel je herformulering me correct leek: dus daar heb ik iets compleet gemist. In elk geval, 0.83 kan nooit het antwoord op mijn vraag zijn, 0.18 zou dat wel kunnen zijn. Maar zoals vanzelf spreekt, als ik op dat laatste stuk in het duister tast, dan ligt dat helemaal aan mij :-)

dottore zei

ik hou mij buiten het gecijfer, nog minder mijn terrein dan het jouwe, maar chapeau voor je blog!
ik hou hem nu al een tijdje in de gaten, en je blijft me boeien. (je hebt een fan! minstens)
soms zoals vandaag verlies je me ergens in het wiskundige, maar meestal is wat je hier schrijft zeer interessant. en zeggen dat ik op je blog gestuit ben door iets over de peloponessische oorlog te googlen.
ieg, je zorgt voor de verruiming van mijn blikveld. dank je!

Anoniem zei

Hallo Koen,

IMO heeft de vraag die jij je stelt geen antwoord omdat je gegevens niet volledig zijn.

We hebben een geslacht gekregen, b.v. een vrouw. Dat zijn in dit geval 50 individuen.

10 met de naam Sarah1.
10 met de naam Sarah2
10 met de naam Sarah3
10 met de naam Sarah4
5 met de naam Chris
5 met de naam Dominique.

De vraag is nu hoe ga je een voornaam raden. Gooi je een dobbelsteen waarop op elke kant een naam is geschreven of negeer je de namen Dominique en Chris om de kans dat je juist raad zo groot mogelijk te maken?

In het eerste geval is de kans op een juiste voornaam

4/6 * 10/50 + 2/6 * 5/50 = 50/300 = 1/6


In het andere geval is de kans op een juiste voornaam

10/50 = 1/5

Anoniem zei

@Koen,

Ik denk dat je Koens oorspronkelijke vraagstuk als volgt moet lezen. Persoon A krijgt een naam te horen. Als de naam ThomasX is, antwoord persoon A: man. Als de naam SarahX is, antwoord persoon A: vrouw. In de andere gevallen gooit hij een munstuk en in het geval van kop antwoord hij: man, anders vrouw.

Hoe groot is nu de kans dat persoon A het juiste geslacht heeft geantwoord.

Koen Robeys zei

Axxyanus: je vraag *hoe* ik nu precies zal raden helpt me wel een eind vooruit - merk in passant op dat dàt de "werkelijke" vraag was. Zonder extra informatie heb je een kans van 10% om de voornaam goed te raden. Met de extra informatie (m of v) stijgt die kans - maar naar hoeveel?

De facto is wat ik gedaan heb: ik gebruik een dobbelsteen. Maar ik wéét dat ik niet echt 16.66% zal hebben, want ik negeer een probleem met de dobbelsteenmethode; zoals beschreven.

Als ik de namen Chris en Dominique negeer - maak ik dan de kans juist te raden zo groot mogelijk? Ik begrijp dat de kans 1/5 zou zijn als (bijvoorbeeld) Chris ondubbelzinnig een vrouw was, en Dominique een man. Maar gegeven de onzekerheid die daarop zit: bestaat er niet een "werkelijke", "objectieve" kans om de naam juist te raden als je het geslacht kent?

Stel dat het een miljoen kaartjes waren, en dat je voor elke juist geraden naam een euro kreeg. Zonder extra informatie haal je een 100,000 euro. En met? Op een miljoen kaartjes maakt het een heel verschil of het antwoord 16.66, dan wel 18% is...

@ Dottore: het doet me plezier dat je hier bent via mijn verhalen over de Grieken en de Perzen: zelfs 18 maanden later denk ik er nog met veel plezier aan terug...

Anoniem zei

Hallo Koen,

Hier een klein vraagje, waarmee ik je op weg hoop te helpen. Je hebt honderd kaartjes met een geslacht en een voornaam op. Iemand zal een kaartje trekken en het geslacht opnoemen. Jouw strategie is het volgende. Als je "man" hoort, reageer je met "Thomas", als je "vrouw" hoort, reageer je met "Sarah". Hoe groot is de kans nu dat je juist raad?

Anoniem zei

Hier ben ik nog eens Koen,

Die 18% is fout omdat je de formules toepast op een situatie die daar niet voor geschikt is,

Je P(X;Y) = 90% bijvoorbeeld is fout. Niet omdat wat je wilde berekenen geen 90% is maar omdat de P(X:Y) notatie niet geschikt is voor dat soort situaties.

P(X:Y) is de kans op X indien Y het geval is.

Maar die X en Y zijn dan wel eenvoudige gebeurtenissen zoals: De getrokken persoon is een man of de getrokken persoon heeft Dominique.

Jij zit met een extra nivo. In jouw geval weten we niet of de getrokken persoon een man is, we weten dat de onderzoeker, het geslacht van de getrokken persoon weet. Mijn indruk is dat je die verschillende nivo's door elkaar aan het halen bent.

Koen Robeys zei

Axxyyanus: je laatste vraag is vooral (pijnlijk) relevant omdat dat nu juist is wat ik de hele denk te vragen! Ik denk dat we vooral iets leren over wat er gebeurt wanneer amateurs technische taal gebruiken om intuïtieve vragen te stellen.

Intussen is het antwoord op je "klein vraagje" dat ik het niet weet. Ik maakte dus een benadering waarvan ik wéét dat het een benadering is, en ik wéét welke de factor is die ik negeer, maar zonder dat ik mezelf kan vertellen of die 16.66% nu te hoog, of te laag is.

Dus vroeg ik me af of ik het kon uitrekenen met wat Koen Vervloesem me heeft verteld. Nu vertel je me dat dat niet kan, maar ik vermoed dat dat komt wegens de (toegegeven: zelf veroorzaakte) notatie- en terminologieproblemen.

Immers, neem ter activering van de wet van de grote getallen een miljoen kaartjes met naar beneden gedraaide voornamen; verdeeld zoals beschreven in de post. De "objectieve probabiliteit" (eigen, intuïtief bedoelde terminologie) is 10%. Je maakt tien kolommen met random 100,000 kaartjes, en er zullen er *in totaal* 100,000 goed zitten.

Mijn vraag is dus inderdaad: en als er op de zichtbare kant van de kaartjes een "m" of een "v" stond? Als je zo goed mogelijk rekening houdt met het feit dat Thomas nooit op een "v" staat (enzovoort) maar Chris en Dominique in 50% van de gevallen wel... hoeveel kaartjes kan je nu goed laten zitten?

Zo (her)uitgedrukt heb ik geen extra niveau meer over. En nog steeds heb ik als gegeven dat de helft van de mensen m, respectievelijk v is, dat de kans op een willekeurige voornaam 10% is, en dat je in 90% van de gevallen zal kunnen raden of iemand m/v is als je de voornaam kent.

Dus waarom zou de stelling van Bayes ons dan niet kunnen helpen (zodat de uitkomst; de "objectieve probabiliteit" 18% is)? Dat weet ik nog altijd niet. Hier moet toch een "objectieve probabiliteit" voor bestaan? Hoeveel zou die zijn? Waarom is die geen 18%?

Beats me... :-)

Anoniem zei

Koen,

"Hoeveel kaartjes kan je nu goed laten zitten" is geen vraag naar een kans. Het is een vraag naar een strategie.

Een kansvraag zou zijn: "Gebruikmakend van de hierna beschreven strategie hoeveel kaartjes kan ik nu verwachten dat er juist zullen liggen"

Strategie: Leg alle m-kaarten op Thomas; leg alles v-kaarten op Sarah; laat de andere 8 kolommen leeg.

Het antwoord hierop is 20%.


De vraag die jij lijkt te stellen is welke strategie levert mij het hoogste antwoord op, bij de vorige vraag en wat is in dat geval het antwoord.

Koen Robeys zei

Ah! Ik zie nu ook dat ik het verschil tussen "vraag naar kans" en "vraag naar strategie" heb gemist.

(oeioeioeioeioei...)

In feite zou ik ze nu wel eens alletwee willen weten... maar wat ik vooral begin te zien is de onnoemelijke verwarring waarin ik zit.

Ach, dat is uiteindelijk ook waarom ik het vraag, nietwaar? nu heb ik tenminste het gevoel dat ik een idee krijg van *waarom* het allemaal boven mijn pet gaat...