donderdag 8 mei 2008

Nog wat simpele statistiek

Na het gastartikel van de Filosofische Ingenieur (1) schoot me te binnen dat ikzelf ook ooit nog één klein ideetje uit de statistiek had overmeesterd, dat waard is eens vemeld te worden. Zoals altijd in dit soort gevallen is dit een levende uitnodiging aan zij die de zaken scherper weten te formuleren...

Maar let's go. Beeld je in dat je 100 blanco kaartjes voor je zag liggen, die elk één persoon voorstellen, terwijl de groep willekeurig uit de bevolking is gekozen. Stel dat je van elk kaartje moet zeggen of het een man of een vrouw voorstelt. Aangezien je dat niet kan weten, en aangezien de helft van een populatie mensen uit mannetjes, en de andere uit vrouwtjes bestaat, zal je ruwweg de helft van de gevallen fout raden.

Maar hoe zit het als je een extra stukje informatie toevoegt? Als je op de achterzijde van het kaartje kon lezen wat de kleur van hun ogen is zal je nog steeds de helft van de gevallen fout hebben. Maar wat als hun voornaam daar stond?

Om het verhaal een beetje af te ronden op twee representatieve namen neem ik aan dat er vijftig kaartjes zijn met "Sarah", en op de andere vijftig staat "Thomas". Meteen heb je alle kaartjes goed: er bestaat een 100% verband tussen voornaam en geslacht. Twee namen is evenwel niet erg realistisch en en om er een reëel probleem in te brengen maak ik ervan: 45 Sarahs, 45 Thomassen, en 10 keer Chris.

Nu zal je in ongeveer de helft van de gevallen deze Chris fout raden en de 90 andere kaartjes heb je alweer goed. Dat wil zeggen, als je géén extra informatie hebt was je fout 50%. Met de kleur van hun ogen haalde je nog steeds 50%. Met informatie over hun chromosomen - als die een vorm als XX of XY had - zou je je fout reduceren tot 0%. En met de voornamen zoals ik ze snel even gekozen heb zou je je fout reduceren tot 5%.

Het is dat "reduceren van de fout" dat ons aan een belangrijk concept helpt. Je neemt het aantal fouten zonder de extra informatie: dat was 50%. Je trekt daarvan af het aantal fouten dat je nog maakt als je de extra informatie wel hebt. In het geval van mijn voornamen was dat 5%, dus het verschil is 45%. Dat is de foutreductie: het aantal fouten dat je niet meer maakt dank zij die extra informatie. Die foutreductie vergelijk je nu met het oorspronkelijk aantal fouten, en wel met de eeuwenoude techniek van de deling. Je deelt de reductie (45%) door de oorspronkelijke proportie (50%) en het resultaat van die deling is 90%. En dat cijfer zegt je heel nauwkeurig iets over hoe belangrijk je extra informatie is voor het onderzochte onderwerp. Als een extra element je toelaat een groot deel van de fouten te elimineren, die je maakte zonder die factor, dan zegt dat iets over dat "belang".

Neem terug die voorbeelden. De kleur van de ogen liet je niet toe ook maar één fout te vermijden. Je trekt van je oorspronkelijke 50% het aantal fouten dat je nog steeds maakt af, en dat aantal was ook 50%. Foutreductie nul, gedeeld door de oorspronkelijke fout van 50%, blijft nog steeds nul percent. Nul percent is het belang van de kleur van de ogen voor het geslacht! Maar met de voornaam kwamen we aan 90%. Hey, ik probeer je niet te vertellen dat er een groot verband bestaat tussen iemands voornaam en iemands geslacht: dat wist je al. Ik probeer alleen te tonen hoe dat soort verbanden in cijfers kan uitgedrukt worden. Als ik me niet vergis is de technische term voor wat ik hier "het belang van informatie" noem "statistisch significant".

OK, we zitten alweer aan de verkeerde kant van de grens van mijn cijferinzicht. Maar het is toch iets dat hier op trekt. Vragen, verwijten, kritieken, beschuldigingen...? Je kent het adres.

-----------------------------------------
(1) http://speelsmaarserieus.blogspot.com/2008/05/de-stelling-van-bayes.html

2 opmerkingen:

Anoniem zei

hoe het ding heet dat je hier beschrijft, weet ik niet, maar statistische significant is wel iets anders. Dat betekent namelijk dat je 'steekproef' voldoende groot, eerlijk e.d. is om een besluit uit te kunnen trekken.
Bv. als je een man ondervraagt over zijn politieke overtuiging, is dit niet voldoende om te zeggen dat alle mannen die overtuiging hebben. Zelfs het aantal is op zich niet voldoende, want als je die mannen nu 'toevallig' uitkiest om het moment van een manifestatie, dan krijg je nog een vertekend beeld. Wat je wel beschreven heb is dat je een parameter kiest die significant (voornaam) of niet significant (kleur ogen) kan zijn om je resultaat te bepalen.

Koen Robeys zei

Tonny: als ik je goed begrijp vertel je me dat er een verschil bestaat tussen een "significante parameter" - wat ongeveer zou neerkomen op wat ik beschreven heb - en "statistisch significant"; een technische term die ik ooit al eens gehoord heb, zonder te weten wat die eigenlijk betekent.

Natuurlijk is het in dat geval heel goed mogelijk dat ik die twee verwar.

Ik zal serieus met je opmerking rekening houden. Dat zal ongeveer de vorm hebben van een evolutie van "ik weet dat ik van dit onderwerp zo goed als niets weet, en ik heb zelfs geen flauw benul waar ik moet beginnen als ik er iets aan wou doen" tot "ik weet er zo goed als niets van, en een goed begin zou zijn tenminste de betekenis van de basistechnologie te weten te komen".

Niet dat statistiek hoog op mijn prioriteitenlijst staat; dit was eerder iets dat uit een ver verleden naar boven borrelde.