Misforståelser i sannsynlighet

Som vi nevnte i artikkelen om introduksjon til sannsynlighet, er magefølelsen ofte ikke å stole på når det gjelder sannsynlighet. I denne artikkelen skal vi se på noen mulige misoppfatninger.

Størrelse på sannsynligheter

I oppgave 1 i artikkelen om introduksjon til sannsynlighet så vi at sannsynligheten for at minst to av 20 vilkårlige biler har samme to sluttsifre i registreringsnummeret er omlag 87 %. Det er altså betydelig større sannsynlighet for like sifre enn for ikke like sifre. En typisk magefølelse vil basere seg på at 20 av 100 mulige sifre gir en sannsynlighet på $\large \frac{20}{100}$, altså 20 %.

Men som vi har sett, regner vi ikke dette ut på denne måten. I stedet ser vi på komplementærhendelsen, som består i at ingen av bilene har to like sluttsifre. Da må sifrene til første bil ikke gjentas blant de 19 neste, sifrene til andre bil ikke gjentas blant de 18 neste, og så videre. Vi føler intuitivt at sannsynligheten for at dette skjer ikke er særlig stor, og den blir ${\large \frac{100}{100}} \cdot {\large \frac{99}{100}} \cdot {\large \frac{98}{100}} \cdot \, \dots \, \cdot {\large \frac{81}{100}} \approx 0{,}13$, ca. 13 %. Og sannsynligheten for det motsatte, altså minst to biler med samme to sluttsifre blir omlag 100 % – 13 % = 87 %.

I en tilsvarende situasjon spør vi hvor sannsynlig det er at minst to elever i en klasse på 30 har samme fødselsdag. Magefølelsen sier kanskje at denne sannsynligheten ikke er særlig stor, fordi 30 av 365 mulige datoer bør gi en sannsynlighet på ${\large \frac{30}{365}} \approx 0,082$, altså omlag 8 %. Men argumentet for sannsynligheten til komplementærhendelsen er den samme som for bilsifrene. Første elevs fødselsdag må ikke gjentas blant 29 andre. Andre elevs fødselsdag må ikke gjentas blant 28 andre, og så videre. Som vi så i oppgave 2 i artikkelen om sammensatte hendelser, var sannsynligheten for dette omlag 28 %, og sannsynligheten for at minst to elever har samme fødselsdag derved omlag 100 % – 28 % = 72 %.

Regnearket under inneholder en simulering av 20 bilsifre og 30 fødselsdager, der verdiene trekkes tilfeldig ved hjelp av funksjonen tilfeldigmellom. Like verdier markeres med en X. Trykk F9 for å generere nye verdier.

RegnearkÅpne regneark med simulering av bilsifre og fødselsdager
 

I oppgave 2 i artikkelen om introduksjon til sannsynlighet så vi på det såkalte Monty Hall-problemet, oppkalt etter TV-verten Monty Hall. I Monty Halls TV-show, Let's make a deal, skal en deltaker velge én av tre dører. Bak en av dørene er en bil, bak de to andre dørene er det ingen ting. Deltakeren velger en dør. Monty, som vet hvor bilen er, åpner så en av dørene uten noe bak, og deltakeren får muligheten til å bytte dør. Feilen mange gjør er å tro at det ikke er noen vits i å bytte dør, fordi sannsynligheten uansett er en tredel. Men faktum er at å bytte dør dobler vinnersjansene.

Når deltakeren har pekt ut en dør, er sannsynligheten for at bilen befinner seg bak den døren en tredel, og sannsynligheten for at den befinner seg bak en av de to andre dørene er to tredeler. De to tredelene fordeler seg med en tredel på hver dør. Men idet Monty åpner en dør, faller sannsynligheten for at bilen er bak denne døren til 0. Sannsynligheten på to tredeler forskyves da over på den siste døren, og deltakeren dobler vinnersjansene ved å bytte. Dette er illustrert under, der deltakeren velger dør nummer 3, og Monty åpner dør nummer 2.

Illustrasjon av Monty Hall-problemet før Monty åpner en dør

Deltakeren velger dør nummer 3

 

Illustrasjon av Monty Hall-problemet etter at Monty har åpnet en dør

Monty åpner dør nummer 2

 

I en vitenskapelig studie av Granberg & Brown valgte bare 12 % av forsøkspersonene å bytte dør. I en undersøkelse gjort på Discovery-programmet Mythbusters valgte ingen å bytte. De begrunnet med magefølelse, og at de likte å stå på sine valg.

Monty Hall-problemet er for øvrig et eksempel på problemer der løsningen blir enklere å forstå hvis en gjør noe veldig stort eller veldig lite. La oss overdrive og si at det er 1000 dører i stedet for 3. Deltakeren velger 1 dør og Monty åpner 998 andre han vet det ikke er noe bak. Prinsippet er ikke endret, men nå er det blitt mye tydeligere at deltakeren øker sjansene ved å bytte dør.

I oppgave 3 i artikkelen om introduksjon til sannsynlighet så vi på paradokset med de falske positive. Når en får positivt utslag på en sykdomstest som er 99 % sikker, er det fort å tro at det er 99 % sannsynlighet for at en er syk. Men 99 % sikker betyr ikke bare at testen i ett tilfelle blant 100 syke ikke klarer å påvise sykdommen, men også at den feilaktig påviser sykdom i ett tilfelle blant 100 friske. Hvis sykdommen er sjelden, finnes det mange flere friske en syke, derfor er det flest friske som blir feildiagnostisert.

RegnearkÅpne et regneark der du kan eksperimentere med parametere blant de falske positive
 

Uavhengige og avhengige hendelser 

Erfaringsmessig vet mange at sannsynligheten for å få kron ti ganger på rad når vi kaster en mynt, er liten. Hvis vi har fått kron ni ganger på rad, og så spør hva sannsynligheten er for å få en kron til, vil noen derfor påstå at den er svært liten. Men dette er selvsagt en feilslutning. De enkelte kastene er uavhengige av hverandre, og sannsynligheten for å få kron er en halv i hvert enkelt kast, uavhengig av hvor mange kron vi har fått tidligere. Den lave sannsynligheten for ti kron på rad ligger i at vi i utgangspunktet har et krav om at vi må oppnå noe med sannsynlighet en halv ti ganger etter hverandre.

Lottotall er et annet eksempel på feilvurdering av avhengighet. Hvilke lottotall som blir trukket i en spilleomgang er helt uavhengig av hvilke som ble trukket i spilleomgangen før. Like fullt hadde avisa VG en periode en oversikt over lottotallenes "formkurver", det vil si en tabell over hvor ofte tallene hadde forekommet i de siste trekningene.

Tre feilslutninger er

En hendelse står for tur. Hvis for eksempel tallet 3 ikke har vært med i lottorekkene på ti uker, er det stor sannsynlighet for at det blir trukket ut neste gang.

Sannsynligheten for en hendelse er brukt opp. Hvis for eksempel tallet 3 har vært med i de siste fem lottorekkene, er det liten sannsynlighet for at det blir trukket ut neste gang.

En hendelse er "i form". Hvis for eksempel tallet 3 har vært med i de siste fem lottorekkene, er det "i form" og har økt sannsynlighet for å bli trukket ut neste gang. Dette argumentet kan det imidlertid være et visst hold i. Hvis en hendelse opptrer hyppigere enn den anslåtte sannsynligheten skulle tilsi, kan det tyde på at sannsynligheten er høyere enn vi tror, noe vi skal se nærmere på i artikkelen om hypotesetesting. Ei lottokule som dukker opp for ofte kan ha økt sannsynlighet for å bli trukket ut fordi vekta avviker fra normalen. I praksis skjer imidlertid ikke dette, lottokulenes vekt og form kontrolleres jevnlig av Justervesenet.

I eksemplene over er det feilaktig gjort antakelser om avhengighet mellom uavhengige hendelser. Men det motsatte er også mulig, å anta uavhengighet mellom avhengige hendelser. Og avhengigheter er ikke alltid like lette å oppdage, så her er det fort å gå fem på.

Som eksempel kan vi ta kortspillet Krig. En kortstokk deles på midten, og to personer får hver sin halvpart med billedsiden ned. Så snur de om kort etter kort på likt, og høyeste kort vinner. Hvis de får kort med lik valør, er det "Krig". Hva er sannsynligheten for at det blir "krig" på første kort? Det er fort å anta at sannsynligheten er en trettendedel, omlag 7,7 %, fordi kortstokken har tretten valører. Og slik ville det vært hvis spillerne hadde hver sin komplette kortstokk. Men siden de deler en stokk, vil det, når den ene spilleren får opp en valør, bare være tre kort med samme valør igjen til den andre. Hvis for eksempel den ene spilleren får opp ruter konge, vil det kunne bli "krig" bare på spar, kløver eller hjerter konge. Det er altså tre gunstige blant i alt femtien gjenværende kort. Sannsynligheten blir derfor tre femtien-deler, omlag 5,9 %.

Andre eksempler på avhengige hendelse er været på etterfølgende dager og pokerhender. Sannsynligheten for hva de andre har varierer med hva en har selv.

Mønstre og regelmessighet

I TV-programmet Siffer ba programleder Jo Røislien to mennesker plassere en del gjenstander tilfeldig utover en stor flate. De sørget da omhyggelig for at ingen mønstre oppstod. Mens da han selv bare slengte gjenstandene tilfeldig utover, lot det til å oppstå mønstre.

I Lotto er alle tallkombinasjonene like sannsynlige. Noen tror likevel at ei Lotto-rekke med et tydelig mønster som 1-2-3-4-5-6-7 er mindre sannsynlig enn ei rekke uten mønster, som 3-11-7-22-33-2-8. Blant de følgende tre seriene med myntkast vil nummer 1 gjerne bli rangert som mest sannsynlig, deretter nummer 2, og så nummer 3, på grunn av den økende graden av system.

  1. kron-mynt-mynt-kron-mynt-kron
     
  2. kron-kron-kron-mynt-mynt-mynt
     
  3. kron-kron-kron-kron-kron-kron

Men med en rettferdig mynt har alle seriene samme sannsynlighet, ${({\large \frac{1}{2}})}^6 = {\large \frac{1}{64}}$, omlag 1,6 %. Det betyr imidlertid ikke at det er like sannsynlig å få seks kron som å få tre mynt og tre kron. Sannsynligheten for tre mynt og tre kron er ${\large \frac{20}{64}}$, altså 20 ganger høyere enn sannsynligheten for seks kron. Dette skyldes at det finnes tjue forskjellige serier med tre mynt og tre kron, mens det bare finnes én enkelt serie med seks kron.

Sjeldne hendelser

Noen tror at en hendelse med svært liten sannsynlighet aldri vil inntreffe. Men slik er det ikke. Sannsynligheten for å vinne hovedgevinsten i Lotto er for eksempel mindre enn sannsynligheten for å slippe en ball fra et vindu på toget mellom Oslo og Trondhjem og treffe ei bøtte som står et vilkårlig sted langs sporet. Likevel er det som regel én eller flere vinnere hver uke.

Tallrekka under viser 102 simulerte terningkast:

2, 6, 2, 3, 5, 3, 3, 4, 6, 3, 3, 6, 1, 4, 1, 5, 6, 1, 3, 4, 2, 5, 4, 2, 2, 3, 3, 5, 4, 5, 4, 5, 1, 4, 5, 4, 4, 6, 5, 3, 2, 4, 3, 4, 1, 6, 6, 3, 2, 3, 4, 1, 3, 5, 6, 6, 6, 5, 2, 2, 6, 3, 2, 1, 5, 2, 3, 5, 2, 1, 6, 6, 4, 3, 3, 1, 3, 3, 6, 3, 4, 3, 5, 6, 5, 4, 3, 3, 4, 2, 1, 5, 6, 1, 3, 2, 3, 1, 2, 2, 3, 5.

Sannsynligheten for at akkurat denne rekka skulle dukke opp er ${({\large \frac{1}{6}})}^{102} \approx 4,25 \cdot 10^{-80}$. Hvis alle atomene i det synlige universet hadde et nummer, og to personer valgte hvert sitt atom vilkårlig, ville dette tallet være noe rundt sannsynligheten for at begge valgte samme atom. Så lite sannsynlig er det å få akkurat denne rekka, allikevel dukket den opp. Vi kan selvsagt fortsette å fylle på med terningkast, og etter hvert som lengden øker nærmer sannsynligheten for akkurat den rekka seg null. Likevel er den der. I artikkelen om normalfordelingen skal vi se at hendelser kan inntreffe selv om de har sannsynlighet 0.

Utvalgsstørrelse

En feil noen gjør er å trekke konklusjoner basert på for små utvalg. Ved et stort antall terningkast med en rettferdig terning forventer vi å få i gjennomsnitt 3,5. For eksempel er gjennomsnittet av kastene i forrige avsnitt omlag 3,55. Avvik fra gjennomsnittet kan tyde på at terningen ikke er rettferdig. Dersom en terning for eksempel er manipulert til å gi ekstra mange seksere, vil vi kunne forvente at gjennomsnittet ligger høyere enn 3,5. Men kaster vi en terning fem ganger og får et gjennomsnitt som er alt for høyt, kan vi allikevel ikke trekke noen konklusjon. Utvalget på fem kast er alt for lite.

Mer presist sagt er det veldig stor usikkerhet knyttet til små utvalg, men denne usikkerheten avtar når utvalgets størrelse øker. Det finnes ikke noen magisk grense der en går fra veldig usikker til veldig sikker, men i mange sammenhenger regnes utvalg på mindre enn 30 som små.

Generelt sier store talls lov at jo flere forsøk vi gjør, jo nærmere vil vi i gjennomsnitt komme det forventede resultatet. Det er altså ikke slik noen tror at det er like sannsynlig å få 550 kron eller mer ved 1000 kast med en rettferdig mynt, som det er å få 55 kron eller mer ved 100 kast. Selv om forholdstallet er det samme, ${\large \frac{550}{1000}} = {\large \frac{55}{100}}$, er 550 et mye mindre sannsynlig avvik fra gjennomsnittet på 500 enn 55 er fra gjennomsnittet på 50. Sannsynlighetene er henholdsvis omlag 0,07 % og 13,6 %. Gjør vi mange forsøk med 1000 myntkast, vil antall kron i så mye som 99,84 % av tilfellene ligge mellom 450 og 550, men gjør vi mange forsøk med 100 myntkast, vil antall kron i bare omlag 68 % av tilfellene ligge mellom 45 og 55.

Kilder:

  • Røislien J., Nome M. (2011). Siffer. Versal forlag
  • Wikipedia