Introduksjon til statistikk

Statistikk har et litt frynsete rykte. Dette kan skyldes at vi i media stadig ser eksempler på misbruk av statistikk. Av og til fordi noen bevisst prøver å lure oss, men ofte fordi journalistene som presenterer statistikken ikke har kunnskap til å tolke den riktig.

Inntrykket vi får når vi presenteres for statistiske data er ofte avhengig av måten dataene presenteres på.

Eksempel 1:

I 2014 hadde Fagbladet et opplag på 20 000 og Lilleviksposten et opplag på 2 000 eksemplarer. I 2015 hadde Fagbladet økt til 21 000 eksemplarer og Lilleviksposten til 2 200 eksemplarer. Hvilken av avisene hadde størst økning?

Svaret avhenger av hva vi egentlig spør etter. Måler vi i antall eksemplarer, har Fagbladet hatt størst økning, med 1000 eksemplarer mot Lillevikspostens 200. Men prosentvis har Lilleviksposten størst økning, med 10 % mot Fagbladets 5 %.

Eksempel 2:

I to undersøkelser ble to nye medikamenter, A og B, testet ut. I én undersøkelse hadde medikament A effekt på 81 av 87 pasienter (93 %), mens medikament B hadde effekt på 234 av 270 pasienter (87 %). I en annen undersøkelse hadde medikament A effekt på 192 av 263 pasienter (73 %), mens medikament B hadde effekt på 55 av 80 pasienter (69 %). Hvilket medikament hadde best effekt?

Det virker opplagt at medikament A er svaret, siden det hadde beste effekt i begge undersøkelsene, 93 % mot 87 % i første undersøkelse og 73 % mot 69 % i andre. Men ser vi begge undersøkelsene under ett, hadde medikament A effekt på 273 av 350 pasienter (78 %), mens medikament B hadde effekt på 289 av 350 pasienter (83 %). Så da ser medikament B ut til å ha hatt best effekt. Dette er ikke lureri, men noe som heter Simpsons paradoks. Resultatet er avhengig av hvordan vi betrakter dataene.

Eksempel 3:

Under vises to grafer som illustrerer endring i opplagstall over 20 år. Grafen til høyre gir inntrykk av mye større økning, men begge grafene er basert på nøyaktig samme data, og strekker seg fra ca. 2.000 til 2.600, det er bare skaleringen som er forskjellig.

Kurve med slak stigning Kurve med bratt stigning

 

Under finner du lenke til et regneark der det er jukset med aksene for å gi inntrykk av at en økning i antall forbrytelser per år er mye større enn den i virkeligheten er.

RegnearkÅpne regneark med aksejuks
 

Det kan også være at vi presenteres for måltall som ikke er representative, slik det er illustrert i oppgaven under.

Oppgave 1:

Vi påstår at de fleste mennesker har mer enn gjennomsnittlig antall armer. Er dette korrekt? Hva er i så fall problemet med denne påstanden?

Se løsningsforslag

En annen vanlig feil er at årsak og virkning forveksles. Statistisk sett er det slik at jo flere brannfolk som deltar i slukkingen av en brann, jo større er skadeomfanget. Men naturligvis vil ikke bruk av færre brannfolk vil gi mindre skadeomfang, for det er ikke antall brannfolk som er årsaken og skadeomfanget som er virkningen, det er motsatt. Er det stort skadeomfang, er brannen sannsynligvis stor, og en stor brann krever mange brannfolk. I dette tilfellet er feilen opplagt, men i andre tilfeller kan det være vanskelig å avgjøre hva som fører til hva. Når det viser seg at folk som er mye ute i naturen har bedre mental helse enn de som ikke er det, er det da naturen som gir god mental helse, eller er det de med god mental helse som har overskudd til å gå ut i naturen?

En variant er at en hendelse har en utenforliggende årsak. For eksempel er det slik at de fleste bilulykker skjer i dagslys, med edru sjåfør. Men det betyr selvsagt ikke at det lønner seg å fyllekjøre om natta. Årsaken til at det er slik, er at det er mest trafikk om dagen, og det overveiende flertallet av sjåfører er edrue. Et mer subtilt eksempel er vist i eksempel 4.

Eksempel 4:

I en undersøkelse viste statistikken at det var en klar sammenheng mellom bruken av et bestemt medikament og benskjørhet. En skulle tro at det var en klar årsaks- og virkningssammenheng her. Men faktum var at det stort sett var eldre pasienter som brukte medikamentet, og på grunn av sin alder var de disponert for benskjørhet. Vi hadde en utenforliggende årsak.

Det finnes tre typer løgner: Løgn, forbannet løgn og statistikk, skriver forfatteren Mark Twain. Men statistikk er egentlig en eksakt, matematisk vitenskap, det er bare resultatene som bevisst eller ubevisst feiltolkes.

På dette nettstedet ser vi på hvordan vi kan presentere statistikk på en strukturert og standardisert måte gjennom blant annet måltall som gjennomsnitt, standardavvik, median og persentiler. Men vi lærer også å trekke konklusjoner basert på utvalg. Hvis vi for eksempel undersøker 200 laks i et oppdrettsanlegg og 50 av dem har lus, hvilke konklusjoner kan vi da trekke om utbredelsen av lus i hele bestanden? Vi lærer å beregne konfidensintervaller og å gjøre hypotesetester. Vi lærer også å bruke regneark og GeoGebra både til å presentere statistiske data, og å gjøre statistiske beregninger og analyser.

Kilder