Datainnsamling

Når vi skal lage statistikk, må vi ha et datagrunnlag å arbeide ut fra. Vi kan bruke data som andre har samlet inn, eller vi kan samle inn våre egne. Det er da viktig at vi gjør det på en måte som sikrer at dataene er representative.

Ferdig innsamlede og bearbeidede data kan vi for eksempel finne hos Statistisk sentralbyrå: www.ssb.no. Før vi setter i gang egne datainnsamlinger, kan det være verd å sjekke om Statistisk sentralbyrå allerede har noe vi kan bruke.

Skal vi samle inn data selv, er stikkord telle, måle og spørre. Det kan være at vi skal telle antall biler som passerer et gitt punkt, måle vekten på villaks i ei elv eller spørre folk om de er for eller imot kommunesammenslåing.

Ofte ønsker vi å måle effekten av noe, for eksempel en ny gjødseltype eller en ny type medisin. Det gjelder da å eliminere uvedkommende faktorer som kan påvirke resultatet. Dette kaller vi forsøksplanlegging. Skal vi teste ut en ny type gjødsel, lager vi gjerne to plantefelt med samme kombinasjon av planter, og bruker den gamle gjødselen på det ene, og den nye på det andre. Typiske feilkilder kan da være ulik vanning, forskjellig jordsmonn eller ulike lysforhold. Og sikkert mye mer, det er vanskelig å tenke på alle mulige feilkilder. Av og til oppdager vi at et forsøk er blitt påvirket av en feilkilde vi ikke har tenkt på. Da må vi kompensere for feilen hvis det lar seg gjøre, eller eliminere feilkilden og gjøre forsøket på nytt.

Når en skal prøve ut en ny type medisin, har en gjerne en forsøksgruppe og en kontrollgruppe, der forsøksgruppa får den nye medisinen og kontrollgruppa ikke gjør det. En velkjent og betydelig feilkilde er da placebo-effekten, som består i at folk blir friske bare fordi de tror de får en medisin som virker. For å kompensere for placebo-effekten lar man kontrollgruppa få medisin uten effekt, gjerne kalt "sukkerpiller". Forsøkspersonene vet ikke om de får ekte medisin eller ikke, dette kalles derfor en blindtest. I en dobbel blindtest vet heller ikke den som leder forsøket hvilke piller som er hva. Noen utenforstående har gjort en koding som ikke brytes før etter at forsøket er avsluttet.

Hvis vi har for mange data til at vi kan undersøke alle, må vi gjøre et utvalg. Det gjelder da å få utvalget representativt. Et klassisk eksempel på en feilkonklusjon basert på et skjevt utvalg er presidentvalget i USA i 1936, der en prøvde å forutsi om Langdon eller Roosevelt ville vinne. Et blad kalt Literary Digest spurte 2 000 000 personer og konkluderte med at Langdon ville bli den neste presidenten. Det var feil. Problemet var at Literary Digest baserte seg på telefonlister, og bare velstående personer hadde telefon på den tiden. Naturligvis er det en sammenheng mellom politiske preferanser og levekår, så dette utvalget var ikke representativt. Derimot forutsa George Gallup korrekt at Roosevelt ville vinne, basert på intervjuer med bare 50 000 personer. Gallups navn er da også blitt udødeliggjort ved at ordet gallup er blitt et synonym for rundspørring.

Hvem vi spør er altså viktigere enn hvor mange vi spør. I politiske meningsmålinger i Norge i dag intervjues bare omlag 0,05 % av velgermassen.

En taktikk for å få et representativt utvalg er stratifisering. Vi deler da datamengden inn i kategorier, såkalte strata, og velger separat fra alle kategorier. Skal vi for eksempel undersøke om folk er for eller imot bompenger, kan aktuelle strata være politisk ståsted, inntekt, om de har bil eller ikke, kjønn, alder og bosted. Og sikkert mer. En ulempe med stratifisering er at vi risikerer å utelate viktige kategorier. En fordel er at vi kan få fram interessante meningsforskjeller mellom kategoriene.

Vi kan også lage et helt tilfeldig utvalg, og satse på at tilfeldighetene sørger for at utvalget blir representativt på tvers av kategorier. Det er gjerne enklere, men kan kamuflere effekter som skyldes forskjeller mellom kategorier.

Oppgave 1:

Du ønsker å finne ut hvor populært kino er i forhold til å se film hjemme. Du går i byen en kveld og intervjuer tilfeldige forbipasserende. Ser du noen feilkilder?

Se løsningsforslag

Spørreundersøkelser

En vanlig måte å skaffe informasjon på er å la folk svare på spørreundersøkelser. Å lage gode spørreundersøkelser er krevende, noen gode tips er:

  • Undersøkelsen bør ha en god tittel.
     
  • Undersøkelsen bør være så kort som mulig, så ikke deltakerne slites ut.
     
  • Undersøkelsen bør være enkel å gjennomføre, noe som bør være enkelt i dag, siden undersøkelsen kan gjennomføres på nett. Det finnes mange verktøy til å lage spørreundersøkelser. Noen er gratis, for eksempel er SurveyMonkey, no.surveymonkey.com, populært. Verktøyene har også et varierende utvalg av funksjoner for å bearbeide svarene statistisk.
     
  • Det bør gå fram hvem som står bak undersøkelsen.
     
  • Det bør gå fram hva som er hensikten med undersøkelsen.
     
  • Det bør gå fram hvordan deltakernes konfidensialitet blir ivaretatt.
     
  • Det bør gis instrukser om hvordan spørreskjemaet skal fylles ut.

I en spørreundersøkelse kan vi bruke lukkede og åpne spørsmål.

I lukkede spørsmål har vi faste svaralternativer, gjerne i form av avkrysningsbokser. Fordeler med lukkede spørsmål er at de gir lett målbare data som er egnet for automatisert behandling med programvare, og at de er raske å svare på. Ulemper er at vi kan få ugjennomtenkte svar, der deltakerne bare velger fordi de må velge noe. Vi får heller ikke opplysninger utover det vi spør om. Til lukkede spørsmål brukes såkalte Likert-skalaer mye, der deltakerne angir hvor enige eller uenige de er i en påstand. Typiske valgmuligheter er "svært uenig", "litt uenig", "verken enig eller uenig", "litt enig" og "svært enig".

Åpne spørsmål har ingen svaralternativer, deltakerne må svare ved å formulere en tekst selv. Fordeler med åpne spørsmål er at vi kan få fyldige, fantasirike svar, og få fram uventede opplysninger. Ulemper er at det tar lang tid å fylle ut skjemaet og at det kan være krevende å analysere resultatene etterpå.

En god spørreundersøkelse kan gjerne bestå av både åpne og lukkede spørsmål, der deltakerne kan krysse av for faste alternativer, men også har muligheten til å svare mer utdypende på viktige spørsmål.

Noen råd når det gjelder spørsmålsformulering er:

  • Unngå ledende spørsmål. Si for eksempel ikke "Er du enig i at bensinprisene er for høye?" Det er et ledende spørsmål fordi det antyder at bensinprisene faktisk er for høye. En nøytral formulering er i stedet "Hva synes du om dagens bensinpriser?".
     
  • Unngå upresise formuleringer. En upresis formulering er for eksempel "Ser du mye på TV?" For hva er "mye"? og mener vi til hverdags eller i helga? En mye mer presis formulering er for eksempel "Hvor mange timer ser du i gjennomsnitt på TV på hverdager?" Et slikt spørsmål vil for øvrig være godt egnet for faste svaralternativer.
     
  • Still ett spørsmål av gangen. Si for eksempel ikke "Hva synes du om dagens bensinpriser og bompengesatser?", det er to spørsmål i ett. Del opp i to spørsmål, ett om bensinpriser og ett om bompenger.
     
  • Unngå doble negative. Si for eksempel ikke "Er du enig i at ungdom under 16 ikke bør nektes prevensjon?" Her er "ikke nektes" en dobbel negativ som betyr "tillates". Så si heller "Er du enig i at ungdom under 16 bør tilbys prevensjon?".
     
  • Sørg for entydige svaralternativer. På spørsmål om alder for eksempel, ha ikke 20-25 og 25-29 som alternativer. For her er det overlapp, 25 er med i to kategorier. I kategoriene 20-24 og 25-29 er det derimot ikke overlapp, og de to kategoriene er like store.

Noen råd når det gjelder organisering av spørsmålene er:

  • Ta de viktigste og mest generelle spørsmålene først.
     
  • Ta enkle og ufarlige spørsmål først.
     
  • Ta konkrete spørsmål først.
     
  • Ta spørsmål med svaralternativer først.
     
  • Ta personlige og demografiske spørsmål til slutt.

Når vi vurderer kvaliteten på svarene på en spørreundersøkelse, må vi ta hensyn til bortfall, altså hvem som ikke svarer. Det er ofte ikke tilfeldig hvem som svarer eller ikke. I en spørreundersøkelse om priser for eksempel, kan vi forvente at det er flere som svarer blant de som syns prisene er for høye enn de som er fornøyd med prisnivået. Stort bortfall vil ha stor usikkerhet knyttet til seg. For å redusere bortfall kan det være en strategi å kontakte potensielle deltakere, presentere temaet overordnet, og spørre om de er villige til å svare på noen spørsmål.

Kilder:

  • Wenstøp F. (2004). Statistikk og dataanalyse. Universitetsforlaget.
  • Loughborough University. (Besøkt vår 2012). Questionnaire Design: http://www.lboro.ac.uk/library/skills/Advice/Questionnaire%20design.pdf (Ikke tilgjengelig pr. 2018)