Hypergeometrisk fordeling

Hva er hypergeometrisk fordeling?

I eksempel 1 i kombinatorikk-artikkelen om utvalg fra blandede mengder studerer vi kombinasjonsmuligheter når vi velger fra en mengde som består av 11 gutter og 8 jenter, og ser at antall kombinasjonsmuligheter med 2 gutter og to jenter er gitt ved

${\large \binom{11}{2}\binom{8}{2}}$

Generaliserer vi dette ved å si at mengden består av a gutter og b jenter, og vi skal velge x gutter og y jenter fra mengden, blir antall kombinasjonsmuligheter

${\large \binom{a}{x}\binom{b}{y}}$

Så generaliserer vi enda mer, og sier at mengden består av totalt N elementer, hvorav M er spesielle. Det betyr at NM er ikke-spesielle. Så trekker vi ut totalt n elementer. Er x av disse spesielle, må nx være ikke-spesielle. Og antall kombinasjonsmuligheter vil være gitt ved

${\large \binom{M}{x}\binom{N-M}{n-x}}$

Totalt kan vi velge n blant N elementer, så antall kombinasjonsmuligheter totalt blir

${\large \binom{N}{n}}$

Bruker vi så «gunstige på mulige», får vi et uttrykk for sannsynligheten for at et tilfeldig utvalg på n elementer fra totalt N, der M er spesielle, inneholder x spesielle elementer. Dette er en diskret sannsynlighetsfordeling som vi kaller hypergeometrisk fordeling.

$\fbox{Hypergeometrisk fordeling: $P(X = x) = \frac{\displaystyle \binom{M}{x} \binom{N – M}{n – x}}{\displaystyle \binom{N}{n}}$}$

Et gitt element kan altså være spesielt eller ikke-spesielt. Dette minner litt om den binomiske sannsynlighetsfordelingen, der vi også hadde to muligheter, suksess eller fiasko. Men i motsetning til en binomisk situasjon, er det her avhengighet mellom forsøkene. Sannsynligheten for hva vi trekker vil variere med hva vi har trukket tidligere. Trekker vi få elementer fra en stor mengde, er imidlertid forskjellen på binomisk og hypergeometrisk fordeling liten.

Eksempel 1:

Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.

Mengden vi trekker fra består av N = 52 elementer, av disse er M = 13 spesielle, altså spar. Vi trekker n = 5 ganger og skal finne sannsynligheten for at X = 2. Vi får

$P(X = 2) = \frac{\displaystyle \binom{13}{2} \cdot \binom{52 – 13}{5 – 2}}{\displaystyle \binom{52}{5}} \approx 0{,}2743$.

Det er ca. 27 % sannsynlig å få en hånd med akkurat 2 spar. Vi ser at det som står i telleren, er antall kombinasjoner som gir to spar multiplisert med antall kombinasjoner av tre andre kort. I nevneren står antall kombinasjoner totalt med fem av femtito kort.

Hypergeometrisk fordeling i Excel og GeoGebra

I Excel beregner vi hypergeometriske sannsynligheter med funksjonen hypgeom.fordeling.n. Vi må da oppgi hvor mange spesielle elementer vi ønsker sannsynligheten for, utvalgets størrelse, antall spesielle elementer totalt, antall elementer totalt, true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel =hypgeom.fordeling.n(2; 5; 13; 52; usann) for å gjøre beregningen i eksempel 1.

Tilsvarende funksjon i GeoGebra heter fordelinghypergeometrisk. Her er rekkefølgen på variablene annerledes, vi angir antall elementer totalt, antall spesielle elementer totalt, utvalgets størrelse, hvor mange spesielle elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel fordelinghypergeometrisk(52,13, 5, 2, false) for å gjøre beregningen i eksempel 1.

I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

En hypergeometrisk fordeling har så mange variabler at det er vanskelig å sette opp sannsynlighetene i en praktisk tabell.

Oppgave 1:

I en forening med 65 medlemmer er 13 negative til et forslag. Hvis vi velger 20 representanter tilfeldig blant medlemmene, hva er da sannsynligheten for at

  1. Ingen av representantene er negative.
     
  2. Én av representantene er negativ.
     
  3. To eller flere av representantene er negative.

Gjør beregningene ved hjelp av formelen for hypergeometrisk fordeling, og kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

Eksempel 2:

I eksempel 1 i kombinatorikk-artikkelen om kombinasjoner og sannsynligheter ser vi at sannsynligheten for å få 7 rette i Lotto er om lag 1,859 · 10-7, fordi det bare finnes 1 vinnerrekke av totalt 5 379 616, og ${\large \frac{1}{5 \, 379 \, 616}} \approx 1{,}858 9 \cdot 10^{\text{-}7}$.

Det utbetales imidlertid også gevinst for 6 rette. Og 6 rette er enklere å få fordi det finnes mange flere rekker med 6 rette. Hvert av de 7 vinnertallene kan vi nemlig bytte ut med hvert av de 34 – 7 = 27 tallene som ikke er vinnertall, noe som gir 7 · 27 = 189 muligheter, og en vinnersannsynlighet på

${\large \frac{189}{5 \, 379 \, 616}} \approx 3{,}5133 \cdot 10^{-5}$.

En annen måte å komme fram til denne sannsynligheten på er imidlertid å tenke på lottotrekning som en hypergeometrisk situasjon der vi trekker 7 tall fra en mengde på 34, der 7 er spesielle (vinnertallene), og så beregner hva sannsynligheten for å få 6 av de spesielle er. Vi får

$P(X = 6) = \frac{\displaystyle \binom{7}{6} \cdot \binom{34 – 7}{7 – 6}}{\displaystyle \binom{34}{7}} \approx 3{,}5133 \cdot 10^{-5}$.

Sannsynligheten for å få 6 rette er om lag 0,00351 %.

(I Lotto trekkes også et tilleggstall, og blant de 189 rekkene vil det være 7 som har 6 rette + 1 tilleggstall, noe som gir høyere gevinst. Det tar vi imidlertid ikke hensyn til i denne modellen.)

Oppgave 2:

Det utbetales også gevinst for 5 og 4 rette i Lotto. Bruk formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få henholdsvis 5 og 4 rette.

Se løsningsforslag

Forventning og varians i hypergeometrisk fordeling

I en hypergeometrisk fordeling er forventning og varians gitt ved

$\fbox{$\begin{align} E(X) &= n \cdot \frac{\displaystyle M}{\displaystyle N} \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot n \cdot \frac{\displaystyle M}{\displaystyle N} \cdot \Big(1 – \frac{\displaystyle M}{\displaystyle N} \Big) \end{align}$}$

Brøken $\frac{\displaystyle M}{\displaystyle N}$ representerer egentlig sannsynligheten for å trekke et spesielt element, fordi M er antall spesielle elementer og N er antall elementer totalt. (Gunstige på mulige). Kaller vi denne sannsynligheten p, altså $p = \frac{\displaystyle M}{\displaystyle N}$, får vi

$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot np (1 – p) \end{align}$}$

I en biomisk fordeling har vi E(X) = np og Var(X) = np(1 − p).

Vi ser at forventningene er de samme i hypergeometrisk og binomisk fordeling, og det eneste som skiller variansene er faktoren $\frac{\displaystyle N – n}{\displaystyle N – 1}$. Trekker vi imidlertid bare noen få elementer fra en stor mengde, slik at N er mye større enn n, blir denne faktoren nokså nærme 1 og kan ignoreres.

Oppgave 3:

La X være antall negativt innstilte representanter i utvalget fra oppgave 1. Finn E(X) og Var(X).

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
    • Wikipedia: Lotto

Binomisk fordeling

Hva er binomisk fordeling?

Myntkast er et eksempel på en diskret sannsynlighetsfordeling som kalles binomisk fordeling. Et forsøk der utfallene følger en binomisk fordeling, har følgende tre karakteristikker:

  1. Forsøket har to mulige enkeltutfall. Det er vanlig å kalle disse for suksess eller fiasko. I et myntkast kan vi for eksempel la kron representerer suksess og mynt fiasko.
     
  2. Sannsynligheten for suksess, p, skal være den samme fra forsøk til forsøk. Det betyr imidlertid ikke at vi alltid må ha p = 0,5, p kan ha alle mulige verdier mellom 0 og 1. I kast med en rettferdig mynt er imidlertid p = 0,5.
     
  3. Forsøkene skal være uavhengige. Dette er tilfellet ved myntkast, én mynt påvirker ikke en annen.

Andre eksempler på binomiske forsøk kan være om en vare er defekt eller i orden, eller om deltakerne i en spørreundersøkelse har svart «ja» eller «nei» på et spørsmål.

Ved kast med en rettferdig mynt er altså sannsynligheten for suksess p = 0,5, noe som resulterer i en symmetrisk sannsynlighetsfordeling, slik som vist under.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter

Men bruker vi en juksemynt som 3 av 4 ganger gir kron, vil vi fremdeles ha et binomisk forsøk, men nå med p = 0,75 og en punktsannsynlighet som vist under. Vi ser at fordelingen er skjev, med tyngdepunkt til høyre. Naturligvis er det mer sannsynlig å få mange kron enn å få mange mynt når sannsynligheten for kron er 0,75 og sannsynligheten for mynt følgelig er 0,25.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter, med en juksemynt med p = 0,75

Sannsynligheter i binomisk fordeling

Hvis x er antall suksesser i et binomisk forsøk, p sannsynligheten for suksess, og n antall forsøk, er P(X) gitt ved

$\fbox{Binomisk fordeling: $P(X = x) = {\large \binom{n}{x}} p^x (1 – p)^{(n – x)}$}$

Eksempel 1:

Vi skal bruke formelen for binomisk fordeling til å beregne tre sannsynligheter ved kast med 5 rettferdige mynter. Her har vi at n = 5 og p = 0,5.

  1. Sannsynligheten for 3 kron.
     
    Vi får
     $P(X = 3) = {\large \binom{5}{3}} (0{,}5)^3 (1 – 0,5)^{(5 – 3)} = 0{,}3125$.
     
  2. Sannsynligheten for 1 kron eller mindre.
     
    Vi må addere sannsynlighetene for å få 0 eller 1 kron, og får
    $P(X \le 1) = P(X = 1) + P(X = 0) =$
    ${\large \binom{5}{1}} (0,5)^1 (1 – 0{,}5)^{(5 – 1)} + {\large \binom{5}{0}} (0{,}5)^0 (1 – 0{,}5)^{(5 – 0)} \approx 0{,}0313 + 0{,}1563 = 0{,}1875$.
     
  3. Sannsynligheten for 4 kron eller mindre.
     
    Vi kan addere sannsynlighetene for 4, 3, 2, 1 og 0 kron, men det er enklere å basere seg på sannsynligheten for den komplementære hendelsen, 5 kron. Vi får
    $P(X \le 4) = 1 – P(X = 5) =$
    $1 – {\large \binom{5}{5}} (0,5)^5 (1 – 0,5)^{(5 – 5)} \approx 1 – 0{,}0313 = 0{,}9687$.

SkjermfilmSe filmen «Binomisk fordeling»
 

For å angi at en tilfeldig variabel, X, er binomisk fordelt i n forsøk med suksess-sannsynlighet p, skriver vi

$\fbox{$X \sim Bin(n, p)$}$

Binomisk fordeling i Excel og GeoGebra

I Excel beregner vi binomiske sannsynligheter med funksjonen binom.fordeling.n. Vi må da oppgi antall suksesser, antall forsøk, forsøkenes sannsynlighet, og om vi skal beregne kumulativ sannsynlighet eller punktsannsynlighet. sann betyr kumulativ sannsynlighet, usann betyr ikke-kumulativ, altså punktsannsynlighet.

RegnearkLast ned regneark med beregningene fra eksempel 1

Tilsvarende funksjon i GeoGebra heter fordelingbinomial. Her er rekkefølgen på parameterne annerledes, vi angir antall forsøk, forsøkenes sannsynlighet, antall suksesser, true for kumulativ sannsynlighet og false for punktsannsynlighet.

For eksempel skriver vi =binom.fordeling.n(3; 5; 0,5; usann) i Excel og fordelingbinomial(5, 0.5, 3, false) i GeoGebra for å beregne sannsynligheten i eksempel 1.1 og =binom.fordeling.n(1; 5; 0,5; sann) i Excel og fordelingbinomial(5, 0.5, 1, true) i GeoGebra for å beregne sannsynligheten i eksempel 1.2.

I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

Oppgave 1:

La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Beregn ved hjelp av formelen for binomisk fordeling:

  1. P(X = 4)
     
  2. P(X ≤ 2)
     
  3. P(X ≤ 6)

Kontroller svarene i Excel eller GeoGebra.

Uten å regne ut, anslå om P(X = 7) er større, lik, eller lavere enn P(X = 1).

Se løsningsforslag

Eksempel 2:

I oppgave 1 i artikkelen om å kombinere regler bruker vi produkt-, komplement- og addisjonsregler for å beregne sannsynlighetene for hvordan tre tegnestifter vi kaster, blir liggende, når sannsynligheten for å havne med spissen opp er ${\large \frac{2}{3}}$. Vi kan gjøre de samme beregningene ved å betrakte tegnestiftkast som en binomisk situasjon. Kaller vi «spissen opp» for suksess, får vi følgende sannsynligheter:

      1. Alle havner med spissen opp. Det betyr 3 suksesser, og vi får
        $P(X = 3) = {\large \binom{3}{3}} (\frac{2}{3})^3 (1 – \frac{2}{3})^{(3 – 3)} \approx 0{,}2963$
         
      2. Alle havner med spissen ned. Det betyr 0 suksesser, og vi får
        $P(X = 0) = {\large \binom{3}{0}} (\frac{2}{3})^0 (1 – \frac{2}{3})^{(3 – 0)} \approx 0{,}0370$
         
      3. 2 havner med spissen opp og 1 med spissen ned. Det betyr 2 suksesser, og vi får
        $P(X = 2) = {\large \binom{3}{2}} (\frac{2}{3})^2 (1 – \frac{2}{3})^{(3 – 2)} \approx 0{,}4444$
         
      4. 1 havner med spissen opp og 2 med spissen ned. Det betyr 1 suksess, og vi får
        $P(X = 1) = {\large \binom{3}{1}} (\frac{2}{3})^1 (1 – \frac{2}{3})^{(3 – 1)} \approx 0{,}2222$

Dette er de samme tallene vi fant med produkt-, komplement- og addisjonsreglene. Metoden med binomisk sannsynlighet er imidlertid mye lettere å utvide hvis kaster flere tegnestifter.

Eksempel 3:

Norsk Tipping har en artikkel om at noen tall i spillet Extra trekkes oftere enn andre. De mest ekstreme tilfellene er et tall som er trukket så lite som 26 ganger, og et tall som er trukket så mye som 43 ganger i løpet av et år. Her skal vi regne ut hvor sannsynlige disse hendelsene er.

I Extra trekkes 47 av 75 mulige tall, noe som gir en sannsynlighet på om lag 0,63 for at et gitt tall skal bli trukket. Siden Extra trekkes ukentlig, kan vi regne med at det er 52 trekninger i et år.

I en gitt trekning har et tall to muligheter, det blir enten trukket, eller det blir ikke trukket. Sannsynligheten for å bli trukket er den samme i alle trekninger, og trekningene er uavhengige. Så antall ganger et tall blir trukket i løpet av et år, oppfyller kravene til en binomisk fordeling.

Regner vi hendelsen å bli trukket som suksess, har vi altså p ≈ 0,63. Og siden vi har 52 trekninger i et år, har vi n = 52.

Sannsynligheten for å bli trukket 26 ganger blir

$P(X = 26) \approx {\large \binom{52}{26}} 0{,}63^{26} (1 – 0{,}63)^{(52 – 26)} \approx 0,0178$. Ca. 1,78 %.

Sannsynligheten for å bli trukket 43 ganger blir

$P(X = 43) \approx {\large \binom{52}{43}} 0{,}63^{43} (1 – 0{,}63)^{(52 – 43)} \approx 0,0011$. Ca. 0,11 %.

Men mer interessant enn å spørre om sannsynligheten for å bli trukket akkurat 26 ganger og akkurat 43 ganger, er det å spørre om sannsynligheten for å bli trukket 26 ganger eller sjeldnere, og 43 ganger eller mer, altså P(X ≤ 26) og P(X ≥ 43).

I Excel og GeoGebra beregner vi P(X ≤ 26) ved å skrive henholdsvis
= binom.fordeling.n(26; 52; 0,63; sann) og fordelingbinomial(52, 0.63, 26, true)
og får om lag 0,0377, ca. 3,77 %.

For å beregne P(X ≥ 43), beregner vi 1 – P(X ≤ 42), og skriver henholdsvis
= 1 – binom.fordeling.n(42; 52; 0,63; sann) og 1 – fordelingbinomial(52, 0.63, 42, true)
og får om lag 0,0017, ca. 0,17 %.

Binomisk fordelingstabell

I tidligere tider var tabeller et viktig hjelpemiddel til å finne binomiske sannsynligheter, men i datamaskinenes tidsalder har de mindre nytte. Et utdrag av en kumulativ, binomisk tabell er vist under. Her er p sannsynligheten for suksess, n antall forsøk, og x antall suksesser.

Kumulativ tabell over binomisk fordeling

Vil vi for eksempel finne sannsynligheten for å få «2 eller færre kron» i et kast med 3 mynter, velger vi p = 0,5, n = 3, x = 2, og leser av 0,8750. Vil vi finne sannsynligheten for «nøyaktig 2 kron», må vi ta sannsynligheten for «2 eller færre kron» og trekke fra sannsynligheten for 1 eller færre kron, 0,8750 – 0,5000 = 0,3750.

Dette nettstedet har også en komplett, binomisk fordelingtabell.

Forventning og varians i binomisk fordeling

I artikkelen om forventning og varians lærer vi at forventningen til et stokastisk forsøk angir forventet middelverdi for utfallene, mens variansen angir forventet spredning av utfallene. Hvis X ~ Bin(n, p), har vi at

$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= np(1 – p) \end{align}$}$

At forventningen øker proporsjonalt med antall forsøk er intuitivt rimelig. Jo flere forsøk vi gjør, jo flere suksesser kan vi forvente til sammen. At forventningen øker proporsjonalt med sannsynligheten for suksess er også rimelig. Jo større sannsynlighet for suksess, jo flere suksesser kan vi forvente.

Når det gjelder variansen, er det også intuitivt rimelig at den øker med antall forsøk. Jo flere forsøk, jo flere resultater spredt utover. Når det gjelder sannsynligheten, vil p(1 – p) ha sin høyeste verdi når p = 0,5. Vi får altså størst varians når sannsynligheten for suksess og fiasko er den samme. Dette er også intuitivt rimelig, for jo større sannsynligheten for suksess eller fiasko er, jo mer vil resultatene klumpe seg rundt dette resultatet. Drar vi det helt ut i det ekstreme og setter p = 1 eller p = 0, vil vi bare få suksesser eller bare fiaskoer, og variansen blir 0.

Eksempel 4:

Figuren under viser tre binomiske fordelinger med 100 forsøk og sannsynligheter på henholdsvis 0,1, 0,5 og 0,9.

Kurver som vise binomialfordelinger med 100 forsøk og sannsynligheter på 0,1, 0,5 og 0,9

For den blå fordelingen, som viser X ~ Bin(100, 0,1), får vi E(X) = 100 · 0,1 = 10 og Var(X) = 100 · 0,1 · (1 – 0,1) = 9.

For den røde fordelingen, som viser X ~ Bin(100, 0,5), får vi E(X) = 100 · 0,5 = 50 og Var(X) = 100 · 0,5 · (1 – 0,5) = 25.

For den grønne fordelingen, som viser X ~ Bin(100, 0,9), får vi E(X) = 100 · 0,9 = 90 og Var(X) = 100 · 0,9 · (1 – 0,9) = 9.

Vi ser at forventningen i alle tre tilfeller havner der fordelingene har toppen. Og vi ser at variansen er større når sannsynligheten er 0,5 enn når den er 0,1 og 0,9. Dette stemmer med figuren, for vi ser at den røde fordelingen er bredere enn de to andre.

Oppgave 2:

Finn E(X) og Var(X) når

  1. X er antall kron i 10 kast med en rettferdig mynt.
     
  2. X er antall seksere i 5 kast med en rettferdig terning.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Diskrete sannsynlighetsfordelinger

I artikkelen om begreper i sannsynlighet ser vi at når vi kaster en rettferdig terning, er det like stor sannsynlighet for å få 1, 2, 3, 4, 5 og 6. Vi har en uniform sannsynlighetsfordeling. I temaet om kombinatorikk lærer vi strukturerte metoder for å beregne antall utfall i uniforme modeller, noe som er nyttig å kunne når det er så mange utfall at vi ikke klarer å telle dem opp. For eksempel å beregne antall mulige bridgehender.

I artikkelen om begreper i sannsynlighet ser vi også på kast med tre mynter, og teller opp kombinasjonene som gir henholdsvis 0, 1, 2 og 3 kron. Det er bare åtte mulige utfall, så det er rimelig enkelt. Øker vi antall mynter, vil vi imidlertid også her se at det fort blir uoverkommelig komplisert å gjøre beregninger ved å telle enkeltutfall. Antall kron i et myntkast er imidlertid ikke uniformt fordelt, så vi kan ikke bruke noen av kombinatorikk-metodene vi har lært. Imidlertid følger sannsynligheten for X kron et mønster som muliggjør beregning av kombinasjonsmuligheter.

Slike mønstre kaller vi sannsynlighetsfordelinger. Dersom utfallene har atskilte verdier, for eksempel tallene 1, 2, 3, 4, eller kron og mynt, har vi en diskret sannsynlighetsfordeling.

Søylediagrammet under viser sannsynlighetene for 0, 1, 2, 3, 4 og 5 kron i et kast med 5 mynter.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter

Vi ser at det er mest sannsynlig å få 2 og 3 kron, og minst sannsynlig å få 0 og 5 kron. Dette skyldes at det er mange flere enkeltutfall som kan kombineres til 2 og 3 enn til 0 og 5. Summen av høydene på søylene er 1, fordi de til sammen dekker utfallsrommet i et stokastisk forsøk, der total sannsynlighet alltid er 1.

Vi kan si at diagrammet viser P(X = x) der X representerer hendelsen «Antall kron i et kast med 5 mynter», og x betegner 0, 1, 2, 3, 4 eller 5. For eksempel betyr P(X = 3) = 0,3125 at sannsynligheten for 3 kron er 0,3125.

Diagrammet viser punktfordelingen for X, det vi si at høyden på hver søyle viser sannsynligheten for akkurat den verdien den står over. Ofte er vi imidlertid interessert i den kumulative fordelingen, der vi i stedet for P(X = x) ser på P(Xx), det vil si sannsynligheten for at X er mindre eller lik enn en gitt verdi.

Den kumulative sannsynlighetsfordelingen for «Antall kron i et kast med 5 mynter» er vist under.

Stolpediagram som viser den kumulative sannsynligheten for antall kron i et myntkast med 5 mynter

«Kumulativ» betyr at noe hoper seg opp, sannsynlighetene hoper seg opp mot høyre. I søylen over X = 2, for eksempel, inngår P(X = 0), P(X = 1) og P(X = 2). Vi ser at det er riktig hvis vi sammenlikner de to diagrammene. I det øverste diagrammet ser vi at P(X = 0) ≈ 0,03, P(X = 1) ≈ 0,16 og P(X = 2) ≈ 0,31, til sammen om lag 0,5, som er høyden på søylen over 2 i det nederste diagrammet.

Den totale søylehøyden i et kumulativt diagram er ikke 1, i stedet er søylen lengst til høyre 1, fordi den inkluderer hele utfallsrommet.

Siden summen av alle sannsynlighetene i utfallsrommet bestandig er 1, vil det følgende vil alltid gjelde:

$\fbox{$P(X > x) = 1 – P(X \le x)$}$

Derfor kan vi i en kumulativ sannsynlighetsfordeling også lett finne sannsynligheter for verdier høyere enn en gitt verdi.

Eksempel 1:

Tabellen under viser verdier for P(X = x) og P(Xx), der X er «Antall kron i et kast med 5 mynter».

x 0 1 2 3 4 5
P(X = x) 0,03125 0,15625 0,31250 0,31250 0,15625 0,03125
P(Xx) 0,03125 0,18750 0,50000 0,81250 0,96875 1,00000

Så skal vi bruke tabellen til å finne P(X = 3), P(X ≤ 3) og P(X > 3).

Av tabellen ser vi at

P(X = 3) = 0,31250.

P(X ≤ 3) = 0,81250.

P(X > 3) = 1 – P(X ≤ 3) = 1- 0,81250 = 0,18750.

Vi kunne også enkelt ha funnet P(X > 3) som P(X = 4) + P(X = 5) = 0,15625 + 0,03125 = 0,18750.

Dette nettstedet har egne artikler om de diskrete sannsynlighetsfordelingene binomisk fordeling, hypergeometrisk fordeling og poissonfordeling.

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Forventning og varians

Forventning

I artikkelen om måltall i statistikk blir vi kjent med begrepene gjennomsnitt og standardavvik, og lærer å beregne dette for et datasett, både for hånd og ved hjelp av Excel og GeoGebra.

Eksempel 1 simulerer terningkast med Excel og beregner gjennomsnittet av antall øyne på en terning.

Eksempel 1:

Vi simulerer 10 000 terningkast i Excel, og beregner gjennomsnitt, X, og utvalgsstandardavvik, S, for antall øyne i simuleringen. Denne simuleringen gjentar vi 10 ganger, og setter resultatene opp i en tabell:

Simulering 1 2 3 4 5 6 7 8 9 10
X 3,520 3,522 3,512 3,500 3,503 3,481 3,501 3,464 3,519 3,500
 S  1,707 1,705 1,709 1,710 1,714 1,710 1,699 1,718 1,702 1,711

I eksempel 1 ser vi at gjennomsnittet i alle simuleringene ser ut til å havne i nærheten av 3,5. Tar vi gjennomsnittet av de 10 gjennomsnittene, får vi X = 3,502. Dette er intuitivt rimelig, for gjennomsnittet av antall øyne vi kan få i kast med en terning er 3,5, og er terningen rettferdig, vil vi forvente at vi, når vi gjør mange nok kast, havner veldig nærme dette gjennomsnittet.

Vi sier at forventningen (forventningsverdien) til dette forsøket er 3,5, noe vi skriver som E(X) = 3,5, der X er en tilfeldig variabel. En tilfeldig (stokastisk) variabel representerer utfallet av en tilfeldig hendelse, der et gitt sett verdier opptrer med gitte sannsynligheter.

Når vi skriver E(X) = 3,5, betyr det at hvis vi genererer X mange ganger, forventer vi at verdiene vil være sentrert rundt 3,5.

Forventningen, E(X), betegnes også gjerne med den greske bokstaven μ.

Vi beregner forventningen til en tilfeldig variabel ved å multiplisere hver mulig verdi av variabelen med sannsynligheten for at denne verdien opptrer, og så summere de resulterende produktene. Hvis X er en tilfeldig variabel med mulige verdier x1, x2, … , xn og tilhørende sannsynligheter p1, p2, … , pn, er forventningen, μ = E(X), gitt ved

$\fbox{Forventning: $ \mu = E(X) = x_1 \cdot p_1 + x_2 \cdot p_2 + \dots + x_n \cdot p_n$}$

Eksempel 2:

Vi skal finne forventningen til antall øyne i et terningkast. Vi kaller «antall øyne» for X, og vet at mulige verdier for X da er 1, 2, 3, 4, 5 og 6. Sannsynligheten for hver av disse verdiene er ${\large \frac{1}{6}}$. Så forventningen blir:

$\mu = E(X) = 1 \cdot {\large \frac{1}{6}} + 2 \cdot {\large \frac{1}{6}} + 3 \cdot {\large \frac{1}{6}} + 4 \cdot {\large \frac{1}{6}} + 5 \cdot {\large \frac{1}{6}} + 6 \cdot {\large \frac{1}{6}} = {\large \frac{21}{6}} = 3{,}5$.

Eksempel 3:

Ved et kast med to terninger kan summen av antall øyne variere fra 2 til 12. Kaller vi summen av antall øyne for X, har vi altså følgende mulige verdier for X: x1 = 2, x2 = 3, … , x11 = 12.

I artikkelen om begreper i sannsynlighet finner vi sannsynlighetene for disse verdiene:

$P(X = 2) = P(X = 12) = {\large \frac{1}{36}}$

$P(X = 3) = P(X = 11) = {\large \frac{2}{36}}$

$P(X = 4) = P(X = 10) = {\large \frac{3}{36}}$

$P(X = 5) = P(X = 9) = {\large \frac{4}{36}}$

$P(X = 6) = P(X = 8) = {\large \frac{5}{36}}$

$P(X = 7) = {\large \frac{6}{36}}$

Forventningen blir da:

$\mu = E(X) = 2 \cdot {\large \frac{1}{36}} + 3 \cdot {\large \frac{1}{18}} + 4 \cdot {\large \frac{1}{12}} + 5 \cdot {\large \frac{1}{9}} + 6 \cdot {\large \frac{5}{36}} + 7 \cdot {\large \frac{1}{6}}$

$+ 8 \cdot {\large \frac{5}{36}} + 9 \cdot {\large \frac{1}{9}} + 10 \cdot {\large \frac{1}{12}} + 11 \cdot {\large \frac{1}{18}} + 12 \cdot {\large \frac{1}{36}} =$

${\large \frac{ 2 \cdot 1 + 3 \cdot 2 + 4 \cdot 3 + 5 \cdot 4 + 6 \cdot 5 + 7 \cdot 6 + 8 \cdot 5 + 9 \cdot 4 + 10 \cdot 3 + 11 \cdot 2 + 12 \cdot 1}{36}} =$

${\large \frac{252}{36}} = 7$

Ved kast med to terninger er forventningen til summen av antall øyne lik 7.

Oppgave 1:

Blant kundene som kommer inn i en klesbutikk, kjøper gjennomsnittlig 30 % ingenting, 20 % kjøper ett plagg, 40 % kjøper to plagg og 10 % kjøper 3 plagg. Beregn forventningen til hvor mange plagg en vilkårlig kunde kjøper.

Se løsningsforslag

Oppgave 2:

I episode 23 av TV-serien Farmen i 2020 går noen av deltakerne på markedet. Der får de tilbud om å spille på et lykkehjul. Hjulet har 16 sektorer:
1 sektor med stjerne, som gir 8 kroner i gevinst.
6 grønne sektorer som gir 4 kroner i gevinst.
5 røde sektorer som gir 2 kroner i gevinst.
4 gule sektorer som ikke gir gevinst.

Lykkehjulet er håndmalt, så sektorene varierer litt i størrelse. Men vi forenkler, og regner med at alle sektorene er like store. Farmen-deltakerne har lite penger. Når innsatsen er 2 kroner, bør de da satse på lykkehjulet?

Se løsningsforslag

Forventning til kombinasjoner

Hvis X og Y er to tilfeldige variabler, og k en konstant, gjelder følgende:

$\fbox{$\begin{align}&E(X + Y) = E(X) + E(Y) \\
&E(k) = k \\
&E(k + X) = k + E(X) \\
&E(k \cdot X) = k \cdot E(X) \end{align}$ }$

Altså:

    • Forventningen til en sum av to variabler er lik summen av forventningene.
       
    • Forventningen til en konstant er lik konstanten selv.
       
    • Forventningen til en konstant addert til en variabel er lik konstanten addert til forventningen til variabelen.
       
    • Forventningen til en konstant multiplisert med en variabel er lik konstanten multiplisert med forventningen til variabelen.

Eksempel 4:

I eksempel 3 fant vi at μ = E(X) = 7 når X er summen av antall øyne i et kast med to terninger. Men utregningen var omstendelig og forutsatte at vi kjente sannsynlighetene for alle 11 mulige verdier av X.

Siden vi vet at E(Y) = 3,5 når Y er antall øyne i kast med én terning, kan vi ved hjelp av regelen for forventningen til en sum av to variabler i stedet regne det ut som μE(X) = E(Y + Y) = E(Y) + E(Y) = 3,5 + 3,5 = 7.

Hvis vi skal beregne forventningen til en funksjon av en tilfeldig variabel, har vi at

$\fbox{$E \big(f(X)\big) = f(x_1) \cdot p_1 + f(x_2) \cdot p_2 + \dots + f(x_n) \cdot p_n$}$

Vi beregner altså forventningen til en funksjon av X ved å, én for én, sette de mulige verdiene til X inn i funksjonsuttrykket, multiplisere med den tilhørende sannsynligheten, og summere resultatet.

Varians

I artikkelen om måltall i statistikk lærer vi å beregne standardavviket til et datasett, noe som er et mål på spredningen fra gjennomsnittet. Vi beregner da først datasettets varians, og tar så kvadratrota av variansen. Vi skiller på utvalgsstandardavvik, som vi betegner med S, og populasjonsstandardavvik, som vi betegner med σ.

Nå skal vi se at vi også kan beregne varians og standardavvik til en tilfeldig variabel, X. På samme måte som variansen til et datasett uttrykker graden av spredning i dataene, er variansen til en tilfeldig variabel er et mål på hvor langt fra forventningen de enkelte verdiene kan ventes å komme.

Hvis variabelens forventning er μ, er variansen definert som

$\fbox{Varians: $Var(X) = E\big((X – \mu)^2\big)$}$

Variansen er altså forventningen til kvadratet av avstanden mellom en verdi, X, og forventningen, μ

Kvadreringen gjør at vi ikke får negative verdier, så variansen er et tall som er større eller lik 0. Hvis variansen er 0, forventes alle verdiene å havne nøyaktig på forventningen.

Eksempel 5:

I eksempel 2 fant vi at forventningen til antall øyne i kast med en terning er μ = 3,5. Nå skal vi finne variansen.

Variansen er gitt ved $Var(X) = E\big((X – 3,5)^2\big)$. For å beregne $E\big((X – 3,5)^2\big)$, må vi bruke formelen for å beregne $E\big(f(X)\big)$. Mulige verdier for $X$ er antall øyne, altså 1, 2, 3, 4, 5 og 6, som alle har sannsynlighet ${\large \frac{1}{6}}$. Siden alle sannsynlighetene er like, forenkler vi utregningen ved å sette ${\large \frac{1}{6}}$ utenfor parenes, og får

$Var(x) = \big((1 – 3{,}5)^2 + (2 – 3{,}5)^2 + (3 – 3{,}5)^2 + (4 – 3{,}5)^2 + (5 – 3{,}5)^2 + (6 – 3{,}5)^2\big) \cdot {\large \frac{1}{6}} =$

$(6{,}25 + 2{,}25 + 0{,}25 + 0{,}25 + 2{,}25 + 6{,}25) \cdot {\large \frac{1}{6}} \approx 2{,}917$.

Standardavviket er kvadratrota av variansen, og betegnes med σ:

$\fbox{Standardavvik: $\sigma = \sqrt{Var(X)}$}$

Vi kan altså beregne σ ikke bare for en populasjon, som i artikkelen om måltall i statistikk, men også for en teoretisk sannsynlighetsfordeling, slik som summen av antall øyne på to terninger. σ kalles derfor ofte det teoretiske standardavviket.

Det teoretiske standardavviket for terningkast i eksempel 5 blir om lag $\sigma \approx \sqrt{2{,}917} \approx 1{,}708$. I eksempel 1 beregnet vi utvalgsstandardavvik i 10 forsøk med 10 000 terningkast, gjennomsnittet av disse blir 1,7085. Så vi ser at utvalgsstandardavviket basert på mange forsøk havner veldig nærme det teoretiske standardavviket.

Formelen for å beregne varians kan være tungvint å bruke. Ved hjelp av litt algebra og regnereglene for forventning kan den omformes til:

$\fbox{Varians: $Var(X) = E(X^2) – \mu^2 $}$

Vi kan altså finne variansen ved å ta forventningen til kvadratet av variabelen og trekke fra kvadratet av forventningen. På denne formen er det vanskelig å se hva variansen egentlig representerer, men den er mer praktisk i bruk.

Eksempel 6:

Vi gjør beregningen i eksempel 5 om igjen med den nye formelen for å finne varians:

$Var(X) = (1^2 + 2^2 + 3^2 + 4^2 + 5^2 + 6^2) \cdot {\large \frac{1}{6}} – 3{,}5^2 = 91 \cdot {\large \frac{1}{6}} – 12{,}25 \approx 2{,}917$.

Som er det samme vi fikk i eksempel 5.

Eksempel 7:

Vi flytter to av øynene på en terning fra treeren til fireren, slik at den får to sider med 1 og 6, og ingen med 3 og 4. Vi har da sannsynlighetsfordelingen

$P(1) = P(6) = {\large \frac{2}{6}}$

$P(2) = P(5) = {\large \frac{1}{6}}$

$P(3) = P(4) = 0$

Så skal vi beregne forventning og varians til antall øyne når vi kaster terningen:

$\mu = E(X) = 1 \cdot {\large \frac{2}{6}} + 2 \cdot {\large \frac{1}{6}} + 3 \cdot 0 + 4 \cdot 0 + 5 \cdot {\large \frac{1}{6}} + 6 \cdot {\large \frac{2}{6}} = {\large \frac{21}{6}} = 3{,}5$.

$E(X^2) = 1^2 \cdot {\large \frac{2}{6}} + 2^2 \cdot {\large \frac{1}{6}} + 3^2 \cdot 0 + 4^2 \cdot 0 + 5^2 \cdot {\large \frac{1}{6}} + 6^2 \cdot {\large \frac{2}{6}} – 3{,}5^2 = {\large \frac{103}{6}}$.

$Var(X)= E(X^2) – \mu^2 = {\large \frac{103}{6}} – 3,5^2 \approx 4{,}917$.

I forhold til en vanlig terning ser vi at forventningen er den samme, nemlig 3,5. Det er naturlig, for vi har jo ikke endret antall øyne totalt. Variansen har derimot økt fra om lag 2,197 til 4,917. Dette skyldes at vi har flyttet sannsynlighetene for 3 og 4 til 1 og 6, slik at spredningen er blitt større.

Oppgave 3:

Kundene som kommer inn i en butikk kjøper X enheter av en vare. 20 % av kundene kjøper ingenting, 20 % av kundene kjøper én vare, og 60 % av kundene kjøper to varer. Finn forventning, varians og standardavvik til X.

Se løsningsforslag

Varians til kombinasjoner

Hvis X er en tilfeldig variabel, og k en konstant, gjelder følgende:

$\fbox{$\begin{align} &Var(k) = 0 \\
&Var(k + X) = Var(X) \\
&Var(k \cdot X) = k^2 \cdot Var(X) \end{align}$ }$

Altså:

    • Variansen til en konstant er lik 0, naturlig nok, en konstant varierer jo ikke.
       
    • Variansen til en konstant addert til en variabel er lik variansen til variabelen. Det er rimelig, for å addere en konstant gir ikke økt spredning, alle verdier forskyves bare.
       
    • Variansen til en konstant multiplisert med en variabel er lik kvadratet av konstanten multiplisert med variansen til variabelen. At konstanten kvadreres, skyldes at varians er et mål for kvadratet av spredning.

Eksempel 8:

Vi har en terning der antall øyne går fra 2 til 7 i stedet for fra 1 til 6. Terningen er ellers normal, med lik sannsynlighet for å få 2, 3, 4, 5, 6 og 7.

Forventningen til antall øyne blir

$\mu = E(X) = (2 + 3 + 4 + 5 + 6 + 7)\cdot {\large \frac{1}{6}} = {\large \frac{27}{6}} = 4{,}5$.

Og vi får

$E(X^2) = (2^2 + 3^2 + 4^2 + 5^2 + 6^2 + 7^2)\cdot {\large \frac{1}{6}} = {\large \frac{139}{6}}$.

$Var(X) = E(X^2) – \mu^2 = {\large \frac{139}{6}} – 4{,}5^2 \approx 2{,}917$

Sammenliknet med en vanlig terning har forventningen økt med 1, mens variansen er den samme. Det som skiller de to terningene fra hverandre, er at alle øyne har fått lagt til en konstant på k = 1, så dette er i tråd med reglene om å addere en konstant til en tilfeldig variabel:

E(k + X) = k + E(X).

og

Var(k + X) = Var(X).

Oppgave 4:

Vi har en terning der antall øyne er multiplisert med 2. Terningen er ellers normal, med lik sannsynlighet for å få 2, 4, 6, 8, 10 og 12.

Bruk samme metode som i eksempel 8 til å beregne μ = E(X) og Var(X) for denne terningen. Avgjør om resultatet er i tråd med reglene for forventning og varians til en variabel multiplisert med en konstant.

Se løsningsforslag

De tre reglene om varians og konstanter kan sammenfattes i én regel, der X er en tilfeldig variabel, og a og b konstanter:

$\fbox{$Var(a + b \cdot X) = b^2 \cdot Var(X)$ }$

Dersom X og Y er to tilfeldige variabler som er uavhengige, har vi også at

$\fbox{$Var(X + Y) = Var(X) + Var(Y)$}$

Dersom X og Y ikke er uavhengige, har vi at

$\fbox{$Var(X + Y) = Var(X) + Var(Y) + 2 \cdot Cov(X, Y)$}$

Cov betyr kovarians, og er et uttrykk for hvor sterkt X og Y samvarierer. Dersom X og Y er uavhengige, slik at det ikke er samvariasjon, blir Cov(X, Y) = 0, og vi står igjen med den forenklede varianten for uavhengige variabler. Begrepet kovarians blir presentert i artikkelen om å sammenlikne datasett.

Kilder

    • Hagen, P.C. (2000), Innføring i statistikk og sannsynlighetsregning. Cappelen Akademisk
    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk

Måltall i statistikk

I denne artikkelen presenterer vi en del sentral- og spredningsmål i statistikk. Alle disse måltallene kan beregnes i Excel, slik det er vist i regnearket under:

RegnearkLast ned regneark med eksempler på måltall
 

Sentralmål

Det kan ofte være interessant å vite hvilke verdier et datasett er sentrert rundt. Hvis vi for eksempel måler høyden på nye sjetteklassinger gjennom en periode på tjue år, vil vi få enorme mengder med data som er vanskelig å få oversikt over på ubehandlet form. Men sammenlikner vi et sentralmål for hvert år, vil vi kjapt kunne se hvordan høyden på sjetteklassinger generelt har endret seg gjennom årene.

Vanlige sentralmål er gjennomsnitt, median og typetall.

Gjennomsnitt

Gjennomsnitt, også kalt middelverdi, angir et datasetts nøyaktige midtpunkt. Hvis vi tenker oss verdiene i et datasett fordelt utover ei vektstang, vil gjennomsnittet være vektstangas balansepunkt. Gjennomsnittet trenger ikke ligge på, eller en gang i nærheten av, noen av verdiene i settet, for eksempel er gjennomsnittet av 1 og 99 lik 50.

Gjennomsnitt beregnes ved å summere alle verdiene i et datasett og dividere på antall elementer. Det er vanlig å betegne gjennomsnitt med en X med strek over: X. I noen kilder benyttes liten bokstav, x.

​I matematisk terminologi, hvis vi har et datasett med n elementer, og kaller hver verdi Xi, der i ∈ {1, 2, 3, …, n}, uttrykker vi gjennomsnittet, X, slik:

$\fbox{Gjennomsnitt: $\overline X = \frac{\displaystyle \sum_{i = 1}^n X_i}{\displaystyle n^\phantom 1}$}$

Vi summerer altså alle elementene og dividerer med antall elementer.

Gjennomsnittet har samme enhet som enkeltelementene. Hvis vi for eksempel beregner gjennomsnittet av høyder i centimeter, er gjennomsnittshøyden også i centimeter.

Eksempel 1:

Vi skal beregne gjennomsnittet av elevhøydene fra eksempel 1 i artikkelen om grafiske presentasjoner. Vi summerer først alle høydene: 140 + 141 + 137 + 143 + 145 + 142 + 139 + 138 + 139 + 141 + 144 + 137 + 138 + 142 + 140 + 142 + 140 + 138 + 135 + 142 + 144 + 141 + 148 + 140 + 149 + 135 + 141 + 140 + 139 + 137 = 4217. Så finner vi gjennomsnittet ved å dividere denne summen på antall målinger, som er 30, og får $\overline X = {\large \frac{4217}{30}} \approx 140{,}6.$ Gjennomsnittshøyden er ca. 140,6 centimeter.

​I praksis beregner vi imidlertid sjelden gjennomsnittet manuelt på denne måten. På litt avanserte kalkulatorer legger vi bare inn alle dataene og trykker på knappen for å beregne gjennomsnitt.

I Excel bruker vi funksjonen gjennomsnitt til å beregne gjennomsnitt. La os si at dataene ligger i celleområdet A1 – C4. Da skriver vi =gjennomsnitt(A1:C4) i cella der vi vil ha gjennomsnittet beregnet. I GeoGebra heter funksjonen gsnitt eller gjennomsnitt, og brukes i GeoGebras regneark-felt, som vi får fram ved å velge «Vis» – «Regneark». Vær imidlertid oppmerksom på at GeoGebra krever at cellenavn skrives med store bokstaver, for eksempel A1. a1 vil ikke bli gjenkjent som et cellenavn. Vi kan også få opp gjennomsnittet i algebra-feltet ved å skrive i gsnitt-kommandoen i inntastingsfeltet, men da sløyfer vi likhetstegnet foran kommandoen. Når vi skriver i inntastingsfeltet, kan vi velge om vi vil liste opp verdiene der, eller referere til dem i regneark-delen.

Oppgave 1:

Vi gjør 6 tellinger av antall passasjerer på en bussrute mellom Andeby og Gåseby, og finner henholdsvis 20, 34, 16, 27, 8 og 9 passasjerer. Beregn gjennomsnitt for passasjertallet.

Kontroller resultatet i et regneark eller GeoGebra.

Se løsningsforslag

Median

Hvis vi sorterer et datasett stigende, vil naturligvis det første elementet ha den laveste verdien i settet, og det siste elementet den høyeste. Det gir også mening å snakke om midten av et slikt sortert sett. Midten til et sett med n elementer blir ${\large \frac{1 + n}{2}}$. (Grunnen til at vi adderer 1, er at første element er nummer 1, ikke nummer 0).
I et datasett med et odde antall elementer vil det være ett element som ligger midt i, i et datasett med et par antall verdier vil det være to elementer. Verdien til midtelementet i et sett med et odde antall elementer, og gjennomsnittet av verdiene til de to midtelementene i et sett med et par antall elementer, kalles datasettets median.

Eksempel 2:

    1. Deltakerne på et kveldskurs er 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Her har vi 9 elementer, så midten blir element nummer ${\large \frac{1 + 9}{2}} = 5$. Settet har et odde antall elementer, så medianen er verdien til element nummer 5, altså 22.
       
    2. Det kommer en ny deltaker på kurset som er 19 år. Stiller vi opp aldrene på nytt, blir det 19, 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Vi har nå 10 elementer, så midten blir element nummer ${\large \frac{1 + 10}{2}} = 5{,}5$, det vil si at element nummer 5 og 6, med verdi 21 og 22, deler midtplassen. Medianen blir da gjennomsnittet av disse verdiene, altså ${\large \frac{21 + 22}{2}} = 21{,}5$.

​Men hvorfor skal vi ha to måltall, både gjennomsnitt og median, til å angi sentrum av et datasett? Vel, begge har sine fordeler og ulemper. Gjennomsnittet trenger vi til en del andre beregninger, for eksempel standardavvik, som vi skal se på senere. Dessuten ligger gjennomsnittet alltid i sentrum av datasettet, selv om det ikke finnes noen verdier i nærheten. Medianen, derimot, er avhengig av én eller to verdier å hekte seg på, noe som kan gi rare utslag hvis det ikke finnes verdier nær gjennomsnittet. På den annen side er medianen mer robust mot sterkt avvikende verdier i et datasett enn gjennomsnittet er. Medianen kan også generaliseres til å angi ikke bare midten av et datasett, men for eksempel fjerdeparten eller en bestemt prosentandel.

Eksempel 3:

  1. I en gruppe besteforeldre og barnebarn er aldrene 5, 10, 11, 14, 57, 60, 63, 65 og 66 år. Gjennomsnittsalderen blir 39, som er i sentrum av datasettet. Men medianen blir 57, noe som er veldig misvisende. Kommer det så en 11-åring og en 12-åring inn i gruppa, går gjennomsnittet noe ned, til 34, men medianen hopper ekstremt, helt ned til 14. I dette tilfellet representerer altså gjennomsnittet dataene best.
     
  2. Ti elever skriver opp hvor mange husdyr de har hjemme. Tre har 0, fire har 1 og tre har 2. Både gjennomsnitt og median blir 1, noe som beskriver datasettet godt. Men så kommer det til en elev som bor på gård der de har 34 husdyr. Nå hopper gjennomsnittet opp til 4, noe som slett ikke forteller noe om hvor mange husdyr det er vanlig å ha. Medianen derimot, forblir 1. I dette tilfellet representerer altså medianen dataene best.

I Excel og GeoGebra beregner vi median ved hjelp av funksjonen median, som brukes helt tilsvarende gjennomsnitt-funksjonen.

Typetall

Typetall, også kalt modus, er den verdien i et datasett som forekommer flest ganger. I eksempel 1 er typetallet 140, fordi denne verdien forekommer 5 ganger, mer enn noen av de andre verdiene. En fordel med typetallet er at det i motsetning til gjennomsnitt og median er definert for verdier som ikke er tall. For eksempel kan typetallet angi hvilken bokstav som forekommer flest ganger i en tekst. I «februar» er for eksempel typetallet «r». I lange tekster vil typetallet angi hvilken bokstav som opptrer oftest i et språk. En ulempe med typetall er at typetall som ligger langt fra gjennomsnittet i et datasett, kan gi et dårlig bilde av hvor datasettet er sentrert. En annen ulempe er at det ikke er konsensus om hva typetallet er når det finnes flere alternativer, slik som i «Mississippi», der både «s» og «i» forekommer 4 ganger. Noen kilder sier at typetallet i slike tilfeller ikke er definert, andre at alle alternativene da er typetall.

I Excel beregner vi typetallet ved hjelp av funksjonen modus.sngl, i GeoGebra ved hjelp av funksjonen typetall. Funksjonene brukes helt tilsvarende gjennomsnitt-funksjonen. Er det flere alternativer, velger Excel én av verdiene, uklart hvilken. GeoGebra gir en liste over verdiene.

Oppgave 2:

Finn median og typetall blant karakterene i oppgave 1 i artikkelen om grafiske presentasjoner, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Se løsningsforslag

SkjermfilmSe filmen «Sentralmål i statistikk»
 

Spredningsmål

Det kan ofte være interessant å ikke bare vite hvor sentrum av et datasett er, men også hvor spredt dataene ligger. Datasettene {50, 50} og {1, 99} har for eksempel begge 50 som gjennomsnitt, men spredningen er veldig forskjellig, i det første tilfellet har vi ikke spredning i det hele tatt.

Vanlige spredningsmål er standardavvik, variasjonsbredde og kvartilbredde.

Standardavvik

Standardavvik er et spredningsmål som er basert på gjennomsnittet. Å beregne standardavvik manuelt er ganske omstendelig, i praksis lar vi en kalkulator eller et regneark gjøre jobben. For å få innsikt i hva standardavvik egentlig er, skal vi allikevel gå gjennom metoden for å regne det ut manuelt.

Vi starter med å summere de kvadratiske avstandene mellom hver verdi i et datasett og datasettets gjennomsnitt.

Eksempel 4a:

Lengden på fem laks vi tar opp av et oppdrettsanlegg, blir målt til 35, 37, 38, 41 og 44 cm. Gjennomsnittslengden er da X = 39 cm. Summen av de kvadratiske avstandene blir

(35 − 39)2 + (37 − 39)2 + (38 − 39)2 + (41 − 39)2 + (44 − 39)2 = 16 + 4 + 1 + 4 + 25 = 50.

Grunnen til at vi beregner den kvadratiske avstanden og ikke bare avstanden, er at vi i datasettet vil ha verdier som er både større og mindre enn gjennomsnittet. Hvis vi da beregner avstanden, vil vi få en blanding av positive og negative tall. Og summen av disse vil alltid være 0, fordi gjennomsnittet ligger sentrert blant verdiene. Med verdiene fra eksempel 4a vil vi få −4 − 2 − 1 + 2 + 5 = 0.

Når vi har funnet summen av de kvadratiske avstandene, dividerer vi den på 1 mindre enn antall elementer vi har. Verdien vi da får kalles varians. Til slutt får vi fram standardavviket ved å ta kvadratrota av variansen.

Eksempel 4b:

I eksempel 4a fant vi ut at summen av de kvadratiske avstandene til fem lengder var 50. Siden det er 5 målinger, vi skal dividere 50 på 5 − 1 = 4 for å finne variansen. Så tar vi kvadratrota og får $\sqrt {\large \frac{50}{4}} \approx 3{,}54$. Standardavviket til laksens lengde er ca. 3,54 cm.

​I matematisk terminologi, hvis vi har et datasett med n elementer, og kaller hver verdi Xi, der i ∈ {1, 2, 3, …, n}, uttrykker vi standardavviket, S, slik:

$\fbox{$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$}$

Standardavviket har samme enhet som enkeltelementene. Hvis vi for eksempel beregner standardavviket til høyder i centimeter, er standardavviket også i centimeter.

Standardavvik beregnes med samme teknikk som gjennomsnitt i Excel og GeoGebra. I Excel med funksjonen stdav.s, og i GeoGebra med funksjonen stavv.

Oppgave 3:

I oppgave 1 beregnet vi at 20, 34, 16, 27, 8 og 9 busspassasjerer ga et gjennomsnitt på 19 passasjerer. Beregn standardavviket til passasjertallet.

Kontroller resultatet i et regneark eller GeoGebra.

​​Se løsningsforslag

Oppgave 4:

Hvis det på bussen med færrest passasjerer i oppgave 1 og 3 hadde vært 2 i stedet for 8 passasjerer, og på bussen med flest passasjerer 40 i stedet for 34, hvordan ville det påvirket gjennomsnitt og standardavvik? Tenk gjennom problemstillingen først, og gjør beregningene etterpå.

​​Se løsningsforslag

Populasjonsstandardavvik

Mer presist kalles det standardavviket vi har beregnet, for utvalgsstandardavviket, fordi det er basert på et utvalg fra en populasjon. Det finnes imidlertid også noe som heter populasjonsstandardavviket, der vi forutsetter at vi har målinger fra alle individer i populasjonen. Dette betegner vi med en liten gresk sigma, σ, og beregner det på samme måte som utvalgsstandardavviket, bortsett fra at vi dividerer med n i stedet for n − 1:
$\sigma = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n}$

Populasjonsstandardavviket vil følgelig være mindre enn utvalgsstandardavviket, men når vi har mange dataelementer slik at n blir stor, vil forskjellen på de to være liten.

I Excel beregner vi populasjonsstandardavviket ved hjelp av funksjonen stdav.p, der p-en står for «population». Tilsvarende står s-en i stdav.s for «sample». I GeoGebra beregner vi populasjonsstandardavviket ved hjelp av funksjonen stavp.

Eksempel 5:

I eksempel 4 beregnet vi at de kvadratiske avstandene mellom lengdene til 5 laks og gjennomsnittet var 50, og utvalgsstandardavviket følgelig ble $S = \sqrt {\large \frac{50}{4}} \approx 3{,}54$.

Hvis disse 5 hadde vært hele populasjonen, ville vi i stedet ha beregnet populasjonsstandardavviket, $\sigma = \sqrt {\large \frac{50}{5}} \approx 3{,}16$.

I Excel ville vi brukt funksjonen stdav.p, og i GeoGebra stavp.

Det er slik at gjennomsnittet av utvalgsstandardavvikene til alle mulige utvalg i en populasjon er lik populasjonsstandardavviket.

I praksis har vi imidlertid sjelden hele populasjonen tilgjengelig, så det er utvalgsstandardavviket som er mest aktuelt å beregne. Utvalgsstandardavvik kalles også gjerne empirisk, altså erfaringsbasert standardavvik.

Dessverre presenterer mange kilder bare den ene eller den andre formen for standardavvik, uten å gjøre rede for at det egentlig finnes to former. Mange kilder blander også symbolene for utvalgsstandardavvik og populasjonsstandardavvik. På en del kalkulatorer brukes σn−1 eller Sn−1 for utvalgsstandardavvik og σn eller Sn for populasjonsstandardavvik. Vi vil imidlertid holde oss til å bruke S for utvalgsstandardavvik og σ for populasjonsstandardavvik.

σ vil vi møte igjen i artikkelen forventning og varians, som det teoretiske standardavviket til en sannsynlighetsfordeling.

SkjermfilmSe filmen «Spredningsmål i statistikk»
 

Variasjonsbredde

Variasjonsbredde er avstanden mellom største og minste verdi i et datasett.

Eksempel 6:

Deltakerne i en lesesirkel er 35, 37, 40, 40, 42 og 44 år. Variasjonsbredden til deltakerne er da 44 − 35 = 9 år.

Variasjonsbredden er imidlertid følsom for ekstreme verdier i et datasett. Hvis det for eksempel i lesesirkelen i eksempel 6 hadde kommet til en person på 75 år, ville variasjonsbredden ha hoppet fra 9 til 40, en endring som ikke i det hele tatt er representativ for endringen i aldersfordeling.

I Excel kan vi beregne variasjonsbredden ved å finne største verdi med funksjonen størst og trekke fra minste verdi som vi finner med funksjonen min. (Det er litt snurrig skrivemåte her). I GeoGebra heter de samme funksjonene maks og min. Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi vil oppgi mer enn to tall i inntastingsfeltet i GeoGebra, må de angis som en liste, det vil si mellom krøllparenteser. For eksempel maks({2, 7, 4}).

Kvartiler

Deler vi et sortert datasett i to like store deler, heter delingspunktet median, som vi har sett tidligere. Deler vi det i fire like store deler, heter delingspunktene kvartiler, henholdsvis første, andre og tredje kvartil, som vi betegner med Q1, Q2 og Q3.

Q1 finner vi som ${\large \frac{1 + n}{2}}$.

Q2 finner vi som ${\large \frac{2(1 + n)}{4}} = {\large \frac{1 + n}{2}}$.

Q3 finner vi som ${\large \frac{3(1 + n)}{4}}$.

Eksempel 7:

Vi skal finne kvartilene til datasettet 13, 14, 17, 18, 18, 21, 23, 23, 27, 30 og 32.

Her har vi 11 elementer, så Q1 blir element nummer ${\large \frac{1 + 11}{4}} = 3$, Q2 blir element nummer ${\large \frac{1 + 11}{2}} = 6$ og Q3 blir element nummer ${\large \frac{3(1 + 11)}{4}} = 9$.

Element nummer 3 har verdien 17, nummer 6 verdien 21, og nummer 9 verdien 27.

Så vi har:
Første kvartil, Q1 = 17.
Andre kvartil (median), Q2 = 21.
Tredje kvartil, Q3 = 27.

I Excel kan vi beregne kvartiler på tilsvarende måte som gjennomsnitt, o.l., ved hjelp av funksjonen kvartil.eks. Her må vi i tillegg til å angi hvilke data vi vil beregne kvartilen til, også angi hvilket kvartil vi skal beregne, 1 for første kvartil, 2 for andre og 3 for tredje kvartil. GeoGebra har to funksjoner for å beregne kvartiler, q1 og q3. For å finne Q2 må vi bruke funksjonen median. Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi bruker inntastingsfeltet i GeoGebra, må verdiene angis som et sett, det vil si mellom krøllparenteser, for eksempel q3({13, 14, 17, 18, 18, 21, 23, 23, 27, 30, 32}) for å beregne tredje kvartil i eksempel 7.

Kvartilbredde

Vi så at variasjonsbredden som spredningsmål var følsom for ekstreme verdier i et datasett. Et bedre mål kan derfor være kvartilbredden, det vil si avstanden mellom første og tredje kvartil, som ikke blir påvirket av de 25 % laveste eller 25 % høyeste verdiene i et datasett.

Er kvartilbredden høy, betyr det stor spredning, er den lav, betyr det lav spredning.

I Excel og GeoGebra kan vi beregne kvartilbredden ved å finne øvre kvartil og så trekke fra nedre kvartil.

Eksempel 8:

Vi skal finne kvartilbredden til datasettet fra eksempel 7. Der fant vi at første kvartil var 17, og tredje kvartil 27, så kvartilbredden blir 27 − 17 = 10.

Oppgave 5:

Olga pendler til jobben med toget, og skriver opp hvor mange minutter forsinket toget er hver dag. En måned har hun notert følgende: 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14. Beregn og tolk variasjonsbredden og kvartilbredden for dette datasettet.

​​​Se løsningsforslag

Persentiler

Oppdelingen av et sortert datasett kan gjøres enda mer detaljert ved hjelp av persentiler (prosentiler), der vi bestemmer en verdi ut fra hvor i datasettet den prosentvis befinner seg.

Eksempel 9:

Et sortert datasett består av tallene 3, 5, 6, 7, 8, 10, 13, 16 og 17, og vi skal finne 20- og 80-persentilene. Da må vi finne ut hvilke verdier som ligger 20 % og 80 % opp i settet. Siden settet har 9 elementer, får vi (1 + 9) · 20 % = 2 og (1 + 9) · 80 % = 8. Siden element nummer 2 har verdien 5, blir 20-persentilen lik 5, og siden element nummer 8 har verdien 16, blir 80-persentilen lik 16.

Q1, Q2 og Q3 tilsvarer henholdsvis 25-, 50- og 75-persentiler.

Når vi skal bestemme medianen i et datasett med n elementer, finner vi midten av datasettet ved å beregne ${\large \frac{1 + n}{2}}$. Dette blir bare et helt tall når n er oddetall, slik at 1 + n blir et helt tall når vi deler med 2. Tilsvarende blir posisjonen til Q1 og Q3 bare hele tall hvis 1 + n delt på 4 blir et helt tall, og posisjonen til et a-persentil blir bare et helt tall hvis 1 + n delt på ${\large \frac{100}{\Large a}}$ blir et helt tall. Dette var tilfelle i eksempel 9, der 20-persentilet lå i posisjon
${\large \frac{1 + n}{\LARGE \, \frac{100}{\huge a} \,}} = {\large \frac{10}{\LARGE \, \frac{100}{20} \,}} = 2$, og 80-persentilet i posisjon ${\large \frac{1 + n}{\LARGE \, \frac{100}{\huge a} \,}} = {\large \frac{10}{\LARGE \, \frac{100}{80} \,}} = 8$.

Dersom posisjonen til medianen ikke blir et helt tall, blir desimaldelen alltid 0,5. Posisjonen ligger da midt mellom to tall, og medianen blir gjennomsnittet av disse. Med kvartiler og persentiler vil det imidlertid ikke alltid være slik. Vi kan for eksempel få en posisjon med desimaldel 0,8, som i eksempel 10 under. Vi beregner da ikke et 50/50 gjennomsnitt, men et vektet gjennomsnitt. Hvis desimaldelen er m, summerer vi da tallet i posisjonen til venstre multiplisert med 1 − m og tallet i posisjonen til høyre multiplisert med m. Medianen er et spesialtilfelle av dette, med 1 − m = m = 0,5.

Eksempel 10:

    • Vi skal finne 38-persentilen i datasettet fra eksempel 9, som har 9 elementer: 3, 5, 6, 7, 8, 10, 13, 16 og 17. Vi beregner (1 + 9) · 0,38 = 3,8. Dette tallet ligger mellom 3 og 4, så vi skal altså beregne et vektet gjennomsnitt av tallene i posisjon 3 og 4, det vil si verdiene 6 og 7. Desimaldelen til 3,8 er 0,8, så vi har m = 0,8, og følgelig er 1 − m = 0,2. Så det vektede gjennomsnittet blir (1 − m) · 6 + m · 7 = 0,2 · 6 + 0,8 · 7 = 6,8.
       
    • Vi skal finne 64-persentilen i det samme datasettet. Vi beregner (1 + 9) · 0,64 = 6,4. Dette tallet ligger mellom 6 og 7, så vi skal altså beregne et vektet gjennomsnitt av tallene i posisjon 6 og 7, det vil si verdiene 10 og 13. Desimaldelen til 6,4 er m = 0,4, og følgelig er 1 − m = 0,6. Så det vektede gjennomsnittet blir (1 − m) · 10 + m · 13 = 0,6 · 10 + 0,4 · 13 = 11,2.
       

I Excel kan vi beregne persentiler, slik vi har gjort i eksempel 9 og 10, ved hjelp av funksjonen persentil.eks. I GeoGebra ved hjelp av funksjonen persentil. Her må vi i tillegg til å angi hvilke data vi vil beregne persentilen til, også angi hvilken persentil vi skal beregne, i form av et desimaltall mellom 0 (0 %) og 1 (100 %). Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, o.l., men hvis vi bruker inntastingsfeltet i GeoGebra, må verdiene angis som et sett, det vil si mellom krøllparenteser, for eksempel persentil({3, 5, 6, 7, 8, 10, 13, 16, 17}, 0.8) for å beregne 80-persentilen i eksempel 9.

Mer om persentiler i Excel og GeoGebra

Excel har egentlig to funksjoner for å beregne persentiler, persentil.eks og persentil.ink. persentil.eks bruker metoden vi har vist i eksempel 9 og 10. Har vi totalt n elementer, ligger første element da på persentil ${\large \frac{1}{1 + n}}$, og siste element på persentil $n − {\large \frac{1}{1 + n}}$. Forsøker vi å bruke persentil.eks til å beregne persentiler som er mindre enn ${\large \frac{1}{1 + n}}$ eller større enn $n − {\large \frac{1}{1 + n}}$, får vi en feilmelding. Uansett hvor mange elementer vi har, vil det med denne beregningsmetoden aldri finnes noe 0-persentil eller 100-persentil. Disse verdiene er ekskludert, derav navnet «eks».

persentil.ink regner derimot at første element ligger på 0-persentilen og siste element på 100-persentilen. Disse verdiene er inkludert, derav navnet «ink».

GeoGebra bruker samme metode som persentil.eks, men dersom vi prøver å beregne persentiler som er mindre enn ${\large \frac{1}{1 + n}}$ eller større enn $n − {\large \frac{1}{1 + n}}$, gir ikke GeoGebra feilmelding, men velger i stedet henholdsvis første og siste element.

Eksempel 11:

Vi har et sortert datasett som består av tallene 10, 20 og 30. Her er det 3 elementer, så ${\large \frac{1}{1 + n}} = {\large \frac{1}{4}} = 25 \, \%$.

persentil.ink regner de tre tallene som henholdsvis 0-, 50- og 100-persentiler, persentil.eks som henholdsvis 25-, 50- og 75-persentiler, slik det er illustrert under.

Histogram med ulik intervallbredde

persentil.eks vil gi feilmelding hvis vi prøver å finne persentiler mindre enn 25 % eller større enn 75 %. GeoGebra vil gi henholdsvis 10 og 30.

Drar vi det ut i det ekstreme, og har et sett med bare ett element, vil persentil.eks ikke beregne andre persentiler enn 50-persentilen, mens persentil.ink knytter alle persentiler til det ene elementet.

På samme måte som Excel har to varianter av funksjoner for å beregne persentiler, finners det også to funksjoner for å beregne kvartiler, kvartil.eks, og kvartil.ink.

Kilder

    • Hinna, K.R.C., Rinvold, R.A., Gustavsen, TS. (2011). QED 5-10, bind 1. Høyskoleforlaget
    • Hagen, P.C. (2000), Innføring i statistikk og sannsynlighetsregning. Cappelen Akademisk
    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Bhattacharya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Datainnsamling

Når vi skal lage statistikk, må vi ha et datagrunnlag å arbeide ut fra. Vi kan bruke data som andre har samlet inn, eller vi kan samle inn våre egne. Det er da viktig at vi gjør det på en måte som sikrer at dataene er representative.

Ferdig innsamlede og bearbeidede data kan vi for eksempel finne hos Statistisk sentralbyrå: www.ssb.no. Før vi setter i gang egne datainnsamlinger, kan det være verd å sjekke om Statistisk sentralbyrå allerede har noe vi kan bruke.

Skal vi samle inn data selv, er stikkord telle, måle og spørre. Det kan være at vi skal telle antall biler som passerer et gitt punkt, måle vekten på villaks i ei elv eller spørre folk om de er for eller imot kommunesammenslåing.

Feilkilder

Ofte ønsker vi å måle effekten av noe, for eksempel en ny gjødseltype eller en ny type medisin. Det gjelder da å eliminere uvedkommende faktorer som kan påvirke resultatet. Dette kaller vi forsøksplanlegging. Skal vi teste ut en ny type gjødsel, lager vi gjerne to plantefelt med samme kombinasjon av planter, og bruker den gamle gjødselen på det ene, og den nye på det andre. Typiske feilkilder kan da være ulik vanning, forskjellig jordsmonn eller ulike lysforhold. Og sikkert mye mer, det er vanskelig å tenke på alle mulige feilkilder. Av og til oppdager vi at et forsøk er blitt påvirket av en feilkilde vi ikke har tenkt på. Da må vi kompensere for feilen hvis det lar seg gjøre, eller eliminere feilkilden og gjøre forsøket på nytt.

Når en skal prøve ut en ny type medisin, har en gjerne en forsøksgruppe og en kontrollgruppe, der forsøksgruppa får den nye medisinen og kontrollgruppa ikke gjør det. En velkjent og betydelig feilkilde er da placebo-effekten, som består i at folk blir friske bare fordi de tror de får en medisin som virker. For å kompensere for placebo-effekten lar man kontrollgruppa få medisin uten effekt, gjerne kalt «sukkerpiller». Forsøkspersonene vet ikke om de får ekte medisin eller ikke, dette kalles derfor en blindtest. I en dobbel blindtest vet heller ikke den som leder forsøket hvilke piller som er hva. Noen utenforstående har gjort en koding som ikke brytes før etter at forsøket er avsluttet.

Representative utvalg

Hvis vi har for mange data til at vi kan undersøke alle, må vi gjøre et utvalg. Det gjelder da å få utvalget representativt. Et klassisk eksempel på en feilkonklusjon basert på et skjevt utvalg er presidentvalget i USA i 1936, der en prøvde å forutsi om Langdon eller Roosevelt ville vinne. Et blad kalt Literary Digest spurte 2 000 000 personer og konkluderte med at Langdon ville bli den neste presidenten. Det var feil. Problemet var at Literary Digest baserte seg på telefonlister, og bare velstående personer hadde telefon på den tiden. Naturligvis er det en sammenheng mellom politiske preferanser og levekår, så dette utvalget var ikke representativt. Derimot forutsa George Gallup korrekt at Roosevelt ville vinne, basert på intervjuer med bare 50 000 personer. Gallups navn er da også blitt udødeliggjort ved at ordet gallup er blitt et synonym for rundspørring.

Hvem vi spør er altså viktigere enn hvor mange vi spør. I politiske meningsmålinger i Norge i dag intervjues bare om lag 0,05 % av velgermassen.

En taktikk for å få et representativt utvalg er stratifisering. Vi deler da datamengden inn i kategorier, såkalte strata, og velger separat fra alle kategorier. Skal vi for eksempel undersøke om folk er for eller imot bompenger, kan aktuelle strata være politisk ståsted, inntekt, om de har bil eller ikke, kjønn, alder og bosted. Og sikkert mer. En ulempe med stratifisering er at vi risikerer å utelate viktige kategorier. En fordel er at vi kan få fram interessante meningsforskjeller mellom kategoriene.

Vi kan også lage et helt tilfeldig utvalg, og satse på at tilfeldighetene sørger for at utvalget blir representativt på tvers av kategorier. Det er gjerne enklere, men kan kamuflere effekter som skyldes forskjeller mellom kategorier.

Oppgave 1:

Du ønsker å finne ut hvor populært kino er i forhold til å se film hjemme. Du går i byen en kveld og intervjuer tilfeldige forbipasserende. Ser du noen feilkilder?

Se løsningsforslag

Spørreundersøkelser

En vanlig måte å skaffe informasjon på er å la folk svare på spørreundersøkelser. Å lage gode spørreundersøkelser er krevende, noen gode tips er:

    • Undersøkelsen bør ha en god tittel.
       
    • Undersøkelsen bør være så kort som mulig, så ikke deltakerne slites ut.
       
    • Undersøkelsen bør være enkel å gjennomføre, noe som bør være enkelt i dag, siden undersøkelsen kan gjennomføres på nett. Det finnes mange verktøy til å lage spørreundersøkelser. Noen er gratis, for eksempel Microsoft Forms, forms.office.com. Verktøyene har også et varierende utvalg av funksjoner for å bearbeide svarene statistisk.
       
    • Det bør gå fram hvem som står bak undersøkelsen.
       
    • Det bør gå fram hva som er hensikten med undersøkelsen.
       
    • Det bør gå fram hvordan deltakernes konfidensialitet blir ivaretatt.
       
    • Det bør gis instrukser om hvordan spørreskjemaet skal fylles ut.

I Norge skal undersøkelser som involverer behandling av personopplysninger meldes til Sikt: https://sikt.no/tjenester/personverntjenester-forskning/fylle-ut-meldeskjema-personopplysninger. Sikt har også en rekke maler som kan brukes gratis.

Utforme spørsmål

I en spørreundersøkelse kan vi bruke lukkede og åpne spørsmål.

I lukkede spørsmål har vi faste svaralternativer, gjerne i form av avkrysningsbokser. Fordeler med lukkede spørsmål er at de gir lett målbare data som er egnet for automatisert behandling med programvare, og at de er raske å svare på. Ulemper er at vi kan få ugjennomtenkte svar, der deltakerne bare velger fordi de må velge noe. Vi får heller ikke opplysninger utover det vi spør om. Til lukkede spørsmål brukes såkalte Likert-skalaer mye, der deltakerne angir hvor enige eller uenige de er i en påstand. Typiske valgmuligheter er «svært uenig», «litt uenig», «verken enig eller uenig», «litt enig» og «svært enig». En variant er tallskalaer, der deltakerne blir bedt om å angi et tall som indikerer hvor enige de er i en påstand. For eksempel formulert som «På en skala fra 1 til 5, der 1 er svært uenig og 5 er svært enig, hvor enig er du i følgende påstander:». Med tallverdier kan vi bruke statistiske analyseverktøy direkte på svarene.

Åpne spørsmål har ingen svaralternativer, deltakerne må svare ved å formulere en tekst selv. Fordeler med åpne spørsmål er at vi kan få fyldige, fantasirike svar, og få fram uventede opplysninger. Ulemper er at det tar lang tid å fylle ut skjemaet og at det kan være krevende å analysere resultatene etterpå.

En god spørreundersøkelse kan gjerne bestå av både åpne og lukkede spørsmål, der deltakerne kan krysse av for faste alternativer, men også har muligheten til å svare mer utdypende på viktige spørsmål.

Noen råd når det gjelder spørsmålsformulering er:

    • Unngå ledende spørsmål. Si for eksempel ikke «Er du enig i at bensinprisene er for høye?» Det er et ledende spørsmål fordi det antyder at bensinprisene faktisk er for høye. En nøytral formulering er i stedet «Hva synes du om dagens bensinpriser?».
       
    • Unngå upresise formuleringer. En upresis formulering er for eksempel «Ser du mye på TV?» For hva er «mye»? og mener vi til hverdags eller i helga? En mye mer presis formulering er for eksempel «Hvor mange timer ser du i gjennomsnitt på TV på hverdager?» Et slikt spørsmål vil for øvrig være godt egnet for faste svaralternativer med intervaller. F.eks. «Mindre enn 1 time», «1 – 2 timer», etc.
       
    • Still ett spørsmål av gangen. Si for eksempel ikke «Hva synes du om dagens bensinpriser og bompengesatser?», det er to spørsmål i ett. Del opp i to spørsmål, ett om bensinpriser og ett om bompenger.
       
    • Unngå doble negative. Si for eksempel ikke «Er du uenig i at ungdom under 16 bør nektes prevensjon?» Her er «uenig i … nektes» en dobbel negativ som betyr «tillates». Så si heller «Er du enig i at ungdom under 16 bør tilbys prevensjon?».
       
    • Sørg for entydige svaralternativer. På spørsmål om alder for eksempel, ha ikke 20-25 og 25-29 som alternativer. For her er det overlapp, 25 er med i to kategorier. I kategoriene 20-24 og 25-29 er det derimot ikke overlapp, og de to kategoriene er like store.

Organisere spørsmål

Noen råd når det gjelder organisering av spørsmålene er:

    • Ta de viktigste og mest generelle spørsmålene først.
       
    • Ta enkle og ufarlige spørsmål først.
       
    • Ta konkrete spørsmål først.
       
    • Ta spørsmål med svaralternativer først.
       
    • Ta personlige og demografiske spørsmål til slutt.

Bortfall

Når vi vurderer kvaliteten på svarene på en spørreundersøkelse, må vi ta hensyn til bortfall, altså hvem som ikke svarer. Det er ofte ikke tilfeldig hvem som svarer eller ikke. I en spørreundersøkelse om priser, for eksempel, kan vi forvente at det er flere som svarer blant de som synes prisene er for høye, enn de som er fornøyd med prisnivået. En undersøkelse med stort bortfall vil ha stor usikkerhet knyttet til seg. For å redusere bortfall kan det være en strategi å kontakte potensielle deltakere, presentere temaet overordnet, og spørre om de er villige til å svare på noen spørsmål.

SkjermfilmSe filmen «Datainnsamling»
 

Kilder

    • Wenstøp F. (2004). Statistikk og dataanalyse. Universitetsforlaget.
    • Loughborough University. Questionnaire Design.

Grafiske presentasjoner

Et sett med data kan inneholde mange verdier og være svært uoversiktlig. Vi har derfor behov for både metoder til å presentere data på en strukturert måte, og til å beregne nøkkeltall som beskriver dataene.

Eksempel 1:

En gruppe på 30 barneskoleelever var til helsekontroll og fikk målt høyden. Resultatene var 140, 141, 137, 143, 145, 142, 139, 138, 139, 141, 144, 137, 138, 142, 140, 142, 140, 138, 135, 142, 144, 141, 148, 140, 149, 135, 141, 140, 139 og 137 cm. Vi ser at det uten nitid granskning er vanskelig å si noe mer enn at høydene ser ut til å ligge i området 135 – 150 cm.

Frekvenstabell

En måte å strukturere data på er å lage en frekvenstabell. Da lister vi opp de forskjellige verdiene og oppgir hvor mange ganger de forekommer. Dividerer vi antall forekomster av en verdi på antall forekomster totalt, får vi verdiens relative frekvens, som forteller hvor stor del av helheten den utgjør.

Eksempel 2:

Det er totalt 30 målinger i eksempel 1, med verdier fra 135 til 149. En frekvenstabell basert på disse målingene vil se slik ut:

Høyde (cm) 135 136 137 138 139 140 141 142
Frekvens 2 0 3 3 3 5 4 4
Relativ frekvens 7 % 0 % 10 % 10 % 10 % 17 % 13 % 13 %
 
Høyde (cm) 143 144 145 146 147 148 149  
Frekvens 1 2 1 0 0 1 1
Relativ frekvens 3 % 7 % 3 % 0 % 0 % 3 % 3 %

Her har vi angitt den relative frekvensen i prosent. For eksempel er den relative frekvensen for 140 lik ${\large \frac{5}{30}} \approx 0{,}17$, det vil si at om lag 17 % av elevene er 140 centimeter.

Søylediagram

Vi kan også presentere en frekvenstabell grafisk i form av et søylediagram, der vi har én søyle for hver verdi, og høyden på søylen angir hvor mange ganger verdien forekommer.

Eksempel 3:

Frekvenstabellen fra eksempel 2 kan presenteres slik, i form av et søylediagram:

Søylediagram med ugrupperte høydedata

Nå ser vi for eksempel lett at det er flest (5) elever som er 140 centimeter og ingen elever som er 136, 146 eller 147 centimeter.

Av og til kan en frekvenstabell inneholde for mye informasjon. Skal vi for eksempel lage en frekvenstabell over nordmenns inntekt, vil det bli uoverkommelig mange kolonner hvis vi skal gå ned på kronenivå og ha én kolonne for 250.000, én kolonne for 250.001, og så videre. For å forenkle, grupperer vi da verdier, for eksempel ved å ha én kolonne for «under 250.000», én for «250.000 – 299.999», én for «300.000 – 349.999» og så videre.

Eksempel 4:

Grupperer vi målingene fra eksempel 1 i intervallene 135-139, 140-144, 145-149, får vi følgende frekvenstabell og søylediagram:

Høyde (cm) 135-139 140-144 145-149
Frekvens 11 16 3
Relativ frekvens 37 % 53 % 10 %

Søylediagram med grupperte høydedata

Vi ser enkelt at flest elever (16) ligger i gruppa 140-144, noen færre (11) i gruppa 135-139, og få (3) i gruppa 145-149.

I Excel kalles søylediagrammer for stolpediagrammer, disse begrepene brukes mye om hverandre. Enkelte kilder hevder imidlertid at et stolpediagram er et søylediagram der søylene ikke har bredde, de tegnes bare som en strek.

I Excel lager vi søylediagrammer ved å skrive inn og markere dataene, velge «Sett inn» – «Stolpe», og så velge stolpetype.

RegnearkLast ned regneark med stolpediagrammene vist over
 
 
Oppgave 1:

På en prøve fikk elevene i en klasse disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

    1. Lag en frekvenstabell som viser fordeling av karakterene. Tabellen skal også vise relativ frekvens i prosent.
       
    2. Lag en frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6. Tabellen skal også vise relativ frekvens i prosent.
       
    3. Lag et søylediagram i Excel som illustrerer karakterfordelingen i punkt 2.

Se løsningsforslag

Histogrammer

Intervaller er imidlertid mer vanlig å presentere i histogrammer. Et histogram minner om et søylediagram, men har en kontinuerlig x-akse, og søylene ligger helt inntil hverandre.

Det er litt tungvint å lage histogrammer i Excel, figurene i eksempel 5 og 6 er laget i GeoGebra. På dette nettstedet finnes en egen artikkel om statistikk med GeoGebra, der det beskrives hvordan GeoGebra kan brukes til å lage søylediagrammer og histogrammer.

Eksempel 5:

Figuren under viser samme data som eksempel 4, presentert i et histogram.

Histogram med høydetata

Det er ikke noe krav at intervallene som presenteres i et histogram skal være like store. Søylens areal, ikke høyden, forteller hvor mange verdier som ligger i hvert intervall.

Eksempel 6:

Tabellen under viser fire intervaller med bredder på henholdsvis 5, 5, 10 og 20. Det er 5 målinger i hvert intervall.

Intervall [0, 5) [5, 10) [10,20) [20, 40)
Frekvens 5 5 5 5

Det tilhørende histogrammet er vist under.

Histogram med ulik intervallbredde

Vi ser at selv om det er like mange målinger i hvert intervall, er ikke søylene like høye, fordi intervallbredden er forskjellig. Arealet av hver søyle er imidlertid det samme.

SkjermfilmSe filmen «Grafisk presentasjon»
 
 

Introduksjon til statistikk

Statistikk har et litt frynsete rykte. Dette kan skyldes at vi i media stadig ser eksempler på misbruk av statistikk. Av og til fordi noen bevisst prøver å lure oss, men ofte fordi journalistene som presenterer statistikken ikke har kunnskap til å tolke den riktig.

Inntrykket vi får når vi presenteres for statistiske data, er ofte avhengig av måten dataene presenteres på.

Eksempel 1:

I 2021 hadde Fagbladet et opplag på 20 000 og Lilleviksposten et opplag på 2 000 eksemplarer. I 2022 hadde Fagbladet økt til 21 000 eksemplarer og Lilleviksposten til 2 200 eksemplarer. Hvilken av avisene hadde størst økning?

Svaret avhenger av hva vi egentlig spør etter. Måler vi i antall eksemplarer, har Fagbladet hatt størst økning, med 1000 eksemplarer mot Lillevikspostens 200. Men prosentvis har Lilleviksposten størst økning, med 10 % mot Fagbladets 5 %.

Eksempel 2:

I to undersøkelser ble to nye medikamenter, A og B, testet ut. I én undersøkelse hadde medikament A effekt på 81 av 87 pasienter (93 %), mens medikament B hadde effekt på 234 av 270 pasienter (87 %). I en annen undersøkelse hadde medikament A effekt på 192 av 263 pasienter (73 %), mens medikament B hadde effekt på 55 av 80 pasienter (69 %). Hvilket medikament hadde best effekt?

Det virker opplagt at medikament A er svaret, siden det hadde beste effekt i begge undersøkelsene, 93 % mot 87 % i første undersøkelse og 73 % mot 69 % i andre. Men ser vi begge undersøkelsene under ett, hadde medikament A effekt på 273 av 350 pasienter (78 %), mens medikament B hadde effekt på 289 av 350 pasienter (83 %). Så da ser medikament B ut til å ha hatt best effekt. Dette er ikke lureri, men noe som heter Simpsons paradoks. Resultatet er avhengig av hvordan vi betrakter dataene.

Eksempel 3:

Under vises to grafer som illustrerer endring i opplagstall over 20 år. Grafen til høyre gir inntrykk av mye større økning, men begge grafene er basert på nøyaktig samme data, og strekker seg fra ca. 2.000 til 2.600, det er bare skaleringen som er forskjellig.

Kurve med slak stigning Kurve med bratt stigning

 

Under finner du lenke til et regneark der det er jukset med aksene for å gi inntrykk av at en økning i antall forbrytelser per år er mye større enn den i virkeligheten er.

RegnearkLast ned regneark med aksejuks
Det kan også være at vi presenteres for måltall som ikke er representative, slik det er illustrert i oppgaven under.

Oppgave 1:

Vi påstår at de fleste mennesker har mer enn gjennomsnittlig antall armer. Er dette korrekt? Hva er i så fall problemet med denne påstanden?

Se løsningsforslag

En annen vanlig feil er at årsak og virkning forveksles. Statistisk sett er det slik at jo flere brannfolk som deltar i slukkingen av en brann, jo større er skadeomfanget. Men naturligvis vil ikke bruk av færre brannfolk vil gi mindre skadeomfang, for det er ikke antall brannfolk som er årsaken og skadeomfanget som er virkningen, det er motsatt. Er det stort skadeomfang, er brannen sannsynligvis stor, og en stor brann krever mange brannfolk. I dette tilfellet er feilen opplagt, men i andre tilfeller kan det være vanskelig å avgjøre hva som fører til hva. Når det viser seg at folk som er mye ute i naturen, har bedre mental helse enn de som ikke er det, er det da naturen som gir god mental helse, eller er det de med god mental helse som har overskudd til å gå ut i naturen?

En variant er at en hendelse har en utenforliggende årsak. For eksempel er det slik at de fleste bilulykker skjer i dagslys, med edru sjåfør. Men det betyr selvsagt ikke at det lønner seg å fyllekjøre om natta. Årsaken til at det er slik, er at det er mest trafikk om dagen, og det overveiende flertallet av sjåfører er edrue. Et mer subtilt eksempel er vist i eksempel 4.

Eksempel 4:

I en undersøkelse viste statistikken at det var en klar sammenheng mellom bruken av et bestemt medikament og benskjørhet. En skulle derfor tro at det var en klar årsaks- og virkningssammenheng her. Men faktum var at det stort sett var eldre pasienter som brukte medikamentet, og på grunn av sin alder var de disponert for benskjørhet. Vi hadde en utenforliggende årsak.

Det finnes tre typer løgner: Løgn, forbannet løgn og statistikk, skriver forfatteren Mark Twain. Men statistikk er egentlig en eksakt, matematisk vitenskap, det er bare resultatene som bevisst eller ubevisst feiltolkes.

På dette nettstedet ser vi på hvordan vi kan presentere statistikk på en strukturert og standardisert måte gjennom blant annet måltall som gjennomsnitt, standardavvik, median og persentiler. Men vi lærer også å trekke konklusjoner basert på utvalg. Hvis vi for eksempel undersøker 200 laks i et oppdrettsanlegg og 50 av dem har lus, hvilke konklusjoner kan vi da trekke om utbredelsen av lus i hele bestanden? Vi lærer å beregne konfidensintervaller og å gjøre hypotesetester. Vi lærer også å bruke regneark og GeoGebra både til å presentere statistiske data, og å gjøre statistiske beregninger og analyser.

SkjermfilmSe filmen «Introduksjon til statistikk»
 

Kilder