Sammenlikne datasett

I statistikk er vi ofte interessert i å sammenlikne datasett. Vi kan for eksempel lure på om det er noen sammenheng mellom gjennomsnittstemperatur og høyden på en type blomster. Eller vi kan undersøke en hypotese om effektiviteten av en ny type gjødsel ved å sammenlikne et utvalg planter som har fått den nye gjødselen med et utvalg som har fått den gamle.

Korrelasjonskoeffisient

Et praktisk mål for å vurdere om det er sammenheng mellom to sett variabler er korrelasjonskoeffisienten. Korrelasjonskoeffisienten måler i hvor stor grad verdiene i to datasett samvarierer, og er et tall mellom 1 og −1. 1 betyr fullstendig samvariasjon, for eksempel at høyden på en type blomster øker proporsjonalt med temperaturen, −1 betyr fullstendig omvendt samvariasjon, for eksempel at høyden på en type blomster synker proporsjonalt med temperaturen. 0 betyr at det ikke kan påvises noen samvariasjon. Mellom disse ytterpunktene er alle tall mulige. For eksempel vil 0,1 bety en svak samvariasjon, mens 0,9 betyr en sterk samvariasjon.

Hvis vi lager et plott av verdiene, vil data med fullstendig samvariasjon ligge på ei rett linje. Verdier uten samvariasjon vil ligge spredt tilfeldig utover.

Eksempel 1:

Høyde og vekt for 10 kvinnelige toppidrettsutøvere er gitt i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 51 56 51 62 54 56 56 59 57 54

Korrelasjonskoeffisienten for disse dataene er ca. 0,626. Som vi kan forvente, har vi en positiv samvariasjon. Men den er ikke perfekt, det vil vi sjelden finne i virkeligheten. Et plott av dataene er vist under, med høyde langs x-aksen og vekt langs y-aksen.
Illustrasjon av korrelasjonskoeffisient 0,626

Vi ser at det er et tydelig mønster i at større høyde henger sammen med større vekt, men samtidig er det avvik. Personen på 170 centimeter er for eksempel uvanlig lett i forhold til de andre.

Eksempel 2:

Vi manipulerer vektene i eksempel 1, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52,5 53,4 54,4 54,7 53,1 54,1 53,7 54,6 53,8 53,8

Nå har vi nesten perfekt samvariasjon, korrelasjonskoeffisienten er ca. 0,998. Lager vi et plott av dataene, ser vi at de ligger nesten fullstendig på linje.

Illustrasjon av korrelasjonskoeffisient 0,996

Eksempel 3:

Vi manipulerer vektene i eksempel 1 en gang til, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52 54 51 50 53 58 57 56 59 60

Nå har vi ingen samvariasjon, korrelasjonskoeffisienten er 0,000. Lager vi et plott av dataene, ser vi at de ligger spredt utover uten noe mønster:

Illustrasjon av korrelasjonskoeffisient 0,000

Korrelasjonskoeffisienten baserer seg på i hvilken grad avvik fra gjennomsnittet stemmer overens i de to datasettene. Positive bidrag til korrelasjonskoeffisienten vil vi for eksempel få hvis en høyde langt over gjennomsnittet korresponderer med en vekt langt over gjennomsnittet, en høyde litt over gjennomsnittet korresponderer med en vekt litt over gjennomsnittet, en høyde litt under gjennomsnittet med en vekt litt under gjennomsnittet, og så videre.

I artikkelen om måltall i statistikk lærte vi å beregne gjennomsnitt og standardavvik. Gjennomsnittet kalte vi X, og standardavviket σ. For å beregne standardavviket startet vi med å beregne kvadratavstanden mellom verdiene i datasettet og gjennomsnittet: (XiX)2.

Nå har vi to datasett, vi kaller det ene X og det andre Y. Produktet av avstandene mellom en verdi og gjennomsnittet i hvert av settene, (XiX)(YiY), vil gi et mål på i hvilken grad korresponderende verdier samvarierer. Hvis både (XiX) og (YiY) ligger mye over gjennomsnittet, vil vi produktet bli et stort, positivt tall. Det samme vil skje hvis begge verdiene ligger mye under gjennomsnittet. Vi får da et produkt av to store negative tall, noe som blir et stort positivt tall. Verdier nær gjennomsnittet vil gi små tall. Dersom den ene verdien ligger over og den andre under gjennomsnittet, vil produktet bli et negativt tall.

Når vi beregner summen av alle slike produkter og dividerer på antall produkter, n, får vi kovariansen mellom settene.

$\fbox{$Cov(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\displaystyle n^\phantom 1}$}$

Vi forutsetter her at vi arbeider på hele populasjonen. Som vi så i artikkelen om måltall i statistikk, kunne vi i tillegg til å beregne standardavvik ved å ta hensyn til hele populasjonen, også beregne standardavviket for et utvalg. Vi dividerte da med n − 1 i stedet for n og fikk et tall som var litt høyere. Tilsvarende kan vi også finne kovarians for et utvalg ved å dividere på n − 1. For korrelasjonskoeffisienten spiller dette imidlertid ingen rolle.

Kovariansen er på samme måte som korrelasjonskoeffisienten et mål på samvariasjonen i to datasett, men er beheftet med noen ulemper. Ett problem er at kovariansen vil ha en enhet som er avhengig av enhetene i datasettene. I eksempel 1 vil enheten bli cm · kg. Et annet problem er at størrelsen på kovariansen avhenger av størrelsen på dataene. Hvis vi for eksempel får en kovarians på 100, må vi undersøke dataene for å avgjøre om denne tyder på høy eller lav samvariasjon. I noen datasett kan det være det ene, i andre datasett det andre.

Vi gjør derfor en normering ved å dividere kovariansen på produktet av standardavvikene i datasettene vi sammenlikner. Da blir vi kvitt enheten, og får en standardisert tallverdi som varierer mellom −1 og 1. Dette er korrelasjonskoeffisienten, R:

$\fbox{$R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle \sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y}$}$

Skrevet ut i detalj:

$\fbox{$R(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2\displaystyle \sum_{i = 1}^n(Y_i − \overline Y)^2 \;}}$}$

Vi ser at n ikke er med i uttrykket, det er fordi n opptrer i både teller og nevner og kan forkortes bort.

I noen bøker brukes den greske bokstaven ρ i stedet for R som symbol for korrelasjonskoeffisienten.

Eksempel 4:

Vi skal beregne korrelasjonskoeffisienten i eksempel 1. Vi viser ikke utregningen av gjennomsnitt og standardavvik i hvert av datasettene, hvordan vi gjør dette drillet vi på i artikkelen om måltall i statistikk.

Vi kaller datasettet med høyder X og datasettet med vekt Y. Gjennomsnittene blir X = 168,2 og Y= 55,6, standardavvikene blir σX ≈ 2,088 og σY ≈ 3,200.

Summen av produktet av avstandene mellom hver verdi og gjennomsnittet i hvert av de 10 settene blir:

(164 − 168,2)(51 − 55,6) + (167 − 168,2)(56 − 55,6) + (170 − 168,2)(51 − 55,6)
+ (171 − 168,2)(62 − 55,6) + (166 − 168,2)(54 − 55,6) + (169 − 168,2)(56 − 55,6)
+ (168 − 168,2)(56 − 55,6) + (171 − 168,2)(59 − 55,6) + (168 − 168,2)(57 − 55,6)
+ (168 − 168,2)(54 − 55,6) = 41,8

Kovariansen blir $Cov(X, Y) = \frac{\displaystyle 41{,}8}{\displaystyle 10} = 4{,}18$.

Korrelasjonskoeffisienten blir $R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle \sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y} \approx \frac{\displaystyle 4{,}18}{\displaystyle 2{,}088 \cdot 3{,}200} \approx 0{,}626$.

Oppgave 1:

To datasett med 4 korresponderende verdier er vist i tabellen under:

X1 = 242 X2 = 266 X3 = 218 X4 = 234
Y1 = 363 Y2 = 399 Y3 = 327 Y4 = 351

Beregn

  1. Gjennomsnittet i hvert av settene, X og Y
     
  2. Standardavviket i hvert av settene, σX og σY
     
  3. Kovariansen mellom settene, Cov(X, Y)
     
  4. Korrelasjonskoeffisienten mellom settene, R(X, Y)

Se løsningsforslag

Det er sjelden vi regner ut korrelasjonskoeffisienten manuelt. På litt avanserte kalkulatorer legger vi bare inn dataene, og så gjør kalkulatoren resten av jobben. I Excel bruker vi funksjonen kovarians.p til å beregne kovarians, og korrelasjon til å beregne korrelasjonskoeffisienten. De tilsvarende funksjonene i GeoGebra heter Kovarians og Korrelasjonskoeffisient. I Excel kan vi bruke funksjonen kovarians.s hvis vi ønsker utvalgskovarians, det finnes ikke noe tilsvarende i GeoGebra.

RegnearkÅpne regneark med beregning av kovarians og korrelasjon på dataene fra eksempel 1

 
SkjermfilmSe filmen «Samvariasjon»

 

Sammenlikne forventning

l artikkelen om hypotesetesting lærte vi å teste hypoteser om at gjennomsnitt eller sannsynlighet avvek fra en forventet verdi. Naturligvis kan det også være veldig interessant å teste hypoteser om at gjennomsnitt eller sannsynlighet er forskjellig i to grupper. Det kan for eksempel være at en ønsker å teste om en ny medisin gir økt virkning, eller om en ny type gjødsel gir økt avling.

Målemodellen

artikkelen om hypotesetesting baserte vi oss på en testobservator

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$

som kan skrives som

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \sqrt \frac{\sigma^2}{n}}$

Her er X målt gjennomsnitt, μ0 forventet gjennomsnitt, σ fordelingens standardavvik, og n antall målinger.

Når vi skal arbeide med to utvalg, vil vi ha to gjennomsnitt, X og Y, to standardavvik, σX og σY, og to populasjonsstørrelser, nX og nY. Og i stedet for å bruke gjennomsnittets avvik fra forventet verdi, Xμ0, skal vi bruke forskjellen på gjennomsnittene, XY.

Testobservatoren blir

$\fbox{$Z = \frac{\displaystyle \overline X − \overline Y}{\displaystyle \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}}$}$

Eksempel 5:

To maskiner tilsetter sukker i en matvare. Maskin X er oppgitt å ha et standardavvik på 0,11, maskin Y er oppgitt å ha et standardavvik på 0,13. En bedrift ønsker å gjøre en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker. 70 prøver av maskin X gir et snitt på 10,103 gram, 85 prøver av maskin Y et snitt på 10,069 gram.

Hypotesene blir HA: XY, H0: X = Y.

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}103 − 10{,}069}{\displaystyle \sqrt{\frac{(0{,}11)^2}{70} + \frac{(0{,}13)^2}{85}}} \approx 1{,}764$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2

I (kvantil)normalfordelingstabellen finner vi at z0,05/2 ≈ 1,9600.

Siden |Z| ≯ z0,05/2, kan vi ikke forkaste vi nullhypotesen. Undersøkelsen indikerer ikke at det er forskjell på sukkermengdene.

Oppgave 2:

Etter en tid gjør bedriften nye målinger. 60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.

Sett opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene nå tilsetter forskjellig mengde sukker.

Se løsningsforslag

Ukjent standardavvik

Vi arbeider i dette avsnittet med noen eksempler som for oversiktens skyld baseres på svært få målinger. Vi forutsetter da at populasjonene er normalfordelte. 

I artikkelen om estimering og artikkelen om hypotesetesting sa vi at vi ofte ikke kjente fordelingers standardavvik nøyaktig. Da baserte vi oss på utvalgsstandardavviket med testobservator

$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

Og i stedet for å slå opp verdier i normalfordelingstabellen slo vi opp i t-fordelingstabellen.

For å tilpasse observatoren til to grupper, må vi altså erstatte Xμ0 med XY. Men observatoren må også tilpasses to utvalgsstandardavvik.

Dette gjør vi ved å erstatte $\frac{\displaystyle S}{\displaystyle \sqrt n}$ med $S_P \sqrt{\frac{\displaystyle 1}{\displaystyle n^{\phantom 1}_X} + \frac{\displaystyle 1}{\displaystyle n^{\phantom 1}_Y}}$, der $S_P$ et felles standardavvik beregnet for de to gruppene. P-en står for «pooled».

I artikkelen om måltall i statistikk så vi at vi beregnet standardavviket i et enkelt utvalg som

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$

SP beregnes etter tilsvarende mønster:

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i − \overline X)^2 + \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i − \overline Y)^2 \;}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y − 2}$}$

Vi ser at det krever mye regnearbeid å beregne SP for hånd. Siden kalkulatorer ofte har funksjoner for å finne standardavviket i et enkelt datasett, skal vi regne om litt, slik at vi finner SP uttrykt ved standardavviket til hvert av datasettene, Sx og Sy.

Multipliserer vi med $\sqrt{n − 1}$ på begge sider av likhetstegnet i uttrykket $S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$, får vi

$S \sqrt{n − 1} = \sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}$
$\Downarrow$
$S^2 (n − 1) = \displaystyle \sum_{i = 1}^n(X_i − \overline X)^2$

Det betyr at vi kan erstatte $\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2$ med $S^2(n − 1)$ for henholdsvis $S_X$ og $S_Y$ i formelen for $S_P$.

$\fbox{$S_P = \sqrt \frac{\displaystyle {S_X}^2(n^{\phantom 1}_X − 1) + {S_Y}^2(n^{\phantom 1}_Y − 1)}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y − 2}$}$

På denne formen er utregningene mye enklere hvis vi har verktøy til å finne Sx og Sy.

Og observatoren er altså

$\fbox{$T = \frac{\displaystyle \overline X − \overline Y}{\displaystyle S_P \sqrt{\frac{1}{n^{\phantom 1}_X} + \frac{1}{n^{\phantom 1}_Y}}}$}$

artikkelen om hypotesetesting og artikkelen om estimering lærte vi at når vi skulle slå opp i en t-fordelingstabell, måtte kjenne antall frihetsgrader, v, som vi satte lik antall observasjoner minus 1, v = n − 1. Nå har vi to sett med observasjoner, og får v = (nX − 1) + (ny − 1) = nX + ny − 2.

Eksempel 6:

Et oljeselskap ønsker å teste ut om en ny type tilsetningsstoff i bensin gir redusert forbruk i praksis, og gjør et forsøk med 5 biler. Uten tilsetningsstoff brukere bilene henholdsvis 4,7, 3,5, 3,3, 4,2 og 3,6 liter per 100 kilometer. Med tilsetningsstoff brukere bilene henholdsvis 4,2, 3,2, 3,0, 3,9 og 3,3 liter per 100 kilometer. Vi kaller observasjonene uten tilsetning for X, og observasjonene med tilsetning for Y.

Så skal vi på 5 % signifikansnivå utføre en hypotesetest på om tilsetningsstoffet gir redusert forbruk.

Hypotesene blir HA: XY, H0: X = Y.

Ved en slik sammenlikning blir det ingen forskjell på en høyresidig eller venstresidig test, det spørs bare hva vi trekker fra hva. Her velger vi å bruke en høyresidig test.

Vi har altså nX = nY = 5

Fra kalkulator eller PC får vi:

X = 3,86

Y = 3,52

Sx 0,5771

Sx 0,5070

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {0{,}5771}^2(5 − 1) + {0{,}5070}^2(5 − 1)}{\displaystyle 5 + 5 − 2} \approx 0{,}5432$

$T \approx \frac{\displaystyle 3{,}86 − 3{,}52}{\displaystyle 0{,}543 \sqrt{\frac{1}{5} + \frac{1}{5}}} \approx 0{,}991$

Vi forkaster nullhypotesen hvis T > tα (v)

Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 + 5 − 2 = 8 og finner 1,860.

Siden Tt0,05 (8), kan vi ikke forkaste nullhypotesen. Testen gir ikke grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Men som vi skal se i eksempel 7, har vi gjennomført denne testen på en klønete måte.

Oppgave 3:

En fruktbonde har to forskjellige typer kirsebærtrær, og vil undersøke om de gir forskjellig mengde frukt. Han veier frukthøsten fra 13 trær av type X og 12 trær av type Y, og får:

Type X 44 44 56 46 47 38 58 53 49 35 46 30 41
Type Y 35 47 55 29 40 39 32 41 42 57 51 39  

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Se løsningsforslag

Paret test

Hvis vi ser nøyere på dataene i eksempel 6, ser vi at konklusjonen om at tilsetningsstoffet ikke gir lavere forbruk virker underlig. For hver bil har faktisk en markant nedgang i forbruk. Problemet ligger i måten vi beregner det sammenslåtte standardavviket på. Vi ser på hvor stort avviket fra gjennomsnittet er i hver av de to gruppene, men dette er egentlig helt uinteressant. Det vi burde sett på var hvor mye hver bils endring i forbruk, XiYi avviker fra gjennomsnittsendringen, XY.

Vi bør altså heller beregne SP som

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n}\big(X_i − Y_i − (\overline X − \overline Y)\big)^2}{\displaystyle n − 1}$}$

Vi opererer her ikke lenger med nX + nY enkeltelementer, men med n = nX = nY par. (nX må være lik nY, ellers ville vi jo ikke kunne ha par).

Igjen gir formen på SP en del regnearbeid, men hvis vi lager et nytt datasett, D som består av differansen i hvert par, vil SP bli lik standardavviket til dette datasettet, noe vi kan beregne på kalkulator:

$\fbox{$D_i = X_i − Y_i, \; i \in [1, n] \
S_p = S_D$}$

I testobservatoren må vi også ta hensyn til at vi bare har n observasjoner:

$\fbox{$T = \frac{\displaystyle \overline D}{\displaystyle S_p \frac{1}{\sqrt n}}$}$

Eksempel 7:

Vi skal gjøre om igjen undersøkelsen fra eksempel 6, men denne gangen som en paret test.

Hypotesene blir som før HA: XY, H0: X = Y.

Vi beregner:

D1 = 4,7 − 4,2 = 0,5, D2 = 3,5 − 3,2 = 0,3, D3 = 3,3 − 3,0 = 0,3, D4 = 4,2 − 3,9 = 0,3, D5 = 3,6 − 3,3 = 0,3

Fra kalkulator eller PC får vi:

D = 0,34

Sp = SD ≈ 0,0894

Vi beregner:

$T \approx \frac{\displaystyle 0{,}34}{\displaystyle 0{,}0894 \frac{1}{\sqrt 5}} \approx 8{,}504$

Vi har her en høyresidig test, og forkaster nullhypotesen hvis T > tα (v).

Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 − 1 = 4 og finner 2,132.

Siden Tt0,05 (4), kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Oppgave 4:

En lege ønsker å undersøke om en medisin, som en bieffekt, reduserer blodtrykket. Han måler blodtrykket til 15 pasienter før og etter de begynner å ta medisinen, og får følgende resultat

Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84
Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om medisinen reduserer blodtrykket.

Se løsningsforslag

Excel har en egen funksjon for å utføre t-test mellom to datasett, t.test. Brukeren må angi hvilke celleområder de to datasettene ligger i, om det er en ensidig eller tosidig test, og om testen skal gjøres paret eller ikke uparet. t.test beregner P-verdi. Er denne verdien mindre enn testens signifikansnivå, kan nullhypotesen forkastes.

Regnearket under har to ark. Ett for uparet test og ett for paret test.

RegnearkÅpne regneark med beregninger fra eksempel 6 og 7 og bruk av «t.test»
 

Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, har også funksjonalitet for slike beregninger.

Binomisk modell

I artikkelen om estimering og artikkelen om hypotesetesting har vi sett at vi i en binomisk modell ikke baserer oss på gjennomsnittet av et antall målinger, men en estimert sannsynlighet for at elementer i en populasjon har en gitt egenskap. Denne estimerte sannsynligheten anga vi med $\hat p$. Vi gjorde et utvalg på n elementer, lot X være antall av disse som hadde egenskapen, og estimerte $\hat p$ som «gunstige på mulige», $\hat p = \frac{\displaystyle X}{\displaystyle n}$.

Nå har vi to utvalg, med henholdsvis n1 og n2 elementer, og estimerte sannsynligheter $\hat p_1 = \frac{\displaystyle X_1}{\displaystyle n_1}$ og $\hat p_2 = \frac{\displaystyle X_2}{\displaystyle n_2}$.

Differansen mellom de to sannsynlighetene, $p_1 − p_2$, estimeres med $\hat p_1 − \hat p_2$.

Vi har da:

$E(\hat p_1 − \hat p_2) = p_1 − p_2$.

Og, når X1 og X2 er uavhengige:

$Var(\hat p_1 − \hat p_2) = Var(\hat p_1) + Var(−\hat p_2) = Var(\hat p_1) + (−1)^2Var(\hat p_2) =$

$Var(\hat p_1) + Var(\hat p_2) = \frac{\displaystyle p_1(1 − p_1)}{\displaystyle n_1} + \frac{\displaystyle p_2(1 − p_2)}{\displaystyle n_2}$

Hvis nullhypotesen er at p1 = p2, kan vi under forutsetning av at den er riktig erstatte p1 og p2 med et enkelt symbol, p, og vi får:

$Var(\hat p_1 − \hat p_2) = p(1 − p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})$

Hvis p1 = p2, kan vi se på de to utvalgene som ett felles utvalg med n1 + n2 elementer der X1 + X2 har en gitt egenskap. Vi estimerer derfor p som

$\fbox{$\hat p = \frac{\displaystyle X_1 + X_2}{\displaystyle n_1 + n_2}$}$

Og som testobservator får vi

$\fbox{$Z = \frac{\displaystyle \hat p_1 − \hat p_2}{\displaystyle \sqrt{\hat p(1 − \hat p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})}}$}$

Dersom n1 og n2 er store nok, vil Z være tilnærmet standard normalfordelt. Som en tommelfingerregel for hva som menes med store nok, bør
$n_1 \hat p_1, n_1(1 − \hat p_1), n_2 \hat p_2, n_2(1 − \hat p_2)$ alle være større eller lik 5.

Eksempel 8:

En bedrift produserer PC-skjermer ved to forskjellige anlegg. Noen skjermer er defekte, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekte skjermer ved de to anleggene. 200 skjermer undersøkes på hvert anlegg. På anlegg 1 er 17 defekte, på anlegg 2 er 31 defekte. Vi kaller sannsynligheten for defekte ved anlegg 1 for p1 og sannsynligheten for defekte ved anlegg 2 for p2, og skal teste følgende hypotese på 5 % signifikansnivå:

HA: p1p2 mot H0: p1p2.

Vi har n1n2 = 200.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 17}{\displaystyle 200} = 0{,}0850$

$\hat p_2 = \frac{\displaystyle 31}{\displaystyle 200} \approx 0{,}1550$

$\hat p = \frac{\displaystyle 17 + 33}{\displaystyle 200 + 200} = 0{,}1200$

Og vi får

$Z = \frac{\displaystyle 0{,}0850 − 0{,}1550}{\displaystyle \sqrt{0{,}1200(1 − 0{,}1200)(\frac{\displaystyle 1}{\displaystyle 200} + \frac{\displaystyle 1}{\displaystyle 200})}} \approx −2{,}154$

Siden vi har en tosidig test med 5 % signifikansnivå, skal vi forkaste nullhypotesen hvis |Z| > z0,05/2 = z0,025. Vi slår opp i (kvantil)normalfordelingstabellen, og finner z0,025 ≈ 1,9600.

Siden |Z| = 2,154 > 1,9600, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i defektsannsynligheten på de to anleggene.

Oppgave 5:

En bedrift produserer bukser ved to forskjellige produksjonslinjer. En del av buksene har defekte sømmer, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekter ved de to linjene. Ved første produksjonslinje er 147 av 2500 defekte, ved andre er 151 av 2000 defekte. Sett opp og test en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene. Bruk 5 % signifikansnivå.

Se løsningsforslag

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
  • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.

Hypotesetesting

I eksempel 9 i artikkelen om estimering laget vi konfidensintervaller for sannsynligheten for å få kron når vi kastet en mistenkelig mynt 50 ganger og fikk 33 kron. Vi så at et 95 % konfidensintervall ikke inkluderte sannsynligheten til en rettferdig mynt, som er 0,5. Det er derfor en plausibel hypotese at mynten er jukset med, slik at den gir flere kron enn mynt. I denne artikkelen skal vi lære å stille opp og teste slike hypoteser.

Binomisk modell

Eksempel 1:

Vi ønsker å teste hypotesen om at en mynt gir for mange kron når vi får 33 kron i 50 kast. Vi kan aldri bekrefte eller avsanne en slik hypotese siden myntkast er et stokastisk forsøk som styres av tilfeldigheter, men vi kan anslå med en viss sannsynlighet om den er riktig eller ikke. La oss si at vi ønsker å akseptere hypotesen hvis det er mindre enn 5 % sannsynlighet for at en rettferdig mynt gir 33 eller flere kron i 50 kast.

Vi har her en binomisk sannsynlighetsfordeling. Hvis mynten er rettferdig, er sannsynligheten for kron p = 0,5, og vi kan forvente å få np = 50 · 0,5 = 25 kron. Variansen til fordelingen er np(1 – p) = 50 · 0,5(1 – 0,5) = 12,5. Som vi så i artikkelen om sentralgrenseteoremet, vil vi en tilnærming av denne binomiske fordelingen med en normalfordeling, N(25, 12,5) være god fordi np(1 – p) = 12,5 > 10. 

Hvis vi får X kron i 50 kast, er sannsynligheten for dette mindre jo lengre X ligger over 25, det vil si jo lengre X ligger til høyre for toppen av normalfordelingskurven. Sagt på en annen måte blir arealet under normalfordelingskurven til venstre for X større og større, og arealet til høyre mindre og mindre. Det vi ønsker å finne ut, er om 33 kron havner til høyre for verdien i normalfordelingen som har 95 % av arealet til venstre for seg og 5 % av arealet til høyre.

I en standard normalfordeling finner vi denne verdien ved å slå opp 0,05 i (kvantil)normalfordelingstabellen, og finne 1,6449.

For å finne ut om X = 33 tilsvarer en verdi til venstre eller høyre for 1,6449 i en standard normalfordeling, gjør vi en standardisering av X, slik det er beskrevet i artikkelen om normalfordelingen. Vi subtraherer forventningsverdien fra resultatet og dividerer på fordelingens standardavvik.

Vi får $Z = \frac{\displaystyle 33 – 25}{\displaystyle \sqrt{12{,}5}} \approx 2{,}263$. Siden dette er til høyre for 1,6449, kan vi konkludere med at det er mindre enn 5 % sannsynlig å få 33 kron med en rettferdig mynt, og vi aksepterer hypotesen om at mynten gir for mange kron.

Situasjonen er illustrert i figuren under.

Illustrasjon av sannsynlighetsfordelinger av antall kron ved 50 myntkast

Formelt sett i hypotesetesting starter vi med å sette opp en alternativ hypotese og en nullhypotese. Den alternative hypotesen består av det vi skal teste, og skrives som HA. I eksempel 1 er den alternative hypotesen HA: p > 0,5, der p er sannsynligheten for å få kron. Nullhypotesen skrives som H0 og består av det motsatte alternativet. I eksempel 1 er nullhypotesen H0: p = 0,5. Det er ofte lettest å sette opp den alternative hypotesen først.

Så trenger vi en testobservator, som er variabelen vi bruker i testen. I eksempel 1 var observatoren X, som representerte antall kron.

Til slutt må vi bestemme oss for et forkastningsområde for testen. Forkastningsområdet er slik at hvis testobservatoren havner i området, skal nullhypotesen forkastes, og vi aksepterer derved den alternative hypotesen. I eksempel 1 tilsvarte forkastningsområdet det gule feltet i figuren over.

Sannsynligheten for at observatoren havner i forkastningsområdet kalles testens signifikansnivå, og betegnes ofte med α. I eksempel 1 var signifikansnivået α = 0,05. Merk at størrelsen på forkastningsområdet er beregnet ut fra forutsetningen om at nullhypotesen er sann. Grensen for forkastningsområdet i normalfordelingen kaller vi zα. I eksempel 1 var zα = z0,05 ≈ 1,6449.

I eksempel 1 brukte vi observatoren X, som var antall kron, deretter normaliserte vi resultatet slik at vi kunne bruke standard normalfordeling til å bestemme forkastningsområdet. Det kan imidlertid være praktisk å ha en observator som er ferdig standardisert. Hvis $X \sim N(\mu, \, \sigma^2)$, setter vi $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, der μ er fordelingens forventning og σ fordelingens standardavvik.

I en binomisk fordeling har vi at $\mu = np$ og $\sigma = \sqrt{np(1 – p)}$, så vi setter

$Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Her er p0 sannsynligheten i nullhypotesen, og n antall forsøk. I eksempel 1 var dette henholdsvis 0,5 og 50.

Eksempel 2:

Vi kaster en mynt 1000 ganger, får 524 kron, og ønsker å teste en hypotese om at mynten gir for mange kron, med signifikansnivå 5 %.

Vi setter opp:

HA: p > 0,5, H0: p = 0,5

Testobservator:

$Z = \frac{\displaystyle 524 – 1000 \cdot 0{,}5}{\displaystyle \sqrt{1000 \cdot 0{,}5(1 – 0{,}5)}} \approx 1{,}518$

zα = z0,05 ≈ 1,6449, som i eksempel 1.

Siden Z ≯ zα, kan ikke nullhypotesen forkastes på signifikansnivå 5 %. Det er altså ikke grunnlag for å hevde at mynten gir for mange kron.

Oppgave 1:

Vi kaster en terning hundre ganger og får 20 seksere. Sett opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og test hypotesen med et signifikansnivå på 5 %.

Se løsningsforslag

Oppgave 2:

Vi kaster terningen fra oppgave 1 tusen ganger og får 200 seksere. Test hypotesen fra oppgave 1 på nytt med de nye dataene, men med samme signifikansnivå. Sammenlikn med resultatet fra oppgave 1.

Se løsningsforslag

I et binomisk forsøk er X er det samme som $n \hat p$, der n er antall forsøk og $\hat p$ den estimerte sannsynligheten for suksess i forsøket. Vi kan altså skrive testobservatoren som

$Z = \frac{\displaystyle n \hat p – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Forkorter vi med n, får vi

$Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$

som vi kan bruke hvis vi baserer oss på den estimerte sannsynligheten for suksess i stedet for antall oppnådde suksesser.

Vi oppsummerer:

$\fbox{$\begin{align} &\text{Testobservator i binomisk modell: }\\
&Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}} \\
&\text{eller} \\
&Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}} \\
&\text{Sammenliknes med } z_\alpha \end{align}$}$

Vi forutsetter at vi har gjort om lag 30 forsøk eller mer.

Målemodellen

I artikkelen om estimering så vi på målemodellen, og beregnet grensene for et konfidensintervall basert på et antall målinger. Vi kan på samme måte benytte målinger i en hypotesetest. I stedet for å basere testobservatoren på antall suksesser eller estimert sannsynlighet for suksess, baserer vi den på gjennomsnitt og standardavvik: 

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$.

Her er X målt gjennomsnitt, μ0 forventet gjennomsnitt, σ standardavviket og n antall målinger. Generelt bør vi gjøre minst 30 målinger, men vi kan fire på dette kravet hvis vi arbeider med en normalfordelt populasjon.

Eksempel 3:

En maskin som produserer dressing skal i gjennomsnitt tilsette 10 ml. olje pr. pakke. Mengden olje er normalfordelt med et standardavvik på σ = 0,65 ml. 

Det er mistanke om at maskinen er feiljustert og tilsetter for mye olje, så bedriften måler oljeinnholdet i 20 pakker, og finner et gjennomsnitt på 10,5 ml.

De ønsker så å teste en hypotese om at oljeinnholdet er høyere enn 10 ml, med et signifikansnivå på 1 %.

Hypotesene blir HA: μ > 10, H0: μ = 10.

Vi har X = 10,5, og σ = 0,65.

Så vi får: Testobservator: $Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}5 – 10}{\displaystyle \frac{0{,}65}{\sqrt{20}}} \approx 3{,}44$.

Fra (kvantil)normalfordelingstabellen finner vi at zα = z0,01 ≈ 2,3263.

Siden Zzα, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at maskinen i gjennomsnitt tilsetter mer enn 10 ml. olje.

Oppgave 3:

Etter å ha justert maskinen i eksempel 3, måles gjennomsnittsoljeinnholdet i 25 pakker til 10,3 ml. Sett opp og gjennomfør en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet fremdeles er høyere enn 10 ml.

Se løsningsforslag

Nullhypotesene vi har operert med så langt, har bestått i at forventningen har en bestemt verdi, for eksempel H0: μ = 10 i eksempel 3. Men i mange tilfeller vil det være mer realistisk med en nullhypotese som hevder at forventningen er mindre eller lik en bestemt verdi, for eksempel at en fabrikant påstår at fettinnholdet i deres kjøttdeig i gjennomsnitt er maksimalt 10 gram, noe som vil gi H0: μ ≤ 10 som nullhypotese. Dette påvirker imidlertid ikke resultatet av hypotesetesten, fordi kriteriet for å forkaste nullhypotesen er det samme, og den alternative hypotesen er den samme.

Eksempel 4:

En produsent hevder at deres syltetøy i gjennomsnitt inneholder maksimalt 20 gram sukker per 100 gram syltetøy. Skal vi sette opp en hypotesetest om at syltetøyet inneholder mer sukker, blir den alternative hypotesen HA: μ > 20, og nullhypotesen H0: μ ≤ 20.

Ukjent standardavvik

Som vi så i artikkelen om estimering, kjenner vi ofte ikke standardavviket i en populasjon. Da tilnærmer vi med utvalgsstandardavviket, men innfører da også en usikkerhet. I artikkelen om estimering så vi da at vi skiftet ut normalfordelingen med t-fordeling, noe som førte til at konfidensintervallet ble bredere.

Dersom vi i en hypotesetest ikke kjenner populasjonens standardavvik, tilnærmer vi på samme måte med utvalgsstandardavviket og skifter fra normalfordeling til t-fordeling, med antall frihetsgrader lik antall observasjoner minus 1. t-kurvene blir bredere jo færre frihetsgrader vi har, noe som betyr at forkastningsområdet i en hypotesetest beveger seg bort fra gjennomsnittet. Med andre ord blir det vanskeligere blir å forkaste jo færre observasjoner vi har,

Testobservatoren blir omtrent den samme som når standardavviket er kjent, men vi kaller den T i stedet for Z, og bruker S i stedet for σ:

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

For å finne grensen for forkastningsområdet bruker vi (kvantil)t-fordelingstabellen i stedet for normalfordelingstabellen.

Eksempel 5:

På en planteskole oppdager de at 15 planter som ved et uhell er satt i feil type jord later til å ha blitt høyere enn normalt. Høyden på denne plantetypen har i vanlig jord vært normalfordelt med et gjennomsnitt på 30,2 centimeter. Gjennomsnittshøyden på plantene i feil jord måles til 31,2 centimeter, med et standardavvik på 2,3 centimeter. Nå ønsker planteskolen å gjennomføre en hypotesetest på signifikansnivå 5 % for å se om den andre typen jord øker gjennomsnittshøyden til plantene.

Hypotesene blir HA: μ > 30,2, H0: μ = 30,2.

Vi har X = 31,2 og S = 2,3.

Fordi σ er ukjent, må vi bruke t-fordeling med a = α = 0,05 og v = 15 – 1 = 14 for å finne grensen til forkastningsområdet. Vi slår opp i (kvantil) t-fordelingstabellen og får t0,05 (14) ≈ 1,761.

Testobservatoren blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 31{,}2 – 30{,}2}{\displaystyle \frac{2{,}3}{\sqrt{15}}} \approx 1{,}68$.

Siden Tt0,05 (14), kan vi ikke forkaste nullhypotesen, og har på 5 % signifikansnivå ikke grunnlag for å si at den andre typen jord øker gjennomsnittshøyden til plantene.

Hadde vi i stedet for t-fordelingstabellen brukt normalfordelingstabellen, ville grensa til forkastningsområdet blitt z0,05 ≈ 1,6449, og siden T > z0,05, ville vi forkastet nullhypotesen og akseptert at den nye typen jord økte gjennomsnittshøyden til plantene. En feil som oppstod på grunn av at vi da ikke tok hensyn til den økte usikkerheten estimeringen av standardavviket førte med seg.

Oppgave 4:

Ventetiden på å få svar på en servicetelefon er normalfordelt, med en gjennomsnittlig ventetid oppgitt til 30 sekunder. En internkontroll med 15 oppringninger på tilfeldige tidspunkter viser en gjennomsnittlig ventetid på 37 sekunder, med et standardavvik på 14. Sett opp og gjennomfør en hypotesetest på signifikansnivå 5 % på om gjennomsnittlig ventetid er satt for lavt.

Se løsningsforslag

Vi oppsummerer:

$\fbox{$\begin{align}& \text{Testobservator i målemodell: }\\
&\sigma \text{ kjent:} \\
&Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} \\
&\text{ } \\
&\sigma \text{ ukjent:} \\
&T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} \\
&\text{ } \\
&Z \text{ sammenliknes med } z_{\large \alpha} \text{ og } T \text{ med } t_{\large \alpha \, (n – 1)} \end{align}$}$

Dersom vi har om lag 30 målinger eller mer, kan vi bruke normalfordeling i stedet for t-fordeling siden de to fordelingene da er omtrent like.

Ensidige og tosidige tester

I alle eksemplene og oppgavene vi har arbeidet med så langt, har den alternative hypoteser vært at forventningen ligger over en gitt verdi, HA: μ > x. Forkastningsområdet for nullhypotesen har da ligget til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til høyre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z > zα eller T > tα (v). Men selvfølgelig er det like aktuelt å teste det motsatte, at forventningen ligger under en gitt verdi, HA: μ < x. Forkastningsområdet for nullhypotesen vil da ligge til venstre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til venstre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z < –zα eller T < –tα (v).

Eksempel 6:

I et oppdrettsanlegg mistenker de at laksen ikke har nådd forventet vekt, som er 4,5 kg. De fanger 29 fisk og måler at gjennomsnittsvekten er X = 4,24 kg med et standardavvik på S = 0,71 kg. Så vil de gjennomføre en hypotesetest med signifikansnivå på 5 % på om laksen ikke har forventet vekt.

Hypotesene blir HA: μ < 4,5, H0: μ = 4,5.

Vi bruker t-fordeling med 29 – 1 = 28 frihetsgrader.

Testobservator blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 4{,}24 – 4{,}5}{\displaystyle \frac{0{,}71}{\sqrt 29}} \approx -1{,}972$.

Grenseverdien for forkastningsområdet blir –t0,05 (28) ≈ -1,701.

Siden T < –t0,05 (28) , forkaster vi nullhypotesen, og aksepterer hypotesen om at laksen har for lav vekt.

Oppgave 5:

En produsent hevder at syltetøyet deres i gjennomsnitt inneholder minst 50 % bær. Mattilsynet mistenker at bærinnholdet er lavere, måler innholdet i 30 glass syltetøy, og finner et gjennomsnitt på 47,7 %, med et standardavvik på 5,7 %. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder for lite bær.

Se løsningsforslag

Tester på om forventningen ligger over en gitt verdi, eller under en gitt verdi, kalles ensidige tester. Vi har sett at de alternative hypotesene i disse tilfellene er henholdsvis HA: μ > x eller HA: μx.

Men det kan også være aktuelt å teste om forventningen er ulik en gitt verdi. Det kalles en tosidig test, og den alternative hypotesen blir HA: μx. Forkastningsområdet for nullhypotesen vil da fordele seg på to sider, med den ene halvparten til venstre, og den andre halvparten til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde på begge sider under fordelingskurve.

Vi forkaster nullhypotesen hvis |Z| > zα/2 eller |T| > tα/2 (v).

Vi legger merke til at grensen for forkastningsområdet nå beregnes basert på α/2 i stedet for α. Det er fordi hvert av forkastningsområdene nå er halvparten så store som i en ensidig test.

Eksempel 7:

En maskin fyller tomatbønner på boks. Brutto fyllvekt oppgis å være normalfordelt med et gjennomsnitt på 425 gram og et standardavvik på 5 gram. Etter en overhaling gjennomføres en sjekk på 20 bokser, som i snitt viser seg å inneholde 427 gram. Det skal så gjøres en hypotesetest på 5 % signifikansnivå på om mengden bønner i boksene er korrekt.

Hypotesene blir HA: μ ≠ 425, H0: μ = 425.

Testobservator blir $Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 427 – 425}{\displaystyle \frac{5}{\sqrt 20}} \approx 1{,}789$.

Grenseverdien for forkastningsområdet blir z0,05/2 ≈ 1,960.

Siden |Z| ≯ z0,05/2 , kan vi ikke forkaste nullhypotesen om at vekten avviker fra gjennomsnittet.

Oppgave 6:

Mengden sukker en maskin tilsetter i en kakemiks er oppgitt å være normalfordelt med et gjennomsnitt på 83 gram. En bedrift tar 15 stikkprøver, og finner ut at gjennomsnittlig mengde sukker er 82,5 gram med et standardavvik på 0,6 gram. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om sukkermengden er korrekt.

Se løsningsforslag

Excel har en funksjonen for hypotesetesting, z.test, som returnerer en såkalt P-verdi. P-verdien er, gitt at nullhypotesen er sann, sannsynligheten for et resultat som er likt med eller mer ekstremt enn det observerte. Definisjonen er tung, men anvendelsen enkel: Hvis P-verdien er lavere enn testens signifikansnivå, kan nullhypotesen forkastes. Denne funksjonene er imidlertid litt klumpete i bruk, så vi går ikke nærmere inn på den. Den krever at alle testdata listes opp, det er ikke nok å angi et gjennomsnitt, og den er dessuten låst til høyresidige tester, så for venstresidige eller dobbeltsidige tester må det gjøres noe regnearbeid i tillegg. Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, er imidlertid både enkel og fleksibel å bruke til slike tester.

Feil og teststyrke

Vi kan, som nevnt innledningsvis, aldri avsanne eller bekrefte en hypotese med en hypotesetest, bare med en viss sannsynlighet anslå om den er riktig eller ikke. Det betyr at vi i en hypotesetest kan komme til å trekke feil konklusjon. Det er to feil vi kan gjøre:

  1. Forkaste nullhypotesen selv om den er sann. Dette kalles forkastningsfeil, eller type 1 feil.
     
  2. Beholde nullhypotesen selv om den er usann. Dette kalles godtakingsfeil, eller type 2 feil.

Feiltypene refererer altså til nullhypotesen, ikke den alternative hypotesen.

Som vi har sett, forkaster vi nullhypotesen hvis testobservatoren havner i forkastningsområdet. Grensen for forkastningsområdet beregnes ut fra en antakelse om at nullhypotesen er sann.

Eksempel 8:

Vi mistenker at en mynt gir for mange kron. Nullhypotesen er at mynten er rettferdig, med 50 % sjanse for kron: H0: p = 0,5. Den alternative hypotesen er at mynten gir for mange kron: HA: p > 0,5.

I eksempel 2 så vi at 524 kron i 1000 kast ikke var nok til å forkaste nullhypotesen med et signifikansnivå på 5 %. Men hvor går egentlig grensen for forkastningsområdet?

I eksempel 2 så vi at z ≈ 1,6449 dannet grensen i en standard normalfordeling. For å finne ut hvilken x i den opprinnelige fordelingen som tilsvarer denne verdien, bruker vi standardiseringsformelen $z = \frac{\displaystyle x – np}{\displaystyle \sqrt{np(1 – p)}}$ baklengs:

$z = 1{,}6449$
$\Downarrow$
$\frac{\displaystyle x – 0{,}5 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}5(1-0{,}5)}} = 1{,}6449$
$\Downarrow$
$x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}5(1-0{,}5)} + 0{,}5 \cdot 1000 \approx 526$

Grensen for forkastningsområdet går altså på om lag 526 kron.

Men hva om det i eksempel 8 også var mulig at mynten ga for få kron? Da ville vi ikke lenger ha noen fast p å regne med når vi skulle beregne grensen for forkastningsområdet.

Hvis p var 0,49, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}49(1-0{,}49)} + 0{,}49 \cdot 1000 \approx 516$.

Hvis p var 0,48, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}48(1-0{,}48)} + 0{,}48 \cdot 1000 \approx 505$.

Jo lavere p, jo lenger mot venstre kryper 5 %-grensa. Sagt på en annen måte blir sannsynligheten for å få 526 kron eller mer lavere og lavere, jo lavere p er. Det betyr at sannsynligheten for å feilaktig forkaste nullhypotesen også blir lavere og lavere, jo lavere p er. Så den maksimale sannsynligheten for å feilaktig forkaste nullhypotesen er når p = 0,5. I det verst tenkelige tilfelle er altså sannsynligheten for å gjøre en forkastningsfeil den samme som testens signifikansnivå.

Hvis den alternative hypotesen er sann, er det ikke mulig å gjøre forkastningsfeil, for da er det jo riktig å forkaste nullhypotesen. Men vi kan gjøre en godtakingsfeil, som er det motsatte, godta nullhypotesen selv om den skulle vært forkastet.

Eksempel 9:

Hvis mynten fra eksempel 8 faktisk gir for mange kron, det vil si at p > 0,5, gjør vi en godtakingsfeil hvis vi godtar nullhypotesen om at mynten ikke gir for mange kron. Hvor sannsynlig dette er, avhenger av hva verdien til p faktisk er.

Vi godtar altså nullhypotesen hvis vi får færre enn 526 kron.

Er p = 0,51, er sannsynligheten for å få færre enn 526 kron

$G(\frac{\displaystyle 526 – 0{,}51 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}51(1-0{,}51)}}) \approx G(1{,}01)$.

Fra normalfordelingstabellen ser vi at dette er ca. 0,8443. Sannsynligheten for å gjøre en godtakingsfeil er altså over 84 % hvis det bare er 0,01 som skiller mynten fra en rettferdig mynt.

Men når p øker, synker sannsynligheten for godtakingsfeil:

p 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60
%godtakingsfeil 84 65 40 19 6,4 1,5 0,25 0,03 0,0019 0,0001

Vi ser at hvis mynten bare gir et par prosent for mange kron, er det mer sannsynlig at vi ikke oppdager feilen enn at vi gjør det. Men gir den så mye som 5 % for mange kron, vil vi oppdage feilen i over 93 % av tilfellene. 

En hypotesetests styrkefunksjon gir sannsynligheten for å forkaste nullhypotesen. Funksjonen kalles ofte γ eller β.

For situasjonen i eksempel 8 og 9 får vi for eksempel at

$\gamma(p) = 1 – G(\frac{\displaystyle 526 – p \cdot 1000}{\displaystyle \sqrt{1000 \cdot p(1-p)}})$,

med en graf som vist under:

Styrkefunksjon for p med 1000 forsøk.

Vi ser at sannsynligheten for å forkaste nullhypotesen – at mynten ikke gir for mange kron er omtrent 0 når p ≤ 0,49, den er lik signifikansnivået på 5 % når p = 0,5, og nesten 100 % når p ≥ 0,57.

Vi kan øke styrken, det vil si redusere sannsynligheten for godtakingsfeil, ved å redusere signifikansnivået, men da øker vi samtidig sannsynligheten for forkastningsfeil. Vil vi øke styrken uten å ofre signifikansnivået, må vi øke antall observasjoner.

I figuren under har vi i tillegg til styrkefunksjonen vist over, også tegnet inn styrkefunksjonen ved 2000 observasjoner med rødt, og for 4000 observasjoner med grønt. Signifikansnivået er 5 % i alle tilfeller.

Styrkefunksjoner for p med 1000, 2000 og 4000 forsøk.

Vi ser at jo flere observasjoner, jo brattere stiger kurven, og jo nærmere kommer den det ideelle, å hoppe direkte fra 0 til 1 idet p passerer 0,5.

Vi har her brukt en ensidig test i en binomisk modell, men prinsippet er det samme i andre modeller.

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.

Estimering

Dersom vi er ute etter å finne gjennomsnittsvekta på fisk i et oppdrettsanlegg, kan vi ta opp all fisken, veie hvert individ, og ut fra det beregne gjennomsnittet, slik vi lærte i avsnittet om måltall i statistikk. Vi undersøker da hele populasjonen,

I praksis vil imidlertid en slik fremgangsmåte være lite hensiktsmessig. I stedet gjør vi et utvalg, og gir på bakgrunn av dette et anslag av vekta.

Vi kan nøye oss med å ta opp én enkelt fisk, men intuitivt skjønner vi at det vil være bedre å ta opp flere og basere anslaget på gjennomsnittsvekta.

I artikkelen om sentralgrenseteoremet så vi at hvis vi har n variabler som er uavhengige og har samme fordeling, med forventning μ og varians σ2, vil gjennomsnittet av variablene være tilnærmet normalfordelt med forventning $\mu$ og varians $\frac{\displaystyle \sigma^2}{\displaystyle n}$. Vi antydet at n burde være > 30 for at tilnærmingen skulle være god, men hvis vi kan anta at variablene i utgangspunktet er tilnærmet normalfordelt, kan vi fire på dette kravet.

Sørger vi for at fisken vi tar opp blir valgt tilfeldig, vil altså variansen til gjennomsnittsvekta være $\frac{\displaystyle \sigma^2}{\displaystyle n}$, der n er antall fisk vi har veid og σ2 variansen til vekta i fiskepopulasjonen. Jo flere fisk vi veier, jo større blir nevneren i brøken, og jo mindre blir variansen til gjennomsnittet.

Å anslå verdier basert på undersøkelser kaller vi å estimere. For å angi et estimat, bruker vi en estimator. For å indikere at en variabel er en estimator, bruker vi en «hatt», for eksempel er $\hat \theta$ en estimator for $\theta$.

Dersom en estimator gir den forventede verdien til en variabel, det vil si at $E(\hat \theta) = \theta$, kalles estimatoren forventningsrett. I motsatt fall er den forventningsskjev.

Målemodellen

I målemodellen baserer vi estimater på måling av verdier, for eksempel vekta til fisk. En forventningsrett estimator for forventningen, μ, er da gjennomsnittet, $\hat \mu = \overline X$. Har vi gjort n målinger av X, har vi altså

$\fbox{$\hat \mu = \overline X = \frac{\displaystyle X_1 + X_2 + \dots + X_n}{\displaystyle n}$}$
 
Eksempel 1:

Vi har tatt opp og veid 13 laks fra et oppdrettsanlegg. Laksene veide
3,9, 3,6, 5,1, 4,8, 3,7, 3,2, 4,6, 5,4, 3,0, 4,2, 3,8, 4,4 og 4,1 kg.

Et forventningsrett estimat for gjennomsnittsvekta til all laksen i anlegget er da gjennomsnittet av veiingene:

$\hat \mu = \overline X = {\large \frac{3{,}9 + 3{,}6 + 5{,}1 + 4{,}8 + 3{,}7 + 3{,}2 + 4{,}6 + 5{,}4 + 3{,}0 + 4{,}2 + 3{,}8 + 4{,}4 + 4{,}1}{13}} \approx 4{,}14$. Altså om lag 4,14 kg.

Oppgave 1:

En enhet i en bedrift produserer støtfangere. Dagsproduksjonen på seks tilfeldig valgte dager er
210, 220, 210, 225, 220 og 217 enheter. Beregn et forventningsrett estimat for hvor mange støtfangere som produseres daglig.

Se løsningsforslag

Som vi nevner i artikkelen om måltall i statistikk, er det imidlertid sjelden vi beregner gjennomsnitt for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen gjennomsnitt i Excel eller GeoGebra.

Rapportering

Hvor sikkert et estimat er, sier imidlertid ikke $\hat \mu$ noe om, men estimater har naturligvis en usikkerhet knyttet til seg. Rimelig nok er denne usikkerheten avhengig av antall målinger estimatet er basert på. Jo færre målinger, jo mer usikkert estimat. Usikkerheten er også avhengig av standardavviket, σ, til populasjonen vi estimerer i. Jo større σ er, jo større er spredningen, og jo mer usikkert er estimatet. Dersom σ er 0, har vi ikke spredning, og en enkelt måling vil gi et estimat uten usikkerhet.

Når vi angir et estimat, er det vanlig å angi usikkerheten til estimatet, på formen «estimert verdi pluss/minus standardavviket til estimatoren».

Dersom estimatoren er gjennomsnittet av n målinger, er altså variansen til estimatoren $\frac{\displaystyle \sigma^2}{\displaystyle n}$, og følgelig standardavviket til estimatoren $\frac{\displaystyle \sigma}{\displaystyle \sqrt n}$. Så i målemodellen har vi

$\fbox{Rapportering: $\hat \mu \pm \frac{\displaystyle \sigma}{\displaystyle \sqrt n}$}$
 
Eksempel 2:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks vi tok opp var om lag 4,14 kg.

Hvis standardavviket til vekta i fiskepopulasjonen er σ = 0,7, vil en rapportering av estimatet til gjennomsnittsvekta derfor bli

$4{,}14 \pm \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}19$

Oppgave 2:

I oppgave 1 estimerte vi dagsproduksjonen av støtfangere basert på at produksjonen i seks forskjellige dager var henholdsvis 210, 220, 210, 225, 220 og 217 enheter. Anta at standardavviket til produksjonen er σ = 5,8, og angi estimert gjennomsnitt i form av en rapportering.

Se løsningsforslag

Av og til kjenner vi en populasjons standardavvik, for eksempel hvis avviket skyldes dokumenterte unøyaktigheter i et måleinstrument. Men som regel er standardavviket ukjent, og må estimeres, det også.

Det vil da være naturlig å ta utgangspunkt i det standardavviket vi kan beregne ut fra de målingene vi har gjort, utvalgsstandardavviket. I artikkelen om måltall i statistikk så vi at hvis vi har gjort n målinger av X og beregnet at gjennomsnittet er X, er utvalgsstandardavviket gitt ved

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

Som vi nevnte i artikkelen om måltall i statistikk, er det imidlertid sjelden vi beregner standardavvik for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen stdav.s i Excel eller stdav i GeoGebra.

Utvalgsstandardavviket kalles ofte også det empiriske standardavviket, fordi det er basert på empiri, erfaring.

Utvalgsvariansen, S2 vil være et forventningsrett estimat for variansen i en fordeling, σ2. På grunn av at kvadratrotfunksjonen ikke er lineær, vil imidlertid ikke utvalgsstandardavviket, S, som estimat for standardavviket, σ, være forventningsrett. Feilen er imidlertid så liten at det er vanlig å bruke utvalgsstandardavviket som estimator for en fordelings standardavvik:

$\hat \sigma = S$

Formelen for rapportering blir da
$\fbox{Rapportering: $\hat \mu \pm \frac{\displaystyle S}{\displaystyle \sqrt n}$}$

Eksempel 3:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks fra et oppdrettsanlegg var
3,9, 3,6, 5,1, 4,8, 3,7, 3,2, 4,6, 5,4, 3,0, 4,2, 3,8, 4,4 og 4,1 kg.

Et estimat for standardavviket til vekta er da

$\hat \sigma = S \approx 0{,}711$, beregnet ved hjelp av stdav.s i Excel.

En rapportering av gjennomsnittsvekta blir derfor

$4{,}14 \pm \frac{\displaystyle 0{,}711}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}20$

Oppgave 3:

I oppgave 1 så vi at dagsproduksjonen av støtfangere på seks tilfeldig valgte dager i en bedrift var 210, 220, 210, 225, 220 og 217 enheter.

Estimer standardavviket til produksjonen, og presenter estimert gjennomsnitt i form av en rapportering.

Se løsningsforslag

Konfidensintervaller

Å estimere en gjennomsnittsverdi kaller vi å angi et punktestimat, fordi vi anslår et punkt på tallinjen som gjennomsnittet. Vi skal nå se på konfidensintervaller, der vi angir et intervall på tallinjen som vi med en viss sannsynlighet anslår at gjennomsnittet ligger i. For eksempel at gjennomsnittsvekten på laks i eksempel 1 med 95 % sannsynlighet ligger mellom 3,8 og 4,5 kg.

For å finne ut hvordan vi bestemmer grensene i et konfidensintervall, starter vi med å se på en standard normalfordeling, altså en normalfordeling der forventningen er 0 og variansen 1.

Figuren under viser en standard normalfordelingskurve der 95 % av arealet under kurven er markert. Det vil si at hvis vi gjentatte ganger velger en tilfeldig variabel fra denne fordelingen, vil den 95 % av gangene havne innenfor det fargede området, altså mellom –z og z. Arealet er gitt ved G(z) – G(-z) = 0,95. Det vil si at G(z) – [1 – G(z)] = 0,95 ⇒ 2G(z) = 0,95 + 1 ⇒ G(z) = 0,975.

Normalfordelingskurve med 95 % av arealet under kurven markert.

Når vi tidligere har brukt normalfordelingstabellen, har vi kjent z og brukt tabellen til å finne G(z). Nå skal vi gå andre veien. Vi kjenner G(z) og skal finne z. Vi leter i tabellen og finner 0,9750 i rad 1,9 og kolonne 0,06:

Baklengs oppslag i normalfordelingstabell

Det vil si at z = 1,96 og følgelig –z = -1,96. Vi ser at det stemmer bra med figuren over.

I figuren under er 99 % av arealet markert. Arealet her er gitt ved G(z) – G(-z) = 0,99. Det vil si at G(z) – [1 – G(z)] = 0,99 ⇒ 2G(z) = 0,99 + 1 ⇒ G(z) = 0,995.

Normalfordelingskurve med 99 % av arealet under kurven markert.

I normalfordelingstabellen finner vi ikke nøyaktig 0,995, men G(2,57) = 0,9949 og G(2,58) = 0,9951. Vi tar gjennomsnittet og setter z = 2,575 og –z = -2,575. Vi ser at det stemmer bra med figuren over.

Det betyr at for en standard normalfordelt variabel er [-1,96, 1,96] et 95 % konfidensintervall, og [-2,58, 2,58] er et 99 % konfidensintervall.

I artikkelen om normalfordelingen så vi at hvis vi hadde en variabel, X, som var normalfordelt N(μ, σ2), standardiserte vi variabelen ved å beregne $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, som er normalfordelt N(0, 1).

Nå går vi andre veien. Vi har en Z som er normalfordelt, N(0, 1), og beregner X = Z · σ + μ, som er normalfordelt, N(μ, σ2).

Et 95 % konfidensintervall for en fordeling som er N(μ, σ2) blir derfor

[μ – 1,96 · σ, μ + 1,96 · σ]

Eller mer kompakt uttrykt som μ ± 1,96 · σ.

Vi ser at intervallet er sentrert rundt forventningen, μ, og blir bredere jo større σ blir. Det er rimelig. Jo større standardavvik, jo mer usikkert er estimatet, og jo bredere må intervallet være for at vi skal være 95 % sikre på at det rommer gjennomsnittet.

Da vi estimerte gjennomsnitt i en populasjon, så vi at standardavviket til estimatet var $\frac{\displaystyle \sigma}{\displaystyle \sqrt n}$.

Hvis gjennomsnittet av n målinger i en fordeling med standardavvik σ er X, blir derfor et 95 % konfidensintervall for gjennomsnittet

$[\overline X \, – 1{,}96 \cdot  \frac{\displaystyle \sigma}{\displaystyle \sqrt n}, \, \overline X + 1{,}96 \cdot  \frac{\displaystyle \sigma}{\displaystyle \sqrt n}]$

Eller på kompakt form
$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n}$

Vi ser at bredden på et konfidensintervall ikke bare avhenger av σ, men også av antall målinger. Jo flere målinger, jo smalere blir konfidensintervallet.

Vi så i figuren over at i et 95 % og et 99 % konfidensintervall er grensen for z henholdsvis om lag 1,96 og 2,58. Tilsvarende kan vi finne at grensen er om lag 1,65 for et 90 % konfidensintervall.

I kortform:

$\fbox{$\begin{align}\, \\
&\text{Konfidensintervaller:}\\
&\, \\
&\text{90 %: } \overline X \pm 1{,}65 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
&\text{95 %: } \overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
&\text{99 %: } \overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
\end{align}$}$

Vi ser at intervallene blir bredere jo høyere konfidens vi ønsker.

Eksempel 4:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks vi tok opp var om lag 4,14 kg.

Hvis vi vet at populasjonen er normalfordelt med standardavvik σ = 0,7, vil vi få følgende 90 %, 95 % og 99 % konfidensintervaller for laksens gjennomsnittsvekt:

90 %: $4{,}14 \pm 1{,}65 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}32 = [3{,}82, 4{,}46]$

95 %: $4{,}14 \pm 1{,}96 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}38 = [3{,}76, 4{,}52]$

99 %: $4{,}14 \pm 2{,}58 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}50 = [3{,}64, 4{,}64]$

Oppgave 4:

I oppgave 1 estimerte vi dagsproduksjonen av støtfangere basert på at produksjonen i seks forskjellige dager var henholdsvis 210, 220, 210, 225, 220 og 217 enheter. Anta at produksjonen er normalfordelt med standardavvik σ = 5,8, og angi 95 % og 99 % konfidensintervaller for gjennomsnittsproduksjonen.

Se løsningsforslag

Vi har nå sett på 90 %, 95 % og 99 % konfidensintervaller, men andre prosenter er selvsagt også mulig. Det generelle uttrykket er

$\fbox{$\begin{align} &\text{Konfidensintervall:} \\
&\overline X \pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \end{align}$}$

Her representerer α den prosentdelen som ligger utenfor konfidensintervallet. Halvparten av α ligger til venstre for, og halvparten av α til høyre for intervallet, som vist under:

Illustrasjon av alfa som brukes i konfidensintervaller

$\pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}}$ er da z-verdiene i yttergrensene av det fargede området.

I et k % konfidensintervall er altså ${\large \frac{\alpha}{2}} = {\large \frac{1 – k}{2}}$, for eksempel ${\large \frac{1 – 0{,}95}{2}} = 0{,}025$ i et 95 % konfidensintervall og ${\large \frac{1 – 0{,}99}{2}} = 0{,}005$ i et 99 % konfidensintervall.

Da vi skulle finne intervallet [-z, z] som utgjorde et 95 % og 99 % konfidensintervall i en standard normalfordeling, gjorde vi et baklengs oppslag i normalfordelingstabellen for å finne z. Dette er tungvint, og det er derfor laget ferdige, omvendte tabeller. I en slik tabell slår vi opp a, og får ut z, slik at arealet under kurven til høyre for z er a.

Dette kalles kvantiltabeller eller fraktiltabeller for normalfordelingen, en kvantiltabell for normalfordelingen finnes på dette nettstedet.

Eksempel 5:

Vi er interessert i å finne et 98 % konfidensintervall for gjennomsnittsvekten til laksen fra eksempel 1.

Vi får at ${\large \frac{\alpha}{2}} = {\large \frac{1 – 0{,98}}{2}} = 0{,}01$. Vi slår opp 0,010 i (kvantil)normalfordelingstabellen og får 2,3263.

Vi har altså at ${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} = {\large z}_{0{,}01}^\phantom 1 \approx 2{,}3263$.

I eksempel 1 fant vi at gjennomsnittsvekten til n = 13 laks var 4,14 kg. Hvis laksepopulasjonen er normalfordelt med standardavvik σ = 0,7, blir altså et 98 % konfidensintervall

$4{,}14 \pm 2{,}33 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}45 = [3{,}69, 4{,}59]$

Oppgave 5:

Bruk metoden fra eksempel 5 til å finne et 97 % konfidensintervall for laksens gjennomsnittsvekt.

Se løsningsforslag

I Excel og GeoGebra finnes egne funksjoner for baklengs oppslag i normalfordelinger, norm.inv i Excel og InversNormalfordeling i GeoGebra. Med disse er det imidlertid $1 – {\large \frac{\alpha}{2}}$ vi slår opp, vi angir altså arealet under normalfordelingskurven til venstre for, ikke til høyre for, ${\large \frac{\alpha}{2}}$.

Funksjonene er inverser av funksjonene norm.fordeling og FordelingNormal, som vi presenterte i artikkelen om normalfordelingen. Der oppga vi en grenseverdi, og fikk ut sannsynligheten for at en normalfordelt, tilfeldig variabel var mindre eller lik denne grenseverdien. I de inverse funksjonene oppgir vi sannsynligheten, og får ut grenseverdien. I tillegg må vi også gi inn normalfordelingens forventningsverdi og standardavvik. Excel har også en funksjon, norm.s.inv, som er inversen til norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, verdiene 0 og 1 brukes automatisk. Noe tilsvarende finnes ikke i GeoGebra.

Disse funksjonene er imidlertid ikke veldig interessante når vi skal beregne bredden på konfidensintervaller. Har vi en datamaskin tilgjengelig, kan vi bruke Excel eller GeoGebra til å beregne denne bredden direkte.

I Excel bruker vi funksjonen konfidens.norm, der vi gir inn $\alpha$, samt fordelingens varians og antall elementer i utvalget. (Vi gir altså inn $\alpha$, ikke ${\large \frac{\alpha}{2}}$.) Excel beregner da avstanden fra utvalgets gjennomsnitt til intervallgrensene. I GeoGebra bruker vi sannsynlighetskalkulatoren, slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Eksempel 6:

Med basis i data fra lakseveiningen i eksempel 1, skal vi bruke Excel til å beregne grensene i et 95 % og et 99 % konfidensintervall for laksens gjennomsnittsvekt. Vi har altså veid 13 fisk og funnet et gjennomsnitt på 4,14 kg. Populasjonen er normalfordelt med standardavvik 0,7.

Skriver vi =konfidens.norm(1-0,95; 0,7; 13) i Excel, får vi ut 0,38. Et 95 prosent konfidensintervall blir derfor om lag

[4,14 – 0,38, 4,14 + 0,38] = [3,76, 4,52].

Skriver vi =konfidens.norm(1-0,99; 0,7; 13) i Excel, får vi ut 0,50. Et 99 prosent konfidensintervall blir derfor om lag

[4,14 – 0,50, 4,14 + 0,50] = [3,64, 4,64].
 

RegnearkÅpne et regneark som beregner 90 – 99 % (normal)konfidensintervaller

 
Oppgave 6:

Bruk Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere fra oppgave 1. Vi har altså dagsproduksjoner på henholdsvis 210, 220, 210, 225, 220 og 217 enheter, og vet at produksjonen er normalfordelt med standardavvik 5,8.

Se løsningsforslag

Konfidensintervaller ved ukjent standardavvik

Når vi har brukt normalfordelingen til å lage konfidensintervaller for et estimat i en populasjon, har vi forutsatt at standardavviket til populasjonen, σ, er kjent. Av og til kjenner vi en populasjons standardavvik, for eksempel hvis avviket skyldes dokumenterte unøyaktigheter i et måleinstrument. Men som regel er standardavviket ukjent, og må estimeres, det også.

Det vil da være naturlig å ta utgangspunkt i det standardavviket vi kan beregne ut fra de målingene vi har gjort, nemlig utvalgsstandardavviket, S, og estimere σ som

$\hat \sigma = S$

I artikkelen Måltall i statistikk så vi at hvis vi har gjort n målinger av en variabel X og beregnet at gjennomsnittet er X, er utvalgsstandardavviket, S, gitt ved

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

Som vi nevnte samtidig, er det imidlertid sjelden vi beregner standardavvik for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen stdav.s i Excel eller stdev i GeoGebra.

Bruk av utvalgsstandardavviket innebærer imidlertid at vi innfører en usikkerhet, noe som medfører at normalfordelingen gir et for smalt intervall. I stedet for normalfordelingen bruker vi da en t-fordeling, også kalt Students t-fordeling. t-fordelingen er ikke én enkelt kurve, men en familie med kurver som blir lavere og bredere jo høyere usikkerhet vi har. Denne usikkerheten måler vi i frihetsgrader, v, der økende antall frihetsgrader gir synkende usikkerhet.

Figuren under viser et plott av tre t-kurver med frihetsgrader på henholdsvis v = 1, v = 5 og v = 30, tegnet med henholdsvis grønn, blå og rød linje. Figuren viser også en normalfordelingskurve, tegnet med svart, prikkete linje. Vi ser at t-kurven nærmer seg normalkurven når antall frihetsgrader øker. Ved 30 frihetsgrader er kurvene så å si overlappende.

Plott av normalfordeling og t-fordelinger med 1, 5 og 30 frihetsgrader.

Når vi skal bruke t-fordelingen ut fra et utvalgsstandardavvik basert på n målinger, setter vi antall frihetsgrader, v, lik antall målinger minus 1, v = n – 1.

t-kurven blir altså bredere jo færre målinger vi har.

Vi har tidligere sett hvordan vi brukte en kvantiltabell for normalfordelingen til å slå opp a og få ut z, slik at arealet under kurven til høyre for z var a. En kvantiltabell for t-fordelingen er tilsvarende, men vi må i tillegg til a også angi antall frihetsgrader, v. På dette nettstedet finnes en kvantiltabell for t-fordelingen. Tabellen går opp til 30 frihetsgrader. Har vi flere frihetsgrader, er t-fordelingen så nærme normalfordelingen at vi i stedet kan bruke kvantiltabellen for normalfordelingen.

Eksempel 7:

I eksempel 3 målte vi vekta på 13 laks, og fant at gjennomsnittet var X ≈ 4,14 kg og utvalgsstandardavviket S ≈ 0,71 kg.

Skulle vi brukt normalfordelingen til å lage et 95 % konfidensintervall for vekta, ville vi basert oss på z0,025 ≈ 1,96, og fått:

$4{,}14 \pm 1{,}96 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}75, 4{,}53]$.

Men siden vi baserer oss på utvalgsstandardavviket, bruker vi i stedet (kvantil)t-fordelingstabellen med a = 0,025 og v = 13 – 1 = 12. Vi finner at t0,025 (12) ≈ 2,179 og får:

$4{,}14 \pm 2{,}179 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}71, 4{,}57]$.

Konfidensintervallet blir litt bredere enn da vi brukte normalfordelingen, dette gjenspeiler usikkerheten ved at bruk av utvalgsstandardavviket basert på så lite som 13 målinger.

Oppgave 7:

I oppgave 1 og 2 fant vi, basert på 6 tilfeldige observasjoner at gjennomsnittlig antall produserte støtfangere var X= 217 stk, og produksjonens utvalgsstandardavvik S = 6 stk. Lag og sammenlikn et 95 % konfidensintervall basert på normalfordeling med ett basert på t-fordeling.

Se løsningsforslag

Når standardavviket til en populasjon er ukjent, beregner vi altså et konfidensintervall som

$\fbox{$\begin{align} &\text{Konfidensintervall:} \\
&\overline X \pm {\large t_{\Large \frac{\alpha^\phantom 1}{2} \,(v)}} \cdot \frac{\displaystyle S}{\displaystyle \sqrt n} \end{align}$}$

Excel og GeoGebra har mange funksjoner for oppslag i t-fordeling, tilsvarende de som finnes for oppslag i normalfordeling.

I artikkelen om normalfordelingen presenterte vi Excel-funksjonen norm.fordeling og GeoGebra-funksjonen FordelingNormal, som beregner P(Xx) i en vilkårlig normalfordeling. Motsvarende i t-fordelingen heter henholdsvis t.fordeling og FordelingT. I t-fordelingen antas forventningen å være 0 og standardavviket 1, så det trenger vi ikke oppgi. I stedet må vi oppgi antall frihetsgrader. I norm.fordeling er parameterne x, antall frihetsgrader, og sann/usann for kumulativ/ikke-kumulativ sannsynlighet. I FordelingT oppgir vi først antall frihetsgrader, deretter x og true/false for kumulativ/ikke-kumulativ. true/false kan sløyfes, da benyttes kumulativ sannsynlighet, som er det vanligste.

I denne artikkelen presenterte vi inversene til funksjonene nevnt over, norm.inv i Excel og InversNormalfordeling i GeoGebra. Motsvarende for t-fordelingen heter t.inv og InversTFordeling. I Excel er første parameter sannsynligheten og andre antall frihetsgrader, omvendt i GeoGebra.

I denne artikkelen har vi også sett hvordan vi kunne bruke funksjonen konfidens.norm i Excel og sannsynlighetskalkulatoren i GeoGebra til å beregne grensene i et konfidensintervall.

I Excel bruker vi funksjonen konfidens.t til å beregne bredden av et konfidensintervall basert på en t-fordeling. Vi gir da inn α, standardavvik og utvalgsstørrelse. I GeoGebra bruker vi sannsynlighetskalkulatoren, slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Eksempel 8:

I eksempel 7 fant vi at et 95 % konfidensintervall for gjennomsnittsvekta til 13 laks med gjennomsnittsvekt 4,14 og utvalgsstandardavvik 0,711 var

$4{,}14 \pm 2{,}179 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}71, 4{,}57]$

For å beregne det samme i Excel, skriver vi =konfidens.t(1-0,95; 0,71; 13) og får ut 0,43. Et 95 prosent konfidensintervall blir derfor om lag

[4,14 – 0,43, 4,14 + 0,43] = [3,71, 4,57].
 

RegnearkÅpne et regneark som beregner 90 – 99 % (t)konfidensintervaller

 
Oppgave 8:

I oppgave 7 beregnet vi, basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 et 95 % konfidensintervall basert på t-fordeling. Gjør den samme beregningen i Excel.

Se løsningsforslag

Når vi eksempler og oppgaver har forutsatt at populasjonene er normalfordelte, er det fordi vi har gjort beregninger basert på ganske få målinger. Hvis vi øker antall målinger til 30 eller mer, kan vi imidlertid fire på dette kravet. Sentralgrenseteoremet garanterer at gjennomsnittene i alle tilfeller vil være tilnærmet normalfordelte.

Binomisk modell

Det vi har gjort så langt, har vært basert på gjennomsnitt. Av og til er imidlertid ikke gjennomsnittet interessant, vi er i stedet ute etter å estimere sannsynligheten for at elementer i en populasjon har en gitt egenskap. Vi antar at hvert element enten har eller ikke har egenskapen, og at det er uavhengighet mellom elementene. Vi har derved en binomisk modell. I en binomisk modell bruker vi symbolet $\hat p$ til å estimere sannsynligheten p. Trekker vi n elementer fra populasjonen, og X av disse har den gitte egenskapen, er en forventningsrett estimator
$\hat p = {\large \frac{X}{n}}$.

Standardavviket til estimatoren baseres ikke på et utvalgsstandardavvik, men på at variansen i en binomisk fordeling er Var(X) = np(1-p), slik vi så i artikkelen om forventning og varians.

Ved å bruke regnereglene vi lærte i denne artikkelen, kan vi finne variansen til estimatoren:

$Var(\hat p) = Var(\frac{\displaystyle X}{\displaystyle n}) = {(\frac{\displaystyle 1}{\displaystyle n})}^2Var(X) = {(\frac{\displaystyle 1}{\displaystyle n})}^2(np(1 – p)) = \frac{\displaystyle p(1 – p)}{\displaystyle n}$.

Og standardavviket til estimatoren blir $\sqrt \frac{\displaystyle p(1 – p)}{\displaystyle n}$

Vi ser at standardavviket blir 0 når $\hat p = 1$ eller $\hat p = 0$, rimelig nok, siden vi da ikke har spredning i det hele tatt. Størst standardavvik får vi når $\hat p = 0{,}5$.

Nå er jo ikke $p$ kjent, dette er jo den ukjente variabelen vi skal estimere, så vi tilnærmer $p$ med den estimerte sannsynligheten, $\hat p$.

Formelen for rapportering i denne modellen blir da

$\fbox{Rapportering: $\overline X \pm \sqrt \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}$}$

Og et konfidensintervall angis som

$\fbox{$\begin{align}&\text{Konfidensintervall:} \\
&\hat p \pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \cdot \sqrt{ \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}} \end{align}$}$

I målemodellen så vi at vi kompenserte for usikkerheten ved at variansen ikke var kjent ved å bruke t-fordeling i stedet for normalfordeling. Det gjør vi ikke i den binomiske modellen, vi forutsetter i stedet at vi har minst 30 målinger, slik at normalfordelingen gir en god nok tilnærming.

Eksempel 9:

Når vi kaster en vanlig mynt 50 ganger, er forventningsverdien til antall kron 50 · 0,5 = 25. Store avvik fra dette kan tyde på at det er noe juks med mynten.

Vi kaster en mynt vi mistenker er jukset med 50 ganger, og får 33 kron.

Vi estimerer da sannsynligheten for kron med $\hat p = {\large \frac{X}{n}} = {\large \frac{33}{50}}= 0{,}66$.

Vi estimerer standardavviket til estimatoren med $\sqrt{\large \frac{\hat p(1- \hat p)}{n}} = \sqrt{\large \frac{0{,}66(1 – 0{,}66)}{50}} \approx 0{,}067$.

En rapportering av denne sannsynligheten blir da

$0{,}66 \pm 0{,}067$

Så ønsker vi å finne 95 % og 99 % konfidensintervaller for den estimerte sannsynligheten.

Fra tidligere eksempler vet vi at vi i et 95 % konfidensintervall har

${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \approx 1{,}96$

og i et 99 % konfidensintervall har

${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \approx 2{,}58$

Så et 95 % konfidensintervall blir 0,66 ± 1,96 · 0,067 ≈ [0,53, 0,79].

Og et 99 % konfidensintervall blir 0,66 ± 2,58 · 0,067 ≈ [0,49, 0,83].

Vi ser at et 95 % konfidensintervall ikke fanger opp sannsynligheten for en normal mynt, som er 0,5, men 99 % intervallet gjør det så vidt. Det betyr at estimatet med 95 % sikkerhet indikerer at mynten er jukset med, men ikke med 99 % sikkerhet.

Oppgave 9:

En bedrift som produserer mobilladere, tester 2000 tilfeldige ladere, og finner ut at 35 av dem er defekte.

Finn et estimat for hvor stor sannsynligheten er for at en vilkårlig lader er defekt, og angi resultatet som en rapportering.

Finn deretter et 95 % konfidensintervall for estimatet.

Se løsningsforslag

Å beregne konfidensintervaller i en binomisk modell i Excel er tungvint, men sannsynlighetskalkulatoren i GeoGebra gjør dette enkelt , slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Sentralgrenseteoremet

Hvis vi kaster en terning, er det like sannsynlig å få 1, 2, 3, 4, 5 og 6. Vi har en uniform sannsynlighetsfordeling. Gjør vi 100 kast og summerer antall øyne, kan summen bli alt fra 100 til 600. Men selvfølgelig er ikke 100 og 600 like sannsynlig som for eksempel 300. Det er fordi det kun er én kombinasjon av terningene som gir 100, nemlig bare enere, og kun én kombinasjon av terningene som gir 600, nemlig bare seksere. Sannsynligheten for hvert av disse tilfellene er ${\large (\frac{1}{6})}^{100} \approx 1{,}5306 \cdot 10^{-78}$. Men 300 kan vi få på utallige måter, uten at vi en gang forsøker oss på å regne det ut her.

I artikkelen om forventning og varians så vi at vi i et enkelt terningkast hadde μ = 3,5 og σ2 ≈ 2,92. Vi så også at forventningen til en sum av vilkårlige variable er lik summen av forventningene, og at det samme gjelder varians, såfremt variablene er uavhengige. Kaster vi flere terninger, kan vi anta at terningene er uavhengige av hverandre. For summen av antall øyne i kast med to terninger vil vi derfor ha μ = 3,5 + 3,5 = 7 og σ2 ≈ 2,92 + 2,92 = 5,84. For summen av antall øyne i kast med hundre terninger vil vi ha μ = 100 · 3,5 = 350 og σ2 ≈ 100 · 2,92 = 292. Vi kan altså vente oss flest summer rundt 350. Standardavviket blir $\sigma \approx \sqrt{292} \approx 17{,}09$.

I figuren under viser de blå linjene fordelingen av summen av antall øyne i 20 000 simulerte kast med 100 terninger. Som forventet ligger toppen like i nærheten av 350.

Fordeling av sum øyne i 20 000 kast med 100 terninger, og tilhørende normalfordeling

Den røde kurven viser normalfordelingen med samme forventning og varians, μ = 350 og σ2 = 292. Vi ser at de to fordelingene er så og si like. Det er i henhold til det som kalles sentralgrenseteoremet:

$\fbox{$\begin{align} &\text{Dersom } X_1, X_2, \dots, X_n \text{ er uavhengige og har samme fordeling med forventning } \mu \text{ og varians } \sigma^2 \text{ vil } \\
&X_1 + X_2 + \dots + X_n \approx N(n \mu, n \sigma^2) \text{  og  } \overline X \approx N(\mu, \frac{\displaystyle \sigma^2}{\displaystyle n})\end{align}$}$

Både summen av variablene og gjennomsnittet av variablene er altså tilnærmet normalfordelt, selv om variablene i seg selv følger en annen fordeling. Jo flere variable vi har, jo bedre blir tilnærmingen. Når antall variable går mot uendelig, konvergerer fordelingen mot normalfordelingen, normalfordelingen utgjør en grenseverdi, derav navnet på teoremet.

Dette betyr at vi kan bruke normalfordelingen til å beregne tilnærmede sannsynligheter i vilkårlige fordelinger hvis antall variabler er stort nok. Hva «stort nok» betyr vil variere med fordelingen, men en tommelfingerregel er > 30.

Hvis fordelingen til variablene i utgangspunktet er en normalfordeling, vil imidlertid sentralgrenseteoremet angi eksakt verdi, uavhengig av antall målinger. Denne egenskapen kan lett utledes av at summen av normalfordelte variabler også er normalfordelt, slik det er beskrevet i artikkelen om normalfordelingen.

Eksempel 1:

Et idrettslag skal selge pølser på en håndballkamp med 400 tilskuere. Av erfaring vet de at i gjennomsnitt kjøper 30 % av tilskuerne ingenting, 50 % kjøper en enkelt pølse, og 20 % kjøper to pølser. Så lurer de på om det holder med 19 pakker à 20 pølser, altså 380 stykk.

Dersom X er antall solgte pølser per tilskuer, har vi altså at P(X = 0) = 0,3, P(X = 1) = 0,5 og P(X = 2) = 0,2. Dersom Y er antall solgte pølser totalt, skal vi finne P(Y ≤ 380).

Vi må først finne forventning og varians for X. Vi bruker formlene vi lærte i artikkelen om forventning og varians og får:

E(X) = 0 · 0,3 + 1 · 0,5 + 2 · 0,2 = 0,9.

E(X2) = 02 · 0,3 + 12 · 0,5 + 22 · 0,2 = 1,3.

Var(X) = E(X2) – [E(X)]2 = 1,3 – (0,9)2 = 0,49.

Altså μ = E(X) = 0,9, og σ2 = Var(X) = 0,49.

n = 400, godt over tommelfingerregelen på > 30. Så dersom alle kjøpene er uavhengige, vil ifølge sentralgrenseteoremet summen Y være tilnærmet normalfordelt. Forventningen og variansen til Y blir 400 ganger forventningen og variansen til X, så

YN(400 · 0,9, 400 · 0,49) = N(360, 196).

Vi gjør en standardisering, og finner ut at P(Y ≤ 380) tilsvarer $G({\large \frac{380 – 360}{\sqrt{196}}}) \approx G(1{,}43)$. Vi går inn i normalfordelingstabellen, rad 1,4, kolonne 0,03 og finner 0,9236.

Alternativt skriver vi =norm.fordeling(380; 360; rot(196); sann) i Excel eller FordelingNormal(360, sqrt(196), 380) i GeoGebra og får 0,9234, som er litt mer presist.

Det er altså om lag 92,3 % sannsynlighet for at 380 pølser er nok.

Grunnen til at vi trekker ut rota av 196 er at det er variansen, σ2, som er 196, så standardavviket blir $\sigma = \sqrt{196}$.

Oppgave 1:

En orkidedyrker har 2500 planter. I gjennomsnitt produserer 20 % av plantene ingen blomsterstengler, 40 % én stengel, 30 % to stengler, og 10 % produserer tre stengler. Han har fått bestillinger på i alt 3200 stengler. Hvor sannsynlig er det at han vil klare å levere?

Se løsningsforslag

Tilnærme diskrete fordelinger med normalfordelingen

I artikkelen om diskrete sannsynlighetsfordelinger så vi på binomiske, hypergeometriske og poissonfordelinger. Vi kan også bruke sentralgrenseteoremet til å tilnærme disse med normalfordelingen.

I tidligere tider, da en var avhengig av tabeller for å beregne sannsynligheter, var det ikke vanskelig å motivere bruken av normalfordelingen til slike tilnærminger. En typisk læreboktabell gir bare mulighet for å finne binomiske sannsynligheter i 10 – 30 forsøk, mens det med en normaltilnærming ikke er noen grense for hvor mange forsøk vi kan håndtere. I datamaskinenes tidsalder er imidlertid situasjonen annerledes. Allikevel finnes det en øvre grense for antall forsøk, Excel gir opp ved ca. 2 milliarder binomiske forsøk. Det kan dessuten være lærerikt å se prinsippene for hvordan vi kan tilnærme slike fordelinger med en normalfordeling.

Normalfordelingen vi tilnærmer med er N(μ, σ2), der μ og σ2 er den opprinnelige fordelingens forventning og varians.

Generelt sa vi at normaltilnærmingen var god hvis n > 30. Vi kan i disse fordelingene gi litt mer nøyaktige anslag.

Binomisk fordeling

Å beregne sannsynligheter i en binomisk fordeling betyr å finne sannsynligheten for et gitt antall suksesser, for eksempel 44 kron i 100 myntkast. Lar vi X være en tilfeldig variabel som representerer utfallet av et binomisk forsøk, kan vi sette X = 1 hvis forsøket er en suksess, og X = 0 hvis ikke. Antall suksesser totalt finner vi da ved å summere X-ene. Siden alle X-ene er uavhengige og har samme fordeling, vil denne summen kunne tilnærmes med normalfordelingen, ifølge sentralgrenseteoremet.

I en binomisk fordeling er forventning og varians henholdsvis μ = np og σ2 = np(1-p) slik vi lærte i artikkelen om diskrete sannsynlighetsfordelinger. Vi får derfor at

$\fbox{$X \sim bin(n, p) \approx N \big(np, np(1-p) \big)$}$

Eksempel 2:

I figuren under viser de blå linjene fordelingen av antall kron i 100 simulerte myntkast. Dersom X er antall kron, er X ~ bin(n, p) = bin(100, 0,5). Da er forventningen μ = np = 100 · 0,5 = 50, og som vi kan se ligger toppen i nærheten av 50. Variansen er σ2 = np(1 – p) = 100 · 0,5 ·(1 – 0,5) = 25. Den røde kurven viser normalfordelingen med samme forventning og varians, N(50, 25). Vi ser at de to fordelingene er så og si like.

Fordeling av antall kron i 100 myntkast, og tilhørende normalfordeling

Hvor god tilnærmingen er, avhenger av både n og p. n må ikke være for liten, og p må ikke være for nær 0 eller 1. En tommelfingerregel som tar hensyn til dette er np(1-p) ≥ 10.

Hypergeometrisk fordeling

I artikkelen om diskrete sannsynlighetsfordelinger så vi at vi i en hypergeometrisk fordeling beregnet sannsynligheter for å trekke ut «spesielle elementer». Modellerer vi dette med en tilfeldig variabel, X, der vi setter X = 1 hvis et utvalgt element er «spesielt» og X = 0 hvis ikke, kan vi finne antall spesielle elementer totalt ved å summere X-ene. I denne fordelingen er imidlertid ikke X-ene uavhengige av hverandre, sannsynligheten for å trekke et spesielt element vil avhenge av hvor mange spesielle elementer vi har trukket tidligere. Betingelsene for å bruke sentralgrenseteoremet er derved ikke oppfylt. Hvis vi imidlertid bare trekker en liten del av det totale antallet, betyr dette lite.

I en hypergeometrisk fordeling er $\mu = np$ og $\sigma^2 = \Big( {\large \frac{N – n}{N – 1}} \Big) \cdot np(1 – p)$, der $p$ er forholdet mellom spesielle elementer og elementer totalt, $p = {\large \frac{M}{N}}$.

Vi får derfor at

$\fbox{$X \sim \text{hypergeom}(N, M, n) \approx N \Big(np, \, \big( {\large \frac{N – n}{N – 1}} \big) \cdot np(1 – p)\Big)$}$

Pass på at det er to forskjellige N her, N står for antall elementer totalt, men også som forkortelse for normalfordelingen.

Tilnærmingen er god når $n \le {\large \frac{N}{20}}$ og $np(1-p) \ge 10$.

Poissonfordeling

I en poissonfordeling kan vi betrakte X som et gjennomsnitt av likt fordelte, uavhengige variabler, og sentralgrenseteoremet kan derfor benyttes.

I artikkelen om diskrete sannsynlighetsfordelinger så vi at i en poissonfordeling er μ = λ og σ2 = λ. Vi får derfor at

$\fbox{$X \sim \text{poisson}(\lambda) \approx N(\lambda, \lambda)$}$

Tilnærmingen er god når λ ≥ 10.

Eksempel 3:

Vi kaster en mynt 1000 ganger og vil finne sannsynligheten for å få 485 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 1000 forsøk og en sannsynlighet på 0,5. Så hvis X er antall kron, er X ~ bin(1000, 0,5). Vi skal finne P(X ≤ 485), det vil si

P(X = 0) + P(X = 1) + … + P(X = 485) ≈ 0,1795. Vi har her brukt funksjonen binom.fordeling.n i Excel til å gjøre beregningen.

Her er np(1-p) = 1000 · 0,5(1-0,5) = 250, så vi forventer at normaltilnærmingen skal være god.

Normaltilnærmingen blir N(1000 · 0,5, 1000 · 0,5 [1 – 0,5]) = N(500, 250).

Vi gjør en standardisering og finner at P(X ≤ 485) tilsvarer $G({\large \frac{485 – 500}{\sqrt{250}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,05 og finner 0,8289. Så G(-0,95) ≈ 1 – 0,8289 = 0,1711, ca. 4,6 % for lavt.

Eksempel 4:

Vi kaster en mynt 10 ganger og vil finne sannsynligheten for å få 3 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 10 forsøk og en sannsynlighet på 0,5. Så hvis X er antall kron, er X ~ bin(10, 0,5). Vi skal finne P(X ≤ 3), det vil si

$P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) =$

${\large \binom{10}{0}} (0{,}5)^0 (0{,}5)^{10} + {\large \binom{10}{1}} (0{,}5)^1 (0{,}5)^9 +$

${\large \binom{10}{2}} (0{,}5)^2 (0{,}5)^8 + {\large \binom{10}{3}} (0{,}5)^3 (0{,}5)^7 \approx 0{,}1719$

Her er np(1-p) = 10 · 0,5(1-0,5) = 2,5, så vi forventer ikke at normaltilnærmingen skal være særlig god.

Normaltilnærmingen blir N(10 · 0,5, 10 · 0,5 [1 – 0,5]) = N(5, 2,5).

Vi gjør en standardisering og finner at P(X ≤ 3) tilsvarer $G({\large \frac{3 – 5}{\sqrt{2{,}5}}}) \approx G(-1{,}27) = 1 – G(1{,}27)$.

Vi går inn i normalfordelingstabellen, rad 1,2, kolonne 0,07 og finner 0,8980. Så G(-1,27) ≈ 1 – 0,8980 = 0,1020, ca. 41 % for lavt.

​Oppgave 2:

I et parti på 100 varer har 10 av varene feil. Vi trekker 20 varer tilfeldig.

  1. Hva er sannsynligheten for at minst 1 av varene har feil?
     
  2. Kan vi forvente at en normaltilnærming er god i dette tilfellet?
     
  3. Hvilken sannsynlighet finner vi for at minst 1 av varene har feil hvis vi bruker normaltilnærming? Hvor stor er feilen i prosent?

Se løsningsforslag

Oppgave 3:

I et parti på 10 000 varer har 1000 av varene feil. Vi trekker 200 varer tilfeldig. Ved å bruke funksjonen hypgeom.fordeling.n i Excel finner vi ut at sannsynligheten for at minst 15 av varene har feil er om lag 0,8595.

  1. Kan vi forvente at en normaltilnærming er god i dette tilfellet?
     
  2. Hvilken sannsynlighet finner vi for at minst 15 av varene har feil hvis vi bruker normaltilnærming? Hvor stor er feilen i prosent?

Se løsningsforslag

Heltallskorreksjon

I en diskret sannsynlighetsfordeling, som den binomiske fordelingen, er P(Xx) det samme som P(X < x + 1), for eksempel er P(X ≤ 3) det samme som P(X < 4). Dette er imidlertid ikke tilfelle i en kontinuerlig fordeling som normalfordelingen. Her er P(X < x) det samme som P(Xx). Så i prinsippet kan vi tilnærme med både x og x + 1. Hva som er best vil kunne variere, men ofte vil det beste være å legge seg midt imellom, altså på x + 0,5. For eksempel x = 3,5 i normalfordelingen når vi skal finne P(X ≤ 3) i en diskret fordeling. Dette kalles heltallskorreksjon, og har størst effekt i små utvalg.

Eksempel 5:

I eksempel 4 fant vi ved å bruke formelen for binomisk fordeling at sannsynligheten for å få 3 eller færre kron ved 10 kast var om lag 0,1719. Da vi beregnet den samme sannsynligheten ved normaltilnærming, fikk vi om lag 0,1020, noe som er ca. 41 % for lavt.

Tar vi i bruk heltallskorreksjon, får vi i stedet at P(X < 3) i den binomiske fordelingen tilsvarer $P(X \le 3{,}5) = G({\large \frac{3{,}5 – 5}{\sqrt{2{,}5}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$ i normalfordelingen.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,05 og finner 0,8289. Så G(-0,95) ≈ 1 – 0,8289 = 0,1711, bare ca. 0,5 % for lavt. Heltallskorreksjon har gitt en dramatisk forbedring.

Eksempel 6:

I eksempel 3 fant vi ved å bruke formelen for binomisk fordeling at sannsynligheten for å få 485 eller færre kron ved 1.000 kast var om lag 0,1795. Da vi beregnet den samme sannsynligheten ved normaltilnærming, fikk vi om lag 0,1711, noe som er ca. 4,6 % for lavt.

Tar vi i bruk heltallskorreksjon, får vi i stedet at P(X ≤ 485) i den binomiske fordelingen tilsvarer $P(X \le 485{,}5) = G({\large \frac{485{,}5 – 500}{\sqrt{250}}}) \approx G(-0{,}92) = 1 – G(0{,}92)$ i normalfordelingen.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,02 og finner 0,8212. Så G(-0,92) ≈ 1 – 0,8212 = 0,1788, bare ca. 0,4 % for lavt. Heltallskorreksjon har også her gitt en stor forbedring, selv om den ikke er så dramatisk som i eksempel 4, der utvalget er mye mindre.

Oppgave 4:

I oppgave 2 og 3 skulle vi tilnærme hypergeometriske fordelinger med normalfordelinger. Gjør tilnærmingene om igjen med heltallskorreksjon. Blir resultatene bedre eller dårligere enn i oppgave 2 og 3?

Se løsningsforslag

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Normalfordelingen

I artikkelen om diskrete sannsynlighetsfordelinger lærte vi om uniform fordeling, binomisk fordeling, hypergeometrisk fordeling og poissonfordeling. Dette er eksempler på diskrete sannsynlighetsfordelinger, det vil si at de har et fast antall verdier vi kan beregne sannsynligheten til, for eksempel sannsynligheten for 0, 1, 2, 3 eller 4 kron i et kast med 4 mynter. Normalfordelingen, som vi skal se på i denne artikkelen, er imidlertid et eksempel på en kontinuerlig sannsynlighetsfordeling, der en tilfeldig variabel kan anta alle mulige verdier mellom -∞ og ∞. Normalfordelingen kalles også Gauss-fordelingen, oppkalt etter matematikeren Carl Friedrich Gauss, og har svært mange anvendelser.

Standard normalfordeling

Et plott av en standard normalfordelingskurve er vist under. Denne kurven er glatt, og består av uendelig mange punkter. Dette i motsetning til kurvene vi tegnet for diskrete sannsynlighetsfordelinger, som besto av et begrenset antall enkeltpunkter. Kurven er symmetrisk om x = 0.

Standard normalfordeling

Arealet under kurven representerer den totale sannsynligheten for alle de uendelig mange verdiene, og er derfor 1. Siden det finnes uendelig mange verdier, er sannsynligheten for en vilkårlig verdi lik 0. P(X = x) = 0 for alle x. Dette virker kanskje underlig, men kan illustreres med et tankeeksperiment:

Vi deler opp en dartblink i ti like store sektorer og kaster en pil i blinde, slik at den har like stor sjanse for å treffe hver av sektorene. Hva er så sannsynligheten for at pila traff i den sektoren den gjorde? Selvfølgelig ${\large \frac{1}{10}}$. Men så deler vi denne sektoren i ti mindre, like store sektorer. Hva er nå sannsynligheten for at pila traff i den sektoren den gjorde? Jo, ${\large \frac{1}{100}}$. Ser vi bort fra fysiske begrensninger, kan vi fortsette å dele inn i stadig mindre sektorer, og for hver gang divideres sannsynligheten for å treffe i akkurat den sektoren med 10. Forsetter vi i all evighet, er del lett å skjønne at sannsynligheten da går mot 0. I en kontinuerlig sannsynlighetsfordeling betyr altså ikke P(X) = 0 at hendelsen X ikke kan inntreffe.

Siden sannsynligheten for alle enkeltverdier er 0, er det meningsløst å regne med punktsannsynligheter. I stedet arbeider vi med kumulative sannsynligheter og undersøker hvor stor sannsynligheten er for at en verdi ligger til venstre for et punkt på kurven, til høyre for et punkt på kurven, eller mellom to punkter på kurven.

I en standard normalfordeling er det vanlig å bruke Z og z i stedet for X og x som tilfeldige variable, vi skriver altså P(Zz) i stedet for P(Xx).

P(Zz) skriver vi også gjerne forenklet som G(z).

Eksempel 1:

En standard normalfordeling er symmetrisk om z = 0. Derfor vil P(Z ≤ 0) = G(0) = 0,5.

De forskjellige sannsynlighetene beregner vi på en datamaskin eller leser ut av en tabell. Dette nettstedet inneholder en tabell over standard normalfordeling. Ha den gjerne tilgjengelig i et eget vindu når du skal arbeide med eksempler og oppgaver.

Tabellen har rader som er nummerert fra 0,0 til 3,9 og kolonner som er nummerert fra 0,00 til 0,09. Når vi skal slå opp en verdi, går vi inn i raden med verdi lik de første to sifrene og kolonne lik det tredje sifferet. For eksempel finner vi G(1,23) ved å gå inn i rad 1,2 og kolonne 0,03, og G(2,70) ved å gå inn i rad 2,7 og kolonne 0,00.

Tabellen inneholder bare fordelingen for positive z, det vil si verdier som ligger til høyre for midten av kurven. Det er ikke nødvendig å ta med negative verdier, fordi vi på grunn av symmetrien om z = 0, og at den totale sannsynligheten er 1 alltid vil ha følgende sammenheng:

$\fbox{$G(-z) = 1 – G(z)$}$

Skal vi finne sannsynligheten for at en verdi ligger mellom to grenser, a og b, altså P(aZb), kan vi regne det ut som G(b) – G(a).

Eksempel 2:

Basert på normalfordelingstabellen skal vi finne

  1. P(Z ≤ 1,87), det vil si G(1,87).
    ​Vi leser av tabellen der rad 1,8 krysser kolonne 0,07, og finner 0,9693.
    P(Z ≤ 1,87) ≈ 0,9693.
     
  2. P(0,55 ≤ Z ≤ 1,00), det vil si G(1,00) – G(0,55).
    ​Vi leser av tabellen der rad 1,0 krysser kolonne 0,00, og finner 0,8413.
    ​Vi leser av tabellen der rad 0,5 krysser kolonne 0,05, og finner 0,7088.
    P(0,55 ≤ Z ≤ 1,00) ≈ 0,8413 – 0,7088 = 0,1325.
     
  3. P( Z ≤ -0,74), det vil si G(-0,74) = 1 – G(0,74).
    ​Vi leser av tabellen der rad 0,7 krysser kolonne 0,04, og finner 0,7704.
    P( Z ≤ -0,74) ≈ 1 – 0,7704 = 0,2296.
     
  4. P(-1,00 ≤ Z ≤ -0,55), det vil si G(-0,55) – G(-1,00) = 1 – G(0,55) – [1- G(1,00)] = G(1,00) – G(0,55).
    Dette er det samme som vi fant i punkt 2, om lag 0,1325.

Oppgave 1:

Bruk normalfordelingstabellen til å finne

      1. P(Z ≤ 0,85).
         
      2. P(Z ≤ -1,21).
         
      3. P(-0,22 ≤ Z ≤ 0,22).

Se løsningsforslag

I en standard normalfordeling er forventningen 0 og variansen 1.

$\fbox{Standard normalfordeling: $E(Z) = 0, Var(Z) = 1$}$

Det er vanlig å bruke symbolet μ til å representere forventningen, og variansen oppgir vi gjerne som kvadratet av standardavviket, σ2.

$\fbox{Standard normalfordeling: $\mu = 0, \sigma^2 = 1$}$

Generell normalfordeling

Mange tilfeldige variable følger en normalfordeling som ikke er standard. Hvis vi for eksempel tar for oss gjennomsnittshøyden for voksne menn, vil den være normalfordelt, men naturligvis vil ikke μ = 0, vi forventer ikke at høydene er sentrert rundt 0 cm. Hva gjennomsnittshøyden er, varierer over tid, og med folketype, men for eksempelets skyld bruker vi 177 centimeter. En normalfordeling med μ = 177, σ2 = 1 er vist under.

Normalfordeling med E[X] = 177, Var[X] = 1

Men vi skjønner at den ikke kan være representativ, det ser jo ut som det er svært sjelden menn er under 174 eller over 180 centimeter, noe vi vet ikke er riktig. Problemet er at variansen på 1 er alt for lav, slik at kurven strekker seg alt for kort ut fra forventningsverdien. En mye mer realistisk varians er 49. Det gir en normalfordeling som vist under.

Normalfordeling med E[X] = 177, Var[X] = 7

Når vi snakker om at en variabel er normalfordelt, må vi altså angi forventningsverdi og standardavvik for at fordelingen skal være entydig. Når vi sier X ~ N(μ, σ2), mener vi at variabelen X er normalfordelt med forventning μ og varians σ2. For eksempel betyr X ~ N(177, 49) at X er normalfordelt med forventning 177 og varians 49. X ~ N(0, 1) betyr at X er standard normalfordelt, i dette tilfellet bruker vi altså gjerne Z som symbol for den tilfeldige variabelen og skriver Z ~ N(0, 1).

Vi sa tidligere at i en standard normalfordeling vil G(-z) = 1 – G(z). Dette prinsippet baserer seg på at fordelingen er symmetrisk om 0, og gjelder ikke generelt. Men siden det totale arealet under kurven i alle tilfeller er 1, må den delen som ligger til høyre for et punkt være lik 1 minus arealet som ligger til venstre:

P(X > x) = 1 – P(Xx).

Dette er samme prinsipp som i diskrete sannsynlighetsfordelinger. Sannsynligheten for at et utfall er større enn x, er lik 1 minus sannsynligheten for at utfallet er mindre eller lik x.

Siden alle punktsannsynlighetene er0, vil vi sannsynligheten for «mindre enn» være den samme som for «mindre eller lik», og sannsynligheten for «større enn» være den samme som for «større eller lik»:

P(Xx) = P(Xx).

P(Xx) = P(Xx).

Standardisering

Det finnes altså uendelig mange normalfordelinger. Men uansett variant kan tabellen for en standard normalfordeling alltid brukes til å beregne sannsynligheter ved at vi gjør en standardisering av variabelen X:

$\fbox{Hvis $X \sim N(\mu, \sigma^2)$ er $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma} \sim N(0, 1)$}$

Hvis $X \sim N(\mu, \sigma^2)$ og vi skal finne $P(X \le x)$, subtraherer vi $\mu$ og dividerer med $\sigma$ på begge sider av ulikhetstegnet:

$P(X \le x) \Rightarrow P({\large \frac{X – \mu}{\sigma}} \le {\large \frac{x – \mu}{\sigma}}) \Rightarrow P(Z \le {\large \frac{x – \mu}{\sigma}}) = G({\large \frac{x – \mu}{\sigma}})$.

For å finne $P(X \le x)$ når $X \sim N(\mu, \sigma^2)$, beregner vi altså $G({\large \frac{x – \mu}{\sigma}})$.

Eksempel 3:

Basert på at høyden til menn er N(177,72), skal vi skal finne sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere, altså P(X ≤ 185).

Dette tilsvarer å finne arealet som ligger til venstre for 185 i normalfordelingen med μ = 177, σ = 7, vist under:

Sannsynliget for P(X) < 185 i normalfordeling med E(X)=0, Var(X)=7

Men denne sannsynlighetsfordelingen har vi ingen tabell over. Vi standardiserer derfor den tilfeldige variabelen og får $P(X \le 185) = G({\large \frac{185 – 177}{7}}) \approx G(1{,}14)$.

Dette tilsvarer å flytte arealet som ligger til venstre for 185 i den opprinnelige normalfordelingen inn i standard normalfordelingen, slik som vist under, der arealet strekker seg bort til 1,14.

Sannsynliget for P(Z) < 1.14 i standard normalfordeling

Vi går så inn i normalfordelingstabellen og finner at G(1,14) ≈ 0,8729. Sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere er altså om lag 87,3 %.

Eksempel 4:

Vi antar at høyden til menn er N(177,72) og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    Vi skal altså finne P(X ≤ 165).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G({\large \frac{165 – 177}{7}}) \approx G(-1{,}71) = 1 – G(1{,}71)$.
    Vi går inn i normalfordelingstabellen og finner G(1,71) ≈ 0,9564.
    P(X ≤ 165) ≈ 1 – 0,9564 = 0,0436, om lag 4,36 %.
     
  2. Over 190 cm.
    Vi skal altså finne P(X > 190) = 1 – P(X ≤ 190).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $1 – G({\large \frac{190 – 177}{7}}) \approx 1 – G(1{,}86)$.
    Vi går inn i normalfordelingstabellen og finner G(1,86) ≈ 0,9686.
    P(X > 190) ≈ 1 – 0,9686 = 0,0314, om lag 3,14 %.
     
  3. Mellom 170 og 180 cm.
    Vi skal altså finne P(170 < X < 180) = P(X < 180) – P(170 < X).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G({\large \frac{180 – 177}{7}}) – G({\large \frac{170 – 177}{7}}) \approx G(0{,}43) – G(-1)$.
    Vi går inn i normalfordelingstabellen og finner G(0,43) ≈ 0,6664 og G(1) ≈ 0,8413.
    P(170 < X < 180) ≈ 0,6664 – [1 – 0,8413] = 0,5077, om lag 50,77 %.

Med datamaskiner tilgjengelig er det lite behov for å slå opp i tabeller, vi finner sannsynlighetene direkte ved hjelp av verktøy som Excel eller GeoGebra.

I Excel bruker vi funksjonen norm.fordeling til å beregne P(Xx) i en vilkårlig normalfordeling. I tillegg til x oppgir vi fordelingens forventningsverdi og standardavvik, og sann for kumulativ sannsynlighet.

I diskrete sannsynlighetsfordelinger så vi at usann betydde at vi fikk punktsannsynlighet i stedet for kumulativ sannsynlighet. Men siden alle punktsannsynlighetene i en kontinuerlig fordeling er 0, er de ikke interessante. usann, betyr i norm.fordeling i stedet at vi får sannsynlighetstettheten, som, enkelt sagt, er høyden på fordelingskurven.

Tilsvarende funksjon i GeoGebra heter FordelingNormal. Her oppgir vi først forventningsverdi og standardavvik, deretter x og så true for kumulativ sannsynlighet og false for sannsynlighetstettheten. Sløyfer vi true / false, får vi automatisk kumulativ sannsynlighet, som er det vanligste å spørre etter.

Excel har også en egen funksjon for å beregne P(Zz), altså G(z), i en standard normalfordeling, norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, disse er henholdsvis 0 og 1. Denne funksjonen har ingen motpart i GeoGebra.

Eksempel 5:

Vi skal gjøre beregningene fra eksempel 4 om igjen i Excel og GeoGebra.

Siste siffer i resultatene avviker fra det vi fant i eksempel 4, dette skyldes at vi i eksempel 4 avrundet da vi standardiserte variabelen. Beregningene fra Excel og GeoGebra er mer korrekte.

For å vise resultatet med 4 desimaler i GeoGebra, velger vi «4 desimaler» fra menyen «Innstillinger» – «Avrunding».

Vi har altså at høyden til menn er N(177,72) og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    I Excel skriver vi
    =norm.fordeling(165; 177; 7; sann)
    og får 0,0432.
    I GeoGebra skriver vi
    FordelingNormal(177, 7, 165)
    og får samme tall i algebrafeltet.
     
  2. Over 190 cm.
    I Excel skriver vi
    =1 – norm.fordeling(190; 177; 7; sann)
    og får 0,0316.
    I GeoGebra skriver vi
    1 – FordelingNormal(177, 7, 190)
    og får samme tall i algebrafeltet.
     
  3. Mellom 170 og 180 cm.
    I Excel skriver vi
    =norm.fordeling(180; 177; 7; sann) – norm.fordeling(170; 177; 7; sann)​
    og får 0,5072.
    I GeoGebra skriver vi
    FordelingNormal(177, 7, 180) – FordelingNormal(177, 7, 170)
    og får samme tall i algebrafeltet..

RegnearkÅpne et regneark med beregningene fra eksempel 5

 

Oppgave 2:

På en eksamen er resultatene normalfordelt med en forventning på 14 poeng og et standardavvik på 2 poeng, N(14, 22). Laveste poengsum for å stå er 12 poeng. Hvor stor del av de som tar eksamenen kan forventes å ikke stå?
Gjør beregningen både ved hjelp av normalfordelingstabellen, Excel og GeoGebra.

Se løsningsforslag

Sum av normalfordelte variabler

Summerer vi to variable som er normalfordelte, er summen også normalfordelt. Som vi så i artikkelen Forventning og varians, er forventningen til en sum av vilkårlige variable lik summen av forventningene. Det samme gjelder varians, såfremt variablene er uavhengige. Vi har derfor:

$\fbox{$ \text{Hvis } X \sim N(\mu\,_x, {\sigma^2}_x) \text{ og } Y \sim N(\mu\,_y, {\sigma^2}_y)\text{ er uavhengige, er } X + Y \sim N(\mu\,_x + \mu\,_y, {\sigma^2}_x + {\sigma^2}_y)$}$

Dette prinsippet kan brukes på vilkårlig mange variabler.

Eksempel 6:

Vi har X ~ N(3, 12), Y ~ N(2, 22), Z ~ N(0, 32), og W = X + Y + Z.

Hvis X, Y, Z er uavhengige, er W ~ N(3 + 2 + 0, 12 + 22 + 32 = N(5, 14).

SkjermfilmSe filmen «Normalfordelingen»
  

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Diskrete sannsynlighetsfordelinger

I artikkelen om begreper i sannsynlighet så vi at når vi kastet en rettferdig terning, var det like stor sannsynlighet for å få 1, 2, 3, 4, 5 og 6. Vi hadde en uniform sannsynlighetsfordeling. I artikkelen om kombinatorikk lærte vi strukturerte metoder for å beregne antall utfall i uniforme modeller, noe som er nyttig å kunne når det er så mange utfall at vi ikke klarer å telle dem opp. For eksempel å beregne antall mulige bridgehender.

I artikkelen om begreper i sannsynlighet så vi også på kast med tre mynter og talte opp kombinasjonene som ga henholdsvis 0, 1, 2 og 3 kron. Det var bare åtte mulige utfall, så det var rimelig enkelt. Øker vi antall mynter, vil vi imidlertid også her se at det fort blir uoverkommelig komplisert å gjøre beregninger ved å telle enkeltutfall. Antall kron i et myntkast er ikke uniformt fordelt, så vi har liten nytte av det vi har lært om kombinatorikk. Imidlertid følger sannsynligheten for «X kron», et annet mønster, som også muliggjør beregning av kombinasjonsmuligheter.

Slike mønstre kaller vi sannsynlighetsfordelinger.

I denne artikkelen ser vi på noen diskrete sannsynlighetsfordelinger, det vil si fordelinger der utfallene har atskilte verdier, for eksempel 1, 2, 3, 4, eller kron og mynt.

Figuren under viser sannsynlighetene for 0, 1, 2, 3, 4 og 5 kron i et kast med 5 mynter.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter

Vi ser at det er mest sannsynlig å få 2 og 3 kron, og minst sannsynlig å få 0 og 5 kron. Dette skyldes at det er mange flere enkeltutfall som kan kombineres til 2 og 3 enn til 0 og 5. Summen av høydene på søylene er 1, fordi de til sammen dekker utfallsrommet i et stokastisk forsøk, der total sannsynlighet alltid er 1.

Vi kan si at diagrammet viser P(X = x) der X representerer hendelsen «Antall kron i et kast med 5 mynter», og x betegner 0, 1, 2, 3, 4 eller 5. For eksempel betyr P(X = 3) = 0,3125 at sannsynligheten for «3 kron i et kast med 5 mynter» er 0,3125.

Figuren over viser punktfordelingen for X, det vi si at høyden på hver søyle viser sannsynligheten for akkurat den verdien den står over. Ofte er vi imidlertid interessert i den kumulative fordelingen, der vi i stedet for P(X = x) ser på P(Xx), det vil si sannsynligheten for at X er mindre eller lik enn en gitt verdi.

Den kumulative sannsynlighetsfordelingen for «Antall kron i et kast med 5 mynter» er vist under.

Stolpediagram som viser den kumulative sannsynligheten for antall kron i et myntkast med 5 mynter

«Kumulativ» betyr at noe hoper seg opp, sannsynlighetene hoper seg opp mot høyre. I søylen over X = 2, for eksempel, inngår P(X = 0), P(X = 1) og P(X = 2). Vi ser at det er riktig hvis vi sammenlikner de to diagrammene. I det øverste diagrammet ser vi at P(X = 0) ≈ 0,03, P(X = 1) ≈ 0,16 og P(X = 2) ≈ 0,31, til sammen om lag 0,5, som er høyden på søylen over 2 i det nederste diagrammet.

Den totale søylehøyden i et kumulativt diagram er ikke 1, i stedet er søylen lengst til høyre 1, fordi den inkluderer hele utfallsrommet.

Siden summen av alle sannsynlighetene i utfallsrommet bestandig er 1, vil det følgende vil alltid gjelde:

$\fbox{$P(X > x) = 1 – P(X \le x)$}$

Derfor kan vi i en kumulativ sannsynlighetsfordeling også lett finne sannsynligheter for verdier høyere enn en gitt verdi.

Eksempel 1:

Tabellen under viser verdier for P(X = x) og P(Xx), der X er «Antall kron i et kast med 5 mynter».

x 0 1 2 3 4 5
P(X = x) 0,03125 0,15625 0,31250 0,31250 0,15625 0,03125
P(Xx) 0,03125 0,18750 0,50000 0,81250 0,96875 1,00000

Så skal vi bruke tabellen til å finne P(X = 3), P(X ≤ 3) og P(X > 3).

Av tabellen ser vi at

P(X = 3) = 0,31250.

P(X ≤ 3) = 0,81250.

P(X > 3) = 1 – P(X ≤ 3) = 1- 0,81250 = 0,18750.

Vi kunne også enkelt ha funnet P(X > 3) som P(X = 4) + P(X = 5) = 0,15625 + 0,03125 = 0,18750.

Før i tida var en avhengig av tabeller med sannsynlighetsfordelinger, i dag kan vi i stedet gjøre beregningene på kalkulatorer eller med datamaskiner. På dette nettstedet finnes allikevel tabeller over noen sannsynlighetsfordelinger, under menyen «Statistikk» – «Fordelingstabeller». Alle tabellene er kumulative.

GeoGebra har også en egen sannsynlighetskalkulator som beskrives i artikkelen om statistikk i GeoGebra.

Vi skal nå se på noen vanlige sannsynlighetsfordelinger.

Binomisk fordeling

Eksemplet med myntkast representerer en binomisk fordeling. Et forsøk der utfallene følger en binomisk fordeling, har følgende tre karakteristikker:

  1. Forsøket har to mulige enkeltutfall. Det er vanlig å kalle disse suksess eller fiasko. I eksemplet med myntkast representerer kron suksess og mynt fiasko.
     
  2. Sannsynligheten for suksess, p, skal være den samme fra forsøk til forsøk. Det betyr imidlertid ikke at vi alltid må ha p = 0,5, p kan ha alle mulige verdier mellom 0 og 1. I kast med en rettferdig mynt er imidlertid p = 0,5.
     
  3. Forsøkene skal være uavhengige. Dette er tilfellet ved myntkast, én mynt påvirker ikke en annen.

Andre eksempler på binomiske forsøk kan være om en vare er defekt eller i orden, eller om deltakerne i en spørreundersøkelse har svart «ja» eller «nei».

Ved kast med en rettferdig mynt er altså sannsynligheten for suksess p = 0,5, noe som resulterer i en symmetrisk sannsynlighetsfordeling. Men bruker vi en juksemynt som 3 av 4 ganger gir kron, vil vi fremdeles ha et binomisk forsøk, men nå med p = 0,75 og en punktsannsynlighet som vist under. Vi ser at den er skjev, med tyngdepunkt til høyre. Naturligvis er det mer sannsynlig å få mange kron enn å få mange mynt når sannsynligheten for kron er 0,75 og sannsynligheten for mynt er 0,25.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter, med en juksemynt med p = 0,75

Hvis x er antall suksesser i et binomisk forsøk, p sannsynligheten for suksess, og n antall forsøk, er P(X) gitt ved

$\fbox{Binomisk fordeling: $P(X = x) = {\large \binom{n}{x}} p^x (1 – p)^{(n – x)}$}$

Eksempel 2:

Vi skal bruke både formelen for binomisk fordeling og tabellen over binomisk fordeling til å beregne tre sannsynligheter ved kast med 5 rettferdige mynter. Her har vi at n = 5 og p = 0,5.

  1. Sannsynligheten for 3 kron.
     
    Bruker vi formelen, får vi:
    $P(X = 3) = {\large \binom{5}{3}} (0{,}5)^3 (1 – 0,5)^{(5 – 3)} = 0{,}3125$.
     
    Tabellen er kumulativ, så vi finner vi ikke denne verdien direkte. Vi må i stedet finne sannsynligheten for å få 3 eller færre kron og trekke fra sannsynligheten for å få to eller færre kron:
    $P(X = 3) = P(X \le 3) – P(X \le 2) \approx 0{,}8125 – 0{,}5000 = 0{,}3125$.
     
    Markert med rødt i bildet under.
     
  2. Sannsynligheten for 1 kron eller mindre.
     
    Bruker vi formelen, må vi addere sannsynlighetene for å få 0 eller 1 kron:
    $P(X \le 1) = P(X = 1) + P(X = 0) =$
    ${\large \binom{5}{1}} (0,5)^1 (1 – 0{,}5)^{(5 – 1)} + {\large \binom{5}{0}} (0{,}5)^0 (1 – 0{,}5)^{(5 – 0)} \approx 0{,}0313 + 0{,}1563 = 0{,}1875$.
     
    Slår vi opp i tabellen, finner vi direkte
    $P(X \le 1) \approx 0{,}1875$.
     
    Markert med blått i bildet under.
     
  3. Sannsynligheten for 4 kron eller mindre.
     
    Bruker vi formelen, kan vi addere sannsynlighetene for 4, 3, 2, 1 og 0 kron, men det er enklere å basere seg på sannsynligheten for den komplementære hendelsen, 5 kron:
    $P(X \le 4) = 1 – P(X = 5) =$
    $1 – {\large \binom{5}{5}} (0,5)^5 (1 – 0,5)^{(5 – 5)} \approx 1 – 0{,}0313 = 0{,}9687$.
     
    Slår vi opp i tabellen, finner vi direkte
    $P(X \le 4) \approx 0{,}9688$.
     
    Markert med oransje i bildet under.

Eksempler på oppslag i binomisk tabell

SkjermfilmSe filmen «Binomisk fordeling»
 

I Excel beregner vi binomiske sannsynligheter med funksjonen binom.fordeling.n. Vi må da oppgi antall suksesser, antall forsøk, forsøkenes sannsynlighet, og om vi skal beregne kumulativ sannsynlighet eller punktsannsynlighet. sann betyr kumulativ sannsynlighet, usann betyr ikke-kumulativ, altså punktsannsynlighet.

RegnearkÅpne et regneark med beregningene fra eksempel 2

 

Tilsvarende funksjon i GeoGebra heter fordelingbinomial. Her er rekkefølgen på parameterne annerledes, vi angir antall forsøk, forsøkenes sannsynlighet, antall suksesser, true for kumulativ sannsynlighet og false for punktsannsynlighet.

For eksempel skriver vi =binom.fordeling.n(3; 5; 0,5; usann) i Excel og fordelingbinomial(5, 0.5, 3, false) i GeoGebra for å beregne sannsynligheten i eksempel 2.1 og =binom.fordeling.n(1; 5; 0,5; sann) i Excel og fordelingbinomial(5, 0.5, 1, true) i GeoGebra for å beregne sannsynligheten i eksempel 2.2.

I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra

Oppgave 1:

La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Beregn både ved formel og oppslag i binomisk fordelingstabell:

  1. P(X = 4)
     
  2. P(X ≤ 2)
     
  3. P(X ≤ 6)

Kontroller svarene i Excel eller GeoGebra.

Uten å regne ut, anslå om P(X = 7) er større, lik, eller lavere enn P(X = 1)?

Se løsningsforslag

Eksempel 3:

I oppgave 3 i artikkelen om sammensatte hendelser brukte vi produkt- og addisjonsprinsipper for å beregne sannsynlighetene for hvordan tre tegnestifter vi kastet ble liggende, når sannsynligheten for å havne med spissen opp var ${\large \frac{2}{3}}$. Vi kan gjøre de samme beregningene ved å betrakte tegnestiftkast som en binomisk situasjon. Kaller vi «spiss opp» for suksess, får vi følgende sannsynligheter:

    1. Alle havner med spiss opp.
      $P(X = 3) = {\large \binom{3}{3}} (\frac{2}{3})^3 (1 – \frac{2}{3})^{(3 – 3)} \approx 0{,}2963$
       
    2. Alle havner med spiss ned.
      $P(X = 0) = {\large \binom{3}{0}} (\frac{2}{3})^0 (1 – \frac{2}{3})^{(3 – 0)} \approx 0{,}0370$
       
    3. To havner med spiss opp og én med spiss ned.
      $P(X = 2) = {\large \binom{3}{2}} (\frac{2}{3})^2 (1 – \frac{2}{3})^{(3 – 2)} \approx 0{,}4444$
       
    4. To havner med spiss ned og én med spiss opp.
      $P(X = 1) = {\large \binom{3}{1}} (\frac{2}{3})^1 (1 – \frac{2}{3})^{(3 – 1)} \approx 0{,}2222$

Dette er de samme tallene vi fant med produkt- og addisjonsprinsipper. Metoden med binomisk sannsynlighet er imidlertid mye lettere å utvide hvis en har flere tegnestifter.

Eksempel 4:

Norsk Tipping har en artikkel om at noen tall i spillet Extra trekkes oftere enn andre. De mest ekstreme eksemplene er et tall som er trukket så lite som 26 ganger, og et tall som er trukket så mye som 43 ganger i løpet av et år. Her skal vi regne ut hvor sannsynlige disse hendelsene egentlig er.

I Extra trekkes 47 av 75 mulige tall, noe som gir en sannsynlighet på om lag 0,63 for at et gitt tall skal bli trukket. Siden Extra trekkes ukentlig, kan vi regne med at det er 52 trekninger i et år.

I en gitt trekning har et tall to muligheter, det blir enten trukket, eller det blir ikke trukket. Sannsynligheten for å bli trukket er den samme i alle trekninger, og trekningene er uavhengige. Så antall ganger et tall blir trukket i løpet av et år, oppfyller kravene til en binomisk fordeling.

Kaller vi hendelsen å bli trukket for suksess, har vi altså p(suksess) ≈ 0,63. Og siden vi har 52 trekninger i et år, har vi n = 52.

Sannsynligheten for å bli trukket 26 ganger blir

$P(X = 26) \approx {\large \binom{52}{26}} 0{,}63^{26} (1 – 0{,}63)^{(52 – 26)} \approx 0,0178$. Ca. 1,78 %.

Og sannsynligheten for å bli trukket 43 ganger blir da

$P(X = 43) \approx {\large \binom{52}{43}} 0{,}63^{43} (1 – 0{,}63)^{(52 – 43)} \approx 0,0011$. Ca. 0,11 %.

Men mer interessant enn å spørre om sannsynligheten for å bli trukket akkurat 26 ganger og akkurat 43 ganger, er det å spørre om sannsynligheten for å bli trukket så sjelden som 26 ganger, og så ofte som 43 ganger, altså P(X ≤ 26) og P(X ≥ 43).

I Excel og GeoGebra beregner vi P(X ≤ 26) ved å skrive henholdsvis
= binom.fordeling.n(26; 52; 0,63; sann) og FordelingBinomial(52, 0.63, 26, true)
og får om lag 0,0377, ca. 3,77 %.

For å beregne P(X ≥ 43), beregner vi 1 – P(X ≤ 42), og skriver henholdsvis
= 1 – binom.fordeling.n(42; 52; 0,63; sann) og 1 – FordelingBinomial(52, 0.63, 42, true)
og får om lag 0,0017, ca. 0,17 %.

For å angi at en tilfeldig variabel, X, er binomisk fordelt i n forsøk med suksess-sannsynlighet p, skriver vi

$\fbox{$X \sim Bin(n, p)$}$

I artikkelen om forventning og varians lærte vi at forventningen til et stokastisk forsøk anga forventet middelverdi for utfallene, mens variansen anga forventet spredning av utfallene. Hvis X ~ Bin(n, p), har vi at

$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= np(1 – p) \end{align}$}$

At forventningen øker proporsjonalt med antall forsøk er intuitivt rimelig. Jo flere forsøk vi gjør, jo flere suksesser kan vi forvente til sammen. At forventningen øker proporsjonalt med sannsynligheten for suksess er også rimelig. Jo større sannsynlighet for suksess, jo flere suksesser kan vi forvente.

Når det gjelder variansen, er det også intuitivt rimelig at den øker med antall forsøk. Jo flere forsøk, jo flere resultater spredt utover. Når det gjelder sannsynligheten, vil p(1 – p) ha sin høyeste verdi når p = 0,5. Vi får altså størst varians når sannsynligheten for suksess og fiasko er den samme. Dette er også intuitivt rimelig, for jo større sannsynligheten for suksess eller fiasko er, jo mer vil resultatene klumpe seg rundt dette resultatet. Drar vi det helt ut i det ekstreme og setter p = 1 eller p = 0, vil vi bare få suksesser eller bare fiaskoer, og variansen blir 0.

Eksempel 5:

Figuren under viser tre binomiske fordelinger med 100 forsøk og sannsynligheter på henholdsvis 0,1, 0,5 og 0,9.

Kurver som vise binomialfordelinger med 100 forsøk og sannsynligheter på 0,1, 0,5 og 0,9

For den blå fordelingen, som viser X ~ Bin(100, 0,1), får vi E(X) = 100 · 0,1 = 10 og Var(X) = 100 · 0,1 · (1 – 0,1) = 9.

For den røde fordelingen, som viser X ~ Bin(100, 0,5), får vi E(X) = 100 · 0,5 = 50 og Var(X) = 100 · 0,5 · (1 – 0,5) = 25.

For den grønne fordelingen, som viser X ~ Bin(100, 0,9), får vi E(X) = 100 · 0,9 = 90 og Var(X) = 100 · 0,9 · (1 – 0,9) = 9.

Vi ser at forventningen i alle tre tilfeller havner der fordelingene har toppen. Og vi ser at variansen er større når sannsynligheten er 0,5 enn når den er 0,1 og 0,9. Dette stemmer med figuren, for vi ser at den røde fordelingen er bredere enn de to andre.

Oppgave 2:

Finn E(X) og Var(X) når

  1. X er antall kron i 10 kast med en rettferdig mynt.
     
  2. X er antall seksere i 5 kast med en rettferdig terning.

Se løsningsforslag

Hypergeometrisk fordeling

I artikkelen om kombinatorikk, eksempel 12, studerte vi kombinasjonsmuligheter når vi valgte fra en mengde som besto av både 11 gutter og 8 jenter, og så at antall kombinasjonsmuligheter med 2 gutter og to jenter var gitt ved

${\large \binom{11}{2}\binom{8}{2}}$

Generaliserer vi dette, og sier at mengden består av a gutter og b jenter, blir antall kombinasjonsmuligheter med x gutter og y jenter

${\large \binom{a}{x}\binom{b}{y}}$

Så generaliserer vi enda mer, og sier at mengden består av totalt N elementer, hvorav M er spesielle. Det betyr at NM er ikke-spesielle. Så trekker vi ut totalt n elementer. Er x av disse spesielle, må nx være ikke-spesielle. Og antall kombinasjonsmuligheter vil være gitt ved

${\large \binom{M}{x}\binom{N-M}{n-x}}$

Totalt kan vi velge n blant N elementer, så antall kombinasjonsmuligheter totalt blir

${\large \binom{N}{n}}$

Bruker vi så «gunstige på mulige», får vi et uttrykk for sannsynligheten for at et tilfeldig utvalg på n elementer fra totalt N, der M er spesielle, inneholder x spesielle elementer. Dette kaller vi en hypergeometrisk sannsynlighetsfordeling.

$\fbox{Hypergeometrisk fordeling: $P(X = x) = \frac{\displaystyle \binom{M}{x} \binom{N – M}{n – x}}{\displaystyle \binom{N}{n}}$}$

Et gitt element kan altså være spesielt eller ikke-spesielt. Dette minner litt om den binomiske sannsynlighetsfordelingen, der vi også hadde to muligheter, suksess eller fiasko. Men i motsetning til en binomisk situasjon, er det her avhengighet mellom forsøkene. Sannsynligheten for hva vi trekker vil variere med hva vi har trukket tidligere. Trekker vi få elementer fra en stor mengde, er imidlertid forskjellen på binomisk og hypergeometrisk fordeling liten.

Eksempel 6:

Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.

Mengden vi trekker fra består av N = 52 elementer, av disse er M = 13 spesielle, altså spar. Vi trekker n = 5 ganger og skal finne sannsynligheten for at X = 2. Vi får

$P(X = 2) = \frac{\displaystyle \binom{13}{2} \cdot \binom{52 – 13}{5 – 2}}{\displaystyle \binom{52}{5}} \approx 0{,}2743$.

Det er ca. 27 % sannsynlig å få en hånd med akkurat 2 spar, noe som er det samme som vi fant i oppgave 5 i artikkelen om kombinatorikk. Vi ser at det som står i telleren er antall kombinasjoner som gir to spar multiplisert med antall kombinasjoner av tre andre kort. I nevneren står antall kombinasjoner totalt med fem av femtito kort.

En hypergeometrisk fordeling har så mange variabler at det er vanskelig å sette opp sannsynlighetene i en praktisk tabell.

I Excel beregner vi hypergeometriske sannsynligheter med funksjonen hypgeom.fordeling.n. Vi må da oppgi hvor mange spesielle elementer vi ønsker sannsynligheten for, utvalgets størrelse, antall spesielle elementer totalt, antall elementer totalt, true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel =hypgeom.fordeling.n(2; 5; 13; 52; usann) for å gjøre beregningen i eksempel 6.

Tilsvarende funksjon i GeoGebra heter FordelingHypergeometrisk. Her er rekkefølgen på variablene annerledes, vi angir antall elementer totalt, antall spesielle elementer totalt, utvalgets størrelse, hvor mange spesielle elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel FordelingHypergeometrisk(52,13, 5, 2, false) for å gjøre beregningen i eksempel 6.

I GeoGebra kan vi også bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

Oppgave 3:

I en forening med 65 medlemmer er 13 negative til et forslag. Hvis vi velger 20 representanter tilfeldig fra gruppen, hva er da sannsynligheten for at

  1. Ingen av representantene er negative.
     
  2. Én av representantene er negativ.
     
  3. To eller flere av representantene er negative.

Gjør beregningene ved hjelp av formelen for hypergeometrisk fordeling, og kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

Eksempel 7:

I eksempel 14 i artikkelen om kombinatorikk så vi at sannsynligheten for å få 7 rette i Lotto var om lag 1,859 · 10-7, fordi det bare finnes 1 vinnerrekke av totalt 5 379 616, og ${\large \frac{1}{5 \, 379 \, 616}} \approx 1{,}858 9 \cdot 10^{\text{-}7}$.

Det utbetales imidlertid også gevinst for 6 rette. Og 6 rette er enklere å få fordi det finnes mange flere rekker med 6 rette. Hvert av de 7 vinnertallene kan vi nemlig bytte ut med hvert av de 34 – 7 = 27 tallene som ikke er vinnertall, noe som gir 7 · 27 = 189 muligheter, og en vinnersannsynlighet på

${\large \frac{189}{5 \, 379 \, 616}} \approx 3{,}5133 \cdot 10^{-5}$.

En annen måte å komme fram til denne sannsynligheten på er imidlertid å tenke på lottotrekning som en hypergeometrisk situasjon der vi trekker 7 tall fra en mengde på 34, der 7 er spesielle (vinnertallene), og så beregner hva sannsynligheten for å få 6 av de spesielle er. Vi får

$P(X = 6) = \frac{\displaystyle \binom{7}{6} \cdot \binom{34 – 7}{7 – 6}}{\displaystyle \binom{34}{7}} \approx 3{,}5133 \cdot 10^{-5}$.

Sannsynligheten for å få 6 rette er om lag 0,00351 %.

(I Lotto trekkes også et tilleggstall, og blant de 189 rekkene vil det være 7 som har 6 rette + 1 tilleggstall, noe som gir høyere gevinst. Det tar vi imidlertid ikke hensyn til i denne modellen.)

Oppgave 4:

Det utbetales også gevinst for 5 og 4 rette i Lotto. Bruk formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få henholdsvis 5 og 4 rette.

Se løsningsforslag

I en hypergeometrisk fordeling er forventning og varians gitt ved

$\fbox{$\begin{align} E(X) &= n \cdot \frac{\displaystyle M}{\displaystyle N} \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot n \cdot \frac{\displaystyle M}{\displaystyle N} \cdot \Big(1 – \frac{\displaystyle M}{\displaystyle N} \Big) \end{align}$}$

Brøken $\frac{\displaystyle M}{\displaystyle N}$ representerer egentlig sannsynligheten for å trekke et spesielt element, fordi M er antall spesielle elementer og N er antall elementer totalt. (Gunstige på mulige). Kaller vi denne sannsynligheten p, altså $p = \frac{\displaystyle M}{\displaystyle N}$, får vi

$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot np (1 – p) \end{align}$}$

Vi ser at forventningen er den samme som i en binomisk fordeling, og det eneste som skiller variansen fra en binomisk fordeling er faktoren $\frac{\displaystyle N – n}{\displaystyle N – 1}$. Trekker vi imidlertid bare noen få av et stort antall, slik at N er mye større enn n, blir denne faktoren nokså nærme 1 og kan ignoreres.

Oppgave 5:

La X være antall negativt innstilte representanter i utvalget fra oppgave 3. Finn E(X) og Var(X).

Se løsningsforslag

Poissonfordeling

I avsnittene om binomisk og hypergeometrisk fordeling har vi gjort et bestemt antall forsøk, $n$, med gitte sannsynligheter, $p$, eller forhold, ${\large \frac{M}{N}}$. Av og til kjenner vi imidlertid ikke noe av dette, vi vet bare at en hendelse opptrer med en viss hyppighet. Det kan for eksempel være antall kunder som kommer til en kiosk i et gitt tidsrom, eller antall bakterier i en blodprøve. I det første tilfellet snakker vi om hyppighet i tid, i det andre hyppighet i volum. Hyppigheten betegnes med den greske bokstaven lambda, λ.

I slike tilfeller vil vi kunne beregne sannsynligheten for at en hendelse opptrer et bestemt antall ganger ved å bruke en poissonfordeling, oppkalt etter den franske matematikeren Siméon Denis Poisson. Hvis hendelsen opptrer med hyppighet λ , er poissonfordelingen gitt ved

$\fbox{Poissonfordeling: $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{- \lambda}$}$

Vi forutsetter da at

Hendelsene er uavhengige.

λ er konstant. 

Ingen av hendelsene inntreffer samtidig.

Eksempel 8:

I et skogsområde er det i gjennomsnitt 8 trær per mål, og vi skal finne sannsynligheten for at det på et vilkårlig område på 1 mål er henholdsvis 7, 12 og færre enn 2 trær. Vi forutsetter at forekomsten av trær er uavhengig og konstant i området, og to forekomster kan ikke inntreffe samtidig, siden trær ikke kan stå oppå hverandre. Vi skal bruke både formelen for poissonfordeling og tabellen over poissonfordeling med λ = 8.

P(X = 7):

Formel: ${\large \frac{8^{7}}{7!}}e^{-8} \approx 0{,}1396$.

Tabell: Siden tabellen er kumulativ, må vi finne sannsynligheten for 7 eller færre trær og trekke fra sannsynligheten for 6 eller færre: $P(X \le 7) – P(X \le 6) \approx 0{,}4530 – 0{,}3134 = 0{,}1396$. Markert med rødt i bildet under.

P(X = 12):

Formel: ${\large \frac{8^{12}}{12!}}e^{-8} \approx 0{,}0481$.

Tabell: $P(X \le 12) – P(X \le 11) \approx 0{,}9362 – 0{,}8881 = 0{,}0481$. Markert med blått i bildet under.

P(X ≤ 2):

Formel: Her må vi summere sannsynlighetene for 2, 1 og 0 trær:
${\large \frac{8^{2}}{2!}}e^{-8} + {\large \frac{8^{1}}{1!}}e^{-8} + {\large \frac{8^{0}}{0!}}e^{-8}\approx 0{,}0107 + 0{,}0027 + 0{,}0003 = 0{,}0138$.

Tabell: Vi finner direkte $P(X \le 2) \approx 0{,}0138$. Markert med oransje i bildet under.

Eksempler på oppslag i poissontabell

I Excel beregner vi poissonsannsynligheter med funksjonen poisson.fordeling. Vi må da oppgi antallet vi ønsker sannsynligheten for, median (lambda), og true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet.. For eksempel skriver vi henholdsvis =poisson.fordeling(7;8;usann), =poisson.fordeling(12;8;usann) og =poisson.fordeling(2;8;sann) for å gjøre beregningene i eksempel 8.

Tilsvarende funksjon i GeoGebra heter FordelingPoisson. Her er rekkefølgen på parameterne annerledes, vi angir median, antall elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel skriver vi henholdsvis FordelingPoisson(8, 7, false)FordelingPoisson(8, 12, false) og FordelingPoisson(8, 2, true) for å gjøre beregningene i eksempel 8.

Oppgave 6:

I en vannprøve er det i gjennomsnitt to hoppekreps. Vi forutsetter at forekomsten av hoppekreps er poissonfordelt. Bruk både formel og poissonfordelingstabell til å finne ut hva sannsynligheten da er for at en annen, like stor vannprøve inneholder

  1. Ingen hoppekreps.
     
  2. Én hoppekreps.
     
  3. To eller flere hoppekreps.

Kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

I en poissonfordeling er forventning og varians gitt ved

$\fbox{$\begin{align} E(X) = \lambda \\
Var(X) = \lambda
\end{align}$}$

 

Tilnærme én fordeling med en annen
 

Tilnærme hypergeometrisk med binomisk

I en hypergeometrisk fordeling har vi trekning uten tilbakelegging. Men hvis vi bare trekker ut noen få, og mengden vi trekker fra er stor, betyr dette lite. Vi kan da tilnærme den hypergeometriske fordelingen med en binomisk, der $p = {\large \frac{M}{N}}$, altså forholdet mellom M spesielle av i alt N elementer.

En binomisk tilnærming regnes som god hvis $n \le {\large \frac{N}{20}}$, det vil si at vi trekker mindre enn en tjuendedel av det totale antallet.

Fordelen med en tilnærming er at utregningene blir enklere, og vi slipper å ha med N og M i beregningene. Dette er en fordel fordi hvis N og/eller M er store, risikerer vi å få problemer med kalkulatorer og dataprogrammer på grunn av svært høye tall i mellomregningene. Varians er også mye enklere å beregne i en binomisk fordeling.

Eksempel 9:

I et vareparti på 1000 enheter er 5 % av varene defekte. Vi trekker 10 varer tilfeldig og lurer på hvor stor sannsynligheten er for at ingen av dem er defekte.

Sannsynligheten for å trekke defekte er hypergeometrisk fordelt, med N = 1000, M = 1000 · 0,05 = 50 og n = 10, så vi får

$P(X = 0) = \frac{\displaystyle \binom{50}{0} \cdot \binom{1000 – 50}{10 – 0}}{\displaystyle \binom{1000}{10}} \approx 0{,}5973$.

Vi trekker imidlertid bare $n = 10$ av $N = 1000$, og $10 < {\large \frac{1000}{20}}=50$, så vi får en god tilnærming med en binomialfordeling med n = 10 og $p = {\large \frac{M}{N}} = {\large \frac{50}{1000}} = 0{,}05$:

$P(X = 0) = {\large \binom{10}{0}} (0,05)^0 (1 – 0,05)^{10 – 0} \approx 0{,}5987$.

Vi ser at feilen i forhold til svaret vi fikk da vi brukte hypergeometrisk fordeling bare er ca. $0{,}5987 – 0{,}5973 = 0{,}0014$.

Eksempel 10:

Vi vil finne ut hva forventning og varians er i en hypergeometrisk fordeling og en binomialfordeling basert på dataene fra eksempel 9.

Hypergeometrisk:

$E(X) = 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} = 0{,}5$.

$Var(X) = \Big( \frac{\displaystyle 1000 – 50}{\displaystyle 1000 – 1} \Big) \cdot 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} \cdot \Big(1 – \frac{\displaystyle 50}{\displaystyle 1000} \Big) \approx 0{,}4517$.

Binomisk:

$E(X) = 10 \cdot 0{,}05 = 0{,}5$.

$Var(X) = 10 \cdot 0{,}05(1 – 0{,}05) = 0{,}4750$.

Vi ser at forventningene i begge tilfeller er like, men variansen er ørlite høyere i den binomiske fordelingen. Det er rimelig siden variasjonsmulighetene er flere når vi kan trekke samme element flere ganger.

Figurene under viser sannsynlighetene i en hypergeometrisk fordeling og en tilnærming med en binomisk fordeling når vi trekker $n = 50$ elementer fra en mengde der halvparten er spesielle. I figuren til venstre er $N = 100$, så $n \not \le {\large \frac{N}{20}}$ og tilnærmingen er dårlig. Vi ser at den binomiske fordelingen er for lav og bred. I figuren til høyre er $N = 1000$, så $n = {\large \frac{N}{20}}$ og tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av hypergeometrisk fordeling med binomisk når N = 2n
$N = 100, n = 20$
Tilnærming av hypergeometrisk fordeling med binomisk når N = 20n
$N = 1000, n = 20$

Oppgave 7:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig, og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten. Vi kan ikke trekke samme innbygger to ganger, så denne situasjonen er uten tilbakelegging og vi har en hypergeometrisk sannsynlighetsfordeling.

  1. Beregn sannsynligheten for at gruppen er delt på midten ved å bruke hypergeometrisk fordeling.
     
  2. Avgjør om en tilnærming med binomisk fordeling vil være god.
     
  3. Beregn den samme sannsynligheten ved å bruke binomisk fordeling.
     
  4. Angi hvor stor feilen ved å bruke binomisk fordeling ble hvis du tar med fire siffer bak komma.

Se løsningsforslag

Tilnærme binomisk med poisson

Hvis antall forsøk i en binomisk fordeling, n, er stort og sannsynligheten for suksess, p, er liten, kan vi tilnærme en binomisk fordeling med en poissonfordeling med λ = n · p.

En slik tilnærming regnes som god hvis n > 50 og p ≤ 0,05.

Eksempel 11:

I spillet Dungeons and Dragons brukes blant annet en 20-sidet terning. Vi vil undersøke hvor stor sannsynligheten er for å få «20 minst én gang» når vi kaster 75 ganger. Det letteste er her å basere seg på sannsynligheten til komplementhendelsen «20 ingen ganger».

Vi bruker først binomisk fordeling med $n = 75$ og $p = {\large \frac{1}{20}} = 0{,}05$.

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \binom{75}{0}} (0{,}05)^0 (1 – 0,05)^{75 – 0} \approx 0{,}9787$.

Vi har $n = 75$ og $p = 0{,}05$, så vi oppfyller kravet til en god tilnærming med poisson, selv om $p$ er helt på grensen.

Vi får $\lambda = 75 \cdot 0{,}05 = 3{,}75$ og

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \frac{(3,75)^0}{0!}}e^{-3,75} \approx 0{,}9765$, en feil på $0{,}0022$.

Figurene under viser kurver for sannsynlighetene i en binomisk fordeling og en tilnærming med en poissonfordeling. Figuren til venstre viser sannsynligheter for antall kron i 100 kast med en mynt. Her er $n = 100$ innenfor grensa på $n > 50$, men $p = 0{,}5$ er langt utenfor grensa på $p \le 0{,}05$, så tilnærmingen er dårlig. Vi ser at poissonfordelingen er altfor lav og bred. Figuren til høyre viser sannsynlighetene for antall «begge seks» i 1000 kast med to terninger. Her er $n = 1000$ godt innenfor grensa på $n > 50$, og $p ={\large \frac{1}{36}}\approx 0{,}0278$ godt innenfor grensa på $p \le 0{,}05$, så tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av binomisk fordeling med poisson når n = 100 og p = 75
$n = 100, p = 0,5$
Tilnærming av binomisk fordeling med poisson når n = 1000 og p = 0,027
$n = 1000, p = \large \frac{1}{6}$

Oppgave 8:

Bruk binomisk sannsynlighetsfordeling til å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Avgjør så om en poissonfordeling kan brukes i dette tilfellet, og beregn i så fall den samme sannsynligheten i en poissonfordeling.

Se løsningsforslag

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
  • Wikipedia: Lotto

Forventning og varians

Forventning

I artikkelen om måltall i statistikk ble vi kjent med begrepene gjennomsnitt og standardavvik, og lærte å beregne dette for et datasett, både for hånd og ved hjelp av regneark og GeoGebra.

Eksempel 1:

Vi simulerer 10 000 terningkast i Excel, og beregner gjennomsnitt, X, og utvalgsstandardavvik, S, for antall øyne i simuleringen. Denne simuleringen gjentar vi 10 ganger, og setter resultatene opp i en tabell:

Simulering 1 2 3 4 5 6 7 8 9 10
X 3,520 3,522 3,512 3,500 3,503 3,481 3,501 3,464 3,519 3,500
 S  1,707 1,705 1,709 1,710 1,714 1,710 1,699 1,718 1,702 1,711

I eksempel 1 ser vi at gjennomsnittet i alle simuleringene ser ut til å havne i nærheten av 3,5. Tar vi gjennomsnittet av de 10 gjennomsnittene, får vi X = 3,502. Dette er intuitivt rimelig, for gjennomsnittet av antall øyne vi kan få i kast med en terning er 3,5, og er terningen rettferdig, vil vi forvente at vi, når vi gjør mange nok kast, havner veldig nærme dette gjennomsnittet.

Vi sier at forventningen til dette forsøket er 3,5, noe vi skriver som E(X) = 3,5, der X er en tilfeldig variabel. En tilfeldig (stokastisk) variabel representerer utfallet av en tilfeldig hendelse, der et gitt sett verdier opptrer med gitte sannsynligheter.

Når vi skriver E(X) = 3,5, betyr det at hvis vi genererer X mange ganger, forventer vi at verdiene vil være sentrert rundt 3,5.

Forventningen, E(X), betegnes også gjerne med den greske bokstaven μ.

Vi beregner forventningen til en tilfeldig variabel ved å multiplisere hver mulig verdi av variabelen med sannsynligheten for at denne verdien opptrer, og så summere de resulterende produktene. Hvis X er en tilfeldig variabel med mulige verdier x1, x2, … , xn og tilhørende sannsynligheter p1, p2, … , pn, er forventningen, μ = E(X), gitt ved

$\fbox{Forventning: $ \mu = E(X) = x_1 \cdot p_1 + x_2 \cdot p_2 + \dots + x_n \cdot p_n$}$

Eksempel 2:

Vi skal finne forventningen til antall øyne i et terningkast. Vi kaller «antall øyne» for X, og vet at mulige verdier for X da er 1, 2, 3, 4, 5 og 6. Sannsynligheten for hver av disse verdiene er ${\large \frac{1}{6}}$. Så forventningen blir:

$\mu = E(X) = 1 \cdot {\large \frac{1}{6}} + 2 \cdot {\large \frac{1}{6}} + 3 \cdot {\large \frac{1}{6}} + 4 \cdot {\large \frac{1}{6}} + 5 \cdot {\large \frac{1}{6}} + 6 \cdot {\large \frac{1}{6}} = {\large \frac{21}{6}} = 3{,}5$.

Eksempel 3:

Ved et kast med to terninger kan summen av antall øyne variere fra 2 til 12. Kaller vi summen av antall øyne X, har vi altså følgende mulige verdier for X: x1 = 2, x2 = 3, … , x11 = 12.

I artikkelen om begreper i sannsynlighet fant vi sannsynlighetene for disse verdiene:

$P(X = 2) = P(X = 12) = {\large \frac{1}{36}}$

$P(X = 3) = P(X = 11) = {\large \frac{2}{36}}$

$P(X = 4) = P(X = 10) = {\large \frac{3}{36}}$

$P(X = 5) = P(X = 9) = {\large \frac{4}{36}}$

$P(X = 6) = P(X = 8) = {\large \frac{5}{36}}$

$P(X = 7) = {\large \frac{6}{36}}$

Forventningen blir da:

$\mu = E(X) = 2 \cdot {\large \frac{1}{36}} + 3 \cdot {\large \frac{1}{18}} + 4 \cdot {\large \frac{1}{12}} + 5 \cdot {\large \frac{1}{9}} + 6 \cdot {\large \frac{5}{36}} + 7 \cdot {\large \frac{1}{6}} + 8 \cdot {\large \frac{5}{36}} + 9 \cdot {\large \frac{1}{9}} + 10 \cdot {\large \frac{1}{12}} + 11 \cdot {\large \frac{1}{18}} + 12 \cdot {\large \frac{1}{36}} =$

${\large \frac{ 2 \cdot 1 + 3 \cdot 2 + 4 \cdot 3 + 5 \cdot 4 + 6 \cdot 5 + 7 \cdot 6 + 8 \cdot 5 + 9 \cdot 4 + 10 \cdot 3 + 11 \cdot 2 + 12 \cdot 1}{36}} = {\large \frac{252}{36}} = 7$

Ved kast med to terninger er forventningen til summen 7.

Oppgave 1:

Blant kundene som kommer inn i en klesbutikk, kjøper gjennomsnittlig 30 % ingen ting, 20 % ett plagg, 40 % to plagg og 10 % 3 plagg. Finn forventningen til hvor mange plagg en vilkårlig kunde kjøper.

Se løsningsforslag

Oppgave 2:

I episode 23 av TV-serien Farmen i 2020 går noen av deltakerne på markedet. Der får de tilbud om å spille på et lykkehjul. Hjulet har 16 sektorer:
1 sektor med stjerne, som gir 8 kroner i gevinst.
6 grønne sektorer som gir 4 kroner i gevinst.
5 røde sektorer som gir 2 kroner i gevinst.
4 gule sektorer som ikke gir gevinst.

Lykkehjulet er håndmalt, så sektorene varierer litt i størrelse. Men la oss forenkle, og si at at alle sektorene er like store. Farmen-deltakerne har lite penger. Når innsatsen er 2 kroner, bør de da satse på lykkehjulet?

Se løsningsforslag

Hvis X og Y er to tilfeldige variabler, og k en konstant, gjelder følgende:

$\fbox{$\begin{align}&E(X + Y) = E(X) + E(Y) \\
&E(k) = k \\
&E(k + X) = k + E(X) \\
&E(k \cdot X) = k \cdot E(X) \end{align}$ }$

Forventningen til en sum av to variabler er lik summen av forventningene.

Forventningen til en konstant er lik konstanten selv.

Forventningen til en konstant addert til, eller multiplisert med, en variabel er lik konstanten addert til, eller multiplisert med, forventningen til variabelen.

Eksempel 4:

I eksempel 3 fant vi at μ = E(X) = 7 når X er summen av antall øyne i et kast med to terninger. Men utregningen var omstendelig og forutsatte at vi kjente sannsynlighetene for alle 11 mulige verdier av X.

Siden vi vet at E(Y) = 3,5 når Y er antall øyne i kast med én terning, kan vi ved hjelp av regelen for forventningen til en sum av to variabler i stedet regne det ut som μE(X) = E(Y + Y) = E(Y) + E(Y) = 3,5 + 3,5 = 7.

Hvis vi skal beregne forventningen til en funksjon av en tilfeldig variabel, har vi at

$\fbox{$E[f(X)] = f(x_1) \cdot p_1 + f(x_2) \cdot p_2 + \dots + f(x_n) \cdot p_n$}$

Vi beregner altså forventningen til en funksjon av X ved å, én for én sette de mulige verdiene til X inn i funksjonsuttrykket, multiplisere med den tilhørende sannsynligheten, og summere resultatet.

Varians

I artikkelen om måltall i statistikk lærte vi å beregne standardavviket til et datasett, noe som var et mål på spredningen fra gjennomsnittet. Vi beregnet da først datasettets varians, og tok så kvadratrota av variansen. Vi skilte på utvalgsstandardavvik, som vi betegnet med S, og populasjonsstandardavvik, som vi betegnet med σ.

Nå skal vi se at vi også kan beregne varians og standardavvik til en tilfeldig variabel, X. På samme måte som variansen til et datasett uttrykker graden av spredning i dataene, er variansen til en tilfeldig variabel et mål på hvor langt fra forventningen de enkelte verdiene kan ventes å komme.

Hvis variabelens forventning er μ, er variansen definert som

$\fbox{Varians: $Var(X) = E[(X – \mu)^2\Big)$}$

Variansen er altså forventningen til kvadratet av avstanden mellom en verdi, X, og forventningen, μ

Kvadreringen gjør at vi bare får positive verdier, så variansen er et tall som er større eller lik 0. Hvis variansen er 0, forventes alle verdiene å havne nøyaktig på forventningen.

Vi kjenner metoden igjen fra artikkelen om måltall i statistikk, der vi beregnet kvadratet av avstanden mellom en verdi i et datasett og datasettets gjennomsnitt.

Eksempel 5:

I eksempel 2 fant vi at forventningen til antall øyne i kast med en terning er μ = 3,5. Nå skal vi finne variansen.

Variansen er gitt ved Var(X) = E[(X – 3,5)2]. For å beregne E[(X – 3,5)2], må vi bruke formelen for å beregne E[f(X)]. Mulige verdier for X er antall øyne, altså 1, 2, 3, 4, 5 og 6, som alle har sannsynlighet ${\large \frac{1}{6}}$. Siden alle sannsynlighetene er like, forenkler vi utregningen ved å sette ${\large \frac{1}{6}}$ utenfor parenes, og får

$Var(x) = [(1 – 3{,}5)^2 + (2 – 3{,}5)^2 + (3 – 3{,}5)^2 + (4 – 3{,}5)^2 + (5 – 3{,}5)^2 + (6 – 3{,}5)^2] \cdot {\large \frac{1}{6}} =$

$[6{,}25 + 2{,}25 + 0{,}25 + 0{,}25 + 2{,}25 + 6{,}25] \cdot {\large \frac{1}{6}} \approx 2{,}917$.

Standardavviket er kvadratrota av variansen, og betegnes med σ:

$\fbox{Standardavvik: $\sigma = \sqrt{Var(X)}$}$

Vi kan altså beregne σ ikke bare for en populasjon, som i artikkelen om måltall i statistikk, men også for en teoretisk sannsynlighetsfordeling. σ kalles derfor ofte det teoretiske standardavviket.

Det teoretiske standardavviket for terningkast i eksempel 5 blir om lag $\sigma \approx \sqrt{2{,}917} \approx 1{,}708$. I eksempel 1 beregnet vi utvalgsstandardavvik i 10 forsøk med 10 000 terningkast, gjennomsnittet av disse blir om lag 1,709. Så vi ser at utvalgsstandardavviket basert på mange forsøk havner veldig nærme det teoretiske standardavviket.

Formelen for å beregne varians kan være tungvint å bruke. Ved hjelp av litt algebra og regnereglene for forventning kan den omformes til:

$\fbox{Varians: $Var(X) = E(X^2) – \mu^2 $}$

Vi kan altså finne variansen ved å ta forventningen til kvadratet av variabelen og trekke fra kvadratet av forventningen. På denne formen er det vanskelig å se hva variansen egentlig representerer, men den er mer praktisk i bruk.

Eksempel 6:

Vi gjør beregningen i eksempel 5 om igjen med den nye formelen for å finne varians:

$Var(X) = [1^2 + 2^2 + 3^2 + 4^2 + 5^2 + 6^2] \cdot {\large \frac{1}{6}} – 3{,}5^2 = 91 \cdot {\large \frac{1}{6}} – 12{,}25 \approx 2{,}917$.

Som er det samme vi fikk i eksempel 5.

Eksempel 7:

Vi flytter to av øynene på en terning fra treeren til fireren, slik at den får to sider med 1 og 6, og ingen med 3 og 4. Vi har da sannsynlighetsfordelingen

$P(1) = P(6) = {\large \frac{2}{6}}$

$P(2) = P(5) = {\large \frac{1}{6}}$

$P(3) = P(4) = 0$

Så skal vi beregne forventning og varians til antall øyne når vi kaster terningen:

$\mu = E(X) = 1 \cdot {\large \frac{2}{6}} + 2 \cdot {\large \frac{1}{6}} + 3 \cdot 0 + 4 \cdot 0 + 5 \cdot {\large \frac{1}{6}} + 6 \cdot {\large \frac{2}{6}} = {\large \frac{21}{6}} = 3{,}5$.

$E(X^2) = 1^2 \cdot {\large \frac{2}{6}} + 2^2 \cdot {\large \frac{1}{6}} + 3^2 \cdot 0 + 4^2 \cdot 0 + 5^2 \cdot {\large \frac{1}{6}} + 6^2 \cdot {\large \frac{2}{6}} – 3{,}5^2 = {\large \frac{103}{6}}$.

$Var(X)= E(X^2) – \mu^2 = {\large \frac{103}{6}} – 3,5^2 \approx 4{,}917$.

I forhold til en vanlig terning ser vi at forventningen er den samme, nemlig 3,5. Det er naturlig, for vi har jo ikke endret antall øyne totalt. Variansen har derimot økt fra om lag 2,197 til 4,917. Dette skyldes at vi har flyttet sannsynlighetene for 3 og 4 til 1 og 6, slik at spredningen er blitt større.

Oppgave 3:

Kundene som kommer inn i en butikk kjøper X enheter av en vare. 20 % av kundene kjøper ingen ting, 20 % av kundene kjøper én vare, og 60 % av kundene kjøper to varer. Finn forventning, varians og standardavvik til X.

Se løsningsforslag

Hvis X er en tilfeldig variabel, og k en konstant, gjelder følgende:

$\fbox{$\begin{align} &Var(k) = 0 \\
&Var(k + X) = Var(X) \\
&Var(k \cdot X) = k^2 \cdot Var(X) \end{align}$ }$

Variansen til en konstant er lik 0, naturlig nok, en konstant varierer jo ikke.

Variansen til en konstant addert til en variabel er lik variansen til variabelen. Det er rimelig, for å addere en konstant gir ikke økt spredning, alle verdier forskyves bare.

Variansen til en konstant multiplisert med en variabel er lik kvadratet av konstanten multiplisert med variansen til variabelen. At konstanten kvadreres skyldes at varians er et mål for kvadratet av spredning.

Eksempel 8:

Vi har en terning der antall øyne går fra 2 til 7 i stedet for fra 1 til 6. Terningen er ellers normal, med lik sannsynlighet for å få 2, 3, 4, 5, 6 og 7.

Forventningen til antall øyne blir

$\mu = E(X) = (2 + 3 + 4 + 5 + 6 + 7)\cdot {\large \frac{1}{6}} = {\large \frac{27}{6}} = 4{,}5$.

Og vi får

$E(X^2) = (2^2 + 3^2 + 4^2 + 5^2 + 6^2 + 7^2)\cdot {\large \frac{1}{6}} = {\large \frac{139}{6}}$.

$Var(X) = E(X^2) – \mu^2 = {\large \frac{139}{6}} – 4{,}5^2 \approx 2{,}917$

Sammenliknet med en vanlig terning har forventningen økt med 1, mens variansen er den samme. Det som skiller de to terningene fra hverandre, er at alle øyne har fått lagt til en konstant på k = 1, så dette er i tråd med reglene om å addere en konstant til en tilfeldig variabel:

E(k + X) = k + E(X).

og

Var(k + X) = Var(X).

Oppgave 4:

Vi har en terning der antall øyne er multiplisert med 2. Terningen er ellers normal, med lik sannsynlighet for å få 2, 4, 6, 8, 10 og 12.

Bruk samme metode som i eksempel 8 til å beregne μ = E(X) og Var(X) for denne terningen. Avgjør om resultatet er i tråd med reglene for forventning og varians til en variabel multiplisert med en konstant.

Se løsningsforslag

De tre reglene om varians og konstanter kan sammenfattes i én regel, der X er en tilfeldig variabel, og a og b konstanter:

$\fbox{$Var(a + b \cdot X) = b^2 \cdot Var(X)$ }$

Dersom X og Y er to tilfeldige variabler som er uavhengige, har vi også at

$\fbox{$Var(X + Y) = Var(X) + Var(Y)$}$

Dersom X og Y ikke er uavhengige, har vi at

$\fbox{$Var(X + Y) = Var(X) + Var(Y) + 2 \cdot Cov(X, Y)$}$

Cov betyr kovarians, og er et uttrykk for hvor sterkt X og Y samvarierer. Dersom X og Y er uavhengige, slik at det ikke er samvariasjon, blir Cov(X, Y) = 0, og vi står igjen med den forenklede varianten for uavhengige variabler. Begrepet kovarians blir presentert i artikkelen om å sammenlikne datasett.

Kilder

  • Hagen, P.C. (2000), Innføring i statistikk og sannsynlighetsregning. Cappelen Akademisk
  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk

Måltall i statistikk

I denne artikkelen presenterer vi en del sentral- og spredningsmål i statistikk. Alle disse måltallene kan beregnes i regneark, slik det er vist i regnearket under:

RegnearkRegneark med eksempler på måltall
 

Sentralmål

Det kan ofte være interessant å vite hvilke verdier et datasett er sentrert rundt. Hvis vi for eksempel måler høyden på nye sjetteklassinger gjennom en periode på tjue år, vil vi få enorme mengder med data som er vanskelig å få oversikt over på ubehandlet form. Men sammenlikner vi et sentralmål for hvert år, vil vi kjapt kunne se hvordan høyden på sjetteklassinger generelt har endret seg gjennom årene.

Vanlige sentralmål er gjennomsnitt, median og typetall.

Gjennomsnitt

Gjennomsnitt, også kalt middelverdi, angir et datasetts nøyaktige midtpunkt. Hvis vi tenker oss verdiene i et datasett fordelt utover ei vektstang, vil gjennomsnittet være vektstangas balansepunkt. Gjennomsnittet trenger ikke ligge på, eller en gang i nærheten av, noen av verdiene i settet, for eksempel er gjennomsnittet av 1 og 99 lik 50.

Gjennomsnitt beregnes ved å summere alle verdiene i et datasett og dividere på antall elementer. Det er vanlig å betegne gjennomsnitt med en X med strek over: X. I noen kilder benyttes liten bokstav, x.

​I matematisk terminologi, hvis vi har et datasett med n elementer, og kaller hver verdi Xi, der i ∈ {1, 2, 3, …, n}, uttrykker vi gjennomsnittet, X, slik:

$\fbox{Gjennomsnitt: $\overline X = \frac{\displaystyle \sum_{i = 1}^n X_i}{\displaystyle n^\phantom 1}$}$

Vi summerer altså alle elementene og dividerer med antall elementer.

Gjennomsnittet har samme enhet som enkeltelementene. Hvis vi for eksempel beregner gjennomsnittet av høyder i centimeter, er gjennomsnittshøyden også i centimeter.

Eksempel 1:

Vi skal beregne gjennomsnittet av elevhøydene fra eksempel 1 i artikkelen om grafiske presentasjoner. Vi summerer først alle høydene: 140 + 141 + 137 + 143 + 145 + 142 + 139 + 138 + 139 + 141 + 144 + 137 + 138 + 142 + 140 + 142 + 140 + 138 + 135 + 142 + 144 + 141 + 148 + 140 + 149 + 135 + 141 + 140 + 139 + 137 = 4217. Så finner vi gjennomsnittet ved å dividere denne summen på antall målinger, som er 30, og får $\overline X = {\large \frac{4217}{30}} \approx 140{,}6.$ Gjennomsnittshøyden er ca. 140,6 centimeter.

​I praksis beregner vi imidlertid sjelden gjennomsnittet manuelt på denne måten. På litt avanserte kalkulatorer legger vi bare inn alle dataene og trykker på knappen for å beregne gjennomsnitt.

I Excel bruker vi funksjonen gjennomsnitt til å beregne gjennomsnitt. La os si at dataene ligger i celleområdet A1 – C4. Da skriver vi =gjennomsnitt(A1:C4) i cella der vi vil ha gjennomsnittet beregnet. I GeoGebra heter funksjonen gsnitt eller gjennomsnitt, og brukes i GeoGebras regneark-felt, som vi får fram ved å velge «Vis» – «Regneark». Vær imidlertid oppmerksom på at GeoGebra krever at cellenavn skrives med store bokstaver, for eksempel A1. a1 vil ikke bli gjenkjent som et cellenavn. Vi kan også få opp gjennomsnittet i algebra-feltet ved å skrive i gsnitt-kommandoen i inntastingsfeltet, men da sløyfer vi likhetstegnet foran kommandoen. Når vi skriver i inntastingsfeltet, kan vi velge om vi vil liste opp verdiene der, eller referere til dem i regneark-delen.

Oppgave 1:

Vi gjør 6 tellinger av antall passasjerer på en bussrute mellom Andeby og Gåseby, og finner henholdsvis 20, 34, 16, 27, 8 og 9 passasjerer. Beregn gjennomsnitt for passasjertallet.

Kontroller resultatet i et regneark eller GeoGebra.

Se løsningsforslag

Median

Hvis vi sorterer et datasett stigende, vil naturligvis det første elementet ha den laveste verdien i settet, og det siste elementet den høyeste. Det gir også mening å snakke om midten av et slikt sortert sett. Midten til et sett med n elementer blir ${\large \frac{1 + n}{2}}$. (Grunnen til at vi adderer 1, er at første element er nummer 1, ikke nummer 0).
I et datasett med et odde antall elementer vil det være ett element som ligger midt i, i et datasett med et par antall verdier vil det være to elementer. Verdien til midtelementet i et sett med et odde antall elementer, og gjennomsnittet av verdiene til de to midtelementene i et sett med et par antall elementer, kalles datasettets median.

Eksempel 2:

    1. Deltakerne på et kveldskurs er 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Her har vi 9 elementer, så midten blir element nummer ${\large \frac{1 + 9}{2}} = 5$. Settet har et odde antall elementer, så medianen er verdien til element nummer 5, altså 22.
       
    2. Det kommer en ny deltaker på kurset som er 19 år. Stiller vi opp aldrene på nytt, blir det 19, 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Vi har nå 10 elementer, så midten blir element nummer ${\large \frac{1 + 10}{2}} = 5{,}5$, det vil si at element nummer 5 og 6, med verdi 21 og 22, deler midtplassen. Medianen blir da gjennomsnittet av disse verdiene, altså ${\large \frac{21 + 22}{2}} = 21{,}5$.

​Men hvorfor skal vi ha to måltall, både gjennomsnitt og median, til å angi sentrum av et datasett? Vel, begge har sine fordeler og ulemper. Gjennomsnittet trenger vi til en del andre beregninger, for eksempel standardavvik, som vi skal se på senere. Dessuten ligger gjennomsnittet alltid i sentrum av datasettet, selv om det ikke finnes noen verdier i nærheten. Medianen, derimot, er avhengig av én eller to verdier å hekte seg på, noe som kan gi rare utslag hvis det ikke finnes verdier nær gjennomsnittet. På den annen side er medianen mer robust mot sterkt avvikende verdier i et datasett enn gjennomsnittet er. Medianen kan også generaliseres til å angi ikke bare midten av et datasett, men for eksempel fjerdeparten eller en bestemt prosentandel.

Eksempel 3:

  1. I en gruppe besteforeldre og barnebarn er aldrene 5, 10, 11, 14, 57, 60, 63, 65 og 66 år. Gjennomsnittsalderen blir 39, som er i sentrum av datasettet. Men medianen blir 57, noe som er veldig misvisende. Kommer det så en 11-åring og en 12-åring inn i gruppa, går gjennomsnittet noe ned, til 34, men medianen hopper ekstremt, helt ned til 14. I dette tilfellet representerer altså gjennomsnittet dataene best.
     
  2. Ti elever skriver opp hvor mange husdyr de har hjemme. Tre har 0, fire har 1 og tre har 2. Både gjennomsnitt og median blir 1, noe som beskriver datasettet godt. Men så kommer det til en elev som bor på gård der de har 34 husdyr. Nå hopper gjennomsnittet opp til 4, noe som slett ikke forteller noe om hvor mange husdyr det er vanlig å ha. Medianen derimot, forblir 1. I dette tilfellet representerer altså medianen dataene best.

I Excel og GeoGebra beregner vi median ved hjelp av funksjonen median, som brukes helt tilsvarende gjennomsnitt-funksjonen.

Typetall

Typetall, også kalt modus, er den verdien i et datasett som forekommer flest ganger. I eksempel 1 er typetallet 140, fordi denne verdien forekommer 5 ganger, mer enn noen av de andre verdiene. En fordel med typetallet er at det i motsetning til gjennomsnitt og median er definert for verdier som ikke er tall. For eksempel kan typetallet angi hvilken bokstav som forekommer flest ganger i en tekst. I «februar» er for eksempel typetallet «r». I lange tekster vil typetallet angi hvilken bokstav som opptrer oftest i et språk. En ulempe med typetall er at typetall som ligger langt fra gjennomsnittet i et datasett, kan gi et dårlig bilde av hvor datasettet er sentrert. En annen ulempe er at det ikke er konsensus om hva typetallet er når det finnes flere alternativer, slik som i «Mississippi», der både «s» og «i» forekommer 4 ganger. Noen kilder sier at typetallet i slike tilfeller ikke er definert, andre at alle alternativene da er typetall.

I Excel beregner vi typetallet ved hjelp av funksjonen modus.sngl, i GeoGebra ved hjelp av funksjonen typetall. Funksjonene brukes helt tilsvarende gjennomsnitt-funksjonen. Er det flere alternativer, velger Excel én av verdiene, uklart hvilken. GeoGebra gir en liste over verdiene.

Oppgave 2:

Finn median og typetall blant karakterene i oppgave 1, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Se løsningsforslag

SkjermfilmSe filmen «Sentralmål i statistikk»
 

Spredningsmål

Det kan ofte være interessant å ikke bare vite hvor sentrum av et datasett er, men også hvor spredt dataene ligger. Datasettene {50, 50} og {1, 99} har for eksempel begge 50 som gjennomsnitt, men spredningen er veldig forskjellig, i det første tilfellet har vi ikke spredning i det hele tatt.

Vanlige spredningsmål er standardavvik, variasjonsbredde og kvartilbredde.

Standardavvik

Standardavvik er et spredningsmål som er basert på gjennomsnittet. Å beregne standardavvik manuelt er ganske omstendelig, i praksis lar vi en kalkulator eller et regneark gjøre jobben. For å få innsikt i hva standardavvik egentlig er, skal vi allikevel gå gjennom metoden for å regne det ut manuelt.

Vi starter med å summere de kvadratiske avstandene mellom hver verdi i et datasett og datasettets gjennomsnitt.

Eksempel 4a:

Lengden på fem laks vi tar opp av et oppdrettsanlegg, blir målt til 35, 37, 38, 41 og 44 cm. Gjennomsnittslengden er da X = 39 cm. Summen av de kvadratiske avstandene blir

(35 − 39)2 + (37 − 39)2 + (38 − 39)2 + (41 − 39)2 + (44 − 39)2 = 16 + 4 + 1 + 4 + 25 = 50.

Grunnen til at vi beregner den kvadratiske avstanden og ikke bare avstanden, er at vi i datasettet vil ha verdier som er både større og mindre enn gjennomsnittet. Hvis vi da beregner avstanden, vil vi få en blanding av positive og negative tall. Og summen av disse vil alltid være 0, fordi gjennomsnittet ligger sentrert blant verdiene. Med verdiene fra eksempel 4a vil vi få −4 − 2 − 1 + 2 + 5 = 0.

Når vi har funnet summen av de kvadratiske avstandene, dividerer vi den på 1 mindre enn antall elementer vi har. Verdien vi da får kalles varians. Til slutt får vi fram standardavviket ved å ta kvadratrota av variansen.

Eksempel 4b:

I eksempel 4a fant vi ut at summen av de kvadratiske avstandene til fem lengder var 50. Siden det er 5 målinger, vi skal dividere 50 på 5 − 1 = 4 for å finne variansen. Så tar vi kvadratrota og får $\sqrt {\large \frac{50}{4}} \approx 3{,}54$. Standardavviket til laksens lengde er ca. 3,54 cm.

​I matematisk terminologi, hvis vi har et datasett med n elementer, og kaller hver verdi Xi, der i ∈ {1, 2, 3, …, n}, uttrykker vi standardavviket, S, slik:

$\fbox{$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$}$

Standardavviket har samme enhet som enkeltelementene. Hvis vi for eksempel beregner standardavviket til høyder i centimeter, er standardavviket også i centimeter.

Standardavvik beregnes med samme teknikk som gjennomsnitt i Excel og GeoGebra. I Excel med funksjonen stdav.s, og i GeoGebra med funksjonen stavv.

Oppgave 3:

I oppgave 1 beregnet vi at 20, 34, 16, 27, 8 og 9 busspassasjerer ga et gjennomsnitt på 19 passasjerer. Beregn standardavviket til passasjertallet.

Kontroller resultatet i et regneark eller GeoGebra.

​​Se løsningsforslag

Oppgave 4:

Hvis det på bussen med færrest passasjerer i oppgave 1 og 3 hadde vært 2 i stedet for 8 passasjerer, og på bussen med flest passasjerer 40 i stedet for 34, hvordan ville det påvirket gjennomsnitt og standardavvik? Tenk gjennom problemstillingen først, og gjør beregningene etterpå.

​​Se løsningsforslag

Populasjonsstandardavvik

Mer presist kalles det standardavviket vi har beregnet, for utvalgsstandardavviket, fordi det er basert på et utvalg fra en populasjon. Det finnes imidlertid også noe som heter populasjonsstandardavviket, der vi forutsetter at vi har målinger fra alle individer i populasjonen. Dette betegner vi med en liten gresk sigma, σ, og beregner det på samme måte som utvalgsstandardavviket, bortsett fra at vi dividerer med n i stedet for n − 1:
$\sigma = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n}$

Populasjonsstandardavviket vil følgelig være mindre enn utvalgsstandardavviket, men når vi har mange dataelementer slik at n blir stor, vil forskjellen på de to være liten.

I Excel beregner vi populasjonsstandardavviket ved hjelp av funksjonen stdav.p, der p-en står for «population». Tilsvarende står s-en i stdav.s for «sample». I GeoGebra beregner vi populasjonsstandardavviket ved hjelp av funksjonen stavp.

Eksempel 5:

I eksempel 4 beregnet vi at de kvadratiske avstandene mellom lengdene til 5 laks og gjennomsnittet var 50, og utvalgsstandardavviket følgelig ble $S = \sqrt {\large \frac{50}{4}} \approx 3{,}54$.

Hvis disse 5 hadde vært hele populasjonen, ville vi i stedet ha beregnet populasjonsstandardavviket, $\sigma = \sqrt {\large \frac{50}{5}} \approx 3{,}16$.

I Excel ville vi brukt funksjonen stdav.p, og i GeoGebra stavp.

Det er slik at gjennomsnittet av utvalgsstandardavvikene til alle mulige utvalg i en populasjon er lik populasjonsstandardavviket.

I praksis har vi imidlertid sjelden hele populasjonen tilgjengelig, så det er utvalgsstandardavviket som er mest aktuelt å beregne. Utvalgsstandardavvik kalles også gjerne empirisk, altså erfaringsbasert standardavvik.

Dessverre presenterer mange kilder bare den ene eller den andre formen for standardavvik, uten å gjøre rede for at det egentlig finnes to former. Mange kilder blander også symbolene for utvalgsstandardavvik og populasjonsstandardavvik. På en del kalkulatorer brukes σn−1 eller Sn−1 for utvalgsstandardavvik og σn eller Sn for populasjonsstandardavvik. Vi vil imidlertid holde oss til å bruke S for utvalgsstandardavvik og σ for populasjonsstandardavvik.

σ vil vi møte igjen i artikkelen forventning og varians, som det teoretiske standardavviket til en sannsynlighetsfordeling.

SkjermfilmSe filmen «Spredningsmål i statistikk»
 

Variasjonsbredde

Variasjonsbredde er avstanden mellom største og minste verdi i et datasett.

Eksempel 6:

Deltakerne i en lesesirkel er 35, 37, 40, 40, 42 og 44 år. Variasjonsbredden til deltakerne er da 44 − 35 = 9 år.

Variasjonsbredden er imidlertid følsom for ekstreme verdier i et datasett. Hvis det for eksempel i lesesirkelen i eksempel 6 hadde kommet til en person på 75 år, ville variasjonsbredden ha hoppet fra 9 til 40, en endring som ikke i det hele tatt er representativ for endringen i aldersfordeling.

I Excel kan vi beregne variasjonsbredden ved å finne største verdi med funksjonen størst og trekke fra minste verdi som vi finner med funksjonen min. (Det er litt snurrig skrivemåte her). I GeoGebra heter de samme funksjonene maks og min. Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi vil oppgi mer enn to tall i inntastingsfeltet i GeoGebra, må de angis som en liste, det vil si mellom krøllparenteser. For eksempel maks({2, 7, 4}).

Kvartiler

Deler vi et sortert datasett i to like store deler, heter delingspunktet median, som vi har sett tidligere. Deler vi det i fire like store deler, heter delingspunktene kvartiler, henholdsvis første, andre og tredje kvartil, som vi betegner med Q1, Q2 og Q3.

Q1 finner vi som ${\large \frac{1 + n}{2}}$.

Q2 finner vi som ${\large \frac{2(1 + n)}{4}} = {\large \frac{1 + n}{2}}$.

Q3 finner vi som ${\large \frac{3(1 + n)}{4}}$.

Eksempel 7:

Vi skal finne kvartilene til datasettet 13, 14, 17, 18, 18, 21, 23, 23, 27, 30 og 32.

Her har vi 11 elementer, så Q1 blir element nummer ${\large \frac{1 + 11}{4}} = 3$, Q2 blir element nummer ${\large \frac{1 + 11}{2}} = 6$ og Q3 blir element nummer ${\large \frac{3(1 + 11)}{4}} = 9$.

Element nummer 3 har verdien 17, nummer 6 verdien 21, og nummer 9 verdien 27.

Så vi har:
Første kvartil, Q1 = 17.
Andre kvartil (median), Q2 = 21.
Tredje kvartil, Q3 = 27.

I Excel kan vi beregne kvartiler på tilsvarende måte som gjennomsnitt, o.l., ved hjelp av funksjonen kvartil.eks. Her må vi i tillegg til å angi hvilke data vi vil beregne kvartilen til, også angi hvilket kvartil vi skal beregne, 1 for første kvartil, 2 for andre og 3 for tredje kvartil. GeoGebra har to funksjoner for å beregne kvartiler, q1 og q3. For å finne Q2 må vi bruke funksjonen median. Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi bruker inntastingsfeltet i GeoGebra, må verdiene angis som et sett, det vil si mellom krøllparenteser, for eksempel q3({13, 14, 17, 18, 18, 21, 23, 23, 27, 30, 32}) for å beregne tredje kvartil i eksempel 7.

Kvartilbredde

Vi så at variasjonsbredden som spredningsmål var følsom for ekstreme verdier i et datasett. Et bedre mål kan derfor være kvartilbredden, det vil si avstanden mellom første og tredje kvartil, som ikke blir påvirket av de 25 % laveste eller 25 % høyeste verdiene i et datasett.

Er kvartilbredden høy, betyr det stor spredning, er den lav, betyr det lav spredning.

I Excel og GeoGebra kan vi beregne kvartilbredden ved å finne øvre kvartil og så trekke fra nedre kvartil.

Eksempel 8:

Vi skal finne kvartilbredden til datasettet fra eksempel 7. Der fant vi at første kvartil var 17, og tredje kvartil 27, så kvartilbredden blir 27 − 17 = 10.

Oppgave 5:

Olga pendler til jobben med toget, og skriver opp hvor mange minutter forsinket toget er hver dag. En måned har hun notert følgende: 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14. Beregn og tolk variasjonsbredden og kvartilbredden for dette datasettet.

​​​Se løsningsforslag

Persentiler

Oppdelingen av et sortert datasett kan gjøres enda mer detaljert ved hjelp av persentiler (prosentiler), der vi bestemmer en verdi ut fra hvor i datasettet den prosentvis befinner seg.

Eksempel 9:

Et sortert datasett består av tallene 3, 5, 6, 7, 8, 10, 13, 16 og 17, og vi skal finne 20- og 80-persentilene. Da må vi finne ut hvilke verdier som ligger 20 % og 80 % opp i settet. Siden settet har 9 elementer, får vi (1 + 9) · 20 % = 2 og (1 + 9) · 80 % = 8. Siden element nummer 2 har verdien 5, blir 20-persentilen lik 5, og siden element nummer 8 har verdien 16, blir 80-persentilen lik 16.

Q1, Q2 og Q3 tilsvarer henholdsvis 25-, 50- og 75-persentiler.

Når vi skal bestemme medianen i et datasett med n elementer, finner vi midten av datasettet ved å beregne ${\large \frac{1 + n}{2}}$. Dette blir bare et helt tall når n er oddetall, slik at 1 + n blir et helt tall når vi deler med 2. Tilsvarende blir posisjonen til Q1 og Q3 bare hele tall hvis 1 + n delt på 4 blir et helt tall, og posisjonen til et a-persentil blir bare et helt tall hvis 1 + n delt på ${\large \frac{100}{\Large a}}$ blir et helt tall. Dette var tilfelle i eksempel 9, der 20-persentilet lå i posisjon
${\large \frac{1 + n}{\LARGE \, \frac{100}{\huge a} \,}} = {\large \frac{10}{\LARGE \, \frac{100}{20} \,}} = 2$, og 80-persentilet i posisjon ${\large \frac{1 + n}{\LARGE \, \frac{100}{\huge a} \,}} = {\large \frac{10}{\LARGE \, \frac{100}{80} \,}} = 8$.

Dersom posisjonen til medianen ikke blir et helt tall, blir desimaldelen alltid 0,5. Posisjonen ligger da midt mellom to tall, og medianen blir gjennomsnittet av disse. Med kvartiler og persentiler vil det imidlertid ikke alltid være slik. Vi kan for eksempel få en posisjon med desimaldel 0,8, som i eksempel 10 under. Vi beregner da ikke et 50/50 gjennomsnitt, men et vektet gjennomsnitt. Hvis desimaldelen er m, summerer vi da tallet i posisjonen til venstre multiplisert med 1 − m og tallet i posisjonen til høyre multiplisert med m. Medianen er et spesialtilfelle av dette, med 1 − m = m = 0,5.

Eksempel 10:

    • Vi skal finne 38-persentilen i datasettet fra eksempel 9, som har 9 elementer: 3, 5, 6, 7, 8, 10, 13, 16 og 17. Vi beregner (1 + 9) · 0,38 = 3,8. Dette tallet ligger mellom 3 og 4, så vi skal altså beregne et vektet gjennomsnitt av tallene i posisjon 3 og 4, det vil si verdiene 6 og 7. Desimaldelen til 3,8 er 0,8, så vi har m = 0,8, og følgelig er 1 − m = 0,2. Så det vektede gjennomsnittet blir (1 − m) · 6 + m · 7 = 0,2 · 6 + 0,8 · 7 = 6,8.
       
    • Vi skal finne 64-persentilen i det samme datasettet. Vi beregner (1 + 9) · 0,64 = 6,4. Dette tallet ligger mellom 6 og 7, så vi skal altså beregne et vektet gjennomsnitt av tallene i posisjon 6 og 7, det vil si verdiene 10 og 13. Desimaldelen til 6,4 er m = 0,4, og følgelig er 1 − m = 0,6. Så det vektede gjennomsnittet blir (1 − m) · 10 + m · 13 = 0,6 · 10 + 0,4 · 13 = 11,2.
       

I Excel kan vi beregne persentiler, slik vi har gjort i eksempel 9 og 10, ved hjelp av funksjonen persentil.eks. I GeoGebra ved hjelp av funksjonen persentil. Her må vi i tillegg til å angi hvilke data vi vil beregne persentilen til, også angi hvilken persentil vi skal beregne, i form av et desimaltall mellom 0 (0 %) og 1 (100 %). Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, o.l., men hvis vi bruker inntastingsfeltet i GeoGebra, må verdiene angis som et sett, det vil si mellom krøllparenteser, for eksempel persentil({3, 5, 6, 7, 8, 10, 13, 16, 17}, 0.8) for å beregne 80-persentilen i eksempel 9.

Mer om persentiler i Excel og GeoGebra

Excel har egentlig to funksjoner for å beregne persentiler, persentil.eks og persentil.ink. persentil.eks bruker metoden vi har vist i eksempel 9 og 10. Har vi totalt n elementer, ligger første element da på persentil ${\large \frac{1}{1 + n}}$, og siste element på persentil $n − {\large \frac{1}{1 + n}}$. Forsøker vi å bruke persentil.eks til å beregne persentiler som er mindre enn ${\large \frac{1}{1 + n}}$ eller større enn $n − {\large \frac{1}{1 + n}}$, får vi en feilmelding. Uansett hvor mange elementer vi har, vil det med denne beregningsmetoden aldri finnes noe 0-persentil eller 100-persentil. Disse verdiene er ekskludert, derav navnet «eks».

persentil.ink regner derimot at første element ligger på 0-persentilen og siste element på 100-persentilen. Disse verdiene er inkludert, derav navnet «ink».

GeoGebra bruker samme metode som persentil.eks, men dersom vi prøver å beregne persentiler som er mindre enn ${\large \frac{1}{1 + n}}$ eller større enn $n − {\large \frac{1}{1 + n}}$, gir ikke GeoGebra feilmelding, men velger i stedet henholdsvis første og siste element.

Eksempel 11:

Vi har et sortert datasett som består av tallene 10, 20 og 30. Her er det 3 elementer, så ${\large \frac{1}{1 + n}} = {\large \frac{1}{4}} = 25 \, \%$.

persentil.ink regner de tre tallene som henholdsvis 0-, 50- og 100-persentiler, persentil.eks som henholdsvis 25-, 50- og 75-persentiler, slik det er illustrert under.

Histogram med ulik intervallbredde

persentil.eks vil gi feilmelding hvis vi prøver å finne persentiler mindre enn 25 % eller større enn 75 %. GeoGebra vil gi henholdsvis 10 og 30.

Drar vi det ut i det ekstreme, og har et sett med bare ett element, vil persentil.eks ikke beregne andre persentiler enn 50-persentilen, mens persentil.ink knytter alle persentiler til det ene elementet.

På samme måte som Excel har to varianter av funksjoner for å beregne persentiler, finners det også to funksjoner for å beregne kvartiler, kvartil.eks, og kvartil.ink.

Kilder

    • Hinna, K.R.C., Rinvold, R.A., Gustavsen, TS. (2011). QED 5-10, bind 1. Høyskoleforlaget
    • Hagen, P.C. (2000), Innføring i statistikk og sannsynlighetsregning. Cappelen Akademisk
    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Bhattacharya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Grafiske presentasjoner

Et sett med data kan inneholde mange verdier og være svært uoversiktlig. Vi har derfor behov for både metoder til å presentere data på en strukturert måte, og til å beregne nøkkeltall som beskriver dataene.

Eksempel 1:

En gruppe på 30 barneskoleelever var til helsekontroll og fikk målt høyden. Resultatene var 140, 141, 137, 143, 145, 142, 139, 138, 139, 141, 144, 137, 138, 142, 140, 142, 140, 138, 135, 142, 144, 141, 148, 140, 149, 135, 141, 140, 139 og 137 cm. Vi ser at det uten nitid granskning er vanskelig å si noe mer enn at høydene ser ut til å ligge i området 135 – 150 cm.

Frekvenstabell

En måte å strukturere data på er å lage en frekvenstabell. Da lister vi opp de forskjellige verdiene og oppgir hvor mange ganger de forekommer. Dividerer vi antall forekomster av en verdi på antall forekomster totalt, får vi verdiens relative frekvens, som forteller hvor stor del av helheten den utgjør.

Eksempel 2:

Det er totalt 30 målinger i eksempel 1, med verdier fra 135 til 149. En frekvenstabell basert på disse målingene vil se slik ut:

Høyde (cm) 135 136 137 138 139 140 141 142
Frekvens 2 0 3 3 3 5 4 4
Relativ frekvens 7 % 0 % 10 % 10 % 10 % 17 % 13 % 13 %
 
Høyde (cm) 143 144 145 146 147 148 149  
Frekvens 1 2 1 0 0 1 1
Relativ frekvens 3 % 7 % 3 % 0 % 0 % 3 % 3 %

Her har vi angitt den relative frekvensen i prosent. For eksempel er den relative frekvensen for 140 lik ${\large \frac{5}{30}} \approx 0{,}17$, det vil si at om lag 17 % av elevene er 140 centimeter.

Søylediagram

Vi kan også presentere en frekvenstabell grafisk i form av et søylediagram, der vi har én søyle for hver verdi, og høyden på søylen angir hvor mange ganger verdien forekommer.

Eksempel 3:

Frekvenstabellen fra eksempel 2 kan presenteres slik, i form av et søylediagram:

Søylediagram med ugrupperte høydedata

Nå ser vi for eksempel lett at det er flest (5) elever som er 140 centimeter og ingen elever som er 136, 146 eller 147 centimeter.

Av og til kan en frekvenstabell inneholde for mye informasjon. Skal vi for eksempel lage en frekvenstabell over nordmenns inntekt, vil det bli uoverkommelig mange kolonner hvis vi skal gå ned på kronenivå og ha én kolonne for 250.000, én kolonne for 250.001, og så videre. For å forenkle, grupperer vi da verdier, for eksempel ved å ha én kolonne for «under 250.000», én for «250.000 – 299.999», én for «300.000 – 349.999» og så videre.

Eksempel 4:

Grupperer vi målingene fra eksempel 1 i intervallene 135-139, 140-144, 145-149, får vi følgende frekvenstabell og søylediagram:

Høyde (cm) 135-139 140-144 145-149
Frekvens 11 16 3
Relativ frekvens 37 % 53 % 10 %

Søylediagram med grupperte høydedata

Vi ser enkelt at flest elever (16) ligger i gruppa 140-144, noen færre (11) i gruppa 135-139, og få (3) i gruppa 145-149.

I Excel kalles søylediagrammer for stolpediagrammer, disse begrepene brukes mye om hverandre. Enkelte kilder hevder imidlertid at et stolpediagram er et søylediagram der søylene ikke har bredde, de tegnes bare som en strek.

I Excel lager vi søylediagrammer ved å skrive inn og markere dataene, velge «Sett inn» – «Stolpe», og så velge stolpetype.

RegnearkRegneark med stolpediagrammene vist over
 
 
Oppgave 1:

På en prøve fikk elevene i en klasse disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

    1. Lag en frekvenstabell som viser fordeling av karakterene. Tabellen skal også vise relativ frekvens i prosent.
       
    2. Lag en frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6. Tabellen skal også vise relativ frekvens i prosent.
       
    3. Lag et søylediagram som illustrerer karakterfordelingen i punkt 2.

Se løsningsforslag

Histogrammer

Intervaller er imidlertid mer vanlig å presentere i histogrammer. Et histogram minner om et søylediagram, men har en kontinuerlig x-akse, og søylene ligger helt inntil hverandre.

Det er litt tungvint å lage histogrammer i Excel, figurene i eksempel 5 og 6 er laget i GeoGebra. På dette nettstedet finnes en egen artikkel om statistikk med GeoGebra, der det beskrives hvordan GeoGebra kan brukes til å lage søylediagrammer og histogrammer.

Eksempel 5:

Figuren under viser samme data som eksempel 4, presentert i et histogram.

Histogram med høydetata

Det er ikke noe krav at intervallene som presenteres i et histogram skal være like store. Søylens areal, ikke høyden, forteller hvor mange verdier som ligger i hvert intervall.

Eksempel 6:

Tabellen under viser fire intervaller med bredder på henholdsvis 5, 5, 10 og 20. Det er 5 målinger i hvert intervall.

Intervall [0, 5) [5, 10) [10,20) [20, 40)
Frekvens 5 5 5 5

Det tilhørende histogrammet er vist under.

Histogram med ulik intervallbredde

Vi ser at selv om det er like mange målinger i hvert intervall, er ikke søylene like høye, fordi intervallbredden er forskjellig. Arealet av hver søyle er imidlertid det samme.

SkjermfilmSe filmen «Grafisk presentasjon»
 

I det følgende kommer vi til å presentere en del sentral- og spredningsmål i statistikk. Alle disse måltallene kan beregnes i regneark, slik det er vist i eksemplet under:

RegnearkRegneark med eksempler på måltall
 

Introduksjon til statistikk

Statistikk har et litt frynsete rykte. Dette kan skyldes at vi i media stadig ser eksempler på misbruk av statistikk. Av og til fordi noen bevisst prøver å lure oss, men ofte fordi journalistene som presenterer statistikken ikke har kunnskap til å tolke den riktig.

Inntrykket vi får når vi presenteres for statistiske data, er ofte avhengig av måten dataene presenteres på.

Eksempel 1:

I 2021 hadde Fagbladet et opplag på 20 000 og Lilleviksposten et opplag på 2 000 eksemplarer. I 2022 hadde Fagbladet økt til 21 000 eksemplarer og Lilleviksposten til 2 200 eksemplarer. Hvilken av avisene hadde størst økning?

Svaret avhenger av hva vi egentlig spør etter. Måler vi i antall eksemplarer, har Fagbladet hatt størst økning, med 1000 eksemplarer mot Lillevikspostens 200. Men prosentvis har Lilleviksposten størst økning, med 10 % mot Fagbladets 5 %.

Eksempel 2:

I to undersøkelser ble to nye medikamenter, A og B, testet ut. I én undersøkelse hadde medikament A effekt på 81 av 87 pasienter (93 %), mens medikament B hadde effekt på 234 av 270 pasienter (87 %). I en annen undersøkelse hadde medikament A effekt på 192 av 263 pasienter (73 %), mens medikament B hadde effekt på 55 av 80 pasienter (69 %). Hvilket medikament hadde best effekt?

Det virker opplagt at medikament A er svaret, siden det hadde beste effekt i begge undersøkelsene, 93 % mot 87 % i første undersøkelse og 73 % mot 69 % i andre. Men ser vi begge undersøkelsene under ett, hadde medikament A effekt på 273 av 350 pasienter (78 %), mens medikament B hadde effekt på 289 av 350 pasienter (83 %). Så da ser medikament B ut til å ha hatt best effekt. Dette er ikke lureri, men noe som heter Simpsons paradoks. Resultatet er avhengig av hvordan vi betrakter dataene.

Eksempel 3:

Under vises to grafer som illustrerer endring i opplagstall over 20 år. Grafen til høyre gir inntrykk av mye større økning, men begge grafene er basert på nøyaktig samme data, og strekker seg fra ca. 2.000 til 2.600, det er bare skaleringen som er forskjellig.

Kurve med slak stigning Kurve med bratt stigning

 

Under finner du lenke til et regneark der det er jukset med aksene for å gi inntrykk av at en økning i antall forbrytelser per år er mye større enn den i virkeligheten er.

RegnearkRegneark med aksejuks
Det kan også være at vi presenteres for måltall som ikke er representative, slik det er illustrert i oppgaven under.

Oppgave 1:

Vi påstår at de fleste mennesker har mer enn gjennomsnittlig antall armer. Er dette korrekt? Hva er i så fall problemet med denne påstanden?

Se løsningsforslag

En annen vanlig feil er at årsak og virkning forveksles. Statistisk sett er det slik at jo flere brannfolk som deltar i slukkingen av en brann, jo større er skadeomfanget. Men naturligvis vil ikke bruk av færre brannfolk vil gi mindre skadeomfang, for det er ikke antall brannfolk som er årsaken og skadeomfanget som er virkningen, det er motsatt. Er det stort skadeomfang, er brannen sannsynligvis stor, og en stor brann krever mange brannfolk. I dette tilfellet er feilen opplagt, men i andre tilfeller kan det være vanskelig å avgjøre hva som fører til hva. Når det viser seg at folk som er mye ute i naturen, har bedre mental helse enn de som ikke er det, er det da naturen som gir god mental helse, eller er det de med god mental helse som har overskudd til å gå ut i naturen?

En variant er at en hendelse har en utenforliggende årsak. For eksempel er det slik at de fleste bilulykker skjer i dagslys, med edru sjåfør. Men det betyr selvsagt ikke at det lønner seg å fyllekjøre om natta. Årsaken til at det er slik, er at det er mest trafikk om dagen, og det overveiende flertallet av sjåfører er edrue. Et mer subtilt eksempel er vist i eksempel 4.

Eksempel 4:

I en undersøkelse viste statistikken at det var en klar sammenheng mellom bruken av et bestemt medikament og benskjørhet. En skulle derfor tro at det var en klar årsaks- og virkningssammenheng her. Men faktum var at det stort sett var eldre pasienter som brukte medikamentet, og på grunn av sin alder var de disponert for benskjørhet. Vi hadde en utenforliggende årsak.

Det finnes tre typer løgner: Løgn, forbannet løgn og statistikk, skriver forfatteren Mark Twain. Men statistikk er egentlig en eksakt, matematisk vitenskap, det er bare resultatene som bevisst eller ubevisst feiltolkes.

På dette nettstedet ser vi på hvordan vi kan presentere statistikk på en strukturert og standardisert måte gjennom blant annet måltall som gjennomsnitt, standardavvik, median og persentiler. Men vi lærer også å trekke konklusjoner basert på utvalg. Hvis vi for eksempel undersøker 200 laks i et oppdrettsanlegg og 50 av dem har lus, hvilke konklusjoner kan vi da trekke om utbredelsen av lus i hele bestanden? Vi lærer å beregne konfidensintervaller og å gjøre hypotesetester. Vi lærer også å bruke regneark og GeoGebra både til å presentere statistiske data, og å gjøre statistiske beregninger og analyser.

SkjermfilmSe filmen «Introduksjon til statistikk»
 

Kilder