Sammenlikne datasett

I statistikk er vi ofte interessert i å sammenlikne datasett. Vi kan for eksempel lure på om det er noen sammenheng mellom gjennomsnittstemperatur og høyden på en type blomster. Eller vi kan undersøke en hypotese om effektiviteten av en ny type gjødsel ved å sammenlikne et utvalg planter som har fått den nye gjødselen med et utvalg som har fått den gamle.

Korrelasjonskoeffisient

Et praktisk mål for å vurdere om det er sammenheng mellom to sett variabler er korrelasjonskoeffisienten. Korrelasjonskoeffisienten måler i hvor stor grad verdiene i to datasett samvarierer, og er et tall mellom 1 og −1. 1 betyr fullstendig samvariasjon, for eksempel at høyden på en type blomster øker proporsjonalt med temperaturen, −1 betyr fullstendig omvendt samvariasjon, for eksempel at høyden på en type blomster synker proporsjonalt med temperaturen. 0 betyr at det ikke kan påvises noen samvariasjon. Mellom disse ytterpunktene er alle tall mulige. For eksempel vil 0,1 bety en svak samvariasjon, mens 0,9 betyr en sterk samvariasjon.

Hvis vi lager et plott av verdiene, vil data med fullstendig samvariasjon ligge på ei rett linje. Verdier uten samvariasjon vil ligge spredt tilfeldig utover.

Eksempel 1:

Høyde og vekt for 10 kvinnelige toppidrettsutøvere er gitt i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 51 56 51 62 54 56 56 59 57 54

Korrelasjonskoeffisienten for disse dataene er ca. 0,626. Som vi kan forvente, har vi en positiv samvariasjon. Men den er ikke perfekt, det vil vi sjelden finne i virkeligheten. Et plott av dataene er vist under, med høyde langs x-aksen og vekt langs y-aksen.
Illustrasjon av korrelasjonskoeffisient 0,626

Vi ser at det er et tydelig mønster i at større høyde henger sammen med større vekt, men samtidig er det avvik. Personen på 170 centimeter er for eksempel uvanlig lett i forhold til de andre.

Eksempel 2:

Vi manipulerer vektene i eksempel 1, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52,5 53,4 54,4 54,7 53,1 54,1 53,7 54,6 53,8 53,8

Nå har vi nesten perfekt samvariasjon, korrelasjonskoeffisienten er ca. 0,998. Lager vi et plott av dataene, ser vi at de ligger nesten fullstendig på linje.

Illustrasjon av korrelasjonskoeffisient 0,996

Eksempel 3:

Vi manipulerer vektene i eksempel 1 en gang til, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52 54 51 50 53 58 57 56 59 60

Nå har vi ingen samvariasjon, korrelasjonskoeffisienten er 0,000. Lager vi et plott av dataene, ser vi at de ligger spredt utover uten noe mønster:

Illustrasjon av korrelasjonskoeffisient 0,000

Korrelasjonskoeffisienten baserer seg på i hvilken grad avvik fra gjennomsnittet stemmer overens i de to datasettene. Positive bidrag til korrelasjonskoeffisienten vil vi for eksempel få hvis en høyde langt over gjennomsnittet korresponderer med en vekt langt over gjennomsnittet, en høyde litt over gjennomsnittet korresponderer med en vekt litt over gjennomsnittet, en høyde litt under gjennomsnittet med en vekt litt under gjennomsnittet, og så videre.

I artikkelen om måltall i statistikk lærte vi å beregne gjennomsnitt og standardavvik. Gjennomsnittet kalte vi X, og standardavviket σ. For å beregne standardavviket startet vi med å beregne kvadratavstanden mellom verdiene i datasettet og gjennomsnittet: (XiX)2.

Nå har vi to datasett, vi kaller det ene X og det andre Y. Produktet av avstandene mellom en verdi og gjennomsnittet i hvert av settene, (XiX)(YiY), vil gi et mål på i hvilken grad korresponderende verdier samvarierer. Hvis både (XiX) og (YiY) ligger mye over gjennomsnittet, vil vi produktet bli et stort, positivt tall. Det samme vil skje hvis begge verdiene ligger mye under gjennomsnittet. Vi får da et produkt av to store negative tall, noe som blir et stort positivt tall. Verdier nær gjennomsnittet vil gi små tall. Dersom den ene verdien ligger over og den andre under gjennomsnittet, vil produktet bli et negativt tall.

Når vi beregner summen av alle slike produkter og dividerer på antall produkter, n, får vi kovariansen mellom settene.

$\fbox{$Cov(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\displaystyle n^\phantom 1}$}$

Vi forutsetter her at vi arbeider på hele populasjonen. Som vi så i artikkelen om måltall i statistikk, kunne vi i tillegg til å beregne standardavvik ved å ta hensyn til hele populasjonen, også beregne standardavviket for et utvalg. Vi dividerte da med n − 1 i stedet for n og fikk et tall som var litt høyere. Tilsvarende kan vi også finne kovarians for et utvalg ved å dividere på n − 1. For korrelasjonskoeffisienten spiller dette imidlertid ingen rolle.

Kovariansen er på samme måte som korrelasjonskoeffisienten et mål på samvariasjonen i to datasett, men er beheftet med noen ulemper. Ett problem er at kovariansen vil ha en enhet som er avhengig av enhetene i datasettene. I eksempel 1 vil enheten bli cm · kg. Et annet problem er at størrelsen på kovariansen avhenger av størrelsen på dataene. Hvis vi for eksempel får en kovarians på 100, må vi undersøke dataene for å avgjøre om denne tyder på høy eller lav samvariasjon. I noen datasett kan det være det ene, i andre datasett det andre.

Vi gjør derfor en normering ved å dividere kovariansen på produktet av standardavvikene i datasettene vi sammenlikner. Da blir vi kvitt enheten, og får en standardisert tallverdi som varierer mellom −1 og 1. Dette er korrelasjonskoeffisienten, R:

$\fbox{$R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle \sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y}$}$

Skrevet ut i detalj:

$\fbox{$R(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2\displaystyle \sum_{i = 1}^n(Y_i − \overline Y)^2 \;}}$}$

Vi ser at n ikke er med i uttrykket, det er fordi n opptrer i både teller og nevner og kan forkortes bort.

I noen bøker brukes den greske bokstaven ρ i stedet for R som symbol for korrelasjonskoeffisienten.

Eksempel 4:

Vi skal beregne korrelasjonskoeffisienten i eksempel 1. Vi viser ikke utregningen av gjennomsnitt og standardavvik i hvert av datasettene, hvordan vi gjør dette drillet vi på i artikkelen om måltall i statistikk.

Vi kaller datasettet med høyder X og datasettet med vekt Y. Gjennomsnittene blir X = 168,2 og Y= 55,6, standardavvikene blir σX ≈ 2,088 og σY ≈ 3,200.

Summen av produktet av avstandene mellom hver verdi og gjennomsnittet i hvert av de 10 settene blir:

(164 − 168,2)(51 − 55,6) + (167 − 168,2)(56 − 55,6) + (170 − 168,2)(51 − 55,6)
+ (171 − 168,2)(62 − 55,6) + (166 − 168,2)(54 − 55,6) + (169 − 168,2)(56 − 55,6)
+ (168 − 168,2)(56 − 55,6) + (171 − 168,2)(59 − 55,6) + (168 − 168,2)(57 − 55,6)
+ (168 − 168,2)(54 − 55,6) = 41,8

Kovariansen blir $Cov(X, Y) = \frac{\displaystyle 41{,}8}{\displaystyle 10} = 4{,}18$.

Korrelasjonskoeffisienten blir $R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle \sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y} \approx \frac{\displaystyle 4{,}18}{\displaystyle 2{,}088 \cdot 3{,}200} \approx 0{,}626$.

Oppgave 1:

To datasett med 4 korresponderende verdier er vist i tabellen under:

X1 = 242 X2 = 266 X3 = 218 X4 = 234
Y1 = 363 Y2 = 399 Y3 = 327 Y4 = 351

Beregn

  1. Gjennomsnittet i hvert av settene, X og Y
     
  2. Standardavviket i hvert av settene, σX og σY
     
  3. Kovariansen mellom settene, Cov(X, Y)
     
  4. Korrelasjonskoeffisienten mellom settene, R(X, Y)

Se løsningsforslag

Det er sjelden vi regner ut korrelasjonskoeffisienten manuelt. På litt avanserte kalkulatorer legger vi bare inn dataene, og så gjør kalkulatoren resten av jobben. I Excel bruker vi funksjonen kovarians.p til å beregne kovarians, og korrelasjon til å beregne korrelasjonskoeffisienten. De tilsvarende funksjonene i GeoGebra heter Kovarians og Korrelasjonskoeffisient. I Excel kan vi bruke funksjonen kovarians.s hvis vi ønsker utvalgskovarians, det finnes ikke noe tilsvarende i GeoGebra.

RegnearkÅpne regneark med beregning av kovarians og korrelasjon på dataene fra eksempel 1

 
SkjermfilmSe filmen «Samvariasjon»

 

Sammenlikne forventning

l artikkelen om hypotesetesting lærte vi å teste hypoteser om at gjennomsnitt eller sannsynlighet avvek fra en forventet verdi. Naturligvis kan det også være veldig interessant å teste hypoteser om at gjennomsnitt eller sannsynlighet er forskjellig i to grupper. Det kan for eksempel være at en ønsker å teste om en ny medisin gir økt virkning, eller om en ny type gjødsel gir økt avling.

Målemodellen

artikkelen om hypotesetesting baserte vi oss på en testobservator

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$

som kan skrives som

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \sqrt \frac{\sigma^2}{n}}$

Her er X målt gjennomsnitt, μ0 forventet gjennomsnitt, σ fordelingens standardavvik, og n antall målinger.

Når vi skal arbeide med to utvalg, vil vi ha to gjennomsnitt, X og Y, to standardavvik, σX og σY, og to populasjonsstørrelser, nX og nY. Og i stedet for å bruke gjennomsnittets avvik fra forventet verdi, Xμ0, skal vi bruke forskjellen på gjennomsnittene, XY.

Testobservatoren blir

$\fbox{$Z = \frac{\displaystyle \overline X − \overline Y}{\displaystyle \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}}$}$

Eksempel 5:

To maskiner tilsetter sukker i en matvare. Maskin X er oppgitt å ha et standardavvik på 0,11, maskin Y er oppgitt å ha et standardavvik på 0,13. En bedrift ønsker å gjøre en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker. 70 prøver av maskin X gir et snitt på 10,103 gram, 85 prøver av maskin Y et snitt på 10,069 gram.

Hypotesene blir HA: XY, H0: X = Y.

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}103 − 10{,}069}{\displaystyle \sqrt{\frac{(0{,}11)^2}{70} + \frac{(0{,}13)^2}{85}}} \approx 1{,}764$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2

I (kvantil)normalfordelingstabellen finner vi at z0,05/2 ≈ 1,9600.

Siden |Z| ≯ z0,05/2, kan vi ikke forkaste vi nullhypotesen. Undersøkelsen indikerer ikke at det er forskjell på sukkermengdene.

Oppgave 2:

Etter en tid gjør bedriften nye målinger. 60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.

Sett opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene nå tilsetter forskjellig mengde sukker.

Se løsningsforslag

Ukjent standardavvik

Vi arbeider i dette avsnittet med noen eksempler som for oversiktens skyld baseres på svært få målinger. Vi forutsetter da at populasjonene er normalfordelte. 

I artikkelen om estimering og artikkelen om hypotesetesting sa vi at vi ofte ikke kjente fordelingers standardavvik nøyaktig. Da baserte vi oss på utvalgsstandardavviket med testobservator

$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

Og i stedet for å slå opp verdier i normalfordelingstabellen slo vi opp i t-fordelingstabellen.

For å tilpasse observatoren til to grupper, må vi altså erstatte Xμ0 med XY. Men observatoren må også tilpasses to utvalgsstandardavvik.

Dette gjør vi ved å erstatte $\frac{\displaystyle S}{\displaystyle \sqrt n}$ med $S_P \sqrt{\frac{\displaystyle 1}{\displaystyle n^{\phantom 1}_X} + \frac{\displaystyle 1}{\displaystyle n^{\phantom 1}_Y}}$, der $S_P$ et felles standardavvik beregnet for de to gruppene. P-en står for «pooled».

I artikkelen om måltall i statistikk så vi at vi beregnet standardavviket i et enkelt utvalg som

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$

SP beregnes etter tilsvarende mønster:

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i − \overline X)^2 + \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i − \overline Y)^2 \;}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y − 2}$}$

Vi ser at det krever mye regnearbeid å beregne SP for hånd. Siden kalkulatorer ofte har funksjoner for å finne standardavviket i et enkelt datasett, skal vi regne om litt, slik at vi finner SP uttrykt ved standardavviket til hvert av datasettene, Sx og Sy.

Multipliserer vi med $\sqrt{n − 1}$ på begge sider av likhetstegnet i uttrykket $S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$, får vi

$S \sqrt{n − 1} = \sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}$
$\Downarrow$
$S^2 (n − 1) = \displaystyle \sum_{i = 1}^n(X_i − \overline X)^2$

Det betyr at vi kan erstatte $\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2$ med $S^2(n − 1)$ for henholdsvis $S_X$ og $S_Y$ i formelen for $S_P$.

$\fbox{$S_P = \sqrt \frac{\displaystyle {S_X}^2(n^{\phantom 1}_X − 1) + {S_Y}^2(n^{\phantom 1}_Y − 1)}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y − 2}$}$

På denne formen er utregningene mye enklere hvis vi har verktøy til å finne Sx og Sy.

Og observatoren er altså

$\fbox{$T = \frac{\displaystyle \overline X − \overline Y}{\displaystyle S_P \sqrt{\frac{1}{n^{\phantom 1}_X} + \frac{1}{n^{\phantom 1}_Y}}}$}$

artikkelen om hypotesetesting og artikkelen om estimering lærte vi at når vi skulle slå opp i en t-fordelingstabell, måtte kjenne antall frihetsgrader, v, som vi satte lik antall observasjoner minus 1, v = n − 1. Nå har vi to sett med observasjoner, og får v = (nX − 1) + (ny − 1) = nX + ny − 2.

Eksempel 6:

Et oljeselskap ønsker å teste ut om en ny type tilsetningsstoff i bensin gir redusert forbruk i praksis, og gjør et forsøk med 5 biler. Uten tilsetningsstoff brukere bilene henholdsvis 4,7, 3,5, 3,3, 4,2 og 3,6 liter per 100 kilometer. Med tilsetningsstoff brukere bilene henholdsvis 4,2, 3,2, 3,0, 3,9 og 3,3 liter per 100 kilometer. Vi kaller observasjonene uten tilsetning for X, og observasjonene med tilsetning for Y.

Så skal vi på 5 % signifikansnivå utføre en hypotesetest på om tilsetningsstoffet gir redusert forbruk.

Hypotesene blir HA: XY, H0: X = Y.

Ved en slik sammenlikning blir det ingen forskjell på en høyresidig eller venstresidig test, det spørs bare hva vi trekker fra hva. Her velger vi å bruke en høyresidig test.

Vi har altså nX = nY = 5

Fra kalkulator eller PC får vi:

X = 3,86

Y = 3,52

Sx 0,5771

Sx 0,5070

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {0{,}5771}^2(5 − 1) + {0{,}5070}^2(5 − 1)}{\displaystyle 5 + 5 − 2} \approx 0{,}5432$

$T \approx \frac{\displaystyle 3{,}86 − 3{,}52}{\displaystyle 0{,}543 \sqrt{\frac{1}{5} + \frac{1}{5}}} \approx 0{,}991$

Vi forkaster nullhypotesen hvis T > tα (v)

Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 + 5 − 2 = 8 og finner 1,860.

Siden Tt0,05 (8), kan vi ikke forkaste nullhypotesen. Testen gir ikke grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Men som vi skal se i eksempel 7, har vi gjennomført denne testen på en klønete måte.

Oppgave 3:

En fruktbonde har to forskjellige typer kirsebærtrær, og vil undersøke om de gir forskjellig mengde frukt. Han veier frukthøsten fra 13 trær av type X og 12 trær av type Y, og får:

Type X 44 44 56 46 47 38 58 53 49 35 46 30 41
Type Y 35 47 55 29 40 39 32 41 42 57 51 39  

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Se løsningsforslag

Paret test

Hvis vi ser nøyere på dataene i eksempel 6, ser vi at konklusjonen om at tilsetningsstoffet ikke gir lavere forbruk virker underlig. For hver bil har faktisk en markant nedgang i forbruk. Problemet ligger i måten vi beregner det sammenslåtte standardavviket på. Vi ser på hvor stort avviket fra gjennomsnittet er i hver av de to gruppene, men dette er egentlig helt uinteressant. Det vi burde sett på var hvor mye hver bils endring i forbruk, XiYi avviker fra gjennomsnittsendringen, XY.

Vi bør altså heller beregne SP som

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n}\big(X_i − Y_i − (\overline X − \overline Y)\big)^2}{\displaystyle n − 1}$}$

Vi opererer her ikke lenger med nX + nY enkeltelementer, men med n = nX = nY par. (nX må være lik nY, ellers ville vi jo ikke kunne ha par).

Igjen gir formen på SP en del regnearbeid, men hvis vi lager et nytt datasett, D som består av differansen i hvert par, vil SP bli lik standardavviket til dette datasettet, noe vi kan beregne på kalkulator:

$\fbox{$D_i = X_i − Y_i, \; i \in [1, n] \
S_p = S_D$}$

I testobservatoren må vi også ta hensyn til at vi bare har n observasjoner:

$\fbox{$T = \frac{\displaystyle \overline D}{\displaystyle S_p \frac{1}{\sqrt n}}$}$

Eksempel 7:

Vi skal gjøre om igjen undersøkelsen fra eksempel 6, men denne gangen som en paret test.

Hypotesene blir som før HA: XY, H0: X = Y.

Vi beregner:

D1 = 4,7 − 4,2 = 0,5, D2 = 3,5 − 3,2 = 0,3, D3 = 3,3 − 3,0 = 0,3, D4 = 4,2 − 3,9 = 0,3, D5 = 3,6 − 3,3 = 0,3

Fra kalkulator eller PC får vi:

D = 0,34

Sp = SD ≈ 0,0894

Vi beregner:

$T \approx \frac{\displaystyle 0{,}34}{\displaystyle 0{,}0894 \frac{1}{\sqrt 5}} \approx 8{,}504$

Vi har her en høyresidig test, og forkaster nullhypotesen hvis T > tα (v).

Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 − 1 = 4 og finner 2,132.

Siden Tt0,05 (4), kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Oppgave 4:

En lege ønsker å undersøke om en medisin, som en bieffekt, reduserer blodtrykket. Han måler blodtrykket til 15 pasienter før og etter de begynner å ta medisinen, og får følgende resultat

Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84
Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om medisinen reduserer blodtrykket.

Se løsningsforslag

Excel har en egen funksjon for å utføre t-test mellom to datasett, t.test. Brukeren må angi hvilke celleområder de to datasettene ligger i, om det er en ensidig eller tosidig test, og om testen skal gjøres paret eller ikke uparet. t.test beregner P-verdi. Er denne verdien mindre enn testens signifikansnivå, kan nullhypotesen forkastes.

Regnearket under har to ark. Ett for uparet test og ett for paret test.

RegnearkÅpne regneark med beregninger fra eksempel 6 og 7 og bruk av «t.test»
 

Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, har også funksjonalitet for slike beregninger.

Binomisk modell

I artikkelen om estimering og artikkelen om hypotesetesting har vi sett at vi i en binomisk modell ikke baserer oss på gjennomsnittet av et antall målinger, men en estimert sannsynlighet for at elementer i en populasjon har en gitt egenskap. Denne estimerte sannsynligheten anga vi med $\hat p$. Vi gjorde et utvalg på n elementer, lot X være antall av disse som hadde egenskapen, og estimerte $\hat p$ som «gunstige på mulige», $\hat p = \frac{\displaystyle X}{\displaystyle n}$.

Nå har vi to utvalg, med henholdsvis n1 og n2 elementer, og estimerte sannsynligheter $\hat p_1 = \frac{\displaystyle X_1}{\displaystyle n_1}$ og $\hat p_2 = \frac{\displaystyle X_2}{\displaystyle n_2}$.

Differansen mellom de to sannsynlighetene, $p_1 − p_2$, estimeres med $\hat p_1 − \hat p_2$.

Vi har da:

$E(\hat p_1 − \hat p_2) = p_1 − p_2$.

Og, når X1 og X2 er uavhengige:

$Var(\hat p_1 − \hat p_2) = Var(\hat p_1) + Var(−\hat p_2) = Var(\hat p_1) + (−1)^2Var(\hat p_2) =$

$Var(\hat p_1) + Var(\hat p_2) = \frac{\displaystyle p_1(1 − p_1)}{\displaystyle n_1} + \frac{\displaystyle p_2(1 − p_2)}{\displaystyle n_2}$

Hvis nullhypotesen er at p1 = p2, kan vi under forutsetning av at den er riktig erstatte p1 og p2 med et enkelt symbol, p, og vi får:

$Var(\hat p_1 − \hat p_2) = p(1 − p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})$

Hvis p1 = p2, kan vi se på de to utvalgene som ett felles utvalg med n1 + n2 elementer der X1 + X2 har en gitt egenskap. Vi estimerer derfor p som

$\fbox{$\hat p = \frac{\displaystyle X_1 + X_2}{\displaystyle n_1 + n_2}$}$

Og som testobservator får vi

$\fbox{$Z = \frac{\displaystyle \hat p_1 − \hat p_2}{\displaystyle \sqrt{\hat p(1 − \hat p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})}}$}$

Dersom n1 og n2 er store nok, vil Z være tilnærmet standard normalfordelt. Som en tommelfingerregel for hva som menes med store nok, bør
$n_1 \hat p_1, n_1(1 − \hat p_1), n_2 \hat p_2, n_2(1 − \hat p_2)$ alle være større eller lik 5.

Eksempel 8:

En bedrift produserer PC-skjermer ved to forskjellige anlegg. Noen skjermer er defekte, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekte skjermer ved de to anleggene. 200 skjermer undersøkes på hvert anlegg. På anlegg 1 er 17 defekte, på anlegg 2 er 31 defekte. Vi kaller sannsynligheten for defekte ved anlegg 1 for p1 og sannsynligheten for defekte ved anlegg 2 for p2, og skal teste følgende hypotese på 5 % signifikansnivå:

HA: p1p2 mot H0: p1p2.

Vi har n1n2 = 200.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 17}{\displaystyle 200} = 0{,}0850$

$\hat p_2 = \frac{\displaystyle 31}{\displaystyle 200} \approx 0{,}1550$

$\hat p = \frac{\displaystyle 17 + 33}{\displaystyle 200 + 200} = 0{,}1200$

Og vi får

$Z = \frac{\displaystyle 0{,}0850 − 0{,}1550}{\displaystyle \sqrt{0{,}1200(1 − 0{,}1200)(\frac{\displaystyle 1}{\displaystyle 200} + \frac{\displaystyle 1}{\displaystyle 200})}} \approx −2{,}154$

Siden vi har en tosidig test med 5 % signifikansnivå, skal vi forkaste nullhypotesen hvis |Z| > z0,05/2 = z0,025. Vi slår opp i (kvantil)normalfordelingstabellen, og finner z0,025 ≈ 1,9600.

Siden |Z| = 2,154 > 1,9600, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i defektsannsynligheten på de to anleggene.

Oppgave 5:

En bedrift produserer bukser ved to forskjellige produksjonslinjer. En del av buksene har defekte sømmer, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekter ved de to linjene. Ved første produksjonslinje er 147 av 2500 defekte, ved andre er 151 av 2000 defekte. Sett opp og test en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene. Bruk 5 % signifikansnivå.

Se løsningsforslag

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
  • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.

Hypotesetesting

I eksempel 9 i artikkelen om estimering laget vi konfidensintervaller for sannsynligheten for å få kron når vi kastet en mistenkelig mynt 50 ganger og fikk 33 kron. Vi så at et 95 % konfidensintervall ikke inkluderte sannsynligheten til en rettferdig mynt, som er 0,5. Det er derfor en plausibel hypotese at mynten er jukset med, slik at den gir flere kron enn mynt. I denne artikkelen skal vi lære å stille opp og teste slike hypoteser.

Binomisk modell

Eksempel 1:

Vi ønsker å teste hypotesen om at en mynt gir for mange kron når vi får 33 kron i 50 kast. Vi kan aldri bekrefte eller avsanne en slik hypotese siden myntkast er et stokastisk forsøk som styres av tilfeldigheter, men vi kan anslå med en viss sannsynlighet om den er riktig eller ikke. La oss si at vi ønsker å akseptere hypotesen hvis det er mindre enn 5 % sannsynlighet for at en rettferdig mynt gir 33 eller flere kron i 50 kast.

Vi har her en binomisk sannsynlighetsfordeling. Hvis mynten er rettferdig, er sannsynligheten for kron p = 0,5, og vi kan forvente å få np = 50 · 0,5 = 25 kron. Variansen til fordelingen er np(1 – p) = 50 · 0,5(1 – 0,5) = 12,5. Som vi så i artikkelen om sentralgrenseteoremet, vil vi en tilnærming av denne binomiske fordelingen med en normalfordeling, N(25, 12,5) være god fordi np(1 – p) = 12,5 > 10. 

Hvis vi får X kron i 50 kast, er sannsynligheten for dette mindre jo lengre X ligger over 25, det vil si jo lengre X ligger til høyre for toppen av normalfordelingskurven. Sagt på en annen måte blir arealet under normalfordelingskurven til venstre for X større og større, og arealet til høyre mindre og mindre. Det vi ønsker å finne ut, er om 33 kron havner til høyre for verdien i normalfordelingen som har 95 % av arealet til venstre for seg og 5 % av arealet til høyre.

I en standard normalfordeling finner vi denne verdien ved å slå opp 0,05 i (kvantil)normalfordelingstabellen, og finne 1,6449.

For å finne ut om X = 33 tilsvarer en verdi til venstre eller høyre for 1,6449 i en standard normalfordeling, gjør vi en standardisering av X, slik det er beskrevet i artikkelen om normalfordelingen. Vi subtraherer forventningsverdien fra resultatet og dividerer på fordelingens standardavvik.

Vi får $Z = \frac{\displaystyle 33 – 25}{\displaystyle \sqrt{12{,}5}} \approx 2{,}263$. Siden dette er til høyre for 1,6449, kan vi konkludere med at det er mindre enn 5 % sannsynlig å få 33 kron med en rettferdig mynt, og vi aksepterer hypotesen om at mynten gir for mange kron.

Situasjonen er illustrert i figuren under.

Illustrasjon av sannsynlighetsfordelinger av antall kron ved 50 myntkast

Formelt sett i hypotesetesting starter vi med å sette opp en alternativ hypotese og en nullhypotese. Den alternative hypotesen består av det vi skal teste, og skrives som HA. I eksempel 1 er den alternative hypotesen HA: p > 0,5, der p er sannsynligheten for å få kron. Nullhypotesen skrives som H0 og består av det motsatte alternativet. I eksempel 1 er nullhypotesen H0: p = 0,5. Det er ofte lettest å sette opp den alternative hypotesen først.

Så trenger vi en testobservator, som er variabelen vi bruker i testen. I eksempel 1 var observatoren X, som representerte antall kron.

Til slutt må vi bestemme oss for et forkastningsområde for testen. Forkastningsområdet er slik at hvis testobservatoren havner i området, skal nullhypotesen forkastes, og vi aksepterer derved den alternative hypotesen. I eksempel 1 tilsvarte forkastningsområdet det gule feltet i figuren over.

Sannsynligheten for at observatoren havner i forkastningsområdet kalles testens signifikansnivå, og betegnes ofte med α. I eksempel 1 var signifikansnivået α = 0,05. Merk at størrelsen på forkastningsområdet er beregnet ut fra forutsetningen om at nullhypotesen er sann. Grensen for forkastningsområdet i normalfordelingen kaller vi zα. I eksempel 1 var zα = z0,05 ≈ 1,6449.

I eksempel 1 brukte vi observatoren X, som var antall kron, deretter normaliserte vi resultatet slik at vi kunne bruke standard normalfordeling til å bestemme forkastningsområdet. Det kan imidlertid være praktisk å ha en observator som er ferdig standardisert. Hvis $X \sim N(\mu, \, \sigma^2)$, setter vi $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, der μ er fordelingens forventning og σ fordelingens standardavvik.

I en binomisk fordeling har vi at $\mu = np$ og $\sigma = \sqrt{np(1 – p)}$, så vi setter

$Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Her er p0 sannsynligheten i nullhypotesen, og n antall forsøk. I eksempel 1 var dette henholdsvis 0,5 og 50.

Eksempel 2:

Vi kaster en mynt 1000 ganger, får 524 kron, og ønsker å teste en hypotese om at mynten gir for mange kron, med signifikansnivå 5 %.

Vi setter opp:

HA: p > 0,5, H0: p = 0,5

Testobservator:

$Z = \frac{\displaystyle 524 – 1000 \cdot 0{,}5}{\displaystyle \sqrt{1000 \cdot 0{,}5(1 – 0{,}5)}} \approx 1{,}518$

zα = z0,05 ≈ 1,6449, som i eksempel 1.

Siden Z ≯ zα, kan ikke nullhypotesen forkastes på signifikansnivå 5 %. Det er altså ikke grunnlag for å hevde at mynten gir for mange kron.

Oppgave 1:

Vi kaster en terning hundre ganger og får 20 seksere. Sett opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og test hypotesen med et signifikansnivå på 5 %.

Se løsningsforslag

Oppgave 2:

Vi kaster terningen fra oppgave 1 tusen ganger og får 200 seksere. Test hypotesen fra oppgave 1 på nytt med de nye dataene, men med samme signifikansnivå. Sammenlikn med resultatet fra oppgave 1.

Se løsningsforslag

I et binomisk forsøk er X er det samme som $n \hat p$, der n er antall forsøk og $\hat p$ den estimerte sannsynligheten for suksess i forsøket. Vi kan altså skrive testobservatoren som

$Z = \frac{\displaystyle n \hat p – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Forkorter vi med n, får vi

$Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$

som vi kan bruke hvis vi baserer oss på den estimerte sannsynligheten for suksess i stedet for antall oppnådde suksesser.

Vi oppsummerer:

$\fbox{$\begin{align} &\text{Testobservator i binomisk modell: }\\
&Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}} \\
&\text{eller} \\
&Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}} \\
&\text{Sammenliknes med } z_\alpha \end{align}$}$

Vi forutsetter at vi har gjort om lag 30 forsøk eller mer.

Målemodellen

I artikkelen om estimering så vi på målemodellen, og beregnet grensene for et konfidensintervall basert på et antall målinger. Vi kan på samme måte benytte målinger i en hypotesetest. I stedet for å basere testobservatoren på antall suksesser eller estimert sannsynlighet for suksess, baserer vi den på gjennomsnitt og standardavvik: 

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$.

Her er X målt gjennomsnitt, μ0 forventet gjennomsnitt, σ standardavviket og n antall målinger. Generelt bør vi gjøre minst 30 målinger, men vi kan fire på dette kravet hvis vi arbeider med en normalfordelt populasjon.

Eksempel 3:

En maskin som produserer dressing skal i gjennomsnitt tilsette 10 ml. olje pr. pakke. Mengden olje er normalfordelt med et standardavvik på σ = 0,65 ml. 

Det er mistanke om at maskinen er feiljustert og tilsetter for mye olje, så bedriften måler oljeinnholdet i 20 pakker, og finner et gjennomsnitt på 10,5 ml.

De ønsker så å teste en hypotese om at oljeinnholdet er høyere enn 10 ml, med et signifikansnivå på 1 %.

Hypotesene blir HA: μ > 10, H0: μ = 10.

Vi har X = 10,5, og σ = 0,65.

Så vi får: Testobservator: $Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}5 – 10}{\displaystyle \frac{0{,}65}{\sqrt{20}}} \approx 3{,}44$.

Fra (kvantil)normalfordelingstabellen finner vi at zα = z0,01 ≈ 2,3263.

Siden Zzα, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at maskinen i gjennomsnitt tilsetter mer enn 10 ml. olje.

Oppgave 3:

Etter å ha justert maskinen i eksempel 3, måles gjennomsnittsoljeinnholdet i 25 pakker til 10,3 ml. Sett opp og gjennomfør en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet fremdeles er høyere enn 10 ml.

Se løsningsforslag

Nullhypotesene vi har operert med så langt, har bestått i at forventningen har en bestemt verdi, for eksempel H0: μ = 10 i eksempel 3. Men i mange tilfeller vil det være mer realistisk med en nullhypotese som hevder at forventningen er mindre eller lik en bestemt verdi, for eksempel at en fabrikant påstår at fettinnholdet i deres kjøttdeig i gjennomsnitt er maksimalt 10 gram, noe som vil gi H0: μ ≤ 10 som nullhypotese. Dette påvirker imidlertid ikke resultatet av hypotesetesten, fordi kriteriet for å forkaste nullhypotesen er det samme, og den alternative hypotesen er den samme.

Eksempel 4:

En produsent hevder at deres syltetøy i gjennomsnitt inneholder maksimalt 20 gram sukker per 100 gram syltetøy. Skal vi sette opp en hypotesetest om at syltetøyet inneholder mer sukker, blir den alternative hypotesen HA: μ > 20, og nullhypotesen H0: μ ≤ 20.

Ukjent standardavvik

Som vi så i artikkelen om estimering, kjenner vi ofte ikke standardavviket i en populasjon. Da tilnærmer vi med utvalgsstandardavviket, men innfører da også en usikkerhet. I artikkelen om estimering så vi da at vi skiftet ut normalfordelingen med t-fordeling, noe som førte til at konfidensintervallet ble bredere.

Dersom vi i en hypotesetest ikke kjenner populasjonens standardavvik, tilnærmer vi på samme måte med utvalgsstandardavviket og skifter fra normalfordeling til t-fordeling, med antall frihetsgrader lik antall observasjoner minus 1. t-kurvene blir bredere jo færre frihetsgrader vi har, noe som betyr at forkastningsområdet i en hypotesetest beveger seg bort fra gjennomsnittet. Med andre ord blir det vanskeligere blir å forkaste jo færre observasjoner vi har,

Testobservatoren blir omtrent den samme som når standardavviket er kjent, men vi kaller den T i stedet for Z, og bruker S i stedet for σ:

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

For å finne grensen for forkastningsområdet bruker vi (kvantil)t-fordelingstabellen i stedet for normalfordelingstabellen.

Eksempel 5:

På en planteskole oppdager de at 15 planter som ved et uhell er satt i feil type jord later til å ha blitt høyere enn normalt. Høyden på denne plantetypen har i vanlig jord vært normalfordelt med et gjennomsnitt på 30,2 centimeter. Gjennomsnittshøyden på plantene i feil jord måles til 31,2 centimeter, med et standardavvik på 2,3 centimeter. Nå ønsker planteskolen å gjennomføre en hypotesetest på signifikansnivå 5 % for å se om den andre typen jord øker gjennomsnittshøyden til plantene.

Hypotesene blir HA: μ > 30,2, H0: μ = 30,2.

Vi har X = 31,2 og S = 2,3.

Fordi σ er ukjent, må vi bruke t-fordeling med a = α = 0,05 og v = 15 – 1 = 14 for å finne grensen til forkastningsområdet. Vi slår opp i (kvantil) t-fordelingstabellen og får t0,05 (14) ≈ 1,761.

Testobservatoren blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 31{,}2 – 30{,}2}{\displaystyle \frac{2{,}3}{\sqrt{15}}} \approx 1{,}68$.

Siden Tt0,05 (14), kan vi ikke forkaste nullhypotesen, og har på 5 % signifikansnivå ikke grunnlag for å si at den andre typen jord øker gjennomsnittshøyden til plantene.

Hadde vi i stedet for t-fordelingstabellen brukt normalfordelingstabellen, ville grensa til forkastningsområdet blitt z0,05 ≈ 1,6449, og siden T > z0,05, ville vi forkastet nullhypotesen og akseptert at den nye typen jord økte gjennomsnittshøyden til plantene. En feil som oppstod på grunn av at vi da ikke tok hensyn til den økte usikkerheten estimeringen av standardavviket førte med seg.

Oppgave 4:

Ventetiden på å få svar på en servicetelefon er normalfordelt, med en gjennomsnittlig ventetid oppgitt til 30 sekunder. En internkontroll med 15 oppringninger på tilfeldige tidspunkter viser en gjennomsnittlig ventetid på 37 sekunder, med et standardavvik på 14. Sett opp og gjennomfør en hypotesetest på signifikansnivå 5 % på om gjennomsnittlig ventetid er satt for lavt.

Se løsningsforslag

Vi oppsummerer:

$\fbox{$\begin{align}& \text{Testobservator i målemodell: }\\
&\sigma \text{ kjent:} \\
&Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} \\
&\text{ } \\
&\sigma \text{ ukjent:} \\
&T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} \\
&\text{ } \\
&Z \text{ sammenliknes med } z_{\large \alpha} \text{ og } T \text{ med } t_{\large \alpha \, (n – 1)} \end{align}$}$

Dersom vi har om lag 30 målinger eller mer, kan vi bruke normalfordeling i stedet for t-fordeling siden de to fordelingene da er omtrent like.

Ensidige og tosidige tester

I alle eksemplene og oppgavene vi har arbeidet med så langt, har den alternative hypoteser vært at forventningen ligger over en gitt verdi, HA: μ > x. Forkastningsområdet for nullhypotesen har da ligget til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til høyre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z > zα eller T > tα (v). Men selvfølgelig er det like aktuelt å teste det motsatte, at forventningen ligger under en gitt verdi, HA: μ < x. Forkastningsområdet for nullhypotesen vil da ligge til venstre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til venstre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z < –zα eller T < –tα (v).

Eksempel 6:

I et oppdrettsanlegg mistenker de at laksen ikke har nådd forventet vekt, som er 4,5 kg. De fanger 29 fisk og måler at gjennomsnittsvekten er X = 4,24 kg med et standardavvik på S = 0,71 kg. Så vil de gjennomføre en hypotesetest med signifikansnivå på 5 % på om laksen ikke har forventet vekt.

Hypotesene blir HA: μ < 4,5, H0: μ = 4,5.

Vi bruker t-fordeling med 29 – 1 = 28 frihetsgrader.

Testobservator blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 4{,}24 – 4{,}5}{\displaystyle \frac{0{,}71}{\sqrt 29}} \approx -1{,}972$.

Grenseverdien for forkastningsområdet blir –t0,05 (28) ≈ -1,701.

Siden T < –t0,05 (28) , forkaster vi nullhypotesen, og aksepterer hypotesen om at laksen har for lav vekt.

Oppgave 5:

En produsent hevder at syltetøyet deres i gjennomsnitt inneholder minst 50 % bær. Mattilsynet mistenker at bærinnholdet er lavere, måler innholdet i 30 glass syltetøy, og finner et gjennomsnitt på 47,7 %, med et standardavvik på 5,7 %. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder for lite bær.

Se løsningsforslag

Tester på om forventningen ligger over en gitt verdi, eller under en gitt verdi, kalles ensidige tester. Vi har sett at de alternative hypotesene i disse tilfellene er henholdsvis HA: μ > x eller HA: μx.

Men det kan også være aktuelt å teste om forventningen er ulik en gitt verdi. Det kalles en tosidig test, og den alternative hypotesen blir HA: μx. Forkastningsområdet for nullhypotesen vil da fordele seg på to sider, med den ene halvparten til venstre, og den andre halvparten til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde på begge sider under fordelingskurve.

Vi forkaster nullhypotesen hvis |Z| > zα/2 eller |T| > tα/2 (v).

Vi legger merke til at grensen for forkastningsområdet nå beregnes basert på α/2 i stedet for α. Det er fordi hvert av forkastningsområdene nå er halvparten så store som i en ensidig test.

Eksempel 7:

En maskin fyller tomatbønner på boks. Brutto fyllvekt oppgis å være normalfordelt med et gjennomsnitt på 425 gram og et standardavvik på 5 gram. Etter en overhaling gjennomføres en sjekk på 20 bokser, som i snitt viser seg å inneholde 427 gram. Det skal så gjøres en hypotesetest på 5 % signifikansnivå på om mengden bønner i boksene er korrekt.

Hypotesene blir HA: μ ≠ 425, H0: μ = 425.

Testobservator blir $Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 427 – 425}{\displaystyle \frac{5}{\sqrt 20}} \approx 1{,}789$.

Grenseverdien for forkastningsområdet blir z0,05/2 ≈ 1,960.

Siden |Z| ≯ z0,05/2 , kan vi ikke forkaste nullhypotesen om at vekten avviker fra gjennomsnittet.

Oppgave 6:

Mengden sukker en maskin tilsetter i en kakemiks er oppgitt å være normalfordelt med et gjennomsnitt på 83 gram. En bedrift tar 15 stikkprøver, og finner ut at gjennomsnittlig mengde sukker er 82,5 gram med et standardavvik på 0,6 gram. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om sukkermengden er korrekt.

Se løsningsforslag

Excel har en funksjonen for hypotesetesting, z.test, som returnerer en såkalt P-verdi. P-verdien er, gitt at nullhypotesen er sann, sannsynligheten for et resultat som er likt med eller mer ekstremt enn det observerte. Definisjonen er tung, men anvendelsen enkel: Hvis P-verdien er lavere enn testens signifikansnivå, kan nullhypotesen forkastes. Denne funksjonene er imidlertid litt klumpete i bruk, så vi går ikke nærmere inn på den. Den krever at alle testdata listes opp, det er ikke nok å angi et gjennomsnitt, og den er dessuten låst til høyresidige tester, så for venstresidige eller dobbeltsidige tester må det gjøres noe regnearbeid i tillegg. Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, er imidlertid både enkel og fleksibel å bruke til slike tester.

Feil og teststyrke

Vi kan, som nevnt innledningsvis, aldri avsanne eller bekrefte en hypotese med en hypotesetest, bare med en viss sannsynlighet anslå om den er riktig eller ikke. Det betyr at vi i en hypotesetest kan komme til å trekke feil konklusjon. Det er to feil vi kan gjøre:

  1. Forkaste nullhypotesen selv om den er sann. Dette kalles forkastningsfeil, eller type 1 feil.
     
  2. Beholde nullhypotesen selv om den er usann. Dette kalles godtakingsfeil, eller type 2 feil.

Feiltypene refererer altså til nullhypotesen, ikke den alternative hypotesen.

Som vi har sett, forkaster vi nullhypotesen hvis testobservatoren havner i forkastningsområdet. Grensen for forkastningsområdet beregnes ut fra en antakelse om at nullhypotesen er sann.

Eksempel 8:

Vi mistenker at en mynt gir for mange kron. Nullhypotesen er at mynten er rettferdig, med 50 % sjanse for kron: H0: p = 0,5. Den alternative hypotesen er at mynten gir for mange kron: HA: p > 0,5.

I eksempel 2 så vi at 524 kron i 1000 kast ikke var nok til å forkaste nullhypotesen med et signifikansnivå på 5 %. Men hvor går egentlig grensen for forkastningsområdet?

I eksempel 2 så vi at z ≈ 1,6449 dannet grensen i en standard normalfordeling. For å finne ut hvilken x i den opprinnelige fordelingen som tilsvarer denne verdien, bruker vi standardiseringsformelen $z = \frac{\displaystyle x – np}{\displaystyle \sqrt{np(1 – p)}}$ baklengs:

$z = 1{,}6449$
$\Downarrow$
$\frac{\displaystyle x – 0{,}5 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}5(1-0{,}5)}} = 1{,}6449$
$\Downarrow$
$x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}5(1-0{,}5)} + 0{,}5 \cdot 1000 \approx 526$

Grensen for forkastningsområdet går altså på om lag 526 kron.

Men hva om det i eksempel 8 også var mulig at mynten ga for få kron? Da ville vi ikke lenger ha noen fast p å regne med når vi skulle beregne grensen for forkastningsområdet.

Hvis p var 0,49, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}49(1-0{,}49)} + 0{,}49 \cdot 1000 \approx 516$.

Hvis p var 0,48, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}48(1-0{,}48)} + 0{,}48 \cdot 1000 \approx 505$.

Jo lavere p, jo lenger mot venstre kryper 5 %-grensa. Sagt på en annen måte blir sannsynligheten for å få 526 kron eller mer lavere og lavere, jo lavere p er. Det betyr at sannsynligheten for å feilaktig forkaste nullhypotesen også blir lavere og lavere, jo lavere p er. Så den maksimale sannsynligheten for å feilaktig forkaste nullhypotesen er når p = 0,5. I det verst tenkelige tilfelle er altså sannsynligheten for å gjøre en forkastningsfeil den samme som testens signifikansnivå.

Hvis den alternative hypotesen er sann, er det ikke mulig å gjøre forkastningsfeil, for da er det jo riktig å forkaste nullhypotesen. Men vi kan gjøre en godtakingsfeil, som er det motsatte, godta nullhypotesen selv om den skulle vært forkastet.

Eksempel 9:

Hvis mynten fra eksempel 8 faktisk gir for mange kron, det vil si at p > 0,5, gjør vi en godtakingsfeil hvis vi godtar nullhypotesen om at mynten ikke gir for mange kron. Hvor sannsynlig dette er, avhenger av hva verdien til p faktisk er.

Vi godtar altså nullhypotesen hvis vi får færre enn 526 kron.

Er p = 0,51, er sannsynligheten for å få færre enn 526 kron

$G(\frac{\displaystyle 526 – 0{,}51 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}51(1-0{,}51)}}) \approx G(1{,}01)$.

Fra normalfordelingstabellen ser vi at dette er ca. 0,8443. Sannsynligheten for å gjøre en godtakingsfeil er altså over 84 % hvis det bare er 0,01 som skiller mynten fra en rettferdig mynt.

Men når p øker, synker sannsynligheten for godtakingsfeil:

p 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60
%godtakingsfeil 84 65 40 19 6,4 1,5 0,25 0,03 0,0019 0,0001

Vi ser at hvis mynten bare gir et par prosent for mange kron, er det mer sannsynlig at vi ikke oppdager feilen enn at vi gjør det. Men gir den så mye som 5 % for mange kron, vil vi oppdage feilen i over 93 % av tilfellene. 

En hypotesetests styrkefunksjon gir sannsynligheten for å forkaste nullhypotesen. Funksjonen kalles ofte γ eller β.

For situasjonen i eksempel 8 og 9 får vi for eksempel at

$\gamma(p) = 1 – G(\frac{\displaystyle 526 – p \cdot 1000}{\displaystyle \sqrt{1000 \cdot p(1-p)}})$,

med en graf som vist under:

Styrkefunksjon for p med 1000 forsøk.

Vi ser at sannsynligheten for å forkaste nullhypotesen – at mynten ikke gir for mange kron er omtrent 0 når p ≤ 0,49, den er lik signifikansnivået på 5 % når p = 0,5, og nesten 100 % når p ≥ 0,57.

Vi kan øke styrken, det vil si redusere sannsynligheten for godtakingsfeil, ved å redusere signifikansnivået, men da øker vi samtidig sannsynligheten for forkastningsfeil. Vil vi øke styrken uten å ofre signifikansnivået, må vi øke antall observasjoner.

I figuren under har vi i tillegg til styrkefunksjonen vist over, også tegnet inn styrkefunksjonen ved 2000 observasjoner med rødt, og for 4000 observasjoner med grønt. Signifikansnivået er 5 % i alle tilfeller.

Styrkefunksjoner for p med 1000, 2000 og 4000 forsøk.

Vi ser at jo flere observasjoner, jo brattere stiger kurven, og jo nærmere kommer den det ideelle, å hoppe direkte fra 0 til 1 idet p passerer 0,5.

Vi har her brukt en ensidig test i en binomisk modell, men prinsippet er det samme i andre modeller.

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.

Estimering

Dersom vi er ute etter å finne gjennomsnittsvekta på fisk i et oppdrettsanlegg, kan vi ta opp all fisken, veie hvert individ, og ut fra det beregne gjennomsnittet, slik vi lærte i avsnittet om måltall i statistikk. Vi undersøker da hele populasjonen,

I praksis vil imidlertid en slik fremgangsmåte være lite hensiktsmessig. I stedet gjør vi et utvalg, og gir på bakgrunn av dette et anslag av vekta.

Vi kan nøye oss med å ta opp én enkelt fisk, men intuitivt skjønner vi at det vil være bedre å ta opp flere og basere anslaget på gjennomsnittsvekta.

I artikkelen om sentralgrenseteoremet så vi at hvis vi har n variabler som er uavhengige og har samme fordeling, med forventning μ og varians σ2, vil gjennomsnittet av variablene være tilnærmet normalfordelt med forventning $\mu$ og varians $\frac{\displaystyle \sigma^2}{\displaystyle n}$. Vi antydet at n burde være > 30 for at tilnærmingen skulle være god, men hvis vi kan anta at variablene i utgangspunktet er tilnærmet normalfordelt, kan vi fire på dette kravet.

Sørger vi for at fisken vi tar opp blir valgt tilfeldig, vil altså variansen til gjennomsnittsvekta være $\frac{\displaystyle \sigma^2}{\displaystyle n}$, der n er antall fisk vi har veid og σ2 variansen til vekta i fiskepopulasjonen. Jo flere fisk vi veier, jo større blir nevneren i brøken, og jo mindre blir variansen til gjennomsnittet.

Å anslå verdier basert på undersøkelser kaller vi å estimere. For å angi et estimat, bruker vi en estimator. For å indikere at en variabel er en estimator, bruker vi en «hatt», for eksempel er $\hat \theta$ en estimator for $\theta$.

Dersom en estimator gir den forventede verdien til en variabel, det vil si at $E(\hat \theta) = \theta$, kalles estimatoren forventningsrett. I motsatt fall er den forventningsskjev.

Målemodellen

I målemodellen baserer vi estimater på måling av verdier, for eksempel vekta til fisk. En forventningsrett estimator for forventningen, μ, er da gjennomsnittet, $\hat \mu = \overline X$. Har vi gjort n målinger av X, har vi altså

$\fbox{$\hat \mu = \overline X = \frac{\displaystyle X_1 + X_2 + \dots + X_n}{\displaystyle n}$}$
 
Eksempel 1:

Vi har tatt opp og veid 13 laks fra et oppdrettsanlegg. Laksene veide
3,9, 3,6, 5,1, 4,8, 3,7, 3,2, 4,6, 5,4, 3,0, 4,2, 3,8, 4,4 og 4,1 kg.

Et forventningsrett estimat for gjennomsnittsvekta til all laksen i anlegget er da gjennomsnittet av veiingene:

$\hat \mu = \overline X = {\large \frac{3{,}9 + 3{,}6 + 5{,}1 + 4{,}8 + 3{,}7 + 3{,}2 + 4{,}6 + 5{,}4 + 3{,}0 + 4{,}2 + 3{,}8 + 4{,}4 + 4{,}1}{13}} \approx 4{,}14$. Altså om lag 4,14 kg.

Oppgave 1:

En enhet i en bedrift produserer støtfangere. Dagsproduksjonen på seks tilfeldig valgte dager er
210, 220, 210, 225, 220 og 217 enheter. Beregn et forventningsrett estimat for hvor mange støtfangere som produseres daglig.

Se løsningsforslag

Som vi nevner i artikkelen om måltall i statistikk, er det imidlertid sjelden vi beregner gjennomsnitt for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen gjennomsnitt i Excel eller GeoGebra.

Rapportering

Hvor sikkert et estimat er, sier imidlertid ikke $\hat \mu$ noe om, men estimater har naturligvis en usikkerhet knyttet til seg. Rimelig nok er denne usikkerheten avhengig av antall målinger estimatet er basert på. Jo færre målinger, jo mer usikkert estimat. Usikkerheten er også avhengig av standardavviket, σ, til populasjonen vi estimerer i. Jo større σ er, jo større er spredningen, og jo mer usikkert er estimatet. Dersom σ er 0, har vi ikke spredning, og en enkelt måling vil gi et estimat uten usikkerhet.

Når vi angir et estimat, er det vanlig å angi usikkerheten til estimatet, på formen «estimert verdi pluss/minus standardavviket til estimatoren».

Dersom estimatoren er gjennomsnittet av n målinger, er altså variansen til estimatoren $\frac{\displaystyle \sigma^2}{\displaystyle n}$, og følgelig standardavviket til estimatoren $\frac{\displaystyle \sigma}{\displaystyle \sqrt n}$. Så i målemodellen har vi

$\fbox{Rapportering: $\hat \mu \pm \frac{\displaystyle \sigma}{\displaystyle \sqrt n}$}$
 
Eksempel 2:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks vi tok opp var om lag 4,14 kg.

Hvis standardavviket til vekta i fiskepopulasjonen er σ = 0,7, vil en rapportering av estimatet til gjennomsnittsvekta derfor bli

$4{,}14 \pm \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}19$

Oppgave 2:

I oppgave 1 estimerte vi dagsproduksjonen av støtfangere basert på at produksjonen i seks forskjellige dager var henholdsvis 210, 220, 210, 225, 220 og 217 enheter. Anta at standardavviket til produksjonen er σ = 5,8, og angi estimert gjennomsnitt i form av en rapportering.

Se løsningsforslag

Av og til kjenner vi en populasjons standardavvik, for eksempel hvis avviket skyldes dokumenterte unøyaktigheter i et måleinstrument. Men som regel er standardavviket ukjent, og må estimeres, det også.

Det vil da være naturlig å ta utgangspunkt i det standardavviket vi kan beregne ut fra de målingene vi har gjort, utvalgsstandardavviket. I artikkelen om måltall i statistikk så vi at hvis vi har gjort n målinger av X og beregnet at gjennomsnittet er X, er utvalgsstandardavviket gitt ved

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

Som vi nevnte i artikkelen om måltall i statistikk, er det imidlertid sjelden vi beregner standardavvik for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen stdav.s i Excel eller stdav i GeoGebra.

Utvalgsstandardavviket kalles ofte også det empiriske standardavviket, fordi det er basert på empiri, erfaring.

Utvalgsvariansen, S2 vil være et forventningsrett estimat for variansen i en fordeling, σ2. På grunn av at kvadratrotfunksjonen ikke er lineær, vil imidlertid ikke utvalgsstandardavviket, S, som estimat for standardavviket, σ, være forventningsrett. Feilen er imidlertid så liten at det er vanlig å bruke utvalgsstandardavviket som estimator for en fordelings standardavvik:

$\hat \sigma = S$

Formelen for rapportering blir da
$\fbox{Rapportering: $\hat \mu \pm \frac{\displaystyle S}{\displaystyle \sqrt n}$}$

Eksempel 3:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks fra et oppdrettsanlegg var
3,9, 3,6, 5,1, 4,8, 3,7, 3,2, 4,6, 5,4, 3,0, 4,2, 3,8, 4,4 og 4,1 kg.

Et estimat for standardavviket til vekta er da

$\hat \sigma = S \approx 0{,}711$, beregnet ved hjelp av stdav.s i Excel.

En rapportering av gjennomsnittsvekta blir derfor

$4{,}14 \pm \frac{\displaystyle 0{,}711}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}20$

Oppgave 3:

I oppgave 1 så vi at dagsproduksjonen av støtfangere på seks tilfeldig valgte dager i en bedrift var 210, 220, 210, 225, 220 og 217 enheter.

Estimer standardavviket til produksjonen, og presenter estimert gjennomsnitt i form av en rapportering.

Se løsningsforslag

Konfidensintervaller

Å estimere en gjennomsnittsverdi kaller vi å angi et punktestimat, fordi vi anslår et punkt på tallinjen som gjennomsnittet. Vi skal nå se på konfidensintervaller, der vi angir et intervall på tallinjen som vi med en viss sannsynlighet anslår at gjennomsnittet ligger i. For eksempel at gjennomsnittsvekten på laks i eksempel 1 med 95 % sannsynlighet ligger mellom 3,8 og 4,5 kg.

For å finne ut hvordan vi bestemmer grensene i et konfidensintervall, starter vi med å se på en standard normalfordeling, altså en normalfordeling der forventningen er 0 og variansen 1.

Figuren under viser en standard normalfordelingskurve der 95 % av arealet under kurven er markert. Det vil si at hvis vi gjentatte ganger velger en tilfeldig variabel fra denne fordelingen, vil den 95 % av gangene havne innenfor det fargede området, altså mellom –z og z. Arealet er gitt ved G(z) – G(-z) = 0,95. Det vil si at G(z) – [1 – G(z)] = 0,95 ⇒ 2G(z) = 0,95 + 1 ⇒ G(z) = 0,975.

Normalfordelingskurve med 95 % av arealet under kurven markert.

Når vi tidligere har brukt normalfordelingstabellen, har vi kjent z og brukt tabellen til å finne G(z). Nå skal vi gå andre veien. Vi kjenner G(z) og skal finne z. Vi leter i tabellen og finner 0,9750 i rad 1,9 og kolonne 0,06:

Baklengs oppslag i normalfordelingstabell

Det vil si at z = 1,96 og følgelig –z = -1,96. Vi ser at det stemmer bra med figuren over.

I figuren under er 99 % av arealet markert. Arealet her er gitt ved G(z) – G(-z) = 0,99. Det vil si at G(z) – [1 – G(z)] = 0,99 ⇒ 2G(z) = 0,99 + 1 ⇒ G(z) = 0,995.

Normalfordelingskurve med 99 % av arealet under kurven markert.

I normalfordelingstabellen finner vi ikke nøyaktig 0,995, men G(2,57) = 0,9949 og G(2,58) = 0,9951. Vi tar gjennomsnittet og setter z = 2,575 og –z = -2,575. Vi ser at det stemmer bra med figuren over.

Det betyr at for en standard normalfordelt variabel er [-1,96, 1,96] et 95 % konfidensintervall, og [-2,58, 2,58] er et 99 % konfidensintervall.

I artikkelen om normalfordelingen så vi at hvis vi hadde en variabel, X, som var normalfordelt N(μ, σ2), standardiserte vi variabelen ved å beregne $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, som er normalfordelt N(0, 1).

Nå går vi andre veien. Vi har en Z som er normalfordelt, N(0, 1), og beregner X = Z · σ + μ, som er normalfordelt, N(μ, σ2).

Et 95 % konfidensintervall for en fordeling som er N(μ, σ2) blir derfor

[μ – 1,96 · σ, μ + 1,96 · σ]

Eller mer kompakt uttrykt som μ ± 1,96 · σ.

Vi ser at intervallet er sentrert rundt forventningen, μ, og blir bredere jo større σ blir. Det er rimelig. Jo større standardavvik, jo mer usikkert er estimatet, og jo bredere må intervallet være for at vi skal være 95 % sikre på at det rommer gjennomsnittet.

Da vi estimerte gjennomsnitt i en populasjon, så vi at standardavviket til estimatet var $\frac{\displaystyle \sigma}{\displaystyle \sqrt n}$.

Hvis gjennomsnittet av n målinger i en fordeling med standardavvik σ er X, blir derfor et 95 % konfidensintervall for gjennomsnittet

$[\overline X \, – 1{,}96 \cdot  \frac{\displaystyle \sigma}{\displaystyle \sqrt n}, \, \overline X + 1{,}96 \cdot  \frac{\displaystyle \sigma}{\displaystyle \sqrt n}]$

Eller på kompakt form
$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n}$

Vi ser at bredden på et konfidensintervall ikke bare avhenger av σ, men også av antall målinger. Jo flere målinger, jo smalere blir konfidensintervallet.

Vi så i figuren over at i et 95 % og et 99 % konfidensintervall er grensen for z henholdsvis om lag 1,96 og 2,58. Tilsvarende kan vi finne at grensen er om lag 1,65 for et 90 % konfidensintervall.

I kortform:

$\fbox{$\begin{align}\, \\
&\text{Konfidensintervaller:}\\
&\, \\
&\text{90 %: } \overline X \pm 1{,}65 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
&\text{95 %: } \overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
&\text{99 %: } \overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
\end{align}$}$

Vi ser at intervallene blir bredere jo høyere konfidens vi ønsker.

Eksempel 4:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks vi tok opp var om lag 4,14 kg.

Hvis vi vet at populasjonen er normalfordelt med standardavvik σ = 0,7, vil vi få følgende 90 %, 95 % og 99 % konfidensintervaller for laksens gjennomsnittsvekt:

90 %: $4{,}14 \pm 1{,}65 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}32 = [3{,}82, 4{,}46]$

95 %: $4{,}14 \pm 1{,}96 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}38 = [3{,}76, 4{,}52]$

99 %: $4{,}14 \pm 2{,}58 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}50 = [3{,}64, 4{,}64]$

Oppgave 4:

I oppgave 1 estimerte vi dagsproduksjonen av støtfangere basert på at produksjonen i seks forskjellige dager var henholdsvis 210, 220, 210, 225, 220 og 217 enheter. Anta at produksjonen er normalfordelt med standardavvik σ = 5,8, og angi 95 % og 99 % konfidensintervaller for gjennomsnittsproduksjonen.

Se løsningsforslag

Vi har nå sett på 90 %, 95 % og 99 % konfidensintervaller, men andre prosenter er selvsagt også mulig. Det generelle uttrykket er

$\fbox{$\begin{align} &\text{Konfidensintervall:} \\
&\overline X \pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \end{align}$}$

Her representerer α den prosentdelen som ligger utenfor konfidensintervallet. Halvparten av α ligger til venstre for, og halvparten av α til høyre for intervallet, som vist under:

Illustrasjon av alfa som brukes i konfidensintervaller

$\pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}}$ er da z-verdiene i yttergrensene av det fargede området.

I et k % konfidensintervall er altså ${\large \frac{\alpha}{2}} = {\large \frac{1 – k}{2}}$, for eksempel ${\large \frac{1 – 0{,}95}{2}} = 0{,}025$ i et 95 % konfidensintervall og ${\large \frac{1 – 0{,}99}{2}} = 0{,}005$ i et 99 % konfidensintervall.

Da vi skulle finne intervallet [-z, z] som utgjorde et 95 % og 99 % konfidensintervall i en standard normalfordeling, gjorde vi et baklengs oppslag i normalfordelingstabellen for å finne z. Dette er tungvint, og det er derfor laget ferdige, omvendte tabeller. I en slik tabell slår vi opp a, og får ut z, slik at arealet under kurven til høyre for z er a.

Dette kalles kvantiltabeller eller fraktiltabeller for normalfordelingen, en kvantiltabell for normalfordelingen finnes på dette nettstedet.

Eksempel 5:

Vi er interessert i å finne et 98 % konfidensintervall for gjennomsnittsvekten til laksen fra eksempel 1.

Vi får at ${\large \frac{\alpha}{2}} = {\large \frac{1 – 0{,98}}{2}} = 0{,}01$. Vi slår opp 0,010 i (kvantil)normalfordelingstabellen og får 2,3263.

Vi har altså at ${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} = {\large z}_{0{,}01}^\phantom 1 \approx 2{,}3263$.

I eksempel 1 fant vi at gjennomsnittsvekten til n = 13 laks var 4,14 kg. Hvis laksepopulasjonen er normalfordelt med standardavvik σ = 0,7, blir altså et 98 % konfidensintervall

$4{,}14 \pm 2{,}33 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}45 = [3{,}69, 4{,}59]$

Oppgave 5:

Bruk metoden fra eksempel 5 til å finne et 97 % konfidensintervall for laksens gjennomsnittsvekt.

Se løsningsforslag

I Excel og GeoGebra finnes egne funksjoner for baklengs oppslag i normalfordelinger, norm.inv i Excel og InversNormalfordeling i GeoGebra. Med disse er det imidlertid $1 – {\large \frac{\alpha}{2}}$ vi slår opp, vi angir altså arealet under normalfordelingskurven til venstre for, ikke til høyre for, ${\large \frac{\alpha}{2}}$.

Funksjonene er inverser av funksjonene norm.fordeling og FordelingNormal, som vi presenterte i artikkelen om normalfordelingen. Der oppga vi en grenseverdi, og fikk ut sannsynligheten for at en normalfordelt, tilfeldig variabel var mindre eller lik denne grenseverdien. I de inverse funksjonene oppgir vi sannsynligheten, og får ut grenseverdien. I tillegg må vi også gi inn normalfordelingens forventningsverdi og standardavvik. Excel har også en funksjon, norm.s.inv, som er inversen til norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, verdiene 0 og 1 brukes automatisk. Noe tilsvarende finnes ikke i GeoGebra.

Disse funksjonene er imidlertid ikke veldig interessante når vi skal beregne bredden på konfidensintervaller. Har vi en datamaskin tilgjengelig, kan vi bruke Excel eller GeoGebra til å beregne denne bredden direkte.

I Excel bruker vi funksjonen konfidens.norm, der vi gir inn $\alpha$, samt fordelingens varians og antall elementer i utvalget. (Vi gir altså inn $\alpha$, ikke ${\large \frac{\alpha}{2}}$.) Excel beregner da avstanden fra utvalgets gjennomsnitt til intervallgrensene. I GeoGebra bruker vi sannsynlighetskalkulatoren, slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Eksempel 6:

Med basis i data fra lakseveiningen i eksempel 1, skal vi bruke Excel til å beregne grensene i et 95 % og et 99 % konfidensintervall for laksens gjennomsnittsvekt. Vi har altså veid 13 fisk og funnet et gjennomsnitt på 4,14 kg. Populasjonen er normalfordelt med standardavvik 0,7.

Skriver vi =konfidens.norm(1-0,95; 0,7; 13) i Excel, får vi ut 0,38. Et 95 prosent konfidensintervall blir derfor om lag

[4,14 – 0,38, 4,14 + 0,38] = [3,76, 4,52].

Skriver vi =konfidens.norm(1-0,99; 0,7; 13) i Excel, får vi ut 0,50. Et 99 prosent konfidensintervall blir derfor om lag

[4,14 – 0,50, 4,14 + 0,50] = [3,64, 4,64].
 

RegnearkÅpne et regneark som beregner 90 – 99 % (normal)konfidensintervaller

 
Oppgave 6:

Bruk Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere fra oppgave 1. Vi har altså dagsproduksjoner på henholdsvis 210, 220, 210, 225, 220 og 217 enheter, og vet at produksjonen er normalfordelt med standardavvik 5,8.

Se løsningsforslag

Konfidensintervaller ved ukjent standardavvik

Når vi har brukt normalfordelingen til å lage konfidensintervaller for et estimat i en populasjon, har vi forutsatt at standardavviket til populasjonen, σ, er kjent. Av og til kjenner vi en populasjons standardavvik, for eksempel hvis avviket skyldes dokumenterte unøyaktigheter i et måleinstrument. Men som regel er standardavviket ukjent, og må estimeres, det også.

Det vil da være naturlig å ta utgangspunkt i det standardavviket vi kan beregne ut fra de målingene vi har gjort, nemlig utvalgsstandardavviket, S, og estimere σ som

$\hat \sigma = S$

I artikkelen Måltall i statistikk så vi at hvis vi har gjort n målinger av en variabel X og beregnet at gjennomsnittet er X, er utvalgsstandardavviket, S, gitt ved

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

Som vi nevnte samtidig, er det imidlertid sjelden vi beregner standardavvik for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen stdav.s i Excel eller stdev i GeoGebra.

Bruk av utvalgsstandardavviket innebærer imidlertid at vi innfører en usikkerhet, noe som medfører at normalfordelingen gir et for smalt intervall. I stedet for normalfordelingen bruker vi da en t-fordeling, også kalt Students t-fordeling. t-fordelingen er ikke én enkelt kurve, men en familie med kurver som blir lavere og bredere jo høyere usikkerhet vi har. Denne usikkerheten måler vi i frihetsgrader, v, der økende antall frihetsgrader gir synkende usikkerhet.

Figuren under viser et plott av tre t-kurver med frihetsgrader på henholdsvis v = 1, v = 5 og v = 30, tegnet med henholdsvis grønn, blå og rød linje. Figuren viser også en normalfordelingskurve, tegnet med svart, prikkete linje. Vi ser at t-kurven nærmer seg normalkurven når antall frihetsgrader øker. Ved 30 frihetsgrader er kurvene så å si overlappende.

Plott av normalfordeling og t-fordelinger med 1, 5 og 30 frihetsgrader.

Når vi skal bruke t-fordelingen ut fra et utvalgsstandardavvik basert på n målinger, setter vi antall frihetsgrader, v, lik antall målinger minus 1, v = n – 1.

t-kurven blir altså bredere jo færre målinger vi har.

Vi har tidligere sett hvordan vi brukte en kvantiltabell for normalfordelingen til å slå opp a og få ut z, slik at arealet under kurven til høyre for z var a. En kvantiltabell for t-fordelingen er tilsvarende, men vi må i tillegg til a også angi antall frihetsgrader, v. På dette nettstedet finnes en kvantiltabell for t-fordelingen. Tabellen går opp til 30 frihetsgrader. Har vi flere frihetsgrader, er t-fordelingen så nærme normalfordelingen at vi i stedet kan bruke kvantiltabellen for normalfordelingen.

Eksempel 7:

I eksempel 3 målte vi vekta på 13 laks, og fant at gjennomsnittet var X ≈ 4,14 kg og utvalgsstandardavviket S ≈ 0,71 kg.

Skulle vi brukt normalfordelingen til å lage et 95 % konfidensintervall for vekta, ville vi basert oss på z0,025 ≈ 1,96, og fått:

$4{,}14 \pm 1{,}96 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}75, 4{,}53]$.

Men siden vi baserer oss på utvalgsstandardavviket, bruker vi i stedet (kvantil)t-fordelingstabellen med a = 0,025 og v = 13 – 1 = 12. Vi finner at t0,025 (12) ≈ 2,179 og får:

$4{,}14 \pm 2{,}179 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}71, 4{,}57]$.

Konfidensintervallet blir litt bredere enn da vi brukte normalfordelingen, dette gjenspeiler usikkerheten ved at bruk av utvalgsstandardavviket basert på så lite som 13 målinger.

Oppgave 7:

I oppgave 1 og 2 fant vi, basert på 6 tilfeldige observasjoner at gjennomsnittlig antall produserte støtfangere var X= 217 stk, og produksjonens utvalgsstandardavvik S = 6 stk. Lag og sammenlikn et 95 % konfidensintervall basert på normalfordeling med ett basert på t-fordeling.

Se løsningsforslag

Når standardavviket til en populasjon er ukjent, beregner vi altså et konfidensintervall som

$\fbox{$\begin{align} &\text{Konfidensintervall:} \\
&\overline X \pm {\large t_{\Large \frac{\alpha^\phantom 1}{2} \,(v)}} \cdot \frac{\displaystyle S}{\displaystyle \sqrt n} \end{align}$}$

Excel og GeoGebra har mange funksjoner for oppslag i t-fordeling, tilsvarende de som finnes for oppslag i normalfordeling.

I artikkelen om normalfordelingen presenterte vi Excel-funksjonen norm.fordeling og GeoGebra-funksjonen FordelingNormal, som beregner P(Xx) i en vilkårlig normalfordeling. Motsvarende i t-fordelingen heter henholdsvis t.fordeling og FordelingT. I t-fordelingen antas forventningen å være 0 og standardavviket 1, så det trenger vi ikke oppgi. I stedet må vi oppgi antall frihetsgrader. I norm.fordeling er parameterne x, antall frihetsgrader, og sann/usann for kumulativ/ikke-kumulativ sannsynlighet. I FordelingT oppgir vi først antall frihetsgrader, deretter x og true/false for kumulativ/ikke-kumulativ. true/false kan sløyfes, da benyttes kumulativ sannsynlighet, som er det vanligste.

I denne artikkelen presenterte vi inversene til funksjonene nevnt over, norm.inv i Excel og InversNormalfordeling i GeoGebra. Motsvarende for t-fordelingen heter t.inv og InversTFordeling. I Excel er første parameter sannsynligheten og andre antall frihetsgrader, omvendt i GeoGebra.

I denne artikkelen har vi også sett hvordan vi kunne bruke funksjonen konfidens.norm i Excel og sannsynlighetskalkulatoren i GeoGebra til å beregne grensene i et konfidensintervall.

I Excel bruker vi funksjonen konfidens.t til å beregne bredden av et konfidensintervall basert på en t-fordeling. Vi gir da inn α, standardavvik og utvalgsstørrelse. I GeoGebra bruker vi sannsynlighetskalkulatoren, slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Eksempel 8:

I eksempel 7 fant vi at et 95 % konfidensintervall for gjennomsnittsvekta til 13 laks med gjennomsnittsvekt 4,14 og utvalgsstandardavvik 0,711 var

$4{,}14 \pm 2{,}179 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}71, 4{,}57]$

For å beregne det samme i Excel, skriver vi =konfidens.t(1-0,95; 0,71; 13) og får ut 0,43. Et 95 prosent konfidensintervall blir derfor om lag

[4,14 – 0,43, 4,14 + 0,43] = [3,71, 4,57].
 

RegnearkÅpne et regneark som beregner 90 – 99 % (t)konfidensintervaller

 
Oppgave 8:

I oppgave 7 beregnet vi, basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 et 95 % konfidensintervall basert på t-fordeling. Gjør den samme beregningen i Excel.

Se løsningsforslag

Når vi eksempler og oppgaver har forutsatt at populasjonene er normalfordelte, er det fordi vi har gjort beregninger basert på ganske få målinger. Hvis vi øker antall målinger til 30 eller mer, kan vi imidlertid fire på dette kravet. Sentralgrenseteoremet garanterer at gjennomsnittene i alle tilfeller vil være tilnærmet normalfordelte.

Binomisk modell

Det vi har gjort så langt, har vært basert på gjennomsnitt. Av og til er imidlertid ikke gjennomsnittet interessant, vi er i stedet ute etter å estimere sannsynligheten for at elementer i en populasjon har en gitt egenskap. Vi antar at hvert element enten har eller ikke har egenskapen, og at det er uavhengighet mellom elementene. Vi har derved en binomisk modell. I en binomisk modell bruker vi symbolet $\hat p$ til å estimere sannsynligheten p. Trekker vi n elementer fra populasjonen, og X av disse har den gitte egenskapen, er en forventningsrett estimator
$\hat p = {\large \frac{X}{n}}$.

Standardavviket til estimatoren baseres ikke på et utvalgsstandardavvik, men på at variansen i en binomisk fordeling er Var(X) = np(1-p), slik vi så i artikkelen om forventning og varians.

Ved å bruke regnereglene vi lærte i denne artikkelen, kan vi finne variansen til estimatoren:

$Var(\hat p) = Var(\frac{\displaystyle X}{\displaystyle n}) = {(\frac{\displaystyle 1}{\displaystyle n})}^2Var(X) = {(\frac{\displaystyle 1}{\displaystyle n})}^2(np(1 – p)) = \frac{\displaystyle p(1 – p)}{\displaystyle n}$.

Og standardavviket til estimatoren blir $\sqrt \frac{\displaystyle p(1 – p)}{\displaystyle n}$

Vi ser at standardavviket blir 0 når $\hat p = 1$ eller $\hat p = 0$, rimelig nok, siden vi da ikke har spredning i det hele tatt. Størst standardavvik får vi når $\hat p = 0{,}5$.

Nå er jo ikke $p$ kjent, dette er jo den ukjente variabelen vi skal estimere, så vi tilnærmer $p$ med den estimerte sannsynligheten, $\hat p$.

Formelen for rapportering i denne modellen blir da

$\fbox{Rapportering: $\overline X \pm \sqrt \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}$}$

Og et konfidensintervall angis som

$\fbox{$\begin{align}&\text{Konfidensintervall:} \\
&\hat p \pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \cdot \sqrt{ \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}} \end{align}$}$

I målemodellen så vi at vi kompenserte for usikkerheten ved at variansen ikke var kjent ved å bruke t-fordeling i stedet for normalfordeling. Det gjør vi ikke i den binomiske modellen, vi forutsetter i stedet at vi har minst 30 målinger, slik at normalfordelingen gir en god nok tilnærming.

Eksempel 9:

Når vi kaster en vanlig mynt 50 ganger, er forventningsverdien til antall kron 50 · 0,5 = 25. Store avvik fra dette kan tyde på at det er noe juks med mynten.

Vi kaster en mynt vi mistenker er jukset med 50 ganger, og får 33 kron.

Vi estimerer da sannsynligheten for kron med $\hat p = {\large \frac{X}{n}} = {\large \frac{33}{50}}= 0{,}66$.

Vi estimerer standardavviket til estimatoren med $\sqrt{\large \frac{\hat p(1- \hat p)}{n}} = \sqrt{\large \frac{0{,}66(1 – 0{,}66)}{50}} \approx 0{,}067$.

En rapportering av denne sannsynligheten blir da

$0{,}66 \pm 0{,}067$

Så ønsker vi å finne 95 % og 99 % konfidensintervaller for den estimerte sannsynligheten.

Fra tidligere eksempler vet vi at vi i et 95 % konfidensintervall har

${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \approx 1{,}96$

og i et 99 % konfidensintervall har

${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \approx 2{,}58$

Så et 95 % konfidensintervall blir 0,66 ± 1,96 · 0,067 ≈ [0,53, 0,79].

Og et 99 % konfidensintervall blir 0,66 ± 2,58 · 0,067 ≈ [0,49, 0,83].

Vi ser at et 95 % konfidensintervall ikke fanger opp sannsynligheten for en normal mynt, som er 0,5, men 99 % intervallet gjør det så vidt. Det betyr at estimatet med 95 % sikkerhet indikerer at mynten er jukset med, men ikke med 99 % sikkerhet.

Oppgave 9:

En bedrift som produserer mobilladere, tester 2000 tilfeldige ladere, og finner ut at 35 av dem er defekte.

Finn et estimat for hvor stor sannsynligheten er for at en vilkårlig lader er defekt, og angi resultatet som en rapportering.

Finn deretter et 95 % konfidensintervall for estimatet.

Se løsningsforslag

Å beregne konfidensintervaller i en binomisk modell i Excel er tungvint, men sannsynlighetskalkulatoren i GeoGebra gjør dette enkelt , slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons