Sammenlikne datasett

l artikkelen om hypotesetesting lærer vi å lage hypotesetester om avvik i forventede verdier eller binomiske sannsynligheter i et datasett. I denne artikkelen skal vi lage hypotesetester om forskjeller mellom to datasett. Det kan for eksempel være at en ønsker å teste om en ny medisin gir økt virkning, eller om en ny type gjødsel gir økt avling.

Sammenlikne forventning

artikkelen om hypotesetesting baserer vi oss på testobservatoren

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$

som kan skrives som

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \sqrt \frac{\sigma^2}{n}}$

Her er X målt gjennomsnitt, μ0 forventet gjennomsnitt, σ fordelingens standardavvik, og n antall målinger.

Nå skal vi se på to datasett, som vi kaller X og Y. Vi vil da ha to gjennomsnitt, X og Y, to standardavvik, σX og σY, og to tall på antall målinger, nX og nY. I stedet for å bruke gjennomsnittets avvik fra forventet verdi, X − μ0, skal vi bruke forskjellen på gjennomsnittene, XY.

Testobservatoren blir

$\fbox{$Z = \frac{\displaystyle \overline X − \overline Y}{\displaystyle \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}}$}$

Vi skiller på ensidige og tosidige tester. I en ensidig test er den alternative hypotesen at forventningen i det ene settet skiller seg fra forventningen i det andre, HA: μXμY. I en tosidig test er den alternative hypotesen at forventningen i det ene settet er mindre eller større enn forventningen i det andre, HA: μXμY eller HA: μX > μY. I en ensidig test forkaster vi nullhypotesen hvis |Z| > zα, i en tosidig test forkaster vi nullhypotesen hvis |Z| > zα/2.

Eksempel 1:

To maskiner tilsetter sukker i en matvare. Maskin X er oppgitt å ha et standardavvik på 0,11, maskin Y er oppgitt å ha et standardavvik på 0,13. En bedrift ønsker å gjøre en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker. 70 prøver av maskin X gir et snitt på 10,103 gram, 85 prøver av maskin Y et snitt på 10,069 gram.

Vi har altså X = 10,103, Y = 10,069, σX = 0,11, σY = 0,13, nX = 70, nY = 80.

Hypotesene blir HA: μXμY , H0: μXμY .

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}103 − 10{,}069}{\displaystyle \sqrt{\frac{(0{,}11)^2}{70} + \frac{(0{,}13)^2}{85}}} \approx 1{,}7636$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2

Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025.

Vi slår opp i (kvantil)normalfordelingstabellen med α = 0,025, der det står 1,9600. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,025) i Excel eller inversnormalfordeling(0, 1, 1 – 0.025) i GeoGebra.

Siden |Z| ≈ 1,764 $\ngtr$ zα/2 ≈ 1,9600, kan vi ikke forkaste vi nullhypotesen. Undersøkelsen indikerer ikke at det er forskjell på sukkermengdene.

Oppgave 1:

Etter en tid gjør bedriften nye målinger med maskinene i eksempel 1. 60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.

Sett opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene nå tilsetter forskjellig mengde sukker.

Se løsningsforslag

Ukjent standardavvik

Vi arbeider i dette avsnittet med noen eksempler som for oversiktens skyld baseres på svært få målinger. Vi forutsetter da at populasjonene er normalfordelte. 

I artikkelen om estimering og artikkelen om hypotesetesting sier vi at vi ofte ikke kjenner fordelingers standardavvik nøyaktig. Da baserer vi oss på utvalgsstandardavviket, med testobservator

$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

I stedet for å slå opp verdier i normalfordelingstabellen slår vi opp i t-fordelingstabellen.

For å tilpasse observatoren til to grupper, må vi altså erstatte Xμ0 med XY. Men observatoren må også tilpasses to utvalgsstandardavvik.

Det gjør vi ved å erstatte $\frac{\displaystyle S}{\displaystyle \sqrt n}$ med $S_P \sqrt{\frac{\displaystyle 1}{\displaystyle n_X} + \frac{\displaystyle 1}{\displaystyle n_Y}}$, der SP er et felles standardavvik beregnet for de to utvalgene. P-en står for «pooled», «samlet» på norsk.

I artikkelen om måltall i statistikk ser vi at vi beregner utvalgsstandardavviket i et enkelt utvalg som

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$

SP beregnes etter tilsvarende mønster:

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i − \overline X)^2 + \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i − \overline Y)^2 \;}{\displaystyle n_X + n_Y − 2}$}$

Vi ser at det krever mye regnearbeid å beregne SP for hånd. Siden kalkulatorer ofte har funksjoner for å finne standardavviket i et enkelt datasett, skal vi skrive det om litt, slik at vi finner SP uttrykt ved standardavviket til hvert av datasettene, Sx og Sy.

Vi tar utgangspunkt i den generelle formelen for utvalgsstandardavvik:

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1} $

Så multipliserer vi med $\sqrt{n − 1}$ på begge sider av likhetstegnet:

$S \sqrt{n − 1} = \sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}$

Så kvadrerer vi på begge sider av likhetstegnet:

$S^2 (n − 1) = \displaystyle \sum_{i = 1}^n(X_i − \overline X)^2$

Det betyr at vi i formelen for SP kan sette inn ${S_X}^2(n_X − 1)$ i stedet for $\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i − \overline X)^2$ og ${S_Y}^2(n_Y− 1)$ i stedet for $\displaystyle \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i − \overline Y)^2$

$\fbox{$S_P = \sqrt \frac{\displaystyle {S_X}^2(n^{\phantom 1}_X − 1) + {S_Y}^2(n^{\phantom 1}_Y − 1)}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y − 2}$}$

På denne formen er utregningene mye enklere hvis vi har verktøy til å finne SX og SY.

Og observatoren er altså

$\fbox{$T = \frac{\displaystyle \overline X − \overline Y}{\displaystyle S_P \sqrt{\frac{1}{n^{\phantom 1}_X} + \frac{1}{n^{\phantom 1}_Y}}}$}$

artikkelen om hypotesetesting og artikkelen om estimering lærer vi at når vi skal slå opp i en t-fordelingstabell, må vi kjenne antall frihetsgrader, v, som vi setter lik antall observasjoner minus 1, v = n − 1. Nå har vi to sett med observasjoner, og får v = (nX − 1) + (nY − 1) = nX + ny − 2.

I en ensidig test forkaster vi nullhypotesen hvis |T| > zα (v), i en tosidig test forkaster vi nullhypotesen hvis |T| > zα/2 (v).

Eksempel 2:

Et oljeselskap ønsker å teste ut om en ny type tilsetningsstoff i bensin gir redusert forbruk i praksis, og gjør et forsøk med 5 biler. Uten tilsetningsstoff brukere bilene henholdsvis 4,7, 3,5, 3,3, 4,2 og 3,6 liter per 100 kilometer. Med tilsetningsstoff bruker bilene henholdsvis 4,2, 3,2, 3,0, 3,9 og 3,3 liter per 100 kilometer. Vi kaller observasjonene uten tilsetning for X, og observasjonene med tilsetning for Y.

Så skal vi på 5 % signifikansnivå utføre en hypotesetest på om tilsetningsstoffet gir redusert forbruk.

Hypotesene blir HA: μXμY , H0: μX ≤ μY .

Vi har altså nX = nY = 5.

Fra kalkulator eller PC får vi:

X = 3,86

Y = 3,52

SX ≈ 0,5771

SY ≈ 0,5070

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {0{,}5771}^2(5 − 1) + {0{,}5070}^2(5 − 1)}{\displaystyle 5 + 5 − 2} \approx 0{,}5432$

$T \approx \frac{\displaystyle 3{,}86 − 3{,}52}{\displaystyle 0{,}5432 \sqrt{\frac{1}{5} + \frac{1}{5}}} \approx 0{,}9897$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |T| > tα (v)

Med 5 % signifikansnivå blir α = 0,05.

Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 + 5 − 2 = 8 der det står 1,860. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 8) i Excel eller inverstfordeling(8, 1 – 0.05) i GeoGebra.

Siden T ≈ 0,9897 $\ngtr$ tα (v) ≈ 1,860, kan vi ikke forkaste nullhypotesen. Testen gir ikke grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Men som vi skal se i eksempel 3, har vi gjennomført denne testen på en klønete måte.

Oppgave 2:

En fruktbonde har to forskjellige typer kirsebærtrær, og vil undersøke om de gir forskjellig mengde frukt. Han veier frukthøsten fra 13 trær av type X og 12 trær av type Y, og får:

 Type X 44 44 56 46 47 38 58 53 49 35 46 30 41 
 Type Y 35 47 55 29 40 39 32 41 42 57 51 39   

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Se løsningsforslag

Paret test

Hvis vi ser nøyere på dataene i eksempel 2, ser vi at konklusjonen om at tilsetningsstoffet ikke gir lavere forbruk virker underlig. For hver bil har faktisk en markant nedgang i forbruk. Problemet ligger i måten vi beregner det sammenslåtte standardavviket på. Vi undersøker hvor stort avviket fra gjennomsnittet er i hver av de to gruppene, men dette er egentlig helt uinteressant. Det vi burde sett på, var hvor mye hver bils endring i forbruk, XiYi avviker fra gjennomsnittsendringen, XY.

Vi bør altså heller beregne SP som

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n}\big(X_i − Y_i − (\overline X − \overline Y)\big)^2}{\displaystyle n − 1}$}$

Vi opererer her ikke lenger med nX + nY enkeltmålinger, men med n = nX = nY par. (nX må være lik nY, ellers ville vi jo ikke kunne danne par.)

Igjen gir formen på SP en del regnearbeid, men nå gjør vi et triks, og lager et nytt datasett, D som består av differansen i hvert par.

$\fbox{$D_i = X_i − Y_i, \; i \in [1, n] $}$

Testobservatoren blir da:

$\fbox{$T = \frac{\displaystyle \overline D}{\displaystyle S_D \frac{1}{\sqrt n}}$}$

Eksempel 3:

Vi skal gjøre om igjen undersøkelsen fra eksempel 2, men denne gangen som en paret test.

Hypotesene blir som før HA: μXμY , H0: μX ≤ μY .

Vi beregner:

D1 = 4,7 − 4,2 = 0,5
D2 = 3,5 − 3,2 = 0,3
D3 = 3,3 − 3,0 = 0,3
D4 = 4,2 − 3,9 = 0,3
D5 = 3,6 − 3,3 = 0,3

Fra kalkulator eller PC får vi:

D = 0,34

SD ≈ 0,0894

Vi beregner:

$T \approx \frac{\displaystyle 0{,}34}{\displaystyle 0{,}0894 \frac{1}{\sqrt 5}} \approx 8{,}5041$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |T| > tα (v).

Med 5 % signifikansnivå blir α = 0,05.

Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 − 1 = 4, der det står 2,132. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 4) i Excel eller inverstfordeling(4, 1 – 0.05) i GeoGebra.

Siden T ≈ 8,5041 > tα (v) ≈ 2,132, kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Oppgave 3:

En lege ønsker å undersøke om en medisin, som en bieffekt, reduserer blodtrykket. Han måler blodtrykket til 15 pasienter før og etter de begynner å ta medisinen, og får følgende resultat

 Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84 
 Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om medisinen reduserer blodtrykket.

Se løsningsforslag

Sammenlikne forventning i Excel og GeoGebra

Excel har en egen funksjon for å gjøre hypotestetester om forskjeller mellom to datasett, t.test. Brukeren må angi hvilke celleområder de to datasettene ligger i, om det er en ensidig eller tosidig test, og om testen skal gjøres paret eller uparet. t.test beregner P-verdi. Er P-verdien mindre enn testens signifikansnivå, kan nullhypotesen forkastes.

Regnearket under har to ark. Ett for uparet test og ett for paret test.

RegnearkLast ned regneark med beregninger fra eksempel 2 og 3 og bruk av «t.test»
 

Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, har også funksjonalitet for hypotesetester om forskjeller.

Sammenlikne binomiske sannsynligheter

I  artikkelen om hypotesetesting introduserer vi testobservatoren

$Z = \frac{\displaystyle \hat p − p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$

for binomiske sannsynligheter. Her er $\hat p$ estimert sannsynlighet basert på X suksesser i n forsøk, $\hat p = \frac{\displaystyle X}{\displaystyle n}$, og p0 er sannsynligheten i nullhypotesen.

For å teste hypoteser om forskjeller mellom sannsynligheter i to datasett bruker vi testobservatoren.

$\fbox{$Z = \frac{\displaystyle \hat p_1 − \hat p_2}{\displaystyle \sqrt{\hat p(1 − \hat p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})}}$}$

Her er

$\hat p_1 = \frac{\displaystyle X_1}{\displaystyle n_1}$ estimert sannsynlighet i datasett 1.

$\hat p_2 = \frac{\displaystyle X_2}{\displaystyle n_2}$ estimert sannsynlighet i datasett 2.

$\hat p = \frac{\displaystyle X_1 + X_2}{\displaystyle n_1 + n_2}$ estimert sannsynlighet i begge datasettene samlet.

Dersom n1 og n2 er store nok, vil Z være tilnærmet standard normalfordelt. Som en tommelfingerregel for hva som menes med store nok, bør $n \hat p \ge 5$ og $n(1 − \hat p) \ge 5$ i begge datasettene.

Eksempel 4:

En bedrift produserer PC-skjermer ved to forskjellige anlegg. Noen skjermer er defekte, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekte skjermer ved de to anleggene. 200 skjermer undersøkes på hvert anlegg. På anlegg 1 er 17 defekte, på anlegg 2 er 31 defekte. Vi kaller sannsynligheten for defekte ved anlegg 1 for p1 og sannsynligheten for defekte ved anlegg 2 for p2, og skal teste følgende hypotese på 5 % signifikansnivå:

HA: p1p2 mot H0: p1p2.

Vi har n1n2 = 200, X1 = 17, X2 = 31.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 17}{\displaystyle 200} = 0{,}0850$

$\hat p_2 = \frac{\displaystyle 31}{\displaystyle 200} = 0{,}1550$

$\hat p = \frac{\displaystyle 17 + 33}{\displaystyle 200 + 200} = 0{,}1200$

Og vi får

$Z = \frac{\displaystyle 0{,}0850 − 0{,}1550}{\displaystyle \sqrt{0{,}1200(1 − 0{,}1200)(\frac{\displaystyle 1}{\displaystyle 200} + \frac{\displaystyle 1}{\displaystyle 200})}} \approx −2{,}154$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2

Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025.

I (kvantil)normalfordelingstabellen finner vi at z0,025 ≈ 1,9600. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,025) i Excel eller inversnormalfordeling(0, 1, 1 – 0.025) i GeoGebra.

Siden |Z| ≈ 2,154 > zα/2 ≈ 1,9600, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i sannsynligheten for defekt på de to anleggene.

Oppgave 4:

En bedrift produserer bukser ved to forskjellige produksjonslinjer. En del av buksene har defekte sømmer, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekter ved de to linjene. Ved første produksjonslinje er 147 av 2500 defekte, ved andre er 151 av 2000 defekte. Sett opp og test en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene. Bruk 5 % signifikansnivå.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
    • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.

Hypotesetesting

I eksempel 9 i artikkelen om estimering lager vi konfidensintervaller for sannsynligheten for å få kron når vi kaster en mistenkelig mynt 50 ganger og får 33 kron. Vi ser at et 95 % konfidensintervall ikke inkluderer sannsynligheten til en rettferdig mynt, som er 0,5. Det er derfor en plausibel hypotese at mynten er jukset med, slik at den gir flere kron enn mynt. I denne artikkelen skal vi lære å stille opp og teste slike hypoteser.

Teste sannsynligheter

Eksempel 1:

Vi ønsker å teste en hypotese om at en mynt gir for mange kron når vi får 33 kron i 50 kast. Vi kan aldri bekrefte eller avsanne en slik hypotese, siden myntkast er et stokastisk forsøk som styres av tilfeldigheter, men vi kan med en viss sannsynlighet anslå om den er riktig eller ikke. La oss si at vi ønsker å akseptere hypotesen hvis det er mindre enn 5 % sannsynlighet for at en rettferdig mynt gir 33 eller flere kron i 50 kast.

Vi har her en binomisk sannsynlighetsfordeling. Hvis mynten er rettferdig, er sannsynligheten for kron p = 0,5, og vi kan forvente å få μ = np = 50 · 0,5 = 25 kron. Variansen til fordelingen er σ2 = np(1 − p) = 50 · 0,5(1 − 0,5) = 12,5. Som vi ser i artikkelen om sentralgrenseteoremet, kan vi tilnærme fordelingen med en normalfordeling, N(μ, σ2) = N(25, 12,5).

Hvis vi får X kron i 50 kast, er sannsynligheten for dette mindre jo lengre X ligger over 25, det vil si jo lengre X ligger til høyre for toppen av normalfordelingskurven. Sagt på en annen måte, blir arealet under normalfordelingskurven til venstre for X større og større, og arealet til høyre mindre og mindre. Det vi ønsker å finne ut, er om 33 kron havner til høyre for verdien i normalfordelingen som har 95 % av arealet til venstre for seg og 5 % av arealet til høyre.

I en standard normalfordeling finner vi denne verdien ved å slå opp 0,05 i (kvantil)normalfordelingstabellen, der det står 1,6449. Alternativt kan vi finne verdien ved å skrive =norm.s.inv(1 – 0,05) i Excel eller inversnormalfordeling(0, 1, 1 – 0.05) i GeoGebra.

For å finne ut om X = 33 tilsvarer en verdi til venstre eller høyre for 1,6449 i en standard normalfordeling, gjør vi en standardisering av X, slik det beskrives i artikkelen om normalfordelingen. Vi subtraherer forventningsverdien fra resultatet og dividerer på fordelingens standardavvik.

Vi får $Z = \frac{\displaystyle 33 – 25}{\displaystyle \sqrt{12{,}5}} \approx 2{,}263$. Siden dette er til høyre for 1,6449, kan vi konkludere med at det er mindre enn 5 % sannsynlig å få 33 kron med en rettferdig mynt, og vi aksepterer hypotesen om at mynten gir for mange kron.

Situasjonen er illustrert i figuren under.

Illustrasjon av sannsynlighetsfordelinger av antall kron ved 50 myntkast

Formelt sett i hypotesetesting starter vi med å sette opp en alternativ hypotese og en nullhypotese. Den alternative hypotesen består av det vi skal teste, og skrives som HA. I eksempel 1 er den alternative hypotesen HA: p > 0,5, der p er sannsynligheten for å få kron. Nullhypotesen skrives som H0, og består av det motsatte alternativet. I eksempel 1 er nullhypotesen H0: p = 0,5. Det er ofte lettest å sette opp den alternative hypotesen først.

Så trenger vi en testobservator, som er variabelen vi bruker i testen. I eksempel 1 var observatoren X, som representerte antall kron.

Til slutt må vi bestemme oss for et forkastningsområde for testen. Forkastningsområdet er slik at hvis testobservatoren havner i området, skal nullhypotesen forkastes, og vi aksepterer derved den alternative hypotesen. I eksempel 1 tilsvarte forkastningsområdet det gule feltet i figuren over.

Sannsynligheten for at observatoren havner i forkastningsområdet kalles testens signifikansnivå, og betegnes ofte med α. I eksempel 1 var signifikansnivået α = 0,05. Merk at størrelsen på forkastningsområdet er beregnet ut fra forutsetningen om at nullhypotesen er sann. Grensen for forkastningsområdet i normalfordelingen kaller vi zα. I eksempel 1 var zα = z0,05 ≈ 1,6449.

I eksempel 1 brukte vi observatoren X, som var antall kron, deretter normaliserte vi resultatet slik at vi kunne bruke standard normalfordeling til å bestemme forkastningsområdet. Det kan imidlertid være praktisk å ha en observator som er ferdig standardisert. Hvis X ~ N(μ, σ2), setter vi $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, der μ er fordelingens forventning og σ fordelingens standardavvik.

I en binomisk fordeling har vi at μ = np og σ2 = np(1 − p), så vi setter

$Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Her er p0 sannsynligheten i nullhypotesen, og n antall forsøk. I eksempel 1 var dette henholdsvis 0,5 og 50.

Eksempel 2:

Vi kaster en mynt 1000 ganger, får 524 kron, og ønsker å teste en hypotese om at mynten gir for mange kron, med signifikansnivå 5 %.

Hvis mynten gir for mange kron, betyr det at sannsynligheten for kron er større enn 0,5, så den alternative hypotesen og nullhypotesen blir

HA: p > 0,5, H0: p = 0,5

Antall observasjoner er X = 524, antall forsøk er n = 1000, så testobservatoren blir

$Z = \frac{\displaystyle 524 – 1000 \cdot 0{,}5}{\displaystyle \sqrt{1000 \cdot 0{,}5(1 – 0{,}5)}} \approx 1{,}5179$

zα = z0,05 ≈ 1,6449, som i eksempel 1.

Siden Z ≈ 1,5179 $\ngtr$ zα ≈ 1,6449, kan ikke nullhypotesen forkastes på signifikansnivå 5 %. Det er altså ikke grunnlag for å hevde at mynten gir for mange kron.

Oppgave 1:

Vi kaster en terning 100 ganger og får 20 seksere. Sett opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og test hypotesen med et signifikansnivå på 5 %.

Se løsningsforslag

Oppgave 2:

Vi kaster terningen fra oppgave 1 000 ganger og får 200 seksere. Test hypotesen fra oppgave 1 på nytt med de nye dataene, men med samme signifikansnivå. Sammenlikn med resultatet fra oppgave 1.

Se løsningsforslag

Når vi arbeider med binomiske sannsynligheter, er X er det samme som $n \hat p$, der n er antall forsøk og $\hat p$ den estimerte sannsynligheten for suksess i forsøket. Vi kan altså skrive testobservatoren som

$Z = \frac{\displaystyle n \hat p – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Forkorter vi med n, får vi

$Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$

som vi kan bruke hvis vi baserer oss på den estimerte sannsynligheten for suksess i stedet for antall oppnådde suksesser.

Vi oppsummerer:

$\fbox{$\begin{align} &\text{Testobservator for binomisk sannsynlighet: }\\
&Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}} \\
&\text{eller} \\
&Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}} \\
&\text{Sammenliknes med } z_\alpha \end{align}$}$

Vi forutsetter at vi har gjort om lag 30 forsøk eller mer.

Teste forventning

I artikkelen om estimering beregner vi grensene for et konfidensintervall basert på forventning og standardavvik. Vi kan på samme måte benytte dette i en hypotesetest. I stedet for å basere testobservatoren på antall suksesser eller estimert sannsynlighet for suksess, baserer vi den på gjennomsnitt og standardavvik: 

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$.

Her er X observert gjennomsnitt, μ0 forventning, σ standardavviket i modellen, og n antall observasjoner. Generelt bør vi ha minst 30 observasjoner, men vi kan fire på dette kravet hvis vi arbeider med en normalfordelt populasjon.

Eksempel 3:

En maskin som produserer dressing, skal i gjennomsnitt tilsette 10 ml olje pr. pakke. Mengden olje er normalfordelt med et standardavvik på σ = 0,65 ml. 

Det er mistanke om at maskinen er feiljustert og tilsetter for mye olje, så bedriften måler oljeinnholdet i 20 pakker, og finner et gjennomsnitt på 10,5 ml.

De ønsker så å teste en hypotese om at oljeinnholdet er høyere enn forventningen på μ0 = 10 ml, med et signifikansnivå på 1 %.

Hypotesene blir HA: μ > 10, H0: μ = 10.

Vi har X = 10,5, og σ = 0,65.

Så testobservatoren blir

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}5 – 10}{\displaystyle \frac{0{,}65}{\sqrt{20}}} \approx 3{,}44$.

Fra (kvantil)normalfordelingstabellen finner vi at zα = z0,01 ≈ 2,3263. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,01) i Excel eller inversnormalfordeling(0, 1, 1 – 0.01) i GeoGebra.

Siden Z ≈ 3,44 > zα ≈ 2,3263, forkaster vi nullhypotesen, og aksepterer den alternative hypotesen om at maskinen i gjennomsnitt tilsetter mer enn 10 ml olje.

Oppgave 3:

Etter å ha justert maskinen i eksempel 3, måles gjennomsnittsoljeinnholdet i 25 pakker til 10,3 ml. Sett opp og gjennomfør en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet fremdeles er høyere enn 10 ml.

Se løsningsforslag

Nullhypotesene vi har operert med så langt, har bestått i at forventningen har en bestemt verdi, for eksempel H0: μ = 10 i eksempel 3. Men i mange tilfeller vil det være mer realistisk med en nullhypotese som hevder at forventningen er mindre eller lik en bestemt verdi, for eksempel at en fabrikant påstår at fettinnholdet i deres kjøttdeig i gjennomsnitt er maksimalt 10 gram, noe som vil gi H0: μ ≤ 10 som nullhypotese. Dette påvirker imidlertid ikke resultatet av hypotesetesten, fordi kriteriet for å forkaste nullhypotesen er det samme, og den alternative hypotesen er den samme.

Eksempel 4:

En produsent hevder at deres syltetøy i gjennomsnitt inneholder maksimalt 20 gram sukker per 100 gram syltetøy. Skal vi sette opp en hypotesetest om at syltetøyet inneholder mer sukker, blir den alternative hypotesen HA: μ > 20, og nullhypotesen H0: μ ≤ 20.

Ukjent standardavvik

Som vi ser i artikkelen om estimering, kjenner vi ofte ikke standardavviket i en populasjon. Da tilnærmer vi med utvalgsstandardavviket, men innfører da også en usikkerhet. I artikkelen om estimering ser vi da at vi skifter ut normalfordelingen med t-fordeling, noe som fører til at konfidensintervallet blir bredere.

Dersom vi i en hypotesetest ikke kjenner populasjonens standardavvik, tilnærmer vi på samme måte med utvalgsstandardavviket, og skifter fra normalfordeling til t-fordeling, med antall frihetsgrader lik antall observasjoner minus 1. t-kurvene blir bredere jo færre frihetsgrader vi har, noe som betyr at forkastningsområdet i en hypotesetest beveger seg bort fra gjennomsnittet. Med andre ord blir det vanskeligere blir å forkaste, jo færre observasjoner vi har,

Testobservatoren blir omtrent den samme som når standardavviket er kjent, men vi kaller den T i stedet for Z, og bruker S i stedet for σ:

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

For å finne grensen for forkastningsområdet bruker vi (kvantil)t-fordelingstabellen i stedet for normalfordelingstabellen.

Eksempel 5:

På en planteskole oppdager de at 15 planter som ved et uhell er satt i feil type jord, later til å ha blitt høyere enn normalt. Høyden på denne plantetypen har i vanlig jord vært normalfordelt med et gjennomsnitt på 30,2 cm. Gjennomsnittshøyden på plantene i feil jord måles til 31,2 cm, med et standardavvik på 2,3 cm. Nå ønsker planteskolen å gjennomføre en hypotesetest på signifikansnivå 5 % for å se om den andre typen jord øker gjennomsnittshøyden til plantene.

Hypotesene blir HA: μ > 30,2, H0: μ = 30,2.

Vi har X = 31,2 og S = 2,3.

Fordi σ er ukjent, må vi bruke t-fordeling med a = α = 0,05 og v = 15 − 1 = 14 for å finne grensen til forkastningsområdet. Vi slår opp i (kvantil) t-fordelingstabellen og får t0,05 (14) ≈ 1,761. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 14) i Excel eller inverstfordeling(14, 1 – 0.05) i GeoGebra.

Testobservatoren blir

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 31{,}2 – 30{,}2}{\displaystyle \frac{2{,}3}{\sqrt{15}}} \approx 1{,}68$.

Siden T ≈ 1,68 $\ngtr$ t0,05 (14) ≈ 1,761, kan vi ikke forkaste nullhypotesen, og har på 5 % signifikansnivå ikke grunnlag for å si at den andre typen jord øker gjennomsnittshøyden til plantene.

Hadde vi i stedet for t-fordelingstabellen brukt normalfordelingstabellen, ville grensa til forkastningsområdet blitt z0,05 ≈ 1,6449, og siden T ≈ 1,68 > z0,05 ≈ 1,6449, ville vi forkastet nullhypotesen og akseptert at den nye typen jord økte gjennomsnittshøyden til plantene. En feil som oppsto på grunn av at vi da ikke tok hensyn til den økte usikkerheten estimeringen av standardavviket førte med seg.

Oppgave 4:

Ventetiden på å få svar på en servicetelefon er normalfordelt, med en gjennomsnittlig ventetid oppgitt til 30 sekunder. En internkontroll med 15 oppringninger på tilfeldige tidspunkter viser en gjennomsnittlig ventetid på 37 sekunder, med et standardavvik på 14 sekunder. Sett opp og gjennomfør en hypotesetest på signifikansnivå 5 % på om oppgitt gjennomsnittlig ventetid er for lav.

Se løsningsforslag

Vi oppsummerer:

$\fbox{$\begin{align}& \text{Testobservator for forventning: }\\
\\
&\sigma \text{ kjent:} \\
&Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} \\
&\text{ } \\
&\sigma \text{ ukjent:} \\
&T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} \\
&\text{ } \\
&Z \text{ sammenliknes med } z_{\large \alpha} \text{ og } T \text{ med } t_{\large \alpha \, (n – 1)} \end{align}$}$

Dersom vi har om lag 30 målinger eller mer, kan vi bruke normalfordeling i stedet for t-fordeling, siden de to fordelingene da er omtrent like.

Venstresidige og tosidige tester

I alle eksemplene og oppgavene vi har arbeidet med så langt, har den alternative hypoteser vært at forventningen ligger over en gitt verdi, HA: μ > x. Forkastningsområdet for nullhypotesen har da ligget til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til høyre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z > zα eller T > tα (v). Men selvfølgelig er det like aktuelt å teste det motsatte, at forventningen ligger under en gitt verdi, HA: μ < x. Forkastningsområdet for nullhypotesen vil da ligge til venstre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til venstre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z < −zα eller T < −tα (v).

Eksempel 6:

I et oppdrettsanlegg mistenker de at laksen har mindre enn forventet vekt, som er 4,5 kg. De fanger 29 fisk og måler at gjennomsnittsvekten er X = 4,24 kg, med et standardavvik på S = 0,71 kg. Så vil de gjennomføre en hypotesetest med signifikansnivå på 5 % på om laksen har mindre enn forventet vekt.

Hypotesene blir HA: μ < 4,5, H0: μ = 4,5.

Vi bruker t-fordeling med 29 – 1 = 28 frihetsgrader.

Testobservatoren blir

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 4{,}24 – 4{,}5}{\displaystyle \frac{0{,}71}{\sqrt 29}} \approx -1{,}972$.

Grenseverdien for forkastningsområdet blir −t0,05 (28) ≈ −1,701.

Siden T ≈ −1,972 < –t0,05 (28) ≈ −1,701, forkaster vi nullhypotesen, og aksepterer hypotesen om at laksen har mindre enn forventet vekt.

Oppgave 5:

En produsent hevder at syltetøyet deres i gjennomsnitt inneholder minst 50 % bær. Mattilsynet mistenker at bærinnholdet er lavere, måler innholdet i 30 glass syltetøy, og finner et gjennomsnitt på 47,7 %, med et standardavvik på 5,7 %. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder for lite bær.

Se løsningsforslag

Tester på om forventningen ligger over en gitt verdi, eller under en gitt verdi, kalles ensidige tester. Vi har sett at de alternative hypotesene i disse tilfellene er HA: μ > x for en høyresidig test, og HA: μx for en venstresidig test.

Men det kan også være aktuelt å teste om forventningen er ulik en gitt verdi. Det kalles en tosidig test, og den alternative hypotesen blir HA: μx. Forkastningsområdet for nullhypotesen vil da fordele seg på to sider, med den ene halvparten til venstre, og den andre halvparten til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde på begge sider under fordelingskurve.

Vi forkaster nullhypotesen hvis |Z| > zα/2 eller |T| > tα/2 (v).

Vi legger merke til at grensen for forkastningsområdet nå beregnes basert på α/2 i stedet for α. Det er fordi hvert av forkastningsområdene nå er halvparten så store som i en ensidig test.

Eksempel 7:

En maskin fyller tomatbønner på boks. Brutto fyllvekt oppgis å være normalfordelt med et gjennomsnitt på 425 gram og et standardavvik på 5 gram. Etter en overhaling gjennomføres en sjekk på 20 bokser, som i snitt viser seg å inneholde 427 gram. Det skal så gjøres en hypotesetest på 5 % signifikansnivå på om mengden bønner i boksene er korrekt.

Hypotesene blir HA: μ ≠ 425, H0: μ = 425.

Testobservatoren blir

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 427 – 425}{\displaystyle \frac{5}{\sqrt 20}} \approx 1{,}789$.

Grenseverdien for forkastningsområdet blir z0,05/2 = z0,025 ≈ 1,960.

Siden |Z| ≈ 1,789 $\ngtr$ z0,025 ≈ 1,960, kan vi ikke forkaste nullhypotesen om at vekten er korrekt.

Oppgave 6:

Mengden sukker en maskin tilsetter i en kakemiks, er oppgitt å være normalfordelt med et gjennomsnitt på 83 gram. En bedrift tar 15 stikkprøver, og finner ut at gjennomsnittlig mengde sukker er 82,5 gram, med et standardavvik på 0,6 gram. Sett opp og gjennomfør en hypotesetest på signifikansnivå 1 % på om sukkermengden er korrekt.

Se løsningsforslag

Hypotesetesting i Excel og GeoGebra

Excel har en funksjon for hypotesetesting, z.test, som returnerer en såkalt P-verdi. P-verdien er, gitt at nullhypotesen er sann, sannsynligheten for et resultat som er likt med eller mer ekstremt enn det observerte. Definisjonen er tung, men bruken enkel: Hvis P-verdien er lavere enn testens signifikansnivå, kan nullhypotesen forkastes. Denne funksjonen er imidlertid litt klumpete i bruk, så vi går ikke nærmere inn på den. Den krever at alle testdata listes opp, det er ikke nok å angi et gjennomsnitt, og den er dessuten låst til høyresidige tester, så for venstresidige eller dobbeltsidige tester må det gjøres noe regnearbeid i tillegg. Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, er imidlertid både enkel og fleksibel å bruke til slike tester.

Feil og teststyrke

Vi kan, som nevnt innledningsvis, aldri avsanne eller bekrefte en hypotese med en hypotesetest, bare med en viss sannsynlighet anslå om den er riktig eller ikke. Det betyr at vi i en hypotesetest kan komme til å trekke feil konklusjon. Det er to feil vi kan gjøre:

  1. Forkaste nullhypotesen selv om den er sann. Dette kalles forkastningsfeil, eller type 1 feil.
     
  2. Beholde nullhypotesen selv om den er usann. Dette kalles godtakingsfeil, eller type 2 feil.

Feiltypene refererer altså til nullhypotesen, ikke den alternative hypotesen.

Som vi har sett, forkaster vi nullhypotesen hvis testobservatoren havner i forkastningsområdet. Grensen for forkastningsområdet beregnes ut fra en antakelse om at nullhypotesen er sann.

Eksempel 8:

Vi mistenker at en mynt gir for mange kron. Nullhypotesen er at mynten er rettferdig, med 50 % sjanse for kron: H0: p = 0,5. Den alternative hypotesen er at mynten gir for mange kron: HA: p > 0,5.

I eksempel 2 så vi at 524 kron i 1000 kast ikke var nok til å forkaste nullhypotesen med et signifikansnivå på 5 %. Men hvor går egentlig grensen for forkastningsområdet?

I eksempel 2 så vi at z ≈ 1,6449 dannet grensen i en standard normalfordeling. For å finne ut hvilken x i den opprinnelige fordelingen som tilsvarer denne verdien, bruker vi standardiseringsformelen $z = \frac{\displaystyle x – np}{\displaystyle \sqrt{np(1 – p)}}$ baklengs:

$z = 1{,}6449$
$\Downarrow$
$\frac{\displaystyle x – 0{,}5 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}5(1-0{,}5)}} = 1{,}6449$
$\Downarrow$
$x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}5(1-0{,}5)} + 0{,}5 \cdot 1000 \approx 526$

Grensen for forkastningsområdet går altså på om lag 526 kron.

Men hva om det i eksempel 8 også var mulig at mynten ga for få kron? Da ville vi ikke lenger ha noen fast p å regne med når vi skulle beregne grensen for forkastningsområdet.

Hvis p var 0,49, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}49(1-0{,}49)} + 0{,}49 \cdot 1000 \approx 516$.

Hvis p var 0,48, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}48(1-0{,}48)} + 0{,}48 \cdot 1000 \approx 505$.

Jo lavere p, jo lenger mot venstre kryper 5 %-grensa. Sagt på en annen måte, blir sannsynligheten for å få 526 kron eller mer lavere og lavere, jo lavere p er. Det betyr at sannsynligheten for å feilaktig forkaste nullhypotesen også blir lavere og lavere, jo lavere p er. Så den maksimale sannsynligheten for å feilaktig forkaste nullhypotesen er når p = 0,5. I det verst tenkelige tilfelle er altså sannsynligheten for å gjøre en forkastningsfeil den samme som testens signifikansnivå.

Hvis den alternative hypotesen er sann, er det ikke mulig å gjøre forkastningsfeil, for da er det jo riktig å forkaste nullhypotesen. Men vi kan gjøre en godtakingsfeil, som er det motsatte, godta nullhypotesen selv om den skulle vært forkastet.

Eksempel 9:

Hvis mynten fra eksempel 8 faktisk gir for mange kron, det vil si at p > 0,5, gjør vi en godtakingsfeil hvis vi godtar nullhypotesen om at mynten ikke gir for mange kron. Hvor sannsynlig dette er, avhenger av hva verdien til p faktisk er.

Vi godtar altså nullhypotesen hvis vi får færre enn 526 kron.

Er p = 0,51, er sannsynligheten for å få færre enn 526 kron

$G(\frac{\displaystyle 526 – 0{,}51 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}51(1-0{,}51)}}) \approx G(1{,}01)$.

Fra normalfordelingstabellen ser vi at dette er ca. 0,8443. Sannsynligheten for å gjøre en godtakingsfeil er altså over 84 % hvis det bare er 0,01 som skiller mynten fra en rettferdig mynt.

En hypotesetests styrkefunksjon gir sannsynligheten for å forkaste nullhypotesen. Funksjonen kalles ofte γ eller β.

For situasjonen i eksempel 8 og 9 får vi for eksempel at

$\gamma(p) = 1 – G(\frac{\displaystyle 526 – p \cdot 1000}{\displaystyle \sqrt{1000 \cdot p(1-p)}})$,

med en graf som vist under:

Styrkefunksjon for p med 1000 forsøk.

Vi ser at sannsynligheten for å forkaste nullhypotesen – at mynten ikke gir for mange kron er omtrent 0 når p ≤ 0,49, den er lik signifikansnivået på 5 % når p = 0,5, og nesten 100 % når p ≥ 0,57.

Vi kan øke styrken, det vil si redusere sannsynligheten for godtakingsfeil, ved å redusere signifikansnivået, men da øker vi samtidig sannsynligheten for forkastningsfeil. Vil vi øke styrken uten å ofre signifikansnivået, må vi øke antall observasjoner.

I figuren under har vi i tillegg til styrkefunksjonen vist over, også tegnet inn styrkefunksjonen ved 2000 observasjoner med rødt, og for 4000 observasjoner med grønt. Signifikansnivået er 5 % i alle tilfeller.

Styrkefunksjoner for p med 1000, 2000 og 4000 forsøk.

Vi ser at jo flere observasjoner vi har, jo brattere stiger kurven, og jo nærmere kommer den det ideelle, å hoppe direkte fra 0 til 1 idet p passerer 0,5.

Vi har her brukt en ensidig test i en binomisk modell, men prinsippet er det samme i andre modeller.

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.