Hypotesetesting

I eksempel 9 i artikkelen om estimering laget vi konfidensintervaller for sannsynligheten for å få kron når vi kastet en mistenkelig mynt 50 ganger og fikk 33 kron. Vi så at et 95 % konfidensintervall ikke inkluderte sannsynligheten til en rettferdig mynt, som er 0,5. Det er derfor en plausibel hypotese at mynten er jukset med, slik at den gir flere kron enn mynt. I denne artikkelen skal vi lære å stille opp og teste slike hypoteser.

Binomisk modell

Eksempel 1:

Vi ønsker å teste hypotesen om at en mynt gir for mange kron når vi får 33 kron i 50 kast. Vi kan aldri bekrefte eller avsanne en slik hypotese, siden myntkast er et stokastisk forsøk som styres av tilfeldigheter, men vi kan anslå med en viss sannsynlighet om den er riktig eller ikke. La oss si at vi ønsker å akseptere hypotesen hvis det er mindre enn 5 % sannsynlighet for at en rettferdig mynt gir 33 eller flere kron i 50 kast.

Vi har her en binomisk sannsynlighetsfordeling. Hvis mynten er rettferdig, er sannsynligheten for kron $p = 0{,}5$, og vi kan forvente å få $np = 50 \cdot 0{,}5 = 25$ kron. Variansen til fordelingen er $np(1 – p) = 50 \cdot 0{,}5(1 – 0{,}5) = 12{,}5$. Som vi så i artikkelen om normalfordelingen, vil vi en tilnærming av denne binomiske fordelingen med en normalfordeling, $N(25, \: 12{,}5)$ være god fordi $np(1 – p) = 12{,}5 > 10$

Hvis vi får X kron i 50 kast, er sannsynligheten for dette mindre jo lengre X ligger over 25, det vil si jo lenger X ligger til høyre for toppen av normalfordelingskurven. Sagt på en annen måte, blir arealet under normalfordelingskurven til venstre for X større og større, og arealet til høyre mindre og mindre. Det vi ønsker å finne ut, er om 33 kron havner til høyre for verdien i normalfordelingen som har 95 % av arealet til venstre for seg, og 5 % av arealet til høyre.

I en standard normalfordeling finner vi denne verdien ved å slå opp 0,05 i (kvantil)normalfordelingstabellen, og finne 1,6449.

For å finne ut om X = 33 tilsvarer en verdi til venstre eller høyre for 1,6449 i en standard normalfordeling, gjør vi en standardisering av X, slik det er beskrevet i artikkelen om normalfordelingen. Vi subtraherer forventningsverdien fra resultatet og dividerer på fordelingens standardavvik.

Vi får $Z = \frac{\displaystyle 33 – 25}{\displaystyle \sqrt{12{,}5}} \approx 2{,}2627$. Siden dette er til høyre for 1,6449, kan vi konkludere med at det er mindre enn 5 % sannsynlig å få 33 kron med en rettferdig mynt, og vi aksepterer hypotesen om at mynten gir for mange kron.

Situasjonen er illustrert i figuren under.

Illustrasjon av sannsynlighetsfordelinger av antall kron ved 50 myntkast

Formelt sett i hypotesetesting starter vi med å sette opp en alternativ hypotese og en nullhypotese. Den alternative hypotesen består av det vi skal teste, og skrives som $H_A$. I eksempel 1 er den alternative hypotesen $H_A: p > 0{,}5$, der $p$ er sannsynligheten for å få kron. Nullhypotesen skrives som $H_0$ og består av det motsatte alternativet. I eksempel 1 er nullhypotesen $H_0: p = 0{,}5$. Det er ofte lettest å sette opp den alternative hypotesen først.

Så trenger vi en testobservator, som er variabelen vi bruker i testen. I eksempel 1 var observatoren X, som representerte antall kron.

Til slutt må vi bestemme oss for et forkastningsområde for testen. Forkastningsområdet er slik at hvis testobservatoren havner i området, skal nullhypotesen forkastes, og vi aksepterer derved den alternative hypotesen. I eksempel 1 tilsvarte forkastningsområdet det gule feltet i figuren over.

Sannsynligheten for at observatoren havner i forkastningsområdet kalles testens signifikansnivå, og betegnes ofte med $\alpha$. I eksempel 1 var signifikansnivået $\alpha = 0{,}05$. Merk at størrelsen på forkastningsområdet er beregnet ut fra forutsetningen om at nullhypotesen er sann. Grensen for forkastningsområdet i normalfordelingen kaller vi $z_{\large \alpha}$. I eksempel 1 var $z_{\large \alpha} = z_{\large 0{,}05} \approx 1{,}6449$.

I eksempel 1 brukte vi observatoren X, som var antall kron, deretter normaliserte vi resultatet slik at vi kunne bruke standard normalfordeling til å bestemme forkastningsområdet. Det kan imidlertid være praktisk å ha en observator som er ferdig standardisert. Hvis $X \sim N( \mu, \sigma^2)$, setter vi $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, der $\mu$ er fordelingens forventning og $\sigma$ fordelingens standardavvik.

I en binomisk fordeling har vi at $\mu = np$ og $\sigma = \sqrt{np(1 – p)}$, så vi setter

$Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Her er $p_0$ er sannsynligheten i nullhypotesen, og $n$ antall forsøk. I eksempel 1 var dette henholdsvis 0,5 og 50.

Eksempel 2:

Vi kaster en mynt 1000 ganger, får 524 kron, og ønsker å teste en hypotese om at mynten gir for mange kron, med signifikansnivå 5 %.

Vi setter opp:

$H_A: p > 0{,}5$, $H_0: p = 0{,}5$

Testobservator:

$Z = \frac{\displaystyle 524 – 1000 \cdot 0{,}5}{\displaystyle \sqrt{1000 \cdot 0{,}5(1 – 0{,}5)}} \approx 1{,}518$

$z_{\large \alpha} = z_{\large 0{,}05} \approx 1{,}6449$, som i eksempel 1.

Siden $Z \not > z_{\large \alpha}$, kan ikke nullhypotesen forkastes på signifikansnivå 5 %. Det er altså ikke grunnlag for å hevde at mynten gir for mange kron.

Oppgave 1:

Vi kaster en terning hundre ganger og får 20 seksere. Sett opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og test hypotesen med et signifikansnivå på 5 %.

Se løsningsforslag

Oppgave 2:

Vi kaster terningen fra oppgave 1 tusen ganger og får 200 seksere. Test hypotesen fra oppgave 1 på nytt med de nye dataene, men med samme signifikansnivå. Sammenlikn med resultatet fra oppgave 1.

Se løsningsforslag

I et binomisk forsøk er $X$ er det samme som $n \hat p$, der $n$ er antall forsøk og $\hat p$ den estimerte sannsynligheten for suksess i forsøket. Vi kan altså skrive testobservatoren som

$Z = \frac{\displaystyle n \hat p – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Forkorter vi med $n$, får vi

$Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$

som vi kan bruke hvis vi baserer oss på den estimerte sannsynligheten for suksess i stedet for antall oppnådde suksesser.

Vi oppsummerer:

$\fbox{$\text{Testobservator i binomisk modell: }\\
Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}} \\
\text{eller} \\
Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}} \\
\text{Sammenliknes med } z_\alpha$}$

Vi forutsetter at vi har gjort minst 30 forsøk.

Målemodellen

I artikkelen om estimering så vi på målemodellen, og beregnet grensene for et konfidensintervall basert på et antall målinger. Vi kan på samme måte benytte målinger i en hypotesetest. I stedet for å basere testobservatoren på antall suksesser eller estimert sannsynlighet for suksess, baserer vi den på gjennomsnitt og standardavvik: 

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$.

Her er $\overline X$ målt gjennomsnitt, $\mu_0$ forventet gjennomsnitt, $\sigma$ standardavviket og $n$ antall målinger.

Eksempel 3:

En maskin som produserer dressing skal i gjennomsnitt tilsette 10 ml. olje pr. pakke. Produksjonsmaskinen er angitt å ha et standardavvik på 0,65 ml. 

Det er mistanke om at maskinen er feiljustert og tilsetter for mye olje, så bedriften måler oljeinnholdet i 20 pakker, og finner et gjennomsnitt på 10,5 ml.

De ønsker så å teste en hypotese om at oljeinnholdet er høyere enn 10 ml, med et signifikansnivå på 1 %.

Hypotesene blir $H_A: \mu > 10$, $H_0: \mu = 10$.

Vi har $\mu_0 = 10$$\overline X = 10{,}5$, og $\sigma= 0{,}65$.

Så vi får: Testobservator: $Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}5 – 10}{\displaystyle \frac{0{,}65}{\sqrt{20}}} \approx 3{,}44$.

Fra (kvantil)normalfordelingstabellen finner vi at $z_{\large \alpha} = z_{\large 0{,}010} \approx 2{,}3263$.

Siden $Z > z_{\large \alpha}$, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at dressingen i gjennomsnitt inneholder mer enn 10 ml. olje.

Oppgave 3:

Etter å ha justert maskinen i eksempel 3, måles gjennomsnittsoljeinnholdet i 25 pakker til 10,3 ml. Sett opp og gjennomfør en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet fremdeles er høyere enn 10 ml.

Se løsningsforslag

Nullhypotesene vi har operert med så langt, har bestått i at forventningen har en bestemt verdi, for eksempel $H_0: \mu = 10$ i eksempel 3. Men i mange tilfeller vil det være mer realistisk med en nullhypotese som hevder at forventningen er mindre eller lik en bestemt verdi, for eksempel at en fabrikant påstår at fettinnholdet i deres kjøttdeig i gjennomsnitt er mindre enn 10 gram, noe som vil gi $H_0: \mu \le 10$ som nullhypotese. Dette påvirker imidlertid ikke resultatet av hypotesetesten, fordi kriteriet for å forkaste nullhypotesen er det samme, og den alternative hypotesen er den samme.

Eksempel 4:

En produsent hevder at deres syltetøy i gjennomsnitt inneholder maksimalt 20 gram sukker per 100 gram syltetøy. Skal vi sette opp en hypotesetest om at syltetøyet inneholder mer sukker, blir den alternative hypotesen $H_A: \mu > 20$, og nullhypotesen $H_0: \mu \le 20$.

Ukjent standardavvik

Som vi så i artikkelen om estimering, kjenner vi ofte ikke standardavviket i en populasjon. Da tilnærmer vi med utvalgsstandardavviket, men innfører da også en usikkerhet. I artikkelen om estimering så vi da at vi skiftet ut normalfordelingen med t-fordeling, noe som førte til at konfidensintervallet ble bredere.

Dersom vi i en hypotesetest ikke kjenner populasjonens standardavvik, tilnærmer vi på samme måte med utvalgsstandardavviket og skifter fra normalfordeling til t-fordeling, med antall frihetsgrader lik antall observasjoner minus 1. t-kurvene blir bredere jo færre frihetsgrader vi har, noe som betyr at forkastningsområdet i en hypotesetest beveger seg bort fra gjennomsnittet. Med andre ord blir det vanskeligere blir å forkaste jo færre observasjoner vi har,

Testobservatoren blir omtrent den samme som når standardavviket er kjent, men vi kaller den $T$ i stedet for $Z$ og bruker $S$ i stedet for $\sigma$:

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

For å finne grensen for forkastningsområdet bruker vi ( (t)-kvafordelingstabellen i stedet for normalfordelingstabellen.

Eksempel 5:

På en planteskole oppdager de at 15 planter som ved et uhell er satt i feil type jord later til å ha blitt høyere enn normalt. Vanlig høyde på denne plantetypen er 30,2 centimeter, gjennomsnittshøyden på plantene i feil jord måles til 31,4 centimeter, med et standardavvik på 2,2 centimeter. Nå ønsker planteskolen å gjennomføre en hypotesetest på signifikansnivå 5 % for å se om den andre typen jord øker gjennomsnittshøyden til plantene.

Hypotesene blir $H_A: \mu > 30{,}2$, $H_0: \mu = 30{,}2$.

Vi har $\overline X = 31{,}4$, og $S = 2{,}2$.

Fordi $\sigma$ er ukjent, må vi bruke t-fordeling med $a = \alpha = 0{,}05$ og $v = 15 – 1 = 14$ for å finne grensen til forkastningsområdet. Vi slår opp i (kvantil) t-fordelingstabellen og får $ t_{\large 0{,}05 \, (14)} \approx 1{,}761$.

Testobservatoren blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 31{,}4 – 30{,}2}{\displaystyle \frac{2{,}2}{\sqrt{15}}} \approx 1{,}72$.

Siden $T \not > \large t_{0{,}05 \, (14)}$, kan vi ikke forkaste nullhypotesen, og har på 5 % signifikansnivå ikke grunnlag for å si at den andre typen jord øker gjennomsnittshøyden til plantene.

Hadde vi i stedet for t-fordelingstabellen brukt normalfordelingstabellen, ville grensa til forkastningsområdet blitt ${ z_{\large 0{,}05}} \approx 1{,}6449$, og siden $T > z_{\large 0{,}05}$ ville vi forkastet nullhypotesen og akseptert at den nye typen jord økte gjennomsnittshøyden til plantene. En feil som oppstod på grunn av at vi da ikke tok hensyn til den økte usikkerheten estimeringen av standardavviket førte med seg.

Oppgave 4:

En TV-kanal har lov til å sende gjennomsnittlig maksimalt 3,5 timer reklame per dag. Ole mistenker at kanalen sender mer, følger nidkjært med en uke, og noterer at det sendes henholdsvis 3,3, 3,4, 4,0, 3,8, 3,8, 3,9 og 3,6 timer reklame. Sett opp og gjennomfør en hypotesetest på signifikansnivå 5 % på om TV-kanalen sener mer reklame enn tillatt.

Se løsningsforslag

Vi oppsummerer:

$\fbox{$\text{Testobservator i målemodell: }\\
\sigma \text{ kjent:} \\
Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} \\
\text{ } \\
\sigma \text{ ukjent:} \\
T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} \\
\text{ } \\
Z \text{ sammenliknes med } z_{\large \alpha} \text{ og } T \text{ med } t_{\large \alpha \, (n – 1)}$}$

Dersom vi har mer enn 30 målinger, kan vi bruke normalfordeling i stedet for t-fordeling siden de to fordelingene da er omtrent like.

Ensidige og tosidige tester

I alle eksemplene og oppgavene vi har arbeidet med så langt, har den alternative hypoteser vært at forventningen ligger over en gitt verdi, $H_A: \mu > x$. Forkastningsområdet for nullhypotesen har da ligget til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til høyre under fordelingskurve.

Vi forkaster nullhypotesen hvis $Z > z_{\large \alpha}$ eller $T > t_{\large \alpha \, (v)}$.

Men selvfølgelig er det like aktuelt å teste det motsatte, at forventningen ligger under en gitt verdi, $H_A: \mu < x$. Forkastningsområdet for nullhypotesen vil da ligge til venstre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til venstre under fordelingskurve.

Vi forkaster da nullhypotesen hvis $Z < -z_{\large \alpha}$ eller $T < -t_{\large \alpha \: (v)}$.

Eksempel 6:

I et oppdrettsanlegg mistenker de at laksen ikke har nådd forventet vekt, som er 4,5 kg. De fanger 13 fisk og måler at gjennomsnittsvekten er $\overline X = 4{,}138$ kg med et standardavvik på $S = 0{,}711$ kg. Så vil de gjennomføre en hypotesetest med signifikansnivå på 5 % på om laksen ikke har forventet vekt.

Hypotesene blir $H_A: \mu < 4{,}5$, $H_0: \mu = 4{,}5$.

Siden $\sigma$ er ukjent, må vi bruke t-fordeling med 13 – 1 = 12 frihetsgrader.

Testobservator blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 4{,}138 – 4{,}5}{\displaystyle \frac{0{,}711}{\sqrt 13}} \approx -1{,}836$.

Grenseverdien for forkastningsområdet blir $-t_{\large 0{,}05 \, (12)} \approx -1{,}782$.

Siden $T < -t_{\large 0{,}05, \: 12}$, forkaster vi nullhypotesen, og aksepterer hypotesen om at laksen ikke har forventet vekt.

Oppgave 5:

En produsent hevder at syltetøyet deres i gjennomsnitt inneholder minst 50 % bær. Mattilsynet mistenker at bærinnholdet er lavere, måler innholdet i 20 glass syltetøy, og finner et gjennomsnitt på 47,7 %, med et standardavvik på 5,7 %. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder for lite bær.

Se løsningsforslag

Tester på om forventningen ligger over en gitt verdi, eller under en gitt verdi, kalles ensidige tester. Vi har sett at de alternative hypotesene i disse tilfellene er henholdsvis $H_A: \mu > x$ eller $H_A: \mu < x$.

Men det kan også være aktuelt å teste om forventningen er ulik en gitt verdi. Det kalles en tosidig test, og den alternative hypotesen blir $H_A: \mu \ne x$. Forkastningsområdet for nullhypotesen vil da fordele seg på to sider, med den ene halvparten til venstre, og den andre halvparten til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde på begge sider under fordelingskurve.

Vi forkaster da nullhypotesen hvis $|Z| > z_{\Large \frac{\alpha^\phantom 1}{2}}$ eller $|T| > t_{\Large \frac{\alpha^\phantom 1}{2} \, (v)}$.

Legg merke til at grensen for forkastningsområdet nå beregnes basert på $\large \frac{\alpha}{2}$ i stedet for $\alpha$. Det er fordi hvert av forkastningsområdene nå er halvparten så store som i en ensidig test.

Eksempel 7:

En maskin produserer hermetiske bønner i bokser som skal ha en brutto gjennomsnittsvekt på 425 gram. Etter en overhaling av maskinen kjøres en testproduksjon på 20 bokser. Gjennomsnittsvekten er $\overline X = 427{,}5$ gram med et standardavvik på $S = 5$ gram. Så vil produsenten gjøre en hypotesetest på 5 % signifikansnivå for å sjekke om maskinen fyller riktig mengde bønner i boksene.

Hypotesene blir $H_A: \mu \ne 425$, $H_0: \mu = 425$.

Siden $\sigma$ er ukjent, må vi bruke t-fordeling med $20 – 1 = 19$ frihetsgrader.

Testobservator blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 427{,}5 – 425}{\displaystyle \frac{5}{\sqrt 20}} \approx 2{,}236$.

Grenseverdien for forkastningsområdet blir $t_{\large 0{,}025 \, (19)} = 2{,}093$.

Siden $|T| > t_{\large 0{,}025, \: 19}$, forkaster vi nullhypotesen, og aksepterer hypotesen om at vekten avviker fra gjennomsnittet.

Oppgave 6:

En bedrift produserer små barrer av en sølvlegering som skal inneholde 83,00 % sølv. Bedriften tar stikkprøver av 15 barrer og finner ut at gjennomsnittlig sølvprosent er 82,50 % med et standardavvik på 0,73 %. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om sølvprosenten er for høy eller for lav.

Se løsningsforslag

Excel har en funksjonen for hypotesetesting, z.test, som returnerer en såkalt P-verdi. P-verdien er, gitt at nullhypotesen er sann, sannsynligheten for et resultat som er likt med eller mer ekstremt enn det observerte. Definisjonen er tung, men anvendelsen enkel: Hvis P-verdien er lavere enn testens signifikansnivå, kan nullhypotesen forkastes. Denne funksjonene er imidlertid litt klumpete i bruk, så vi går ikke nærmere inn på den. Den krever at alle testdata listes opp, det er ikke nok å angi et gjennomsnitt, og den er dessuten låst  til høyresidige tester, så for venstresidige eller dobbeltsidige tester må det gjøres noe regnearbeid i tillegg. Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, er imidlertid både enkel og fleksibel å bruke.

Feil og teststyrke

Vi kan som nevnt innledningsvis aldri avsanne eller bekrefte en hypotese med en hypotesetest, bare med en viss sannsynlighet anslå om den er riktig eller ikke. Det betyr at vi i en hypotesetest kan komme til å trekke feil konklusjon. Det er to feil vi kan gjøre:

  1. Forkaste nullhypotesen selv om den er sann. Dette kalles forkastningsfeil, eller type 1 feil.
     
  2. Godta nullhypotesen selv om den er usann. Dette kalles godtakingsfeil, eller type 2 feil.

Feiltypene refererer altså til nullhypotesen, ikke den alternative hypotesen.

Som vi har sett, forkaster vi nullhypotesen hvis testobservatoren havner i forkastningsområdet. Grensen for forkastningsområdet beregnes ut fra en antakelse om at nullhypotesen er sann.

Eksempel 8:

Vi mistenker at en mynt gir for mange kron. Nullhypotesen er at mynten er rettferdig, med 50/50 sjanse for mynt og kron: $H_0: p = 0{,}5$. Den alternative hypotesen er at mynten gir for mange kron: $H_A: p > 0{,}5$.

I eksempel 2 så vi at 524 kron i 1000 kast ikke var nok til å forkaste nullhypotesen med et signifikansnivå på 5 %. Men hvor går egentlig grensen for forkastningsområdet?

I eksempel 2 så vi at $z = 1{,}6449$ dannet grensen i en standard normalfordeling. For å finne ut hvilken $x$ i den opprinnelige fordelingen som tilsvarer dette, bruker vi standardiseringsformelen $z = \frac{\displaystyle x – np}{\displaystyle \sqrt{np(1 – p)}}$ baklengs:

$z = 1{,}6449 \\
\Downarrow \\
\frac{\displaystyle x – 0{,}5 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}5(1-0{,}5)}} = 1{,}6449 \\
\Downarrow \\
x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}5(1-0{,}5)} + 0{,}5 \cdot 1000 \approx 526$

Grensen for forkastningsområdet går altså på 526 kron.

Men hva om det i eksempel 8 også var mulig at mynten ga for få kron, slik at nullhypotesen var $H_0: p \le 0{,}5$. Da ville vi ikke lenger ha noen fast $p$ å regne med når vi skulle beregne grensen for forkastningsområdet.

Hvis $p$ var $0{,}49$, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}49(1-0{,}49)} + 0{,}49 \cdot 1000 \approx 516$.

Hvis $p$ var $0{,}48$, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}48(1-0{,}48)} + 0{,}48 \cdot 1000 \approx 505$.

Jo lavere $p$, jo lenger mot venstre kryper 5 %-grensa. Sagt på en annen måte blir sannsynligheten for å få 526 kron eller mer lavere og lavere, jo lavere $p$ er. Det betyr at sannsynligheten for å feilaktig forkaste nullhypotesen også blir lavere og lavere, jo lavere $p$ er. Så den maksimale sannsynligheten for å feilaktig forkaste nullhypotesen er når $p = 0{,}5$. I det verst tenkelige tilfelle er altså sannsynligheten for å gjøre en forkastningsfeil den samme som testens signifikansnivå.

Hvis den alternative hypotesen er sann, er det ikke mulig å gjøre forkastningsfeil, for da er det jo riktig å forkaste nullhypotesen. Men vi kan gjøre en godtakingsfeil, som er det motsatte, godta nullhypotesen selv om den skulle vært forkastet.

Eksempel 9:

Hvis mynten fra eksempel 8 faktisk gir for mange kron, det vil si at $p > 0{,}5$, gjør vi en godtakingsfeil hvis vi godtar nullhypotesen om at mynten ikke gir for mange kron. Hvor sannsynlig dette er, avhenger av hva verdien til $p$ faktisk er.

Vi godtar altså nullhypotesen hvis vi får færre enn $526$ kron.

Er $p = 0{,}51$ er sannsynligheten for å få færre enn $526$ kron

$G(\frac{\displaystyle 526 – 0{,}51 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}51(1-0{,}51)}}) \approx G(1{,}01)$.

Fra normalfordelingstabellen ser vi at dette er ca. 0,8443. Sannsynligheten for å gjøre en godtakingsfeil er altså over 84 % hvis det bare er 0,01 som skiller mynten fra en rettferdig mynt.

Men når $p$ øker, synker sannsynligheten for godtakingsfeil:

p 0,51 0,52 0,53 0,54 0,55 0,56 0,57 0,58 0,59 0,60
%godtakingsfeil 84 65 40 19 6,4 1,5 0,25 0,03 0,0019 0,0001

Vi ser at hvis mynten bare gir et par prosent for mange kron, er det mer sannsynlig at vi ikke oppdager feilen enn at vi gjør det. Men gir den så mye som 5 % for mange kron, vil vi oppdage feilen i over 93 % av tilfellene. 

En hypotesetests styrkefunksjon gir sannsynligheten for å forkaste nullhypotesen. Funksjonen kalles ofte $\gamma$ eller $\beta$.

For situasjonen i eksempel 8 og 9 får vi for eksempel at

$\gamma(p) = 1 – G(\frac{\displaystyle 526 – p \cdot 1000}{\displaystyle \sqrt{1000 \cdot p(1-p)}})$,

med en graf som vist under:

Styrkefunksjon for p med 1000 forsøk.

Vi ser at sannsynligheten for å forkaste nullhypotesen – at mynten ikke gir for mange kron er omtrent $0$ når $p \le 0{,}49$, den er lik signifikansnivået på 5 % når $p = 0{,}5$, og nesten 100 % når $p \ge 0{,}57$.

Vi kan øke styrken, det vil si redusere sannsynligheten for godtakingsfeil, ved å redusere signifikansnivået, men da øker vi samtidig sannsynligheten for forkastningsfeil. Vil vi øke styrken uten å ofre signifikansnivået, må vi øke antall observasjoner.

I figuren under har vi i tillegg til styrkefunksjonen vist over, også tegnet inn styrkefunksjonen ved 2000 observasjoner med rødt, og for 4000 observasjoner med grønt. Signifikansnivået er 5 % i alle tilfeller.

Styrkefunksjoner for p med 1000, 2000 og 4000 forsøk.

Vi ser at jo flere observasjoner, jo brattere stiger kurven, og jo nærmere kommer den det ideelle, å hoppe direkte fra $0$ til $1$ idet $p$ passerer $0{,}5$.

Vi har her brukt en ensidig test i en binomisk modell, men prinsippet er det samme i andre modeller.

Kilder:

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.
  • Wikipedia