Hypotesetesting

I eksempel 9 i artikkelen om estimering lager vi konfidensintervaller for sannsynligheten for å få kron når vi kaster en mistenkelig mynt 50 ganger og får 33 kron. Vi ser at et 95 % konfidensintervall ikke inkluderer sannsynligheten til en rettferdig mynt, som er 0,5. Det er derfor en plausibel hypotese at mynten er jukset med, slik at den gir flere kron enn mynt. I denne artikkelen skal vi lære å stille opp og teste slike hypoteser.

Teste binomiske sannsynligheter

Eksempel 1:

Vi ønsker å teste en hypotese om at en mynt gir for mange kron når vi får 33 kron i 50 kast. Vi kan aldri bekrefte eller avsanne en slik hypotese, siden myntkast er et stokastisk forsøk som styres av tilfeldigheter, men vi kan med en viss sannsynlighet anslå om den er riktig eller ikke. La oss si at vi ønsker å akseptere hypotesen hvis det er mindre enn 5 % sannsynlighet for at en rettferdig mynt gir 33 eller flere kron i 50 kast.

Vi har her en binomisk sannsynlighetsfordeling. Hvis mynten er rettferdig, er sannsynligheten for kron p = 0,5, og vi kan forvente å få μ = np = 50 · 0,5 = 25 kron. Variansen til fordelingen er σ2 = np(1 − p) = 50 · 0,5(1 − 0,5) = 12,5. Som vi ser i artikkelen om sentralgrenseteoremet, kan vi tilnærme fordelingen med en normalfordeling, N(μ, σ2) = N(25, 12,5).

Hvis vi får X kron i 50 kast, er sannsynligheten for dette mindre jo lengre X ligger over 25, det vil si jo lengre X ligger til høyre for toppen av normalfordelingskurven. Sagt på en annen måte, blir arealet under normalfordelingskurven til venstre for X større og større, og arealet til høyre mindre og mindre. Det vi ønsker å finne ut, er om 33 kron havner til høyre for verdien i normalfordelingen som har 95 % av arealet til venstre for seg og 5 % av arealet til høyre.

I en standard normalfordeling finner vi denne verdien ved å slå opp 0,05 i (kvantil)normalfordelingstabellen, der det står 1,6449. Alternativt kan vi finne verdien ved å skrive =norm.s.inv(1 – 0,05) i Excel eller inversnormalfordeling(0, 1, 1 – 0.05) i GeoGebra.

For å finne ut om X = 33 tilsvarer en verdi til venstre eller høyre for 1,6449 i en standard normalfordeling, gjør vi en standardisering av X, slik det beskrives i artikkelen om normalfordelingen. Vi subtraherer forventningsverdien fra resultatet og dividerer på fordelingens standardavvik.

Vi får $Z = \frac{\displaystyle 33 – 25}{\displaystyle \sqrt{12{,}5}} \approx 2{,}263$. Siden dette er til høyre for 1,6449, kan vi konkludere med at det er mindre enn 5 % sannsynlig å få 33 kron med en rettferdig mynt, og vi aksepterer hypotesen om at mynten gir for mange kron.

Situasjonen er illustrert i figuren under.

Illustrasjon av sannsynlighetsfordelinger av antall kron ved 50 myntkast

Formelt sett i hypotesetesting starter vi med å sette opp en alternativ hypotese og en nullhypotese. Den alternative hypotesen består av det vi skal teste, og skrives som HA. I eksempel 1 er den alternative hypotesen HA: p > 0,5, der p er sannsynligheten for å få kron. Nullhypotesen skrives som H0, og består av det motsatte alternativet. I eksempel 1 er nullhypotesen H0: p = 0,5. Det er ofte lettest å sette opp den alternative hypotesen først.

Så trenger vi en testobservator, som er variabelen vi bruker i testen. I eksempel 1 var observatoren X, som representerte antall kron.

Til slutt må vi bestemme oss for et forkastningsområde for testen. Forkastningsområdet er slik at hvis testobservatoren havner i området, skal nullhypotesen forkastes, og vi aksepterer derved den alternative hypotesen. I eksempel 1 tilsvarte forkastningsområdet det gule feltet i figuren over.

Sannsynligheten for at observatoren havner i forkastningsområdet kalles testens signifikansnivå, og betegnes ofte med α. I eksempel 1 var signifikansnivået α = 0,05. Merk at størrelsen på forkastningsområdet er beregnet ut fra forutsetningen om at nullhypotesen er sann. Grensen for forkastningsområdet i normalfordelingen kaller vi zα. I eksempel 1 var zα = z0,05 ≈ 1,6449.

I eksempel 1 brukte vi observatoren X, som var antall kron, deretter normaliserte vi resultatet slik at vi kunne bruke standard normalfordeling til å bestemme forkastningsområdet. Det kan imidlertid være praktisk å ha en observator som er ferdig standardisert. Hvis X ~ N(μ, σ2), setter vi $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, der μ er fordelingens forventning og σ fordelingens standardavvik.

I en binomisk fordeling har vi at μ = np og σ2 = np(1 − p), så vi setter

$Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Her er p0 sannsynligheten i nullhypotesen, og n antall forsøk. I eksempel 1 var dette henholdsvis 0,5 og 50.

Eksempel 2:

Vi kaster en mynt 1000 ganger, får 524 kron, og ønsker å teste en hypotese om at mynten gir for mange kron, med signifikansnivå 5 %.

Hvis mynten gir for mange kron, betyr det at sannsynligheten for kron er større enn 0,5, så den alternative hypotesen og nullhypotesen blir

HA: p > 0,5, H0: p = 0,5

Antall observasjoner er X = 524, antall forsøk er n = 1000, så testobservatoren blir

$Z = \frac{\displaystyle 524 – 1000 \cdot 0{,}5}{\displaystyle \sqrt{1000 \cdot 0{,}5(1 – 0{,}5)}} \approx 1{,}5179$

zα = z0,05 ≈ 1,6449, som i eksempel 1.

Siden Z ≈ 1,5179 $\ngtr$ zα ≈ 1,6449, kan ikke nullhypotesen forkastes på signifikansnivå 5 %. Det er altså ikke grunnlag for å hevde at mynten gir for mange kron.

Oppgave 1:

Vi kaster en terning 100 ganger og får 20 seksere. Sett opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og test hypotesen med et signifikansnivå på 5 %.

Se løsningsforslag

Oppgave 2:

Vi kaster terningen fra oppgave 1 000 ganger og får 200 seksere. Test hypotesen fra oppgave 1 på nytt med de nye dataene, men med samme signifikansnivå. Sammenlikn med resultatet fra oppgave 1.

Se løsningsforslag

Når vi arbeider med binomiske sannsynligheter, er X er det samme som $n \hat p$, der n er antall forsøk og $\hat p$ den estimerte sannsynligheten for suksess i forsøket. Vi kan altså skrive testobservatoren som

$Z = \frac{\displaystyle n \hat p – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Forkorter vi med n, får vi

$Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$

som vi kan bruke hvis vi baserer oss på den estimerte sannsynligheten for suksess i stedet for antall oppnådde suksesser.

Vi oppsummerer:

$\fbox{$\begin{align} &\text{Testobservator for binomisk sannsynlighet: }\\
&Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}} \\
&\text{eller} \\
&Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}} \\
&\text{Sammenliknes med } z_\alpha \end{align}$}$

Vi forutsetter at vi har gjort om lag 30 forsøk eller mer.

Teste forventning

I artikkelen om estimering beregner vi grensene for et konfidensintervall basert på forventning og standardavvik. Vi kan på samme måte benytte dette i en hypotesetest. I stedet for å basere testobservatoren på antall suksesser eller estimert sannsynlighet for suksess, baserer vi den på gjennomsnitt og standardavvik: 

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$.

Her er X observert gjennomsnitt, μ0 forventning, σ standardavviket i modellen, og n antall observasjoner. Generelt bør vi ha minst 30 observasjoner, men vi kan fire på dette kravet hvis vi arbeider med en normalfordelt populasjon.

Eksempel 3:

En maskin som produserer dressing, skal i gjennomsnitt tilsette 10 ml olje pr. pakke. Mengden olje er normalfordelt med et standardavvik på σ = 0,65 ml. 

Det er mistanke om at maskinen er feiljustert og tilsetter for mye olje, så bedriften måler oljeinnholdet i 20 pakker, og finner et gjennomsnitt på 10,5 ml.

De ønsker så å teste en hypotese om at oljeinnholdet er høyere enn forventningen på μ0 = 10 ml, med et signifikansnivå på 1 %.

Hypotesene blir HA: μ > 10, H0: μ = 10.

Vi har X = 10,5, og σ = 0,65.

Så testobservatoren blir

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}5 – 10}{\displaystyle \frac{0{,}65}{\sqrt{20}}} \approx 3{,}44$.

Fra (kvantil)normalfordelingstabellen finner vi at zα = z0,01 ≈ 2,3263. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,01) i Excel eller inversnormalfordeling(0, 1, 1 – 0.01) i GeoGebra.

Siden Z ≈ 3,44 > zα ≈ 2,3263, forkaster vi nullhypotesen, og aksepterer den alternative hypotesen om at maskinen i gjennomsnitt tilsetter mer enn 10 ml olje.

Oppgave 3:

Etter å ha justert maskinen i eksempel 3, måles gjennomsnittsoljeinnholdet i 25 pakker til 10,3 ml. Sett opp og gjennomfør en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet fremdeles er høyere enn 10 ml.

Se løsningsforslag

Nullhypotesene vi har operert med så langt, har bestått i at forventningen har en bestemt verdi, for eksempel H0: μ = 10 i eksempel 3. Men i mange tilfeller vil det være mer realistisk med en nullhypotese som hevder at forventningen er mindre eller lik en bestemt verdi, for eksempel at en fabrikant påstår at fettinnholdet i deres kjøttdeig i gjennomsnitt er maksimalt 10 gram, noe som vil gi H0: μ ≤ 10 som nullhypotese. Dette påvirker imidlertid ikke resultatet av hypotesetesten, fordi kriteriet for å forkaste nullhypotesen er det samme, og den alternative hypotesen er den samme.

Eksempel 4:

En produsent hevder at deres syltetøy i gjennomsnitt inneholder maksimalt 20 gram sukker per 100 gram syltetøy. Skal vi sette opp en hypotesetest om at syltetøyet inneholder mer sukker, blir den alternative hypotesen HA: μ > 20, og nullhypotesen H0: μ ≤ 20.

Ukjent standardavvik

Som vi ser i artikkelen om estimering, kjenner vi ofte ikke standardavviket i en populasjon. Da tilnærmer vi med utvalgsstandardavviket, men innfører da også en usikkerhet. I artikkelen om estimering ser vi da at vi skifter ut normalfordelingen med t-fordeling, noe som fører til at konfidensintervallet blir bredere.

Dersom vi i en hypotesetest ikke kjenner populasjonens standardavvik, tilnærmer vi på samme måte med utvalgsstandardavviket, og skifter fra normalfordeling til t-fordeling, med antall frihetsgrader lik antall observasjoner minus 1. t-kurvene blir bredere jo færre frihetsgrader vi har, noe som betyr at forkastningsområdet i en hypotesetest beveger seg bort fra gjennomsnittet. Med andre ord blir det vanskeligere blir å forkaste, jo færre observasjoner vi har,

Testobservatoren blir omtrent den samme som når standardavviket er kjent, men vi kaller den T i stedet for Z, og bruker S i stedet for σ:

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

For å finne grensen for forkastningsområdet bruker vi (kvantil)t-fordelingstabellen i stedet for normalfordelingstabellen.

Eksempel 5:

På en planteskole oppdager de at 15 planter som ved et uhell er satt i feil type jord, later til å ha blitt høyere enn normalt. Høyden på denne plantetypen har i vanlig jord vært normalfordelt med et gjennomsnitt på 30,2 cm. Gjennomsnittshøyden på plantene i feil jord måles til 31,2 cm, med et standardavvik på 2,3 cm. Nå ønsker planteskolen å gjennomføre en hypotesetest på signifikansnivå 5 % for å se om den andre typen jord øker gjennomsnittshøyden til plantene.

Hypotesene blir HA: μ > 30,2, H0: μ = 30,2.

Vi har X = 31,2 og S = 2,3.

Fordi σ er ukjent, må vi bruke t-fordeling med a = α = 0,05 og v = 15 − 1 = 14 for å finne grensen til forkastningsområdet. Vi slår opp i (kvantil) t-fordelingstabellen og får t0,05 (14) ≈ 1,761. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 14) i Excel eller inverstfordeling(14, 1 – 0.05) i GeoGebra.

Testobservatoren blir

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 31{,}2 – 30{,}2}{\displaystyle \frac{2{,}3}{\sqrt{15}}} \approx 1{,}68$.

Siden T ≈ 1,68 $\ngtr$ t0,05 (14) ≈ 1,761, kan vi ikke forkaste nullhypotesen, og har på 5 % signifikansnivå ikke grunnlag for å si at den andre typen jord øker gjennomsnittshøyden til plantene.

Hadde vi i stedet for t-fordelingstabellen brukt normalfordelingstabellen, ville grensa til forkastningsområdet blitt z0,05 ≈ 1,6449, og siden T ≈ 1,68 > z0,05 ≈ 1,6449, ville vi forkastet nullhypotesen og akseptert at den nye typen jord økte gjennomsnittshøyden til plantene. En feil som oppsto på grunn av at vi da ikke tok hensyn til den økte usikkerheten estimeringen av standardavviket førte med seg.

Oppgave 4:

Ventetiden på å få svar på en servicetelefon er normalfordelt, med en gjennomsnittlig ventetid oppgitt til 30 sekunder. En internkontroll med 15 oppringninger på tilfeldige tidspunkter viser en gjennomsnittlig ventetid på 37 sekunder, med et standardavvik på 14 sekunder. Sett opp og gjennomfør en hypotesetest på signifikansnivå 5 % på om oppgitt gjennomsnittlig ventetid er for lav.

Se løsningsforslag

Vi oppsummerer:

$\fbox{$\begin{align}& \text{Testobservator for forventning: }\\
\\
&\sigma \text{ kjent:} \\
&Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} \\
&\text{ } \\
&\sigma \text{ ukjent:} \\
&T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} \\
&\text{ } \\
&Z \text{ sammenliknes med } z_{\large \alpha} \text{ og } T \text{ med } t_{\large \alpha \, (n – 1)} \end{align}$}$

Dersom vi har om lag 30 målinger eller mer, kan vi bruke normalfordeling i stedet for t-fordeling, siden de to fordelingene da er omtrent like.

Venstresidige og tosidige tester

I alle eksemplene og oppgavene vi har arbeidet med så langt, har den alternative hypoteser vært at forventningen ligger over en gitt verdi, HA: μ > x. Forkastningsområdet for nullhypotesen har da ligget til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til høyre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z > zα eller T > tα (v). Men selvfølgelig er det like aktuelt å teste det motsatte, at forventningen ligger under en gitt verdi, HA: μ < x. Forkastningsområdet for nullhypotesen vil da ligge til venstre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til venstre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z < −zα eller T < −tα (v).

Eksempel 6:

I et oppdrettsanlegg mistenker de at laksen har mindre enn forventet vekt, som er 4,5 kg. De fanger 29 fisk og måler at gjennomsnittsvekten er X = 4,24 kg, med et standardavvik på S = 0,71 kg. Så vil de gjennomføre en hypotesetest med signifikansnivå på 5 % på om laksen har mindre enn forventet vekt.

Hypotesene blir HA: μ < 4,5, H0: μ = 4,5.

Vi bruker t-fordeling med 29 – 1 = 28 frihetsgrader.

Testobservatoren blir

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 4{,}24 – 4{,}5}{\displaystyle \frac{0{,}71}{\sqrt 29}} \approx -1{,}972$.

Grenseverdien for forkastningsområdet blir −t0,05 (28) ≈ −1,701.

Siden T ≈ −1,972 < –t0,05 (28) ≈ −1,701, forkaster vi nullhypotesen, og aksepterer hypotesen om at laksen har mindre enn forventet vekt.

Oppgave 5:

En produsent hevder at syltetøyet deres i gjennomsnitt inneholder minst 50 % bær. Mattilsynet mistenker at bærinnholdet er lavere, måler innholdet i 30 glass syltetøy, og finner et gjennomsnitt på 47,7 %, med et standardavvik på 5,7 %. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder for lite bær.

Se løsningsforslag

Tester på om forventningen ligger over en gitt verdi, eller under en gitt verdi, kalles ensidige tester. Vi har sett at de alternative hypotesene i disse tilfellene er HA: μ > x for en høyresidig test, og HA: μx for en venstresidig test.

Men det kan også være aktuelt å teste om forventningen er ulik en gitt verdi. Det kalles en tosidig test, og den alternative hypotesen blir HA: μx. Forkastningsområdet for nullhypotesen vil da fordele seg på to sider, med den ene halvparten til venstre, og den andre halvparten til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde på begge sider under fordelingskurve.

Vi forkaster nullhypotesen hvis |Z| > zα/2 eller |T| > tα/2 (v).

Vi legger merke til at grensen for forkastningsområdet nå beregnes basert på α/2 i stedet for α. Det er fordi hvert av forkastningsområdene nå er halvparten så store som i en ensidig test.

Eksempel 7:

En maskin fyller tomatbønner på boks. Brutto fyllvekt oppgis å være normalfordelt med et gjennomsnitt på 425 gram og et standardavvik på 5 gram. Etter en overhaling gjennomføres en sjekk på 20 bokser, som i snitt viser seg å inneholde 427 gram. Det skal så gjøres en hypotesetest på 5 % signifikansnivå på om mengden bønner i boksene er korrekt.

Hypotesene blir HA: μ ≠ 425, H0: μ = 425.

Testobservatoren blir

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 427 – 425}{\displaystyle \frac{5}{\sqrt 20}} \approx 1{,}789$.

Grenseverdien for forkastningsområdet blir z0,05/2 = z0,025 ≈ 1,960.

Siden |Z| ≈ 1,789 $\ngtr$ z0,025 ≈ 1,960, kan vi ikke forkaste nullhypotesen om at vekten er korrekt.

Oppgave 6:

Mengden sukker en maskin tilsetter i en kakemiks, er oppgitt å være normalfordelt med et gjennomsnitt på 83 gram. En bedrift tar 15 stikkprøver, og finner ut at gjennomsnittlig mengde sukker er 82,5 gram, med et standardavvik på 0,6 gram. Sett opp og gjennomfør en hypotesetest på signifikansnivå 1 % på om sukkermengden er korrekt.

Se løsningsforslag

Hypotesetesting i Excel og GeoGebra

Slettet:

Excel har en funksjon for hypotesetesting, z.test, som returnerer en såkalt P-verdi. P-verdien er, gitt at nullhypotesen er sann, sannsynligheten for et resultat som er likt med eller mer ekstremt enn det observerte. Definisjonen er tung, men bruken enkel: Hvis P-verdien er lavere enn testens signifikansnivå, kan nullhypotesen forkastes. Denne funksjonen er imidlertid litt klumpete i bruk, så vi går ikke nærmere inn på den. Den krever at alle testdata listes opp, det er ikke nok å angi et gjennomsnitt, og den er dessuten låst til høyresidige tester, så for venstresidige eller dobbeltsidige tester må det gjøres noe regnearbeid i tillegg. Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, er imidlertid både enkel og fleksibel å bruke til slike tester.

Feil og teststyrke

Vi kan, som nevnt innledningsvis, aldri avsanne eller bekrefte en hypotese med en hypotesetest, bare med en viss sannsynlighet anslå om den er riktig eller ikke. Det betyr at vi i en hypotesetest kan komme til å trekke feil konklusjon. Det er to feil vi kan gjøre:

  1. Forkaste nullhypotesen selv om den er sann. Dette kalles forkastningsfeil, eller type 1 feil.
     
  2. Beholde nullhypotesen selv om den er usann. Dette kalles godtakingsfeil, eller type 2 feil.

Feiltypene refererer altså til nullhypotesen, ikke den alternative hypotesen.

Som vi har sett, forkaster vi nullhypotesen hvis testobservatoren havner i forkastningsområdet. Grensen for forkastningsområdet beregnes ut fra en antakelse om at nullhypotesen er sann.

Eksempel 8:

Vi mistenker at en mynt gir for mange kron. Nullhypotesen er at mynten er rettferdig, med 50 % sjanse for kron: H0: p = 0,5. Den alternative hypotesen er at mynten gir for mange kron: HA: p > 0,5.

I eksempel 2 så vi at 524 kron i 1000 kast ikke var nok til å forkaste nullhypotesen med et signifikansnivå på 5 %. Men hvor går egentlig grensen for forkastningsområdet?

I eksempel 2 så vi at z ≈ 1,6449 dannet grensen i en standard normalfordeling. For å finne ut hvilken x i den opprinnelige fordelingen som tilsvarer denne verdien, bruker vi standardiseringsformelen $z = \frac{\displaystyle x – np}{\displaystyle \sqrt{np(1 – p)}}$ baklengs:

$z = 1{,}6449$
$\Downarrow$
$\frac{\displaystyle x – 0{,}5 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}5(1-0{,}5)}} = 1{,}6449$
$\Downarrow$
$x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}5(1-0{,}5)} + 0{,}5 \cdot 1000 \approx 526$

Grensen for forkastningsområdet går altså på om lag 526 kron.

Men hva om det i eksempel 8 også var mulig at mynten ga for få kron? Da ville vi ikke lenger ha noen fast p å regne med når vi skulle beregne grensen for forkastningsområdet.

Hvis p var 0,49, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}49(1-0{,}49)} + 0{,}49 \cdot 1000 \approx 516$.

Hvis p var 0,48, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}48(1-0{,}48)} + 0{,}48 \cdot 1000 \approx 505$.

Jo lavere p, jo lenger mot venstre kryper 5 %-grensa. Sagt på en annen måte, blir sannsynligheten for å få 526 kron eller mer lavere og lavere, jo lavere p er. Det betyr at sannsynligheten for å feilaktig forkaste nullhypotesen også blir lavere og lavere, jo lavere p er. Så den maksimale sannsynligheten for å feilaktig forkaste nullhypotesen er når p = 0,5. I det verst tenkelige tilfelle er altså sannsynligheten for å gjøre en forkastningsfeil den samme som testens signifikansnivå.

Hvis den alternative hypotesen er sann, er det ikke mulig å gjøre forkastningsfeil, for da er det jo riktig å forkaste nullhypotesen. Men vi kan gjøre en godtakingsfeil, som er det motsatte, godta nullhypotesen selv om den skulle vært forkastet.

Eksempel 9:

Hvis mynten fra eksempel 8 faktisk gir for mange kron, det vil si at p > 0,5, gjør vi en godtakingsfeil hvis vi godtar nullhypotesen om at mynten ikke gir for mange kron. Hvor sannsynlig dette er, avhenger av hva verdien til p faktisk er.

Vi godtar altså nullhypotesen hvis vi får færre enn 526 kron.

Er p = 0,51, er sannsynligheten for å få færre enn 526 kron

$G(\frac{\displaystyle 526 – 0{,}51 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}51(1-0{,}51)}}) \approx G(1{,}01)$.

Fra normalfordelingstabellen ser vi at dette er ca. 0,8443. Sannsynligheten for å gjøre en godtakingsfeil er altså over 84 % hvis det bare er 0,01 som skiller mynten fra en rettferdig mynt.

En hypotesetests styrkefunksjon gir sannsynligheten for å forkaste nullhypotesen. Funksjonen kalles ofte γ eller β.

For situasjonen i eksempel 8 og 9 får vi for eksempel at

$\gamma(p) = 1 – G(\frac{\displaystyle 526 – p \cdot 1000}{\displaystyle \sqrt{1000 \cdot p(1-p)}})$,

med en graf som vist under:

Styrkefunksjon for p med 1000 forsøk.

Vi ser at sannsynligheten for å forkaste nullhypotesen – at mynten ikke gir for mange kron er omtrent 0 når p ≤ 0,49, den er lik signifikansnivået på 5 % når p = 0,5, og nesten 100 % når p ≥ 0,57.

Vi kan øke styrken, det vil si redusere sannsynligheten for godtakingsfeil, ved å redusere signifikansnivået, men da øker vi samtidig sannsynligheten for forkastningsfeil. Vil vi øke styrken uten å ofre signifikansnivået, må vi øke antall observasjoner.

I figuren under har vi i tillegg til styrkefunksjonen vist over, også tegnet inn styrkefunksjonen ved 2000 observasjoner med rødt, og for 4000 observasjoner med grønt. Signifikansnivået er 5 % i alle tilfeller.

Styrkefunksjoner for p med 1000, 2000 og 4000 forsøk.

Vi ser at jo flere observasjoner vi har, jo brattere stiger kurven, og jo nærmere kommer den det ideelle, å hoppe direkte fra 0 til 1 idet p passerer 0,5.

Vi har her brukt en ensidig test i en binomisk modell, men prinsippet er det samme i andre modeller.

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.