Algebraisk bevis

I artikkelen om ugyldige bevis ser vi på en sammenheng der det later til at summen av tre etterfølgende heltall alltid blir lik tre ganger det midterste tallet. Men vi sier at uansett hvor mange eksempler vi finner på at sammenhengen er riktig, er ikke eksempler et gyldig bevis så lenge vi ikke kan teste alle mulighetene. I dette tilfellet kan vi umulig teste alle fordi det finnes uendelig mange etterfølgende tall.

For å bevis sammenhengen kan vi i stedet bruke et algebraisk bevis. I et algebraisk bevis erstatter vi tall med algebraiske symboler. Når vi så bruker algebraiske regler til å manipulere symbolene, vil resultatet vi kommer fram til, være gyldig for alle tall symbolene kan tenkes å stå for.

Eksempel 1:

Vi skal bevise at summen av tre etterfølgende heltall alltid er lik tre ganger det midterste tallet.

Vi representerer det midterste tallet med et algebraisk symbol, for eksempel aa kan her stå for hvilket som helst heltall. Heltallet før a vil da være − 1, og heltallet etter a vil være + 1. Summen av disse tre etterfølgende tallene blir
(a − 1) + a + (a + 1). Organiserer vi leddene i dette uttrykket, får vi a + a + a − 1 + 1 = 3a.

Vi ser at uansett hvilket tall det midterste tallet, a, representerer, blir summen tre ganger dette tallet. Sammenhengen er derved bevist.

Eksempel 2:

Vi skal bevise at summen av to partall alltid er et partall.

Dette kan vi gjøre med et algebraisk bevis. Alle partall er multipler av 2, for eksempel 6 = 2 · 3, −10 = 2(−5), og så videre. Et generelt uttrykk for et partall vil derfor være et 2-tall multiplisert med et algebraisk symbol som representerer et vilkårlig heltall, for eksempel 2t.

Velger vi n og m som symboler for vilkårlige heltall, vil 2n og 2m være to vilkårlige partall. Summen av disse blir 2n + 2m = 2(n + m). Siden uttrykket i parentesen er et heltall, ser vi at summen er på formen 2t, og derved et partall.

I eksempel 2 brukte vi 2n som symbol for det ene tallet og 2m som symbol for det andre. Hadde vi brukt samme symbol for begge, for eksempel 2t, ville det betydd at de to tallene var like. Vi har følgende prinsipp:

Tall som kan være ulike må representeres med forskjellige symboler.

Vi sier ikke at tall representert med forskjellige symboler nødvendigvis må være ulike. Det er mulig at de er ulike, men det er også mulig at de er like. Beviset i eksempel 2 er like gyldig for to forskjellige tall, for eksempel 2 + 4, som for to like tall, for eksempel 2 + 2.

Eksempel 3:

Uriktig påstand: Produktet av to partall er et kvadrattall.

Uriktig bevis: Et partall er et tall på formen 2t, der t er et helt tall. Produktet av to partall kan skrives som 2t · 2t = 2 · 2 · t · t = 22 · t2 = (2t)2. Og vi ser at produktet kan skrives som kvadratet av 2t.

Problemet er at t er brukt som symbol for to tall som kan være ulike. Vi har egentlig bare bevist det opplagte, at et tall multiplisert med seg selv er et kvadrattall. Med forskjellige symboler får vi 2m · 2n = 2 · 2 · m · n = 22 · m · n, som ikke er et kvadrattall hvis m og n er ulike.

Oppgave 1:

Vi påstår at summen av to partall alltid er delelig med 4.

Som algebraisk «bevis» lar vi 2t være et vilkårlig partall. Summen av to partall blir da 2t + 2t = 4t, som er delelig med 4.

Forklar hva problemet med dette «beviset» er, og forklar hva det egentlig er vi har bevist.

Se løsningsforslag

Oppgave 2:

Bevis at summen av to oddetall er et partall.

Hint: Et oddetall kan skrives på formen 2t + 1, der t er et heltall.

Se løsningsforslag

Oppgave 3:

Det kan se ut som vi alltid får 37 når vi dividerer et tresifret tall der sifrene er like, med summen av sifrene.

For eksempel er

${\large \frac{111}{1+1+1}} = {\large \frac{111}{3}} = 37$

og

${\large \frac{111}{2+2+2}} = {\large \frac{222}{6}} = 37$

Bruk et algebraisk bevis til å begrunne at denne sammenhengen gjelder for alle siffer 1, 2, 3, 4, 5, 6, 7, 8 og 9.

Hint: En generell representasjon av et tresifret tall med like sifre er a · 100 + a · 10 + a.

Se løsningsforslag

Kilder

    • Nossum, R. (2010). Litt om Matematisk Argumentasjon og Bevis. Kompendium, UiA.

Bevis ved moteksempel

Å ramse opp eksempler på at en påstand er riktig er ikke et gyldig bevis med mindre vi kan ta for oss alle mulighetene som inngår i påstanden. Derimot vil ett eneste eksempel på at påstanden ikke er riktig, et såkalt moteksempel, motbevise den, det vil si gi en konklusjon om at påstanden er uriktig.

Eksempel 1:

Påstand: Alle tall på formen 2p − 1 er primtall hvis p er et primtall.

Denne påstanden undersøker vi i eksempel 2 i artikkelen om ugyldige bevis. Da finner vi at primtallet p = 11 gir det sammensatte tallet 2047. Dette er da et moteksempel som beviser at påstanden er uriktig.

Eksempel 2:

Påstand: Alle primtall er oddetall.

Moteksempel: 2 er et primtall, men ikke et oddetall. Påstanden er derved motbevist.

Påstanden i eksempel 2 er riktig for alle andre primtall enn 2. Det finnes altså uendelig mange tall den er riktig for, men bare ett den ikke er riktig for. Allikevel betyr dette ene moteksempelet at påstanden er uriktig. Med en liten modifikasjon blir imidlertid påstanden riktig:

Eksempel 3:

Påstand: Alle primtall unntatt 2 er oddetall.

Følgende argument vil være et tilfredsstillende bevis for dette: 

Alle partall er delelige med 2. Siden partall større enn 2 derved er delelige med et annet tall enn 1 og seg selv, er de ikke primtall. Siden alle tall enten er partall eller oddetall, må derfor primtallene være oddetall.

Oppgave 1:

Bevis at følgende påstand er uriktig: Alle sammensatte tall større enn hundre består av minst tre primtallsfaktorer.

Se løsningsforslag

Kilder

    • Nossum, R. (2010). Litt om Matematisk Argumentasjon og Bevis. Kompendium, UiA.

Uttømmende bevis

Generelt er det ikke nok å liste opp eksempler for å bevise en påstand. Et unntak er imidlertid tilfeller der eksemplene dekker alle mulighetene som inngår. Eksemplene utgjør da et uttømmende bevis.

Eksempel 1:

Påstand: Det finnes nøyaktig tre heltall, n ∈ [20, 25], som består av nøyaktig to primtallsfaktorer.

Denne påstanden omfatter bare 6 tall, og vi kan bevise den gjennom et uttømmende bevis. Vi setter opp de aktuelle tallene, og viser at påstanden er riktig:

20 = 2 · 2 · 5

21 = 3 · 7

22 = 2 · 11

23 = 23

24 = 2 · 2 · 2 · 3

25 = 5 · 5

Vi ser at de tre tallene 21, 22 og 25 består av nøyaktig to primtallsfaktorer, og påstanden er derved bevist.

Oppgave 1:

Bevis følgende påstand: Det finnes nøyaktig ett heltall i intervallet [20, 25] som består av nøyaktig fire primtallsfaktorer.

Se løsningsforslag

Kilder

    • Nossum, R. (2010). Litt om Matematisk Argumentasjon og Bevis. Kompendium, UiA.

Ugyldige bevis

Vi har funnet ut at hvis vi summerer tre etterfølgende heltall, blir svaret lik tre ganger det midterste tallet. For eksempel er

3 + 4 + 5 = 3 · 4

11 + 12 + 13 = 3 · 12

(−13) + (−12) + (−11) = 3(−12)

I et regneark prøver vi ut ti tusen forskjellige tallsekvenser, og det stemmer alltid. Har vi da bevist påstanden?

Svaret er nei. Det er aldri nok å liste opp eksempler for å bevise en påstand, med mindre vi kan sjekke alle muligheter. Det kan være krevende å akseptere strengheten i dette kravet når noe «opplagt» er riktig. Det kan godt være at vi har funnet fram til en sammenheng som er korrekt, og mange matematiske teoremer har sitt utspring i at noen har hatt en magefølelse for noe. Men vi må følge opp med et allmenngyldig bevis. I tilfellet med summen av tre etterfølgende tall er det vi har funnet ut, faktisk riktig, men begrunnelsen holder ikke.

Noen sammenhenger kan tilsynelatende være riktige når vi tester på noen eksempler, men allikevel ikke være allmenngyldige.

Eksempel 1:

Det kan se ut som om sekvenser av 3-tall etterfulgt av et 1-tall alltid er primtall. Vi sjekker, og finner ut at 31, 331, 3331, 33331, 333331, 3333331 og 33333331 alle er primtall.

Imidlertid er ikke dette en allmenngyldig sammenheng. Legger vi på enda et 3-tall, får vi 333333331, som kan faktoriseres som 17 · 19607843, og er derved ikke et primtall. Fortsetter vi å legge på 3-tall, vil resultatet stort sett bli tall som ikke er primtall.

Eksempel 2:

Det kan se ut som alle tall på formen 2n − 1 er primtall hvis n er et primtall. Vi har:

22 − 1 = 3. Primtall.

23 − 1 = 7. Primtall.

25 − 1 = 31. Primtall.

27 − 1 = 127. Primtall.

213 − 1 = 8191. Primtall.

217 − 1 = 131071. Primtall.

219 − 1 = 524287. Primtall.

Men her har vi ikke tatt med n = 11, som gir 211 − 1 = 2047, som kan faktoriseres som 23 · 89, og derved ikke er et primtall. Og det finnes uendelig mange andre primtall, n, der 2n − 1 ikke er et primtall.

Oppgave 1:

Det kan se ut som formelen n2n + 41, der n er et heltall større eller lik 0, er en primtallsgenerator. Setter vi inn n fra 0 til 20, får vi 41, 41, 43, 47, 53, 61, 71, 83, 97, 113, 131, 151, 173, 197, 223, 251, 281, 313, 347, 383 og 421, som alle er primtall. Prøv noen flere n selv, og sjekk om du får primtall. Ei liste over primtall finner du her: https://www.mathsisfun.com/numbers/prime-numbers-to-10k.html

Gjør så en vurdering av om primtallsgeneratoren fungerer eller ikke.

Se løsningsforslag

Kilder

    • Nossum, R. (2010). Litt om Matematisk Argumentasjon og Bevis. Kompendium, UiA.

Visuelle bevis

Det visuelle er viktig for menneskers forståelse, en må gjerne visualisere ting for å forstå dem. Å tegne en skisse kan for eksempel ofte være god hjelp for få grep om et problem.

I et visuelt bevis er visuell tankegang viktig, selv om beviset ikke nødvendigvis er basert utelukkende på det visuelle.

Eksempel 1:

Vi skal bevise visuelt at summen av to oddetall er et partall.

Vi illustrerer oddetall som en gruppe ruter der det er 1 rute som ikke er i par, og vi ser at når vi føyer sammen to slike grupper, havner alle rutene i par.

Visuelt oddetalls-bevis

Eksempel 2:

Vi skal bevise visuelt at produktet av to oddetall er et oddetall.

Et oddetall er et tall på formen 2n + 1, der n er et helt tall. Vi illustrerer et oddetall som et rutenett med et odde antall ruter, for eksempel 9, som i figuren under.

Tallet 9 illustrert som ruter horisontalt

Her har vi med blå streker markert at alle rutene unntatt 1 kan organiseres i par, altså at 9 = 2 · 4 + 1.

Tallet 7 illustrert som ruter vertikalt

Her har vi med blå streker igjen markert at alle rutene unntatt 1 kan organiseres i par, altså at 7 = 2 · 3 + 1.

Produktet av disse tallene kan vi illustrere som vist under.

Tallet 7*9 illustrert som ruter

Som vi ser, inngår alle rutene unntatt 1 i par, og vi kan derfor konkludere med at produktet også er et oddetall.

Her har vi brukt 9 · 7 som eksempler, men det er lett å innse at prinsippet vil være det samme for alle oddetall.

Kaller vi det vertikale oddetallet 2n + 1 og det horisontale 2m + 1, ser vi i figuren under at vi har 2n · 2m = 4nm gule ruter, 2n blå ruter, 2m grønne ruter og 1 rød rute.

Illustrasjon av produktet av to oddetall

Altså er (2n + 1)(2m + 1) = 4nm + 2n + 2m + 1.

Det gir en illustrasjon av regelen for å multiplisere to parentesuttrykk med to ledd.

I eksempel 2 brukte vi forskjellige oddetall i horisontal og vertikal retning, 9 og 7. Dersom vi skal bevise noe som gjelder for alle kombinasjoner av to tall, kan det være at vi trekker en slutning som ikke er generell hvis vi velger to like tall.

Eksempel 3:

Det følgende er et feilaktig visuelt bevis for at produktet av to partall er et kvadrattall.

Et partall er et tall på formen 2n, der n er et helt tall. Vi illustrerer et partall som et rutenett med et par antall ruter, for eksempel 6, som i figuren under.

Tallet 6 illustrert som ruter horisontalt

Her har vi med blå streker markert at alle rutene kan organiseres i par, altså at 6 = 2 · 3.

Så illustrerer vi det samme partallet som et vertikalt rutenett, som i figuren under.

Tallet 6 illustrert som ruter vertikalt

Produktet av disse tallene kan vi illustrere som vist under.

Produktet av like partall illustrert med ruter

Som vi ser, er formen kvadratisk, og vi slutter derfor at rutenettet representerer et kvadrattall.

Generelt er imidlertid ikke dette riktig. For eksempel er 4 · 6 = 24 ikke et kvadrattall. Problemet med «beviset» er at vi har brukt samme tall både horisontalt og vertikalt, og egentlig bare bevist det opplagte, at (2n)2 er et kvadrattall.

Oppgave 1:

Lag et visuelt bevis for første kvadratsetning, altså at (a + b)2 = a2 + 2ab + b2.

Hint: Tegn et kvadrat av ruter med sidelengde a + b.

Se løsningsforslag

Eksempel 4:

Vi skal bevise Pytagoras′ setning.

Pytagoras′ setning sier at i en rettvinklet trekant vil summen av kvadratene på katetene være lik kvadratet på hypotenusen.

Vi tar utgangspunkt i en rettvinklet trekant med kateter a og b, og hypotenus c:

Rettvinklet trekant

Ifølge Pytagoras har vi i denne trekanten at a2 + b2 = c2.

For å bevise at a2 + b2 = c2, lager vi et kvadrat med sidelengder a + b. Sidelengden er altså lik summen av lengdene til katene i trekanten:

Kvadrat

Så legger vi fire kopier av trekanten inn i kvadratet, slik at hypotenusene vender innover:

Trekanter i firkant, variant 1

Vi ser at det blå, altså den delen av kvadratet som ikke er dekket, er et nytt kvadrat med sidekant c, altså med areal c2.

Så flytter vi rundt på trekantene, og legger dem parvis i motstående hjørner:

Trekanter i firkant, variant 2

Nå ser vi at det blå, altså den delen av kvadratet som ikke er dekket, består av to nye kvadrater med sidekanter henholdsvis a og b, altså med arealer a2 og b2.

Siden vi ikke har endret på noen arealer, bare flyttet rundt på trekantene, må de blå områdene være like store i begge figurene. Det vil si at areal a2 pluss areal b2 er det samme som areal c2, altså at a2 + b2 = c2, som var det vi skulle vise.

Kilder

    • Hinna, K. R. C., Rinvold, R. A., Gustavsen, T. S. (2011). QED 5-10. Høyskoleforlaget.
    • Hovtun, G. (2020). Mer matematikk, takk. Universitetsforlaget.

Intuitive bevis

Et første møte med bevis og bevisteknikk kan være intuitive bevis, der vi argumenterer for en påstand uten nødvendigvis å bruke matematiske symboler og formell logikk.

Eksempel 1:

Vi skal argumentere for at tall er delelige med 2 når siste siffer er delelig med 2.

Alle hele tall kan skrives som en sum av enere, tiere, hundrere, tusener, osv. Bortsett fra enerne, er alle disse delelige med 10. Det betyr at summen av et visst antall tiere, hundrere, tusener osv. også er delelig med 10. Tall som er delelige med 10, er også delelige med 2. Når vi så legger 2 til et tall som er delelig med 2, får vi enda et tall som er delelig med 2.

Dette er en uformell variant av beviset for «toerregelen» i tallteori-artikkelen om delelighet.

Eksempel 2:

Vi skal argumentere for at svaret alltid et partall når vi adderer to oddetall.

Vi tenker oss en gruppe med et odde antall personer. Ber vi personene danne par, vil det bli 1 til overs. For eksempel vil en gruppe på 9 personer kunne danne 4 par med 1 til overs, og en gruppe på 13 personer kunne danne 6 par med 1 til overs. Så tenker vi oss en annen gruppe med et odde antall personer. Ber vi personene der danne par, vil det bli 1 til overs der også. Det er altså 1 til overs i hver gruppe, men disse to kan jo også danne et par. Alle personene inngår da i par, og summen er derfor et partall.

Kilder

    • Hinna, K. R. C., Rinvold, R. A., Gustavsen, T. S. (2011). QED 5-10. Høyskoleforlaget.

Hva er bevis?

Et matematisk bevis består av en påstand og en kjede argumenter som ender opp med å slå fast om påstanden er riktig eller uriktig.

Vi tar bare for oss påstander som enten er riktige eller uriktige, såkalte utsagn. Eksempler på slike påstander er «vinkelsummen i en trekant er 180 grader» og «april har 31 dager», som er henholdsvis et sant og et usant utsagn. Påstander som «jordbær er godt» eller «Gerhardsen gjorde en god jobb som statsminister» er subjektive, og vi kan ikke bevise om de er riktige eller uriktige.

Når vi skal formulere en påstand vi skal bevise, må vi passe på å uttrykke oss slik at påstanden ikke kan tolkes på forskjellige måter. Vanlig språk er ofte dårlig egnet til å formulere matematiske påstander fordi dagligtalen er full av unøyaktigheter. Ta for eksempel påstanden «Mellom 20 og 25 finnes tre heltall med to primtallsfaktorer». Betyr «tre heltall» nøyaktig tre heltall eller minst tre heltall? Betyr «to primtallsfaktorer» nøyaktig to primtallsfaktorer, eller minst to primtallsfaktorer? Betyr «mellom 20 og 25» at 20 og 25 regnes med eller ikke?

For å unngå slike uklarheter, er det utviklet en egen matematisk terminolog som er fri for tvetydigheter. For eksempel kan vi uttrykke at «et tall, n, er mellom 20 og 25″ som n ∈ [20, 25], som betyr at 20 og 25 skal telle med, eller n ∈ (20, 25), som betyr at 20 og 25 ikke skal telle med. En påstand som utelukkende er uttrykt gjennom matematiske symboler, kan imidlertid være tung å lese, så på dette nettstedet bruker vi vanlig språk når det ikke kan føre til feiltolkninger. For eksempel uttrykker vi påstanden over som «Det finnes nøyaktig tre heltall, n ∈ [20, 25], som består av nøyaktig to primtallsfaktorer.»

En beviskjede kan være kort eller lang.

Eksempel 1:

Påstand: 4 er et primtall.
Bevis for at påstanden er uriktig: 4 kan faktoriseres som 2 · 2, og er derfor ikke et primtall.

Påstand: Det finnes ingen heltallige, x, y, z, slik at xn + yn = zn når n > 2.
Beviset for denne påstanden er 150 sider langt og tok 7 år å utarbeide. Påstanden sto ubevist i over 350 år.

I eksempel 1 er det er underforstått at vi vet hva et primtall er, og at vi vet at et tall som kan faktoriseres ikke er et primtall. Det vil som regel være slik at vi i et bevis må anta at en del begreper er kjent på forhånd.

Ikke alle påstander kan bevises, og det kan bevises at enkelte påstander ikke kan bevises.

Bevis henger sammen nøye med argumentasjon, en kan si at et bevis er en strukturert form for argumentasjon.

Utgangspunktet for et bevis er ofte ikke at en starter med å ville bevise noe. Det kan være at en oppdager mønstre som en er interessert i å utforske nærmere, og så ender opp med en hypotese som krever et bevis.

 

Sammenlikne datasett

l artikkelen om hypotesetesting lærer vi å lage hypotesetester om avvik i forventede verdier eller binomiske sannsynligheter i et datasett. I denne artikkelen skal vi lage hypotesetester om forskjeller mellom to datasett. Det kan for eksempel være at en ønsker å teste om en ny medisin gir økt virkning, eller om en ny type gjødsel gir økt avling.

Sammenlikne forventning

artikkelen om hypotesetesting baserer vi oss på testobservatoren

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$

som kan skrives som

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \sqrt \frac{\sigma^2}{n}}$

Her er X målt gjennomsnitt, μ0 forventet gjennomsnitt, σ fordelingens standardavvik, og n antall målinger.

Nå skal vi se på to datasett, som vi kaller X og Y. Vi vil da ha to gjennomsnitt, X og Y, to standardavvik, σX og σY, og to tall på antall målinger, nX og nY. I stedet for å bruke gjennomsnittets avvik fra forventet verdi, X − μ0, skal vi bruke forskjellen på gjennomsnittene, XY.

Testobservatoren blir

$\fbox{$Z = \frac{\displaystyle \overline X − \overline Y}{\displaystyle \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}}$}$

Vi skiller på ensidige og tosidige tester. I en ensidig test er den alternative hypotesen at forventningen i det ene settet skiller seg fra forventningen i det andre, HA: μXμY. I en tosidig test er den alternative hypotesen at forventningen i det ene settet er mindre eller større enn forventningen i det andre, HA: μXμY eller HA: μX > μY. I en ensidig test forkaster vi nullhypotesen hvis |Z| > zα, i en tosidig test forkaster vi nullhypotesen hvis |Z| > zα/2.

Eksempel 1:

To maskiner tilsetter sukker i en matvare. Maskin X er oppgitt å ha et standardavvik på 0,11, maskin Y er oppgitt å ha et standardavvik på 0,13. En bedrift ønsker å gjøre en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker. 70 prøver av maskin X gir et snitt på 10,103 gram, 85 prøver av maskin Y et snitt på 10,069 gram.

Vi har altså X = 10,103, Y = 10,069, σX = 0,11, σY = 0,13, nX = 70, nY = 80.

Hypotesene blir HA: μXμY , H0: μXμY .

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}103 − 10{,}069}{\displaystyle \sqrt{\frac{(0{,}11)^2}{70} + \frac{(0{,}13)^2}{85}}} \approx 1{,}7636$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2

Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025.

Vi slår opp i (kvantil)normalfordelingstabellen med α = 0,025, der det står 1,9600. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,025) i Excel eller inversnormalfordeling(0, 1, 1 – 0.025) i GeoGebra.

Siden |Z| ≈ 1,764 $\ngtr$ zα/2 ≈ 1,9600, kan vi ikke forkaste vi nullhypotesen. Undersøkelsen indikerer ikke at det er forskjell på sukkermengdene.

Oppgave 1:

Etter en tid gjør bedriften nye målinger med maskinene i eksempel 1. 60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.

Sett opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene nå tilsetter forskjellig mengde sukker.

Se løsningsforslag

Ukjent standardavvik

Vi arbeider i dette avsnittet med noen eksempler som for oversiktens skyld baseres på svært få målinger. Vi forutsetter da at populasjonene er normalfordelte. 

I artikkelen om estimering og artikkelen om hypotesetesting sier vi at vi ofte ikke kjenner fordelingers standardavvik nøyaktig. Da baserer vi oss på utvalgsstandardavviket, med testobservator

$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

I stedet for å slå opp verdier i normalfordelingstabellen slår vi opp i t-fordelingstabellen.

For å tilpasse observatoren til to grupper, må vi altså erstatte Xμ0 med XY. Men observatoren må også tilpasses to utvalgsstandardavvik.

Det gjør vi ved å erstatte $\frac{\displaystyle S}{\displaystyle \sqrt n}$ med $S_P \sqrt{\frac{\displaystyle 1}{\displaystyle n_X} + \frac{\displaystyle 1}{\displaystyle n_Y}}$, der SP er et felles standardavvik beregnet for de to utvalgene. P-en står for «pooled», «samlet» på norsk.

I artikkelen om måltall i statistikk ser vi at vi beregner utvalgsstandardavviket i et enkelt utvalg som

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$

SP beregnes etter tilsvarende mønster:

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i − \overline X)^2 + \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i − \overline Y)^2 \;}{\displaystyle n_X + n_Y − 2}$}$

Vi ser at det krever mye regnearbeid å beregne SP for hånd. Siden kalkulatorer ofte har funksjoner for å finne standardavviket i et enkelt datasett, skal vi skrive det om litt, slik at vi finner SP uttrykt ved standardavviket til hvert av datasettene, Sx og Sy.

Vi tar utgangspunkt i den generelle formelen for utvalgsstandardavvik:

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1} $

Så multipliserer vi med $\sqrt{n − 1}$ på begge sider av likhetstegnet:

$S \sqrt{n − 1} = \sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}$

Så kvadrerer vi på begge sider av likhetstegnet:

$S^2 (n − 1) = \displaystyle \sum_{i = 1}^n(X_i − \overline X)^2$

Det betyr at vi i formelen for SP kan sette inn ${S_X}^2(n_X − 1)$ i stedet for $\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i − \overline X)^2$ og ${S_Y}^2(n_Y− 1)$ i stedet for $\displaystyle \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i − \overline Y)^2$

$\fbox{$S_P = \sqrt \frac{\displaystyle {S_X}^2(n^{\phantom 1}_X − 1) + {S_Y}^2(n^{\phantom 1}_Y − 1)}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y − 2}$}$

På denne formen er utregningene mye enklere hvis vi har verktøy til å finne SX og SY.

Og observatoren er altså

$\fbox{$T = \frac{\displaystyle \overline X − \overline Y}{\displaystyle S_P \sqrt{\frac{1}{n^{\phantom 1}_X} + \frac{1}{n^{\phantom 1}_Y}}}$}$

artikkelen om hypotesetesting og artikkelen om estimering lærer vi at når vi skal slå opp i en t-fordelingstabell, må vi kjenne antall frihetsgrader, v, som vi setter lik antall observasjoner minus 1, v = n − 1. Nå har vi to sett med observasjoner, og får v = (nX − 1) + (nY − 1) = nX + ny − 2.

I en ensidig test forkaster vi nullhypotesen hvis |T| > zα (v), i en tosidig test forkaster vi nullhypotesen hvis |T| > zα/2 (v).

Eksempel 2:

Et oljeselskap ønsker å teste ut om en ny type tilsetningsstoff i bensin gir redusert forbruk i praksis, og gjør et forsøk med 5 biler. Uten tilsetningsstoff brukere bilene henholdsvis 4,7, 3,5, 3,3, 4,2 og 3,6 liter per 100 kilometer. Med tilsetningsstoff bruker bilene henholdsvis 4,2, 3,2, 3,0, 3,9 og 3,3 liter per 100 kilometer. Vi kaller observasjonene uten tilsetning for X, og observasjonene med tilsetning for Y.

Så skal vi på 5 % signifikansnivå utføre en hypotesetest på om tilsetningsstoffet gir redusert forbruk.

Hypotesene blir HA: μXμY , H0: μX ≤ μY .

Vi har altså nX = nY = 5.

Fra kalkulator eller PC får vi:

X = 3,86

Y = 3,52

SX ≈ 0,5771

SY ≈ 0,5070

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {0{,}5771}^2(5 − 1) + {0{,}5070}^2(5 − 1)}{\displaystyle 5 + 5 − 2} \approx 0{,}5432$

$T \approx \frac{\displaystyle 3{,}86 − 3{,}52}{\displaystyle 0{,}5432 \sqrt{\frac{1}{5} + \frac{1}{5}}} \approx 0{,}9897$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |T| > tα (v)

Med 5 % signifikansnivå blir α = 0,05.

Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 + 5 − 2 = 8 der det står 1,860. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 8) i Excel eller inverstfordeling(8, 1 – 0.05) i GeoGebra.

Siden T ≈ 0,9897 $\ngtr$ tα (v) ≈ 1,860, kan vi ikke forkaste nullhypotesen. Testen gir ikke grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Men som vi skal se i eksempel 3, har vi gjennomført denne testen på en klønete måte.

Oppgave 2:

En fruktbonde har to forskjellige typer kirsebærtrær, og vil undersøke om de gir forskjellig mengde frukt. Han veier frukthøsten fra 13 trær av type X og 12 trær av type Y, og får:

 Type X 44 44 56 46 47 38 58 53 49 35 46 30 41 
 Type Y 35 47 55 29 40 39 32 41 42 57 51 39   

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Se løsningsforslag

Paret test

Hvis vi ser nøyere på dataene i eksempel 2, ser vi at konklusjonen om at tilsetningsstoffet ikke gir lavere forbruk virker underlig. For hver bil har faktisk en markant nedgang i forbruk. Problemet ligger i måten vi beregner det sammenslåtte standardavviket på. Vi undersøker hvor stort avviket fra gjennomsnittet er i hver av de to gruppene, men dette er egentlig helt uinteressant. Det vi burde sett på, var hvor mye hver bils endring i forbruk, XiYi avviker fra gjennomsnittsendringen, XY.

Vi bør altså heller beregne SP som

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n}\big(X_i − Y_i − (\overline X − \overline Y)\big)^2}{\displaystyle n − 1}$}$

Vi opererer her ikke lenger med nX + nY enkeltmålinger, men med n = nX = nY par. (nX må være lik nY, ellers ville vi jo ikke kunne danne par.)

Igjen gir formen på SP en del regnearbeid, men nå gjør vi et triks, og lager et nytt datasett, D som består av differansen i hvert par.

$\fbox{$D_i = X_i − Y_i, \; i \in [1, n] $}$

Testobservatoren blir da:

$\fbox{$T = \frac{\displaystyle \overline D}{\displaystyle S_D \frac{1}{\sqrt n}}$}$

Eksempel 3:

Vi skal gjøre om igjen undersøkelsen fra eksempel 2, men denne gangen som en paret test.

Hypotesene blir som før HA: μXμY , H0: μX ≤ μY .

Vi beregner:

D1 = 4,7 − 4,2 = 0,5
D2 = 3,5 − 3,2 = 0,3
D3 = 3,3 − 3,0 = 0,3
D4 = 4,2 − 3,9 = 0,3
D5 = 3,6 − 3,3 = 0,3

Fra kalkulator eller PC får vi:

D = 0,34

SD ≈ 0,0894

Vi beregner:

$T \approx \frac{\displaystyle 0{,}34}{\displaystyle 0{,}0894 \frac{1}{\sqrt 5}} \approx 8{,}5041$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |T| > tα (v).

Med 5 % signifikansnivå blir α = 0,05.

Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 − 1 = 4, der det står 2,132. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 4) i Excel eller inverstfordeling(4, 1 – 0.05) i GeoGebra.

Siden T ≈ 8,5041 > tα (v) ≈ 2,132, kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Oppgave 3:

En lege ønsker å undersøke om en medisin, som en bieffekt, reduserer blodtrykket. Han måler blodtrykket til 15 pasienter før og etter de begynner å ta medisinen, og får følgende resultat

 Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84 
 Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om medisinen reduserer blodtrykket.

Se løsningsforslag

Sammenlikne forventning i Excel og GeoGebra

Excel har en egen funksjon for å gjøre hypotestetester om forskjeller mellom to datasett, t.test. Brukeren må angi hvilke celleområder de to datasettene ligger i, om det er en ensidig eller tosidig test, og om testen skal gjøres paret eller uparet. t.test beregner P-verdi. Er P-verdien mindre enn testens signifikansnivå, kan nullhypotesen forkastes.

Regnearket under har to ark. Ett for uparet test og ett for paret test.

RegnearkLast ned regneark med beregninger fra eksempel 2 og 3 og bruk av «t.test»
 

Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, har også funksjonalitet for hypotesetester om forskjeller.

Sammenlikne binomiske sannsynligheter

I  artikkelen om hypotesetesting introduserer vi testobservatoren

$Z = \frac{\displaystyle \hat p − p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$

for binomiske sannsynligheter. Her er $\hat p$ estimert sannsynlighet basert på X suksesser i n forsøk, $\hat p = \frac{\displaystyle X}{\displaystyle n}$, og p0 er sannsynligheten i nullhypotesen.

For å teste hypoteser om forskjeller mellom sannsynligheter i to datasett bruker vi testobservatoren.

$\fbox{$Z = \frac{\displaystyle \hat p_1 − \hat p_2}{\displaystyle \sqrt{\hat p(1 − \hat p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})}}$}$

Her er

$\hat p_1 = \frac{\displaystyle X_1}{\displaystyle n_1}$ estimert sannsynlighet i datasett 1.

$\hat p_2 = \frac{\displaystyle X_2}{\displaystyle n_2}$ estimert sannsynlighet i datasett 2.

$\hat p = \frac{\displaystyle X_1 + X_2}{\displaystyle n_1 + n_2}$ estimert sannsynlighet i begge datasettene samlet.

Dersom n1 og n2 er store nok, vil Z være tilnærmet standard normalfordelt. Som en tommelfingerregel for hva som menes med store nok, bør $n \hat p \ge 5$ og $n(1 − \hat p) \ge 5$ i begge datasettene.

Eksempel 4:

En bedrift produserer PC-skjermer ved to forskjellige anlegg. Noen skjermer er defekte, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekte skjermer ved de to anleggene. 200 skjermer undersøkes på hvert anlegg. På anlegg 1 er 17 defekte, på anlegg 2 er 31 defekte. Vi kaller sannsynligheten for defekte ved anlegg 1 for p1 og sannsynligheten for defekte ved anlegg 2 for p2, og skal teste følgende hypotese på 5 % signifikansnivå:

HA: p1p2 mot H0: p1p2.

Vi har n1n2 = 200, X1 = 17, X2 = 31.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 17}{\displaystyle 200} = 0{,}0850$

$\hat p_2 = \frac{\displaystyle 31}{\displaystyle 200} = 0{,}1550$

$\hat p = \frac{\displaystyle 17 + 33}{\displaystyle 200 + 200} = 0{,}1200$

Og vi får

$Z = \frac{\displaystyle 0{,}0850 − 0{,}1550}{\displaystyle \sqrt{0{,}1200(1 − 0{,}1200)(\frac{\displaystyle 1}{\displaystyle 200} + \frac{\displaystyle 1}{\displaystyle 200})}} \approx −2{,}154$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2

Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025.

I (kvantil)normalfordelingstabellen finner vi at z0,025 ≈ 1,9600. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,025) i Excel eller inversnormalfordeling(0, 1, 1 – 0.025) i GeoGebra.

Siden |Z| ≈ 2,154 > zα/2 ≈ 1,9600, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i sannsynligheten for defekt på de to anleggene.

Oppgave 4:

En bedrift produserer bukser ved to forskjellige produksjonslinjer. En del av buksene har defekte sømmer, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekter ved de to linjene. Ved første produksjonslinje er 147 av 2500 defekte, ved andre er 151 av 2000 defekte. Sett opp og test en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene. Bruk 5 % signifikansnivå.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
    • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.

Samvariasjon

I statistikk er vi ofte interessert i å sammenlikne datasett. Vi kan for eksempel lure på om det er noen sammenheng mellom gjennomsnittstemperatur og høyden på en type blomster.

Korrelasjonskoeffisient

Et praktisk mål for å vurdere om det er sammenheng mellom to sett variabler er korrelasjonskoeffisienten. Korrelasjonskoeffisienten måler i hvor stor grad verdiene i to datasett samvarierer, og er et tall mellom 1 og −1. 1 betyr fullstendig samvariasjon, for eksempel at høyden på en type blomster øker proporsjonalt med temperaturen, −1 betyr fullstendig omvendt samvariasjon, for eksempel at høyden på en type blomster synker proporsjonalt med temperaturen. 0 betyr at det ikke kan påvises noen samvariasjon. Mellom disse ytterpunktene er alle tall mulige. For eksempel vil 0,1 bety en svak samvariasjon, mens 0,9 betyr en sterk samvariasjon.

Hvis vi lager et plott av verdiene, vil data med fullstendig samvariasjon ligge på ei rett linje. Verdier uten samvariasjon vil ligge spredt tilfeldig utover.

Eksempel 1:

Høyde og vekt for 10 kvinnelige toppidrettsutøvere er gitt i tabellen under:

 Høyde (cm) 164 167 170 171 166 169 168 171 168 168
 Vekt (kg) 51 56 51 62 54 56 56 59 57 54

Korrelasjonskoeffisienten for disse dataene er ca. 0,626. Som vi kan forvente, har vi en positiv samvariasjon. Men den er ikke fullstendig, det vil vi sjelden finne i virkeligheten. Et plott av dataene er vist under, med høyde langs x-aksen og vekt langs y-aksen.
Illustrasjon av korrelasjonskoeffisient 0,626

Vi ser at det er et tydelig mønster i at større høyde henger sammen med større vekt, men samtidig er det avvik. Personen på 170 centimeter er for eksempel uvanlig lett i forhold til høyden.

Eksempel 2:

Vi manipulerer vektene i eksempel 1, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52,5 53,4 54,4 54,7 53,1 54,1 53,7 54,6 53,8 53,8

Nå har vi nesten perfekt samvariasjon, korrelasjonskoeffisienten er ca. 0,998. Lager vi et plott av dataene, ser vi at de ligger nesten fullstendig på linje.

Illustrasjon av korrelasjonskoeffisient 0,996

Eksempel 3:

Vi manipulerer vektene i eksempel 1 en gang til, slik at de blir som vist i tabellen under:

 Høyde (cm) 164 167 170 171 166 169 168 171 168 168
 Vekt (kg) 52 54 51 50 53 58 57 56 59 60

Nå har vi ingen samvariasjon, korrelasjonskoeffisienten er 0,000. Lager vi et plott av dataene, ser vi at de ligger spredt utover uten noe mønster:

Illustrasjon av korrelasjonskoeffisient 0,000

Korrelasjonskoeffisienten baserer seg på i hvilken grad avvik fra gjennomsnittet stemmer overens i de to datasettene. Positive bidrag til korrelasjonskoeffisienten vil vi for eksempel få hvis en høyde langt over gjennomsnittet korresponderer med en vekt langt over gjennomsnittet, en høyde litt over gjennomsnittet korresponderer med en vekt litt over gjennomsnittet, en høyde litt under gjennomsnittet med en vekt litt under gjennomsnittet, og så videre.

Kovarians

I artikkelen om måltall i statistikk lærer vi å beregne gjennomsnitt, X, og standardavvik. For å beregne standardavvik starter vi med å beregne kvadratavstanden mellom verdiene i datasettet og gjennomsnittet: (XiX)2.

Nå har vi to datasett, vi kaller det ene X og det andre Y. Produktet av avstandene mellom en verdi og gjennomsnittet i hvert av settene, (XiX)(YiY), vil gi et mål på i hvilken grad korresponderende verdier samvarierer. Hvis både (XiX) og (YiY) ligger mye over gjennomsnittet, vil vi produktet bli et stort, positivt tall. Det samme vil skje hvis begge verdiene ligger mye under gjennomsnittet. Vi får da et produkt av to store negative tall, noe som blir et stort positivt tall. Verdier nær gjennomsnittet vil gi små tall. Dersom den ene verdien ligger over og den andre under gjennomsnittet, vil produktet bli et negativt tall.

Når vi beregner summen av alle slike produkter og dividerer på 1 mindre enn antall produkter, n − 1, får vi kovariansen mellom settene.

$\fbox{$Cov(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\displaystyle n − 1}$}$

Strengt tatt er det utvalgskovariansen vi beregner. Det finnes også en populasjonskovarians, der vi dividerer med n i stedet for n − 1, på samme måte som det finnes utvalgsstandardavvik og populasjonsstandardavvik, slik det beskrives i artikkelen om måltall i statistikk. For korrelasjonskoeffisienten spiller det imidlertid ingen rolle hvilken kovarians vi bruker.

Kovarians er, på samme måte som korrelasjonskoeffisient, et mål på samvariasjonen i to datasett, men er beheftet med noen ulemper. Ett problem er at kovariansen vil ha en enhet som er avhengig av enhetene i datasettene. I eksempel 1 vil enheten bli cm · kg. Et annet problem er at størrelsen på kovariansen avhenger av størrelsen på dataene. Hvis vi for eksempel får en kovarians på 100, må vi undersøke dataene for å avgjøre om denne tyder på høy eller lav samvariasjon.

Vi gjør derfor en normering ved å dividere kovariansen på produktet av standardavvikene i datasettene vi sammenlikner. Da blir vi kvitt enheten, og får en standardisert tallverdi som varierer mellom −1 og 1. Dette er korrelasjonskoeffisienten, R:

$\fbox{$R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle S^{\phantom 1}_X S^{\phantom 1}_Y}$}$

Skriver vi ut detaljene i formlene for kovarians og standardavvik, får vi 

$R(X, Y) = \frac{\frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\displaystyle {n − 1}^{\phantom 1}}}{\sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle {n − 1}^{\phantom 1}}\sqrt \frac{\displaystyle \sum_{i = 1}^n(Y_i − \overline Y)^2}{\displaystyle {n − 1}^{\phantom 1}}^{\phantom 1}}$

Nevnerne i delbrøkene under hovedbrøkstreken kan skrives som $\sqrt{n − 1} \cdot \sqrt{n − 1 } = n − 1$, så $n − 1$ kan forkortes i hovedbrøken, og vi får uttrykket

$\fbox{$R(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2\displaystyle \sum_{i = 1}^n(Y_i − \overline Y)^2 \;}}$}$

I noen kilder brukes den greske bokstaven ρ i stedet for R som symbol for korrelasjonskoeffisienten.

Eksempel 4:

Vi skal beregne korrelasjonskoeffisienten i eksempel 1. Vi viser ikke utregningen av gjennomsnitt og standardavvik i hvert av datasettene, hvordan vi gjør slike utregninger, vises i artikkelen om måltall i statistikk.

Vi kaller datasettet med høyder X og datasettet med vekt Y. Gjennomsnittene blir X = 168,2 og Y= 55,6, utvalgsstandardavvikene blir SX ≈ 2,201 og SY ≈ 3,373.

Summen av produktene av avstandene mellom verdi og gjennomsnitt i settene er:

(164 − 168,2)(51 − 55,6) + (167 − 168,2)(56 − 55,6) + (170 − 168,2)(51 − 55,6)
+ (171 − 168,2)(62 − 55,6) + (166 − 168,2)(54 − 55,6) + (169 − 168,2)(56 − 55,6)
+ (168 − 168,2)(56 − 55,6) + (171 − 168,2)(59 − 55,6) + (168 − 168,2)(57 − 55,6)
+ (168 − 168,2)(54 − 55,6) = 41,8

Kovariansen blir $Cov(X, Y) = \frac{\displaystyle 41{,}8}{\displaystyle 10-1} ≈ 4{,}64$.

Korrelasjonskoeffisienten blir $R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle S_X S_Y} \approx \frac{\displaystyle 4{,}64}{\displaystyle 2{,}201 \cdot 3{,}373} \approx 0{,}63$.

Oppgave 1:

To datasett med 4 korresponderende verdier er vist i tabellen under:

X1 = 242 X2 = 266 X3 = 218 X4 = 234
Y1 = 363 Y2 = 399 Y3 = 327 Y4 = 351

Beregn

  1. Gjennomsnittet i hvert av settene, X og Y
     
  2. Utvalgsstandardavviket i hvert av settene, SX og SY
     
  3. Kovariansen mellom settene, Cov(X, Y)
     
  4. Korrelasjonskoeffisienten mellom settene, R(X, Y)

Gi en tolkning av korrelasjonskoeffisienten.

Se løsningsforslag

Kovarians og korrelasjon i Excel og GeoGebra

Det er sjelden vi regner ut kovarians og korrelasjonskoeffisient manuelt. På litt avanserte kalkulatorer legger vi bare inn dataene, og så gjør kalkulatoren resten av jobben. I Excel bruker vi funksjonen kovarians.s til å beregne utvalgskovarians, kovarians.p til å beregne populasjonskovarians, og korrelasjon til å beregne korrelasjonskoeffisienten. I GeoGebra finnes ingen funksjon for å beregne utvalgskovarians, men funksjonen kovarians beregner populasjonskovarians og korrelasjonskoeffisient beregner korrelasjonskoeffisient.

RegnearkLast ned regneark med beregning av kovarians og korrelasjon på dataene fra eksempel 1

 
SkjermfilmSe filmen «Samvariasjon» (NB! I filmen brukes populasjonskovarians.)

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Hypotesetesting

I eksempel 9 i artikkelen om estimering lager vi konfidensintervaller for sannsynligheten for å få kron når vi kaster en mistenkelig mynt 50 ganger og får 33 kron. Vi ser at et 95 % konfidensintervall ikke inkluderer sannsynligheten til en rettferdig mynt, som er 0,5. Det er derfor en plausibel hypotese at mynten er jukset med, slik at den gir flere kron enn mynt. I denne artikkelen skal vi lære å stille opp og teste slike hypoteser.

Teste sannsynligheter

Eksempel 1:

Vi ønsker å teste en hypotese om at en mynt gir for mange kron når vi får 33 kron i 50 kast. Vi kan aldri bekrefte eller avsanne en slik hypotese, siden myntkast er et stokastisk forsøk som styres av tilfeldigheter, men vi kan med en viss sannsynlighet anslå om den er riktig eller ikke. La oss si at vi ønsker å akseptere hypotesen hvis det er mindre enn 5 % sannsynlighet for at en rettferdig mynt gir 33 eller flere kron i 50 kast.

Vi har her en binomisk sannsynlighetsfordeling. Hvis mynten er rettferdig, er sannsynligheten for kron p = 0,5, og vi kan forvente å få μ = np = 50 · 0,5 = 25 kron. Variansen til fordelingen er σ2 = np(1 − p) = 50 · 0,5(1 − 0,5) = 12,5. Som vi ser i artikkelen om sentralgrenseteoremet, kan vi tilnærme fordelingen med en normalfordeling, N(μ, σ2) = N(25, 12,5).

Hvis vi får X kron i 50 kast, er sannsynligheten for dette mindre jo lengre X ligger over 25, det vil si jo lengre X ligger til høyre for toppen av normalfordelingskurven. Sagt på en annen måte, blir arealet under normalfordelingskurven til venstre for X større og større, og arealet til høyre mindre og mindre. Det vi ønsker å finne ut, er om 33 kron havner til høyre for verdien i normalfordelingen som har 95 % av arealet til venstre for seg og 5 % av arealet til høyre.

I en standard normalfordeling finner vi denne verdien ved å slå opp 0,05 i (kvantil)normalfordelingstabellen, der det står 1,6449. Alternativt kan vi finne verdien ved å skrive =norm.s.inv(1 – 0,05) i Excel eller inversnormalfordeling(0, 1, 1 – 0.05) i GeoGebra.

For å finne ut om X = 33 tilsvarer en verdi til venstre eller høyre for 1,6449 i en standard normalfordeling, gjør vi en standardisering av X, slik det beskrives i artikkelen om normalfordelingen. Vi subtraherer forventningsverdien fra resultatet og dividerer på fordelingens standardavvik.

Vi får $Z = \frac{\displaystyle 33 – 25}{\displaystyle \sqrt{12{,}5}} \approx 2{,}263$. Siden dette er til høyre for 1,6449, kan vi konkludere med at det er mindre enn 5 % sannsynlig å få 33 kron med en rettferdig mynt, og vi aksepterer hypotesen om at mynten gir for mange kron.

Situasjonen er illustrert i figuren under.

Illustrasjon av sannsynlighetsfordelinger av antall kron ved 50 myntkast

Formelt sett i hypotesetesting starter vi med å sette opp en alternativ hypotese og en nullhypotese. Den alternative hypotesen består av det vi skal teste, og skrives som HA. I eksempel 1 er den alternative hypotesen HA: p > 0,5, der p er sannsynligheten for å få kron. Nullhypotesen skrives som H0, og består av det motsatte alternativet. I eksempel 1 er nullhypotesen H0: p = 0,5. Det er ofte lettest å sette opp den alternative hypotesen først.

Så trenger vi en testobservator, som er variabelen vi bruker i testen. I eksempel 1 var observatoren X, som representerte antall kron.

Til slutt må vi bestemme oss for et forkastningsområde for testen. Forkastningsområdet er slik at hvis testobservatoren havner i området, skal nullhypotesen forkastes, og vi aksepterer derved den alternative hypotesen. I eksempel 1 tilsvarte forkastningsområdet det gule feltet i figuren over.

Sannsynligheten for at observatoren havner i forkastningsområdet kalles testens signifikansnivå, og betegnes ofte med α. I eksempel 1 var signifikansnivået α = 0,05. Merk at størrelsen på forkastningsområdet er beregnet ut fra forutsetningen om at nullhypotesen er sann. Grensen for forkastningsområdet i normalfordelingen kaller vi zα. I eksempel 1 var zα = z0,05 ≈ 1,6449.

I eksempel 1 brukte vi observatoren X, som var antall kron, deretter normaliserte vi resultatet slik at vi kunne bruke standard normalfordeling til å bestemme forkastningsområdet. Det kan imidlertid være praktisk å ha en observator som er ferdig standardisert. Hvis X ~ N(μ, σ2), setter vi $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, der μ er fordelingens forventning og σ fordelingens standardavvik.

I en binomisk fordeling har vi at μ = np og σ2 = np(1 − p), så vi setter

$Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Her er p0 sannsynligheten i nullhypotesen, og n antall forsøk. I eksempel 1 var dette henholdsvis 0,5 og 50.

Eksempel 2:

Vi kaster en mynt 1000 ganger, får 524 kron, og ønsker å teste en hypotese om at mynten gir for mange kron, med signifikansnivå 5 %.

Hvis mynten gir for mange kron, betyr det at sannsynligheten for kron er større enn 0,5, så den alternative hypotesen og nullhypotesen blir

HA: p > 0,5, H0: p = 0,5

Antall observasjoner er X = 524, antall forsøk er n = 1000, så testobservatoren blir

$Z = \frac{\displaystyle 524 – 1000 \cdot 0{,}5}{\displaystyle \sqrt{1000 \cdot 0{,}5(1 – 0{,}5)}} \approx 1{,}5179$

zα = z0,05 ≈ 1,6449, som i eksempel 1.

Siden Z ≈ 1,5179 $\ngtr$ zα ≈ 1,6449, kan ikke nullhypotesen forkastes på signifikansnivå 5 %. Det er altså ikke grunnlag for å hevde at mynten gir for mange kron.

Oppgave 1:

Vi kaster en terning 100 ganger og får 20 seksere. Sett opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og test hypotesen med et signifikansnivå på 5 %.

Se løsningsforslag

Oppgave 2:

Vi kaster terningen fra oppgave 1 000 ganger og får 200 seksere. Test hypotesen fra oppgave 1 på nytt med de nye dataene, men med samme signifikansnivå. Sammenlikn med resultatet fra oppgave 1.

Se løsningsforslag

Når vi arbeider med binomiske sannsynligheter, er X er det samme som $n \hat p$, der n er antall forsøk og $\hat p$ den estimerte sannsynligheten for suksess i forsøket. Vi kan altså skrive testobservatoren som

$Z = \frac{\displaystyle n \hat p – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}}$

Forkorter vi med n, får vi

$Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$

som vi kan bruke hvis vi baserer oss på den estimerte sannsynligheten for suksess i stedet for antall oppnådde suksesser.

Vi oppsummerer:

$\fbox{$\begin{align} &\text{Testobservator for binomisk sannsynlighet: }\\
&Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}} \\
&\text{eller} \\
&Z = \frac{\displaystyle \hat p – p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}} \\
&\text{Sammenliknes med } z_\alpha \end{align}$}$

Vi forutsetter at vi har gjort om lag 30 forsøk eller mer.

Teste forventning

I artikkelen om estimering beregner vi grensene for et konfidensintervall basert på forventning og standardavvik. Vi kan på samme måte benytte dette i en hypotesetest. I stedet for å basere testobservatoren på antall suksesser eller estimert sannsynlighet for suksess, baserer vi den på gjennomsnitt og standardavvik: 

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$.

Her er X observert gjennomsnitt, μ0 forventning, σ standardavviket i modellen, og n antall observasjoner. Generelt bør vi ha minst 30 observasjoner, men vi kan fire på dette kravet hvis vi arbeider med en normalfordelt populasjon.

Eksempel 3:

En maskin som produserer dressing, skal i gjennomsnitt tilsette 10 ml olje pr. pakke. Mengden olje er normalfordelt med et standardavvik på σ = 0,65 ml. 

Det er mistanke om at maskinen er feiljustert og tilsetter for mye olje, så bedriften måler oljeinnholdet i 20 pakker, og finner et gjennomsnitt på 10,5 ml.

De ønsker så å teste en hypotese om at oljeinnholdet er høyere enn forventningen på μ0 = 10 ml, med et signifikansnivå på 1 %.

Hypotesene blir HA: μ > 10, H0: μ = 10.

Vi har X = 10,5, og σ = 0,65.

Så testobservatoren blir

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}5 – 10}{\displaystyle \frac{0{,}65}{\sqrt{20}}} \approx 3{,}44$.

Fra (kvantil)normalfordelingstabellen finner vi at zα = z0,01 ≈ 2,3263. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,01) i Excel eller inversnormalfordeling(0, 1, 1 – 0.01) i GeoGebra.

Siden Z ≈ 3,44 > zα ≈ 2,3263, forkaster vi nullhypotesen, og aksepterer den alternative hypotesen om at maskinen i gjennomsnitt tilsetter mer enn 10 ml olje.

Oppgave 3:

Etter å ha justert maskinen i eksempel 3, måles gjennomsnittsoljeinnholdet i 25 pakker til 10,3 ml. Sett opp og gjennomfør en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet fremdeles er høyere enn 10 ml.

Se løsningsforslag

Nullhypotesene vi har operert med så langt, har bestått i at forventningen har en bestemt verdi, for eksempel H0: μ = 10 i eksempel 3. Men i mange tilfeller vil det være mer realistisk med en nullhypotese som hevder at forventningen er mindre eller lik en bestemt verdi, for eksempel at en fabrikant påstår at fettinnholdet i deres kjøttdeig i gjennomsnitt er maksimalt 10 gram, noe som vil gi H0: μ ≤ 10 som nullhypotese. Dette påvirker imidlertid ikke resultatet av hypotesetesten, fordi kriteriet for å forkaste nullhypotesen er det samme, og den alternative hypotesen er den samme.

Eksempel 4:

En produsent hevder at deres syltetøy i gjennomsnitt inneholder maksimalt 20 gram sukker per 100 gram syltetøy. Skal vi sette opp en hypotesetest om at syltetøyet inneholder mer sukker, blir den alternative hypotesen HA: μ > 20, og nullhypotesen H0: μ ≤ 20.

Ukjent standardavvik

Som vi ser i artikkelen om estimering, kjenner vi ofte ikke standardavviket i en populasjon. Da tilnærmer vi med utvalgsstandardavviket, men innfører da også en usikkerhet. I artikkelen om estimering ser vi da at vi skifter ut normalfordelingen med t-fordeling, noe som fører til at konfidensintervallet blir bredere.

Dersom vi i en hypotesetest ikke kjenner populasjonens standardavvik, tilnærmer vi på samme måte med utvalgsstandardavviket, og skifter fra normalfordeling til t-fordeling, med antall frihetsgrader lik antall observasjoner minus 1. t-kurvene blir bredere jo færre frihetsgrader vi har, noe som betyr at forkastningsområdet i en hypotesetest beveger seg bort fra gjennomsnittet. Med andre ord blir det vanskeligere blir å forkaste, jo færre observasjoner vi har,

Testobservatoren blir omtrent den samme som når standardavviket er kjent, men vi kaller den T i stedet for Z, og bruker S i stedet for σ:

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

For å finne grensen for forkastningsområdet bruker vi (kvantil)t-fordelingstabellen i stedet for normalfordelingstabellen.

Eksempel 5:

På en planteskole oppdager de at 15 planter som ved et uhell er satt i feil type jord, later til å ha blitt høyere enn normalt. Høyden på denne plantetypen har i vanlig jord vært normalfordelt med et gjennomsnitt på 30,2 cm. Gjennomsnittshøyden på plantene i feil jord måles til 31,2 cm, med et standardavvik på 2,3 cm. Nå ønsker planteskolen å gjennomføre en hypotesetest på signifikansnivå 5 % for å se om den andre typen jord øker gjennomsnittshøyden til plantene.

Hypotesene blir HA: μ > 30,2, H0: μ = 30,2.

Vi har X = 31,2 og S = 2,3.

Fordi σ er ukjent, må vi bruke t-fordeling med a = α = 0,05 og v = 15 − 1 = 14 for å finne grensen til forkastningsområdet. Vi slår opp i (kvantil) t-fordelingstabellen og får t0,05 (14) ≈ 1,761. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 14) i Excel eller inverstfordeling(14, 1 – 0.05) i GeoGebra.

Testobservatoren blir

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 31{,}2 – 30{,}2}{\displaystyle \frac{2{,}3}{\sqrt{15}}} \approx 1{,}68$.

Siden T ≈ 1,68 $\ngtr$ t0,05 (14) ≈ 1,761, kan vi ikke forkaste nullhypotesen, og har på 5 % signifikansnivå ikke grunnlag for å si at den andre typen jord øker gjennomsnittshøyden til plantene.

Hadde vi i stedet for t-fordelingstabellen brukt normalfordelingstabellen, ville grensa til forkastningsområdet blitt z0,05 ≈ 1,6449, og siden T ≈ 1,68 > z0,05 ≈ 1,6449, ville vi forkastet nullhypotesen og akseptert at den nye typen jord økte gjennomsnittshøyden til plantene. En feil som oppsto på grunn av at vi da ikke tok hensyn til den økte usikkerheten estimeringen av standardavviket førte med seg.

Oppgave 4:

Ventetiden på å få svar på en servicetelefon er normalfordelt, med en gjennomsnittlig ventetid oppgitt til 30 sekunder. En internkontroll med 15 oppringninger på tilfeldige tidspunkter viser en gjennomsnittlig ventetid på 37 sekunder, med et standardavvik på 14 sekunder. Sett opp og gjennomfør en hypotesetest på signifikansnivå 5 % på om oppgitt gjennomsnittlig ventetid er for lav.

Se løsningsforslag

Vi oppsummerer:

$\fbox{$\begin{align}& \text{Testobservator for forventning: }\\
\\
&\sigma \text{ kjent:} \\
&Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} \\
&\text{ } \\
&\sigma \text{ ukjent:} \\
&T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} \\
&\text{ } \\
&Z \text{ sammenliknes med } z_{\large \alpha} \text{ og } T \text{ med } t_{\large \alpha \, (n – 1)} \end{align}$}$

Dersom vi har om lag 30 målinger eller mer, kan vi bruke normalfordeling i stedet for t-fordeling, siden de to fordelingene da er omtrent like.

Venstresidige og tosidige tester

I alle eksemplene og oppgavene vi har arbeidet med så langt, har den alternative hypoteser vært at forventningen ligger over en gitt verdi, HA: μ > x. Forkastningsområdet for nullhypotesen har da ligget til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til høyre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z > zα eller T > tα (v). Men selvfølgelig er det like aktuelt å teste det motsatte, at forventningen ligger under en gitt verdi, HA: μ < x. Forkastningsområdet for nullhypotesen vil da ligge til venstre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde til venstre under fordelingskurve.

Vi forkaster nullhypotesen hvis Z < −zα eller T < −tα (v).

Eksempel 6:

I et oppdrettsanlegg mistenker de at laksen har mindre enn forventet vekt, som er 4,5 kg. De fanger 29 fisk og måler at gjennomsnittsvekten er X = 4,24 kg, med et standardavvik på S = 0,71 kg. Så vil de gjennomføre en hypotesetest med signifikansnivå på 5 % på om laksen har mindre enn forventet vekt.

Hypotesene blir HA: μ < 4,5, H0: μ = 4,5.

Vi bruker t-fordeling med 29 – 1 = 28 frihetsgrader.

Testobservatoren blir

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 4{,}24 – 4{,}5}{\displaystyle \frac{0{,}71}{\sqrt 29}} \approx -1{,}972$.

Grenseverdien for forkastningsområdet blir −t0,05 (28) ≈ −1,701.

Siden T ≈ −1,972 < –t0,05 (28) ≈ −1,701, forkaster vi nullhypotesen, og aksepterer hypotesen om at laksen har mindre enn forventet vekt.

Oppgave 5:

En produsent hevder at syltetøyet deres i gjennomsnitt inneholder minst 50 % bær. Mattilsynet mistenker at bærinnholdet er lavere, måler innholdet i 30 glass syltetøy, og finner et gjennomsnitt på 47,7 %, med et standardavvik på 5,7 %. Sett opp og gjennomfør hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder for lite bær.

Se løsningsforslag

Tester på om forventningen ligger over en gitt verdi, eller under en gitt verdi, kalles ensidige tester. Vi har sett at de alternative hypotesene i disse tilfellene er HA: μ > x for en høyresidig test, og HA: μx for en venstresidig test.

Men det kan også være aktuelt å teste om forventningen er ulik en gitt verdi. Det kalles en tosidig test, og den alternative hypotesen blir HA: μx. Forkastningsområdet for nullhypotesen vil da fordele seg på to sider, med den ene halvparten til venstre, og den andre halvparten til høyre under normal- eller t-fordelingskurven:

Illustrasjon av forkastningsområde på begge sider under fordelingskurve.

Vi forkaster nullhypotesen hvis |Z| > zα/2 eller |T| > tα/2 (v).

Vi legger merke til at grensen for forkastningsområdet nå beregnes basert på α/2 i stedet for α. Det er fordi hvert av forkastningsområdene nå er halvparten så store som i en ensidig test.

Eksempel 7:

En maskin fyller tomatbønner på boks. Brutto fyllvekt oppgis å være normalfordelt med et gjennomsnitt på 425 gram og et standardavvik på 5 gram. Etter en overhaling gjennomføres en sjekk på 20 bokser, som i snitt viser seg å inneholde 427 gram. Det skal så gjøres en hypotesetest på 5 % signifikansnivå på om mengden bønner i boksene er korrekt.

Hypotesene blir HA: μ ≠ 425, H0: μ = 425.

Testobservatoren blir

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 427 – 425}{\displaystyle \frac{5}{\sqrt 20}} \approx 1{,}789$.

Grenseverdien for forkastningsområdet blir z0,05/2 = z0,025 ≈ 1,960.

Siden |Z| ≈ 1,789 $\ngtr$ z0,025 ≈ 1,960, kan vi ikke forkaste nullhypotesen om at vekten er korrekt.

Oppgave 6:

Mengden sukker en maskin tilsetter i en kakemiks, er oppgitt å være normalfordelt med et gjennomsnitt på 83 gram. En bedrift tar 15 stikkprøver, og finner ut at gjennomsnittlig mengde sukker er 82,5 gram, med et standardavvik på 0,6 gram. Sett opp og gjennomfør en hypotesetest på signifikansnivå 1 % på om sukkermengden er korrekt.

Se løsningsforslag

Hypotesetesting i Excel og GeoGebra

Excel har en funksjon for hypotesetesting, z.test, som returnerer en såkalt P-verdi. P-verdien er, gitt at nullhypotesen er sann, sannsynligheten for et resultat som er likt med eller mer ekstremt enn det observerte. Definisjonen er tung, men bruken enkel: Hvis P-verdien er lavere enn testens signifikansnivå, kan nullhypotesen forkastes. Denne funksjonen er imidlertid litt klumpete i bruk, så vi går ikke nærmere inn på den. Den krever at alle testdata listes opp, det er ikke nok å angi et gjennomsnitt, og den er dessuten låst til høyresidige tester, så for venstresidige eller dobbeltsidige tester må det gjøres noe regnearbeid i tillegg. Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, er imidlertid både enkel og fleksibel å bruke til slike tester.

Feil og teststyrke

Vi kan, som nevnt innledningsvis, aldri avsanne eller bekrefte en hypotese med en hypotesetest, bare med en viss sannsynlighet anslå om den er riktig eller ikke. Det betyr at vi i en hypotesetest kan komme til å trekke feil konklusjon. Det er to feil vi kan gjøre:

  1. Forkaste nullhypotesen selv om den er sann. Dette kalles forkastningsfeil, eller type 1 feil.
     
  2. Beholde nullhypotesen selv om den er usann. Dette kalles godtakingsfeil, eller type 2 feil.

Feiltypene refererer altså til nullhypotesen, ikke den alternative hypotesen.

Som vi har sett, forkaster vi nullhypotesen hvis testobservatoren havner i forkastningsområdet. Grensen for forkastningsområdet beregnes ut fra en antakelse om at nullhypotesen er sann.

Eksempel 8:

Vi mistenker at en mynt gir for mange kron. Nullhypotesen er at mynten er rettferdig, med 50 % sjanse for kron: H0: p = 0,5. Den alternative hypotesen er at mynten gir for mange kron: HA: p > 0,5.

I eksempel 2 så vi at 524 kron i 1000 kast ikke var nok til å forkaste nullhypotesen med et signifikansnivå på 5 %. Men hvor går egentlig grensen for forkastningsområdet?

I eksempel 2 så vi at z ≈ 1,6449 dannet grensen i en standard normalfordeling. For å finne ut hvilken x i den opprinnelige fordelingen som tilsvarer denne verdien, bruker vi standardiseringsformelen $z = \frac{\displaystyle x – np}{\displaystyle \sqrt{np(1 – p)}}$ baklengs:

$z = 1{,}6449$
$\Downarrow$
$\frac{\displaystyle x – 0{,}5 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}5(1-0{,}5)}} = 1{,}6449$
$\Downarrow$
$x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}5(1-0{,}5)} + 0{,}5 \cdot 1000 \approx 526$

Grensen for forkastningsområdet går altså på om lag 526 kron.

Men hva om det i eksempel 8 også var mulig at mynten ga for få kron? Da ville vi ikke lenger ha noen fast p å regne med når vi skulle beregne grensen for forkastningsområdet.

Hvis p var 0,49, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}49(1-0{,}49)} + 0{,}49 \cdot 1000 \approx 516$.

Hvis p var 0,48, ville vi få $x = 1{,}6449 \cdot \sqrt{1000 \cdot 0{,}48(1-0{,}48)} + 0{,}48 \cdot 1000 \approx 505$.

Jo lavere p, jo lenger mot venstre kryper 5 %-grensa. Sagt på en annen måte, blir sannsynligheten for å få 526 kron eller mer lavere og lavere, jo lavere p er. Det betyr at sannsynligheten for å feilaktig forkaste nullhypotesen også blir lavere og lavere, jo lavere p er. Så den maksimale sannsynligheten for å feilaktig forkaste nullhypotesen er når p = 0,5. I det verst tenkelige tilfelle er altså sannsynligheten for å gjøre en forkastningsfeil den samme som testens signifikansnivå.

Hvis den alternative hypotesen er sann, er det ikke mulig å gjøre forkastningsfeil, for da er det jo riktig å forkaste nullhypotesen. Men vi kan gjøre en godtakingsfeil, som er det motsatte, godta nullhypotesen selv om den skulle vært forkastet.

Eksempel 9:

Hvis mynten fra eksempel 8 faktisk gir for mange kron, det vil si at p > 0,5, gjør vi en godtakingsfeil hvis vi godtar nullhypotesen om at mynten ikke gir for mange kron. Hvor sannsynlig dette er, avhenger av hva verdien til p faktisk er.

Vi godtar altså nullhypotesen hvis vi får færre enn 526 kron.

Er p = 0,51, er sannsynligheten for å få færre enn 526 kron

$G(\frac{\displaystyle 526 – 0{,}51 \cdot 1000}{\displaystyle \sqrt{1000 \cdot 0{,}51(1-0{,}51)}}) \approx G(1{,}01)$.

Fra normalfordelingstabellen ser vi at dette er ca. 0,8443. Sannsynligheten for å gjøre en godtakingsfeil er altså over 84 % hvis det bare er 0,01 som skiller mynten fra en rettferdig mynt.

En hypotesetests styrkefunksjon gir sannsynligheten for å forkaste nullhypotesen. Funksjonen kalles ofte γ eller β.

For situasjonen i eksempel 8 og 9 får vi for eksempel at

$\gamma(p) = 1 – G(\frac{\displaystyle 526 – p \cdot 1000}{\displaystyle \sqrt{1000 \cdot p(1-p)}})$,

med en graf som vist under:

Styrkefunksjon for p med 1000 forsøk.

Vi ser at sannsynligheten for å forkaste nullhypotesen – at mynten ikke gir for mange kron er omtrent 0 når p ≤ 0,49, den er lik signifikansnivået på 5 % når p = 0,5, og nesten 100 % når p ≥ 0,57.

Vi kan øke styrken, det vil si redusere sannsynligheten for godtakingsfeil, ved å redusere signifikansnivået, men da øker vi samtidig sannsynligheten for forkastningsfeil. Vil vi øke styrken uten å ofre signifikansnivået, må vi øke antall observasjoner.

I figuren under har vi i tillegg til styrkefunksjonen vist over, også tegnet inn styrkefunksjonen ved 2000 observasjoner med rødt, og for 4000 observasjoner med grønt. Signifikansnivået er 5 % i alle tilfeller.

Styrkefunksjoner for p med 1000, 2000 og 4000 forsøk.

Vi ser at jo flere observasjoner vi har, jo brattere stiger kurven, og jo nærmere kommer den det ideelle, å hoppe direkte fra 0 til 1 idet p passerer 0,5.

Vi har her brukt en ensidig test i en binomisk modell, men prinsippet er det samme i andre modeller.

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.