Sannsynlighetskalkulatoren i GeoGebra

GeoGebra har en egen sannsynlighetskalkulator som vi får fram ved å klikke på «Vis» – «Sannsynlighetskalkulator».

Kalkulatoren har to hovedfaner, «Fordeling» og «Statistikk». Vi ser først på fanen «Fordeling», der vi kan beregne sannsynligheter i forskjellige fordelinger.

Fane «Fordelinger»

Bildet under viser en framstilling av sannsynligheten for antall kron i et kast med 5 mynter.

Illustrasjon av sannsynlighetskalkulatoren i GeoGebra

Forventning og standardavvik angis altså med de greske bokstavene μ og σ.

«Venstresidig» brukes hvis vi skal finne sannsynligheten for at X er mindre eller lik en verdi. «Intervall» brukes hvis vi skal finne sannsynligheten for at X ligger på og mellom to verdier, og «Høyresidig» brukes hvis vi skal finne sannsynligheten for at X er større eller lik en verdi.

De aktuelle verdiene kan vi enten skrive i utfyllingsfeltene nederst, eller sette ved å dra i pilene i underkant av kolonnene.

Binomisk fordeling

Vi skal nå illustrere hvordan vi gjør beregninger i en binomisk modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra.

Eksempel 1:

Vi skal beregne forskjellige sannsynligheter for antall kron ved kast med 7 mynter. Hvis sannsynlighetskalkulatoren ikke er framme, tar vi den fram ved å velge «Vis» – «Sannsynlighetskalkulator», fane «Fordeling».

Vi har en binomisk sannsynlighetsmodell. n = 7 fordi vi gjør 7 kast, og p = 0,5 fordi sannsynligheten for suksess er 0,5. Vi velger «Binomisk fordeling» og setter «n» til 7 og «p» til 0.5. GeoGebra regner ut at fordelingens forventningsverdi er μ = 3,5 og standardavviket σ ≈ 1,3229:

Sannsynlighetskalkulatoren stilt inn for å beregne binomisk sannsynlighet

Så skal vi finne

  1. Sannsynligheten for 3 kron.
    Vi klikker på symbolet for «Intervall» og angir 3 som både øvre og nedre grense. GeoGebra svarer 0,2734.
    Sannsynlighetskalkulatoren stilt inn for intervallsannsynlighet
     
  2. Sannsynligheten for 1 kron eller mindre.
    Vi klikker på symbolet for «Venstresidig» og angir 1 som øvre grense. GeoGebra svarer 0,0625.
    Sannsynlighetskalkulatoren stilt inn for venstresidig sannsynlighet
     
  3. Sannsynligheten for 5 kron eller mer.
    Vi klikker på symbolet for «Høyresidig» og angir 5 som nedre grense. GeoGebra svarer 0,2266.
    Sannsynlighetskalkulatoren stilt inn for høyresdidig intervall

I stedet for å angi X-verdiene ved å skrive inn tall kan vi også dra i pil-symbolene under kolonnene.

Oppgave 1:

La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne

  1. ​Fordelingens forventningsverdi og standardavvik.
     
  2. P(X = 4)
     
  3. P(X ≤ 2)
     
  4. P(X > 6)
    NB! Legg merke til at vi spør etter «større enn 6», ikke «større eller lik 6».

Se løsningsforslag

Hypergeometrisk fordeling

Når vi skal gjøre beregninger i en hypergeometriskmodell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Hypergeometrisk fordeling».

Parameterne heter imidlertid noe annet enn det vi kaller dem i artikkelen om hypergeometrisk fordeling. Grunnmengden N heter «populasjon», mengden spesielle elementer, M, heter «n» og antall vi trekker, n, heter «utvalg».

Eksempel 2:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.

Sannsynlighetskalkulatoren stilt inn for å beregne hypergeometrisk sannsynlighet

«Populasjon» er antall kort totalt, altså 52, «n» er antall spar totalt, altså 13 og «utvalg» er antall kort vi trekker, altså 5.
Så angir vi et intervall som både begynner og slutter med 2, og får som svar at sannsynligheten er om lag 0,2743.

Denne beregningen gjør vi med formler i eksempel 1 i artikkelen om hypergeometrisk fordeling.

Oppgave 2:

I en forening med 65 medlemmer er 13 negative til et forslag.

Bruk sannsynlighetskalkulatoren til å finne fordelingens forventning og standardavvik.

Anta at vi velger 20 representanter tilfeldig fra gruppen. Bruk sannsynlighetskalkulatoren til å finne sannsynligheten for at

  1. Ingen av representantene er negative.
     
  2. Én av representantene er negativ.
     
  3. To eller flere av representantene er negative.

Disse beregningene gjør vi for hånd i oppgave 1 i artikkelen om hypergeometrisk fordeling.

Se løsningsforslag

Poissonfordeling

Når vi skal gjøre beregninger i en poissonfordelt modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Poissonfordeling».

Her heter imidlertid ikke hyppigheten λ, men μ. Det er et naturlig valg, siden forventningsverdien i en poissonfordeling er lik λ.

Eksempel 3:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for 7 trær i et skogsområde når λ = 8, som vi regner ut i eksempel 1 i artikkelen om poissonfordeling.

Sannsynlighetskalkulatoren stilt inn for å beregne poissonsannsynlighet

Vi får som svar at sannsynligheten er om lag 0,1396.

Oppgave 3:

I en vannprøve er det i gjennomsnitt to hoppekreps. Anta at mengden hoppekreps er poissonfordelt, og bruk sannsynlighetskalkulatoren i GeoGebra til å finne sannsynligheten for at en annen, like stor vannprøve inneholder

  1. Ingen hoppekreps.
     
  2. Én hoppekreps.
     
  3. To eller flere hoppekreps.

Disse beregningene gjør vi for hånd i oppgave 1 i artikkelen om poissonfordeling.

Se løsningsforslag

Normalfordeling

Når vi skal gjøre beregninger i en normalfordelt modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Normalfordeling».

Vi må da fylle ut fordelingens forventning, «μ», og standardavvik, «σ».

Eksempel 4:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for at en person er mellom 170 og 180 cm når forventningen er 177 cm og standardavviket 7 cm. Vi ser at GeoGebra finner verdien 0,5072.
Dette regner vi ut ved hjelp av tabeller i eksempel 3.3 i artikkelen om normalfordelingen. Da får vi 0,5077, som ikke er helt korrekt på grunn av avrundingsfeil i standardiseringen.

Sannsynlighetskalkulatoren stilt inn for å beregne normalfordelt sannsynlighet

Oppgave 4:

På en eksamen er resultatene normalfordelt med en forventning på 14 poeng og et standardavvik på 2 poeng, N(14, 22). For å stå må en oppnå mer enn 12 poeng. Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne hvor stor del av de som tar eksamenen, som kan forventes å ikke stå.

Dette regner vi ut for hånd i oppgave 2 i artikkelen om normalfordelingen.

Se løsningsforslag

Diskret fordeling med normaltilnærming

I en diskret sannsynlighetsfordeling kan vi samtidig vise en tilnærmet normalfordeling ved å klikke på knappen med den røde normalfordelingskurven. Bildet under viser en binomisk fordeling med 20 forsøk og suksess-sannsynlighet 0,6, der den tilhørende normalfordelingen er tegnet inn.

Sannsynlighetskalkulatoren viser både binomisk og normalfordelt sannsynlighet

Fane «Statistikk»

Under fanen «Statistikk» kan vi beregne konfidensintervaller og utføre hypotesetester. Vi åpner sannsynlighetskalkulatoren og klikker på fanen «Statistikk».

Valg av statistikkfunksjon i sannsynlighetskalkulator

Konfidensintervaller for forventningsverdier

Kjent standardavvik

Hvis standardavviket i en populasjon er kjent, bruker vi menyvalget «Z-estimat av et gjennomsnitt» til å beregne konfidensintervaller for forventningsverdier. Så angir vi ønsket konfidensnivå, gjennomsnitt, populasjonsstandardavvik og antall målinger.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 5:

Vi skal finne et 95 % konfidensintervall for gjennomsnittet i en populasjon med kjent standardavvik lik 0,7. Vi har målt 13 elementer, og funnet et gjennomsnitt på 4,14.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «Z-estimat av et gjennomsnitt», og setter

        • «Konfidensnivå» til 0.95, fordi vi skal ha et 95 %-intervall.
        • «Gjennomsnitt» til 4.14, fordi gjennomsnittet er 0,14.
        • «σ» til 0.7, fordi standardavviket er 0,7.
        • «N» til 13, fordi vi har 13 målinger.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, n-fordeling

GeoGebra beregner at konfidensintervallet er om lag [3,7595, 4,5205]. Dette regner vi ut for hånd i eksempel 4 i artikkelen om estimering.

«SF» representerer standardavviket til estimatoren, ${\large \frac{0{,}7}{\sqrt {13}}} \approx 0{,}1941$.

Oppgave 5:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 99 % konfidensintervall for dagsproduksjonen av støtfangere, basert på at gjennomsnittet målt over seks dager er X = 217 enheter og at produksjonen har standardavvik σ = 5,8.

Se løsningsforslag

Ukjent standardavvik

Hvis standardavviket i en populasjon er ukjent, og vi baserer oss på utvalgsstandardavviket, bruker vi menyvalget «T-estimat av et gjennomsnitt» til å beregne konfidensintervaller for forventningsverdier. Så angir vi ønsket konfidensnivå, gjennomsnitt, utvalgsstandardavvik og antall målinger.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 6:

Vi skal finne et 95 % konfidensintervall for et gjennomsnitt i en populasjon der vi har målt 13 elementer, og funnet et gjennomsnitt på 4,14 og et utvalgsstandardavvik på 0,71.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «T-estimat av et gjennomsnitt», og setter

        • «Konfidensnivå» til 0.95, fordi vi skal ha et 95 %-intervall.
        • «Gjennomsnitt» til 4.14, fordi gjennomsnittet er 4,14.
        • «s» til 0.7, fordi utvalgsstandardavviket er 0,7.
        • «N» til 13, fordi det er gjort 13 målinger.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, t-fordeling

GeoGebra beregner at konfidensintervallet er om lag [3,711, 4,569]. Dette regner vi ut for hånd i eksempel 7 i artikkelen om estimering.

«SF» representerer standardavviket til estimatoren, ${\large \frac{0{,}71}{\sqrt {13}}} \approx 0{,}1969$.

Oppgave 6:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 90 % konfidensintervall for dagsproduksjonen av støtfangere, basert på at gjennomsnittet målt over seks dager er X = 217 enheter og at utvalgsstandardavviket er beregnet til S = 6.

Se løsningsforslag

Konfidensintervaller for sannsynligheter

For å beregne et konfidensintervall for en sannsynlighet bruker vi menyvalget «Z-estimat av en andel». Så angir vi ønsket konfidensnivå, antall suksesser og antall forsøk totalt.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 7:

Vi skal finne et 95 % konfidensintervall for sannsynligheten for kron hos en mynt som har gitt kron i 33 av 50 kast.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «Z-estimat av en andel», og setter

        • «Konfidensnivå» til 0.95, fordi vi skal ha et 95 %-intervall.
        • «Treff» til 33 fordi kastene har gitt 33 kron.
        • «N» til 50 fordi det totalt er gjort 50 kast.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, binomisk modell

GeoGebra beregner at konfidensintervallet er om lag [0,5287, 0,7913]. Dette regner vi ut for hånd i eksempel 9 i artikkelen om estimering.

«SF» representerer standardavviket til estimatoren, $\sqrt{\large \frac{0{,}66(1 – 0{,}66)}{50}} \approx 0{,}067$.

Oppgave 7:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 95 % konfidensintervall for sannsynligheten for at en vilkårlig mobillader er defekt, når det blant 2000 stikkprøver ble funnet 35 defekte.

Se løsningsforslag

Hypotesetester

I hypotesetester må vi angi verdi for nullhypotesen, og om testen er venstre- høyre-, eller tosidig, noe som gjøres ved å velge henholdsvis <, > eller ≠ for den alternative hypotesen. I tillegg oppgir vi måledataene våre. GeoGebra beregner da testens Z-verdi, og noe som kalles P-verdi. Hvis P-verdien er mindre enn testens signifikansnivå, forkaster vi nullhypotesen og aksepterer den alternative hypotesen.

Tester for sannsynlighet

En hypotesetest for sannsynlighet gjør vi ved menyvalget «Z-test av en andel».

Så angir vi verdien til p i nullhypotesen, «<«, «>» eller «≠» for henholdsvis venstresidig, høyresidig eller tosidig test, antall suksesser og antall forsøk totalt.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 8:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om en mynt som gir 524 kron i 1000 kast har større sannsynlighet enn 0,5 for å få kron.

Den alternative hypotesen blir HA: p > 0,5, og nullhypotesen H0: p = 0,5.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «Z-test av en andel», og setter

        • «Nullhypotese p =» til 0.5 fordi nullhypotesen er at mynten er rettferdig, med en sannsynlighet for kron på 0,5.
        • «Alternativ hypotese» til «>» fordi den alternative hypotesen er at mynten gir for mange kron.
        • «Treff» til 524 fordi kastene har gitt 524 kron.
        • «N» til 1000 fordi det er gjort totalt 1000 kast.

Hypotesetest i binomisk modell

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 1,5179. Dette regner vi ut for hånd i eksempel 2 i artikkelen om hypotesetesting. Siden Z ≈ 1,5179 < zα = z0,05 ≈ 1,6449, kan vi konkludere med at vi ikke kan forkaste nullhypotesen. Men det er enklere å basere seg på P-verdien, som er om lag 0,0645. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Oppgave 8:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om henholdsvis 20 av 100 og 200 av 1000 seksere ved terningkast tyder på at terningen gir for mange seksere.

Se løsningsforslag

Tester for forventningsverdier

Kjent standardavvik

En hypotesetest for forventningsverdi når standardavviket er kjent, gjør vi ved menyvalget «Z-test av et gjennomsnitt». Så angir vi verdien til μ i nullhypotesen, «<«, «>» eller «≠» for henholdsvis venstresidig, høyresidig eller tosidig test, gjennomsnitt, standardavvik og antall målinger.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 9:

Vi skal gjøre en hypotesetest på 1 % signifikansnivå på om en maskin som i snitt skal gi ut 10 ml. olje med et standardavvik på 0,65, gir ut for mye olje, når gjennomsnittsmengden i 20 målinger i snitt er 10,5 ml.

Den alternative hypotesen blir HA: μ > 10, og nullhypotesen H0: μ = 10.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «Z-test av en andel», og setter

        • «Nullhypotese μ =» til 10 fordi dette er det forventede volumet olje.
        • «Alternativ hypotese» til «>» fordi den alternative hypotesen er at maskinen gir ut for mye olje.
        • «Gjennomsnitt» til 10.5 fordi gjennomsnittsvolumet er 10,5.
        • «σ» til 0.65 fordi standardavviket er 0,65.
        • «N» til 20 fordi det er gjort 20 målinger.

Hypotesetest i målemodell, standardavvik kjent

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 3,4401. Dette regner vi ut for hånd i eksempel 3 i artikkelen om hypotesetesting. Siden Z ≈ 3,4401 > zα = z0,01 ≈ 2,3263, kan vi konkludere med at vi kan forkaste nullhypotesen. Men det er enklere å basere seg på P-verdien, som er om lag 0,0003. Siden P-verdien er mindre enn signifikansnivået på 0,01, kan nullhypotesen forkastes.

Ukjent standardavvik

En hypotesetest for forventningsverdi når standardavviket er kjent, gjør vi ved menyvalget «T-test av et gjennomsnitt». Så angir vi verdien til μ i nullhypotesen, «<«, «>» eller «≠» for henholdsvis venstresidig, høyresidig eller tosidig test, gjennomsnitt, utvalgsstandardavvik og antall målinger.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 10:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om en maskin som i snitt skal gi ut 425 gram bønner gir ut feil mengde, når gjennomsnittsmengden i 20 målinger i snitt er 427,5 gram. Utvalgsstandardavviket er 5 gram.

Den alternative hypotesen blir HA: μ > 425, og nullhypotesen H0: μ = 425.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «T-test av en andel», og setter

        • «Nullhypotese μ =» til 425 fordi dette er den forventede mengden bønner.
        • «Alternativ hypotese» til «≠» fordi den alternative hypotesen er at maskinen gir enten for stor eller for liten mengde bønner.
        • «Gjennomsnitt» til 427.5 fordi gjennomsnittsmengden er 427,5.
        • «s» til 5 fordi utvalgsstandardavviket er 5.
        • «N» til 20 fordi det er gjort 20 målinger.

Hypotesetest i målemodell, basert på utvalgsstandardavvik

GeoGebra regner ut at verdien til testobservatoren blir om lag t ≈ 2,2361. Siden t ≈ 2,2361 > tα/2 (v) = t0,025 (20−1) ≈ 2,0930, kan vi konkludere med at vi kan forkaste nullhypotesen. Men det er enklere å basere seg på P-verdien, som er om lag 0,0375. Siden P-verdien er mindre enn signifikansnivået på 0,05, kan nullhypotesen forkastes.

Oppgave 9:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om angitt gjennomsnittlig ventetid på 30 sekunder på en telefontjeneste er satt for lavt når 15 oppringninger gir en gjennomsnittlig ventetid på 37 sekunder, med et standardavvik på 14.

Se løsningsforslag

Hypotesetester for to utvalg

I tester for to utvalg tester vi hypoteser om forskjeller i to utvalg, enten forventningsverdier eller sannsynligheter. I tillegg til nullhypotese og alternativ hypotese må vi da angi verdier for to utvalg. GeoGebra kaller disse «Utvalg» og «Utvalg 2». (Det første utvalget skulle nok hett «Utvalg 1», men 1-tallet mangler. I resultatene heter det «Utvalg 1», og på engelsk «Sample 1».)

Tester for forventningsverdier

Kjent standardavvik

En hypotesetest for forskjellen på forventningsverdi i to utvalg når standardavviket i begge utvalg er kjent, gjør vi ved menyvalget «Z-test. Forskjell mellom gjennomsnitt». Så angir vi differansen μ1μ2 i nullhypotesen, «<«, «>» eller «≠» for henholdsvis venstresidig, høyresidig eller tosidig test. For hvert av de to utvalgene angir vi så gjennomsnitt, standardavvik og antall målinger.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 11:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på mengden sukker to maskiner tilsetter en matvare. Maskin X opererer med et standardavvik på 0,11, og 70 stikkprøver viser at den i snitt tilsetter 10,103 gram sukker. Maskin Y opererer med et standardavvik på 0,13, og 85 stikkprøver viser at den i snitt tilsetter 10,069 gram sukker.

Den alternative hypotesen blir HA: μ1μ2, og nullhypotesen H0: μ1μ2.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «Z-test mellom gjennomsnitt», og setter

        • «Nullhypotese μ1 − μ2» til 0 fordi nullhypotesen er at forventningsverdiene i de to utvalgene er like.
        • «Alternativ hypotese» til «≠» fordi den alternative hypotesen er at forventningsverdiene i de to utvalgene ikke er like.

Vi lar «Utvalg» representere maskin X og setter

        • «Gjennomsnitt» til 10.103 fordi gjennomsnittsmengden for maskin X er 10,103.
        • «σ» til 0.11 fordi maskin X opererer med et standardavvik på 0,11.
        • «N» til 70 fordi det er gjort 70 målinger på maskin X.

Vi lar «Utvalg 2» representere maskin Y og setter

        • «Gjennomsnitt» til 10.069 fordi gjennomsnittsmengden for maskin Y er 10,069.
        • «σ» til 0.13 fordi maskin Y opererer med et standardavvik på 0,13.
        • «N» til 85 fordi det er gjort 85 målinger på maskin Y.

Hypotesetest mellom to utvalg i målemodell, standardavvik kjent

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 1,7636. Dette regner vi ut for hånd i eksempel 1 i artikkelen om å sammenlikne datasett. Siden Z ≈ 1,7636 < zα/2 = z0,025 ≈ 1,9600, kan vi konkludere med at vi ikke kan forkaste nullhypotesen. Men det er enklere å basere seg på P-verdien, som er om lag 0,0778. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Oppgave 10:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre samme test som i eksempel 11, men basert på at 60 stikkprøver av maskin X gir et snitt på 10,107 gram sukker, og 75 stikkprøver av maskin Y gir et snitt på 10,061 gram sukker. Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.

Se løsningsforslag

Ukjent standardavvik

En hypotesetest for forskjellen på forventningsverdi i to utvalg når standardavvikene er ukjent, gjør vi ved menyvalget «T-test, Differanse mellom gjennomsnitt». (Det er litt inkonsekvent at GeoGebra i dette menyvalget bruker ordet «differanse», men ordet «forskjell» i tilsvarende Z-test. På engelsk brukes ordet «difference» i begge tilfeller.) Så angir vi differansen μ1μ2 i nullhypotesen, «<«, «>» eller «≠» for henholdsvis venstresidig, høyresidig eller tosidig test. For hvert av de to utvalgene angir vi gjennomsnitt, utvalgsstandardavvik og antall målinger.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 12:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på frukthøsten fra to trær, av type X og Y når 13 trær av type X i gjennomsnitt gir 45,154 kg med et utvalgsstandardavvik på 7,998 og 12 trær av type Y i gjennomsnitt gir 42,250 kg med et utvalgsstandardavvik på 8,740.

Den alternative hypotesen blir HA: μ1μ2, og nullhypotesen H0: μ1μ2.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «T-test, Differanse mellom gjennomsnitt», og setter

        • «Nullhypotese μ1 − μ2» til 0 fordi nullhypotesen er at forventningsverdiene i de to utvalgene er like.
        • «Alternativ hypotese» til «≠» fordi den alternative hypotesen er at forventningsverdiene i de to utvalgene ikke er like.

Vi lar «Utvalg» representere type X og setter

        • «Gjennomsnitt» til 45.154 fordi gjennomsnittshøsten for trær av type X er 45,154.
        • «s» til 7.998 fordi trær av type X har et utvalgsstandardavvik på 7,998.
        • «N» til 13 fordi det er gjort 13 målinger på trær av type X.

Vi lar «Utvalg 2» representere type Y og setter

        • «Gjennomsnitt» til 42.25 fordi gjennomsnittshøsten for trær av type Y er 42,25.
        • «s» til 8.74 fordi trær av type Y har et utvalgsstandardavvik på 8,74.
        • «N» til 12 fordi det er gjort 12 målinger på trær av type Y.

Hypotesetest mellom to utvalg i målemodell, standardavvik ukjent

GeoGebra regner ut at verdien til testobservatoren blir om lag t ≈ 0,8644. Dette regner vi ut for hånd i oppgave 2 i artikkelen om å sammenlikne datasett. Siden t ≈ 0,8644 < tα/2 (v) = t0,025 (13+12−2) ≈ 2,0687, kan vi konkludere med at vi ikke kan forkaste nullhypotesen. Men det er enklere å basere seg på P-verdien, som er om lag 0,3965. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Tester for sannsynlighet

En hypotesetest for forskjellen på sannsynlighet i to utvalg gjør vi ved menyvalget «Z-test. Forskjell mellom andeler». Så angir vi differansen p1p2 i nullhypotesen, «<«, «>» eller «≠» for henholdsvis venstresidig, høyresidig eller tosidig test. For hvert av de to utvalgene angir vi antall suksesser og antall forsøk totalt.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 13:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell mellom antallet defekte PC-skjermer ved to forskjellige anlegg, når det på anlegg X ble målt at 17 av 200 var defekte, og på anlegg Y at 31 av 200 var defekte.

Den alternative hypotesen blir HA: p1 = p2, og nullhypotesen H0: p1 ≠ p2.

Vi åpner sannsynlighetskalkulatoren, klikker på fanen “Statistikk”, velger «Z-test. Forskjell mellom andeler», og setter

        • «Nullhypotese p1 − p2» til 0 fordi nullhypotesen er at andelene defekte i de to utvalgene er like.
        • «Alternativ hypotese» til «≠» fordi den alternative hypotesen er at andelene defekte i de to utvalgene ikke er like.

Vi lar «Utvalg» representere anlegg X og setter

        • «Treff» til 17 fordi antall defekte i anlegg X er 17.
        • «N» til 200 fordi det er undersøkt 200 skjermer i anlegg X.

Vi lar «Utvalg 2» representere anlegg Y og setter

        • «Treff» til 31 fordi antall defekte i anlegg Y er 31.
        • «N» til 200 fordi det er undersøkt 200 skjermer i anlegg Y.

Hypotesetest mellom to utvalg i binomisk modell

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ −2,1541. Dette regner vi ut for hånd i eksempel 4 i artikkelen om å sammenlikne datasett. Siden |Z| ≈ 2,1541 > zα/2 = z0,025 ≈ 1,9600, kan vi konkludere med at vi kan forkaste nullhypotesen. Men det er enklere å basere seg på P-verdien, som er om lag 0,0312. Siden P-verdien er mindre enn signifikansnivået på 0,05, kan nullhypotesen forkastes.

Oppgave 11:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på antall defekte sømmer på bukser produsert ved to produksjonslinjer når det ved produksjonslinje X er 147 av 2500 defekter, og ved produksjonslinje Y er 151 av 2000 defekter.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk

Normalfordelingstabell

Tabellen under viser G(z), det vil si P(Zz) i en standard normalfordeling, z ∈ [0,00,  3,99].

De to første sifrene til z finnes i kolonna til venstre, det tredje sifferet i raden øverst. Vil vi for eksempel finne G(1,24), går vi inn der raden med 1,2 krysser kolonna med 0,04, og leser av 0,8925.

For negative z benytter vi at G(−z) = 1 − G(z). Vil vi for eksempel finne G(−1,32), finner vi 1 − G(1,32) = 1 − 0,9066 = 0,0934.

Tabell over standard normalfordeling

Normalfordelingen

I artikkelen om diskrete sannsynlighetsfordelinger lærer vi at diskrete sannsynlighetsfordelinger har et fast antall verdier vi kan beregne sannsynligheten til, for eksempel sannsynligheten for 0, 1, 2, 3 eller 4 kron i et kast med 4 mynter. Noen eksempler på diskrete fordelinger tar vi for oss i artikkelen om binomisk fordeling, artikkelen om hypergeometrisk fordeling og artikkelen om poissonfordeling.

Normalfordelingen, som vi skal se på i denne artikkelen, er imidlertid ikke diskret, men et eksempel på en kontinuerlig sannsynlighetsfordeling, der en tilfeldig variabel kan anta alle mulige verdier mellom ∞ og ∞. Normalfordelingen kalles også Gauss-fordelingen, oppkalt etter matematikeren Carl Friedrich Gauss, og har svært mange anvendelser.

Standard normalfordeling

Et plott av en standard normalfordelingskurve er vist under. Denne kurven er glatt, og består av uendelig mange punkter. Kurven er symmetrisk om x = 0.

Standard normalfordeling

Arealet under kurven representerer den totale sannsynligheten for alle de uendelig mange verdiene i fordelingen, og er derfor 1. Siden det finnes uendelig mange verdier, er sannsynligheten for en vilkårlig verdi lik 0. P(X = x) = 0 for alle x. Dette virker kanskje underlig, men kan illustreres med et tankeeksperiment:

Vi deler opp en dartblink i ti like store sektorer og kaster en pil i blinde, slik at den har like stor sjanse for å treffe hver av sektorene. Hva er så sannsynligheten for at pila traff i den sektoren den gjorde? Selvfølgelig ${\large \frac{1}{10}}$. Men så deler vi denne sektoren i ti mindre, like store sektorer. Hva er nå sannsynligheten for at pila traff i den sektoren den gjorde? Jo, ${\large \frac{1}{100}}$. Ser vi bort fra fysiske begrensninger, kan vi fortsette å dele inn i stadig mindre sektorer, og for hver gang divideres sannsynligheten for å treffe i akkurat den sektoren med 10. Forsetter vi i all evighet, er del lett å skjønne at sannsynligheten da går mot 0. I en kontinuerlig sannsynlighetsfordeling kan altså hendelsen X inntreffe selv om P(X) = 0.

Siden sannsynligheten for alle enkeltverdier er 0, er det meningsløst å regne med punktsannsynligheter. I stedet arbeider vi med kumulative sannsynligheter og undersøker hvor stor sannsynligheten er for at en verdi ligger til venstre for et punkt på kurven, til høyre for et punkt på kurven, eller mellom to punkter på kurven.

I en standard normalfordeling er det vanlig å bruke Z og z i stedet for X og x som tilfeldige variable, vi skriver altså P(Zz) i stedet for P(Xx).

P(Zz) skriver vi også gjerne forenklet som G(z).

En standard normalfordeling er symmetrisk om z = 0. Derfor vil P(Z ≤ 0) = G(0) = 0,5.

Normalfordelingstabell

De forskjellige sannsynlighetene beregner vi på en datamaskin eller leser ut av en tabell. Et utdrag av en normalfordelingstabell er vist under.

Normalfordelingstabell

Tabellen har rader som er nummerert fra 0,0 og oppover, og kolonner som er nummerert fra 0,00 til 0,09. Når vi skal slå opp en verdi, går vi inn i raden med verdi lik de første to sifrene og kolonne lik det tredje sifferet. For eksempel finner vi G(1,13) ved å gå inn i rad 1,1 og kolonne 0,03, der det står 0,8708, og vi finner G(1,20) ved å gå inn i rad 1,2 og kolonne 0,00, der det står 0,8849.

Tabellen inneholder bare fordelingen for positive z, det vil si verdier som ligger til høyre for midten av kurven. Det er ikke nødvendig å ta med negative verdier, fordi vi på grunn av symmetrien om z = 0, og at den totale sannsynligheten er 1, alltid vil ha følgende sammenheng:

$\fbox{$G(-z) = 1 – G(z)$}$

Dette nettstedet inneholder også en komplett normalfordelingstabell.

Skal vi finne sannsynligheten for at en verdi ligger mellom to grenser, a og b, altså P(aZb), kan vi regne det ut som G(b) − G(a).

Eksempel 1:

Basert på normalfordelingstabellen skal vi finne

  1. P(Z ≤ 1,87), det vil si G(1,87).
    ​Vi leser av tabellen der rad 1,8 krysser kolonne 0,07, der det står 0,9693.
    P(Z ≤ 1,87) ≈ 0,9693.
     
  2. P(0,55 ≤ Z ≤ 1,00), det vil si G(1,00) − G(0,55).
    ​Vi leser av tabellen der rad 1,0 krysser kolonne 0,00, der det står 0,8413.
    ​Vi leser av tabellen der rad 0,5 krysser kolonne 0,05, der det står 0,7088.
    P(0,55 ≤ Z ≤ 1,00) ≈ 0,8413 − 0,7088 = 0,1325.
     
  3. P( Z ≤ −0,74), det vil si G(−0,74) = 1 − G(0,74).
    ​Vi leser av tabellen der rad 0,7 krysser kolonne 0,04, der det står 0,7704.
    P( Z ≤ −0,74) ≈ 1 − 0,7704 = 0,2296.
     
  4. P(−1,00 ≤ Z ≤ −0,55), det vil si G(−0,55) − G(−1,00) = 1 − G(0,55) − (1− G(1,00)) = G(1,00) − G(0,55).
    Dette er det samme som vi fant i punkt 2, om lag 0,1325.

Oppgave 1:

Bruk normalfordelingstabellen til å finne

        1. P(Z ≤ 0,85).
           
        2. P(Z ≤ −1,21).
           
        3. P(−0,22 ≤ Z ≤ 0,22).

Se løsningsforslag

Forventning og standardavvik i standard normalfordeling

I en standard normalfordeling er forventningen 0 og variansen 1.

$\fbox{Standard normalfordeling: $E(Z) = 0, Var(Z) = 1$}$

Det er vanlig å bruke symbolet μ til å representere forventningen, og variansen oppgir vi gjerne som kvadratet av standardavviket, σ2.

$\fbox{Standard normalfordeling: $\mu = 0, \sigma^2 = 1$}$

Generell normalfordeling

Mange tilfeldige variable følger en normalfordeling som ikke er standard. Hvis vi for eksempel tar for oss gjennomsnittshøyden for voksne menn, vil den være normalfordelt, men naturligvis vil ikke μ = 0, vi forventer ikke at høydene er sentrert rundt 0 cm. Hva gjennomsnittshøyden er, varierer over tid, og med folketype, men for eksempelets skyld bruker vi 177 centimeter. En normalfordeling med μ = 177, σ2 = 1 er vist under.

Normalfordeling med E[X] = 177, Var[X] = 1

Men vi skjønner at den ikke kan være representativ, det ser jo ut som det er svært sjelden menn er under 174 eller over 180 centimeter, noe vi vet ikke er riktig. Problemet er at variansen på 1 er alt for lav, slik at kurven strekker seg alt for kort ut fra forventningsverdien. En mye mer realistisk varians er 72. Det gir en normalfordeling som vist under.

Normalfordeling med E[X] = 177, Var[X] = 7

Når vi snakker om at en variabel er normalfordelt, må vi altså angi forventningsverdi og varians for at fordelingen skal være entydig. Når vi sier X ~ N(μ, σ2), mener vi at variabelen X er normalfordelt med forventning μ og varians σ2. For eksempel betyr X ~ N(177, 72) at X er normalfordelt med forventning 177 og varians 72. X ~ N(0, 1) betyr at X er standard normalfordelt, i dette tilfellet bruker vi altså gjerne Z som symbol for den tilfeldige variabelen og skriver Z ~ N(0, 1).

Vi sa tidligere at i en standard normalfordeling vil G(−z) = 1 − G(z). Dette prinsippet baserer seg på at fordelingen er symmetrisk om 0, og gjelder ikke generelt. Men siden det totale arealet under kurven i alle tilfeller er 1, må den delen som ligger til høyre for et punkt være lik 1 minus arealet som ligger til venstre:

P(X > x) = 1 − P(Xx).

Dette er samme prinsipp som i diskrete sannsynlighetsfordelinger. Sannsynligheten for at et utfall er større enn x, er lik 1 minus sannsynligheten for at utfallet er mindre eller lik x.

Siden alle punktsannsynlighetene er 0, vil vi sannsynligheten for «mindre enn» være den samme som for «mindre eller lik», og sannsynligheten for «større enn» være den samme som for «større eller lik»:

P(Xx) = P(Xx).

P(Xx) = P(Xx).

Standardisering

Det finnes altså uendelig mange normalfordelinger. Men uansett variant kan tabellen for en standard normalfordeling alltid brukes til å beregne sannsynligheter ved at vi gjør en standardisering av variabelen X:

$\fbox{Hvis $X \sim N(\mu, \sigma^2)$ er $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma} \sim N(0, 1)$}$

Hvis $X \sim N(\mu, \sigma^2)$ og vi skal finne $P(X \le x)$, subtraherer vi μ og dividerer med σ på begge sider av ulikhetstegnet:

$P(X \le x) \Rightarrow P({\large \frac{X – \mu}{\sigma}} \le {\large \frac{x – \mu}{\sigma}}) \Rightarrow P(Z \le {\large \frac{x – \mu}{\sigma}}) = G({\large \frac{x – \mu}{\sigma}})$.

For å finne $P(X \le x)$ når $X \sim N(\mu, \sigma^2)$, beregner vi altså $G({\large \frac{x – \mu}{\sigma}})$.

Eksempel 2:

Basert på at høyden til menn er N(177,72), skal vi skal finne sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere, altså P(X ≤ 185).

Dette tilsvarer å finne arealet som ligger til venstre for 185 i normalfordelingen med μ = 177, σ = 7, vist under:

Sannsynliget for P(X) < 185 i normalfordeling med E(X)=0, Var(X)=7

Men denne sannsynlighetsfordelingen har vi ingen tabell over. Vi standardiserer derfor den tilfeldige variabelen og får $P(X \le 185) = G({\large \frac{185 – 177}{7}}) \approx G(1{,}14)$.

Dette tilsvarer å flytte arealet som ligger til venstre for 185 i den opprinnelige normalfordelingen inn i standard normalfordelingen, slik som vist under, der arealet strekker seg bort til 1,14.

Sannsynliget for P(Z) < 1.14 i standard normalfordeling

Vi går så inn i normalfordelingstabellen og finner at G(1,14) ≈ 0,8729. Sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere er altså om lag 87,3 %.

Eksempel 3:

Vi antar at høyden til menn er N(177,72) og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    Vi skal altså finne P(X ≤ 165).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G\big({\large \frac{165 – 177}{7}}\big) \approx G(-1{,}71) = 1 − G(1{,}71)$.
    Vi går inn i normalfordelingstabellen og finner G(1,71) ≈ 0,9564.
    P(X ≤ 165) ≈ 1 − 0,9564 = 0,0436, om lag 4,36 %.
     
  2. Over 190 cm.
    Vi skal altså finne P(X > 190) = 1 − P(X ≤ 190).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $1 – G\big({\large \frac{190 – 177}{7}}\big) \approx 1 – G(1{,}86)$.
    Vi går inn i normalfordelingstabellen og finner G(1,86) ≈ 0,9686.
    P(X > 190) ≈ 1 − 0,9686 = 0,0314, om lag 3,14 %.
     
  3. Mellom 170 og 180 cm.
    Vi skal altså finne P(170 < X < 180) = P(X < 180) – P(170 < X).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G\big({\large \frac{180 – 177}{7}}\big) – G\big({\large \frac{170 – 177}{7}}\big) \approx G(0{,}43) – G(-1)$.
    Vi går inn i normalfordelingstabellen og finner G(0,43) ≈ 0,6664 og G(1) ≈ 0,8413.
    P(170 < X < 180) ≈ 0,6664 − (1 − 0,8413) = 0,5077, om lag 50,77 %.

Normalfordeling i Excel og GeoGebra

Med datamaskiner tilgjengelig er det lite behov for å slå opp i tabeller, vi finner sannsynlighetene direkte ved hjelp av verktøy som Excel eller GeoGebra.

I Excel bruker vi funksjonen norm.fordeling til å beregne P(Xx) i en vilkårlig normalfordeling. I tillegg til x oppgir vi fordelingens forventningsverdi og standardavvik, og sann for kumulativ sannsynlighet.

I diskrete sannsynlighetsfordelinger så vi at usann betydde at vi fikk punktsannsynlighet i stedet for kumulativ sannsynlighet. Men siden alle punktsannsynlighetene i en kontinuerlig fordeling er 0, er de ikke interessante. usann betyr i norm.fordeling i stedet at vi får sannsynlighetstettheten, som, enkelt sagt, er høyden på fordelingskurven.

Tilsvarende funksjon i GeoGebra heter fordelingnormal. Her oppgir vi først forventningsverdi og standardavvik, deretter x og så true for kumulativ sannsynlighet og false for sannsynlighetstettheten. Sløyfer vi true / false, får vi automatisk kumulativ sannsynlighet, som er det vanligste å spørre etter.

Excel har også en egen funksjon for å beregne P(Zz), altså G(z), i en standard normalfordeling, norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, disse er henholdsvis 0 og 1. Denne funksjonen har ingen motpart i GeoGebra.

Eksempel 4:

Vi skal gjøre beregningene fra eksempel 3 om igjen i Excel og GeoGebra.

Siste desimal i resultatene avviker fra det vi fant i eksempel 3, dette skyldes at vi i eksempel 3 avrundet i standardiseringen av variabelen. Beregningene fra Excel og GeoGebra er mer korrekte.

For å vise resultatet med 4 desimaler i GeoGebra, velger vi «4 desimaler» fra menyen «Innstillinger» – «Avrunding».

Vi har altså at høyden til menn er N(177,72) og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    I Excel skriver vi
    =norm.fordeling(165; 177; 7; sann)
    og får 0,0432.
    I GeoGebra skriver vi
    fordelingnormal(177, 7, 165)
    og får samme tall i algebrafeltet.
     
  2. Over 190 cm.
    I Excel skriver vi
    =1 – norm.fordeling(190; 177; 7; sann)
    og får 0,0316.
    I GeoGebra skriver vi
    1 – fordelingnormal(177, 7, 190)
    og får samme tall i algebrafeltet.
     
  3. Mellom 170 og 180 cm.
    I Excel skriver vi
    =norm.fordeling(180; 177; 7; sann) – norm.fordeling(170; 177; 7; sann)​
    og får 0,5072.
    I GeoGebra skriver vi
    fordelingnormal(177, 7, 180) – fordelingnormal(177, 7, 170)
    og får samme tall i algebrafeltet.

RegnearkLast ned regneark med beregningene fra eksempel 4

Oppgave 2:

På en eksamen er resultatene normalfordelt med en forventning på 14 poeng og et standardavvik på 2 poeng, N(14, 22). For å stå må en oppnå mer enn 12 poeng. Bruk Excel og GeoGebra til å beregne hvor stor del av de som tar eksamenen, som kan forventes å ikke stå. Gjør beregningen både ved hjelp av normalfordelingstabellen, Excel og GeoGebra.

Se løsningsforslag

Sum av normalfordelte variabler

Summerer vi to variabler som er normalfordelte, er summen også normalfordelt. Som vi ser i artikkelen om forventning og varians, er forventningen til en sum av vilkårlige variable lik summen av forventningene. Det samme gjelder varians, såfremt variablene er uavhengige. Vi har derfor:

$\fbox{$ \text{Hvis } X \sim N(\mu\,_x, {\sigma^2}_x) \text{ og } Y \sim N(\mu\,_y, {\sigma^2}_y)\text{ er uavhengige, er } X + Y \sim N(\mu\,_x + \mu\,_y, {\sigma^2}_x + {\sigma^2}_y)$}$

Dette prinsippet kan brukes på vilkårlig mange variabler.

Eksempel 5:

Vi har X ~ N(3, 12), Y ~ N(2, 22), Z ~ N(0, 32), og W = X + Y + Z.

Hvis X, Y, Z er uavhengige, er W ~ N(3 + 2 + 0, 12 + 22 + 32 = N(5, 14).

SkjermfilmSe filmen «Normalfordelingen»
 

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons