Statistikk med GeoGebra

Søylediagram og histogram

For å kunne lage diagrammer på en effektiv måte i GeoGebra, må vi ta i bruk GeoGebras regneark. Hvis regnearket ikke allerede er framme, klikker vi på «Vis» – «Regneark».

Hvordan få fram regnearket i GeoGebra

Vil vi ha regnearket bort igjen, klikker vi på «Vis» – «Regneark» en gang til.

Blir det trangt om plassen, kan vi godt skjule algebrafeltet, det er ikke så interessant når vi skal lage diagrammer. Hvis algebrafeltet er framme, vil det forsvinne hvis vi klikker på «Vis» – «Algebrafelt».

Regnearket i GeoGebra fungerer på samme måte som andre regneark, for eksempel Excel, men har mindre funksjonalitet.

Arbeidsgangen ved å lage diagrammer er å først skrive dataene i regnearket og så skrive en kommando som refererer til dataene i inntastingsfeltet. Referanse til data gjøres gjennom å oppgi navnene på cellene der dataene befinner seg. Dette navnet består av kolonnenavnet satt sammen med radnummeret, for eksempel A1, for cella øverst til venstre.
NB! Kolonnenavn må angis med store bokstaver.

Kommandoen for å lage søylediagrammer er søylediagram, og kommandoen for å lage histogrammer er Histogram.

Søylediagram kan vi lage på flere måter. Én måte er å skrive inn alle verdiene i et område i regnearket, og i søylediagram-kommandoen angi navnet på cella øverst til venstre og cella nederst til høyre i dataområdet, atskilt med kolon. Vi må også angi ønsket søylebredde. 

Eksempel 1:

Vi skal lage et søylediagram som presenterer dataene fra eksempel 1 i artikkelen om måltall i statistikk, 140, 141, 137, 143, 145, 142, 139, 138, 139, 141, 144, 137, 138, 142, 140, 142, 140, 138, 135, 142, 144, 141, 148, 140, 149, 135, 141, 140, 139 og 137.

Vi skriver da inn verdiene i regnearket:

Regneark med dataliste i GeoGebra

Øvre, venstre celle i dataområdet er A1 og nedre, høyre D8. Det spiller ingen rolle at det er tomme celler i området, de blir ignorert av GeoGebra.

I inntastingsfeltet skriver vi søylediagram(A1:D8, 0.5), der 0.5 betyr at hver søyle skal ha en bredde på 0,5. GeoGebra lager et søylediagram i grafikkfeltet:

Søylediagram i GeoGebra

Det kan være vi må justere litt på aksene før vi ser diagrammet. Vi kan så endre farge, linjetykkelse, m.m. ved å høyreklikke på en av søylene og velge «Egenskaper».

Har vi algebrafeltet framme, ser vi at GeoGebra der presenterer tallet 15. Det virker jo litt underlig, siden vi har 30 celler med data. Men dette tallet angir ikke mengden data, men det totale arealet av søylene. Og siden søylebredden er 0,5 blir det totale arealet 30 · 0,5 = 15.

I stedet for å skrive inn hver forekomst av en verdi, kan vi angi hver verdi, og hvor mange ganger den forekommer. Vi angir da de forskjellige verdiene i én kolonne, antall forekomster i en annen. I søylediagram-kommandoen angir vi så første og siste celle i hver av kolonnene, i stedet for å angi alt som ett dataområde. 

Eksempel 2:

Vi skal lage et søylediagram som presenterer samme data som eksempel 1, men nå baserer vi oss på frekvenstabellen i eksempel 2 i artikkelen om måltall i statistikk, der vi har talt opp hvor mange ganger hver høyde forekommer, 135:2, 136:0, 137:3, 138:3, 139:3, 140:5, 141:4, 142:4, 143:1, 144:2, 145:1, 146:0, 147:0, 148:1, 149:1.

Vi skriver inn verdiene i regnearket:

Regneark med frekvensdata i GeoGebra

Her er høydene listet opp mellom celle A1 og A12 og antall forekomster mellom celle B1 og B12. I inntastingsfeltet skriver vi søylediagram(A1:A12, B1:B12, 0.5). 0,5 er som før søylebredden, som vi kan sette til hva vi vil.

GeoGebra tegner opp samme søylediagram som i eksempel 1.

Oppgave 1:

Bruk GeoGebra til å lage et søylediagram som viser fordeling av karakterene fra oppgave 1 i artikkelen om måltall i statistikk, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.
Søylebredden skal være 0,75.
Bruk både metoden fra eksempel 1 og fra eksempel 2.

Se løsningsforslag

For å lage histogrammer, må vi angi intervallgrensene samt høyden av hver søyle. Vi forklarer dette greiest gjennom et eksempel:

Eksempel 3:

Vi skal lage et histogram som viser fire intervaller med bredder på henholdsvis 5, 5, 10 og 20. Det er 5 målinger i hvert intervall:

 Intervall  [0, 5⟩ [5,10⟩ [10,20⟩ [20,40⟩
 Frekvens  5 5 5

Vi starter med å fylle ut intervall og frekvens, slik det står i tabellen over:

Regneark med grunnlagsdata for histogram i GeoGebra

Overskriftene er kosmetiske, de har ingen betydning for beregningene, og er der bare for å hjelpe oss å huske hva som er hva.

Vi har her angitt starten på hvert intervall i kolonne A, i tillegg til slutten på siste intervall. I kolonne B har vi skrevet inn frekvensen, altså antall forekomster i hvert intervall. Men vi trenger også høyden på hver søyle, og den er det enklest å la regnearket beregne selv. Vi starter med å lage en hjelpekolonne som inneholder bredden på hver søyle. Denne bredden er jo lik avstanden mellom starten på ett intervall og starten på neste. For å beregne bredden på første søyle, tar vi altså innholdet i celle A3 og trekker fra innholdet i celle A2. Dette kan vi gjøre direkte i regnearket ved å skrive = A3 – A2. Husk å skrive likhetstegnet!

Regneark med beregning av søylebredde i histogram i GeoGebra

I cella under skal det stå = A4 – A3, og så videre nedover. Men vi trenger ikke skrive inn dette selv. Hvis vi tar tak i nedre, høyre hjørne i celle C2 og drar nedover, fyller regnearket ut formlene selv.

Regneark med demonstrasjon av å dra ut formel i GeoGebra

Søylehøyden beregner vi så ved å dividere frekvensen på bredden. I celle D2 skriver vi = B2 / C2, og trykker <enter>. Så tar vi tak i nedre, høyre hjørne i cella og drar nedover. Resultatet blir slik:

Regneark med ferdig beregnede data til histogram i GeoGebra

Så gjenstår det bare å opprette selve histogrammet. Vi skriver histogram(A2:A6, D2:D5) i inntastingsfeltet. Her angir altså A2:A6 celleområdet med intervallgrenser, D2:D5 celleområdet med søylehøyder. GeoGebra lager et histogram som vist under, når vi har justert aksene litt.

Ferdig histogram laget med GeoGebra

Oppgave 2:

Bruk GeoGebra til å lage et histogram som viser fordeling av karakterene fra oppgave 1, med intervaller 1-2, 3, 4 og 5-6.

Her kan det være lurt å sentrere søylene om karakterene, slik at intervallene blir 0,5-2,5, 2,5-3,5, 3,5-4,5 og 4,5-6,5.

Se løsningsforslag

Boksplott

Et boksplott kan være en god måte å illustrere spredningen i et datasett på. Boksplottet under illustrerer for eksempel dataene fra eksempel 7 i artikkelen om måltall i statistikk, 13, 14, 17, 18, 18, 21, 23, 23, 27, 30 og 32. Her er laveste verdi 13, første kvartil 17, median 21, tredje kvartil 27 og høyeste verdi 32.

Boksplott laget med GeoGebra

Vi ser at de ytterste, vertikale strekene markerer laveste og høyeste verdi i datasettet, begynnelsen og slutten på boksen markerer første og tredje kvartil, og den vertikale streken inni boksen markerer medianen.

For å lage et boksplott bruker vi kommandoen boksplott. Skriver vi boksplott(1, 0.5, 13, 17, 21, 27, 32), tegner GeoGebra boksplottet vist over. Tallene 1 og 0,5 som står først, betyr at boksplottet skal sentreres rundt y=1 med avstand 0,5 fra senter til ytterlinje. Deretter følger laveste verdi, første kvartil, median, tredje kvartil og høyeste verdi.

Bredden måles altså fra senter til ytterlinje, slik at boksens totale bredde blir 1.

Eksempel 4:

Vi skal lage et boksplott sentrert rundt y=2 med total bredde 0,8, laveste verdi 1, første kvartil 3, median 4, tredje kvartil 6 og høyeste verdi 7. Vi skriver boksplott(2, 0.4, 1, 3, 4, 6, 7) i inntastingsfeltet. GeoGebra lager boksplottet under:

Boksplott laget med GeoGebra

Det er også mulig å lage et boksplott basert på settet med rådata. I stedet for å skrive laveste verdi, første kvartil, median, tredje kvartil og høyeste verdi, lister vi da opp rådataene mellom krøllparenteser, for eksempel boksplott(1, 0.5, {13, 14, 17, 18, 18, 21, 23, 23, 27, 30, 32}). Alternativt kan dataene legges inn i regneark-delen i GeoGebra. I stedet for å liste opp dataene, referer vi da til aktuelt celleområde, for eksempel, boksplott(1, 0.5, A1:A11), hvis dataene ligger i kolonne A, fra rad 1 til 11. 

Oppgave 3:

Lag et boksplott av dataene fra oppgave 5 i artikkelen om måltall i statistikk, 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14. Plottet skal være sentrert rundt y=1 og ha total bredde 1. 

  1. Basert på rådataene.
     
  2. Basert på at laveste verdi er 0, første kvartil 6, median 15, tredje kvartil 29 og største verdi 125.

Se løsningsforslag

Sannsynlighetsfordelinger

GeoGebra har en egen sannsynlighetskalkulator som vi får fram ved å klikke på «Vis» – «Sannsynlighetskalkulator».

Bildet under viser en framstilling av sannsynligheten for antall kron i et kast med 5 mynter.

Illustrasjon av sannsynlighetskalkulatoren i GeoGebra

Forventning og standardavvik angis altså med de greske bokstavene μ og σ.

«Venstresidig» brukes hvis vi skal finne sannsynligheten for at X er mindre eller lik en verdi. «Intervall» brukes hvis vi skal finne sannsynligheten for at X ligger på og mellom to verdier, og «Høyresidig» brukes hvis vi skal finne sannsynligheten for at X er større eller lik en verdi.

De aktuelle verdiene kan vi enten skrive i utfyllingsfeltene nederst, eller sette ved å dra i pilene i underkant av kolonnene.

Binomisk fordeling

Vi skal nå illustrere hvordan vi gjør beregninger i en binomisk modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra.

Eksempel 5:

Vi skal beregne forskjellige sannsynligheter for antall kron ved kast med 7 mynter. Hvis sannsynlighetskalkulatoren ikke er framme, tar vi den fram ved å velge «Vis» – «Sannsynlighetskalkulator».

Vi har en binomisk sannsynlighetsmodell. n = 7 fordi vi gjør 7 kast, og p = 0,5 fordi sannsynligheten for suksess er 0,5. Vi velger «Binomisk fordeling» og setter «n» til 7 og «p» til 0,5. GeoGebra regner ut at fordelingens forventningsverdi er μ = 3,5 og standardavviket σ ≈ 1,3229:

Sannsynlighetskalkulatoren stilt inn for å beregne binomisk sannsynlighet

Så skal vi finne

  1. Sannsynligheten for 3 kron.
    Vi klikker på symbolet for «Intervall» og angir 3 som både øvre og nedre grense. GeoGebra presenterer svaret 0,2734.
    Sannsynlighetskalkulatoren stilt inn for intervallsannsynlighet
     
  2. Sannsynligheten for 1 kron eller mindre.
    Vi klikker på symbolet for «Venstresidig» og angir 1 som øvre grense. GeoGebra presenterer svaret 0,0625.
    Sannsynlighetskalkulatoren stilt inn for venstresidig sannsynlighet
     
  3. Sannsynligheten for 5 kron eller mer.
    Vi klikker på symbolet for «Høyresidig» og angir 5 som nedre grense. GeoGebra presenterer svaret 0,2266.
    Sannsynlighetskalkulatoren stilt inn for høyresdidig intervall

I stedet for å angi X-verdiene ved å skrive inn tall, kan vi også dra i pil-symbolene under kolonnene.

Oppgave 4:

La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne

  1. ​Fordelingens forventningsverdi og standardavvik.
     
  2. P(X = 4)
     
  3. P(X ≤ 2)
     
  4. P(X > 6)

Se løsningsforslag

Hypergeometrisk fordeling

Når vi skal gjøre beregninger i en hypergeometriskmodell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Hypergeometrisk fordeling».

Parameterne heter imidlertid noe annet enn det vi har kalt dem i artikkelen om diskrete sannsynlighetsfordelinger. Grunnmengden N heter «populasjon», mengden spesielle elementer, M, heter «n» og antall vi trekker, n, heter «utvalg».

Eksempel 6:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.

Sannsynlighetskalkulatoren stilt inn for å beregne hypergeometrisk sannsynlighet

«Populasjon» er antall kort totalt, altså 52, «n» er antall spar totalt, altså 13 og «utvalg» er antall kort vi trekker, altså 5.
Så angir vi et intervall som både begynner og slutter med 2, og får som svar at sannsynligheten er om lag 0,2743.

Denne beregningen gjorde vi med formler i eksempel 4 i artikkelen om diskrete sannsynlighetsfordelinger.

Oppgave 5:

I en forening med 65 medlemmer er 13 negative til et forslag.

Bruk sannsynlighetskalkulatoren til å finne fordelingens forventning og standardavvik.

Anta at vi velger 20 representanter tilfeldig fra gruppen. Bruk sannsynlighetskalkulatoren til å finne sannsynligheten for at

  1. Ingen av representantene er negative.
     
  2. Én av representantene er negativ.
     
  3. To eller flere av representantene er negative.

Disse beregningene gjorde vi for hånd i oppgave 4 og 3 i artikkelen om diskrete sannsynlighetsfordelinger.

Se løsningsforslag

Poissonfordeling

Når vi skal gjøre beregninger i en poissonfordelt modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Poissonfordeling».

Her heter imidlertid ikke hyppigheten λ, men «μ». Det er et naturlig valg, siden forventningsverdien i en poissonfordeling er lik λ.

Eksempel 7:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for 7 trær i et skogsområde når λ = 8, som vi regnet ut i eksempel 5 i artikkelen om diskrete sannsynlighetsfordelinger.

Sannsynlighetskalkulatoren stilt inn for å beregne poissonsannsynlighet

Vi får som svar at sannsynligheten er om lag 0,1396.

Oppgave 6:

I en vannprøve er det i gjennomsnitt to hoppekreps. Anta at mengden hoppekreps er poissonfordelt, og bruk sannsynlighetskalkulatoren i GeoGebra til å finne sannsynligheten for at en annen, like stor vannprøve inneholder

  1. Ingen hoppekreps.
     
  2. Én hoppekreps.
     
  3. To eller flere hoppekreps.

Disse beregningene gjorde vi for hånd i oppgave 5 i artikkelen om diskrete sannsynlighetsfordelinger.

Se løsningsforslag

Normalfordeling

Når vi skal gjøre beregninger i en normalfordelt modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Normalfordeling».

Vi må da fylle ut fordelingens forventning, «μ», og standardavvik, «σ».

Eksempel 8:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for at en person er mellom 170 og 180 cm når forventningen er 177 cm og standardavviket 7 cm. Vi ser at GeoGebra finner verdien 0,5072.
Dette regnet vi ut ved hjelp av tabeller i eksempel 4, punkt 3 i artikkelen om normalfordelingen. Da fikk vi 0,5077, som ikke er helt korrekt på grunn av avrundingsfeil i standardiseringen.

Sannsynlighetskalkulatoren stilt inn for å beregne normalfordelt sannsynlighet

Oppgave 7:

På en eksamen er resultatene normalfordelt med en forventning på 14 poeng og et standardavvik på 2, N(14, 22). Laveste poengsum for å stå er 12 poeng. Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne hvor stor del av de som tar eksamenen kan forventes å stryke.

Dette regnet vi ut for hånd i oppgave 2 i artikkelen om normalfordelingen.

Se løsningsforslag

Diskret fordeling og normaltilnærming samtidig

I en diskret sannsynlighetsfordeling kan vi samtidig vise en tilnærmet normalfordeling ved å klikke på knappen med den røde normalfordelingskurven. Bildet under viser en binomisk fordeling med 20 forsøk og suksess-sannsynlighet 0,6, der den tilhørende normalfordelingen er tegnet inn.

Sannsynlighetskalkulatoren viser både binomisk og normalfordelt sannsynlighet

Konfidensintervaller

Sannsynlighetskalkulatoren i GeoGebra gir også mulighet for å beregne konfidensintervaller og utføre tester. Vi åpner sannsynlighetskalkulatoren og klikker på fanen «Statistikk».

Valg av statistikkfunksjon i sannsynlighetskalkulator

Så velger vi type estimat, avhengig av hvilken modell vi er i.

Målemodell, kjent standardavvik

For å lage et konfidensintervall for et gjennomsnitt i en målemodell når en populasjons standardavvik er kjent, velger vi «Z-estimat av et gjennomsnitt». Så angir vi ønsket konfidensnivå, gjennomsnitt, standardavvik og antall målinger.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 9:

Vi skal finne et 95 % konfidensintervall for et gjennomsnitt i en normalfordelt populasjon med kjent standardavvik 0,7. Vi har målt 13 elementer, og funnet et gjennomsnitt på 4,14.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, n-fordeling

GeoGebra beregner at konfidensintervallet er om lag [3,7595, 4,5205].

Dette regnet vi ut for hånd i eksempel 4 i artikkelen om estimering.

Oppgave 8:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 99 % konfidensintervall for dagsproduksjonen av støtfangere, basert på at gjennomsnittet målt over seks dager er X = 217 enheter og at produksjonen er normalfordelt med standardavvik σ = 5,8.

Se løsningsforslag

Målemodell, ukjent standardavvik

For å lage et konfidensintervall for et gjennomsnitt i en målemodell når en populasjons standardavvik er ukjent, velger vi «T-estimat av et gjennomsnitt». Så angir vi ønsket konfidensnivå, gjennomsnitt, utvalgsstandardavvik og antall målinger.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 10:

Vi skal finne et 95 % konfidensintervall for et gjennomsnitt i en normalfordelt populasjon der vi har målt 13 elementer, og funnet et gjennomsnitt på 4,14 og et utvalgsstandardavvik på 0,71.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, t-fordeling

GeoGebra beregner at konfidensintervallet er om lag [3,711, 4,569].

Dette regnet vi ut for hånd i eksempel 8 i artikkelen om estimering.

Oppgave 9:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 90 % konfidensintervall for dagsproduksjonen av støtfangere, basert på at gjennomsnittet målt over seks dager er X = 217 enheter og at utvalgsstandardavviket er beregnet til S = 6.

Se løsningsforslag

Binomisk modell

For å lage et konfidensintervall for en sannsynlighet i en binomisk modell, velger vi «Z-estimat av en andel». Så angir vi ønsket konfidensnivå, antall suksesser og antall forsøk totalt.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 11:

Vi skal finne et 95 % konfidensintervall for sannsynligheten for kron hos en mynt som har gitt kron i 33 av 50 kast.

For å estimere et konfidensintervall til en sannsynlighet bruker vi menyvalget «Z-estimat av en andel» i sannsynlighetskalkulatoren.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, binomisk modell

GeoGebra beregner at konfidensintervallet er om lag [0,5287, 0,7913].

Dette regnet vi ut for hånd i eksempel 9 i artikkelen om estimering.

Oppgave 10:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 95 % konfidensintervall for sannsynligheten for at en vilkårlig mobillader er defekt, når det blant 2000 stikkprøver ble funnet 35 defekte.

Se løsningsforslag

Hypotesetester

Under fanen «Statistikk» i sannsynlighetskalkulatoren kan vi også utføre hypotesetester. GeoGebra beregner da blant annet en såkalt P-verdi. P-verdien er, gitt at nullhypotesen er sann, sannsynligheten for et resultat som er likt med eller mer ekstremt enn det observerte. Definisjonen er tung, men anvendelsen enkel: Hvis P-verdien er mindre enn testens signifikansnivå, kan nullhypotesen forkastes.

Binomisk modell

For å gjøre en hypotesetest i en binomisk modell, velger vi «Z-test av en andel». Så angir vi nullhypotesen, om vi ønsker en venstresidig, høyresidig eller tosidig test, antall suksesser og antall forsøk totalt.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 12:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om en mynt som gir 524 kron i 1000 kast har større sannsynlighet enn 0,5 for å få kron.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest i binomisk modell

Vi angir altså «p = 0,5» som verdien i nullhypotesen fordi dette er sannsynligheten for at en normal mynt gir kron. Så velger vi «>» for den alternative hypotesen fordi dette er en høyresidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 1,5179. Dette regnet vi ut for hånd i eksempel 2 i artikkelen om hypotesetesting.

Denne verdien kan vi så sammenlikne med zα = z0,05 ≈ 1,6449, og konkludere med at vi ikke kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0645. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Oppgave 11:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om henholdsvis 20 av 100 og 200 av 1000 seksere ved terningkast tyder på at terningen gir for mange seksere.

Se løsningsforslag

Målemodell, kjent standardavvik

For å gjøre en hypotesetest i en målemodell med kjent standardavvik, velger vi «Z-test av et gjennomsnitt». Så angir vi nullhypotesen, om vi ønsker en venstresidig, høyresidig eller tosidig test, gjennomsnitt, standardavvik og antall målinger..

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 13:

Vi skal gjøre en hypotesetest på 1 % signifikansnivå på om en maskin som i snitt skal gi ut 10 ml. olje, normalfordelt med et standardavvik på 0,65, gir ut for mye olje, når gjennomsnittsmengden i 20 målinger i snitt er 10,5 ml.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest i målemodell, standardavvik kjent

Vi angir altså «μ = 10» som verdien i nullhypotesen fordi dette er den oljemengden maskinen forventes å gi ut. Så velger vi «>» for den alternative hypotesen fordi dette er en høyresidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 3,4401. Dette regnet vi ut for hånd i eksempel 3 i artikkelen om hypotesetesting.

Denne verdien kan vi så sammenlikne med zα = z0,01 ≈ 2,3263, og konkludere med at vi kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0003. Siden P-verdien er mindre enn signifikansnivået på 0,01, kan nullhypotesen forkastes.

Målemodell, ukjent standardavvik

For å gjøre en hypotesetest i en målemodell med ukjent standardavvik, velger vi «T-test av et gjennomsnitt». Så angir vi nullhypotesen, om vi ønsker en venstresidig, høyresidig eller tosidig test, gjennomsnitt, utvalgsstandardavvik og antall målinger..

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 14:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om en maskin som normalfordelt i snitt skal gi ut 425 gram bønner gir ut feil mengde, når gjennomsnittsmengden i 20 målinger i snitt er 427,5 gram. Utvalgsstandardavviket er 5 gram.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest i målemodell, basert på utvalgsstandardavvik

Vi angir altså «μ = 425» som verdien i nullhypotesen fordi dette er den mengden bønner maskinen forventes å gi ut. Så velger vi «≠» for den alternative hypotesen fordi dette er en tosidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag t ≈ 2,2361.

Denne verdien kan vi så sammenlikne med t0,025 (19) ≈ 2,0930, og konkludere med at vi kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0375. Siden P-verdien er mindre enn signifikansnivået på 0,05, kan nullhypotesen forkastes.

Oppgave 12:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om angitt gjennomsnittlig ventetid på 30 sekunder på en telefontjeneste er satt for lavt når 15 oppringninger gir en gjennomsnittlig ventetid på 37 sekunder, med et standardavvik på 14.

Se løsningsforslag

Hypotesetester mellom to utvalg

Målemodell, standardavvik kjent

For å gjøre en hypotesetest mellom to utvalg i en målemodell, når standardavvik i begge utvalg er kjent, velger vi «Z-test. Forskjell mellom gjennomsnitt». Så angir vi nullhypotesen, det vil si forventet forskjell på to gjennomsnitt, om vi ønsker en venstresidig, høyresidig eller tosidig test, gjennomsnitt, standardavvik og antall målinger i hvert av de to utvalgene.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 15:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på mengden sukker to maskiner tilsetter en matvare. Maskin X opererer med et standardavvik på 0,11, og 70 stikkprøver viser at den i snitt tilsetter 10,103 gram sukker. Maskin Y opererer med et standardavvik på 0,13, og 85 stikkprøver viser at den i snitt tilsetter 10,069 gram sukker. 

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest mellom to utvalg i målemodell, standardavvik kjent

Vi angir altså «μ1 = μ2 = 0» som nullhypotese, altså at de to gjennomsnittene er like. Så velger vi «≠» for den alternative hypotesen fordi dette er en tosidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 1,7636. Dette regnet vi ut for hånd i eksempel 5 i artikkelen om å sammenlikne datasett.

Denne verdien kan vi så sammenlikne med Z0,025 ≈ 1,9600, og konkludere med at vi ikke kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0778. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Oppgave 13:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre samme test som i eksempel 15, men basert på at 60 stikkprøver av maskin X gir et snitt på 10,107 gram sukker, og 75 stikkprøver av maskin Y gir et snitt på 10,061 gram sukker. Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.

Se løsningsforslag

Målemodell, standardavvik ukjent

For å gjøre en hypotesetest mellom to utvalg i en målemodell, når standardavvik i ett eller begge utvalg er ukjent, velger vi «T-test. Differanse mellom gjennomsnitt». Så angir vi nullhypotesen, det vil si forventet forskjell på to gjennomsnitt, om vi ønsker en venstresidig, høyresidig eller tosidig test, gjennomsnitt, utvalgsstandardavvik og antall målinger i hvert av de to utvalgene.

GeoGebra beregner t-verdi og P-verdi.

Eksempel 16:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på frukthøsten fra to trær, av type X og Y når 13 trær av type X i gjennomsnitt gir 45,154 kg med et utvalgsstandardavvik på 7,998 og 12 trær av type X i gjennomsnitt gir 42,250 kg med et utvalgsstandardavvik på 8,740.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest mellom to utvalg i målemodell, standardavvik ukjent

Vi angir altså «μ1 = μ2 = 0″ som nullhypotese, altså at de to gjennomsnittene er like. Så velger vi «≠» for den alternative hypotesen fordi dette er en tosidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag t ≈ 0,8644. Dette regnet vi ut for hånd i oppgave 3 i artikkelen om å sammenlikne datasett.

Denne verdien kan vi så sammenlikne med t0,025 (23) ≈ 2,0687, og konkludere med at vi ikke kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,3965. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Binomisk modell

For å gjøre en hypotesetest mellom to utvalg i en binomisk modell, velger vi «Z-test. Forskjell mellom andeler». Så angir vi nullhypotesen, det vil si forventet forskjell på to sannsynligheter, om vi ønsker en venstresidig, høyresidig eller tosidig test, antall suksesser og antall forsøk totalt i hvert av de to utvalgene.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 17:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell mellom antallet defekte PC-skjermer ved to forskjellige anlegg, når det på det ene anlegget ble målt at 17 av 200 var defekte, og på det andre at 31 av 200 var defekte.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest mellom to utvalg i binomisk modell

Vi angir altså «p1 – p2 = 0″ som nullhypotese, altså at de to sannsynlighetene er like. Så velger vi «≠» for den alternative hypotesen fordi dette er en tosidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ -2,1541. Dette regnet vi ut for hånd i eksempel 8 i artikkelen om å sammenlikne datasett.

Denne verdien kan vi så sammenlikne med Z0,025 ≈ 1,9600, og konkludere med at vi kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0312. Siden P-verdien er mindre enn signifikansnivået på 0,05, kan nullhypotesen forkastes.

Oppgave 14:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på antall defekte sømmer på bukser produsert ved to produksjonslinjer når det ved første produksjonslinje er 147 av 2500 defekter og ved andre 151 av 2000.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk

Diskrete sannsynlighetsfordelinger

I artikkelen om begreper i sannsynlighet så vi at når vi kastet en rettferdig terning, var det like stor sannsynlighet for å få 1, 2, 3, 4, 5 og 6. Vi hadde en uniform sannsynlighetsfordeling. I artikkelen om kombinatorikk lærte vi strukturerte metoder for å beregne antall utfall i uniforme modeller, noe som er nyttig å kunne når det er så mange utfall at vi ikke klarer å telle dem opp. For eksempel å beregne antall mulige bridgehender.

I artikkelen om begreper i sannsynlighet så vi også på kast med tre mynter og talte opp kombinasjonene som ga henholdsvis 0, 1, 2 og 3 kron. Det var bare åtte mulige utfall, så det var rimelig enkelt. Øker vi antall mynter, vil vi imidlertid også her se at det fort blir uoverkommelig komplisert å gjøre beregninger ved å telle enkeltutfall. Antall kron i et myntkast er ikke uniformt fordelt, så vi har liten nytte av det vi har lært om kombinatorikk. Imidlertid følger sannsynligheten for «X kron», et annet mønster, som også muliggjør beregning av kombinasjonsmuligheter.

Slike mønstre kaller vi sannsynlighetsfordelinger.

I denne artikkelen ser vi på noen diskrete sannsynlighetsfordelinger, det vil si fordelinger der utfallene har atskilte verdier, for eksempel 1, 2, 3, 4, eller kron og mynt.

Figuren under viser sannsynlighetene for 0, 1, 2, 3, 4 og 5 kron i et kast med 5 mynter.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter

Vi ser at det er mest sannsynlig å få 2 og 3 kron, og minst sannsynlig å få 0 og 5 kron. Dette skyldes at det er mange flere enkeltutfall som kan kombineres til 2 og 3 enn til 0 og 5. Summen av høydene på søylene er 1, fordi de til sammen dekker utfallsrommet i et stokastisk forsøk, der total sannsynlighet alltid er 1.

Vi kan si at diagrammet viser P(X = x) der X representerer hendelsen «Antall kron i et kast med 5 mynter», og x betegner 0, 1, 2, 3, 4 eller 5. For eksempel betyr P(X = 3) = 0,3125 at sannsynligheten for «3 kron i et kast med 5 mynter» er 0,3125.

Figuren over viser punktfordelingen for X, det vi si at høyden på hver søyle viser sannsynligheten for akkurat den verdien den står over. Ofte er vi imidlertid interessert i den kumulative fordelingen, der vi i stedet for P(X = x) ser på P(Xx), det vil si sannsynligheten for at X er mindre eller lik enn en gitt verdi.

Den kumulative sannsynlighetsfordelingen for «Antall kron i et kast med 5 mynter» er vist under.

Stolpediagram som viser den kumulative sannsynligheten for antall kron i et myntkast med 5 mynter

«Kumulativ» betyr at noe hoper seg opp, sannsynlighetene hoper seg opp mot høyre. I søylen over X = 2, for eksempel, inngår P(X = 0), P(X = 1) og P(X = 2). Vi ser at det er riktig hvis vi sammenlikner de to diagrammene. I det øverste diagrammet ser vi at P(X = 0) ≈ 0,03, P(X = 1) ≈ 0,16 og P(X = 2) ≈ 0,31, til sammen om lag 0,5, som er høyden på søylen over 2 i det nederste diagrammet.

Den totale søylehøyden i et kumulativt diagram er ikke 1, i stedet er søylen lengst til høyre 1, fordi den inkluderer hele utfallsrommet.

Siden summen av alle sannsynlighetene i utfallsrommet bestandig er 1, vil det følgende vil alltid gjelde:

$\fbox{$P(X > x) = 1 – P(X \le x)$}$

Derfor kan vi i en kumulativ sannsynlighetsfordeling også lett finne sannsynligheter for verdier høyere enn en gitt verdi.

Eksempel 1:

Tabellen under viser verdier for P(X = x) og P(Xx), der X er «Antall kron i et kast med 5 mynter».

x 0 1 2 3 4 5
P(X = x) 0,03125 0,15625 0,31250 0,31250 0,15625 0,03125
P(Xx) 0,03125 0,18750 0,50000 0,81250 0,96875 1,00000

Så skal vi bruke tabellen til å finne P(X = 3), P(X ≤ 3) og P(X > 3).

Av tabellen ser vi at

P(X = 3) = 0,31250.

P(X ≤ 3) = 0,81250.

P(X > 3) = 1 – P(X ≤ 3) = 1- 0,81250 = 0,18750.

Vi kunne også enkelt ha funnet P(X > 3) som P(X = 4) + P(X = 5) = 0,15625 + 0,03125 = 0,18750.

Før i tida var en avhengig av tabeller med sannsynlighetsfordelinger, i dag kan vi i stedet gjøre beregningene på kalkulatorer eller med datamaskiner. På dette nettstedet finnes allikevel tabeller over noen sannsynlighetsfordelinger, under menyen «Statistikk» – «Fordelingstabeller». Alle tabellene er kumulative.

GeoGebra har også en egen sannsynlighetskalkulator som beskrives i artikkelen om statistikk i GeoGebra.

Vi skal nå se på noen vanlige sannsynlighetsfordelinger.

Binomisk fordeling

Eksemplet med myntkast representerer en binomisk fordeling. Et forsøk der utfallene følger en binomisk fordeling, har følgende tre karakteristikker:

  1. Forsøket har to mulige enkeltutfall. Det er vanlig å kalle disse suksess eller fiasko. I eksemplet med myntkast representerer kron suksess og mynt fiasko.
     
  2. Sannsynligheten for suksess, p, skal være den samme fra forsøk til forsøk. Det betyr imidlertid ikke at vi alltid må ha p = 0,5, p kan ha alle mulige verdier mellom 0 og 1. I kast med en rettferdig mynt er imidlertid p = 0,5.
     
  3. Forsøkene skal være uavhengige. Dette er tilfellet ved myntkast, én mynt påvirker ikke en annen.

Andre eksempler på binomiske forsøk kan være om en vare er defekt eller i orden, eller om deltakerne i en spørreundersøkelse har svart «ja» eller «nei».

Ved kast med en rettferdig mynt er altså sannsynligheten for suksess p = 0,5, noe som resulterer i en symmetrisk sannsynlighetsfordeling. Men bruker vi en juksemynt som 3 av 4 ganger gir kron, vil vi fremdeles ha et binomisk forsøk, men nå med p = 0,75 og en punktsannsynlighet som vist under. Vi ser at den er skjev, med tyngdepunkt til høyre. Naturligvis er det mer sannsynlig å få mange kron enn å få mange mynt når sannsynligheten for kron er 0,75 og sannsynligheten for mynt er 0,25.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter, med en juksemynt med p = 0,75

Hvis x er antall suksesser i et binomisk forsøk, p sannsynligheten for suksess, og n antall forsøk, er P(X) gitt ved

$\fbox{Binomisk fordeling: $P(X = x) = {\large \binom{n}{x}} p^x (1 – p)^{(n – x)}$}$

Eksempel 2:

Vi skal bruke både formelen for binomisk fordeling og tabellen over binomisk fordeling til å beregne tre sannsynligheter ved kast med 5 rettferdige mynter. Her har vi at n = 5 og p = 0,5.

  1. Sannsynligheten for 3 kron.
     
    Bruker vi formelen, får vi:
    $P(X = 3) = {\large \binom{5}{3}} (0{,}5)^3 (1 – 0,5)^{(5 – 3)} = 0{,}3125$.
     
    Tabellen er kumulativ, så vi finner vi ikke denne verdien direkte. Vi må i stedet finne sannsynligheten for å få 3 eller færre kron og trekke fra sannsynligheten for å få to eller færre kron:
    $P(X = 3) = P(X \le 3) – P(X \le 2) \approx 0{,}8125 – 0{,}5000 = 0{,}3125$.
     
    Markert med rødt i bildet under.
     
  2. Sannsynligheten for 1 kron eller mindre.
     
    Bruker vi formelen, må vi addere sannsynlighetene for å få 0 eller 1 kron:
    $P(X \le 1) = P(X = 1) + P(X = 0) =$
    ${\large \binom{5}{1}} (0,5)^1 (1 – 0{,}5)^{(5 – 1)} + {\large \binom{5}{0}} (0{,}5)^0 (1 – 0{,}5)^{(5 – 0)} \approx 0{,}0313 + 0{,}1563 = 0{,}1875$.
     
    Slår vi opp i tabellen, finner vi direkte
    $P(X \le 1) \approx 0{,}1875$.
     
    Markert med blått i bildet under.
     
  3. Sannsynligheten for 4 kron eller mindre.
     
    Bruker vi formelen, kan vi addere sannsynlighetene for 4, 3, 2, 1 og 0 kron, men det er enklere å basere seg på sannsynligheten for den komplementære hendelsen, 5 kron:
    $P(X \le 4) = 1 – P(X = 5) =$
    $1 – {\large \binom{5}{5}} (0,5)^5 (1 – 0,5)^{(5 – 5)} \approx 1 – 0{,}0313 = 0{,}9687$.
     
    Slår vi opp i tabellen, finner vi direkte
    $P(X \le 4) \approx 0{,}9688$.
     
    Markert med oransje i bildet under.

Eksempler på oppslag i binomisk tabell

SkjermfilmSe filmen «Binomisk fordeling»
 

I Excel beregner vi binomiske sannsynligheter med funksjonen binom.fordeling.n. Vi må da oppgi antall suksesser, antall forsøk, forsøkenes sannsynlighet, og om vi skal beregne kumulativ sannsynlighet eller punktsannsynlighet. sann betyr kumulativ sannsynlighet, usann betyr ikke-kumulativ, altså punktsannsynlighet.

RegnearkÅpne et regneark med beregningene fra eksempel 2

 

Tilsvarende funksjon i GeoGebra heter fordelingbinomial. Her er rekkefølgen på parameterne annerledes, vi angir antall forsøk, forsøkenes sannsynlighet, antall suksesser, true for kumulativ sannsynlighet og false for punktsannsynlighet.

For eksempel skriver vi =binom.fordeling.n(3; 5; 0,5; usann) i Excel og fordelingbinomial(5, 0.5, 3, false) i GeoGebra for å beregne sannsynligheten i eksempel 2.1 og =binom.fordeling.n(1; 5; 0,5; sann) i Excel og fordelingbinomial(5, 0.5, 1, true) i GeoGebra for å beregne sannsynligheten i eksempel 2.2.

I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra

Oppgave 1:

La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Beregn både ved formel og oppslag i binomisk fordelingstabell:

  1. P(X = 4)
     
  2. P(X ≤ 2)
     
  3. P(X ≤ 6)

Kontroller svarene i Excel eller GeoGebra.

Uten å regne ut, anslå om P(X = 7) er større, lik, eller lavere enn P(X = 1)?

Se løsningsforslag

Eksempel 3:

I oppgave 3 i artikkelen om sammensatte hendelser brukte vi produkt- og addisjonsprinsipper for å beregne sannsynlighetene for hvordan tre tegnestifter vi kastet ble liggende, når sannsynligheten for å havne med spissen opp var ${\large \frac{2}{3}}$. Vi kan gjøre de samme beregningene ved å betrakte tegnestiftkast som en binomisk situasjon. Kaller vi «spiss opp» for suksess, får vi følgende sannsynligheter:

    1. Alle havner med spiss opp.
      $P(X = 3) = {\large \binom{3}{3}} (\frac{2}{3})^3 (1 – \frac{2}{3})^{(3 – 3)} \approx 0{,}2963$
       
    2. Alle havner med spiss ned.
      $P(X = 0) = {\large \binom{3}{0}} (\frac{2}{3})^0 (1 – \frac{2}{3})^{(3 – 0)} \approx 0{,}0370$
       
    3. To havner med spiss opp og én med spiss ned.
      $P(X = 2) = {\large \binom{3}{2}} (\frac{2}{3})^2 (1 – \frac{2}{3})^{(3 – 2)} \approx 0{,}4444$
       
    4. To havner med spiss ned og én med spiss opp.
      $P(X = 1) = {\large \binom{3}{1}} (\frac{2}{3})^1 (1 – \frac{2}{3})^{(3 – 1)} \approx 0{,}2222$

Dette er de samme tallene vi fant med produkt- og addisjonsprinsipper. Metoden med binomisk sannsynlighet er imidlertid mye lettere å utvide hvis en har flere tegnestifter.

Eksempel 4:

Norsk Tipping har en artikkel om at noen tall i spillet Extra trekkes oftere enn andre. De mest ekstreme eksemplene er et tall som er trukket så lite som 26 ganger, og et tall som er trukket så mye som 43 ganger i løpet av et år. Her skal vi regne ut hvor sannsynlige disse hendelsene egentlig er.

I Extra trekkes 47 av 75 mulige tall, noe som gir en sannsynlighet på om lag 0,63 for at et gitt tall skal bli trukket. Siden Extra trekkes ukentlig, kan vi regne med at det er 52 trekninger i et år.

I en gitt trekning har et tall to muligheter, det blir enten trukket, eller det blir ikke trukket. Sannsynligheten for å bli trukket er den samme i alle trekninger, og trekningene er uavhengige. Så antall ganger et tall blir trukket i løpet av et år, oppfyller kravene til en binomisk fordeling.

Kaller vi hendelsen å bli trukket for suksess, har vi altså p(suksess) ≈ 0,63. Og siden vi har 52 trekninger i et år, har vi n = 52.

Sannsynligheten for å bli trukket 26 ganger blir

$P(X = 26) \approx {\large \binom{52}{26}} 0{,}63^{26} (1 – 0{,}63)^{(52 – 26)} \approx 0,0178$. Ca. 1,78 %.

Og sannsynligheten for å bli trukket 43 ganger blir da

$P(X = 43) \approx {\large \binom{52}{43}} 0{,}63^{43} (1 – 0{,}63)^{(52 – 43)} \approx 0,0011$. Ca. 0,11 %.

Men mer interessant enn å spørre om sannsynligheten for å bli trukket akkurat 26 ganger og akkurat 43 ganger, er det å spørre om sannsynligheten for å bli trukket så sjelden som 26 ganger, og så ofte som 43 ganger, altså P(X ≤ 26) og P(X ≥ 43).

I Excel og GeoGebra beregner vi P(X ≤ 26) ved å skrive henholdsvis
= binom.fordeling.n(26; 52; 0,63; sann) og FordelingBinomial(52, 0.63, 26, true)
og får om lag 0,0377, ca. 3,77 %.

For å beregne P(X ≥ 43), beregner vi 1 – P(X ≤ 42), og skriver henholdsvis
= 1 – binom.fordeling.n(42; 52; 0,63; sann) og 1 – FordelingBinomial(52, 0.63, 42, true)
og får om lag 0,0017, ca. 0,17 %.

For å angi at en tilfeldig variabel, X, er binomisk fordelt i n forsøk med suksess-sannsynlighet p, skriver vi

$\fbox{$X \sim Bin(n, p)$}$

I artikkelen om forventning og varians lærte vi at forventningen til et stokastisk forsøk anga forventet middelverdi for utfallene, mens variansen anga forventet spredning av utfallene. Hvis X ~ Bin(n, p), har vi at

$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= np(1 – p) \end{align}$}$

At forventningen øker proporsjonalt med antall forsøk er intuitivt rimelig. Jo flere forsøk vi gjør, jo flere suksesser kan vi forvente til sammen. At forventningen øker proporsjonalt med sannsynligheten for suksess er også rimelig. Jo større sannsynlighet for suksess, jo flere suksesser kan vi forvente.

Når det gjelder variansen, er det også intuitivt rimelig at den øker med antall forsøk. Jo flere forsøk, jo flere resultater spredt utover. Når det gjelder sannsynligheten, vil p(1 – p) ha sin høyeste verdi når p = 0,5. Vi får altså størst varians når sannsynligheten for suksess og fiasko er den samme. Dette er også intuitivt rimelig, for jo større sannsynligheten for suksess eller fiasko er, jo mer vil resultatene klumpe seg rundt dette resultatet. Drar vi det helt ut i det ekstreme og setter p = 1 eller p = 0, vil vi bare få suksesser eller bare fiaskoer, og variansen blir 0.

Eksempel 5:

Figuren under viser tre binomiske fordelinger med 100 forsøk og sannsynligheter på henholdsvis 0,1, 0,5 og 0,9.

Kurver som vise binomialfordelinger med 100 forsøk og sannsynligheter på 0,1, 0,5 og 0,9

For den blå fordelingen, som viser X ~ Bin(100, 0,1), får vi E(X) = 100 · 0,1 = 10 og Var(X) = 100 · 0,1 · (1 – 0,1) = 9.

For den røde fordelingen, som viser X ~ Bin(100, 0,5), får vi E(X) = 100 · 0,5 = 50 og Var(X) = 100 · 0,5 · (1 – 0,5) = 25.

For den grønne fordelingen, som viser X ~ Bin(100, 0,9), får vi E(X) = 100 · 0,9 = 90 og Var(X) = 100 · 0,9 · (1 – 0,9) = 9.

Vi ser at forventningen i alle tre tilfeller havner der fordelingene har toppen. Og vi ser at variansen er større når sannsynligheten er 0,5 enn når den er 0,1 og 0,9. Dette stemmer med figuren, for vi ser at den røde fordelingen er bredere enn de to andre.

Oppgave 2:

Finn E(X) og Var(X) når

  1. X er antall kron i 10 kast med en rettferdig mynt.
     
  2. X er antall seksere i 5 kast med en rettferdig terning.

Se løsningsforslag

Hypergeometrisk fordeling

I artikkelen om kombinatorikk, eksempel 12, studerte vi kombinasjonsmuligheter når vi valgte fra en mengde som besto av både 11 gutter og 8 jenter, og så at antall kombinasjonsmuligheter med 2 gutter og to jenter var gitt ved

${\large \binom{11}{2}\binom{8}{2}}$

Generaliserer vi dette, og sier at mengden består av a gutter og b jenter, blir antall kombinasjonsmuligheter med x gutter og y jenter

${\large \binom{a}{x}\binom{b}{y}}$

Så generaliserer vi enda mer, og sier at mengden består av totalt N elementer, hvorav M er spesielle. Det betyr at NM er ikke-spesielle. Så trekker vi ut totalt n elementer. Er x av disse spesielle, må nx være ikke-spesielle. Og antall kombinasjonsmuligheter vil være gitt ved

${\large \binom{M}{x}\binom{N-M}{n-x}}$

Totalt kan vi velge n blant N elementer, så antall kombinasjonsmuligheter totalt blir

${\large \binom{N}{n}}$

Bruker vi så «gunstige på mulige», får vi et uttrykk for sannsynligheten for at et tilfeldig utvalg på n elementer fra totalt N, der M er spesielle, inneholder x spesielle elementer. Dette kaller vi en hypergeometrisk sannsynlighetsfordeling.

$\fbox{Hypergeometrisk fordeling: $P(X = x) = \frac{\displaystyle \binom{M}{x} \binom{N – M}{n – x}}{\displaystyle \binom{N}{n}}$}$

Et gitt element kan altså være spesielt eller ikke-spesielt. Dette minner litt om den binomiske sannsynlighetsfordelingen, der vi også hadde to muligheter, suksess eller fiasko. Men i motsetning til en binomisk situasjon, er det her avhengighet mellom forsøkene. Sannsynligheten for hva vi trekker vil variere med hva vi har trukket tidligere. Trekker vi få elementer fra en stor mengde, er imidlertid forskjellen på binomisk og hypergeometrisk fordeling liten.

Eksempel 6:

Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.

Mengden vi trekker fra består av N = 52 elementer, av disse er M = 13 spesielle, altså spar. Vi trekker n = 5 ganger og skal finne sannsynligheten for at X = 2. Vi får

$P(X = 2) = \frac{\displaystyle \binom{13}{2} \cdot \binom{52 – 13}{5 – 2}}{\displaystyle \binom{52}{5}} \approx 0{,}2743$.

Det er ca. 27 % sannsynlig å få en hånd med akkurat 2 spar, noe som er det samme som vi fant i oppgave 5 i artikkelen om kombinatorikk. Vi ser at det som står i telleren er antall kombinasjoner som gir to spar multiplisert med antall kombinasjoner av tre andre kort. I nevneren står antall kombinasjoner totalt med fem av femtito kort.

En hypergeometrisk fordeling har så mange variabler at det er vanskelig å sette opp sannsynlighetene i en praktisk tabell.

I Excel beregner vi hypergeometriske sannsynligheter med funksjonen hypgeom.fordeling.n. Vi må da oppgi hvor mange spesielle elementer vi ønsker sannsynligheten for, utvalgets størrelse, antall spesielle elementer totalt, antall elementer totalt, true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel =hypgeom.fordeling.n(2; 5; 13; 52; usann) for å gjøre beregningen i eksempel 6.

Tilsvarende funksjon i GeoGebra heter FordelingHypergeometrisk. Her er rekkefølgen på variablene annerledes, vi angir antall elementer totalt, antall spesielle elementer totalt, utvalgets størrelse, hvor mange spesielle elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel FordelingHypergeometrisk(52,13, 5, 2, false) for å gjøre beregningen i eksempel 6.

I GeoGebra kan vi også bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

Oppgave 3:

I en forening med 65 medlemmer er 13 negative til et forslag. Hvis vi velger 20 representanter tilfeldig fra gruppen, hva er da sannsynligheten for at

  1. Ingen av representantene er negative.
     
  2. Én av representantene er negativ.
     
  3. To eller flere av representantene er negative.

Gjør beregningene ved hjelp av formelen for hypergeometrisk fordeling, og kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

Eksempel 7:

I eksempel 14 i artikkelen om kombinatorikk så vi at sannsynligheten for å få 7 rette i Lotto var om lag 1,859 · 10-7, fordi det bare finnes 1 vinnerrekke av totalt 5 379 616, og ${\large \frac{1}{5 \, 379 \, 616}} \approx 1{,}858 9 \cdot 10^{\text{-}7}$.

Det utbetales imidlertid også gevinst for 6 rette. Og 6 rette er enklere å få fordi det finnes mange flere rekker med 6 rette. Hvert av de 7 vinnertallene kan vi nemlig bytte ut med hvert av de 34 – 7 = 27 tallene som ikke er vinnertall, noe som gir 7 · 27 = 189 muligheter, og en vinnersannsynlighet på

${\large \frac{189}{5 \, 379 \, 616}} \approx 3{,}5133 \cdot 10^{-5}$.

En annen måte å komme fram til denne sannsynligheten på er imidlertid å tenke på lottotrekning som en hypergeometrisk situasjon der vi trekker 7 tall fra en mengde på 34, der 7 er spesielle (vinnertallene), og så beregner hva sannsynligheten for å få 6 av de spesielle er. Vi får

$P(X = 6) = \frac{\displaystyle \binom{7}{6} \cdot \binom{34 – 7}{7 – 6}}{\displaystyle \binom{34}{7}} \approx 3{,}5133 \cdot 10^{-5}$.

Sannsynligheten for å få 6 rette er om lag 0,00351 %.

(I Lotto trekkes også et tilleggstall, og blant de 189 rekkene vil det være 7 som har 6 rette + 1 tilleggstall, noe som gir høyere gevinst. Det tar vi imidlertid ikke hensyn til i denne modellen.)

Oppgave 4:

Det utbetales også gevinst for 5 og 4 rette i Lotto. Bruk formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få henholdsvis 5 og 4 rette.

Se løsningsforslag

I en hypergeometrisk fordeling er forventning og varians gitt ved

$\fbox{$\begin{align} E(X) &= n \cdot \frac{\displaystyle M}{\displaystyle N} \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot n \cdot \frac{\displaystyle M}{\displaystyle N} \cdot \Big(1 – \frac{\displaystyle M}{\displaystyle N} \Big) \end{align}$}$

Brøken $\frac{\displaystyle M}{\displaystyle N}$ representerer egentlig sannsynligheten for å trekke et spesielt element, fordi M er antall spesielle elementer og N er antall elementer totalt. (Gunstige på mulige). Kaller vi denne sannsynligheten p, altså $p = \frac{\displaystyle M}{\displaystyle N}$, får vi

$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot np (1 – p) \end{align}$}$

Vi ser at forventningen er den samme som i en binomisk fordeling, og det eneste som skiller variansen fra en binomisk fordeling er faktoren $\frac{\displaystyle N – n}{\displaystyle N – 1}$. Trekker vi imidlertid bare noen få av et stort antall, slik at N er mye større enn n, blir denne faktoren nokså nærme 1 og kan ignoreres.

Oppgave 5:

La X være antall negativt innstilte representanter i utvalget fra oppgave 3. Finn E(X) og Var(X).

Se løsningsforslag

Poissonfordeling

I avsnittene om binomisk og hypergeometrisk fordeling har vi gjort et bestemt antall forsøk, $n$, med gitte sannsynligheter, $p$, eller forhold, ${\large \frac{M}{N}}$. Av og til kjenner vi imidlertid ikke noe av dette, vi vet bare at en hendelse opptrer med en viss hyppighet. Det kan for eksempel være antall kunder som kommer til en kiosk i et gitt tidsrom, eller antall bakterier i en blodprøve. I det første tilfellet snakker vi om hyppighet i tid, i det andre hyppighet i volum. Hyppigheten betegnes med den greske bokstaven lambda, λ.

I slike tilfeller vil vi kunne beregne sannsynligheten for at en hendelse opptrer et bestemt antall ganger ved å bruke en poissonfordeling, oppkalt etter den franske matematikeren Siméon Denis Poisson. Hvis hendelsen opptrer med hyppighet λ , er poissonfordelingen gitt ved

$\fbox{Poissonfordeling: $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{- \lambda}$}$

Vi forutsetter da at

Hendelsene er uavhengige.

λ er konstant. 

Ingen av hendelsene inntreffer samtidig.

Eksempel 8:

I et skogsområde er det i gjennomsnitt 8 trær per mål, og vi skal finne sannsynligheten for at det på et vilkårlig område på 1 mål er henholdsvis 7, 12 og færre enn 2 trær. Vi forutsetter at forekomsten av trær er uavhengig og konstant i området, og to forekomster kan ikke inntreffe samtidig, siden trær ikke kan stå oppå hverandre. Vi skal bruke både formelen for poissonfordeling og tabellen over poissonfordeling med λ = 8.

P(X = 7):

Formel: ${\large \frac{8^{7}}{7!}}e^{-8} \approx 0{,}1396$.

Tabell: Siden tabellen er kumulativ, må vi finne sannsynligheten for 7 eller færre trær og trekke fra sannsynligheten for 6 eller færre: $P(X \le 7) – P(X \le 6) \approx 0{,}4530 – 0{,}3134 = 0{,}1396$. Markert med rødt i bildet under.

P(X = 12):

Formel: ${\large \frac{8^{12}}{12!}}e^{-8} \approx 0{,}0481$.

Tabell: $P(X \le 12) – P(X \le 11) \approx 0{,}9362 – 0{,}8881 = 0{,}0481$. Markert med blått i bildet under.

P(X ≤ 2):

Formel: Her må vi summere sannsynlighetene for 2, 1 og 0 trær:
${\large \frac{8^{2}}{2!}}e^{-8} + {\large \frac{8^{1}}{1!}}e^{-8} + {\large \frac{8^{0}}{0!}}e^{-8}\approx 0{,}0107 + 0{,}0027 + 0{,}0003 = 0{,}0138$.

Tabell: Vi finner direkte $P(X \le 2) \approx 0{,}0138$. Markert med oransje i bildet under.

Eksempler på oppslag i poissontabell

I Excel beregner vi poissonsannsynligheter med funksjonen poisson.fordeling. Vi må da oppgi antallet vi ønsker sannsynligheten for, median (lambda), og true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet.. For eksempel skriver vi henholdsvis =poisson.fordeling(7;8;usann), =poisson.fordeling(12;8;usann) og =poisson.fordeling(2;8;sann) for å gjøre beregningene i eksempel 8.

Tilsvarende funksjon i GeoGebra heter FordelingPoisson. Her er rekkefølgen på parameterne annerledes, vi angir median, antall elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel skriver vi henholdsvis FordelingPoisson(8, 7, false)FordelingPoisson(8, 12, false) og FordelingPoisson(8, 2, true) for å gjøre beregningene i eksempel 8.

Oppgave 6:

I en vannprøve er det i gjennomsnitt to hoppekreps. Vi forutsetter at forekomsten av hoppekreps er poissonfordelt. Bruk både formel og poissonfordelingstabell til å finne ut hva sannsynligheten da er for at en annen, like stor vannprøve inneholder

  1. Ingen hoppekreps.
     
  2. Én hoppekreps.
     
  3. To eller flere hoppekreps.

Kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

I en poissonfordeling er forventning og varians gitt ved

$\fbox{$\begin{align} E(X) = \lambda \\
Var(X) = \lambda
\end{align}$}$

 

Tilnærme én fordeling med en annen
 

Tilnærme hypergeometrisk med binomisk

I en hypergeometrisk fordeling har vi trekning uten tilbakelegging. Men hvis vi bare trekker ut noen få, og mengden vi trekker fra er stor, betyr dette lite. Vi kan da tilnærme den hypergeometriske fordelingen med en binomisk, der $p = {\large \frac{M}{N}}$, altså forholdet mellom M spesielle av i alt N elementer.

En binomisk tilnærming regnes som god hvis $n \le {\large \frac{N}{20}}$, det vil si at vi trekker mindre enn en tjuendedel av det totale antallet.

Fordelen med en tilnærming er at utregningene blir enklere, og vi slipper å ha med N og M i beregningene. Dette er en fordel fordi hvis N og/eller M er store, risikerer vi å få problemer med kalkulatorer og dataprogrammer på grunn av svært høye tall i mellomregningene. Varians er også mye enklere å beregne i en binomisk fordeling.

Eksempel 9:

I et vareparti på 1000 enheter er 5 % av varene defekte. Vi trekker 10 varer tilfeldig og lurer på hvor stor sannsynligheten er for at ingen av dem er defekte.

Sannsynligheten for å trekke defekte er hypergeometrisk fordelt, med N = 1000, M = 1000 · 0,05 = 50 og n = 10, så vi får

$P(X = 0) = \frac{\displaystyle \binom{50}{0} \cdot \binom{1000 – 50}{10 – 0}}{\displaystyle \binom{1000}{10}} \approx 0{,}5973$.

Vi trekker imidlertid bare $n = 10$ av $N = 1000$, og $10 < {\large \frac{1000}{20}}=50$, så vi får en god tilnærming med en binomialfordeling med n = 10 og $p = {\large \frac{M}{N}} = {\large \frac{50}{1000}} = 0{,}05$:

$P(X = 0) = {\large \binom{10}{0}} (0,05)^0 (1 – 0,05)^{10 – 0} \approx 0{,}5987$.

Vi ser at feilen i forhold til svaret vi fikk da vi brukte hypergeometrisk fordeling bare er ca. $0{,}5987 – 0{,}5973 = 0{,}0014$.

Eksempel 10:

Vi vil finne ut hva forventning og varians er i en hypergeometrisk fordeling og en binomialfordeling basert på dataene fra eksempel 9.

Hypergeometrisk:

$E(X) = 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} = 0{,}5$.

$Var(X) = \Big( \frac{\displaystyle 1000 – 50}{\displaystyle 1000 – 1} \Big) \cdot 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} \cdot \Big(1 – \frac{\displaystyle 50}{\displaystyle 1000} \Big) \approx 0{,}4517$.

Binomisk:

$E(X) = 10 \cdot 0{,}05 = 0{,}5$.

$Var(X) = 10 \cdot 0{,}05(1 – 0{,}05) = 0{,}4750$.

Vi ser at forventningene i begge tilfeller er like, men variansen er ørlite høyere i den binomiske fordelingen. Det er rimelig siden variasjonsmulighetene er flere når vi kan trekke samme element flere ganger.

Figurene under viser sannsynlighetene i en hypergeometrisk fordeling og en tilnærming med en binomisk fordeling når vi trekker $n = 50$ elementer fra en mengde der halvparten er spesielle. I figuren til venstre er $N = 100$, så $n \not \le {\large \frac{N}{20}}$ og tilnærmingen er dårlig. Vi ser at den binomiske fordelingen er for lav og bred. I figuren til høyre er $N = 1000$, så $n = {\large \frac{N}{20}}$ og tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av hypergeometrisk fordeling med binomisk når N = 2n
$N = 100, n = 20$
Tilnærming av hypergeometrisk fordeling med binomisk når N = 20n
$N = 1000, n = 20$

Oppgave 7:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig, og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten. Vi kan ikke trekke samme innbygger to ganger, så denne situasjonen er uten tilbakelegging og vi har en hypergeometrisk sannsynlighetsfordeling.

  1. Beregn sannsynligheten for at gruppen er delt på midten ved å bruke hypergeometrisk fordeling.
     
  2. Avgjør om en tilnærming med binomisk fordeling vil være god.
     
  3. Beregn den samme sannsynligheten ved å bruke binomisk fordeling.
     
  4. Angi hvor stor feilen ved å bruke binomisk fordeling ble hvis du tar med fire siffer bak komma.

Se løsningsforslag

Tilnærme binomisk med poisson

Hvis antall forsøk i en binomisk fordeling, n, er stort og sannsynligheten for suksess, p, er liten, kan vi tilnærme en binomisk fordeling med en poissonfordeling med λ = n · p.

En slik tilnærming regnes som god hvis n > 50 og p ≤ 0,05.

Eksempel 11:

I spillet Dungeons and Dragons brukes blant annet en 20-sidet terning. Vi vil undersøke hvor stor sannsynligheten er for å få «20 minst én gang» når vi kaster 75 ganger. Det letteste er her å basere seg på sannsynligheten til komplementhendelsen «20 ingen ganger».

Vi bruker først binomisk fordeling med $n = 75$ og $p = {\large \frac{1}{20}} = 0{,}05$.

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \binom{75}{0}} (0{,}05)^0 (1 – 0,05)^{75 – 0} \approx 0{,}9787$.

Vi har $n = 75$ og $p = 0{,}05$, så vi oppfyller kravet til en god tilnærming med poisson, selv om $p$ er helt på grensen.

Vi får $\lambda = 75 \cdot 0{,}05 = 3{,}75$ og

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \frac{(3,75)^0}{0!}}e^{-3,75} \approx 0{,}9765$, en feil på $0{,}0022$.

Figurene under viser kurver for sannsynlighetene i en binomisk fordeling og en tilnærming med en poissonfordeling. Figuren til venstre viser sannsynligheter for antall kron i 100 kast med en mynt. Her er $n = 100$ innenfor grensa på $n > 50$, men $p = 0{,}5$ er langt utenfor grensa på $p \le 0{,}05$, så tilnærmingen er dårlig. Vi ser at poissonfordelingen er altfor lav og bred. Figuren til høyre viser sannsynlighetene for antall «begge seks» i 1000 kast med to terninger. Her er $n = 1000$ godt innenfor grensa på $n > 50$, og $p ={\large \frac{1}{36}}\approx 0{,}0278$ godt innenfor grensa på $p \le 0{,}05$, så tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av binomisk fordeling med poisson når n = 100 og p = 75
$n = 100, p = 0,5$
Tilnærming av binomisk fordeling med poisson når n = 1000 og p = 0,027
$n = 1000, p = \large \frac{1}{6}$

Oppgave 8:

Bruk binomisk sannsynlighetsfordeling til å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Avgjør så om en poissonfordeling kan brukes i dette tilfellet, og beregn i så fall den samme sannsynligheten i en poissonfordeling.

Se løsningsforslag

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
  • Wikipedia: Lotto