Innhold
I artikkelen om begreper i sannsynlighet så vi at når vi kastet en rettferdig terning, var det like stor sannsynlighet for å få 1, 2, 3, 4, 5 og 6. Vi hadde en uniform sannsynlighetsfordeling. I artikkelen om kombinatorikk lærte vi strukturerte metoder for å beregne antall utfall i uniforme modeller, noe som er nyttig å kunne når det er så mange utfall at vi ikke klarer å telle dem opp. For eksempel å beregne antall mulige bridgehender.
I artikkelen om begreper i sannsynlighet så vi også på kast med tre mynter og talte opp kombinasjonene som ga henholdsvis 0, 1, 2 og 3 kron. Det var bare åtte mulige utfall, så det var rimelig enkelt. Øker vi antall mynter, vil vi imidlertid også her se at det fort blir uoverkommelig komplisert å gjøre beregninger ved å telle enkeltutfall. Antall kron i et myntkast er ikke uniformt fordelt, så vi har liten nytte av det vi har lært om kombinatorikk. Imidlertid følger sannsynligheten for «X kron», et annet mønster, som også muliggjør beregning av kombinasjonsmuligheter.
Slike mønstre kaller vi sannsynlighetsfordelinger.
I denne artikkelen ser vi på noen diskrete sannsynlighetsfordelinger, det vil si fordelinger der utfallene har atskilte verdier, for eksempel 1, 2, 3, 4, eller kron og mynt.
Figuren under viser sannsynlighetene for 0, 1, 2, 3, 4 og 5 kron i et kast med 5 mynter.
Vi ser at det er mest sannsynlig å få 2 og 3 kron, og minst sannsynlig å få 0 og 5 kron. Dette skyldes at det er mange flere enkeltutfall som kan kombineres til 2 og 3 enn til 0 og 5. Summen av høydene på søylene er 1, fordi de til sammen dekker utfallsrommet i et stokastisk forsøk, der total sannsynlighet alltid er 1.
Vi kan si at diagrammet viser P(X = x) der X representerer hendelsen «Antall kron i et kast med 5 mynter», og x betegner 0, 1, 2, 3, 4 eller 5. For eksempel betyr P(X = 3) = 0,3125 at sannsynligheten for «3 kron i et kast med 5 mynter» er 0,3125.
Figuren over viser punktfordelingen for X, det vi si at høyden på hver søyle viser sannsynligheten for akkurat den verdien den står over. Ofte er vi imidlertid interessert i den kumulative fordelingen, der vi i stedet for P(X = x) ser på P(X ≤ x), det vil si sannsynligheten for at X er mindre eller lik enn en gitt verdi.
Den kumulative sannsynlighetsfordelingen for «Antall kron i et kast med 5 mynter» er vist under.
«Kumulativ» betyr at noe hoper seg opp, sannsynlighetene hoper seg opp mot høyre. I søylen over X = 2, for eksempel, inngår P(X = 0), P(X = 1) og P(X = 2). Vi ser at det er riktig hvis vi sammenlikner de to diagrammene. I det øverste diagrammet ser vi at P(X = 0) ≈ 0,03, P(X = 1) ≈ 0,16 og P(X = 2) ≈ 0,31, til sammen om lag 0,5, som er høyden på søylen over 2 i det nederste diagrammet.
Den totale søylehøyden i et kumulativt diagram er ikke 1, i stedet er søylen lengst til høyre 1, fordi den inkluderer hele utfallsrommet.
Siden summen av alle sannsynlighetene i utfallsrommet bestandig er 1, vil det følgende vil alltid gjelde:
$\fbox{$P(X > x) = 1 – P(X \le x)$}$
Derfor kan vi i en kumulativ sannsynlighetsfordeling også lett finne sannsynligheter for verdier høyere enn en gitt verdi.
Eksempel 1:
Tabellen under viser verdier for P(X = x) og P(X ≤ x), der X er «Antall kron i et kast med 5 mynter».
x | 0 | 1 | 2 | 3 | 4 | 5 |
P(X = x) | 0,03125 | 0,15625 | 0,31250 | 0,31250 | 0,15625 | 0,03125 |
P(X ≤ x) | 0,03125 | 0,18750 | 0,50000 | 0,81250 | 0,96875 | 1,00000 |
Så skal vi bruke tabellen til å finne P(X = 3), P(X ≤ 3) og P(X > 3).
Av tabellen ser vi at
P(X = 3) = 0,31250.
P(X ≤ 3) = 0,81250.
P(X > 3) = 1 – P(X ≤ 3) = 1- 0,81250 = 0,18750.
Vi kunne også enkelt ha funnet P(X > 3) som P(X = 4) + P(X = 5) = 0,15625 + 0,03125 = 0,18750.
Før i tida var en avhengig av tabeller med sannsynlighetsfordelinger, i dag kan vi i stedet gjøre beregningene på kalkulatorer eller med datamaskiner. På dette nettstedet finnes allikevel tabeller over noen sannsynlighetsfordelinger, under menyen «Statistikk» – «Fordelingstabeller». Alle tabellene er kumulative.
GeoGebra har også en egen sannsynlighetskalkulator som beskrives i artikkelen om statistikk i GeoGebra.
Vi skal nå se på noen vanlige sannsynlighetsfordelinger.
Binomisk fordeling
Eksemplet med myntkast representerer en binomisk fordeling. Et forsøk der utfallene følger en binomisk fordeling, har følgende tre karakteristikker:
- Forsøket har to mulige enkeltutfall. Det er vanlig å kalle disse suksess eller fiasko. I eksemplet med myntkast representerer kron suksess og mynt fiasko.
- Sannsynligheten for suksess, p, skal være den samme fra forsøk til forsøk. Det betyr imidlertid ikke at vi alltid må ha p = 0,5, p kan ha alle mulige verdier mellom 0 og 1. I kast med en rettferdig mynt er imidlertid p = 0,5.
- Forsøkene skal være uavhengige. Dette er tilfellet ved myntkast, én mynt påvirker ikke en annen.
Andre eksempler på binomiske forsøk kan være om en vare er defekt eller i orden, eller om deltakerne i en spørreundersøkelse har svart «ja» eller «nei».
Ved kast med en rettferdig mynt er altså sannsynligheten for suksess p = 0,5, noe som resulterer i en symmetrisk sannsynlighetsfordeling. Men bruker vi en juksemynt som 3 av 4 ganger gir kron, vil vi fremdeles ha et binomisk forsøk, men nå med p = 0,75 og en punktsannsynlighet som vist under. Vi ser at den er skjev, med tyngdepunkt til høyre. Naturligvis er det mer sannsynlig å få mange kron enn å få mange mynt når sannsynligheten for kron er 0,75 og sannsynligheten for mynt er 0,25.
Hvis x er antall suksesser i et binomisk forsøk, p sannsynligheten for suksess, og n antall forsøk, er P(X) gitt ved
$\fbox{Binomisk fordeling: $P(X = x) = {\large \binom{n}{x}} p^x (1 – p)^{(n – x)}$}$
Eksempel 2:
Vi skal bruke både formelen for binomisk fordeling og tabellen over binomisk fordeling til å beregne tre sannsynligheter ved kast med 5 rettferdige mynter. Her har vi at n = 5 og p = 0,5.
- Sannsynligheten for 3 kron.
Bruker vi formelen, får vi:
$P(X = 3) = {\large \binom{5}{3}} (0{,}5)^3 (1 – 0,5)^{(5 – 3)} = 0{,}3125$.
Tabellen er kumulativ, så vi finner vi ikke denne verdien direkte. Vi må i stedet finne sannsynligheten for å få 3 eller færre kron og trekke fra sannsynligheten for å få to eller færre kron:
$P(X = 3) = P(X \le 3) – P(X \le 2) \approx 0{,}8125 – 0{,}5000 = 0{,}3125$.
Markert med rødt i bildet under.
- Sannsynligheten for 1 kron eller mindre.
Bruker vi formelen, må vi addere sannsynlighetene for å få 0 eller 1 kron:
$P(X \le 1) = P(X = 1) + P(X = 0) =$
${\large \binom{5}{1}} (0,5)^1 (1 – 0{,}5)^{(5 – 1)} + {\large \binom{5}{0}} (0{,}5)^0 (1 – 0{,}5)^{(5 – 0)} \approx 0{,}0313 + 0{,}1563 = 0{,}1875$.
Slår vi opp i tabellen, finner vi direkte
$P(X \le 1) \approx 0{,}1875$.
Markert med blått i bildet under.
- Sannsynligheten for 4 kron eller mindre.
Bruker vi formelen, kan vi addere sannsynlighetene for 4, 3, 2, 1 og 0 kron, men det er enklere å basere seg på sannsynligheten for den komplementære hendelsen, 5 kron:
$P(X \le 4) = 1 – P(X = 5) =$
$1 – {\large \binom{5}{5}} (0,5)^5 (1 – 0,5)^{(5 – 5)} \approx 1 – 0{,}0313 = 0{,}9687$.
Slår vi opp i tabellen, finner vi direkte
$P(X \le 4) \approx 0{,}9688$.
Markert med oransje i bildet under.
Se filmen «Binomisk fordeling»
I Excel beregner vi binomiske sannsynligheter med funksjonen binom.fordeling.n. Vi må da oppgi antall suksesser, antall forsøk, forsøkenes sannsynlighet, og om vi skal beregne kumulativ sannsynlighet eller punktsannsynlighet. sann betyr kumulativ sannsynlighet, usann betyr ikke-kumulativ, altså punktsannsynlighet.
Åpne et regneark med beregningene fra eksempel 2
Tilsvarende funksjon i GeoGebra heter fordelingbinomial. Her er rekkefølgen på parameterne annerledes, vi angir antall forsøk, forsøkenes sannsynlighet, antall suksesser, true for kumulativ sannsynlighet og false for punktsannsynlighet.
For eksempel skriver vi =binom.fordeling.n(3; 5; 0,5; usann) i Excel og fordelingbinomial(5, 0.5, 3, false) i GeoGebra for å beregne sannsynligheten i eksempel 2.1 og =binom.fordeling.n(1; 5; 0,5; sann) i Excel og fordelingbinomial(5, 0.5, 1, true) i GeoGebra for å beregne sannsynligheten i eksempel 2.2.
I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.
La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Beregn både ved formel og oppslag i binomisk fordelingstabell:
- P(X = 4)
- P(X ≤ 2)
- P(X ≤ 6)
Kontroller svarene i Excel eller GeoGebra.
Uten å regne ut, anslå om P(X = 7) er større, lik, eller lavere enn P(X = 1)?
Eksempel 3:
I oppgave 3 i artikkelen om sammensatte hendelser brukte vi produkt- og addisjonsprinsipper for å beregne sannsynlighetene for hvordan tre tegnestifter vi kastet ble liggende, når sannsynligheten for å havne med spissen opp var ${\large \frac{2}{3}}$. Vi kan gjøre de samme beregningene ved å betrakte tegnestiftkast som en binomisk situasjon. Kaller vi «spiss opp» for suksess, får vi følgende sannsynligheter:
-
- Alle havner med spiss opp.
$P(X = 3) = {\large \binom{3}{3}} (\frac{2}{3})^3 (1 – \frac{2}{3})^{(3 – 3)} \approx 0{,}2963$
- Alle havner med spiss ned.
$P(X = 0) = {\large \binom{3}{0}} (\frac{2}{3})^0 (1 – \frac{2}{3})^{(3 – 0)} \approx 0{,}0370$
- To havner med spiss opp og én med spiss ned.
$P(X = 2) = {\large \binom{3}{2}} (\frac{2}{3})^2 (1 – \frac{2}{3})^{(3 – 2)} \approx 0{,}4444$
- To havner med spiss ned og én med spiss opp.
$P(X = 1) = {\large \binom{3}{1}} (\frac{2}{3})^1 (1 – \frac{2}{3})^{(3 – 1)} \approx 0{,}2222$
- Alle havner med spiss opp.
Dette er de samme tallene vi fant med produkt- og addisjonsprinsipper. Metoden med binomisk sannsynlighet er imidlertid mye lettere å utvide hvis en har flere tegnestifter.
Eksempel 4:
Norsk Tipping har en artikkel om at noen tall i spillet Extra trekkes oftere enn andre. De mest ekstreme eksemplene er et tall som er trukket så lite som 26 ganger, og et tall som er trukket så mye som 43 ganger i løpet av et år. Her skal vi regne ut hvor sannsynlige disse hendelsene egentlig er.
I Extra trekkes 47 av 75 mulige tall, noe som gir en sannsynlighet på om lag 0,63 for at et gitt tall skal bli trukket. Siden Extra trekkes ukentlig, kan vi regne med at det er 52 trekninger i et år.
I en gitt trekning har et tall to muligheter, det blir enten trukket, eller det blir ikke trukket. Sannsynligheten for å bli trukket er den samme i alle trekninger, og trekningene er uavhengige. Så antall ganger et tall blir trukket i løpet av et år, oppfyller kravene til en binomisk fordeling.
Kaller vi hendelsen å bli trukket for suksess, har vi altså p(suksess) ≈ 0,63. Og siden vi har 52 trekninger i et år, har vi n = 52.
Sannsynligheten for å bli trukket 26 ganger blir
$P(X = 26) \approx {\large \binom{52}{26}} 0{,}63^{26} (1 – 0{,}63)^{(52 – 26)} \approx 0,0178$. Ca. 1,78 %.
Og sannsynligheten for å bli trukket 43 ganger blir da
$P(X = 43) \approx {\large \binom{52}{43}} 0{,}63^{43} (1 – 0{,}63)^{(52 – 43)} \approx 0,0011$. Ca. 0,11 %.
Men mer interessant enn å spørre om sannsynligheten for å bli trukket akkurat 26 ganger og akkurat 43 ganger, er det å spørre om sannsynligheten for å bli trukket så sjelden som 26 ganger, og så ofte som 43 ganger, altså P(X ≤ 26) og P(X ≥ 43).
I Excel og GeoGebra beregner vi P(X ≤ 26) ved å skrive henholdsvis
= binom.fordeling.n(26; 52; 0,63; sann) og FordelingBinomial(52, 0.63, 26, true)
og får om lag 0,0377, ca. 3,77 %.
For å beregne P(X ≥ 43), beregner vi 1 – P(X ≤ 42), og skriver henholdsvis
= 1 – binom.fordeling.n(42; 52; 0,63; sann) og 1 – FordelingBinomial(52, 0.63, 42, true)
og får om lag 0,0017, ca. 0,17 %.
For å angi at en tilfeldig variabel, X, er binomisk fordelt i n forsøk med suksess-sannsynlighet p, skriver vi
$\fbox{$X \sim Bin(n, p)$}$
I artikkelen om forventning og varians lærte vi at forventningen til et stokastisk forsøk anga forventet middelverdi for utfallene, mens variansen anga forventet spredning av utfallene. Hvis X ~ Bin(n, p), har vi at
$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= np(1 – p) \end{align}$}$
At forventningen øker proporsjonalt med antall forsøk er intuitivt rimelig. Jo flere forsøk vi gjør, jo flere suksesser kan vi forvente til sammen. At forventningen øker proporsjonalt med sannsynligheten for suksess er også rimelig. Jo større sannsynlighet for suksess, jo flere suksesser kan vi forvente.
Når det gjelder variansen, er det også intuitivt rimelig at den øker med antall forsøk. Jo flere forsøk, jo flere resultater spredt utover. Når det gjelder sannsynligheten, vil p(1 – p) ha sin høyeste verdi når p = 0,5. Vi får altså størst varians når sannsynligheten for suksess og fiasko er den samme. Dette er også intuitivt rimelig, for jo større sannsynligheten for suksess eller fiasko er, jo mer vil resultatene klumpe seg rundt dette resultatet. Drar vi det helt ut i det ekstreme og setter p = 1 eller p = 0, vil vi bare få suksesser eller bare fiaskoer, og variansen blir 0.
Eksempel 5:
Figuren under viser tre binomiske fordelinger med 100 forsøk og sannsynligheter på henholdsvis 0,1, 0,5 og 0,9.
For den blå fordelingen, som viser X ~ Bin(100, 0,1), får vi E(X) = 100 · 0,1 = 10 og Var(X) = 100 · 0,1 · (1 – 0,1) = 9.
For den røde fordelingen, som viser X ~ Bin(100, 0,5), får vi E(X) = 100 · 0,5 = 50 og Var(X) = 100 · 0,5 · (1 – 0,5) = 25.
For den grønne fordelingen, som viser X ~ Bin(100, 0,9), får vi E(X) = 100 · 0,9 = 90 og Var(X) = 100 · 0,9 · (1 – 0,9) = 9.
Vi ser at forventningen i alle tre tilfeller havner der fordelingene har toppen. Og vi ser at variansen er større når sannsynligheten er 0,5 enn når den er 0,1 og 0,9. Dette stemmer med figuren, for vi ser at den røde fordelingen er bredere enn de to andre.
Finn E(X) og Var(X) når
- X er antall kron i 10 kast med en rettferdig mynt.
- X er antall seksere i 5 kast med en rettferdig terning.
Hypergeometrisk fordeling
I artikkelen om kombinatorikk, eksempel 12, studerte vi kombinasjonsmuligheter når vi valgte fra en mengde som besto av både 11 gutter og 8 jenter, og så at antall kombinasjonsmuligheter med 2 gutter og to jenter var gitt ved
${\large \binom{11}{2}\binom{8}{2}}$
Generaliserer vi dette, og sier at mengden består av a gutter og b jenter, blir antall kombinasjonsmuligheter med x gutter og y jenter
${\large \binom{a}{x}\binom{b}{y}}$
Så generaliserer vi enda mer, og sier at mengden består av totalt N elementer, hvorav M er spesielle. Det betyr at N – M er ikke-spesielle. Så trekker vi ut totalt n elementer. Er x av disse spesielle, må n – x være ikke-spesielle. Og antall kombinasjonsmuligheter vil være gitt ved
${\large \binom{M}{x}\binom{N-M}{n-x}}$
Totalt kan vi velge n blant N elementer, så antall kombinasjonsmuligheter totalt blir
${\large \binom{N}{n}}$
Bruker vi så «gunstige på mulige», får vi et uttrykk for sannsynligheten for at et tilfeldig utvalg på n elementer fra totalt N, der M er spesielle, inneholder x spesielle elementer. Dette kaller vi en hypergeometrisk sannsynlighetsfordeling.
$\fbox{Hypergeometrisk fordeling: $P(X = x) = \frac{\displaystyle \binom{M}{x} \binom{N – M}{n – x}}{\displaystyle \binom{N}{n}}$}$
Et gitt element kan altså være spesielt eller ikke-spesielt. Dette minner litt om den binomiske sannsynlighetsfordelingen, der vi også hadde to muligheter, suksess eller fiasko. Men i motsetning til en binomisk situasjon, er det her avhengighet mellom forsøkene. Sannsynligheten for hva vi trekker vil variere med hva vi har trukket tidligere. Trekker vi få elementer fra en stor mengde, er imidlertid forskjellen på binomisk og hypergeometrisk fordeling liten.
Eksempel 6:
Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.
Mengden vi trekker fra består av N = 52 elementer, av disse er M = 13 spesielle, altså spar. Vi trekker n = 5 ganger og skal finne sannsynligheten for at X = 2. Vi får
$P(X = 2) = \frac{\displaystyle \binom{13}{2} \cdot \binom{52 – 13}{5 – 2}}{\displaystyle \binom{52}{5}} \approx 0{,}2743$.
Det er ca. 27 % sannsynlig å få en hånd med akkurat 2 spar, noe som er det samme som vi fant i oppgave 5 i artikkelen om kombinatorikk. Vi ser at det som står i telleren er antall kombinasjoner som gir to spar multiplisert med antall kombinasjoner av tre andre kort. I nevneren står antall kombinasjoner totalt med fem av femtito kort.
En hypergeometrisk fordeling har så mange variabler at det er vanskelig å sette opp sannsynlighetene i en praktisk tabell.
I Excel beregner vi hypergeometriske sannsynligheter med funksjonen hypgeom.fordeling.n. Vi må da oppgi hvor mange spesielle elementer vi ønsker sannsynligheten for, utvalgets størrelse, antall spesielle elementer totalt, antall elementer totalt, true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel =hypgeom.fordeling.n(2; 5; 13; 52; usann) for å gjøre beregningen i eksempel 6.
Tilsvarende funksjon i GeoGebra heter FordelingHypergeometrisk. Her er rekkefølgen på variablene annerledes, vi angir antall elementer totalt, antall spesielle elementer totalt, utvalgets størrelse, hvor mange spesielle elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel FordelingHypergeometrisk(52,13, 5, 2, false) for å gjøre beregningen i eksempel 6.
I GeoGebra kan vi også bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.
I en forening med 65 medlemmer er 13 negative til et forslag. Hvis vi velger 20 representanter tilfeldig fra gruppen, hva er da sannsynligheten for at
- Ingen av representantene er negative.
- Én av representantene er negativ.
- To eller flere av representantene er negative.
Gjør beregningene ved hjelp av formelen for hypergeometrisk fordeling, og kontroller svarene i Excel eller GeoGebra.
Eksempel 7:
I eksempel 14 i artikkelen om kombinatorikk så vi at sannsynligheten for å få 7 rette i Lotto var om lag 1,859 · 10-7, fordi det bare finnes 1 vinnerrekke av totalt 5 379 616, og ${\large \frac{1}{5 \, 379 \, 616}} \approx 1{,}858 9 \cdot 10^{\text{-}7}$.
Det utbetales imidlertid også gevinst for 6 rette. Og 6 rette er enklere å få fordi det finnes mange flere rekker med 6 rette. Hvert av de 7 vinnertallene kan vi nemlig bytte ut med hvert av de 34 – 7 = 27 tallene som ikke er vinnertall, noe som gir 7 · 27 = 189 muligheter, og en vinnersannsynlighet på
${\large \frac{189}{5 \, 379 \, 616}} \approx 3{,}5133 \cdot 10^{-5}$.
En annen måte å komme fram til denne sannsynligheten på er imidlertid å tenke på lottotrekning som en hypergeometrisk situasjon der vi trekker 7 tall fra en mengde på 34, der 7 er spesielle (vinnertallene), og så beregner hva sannsynligheten for å få 6 av de spesielle er. Vi får
$P(X = 6) = \frac{\displaystyle \binom{7}{6} \cdot \binom{34 – 7}{7 – 6}}{\displaystyle \binom{34}{7}} \approx 3{,}5133 \cdot 10^{-5}$.
Sannsynligheten for å få 6 rette er om lag 0,00351 %.
(I Lotto trekkes også et tilleggstall, og blant de 189 rekkene vil det være 7 som har 6 rette + 1 tilleggstall, noe som gir høyere gevinst. Det tar vi imidlertid ikke hensyn til i denne modellen.)
Det utbetales også gevinst for 5 og 4 rette i Lotto. Bruk formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få henholdsvis 5 og 4 rette.
I en hypergeometrisk fordeling er forventning og varians gitt ved
$\fbox{$\begin{align} E(X) &= n \cdot \frac{\displaystyle M}{\displaystyle N} \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot n \cdot \frac{\displaystyle M}{\displaystyle N} \cdot \Big(1 – \frac{\displaystyle M}{\displaystyle N} \Big) \end{align}$}$
Brøken $\frac{\displaystyle M}{\displaystyle N}$ representerer egentlig sannsynligheten for å trekke et spesielt element, fordi M er antall spesielle elementer og N er antall elementer totalt. (Gunstige på mulige). Kaller vi denne sannsynligheten p, altså $p = \frac{\displaystyle M}{\displaystyle N}$, får vi
$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot np (1 – p) \end{align}$}$
Vi ser at forventningen er den samme som i en binomisk fordeling, og det eneste som skiller variansen fra en binomisk fordeling er faktoren $\frac{\displaystyle N – n}{\displaystyle N – 1}$. Trekker vi imidlertid bare noen få av et stort antall, slik at N er mye større enn n, blir denne faktoren nokså nærme 1 og kan ignoreres.
La X være antall negativt innstilte representanter i utvalget fra oppgave 3. Finn E(X) og Var(X).
Poissonfordeling
I avsnittene om binomisk og hypergeometrisk fordeling har vi gjort et bestemt antall forsøk, $n$, med gitte sannsynligheter, $p$, eller forhold, ${\large \frac{M}{N}}$. Av og til kjenner vi imidlertid ikke noe av dette, vi vet bare at en hendelse opptrer med en viss hyppighet. Det kan for eksempel være antall kunder som kommer til en kiosk i et gitt tidsrom, eller antall bakterier i en blodprøve. I det første tilfellet snakker vi om hyppighet i tid, i det andre hyppighet i volum. Hyppigheten betegnes med den greske bokstaven lambda, λ.
I slike tilfeller vil vi kunne beregne sannsynligheten for at en hendelse opptrer et bestemt antall ganger ved å bruke en poissonfordeling, oppkalt etter den franske matematikeren Siméon Denis Poisson. Hvis hendelsen opptrer med hyppighet λ , er poissonfordelingen gitt ved
$\fbox{Poissonfordeling: $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{- \lambda}$}$
Vi forutsetter da at
Hendelsene er uavhengige.
λ er konstant.
Ingen av hendelsene inntreffer samtidig.
Eksempel 8:
I et skogsområde er det i gjennomsnitt 8 trær per mål, og vi skal finne sannsynligheten for at det på et vilkårlig område på 1 mål er henholdsvis 7, 12 og færre enn 2 trær. Vi forutsetter at forekomsten av trær er uavhengig og konstant i området, og to forekomster kan ikke inntreffe samtidig, siden trær ikke kan stå oppå hverandre. Vi skal bruke både formelen for poissonfordeling og tabellen over poissonfordeling med λ = 8.
P(X = 7):
Formel: ${\large \frac{8^{7}}{7!}}e^{-8} \approx 0{,}1396$.
Tabell: Siden tabellen er kumulativ, må vi finne sannsynligheten for 7 eller færre trær og trekke fra sannsynligheten for 6 eller færre: $P(X \le 7) – P(X \le 6) \approx 0{,}4530 – 0{,}3134 = 0{,}1396$. Markert med rødt i bildet under.
P(X = 12):
Formel: ${\large \frac{8^{12}}{12!}}e^{-8} \approx 0{,}0481$.
Tabell: $P(X \le 12) – P(X \le 11) \approx 0{,}9362 – 0{,}8881 = 0{,}0481$. Markert med blått i bildet under.
P(X ≤ 2):
Formel: Her må vi summere sannsynlighetene for 2, 1 og 0 trær:
${\large \frac{8^{2}}{2!}}e^{-8} + {\large \frac{8^{1}}{1!}}e^{-8} + {\large \frac{8^{0}}{0!}}e^{-8}\approx 0{,}0107 + 0{,}0027 + 0{,}0003 = 0{,}0138$.
Tabell: Vi finner direkte $P(X \le 2) \approx 0{,}0138$. Markert med oransje i bildet under.
I Excel beregner vi poissonsannsynligheter med funksjonen poisson.fordeling. Vi må da oppgi antallet vi ønsker sannsynligheten for, median (lambda), og true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet.. For eksempel skriver vi henholdsvis =poisson.fordeling(7;8;usann), =poisson.fordeling(12;8;usann) og =poisson.fordeling(2;8;sann) for å gjøre beregningene i eksempel 8.
Tilsvarende funksjon i GeoGebra heter FordelingPoisson. Her er rekkefølgen på parameterne annerledes, vi angir median, antall elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel skriver vi henholdsvis FordelingPoisson(8, 7, false), FordelingPoisson(8, 12, false) og FordelingPoisson(8, 2, true) for å gjøre beregningene i eksempel 8.
I en vannprøve er det i gjennomsnitt to hoppekreps. Vi forutsetter at forekomsten av hoppekreps er poissonfordelt. Bruk både formel og poissonfordelingstabell til å finne ut hva sannsynligheten da er for at en annen, like stor vannprøve inneholder
- Ingen hoppekreps.
- Én hoppekreps.
- To eller flere hoppekreps.
Kontroller svarene i Excel eller GeoGebra.
I en poissonfordeling er forventning og varians gitt ved
$\fbox{$\begin{align} E(X) = \lambda \\
Var(X) = \lambda
\end{align}$}$
Tilnærme én fordeling med en annen
Tilnærme hypergeometrisk med binomisk
I en hypergeometrisk fordeling har vi trekning uten tilbakelegging. Men hvis vi bare trekker ut noen få, og mengden vi trekker fra er stor, betyr dette lite. Vi kan da tilnærme den hypergeometriske fordelingen med en binomisk, der $p = {\large \frac{M}{N}}$, altså forholdet mellom M spesielle av i alt N elementer.
En binomisk tilnærming regnes som god hvis $n \le {\large \frac{N}{20}}$, det vil si at vi trekker mindre enn en tjuendedel av det totale antallet.
Fordelen med en tilnærming er at utregningene blir enklere, og vi slipper å ha med N og M i beregningene. Dette er en fordel fordi hvis N og/eller M er store, risikerer vi å få problemer med kalkulatorer og dataprogrammer på grunn av svært høye tall i mellomregningene. Varians er også mye enklere å beregne i en binomisk fordeling.
Eksempel 9:
I et vareparti på 1000 enheter er 5 % av varene defekte. Vi trekker 10 varer tilfeldig og lurer på hvor stor sannsynligheten er for at ingen av dem er defekte.
Sannsynligheten for å trekke defekte er hypergeometrisk fordelt, med N = 1000, M = 1000 · 0,05 = 50 og n = 10, så vi får
$P(X = 0) = \frac{\displaystyle \binom{50}{0} \cdot \binom{1000 – 50}{10 – 0}}{\displaystyle \binom{1000}{10}} \approx 0{,}5973$.
Vi trekker imidlertid bare $n = 10$ av $N = 1000$, og $10 < {\large \frac{1000}{20}}=50$, så vi får en god tilnærming med en binomialfordeling med n = 10 og $p = {\large \frac{M}{N}} = {\large \frac{50}{1000}} = 0{,}05$:
$P(X = 0) = {\large \binom{10}{0}} (0,05)^0 (1 – 0,05)^{10 – 0} \approx 0{,}5987$.
Vi ser at feilen i forhold til svaret vi fikk da vi brukte hypergeometrisk fordeling bare er ca. $0{,}5987 – 0{,}5973 = 0{,}0014$.
Eksempel 10:
Vi vil finne ut hva forventning og varians er i en hypergeometrisk fordeling og en binomialfordeling basert på dataene fra eksempel 9.
Hypergeometrisk:
$E(X) = 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} = 0{,}5$.
$Var(X) = \Big( \frac{\displaystyle 1000 – 50}{\displaystyle 1000 – 1} \Big) \cdot 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} \cdot \Big(1 – \frac{\displaystyle 50}{\displaystyle 1000} \Big) \approx 0{,}4517$.
Binomisk:
$E(X) = 10 \cdot 0{,}05 = 0{,}5$.
$Var(X) = 10 \cdot 0{,}05(1 – 0{,}05) = 0{,}4750$.
Vi ser at forventningene i begge tilfeller er like, men variansen er ørlite høyere i den binomiske fordelingen. Det er rimelig siden variasjonsmulighetene er flere når vi kan trekke samme element flere ganger.
Figurene under viser sannsynlighetene i en hypergeometrisk fordeling og en tilnærming med en binomisk fordeling når vi trekker $n = 50$ elementer fra en mengde der halvparten er spesielle. I figuren til venstre er $N = 100$, så $n \not \le {\large \frac{N}{20}}$ og tilnærmingen er dårlig. Vi ser at den binomiske fordelingen er for lav og bred. I figuren til høyre er $N = 1000$, så $n = {\large \frac{N}{20}}$ og tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.
$N = 100, n = 20$ |
$N = 1000, n = 20$ |
Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig, og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten. Vi kan ikke trekke samme innbygger to ganger, så denne situasjonen er uten tilbakelegging og vi har en hypergeometrisk sannsynlighetsfordeling.
- Beregn sannsynligheten for at gruppen er delt på midten ved å bruke hypergeometrisk fordeling.
- Avgjør om en tilnærming med binomisk fordeling vil være god.
- Beregn den samme sannsynligheten ved å bruke binomisk fordeling.
- Angi hvor stor feilen ved å bruke binomisk fordeling ble hvis du tar med fire siffer bak komma.
Tilnærme binomisk med poisson
Hvis antall forsøk i en binomisk fordeling, n, er stort og sannsynligheten for suksess, p, er liten, kan vi tilnærme en binomisk fordeling med en poissonfordeling med λ = n · p.
En slik tilnærming regnes som god hvis n > 50 og p ≤ 0,05.
Eksempel 11:
I spillet Dungeons and Dragons brukes blant annet en 20-sidet terning. Vi vil undersøke hvor stor sannsynligheten er for å få «20 minst én gang» når vi kaster 75 ganger. Det letteste er her å basere seg på sannsynligheten til komplementhendelsen «20 ingen ganger».
Vi bruker først binomisk fordeling med $n = 75$ og $p = {\large \frac{1}{20}} = 0{,}05$.
$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \binom{75}{0}} (0{,}05)^0 (1 – 0,05)^{75 – 0} \approx 0{,}9787$.
Vi har $n = 75$ og $p = 0{,}05$, så vi oppfyller kravet til en god tilnærming med poisson, selv om $p$ er helt på grensen.
Vi får $\lambda = 75 \cdot 0{,}05 = 3{,}75$ og
$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \frac{(3,75)^0}{0!}}e^{-3,75} \approx 0{,}9765$, en feil på $0{,}0022$.
Figurene under viser kurver for sannsynlighetene i en binomisk fordeling og en tilnærming med en poissonfordeling. Figuren til venstre viser sannsynligheter for antall kron i 100 kast med en mynt. Her er $n = 100$ innenfor grensa på $n > 50$, men $p = 0{,}5$ er langt utenfor grensa på $p \le 0{,}05$, så tilnærmingen er dårlig. Vi ser at poissonfordelingen er altfor lav og bred. Figuren til høyre viser sannsynlighetene for antall «begge seks» i 1000 kast med to terninger. Her er $n = 1000$ godt innenfor grensa på $n > 50$, og $p ={\large \frac{1}{36}}\approx 0{,}0278$ godt innenfor grensa på $p \le 0{,}05$, så tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.
$n = 100, p = 0,5$ |
$n = 1000, p = \large \frac{1}{6}$ |
Bruk binomisk sannsynlighetsfordeling til å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Avgjør så om en poissonfordeling kan brukes i dette tilfellet, og beregn i så fall den samme sannsynligheten i en poissonfordeling.
Kilder
- Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
- Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
- Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
- Wikipedia: Lotto