Diskrete sannsynlighetsfordelinger

I artikkelen om begreper i sannsynlighet så vi at når vi kastet en rettferdig terning, var det like stor sannsynlighet for å få 1, 2, 3, 4, 5 og 6. Vi hadde en uniform sannsynlighetsfordeling. I artikkelen om kombinatorikk lærte vi strukturerte metoder for å beregne antall utfall i uniforme modeller, noe som er nyttig å kunne når det er så mange utfall at vi ikke klarer å telle dem opp. For eksempel å beregne antall mulige bridgehender.

I artikkelen om begreper i sannsynlighet så vi også på kast med tre mynter og talte opp kombinasjonene som ga henholdsvis 0, 1, 2 og 3 kron. Det var bare åtte mulige utfall, så det var rimelig enkelt. Øker vi antall mynter, vil vi imidlertid også her se at det fort blir uoverkommelig komplisert å gjøre beregninger ved å telle enkeltutfall. Antall kron i et myntkast er ikke uniformt fordelt, så vi har liten nytte av det vi har lært om kombinatorikk. Imidlertid følger sannsynligheten for "X kron", et annet mønster, som også muliggjør beregning av kombinasjonsmuligheter.

Slike mønstre kaller vi sannsynlighetsfordelinger.

I denne artikkelen ser vi på noen diskrete sannsynlighetsfordelinger, det vil si fordelinger der utfallene har atskilte verdier, for eksempel 1, 2, 3, 4, eller kron og mynt.

Figuren under viser sannsynlighetene for 0, 1, 2, 3, 4 og 5 kron i et kast med 5 mynter.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter

Vi ser at det er mest sannsynlig å få 2 og 3 kron, og minst sannsynlig å få 0 og 5 kron. Dette skyldes at det er mange flere enkeltutfall som kan kombineres til 2 og 3 enn til 0 og 5. Summen av høyden på søylene er 1, fordi de til sammen dekker utfallsrommet i et stokastisk forsøk, der total sannsynlighet alltid er 1.

Vi kan si at diagrammet viser $P(X = x)$ der $X$ representerer hendelsen "Antall kron i et kast med 5 mynter", og $x$ betegner 0, 1, 2, 3, 4 eller 5. For eksempel betyr $P(X = 3) \approx 0{,}31$ at sannsynligheten for "3 kron i et kast med 5 mynter" er omlag 0,31.

Figuren over viser punktfordelingen for $X$, det vi si at høyden på hver søyle viser sannsynligheten for akkurat den verdien den står over. Ofte er vi imidlertid interessert i den kumulative fordelingen, der vi i stedet for $P(X = x)$ ser på $P(X \le x)$, det vil si sannsynligheten for at $X$ er mindre eller lik enn en gitt verdi.

Den kumulative sannsynlighetsfordelingen for "Antall kron i et kast med 5 mynter" er vist under.

Stolpediagram som viser den kumulative sannsynligheten for antall kron i et myntkast med 5 mynter

"Kumulativ" betyr at noe hoper seg opp, sannsynlighetene hoper seg opp mot høyre. I søylen over $X = 2$, for eksempel, inngår $P(X = 0)$, $P(X = 1)$ og $P(X = 2)$. Vi ser at det er riktig hvis vi sammenlikner de to diagrammene. I det øverste diagrammet ser vi at $P(X = 0) \approx 0{,}03$$P(X = 1) \approx 0{,}16$ og $P(X = 2) \approx 0{,}31$, til sammen omlag $0{,}5$, som er høyden på søylen over 2 i det nederste diagrammet.

Den totale søylehøyden i et kumulativt diagram er ikke 1, i stedet er søylen lengst til høyre 1, fordi den inkluderer hele utfallsrommet.

Siden summen av sannsynligheter bestandig er 1, vil det følgende vil alltid gjelde:

$\fbox{$P(X > x) = 1 – P(X \le x)$}$

Derfor kan vi i en kumulativ sannsynlighetsfordeling også lett finne sannsynligheter for verdier høyere enn en gitt verdi. 

Eksempel 1:

Tabellen under viser $P(X = x)$ og $P(X \le x)$, der $X$ er "Antall kron i et kast med 5 mynter".

$x$ 0 1 2 3 4 5
$P(X = x)$ 0,03 0,16 0,31 0,31 0,16 0,03
$P(X \le x)$ 0,03 0,19 0,50 0,81 0,97 1,00

Så skal vi bruke tabellen til å finne $P(X = 3)$, $P(X \le 3)$ og $P(X > 3)$.

Av tabellen ser vi at

$P(X = 3) = 0{,}31$

$P(X \le 3) = 0{,}81$

$P(X > 3) = 1 – P(X \le 3) = 1- 0{,}81 = 0{,}19$

Vi kunne også enkelt ha funnet $P(X > 3)$ som $P(X = 4) + P(X = 5) = 0{,}16 + 0{,}03 = 0{,}19$

Før i tida var en avhengig av tabeller med sannsynlighetsfordelinger, i dag kan vi i stedet gjøre beregningene på kalkulatorer eller datamaskiner. På dette nettstedet finnes allikevel tabeller over noen sannsynlighetsfordelinger, under menyen "Statistikk" – "Fordelingstabeller". Alle tabellene er kumulative.

GeoGebra har også en egen sannsynlighetskalkulator som beskrives i artikkelen om statistikk i GeoGebra.

Vi skal nå se på noen vanlige sannsynlighetsfordelinger.

Binomisk fordeling

Eksemplet med myntkast representerer en binomisk fordeling. Et forsøk der utfallene følger en binomisk fordeling har følgende tre karakteristikker:

  1. Forsøket har to mulige enkeltutfall. Det er vanlig å kalle disse suksess eller fiasko. I eksemplet med myntkastet representerer kron suksess og mynt fiasko.
     
  2. Sannsynligheten for suksess, p, skal være den samme fra forsøk til forsøk. Det betyr imidlertid ikke at vi alltid må ha p = 0,5, p kan ha alle mulige verdier mellom 0 og 1. I kast med en rettferdig mynt er imidlertid p = 0,5.
     
  3. Forsøkene skal være uavhengige. Dette er tilfellet ved myntkast, én mynt påvirker ikke en annen.

Andre eksempler på binomiske forsøk kan være om en vare er defekt eller i orden, eller om deltakerne i en spørreundersøkelse har svart "ja" eller "nei".

Ved kast med en rettferdig mynt er altså sannsynligheten for suksess p = 0,5, noe som resulterer i en symmetrisk sannsynlighetsfordeling. Men bruker vi en juksemynt som 3 av 4 ganger gir kron, ville vi fremdeles ha et binomisk forsøk, men nå med p = 0,75 og en punktsannsynlighet som vist under. Vi ser at den er skjev, med tyngdepunkt til høyre. Naturligvis er det mer sannsynlig å få mange kron enn å få mange mynt når sannsynligheten for kron er 0,75 og sannsynligheten for mynt er 0,25.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter, med en juksemynt med p = 0,75

 

Hvis x er antall suksesser i et binomisk forsøk, p sannsynligheten for suksess og n antall forsøk, er P(X) gitt ved

$\fbox{Binomisk fordeling: $P(X = x) = {\large \binom{n}{x}} p^x (1 – p)^{(n – x)}$}$

Eksempel 2:

Vi skal bruke både binomialformelen over og tabellen over binomisk fordeling til å beregne tre sannsynligheter ved kast med 5 rettferdige mynter. Her har vi at n = 5 og p = 0,5.

  1. Sannsynligheten for 3 kron.
    Bruker vi formelen, får vi:
    $P(X = 3) = {\large \binom{5}{3}} (0{,}5)^3 (1 – 0,5)^{5 – 3} \approx 0{,}3125$.
    Tabellen er kumulativ, så vi finner vi ikke denne verdien direkte. Vi må i stedet finne sannsynligheten for å få 3 eller færre kron og trekke fra sannsynligheten for å få to eller færre kron:
    $P(X = 3) = P(X \le 3) – P(X \le 2) \approx 0{,}8125 – 0{,}5000 = 0{,}3125$.
    Markert med rødt i bildet under.
     
  2. Sannsynligheten for 1 kron eller mindre.
    Bruker vi formelen, må vi addere sannsynlighetene for å få 0 eller 1 kron:
    $P(X \le 1) = P(X = 1) + P(X = 0) = \\
    {\large \binom{5}{1}} (0,5)^1 (1 – 0{,}5)^{5 – 1} + {\large \binom{5}{0}} (0{,}5)^0 (1 – 0{,}5)^{5 – 0} \approx 0{,}0313 + 0{,}1563 = 0{,}1875$
    .
    Slår vi opp i tabellen, finner vi direkte
    $P(X \le 1) \approx 0{,}1875$.
    Markert med blått i bildet under.
     
  3. Sannsynligheten for 4 kron eller mindre.
    Bruker vi formelen, kan vi addere sannsynlighetene for 4, 3, 2, 1 og 0 kron, men det er enklere å basere seg på sannsynligheten for komplementærhendelsen, 5 kron:
    $P(X \le 4) = 1 – P(X = 5) = \\
    1 – {\large \binom{5}{5}} (0,5)^5 (1 – 0,5)^{5 – 5} \approx 1 – 0{,}0313 = 0{,}9688$
    .
    Slår vi opp i tabellen, finner vi direkte
    $P(X \le 4) \approx 0{,}9688$.
    Markert med oransje i bildet under.

Eksempler på oppslag i binomisk tabell

I Excel beregner vi binomiske sannsynligheter med funksjonen binom.fordeling.n. Vi må da oppgi antall suksesser, antall forsøk, forsøkenes sannsynlighet, og om vi skal beregne kumulativ sannsynlighet eller punktsannsynlighet. sann betyr kumulativ sannsynlighet, usann betyr ikke-kumulativ, altså punktsannsynlighet.

Tilsvarende funksjon i GeoGebra heter FordelingBinomial. Her er rekkefølgen på parameterne annerledes, vi angir antall forsøk, forsøkenes sannsynlighet, antall suksesser, true for kumulativ sannsynlighet og false for punktsannsynlighet.

For eksempel skriver vi =binom.fordeling.n(3; 5; 0,5; usann) i Excel og FordelingBinomial(5, 0.5, 3, false) i GeoGebra for å beregne sannsynligheten i eksempel 2.1 og =binom.fordeling.n(1; 5; 0,5; sann) i Excel og FordelingBinomial(5, 0.5, 1, true) i GeoGebra for å beregne sannsynligheten i eksempel 2.2.

I GeoGebra kan vi også bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

RegnearkÅpne et regneark med beregningene fra eksempel 2
 

Oppgave 1:

La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Beregn både ved formel og oppslag i binomisk fordelingstabell:

  1. $P(X = 4)$
     
  2. $P(X \le 2)$
     
  3. $P(X \le 6)$

Kontroller svarene i Excel eller GeoGebra.

Uten å regne ut, vil du anslå at P(X = 7) er større, lik, eller lavere enn P(X = 1)?

Se løsningsforslag

For å angi at en tilfeldig variabel, $X$, er binomisk fordelt i $n$ forsøk med suksessannsynlighet $p$, skriver vi

$\fbox{$X \sim Bin(n, p)$}$

I artikkelen om forventning og varians lærte vi at forventningen til et stokastisk forsøk anga forventet middelverdi for utfallene, mens variansen anga forventet spredning av utfallene. Hvis $X \sim Bin(n, p)$, har vi at

$\fbox{$E(X) = np \\
Var(X) = np(1 – p)$}$

At forventningen øker proporsjonalt med antall forsøk er intuitivt rimelig. Jo flere forsøk vi gjør, jo flere suksesser kan vi forvente til sammen. At forventningen øker proporsjonalt med sannsynligheten for suksess er også rimelig. Jo større sannsynlighet for suksess, jo flere suksesser kan vi forvente.

Når det gjelder variansen, er det også intuitivt rimelig at den øker med antall forsøk. Jo flere forsøk, jo flere resultater spredt utover. Når det gjelder sannsynligheten, vil p(1 – p) ha sin høyeste verdi når p = 0{,}5. Vi får altså størst varians når sannsynligheten for suksess og fiasko er den samme. Dette er også intuitivt rimelig, for jo større sannsynligheten for suksess eller fiasko er, jo mer vil resultatene klumpe seg rundt dette resultatet. Drar vi det helt ut i det ekstreme og setter p = 1 eller p = 0, vil vi bare få suksesser eller bare fiaskoer, og variansen blir 0.

Eksempel 3:

Figuren under viser tre binomiske fordelinger med 100 forsøk og sannsynligheter på henholdsvis 0,1, 0,5 og 0,9.

Kurver som vise binomialfordelinger med 100 forsøk og sannsynligheter på 0,1, 0,5 og 0,9

For den blå fordelingen, som viser $X \sim Bin(100, \; 0{,}1)$, får vi $E(X) = 100 \cdot 0{,}1 = 10$ og $Var(X) = 100 \cdot 0{,}1 \cdot(1 – 0{,}1) = 9$.

For den røde fordelingen, som viser $X \sim Bin(100, \; 0{,}5)$, får vi $E(X) = 100 \cdot 0{,}5 = 50$ og $Var(X) = 100 \cdot 0{,}5 \cdot(1 – 0{,}5) = 25$.

For den grønne fordelingen, som viser $X \sim Bin(100, \; 0{,}9)$, får vi $E(X) = 100 \cdot 0{,}9 = 90$ og $Var(X) = 100 \cdot 0{,}9 \cdot(1 – 0{,}9) = 9$.

Vi ser at forventningen i alle tre tilfeller havner der fordelingene har toppen. Og vi ser at variansen er større når sannsynligheten er 0,5 enn når den er 0,1 og 0,9. Dette stemmer med figuren, for vi ser at den røde fordelingen er bredere enn de to andre.

Oppgave 2:

Finn $E(X)$, $Var(X)$ og $\sigma(X)$ når

  1. $X$ er antall kron i 10 kast med en rettferdig mynt.
     
  2. $X$ er antall seksere i 5 kast med en rettferdig terning.

Se løsningsforslag

Hypergeometrisk fordeling

I artikkelen om kombinatorikk studerte vi kombinasjonsmuligheter når vi trakk ut elementer fra en gitt mengde. Slike uttrekninger oppfyller ikke kravene til et binomisk forsøk fordi det er avhengighet mellom forsøkene. Sannsynligheten for hva vi trekker vil variere med hva vi har trukket før. P(X = x) i et slikt tilfelle følger ikke en binomisk, men en hypergeometrisk sannsynlighetsfordeling.

I en hypergeometrisk fordeling snakker vi ikke om suksess eller fiasko, men om "spesielle elementer" i et utvalg, for eksempel "spar" i en kortstokk. Hvis vi har en grunnmengde med $N$ elementer der $M$ er spesielle, er sannsynligheten for at vi får $X = x$ spesielle elementer når vi trekker $n$ ganger gitt ved:

$\fbox{Hypergeometrisk fordeling: $P(X = x) = \frac{\displaystyle \binom{M}{x} \binom{N – M}{n – x}}{\displaystyle \binom{N}{n}}$}$

Å regne ut uttrykk som ${\large \binom{M}{x}}$ lærte vi i artikkelen om kombinatorikk.

Eksempel 4:

Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.

Mengden vi trekker fra består av N = 52 elementer, av disse er M = 13 spesielle, altså spar. Vi trekker n = 5 ganger og skal finne sannsynligheten for at X = 2. Vi får

$P(X = 2) = \frac{\displaystyle \binom{13}{2} \cdot \binom{52 – 13}{5 – 2}}{\displaystyle \binom{52}{5}} \approx 0{,}27$.

Det er ca. 27 % sannsynlig å få en hånd med akkurat 2 spar, noe som er det samme som vi fant i oppgave 5 i artikkelen om kombinatorikk. Vi ser at det som står i telleren er antall kombinasjoner som gir to spar multiplisert med antall kombinasjoner av tre andre kort. I nevneren står antall kombinasjoner totalt med fem av femtito kort.

En hypergeometrisk fordeling har så mange parametere at det er vanskelig å sette opp sannsynlighetene i en praktisk tabell.

I Excel beregner vi hypergeometriske sannsynligheter med funksjonen hypgeom.fordeling.n. Vi må da oppgi hvor mange spesielle elementer vi ønsker sannsynligheten for, utvalgets størrelse, antall spesielle elementer totalt, antall elementer totalt, true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel =hypgeom.fordeling.n(2; 5; 13; 52; usann) for å gjøre beregningen i eksempel 4.

Tilsvarende funksjon i GeoGebra heter FordelingHypergeometrisk. Her er rekkefølgen på parameterne annerledes, vi angir antall elementer totalt, antall spesielle elementer totalt, utvalgets størrelse, hvor mange spesielle elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel FordelingHypergeometrisk(52,13, 5, 2, false) for å gjøre beregningen i eksempel 4.

I GeoGebra kan vi også bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

Oppgave 3:

I en forening med 65 medlemmer er 13 negative til et forslag. Hvis vi velger 20 representanter tilfeldig fra gruppen, hva er da sannsynligheten for at

  1. Ingen av representantene er negative.
     
  2. Én av representantene er negativ.
     
  3. To eller flere av representantene er negative.

Kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

I en hypergeometrisk fordeling er forventning og varians gitt ved

$\fbox{$E(X) = n \cdot \frac{\displaystyle M}{\displaystyle N} \\
Var(X) = \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot n \cdot \frac{\displaystyle M}{\displaystyle N} \cdot \Big(1 – \frac{\displaystyle M}{\displaystyle N} \Big)$}$

Brøken $\frac{\displaystyle M}{\displaystyle N}$ representerer egentlig sannsynligheten for å trekke et spesielt element, fordi $M$ er antall spesielle elementer og $N$ er antall elementer totalt. (Gunstige på mulige). Kaller vi denne sannsynligheten $p$, altså $p = \frac{\displaystyle M}{\displaystyle N}$, får vi

$\fbox{$E(X) = np \\
Var(X) = \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot np (1 – p)$}$

Vi ser at forventningen er den samme som i en binomisk fordeling, og det eneste som skiller variansen fra en binomisk fordeling er faktoren $\frac{\displaystyle N – n}{\displaystyle N – 1}$. Trekker vi imidlertid bare noen få av et stort antall, slik at $N$ er mye større enn $n$, blir denne faktoren nokså nærme 1 og kan ignoreres.

Oppgave 4:

La $X$ være antall negativt innstilte representanter i utvalget fra oppgave 3. Finn $E(X)$, $Var(X)$ og $\sigma(X)$.

Se løsningsforslag

Poissonfordeling

I avsnittene om binomisk og hypergeometrisk fordeling har vi gjort et bestemt antall forsøk, $n$, med gitte sannsynligheter, $p$, eller forhold, ${\large \frac{M}{N}}$. Av og til kjenner vi imidlertid ikke noe av dette, vi vet bare at en hendelse opptrer med en viss hyppighet. Det kan for eksempel være antall kunder som kommer til en kiosk i et gitt tidsrom, eller antall bakterier i en blodprøve. I det første tilfellet snakker vi om hyppighet i tid, i det andre hyppighet i volum. Hyppigheten betegnes med den greske bokstaven lambda, $\lambda$.

I slike tilfeller vil vi kunne beregne sannsynligheten for at en hendelse opptrer et bestemt antall ganger ved å bruke en poissonfordeling, oppkalt etter den franske matematikeren Siméon Denis Poisson. Hvis hendelsen opptrer med hyppighet $\lambda$, er poissonfordelingen gitt ved

$\fbox{Poissonfordeling: $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{- \lambda}$}$

Vi forutsetter da at

Hendelsene er uavhengige.

$\lambda$ er konstant.

Ingen av hendelsene inntreffer samtidig.

Eksempel 5:

I et skogsområde er det i gjennomsnitt 8 trær per mål, og vi skal finne sannsynligheten for at det på et vilkårlig område på 1 mål er henholdsvis 7, 12 og færre enn 2 trær. Vi forutsetter at forekomsten av trær er uavhengig og konstant i området, og to forekomster kan ikke inntreffe samtidig, siden trær ikke kan stå oppå hverandre. Vi skal bruke både formelen for poissonfordeling og tabellen over poissonfordeling med $\lambda = 8$.

$P(X = 7)$:

Formel: ${\large \frac{8^{7}}{7!}}e^{-8} \approx 0{,}1396$.

Tabell: Siden tabellen er kumulativ, må vi finne sannsynligheten for 7 eller færre trær og trekke fra sannsynligheten for 6 eller færre: $P(X \le 7) – P(X \le 6) \approx 0{,}4530 – 0{,}3134 = 0{,}1396$. Markert med rødt i bildet under.

$P(X = 12)$:

Formel: ${\large \frac{8^{12}}{12!}}e^{-8} \approx 0{,}0481$.

Tabell: $P(X \le 12) – P(X \le 11) \approx 0{,}9362 – 0{,}8881 = 0{,}0481$. Markert med blått i bildet under.

$P(X \le 2)$:

Formel: Her må vi summere sannsynlighetene for 2, 1 og 0 trær:
${\large \frac{8^{2}}{2!}}e^{-8} + {\large \frac{8^{1}}{1!}}e^{-8} + {\large \frac{8^{0}}{0!}}e^{-8}\approx 0{,}0107 + 0{,}0027 + 0{,}003 = 0{,}0138$.

Tabell: Vi finner direkte $P(X \le 2) \approx 0{,}0138$. Markert med oransje i bildet under.


Eksempler på oppslag i poissontabell

I Excel beregner vi poissonsannsynligheter med funksjonen poisson.fordeling. Vi må da oppgi antallet vi ønsker sannsynligheten for, median (lambda), og  true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet.. For eksempel skriver vi henholdsvis =poisson.fordeling(7;8;usann), =poisson.fordeling(12;8;usann) og =poisson.fordeling(2;8;sann) for å gjøre beregningene i eksempel 5.

Tilsvarende funksjon i GeoGebra heter FordelingPoisson.  Her er rekkefølgen på parameterne annerledes, vi angir median, antall elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel skriver vi henholdsvis FordelingPoisson(8, 7, false)FordelingPoisson(8, 12, false) og FordelingPoisson(8, 2, true) for å gjøre beregningene i eksempel 5.

Oppgave 5:

I en vannprøve er det i gjennomsnitt to hoppekreps. Vi forutsetter at forekomsten av hoppekreps er poissonfordelt. Bruk både formel og poissonfordelingstabell til å finne ut hva sannsynligheten da er for at en annen, like stor vannprøve inneholder

  1. Ingen hoppekreps.
     
  2. Én hoppekreps.
     
  3. To eller flere hoppekreps.

Kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

I en poissonfordeling er forventning og varians gitt ved

$\fbox{$E(X) = \lambda \\
Var(X) = \lambda$}$

Tilnærme én fordeling med en annen

Tilnærme hypergeometrisk med binomisk

I en hypergeometrisk fordeling har vi trekning uten tilbakelegging. Men hvis vi bare trekker ut noen få, og mengden vi trekker fra er stor, betyr dette lite. Vi kan da tilnærme den hypergeometriske fordelingen med en binomisk, der $p = {\large \frac{M}{N}}$, altså forholdet mellom $M$ spesielle av i alt $N$ elementer.

En binomisk tilnærming regnes som god hvis $n \le {\large \frac{N}{20}}$, det vil si at vi trekker mindre enn en tjuendedel av det totale antallet.

Fordelen med en tilnærming er at utregningene blir enklere, og vi slipper å ha med $N$ og $M$ i beregningene. Dette er en fordel fordi hvis $N$ og/eller $M$ er store, risikerer vi å få problemer med kalkulatorer og dataprogrammer på grunn av svært høye tall i mellomregningene. Varians er også mye enklere å beregne i en binomisk fordeling.

Eksempel 6:

I et vareparti på 1000 enheter er 5 % av varene defekte. Vi trekker 10 varer tilfeldig og lurer på hvor stor sannsynligheten er for at ingen av dem er defekte.

Sannsynligheten for å trekke defekte er hypergeometrisk fordelt, med $N = 1000$, $M = 1000 \cdot 0,05 = 50$ og $n = 10$, så vi får

$P(X = 0) = \frac{\displaystyle \binom{50}{0} \cdot \binom{1000 – 50}{10 – 0}}{\displaystyle \binom{1000}{10}} \approx 0{,}5973$.

Vi trekker imidlertid bare $n = 10$ av $N = 1000$, og $10 < {\large \frac{1000}{20}}=50$, så vi får en god tilnærming med en binomialfordeling med $n = 10$ og $p = {\large \frac{M}{N}} = {\large \frac{50}{1000}} = 0{,}05$:

$P(X = 0) = {\large \binom{10}{0}} (0,05)^0 (1 – 0,05)^{10 – 0} \approx 0{,}5987$.

Vi ser at feilen i forhold til svaret vi fikk da vi brukte hypergeometrisk fordeling bare er ca. $0{,}5987 – 0{,}5973 = 0{,}0014$.

Eksempel 7:

Vi vil finne ut hva forventning og varians er i en hypergeometrisk fordeling og en binomialfordeling basert på dataene fra eksempel 6.

Hypergeometrisk:

$E(X) = 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} = 0{,}5$.

$Var(X) = \Big( \frac{\displaystyle 1000 – 50}{\displaystyle 1000 – 1} \Big) \cdot 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} \cdot \Big(1 – \frac{\displaystyle 50}{\displaystyle 1000} \Big) \approx 0{,}4517$.

Binomisk:

$E(X) = 10 \cdot 0{,}05 = 0{,}5$.

$Var(X) = 10 \cdot 0{,}05(1 – 0{,}05) = 0{,}4750$.

Vi ser at forventningene i begge tilfeller er like, men variansen er ørlite høyere i den binomiske fordelingen. Det er rimelig siden variasjonsmulighetene er flere når vi kan trekke samme element flere ganger.

Figurene under viser sannsynlighetene i en hypergeometrisk fordeling og en tilnærming med en binomisk fordeling når vi trekker $n = 50$ elementer fra en mengde der halvparten er spesielle. I figuren til venstre er $N = 100$, så $n \not \le {\large \frac{N}{20}}$ og tilnærmingen er dårlig. Vi ser at den binomiske fordelingen er for lav og bred. I figuren til høyre er $N = 1000$, så $n = {\large \frac{N}{20}}$ og tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av hypergeometrisk fordeling med binomisk når N = 2n
$N = 100, n = 20$
Tilnærming av hypergeometrisk fordeling med binomisk når N = 20n
$N = 1000, n = 20$

 

Oppgave 6:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig, og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten. Vi kan ikke trekke samme innbygger to ganger, så denne situasjonen er uten tilbakelegg og vi har en hypergeometrisk sannsynlighetsfordeling.

  1. Beregn sannsynligheten for at gruppen er delt på midten ved å bruke hypergeometrisk fordeling.
     
  2. Avgjør om en tilnærming med binomisk fordeling vil være god.
     
  3. Beregn den samme sannsynligheten ved å bruke binomisk fordeling.
     
  4. Angi hvor stor feilen ved å bruke binomisk fordeling ble hvis du tar med fire siffer bak komma.

Se løsningsforslag

Tilnærme binomisk med poisson

Hvis antall forsøk i en binomisk fordeling, $n$, er stort og sannsynligheten for suksess, $p$, er liten, kan vi tilnærme en binomisk fordeling med en poissonfordeling med $\lambda = n \cdot p$.

En slik tilnærming regnes som god hvis $n > 50$ og $p \le 0{,}05$.

Eksempel 8:

I spillet Dungeons and Dragons brukes blant annet en 20-sidet terning. Vi vil undersøke hvor stor sannsynligheten er for å få "20 minst én gang" når vi kaster 75 ganger. Det letteste er her å basere seg på sannsynligheten til komplementærhendelsen "20 ingen ganger".

Vi bruker først binomisk fordeling med $n = 75$ og $p = {\large \frac{1}{20}} = 0{,}05$.

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \binom{75}{0}} (0{,}05)^0 (1 – 0,05)^{75 – 0} \approx 0{,}9787$.

Vi har $n = 75$ og $p = 0{,}05$, så vi oppfyller kravet til en god tilnærming med poisson, selv om $p$ er helt på grensen. Vi får $\lambda = 75 \cdot 0{,}05 = 3{,}75$ og

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \frac{(3,75)^0}{0!}}e^{-3,75} \approx 0{,}9765$, en feil på $0{,}0022$ når vi regner med fire siffer bak komma.

Figurene under viser kurver for sannsynlighetene i en binomisk fordeling og en tilnærming med en poissonfordeling. Figuren til venstre viser sannsynligheter for antall kron i 100 kast med en mynt. Her er $n = 100$ innenfor grensa på $n > 50$, men $p = 0{,}5$ er langt utenfor grensa på $p \le 0{,}05$, så tilnærmingen er dårlig. Vi ser at poissonfordelingen er altfor lav og bred. Figuren til høyre viser sannsynlighetene for antall "begge seks" i 1000 kast med to terninger. Her er $n = 1000$ godt innenfor grensa på $n > 50$, og $p ={\large \frac{1}{36}}\approx 0{,}028$ godt innenfor grensa på $p \le 0{,}05$, så tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av binomisk fordeling med poisson  når n = 100 og p = 75
$n = 100, p = 0,5$

Tilnærming av binomisk fordeling med poisson  når n = 1000 og p = 0,027
$n = 1000, p = \large \frac{1}{6}$

 

Oppgave 7:

Bruk binomisk sannsynlighetsfordeling til å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Avgjør så om en poissonfordeling kan brukes i dette tilfellet, og beregn i så fall den samme sannsynligheten i en poissonfordeling.

Se løsningsforslag

Kilder:

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
  • Wikipedia