Tilnærme fordelinger

Tilnærme hypergeometrisk fordeling med binomisk

I en hypergeometrisk fordeling har vi trekning uten tilbakelegging. Men hvis vi bare trekker ut noen få elementer, og mengden vi trekker fra er stor, betyr dette lite. Vi kan da tilnærme den hypergeometriske fordelingen med en binomisk, der $p = {\large \frac{M}{N}}$, altså forholdet mellom M spesielle av i alt N elementer.

En binomisk tilnærming regnes som god hvis $n \le {\large \frac{N}{20}}$, det vil si at vi trekker mindre enn en tjuendedel av det totale antallet.

Fordelen med en tilnærming er at utregningene blir enklere, og vi slipper å ha med N og M i beregningene. Dette er en fordel fordi hvis N og/eller M er store, risikerer vi å få problemer med kalkulatorer og dataprogrammer på grunn av svært høye tall i mellomregningene. Varians er også mye enklere å beregne i en binomisk fordeling.

Eksempel 1:

I et vareparti på 1000 enheter er 5 % av varene defekte. Vi trekker 10 varer tilfeldig og lurer på hvor stor sannsynligheten er for at ingen av dem er defekte.

Sannsynligheten for å trekke defekte er hypergeometrisk fordelt, med N = 1000, M = 1000 · 0,05 = 50 og n = 10, så vi får

$P(X = 0) = \frac{\displaystyle \binom{50}{0} \cdot \binom{1000 – 50}{10 – 0}}{\displaystyle \binom{1000}{10}} \approx 0{,}5973$.

Vi trekker imidlertid bare n = 10 av N = 1000, og $10 < {\large \frac{1000}{20}}=50$, så vi får en god tilnærming med en binomialfordeling med n = 10 og $p = {\large \frac{M}{N}} = {\large \frac{50}{1000}} = 0{,}05$:

$P(X = 0) = {\large \binom{10}{0}} (0,05)^0 (1 – 0,05)^{10 – 0} \approx 0{,}5987$.

Vi ser at feilen i forhold til svaret vi fikk da vi brukte hypergeometrisk fordeling bare er ca. $0{,}5987 – 0{,}5973 = 0{,}0014$.

Eksempel 2:

Vi vil finne ut hva forventning og varians er i en hypergeometrisk fordeling og en binomisk fordeling basert på dataene fra eksempel 1.

Hypergeometrisk:

$E(X) = 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} = 0{,}5$.

$Var(X) = \Big( \frac{\displaystyle 1000 – 50}{\displaystyle 1000 – 1} \Big) \cdot 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} \cdot \Big(1 – \frac{\displaystyle 50}{\displaystyle 1000} \Big) \approx 0{,}4517$.

Binomisk:

$E(X) = 10 \cdot 0{,}05 = 0{,}5$.

$Var(X) = 10 \cdot 0{,}05(1 – 0{,}05) = 0{,}4750$.

Vi ser at forventningene i begge tilfeller er like, men variansen er ørlite høyere i den binomiske fordelingen. Det er rimelig siden variasjonsmulighetene er flere når vi kan trekke samme element flere ganger.

Figurene under viser sannsynlighetene i en hypergeometrisk fordeling og en tilnærming med en binomisk fordeling når vi trekker n = 50 elementer fra en mengde der halvparten er spesielle.

I figuren til venstre er N = 100, så $n \not \le {\large \frac{N}{20}}$ og tilnærmingen er dårlig. Vi ser at den binomiske fordelingen er for lav og bred.

I figuren til høyre er N = 1000, så $n = {\large \frac{N}{20}}$ og tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av hypergeometrisk fordeling med binomisk når N = 2n
N = 100, n = 20
Tilnærming av hypergeometrisk fordeling med binomisk når N = 20n
N = 1000, n = 20

Oppgave 1:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig, og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten. Vi kan ikke trekke samme innbygger to ganger, så denne situasjonen er uten tilbakelegging og vi har en hypergeometrisk sannsynlighetsfordeling.

  1. Beregn sannsynligheten for at gruppen er delt på midten ved å bruke hypergeometrisk fordeling.
     
  2. Avgjør om en tilnærming med binomisk fordeling vil være god.
     
  3. Beregn den samme sannsynligheten ved å bruke binomisk fordeling.
     
  4. Angi hvor stor feilen ved å bruke binomisk fordeling ble hvis du tar med fire desimaler.

Se løsningsforslag

Tilnærme binomisk fordeling med poisson

Hvis antall forsøk i en binomisk fordeling, n, er stort og sannsynligheten for suksess, p, er liten, kan vi tilnærme en binomisk fordeling med en poissonfordeling med λ = n · p.

En slik tilnærming regnes som god hvis n > 50 og p ≤ 0,05.

Eksempel 3:

I spillet Dungeons and Dragons brukes blant annet en 20-sidet terning. Vi vil undersøke hvor stor sannsynligheten er for å få «20 minst én gang» når vi kaster 75 ganger. Det letteste er her å basere seg på sannsynligheten til komplementhendelsen «20 ingen ganger».

Vi bruker først binomisk fordeling med n = 75 og $p = {\large \frac{1}{20}} = 0{,}05$.

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \binom{75}{0}} (0{,}05)^0 (1 – 0,05)^{75 – 0} \approx 0{,}9787$.

Vi har n = 75 og p = 0,05, så vi oppfyller kravet til en god tilnærming med poisson, selv om p er helt på grensen.

Vi får λ = 75 · 0,05 = 3,75, og

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \frac{(3,75)^0}{0!}}e^{-3,75} \approx 0{,}9765$, en feil på 0,0022.

Figurene under viser kurver for sannsynlighetene i en binomisk fordeling og en tilnærming med en poissonfordeling.

Figuren til venstre viser sannsynligheter for antall kron i 100 kast med en mynt. Her er n = 100 innenfor grensa på n > 50, men p = 0,5 er langt utenfor grensa på p ≤ 0,05, så tilnærmingen er dårlig. Vi ser at poissonfordelingen er altfor lav og bred.

Figuren til høyre viser sannsynlighetene for antall «begge seks» i 1000 kast med to terninger. Her er n = 1000 godt innenfor grensa på n > 50, og $p ={\large \frac{1}{36}}\approx 0{,}0278$ godt innenfor grensa på p ≤ 0,05, så tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av binomisk fordeling med poisson når n = 100 og p = 75
n = 100, p = 0,5
Tilnærming av binomisk fordeling med poisson når n = 1000 og p = 0,027
n = 1000, p ≈ 0,0278

Oppgave 2:

Bruk binomisk sannsynlighetsfordeling til å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Avgjør så om en poissonfordeling kan brukes i dette tilfellet, og beregn i så fall den samme sannsynligheten i en poissonfordeling.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Poissonfordeling

Sannsynligheter i poissonfordeling

I artikkelen om binomisk fordeling og artikkelen om hypergeometrisk fordeling gjør vi et bestemt antall forsøk, n, med gitte sannsynligheter, p, eller forhold, ${\large \frac{M}{N}}$. Av og til kjenner vi imidlertid ikke noe av dette, vi vet bare at en hendelse opptrer med en viss hyppighet. Det kan for eksempel være antall kunder som kommer til en kiosk i et gitt tidsrom, eller antall bakterier i en blodprøve. I det første tilfellet snakker vi om hyppighet i tid, i det andre hyppighet i volum.

I slike tilfeller vil vi kunne beregne sannsynligheten for at en hendelse opptrer et bestemt antall ganger ved å bruke en poissonfordeling, oppkalt etter den franske matematikeren Siméon Denis Poisson.

Vi bruker den greske bokstaven lambda, λ, til å angi hyppighet. Sannsynligheten for en hendelse i en poissonfordeling med hyppighet λ, er gitt ved

$\fbox{Poissonfordeling: $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{- \lambda}$}$

Vi forutsetter da at

Hendelsene er uavhengige.

λ er konstant. 

Ingen av hendelsene inntreffer samtidig.

Eksempel 1:

I et skogsområde er det i gjennomsnitt 8 trær per mål, og vi skal finne sannsynligheten for at det på et vilkårlig område på 1 mål er henholdsvis 7, 12 og 2 eller færre trær. Vi forutsetter at forekomsten av trær er uavhengig og konstant i området, og to forekomster kan ikke inntreffe samtidig, siden trær ikke kan stå oppå hverandre.

Siden det i gjennomsnitt er 8 trær per mål, er λ = 8.

Sannsynligheten for 7 trær per mål, P(X = 7), blir ifølge formelen

${\large \frac{8^{7}}{7!}}e^{-8} \approx 0{,}1396$.

Sannsynligheten for 12 trær per mål, P(X = 12), blir ifølge formelen

${\large \frac{8^{12}}{12!}}e^{-8} \approx 0{,}0481$.

For å finne sannsynligheten for 2 eller færre trær per mål, P(X ≤ 2), må vi summere sannsynlighetene for 2, 1 og 0 trær. Formelen gir

${\large \frac{8^{2}}{2!}}e^{-8} + {\large \frac{8^{1}}{1!}}e^{-8} + {\large \frac{8^{0}}{0!}}e^{-8}\approx 0{,}0107 + 0{,}0027 + 0{,}0003 = 0{,}0138$.

Poissonfordeling i Excel og GeoGebra

I Excel beregner vi poissonsannsynligheter med funksjonen poisson.fordeling. Vi må da oppgi antallet vi ønsker sannsynligheten for, lambda og true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel skriver vi henholdsvis =poisson.fordeling(7; 8; usann), =poisson.fordeling(12; 8; usann) og =poisson.fordeling(2; 8; sann) for å gjøre beregningene i eksempel 1.

Tilsvarende funksjon i GeoGebra heter fordelingpoisson. Her er rekkefølgen på parameterne annerledes, vi angir lambda, antall elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel skriver vi henholdsvis fordelingpoisson(8, 7, false)fordelingpoisson(8, 12, false) og fordelingpoisson(8, 2, true) for å gjøre beregningene i eksempel 1.

I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

Oppgave 1:

I en vannprøve er det i gjennomsnitt to hoppekreps. Vi forutsetter at forekomsten av hoppekreps er poissonfordelt. Beregn hva sannsynligheten da er for at en annen, like stor vannprøve inneholder

  1. Ingen hoppekreps.
     
  2. Én hoppekreps.
     
  3. To eller flere hoppekreps.

Kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

Poissonfordelingstabell

I tidligere tider var tabeller et viktig hjelpemiddel til å finne binomiske sannsynligheter, men i datamaskinenes tidsalder har de mindre nytte.

Dette nettstedet har allikevel en poissonfordelingstabell.

Forventning og varians i poissonfordeling

I en poissonfordeling er forventning og varians gitt ved

$\fbox{$\begin{align} E(X) = \lambda \\
Var(X) = \lambda
\end{align}$}$

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Hypergeometrisk fordeling

Hva er hypergeometrisk fordeling?

I eksempel 1 i kombinatorikk-artikkelen om utvalg fra blandede mengder studerer vi kombinasjonsmuligheter når vi velger fra en mengde som består av 11 gutter og 8 jenter, og ser at antall kombinasjonsmuligheter med 2 gutter og to jenter er gitt ved

${\large \binom{11}{2}\binom{8}{2}}$

Generaliserer vi dette ved å si at mengden består av a gutter og b jenter, og vi skal velge x gutter og y jenter fra mengden, blir antall kombinasjonsmuligheter

${\large \binom{a}{x}\binom{b}{y}}$

Så generaliserer vi enda mer, og sier at mengden består av totalt N elementer, hvorav M er spesielle. Det betyr at NM er ikke-spesielle. Så trekker vi ut totalt n elementer. Er x av disse spesielle, må nx være ikke-spesielle. Og antall kombinasjonsmuligheter vil være gitt ved

${\large \binom{M}{x}\binom{N-M}{n-x}}$

Totalt kan vi velge n blant N elementer, så antall kombinasjonsmuligheter totalt blir

${\large \binom{N}{n}}$

Bruker vi så «gunstige på mulige», får vi et uttrykk for sannsynligheten for at et tilfeldig utvalg på n elementer fra totalt N, der M er spesielle, inneholder x spesielle elementer. Dette er en diskret sannsynlighetsfordeling som vi kaller hypergeometrisk fordeling.

$\fbox{Hypergeometrisk fordeling: $P(X = x) = \frac{\displaystyle \binom{M}{x} \binom{N – M}{n – x}}{\displaystyle \binom{N}{n}}$}$

Et gitt element kan altså være spesielt eller ikke-spesielt. Dette minner litt om den binomiske sannsynlighetsfordelingen, der vi også hadde to muligheter, suksess eller fiasko. Men i motsetning til en binomisk situasjon, er det her avhengighet mellom forsøkene. Sannsynligheten for hva vi trekker vil variere med hva vi har trukket tidligere. Trekker vi få elementer fra en stor mengde, er imidlertid forskjellen på binomisk og hypergeometrisk fordeling liten.

Eksempel 1:

Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.

Mengden vi trekker fra består av N = 52 elementer, av disse er M = 13 spesielle, altså spar. Vi trekker n = 5 ganger og skal finne sannsynligheten for at X = 2. Vi får

$P(X = 2) = \frac{\displaystyle \binom{13}{2} \cdot \binom{52 – 13}{5 – 2}}{\displaystyle \binom{52}{5}} \approx 0{,}2743$.

Det er ca. 27 % sannsynlig å få en hånd med akkurat 2 spar. Vi ser at det som står i telleren, er antall kombinasjoner som gir to spar multiplisert med antall kombinasjoner av tre andre kort. I nevneren står antall kombinasjoner totalt med fem av femtito kort.

Hypergeometrisk fordeling i Excel og GeoGebra

I Excel beregner vi hypergeometriske sannsynligheter med funksjonen hypgeom.fordeling.n. Vi må da oppgi hvor mange spesielle elementer vi ønsker sannsynligheten for, utvalgets størrelse, antall spesielle elementer totalt, antall elementer totalt, true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel =hypgeom.fordeling.n(2; 5; 13; 52; usann) for å gjøre beregningen i eksempel 1.

Tilsvarende funksjon i GeoGebra heter fordelinghypergeometrisk. Her er rekkefølgen på variablene annerledes, vi angir antall elementer totalt, antall spesielle elementer totalt, utvalgets størrelse, hvor mange spesielle elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel fordelinghypergeometrisk(52,13, 5, 2, false) for å gjøre beregningen i eksempel 1.

I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

En hypergeometrisk fordeling har så mange variabler at det er vanskelig å sette opp sannsynlighetene i en praktisk tabell.

Oppgave 1:

I en forening med 65 medlemmer er 13 negative til et forslag. Hvis vi velger 20 representanter tilfeldig blant medlemmene, hva er da sannsynligheten for at

  1. Ingen av representantene er negative.
     
  2. Én av representantene er negativ.
     
  3. To eller flere av representantene er negative.

Gjør beregningene ved hjelp av formelen for hypergeometrisk fordeling, og kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

Eksempel 2:

I eksempel 1 i kombinatorikk-artikkelen om kombinasjoner og sannsynligheter ser vi at sannsynligheten for å få 7 rette i Lotto er om lag 1,859 · 10-7, fordi det bare finnes 1 vinnerrekke av totalt 5 379 616, og ${\large \frac{1}{5 \, 379 \, 616}} \approx 1{,}858 9 \cdot 10^{\text{-}7}$.

Det utbetales imidlertid også gevinst for 6 rette. Og 6 rette er enklere å få fordi det finnes mange flere rekker med 6 rette. Hvert av de 7 vinnertallene kan vi nemlig bytte ut med hvert av de 34 – 7 = 27 tallene som ikke er vinnertall, noe som gir 7 · 27 = 189 muligheter, og en vinnersannsynlighet på

${\large \frac{189}{5 \, 379 \, 616}} \approx 3{,}5133 \cdot 10^{-5}$.

En annen måte å komme fram til denne sannsynligheten på er imidlertid å tenke på lottotrekning som en hypergeometrisk situasjon der vi trekker 7 tall fra en mengde på 34, der 7 er spesielle (vinnertallene), og så beregner hva sannsynligheten for å få 6 av de spesielle er. Vi får

$P(X = 6) = \frac{\displaystyle \binom{7}{6} \cdot \binom{34 – 7}{7 – 6}}{\displaystyle \binom{34}{7}} \approx 3{,}5133 \cdot 10^{-5}$.

Sannsynligheten for å få 6 rette er om lag 0,00351 %.

(I Lotto trekkes også et tilleggstall, og blant de 189 rekkene vil det være 7 som har 6 rette + 1 tilleggstall, noe som gir høyere gevinst. Det tar vi imidlertid ikke hensyn til i denne modellen.)

Oppgave 2:

Det utbetales også gevinst for 5 og 4 rette i Lotto. Bruk formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få henholdsvis 5 og 4 rette.

Se løsningsforslag

Forventning og varians i hypergeometrisk fordeling

I en hypergeometrisk fordeling er forventning og varians gitt ved

$\fbox{$\begin{align} E(X) &= n \cdot \frac{\displaystyle M}{\displaystyle N} \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot n \cdot \frac{\displaystyle M}{\displaystyle N} \cdot \Big(1 – \frac{\displaystyle M}{\displaystyle N} \Big) \end{align}$}$

Brøken $\frac{\displaystyle M}{\displaystyle N}$ representerer egentlig sannsynligheten for å trekke et spesielt element, fordi M er antall spesielle elementer og N er antall elementer totalt. (Gunstige på mulige). Kaller vi denne sannsynligheten p, altså $p = \frac{\displaystyle M}{\displaystyle N}$, får vi

$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot np (1 – p) \end{align}$}$

I en biomisk fordeling har vi E(X) = np og Var(X) = np(1 − p).

Vi ser at forventningene er de samme i hypergeometrisk og binomisk fordeling, og det eneste som skiller variansene er faktoren $\frac{\displaystyle N – n}{\displaystyle N – 1}$. Trekker vi imidlertid bare noen få elementer fra en stor mengde, slik at N er mye større enn n, blir denne faktoren nokså nærme 1 og kan ignoreres.

Oppgave 3:

La X være antall negativt innstilte representanter i utvalget fra oppgave 1. Finn E(X) og Var(X).

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
    • Wikipedia: Lotto

Binomisk fordeling

Hva er binomisk fordeling?

Myntkast er et eksempel på en diskret sannsynlighetsfordeling som kalles binomisk fordeling. Et forsøk der utfallene følger en binomisk fordeling, har følgende tre karakteristikker:

  1. Forsøket har to mulige enkeltutfall. Det er vanlig å kalle disse for suksess eller fiasko. I et myntkast kan vi for eksempel la kron representerer suksess og mynt fiasko.
     
  2. Sannsynligheten for suksess, p, skal være den samme fra forsøk til forsøk. Det betyr imidlertid ikke at vi alltid må ha p = 0,5, p kan ha alle mulige verdier mellom 0 og 1. I kast med en rettferdig mynt er imidlertid p = 0,5.
     
  3. Forsøkene skal være uavhengige. Dette er tilfellet ved myntkast, én mynt påvirker ikke en annen.

Andre eksempler på binomiske forsøk kan være om en vare er defekt eller i orden, eller om deltakerne i en spørreundersøkelse har svart «ja» eller «nei» på et spørsmål.

Ved kast med en rettferdig mynt er altså sannsynligheten for suksess p = 0,5, noe som resulterer i en symmetrisk sannsynlighetsfordeling, slik som vist under.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter

Men bruker vi en juksemynt som 3 av 4 ganger gir kron, vil vi fremdeles ha et binomisk forsøk, men nå med p = 0,75 og en punktsannsynlighet som vist under. Vi ser at fordelingen er skjev, med tyngdepunkt til høyre. Naturligvis er det mer sannsynlig å få mange kron enn å få mange mynt når sannsynligheten for kron er 0,75 og sannsynligheten for mynt følgelig er 0,25.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter, med en juksemynt med p = 0,75

Sannsynligheter i binomisk fordeling

Hvis x er antall suksesser i et binomisk forsøk, p sannsynligheten for suksess, og n antall forsøk, er P(X) gitt ved

$\fbox{Binomisk fordeling: $P(X = x) = {\large \binom{n}{x}} p^x (1 – p)^{(n – x)}$}$

Eksempel 1:

Vi skal bruke formelen for binomisk fordeling til å beregne tre sannsynligheter ved kast med 5 rettferdige mynter. Her har vi at n = 5 og p = 0,5.

  1. Sannsynligheten for 3 kron.
     
    Vi får
     $P(X = 3) = {\large \binom{5}{3}} (0{,}5)^3 (1 – 0,5)^{(5 – 3)} = 0{,}3125$.
     
  2. Sannsynligheten for 1 kron eller mindre.
     
    Vi må addere sannsynlighetene for å få 0 eller 1 kron, og får
    $P(X \le 1) = P(X = 1) + P(X = 0) =$
    ${\large \binom{5}{1}} (0,5)^1 (1 – 0{,}5)^{(5 – 1)} + {\large \binom{5}{0}} (0{,}5)^0 (1 – 0{,}5)^{(5 – 0)} \approx 0{,}0313 + 0{,}1563 = 0{,}1875$.
     
  3. Sannsynligheten for 4 kron eller mindre.
     
    Vi kan addere sannsynlighetene for 4, 3, 2, 1 og 0 kron, men det er enklere å basere seg på sannsynligheten for den komplementære hendelsen, 5 kron. Vi får
    $P(X \le 4) = 1 – P(X = 5) =$
    $1 – {\large \binom{5}{5}} (0,5)^5 (1 – 0,5)^{(5 – 5)} \approx 1 – 0{,}0313 = 0{,}9687$.

SkjermfilmSe filmen «Binomisk fordeling»
 

For å angi at en tilfeldig variabel, X, er binomisk fordelt i n forsøk med suksess-sannsynlighet p, skriver vi

$\fbox{$X \sim Bin(n, p)$}$

Binomisk fordeling i Excel og GeoGebra

I Excel beregner vi binomiske sannsynligheter med funksjonen binom.fordeling.n. Vi må da oppgi antall suksesser, antall forsøk, forsøkenes sannsynlighet, og om vi skal beregne kumulativ sannsynlighet eller punktsannsynlighet. sann betyr kumulativ sannsynlighet, usann betyr ikke-kumulativ, altså punktsannsynlighet.

RegnearkLast ned regneark med beregningene fra eksempel 1

Tilsvarende funksjon i GeoGebra heter fordelingbinomial. Her er rekkefølgen på parameterne annerledes, vi angir antall forsøk, forsøkenes sannsynlighet, antall suksesser, true for kumulativ sannsynlighet og false for punktsannsynlighet.

For eksempel skriver vi =binom.fordeling.n(3; 5; 0,5; usann) i Excel og fordelingbinomial(5, 0.5, 3, false) i GeoGebra for å beregne sannsynligheten i eksempel 1.1 og =binom.fordeling.n(1; 5; 0,5; sann) i Excel og fordelingbinomial(5, 0.5, 1, true) i GeoGebra for å beregne sannsynligheten i eksempel 1.2.

I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

Oppgave 1:

La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Beregn ved hjelp av formelen for binomisk fordeling:

  1. P(X = 4)
     
  2. P(X ≤ 2)
     
  3. P(X ≤ 6)

Kontroller svarene i Excel eller GeoGebra.

Uten å regne ut, anslå om P(X = 7) er større, lik, eller lavere enn P(X = 1).

Se løsningsforslag

Eksempel 2:

I oppgave 1 i artikkelen om å kombinere regler bruker vi produkt-, komplement- og addisjonsregler for å beregne sannsynlighetene for hvordan tre tegnestifter vi kaster, blir liggende, når sannsynligheten for å havne med spissen opp er ${\large \frac{2}{3}}$. Vi kan gjøre de samme beregningene ved å betrakte tegnestiftkast som en binomisk situasjon. Kaller vi «spissen opp» for suksess, får vi følgende sannsynligheter:

      1. Alle havner med spissen opp. Det betyr 3 suksesser, og vi får
        $P(X = 3) = {\large \binom{3}{3}} (\frac{2}{3})^3 (1 – \frac{2}{3})^{(3 – 3)} \approx 0{,}2963$
         
      2. Alle havner med spissen ned. Det betyr 0 suksesser, og vi får
        $P(X = 0) = {\large \binom{3}{0}} (\frac{2}{3})^0 (1 – \frac{2}{3})^{(3 – 0)} \approx 0{,}0370$
         
      3. 2 havner med spissen opp og 1 med spissen ned. Det betyr 2 suksesser, og vi får
        $P(X = 2) = {\large \binom{3}{2}} (\frac{2}{3})^2 (1 – \frac{2}{3})^{(3 – 2)} \approx 0{,}4444$
         
      4. 1 havner med spissen opp og 2 med spissen ned. Det betyr 1 suksess, og vi får
        $P(X = 1) = {\large \binom{3}{1}} (\frac{2}{3})^1 (1 – \frac{2}{3})^{(3 – 1)} \approx 0{,}2222$

Dette er de samme tallene vi fant med produkt-, komplement- og addisjonsreglene. Metoden med binomisk sannsynlighet er imidlertid mye lettere å utvide hvis kaster flere tegnestifter.

Eksempel 3:

Norsk Tipping har en artikkel om at noen tall i spillet Extra trekkes oftere enn andre. De mest ekstreme tilfellene er et tall som er trukket så lite som 26 ganger, og et tall som er trukket så mye som 43 ganger i løpet av et år. Her skal vi regne ut hvor sannsynlige disse hendelsene er.

I Extra trekkes 47 av 75 mulige tall, noe som gir en sannsynlighet på om lag 0,63 for at et gitt tall skal bli trukket. Siden Extra trekkes ukentlig, kan vi regne med at det er 52 trekninger i et år.

I en gitt trekning har et tall to muligheter, det blir enten trukket, eller det blir ikke trukket. Sannsynligheten for å bli trukket er den samme i alle trekninger, og trekningene er uavhengige. Så antall ganger et tall blir trukket i løpet av et år, oppfyller kravene til en binomisk fordeling.

Regner vi hendelsen å bli trukket som suksess, har vi altså p ≈ 0,63. Og siden vi har 52 trekninger i et år, har vi n = 52.

Sannsynligheten for å bli trukket 26 ganger blir

$P(X = 26) \approx {\large \binom{52}{26}} 0{,}63^{26} (1 – 0{,}63)^{(52 – 26)} \approx 0,0178$. Ca. 1,78 %.

Sannsynligheten for å bli trukket 43 ganger blir

$P(X = 43) \approx {\large \binom{52}{43}} 0{,}63^{43} (1 – 0{,}63)^{(52 – 43)} \approx 0,0011$. Ca. 0,11 %.

Men mer interessant enn å spørre om sannsynligheten for å bli trukket akkurat 26 ganger og akkurat 43 ganger, er det å spørre om sannsynligheten for å bli trukket 26 ganger eller sjeldnere, og 43 ganger eller mer, altså P(X ≤ 26) og P(X ≥ 43).

I Excel og GeoGebra beregner vi P(X ≤ 26) ved å skrive henholdsvis
= binom.fordeling.n(26; 52; 0,63; sann) og fordelingbinomial(52, 0.63, 26, true)
og får om lag 0,0377, ca. 3,77 %.

For å beregne P(X ≥ 43), beregner vi 1 – P(X ≤ 42), og skriver henholdsvis
= 1 – binom.fordeling.n(42; 52; 0,63; sann) og 1 – fordelingbinomial(52, 0.63, 42, true)
og får om lag 0,0017, ca. 0,17 %.

Binomisk fordelingstabell

I tidligere tider var tabeller et viktig hjelpemiddel til å finne binomiske sannsynligheter, men i datamaskinenes tidsalder har de mindre nytte. Et utdrag av en kumulativ, binomisk tabell er vist under. Her er p sannsynligheten for suksess, n antall forsøk, og x antall suksesser.

Kumulativ tabell over binomisk fordeling

Vil vi for eksempel finne sannsynligheten for å få «2 eller færre kron» i et kast med 3 mynter, velger vi p = 0,5, n = 3, x = 2, og leser av 0,8750. Vil vi finne sannsynligheten for «nøyaktig 2 kron», må vi ta sannsynligheten for «2 eller færre kron» og trekke fra sannsynligheten for 1 eller færre kron, 0,8750 – 0,5000 = 0,3750.

Dette nettstedet har også en komplett, binomisk fordelingtabell.

Forventning og varians i binomisk fordeling

I artikkelen om forventning og varians lærer vi at forventningen til et stokastisk forsøk angir forventet middelverdi for utfallene, mens variansen angir forventet spredning av utfallene. Hvis X ~ Bin(n, p), har vi at

$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= np(1 – p) \end{align}$}$

At forventningen øker proporsjonalt med antall forsøk er intuitivt rimelig. Jo flere forsøk vi gjør, jo flere suksesser kan vi forvente til sammen. At forventningen øker proporsjonalt med sannsynligheten for suksess er også rimelig. Jo større sannsynlighet for suksess, jo flere suksesser kan vi forvente.

Når det gjelder variansen, er det også intuitivt rimelig at den øker med antall forsøk. Jo flere forsøk, jo flere resultater spredt utover. Når det gjelder sannsynligheten, vil p(1 – p) ha sin høyeste verdi når p = 0,5. Vi får altså størst varians når sannsynligheten for suksess og fiasko er den samme. Dette er også intuitivt rimelig, for jo større sannsynligheten for suksess eller fiasko er, jo mer vil resultatene klumpe seg rundt dette resultatet. Drar vi det helt ut i det ekstreme og setter p = 1 eller p = 0, vil vi bare få suksesser eller bare fiaskoer, og variansen blir 0.

Eksempel 4:

Figuren under viser tre binomiske fordelinger med 100 forsøk og sannsynligheter på henholdsvis 0,1, 0,5 og 0,9.

Kurver som vise binomialfordelinger med 100 forsøk og sannsynligheter på 0,1, 0,5 og 0,9

For den blå fordelingen, som viser X ~ Bin(100, 0,1), får vi E(X) = 100 · 0,1 = 10 og Var(X) = 100 · 0,1 · (1 – 0,1) = 9.

For den røde fordelingen, som viser X ~ Bin(100, 0,5), får vi E(X) = 100 · 0,5 = 50 og Var(X) = 100 · 0,5 · (1 – 0,5) = 25.

For den grønne fordelingen, som viser X ~ Bin(100, 0,9), får vi E(X) = 100 · 0,9 = 90 og Var(X) = 100 · 0,9 · (1 – 0,9) = 9.

Vi ser at forventningen i alle tre tilfeller havner der fordelingene har toppen. Og vi ser at variansen er større når sannsynligheten er 0,5 enn når den er 0,1 og 0,9. Dette stemmer med figuren, for vi ser at den røde fordelingen er bredere enn de to andre.

Oppgave 2:

Finn E(X) og Var(X) når

  1. X er antall kron i 10 kast med en rettferdig mynt.
     
  2. X er antall seksere i 5 kast med en rettferdig terning.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Diskrete sannsynlighetsfordelinger

I artikkelen om begreper i sannsynlighet ser vi at når vi kaster en rettferdig terning, er det like stor sannsynlighet for å få 1, 2, 3, 4, 5 og 6. Vi har en uniform sannsynlighetsfordeling. I temaet om kombinatorikk lærer vi strukturerte metoder for å beregne antall utfall i uniforme modeller, noe som er nyttig å kunne når det er så mange utfall at vi ikke klarer å telle dem opp. For eksempel å beregne antall mulige bridgehender.

I artikkelen om begreper i sannsynlighet ser vi også på kast med tre mynter, og teller opp kombinasjonene som gir henholdsvis 0, 1, 2 og 3 kron. Det er bare åtte mulige utfall, så det er rimelig enkelt. Øker vi antall mynter, vil vi imidlertid også her se at det fort blir uoverkommelig komplisert å gjøre beregninger ved å telle enkeltutfall. Antall kron i et myntkast er imidlertid ikke uniformt fordelt, så vi kan ikke bruke noen av kombinatorikk-metodene vi har lært. Imidlertid følger sannsynligheten for X kron et mønster som muliggjør beregning av kombinasjonsmuligheter.

Slike mønstre kaller vi sannsynlighetsfordelinger. Dersom utfallene har atskilte verdier, for eksempel tallene 1, 2, 3, 4, eller kron og mynt, har vi en diskret sannsynlighetsfordeling.

Søylediagrammet under viser sannsynlighetene for 0, 1, 2, 3, 4 og 5 kron i et kast med 5 mynter.

Stolpediagram som viser punktsannsynligheten for antall kron i et myntkast med 5 mynter

Vi ser at det er mest sannsynlig å få 2 og 3 kron, og minst sannsynlig å få 0 og 5 kron. Dette skyldes at det er mange flere enkeltutfall som kan kombineres til 2 og 3 enn til 0 og 5. Summen av høydene på søylene er 1, fordi de til sammen dekker utfallsrommet i et stokastisk forsøk, der total sannsynlighet alltid er 1.

Vi kan si at diagrammet viser P(X = x) der X representerer hendelsen «Antall kron i et kast med 5 mynter», og x betegner 0, 1, 2, 3, 4 eller 5. For eksempel betyr P(X = 3) = 0,3125 at sannsynligheten for 3 kron er 0,3125.

Diagrammet viser punktfordelingen for X, det vi si at høyden på hver søyle viser sannsynligheten for akkurat den verdien den står over. Ofte er vi imidlertid interessert i den kumulative fordelingen, der vi i stedet for P(X = x) ser på P(Xx), det vil si sannsynligheten for at X er mindre eller lik enn en gitt verdi.

Den kumulative sannsynlighetsfordelingen for «Antall kron i et kast med 5 mynter» er vist under.

Stolpediagram som viser den kumulative sannsynligheten for antall kron i et myntkast med 5 mynter

«Kumulativ» betyr at noe hoper seg opp, sannsynlighetene hoper seg opp mot høyre. I søylen over X = 2, for eksempel, inngår P(X = 0), P(X = 1) og P(X = 2). Vi ser at det er riktig hvis vi sammenlikner de to diagrammene. I det øverste diagrammet ser vi at P(X = 0) ≈ 0,03, P(X = 1) ≈ 0,16 og P(X = 2) ≈ 0,31, til sammen om lag 0,5, som er høyden på søylen over 2 i det nederste diagrammet.

Den totale søylehøyden i et kumulativt diagram er ikke 1, i stedet er søylen lengst til høyre 1, fordi den inkluderer hele utfallsrommet.

Siden summen av alle sannsynlighetene i utfallsrommet bestandig er 1, vil det følgende vil alltid gjelde:

$\fbox{$P(X > x) = 1 – P(X \le x)$}$

Derfor kan vi i en kumulativ sannsynlighetsfordeling også lett finne sannsynligheter for verdier høyere enn en gitt verdi.

Eksempel 1:

Tabellen under viser verdier for P(X = x) og P(Xx), der X er «Antall kron i et kast med 5 mynter».

x 0 1 2 3 4 5
P(X = x) 0,03125 0,15625 0,31250 0,31250 0,15625 0,03125
P(Xx) 0,03125 0,18750 0,50000 0,81250 0,96875 1,00000

Så skal vi bruke tabellen til å finne P(X = 3), P(X ≤ 3) og P(X > 3).

Av tabellen ser vi at

P(X = 3) = 0,31250.

P(X ≤ 3) = 0,81250.

P(X > 3) = 1 – P(X ≤ 3) = 1- 0,81250 = 0,18750.

Vi kunne også enkelt ha funnet P(X > 3) som P(X = 4) + P(X = 5) = 0,15625 + 0,03125 = 0,18750.

Dette nettstedet har egne artikler om de diskrete sannsynlighetsfordelingene binomisk fordeling, hypergeometrisk fordeling og poissonfordeling.

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons