Innhold
Hva er hypergeometrisk fordeling?
I eksempel 1 i kombinatorikk-artikkelen om utvalg fra blandede mengder studerer vi kombinasjonsmuligheter når vi velger fra en mengde som består av 11 gutter og 8 jenter, og ser at antall kombinasjonsmuligheter med 2 gutter og to jenter er gitt ved
${\large \binom{11}{2}\binom{8}{2}}$
Generaliserer vi dette ved å si at mengden består av a gutter og b jenter, og vi skal velge x gutter og y jenter fra mengden, blir antall kombinasjonsmuligheter
${\large \binom{a}{x}\binom{b}{y}}$
Så generaliserer vi enda mer, og sier at mengden består av totalt N elementer, hvorav M er spesielle. Det betyr at N – M er ikke-spesielle. Så trekker vi ut totalt n elementer. Er x av disse spesielle, må n – x være ikke-spesielle. Og antall kombinasjonsmuligheter vil være gitt ved
${\large \binom{M}{x}\binom{N-M}{n-x}}$
Totalt kan vi velge n blant N elementer, så antall kombinasjonsmuligheter totalt blir
${\large \binom{N}{n}}$
Bruker vi så «gunstige på mulige», får vi et uttrykk for sannsynligheten for at et tilfeldig utvalg på n elementer fra totalt N, der M er spesielle, inneholder x spesielle elementer. Dette er en diskret sannsynlighetsfordeling som vi kaller hypergeometrisk fordeling.
$\fbox{Hypergeometrisk fordeling: $P(X = x) = \frac{\displaystyle \binom{M}{x} \binom{N – M}{n – x}}{\displaystyle \binom{N}{n}}$}$
Et gitt element kan altså være spesielt eller ikke-spesielt. Dette minner litt om den binomiske sannsynlighetsfordelingen, der vi også hadde to muligheter, suksess eller fiasko. Men i motsetning til en binomisk situasjon, er det her avhengighet mellom forsøkene. Sannsynligheten for hva vi trekker vil variere med hva vi har trukket tidligere. Trekker vi få elementer fra en stor mengde, er imidlertid forskjellen på binomisk og hypergeometrisk fordeling liten.
Eksempel 1:
Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.
Mengden vi trekker fra består av N = 52 elementer, av disse er M = 13 spesielle, altså spar. Vi trekker n = 5 ganger og skal finne sannsynligheten for at X = 2. Vi får
$P(X = 2) = \frac{\displaystyle \binom{13}{2} \cdot \binom{52 – 13}{5 – 2}}{\displaystyle \binom{52}{5}} \approx 0{,}2743$.
Det er ca. 27 % sannsynlig å få en hånd med akkurat 2 spar. Vi ser at det som står i telleren, er antall kombinasjoner som gir to spar multiplisert med antall kombinasjoner av tre andre kort. I nevneren står antall kombinasjoner totalt med fem av femtito kort.
Hypergeometrisk fordeling i Excel og GeoGebra
I Excel beregner vi hypergeometriske sannsynligheter med funksjonen hypgeom.fordeling.n. Vi må da oppgi hvor mange spesielle elementer vi ønsker sannsynligheten for, utvalgets størrelse, antall spesielle elementer totalt, antall elementer totalt, true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel =hypgeom.fordeling.n(2; 5; 13; 52; usann) for å gjøre beregningen i eksempel 1.
Tilsvarende funksjon i GeoGebra heter fordelinghypergeometrisk. Her er rekkefølgen på variablene annerledes, vi angir antall elementer totalt, antall spesielle elementer totalt, utvalgets størrelse, hvor mange spesielle elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel fordelinghypergeometrisk(52,13, 5, 2, false) for å gjøre beregningen i eksempel 1.
I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.
En hypergeometrisk fordeling har så mange variabler at det er vanskelig å sette opp sannsynlighetene i en praktisk tabell.
I en forening med 65 medlemmer er 13 negative til et forslag. Hvis vi velger 20 representanter tilfeldig blant medlemmene, hva er da sannsynligheten for at
- Ingen av representantene er negative.
- Én av representantene er negativ.
- To eller flere av representantene er negative.
Gjør beregningene ved hjelp av formelen for hypergeometrisk fordeling, og kontroller svarene i Excel eller GeoGebra.
Eksempel 2:
I eksempel 1 i kombinatorikk-artikkelen om kombinasjoner og sannsynligheter ser vi at sannsynligheten for å få 7 rette i Lotto er om lag 1,859 · 10-7, fordi det bare finnes 1 vinnerrekke av totalt 5 379 616, og ${\large \frac{1}{5 \, 379 \, 616}} \approx 1{,}858 9 \cdot 10^{\text{-}7}$.
Det utbetales imidlertid også gevinst for 6 rette. Og 6 rette er enklere å få fordi det finnes mange flere rekker med 6 rette. Hvert av de 7 vinnertallene kan vi nemlig bytte ut med hvert av de 34 – 7 = 27 tallene som ikke er vinnertall, noe som gir 7 · 27 = 189 muligheter, og en vinnersannsynlighet på
${\large \frac{189}{5 \, 379 \, 616}} \approx 3{,}5133 \cdot 10^{-5}$.
En annen måte å komme fram til denne sannsynligheten på er imidlertid å tenke på lottotrekning som en hypergeometrisk situasjon der vi trekker 7 tall fra en mengde på 34, der 7 er spesielle (vinnertallene), og så beregner hva sannsynligheten for å få 6 av de spesielle er. Vi får
$P(X = 6) = \frac{\displaystyle \binom{7}{6} \cdot \binom{34 – 7}{7 – 6}}{\displaystyle \binom{34}{7}} \approx 3{,}5133 \cdot 10^{-5}$.
Sannsynligheten for å få 6 rette er om lag 0,00351 %.
(I Lotto trekkes også et tilleggstall, og blant de 189 rekkene vil det være 7 som har 6 rette + 1 tilleggstall, noe som gir høyere gevinst. Det tar vi imidlertid ikke hensyn til i denne modellen.)
Det utbetales også gevinst for 5 og 4 rette i Lotto. Bruk formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få henholdsvis 5 og 4 rette.
Forventning og varians i hypergeometrisk fordeling
I en hypergeometrisk fordeling er forventning og varians gitt ved
$\fbox{$\begin{align} E(X) &= n \cdot \frac{\displaystyle M}{\displaystyle N} \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot n \cdot \frac{\displaystyle M}{\displaystyle N} \cdot \Big(1 – \frac{\displaystyle M}{\displaystyle N} \Big) \end{align}$}$
Brøken $\frac{\displaystyle M}{\displaystyle N}$ representerer egentlig sannsynligheten for å trekke et spesielt element, fordi M er antall spesielle elementer og N er antall elementer totalt. (Gunstige på mulige). Kaller vi denne sannsynligheten p, altså $p = \frac{\displaystyle M}{\displaystyle N}$, får vi
$\fbox{$\begin{align} E(X) &= np \\
Var(X) &= \Big( \frac{\displaystyle N – n}{\displaystyle N – 1} \Big) \cdot np (1 – p) \end{align}$}$
I en biomisk fordeling har vi E(X) = np og Var(X) = np(1 − p).
Vi ser at forventningene er de samme i hypergeometrisk og binomisk fordeling, og det eneste som skiller variansene er faktoren $\frac{\displaystyle N – n}{\displaystyle N – 1}$. Trekker vi imidlertid bare noen få elementer fra en stor mengde, slik at N er mye større enn n, blir denne faktoren nokså nærme 1 og kan ignoreres.
La X være antall negativt innstilte representanter i utvalget fra oppgave 1. Finn E(X) og Var(X).
Kilder
-
- Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
- Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
- Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
- Wikipedia: Lotto