Sentralgrenseteoremet

Hva er sentralgrenseteoremet?

Hvis vi kaster en terning, er det like sannsynlig å få 1, 2, 3, 4, 5 og 6. Vi har en uniform sannsynlighetsfordeling. Gjør vi 100 kast og summerer antall øyne, kan summen bli alt fra 100 til 600. Men selvfølgelig er ikke 100 og 600 like sannsynlig som for eksempel 300. Det er fordi det kun er én kombinasjon av terningene som gir 100, nemlig bare enere, og kun én kombinasjon av terningene som gir 600, nemlig bare seksere. Sannsynligheten for hvert av disse tilfellene er ${\large (\frac{1}{6})}^{100} \approx 1{,}5306 \cdot 10^{-78}$. Men 300 kan vi få på utallige måter, uten at vi en gang forsøker oss på å regne det ut her.

I figuren under viser de blå linjene fordelingen av summen av antall øyne i 20 000 simulerte kast med 100 terninger.

Fordeling av sum øyne i 20 000 kast med 100 terninger, og tilhørende normalfordeling

Siden hvert kast har forventning μ = 3,5, slik vi ser i artikkelen om forventning og varians, er det ikke overraskende at sannsynlighetsfordelingen for summen av antall øyne i 100 kast er sentrert rundt 100 · 3,5 = 350.

Mer overraskende er det kanskje at summene later til å være tilnærmet normalfordelt, slik som den røde kurven indikerer. Dette er imidlertid ikke tilfeldig, men i henhold til det som kalles sentralgrenseteoremet:

$\fbox{$\begin{align} &\text{Dersom } X_1, X_2, \dots, X_n \text{ er uavhengige og har samme fordeling med forventning } \mu \text{ og varians } \sigma^2 \text{ vil } \\
&X_1 + X_2 + \dots + X_n \approx N(n \mu, n \sigma^2) \text{ og } \overline X \approx N(\mu, \frac{\displaystyle \sigma^2}{\displaystyle n})\end{align}$}$

Både summen av variablene og gjennomsnittet av variablene er altså tilnærmet normalfordelt, selv om variablene i seg selv følger en annen fordeling. Jo flere variable vi har, jo bedre blir tilnærmingen. Når antall variable går mot uendelig, konvergerer fordelingen mot normalfordelingen, normalfordelingen utgjør en grenseverdi, derav navnet på teoremet.

Dette betyr at vi kan bruke normalfordelingen til å beregne tilnærmede sannsynligheter i vilkårlige fordelinger hvis antall variabler er stort nok. Hva «stort nok» betyr vil variere med fordelingen, men en tommelfingerregel er > 30.

Hvis fordelingen til variablene i utgangspunktet er en normalfordeling, vil imidlertid sentralgrenseteoremet angi eksakt verdi, uavhengig av antall målinger. Denne egenskapen kan lett utledes av at summen av normalfordelte variabler også er normalfordelt, slik det er beskrevet i artikkelen om normalfordelingen.

Eksempel 1:

Et idrettslag skal selge pølser på en håndballkamp med 400 tilskuere. Av erfaring vet de at i gjennomsnitt kjøper 30 % av tilskuerne ingenting, 50 % kjøper en enkelt pølse, og 20 % kjøper to pølser. Så lurer de på om det holder med 19 pakker à 20 pølser, altså 380 stykk.

Dersom X er antall solgte pølser per tilskuer, har vi altså at P(X = 0) = 0,3, P(X = 1) = 0,5 og P(X = 2) = 0,2. Dersom Y er antall solgte pølser totalt, skal vi finne P(Y ≤ 380).

Vi må først finne forventning og varians for X. Vi bruker formlene fra artikkelen om forventning og varians, og får:

E(X) = 0 · 0,3 + 1 · 0,5 + 2 · 0,2 = 0,9.

E(X2) = 02 · 0,3 + 12 · 0,5 + 22 · 0,2 = 1,3.

Var(X) = E(X2) − (E(X))2 = 1,3 − (0,9)2 = 0,49.

Altså μ = E(X) = 0,9, og σ2 = Var(X) = 0,49.

n = 400, godt over tommelfingerregelen på > 30. Så dersom alle kjøpene er uavhengige, vil ifølge sentralgrenseteoremet summen Y være tilnærmet normalfordelt. Forventningen og variansen til Y blir 400 ganger forventningen og variansen til X, så

YN(400 · 0,9, 400 · 0,49) = N(360, 196) = N(360, 142).

Vi skriver =norm.fordeling(380; 360; 14; sann) i Excel eller fordelingnormal(360, 14, 380) i GeoGebra og får 0,9234.

Vi kan også finne normaltilnærmingen ved å bruke normalfordelingstabellen. Vi gjør da først en standardisering, og finner ut at P(Y ≤ 380) tilsvarer $G({\large \frac{380 – 360}{14}}) \approx G(1{,}43)$. Så går vi inn i normalfordelingstabellen, rad 1,4, kolonne 0,03, der det står 0,9236.

Det er altså om lag 92,3 % sannsynlighet for at 380 pølser er nok.

Oppgave 1:

En orkidedyrker har 2500 planter. I gjennomsnitt produserer 20 % av plantene ingen blomsterstengler, 40 % én stengel, 30 % to stengler, og 10 % produserer tre stengler. Han har fått bestillinger på i alt 3200 stengler. Hvor sannsynlig er det at han vil klare å levere?

Se løsningsforslag

Tilnærme diskrete fordelinger med normalfordelingen

I artikkelen om å tilnærme fordelinger ser vi hvordan vi kan tilnærme en hypergeometrisk fordeling med en binomisk fordeling, og hvordan vi kan tilnærme en binomisk fordeling med en poissonfordeling. Nå skal vi se hvordan vi kan tilnærme en binomisk fordeling, en hypergeometrisk fordeling og en poissonfordeling med en normalfordeling, ved hjelp av sentralgrenseteoremet.

I tidligere tider, da en var avhengig av tabeller for å beregne sannsynligheter, var det ikke vanskelig å motivere bruken av normalfordelingen til slike tilnærminger. En typisk læreboktabell gir bare mulighet for å finne binomiske sannsynligheter i opptil 10 forsøk, mens det med en normaltilnærming ikke er noen grense for hvor mange forsøk vi kan håndtere. I datamaskinenes tidsalder er imidlertid situasjonen annerledes. Allikevel finnes det en øvre grense for antall sannsynligheter vi kan beregne. Excel gir for eksempel opp ved ca. 2 milliarder binomiske forsøk. Det kan dessuten være lærerikt å utforske prinsippene for hvordan vi kan tilnærme diskrete fordelinger med en normalfordeling.

Normalfordelingen vi tilnærmer med er N(μ, σ2), der μ og σ2 er den opprinnelige fordelingens forventning og varians.

Generelt sa vi at en normaltilnærming er god hvis n > 30. Vi kan i disse fordelingene gi litt mer nøyaktige anslag.

Binomisk fordeling

Å beregne sannsynligheter i en binomisk fordeling betyr å finne sannsynligheten for et gitt antall suksesser, for eksempel 44 kron i 100 myntkast. Lar vi X være en tilfeldig variabel som representerer utfallet av et binomisk forsøk, kan vi sette X = 1 hvis forsøket er en suksess, og X = 0 hvis ikke. Antall suksesser totalt finner vi da ved å summere X-ene. Siden alle X-ene er uavhengige og har samme fordeling, vil denne summen kunne tilnærmes med normalfordelingen, ifølge sentralgrenseteoremet.

I en binomisk fordeling er forventning og varians henholdsvis μ = np og σ2 = np(1 − p) slik det beskrives i artikkelen om binomisk fordeling. Vi får derfor at

$\fbox{$X \sim bin(n, p) \approx N(\mu, \sigma^2) \approx N(np, np(1 – p))$}$

Eksempel 2:

I figuren under viser de blå linjene fordelingen av antall kron i 100 simulerte myntkast. Dersom X er antall kron, er X ~ bin(n, p) = bin(100, 0,5). Da er forventningen μ = np = 100 · 0,5 = 50, og som vi kan se ligger toppen i nærheten av 50. Variansen er σ2 = np(1 − p) = 100 · 0,5 ·(1 − 0,5) = 25. Den røde kurven viser normalfordelingen med samme forventning og varians, N(50, 25) = N(50, 52). Vi ser at de to fordelingene er så og si like.

Fordeling av antall kron i 100 myntkast, og tilhørende normalfordeling

Hvor god tilnærmingen er, avhenger av både n og p. n må ikke være for liten, og p må ikke være for nærme 0 eller 1. En tommelfingerregel som tar hensyn til dette, er np(1 − p) ≥ 10.

Eksempel 3:

Vi kaster en mynt 1000 ganger, og vil finne sannsynligheten for å få 485 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 1000 forsøk, og en sannsynlighet på p = 0,5. Så hvis X er antall kron, er X ~ bin(1000, 0,5).

Her er np(1 − p) = 1000 · 0,5(1 − 0,5) = 250, så vi forventer at normaltilnærmingen skal være god.

Normaltilnærmingen blir N(1000 · 0,5, 1000 · 0,5 (1 − 0,5)) = N(500, 250).

Vi skal altså finne P(X ≤ 485) basert på normaltilnærmingen $N(500, \sqrt{250}^2)$. Det kan vi gjøre i Excel ved å skrive =norm.fordeling(485; 500; rot(250); sann), og i GeoGebra ved å skrive fordelingnormal(500, sqrt(250), 485). Avrundet til 4 desimaler får vi 0,1714.

Den nøyaktige sannsynligheten kan vi finne ved å beregne P(X = 0) + P(X = 1) + … + P(X = 485) i en binomisk fordeling med 1000 forsøk og p = 0,5. Skriver vi =binom.fordeling.n(485; 1000; 0,5; sann) i Excel, får vi at dette er ca. 0,1796. 

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1796 – 0{,}1714}{0{,}1796}} \approx 0{,}0457$, ca. 4,6 % for lav.

Vi kan også finne normaltilnærmingen ved å bruke normalfordelingstabellen. Vi gjør da først en standardisering, og finner at P(X ≤ 485) tilsvarer $G({\large \frac{485 – 500}{\sqrt{250}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$. Så går vi inn i normalfordelingstabellen, rad 0,9, kolonne 0,05, der det står 0,8289. Så G(−0,95) ≈ 1 − 0,8289 = 0,1711.

Eksempel 4:

Vi kaster en mynt 10 ganger, og vil finne sannsynligheten for å få 3 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 10 forsøk og en sannsynlighet på 0,5. Så hvis X er antall kron, er X ~ bin(10, 0,5). Vi skal finne P(X ≤ 3), det vil si

$P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) =$

${\large \binom{10}{0}} (0{,}5)^0 (0{,}5)^{10} + {\large \binom{10}{1}} (0{,}5)^1 (0{,}5)^9 +$

${\large \binom{10}{2}} (0{,}5)^2 (0{,}5)^8 + {\large \binom{10}{3}} (0{,}5)^3 (0{,}5)^7 \approx 0{,}1719$

Så skal vi bruke normaltilnærmingen til å anslå denne sannsynligheten.

Her er np(1 − p) = 10 · 0,5(1 − 0,5) = 2,5, så vi forventer ikke at normaltilnærmingen skal være særlig god.

Normaltilnærmingen blir N(10 · 0,5, 10 · 0,5 (1 – 0,5)) = N(5, 2,5).

Bruker vi Excel til beregningen, skriver vi =norm.fordeling(3; 5; rot(2,5); sann), og får om lag 0,1030.

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1719 – 0{,}1030}{0{,}1719}} \approx 0{,}4008$, ca. 40,1 % for lav. Som ventet ikke særlig god.

​Oppgave 2:

Vi har en juksemynt med sannsynlighet p = 0,6 for kron, og vil finne sannsynligheten for å få 125 eller færre kron i 200 kast. Ved å skrive =binom.fordeling.n(125; 200; 0,6; sann) i Excel, får vi at dette er ca. 0,7858.

Avgjør om en normaltilnærming kan forventes å være god i dette tilfellet, og bruk så Excel eller GeoGebra til å beregne sannsynligheten ved hjelp av normaltilnærming. Hvor stor blir feilen i prosent?

Se løsningsforslag

Hypergeometrisk fordeling

I artikkelen om hypergeometrisk fordeling ser vi at vi i en hypergeometrisk fordeling beregner sannsynligheter for å trekke ut «spesielle elementer». Modellerer vi dette med en tilfeldig variabel, X, der vi setter X = 1 hvis et utvalgt element er «spesielt» og X = 0 hvis ikke, kan vi finne antall spesielle elementer totalt ved å summere X-ene. I denne fordelingen er imidlertid ikke X-ene uavhengige av hverandre, sannsynligheten for å trekke et spesielt element vil avhenge av hvor mange spesielle elementer vi har trukket tidligere. Betingelsene for å bruke sentralgrenseteoremet er derved ikke oppfylt. Hvis vi imidlertid bare trekker en liten del av det totale antallet, betyr dette lite.

I en hypergeometrisk fordeling, der vi trekker n elementer fra totalt N, der M er spesielle, er $\mu = np$ og $\sigma^2 = \Big( {\large \frac{N – n}{N – 1}} \Big) \cdot np(1 – p)$, der $p$ er forholdet mellom spesielle elementer og elementer totalt, $p = {\large \frac{M}{N}}$.

Vi får derfor at

$\fbox{$X \sim \text{hypergeom}(N, M, n) \approx N(\mu, \sigma^2) \approx N \Big(np, \, \big( {\large \frac{N – n}{N – 1}} \big) \cdot np(1 – p)\Big)$}$

Vær oppmerksom på at det er to forskjellige N her! N står for antall elementer totalt, men også som indikasjon for normalfordelingen.

Tilnærmingen er god når $n \le {\large \frac{N}{20}}$ og $np(1-p) \ge 10$.

Poissonfordeling

I en poissonfordeling kan vi betrakte X som et gjennomsnitt av likt fordelte, uavhengige variabler, og sentralgrenseteoremet kan derfor benyttes.

I artikkelen om poissonfordeling ser vi at i en poissonfordeling er μ = λ og σ2 = λ. Vi får derfor at

$\fbox{$X \sim \text{poisson}(\lambda) \approx N(\mu, \sigma^2) \approx N(\lambda, \lambda)$}$

Tilnærmingen er god når λ ≥ 10.

Heltallskorreksjon

I en diskret sannsynlighetsfordeling er P(Xx) det samme som P(X < x + 1), for eksempel er P(X ≤ 3) det samme som P(X < 4). Dette er imidlertid ikke tilfelle i en kontinuerlig fordeling som normalfordelingen. Her er P(X < x) det samme som P(Xx). Så i prinsippet kan vi tilnærme med både x og x + 1. Hva som er best, vil kunne variere, men ofte vil det beste være å legge seg midt imellom, altså på x + 0,5. For eksempel x = 3,5 i normalfordelingen når vi skal finne P(X ≤ 3) i en diskret fordeling. Dette kalles heltallskorreksjon, og har størst effekt i små utvalg.

Eksempel 5:

I eksempel 4 fant vi, ved å bruke formelen for binomisk fordeling, at sannsynligheten for å få 3 eller færre kron ved 10 kast var om lag 0,1719.

Normaltilnærmingen er N(5, 2,5), og vi fant at dette er om lag 0,1030, noe som er ca. 40,1 % for lavt.

Bruker vi heltallskorreksjon, skal vi erstatte x = 3 med x = 3 + 0,5 = 3,5. Bruker vi Excel til beregningen, skriver vi =norm.fordeling(3,5; 5; rot(2,5); sann), og får om lag 0,1714.

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1719 – 0{,}1714}{0{,}1719}} \approx 0{,}0029$, ca. 0,3 % for lav. Heltallskorreksjon har gitt en dramatisk forbedring.

Oppgave 3:

I oppgave 2 skulle vi bruke normaltilnærming i en hypergeometrisk fordeling. Gjør tilnærmingen om igjen med heltallskorreksjon. Blir resultatet bedre eller dårligere enn i oppgave 2?

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Tilnærme fordelinger

Tilnærme hypergeometrisk fordeling med binomisk

I en hypergeometrisk fordeling har vi trekning uten tilbakelegging. Men hvis vi bare trekker ut noen få elementer, og mengden vi trekker fra er stor, betyr dette lite. Vi kan da tilnærme den hypergeometriske fordelingen med en binomisk, der $p = {\large \frac{M}{N}}$, altså forholdet mellom M spesielle av i alt N elementer.

En binomisk tilnærming regnes som god hvis $n \le {\large \frac{N}{20}}$, det vil si at vi trekker mindre enn en tjuendedel av det totale antallet.

Fordelen med en tilnærming er at utregningene blir enklere, og vi slipper å ha med N og M i beregningene. Dette er en fordel fordi hvis N og/eller M er store, risikerer vi å få problemer med kalkulatorer og dataprogrammer på grunn av svært høye tall i mellomregningene. Varians er også mye enklere å beregne i en binomisk fordeling.

Eksempel 1:

I et vareparti på 1000 enheter er 5 % av varene defekte. Vi trekker 10 varer tilfeldig og lurer på hvor stor sannsynligheten er for at ingen av dem er defekte.

Sannsynligheten for å trekke defekte er hypergeometrisk fordelt, med N = 1000, M = 1000 · 0,05 = 50 og n = 10, så vi får

$P(X = 0) = \frac{\displaystyle \binom{50}{0} \cdot \binom{1000 – 50}{10 – 0}}{\displaystyle \binom{1000}{10}} \approx 0{,}5973$.

Vi trekker imidlertid bare n = 10 av N = 1000, og $10 < {\large \frac{1000}{20}}=50$, så vi får en god tilnærming med en binomialfordeling med n = 10 og $p = {\large \frac{M}{N}} = {\large \frac{50}{1000}} = 0{,}05$:

$P(X = 0) = {\large \binom{10}{0}} (0,05)^0 (1 – 0,05)^{10 – 0} \approx 0{,}5987$.

Vi ser at feilen i forhold til svaret vi fikk da vi brukte hypergeometrisk fordeling bare er ca. $0{,}5987 – 0{,}5973 = 0{,}0014$.

Eksempel 2:

Vi vil finne ut hva forventning og varians er i en hypergeometrisk fordeling og en binomisk fordeling basert på dataene fra eksempel 1.

Hypergeometrisk:

$E(X) = 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} = 0{,}5$.

$Var(X) = \Big( \frac{\displaystyle 1000 – 50}{\displaystyle 1000 – 1} \Big) \cdot 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} \cdot \Big(1 – \frac{\displaystyle 50}{\displaystyle 1000} \Big) \approx 0{,}4517$.

Binomisk:

$E(X) = 10 \cdot 0{,}05 = 0{,}5$.

$Var(X) = 10 \cdot 0{,}05(1 – 0{,}05) = 0{,}4750$.

Vi ser at forventningene i begge tilfeller er like, men variansen er ørlite høyere i den binomiske fordelingen. Det er rimelig siden variasjonsmulighetene er flere når vi kan trekke samme element flere ganger.

Figurene under viser sannsynlighetene i en hypergeometrisk fordeling og en tilnærming med en binomisk fordeling når vi trekker n = 50 elementer fra en mengde der halvparten er spesielle.

I figuren til venstre er N = 100, så $n \not \le {\large \frac{N}{20}}$ og tilnærmingen er dårlig. Vi ser at den binomiske fordelingen er for lav og bred.

I figuren til høyre er N = 1000, så $n = {\large \frac{N}{20}}$ og tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av hypergeometrisk fordeling med binomisk når N = 2n
N = 100, n = 20
Tilnærming av hypergeometrisk fordeling med binomisk når N = 20n
N = 1000, n = 20

Oppgave 1:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig, og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten. Vi kan ikke trekke samme innbygger to ganger, så denne situasjonen er uten tilbakelegging og vi har en hypergeometrisk sannsynlighetsfordeling.

  1. Beregn sannsynligheten for at gruppen er delt på midten ved å bruke hypergeometrisk fordeling.
     
  2. Avgjør om en tilnærming med binomisk fordeling vil være god.
     
  3. Beregn den samme sannsynligheten ved å bruke binomisk fordeling.
     
  4. Angi hvor stor feilen ved å bruke binomisk fordeling ble hvis du tar med fire desimaler.

Se løsningsforslag

Tilnærme binomisk fordeling med poisson

Hvis antall forsøk i en binomisk fordeling, n, er stort og sannsynligheten for suksess, p, er liten, kan vi tilnærme en binomisk fordeling med en poissonfordeling med λ = n · p.

En slik tilnærming regnes som god hvis n > 50 og p ≤ 0,05.

Eksempel 3:

I spillet Dungeons and Dragons brukes blant annet en 20-sidet terning. Vi vil undersøke hvor stor sannsynligheten er for å få «20 minst én gang» når vi kaster 75 ganger. Det letteste er her å basere seg på sannsynligheten til komplementhendelsen «20 ingen ganger».

Vi bruker først binomisk fordeling med n = 75 og $p = {\large \frac{1}{20}} = 0{,}05$.

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \binom{75}{0}} (0{,}05)^0 (1 – 0,05)^{75 – 0} \approx 0{,}9787$.

Vi har n = 75 og p = 0,05, så vi oppfyller kravet til en god tilnærming med poisson, selv om p er helt på grensen.

Vi får λ = 75 · 0,05 = 3,75, og

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \frac{(3,75)^0}{0!}}e^{-3,75} \approx 0{,}9765$, en feil på 0,0022.

Figurene under viser kurver for sannsynlighetene i en binomisk fordeling og en tilnærming med en poissonfordeling.

Figuren til venstre viser sannsynligheter for antall kron i 100 kast med en mynt. Her er n = 100 innenfor grensa på n > 50, men p = 0,5 er langt utenfor grensa på p ≤ 0,05, så tilnærmingen er dårlig. Vi ser at poissonfordelingen er altfor lav og bred.

Figuren til høyre viser sannsynlighetene for antall «begge seks» i 1000 kast med to terninger. Her er n = 1000 godt innenfor grensa på n > 50, og $p ={\large \frac{1}{36}}\approx 0{,}0278$ godt innenfor grensa på p ≤ 0,05, så tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av binomisk fordeling med poisson når n = 100 og p = 75
n = 100, p = 0,5
Tilnærming av binomisk fordeling med poisson når n = 1000 og p = 0,027
n = 1000, p ≈ 0,0278

Oppgave 2:

Bruk binomisk sannsynlighetsfordeling til å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Avgjør så om en poissonfordeling kan brukes i dette tilfellet, og beregn i så fall den samme sannsynligheten i en poissonfordeling.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons