Sentralgrenseteoremet

Hva er sentralgrenseteoremet?

Hvis vi kaster en terning, er det like sannsynlig å få 1, 2, 3, 4, 5 og 6. Vi har en uniform sannsynlighetsfordeling. Gjør vi 100 kast og summerer antall øyne, kan summen bli alt fra 100 til 600. Men selvfølgelig er ikke 100 og 600 like sannsynlig som for eksempel 300. Det er fordi det kun er én kombinasjon av terningene som gir 100, nemlig bare enere, og kun én kombinasjon av terningene som gir 600, nemlig bare seksere. Sannsynligheten for hvert av disse tilfellene er ${\large (\frac{1}{6})}^{100} \approx 1{,}5306 \cdot 10^{-78}$. Men 300 kan vi få på utallige måter, uten at vi en gang forsøker oss på å regne det ut her.

I figuren under viser de blå linjene fordelingen av summen av antall øyne i 20 000 simulerte kast med 100 terninger.

Fordeling av sum øyne i 20 000 kast med 100 terninger, og tilhørende normalfordeling

Siden hvert kast har forventning μ = 3,5, slik vi ser i artikkelen om forventning og varians, er det ikke overraskende at sannsynlighetsfordelingen for summen av antall øyne i 100 kast er sentrert rundt 100 · 3,5 = 350.

Mer overraskende er det kanskje at summene later til å være tilnærmet normalfordelt, slik den røde kurven indikerer. Dette er imidlertid ikke tilfeldig, men i henhold til det som kalles sentralgrenseteoremet:

$\fbox{$\begin{align} &\text{Dersom } X_1, X_2, \dots, X_n \text{ er uavhengige og har samme fordeling med forventning } \mu \text{ og varians } \sigma^2 \text{ vil } \\
&X_1 + X_2 + \dots + X_n \approx N(n \mu, n \sigma^2) \text{ og } \overline X \approx N(\mu, \frac{\displaystyle \sigma^2}{\displaystyle n})\end{align}$}$

Både summen av variablene og gjennomsnittet av variablene er altså tilnærmet normalfordelt, selv om variablene i seg selv følger en annen fordeling. Jo flere variable vi har, jo bedre blir tilnærmingen. Når antall variable går mot uendelig, konvergerer fordelingen mot normalfordelingen, normalfordelingen utgjør en grenseverdi, derav navnet på teoremet.

Dette betyr at vi kan bruke normalfordelingen til å beregne tilnærmede sannsynligheter i vilkårlige fordelinger hvis antall variabler er stort nok. Hva «stort nok» betyr vil variere med fordelingen, men en tommelfingerregel er > 30.

Hvis fordelingen til variablene i utgangspunktet er en normalfordeling, vil imidlertid sentralgrenseteoremet angi eksakt verdi, uavhengig av antall målinger. Denne egenskapen kan lett utledes av at summen av normalfordelte variabler også er normalfordelt, slik det er beskrevet i artikkelen om normalfordelingen.

Eksempel 1:

Et idrettslag skal selge pølser på en håndballkamp med 400 tilskuere. Av erfaring vet de at i gjennomsnitt kjøper 30 % av tilskuerne ingenting, 50 % kjøper en enkelt pølse, og 20 % kjøper to pølser. Så lurer de på om det holder med 19 pakker à 20 pølser, altså 380 stykk.

Dersom X er antall solgte pølser per tilskuer, har vi altså at P(X = 0) = 0,3, P(X = 1) = 0,5 og P(X = 2) = 0,2. Dersom Y er antall solgte pølser totalt, skal vi finne P(Y ≤ 380).

Vi må først finne forventning og varians for X. Vi bruker formlene fra artikkelen om forventning og varians, og får:

E(X) = 0 · 0,3 + 1 · 0,5 + 2 · 0,2 = 0,9.

E(X2) = 02 · 0,3 + 12 · 0,5 + 22 · 0,2 = 1,3.

Var(X) = E(X2) − (E(X))2 = 1,3 − (0,9)2 = 0,49.

Altså μ = E(X) = 0,9, og σ2 = Var(X) = 0,49.

n = 400, godt over tommelfingerregelen på > 30. Så dersom alle kjøpene er uavhengige, vil ifølge sentralgrenseteoremet summen Y være tilnærmet normalfordelt. Forventningen og variansen til Y blir 400 ganger forventningen og variansen til X, så

YN(400 · 0,9, 400 · 0,49) = N(360, 196) = N(360, 142).

Vi skriver =norm.fordeling(380; 360; 14; sann) i Excel eller fordelingnormal(360, 14, 380) i GeoGebra og får 0,9234.

Vi kan også finne normaltilnærmingen ved å bruke normalfordelingstabellen. Vi gjør da først en standardisering, og finner ut at P(Y ≤ 380) tilsvarer $G({\large \frac{380 – 360}{14}}) \approx G(1{,}43)$. Så går vi inn i normalfordelingstabellen, rad 1,4, kolonne 0,03, der det står 0,9236.

Det er altså om lag 92,3 % sannsynlighet for at 380 pølser er nok.

Oppgave 1:

En orkidedyrker har 2500 planter. I gjennomsnitt produserer 20 % av plantene ingen blomsterstengler, 40 % én stengel, 30 % to stengler, og 10 % produserer tre stengler. Han har fått bestillinger på i alt 3200 stengler. Hvor sannsynlig er det at han vil klare å levere?

Se løsningsforslag

Tilnærme diskrete fordelinger med normalfordelingen

I artikkelen om å tilnærme fordelinger ser vi hvordan vi kan tilnærme en hypergeometrisk fordeling med en binomisk fordeling, og hvordan vi kan tilnærme en binomisk fordeling med en poissonfordeling. Nå skal vi se hvordan vi kan tilnærme en binomisk fordeling, en hypergeometrisk fordeling og en poissonfordeling med en normalfordeling, ved hjelp av sentralgrenseteoremet.

I tidligere tider, da en var avhengig av tabeller for å beregne sannsynligheter, var det ikke vanskelig å motivere bruken av normalfordelingen til slike tilnærminger. En typisk læreboktabell gir bare mulighet for å finne binomiske sannsynligheter i opptil 10 forsøk, mens det med en normaltilnærming ikke er noen grense for hvor mange forsøk vi kan håndtere. I datamaskinenes tidsalder er imidlertid situasjonen annerledes. Allikevel finnes det en øvre grense for antall sannsynligheter vi kan beregne. Excel gir for eksempel opp ved ca. 2 milliarder binomiske frøk. Det kan dessuten være lærerikt å utforske prinsippene for hvordan vi kan tilnærme diskrete fordelinger med en normalfordeling.

Normalfordelingen vi tilnærmer med er N(μ, σ2), der μ og σ2 er den opprinnelige fordelingens forventning og varians.

Generelt sa vi at en normaltilnærmingen er god hvis n > 30. Vi kan i disse fordelingene gi litt mer nøyaktige anslag.

Binomisk fordeling

Å beregne sannsynligheter i en binomisk fordeling betyr å finne sannsynligheten for et gitt antall suksesser, for eksempel 44 kron i 100 myntkast. Lar vi X være en tilfeldig variabel som representerer utfallet av et binomisk forsøk, kan vi sette X = 1 hvis forsøket er en suksess, og X = 0 hvis ikke. Antall suksesser totalt finner vi da ved å summere X-ene. Siden alle X-ene er uavhengige og har samme fordeling, vil denne summen kunne tilnærmes med normalfordelingen, ifølge sentralgrenseteoremet.

I en binomisk fordeling er forventning og varians henholdsvis μ = np og σ2 = np(1 − p) slik det beskrives i artikkelen om binomisk fordeling. Vi får derfor at

$\fbox{$X \sim bin(n, p) \approx N(\mu, \sigma^2) \approx N(np, np(1 – p))$}$

Eksempel 2:

I figuren under viser de blå linjene fordelingen av antall kron i 100 simulerte myntkast. Dersom X er antall kron, er X ~ bin(n, p) = bin(100, 0,5). Da er forventningen μ = np = 100 · 0,5 = 50, og som vi kan se ligger toppen i nærheten av 50. Variansen er σ2 = np(1 − p) = 100 · 0,5 ·(1 − 0,5) = 25. Den røde kurven viser normalfordelingen med samme forventning og varians, N(50, 25) = N(50, 52). Vi ser at de to fordelingene er så og si like.

Fordeling av antall kron i 100 myntkast, og tilhørende normalfordeling

Hvor god tilnærmingen er, avhenger av både n og p. n må ikke være for liten, og p må ikke være for nærme 0 eller 1. En tommelfingerregel som tar hensyn til dette, er np(1 − p) ≥ 10.

Eksempel 3:

Vi kaster en mynt 1000 ganger, og vil finne sannsynligheten for å få 485 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 1000 forsøk, og en sannsynlighet på p = 0,5. Så hvis X er antall kron, er X ~ bin(1000, 0,5).

Her er np(1 − p) = 1000 · 0,5(1 − 0,5) = 250, så vi forventer at normaltilnærmingen skal være god.

Normaltilnærmingen blir N(1000 · 0,5, 1000 · 0,5 (1 − 0,5)) = N(500, 250).

Vi skal altså finne P(X ≤ 485) basert på normaltilnærmingen $N(500, \sqrt{250}^2)$. Det kan vi gjøre i Excel ved å skrive =norm.fordeling(485; 500; rot(250); sann), og i GeoGebra ved å skrive fordelingnormal(500, sqrt(250), 485). Avrundet til 4 desimaler får vi 0,1714.

Den nøyaktige sannsynligheten kan vi finne ved å beregne P(X = 0) + P(X = 1) + … + P(X = 485) i en binomisk fordeling med 1000 forsøk og p = 0,5. Skriver vi =binom.fordeling.n(485; 1000; 0,5; sann) i Excel, får vi at dette er ca. 0,1796. 

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1796 – 0{,}1714}{0{,}1796}} \approx 0{,}0457$, ca. 4,6 % for lav.

Vi kan også finne normaltilnærmingen ved å bruke normalfordelingstabellen. Vi gjør da først en standardisering, og finner at P(X ≤ 485) tilsvarer $G({\large \frac{485 – 500}{\sqrt{250}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$. Så går vi inn i normalfordelingstabellen, rad 0,9, kolonne 0,05, der det står 0,8289. Så G(−0,95) ≈ 1 − 0,8289 = 0,1711.

Eksempel 4:

Vi kaster en mynt 10 ganger, og vil finne sannsynligheten for å få 3 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 10 forsøk og en sannsynlighet på 0,5. Så hvis X er antall kron, er X ~ bin(10, 0,5). Vi skal finne P(X ≤ 3), det vil si

$P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) =$

${\large \binom{10}{0}} (0{,}5)^0 (0{,}5)^{10} + {\large \binom{10}{1}} (0{,}5)^1 (0{,}5)^9 +$

${\large \binom{10}{2}} (0{,}5)^2 (0{,}5)^8 + {\large \binom{10}{3}} (0{,}5)^3 (0{,}5)^7 \approx 0{,}1719$

Så skal vi bruke normaltilnærmingen til å anslå denne sannsynligheten.

Her er np(1 − p) = 10 · 0,5(1 − 0,5) = 2,5, så vi forventer ikke at normaltilnærmingen skal være særlig god.

Normaltilnærmingen blir N(10 · 0,5, 10 · 0,5 (1 – 0,5)) = N(5, 2,5).

Bruker vi Excel til beregningen, skriver vi =norm.fordeling(3; 5; rot(2,5); sann), og får om lag 0,1030.

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1719 – 0{,}1030}{0{,}1719}} \approx 0{,}4008$, ca. 40,1 % for lav. Som ventet ikke særlig god.

​Oppgave 2:

Vi har en juksemynt med sannsynlighet p = 0,6 for kron, og vil finne sannsynligheten for å få 125 eller færre kron i 200 kast. Ved å skrive =binom.fordeling.n(125; 200; 0,6; sann) i Excel, får vi at dette er ca. 0,7858.

Avgjør om en normaltilnærming kan forventes å være god i dette tilfellet, og bruk så Excel eller GeoGebra til å beregne sannsynligheten ved hjelp av normaltilnærming. Hvor stor blir feilen i prosent?

Se løsningsforslag

Hypergeometrisk fordeling

I artikkelen om hypergeometrisk fordeling ser vi at vi i en hypergeometrisk fordeling beregner sannsynligheter for å trekke ut «spesielle elementer». Modellerer vi dette med en tilfeldig variabel, X, der vi setter X = 1 hvis et utvalgt element er «spesielt» og X = 0 hvis ikke, kan vi finne antall spesielle elementer totalt ved å summere X-ene. I denne fordelingen er imidlertid ikke X-ene uavhengige av hverandre, sannsynligheten for å trekke et spesielt element vil avhenge av hvor mange spesielle elementer vi har trukket tidligere. Betingelsene for å bruke sentralgrenseteoremet er derved ikke oppfylt. Hvis vi imidlertid bare trekker en liten del av det totale antallet, betyr dette lite.

I en hypergeometrisk fordeling, der vi trekker n elementer fra totalt N, der M er spesielle, er $\mu = np$ og $\sigma^2 = \Big( {\large \frac{N – n}{N – 1}} \Big) \cdot np(1 – p)$, der $p$ er forholdet mellom spesielle elementer og elementer totalt, $p = {\large \frac{M}{N}}$.

Vi får derfor at

$\fbox{$X \sim \text{hypergeom}(N, M, n) \approx N(\mu, \sigma^2) \approx N \Big(np, \, \big( {\large \frac{N – n}{N – 1}} \big) \cdot np(1 – p)\Big)$}$

Vær oppmerksom på at det er to forskjellige N her! N står for antall elementer totalt, men også som indikasjon for normalfordelingen.

Tilnærmingen er god når $n \le {\large \frac{N}{20}}$ og $np(1-p) \ge 10$.

Poissonfordeling

I en poissonfordeling kan vi betrakte X som et gjennomsnitt av likt fordelte, uavhengige variabler, og sentralgrenseteoremet kan derfor benyttes.

I artikkelen om poissonfordeling ser vi at i en poissonfordeling er μ = λ og σ2 = λ. Vi får derfor at

$\fbox{$X \sim \text{poisson}(\lambda) \approx N(\mu, \sigma^2) \approx N(\lambda, \lambda)$}$

Tilnærmingen er god når λ ≥ 10.

Heltallskorreksjon

I en diskret sannsynlighetsfordeling er P(Xx) det samme som P(X < x + 1), for eksempel er P(X ≤ 3) det samme som P(X < 4). Dette er imidlertid ikke tilfelle i en kontinuerlig fordeling som normalfordelingen. Her er P(X < x) det samme som P(Xx). Så i prinsippet kan vi tilnærme med både x og x + 1. Hva som er best, vil kunne variere, men ofte vil det beste være å legge seg midt imellom, altså på x + 0,5. For eksempel x = 3,5 i normalfordelingen når vi skal finne P(X ≤ 3) i en diskret fordeling. Dette kalles heltallskorreksjon, og har størst effekt i små utvalg.

Eksempel 5:

I eksempel 4 fant vi, ved å bruke formelen for binomisk fordeling, at sannsynligheten for å få 3 eller færre kron ved 10 kast var om lag 0,1719.

Normaltilnærmingen er N(5, 2,5), og vi fant at dette er om lag 0,1030, noe som er ca. 40,1 % for lavt.

Bruker vi heltallskorreksjon, skal vi erstatte x = 3 med x = 3 + 0,5 = 3,5. Bruker vi Excel til beregningen, skriver vi =norm.fordeling(3,5; 5; rot(2,5); sann), og får om lag 0,1714.

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1719 – 0{,}1714}{0{,}1719}} \approx 0{,}0029$, ca. 0,3 % for lav. Heltallskorreksjon har gitt en dramatisk forbedring.

Oppgave 3:

I oppgave 2 skulle vi bruke normaltilnærming i en hypergeometrisk fordeling. Gjør tilnærmingen om igjen med heltallskorreksjon. Blir resultatet bedre eller dårligere enn i oppgave 2?

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons