Sentralgrenseteoremet

Hvis vi kaster en terning, er det like sannsynlig å få 1, 2, 3, 4, 5 og 6. Vi har en uniform sannsynlighetsfordeling. Gjør vi 100 kast og summerer antall øyne, kan summen bli alt fra 100 til 600. Men selvfølgelig er ikke 100 og 600 like sannsynlig som for eksempel 300. Det er fordi det bare er én kombinasjon av terningene som gir 100, nemlig bare enere, og én kombinasjon av terningene som gir 600, nemlig bare seksere. Sannsynligheten for hvert av disse tilfellene er ${\large (\frac{1}{6})}^{100} \approx 1{,}5 \cdot 10^{-78}$. Men 300 kan vi få på utallige måter, uten at vi en gang forsøker oss på å regne det ut her.

I artikkelen om forventning og varians så vi at vi i et enkelt terningkast hadde μ = 3,5 og σ2 ≈ 2,92. Vi så også at forventningen til en sum av vilkårlige variable er lik summen av forventningene, og at det samme gjelder varians, såfremt variablene er uavhengige. Kaster vi flere terninger, kan vi anta at terningene er uavhengige av hverandre. For summen av antall øyne i kast med to terninger vil vi derfor ha μ = 3,5 + 3,5 = 7 og σ2 ≈ 2,92 + 2,92 = 5,84. For summen av antall øyne i kast med hundre terninger vil vi ha μ = 100 · 3,5 = 350 og σ2 ≈ 100 · 2,92 = 292. Vi kan altså vente oss flest summer rundt 350. Standardavviket blir $\sigma \approx \sqrt{292} \approx 17{,}09$.

I figuren under viser de blå linjene fordelingen av summen av antall øyne i 20 000 simulerte kast med 100 terninger. Som forventet ligger toppen like i nærheten av 350.

Fordeling av sum øyne i 20 000 kast med 100 terninger, og tilhørende normalfordeling

Den røde kurven viser normalfordelingen med samme forventning og varians, μ = 350 og σ2 = 292. Vi ser at de to fordelingene er så og si like. Det er i henhold til det som kalles sentralgrenseteoremet:

$\fbox{$ \text{Dersom } X_1, X_2, \dots, X_n \text{ er uavhengige og har samme fordeling med forventning } \mu \text{ og varians } \sigma^2 \text{ vil } \\
X_1 + X_2 + \dots + X_n \approx N(n \mu, n \sigma^2) \text{  og  } \overline X \approx N(\mu, \frac{\displaystyle \sigma^2}{\displaystyle n})$}$

Både summen av variablene og gjennomsnittet av variablene er altså tilnærmet normalfordelt, selv om variablene i seg selv følger en annen fordeling. Jo flere variable vi har, jo bedre blir tilnærmingen. Når antall variable går mot uendelig, konvergerer fordelingen mot normalfordelingen, normalfordelingen utgjør en grenseverdi, derav navnet på teoremet.

Dette betyr at vi kan bruke normalfordelingen til å beregne tilnærmede sannsynligheter i vilkårlige fordelinger hvis antall variabler er stort nok. Hva “stort nok” betyr vil variere med fordelingen, men en tommelfingerregel er > 30.

Hvis fordelingen til variablene i utgangspunktet er en normalfordeling, vil imidlertid sentralgrenseteoremet angi eksakt verdi, uavhengig av antall målinger. Denne egenskapen kan lett utledes av at summen av normalfordelte variabler også er normalfordelt, slik det er beskrevet i artikkelen om normalfordelingen.

Eksempel 1:

Et idrettslag skal selge pølser på en håndballkamp med 400 tilskuere. Av erfaring vet de at i gjennomsnitt kjøper 30 % av tilskuerne ingenting, 50 % kjøper en enkelt pølse, og 20 % kjøper to pølser. Så lurer de på om det holder med 19 pakker à 20 pølser, altså 380 stykk.

Dersom X er antall solgte pølser per tilskuer, har vi altså at P(X = 0) = 0,3, P(X = 1) = 0,5 og P(X = 2) = 0,2. Dersom Y er antall solgte pølser totalt, skal vi finne P(Y ≤ 380).

Vi må først finne forventning og varians for X. Vi bruker formlene vi lærte i artikkelen om forventning og varians og får:

E(X) = 0 · 0,3 + 1 · 0,5 + 2 · 0,2 = 0,9.

E(X2) = 02 · 0,3 + 12 · 0,5 + 22 · 0,2 = 1,3.

Var(X) = E(X2) – [E(X)]2 = 1,3 – (0,9)2 = 0,49.

Altså μ = E(X) = 0,9, og σ2 = Var(X) = 0,49.

n = 400, godt over tommelfingerregelen på > 30. Så dersom alle kjøpene er uavhengige, vil ifølge sentralgrenseteoremet summen Y være tilnærmet normalfordelt. Forventningen og variansen til Y blir 400 ganger forventningen og variansen til X, så

YN(400 · 0,9, 400 · 0,49) = N(360, 196).

Vi gjør en standardisering, og finner ut at P(Y ≤ 380) tilsvarer $G({\large \frac{380 – 360}{\sqrt{196}}}) \approx G(1{,}43)$. Vi går inn i normalfordelingstabellen, rad 1,4, kolonne 0,03 og finner 0,9236.

Alternativt skriver vi =norm.fordeling(380; 360; rot(196); sann) i Excel eller FordelingNormal(360, sqrt(196), 380) i GeoGebra og får 0,9234, som er litt mer presist.

Det er altså om lag 92,3 % sannsynlighet for at 380 pølser er nok.

Grunnen til at vi trekker ut rota av 196 er at det er variansen, σ2, som er 196, så standardavviket blir $\sigma = \sqrt{196}$.

Oppgave 1:

En orkidedyrker har 2500 planter. I gjennomsnitt produserer 20 % av plantene ingen blomsterstengler, 40 % én stengel, 30 % to stengler, og 10 % produserer tre stengler. Han har fått bestillinger på i alt 3200 stengler. Hvor sannsynlig er det at han vil klare å levere?

Se løsningsforslag

Tilnærme diskrete fordelinger med normalfordelingen

I artikkelen om diskrete sannsynlighetsfordelinger så vi på binomiske, hypergeometriske og poissonfordelinger. Vi kan også bruke sentralgrenseteoremet til å tilnærme disse med normalfordelingen.

I tidligere tider, da en var avhengig av tabeller for å beregne sannsynligheter, var det ikke vanskelig å motivere bruken av normalfordelingen til slike tilnærminger. En typisk læreboktabell gir bare mulighet for å finne binomiske sannsynligheter i 10 – 30 forsøk, mens det med en normaltilnærming ikke er noen grense for hvor mange forsøk vi kan håndtere. I datamaskinenes tidsalder er imidlertid situasjonen annerledes. Allikevel finnes det en øvre grense for antall forsøk, Excel gir opp ved ca. 2 milliarder binomiske forsøk. Det kan dessuten være lærerikt å se prinsippene for hvordan vi kan tilnærme slike fordelinger med en normalfordeling.

Normalfordelingen vi tilnærmer med er N(μ, σ2), der μ og σ2 er den opprinnelige fordelingens forventning og varians.

Generelt sa vi at normaltilnærmingen var god hvis n > 30. Vi kan i disse fordelingene gi litt mer nøyaktige anslag.

Binomisk fordeling

Å beregne sannsynligheter i en binomisk fordeling betyr å finne sannsynligheten for et gitt antall suksesser, for eksempel 44 kron i 100 myntkast. Lar vi X være en tilfeldig variabel som representerer utfallet av et binomisk forsøk, kan vi sette X = 1 hvis forsøket er en suksess, og X = 0 hvis ikke. Antall suksesser totalt finner vi da ved å summere X-ene. Siden alle X-ene er uavhengige og har samme fordeling, vil denne summen kunne tilnærmes med normalfordelingen, ifølge sentralgrenseteoremet.

I en binomisk fordeling er forventning og varians henholdsvis μ = np og σ2 = np(1-p) slik vi lærte i artikkelen om diskrete sannsynlighetsfordelinger. Vi får derfor at

$\fbox{$X \sim bin(n, p) \approx N \big(np, np(1-p) \big)$}$

Eksempel 2:

I figuren under viser de blå linjene fordelingen av antall kron i 100 simulerte myntkast. Dersom X er antall kron, er X ~ bin(n, p) = bin(100, 0,5). Da er forventningen μ = np = 100 · 0,5 = 50, og som vi kan se ligger toppen i nærheten av 50. Variansen er σ2 = np(1 – p) = 100 · 0,5 ·(1 – 0,5) = 25. Den røde kurven viser normalfordelingen med samme forventning og varians, N(50, 25). Vi ser at de to fordelingene er så og si like.

Fordeling av antall kron i 100 myntkast, og tilhørende normalfordeling

Hvor god tilnærmingen er, avhenger av både n og p. n må ikke være for liten, og p må ikke være for nær 0 eller 1. En tommelfingerregel som tar hensyn til dette er np(1-p) ≥ 10.

Hypergeometrisk fordeling

I artikkelen om diskrete sannsynlighetsfordelinger så vi at vi i en hypergeometrisk fordeling beregnet sannsynligheter for å trekke ut “spesielle elementer”. Modellerer vi dette med en tilfeldig variabel, X, der vi setter X = 1 hvis et utvalgt element er “spesielt” og X = 0 hvis ikke, kan vi finne antall spesielle elementer totalt ved å summere X-ene. I denne fordelingen er imidlertid ikke X-ene uavhengige av hverandre, sannsynligheten for å trekke et spesielt element vil avhenge av hvor mange spesielle elementer vi har trukket tidligere. Betingelsene for å bruke sentralgrenseteoremet er derved ikke oppfylt. Hvis vi imidlertid bare trekker en liten del av det totale antallet, betyr dette lite.

I en hypergeometrisk fordeling er $\mu = np$ og $\sigma^2 = \Big( {\large \frac{N – n}{N – 1}} \Big) \cdot np(1 – p)$, der $p$ er forholdet mellom spesielle elementer og elementer totalt, $p = {\large \frac{M}{N}}$.

Vi får derfor at

$\fbox{$X \sim \text{hypergeom}(N, M, n) \approx N \Big(np, \, \big( {\large \frac{N – n}{N – 1}} \big) \cdot np(1 – p)\Big)$}$

Pass på at det er to forskjellige N her, N står for antall elementer totalt, men også som forkortelse for normalfordelingen.

Tilnærmingen er god når $n \le {\large \frac{N}{20}}$ og $np(1-p) \ge 10$.

Poissonfordeling

I en poissonfordeling kan vi betrakte X som et gjennomsnitt av likt fordelte, uavhengige variabler, og sentralgrenseteoremet kan derfor benyttes.

I artikkelen om diskrete sannsynlighetsfordelinger så vi at i en poissonfordeling er μ = λ og σ2 = λ. Vi får derfor at

$\fbox{$X \sim \text{poisson}(\lambda) \approx N(\lambda, \lambda)$}$

Tilnærmingen er god når λ ≥ 10.

Eksempel 3:

Vi kaster en mynt 1000 ganger og vil finne sannsynligheten for å få 485 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 1000 forsøk og en sannsynlighet på 0,5. Så hvis X er antall kron, er X ~ bin(1000, 0,5). Vi skal finne P(X ≤ 485), det vil si

P(X = 0) + P(X = 1) + … + P(X = 485) ≈ 0,1795. Vi har her brukt funksjonen binom.fordeling.n i Excel til å gjøre beregningen.

Her er np(1-p) = 1000 · 0,5(1-0,5) = 250, så vi forventer at normaltilnærmingen skal være god.

Normaltilnærmingen blir N(1000 · 0,5, 1000 · 0,5 [1 – 0,5]) = N(500, 250).

Vi gjør en standardisering og finner at P(X ≤ 485) tilsvarer $G({\large \frac{485 – 500}{\sqrt{250}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,05 og finner 0,8289. Så G(-0,95) ≈ 1 – 0,8289 = 0,1711, ca. 4,6 % for lavt.

Eksempel 4:

Vi kaster en mynt 10 ganger og vil finne sannsynligheten for å få 3 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 10 forsøk og en sannsynlighet på 0,5. Så hvis X er antall kron, er X ~ bin(10, 0,5). Vi skal finne P(X ≤ 3), det vil si

$P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) = \\
{\large \binom{10}{0}} (0{,}5)^0 (0{,}5)^{10} + {\large \binom{10}{1}} (0{,}5)^1 (0{,}5)^9 + \\
{\large \binom{10}{2}} (0{,}5)^2 (0{,}5)^8 + {\large \binom{10}{3}} (0{,}5)^3 (0{,}5)^7 \approx 0{,}1719$

Her er np(1-p) = 10 · 0,5(1-0,5) = 2,5, så vi forventer ikke at normaltilnærmingen skal være særlig god.

Normaltilnærmingen blir N(10 · 0,5, 10 · 0,5 [1 – 0,5]) = N(5, 2,5).

Vi gjør en standardisering og finner at P(X ≤ 3) tilsvarer $G({\large \frac{3 – 5}{\sqrt{2{,}5}}}) \approx G(-1{,}27) = 1 – G(1{,}27)$.

Vi går inn i normalfordelingstabellen, rad 1,2, kolonne 0,07 og finner 0,8980. Så G(-1,27) ≈ 1 – 0,8980 = 0,1020, ca. 41 % for lavt.

​Oppgave 2:

I et parti på 100 varer har 10 av varene feil. Vi trekker 20 varer tilfeldig.

  1. Hva er sannsynligheten for at minst 1 av varene har feil?
     
  2. Kan vi forvente at en normaltilnærming er god i dette tilfellet?
     
  3. Hvilken sannsynlighet finner vi for at minst 1 av varene har feil hvis vi bruker normaltilnærming? Hvor stor er feilen i prosent?

Se løsningsforslag

Oppgave 3:

I et parti på 10 000 varer har 1000 av varene feil. Vi trekker 200 varer tilfeldig. Ved å bruke funksjonen hypgeom.fordeling.n i Excel finner vi ut at sannsynligheten for at minst 15 av varene har feil er om lag 0,8595.

  1. Kan vi forvente at en normaltilnærming er god i dette tilfellet?
     
  2. Hvilken sannsynlighet finner vi for at minst 15 av varene har feil hvis vi bruker normaltilnærming? Hvor stor er feilen i prosent?

Se løsningsforslag

Heltallskorreksjon

I en diskret sannsynlighetsfordeling, som den binomiske fordelingen, er P(Xx) det samme som P(X < x + 1), for eksempel er P(X ≤ 3) det samme som P(X < 4). Dette er imidlertid ikke tilfelle i en kontinuerlig fordeling som normalfordelingen. Her er P(X < x) det samme som P(Xx). Så i prinsippet kan vi tilnærme med både x og x + 1. Hva som er best vil kunne variere, men ofte vil det beste være å legge seg midt imellom, altså på x + 0,5. For eksempel x = 3,5 i normalfordelingen når vi skal finne P(X ≤ 3) i en diskret fordeling. Dette kalles heltallskorreksjon, og har størst effekt i små utvalg.

Eksempel 5:

I eksempel 4 fant vi ved å bruke formelen for binomisk fordeling at sannsynligheten for å få 3 eller færre kron ved 10 kast var om lag 0,1719. Da vi beregnet den samme sannsynligheten ved normaltilnærming, fikk vi om lag 0,1020, noe som er ca. 41 % for lavt.

Tar vi i bruk heltallskorreksjon, får vi i stedet at P(X < 3) i den binomiske fordelingen tilsvarer $P(X \le 3{,}5) = G({\large \frac{3{,}5 – 5}{\sqrt{2{,}5}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$ i normalfordelingen.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,05 og finner 0,8289. Så G(-0,95) ≈ 1 – 0,8289 = 0,1711, bare ca. 0,5 % for lavt. Heltallskorreksjon har gitt en dramatisk forbedring.

Eksempel 6:

I eksempel 3 fant vi ved å bruke formelen for binomisk fordeling at sannsynligheten for å få 485 eller færre kron ved 1.000 kast var om lag 0,1795. Da vi beregnet den samme sannsynligheten ved normaltilnærming, fikk vi om lag 0,1711, noe som er ca. 4,6 % for lavt.

Tar vi i bruk heltallskorreksjon, får vi i stedet at P(X ≤ 485) i den binomiske fordelingen tilsvarer $P(X \le 485{,}5) = G({\large \frac{485{,}5 – 500}{\sqrt{250}}}) \approx G(-0{,}92) = 1 – G(0{,}92)$ i normalfordelingen.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,02 og finner 0,8212. Så G(-0,92) ≈ 1 – 0,8212 = 0,1788, bare ca. 0,4 % for lavt. Heltallskorreksjon har også her gitt en stor forbedring, selv om den ikke er så dramatisk som i eksempel 4, der utvalget er mye mindre.

Oppgave 4:

I oppgave 2 og 3 skulle vi tilnærme hypergeometriske fordelinger med normalfordelinger. Gjør tilnærmingene om igjen med heltallskorreksjon. Blir resultatene bedre eller dårligere enn i oppgave 2 og 3?

Se løsningsforslag

Kilder:

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons