Normalfordelingen

I artikkelen om diskrete sannsynlighetsfordelinger lærte vi om uniform fordeling, binomisk fordeling, hypergeometrisk fordeling og poissonfordeling. Dette er eksempler på diskrete sannsynlighetsfordelinger, det vil si at de har et fast antall verdier vi kan beregne sannsynligheten til, for eksempel sannsynligheten for 0, 1, 2, 3 eller 4 kron i et kast med 4 mynter. Normalfordelingen, som vi skal se på i denne artikkelen, er imidlertid et eksempel på en kontinuerlig sannsynlighetsfordeling, der en tilfeldig variabel kan anta alle mulige verdier mellom $- \infty$ og $\infty$. Normalfordelingen kalles også Gauss-fordelingen, oppkalt etter matematikeren Carl Friedrich Gauss, og har svært mange anvendelser.

Standard normalfordeling

Et plott av en standard normalfordelingskurve er vist under. Denne kurven er glatt, og består av uendelig mange punkter. Dette i motsetning til kurvene vi tegnet for diskrete sannsynlighetsfordelinger, som besto av et begrenset antall enkeltpunkter. Kurven er symmetrisk om x = 0.

Standard normalfordeling

Arealet under kurven representerer den totale sannsynligheten for alle de uendelig mange verdiene, og er derfor 1. Siden det finnes uendelig mange verdier, er sannsynligheten for en vilkårlig verdi lik 0. P(X = x) = 0 for alle x. Dette virker kanskje underlig, men kan illustreres med et tankeeksperiment:

Vi deler opp en dartblink i ti like store sektorer og kaster en pil i blinde, slik at den har like stor sjanse for å treffe hver av sektorene. Hva er så sannsynligheten for at pila traff i den sektoren den gjorde? Selvfølgelig ${\large \frac{1}{10}}$. Men så deler vi denne sektoren i ti mindre, like store sektorer. Hva er nå sannsynligheten for at pila traff i den sektoren den gjorde? Jo, ${\large \frac{1}{100}}$. Ser vi bort fra fysiske begrensninger, kan vi fortsette å dele inn i stadig mindre sektorer, og for hver gang divideres sannsynligheten for å treffe i akkurat den sektoren med 10. Forsetter vi i all evighet, er del lett å skjønne at sannsynligheten da går mot 0. I en kontinuerlig sannsynlighetsfordeling betyr altså ikke P(X) = 0 at hendelsen X ikke kan inntreffe.

Siden sannsynligheten for alle enkeltverdier er 0, er det meningsløst å regne med punktsannsynligheter. I stedet arbeider vi med kumulative sannsynligheter og undersøker hvor stor sannsynligheten er for at en verdi ligger til venstre for et punkt på kurven, til høyre for et punkt på kurven, eller mellom to punkter på kurven.

I en standard normalfordeling er det vanlig å bruke Z og z i stedet for X og x som tilfeldige variable, vi skriver altså $P(Z \le z)$ i stedet for $P(X \le x)$.

$P(Z \le z)$ skriver vi også gjerne forenklet som $G(z)$.

Eksempel 1:

En standard normalfordeling er symmetrisk om $z = 0$. Derfor vil $P(Z \le 0) = G(0) = 0{,}5$.

De forskjellige sannsynlighetene beregner vi på en datamaskin eller leser ut av en tabell. Dette nettstedet inneholder en tabell over standard normalfordeling. Ha den gjerne tilgjengelig i et eget vindu når du skal arbeide med eksempler og oppgaver.

Tabellen har rader som er nummerert fra 0,0 til 3,9 og kolonner som er nummerert fra 0,00 til 0,09. Når vi skal slå opp en verdi, går vi inn i raden med verdi lik de første to sifrene og kolonne lik det tredje sifferet. For eksempel finner vi G(1,23) ved å gå inn i rad 1,2 og kolonne 0,03, og G(2,70) ved å gå inn i rad 2,7 og kolonne 0,00.

Tabellen inneholder bare fordelingen for positive z, det vil si verdier som ligger til høyre for midten av kurven. Det er ikke nødvendig å ta med negative verdier, fordi vi på grunn av symmetrien om z = 0, og at den totale sannsynligheten er 1 alltid vil ha følgende sammenheng:

$\fbox{$G(-z) = 1 – G(z)$}$

Skal vi finne sannsynligheten for at en verdi ligger mellom to grenser, $a$ og $b$, altså $P(a \le Z \le b)$, kan vi regne det ut som $G(b) – G(a)$.

Eksempel 2:

Basert på normalfordelingstabellen skal vi finne

  1. $P(Z \le 1{,}87)$, det vil si $G(1{,}87)$.
    ​Vi leser av tabellen der rad 1,8 krysser kolonne 0,07, og finner 0,9693.
    Så $P(Z \le 1{,}87) \approx 0{,}9693$.
     
  2. $P(0{,}55 \le Z \le 1{,}00)$, det vil si $G(1{,}00) – G(0{,}55)$.
    ​Vi leser av tabellen der rad 1,0 krysser kolonne 0,00, og finner 0,8413.
    ​Vi leser av tabellen der rad 0,5 krysser kolonne 0,05, og finner 0,7088.
    $P(0{,}55 \le Z \le 1{,}00) \approx 0{,}8413 – 0{,}7088 = 0{,}1325$.
     
  3. $P(Z \le -0{,}74)$, det vil si $G(-0{,}74) = 1 – G(0{,}74)$.
    ​Vi leser av tabellen der rad 0,7 krysser kolonne 0,04, og finner 0,7704.
    $P(Z \le -0{,}74) \approx 1 – 0{,}7704 = 0{,}2296$.
     
  4. $P(-1{,}00 \le Z \le -0{,}55)$, det vil si $G(-0{,}55) – G(-1{,}00) = 1 – G(0{,}55) – \big(1- G(1{,}00) \big) = G(1{,}00) – G(0{,}55)$.
    Dette er det samme som vi fant i punkt 2, omlag 0,1325.

Oppgave 1:

Bruk normalfordelingstabellen til å finne

  1. $P(Z \le 0{,}85)$.
     
  2. $P(Z \le -1{,}21)$.
     
  3. $P(-0{,}22 \le Z \le 0{,}22)$.

Se løsningsforslag

I en standard normalfordeling er forventningen 0 og variansen 1.

$\fbox{Standard normalfordeling: $E(Z) = 0, Var(Z) = 1$}$

Det er vanlig å bruke symbolet $\mu$ til å representere forventningen og variansen oppgir vi gjerne som kvadratet av standardavviket, $\sigma^2$.

$\fbox{Standard normalfordeling: $\mu = 0, \sigma^2 = 1$}$

Generell normalfordeling

Mange tilfeldige variable følger en normalfordeling som ikke er standard. Hvis vi for eksempel tar for oss gjennomsnittshøyden for voksne menn, vil den være normalfordelt, men naturligvis vil ikke $\mu= 0$, vi forventer ikke at høydene er sentrert rundt 0 cm. Hva gjennomsnittshøyden er, varierer over tid, og med folketype, men for eksempelets skyld bruker vi 177 centimeter. En normalfordeling med $\mu = 177, \;\; \sigma^2 = 1$ er vist under.

Normalfordeling med E[X] = 177, Var[X] = 1

Men vi skjønner at den ikke kan være representativ, det ser jo ut som det er svært sjelden menn er under 174 eller over 180 centimeter, noe vi vet ikke er riktig. Problemet er at variansen på 1 er alt for lav, slik at kurven strekker seg alt for kort ut fra forventningsverdien. En mye mer realistisk varians er 49. Det gir en normalfordeling som vist under.

Normalfordeling med E[X] = 177, Var[X] = 7

Når vi snakker om at en variabel er normalfordelt, må vi altså angi forventningsverdi og standardavvik for at fordelingen skal være entydig. Når vi sier $X \sim N(\mu, \sigma^2)$, mener vi at variabelen $X$ er normalfordelt med forventning $\mu$ og varians $\sigma^2$. For eksempel betyr $X \sim N(177, 49)$ at $X$ er normalfordelt med forventning 177 og varians 49. $X \sim N(0, 1)$ betyr at $X$ er standard normalfordelt, i dette tilfellet bruker vi altså gjerne $Z$ som symbol for den tilfeldige variabelen g skriver $Z \sim N(0, 1)$.

Vi sa tidligere at i en standard normalfordeling vil G(-z) = 1 – G(z). Dette prinsippet baserer seg på at fordelingen er symmetrisk om 0, og gjelder ikke generelt. Men siden det totale arealet under kurven i alle tilfeller er 1, må den delen som ligger til høyre for et punkt være lik 1 minus arealet som ligger til venstre:

$P(X > x) = 1 – P(X \le x)$.

Dette er samme prinsipp som i diskrete sannsynlighetsfordelinger. Sannsynligheten for at et utfall er større enn x, er lik 1 minus sannsynligheten for at utfallet er mindre eller lik x.

Siden alle punktsannsynlighetene er$0, vil vi sannsynligheten for "mindre enn" være den samme som for "mindre eller lik", og sannsynligheten for "større enn" være den samme som for "større eller lik":

$P(X \le x) = P(X < x)$

$P(X \ge x) = P(X > x)$

Standardisering

Det finnes altså uendelig mange normalfordelinger. Men uansett variant kan tabellen for en standard normalfordeling alltid brukes til å beregne sannsynligheter ved at vi gjør en standardisering av variabelen $X$:

$\fbox{Hvis $X \sim N(\mu, \sigma^2)$ er $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma} \sim N(0, 1)$}$

Hvis $X \sim N(\mu, \sigma^2)$ og vi skal finne $P(X \le x)$, subtraherer vi $\mu$ og dividerer med $\sigma$ på begge sider av ulikhetstegnet:

$P(X \le x)  \Rightarrow P({\large \frac{X – \mu}{\sigma}} \le {\large \frac{x – \mu}{\sigma}})  \Rightarrow P(Z \le {\large \frac{x – \mu}{\sigma}}) = G({\large \frac{x – \mu}{\sigma}})$.

For å finne $P(X \le x)$ når $X \sim N(\mu, \sigma^2)$, beregner vi altså $G({\large \frac{x – \mu}{\sigma}})$.

Eksempel 3:

Basert på at høyden til menn er $N(177,7^2)$, skal vi skal finne sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere, altså $P(X \le 185)$.

Dette tilsvarer å finne arealet som ligger til venstre for 185 i normalfordelingen med $\mu = 177, \sigma = 7$, vist under:

Sannsynliget for P(X) < 185 i normalfordeling med E(X)=0, Var(X)=7

Men denne sannsynlighetsfordelingen har vi ingen tabell over. Vi standardiserer derfor den tilfeldige variabelen og får $P(X \le 185) = G({\large \frac{185 – 177}{7}}) \approx G(1{,}14)$.

Dette tilsvarer å flytte arealet som ligger til venstre for 185 i den opprinnelige normalfordelingen inn i standard normalfordelingen, slik som vist under, der arealet strekker seg bort til 1,14.

Sannsynliget for P(Z) < 1.14 i standard normalfordeling

Vi går så inn i normalfordelingstabellen og finner at $G(1,14) \approx 0{,}8729$. Sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere er altså omlag 87,3 %.

Eksempel 4:

Vi antar at høyden til menn er $N(177,7^2)$ og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    Vi skal altså finne $P(X \le 165)$.
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G({\large \frac{165 – 177}{7}}) \approx G(-1{,}71) = 1 – G(1{,}71)$.
    Vi går inn i normalfordelingstabellen, og finner $G(1{,}71) \approx 0{,}9564$.
    Så $P(X \le 165) \approx 1 – 0{,}9564 = 0{,}0436$, omlag 4,4 %.
     
  2. Over 190 cm.
    Vi skal altså finne $P(X > 190) = 1 – P(X \le 190)$.
    Vi gjør en standardisering, og finner ut at dette tilsvarer $1 – G({\large \frac{190 – 177}{7}}) \approx 1 – G(1{,}86)$.
    Vi går inn i normalfordelingstabellen og finner $G(1{,}86) \approx  0{,}9686$.
    $P(X > 190) \approx 1 – 0{,}9686 = 0{,}0314$, omlag 3,1 %.
     
  3. Mellom 170 og 180 cm.
    Vi skal altså finne $P(170 < X < 180) = P(X < 180) – P(170 < X)$.
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G({\large \frac{180 – 177}{7}}) – G({\large \frac{170 – 177}{7}}) \approx G(0{,}43) – G(-1)$.
    Vi går inn i normalfordelingstabellen og finner $G(0{,}43) \approx 0{,}6664$ og $G(1) \approx 0{,}8413$.
    Så $P(170 < X < 180) \approx 0{,}6664 – \big(1 – 0{,}8413 \big) = 0{,}5077$. Omlag 50, 8 %.

Med datamaskiner tilgjengelig er det lite behov for å slå opp i tabeller, vi finner sannsynlighetene direkte ved hjelp av verktøy som Excel eller GeoGebra.

I Excel bruker vi funksjonen norm.fordeling til å beregne $P(X \le x)$ i en vilkårlig normalfordeling. I tillegg til $x$ oppgir vi fordelingens forventningsverdi og standardavvik, og sann for kumulativ sannsynlighet.

I diskrete sannsynlighetsfordelinger så vi at usann betydde at vi fikk punktsannsynlighet i stedet for kumulativ sannsynlighet. Men siden alle punktsannsynlighetene i en kontinuerlig fordeling er 0, er de ikke interessante. usann, betyr i norm.fordeling i stedet at vi får sannsynlighetstettheten, som, enkelt sagt, er høyden på fordelingskurven.

Tilsvarende funksjon i GeoGebra heter FordelingNormal. Her oppgir vi først forventningsverdi og standardavvik, deretter $x$ og så true for kumulativ sannsynlighet og false for punktsannsynlighet. Sløfer vi true / false, får vi automatisk kumulativ sannsynlighet, som er det vanligste å spørre etter.

Excel har også en egen funksjon for å beregne $P(Z \le z)$ i en standard normalfordeling, norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, disse er henholdsvis 0 og 1. Denne funksjonen har ingen motpart i GeoGebra.

Eksempel 5:

Vi skal gjøre beregningene fra eksempel 4 om igjen i Excel og GeoGebra.

Siste siffer i resultatene avviker fra det vi fant i eksempel 4, dette skyldes at vi i eksempel 4 avrundet da vi standardiserte variabelen. Beregningene fra Excel og GeoGebra er mer korrekte.

For å vise resultatet med 4 desimaler i GeoGebra, velger vi "4 desimaler" fra menyen "Innstillinger" – "Avrunding".

Vi har altså at høyden til menn er $N(177,7^2)$ og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    I Excel skriver vi
    =norm.fordeling(165; 177; 7; sann)
    og får 0,0432.
    I GeoGebra skriver vi
    FordelingNormal(177, 7, 165)
    og får samme tall i algebrafeltet.
  2. Over 190 cm.
    I Excel skriver vi
    =1 – norm.fordeling(190; 177; 7; sann)
    og får 0,0316.
    I GeoGebra skriver vi
    1 – FordelingNormal(177, 7, 190)
    og får samme tall i algebrafeltet.
  3. Mellom 170 og 180 cm.
    I Excel skriver vi
    =norm.fordeling(180; 177; 7; sann) – norm.fordeling(170; 177; 7; sann)​
    og får 0,5072.
    I GeoGebra skriver vi
    FordelingNormal(177, 7, 180) – FordelingNormal(177, 7, 170)
    og får samme tall i algebrafeltet..

RegnearkÅpne et regneark med beregningene fra eksempel 5

 

Oppgave 2:

På en eksamen er resultatene normalfordelt med en forventning på 14 poeng og et standardavvik på 2, $N(14, 2^2)$. Laveste poengsum for å stå er 12 poeng. Hvor stor del av de som tar eksamenen kan forventes å stryke?
Gjør beregningen både ved hjelp av sannsynlighetstabeller, Excel og GeoGebra.

Se løsningsforslag

Sum av normalfordelte variabler

Summerer vi to variable som er normalfordelte, er summen også normalfordelt. Som vi så i artikkelen Forventning og varians, er forventningen til en sum av vilkårlige variable lik summen av forventningene. Det samme gjelder varians, såfremt variablene er uavhengige. Vi har derfor:

$\fbox{$ \text{Hvis } X \sim N(\mu_x, \sigma_x^2) \text{ og } Y \sim N(\mu_y, \sigma_y^2) \text{ er uavhengige, er } X + Y  \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2 )$}$

Dette prinsippet kan brukes på vilkårlig mange variabler.

Eksempel 6:

Vi har $X \sim N(3, 1^2)$, $Y \sim N(2, 2^2)$, $Z \sim N(0, 3^2)$, og $W = X + Y + Z$.

Hvis $X, Y, Z$ er uavhengige, er $W \sim N(3 + 2 + 0, 1^2 + 2^2 + 3^2 = N(5, 14)$.

Sentralgrenseteoremet

Hvis vi kaster en terning, er det like sannsynlig å få 1, 2, 3, 4, 5 og 6. Vi har en uniform sannsynlighetsfordeling. Gjør vi 100 kast og summerer antall øyne, kan summen bli alt fra 100 til 600. Men selvfølgelig er ikke 100 og 600 like sannsynlig som for eksempel 300. Det er fordi det bare er én kombinasjon av terningene som gir 100, nemlig bare enere, og én kombinasjon av terningene som gir 600, nemlig bare seksere. Sannsynligheten for hvert av disse tilfellene er ${\large (\frac{1}{6})}^{100} \approx 1{,}5 \cdot 10^{-78}$. Men 300 kan vi få på utallige måter, uten at vi en gang forsøker oss på å regne det ut her.

I artikkelen om forventning og varians så vi at vi i et enkelt terningkast hadde $\mu = 3,5$ og $\sigma^2 \approx 2{,}92$. For summen av hundre kast får vi da at $\mu = 100 \cdot 3{,}5 = 350$. Vi kan altså vente oss flest summer rundt 350. Siden de enkelte kastene er uavhengige, får vi også at $\sigma^2 \approx 100 \cdot 2{,}92 = 292$. Standardavviket blir $\sigma \approx \sqrt{292} \approx 17{,}09$.

I figuren under viser de blå linjene fordelingen av summen av antall øyne i 20 000 simulerte kast med 100 terninger. Som forventet ligger toppen like i nærheten av 350.

Fordeling av sum øyne i 20 000 kast med 100 terninger, og tilhørende normalfordeling

Den røde kurven viser normalfordelingen med samme forventning og varians, $\mu = 350$ og $\sigma^2 = 292$. Vi ser at de to fordelingene er så og si like. Det er i henhold til det som kalles sentralgrenseteoremet:

$\fbox{$ \text{Dersom } X_1, X_2, \dots, X_n \text{ er uavhengige og har samme fordeling med forventning } \mu \text{ og varians } \sigma^2 \text{ vil } \\
X_1 + X_2 + \dots + X_n \approx N(n \mu, n \sigma^2) \text{  og  } \overline X \approx N(\mu, \frac{\displaystyle \sigma^2}{\displaystyle n})$}$

Både summen av variablene og gjennomsnittet av variablene er altså tilnærmet normalfordelt, selv om variablene i seg selv følger en annen fordeling. Jo flere variable vi har, jo bedre blir tilnærmingen. Når antall variable går mot uendelig, konvergerer fordelingen mot normalfordelingen, normalfordelingen utgjør en grenseverdi, derav navnet på teoremet.

Dette betyr at vi kan bruke normalfordelingen til å beregne tilnærmede sannsynligheter i vilkårlige fordelinger hvis antall variabler er stort nok. Hva "stort nok" betyr vil variere med fordelingen, men en tommelfingerregel er > 30.

Eksempel 7:

Et idrettslag skal selge pølser på en håndballkamp med 400 tilskuere. Av erfaring vet de at i gjennomsnitt kjøper 30 % av tilskuerne ingenting, 50 % kjøper en enkelt pølse, og 20 % kjøper to pølser. Så lurer de på om det holder med 19 pakker à 20 pølser, altså 380 stykk.

Dersom $X$ er antall solgte pølser per tilskuer, har vi altså at $P(X = 0) = 0{,}3$, $P(X = 1) = 0{,}5$ og $P(X = 2) = 0{,}2$. Dersom $Y$ er antall solgte pølser totalt, skal vi finne $P(Y \le 380)$.

Vi må først finne forventning og varians for $X$. Vi bruker formlene vi lærte i artikkelen om forventning og varians og får:

$E(X) = 0 \cdot 0{,}3 + 1 \cdot 0{,}5 + 2 \cdot 0{,}2 = 0{,}9$.

$E(X^2) = 0^2 \cdot 0{,}3 + 1^2 \cdot 0{,}5 + 2^2 \cdot 0{,}2 = 1{,}3$.

$Var(X) = E(X^2) – (E(X))^2 = 1{,}3 – (0{,}9)^2 = 0{,}49$.

Altså $\mu = E(X) = 0{,}9$, og $\sigma^2 = Var(X) = 0{,}49$.

$n = 400$, godt over tommelfingerregelen på > 30. Så dersom alle kjøpene er uavhengige, har vi ifølge sentralgrenseteoremet at summen er tilnærmet normalfordelt,

$N(n \mu, n \sigma^2) = N(400 \cdot 0,9, \, 400 \cdot 0,49) = N(360, 196)$.

Vi gjør en standardisering, og finner ut at $P(Y \le 380)$ tilsvarer $G({\large \frac{380 – 360}{\sqrt{196}}}) \approx G(1{,}43)$. Vi går inn i normalfordelingstabellen, rad 1,4, kolonne 0,03 og finner 0,9236.

Alternativt skriver vi =norm.fordeling(380; 360; rot(196); sann) i Excel eller FordelingNormal(360, sqrt(196), 380) i GeoGebra og får 0,9234, som er litt mer presist.

Det er altså omlag 92,3 % sannsynlighet for at 380 pølser er nok.

Grunnen til at vi trekker ut rota av 196 er at det er variansen, $\sigma^2$, som er 196, så standardavviket blir $\sigma = \sqrt{196}$.

Oppgave 3:

En orkidedyrker har 2500 planter. I gjennomsnitt produserer 20 % av plantene ingen blomsterstengler, 40 % én stengel, 30 % to stengler, og 10 % produserer tre stengler. Han har fått bestillinger på i alt 3200 stengler. Hvor sannsynlig er det at han vil klare å levere?

Se løsningsforslag

I artikkelen om diskrete sannsynlighetsfordelinger så vi på binomiske, hypergeometriske og poissonfordelinger. Vi kan også bruke sentralgrenseteoremet til å tilnærme disse med normalfordelingen.

I en tid da en var avhengig av tabeller for å beregne sannsynligheter, var det ikke vanskelig å motivere bruken av normalfordelingen til slike tilnærminger. En typisk læreboktabell gir bare mulighet for å finne binomiske sannsynligheter i 10 – 30 forsøk, mens det med en normaltilnærming ikke er noen grense for hvor mange forsøk vi kan håndtere. I datamaskinenes tidsalder er imidlertid situasjonen annerledes. Allikevel finnes det en øvre grense for antall forsøk, Excel gir opp ved ca. 2 milliarder binomiske forsøk. Det kan dessuten være lærerikt å se prinsippene for hvordan vi kan tilnærme slike fordelinger med en normalfordeling.

Normalfordelingen vi tilnærmer med er $N(\mu,\sigma^2)$, der $\mu$ og $\sigma^2$ er den opprinnelige fordelingens forventning og varians.

Generelt sa vi at normaltilnærmingen var god hvis $n > 30$. Vi kan i disse fordelingene gi litt mer nøyaktige anslag.

Binomisk fordeling

Å beregne sannsynligheter i en binomisk fordeling betyr å finne sannsynligheten for et gitt antall suksesser, for eksempel 44 kron i 100 myntkast. Lar vi $X$ være en tilfeldig variabel som representerer utfallet av et binomisk forsøk, kan vi sette $X = 1$ hvis forsøket er en suksess, og $X = 0$ hvis ikke. Antall suksesser totalt finner vi da ved å summere X-ene. Siden alle X-ene er uavhengige og har samme fordeling, vil denne summen kunne tilnærmes med normalfordelingen, ifølge sentralgrenseteoremet.

I en binomisk fordeling er forventning og varians henholdsvis $\mu = np$ og $\sigma^2 = np(1-p)$ slik vi lærte i artikkelen om diskrete sannsynlighetsfordelinger. Vi får derfor at

$\fbox{$X \sim bin(n, p) \approx N \big(np, np(1-p) \big)$}$

Eksempel 8:

I figuren under viser de blå linjene fordelingen av antall kron i 100 simulerte myntkast. Dersom $X$ er antall kron, er $X \sim bin(n, p) = bin(100, 0{,}5)$. Da er forventningen $\mu = np = 100 \cdot 0{,}5 = 50$, og som vi kan se ligger toppen i nærheten av 50. Variansen er $\sigma^2 = np(1 – p) = 100 \cdot 0{,}5 \cdot(1 – 0{,}5) = 25$. Den røde kurven viser normalfordelingen med samme forventning og varians, $N(50, 25)$. Vi ser at de to fordelingene er så og si like.

Fordeling av antall kron i 100 myntkast, og tilhørende normalfordeling

Hvor god tilnærmingen er, avhenger av både $n$ og $p$. $n$ må ikke være for liten, og $p$ må ikke være for nær 0 eller 1. En tommelfingerregel som tar hensyn til dette er $np(1-p) \ge 10$.

Hypergeometrisk fordeling

I artikkelen om diskrete sannsynlighetsfordelinger så vi at vi i en hypergeometrisk fordeling beregnet sannsynligheter for å trekke ut "spesielle elementer". Modellerer vi dette med en tilfeldig variabel, $X$, der vi setter $X = 1$ hvis et utvalgt element er "spesielt" og $X = 0$ hvis ikke, kan vi finne antall spesielle elementer totalt ved å summere X-ene. I denne fordelingen er imidlertid ikke X-ene uavhengige av hverandre, sannsynligheten for å trekke et spesielt element vil avhenge av hvor mange spesielle elementer vi har trukket tidligere. Betingelsene for å bruke sentralgrenseteoremet er derved ikke oppfylt. Hvis vi imidlertid bare trekker en liten del av det totale antallet, betyr dette lite.

I en hypergeometrisk fordeling er $\mu = np$ og $\sigma^2 = \Big( {\large \frac{N – n}{N – 1}} \Big) \cdot np(1 – p)$, der $p$ er forholdet mellom spesielle elementer og elementer totalt, $p = {\large \frac{M}{N}}$.

Vi får derfor at

$\fbox{$X \sim \text{hypergeom}(N, M, n) \approx N \Big(np, \, \big( {\large \frac{N – n}{N – 1}} \big) \cdot np(1 – p)\Big)$}$

Pass på at det er to forskjellige $N$ her, $N$ står for antall elementer totalt, men også som forkortelse for normalfordelingen.

Tilnærmingen er god når $n \le {\large \frac{N}{20}}$ og $np(1-p) \ge 10$.

Poissonfordeling

I en poissonfordeling kan vi betrakte $X$ som et gjennomsnitt av likt fordelte, uavhengige variabler, og sentralgrenseteoremet kan derfor benyttes.

I artikkelen om diskrete sannsynlighetsfordelinger så vi at i en poissonfordeling er $\mu = \lambda$ og $\sigma^2 = \lambda$. Vi får derfor at

$\fbox{$X \sim \text{poisson}(\lambda) \approx N(\lambda, \lambda)$}$

Tilnærmingen er god når $\lambda \ge 10$.

Eksempel 9:

Vi kaster en mynt 1000 ganger og vil finne sannsynligheten for å få 485 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 1000 forsøk og en sannsynlighet på 0,5. Så hvis $X$ er antall kron, er $X \sim bin(1000, \, 0{,}5)$. Vi skal finne $P(X \le 485)$, det vil si

$P(X = 0) + P(X = 1) + \dots + P(X = 485) \approx 0{,}1795$. Vi har her brukt funksjonen binom.fordeling.n i Excel til å gjøre beregningen.

Her er $np(1-p) = 1000 \cdot 0{,}5(1-0{,}5) = 250$, så vi forventer at normaltilnærmingen skal være god.

Normaltilnærmingen blir $N(1000 \cdot 0{,}5, \, 1000 \cdot 0{,}5 (1 – 0{,}5)) = N(500, \, 250)$.

Vi gjør en standardisering og finner at $P(X \le 485)$ tilsvarer $G({\large \frac{485 – 500}{\sqrt{250}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,05 og finner $0{,}8289$. Så $G(-0{,}95) \approx 1 – 0{,}8289 = 0{,}1711$, ca. 4,6 % for lavt.

Eksempel 10:

Vi kaster en mynt 10 ganger og vil finne sannsynligheten for å få 3 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 10 forsøk og en sannsynlighet på 0,5. Så hvis $X$ er antall kron, er $X \sim bin(10, \, 0{,}5)$. Vi skal finne $P(X \le 3)$, det vil si

$P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) = \\
{\large \binom{10}{0}} (0{,}5)^0 (0{,}5)^{10} + {\large \binom{10}{1}} (0{,}5)^1 (0{,}5)^9 + \\
{\large \binom{10}{2}} (0{,}5)^2 (0{,}5)^8 + {\large \binom{10}{3}} (0{,}5)^3 (0{,}5)^7 \approx 0{,}1719$

Her er $np(1-p) = 10 \cdot 0{,}5(1-0{,}5) = 2{,}5$, så vi forventer ikke at normaltilnærmingen skal være særlig god.

Normaltilnærmingen blir $N(10 \cdot 0{,}5, \, 10 \cdot 0{,}5 (1 – 0{,}5)) = N(5, \, 2{,}5)$.

Vi gjør en standardisering og finner at $P(X \le 3)$ tilsvarer $G({\large \frac{3 – 5}{\sqrt{2{,}5}}}) \approx G(-1{,}27) = 1 – G(1{,}27)$.

Vi går inn i normalfordelingstabellen, rad 1,2, kolonne 0,07 og finner $0{,}8980$. Så $G(-1{,}27) \approx 1 – 0{,}8980 = 0{,}1020$, ca. 41 % for lavt.

​Oppgave 4:

I et parti på 100 varer har 10 av varene feil. Vi trekker 20 varer tilfeldig.

  1. Hva er sannsynligheten for at minst 1 av varene har feil?
     
  2. Kan vi forvente at en normaltilnærming er god i dette tilfellet?
     
  3. Hvilken sannsynlighet finner vi for at minst 1 av varene har feil hvis vi bruker normaltilnærming? Hvor stor er feilen i prosent?

Se løsningsforslag

Oppgave 5:

I et parti på 10 000 varer har 1000 av varene feil. Vi trekker 200 varer tilfeldig. Ved å bruke funksjonen hypgeom.fordeling.n i Excel finner vi ut at sannsynligheten for at minst 15 av varene har feil er omlag 0,8595.

  1. Kan vi forvente at en normaltilnærming er god i dette tilfellet?
     
  2. Hvilken sannsynlighet finner vi for at minst 15 av varene har feil hvis vi bruker normaltilnærming? Hvor stor er feilen i prosent?

Se løsningsforslag

Heltallskorreksjon

I en diskret sannsynlighetsfordeling som den binomiske fordelingen er $P(X \le x)$ det samme som $P(X < x + 1)$, for eksempel er $P(X \le 3)$ det samme som $P(X < 4)$. Dette er imidlertid ikke tilfelle i en kontinuerlig fordeling som normalfordelingen. Her er $P(X < x)$ det samme som $P(X \le x)$. Så i prinsippet kan vi tilnærme med både $x$ og $x + 1$. Hva som er best vil kunne variere, men ofte vil det beste være å legge seg midt imellom, altså på $x + 0{,}5$. For eksempel $x = 3{,}5$ i normalfordelingen når vi skal finne $P(X \le 3)$ i en diskret fordeling. Dette kalles heltallskorreksjon, og har størst effekt i små utvalg.

Eksempel 11:

I eksempel 10 fant vi ved å bruke formelen for binomisk fordeling at sannsynligheten for å få 3 eller færre kron ved 10 kast var omlag $0{,}1719$. Da vi beregnet den samme sannsynligheten ved normaltilnærming, fikk vi omlag $0{,}1020$, noe som er ca. 41 % for lavt.

Tar vi i bruk heltallskorreksjon, får vi i stedet at $P(X \le 3)$ i den binomiske fordelingen tilsvarer $P(X \le 3{,}5) = G({\large \frac{3{,}5 – 5}{\sqrt{2{,}5}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$ i normalfordelingen.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,05 og finner $0{,}8289$. Så $G(-0{,}95) \approx 1 – 0{,}8289 = 0{,}1711$, bare ca. 0,5 % for lavt. Heltallskorreksjon har gitt en dramatisk forbedring.

Eksempel 12:

I eksempel 9 fant vi ved å bruke formelen for binomisk fordeling at sannsynligheten for å få 485 eller færre kron ved 1.000 kast var omlag 0,1795. Da vi beregnet den samme sannsynligheten ved normaltilnærming, fikk vi omlag 0,1711, noe som er ca. 4,6 % for lavt.

Tar vi i bruk heltallskorreksjon, får vi i stedet at $P(X \le 485)$ i den binomiske fordelingen tilsvarer $P(X \le 485{,}5) = G({\large \frac{485{,}5 – 500}{\sqrt{250}}}) \approx G(-0{,}92) = 1 – G(0{,}92)$ i normalfordelingen.

Vi går inn i normalfordelingstabellen, rad 0,9, kolonne 0,02 og finner $0{,}8212$. Så $G(-0{,}92) \approx 1 – 0{,}8212 = 0{,}1788$, bare ca. 0,4 % for lavt. Heltallskorreksjon har også her gitt en stor forbedring, selv om den ikke er så dramatisk som i eksempel 10, der utvalget er mye mindre.

Oppgave 6:

I oppgave 4 og 5 skulle vi tilnærme hypergeometriske fordelinger med normalfordelinger. Gjør tilnærmingene om igjen med heltallskorreksjon. Blir resultatene bedre eller dårligere enn i oppgave 4 og 5?

Se løsningsforslag

Kilder:

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
  • Wikipedia