Normalfordelingen

NB! Temaer om sentralgrenseteoremet og tilnærming ved hjelp av normalfordelingen er flyttet fra denne artikkelen til artikkelen Sentralgrenseteoremet.

I artikkelen om diskrete sannsynlighetsfordelinger lærte vi om uniform fordeling, binomisk fordeling, hypergeometrisk fordeling og poissonfordeling. Dette er eksempler på diskrete sannsynlighetsfordelinger, det vil si at de har et fast antall verdier vi kan beregne sannsynligheten til, for eksempel sannsynligheten for 0, 1, 2, 3 eller 4 kron i et kast med 4 mynter. Normalfordelingen, som vi skal se på i denne artikkelen, er imidlertid et eksempel på en kontinuerlig sannsynlighetsfordeling, der en tilfeldig variabel kan anta alle mulige verdier mellom -∞ og ∞. Normalfordelingen kalles også Gauss-fordelingen, oppkalt etter matematikeren Carl Friedrich Gauss, og har svært mange anvendelser.

Standard normalfordeling

Et plott av en standard normalfordelingskurve er vist under. Denne kurven er glatt, og består av uendelig mange punkter. Dette i motsetning til kurvene vi tegnet for diskrete sannsynlighetsfordelinger, som besto av et begrenset antall enkeltpunkter. Kurven er symmetrisk om x = 0.

Standard normalfordeling

Arealet under kurven representerer den totale sannsynligheten for alle de uendelig mange verdiene, og er derfor 1. Siden det finnes uendelig mange verdier, er sannsynligheten for en vilkårlig verdi lik 0. P(X = x) = 0 for alle x. Dette virker kanskje underlig, men kan illustreres med et tankeeksperiment:

Vi deler opp en dartblink i ti like store sektorer og kaster en pil i blinde, slik at den har like stor sjanse for å treffe hver av sektorene. Hva er så sannsynligheten for at pila traff i den sektoren den gjorde? Selvfølgelig ${\large \frac{1}{10}}$. Men så deler vi denne sektoren i ti mindre, like store sektorer. Hva er nå sannsynligheten for at pila traff i den sektoren den gjorde? Jo, ${\large \frac{1}{100}}$. Ser vi bort fra fysiske begrensninger, kan vi fortsette å dele inn i stadig mindre sektorer, og for hver gang divideres sannsynligheten for å treffe i akkurat den sektoren med 10. Forsetter vi i all evighet, er del lett å skjønne at sannsynligheten da går mot 0. I en kontinuerlig sannsynlighetsfordeling betyr altså ikke P(X) = 0 at hendelsen X ikke kan inntreffe.

Siden sannsynligheten for alle enkeltverdier er 0, er det meningsløst å regne med punktsannsynligheter. I stedet arbeider vi med kumulative sannsynligheter og undersøker hvor stor sannsynligheten er for at en verdi ligger til venstre for et punkt på kurven, til høyre for et punkt på kurven, eller mellom to punkter på kurven.

I en standard normalfordeling er det vanlig å bruke Z og z i stedet for X og x som tilfeldige variable, vi skriver altså P(Zz) i stedet for P(Xx).

P(Zz) skriver vi også gjerne forenklet som G(z).

Eksempel 1:

En standard normalfordeling er symmetrisk om z = 0. Derfor vil P(Z ≤ 0) = G(0) = 0,5.

De forskjellige sannsynlighetene beregner vi på en datamaskin eller leser ut av en tabell. Dette nettstedet inneholder en tabell over standard normalfordeling. Ha den gjerne tilgjengelig i et eget vindu når du skal arbeide med eksempler og oppgaver.

Tabellen har rader som er nummerert fra 0,0 til 3,9 og kolonner som er nummerert fra 0,00 til 0,09. Når vi skal slå opp en verdi, går vi inn i raden med verdi lik de første to sifrene og kolonne lik det tredje sifferet. For eksempel finner vi G(1,23) ved å gå inn i rad 1,2 og kolonne 0,03, og G(2,70) ved å gå inn i rad 2,7 og kolonne 0,00.

Tabellen inneholder bare fordelingen for positive z, det vil si verdier som ligger til høyre for midten av kurven. Det er ikke nødvendig å ta med negative verdier, fordi vi på grunn av symmetrien om z = 0, og at den totale sannsynligheten er 1 alltid vil ha følgende sammenheng:

$\fbox{$G(-z) = 1 – G(z)$}$

Skal vi finne sannsynligheten for at en verdi ligger mellom to grenser, a og b, altså P(aZb), kan vi regne det ut som G(b) – G(a).

Eksempel 2:

Basert på normalfordelingstabellen skal vi finne

  1. P(Z ≤ 1,87), det vil si G(1,87).
    ​Vi leser av tabellen der rad 1,8 krysser kolonne 0,07, og finner 0,9693.
    P(Z ≤ 1,87) ≈ 0,9693.
     
  2. P(0,55 ≤ Z ≤ 1,00), det vil si G(1,00) – G(0,55).
    ​Vi leser av tabellen der rad 1,0 krysser kolonne 0,00, og finner 0,8413.
    ​Vi leser av tabellen der rad 0,5 krysser kolonne 0,05, og finner 0,7088.
    P(0,55 ≤ Z ≤ 1,00) ≈ 0,8413 – 0,7088 = 0,1325.
     
  3. P( Z ≤ -0,74), det vil si G(-0,74) = 1 – G(0,74).
    ​Vi leser av tabellen der rad 0,7 krysser kolonne 0,04, og finner 0,7704.
    P( Z ≤ -0,74) ≈ 1 – 0,7704 = 0,2296.
     
  4. P(-1,00 ≤ Z ≤ -0,55), det vil si G(-0,55) – G(-1,00) = 1 – G(0,55) – [1- G(1,00)] = G(1,00) – G(0,55).
    Dette er det samme som vi fant i punkt 2, omlag 0,1325.

Oppgave 1:

Bruk normalfordelingstabellen til å finne

      1. P(Z ≤ 0,85).
         
      2. P(Z ≤ -1,21).
         
      3. P(-0,22 ≤ Z ≤ 0,22).

Se løsningsforslag

I en standard normalfordeling er forventningen 0 og variansen 1.

$\fbox{Standard normalfordeling: $E(Z) = 0, Var(Z) = 1$}$

Det er vanlig å bruke symbolet μ til å representere forventningen, og variansen oppgir vi gjerne som kvadratet av standardavviket, σ2.

$\fbox{Standard normalfordeling: $\mu = 0, \sigma^2 = 1$}$

Generell normalfordeling

Mange tilfeldige variable følger en normalfordeling som ikke er standard. Hvis vi for eksempel tar for oss gjennomsnittshøyden for voksne menn, vil den være normalfordelt, men naturligvis vil ikke μ = 0, vi forventer ikke at høydene er sentrert rundt 0 cm. Hva gjennomsnittshøyden er, varierer over tid, og med folketype, men for eksempelets skyld bruker vi 177 centimeter. En normalfordeling med μ = 177, σ2 = 1 er vist under.

Normalfordeling med E[X] = 177, Var[X] = 1

Men vi skjønner at den ikke kan være representativ, det ser jo ut som det er svært sjelden menn er under 174 eller over 180 centimeter, noe vi vet ikke er riktig. Problemet er at variansen på 1 er alt for lav, slik at kurven strekker seg alt for kort ut fra forventningsverdien. En mye mer realistisk varians er 49. Det gir en normalfordeling som vist under.

Normalfordeling med E[X] = 177, Var[X] = 7

Når vi snakker om at en variabel er normalfordelt, må vi altså angi forventningsverdi og standardavvik for at fordelingen skal være entydig. Når vi sier X ~ N(μ = 177, σ2), mener vi at variabelen X er normalfordelt med forventning μ og varians σ2. For eksempel betyr X ~ N(177, 49) at X er normalfordelt med forventning 177 og varians 49. X ~ N(0, 1) betyr at X er standard normalfordelt, i dette tilfellet bruker vi altså gjerne Z som symbol for den tilfeldige variabelen og skriver Z ~ N(0, 1).

Vi sa tidligere at i en standard normalfordeling vil G(-z) = 1 – G(z). Dette prinsippet baserer seg på at fordelingen er symmetrisk om 0, og gjelder ikke generelt. Men siden det totale arealet under kurven i alle tilfeller er 1, må den delen som ligger til høyre for et punkt være lik 1 minus arealet som ligger til venstre:

P(X > x) = 1 – P(Xx).

Dette er samme prinsipp som i diskrete sannsynlighetsfordelinger. Sannsynligheten for at et utfall er større enn x, er lik 1 minus sannsynligheten for at utfallet er mindre eller lik x.

Siden alle punktsannsynlighetene er0, vil vi sannsynligheten for “mindre enn” være den samme som for “mindre eller lik”, og sannsynligheten for “større enn” være den samme som for “større eller lik”:

P(Xx) = P(Xx).

P(Xx) = P(Xx).

Standardisering

Det finnes altså uendelig mange normalfordelinger. Men uansett variant kan tabellen for en standard normalfordeling alltid brukes til å beregne sannsynligheter ved at vi gjør en standardisering av variabelen X:

$\fbox{Hvis $X \sim N(\mu, \sigma^2)$ er $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma} \sim N(0, 1)$}$

Hvis $X \sim N(\mu, \sigma^2)$ og vi skal finne $P(X \le x)$, subtraherer vi $\mu$ og dividerer med $\sigma$ på begge sider av ulikhetstegnet:

$P(X \le x)  \Rightarrow P({\large \frac{X – \mu}{\sigma}} \le {\large \frac{x – \mu}{\sigma}})  \Rightarrow P(Z \le {\large \frac{x – \mu}{\sigma}}) = G({\large \frac{x – \mu}{\sigma}})$.

For å finne $P(X \le x)$ når $X \sim N(\mu, \sigma^2)$, beregner vi altså $G({\large \frac{x – \mu}{\sigma}})$.

Eksempel 3:

Basert på at høyden til menn er N(177,72), skal vi skal finne sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere, altså P(X ≤ 185).

Dette tilsvarer å finne arealet som ligger til venstre for 185 i normalfordelingen med μ = 177, σ = 7, vist under:

Sannsynliget for P(X) < 185 i normalfordeling med E(X)=0, Var(X)=7

Men denne sannsynlighetsfordelingen har vi ingen tabell over. Vi standardiserer derfor den tilfeldige variabelen og får $P(X \le 185) = G({\large \frac{185 – 177}{7}}) \approx G(1{,}14)$.

Dette tilsvarer å flytte arealet som ligger til venstre for 185 i den opprinnelige normalfordelingen inn i standard normalfordelingen, slik som vist under, der arealet strekker seg bort til 1,14.

Sannsynliget for P(Z) < 1.14 i standard normalfordeling

Vi går så inn i normalfordelingstabellen og finner at G(1,14) ≈ 0,8729. Sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere er altså omlag 87,3 %.

Eksempel 4:

Vi antar at høyden til menn er N(177,72) og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    Vi skal altså finne P(X ≤ 165).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G({\large \frac{165 – 177}{7}}) \approx G(-1{,}71) = 1 – G(1{,}71)$.
    Vi går inn i normalfordelingstabellen og finner G(1,71) ≈ 0,9564.
    P(X ≤ 165) ≈ 1 – 0,9564 = 0,0436, omlag 4,4 %.
     
  2. Over 190 cm.
    Vi skal altså finne P(X > 190) = 1 – P(X ≤ 190).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $1 – G({\large \frac{190 – 177}{7}}) \approx 1 – G(1{,}86)$.
    Vi går inn i normalfordelingstabellen og finner G(1,86) ≈ 0,9686.
    P(X > 190) ≈ 1 – 0,9686 = 0,0314, omlag 3,1 %.
     
  3. Mellom 170 og 180 cm.
    Vi skal altså finne P(170 < X < 180) = P(X < 180) – P(170 < X).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G({\large \frac{180 – 177}{7}}) – G({\large \frac{170 – 177}{7}}) \approx G(0{,}43) – G(-1)$.
    Vi går inn i normalfordelingstabellen og finner G(0,43) ≈ 0,6664 og G(1) ≈ 0,8413.
    P(170 < X < 180) ≈ 0,6664 – [1 – 0,8413] = 0,5077. Omlag 50, 8 %.

Med datamaskiner tilgjengelig er det lite behov for å slå opp i tabeller, vi finner sannsynlighetene direkte ved hjelp av verktøy som Excel eller GeoGebra.

I Excel bruker vi funksjonen norm.fordeling til å beregne P(Xx) i en vilkårlig normalfordeling. I tillegg til x oppgir vi fordelingens forventningsverdi og standardavvik, og sann for kumulativ sannsynlighet.

I diskrete sannsynlighetsfordelinger så vi at usann betydde at vi fikk punktsannsynlighet i stedet for kumulativ sannsynlighet. Men siden alle punktsannsynlighetene i en kontinuerlig fordeling er 0, er de ikke interessante. usann, betyr i norm.fordeling i stedet at vi får sannsynlighetstettheten, som, enkelt sagt, er høyden på fordelingskurven.

Tilsvarende funksjon i GeoGebra heter FordelingNormal. Her oppgir vi først forventningsverdi og standardavvik, deretter x og så true for kumulativ sannsynlighet og false for punktsannsynlighet. Sløfer vi true / false, får vi automatisk kumulativ sannsynlighet, som er det vanligste å spørre etter.

Excel har også en egen funksjon for å beregne P(Zz) i en standard normalfordeling, norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, disse er henholdsvis 0 og 1. Denne funksjonen har ingen motpart i GeoGebra.

Eksempel 5:

Vi skal gjøre beregningene fra eksempel 4 om igjen i Excel og GeoGebra.

Siste siffer i resultatene avviker fra det vi fant i eksempel 4, dette skyldes at vi i eksempel 4 avrundet da vi standardiserte variabelen. Beregningene fra Excel og GeoGebra er mer korrekte.

For å vise resultatet med 4 desimaler i GeoGebra, velger vi “4 desimaler” fra menyen “Innstillinger” – “Avrunding”.

Vi har altså at høyden til menn er N(177,72) og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    I Excel skriver vi
    =norm.fordeling(165; 177; 7; sann)
    og får 0,0432.
    I GeoGebra skriver vi
    FordelingNormal(177, 7, 165)
    og får samme tall i algebrafeltet.
     
  2. Over 190 cm.
    I Excel skriver vi
    =1 – norm.fordeling(190; 177; 7; sann)
    og får 0,0316.
    I GeoGebra skriver vi
    1 – FordelingNormal(177, 7, 190)
    og får samme tall i algebrafeltet.
     
  3. Mellom 170 og 180 cm.
    I Excel skriver vi
    =norm.fordeling(180; 177; 7; sann) – norm.fordeling(170; 177; 7; sann)​
    og får 0,5072.
    I GeoGebra skriver vi
    FordelingNormal(177, 7, 180) – FordelingNormal(177, 7, 170)
    og får samme tall i algebrafeltet..

RegnearkÅpne et regneark med beregningene fra eksempel 5

 

Oppgave 2:

På en eksamen er resultatene normalfordelt med en forventning på 14 poeng og et standardavvik på 2 poeng, N(14, 22). Laveste poengsum for å stå er 12 poeng. Hvor stor del av de som tar eksamenen kan forventes å stryke?
Gjør beregningen både ved hjelp av normalfordelingstabellen, Excel og GeoGebra.

Se løsningsforslag

Sum av normalfordelte variabler

Summerer vi to variable som er normalfordelte, er summen også normalfordelt. Som vi så i artikkelen Forventning og varians, er forventningen til en sum av vilkårlige variable lik summen av forventningene. Det samme gjelder varians, såfremt variablene er uavhengige. Vi har derfor:

$\fbox{$ \text{Hvis } X \sim N(\mu\,_x, {\sigma^2}_x) \text{ og } Y \sim N(\mu\,_y, {\sigma^2}_y)\text{ er uavhengige, er } X + Y  \sim N(\mu\,_x + \mu\,_y, {\sigma^2}_x + {\sigma^2}_y)$}$

Dette prinsippet kan brukes på vilkårlig mange variabler.

Eksempel 6:

Vi har X ~ N(3, 12), Y ~ N(2, 22), Z ~ N(0, 32), og W = X + Y + Z.

Hvis X, Y, Z er uavhengige, er W ~ N(3 + 2 + 0, 12 + 22 + 32 = N(5, 14).

ScreencastSe filmen “Normalfordelingen”
  

Kilder:

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons