Estimering

Dersom vi er ute etter å finne gjennomsnittsvekta på fisk i et oppdrettsanlegg, kan vi ta opp all fisken, veie hvert individ, og ut fra det beregne det eksakte gjennomsnittet.

I praksis vil imidlertid en slik fremgangsmåte være lite hensiktsmessig. I stedet gjør vi et tilfeldig utvalg, og gir på bakgrunn av dette et estimat, det vil si et anslag, av gjennomsnittsvekta.

Vi kan nøye oss med å ta opp én enkelt fisk, men intuitivt skjønner vi at det vil være bedre å ta opp flere og basere anslaget på gjennomsnittsvekta.

I artikkelen om sentralgrenseteoremet ser vi at hvis vi har n variabler som er uavhengige og har samme fordeling, med forventning μ og varians σ2, vil gjennomsnittet av variablene være tilnærmet normalfordelt med forventning μ og varians $\frac{\displaystyle \sigma^2}{\displaystyle n}$. Vi antyder at n bør være > 30 for at tilnærmingen skal være god, men hvis vi kan anta at variablene i utgangspunktet er tilnærmet normalfordelt, kan vi fire på dette kravet.

Sørger vi for at fisken vi tar opp blir valgt tilfeldig, vil altså variansen til gjennomsnittsvekta være $\frac{\displaystyle \sigma^2}{\displaystyle n}$, der n er antall fisk vi har veid og σ2 variansen til vekta i fiskepopulasjonen. Jo flere fisk vi veier, jo større blir nevneren i brøken, og jo mindre blir variansen til gjennomsnittet.

For å angi et estimat bruker vi en estimator. For å indikere at en variabel er en estimator, bruker vi en «hatt», for eksempel er $\hat \theta$ en estimator for $\theta$.

Dersom en estimator gir den forventede verdien, det vil si at $E(\hat \theta) = \theta$, kalles estimatoren forventningsrett. I motsatt fall er den forventningsskjev.

Estimere forventning og standardavvik

Ofte er vi ute etter å estimere en forventningsverdi, μ, hos en populasjon basert på målinger i et tilfeldig utvalg. Som estimator, $\hat \mu$, bruker vi da gjennomsnittet av målingene. Har vi for eksempel gjort n målinger med resultater X1, X2, X3Xn, blir estimatoren

$\fbox{$\hat \mu = \overline X = \frac{\displaystyle X_1 + X_2 + \dots + X_n}{\displaystyle n}$}$
 
Eksempel 1:

Vi har tatt opp og veid 13 laks fra et oppdrettsanlegg. Laksene veide
3,9, 3,6, 5,1, 4,8, 3,7, 3,2, 4,6, 5,4, 3,0, 4,2, 3,8, 4,4 og 4,1 kg.

Et forventningsrett estimat for gjennomsnittsvekta til all laksen i anlegget er da gjennomsnittet av veiingene:

$\hat \mu = \overline X = {\large \frac{3{,}9 + 3{,}6 + 5{,}1 + 4{,}8 + 3{,}7 + 3{,}2 + 4{,}6 + 5{,}4 + 3{,}0 + 4{,}2 + 3{,}8 + 4{,}4 + 4{,}1}{13}} \approx 4{,}14$. Altså om lag 4,14 kg.

Det er imidlertid sjelden vi beregner gjennomsnitt for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen gjennomsnitt i Excel eller GeoGebra.

Oppgave 1:

En enhet i en bedrift produserer støtfangere. Dagsproduksjonen på seks tilfeldig valgte dager er
210, 220, 210, 225, 220 og 217 enheter. Finn et forventningsrett estimat for hvor mange støtfangere som produseres daglig.

Se løsningsforslag

Rapportering

Hvor sikkert et estimat er, sier ikke $\hat \mu$ noe om, men estimater har gjerne en usikkerhet knyttet til seg. Rimelig nok er denne usikkerheten avhengig av antall målinger estimatet er basert på. Jo færre målinger, jo større usikkerhet. Usikkerheten er også avhengig av standardavviket, σ, til populasjonen vi estimerer i. Jo større σ er, jo større er spredningen, og jo mer usikkert er estimatet. Dersom σ er 0, har vi ikke spredning, og en enkelt måling vil gi et estimat uten usikkerhet.

Når vi angir et estimat, er det vanlig å angi usikkerheten til estimatet, på formen «estimert verdi pluss/minus standardavviket til estimatoren».

Dersom estimatoren er gjennomsnittet av n målinger, er altså variansen til estimatoren $\frac{\displaystyle \sigma^2}{\displaystyle n}$, og følgelig standardavviket til estimatoren $\frac{\displaystyle \sigma}{\displaystyle \sqrt n}$. Så vi har

$\fbox{Rapportering: $\hat \mu \pm \frac{\displaystyle \sigma}{\displaystyle \sqrt n}$}$
 
Eksempel 2:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks vi tok opp var om lag 4,14 kg.

Hvis standardavviket til vekta i fiskepopulasjonen er σ = 0,7, kan vi angi estimatet til gjennomsnittsvekta slik:

$4{,}14 \pm \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}19$

Oppgave 2:

I oppgave 1 estimerte vi dagsproduksjonen av støtfangere basert på at produksjonen på seks forskjellige dager var henholdsvis 210, 220, 210, 225, 220 og 217 enheter. Anta at standardavviket til produksjonen er σ = 5,8, og angi estimert dagsproduksjon i form av en rapportering.

Se løsningsforslag

Rapportering ved ukjent standardavvik

Av og til kjenner vi en populasjons standardavvik, for eksempel hvis avviket skyldes dokumenterte unøyaktigheter i et måleinstrument. Men som regel er standardavviket ukjent, og må estimeres, det også.

Det vil da være naturlig å ta utgangspunkt i det standardavviket vi kan beregne ut fra de målingene vi har gjort, utvalgsstandardavviket. I artikkelen om måltall i statistikk ser vi at hvis vi har gjort n målinger av X og beregnet at gjennomsnittet er X, er utvalgsstandardavviket gitt ved

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

Imidlertid er det sjelden vi beregner standardavvik for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen stdav.s i Excel eller funksjonen stdav i GeoGebra.

Utvalgsvariansen, S2 vil være et forventningsrett estimat for variansen i en fordeling, σ2. På grunn av at kvadratrotfunksjonen ikke er lineær, vil imidlertid ikke utvalgsstandardavviket, S, som estimat for standardavviket, σ, være forventningsrett. Feilen er imidlertid så liten at det er vanlig å bruke utvalgsstandardavviket som estimator for en fordelings standardavvik:

$\hat \sigma = S$

Formelen for rapportering blir da

$\fbox{Rapportering: $\hat \mu \pm \frac{\displaystyle S}{\displaystyle \sqrt n}$}$

Eksempel 3:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks fra et oppdrettsanlegg var
3,9, 3,6, 5,1, 4,8, 3,7, 3,2, 4,6, 5,4, 3,0, 4,2, 3,8, 4,4 og 4,1 kg.

Et estimat for standardavviket til vekta er da

$\hat \sigma = S \approx 0{,}711$, beregnet ved hjelp av stdav.s i Excel.

En rapportering av gjennomsnittsvekta blir derfor

$4{,}14 \pm \frac{\displaystyle 0{,}711}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}20$

Oppgave 3:

I oppgave 1 så vi at dagsproduksjonen av støtfangere på seks tilfeldig valgte dager i en bedrift var 210, 220, 210, 225, 220 og 217 enheter.

Estimer standardavviket til produksjonen, og presenter estimert gjennomsnitt i form av en rapportering.

Se løsningsforslag

Konfidensintervaller

Å estimere en forventningsverdi kaller vi å angi et punktestimat, fordi vi anslår et punkt på tallinja. Vi skal nå se på konfidensintervaller, der vi angir et intervall på tallinja som med en viss sannsynlighet inneholder den riktige forventningsverdien. For eksempel at gjennomsnittsvekta på laks i eksempel 1 med 95 % sannsynlighet ligger mellom 3,8 og 4,5 kg.

For å finne ut hvordan vi estimerer grensene i et konfidensintervall, starter vi med å se på en standard normalfordeling, altså en normalfordeling med forventning μ = 0 og standardavvik σ = 1.

Figuren under viser en standard normalfordelingskurve der 95 % av arealet under kurven er markert. Det vil si at hvis vi gjentatte ganger velger en tilfeldig variabel fra denne fordelingen, vil den 95 % av gangene havne innenfor det fargede området, altså mellom −z og z. Arealet er gitt ved G(z) − G(−z) = 0,95. Det vil si at G(z) − (1 − G(z)) = 0,95 ⇒ 2G(z) = 0,95 + 1 ⇒ G(z) = 0,975.

Normalfordelingskurve med 95 % av arealet under kurven markert.

Når vi tidligere har brukt normalfordelingstabellen, har vi kjent z og brukt tabellen til å finne G(z). Nå skal vi gå andre veien. Vi kjenner G(z) og skal finne z. Vi leter i tabellen og finner 0,9750 i rad 1,9 og kolonne 0,06:

Baklengs oppslag i normalfordelingstabell

Det vil si at z = 1,96 og følgelig −z = −1,96. Vi ser at det stemmer bra med figuren over.

I figuren under er 99 % av arealet markert. Arealet her er gitt ved G(z) − G(−z) = 0,99. Det vil si at G(z) − (1 − G(z)) = 0,99 ⇒ 2G(z) = 0,99 + 1 ⇒ G(z) = 0,995.

Normalfordelingskurve med 99 % av arealet under kurven markert.

I normalfordelingstabellen finner vi ikke nøyaktig 0,995, men G(2,57) = 0,9949 og G(2,58) = 0,9951. Vi tar gjennomsnittet og setter z = 2,575 og −z = −2,575. Vi ser at det stemmer bra med figuren over.

Det betyr at for en standard normalfordelt variabel er [−1,96, 1,96] et 95 % konfidensintervall, og [−2,58, 2,58] er et 99 % konfidensintervall.

I artikkelen om normalfordelingen ser vi at hvis vi har en variabel, X, som er normalfordelt N(μ, σ2), standardiserer vi variabelen ved å beregne $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, som er normalfordelt N(0, 1).

Nå skal vi gå motsatt vei. Løser vi likningen $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$ med hensyn på X, får vi X = Z · σ + μ. Det betyr at hvis Z er standard normalfordelt, N(0, 1), blir X = Z · σ + μ normalfordelt med forventning μ og standardavvik σ, N(μ, σ2).

Vi så at i en standard normalfordeling var grensene for et 95 % konfidensintervall om lag ± 1,96. Et 95 % konfidensintervall for en fordeling som er N(μ, σ2) blir derfor

[μ − 1,96 · σ, μ + 1,96 · σ]

Eller mer kompakt uttrykt som μ ± 1,96 · σ.

Vi ser at intervallet er sentrert rundt forventningen, μ, og blir bredere jo større σ blir. Det er rimelig. Jo større standardavvik, jo mer usikkert er estimatet, og jo bredere må intervallet være for at vi skal være 95 % sikre på at det rommer gjennomsnittet.

Da vi estimerte gjennomsnitt i en populasjon, så vi at standardavviket til estimatet var $\frac{\displaystyle \sigma}{\displaystyle \sqrt n}$.

Hvis gjennomsnittet av n målinger i en fordeling med standardavvik σ er X, blir derfor et 95 % konfidensintervall for gjennomsnittet

$[\overline X \, – 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n}, \, \overline X + 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n}]$

Eller på kompakt form

$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n}$

Vi ser at bredden på et konfidensintervall ikke bare avhenger av σ, men også av antall målinger. Jo flere målinger, jo smalere blir konfidensintervallet.

Vi så i figuren over at i et 95 % og et 99 % konfidensintervall er grensen for z henholdsvis om lag 1,96 og 2,58. Tilsvarende kan vi finne at grensen er om lag 1,65 for et 90 % konfidensintervall.

I kortform:

$\fbox{$\begin{align}\, \\
&\text{Konfidensintervaller:}\\
&\text{90 %: } \overline X \pm 1{,}65 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
&\text{95 %: } \overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
&\text{99 %: } \overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
\end{align}$}$

Vi ser at intervallene blir bredere jo høyere konfidens vi ønsker.

Eksempel 4:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks vi tok opp var om lag 4,14 kg.

Hvis vi vet at populasjonen er normalfordelt med standardavvik σ = 0,7, vil vi få følgende 90 %, 95 % og 99 % konfidensintervaller for laksens gjennomsnittsvekt:

90 %: $4{,}14 \pm 1{,}65 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}32 = [3{,}82, 4{,}46]$

95 %: $4{,}14 \pm 1{,}96 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}38 = [3{,}76, 4{,}52]$

99 %: $4{,}14 \pm 2{,}58 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}50 = [3{,}64, 4{,}64]$

Oppgave 4:

I oppgave 1 estimerte vi dagsproduksjonen av støtfangere basert på at produksjonen i seks forskjellige dager var henholdsvis 210, 220, 210, 225, 220 og 217 enheter. Anta at produksjonen er normalfordelt med standardavvik σ = 5,8, og angi 95 % og 99 % konfidensintervaller for gjennomsnittsproduksjonen.

Se løsningsforslag

Vi har nå sett på 90 %, 95 % og 99 % konfidensintervaller, men andre prosenter er selvsagt også mulig. Det generelle uttrykket er

$\fbox{$\begin{align} &\text{Konfidensintervall:} \\
&\overline X \pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \end{align}$}$

Her representerer α den prosentdelen som ligger utenfor konfidensintervallet. Halvparten av α ligger til venstre for, og halvparten av α til høyre for intervallet, som vist under:

Illustrasjon av alfa som brukes i konfidensintervaller

$\pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}}$ er da z-verdiene i yttergrensene av det fargede området.

I et k % konfidensintervall er altså ${\large \frac{\alpha}{2}} = {\large \frac{1 – k}{2}}$, for eksempel ${\large \frac{1 – 0{,}95}{2}} = 0{,}025$ i et 95 % konfidensintervall og ${\large \frac{1 – 0{,}99}{2}} = 0{,}005$ i et 99 % konfidensintervall.

Da vi skulle finne intervallet [−z, z] som utgjorde et 95 % og 99 % konfidensintervall i en standard normalfordeling, gjorde vi et baklengs oppslag i normalfordelingstabellen for å finne z. Dette er tungvint, og det er derfor laget ferdige, omvendte tabeller. I en slik tabell slår vi opp a, og får ut z, slik at arealet under kurven til høyre for z er a.

Dette kalles kvantiltabeller eller fraktiltabeller for normalfordelingen, en kvantiltabell for normalfordelingen finnes på dette nettstedet.

Eksempel 5:

Vi er interessert i å finne et 98 % konfidensintervall for gjennomsnittsvekta til laksen fra eksempel 1.

Vi får at ${\large \frac{\alpha}{2}} = {\large \frac{1 – 0{,98}}{2}} = 0{,}01$. Vi slår opp 0,010 i (kvantil)normalfordelingstabellen og får 2,3263.

Vi har altså at ${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} = {\large z}_{0{,}01}^\phantom 1 \approx 2{,}3263$.

I eksempel 1 fant vi at gjennomsnittsvekta til n = 13 laks var 4,14 kg. Hvis laksepopulasjonen er normalfordelt med standardavvik σ = 0,7, blir altså et 98 % konfidensintervall

$4{,}14 \pm 2{,}3263 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}45 = [3{,}69, 4{,}59]$

Oppgave 5:

Bruk metoden fra eksempel 5 til å finne et 97 % konfidensintervall for laksens gjennomsnittsvekt.

Se løsningsforslag

Konfidensintervaller i Excel og GeoGebra

I Excel og GeoGebra finnes egne funksjoner for baklengs oppslag i normalfordelinger, norm.inv i Excel og inversnormalfordeling i GeoGebra. Med disse er det imidlertid $1 – {\large \frac{\alpha}{2}}$ vi slår opp, vi angir altså arealet under normalfordelingskurven til venstre for, ikke til høyre for, ${\large \frac{\alpha}{2}}$.

Funksjonene er inverser av funksjonene norm.fordeling og fordelingnormal, som vi presenterer i artikkelen om normalfordelingen. Der oppgir vi en grenseverdi, og får ut sannsynligheten for at en normalfordelt, tilfeldig variabel er mindre eller lik denne grenseverdien. I de inverse funksjonene oppgir vi sannsynligheten, og får ut grenseverdien. I tillegg må vi også gi inn normalfordelingens forventningsverdi og standardavvik. Excel har også en funksjon, norm.s.inv, som er inversen til norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, verdiene 0 og 1 brukes automatisk. Noe tilsvarende finnes ikke i GeoGebra.

Disse funksjonene er imidlertid ikke veldig interessante når vi skal beregne bredden på konfidensintervaller. Har vi en datamaskin tilgjengelig, kan vi bruke Excel eller GeoGebra til å beregne denne bredden direkte.

I Excel bruker vi funksjonen konfidens.norm, der vi gir inn α samt fordelingens varians og antall elementer i utvalget. (Vi gir altså inn α, ikke ${\large \frac{\alpha}{2}}$.) Excel beregner da avstanden fra utvalgets gjennomsnitt til intervallgrensene. I GeoGebra bruker vi sannsynlighetskalkulatoren, slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Eksempel 6:

Med basis i data fra lakseveiningen i eksempel 1, skal vi bruke Excel til å beregne grensene i et 95 % og et 99 % konfidensintervall for laksens gjennomsnittsvekt. Vi har altså veid 13 fisk og funnet et gjennomsnitt på 4,14 kg. Populasjonen er normalfordelt med standardavvik 0,7.

Skriver vi =konfidens.norm(1-0,95; 0,7; 13) i Excel, får vi ut 0,38. Et 95 prosent konfidensintervall blir derfor om lag

[4,14 − 0,38, 4,14 + 0,38] = [3,76, 4,52].

Skriver vi =konfidens.norm(1-0,99; 0,7; 13) i Excel, får vi ut 0,50. Et 99 prosent konfidensintervall blir derfor om lag

[4,14 − 0,50, 4,14 + 0,50] = [3,64, 4,64].
 

RegnearkLast ned regneark som beregner 90 – 99 % (normal)konfidensintervaller

 
Oppgave 6:

Bruk Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere fra oppgave 1. Vi har altså dagsproduksjoner på henholdsvis 210, 220, 210, 225, 220 og 217 enheter, og vet at produksjonen er normalfordelt med standardavvik 5,8.

Se løsningsforslag

Konfidensintervaller ved ukjent standardavvik

Når vi har brukt normalfordelingen til å lage konfidensintervaller i en populasjon, har vi forutsatt at standardavviket til populasjonen, σ, er kjent. Av og til kjenner vi en populasjons standardavvik, for eksempel hvis avviket skyldes dokumenterte unøyaktigheter i et måleinstrument. Men som regel er standardavviket ukjent, og må estimeres, det også.

Det vil da være naturlig å ta utgangspunkt i det standardavviket vi kan beregne ut fra de målingene vi har gjort, nemlig utvalgsstandardavviket, S, og estimere σ som

$\hat \sigma = S$

I artikkelen om måltall i statistikk ser vi at hvis vi har gjort n målinger av en variabel X og beregnet at gjennomsnittet er X, er utvalgsstandardavviket, S, gitt ved

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

Bruk av utvalgsstandardavviket innebærer imidlertid at vi innfører en usikkerhet, noe som medfører at normalfordelingen gir et for smalt intervall. I stedet for normalfordelingen bruker vi da en t-fordeling, også kalt Students t-fordeling. t-fordelingen er ikke én enkelt kurve, men en familie med kurver som blir lavere og bredere jo høyere usikkerhet vi har. Denne usikkerheten måler vi i frihetsgrader, v, der økende antall frihetsgrader gir synkende usikkerhet.

Figuren under viser et plott av tre t-kurver med frihetsgrader på henholdsvis v = 1, v = 5 og v = 30, tegnet med henholdsvis grønn, blå og rød linje. Figuren viser også en normalfordelingskurve, tegnet med svart, prikkete linje. Vi ser at t-kurven nærmer seg normalkurven når antall frihetsgrader øker. Ved 30 frihetsgrader er kurvene så å si overlappende.

Plott av normalfordeling og t-fordelinger med 1, 5 og 30 frihetsgrader.

Når vi skal bruke t-fordelingen ut fra et utvalgsstandardavvik basert på n målinger, setter vi antall frihetsgrader, v, lik antall målinger minus 1, v = n − 1.

t-kurven blir altså bredere jo færre målinger vi har.

Vi har tidligere sett hvordan vi brukte en kvantiltabell for normalfordelingen til å slå opp a og få ut z, slik at arealet under kurven til høyre for z var a. En kvantiltabell for t-fordelingen er tilsvarende, men vi må i tillegg til a også angi antall frihetsgrader, v. På dette nettstedet finnes en kvantiltabell for t-fordelingen. Tabellen går opp til 30 frihetsgrader. Har vi flere frihetsgrader, er t-fordelingen så nærme normalfordelingen at vi i stedet kan bruke kvantiltabellen for normalfordelingen.

Eksempel 7:

I eksempel 3 målte vi vekta på 13 laks, og fant at gjennomsnittet var X ≈ 4,14 kg og utvalgsstandardavviket S ≈ 0,71 kg.

Skulle vi brukt normalfordelingen til å lage et 95 % konfidensintervall for vekta, ville vi basert oss på z0,025 ≈ 1,96, og fått:

$4{,}14 \pm 1{,}96 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}75, 4{,}53]$.

Men siden vi baserer oss på utvalgsstandardavviket, bruker vi i stedet (kvantil)t-fordelingstabellen med a = 0,025 og v = 13 − 1 = 12. Vi finner at t0,025 (12) ≈ 2,179 og får:

$4{,}14 \pm 2{,}179 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}71, 4{,}57]$.

Konfidensintervallet blir litt bredere enn da vi brukte normalfordelingen, dette gjenspeiler usikkerheten ved at bruk av utvalgsstandardavviket basert på så lite som 13 målinger.

Oppgave 7:

I oppgave 1 og 2 fant vi, basert på 6 tilfeldige observasjoner, at gjennomsnittlig antall produserte støtfangere var X= 217 stk., og at produksjonens utvalgsstandardavvik var S = 6 stk. Lag og sammenlikn et 95 % konfidensintervall basert på normalfordeling, med et basert på t-fordeling.

Se løsningsforslag

Når standardavviket til en populasjon er ukjent, beregner vi altså et konfidensintervall som

$\fbox{$\begin{align} &\text{Konfidensintervall:} \\
&\overline X \pm {\large t_{\Large \frac{\alpha^\phantom 1}{2} \,(v)}} \cdot \frac{\displaystyle S}{\displaystyle \sqrt n} \end{align}$}$

For 90 %, 95 % og 99 % konfidensintervaller blir dette

$\fbox{$\begin{align}\, \\
&\text{Konfidensintervaller:}\\
&\text{90 %: } \overline X \pm {\large t_{90 \, \% \,(v)}} \cdot \frac{\displaystyle S}{\displaystyle \sqrt n} \\
&\text{95 %: } \overline X \pm {\large t_{95 \, \% \,(v)}} \cdot \frac{\displaystyle S}{\displaystyle \sqrt n} \\
&\text{99 %: } \overline X \pm {\large t_{99 \, \% \,(v)}} \cdot \frac{\displaystyle S}{\displaystyle \sqrt n} \\
\end{align}$}$

t-fordeling i Excel og GeoGebra

Excel og GeoGebra har mange funksjoner for oppslag i t-fordeling, tilsvarende de som finnes for oppslag i normalfordeling.

I artikkelen om normalfordelingen presenterer vi Excel-funksjonen norm.fordeling og GeoGebra-funksjonen fordelingnormal, som beregner P(Xx) i en vilkårlig normalfordeling. Motsvarende i t-fordelingen heter henholdsvis t.fordeling og fordelingt. I t-fordelingen antas forventningen å være 0 og standardavviket 1, så det trenger vi ikke oppgi. I stedet må vi oppgi antall frihetsgrader. I norm.fordeling er parameterne x, antall frihetsgrader, og sann/usann for kumulativ/ikke-kumulativ sannsynlighet. I fordelingt oppgir vi først antall frihetsgrader, deretter x og true/false for kumulativ/ikke-kumulativ. true/false kan sløyfes, da benyttes kumulativ sannsynlighet, som er det vanligste.

I denne artikkelen presenterte vi inversene til funksjonene nevnt over, norm.inv i Excel og inversnormalfordeling i GeoGebra. Motsvarende for t-fordelingen heter t.inv og inverstfordeling. I Excel er første parameter sannsynligheten og andre antall frihetsgrader, omvendt i GeoGebra.

I denne artikkelen har vi også sett hvordan vi kunne bruke funksjonen konfidens.norm i Excel og sannsynlighetskalkulatoren i GeoGebra til å beregne grensene i et konfidensintervall.

I Excel bruker vi funksjonen konfidens.t til å beregne bredden av et konfidensintervall basert på en t-fordeling. Vi gir da inn α, standardavvik og utvalgsstørrelse. I GeoGebra bruker vi sannsynlighetskalkulatoren, slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Eksempel 8:

I eksempel 7 fant vi at et 95 % konfidensintervall for gjennomsnittsvekta til 13 laks med gjennomsnittsvekt 4,14 og utvalgsstandardavvik 0,711 var

$4{,}14 \pm 2{,}179 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}71, 4{,}57]$

For å beregne det samme i Excel, skriver vi =konfidens.t(1-0,95; 0,71; 13) og får ut 0,43. Et 95 prosent konfidensintervall blir derfor om lag

[4,14 − 0,43, 4,14 + 0,43] = [3,71, 4,57].
 

RegnearkLast ned regneark som beregner 90 – 99 % (t)konfidensintervaller

 
Oppgave 8:

I oppgave 7 beregnet vi, basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 et 95 % konfidensintervall basert på t-fordeling. Gjør den samme beregningen i Excel.

Se løsningsforslag

Når vi i eksempler og oppgaver har forutsatt at populasjonene er normalfordelte, er det fordi vi har gjort beregninger basert på ganske få målinger. Hvis vi øker antall målinger til 30 eller mer, kan vi imidlertid fire på dette kravet. Sentralgrenseteoremet garanterer at gjennomsnittene i alle tilfeller vil være tilnærmet normalfordelte.

Estimere sannsynligheter

I tidligere avsnitt har vi estimert forventningsverdi og standardavvik. Nå skal vi se hvordan vi kan estimere sannsynligheten for at elementer i en populasjon har en gitt egenskap. Vi antar at hvert element enten har eller ikke har egenskapen, og at det er uavhengighet mellom elementene, slik at vi har en binomisk modell. Vi bruker symbolet $\hat p$ til å estimere sannsynligheten p. Trekker vi n elementer fra populasjonen, og X av disse har den gitte egenskapen, er en forventningsrett estimator
$\hat p = {\large \frac{X}{n}}$.

Standardavviket til estimatoren baseres ikke på et utvalgsstandardavvik, men på at variansen i en binomisk fordeling er Var(X) = np(1 − p), slik vi beskriver i artikkelen om forventning og varians.

Ved å bruke regnereglene fra denne artikkelen, kan vi finne variansen til estimatoren:

$Var(\hat p) = Var(\frac{\displaystyle X}{\displaystyle n}) = {(\frac{\displaystyle 1}{\displaystyle n})}^2Var(X) = {(\frac{\displaystyle 1}{\displaystyle n})}^2(np(1 – p)) = \frac{\displaystyle p(1 – p)}{\displaystyle n}$.

Og standardavviket til estimatoren blir $\sqrt \frac{\displaystyle p(1 – p)}{\displaystyle n}$

Vi ser at standardavviket blir 0 når p = 1 eller p = 0, rimelig nok, siden vi da ikke har spredning i det hele tatt. Størst standardavvik får vi når p = 0,5.

Nå er jo ikke p kjent, dette er jo den ukjente variabelen vi skal estimere, så vi tilnærmer p med den estimerte sannsynligheten, $\hat p$.

Formelen for rapportering i denne modellen blir da

$\fbox{Rapportering: $\overline X \pm \sqrt \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}$}$

Og et konfidensintervall angis som

$\fbox{$\begin{align}&\text{Konfidensintervall:} \\
&\hat p \pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \cdot \sqrt{ \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}} \end{align}$}$

For 90 %, 95 % og 99 % konfidensintervaller blir dette

$\fbox{$\begin{align}\, \\
&\text{Konfidensintervaller:}\\
&\text{90 %: } \hat p \pm 1{,}65 \cdot \sqrt{ \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}} \\
&\text{95 %: } \overline X \pm 1{,}96 \cdot \sqrt{ \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}} \\
&\text{99 %: } \overline X \pm 2{,}58 \cdot \sqrt{ \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}} \\
\end{align}$}$

Da vi estimerte forventning, så vi at vi kompenserte for usikkerheten ved at variansen var ukjent, ved å bruke t-fordeling i stedet for normalfordeling. Det gjør vi ikke når vi estimerer sannsynligheter, vi forutsetter i stedet at vi har n ≥ 30, slik at normalfordelingen gir en god nok tilnærming.

Eksempel 9:

Når vi kaster en vanlig mynt 50 ganger, er forventningsverdien til antall kron 50 · 0,5 = 25. Store avvik fra dette kan tyde på at det er noe juks med mynten.

Vi kaster en mynt vi mistenker er jukset med 50 ganger, og får 33 kron.

Vi estimerer da sannsynligheten for kron med $\hat p = {\large \frac{X}{n}} = {\large \frac{33}{50}}= 0{,}66$.

Vi estimerer standardavviket til estimatoren med $\sqrt{\large \frac{\hat p(1- \hat p)}{n}} = \sqrt{\large \frac{0{,}66(1 – 0{,}66)}{50}} \approx 0{,}067$.

En rapportering av denne sannsynligheten blir da

0,66 ± 0,067

Så ønsker vi å finne 95 % og 99 % konfidensintervaller for den estimerte sannsynligheten.

Fra tidligere eksempler vet vi at vi i et 95 % konfidensintervall har

${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \approx 1{,}96$

og i et 99 % konfidensintervall har

${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \approx 2{,}58$

Så et 95 % konfidensintervall blir 0,66 ± 1,96 · 0,067 ≈ [0,53, 0,79].

Og et 99 % konfidensintervall blir 0,66 ± 2,58 · 0,067 ≈ [0,49, 0,83].

Vi ser at et 95 % konfidensintervall ikke fanger opp sannsynligheten for en normal mynt, som er 0,5, men 99 % intervallet gjør det så vidt. Det betyr at estimatet med 95 % sikkerhet indikerer at mynten er jukset med, men ikke med 99 % sikkerhet.

Oppgave 9:

En bedrift som produserer mobilladere, tester 2000 tilfeldige ladere, og finner ut at 35 av dem er defekte.

Finn et estimat for hvor stor sannsynligheten er for at en vilkårlig lader er defekt, og angi resultatet som en rapportering.

Finn deretter et 95 % konfidensintervall for estimatet.

Se løsningsforslag

Å beregne konfidensintervaller for sannsynligheter i Excel er tungvint, men sannsynlighetskalkulatoren i GeoGebra gjør dette enkelt , slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Sentralgrenseteoremet

Hva er sentralgrenseteoremet?

Hvis vi kaster en terning, er det like sannsynlig å få 1, 2, 3, 4, 5 og 6. Vi har en uniform sannsynlighetsfordeling. Gjør vi 100 kast og summerer antall øyne, kan summen bli alt fra 100 til 600. Men selvfølgelig er ikke 100 og 600 like sannsynlig som for eksempel 300. Det er fordi det kun er én kombinasjon av terningene som gir 100, nemlig bare enere, og kun én kombinasjon av terningene som gir 600, nemlig bare seksere. Sannsynligheten for hvert av disse tilfellene er ${\large (\frac{1}{6})}^{100} \approx 1{,}5306 \cdot 10^{-78}$. Men 300 kan vi få på utallige måter, uten at vi en gang forsøker oss på å regne det ut her.

I figuren under viser de blå linjene fordelingen av summen av antall øyne i 20 000 simulerte kast med 100 terninger.

Fordeling av sum øyne i 20 000 kast med 100 terninger, og tilhørende normalfordeling

Siden hvert kast har forventning μ = 3,5, slik vi ser i artikkelen om forventning og varians, er det ikke overraskende at sannsynlighetsfordelingen for summen av antall øyne i 100 kast er sentrert rundt 100 · 3,5 = 350.

Mer overraskende er det kanskje at summene later til å være tilnærmet normalfordelt, slik som den røde kurven indikerer. Dette er imidlertid ikke tilfeldig, men i henhold til det som kalles sentralgrenseteoremet:

$\fbox{$\begin{align} &\text{Dersom } X_1, X_2, \dots, X_n \text{ er uavhengige og har samme fordeling med forventning } \mu \text{ og varians } \sigma^2 \text{ vil } \\
&X_1 + X_2 + \dots + X_n \approx N(n \mu, n \sigma^2) \text{ og } \overline X \approx N(\mu, \frac{\displaystyle \sigma^2}{\displaystyle n})\end{align}$}$

Både summen av variablene og gjennomsnittet av variablene er altså tilnærmet normalfordelt, selv om variablene i seg selv følger en annen fordeling. Jo flere variable vi har, jo bedre blir tilnærmingen. Når antall variable går mot uendelig, konvergerer fordelingen mot normalfordelingen, normalfordelingen utgjør en grenseverdi, derav navnet på teoremet.

Dette betyr at vi kan bruke normalfordelingen til å beregne tilnærmede sannsynligheter i vilkårlige fordelinger hvis antall variabler er stort nok. Hva «stort nok» betyr vil variere med fordelingen, men en tommelfingerregel er > 30.

Hvis fordelingen til variablene i utgangspunktet er en normalfordeling, vil imidlertid sentralgrenseteoremet angi eksakt verdi, uavhengig av antall målinger. Denne egenskapen kan lett utledes av at summen av normalfordelte variabler også er normalfordelt, slik det er beskrevet i artikkelen om normalfordelingen.

Eksempel 1:

Et idrettslag skal selge pølser på en håndballkamp med 400 tilskuere. Av erfaring vet de at i gjennomsnitt kjøper 30 % av tilskuerne ingenting, 50 % kjøper en enkelt pølse, og 20 % kjøper to pølser. Så lurer de på om det holder med 19 pakker à 20 pølser, altså 380 stykk.

Dersom X er antall solgte pølser per tilskuer, har vi altså at P(X = 0) = 0,3, P(X = 1) = 0,5 og P(X = 2) = 0,2. Dersom Y er antall solgte pølser totalt, skal vi finne P(Y ≤ 380).

Vi må først finne forventning og varians for X. Vi bruker formlene fra artikkelen om forventning og varians, og får:

E(X) = 0 · 0,3 + 1 · 0,5 + 2 · 0,2 = 0,9.

E(X2) = 02 · 0,3 + 12 · 0,5 + 22 · 0,2 = 1,3.

Var(X) = E(X2) − (E(X))2 = 1,3 − (0,9)2 = 0,49.

Altså μ = E(X) = 0,9, og σ2 = Var(X) = 0,49.

n = 400, godt over tommelfingerregelen på > 30. Så dersom alle kjøpene er uavhengige, vil ifølge sentralgrenseteoremet summen Y være tilnærmet normalfordelt. Forventningen og variansen til Y blir 400 ganger forventningen og variansen til X, så

YN(400 · 0,9, 400 · 0,49) = N(360, 196) = N(360, 142).

Vi skriver =norm.fordeling(380; 360; 14; sann) i Excel eller fordelingnormal(360, 14, 380) i GeoGebra og får 0,9234.

Vi kan også finne normaltilnærmingen ved å bruke normalfordelingstabellen. Vi gjør da først en standardisering, og finner ut at P(Y ≤ 380) tilsvarer $G({\large \frac{380 – 360}{14}}) \approx G(1{,}43)$. Så går vi inn i normalfordelingstabellen, rad 1,4, kolonne 0,03, der det står 0,9236.

Det er altså om lag 92,3 % sannsynlighet for at 380 pølser er nok.

Oppgave 1:

En orkidedyrker har 2500 planter. I gjennomsnitt produserer 20 % av plantene ingen blomsterstengler, 40 % én stengel, 30 % to stengler, og 10 % produserer tre stengler. Han har fått bestillinger på i alt 3200 stengler. Hvor sannsynlig er det at han vil klare å levere?

Se løsningsforslag

Tilnærme diskrete fordelinger med normalfordelingen

I artikkelen om å tilnærme fordelinger ser vi hvordan vi kan tilnærme en hypergeometrisk fordeling med en binomisk fordeling, og hvordan vi kan tilnærme en binomisk fordeling med en poissonfordeling. Nå skal vi se hvordan vi kan tilnærme en binomisk fordeling, en hypergeometrisk fordeling og en poissonfordeling med en normalfordeling, ved hjelp av sentralgrenseteoremet.

I tidligere tider, da en var avhengig av tabeller for å beregne sannsynligheter, var det ikke vanskelig å motivere bruken av normalfordelingen til slike tilnærminger. En typisk læreboktabell gir bare mulighet for å finne binomiske sannsynligheter i opptil 10 forsøk, mens det med en normaltilnærming ikke er noen grense for hvor mange forsøk vi kan håndtere. I datamaskinenes tidsalder er imidlertid situasjonen annerledes. Allikevel finnes det en øvre grense for antall sannsynligheter vi kan beregne. Excel gir for eksempel opp ved ca. 2 milliarder binomiske forsøk. Det kan dessuten være lærerikt å utforske prinsippene for hvordan vi kan tilnærme diskrete fordelinger med en normalfordeling.

Normalfordelingen vi tilnærmer med er N(μ, σ2), der μ og σ2 er den opprinnelige fordelingens forventning og varians.

Generelt sa vi at en normaltilnærming er god hvis n > 30. Vi kan i disse fordelingene gi litt mer nøyaktige anslag.

Binomisk fordeling

Å beregne sannsynligheter i en binomisk fordeling betyr å finne sannsynligheten for et gitt antall suksesser, for eksempel 44 kron i 100 myntkast. Lar vi X være en tilfeldig variabel som representerer utfallet av et binomisk forsøk, kan vi sette X = 1 hvis forsøket er en suksess, og X = 0 hvis ikke. Antall suksesser totalt finner vi da ved å summere X-ene. Siden alle X-ene er uavhengige og har samme fordeling, vil denne summen kunne tilnærmes med normalfordelingen, ifølge sentralgrenseteoremet.

I en binomisk fordeling er forventning og varians henholdsvis μ = np og σ2 = np(1 − p) slik det beskrives i artikkelen om binomisk fordeling. Vi får derfor at

$\fbox{$X \sim bin(n, p) \approx N(\mu, \sigma^2) \approx N(np, np(1 – p))$}$

Eksempel 2:

I figuren under viser de blå linjene fordelingen av antall kron i 100 simulerte myntkast. Dersom X er antall kron, er X ~ bin(n, p) = bin(100, 0,5). Da er forventningen μ = np = 100 · 0,5 = 50, og som vi kan se ligger toppen i nærheten av 50. Variansen er σ2 = np(1 − p) = 100 · 0,5 ·(1 − 0,5) = 25. Den røde kurven viser normalfordelingen med samme forventning og varians, N(50, 25) = N(50, 52). Vi ser at de to fordelingene er så og si like.

Fordeling av antall kron i 100 myntkast, og tilhørende normalfordeling

Hvor god tilnærmingen er, avhenger av både n og p. n må ikke være for liten, og p må ikke være for nærme 0 eller 1. En tommelfingerregel som tar hensyn til dette, er np(1 − p) ≥ 10.

Eksempel 3:

Vi kaster en mynt 1000 ganger, og vil finne sannsynligheten for å få 485 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 1000 forsøk, og en sannsynlighet på p = 0,5. Så hvis X er antall kron, er X ~ bin(1000, 0,5).

Her er np(1 − p) = 1000 · 0,5(1 − 0,5) = 250, så vi forventer at normaltilnærmingen skal være god.

Normaltilnærmingen blir N(1000 · 0,5, 1000 · 0,5 (1 − 0,5)) = N(500, 250).

Vi skal altså finne P(X ≤ 485) basert på normaltilnærmingen $N(500, \sqrt{250}^2)$. Det kan vi gjøre i Excel ved å skrive =norm.fordeling(485; 500; rot(250); sann), og i GeoGebra ved å skrive fordelingnormal(500, sqrt(250), 485). Avrundet til 4 desimaler får vi 0,1714.

Den nøyaktige sannsynligheten kan vi finne ved å beregne P(X = 0) + P(X = 1) + … + P(X = 485) i en binomisk fordeling med 1000 forsøk og p = 0,5. Skriver vi =binom.fordeling.n(485; 1000; 0,5; sann) i Excel, får vi at dette er ca. 0,1796. 

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1796 – 0{,}1714}{0{,}1796}} \approx 0{,}0457$, ca. 4,6 % for lav.

Vi kan også finne normaltilnærmingen ved å bruke normalfordelingstabellen. Vi gjør da først en standardisering, og finner at P(X ≤ 485) tilsvarer $G({\large \frac{485 – 500}{\sqrt{250}}}) \approx G(-0{,}95) = 1 – G(0{,}95)$. Så går vi inn i normalfordelingstabellen, rad 0,9, kolonne 0,05, der det står 0,8289. Så G(−0,95) ≈ 1 − 0,8289 = 0,1711.

Eksempel 4:

Vi kaster en mynt 10 ganger, og vil finne sannsynligheten for å få 3 eller færre kron. Dette er en binomisk sannsynlighetsfordeling med 10 forsøk og en sannsynlighet på 0,5. Så hvis X er antall kron, er X ~ bin(10, 0,5). Vi skal finne P(X ≤ 3), det vil si

$P(X = 0) + P(X = 1) + P(X = 2) + P(X = 3) =$

${\large \binom{10}{0}} (0{,}5)^0 (0{,}5)^{10} + {\large \binom{10}{1}} (0{,}5)^1 (0{,}5)^9 +$

${\large \binom{10}{2}} (0{,}5)^2 (0{,}5)^8 + {\large \binom{10}{3}} (0{,}5)^3 (0{,}5)^7 \approx 0{,}1719$

Så skal vi bruke normaltilnærmingen til å anslå denne sannsynligheten.

Her er np(1 − p) = 10 · 0,5(1 − 0,5) = 2,5, så vi forventer ikke at normaltilnærmingen skal være særlig god.

Normaltilnærmingen blir N(10 · 0,5, 10 · 0,5 (1 – 0,5)) = N(5, 2,5).

Bruker vi Excel til beregningen, skriver vi =norm.fordeling(3; 5; rot(2,5); sann), og får om lag 0,1030.

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1719 – 0{,}1030}{0{,}1719}} \approx 0{,}4008$, ca. 40,1 % for lav. Som ventet ikke særlig god.

​Oppgave 2:

Vi har en juksemynt med sannsynlighet p = 0,6 for kron, og vil finne sannsynligheten for å få 125 eller færre kron i 200 kast. Ved å skrive =binom.fordeling.n(125; 200; 0,6; sann) i Excel, får vi at dette er ca. 0,7858.

Avgjør om en normaltilnærming kan forventes å være god i dette tilfellet, og bruk så Excel eller GeoGebra til å beregne sannsynligheten ved hjelp av normaltilnærming. Hvor stor blir feilen i prosent?

Se løsningsforslag

Hypergeometrisk fordeling

I artikkelen om hypergeometrisk fordeling ser vi at vi i en hypergeometrisk fordeling beregner sannsynligheter for å trekke ut «spesielle elementer». Modellerer vi dette med en tilfeldig variabel, X, der vi setter X = 1 hvis et utvalgt element er «spesielt» og X = 0 hvis ikke, kan vi finne antall spesielle elementer totalt ved å summere X-ene. I denne fordelingen er imidlertid ikke X-ene uavhengige av hverandre, sannsynligheten for å trekke et spesielt element vil avhenge av hvor mange spesielle elementer vi har trukket tidligere. Betingelsene for å bruke sentralgrenseteoremet er derved ikke oppfylt. Hvis vi imidlertid bare trekker en liten del av det totale antallet, betyr dette lite.

I en hypergeometrisk fordeling, der vi trekker n elementer fra totalt N, der M er spesielle, er $\mu = np$ og $\sigma^2 = \Big( {\large \frac{N – n}{N – 1}} \Big) \cdot np(1 – p)$, der $p$ er forholdet mellom spesielle elementer og elementer totalt, $p = {\large \frac{M}{N}}$.

Vi får derfor at

$\fbox{$X \sim \text{hypergeom}(N, M, n) \approx N(\mu, \sigma^2) \approx N \Big(np, \, \big( {\large \frac{N – n}{N – 1}} \big) \cdot np(1 – p)\Big)$}$

Vær oppmerksom på at det er to forskjellige N her! N står for antall elementer totalt, men også som indikasjon for normalfordelingen.

Tilnærmingen er god når $n \le {\large \frac{N}{20}}$ og $np(1-p) \ge 10$.

Poissonfordeling

I en poissonfordeling kan vi betrakte X som et gjennomsnitt av likt fordelte, uavhengige variabler, og sentralgrenseteoremet kan derfor benyttes.

I artikkelen om poissonfordeling ser vi at i en poissonfordeling er μ = λ og σ2 = λ. Vi får derfor at

$\fbox{$X \sim \text{poisson}(\lambda) \approx N(\mu, \sigma^2) \approx N(\lambda, \lambda)$}$

Tilnærmingen er god når λ ≥ 10.

Heltallskorreksjon

I en diskret sannsynlighetsfordeling er P(Xx) det samme som P(X < x + 1), for eksempel er P(X ≤ 3) det samme som P(X < 4). Dette er imidlertid ikke tilfelle i en kontinuerlig fordeling som normalfordelingen. Her er P(X < x) det samme som P(Xx). Så i prinsippet kan vi tilnærme med både x og x + 1. Hva som er best, vil kunne variere, men ofte vil det beste være å legge seg midt imellom, altså på x + 0,5. For eksempel x = 3,5 i normalfordelingen når vi skal finne P(X ≤ 3) i en diskret fordeling. Dette kalles heltallskorreksjon, og har størst effekt i små utvalg.

Eksempel 5:

I eksempel 4 fant vi, ved å bruke formelen for binomisk fordeling, at sannsynligheten for å få 3 eller færre kron ved 10 kast var om lag 0,1719.

Normaltilnærmingen er N(5, 2,5), og vi fant at dette er om lag 0,1030, noe som er ca. 40,1 % for lavt.

Bruker vi heltallskorreksjon, skal vi erstatte x = 3 med x = 3 + 0,5 = 3,5. Bruker vi Excel til beregningen, skriver vi =norm.fordeling(3,5; 5; rot(2,5); sann), og får om lag 0,1714.

Normaltilnærmingen er altså om lag ${\large \frac{0{,}1719 – 0{,}1714}{0{,}1719}} \approx 0{,}0029$, ca. 0,3 % for lav. Heltallskorreksjon har gitt en dramatisk forbedring.

Oppgave 3:

I oppgave 2 skulle vi bruke normaltilnærming i en hypergeometrisk fordeling. Gjør tilnærmingen om igjen med heltallskorreksjon. Blir resultatet bedre eller dårligere enn i oppgave 2?

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Normalfordelingstabell

Tabellen under viser G(z), det vil si P(Zz) i en standard normalfordeling, z ∈ [0,00,  3,99].

De to første sifrene til z finnes i kolonna til venstre, det tredje sifferet i raden øverst. Vil vi for eksempel finne G(1,24), går vi inn der raden med 1,2 krysser kolonna med 0,04, og leser av 0,8925.

For negative z benytter vi at G(−z) = 1 − G(z). Vil vi for eksempel finne G(−1,32), finner vi 1 − G(1,32) = 1 − 0,9066 = 0,0934.

Tabell over standard normalfordeling

Poissonfordelingstabell

Tabellen under viser P(Xx) i en kumulativ poissonfordeling.

Tabellen har to deler, en for λ ∈ [0,1, 1,0] og en for λ ∈ [1, 10].

For å slå opp, velger vi rad ut fra antall forekomster (x) og kolonne ut fra hyppigheten (λ). Hvis for eksempel X er poissonfordelt med λ = 0,4, finner vi P(X ≤ 3) i den øvre delen av tabellen ved å gå inn der raden med x = 3 krysser kolonna der λ = 0,4, og lese av 0,9992. Hvis X er poissonfordelt med λ = 5, finner vi P(X ≤ 3) i den nedre delen av tabellen ved å gå inn der raden med x = 3 krysser kolonna der λ = 5, og lese av 0,2650.

Tabell over kumulativ poissonfordeling

Binomisk fordelingstabell

Tabellen under viser P(Xx) i en kumulativ binomisk fordeling, n ∈ [1, 8].

For å slå opp, velger vi rad ut fra antall forsøk (n) og antall suksesser (x), og kolonne ut fra sannsynligheten for suksess (p). Hvis for eksempel X ~ Bin(5, 0,4), finner vi P(X ≤ 3) ved å gå inn der raden med n = 5, x = 3 krysser kolonna med p = 0,4, og lese av 0,9130.

Tabell over kumulativ binomisk fordeling

Normalfordelingen

I artikkelen om diskrete sannsynlighetsfordelinger lærer vi at diskrete sannsynlighetsfordelinger har et fast antall verdier vi kan beregne sannsynligheten til, for eksempel sannsynligheten for 0, 1, 2, 3 eller 4 kron i et kast med 4 mynter. Noen eksempler på diskrete fordelinger tar vi for oss i artikkelen om binomisk fordeling, artikkelen om hypergeometrisk fordeling og artikkelen om poissonfordeling.

Normalfordelingen, som vi skal se på i denne artikkelen, er imidlertid ikke diskret, men et eksempel på en kontinuerlig sannsynlighetsfordeling, der en tilfeldig variabel kan anta alle mulige verdier mellom ∞ og ∞. Normalfordelingen kalles også Gauss-fordelingen, oppkalt etter matematikeren Carl Friedrich Gauss, og har svært mange anvendelser.

Standard normalfordeling

Et plott av en standard normalfordelingskurve er vist under. Denne kurven er glatt, og består av uendelig mange punkter. Kurven er symmetrisk om x = 0.

Standard normalfordeling

Arealet under kurven representerer den totale sannsynligheten for alle de uendelig mange verdiene i fordelingen, og er derfor 1. Siden det finnes uendelig mange verdier, er sannsynligheten for en vilkårlig verdi lik 0. P(X = x) = 0 for alle x. Dette virker kanskje underlig, men kan illustreres med et tankeeksperiment:

Vi deler opp en dartblink i ti like store sektorer og kaster en pil i blinde, slik at den har like stor sjanse for å treffe hver av sektorene. Hva er så sannsynligheten for at pila traff i den sektoren den gjorde? Selvfølgelig ${\large \frac{1}{10}}$. Men så deler vi denne sektoren i ti mindre, like store sektorer. Hva er nå sannsynligheten for at pila traff i den sektoren den gjorde? Jo, ${\large \frac{1}{100}}$. Ser vi bort fra fysiske begrensninger, kan vi fortsette å dele inn i stadig mindre sektorer, og for hver gang divideres sannsynligheten for å treffe i akkurat den sektoren med 10. Forsetter vi i all evighet, er del lett å skjønne at sannsynligheten da går mot 0. I en kontinuerlig sannsynlighetsfordeling kan altså hendelsen X inntreffe selv om P(X) = 0.

Siden sannsynligheten for alle enkeltverdier er 0, er det meningsløst å regne med punktsannsynligheter. I stedet arbeider vi med kumulative sannsynligheter og undersøker hvor stor sannsynligheten er for at en verdi ligger til venstre for et punkt på kurven, til høyre for et punkt på kurven, eller mellom to punkter på kurven.

I en standard normalfordeling er det vanlig å bruke Z og z i stedet for X og x som tilfeldige variable, vi skriver altså P(Zz) i stedet for P(Xx).

P(Zz) skriver vi også gjerne forenklet som G(z).

En standard normalfordeling er symmetrisk om z = 0. Derfor vil P(Z ≤ 0) = G(0) = 0,5.

Normalfordelingstabell

De forskjellige sannsynlighetene beregner vi på en datamaskin eller leser ut av en tabell. Et utdrag av en normalfordelingstabell er vist under.

Normalfordelingstabell

Tabellen har rader som er nummerert fra 0,0 og oppover, og kolonner som er nummerert fra 0,00 til 0,09. Når vi skal slå opp en verdi, går vi inn i raden med verdi lik de første to sifrene og kolonne lik det tredje sifferet. For eksempel finner vi G(1,13) ved å gå inn i rad 1,1 og kolonne 0,03, der det står 0,8708, og vi finner G(1,20) ved å gå inn i rad 1,2 og kolonne 0,00, der det står 0,8849.

Tabellen inneholder bare fordelingen for positive z, det vil si verdier som ligger til høyre for midten av kurven. Det er ikke nødvendig å ta med negative verdier, fordi vi på grunn av symmetrien om z = 0, og at den totale sannsynligheten er 1, alltid vil ha følgende sammenheng:

$\fbox{$G(-z) = 1 – G(z)$}$

Dette nettstedet inneholder også en komplett normalfordelingstabell.

Skal vi finne sannsynligheten for at en verdi ligger mellom to grenser, a og b, altså P(aZb), kan vi regne det ut som G(b) − G(a).

Eksempel 1:

Basert på normalfordelingstabellen skal vi finne

  1. P(Z ≤ 1,87), det vil si G(1,87).
    ​Vi leser av tabellen der rad 1,8 krysser kolonne 0,07, der det står 0,9693.
    P(Z ≤ 1,87) ≈ 0,9693.
     
  2. P(0,55 ≤ Z ≤ 1,00), det vil si G(1,00) − G(0,55).
    ​Vi leser av tabellen der rad 1,0 krysser kolonne 0,00, der det står 0,8413.
    ​Vi leser av tabellen der rad 0,5 krysser kolonne 0,05, der det står 0,7088.
    P(0,55 ≤ Z ≤ 1,00) ≈ 0,8413 − 0,7088 = 0,1325.
     
  3. P( Z ≤ −0,74), det vil si G(−0,74) = 1 − G(0,74).
    ​Vi leser av tabellen der rad 0,7 krysser kolonne 0,04, der det står 0,7704.
    P( Z ≤ −0,74) ≈ 1 − 0,7704 = 0,2296.
     
  4. P(−1,00 ≤ Z ≤ −0,55), det vil si G(−0,55) − G(−1,00) = 1 − G(0,55) − (1− G(1,00)) = G(1,00) − G(0,55).
    Dette er det samme som vi fant i punkt 2, om lag 0,1325.

Oppgave 1:

Bruk normalfordelingstabellen til å finne

        1. P(Z ≤ 0,85).
           
        2. P(Z ≤ −1,21).
           
        3. P(−0,22 ≤ Z ≤ 0,22).

Se løsningsforslag

Forventning og standardavvik i standard normalfordeling

I en standard normalfordeling er forventningen 0 og variansen 1.

$\fbox{Standard normalfordeling: $E(Z) = 0, Var(Z) = 1$}$

Det er vanlig å bruke symbolet μ til å representere forventningen, og variansen oppgir vi gjerne som kvadratet av standardavviket, σ2.

$\fbox{Standard normalfordeling: $\mu = 0, \sigma^2 = 1$}$

Generell normalfordeling

Mange tilfeldige variable følger en normalfordeling som ikke er standard. Hvis vi for eksempel tar for oss gjennomsnittshøyden for voksne menn, vil den være normalfordelt, men naturligvis vil ikke μ = 0, vi forventer ikke at høydene er sentrert rundt 0 cm. Hva gjennomsnittshøyden er, varierer over tid, og med folketype, men for eksempelets skyld bruker vi 177 centimeter. En normalfordeling med μ = 177, σ2 = 1 er vist under.

Normalfordeling med E[X] = 177, Var[X] = 1

Men vi skjønner at den ikke kan være representativ, det ser jo ut som det er svært sjelden menn er under 174 eller over 180 centimeter, noe vi vet ikke er riktig. Problemet er at variansen på 1 er alt for lav, slik at kurven strekker seg alt for kort ut fra forventningsverdien. En mye mer realistisk varians er 72. Det gir en normalfordeling som vist under.

Normalfordeling med E[X] = 177, Var[X] = 7

Når vi snakker om at en variabel er normalfordelt, må vi altså angi forventningsverdi og varians for at fordelingen skal være entydig. Når vi sier X ~ N(μ, σ2), mener vi at variabelen X er normalfordelt med forventning μ og varians σ2. For eksempel betyr X ~ N(177, 72) at X er normalfordelt med forventning 177 og varians 72. X ~ N(0, 1) betyr at X er standard normalfordelt, i dette tilfellet bruker vi altså gjerne Z som symbol for den tilfeldige variabelen og skriver Z ~ N(0, 1).

Vi sa tidligere at i en standard normalfordeling vil G(−z) = 1 − G(z). Dette prinsippet baserer seg på at fordelingen er symmetrisk om 0, og gjelder ikke generelt. Men siden det totale arealet under kurven i alle tilfeller er 1, må den delen som ligger til høyre for et punkt være lik 1 minus arealet som ligger til venstre:

P(X > x) = 1 − P(Xx).

Dette er samme prinsipp som i diskrete sannsynlighetsfordelinger. Sannsynligheten for at et utfall er større enn x, er lik 1 minus sannsynligheten for at utfallet er mindre eller lik x.

Siden alle punktsannsynlighetene er 0, vil vi sannsynligheten for «mindre enn» være den samme som for «mindre eller lik», og sannsynligheten for «større enn» være den samme som for «større eller lik»:

P(Xx) = P(Xx).

P(Xx) = P(Xx).

Standardisering

Det finnes altså uendelig mange normalfordelinger. Men uansett variant kan tabellen for en standard normalfordeling alltid brukes til å beregne sannsynligheter ved at vi gjør en standardisering av variabelen X:

$\fbox{Hvis $X \sim N(\mu, \sigma^2)$ er $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma} \sim N(0, 1)$}$

Hvis $X \sim N(\mu, \sigma^2)$ og vi skal finne $P(X \le x)$, subtraherer vi μ og dividerer med σ på begge sider av ulikhetstegnet:

$P(X \le x) \Rightarrow P({\large \frac{X – \mu}{\sigma}} \le {\large \frac{x – \mu}{\sigma}}) \Rightarrow P(Z \le {\large \frac{x – \mu}{\sigma}}) = G({\large \frac{x – \mu}{\sigma}})$.

For å finne $P(X \le x)$ når $X \sim N(\mu, \sigma^2)$, beregner vi altså $G({\large \frac{x – \mu}{\sigma}})$.

Eksempel 2:

Basert på at høyden til menn er N(177,72), skal vi skal finne sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere, altså P(X ≤ 185).

Dette tilsvarer å finne arealet som ligger til venstre for 185 i normalfordelingen med μ = 177, σ = 7, vist under:

Sannsynliget for P(X) < 185 i normalfordeling med E(X)=0, Var(X)=7

Men denne sannsynlighetsfordelingen har vi ingen tabell over. Vi standardiserer derfor den tilfeldige variabelen og får $P(X \le 185) = G({\large \frac{185 – 177}{7}}) \approx G(1{,}14)$.

Dette tilsvarer å flytte arealet som ligger til venstre for 185 i den opprinnelige normalfordelingen inn i standard normalfordelingen, slik som vist under, der arealet strekker seg bort til 1,14.

Sannsynliget for P(Z) < 1.14 i standard normalfordeling

Vi går så inn i normalfordelingstabellen og finner at G(1,14) ≈ 0,8729. Sannsynligheten for at en vilkårlig mann er 185 centimeter eller lavere er altså om lag 87,3 %.

Eksempel 3:

Vi antar at høyden til menn er N(177,72) og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    Vi skal altså finne P(X ≤ 165).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G\big({\large \frac{165 – 177}{7}}\big) \approx G(-1{,}71) = 1 − G(1{,}71)$.
    Vi går inn i normalfordelingstabellen og finner G(1,71) ≈ 0,9564.
    P(X ≤ 165) ≈ 1 − 0,9564 = 0,0436, om lag 4,36 %.
     
  2. Over 190 cm.
    Vi skal altså finne P(X > 190) = 1 − P(X ≤ 190).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $1 – G\big({\large \frac{190 – 177}{7}}\big) \approx 1 – G(1{,}86)$.
    Vi går inn i normalfordelingstabellen og finner G(1,86) ≈ 0,9686.
    P(X > 190) ≈ 1 − 0,9686 = 0,0314, om lag 3,14 %.
     
  3. Mellom 170 og 180 cm.
    Vi skal altså finne P(170 < X < 180) = P(X < 180) – P(170 < X).
    Vi gjør en standardisering, og finner ut at dette tilsvarer $G\big({\large \frac{180 – 177}{7}}\big) – G\big({\large \frac{170 – 177}{7}}\big) \approx G(0{,}43) – G(-1)$.
    Vi går inn i normalfordelingstabellen og finner G(0,43) ≈ 0,6664 og G(1) ≈ 0,8413.
    P(170 < X < 180) ≈ 0,6664 − (1 − 0,8413) = 0,5077, om lag 50,77 %.

Normalfordeling i Excel og GeoGebra

Med datamaskiner tilgjengelig er det lite behov for å slå opp i tabeller, vi finner sannsynlighetene direkte ved hjelp av verktøy som Excel eller GeoGebra.

I Excel bruker vi funksjonen norm.fordeling til å beregne P(Xx) i en vilkårlig normalfordeling. I tillegg til x oppgir vi fordelingens forventningsverdi og standardavvik, og sann for kumulativ sannsynlighet.

I diskrete sannsynlighetsfordelinger så vi at usann betydde at vi fikk punktsannsynlighet i stedet for kumulativ sannsynlighet. Men siden alle punktsannsynlighetene i en kontinuerlig fordeling er 0, er de ikke interessante. usann betyr i norm.fordeling i stedet at vi får sannsynlighetstettheten, som, enkelt sagt, er høyden på fordelingskurven.

Tilsvarende funksjon i GeoGebra heter fordelingnormal. Her oppgir vi først forventningsverdi og standardavvik, deretter x og så true for kumulativ sannsynlighet og false for sannsynlighetstettheten. Sløyfer vi true / false, får vi automatisk kumulativ sannsynlighet, som er det vanligste å spørre etter.

Excel har også en egen funksjon for å beregne P(Zz), altså G(z), i en standard normalfordeling, norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, disse er henholdsvis 0 og 1. Denne funksjonen har ingen motpart i GeoGebra.

Eksempel 4:

Vi skal gjøre beregningene fra eksempel 3 om igjen i Excel og GeoGebra.

Siste desimal i resultatene avviker fra det vi fant i eksempel 3, dette skyldes at vi i eksempel 3 avrundet i standardiseringen av variabelen. Beregningene fra Excel og GeoGebra er mer korrekte.

For å vise resultatet med 4 desimaler i GeoGebra, velger vi «4 desimaler» fra menyen «Innstillinger» – «Avrunding».

Vi har altså at høyden til menn er N(177,72) og skal finne sannsynligheten for at en mann er

  1. 165 cm eller lavere.
    I Excel skriver vi
    =norm.fordeling(165; 177; 7; sann)
    og får 0,0432.
    I GeoGebra skriver vi
    fordelingnormal(177, 7, 165)
    og får samme tall i algebrafeltet.
     
  2. Over 190 cm.
    I Excel skriver vi
    =1 – norm.fordeling(190; 177; 7; sann)
    og får 0,0316.
    I GeoGebra skriver vi
    1 – fordelingnormal(177, 7, 190)
    og får samme tall i algebrafeltet.
     
  3. Mellom 170 og 180 cm.
    I Excel skriver vi
    =norm.fordeling(180; 177; 7; sann) – norm.fordeling(170; 177; 7; sann)​
    og får 0,5072.
    I GeoGebra skriver vi
    fordelingnormal(177, 7, 180) – fordelingnormal(177, 7, 170)
    og får samme tall i algebrafeltet.

RegnearkLast ned regneark med beregningene fra eksempel 4

Oppgave 2:

På en eksamen er resultatene normalfordelt med en forventning på 14 poeng og et standardavvik på 2 poeng, N(14, 22). For å stå må en oppnå mer enn 12 poeng. Bruk Excel og GeoGebra til å beregne hvor stor del av de som tar eksamenen, som kan forventes å ikke stå. Gjør beregningen både ved hjelp av normalfordelingstabellen, Excel og GeoGebra.

Se løsningsforslag

Sum av normalfordelte variabler

Summerer vi to variabler som er normalfordelte, er summen også normalfordelt. Som vi ser i artikkelen om forventning og varians, er forventningen til en sum av vilkårlige variable lik summen av forventningene. Det samme gjelder varians, såfremt variablene er uavhengige. Vi har derfor:

$\fbox{$ \text{Hvis } X \sim N(\mu\,_x, {\sigma^2}_x) \text{ og } Y \sim N(\mu\,_y, {\sigma^2}_y)\text{ er uavhengige, er } X + Y \sim N(\mu\,_x + \mu\,_y, {\sigma^2}_x + {\sigma^2}_y)$}$

Dette prinsippet kan brukes på vilkårlig mange variabler.

Eksempel 5:

Vi har X ~ N(3, 12), Y ~ N(2, 22), Z ~ N(0, 32), og W = X + Y + Z.

Hvis X, Y, Z er uavhengige, er W ~ N(3 + 2 + 0, 12 + 22 + 32 = N(5, 14).

SkjermfilmSe filmen «Normalfordelingen»
 

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Tilnærme fordelinger

Tilnærme hypergeometrisk fordeling med binomisk

I en hypergeometrisk fordeling har vi trekning uten tilbakelegging. Men hvis vi bare trekker ut noen få elementer, og mengden vi trekker fra er stor, betyr dette lite. Vi kan da tilnærme den hypergeometriske fordelingen med en binomisk, der $p = {\large \frac{M}{N}}$, altså forholdet mellom M spesielle av i alt N elementer.

En binomisk tilnærming regnes som god hvis $n \le {\large \frac{N}{20}}$, det vil si at vi trekker mindre enn en tjuendedel av det totale antallet.

Fordelen med en tilnærming er at utregningene blir enklere, og vi slipper å ha med N og M i beregningene. Dette er en fordel fordi hvis N og/eller M er store, risikerer vi å få problemer med kalkulatorer og dataprogrammer på grunn av svært høye tall i mellomregningene. Varians er også mye enklere å beregne i en binomisk fordeling.

Eksempel 1:

I et vareparti på 1000 enheter er 5 % av varene defekte. Vi trekker 10 varer tilfeldig og lurer på hvor stor sannsynligheten er for at ingen av dem er defekte.

Sannsynligheten for å trekke defekte er hypergeometrisk fordelt, med N = 1000, M = 1000 · 0,05 = 50 og n = 10, så vi får

$P(X = 0) = \frac{\displaystyle \binom{50}{0} \cdot \binom{1000 – 50}{10 – 0}}{\displaystyle \binom{1000}{10}} \approx 0{,}5973$.

Vi trekker imidlertid bare n = 10 av N = 1000, og $10 < {\large \frac{1000}{20}}=50$, så vi får en god tilnærming med en binomialfordeling med n = 10 og $p = {\large \frac{M}{N}} = {\large \frac{50}{1000}} = 0{,}05$:

$P(X = 0) = {\large \binom{10}{0}} (0,05)^0 (1 – 0,05)^{10 – 0} \approx 0{,}5987$.

Vi ser at feilen i forhold til svaret vi fikk da vi brukte hypergeometrisk fordeling bare er ca. $0{,}5987 – 0{,}5973 = 0{,}0014$.

Eksempel 2:

Vi vil finne ut hva forventning og varians er i en hypergeometrisk fordeling og en binomisk fordeling basert på dataene fra eksempel 1.

Hypergeometrisk:

$E(X) = 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} = 0{,}5$.

$Var(X) = \Big( \frac{\displaystyle 1000 – 50}{\displaystyle 1000 – 1} \Big) \cdot 10 \cdot \frac{\displaystyle 50}{\displaystyle 1000} \cdot \Big(1 – \frac{\displaystyle 50}{\displaystyle 1000} \Big) \approx 0{,}4517$.

Binomisk:

$E(X) = 10 \cdot 0{,}05 = 0{,}5$.

$Var(X) = 10 \cdot 0{,}05(1 – 0{,}05) = 0{,}4750$.

Vi ser at forventningene i begge tilfeller er like, men variansen er ørlite høyere i den binomiske fordelingen. Det er rimelig siden variasjonsmulighetene er flere når vi kan trekke samme element flere ganger.

Figurene under viser sannsynlighetene i en hypergeometrisk fordeling og en tilnærming med en binomisk fordeling når vi trekker n = 50 elementer fra en mengde der halvparten er spesielle.

I figuren til venstre er N = 100, så $n \not \le {\large \frac{N}{20}}$ og tilnærmingen er dårlig. Vi ser at den binomiske fordelingen er for lav og bred.

I figuren til høyre er N = 1000, så $n = {\large \frac{N}{20}}$ og tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av hypergeometrisk fordeling med binomisk når N = 2n
N = 100, n = 20
Tilnærming av hypergeometrisk fordeling med binomisk når N = 20n
N = 1000, n = 20

Oppgave 1:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig, og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten. Vi kan ikke trekke samme innbygger to ganger, så denne situasjonen er uten tilbakelegging og vi har en hypergeometrisk sannsynlighetsfordeling.

  1. Beregn sannsynligheten for at gruppen er delt på midten ved å bruke hypergeometrisk fordeling.
     
  2. Avgjør om en tilnærming med binomisk fordeling vil være god.
     
  3. Beregn den samme sannsynligheten ved å bruke binomisk fordeling.
     
  4. Angi hvor stor feilen ved å bruke binomisk fordeling ble hvis du tar med fire desimaler.

Se løsningsforslag

Tilnærme binomisk fordeling med poisson

Hvis antall forsøk i en binomisk fordeling, n, er stort og sannsynligheten for suksess, p, er liten, kan vi tilnærme en binomisk fordeling med en poissonfordeling med λ = n · p.

En slik tilnærming regnes som god hvis n > 50 og p ≤ 0,05.

Eksempel 3:

I spillet Dungeons and Dragons brukes blant annet en 20-sidet terning. Vi vil undersøke hvor stor sannsynligheten er for å få «20 minst én gang» når vi kaster 75 ganger. Det letteste er her å basere seg på sannsynligheten til komplementhendelsen «20 ingen ganger».

Vi bruker først binomisk fordeling med n = 75 og $p = {\large \frac{1}{20}} = 0{,}05$.

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \binom{75}{0}} (0{,}05)^0 (1 – 0,05)^{75 – 0} \approx 0{,}9787$.

Vi har n = 75 og p = 0,05, så vi oppfyller kravet til en god tilnærming med poisson, selv om p er helt på grensen.

Vi får λ = 75 · 0,05 = 3,75, og

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \frac{(3,75)^0}{0!}}e^{-3,75} \approx 0{,}9765$, en feil på 0,0022.

Figurene under viser kurver for sannsynlighetene i en binomisk fordeling og en tilnærming med en poissonfordeling.

Figuren til venstre viser sannsynligheter for antall kron i 100 kast med en mynt. Her er n = 100 innenfor grensa på n > 50, men p = 0,5 er langt utenfor grensa på p ≤ 0,05, så tilnærmingen er dårlig. Vi ser at poissonfordelingen er altfor lav og bred.

Figuren til høyre viser sannsynlighetene for antall «begge seks» i 1000 kast med to terninger. Her er n = 1000 godt innenfor grensa på n > 50, og $p ={\large \frac{1}{36}}\approx 0{,}0278$ godt innenfor grensa på p ≤ 0,05, så tilnærmingen er god. Vi ser at fordelingene nesten dekker hverandre.

Tilnærming av binomisk fordeling med poisson når n = 100 og p = 75
n = 100, p = 0,5
Tilnærming av binomisk fordeling med poisson når n = 1000 og p = 0,027
n = 1000, p ≈ 0,0278

Oppgave 2:

Bruk binomisk sannsynlighetsfordeling til å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Avgjør så om en poissonfordeling kan brukes i dette tilfellet, og beregn i så fall den samme sannsynligheten i en poissonfordeling.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Poissonfordeling

Sannsynligheter i poissonfordeling

I artikkelen om binomisk fordeling og artikkelen om hypergeometrisk fordeling gjør vi et bestemt antall forsøk, n, med gitte sannsynligheter, p, eller forhold, ${\large \frac{M}{N}}$. Av og til kjenner vi imidlertid ikke noe av dette, vi vet bare at en hendelse opptrer med en viss hyppighet. Det kan for eksempel være antall kunder som kommer til en kiosk i et gitt tidsrom, eller antall bakterier i en blodprøve. I det første tilfellet snakker vi om hyppighet i tid, i det andre hyppighet i volum.

I slike tilfeller vil vi kunne beregne sannsynligheten for at en hendelse opptrer et bestemt antall ganger ved å bruke en poissonfordeling, oppkalt etter den franske matematikeren Siméon Denis Poisson.

Vi bruker den greske bokstaven lambda, λ, til å angi hyppighet. Sannsynligheten for en hendelse i en poissonfordeling med hyppighet λ, er gitt ved

$\fbox{Poissonfordeling: $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{- \lambda}$}$

Vi forutsetter da at

Hendelsene er uavhengige.

λ er konstant. 

Ingen av hendelsene inntreffer samtidig.

Eksempel 1:

I et skogsområde er det i gjennomsnitt 8 trær per mål, og vi skal finne sannsynligheten for at det på et vilkårlig område på 1 mål er henholdsvis 7, 12 og 2 eller færre trær. Vi forutsetter at forekomsten av trær er uavhengig og konstant i området, og to forekomster kan ikke inntreffe samtidig, siden trær ikke kan stå oppå hverandre.

Siden det i gjennomsnitt er 8 trær per mål, er λ = 8.

Sannsynligheten for 7 trær per mål, P(X = 7), blir ifølge formelen

${\large \frac{8^{7}}{7!}}e^{-8} \approx 0{,}1396$.

Sannsynligheten for 12 trær per mål, P(X = 12), blir ifølge formelen

${\large \frac{8^{12}}{12!}}e^{-8} \approx 0{,}0481$.

For å finne sannsynligheten for 2 eller færre trær per mål, P(X ≤ 2), må vi summere sannsynlighetene for 2, 1 og 0 trær. Formelen gir

${\large \frac{8^{2}}{2!}}e^{-8} + {\large \frac{8^{1}}{1!}}e^{-8} + {\large \frac{8^{0}}{0!}}e^{-8}\approx 0{,}0107 + 0{,}0027 + 0{,}0003 = 0{,}0138$.

Poissonfordeling i Excel og GeoGebra

I Excel beregner vi poissonsannsynligheter med funksjonen poisson.fordeling. Vi må da oppgi antallet vi ønsker sannsynligheten for, lambda og true for kumulativ sannsynlighet og false for ikke-kumulativ, altså punktsannsynlighet. For eksempel skriver vi henholdsvis =poisson.fordeling(7; 8; usann), =poisson.fordeling(12; 8; usann) og =poisson.fordeling(2; 8; sann) for å gjøre beregningene i eksempel 1.

Tilsvarende funksjon i GeoGebra heter fordelingpoisson. Her er rekkefølgen på parameterne annerledes, vi angir lambda, antall elementer vi ønsker sannsynligheten for, true for kumulativ sannsynlighet og false for punktsannsynlighet. For eksempel skriver vi henholdsvis fordelingpoisson(8, 7, false)fordelingpoisson(8, 12, false) og fordelingpoisson(8, 2, true) for å gjøre beregningene i eksempel 1.

I GeoGebra er det imidlertid mer praktisk å bruke sannsynlighetskalkulatoren som beskrives i artikkelen om statistikk i GeoGebra.

Oppgave 1:

I en vannprøve er det i gjennomsnitt to hoppekreps. Vi forutsetter at forekomsten av hoppekreps er poissonfordelt. Beregn hva sannsynligheten da er for at en annen, like stor vannprøve inneholder

  1. Ingen hoppekreps.
     
  2. Én hoppekreps.
     
  3. To eller flere hoppekreps.

Kontroller svarene i Excel eller GeoGebra.

Se løsningsforslag

Poissonfordelingstabell

I tidligere tider var tabeller et viktig hjelpemiddel til å finne binomiske sannsynligheter, men i datamaskinenes tidsalder har de mindre nytte.

Dette nettstedet har allikevel en poissonfordelingstabell.

Forventning og varians i poissonfordeling

I en poissonfordeling er forventning og varians gitt ved

$\fbox{$\begin{align} E(X) = \lambda \\
Var(X) = \lambda
\end{align}$}$

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons