Forventning og varians

Forventning

I artikkelen om måltall i statistikk ble vi kjent med begrepene gjennomsnitt og standardavvik, og lærte å beregne dette for et datasett, både for hånd og ved hjelp av regneark og GeoGebra.

Eksempel 1:

Vi simulerer 10 000 terningkast i Excel, og beregner gjennomsnitt, X, og utvalgsstandardavvik, S, for antall øyne i simuleringen. Denne simuleringen gjentar vi 10 ganger, og setter resultatene opp i en tabell:

Simulering 1 2 3 4 5 6 7 8 9 10
X 3,520 3,522 3,512 3,500 3,503 3,481 3,501 3,464 3,519 3,500
 S  1,707 1,705 1,709 1,710 1,714 1,710 1,699 1,718 1,702 1,711

I eksempel 1 ser vi at gjennomsnittet i alle simuleringene ser ut til å havne i nærheten av 3,5. Tar vi gjennomsnittet av de 10 gjennomsnittene, får vi X = 3,502. Dette er intuitivt rimelig, for gjennomsnittet av antall øyne vi kan få i kast med en terning er 3,5, og er terningen rettferdig, vil vi forvente at vi, når vi gjør mange nok kast, havner veldig nærme dette gjennomsnittet.

Vi sier at forventningen til dette forsøket er 3,5, noe vi skriver som E(X) = 3,5, der X er en tilfeldig variabel. En tilfeldig (stokastisk) variabel representerer utfallet av en tilfeldig hendelse, der et gitt sett verdier opptrer med gitte sannsynligheter.

Når vi skriver E(X) = 3,5, betyr det at hvis vi genererer X mange ganger, forventer vi at verdiene vil være sentrert rundt 3,5.

Forventningen, E(X), betegnes også gjerne med den greske bokstaven μ.

Vi beregner forventningen til en tilfeldig variabel ved å multiplisere hver mulig verdi av variabelen med sannsynligheten for at denne verdien opptrer, og så summere de resulterende produktene. Hvis X er en tilfeldig variabel med mulige verdier x1, x2, … , xn og tilhørende sannsynligheter p1, p2, … , pn, er forventningen, μ = E(X), gitt ved

$\fbox{Forventning: $ \mu = E(X) = x_1 \cdot p_1 + x_2 \cdot p_2 + \dots + x_n \cdot p_n$}$

Eksempel 2:

Vi skal finne forventningen til antall øyne i et terningkast. Vi kaller «antall øyne» for X, og vet at mulige verdier for X da er 1, 2, 3, 4, 5 og 6. Sannsynligheten for hver av disse verdiene er ${\large \frac{1}{6}}$. Så forventningen blir:

$\mu = E(X) = 1 \cdot {\large \frac{1}{6}} + 2 \cdot {\large \frac{1}{6}} + 3 \cdot {\large \frac{1}{6}} + 4 \cdot {\large \frac{1}{6}} + 5 \cdot {\large \frac{1}{6}} + 6 \cdot {\large \frac{1}{6}} = {\large \frac{21}{6}} = 3{,}5$.

Eksempel 3:

Ved et kast med to terninger kan summen av antall øyne variere fra 2 til 12. Kaller vi summen av antall øyne X, har vi altså følgende mulige verdier for X: x1 = 2, x2 = 3, … , x11 = 12.

I artikkelen om begreper i sannsynlighet fant vi sannsynlighetene for disse verdiene:

$P(X = 2) = P(X = 12) = {\large \frac{1}{36}}$

$P(X = 3) = P(X = 11) = {\large \frac{2}{36}}$

$P(X = 4) = P(X = 10) = {\large \frac{3}{36}}$

$P(X = 5) = P(X = 9) = {\large \frac{4}{36}}$

$P(X = 6) = P(X = 8) = {\large \frac{5}{36}}$

$P(X = 7) = {\large \frac{6}{36}}$

Forventningen blir da:

$\mu = E(X) = 2 \cdot {\large \frac{1}{36}} + 3 \cdot {\large \frac{1}{18}} + 4 \cdot {\large \frac{1}{12}} + 5 \cdot {\large \frac{1}{9}} + 6 \cdot {\large \frac{5}{36}} + 7 \cdot {\large \frac{1}{6}} + 8 \cdot {\large \frac{5}{36}} + 9 \cdot {\large \frac{1}{9}} + 10 \cdot {\large \frac{1}{12}} + 11 \cdot {\large \frac{1}{18}} + 12 \cdot {\large \frac{1}{36}} =$

${\large \frac{ 2 \cdot 1 + 3 \cdot 2 + 4 \cdot 3 + 5 \cdot 4 + 6 \cdot 5 + 7 \cdot 6 + 8 \cdot 5 + 9 \cdot 4 + 10 \cdot 3 + 11 \cdot 2 + 12 \cdot 1}{36}} = {\large \frac{252}{36}} = 7$

Ved kast med to terninger er forventningen til summen 7.

Oppgave 1:

Blant kundene som kommer inn i en klesbutikk, kjøper gjennomsnittlig 30 % ingen ting, 20 % ett plagg, 40 % to plagg og 10 % 3 plagg. Finn forventningen til hvor mange plagg en vilkårlig kunde kjøper.

Se løsningsforslag

Oppgave 2:

I episode 23 av TV-serien Farmen i 2020 går noen av deltakerne på markedet. Der får de tilbud om å spille på et lykkehjul. Hjulet har 16 sektorer:
1 sektor med stjerne, som gir 8 kroner i gevinst.
6 grønne sektorer som gir 4 kroner i gevinst.
5 røde sektorer som gir 2 kroner i gevinst.
4 gule sektorer som ikke gir gevinst.

Lykkehjulet er håndmalt, så sektorene varierer litt i størrelse. Men la oss forenkle, og si at at alle sektorene er like store. Farmen-deltakerne har lite penger. Når innsatsen er 2 kroner, bør de da satse på lykkehjulet?

Se løsningsforslag

Hvis X og Y er to tilfeldige variabler, og k en konstant, gjelder følgende:

$\fbox{$\begin{align}&E(X + Y) = E(X) + E(Y) \\
&E(k) = k \\
&E(k + X) = k + E(X) \\
&E(k \cdot X) = k \cdot E(X) \end{align}$ }$

Forventningen til en sum av to variabler er lik summen av forventningene.

Forventningen til en konstant er lik konstanten selv.

Forventningen til en konstant addert til, eller multiplisert med, en variabel er lik konstanten addert til, eller multiplisert med, forventningen til variabelen.

Eksempel 4:

I eksempel 3 fant vi at μ = E(X) = 7 når X er summen av antall øyne i et kast med to terninger. Men utregningen var omstendelig og forutsatte at vi kjente sannsynlighetene for alle 11 mulige verdier av X.

Siden vi vet at E(Y) = 3,5 når Y er antall øyne i kast med én terning, kan vi ved hjelp av regelen for forventningen til en sum av to variabler i stedet regne det ut som μE(X) = E(Y + Y) = E(Y) + E(Y) = 3,5 + 3,5 = 7.

Hvis vi skal beregne forventningen til en funksjon av en tilfeldig variabel, har vi at

$\fbox{$E[f(X)] = f(x_1) \cdot p_1 + f(x_2) \cdot p_2 + \dots + f(x_n) \cdot p_n$}$

Vi beregner altså forventningen til en funksjon av X ved å, én for én sette de mulige verdiene til X inn i funksjonsuttrykket, multiplisere med den tilhørende sannsynligheten, og summere resultatet.

Varians

I artikkelen om måltall i statistikk lærte vi å beregne standardavviket til et datasett, noe som var et mål på spredningen fra gjennomsnittet. Vi beregnet da først datasettets varians, og tok så kvadratrota av variansen. Vi skilte på utvalgsstandardavvik, som vi betegnet med S, og populasjonsstandardavvik, som vi betegnet med σ.

Nå skal vi se at vi også kan beregne varians og standardavvik til en tilfeldig variabel, X. På samme måte som variansen til et datasett uttrykker graden av spredning i dataene, er variansen til en tilfeldig variabel et mål på hvor langt fra forventningen de enkelte verdiene kan ventes å komme.

Hvis variabelens forventning er μ, er variansen definert som

$\fbox{Varians: $Var(X) = E[(X – \mu)^2\Big)$}$

Variansen er altså forventningen til kvadratet av avstanden mellom en verdi, X, og forventningen, μ

Kvadreringen gjør at vi bare får positive verdier, så variansen er et tall som er større eller lik 0. Hvis variansen er 0, forventes alle verdiene å havne nøyaktig på forventningen.

Vi kjenner metoden igjen fra artikkelen om måltall i statistikk, der vi beregnet kvadratet av avstanden mellom en verdi i et datasett og datasettets gjennomsnitt.

Eksempel 5:

I eksempel 2 fant vi at forventningen til antall øyne i kast med en terning er μ = 3,5. Nå skal vi finne variansen.

Variansen er gitt ved Var(X) = E[(X – 3,5)2]. For å beregne E[(X – 3,5)2], må vi bruke formelen for å beregne E[f(X)]. Mulige verdier for X er antall øyne, altså 1, 2, 3, 4, 5 og 6, som alle har sannsynlighet ${\large \frac{1}{6}}$. Siden alle sannsynlighetene er like, forenkler vi utregningen ved å sette ${\large \frac{1}{6}}$ utenfor parenes, og får

$Var(x) = [(1 – 3{,}5)^2 + (2 – 3{,}5)^2 + (3 – 3{,}5)^2 + (4 – 3{,}5)^2 + (5 – 3{,}5)^2 + (6 – 3{,}5)^2] \cdot {\large \frac{1}{6}} =$

$[6{,}25 + 2{,}25 + 0{,}25 + 0{,}25 + 2{,}25 + 6{,}25] \cdot {\large \frac{1}{6}} \approx 2{,}917$.

Standardavviket er kvadratrota av variansen, og betegnes med σ:

$\fbox{Standardavvik: $\sigma = \sqrt{Var(X)}$}$

Vi kan altså beregne σ ikke bare for en populasjon, som i artikkelen om måltall i statistikk, men også for en teoretisk sannsynlighetsfordeling. σ kalles derfor ofte det teoretiske standardavviket.

Det teoretiske standardavviket for terningkast i eksempel 5 blir om lag $\sigma \approx \sqrt{2{,}917} \approx 1{,}708$. I eksempel 1 beregnet vi utvalgsstandardavvik i 10 forsøk med 10 000 terningkast, gjennomsnittet av disse blir om lag 1,709. Så vi ser at utvalgsstandardavviket basert på mange forsøk havner veldig nærme det teoretiske standardavviket.

Formelen for å beregne varians kan være tungvint å bruke. Ved hjelp av litt algebra og regnereglene for forventning kan den omformes til:

$\fbox{Varians: $Var(X) = E(X^2) – \mu^2 $}$

Vi kan altså finne variansen ved å ta forventningen til kvadratet av variabelen og trekke fra kvadratet av forventningen. På denne formen er det vanskelig å se hva variansen egentlig representerer, men den er mer praktisk i bruk.

Eksempel 6:

Vi gjør beregningen i eksempel 5 om igjen med den nye formelen for å finne varians:

$Var(X) = [1^2 + 2^2 + 3^2 + 4^2 + 5^2 + 6^2] \cdot {\large \frac{1}{6}} – 3{,}5^2 = 91 \cdot {\large \frac{1}{6}} – 12{,}25 \approx 2{,}917$.

Som er det samme vi fikk i eksempel 5.

Eksempel 7:

Vi flytter to av øynene på en terning fra treeren til fireren, slik at den får to sider med 1 og 6, og ingen med 3 og 4. Vi har da sannsynlighetsfordelingen

$P(1) = P(6) = {\large \frac{2}{6}}$

$P(2) = P(5) = {\large \frac{1}{6}}$

$P(3) = P(4) = 0$

Så skal vi beregne forventning og varians til antall øyne når vi kaster terningen:

$\mu = E(X) = 1 \cdot {\large \frac{2}{6}} + 2 \cdot {\large \frac{1}{6}} + 3 \cdot 0 + 4 \cdot 0 + 5 \cdot {\large \frac{1}{6}} + 6 \cdot {\large \frac{2}{6}} = {\large \frac{21}{6}} = 3{,}5$.

$E(X^2) = 1^2 \cdot {\large \frac{2}{6}} + 2^2 \cdot {\large \frac{1}{6}} + 3^2 \cdot 0 + 4^2 \cdot 0 + 5^2 \cdot {\large \frac{1}{6}} + 6^2 \cdot {\large \frac{2}{6}} – 3{,}5^2 = {\large \frac{103}{6}}$.

$Var(X)= E(X^2) – \mu^2 = {\large \frac{103}{6}} – 3,5^2 \approx 4{,}917$.

I forhold til en vanlig terning ser vi at forventningen er den samme, nemlig 3,5. Det er naturlig, for vi har jo ikke endret antall øyne totalt. Variansen har derimot økt fra om lag 2,197 til 4,917. Dette skyldes at vi har flyttet sannsynlighetene for 3 og 4 til 1 og 6, slik at spredningen er blitt større.

Oppgave 3:

Kundene som kommer inn i en butikk kjøper X enheter av en vare. 20 % av kundene kjøper ingen ting, 20 % av kundene kjøper én vare, og 60 % av kundene kjøper to varer. Finn forventning, varians og standardavvik til X.

Se løsningsforslag

Hvis X er en tilfeldig variabel, og k en konstant, gjelder følgende:

$\fbox{$\begin{align} &Var(k) = 0 \\
&Var(k + X) = Var(X) \\
&Var(k \cdot X) = k^2 \cdot Var(X) \end{align}$ }$

Variansen til en konstant er lik 0, naturlig nok, en konstant varierer jo ikke.

Variansen til en konstant addert til en variabel er lik variansen til variabelen. Det er rimelig, for å addere en konstant gir ikke økt spredning, alle verdier forskyves bare.

Variansen til en konstant multiplisert med en variabel er lik kvadratet av konstanten multiplisert med variansen til variabelen. At konstanten kvadreres skyldes at varians er et mål for kvadratet av spredning.

Eksempel 8:

Vi har en terning der antall øyne går fra 2 til 7 i stedet for fra 1 til 6. Terningen er ellers normal, med lik sannsynlighet for å få 2, 3, 4, 5, 6 og 7.

Forventningen til antall øyne blir

$\mu = E(X) = (2 + 3 + 4 + 5 + 6 + 7)\cdot {\large \frac{1}{6}} = {\large \frac{27}{6}} = 4{,}5$.

Og vi får

$E(X^2) = (2^2 + 3^2 + 4^2 + 5^2 + 6^2 + 7^2)\cdot {\large \frac{1}{6}} = {\large \frac{139}{6}}$.

$Var(X) = E(X^2) – \mu^2 = {\large \frac{139}{6}} – 4{,}5^2 \approx 2{,}917$

Sammenliknet med en vanlig terning har forventningen økt med 1, mens variansen er den samme. Det som skiller de to terningene fra hverandre, er at alle øyne har fått lagt til en konstant på k = 1, så dette er i tråd med reglene om å addere en konstant til en tilfeldig variabel:

E(k + X) = k + E(X).

og

Var(k + X) = Var(X).

Oppgave 4:

Vi har en terning der antall øyne er multiplisert med 2. Terningen er ellers normal, med lik sannsynlighet for å få 2, 4, 6, 8, 10 og 12.

Bruk samme metode som i eksempel 8 til å beregne μ = E(X) og Var(X) for denne terningen. Avgjør om resultatet er i tråd med reglene for forventning og varians til en variabel multiplisert med en konstant.

Se løsningsforslag

De tre reglene om varians og konstanter kan sammenfattes i én regel, der X er en tilfeldig variabel, og a og b konstanter:

$\fbox{$Var(a + b \cdot X) = b^2 \cdot Var(X)$ }$

Dersom X og Y er to tilfeldige variabler som er uavhengige, har vi også at

$\fbox{$Var(X + Y) = Var(X) + Var(Y)$}$

Dersom X og Y ikke er uavhengige, har vi at

$\fbox{$Var(X + Y) = Var(X) + Var(Y) + 2 \cdot Cov(X, Y)$}$

Cov betyr kovarians, og er et uttrykk for hvor sterkt X og Y samvarierer. Dersom X og Y er uavhengige, slik at det ikke er samvariasjon, blir Cov(X, Y) = 0, og vi står igjen med den forenklede varianten for uavhengige variabler. Begrepet kovarians blir presentert i artikkelen om å sammenlikne datasett.

Kilder

  • Hagen, P.C. (2000), Innføring i statistikk og sannsynlighetsregning. Cappelen Akademisk
  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk