Løsningsforslag, grunnleggende statistikk

Introduksjon til statistikk

Oppgave 1:

Vi påstår at de fleste mennesker har mer enn gjennomsnittlig antall armer og spør om dette er korrekt, og hva i så fall problemet med denne påstanden er.

Påstanden er statistisk korrekt fordi ingen har mer enn 2 armer, men noen mangler én arm eller begge armene. Det betyr at gjennomsnittlig antall armer er litt under 2, og alle som har 2 armer ligger derved over gjennomsnittet. Problemet er at gjennomsnittet i dette tilfellet ikke gir noe godt bilde av virkeligheten. Median, som vi diskuterer i artikkelen om måltall i statistikk vil være mye bedre å bruke her.

Tilbake til oppgaven

Grafiske presentasjoner

Oppgave 1:

Basert på disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2, skal vi lage:

1:
En frekvenstabell som viser fordeling av karakterene, inkludert relativ frekvens i prosent.
Vi teller opp, og finner ut at karakterene fordeler seg slik: 4 enere, 5 toere, 5 treere, 7 firere, 3 femmere og 1 sekser. Totalt er det 25 karakterer, så de relative frekvensene blir:

enere ${\large \frac{4}{25}} = 0{,}16$, altså 16 %
toere ${\large \frac{5}{25}} = 0{,}20$, altså 20 %
treere ${\large \frac{5}{25}} = 0{,}20$, altså 20 %
firere ${\large \frac{7}{25}} = 0{,}28$, altså 28 %
femmere ${\large \frac{3}{25}} = 0{,}12$, altså 12 %
seksere ${\large \frac{1}{25}} = 0{,}04$, altså 4 %

Så frekvenstabellen blir slik:

Karakter 1 2 3 4 5 6
Frekvens 4 5 5 7 3 1
Relativ frekvens 16 % 20 % 20 % 28 % 12 % 4 %

2:
En frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6, inkludert relativ frekvens i prosent.
Frekvensene og de relative frekvensene finner vi i tabellen over. 1-2: 4 + 5 = 9 og 16 % + 20 % = 36 %. 3-4: 5 + 7 = 12 og 24 % + 24 % = 48 %. 5-6: 3 + 1 = 4 og 12 % + 4 % = 16 %. Frekvenstabellen blir seende slik ut

Karakter 1-2 3-4 5-6
Frekvens 9 12 4
Relativ frekvens 36 % 48 % 16 %

3:
Et søylediagram som illustrerer karakterfordelingen i punkt 2.
Vi åpner et regneark, for eksempel Excel og legger inn følgende data:

«1-2» 9
«3-4» 12
«5-6» 4

(Vi har brukt anførselstegn for å unngå at regnearket tolker teksten i venstre kolonne som datoer. Alternativt kunne vi formatert kolonna som «tekst» før vi skrev inn.)
Så markerer vi cellene med data, velger «Sett inn» – «Stolpe», velger stolpetype, og får et stolpediagram likt det under:

Søylediagram grupperte karaktererdata

Tilbake til oppgaven

Datainnsamling

Oppgave 1:

Du ønsker å finne ut hvor populært kino er i forhold til å se film hjemme, går i byen en kveld og intervjuer tilfeldige forbipasserende.

Naturligvis er det liten grunn til å tro at dette utvalget er representativt. Det er jo mer sannsynlig at du treffer kinogjengerne på byen enn de som sitter hjemme og ser på film.

Tilbake til oppgaven

Måltall i statistikk

Oppgave 1:

6 tellinger av busspassasjerer har gitt henholdsvis 20, 34, 16, 27, 8 og 9 passasjerer, og vi skal beregne gjennomsnitt for passasjertallet.

Gjennomsnittet blir $\overline X = {\large \frac{20 + 34 + 16 + 27 + 8 + 9}{6}} = 19$.

Gjennomsnittlig passasjertall er 19.

I et regneark som Excel legger vi inn dataene i hver sin celle, la oss si at det er A1 … A6. Så setter vi markøren i cella der vi vil ha utført beregningen, og skriver =gjennomsnitt(A1: A6). Regnearket beregner gjennomsnittet til 19.

I GeoGebra kan vi gjøre tilsvarende med funksjonen gsnitt, vi kan også skrive gsnitt(20, 34, 16, 27, 8, 9) direkte i inntastingsfeltet.

Tilbake til oppgaven

Oppgave 2:

Vi skal finne median og typetall blant karakterene 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Vi sorterer først karakterene i stigende rekkefølge: 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6.

Vi har 25 elementer, så midtelementet blir element nummer ${\large \frac{1 + 25}{2}} = 13$. Det trettende elementet har verdien 3, så medianen er 3.

4 forekommer flest ganger, så typetallet er 4.

Tilbake til oppgaven

Oppgave 3:

Vi vet at 20, 34, 16, 27, 8 og 9 busspassasjerer gir et gjennomsnitt på 19 passasjerer, og skal beregne standardavviket.

Summen av de kvadratiske avstandene blir

(20 − 19)2 + (34 − 19)2 + (16 − 19)2 + (27 − 19)2 + (8 − 19)2 + (9 − 19)2 = 1 + 225 + 9 + 64 + 121 + 100 = 520.

Det er 6 målinger, så vi skal dividere 520 på 6 − 1 = 5 for å finne variansen. Så tar vi kvadratrota og får $\sqrt {\large \frac{520}{5}} \approx 10{,}20$. Standardavviket til passasjertallet er ca. 10,20 passasjerer.

I et regneark som Excel legger vi inn dataene i hver sin celle, la oss si at det er A1 … A6. Så setter vi markøren i cella der vi vil ha utført beregningen og skriver =stdav.s(A1: A6). Regnearket beregner standardavviket til om lag 10,20.

I GeoGebra kan vi gjøre tilsvarende med funksjonen stavv, vi kan også skrive stavv(20, 34, 16, 27, 8, 9) direkte i inntastingsfeltet.

Tilbake til oppgaven

Oppgave 4:

Vi skal vurdere hvordan det påvirker gjennomsnitt og standardavvik for antall busspassasjerer hvis det på bussen med færrest passasjerer i oppgave 4 er 2 i stedet for 8 passasjerer, og på bussen med flest passasjerer 40 i stedet for 34.

Dette betyr 6 færre passasjerer på én buss, og 6 flere på en annen. Senterpunktet blir da det samme, så gjennomsnittet endrer seg ikke. Vi får

$\overline X = {\large \frac{20 + 40 + 16 + 27 + 2 + 9}{6}} = 19$.

Spredningen øker derimot, så standardavviket øker.

Summen av de kvadratiske avstandene blir

(20 − 19)2 + (40 − 19)2 + (16 − 19)2 + (27 − 19)2 + (8 − 19)2 + (9 − 19)2 = 1 + 441 + 9 + 64 + 289 + 100 = 904.

Og standardavviket blir

$\sqrt {\large \frac{904}{5}} \approx 13{,}45$.

Tilbake til oppgaven

Oppgave 5:

Vi skal finne og tolke variasjonsbredden og kvartilbredden til datasettet 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14, som representerer antall minutter et tog er forsinket.

Vi sorterer først dataene i stigende rekkefølge: 0, 0, 2, 5, 6, 8, 10, 14, 14, 15, 20, 23, 25, 27, 29, 29, 30, 30, 125.

Variasjonsbredden er avstanden mellom største og laveste verdi, 125 − 0 = 125.

Datasettet har 19, verdier, så første kvartil blir verdien til element nummer (1 + 19) · 0,25 = 5, altså 6. Tredje kvartil blir verdien til element nummer (1 + 19) · 0,75 = 15, altså 29.

Kvartilbredden blir 29 − 6 = 23.

Basert på kvartilbredden ser vi at forsinkelsene normalt varierer med 23 minutter, mellom 6 og 29 minutter.

Ser vi på variasjonsbredden, er den antakelig ikke representativ på grunn av enkeltverdien 125, som ligger langt over de andre verdiene, og kanskje er forårsaket av en spesiell hendelse. På den annen side ser vi at toget noen ganger faktisk ikke er forsinket. 

Tilbake til oppgaven

Forventning og varians

Oppgave 1:

Vi skal finne forventningen til hvor mange plagg en kunde kjøper i en klesbutikk når 30 % ikke kjøper noen ting, 20 % kjøper ett plagg, 40 % kjøper to plagg og 10 % kjøper 3 plagg.

Vi kaller antall kjøpte plagg for X.

At 30 % ikke kjøper noen ting, kan vi da uttrykke som P(X = 0) = 0,3.

At 20 % kjøper ett plagg, kan vi da uttrykke som P(X = 1) = 0,2.

At 40 % kjøper to plagg, kan vi da uttrykke som P(X = 2) = 0,4.

At 10 % kjøper tre plagg, kan vi da uttrykke som P(X = 3) = 0,1.

Forventningen til antall kjøpte plagg finner vi ved å multiplisere hver variant av antall kjøpte plagg med den tilhørende sannsynligheten, og summere produktene.

Så vi får μ = E(X) = 0 · 0,3 + 1 · 0,2 + 2 · 0,4 + 3 · 0,1 = 1,3.

En vilkårlig kunde kan forventes å kjøpe 1,3 plagg.

Tilbake til oppgaven

Oppgave 2:

Vi skal avgjøre om Farmen-deltakere med lite penger bør satse 2 kroner på et lykkehjul med 16 sektorer, der det er åtte kroners gevinst på 1 sektor, fire kroners gevinst på 6 sektorer, to kroners gevinst på 5 sektorer, og ingen gevinst på 4 sektorer. Vi kan anta at alle sektorene er like store, det vil si at sannsynligheten for at hjulet stopper i en vilkårlig sektor er ${\large \frac{1}{16}}$.

Forventet gevinst finner vi ved å multiplisere gevinsten i hver sektor med sannsynligheten for at hjulet stopper i den sektoren, og addere produktene:

$\mu = E(X) = 8 \cdot {\large \frac{1}{16}} + 4 \cdot {\large \frac{6}{16}} + 2 \cdot {\large \frac{5}{16}} + 0 \cdot {\large \frac{4}{16}} = {\large \frac{42}{16}} = {\large \frac{21}{8}} \approx 2{,}63$.

Forventet gevinst er høyere enn innsatsen på 2 kroner, så det vil i det lange løp lønne seg å spille på lykkehjulet. En annen sak er at sjansen for å tape innsatsen er ${\large \frac{4}{16}} = {\large \frac{1}{4}}$. Så med uflaks i de første rundene og lite penger er det jo en risiko for å bli blakk før en får gevinst.

(Farmen-deltakerne tapte i første runde, men spilte videre, og ga seg med 4 kroner i pluss.)

Tilbake til oppgaven

Oppgave 3:

Vi skal finne forventning, varians og standardavvik til antall varer en kunde kjøper når 20 % ikke kjøper noen ting, 20 % kjøper én vare og 60 % kjøper to varer. Antall kjøpte varer betegnes med X. Vi får 

μ = E(X) = 0 · 0,2 + 1 · 0,2 + 2 · 0,6 = 1,4

E(X2) = 02 · 0,2 + 12 · 0,2 + 22 · 0,6 = 2,6

Var(X) = E(X2) − μ2 = 2,6 − (1,4)2 = 0,64

$\sigma = \sqrt{Var(X)} = \sqrt{0{,}64} = 0{,}8$

Forventningen er 1,4, variansen 0,64 og standardavviket 0,8.

Tilbake til oppgaven

Oppgave 4:

Vi har en terning der antall øyne er multiplisert med 2, med lik sannsynlighet for å få 2, 4, 6, 8, 10 og 12. Vi skal så beregne μ = E(X) og Var(X) og sjekke om dette er i tråd med reglene for forventning og varians til en variabel multiplisert med en konstant.

Vi får:

$\mu = E(X) = (2 + 4 + 6 + 8 + 10 + 12)\cdot {\large \frac{1}{6}} = {\large \frac{42}{6}} = 7$.

Og vi får

$E(X^2) = (2^2 + 4^2 + 6^2 + 8^2 + 10^2 + 12^2)\cdot {\large \frac{1}{6}} = {\large \frac{364}{6}}$.

$Var(X) = E(X^2) − \mu^2 = {\large \frac{364}{6}} − 7^2 \approx 11{,}667$

De tilsvarende verdiene for en vanlig terning er E(X) = 3,5 og Var(X) ≈ 2,917. 

Vi ser at dette er i tråd med reglene om å multiplisere en konstant med en tilfeldig variabel:

E(k · X) = k · E(X) fordi E(2 · X) = 7 = 2 · E(X) = 2 · 3,5.

og

Var(k · X) = k2 · Var(X) fordi Var(2 · X) ≈ 11,667 ≈ 22 · Var(X) ≈ 22 · 2,917.

Tilbake til oppgaven