Løsningsforslag, statistikk

Introduksjon til statistikk

Oppgave 1:

Vi påstår at de fleste mennesker har mer enn gjennomsnittlig antall armer og spør om dette er korrekt, og hva i så fall problemet med denne påstanden er.

Påstanden er statistisk korrekt fordi ingen har mer enn 2 armer, men noen mangler én arm eller begge armene. Det betyr at gjennomsnittlig antall armer er litt under 2, og alle som har 2 armer ligger derved over gjennomsnittet. Problemet er at gjennomsnittet i dette tilfellet ikke gir noe godt bilde av virkeligheten. Median, som vi skal lære om i artikkelen om måltall i statistikk vil være mye bedre å bruke her.

Tilbake til oppgaven

Grafiske presentasjoner

Oppgave 1:

Basert på disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2, skal vi lage:

1:
En frekvenstabell som viser fordeling av karakterene, inkludert relativ frekvens i prosent.
Vi teller opp, og finner ut at karakterene fordeler seg slik: 4 enere, 5 toere, 5 treere, 7 firere, 3 femmere og 1 sekser. Totalt er det 25 karakterer, så de relative frekvensene blir:

enere ${\large \frac{4}{25}} = 0{,}16$, altså 16 %
toere ${\large \frac{5}{25}} = 0{,}20$, altså 20 %
treere ${\large \frac{5}{25}} = 0{,}20$, altså 20 %
firere ${\large \frac{7}{25}} = 0{,}28$, altså 28 %
femmere ${\large \frac{3}{25}} = 0{,}12$, altså 12 %
seksere ${\large \frac{1}{25}} = 0{,}04$, altså 4 %

Så frekvenstabellen blir slik:

Karakter 1 2 3 4 5 6
Frekvens 4 5 5 7 3 1
Relativ frekvens 16 % 20 % 20 % 28 % 12 % 4 %

2:
En frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6, inkludert relativ frekvens i prosent.
Frekvensene og de relative frekvensene finner vi i tabellen over. 1-2: 4 + 5 = 9 og 16 % + 20 % = 36 %. 3-4: 5 + 7 = 12 og 24 % + 24 % = 48 %. 5-6: 3 + 1 = 4 og 12 % + 4 % = 16 %. Frekvenstabellen blir seende slik ut

Karakter 1-2 3-4 5-6
Frekvens 9 12 4
Relativ frekvens 36 % 48 % 16 %

3:
Et søylediagram som illustrerer karakterfordelingen i punkt 2.
Vi åpner et regneark, for eksempel Excel og legger inn følgende data:

«1-2» 9
«3-4» 12
«5-6» 4

(Vi har brukt anførselstegn for å unngå at regnearket tolker teksten i venstre kolonne som datoer. Alternativt kunne vi formatert kolonna som «tekst» før vi skrev inn.)
Så markerer vi cellene med data, velger «Sett inn» – «Stolpe», velger stolpetype, og får et stolpediagram likt det under:

Søylediagram grupperte karaktererdata

Tilbake til oppgaven

Måltall i statistikk

Oppgave 1:

6 tellinger av busspassasjerer har gitt henholdsvis 20, 34, 16, 27, 8 og 9 passasjerer, og vi skal beregne gjennomsnitt for passasjertallet.

Gjennomsnittet blir $\overline X = {\large \frac{20 + 34 + 16 + 27 + 8 + 9}{6}} = 19$.

Gjennomsnittlig passasjertall er 19.

I et regneark som Excel legger vi inn dataene i hver sin celle, la oss si at det er A1 … A6. Så setter vi markøren i cella der vi vil ha utført beregningen, og skriver =gjennomsnitt(A1: A6). Regnearket beregner gjennomsnittet til 19.

I GeoGebra kan vi gjøre tilsvarende med funksjonen gsnitt, vi kan også skrive gsnitt(20, 34, 16, 27, 8, 9) direkte i inntastingsfeltet.

Tilbake til oppgaven

Oppgave 2:

Vi skal finne median og typetall blant karakterene 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Vi sorterer først karakterene i stigende rekkefølge: 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6.

Vi har 25 elementer, så midtelementet blir element nummer ${\large \frac{1 + 25}{2}} = 13$. Det trettende elementet har verdien 3, så medianen er 3.

4 forekommer flest ganger, så typetallet er 4.

Tilbake til oppgaven

Oppgave 3:

Vi vet at 20, 34, 16, 27, 8 og 9 busspassasjerer gir et gjennomsnitt på 19 passasjerer, og skal beregne standardavviket.

Summen av de kvadratiske avstandene blir

(20 − 19)2 + (34 − 19)2 + (16 − 19)2 + (27 − 19)2 + (8 − 19)2 + (9 − 19)2 = 1 + 225 + 9 + 64 + 121 + 100 = 520.

Det er 6 målinger, så vi skal dividere 520 på 6 − 1 = 5 for å finne variansen. Så tar vi kvadratrota og får $\sqrt {\large \frac{520}{5}} \approx 10{,}20$. Standardavviket til passasjertallet er ca. 10,20 passasjerer.

I et regneark som Excel legger vi inn dataene i hver sin celle, la oss si at det er A1 … A6. Så setter vi markøren i cella der vi vil ha utført beregningen og skriver =stdav.s(A1: A6). Regnearket beregner standardavviket til om lag 10,20.

I GeoGebra kan vi gjøre tilsvarende med funksjonen stavv, vi kan også skrive stavv(20, 34, 16, 27, 8, 9) direkte i inntastingsfeltet.

Tilbake til oppgaven

Oppgave 4:

Vi skal vurdere hvordan det påvirker gjennomsnitt og standardavvik for antall busspassasjerer hvis det på bussen med færrest passasjerer i oppgave 4 er 2 i stedet for 8 passasjerer, og på bussen med flest passasjerer 40 i stedet for 34.

Dette betyr 6 færre passasjerer på én buss, og 6 flere på en annen. Senterpunktet blir da det samme, så gjennomsnittet endrer seg ikke. Vi får

$\overline X = {\large \frac{20 + 40 + 16 + 27 + 2 + 9}{6}} = 19$.

Spredningen øker derimot, så standardavviket øker.

Summen av de kvadratiske avstandene blir

(20 − 19)2 + (40 − 19)2 + (16 − 19)2 + (27 − 19)2 + (8 − 19)2 + (9 − 19)2 = 1 + 441 + 9 + 64 + 289 + 100 = 904.

Og standardavviket blir

$\sqrt {\large \frac{904}{5}} \approx 13{,}45$.

Tilbake til oppgaven

Oppgave 5:

Vi skal finne og tolke variasjonsbredden og kvartilbredden til datasettet 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14, som representerer antall minutter et tog er forsinket.

Vi sorterer først dataene i stigende rekkefølge: 0, 0, 2, 5, 6, 8, 10, 14, 14, 15, 20, 23, 25, 27, 29, 29, 30, 30, 125.

Variasjonsbredden er avstanden mellom største og laveste verdi, 125 − 0 = 125.

Datasettet har 19, verdier, så første kvartil blir verdien til element nummer (1 + 19) · 0,25 = 5, altså 6. Tredje kvartil blir verdien til element nummer (1 + 19) · 0,75 = 15, altså 29.

Kvartilbredden blir 29 − 6 = 23.

Basert på kvartilbredden ser vi at forsinkelsene normalt varierer med 23 minutter, mellom 6 og 29 minutter.

Ser vi på variasjonsbredden, er den antakelig ikke representativ på grunn av enkeltverdien 125, som ligger langt over de andre verdiene, og kanskje er forårsaket av en spesiell hendelse. På den annen side ser vi at toget noen ganger faktisk ikke er forsinket. 

Tilbake til oppgaven

Forventning og varians

Oppgave 1:

Vi skal finne forventningen til hvor mange plagg en kunde kjøper i en klesbutikk når 30 % ikke kjøper noen ting, 20 % kjøper ett plagg, 40 % kjøper to plagg og 10 % kjøper 3 plagg.

Vi kaller antall kjøpte plagg for X.

At 30 % ikke kjøper noen ting, kan vi da uttrykke som P(X = 0) = 0,3.

At 20 % kjøper ett plagg, kan vi da uttrykke som P(X = 1) = 0,2.

At 40 % kjøper to plagg, kan vi da uttrykke som P(X = 2) = 0,4.

At 10 % kjøper tre plagg, kan vi da uttrykke som P(X = 3) = 0,1.

Forventningen til antall kjøpte plagg finner vi ved å multiplisere hver variant av antall kjøpte plagg med den tilhørende sannsynligheten, og summere produktene.

Så vi får μ = E(X) = 0 · 0,3 + 1 · 0,2 + 2 · 0,4 + 3 · 0,1 = 1,3.

En vilkårlig kunde kan forventes å kjøpe 1,3 plagg.

Tilbake til oppgaven

Oppgave 2:

Vi skal avgjøre om Farmen-deltakere med lite penger bør satse 2 kroner på et lykkehjul med 16 sektorer, der det er åtte kroners gevinst på 1 sektor, fire kroners gevinst på 6 sektorer, to kroners gevinst på 5 sektorer, og ingen gevinst på 4 sektorer. Vi kan anta at alle sektorene er like store, det vil si at sannsynligheten for at hjulet stopper i en vilkårlig sektor er ${\large \frac{1}{16}}$.

Forventet gevinst finner vi ved å multiplisere gevinsten i hver sektor med sannsynligheten for at hjulet stopper i den sektoren, og addere produktene:

$\mu = E(X) = 8 \cdot {\large \frac{1}{16}} + 4 \cdot {\large \frac{6}{16}} + 2 \cdot {\large \frac{5}{16}} + 0 \cdot {\large \frac{4}{16}} = {\large \frac{42}{16}} = {\large \frac{21}{8}} \approx 2{,}63$.

Forventet gevinst er høyere enn innsatsen på 2 kroner, så det vil i det lange løp lønne seg å spille på lykkehjulet. En annen sak er at sjansen for å tape innsatsen er ${\large \frac{4}{16}} = {\large \frac{1}{4}}$. Så med uflaks i de første rundene og lite penger er det jo en risiko for å bli blakk før en får gevinst.

(Farmen-deltakerne tapte i første runde, men spilte videre, og ga seg med 4 kroner i pluss.)

Tilbake til oppgaven

Oppgave 3:

Vi skal finne forventning, varians og standardavvik til antall varer en kunde kjøper når 20 % ikke kjøper noen ting, 20 % kjøper én vare og 60 % kjøper to varer. Antall kjøpte varer betegnes med X. Vi får 

μ = E(X) = 0 · 0,2 + 1 · 0,2 + 2 · 0,6 = 1,4

E(X2) = 02 · 0,2 + 12 · 0,2 + 22 · 0,6 = 2,6

Var(X) = E(X2) − μ2 = 2,6 − (1,4)2 = 0,64

$\sigma = \sqrt{Var(X)} = \sqrt{0{,}64} = 0{,}8$

Forventningen er 1,4, variansen 0,64 og standardavviket 0,8.

Tilbake til oppgaven

Oppgave 4:

Vi har en terning der antall øyne er multiplisert med 2, med lik sannsynlighet for å få 2, 4, 6, 8, 10 og 12. Vi skal så beregne μ = E(X) og Var(X) og sjekke om dette er i tråd med reglene for forventning og varians til en variabel multiplisert med en konstant.

Vi får:

$\mu = E(X) = (2 + 4 + 6 + 8 + 10 + 12)\cdot {\large \frac{1}{6}} = {\large \frac{42}{6}} = 7$.

Og vi får

$E(X^2) = (2^2 + 4^2 + 6^2 + 8^2 + 10^2 + 12^2)\cdot {\large \frac{1}{6}} = {\large \frac{364}{6}}$.

$Var(X) = E(X^2) − \mu^2 = {\large \frac{364}{6}} − 7^2 \approx 11{,}667$

De tilsvarende verdiene for en vanlig terning er E(X) = 3,5 og Var(X) ≈ 2,917. 

Vi ser at dette er i tråd med reglene om å multiplisere en konstant med en tilfeldig variabel:

E(k · X) = k · E(X) fordi E(2 · X) = 7 = 2 · E(X) = 2 · 3,5.

og

Var(k · X) = k2 · Var(X) fordi Var(2 · X) ≈ 11,667 ≈ 22 · Var(X) ≈ 22 · 2,917.

Tilbake til oppgaven

Diskrete sannsynlighetsfordelinger

Oppgave 1:

X betegner antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6, og vi skal beregne de tre sannsynlighetene under, både ved bruk av binomialformelen

$P(X = x) = {\large \binom{n}{x}} p^x (1 − p)^{(n − x)}$

og tabellen over binomisk fordeling.

Her er p = 0,6 siden sannsynligheten for kron er 0,6, og n = 8 fordi vi kaster 8 ganger.

  1. P(X = 4)
     
    Formel:
    ${\large \binom{8}{4}} (0{,}6)^4 (1 − 0{,}6)^{(8 − 4)} \approx 0{,}2322$
     
    Tabell:
    $P(X \le 4) − P(X \le 3) \approx 0{,}4059 − 0{,}1737 = 0{,}2322$. Markert med rødt i bildet under.
     
  2. P(X ≤ 2)
     
    Formel:
    Dette er summen av sannsynlighetene for at X er 0, 1 eller 2:
    $P(X = 0) + P(X = 1) + P(X = 2) =$

    ${\large \binom{8}{0}} (0{,}6)^0 (1 – 0{,}6)^{(8 \text{ – } 0)} + {\large \binom{8}{1}} (0{,}6)^1 (1 – 0{,}6)^{(8 \text{ – } 1)} + {\large \binom{8}{2}} (0{,}6)^2 (1 – 0{,}6)^{(8 \text{ – } 2)} \approx 0{,}0007 + 0{,}0079 + 0{,}0413 = 0{,}0498$
     
    Tabell:
    $P(X \le 2) = 0{,}0498$. Markert med blått i bildet under.
     

  3. P(X ≤ 6)
     
    Formel:
    I stedet for å summere sannsynlighetene for at X er 0, 1, 2, 3, 4, 5 eller 6, er det enklere å benytte seg av den komplementære hendelsen, X > 6, altså at X er 7 eller 8.
    $P(X \le 6) = 1 − P(X > 6) = 1 − P(X = 7) − P(X = 8) =$

    $1 – {\large \binom{8}{7}} (0{,}6)^7 (1 – 0{,}6)^{(8 \text{ – } 7)} – {\large \binom{8}{8}} (0{,}6)^8 (1 – 0{,}6)^{(8 \text{ – } 8)} \approx 1 – 0{,}0896 – 0{,}0168 = 0{,}8936$
     
    Tabell:
    $P(X \le 6) = 0{,}8936$. Markert med oransje i bildet under.

Eksempler på oppslag i binomisk tabell

For å kontrollere svarene i Excel, skriver vi henholdsvis

    1. =binom.fordeling.n(4; 8; 0,6; usann)
       
    2. =binom.fordeling.n(2; 8; 0,6; sann)
       
    3. =binom.fordeling.n(6; 8; 0,6; sann)

For å kontrollere svarene i GeoGebra, velger vi «Innstillinger» – «Avrunding» – «4 desimaler» og skriver henholdsvis

    1. FordelingBinomial(8, 0.6, 4, false)
       
    2. FordelingBinomial(8, 0.6, 2, true)
       
    3. FordelingBinomial(8, 0.6, 6, true)

Så skal vi vurdere om P(X = 7) er større, lik, eller lavere enn P(X = 1).

P(X = 7) tilsvarer «7 kron», mens P(X = 1) tilsvarer «7 mynt». Siden kron har høyere sannsynlighet enn mynt, vil en overvekt av kron være mer sannsynlig enn en tilsvarende overvekt av mynt, så P(X = 7) > P(X = 1). Hadde sannsynlighetene for mynt og kron vært like, p = 0,5, ville vi hatt P(X = 7) = P(X = 1).

Tilbake til oppgaven

Oppgave 2:

Vi skal finne E(X), Var(X) og σ når

  1. X er antall kron i 10 kast med en rettferdig mynt.
    Dette er en binomisk situasjon der kron betyr suksess og mynt betyr fiasko. Vi har $n = 10$ og $p = 0{,}5$, så vi får
    $E(X) = n \cdot p = 10 \cdot 0{,}5 = 5$.
    $Var(X) = n \cdot p(1 − p) = 10 \cdot 0{,}5(1 − 0{,}5) = 2{,}5$.
    $\sigma = \sqrt{Var(X)} = \sqrt{2{,}5} \approx 1{,}58$.
     
  2. X er antall seksere i 5 kast med en rettferdig terning.
    Dette er en binomisk situasjon der «sekser» betyr suksess og «ikke sekser» betyr fiasko. Vi har $n = 5$ og $p = {\large \frac{1}{6}} \approx 0{,}167$, så vi får
    $E(X) = n \cdot p \approx 5 \cdot 0{,}167 = 0{,}84$.
    $Var(X) = n \cdot p(1 − p) \approx 5 \cdot 0{,}167(1 − 0{,}167) = 0{,}70$.
    $\sigma = \sqrt{Var(X)} = \sqrt{0{,}70} \approx 0{,}83$.

Tilbake til oppgaven

Oppgave 3:

I en forening med 65 medlemmer er 13 negative til et forslag. Vi velger 20 representanter tilfeldig fra gruppen og skal finne sannsynligheten for at et visst antall er negative. Lar vi X være antall negative representanter, er P(X) hypergeometrisk fordelt med N = 65 elementer, av disse er M = 13 spesielle, altså negative. Vi trekker n = 20 ganger og skal finne sannsynligheten for at

  1. Ingen av representantene er negative.
    Vi får
    $P(X = 0) = \frac{\displaystyle \binom{13}{0} \cdot \binom{65 − 13}{20 − 0}}{\displaystyle \binom{65}{20}} \approx 0{,}0044$.
    Det er ca. 0,44 % sannsynlighet for at ingen er negative.
     
  2. Én av representantene er negativ.
    Vi får
    $P(X = 1) = \frac{\displaystyle \binom{13}{1} \cdot \binom{65 − 13}{20 − 1}}{\displaystyle \binom{65}{20}} \approx 0{,}0350$.
    Det er ca. 3,5 % sannsynlighet for at én er negativ.
     
  3. To eller flere av representantene er negative.
    Dette kan vi beregne som
    P(X = 2) + P(X = 3) + … + P(X = 20), men det er mye enklere å se på den komplementære hendelsen. Da kan vi også bruke det vi har funnet i punkt 1 og 2.
    Vi får
    P(X ≥ 2) = 1 − P(X = 0) − P(X = 1) ≈ 1 − 0,004 − 0,035 = 0,9610.
    Det er ca. 96,10 % sannsynlighet for at to eller flere er negative.

For å kontrollere svarene i Excel, skriver vi henholdsvis

    1. =hypgeom.fordeling.n(0; 20; 13; 65; usann)
       
    2. =hypgeom.fordeling.n(1; 20; 13; 65; usann)
       
    3. =1 – hypgeom.fordeling.n(1; 20; 13; 65; sann)

For å kontrollere svarene i GeoGebra, velger vi «Innstillinger» – «Avrunding» – «4 desimaler» og skriver vi henholdsvis

    1. fordelinghypergeometrisk(65, 13, 20, 0, false)
       
    2. fordelinghypergeometrisk(65, 13, 20, 1, false)
       
    3. 1 – fordelinghypergeometrisk(65, 13, 20, 1, true)

RegnearkÅpne et regneark med beregningene fra oppgave 3
 

​Tilbake til oppgaven

Oppgave 4

Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få henholdsvis 5 og 4 rette i Lotto. Vi trekker da 7 tall fra en mengde på 34, der 7 er spesielle (vinnertallene), og beregner hva sannsynligheten for å få henholdsvis 5 og 4 av de spesielle er. Vi får

$P(X = 5) = \frac{\displaystyle \binom{7}{5} \cdot \binom{34 − 7}{7 − 5}}{\displaystyle \binom{34}{7}} \approx 1{,}3702 \cdot 10^{−3}$.

$P(X = 4) = \frac{\displaystyle \binom{7}{4} \cdot \binom{34 − 7}{7 − 4}}{\displaystyle \binom{34}{7}} \approx 1{,}9030 \cdot 10^{−2}$.

Det er om lag 0,137 % sannsynlighet for å få 5 rette, og om lag 1,903 % sannsynlighet for å få 4 rette

​Tilbake til oppgaven

Oppgave 5

Vi skal finne E(X), Var(X) og σ i et utvalg der N = 65, M = 13 og n = 20. Vi får

$E(X) = 20 \cdot {\large \frac{13}{65}} = 4$.

$Var(X) = \Big({\large \frac{65 − 20}{65 − 1}} \Big) \cdot 20 \cdot {\large \frac{13}{65}} \cdot \Big(1 − {\large \frac{13}{65}} \Big) = 2{,}25$.

$\sigma = \sqrt{Var(X)} = \sqrt{2{,}25} = 1{,}50$.

​Tilbake til oppgaven

Oppgave 6:

Vi vet at det i en vannprøve i gjennomsnitt er to hoppekreps, at forekomsten av hoppekreps er poissonfordelt, og skal finne sannsynligheten for at en tilsvarende vannprøve inneholder et gitt antall hoppekreps. Vi skal både bruke formelen for poissonfordeling, $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{− \lambda}$ og tabellen over poissonfordeling med $\lambda = 2$.

  1. Sannsynligheten for ingen hoppekreps.
    Formel: $P(X = 0) = \frac{\displaystyle 2^{0}}{\displaystyle 0!}e^{−2} \approx 0{,}1353$.
    Tabell: $P(X = 0) = P(X \le 0) = 0{,}1353$. Markert med rødt i bildet under.
     
  2. Sannsynligheten for én hoppekreps
    Formel: $P(X = 1) = \frac{\displaystyle 2^{1}}{\displaystyle 1!}e^{−2} \approx 0{,}2707$.
    Tabell: $P(X = 1) = P(X \le 1) − P(X \le 0) = 0{,}4060 − 0{,}1353 = 0{,}2707$. Markert med blått i bildet under.
     
  3. Sannsynligheten for to eller flere hoppekreps. Vi ser på komplementhendelsen:
    Formel: $P(X \ge 2) = 1 − P(X = 1) − P(X = 0) \approx 1 − 0{,}1353 − 0{,}2707 = 0{,}5940$.
    Tabell: $P(X \ge 2) = 1 − P(X \le 1) = 1 − 0{,}4060 = 0{,}5940$. Markert med oransje i bildet under.

Eksempler på oppslag i poissontabell

For å kontrollere svarene i Excel, skriver vi henholdsvis

    1. =poisson.fordeling(0; 2; usann)
       
    2. =poisson.fordeling(1; 2; usann)
       
    3. =1 – poisson.fordeling(1; 2; sann)

For å kontrollere svarene i GeoGebra, velger vi «Innstillinger» – «Avrunding» – «4 desimaler» og skriver vi henholdsvis

    1. FordelingPoisson(2, 0, false)
       
    2. FordelingPoisson(2, 1, false)
       
    3. 1 – FordelingPoisson(2, 1, true)

RegnearkÅpne et regneark med beregningene fra oppgave 5
 

​Tilbake til oppgaven

Oppgave 7:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten.

Her har vi altså N = 10 000, M = 5000, n = 100, og skal finne P(X = 50).

  1. Vi skal først bruke hypergeometrisk fordeling og får:
    $P(X = 50) = \frac{\displaystyle \binom{5000}{50} \cdot \binom{10000 − 5000}{100 − 50}}{\displaystyle \binom{10000}{100}} \approx 0{,}0800$.
    Vi ser at mellomregningene involverer svært høye tall, for eksempel er ${\large \binom{10000}{100}} \approx 6{,}52 \cdot 10^{241}$.
     
  2. Så skal vi avgjøre om en tilnærming med binomisk fordeling vil være god. Vi har $n = 100$ og ${\large \frac{N}{20}} = 500$. Siden $n \le {\large \frac{N}{20}}$, er tilnærmingen god.
     
  3. Vi bruker binomisk fordeling og får: $P(X = 50) = {\large \binom{100}{50}} (0,5)^{50} (1 − 0,5)^{100 − 50} \approx 0{,}0796$.
     
  4. Med fire siffer bak komma ble feilen 0,0800 − 0,0796 = 0,0004.

Tilbake til oppgaven

Oppgave 8:

Vi skal bruke binomisk sannsynlighetsfordeling for å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Vi har $n = 75$ og $p = {\large \frac{1}{52}} \approx 0{,}0192$. Det enkleste er å basere seg på sannsynligheten for komplementhendelsen «aldri spar ess»:

$P(X \ge 1) = 1 − P(X = 0) = 1 − {\large \binom{75}{0}} (0{,}0192)^0 (1 − 0{,}0192)^{75 − 0} \approx 0{,}7664$.

Så skal vi avgjøre om vi kan bruke poissonfordeling til å beregne denne sannsynligheten. Vi har $n = 75$, som er innenfor grensa på $n > 50$, og vi har $p = 0{,}0192$, som er innenfor grensa på $p \le 0{,}05$, så tilnærmingen bør være god. Vi har $\lambda = 75 \cdot 0,0192 = 1,44$ og får

$P(X \ge 1) = 1 − P(X = 0) = 1 − {\large \frac{(1{,}44)^0}{0!}}e^{−1{,}44} \approx 0{,}7631$

Tilbake til oppgaven

Normalfordelingen

Oppgave 1:

Vi skal bruke normalfordelingstabellen til å finne

    1. P(Z ≤ 0,85)
      Det vil si G(0,85).
      Vi leser av tabellen der rad 0,8 krysser kolonne 0,05, og får
      0,8023.
       
    2. P(Z ≤ −1,21)
      Det vil si G(−1,21) = 1 − G(1,21)
      Vi leser av tabellen der rad 1,2 krysser kolonne 0,01, og får 0,8669.
      Så vi får 1 − 0,8669 = 0,1131.
       
    3. P(−0,22 ≤ Z ≤ 0,22)
      Det vil si G(0,22) − G(−0,22) = G(0,22) − [1 − G(0,22)] = 2 · G(0,22) − 1
      Vi leser av tabellen der rad 0,2 krysser kolonne 0,02, og får 0,5871.
      Så vi får 2 · 0,5871 − 1 = 0,1742.

Tilbake til oppgaven

Oppgave 2:

På en eksamen er resultatene N(14, 22), og vi skal finne hvor mange som forventes å stryke, det vil si få 12 poeng eller mindre. Vi skal bruke normalfordelingstabellen, Excel og GeoGebra.

Det vi skal beregne er P(X ≤ 12) i den gitte fordelingen. Vi gjør en standardisering og finner ut at dette tilsvarer $G({\large \frac{12 − 14}{2}}) = G(−1) = 1 − G(1)$. Vi går inn i normalfordelingstabellen, rad 1,0 og kolonne 0,00, og finner 0,8413.

P(X < 12) ≈ 1 − 0,8413 = 0,1587. Om lag 15,8 % kan forventes å stryke.

I Excel skriver vi =norm.fordeling(12; 14; 2; sann) og får 0,1587.

I GeoGebra skriver vi FordelingNormal(14, 2, 12) og får det samme. (Muligens etter at vi har brukt menyen «Innstillinger» – «Avrunding» til å sette at GeoGebra skal vise tall med 4 desimaler.

Tilbake til oppgaven

Sentralgrenseteoremet

Oppgave 1:

Vi skal finne sannsynligheten for at en orkidedyrker klarer å produsere minst 3200 blomsterstengler når han har 2500 planter, og i gjennomsnitt 20 % av plantene ikke får blomsterstengler, 40 % får én stengel, 30 % to stengler, og 10 % tre stengler.

Dersom X er antall stengler per plante, har vi altså at P(X = 0) = 0,2, P(X = 1) = 0,4, P(X = 2) = 0,3 og P(X = 3) = 0,1. Dersom Y er antall stengler totalt, skal vi finne P(Y ≥ 3200).

Vi beregner forventning og varians for X:

E(X) = 0 · 0,2 + 1 · 0,4 + 2 · 0,3 + 3 · 0,1 = 1,3.

E(X2) = 02 · 0,2 + 12 · 0,4 + 22 · 0,3 + 32 · 0,1 = 2,5.

Var(X) = E(X2) − [E(X)]2 = 2,5 − (1,3)2 = 0,81.

Altså μ = E(X) = 1,3, og σ2 = Var(X) = 0,81.

n = 2500, langt over tommelfingerregelen på «> 30». Så dersom antall stengler på en plante er uavhengig av de andre, har vi ifølge sentralgrenseteoremet at summen er tilnærmet normalfordelt. Standardavviket og variansen til Y blir 2500 ganger standardavviket og variansen til X, siden vi har 2500 planter.

Y ~ N(2500 · 1,3, 2500 · 0,81) = N(3250, 2025).

Vi gjør en standardisering, og finner ut at

P(Y ≥ 3200) = 1 − P(Y < 3200) tilsvarer

$1 − G({\large \frac{3200 − 3250}{\sqrt{2025}}}) \approx 1 − G(−1{,}11) = G(1{,}11)$.

Vi går inn i normalfordelingstabellen, rad 1,1, kolonne 0,01 og finner 0,8665.

Alternativt skriver vi =1-norm.fordeling(3200; 3250; rot(2025); sann) i Excel eller 1- FordelingNormal(3250, sqrt(2025), 3200) i GeoGebra og får 0,8667, som er litt mer presist.

Det er altså om lag 86,7 % sannsynlighet for at han klarer å produsere nok stengler.

Grunnen til at vi trekker ut rota av 2025 er at det er variansen, σ2, som er 2025, så standardavviket blir $\sigma = \sqrt{2025}$.

Tilbake til oppgaven

Oppgave 2:

Vi trekker 20 varer tilfeldig fra et parti på 100 varer der 10 av varene har feil. Dette er en hypergeometrisk situasjon med n = 20, N = 100 og M = 10. Hvis X betegner antall varer med feil, er altså X ~ hypergeom(100, 10, 20).

  1. Vi skal finne sannsynligheten for at minst 1 av varene har feil, altså P(X ≥ 1) = 1 − P(X = 0).
     
    I en hypergeometrisk fordeling er $P(X = x) = {\Large \frac{\binom{M}{x} \binom{N − M}{n − x}}{\binom{N}{n}}}$, så $P(X = 0) = {\Large \frac{\binom{10}{0} \binom{90}{20}}{\binom{100}{20}}} \approx 0{,}0951$, og
    P(X ≥ 1) ≈ 1 − 0,0951 = 0,9049. Det er ca. 90,5 % sannsynlig at minst 1 av varene i utvalget har feil.
     
  2. Vi skal avgjøre om vi kan forvente at en normaltilnærming er god i dette tilfellet. Vi har N = 100 og 20 · 20 = 400, så kriteriet N ≥ 20n er absolutt ikke oppfylt, og vi kan ikke forvente at tilnærmingen er særlig god.
     
  3. Vi skal bruke normaltilnærming til å beregne den samme sannsynligheten som i 1). Vi har at
    $E(X) = n \cdot {\large \frac{M}{N}} = 20 \cdot {\large \frac{10}{100}} = 2$.
    $Var(X) = \Big( {\large \frac{N − n}{N − 1}} \Big) \cdot n \cdot {\large \frac{M}{N}} \cdot \Big(1 − {\large \frac{M}{N}} \Big) = \Big( {\large \frac{100 − 20}{100 − 1}} \Big) \cdot 20 \cdot {\large \frac{10}{100}} \cdot \Big(1 − {\large \frac{10}{100}} \Big) \approx 1,45$.
    Så normalfordelingen blir N(2, 1,45). Vi gjør en standardisering og finner ut at
    $P(X \ge 1) = 1 − G({\large \frac{1 − 2}{\sqrt{1{,}45}}}) \approx 1 − G(−0{,}83) = G(0{,}83)$.
    Vi går inn i normalfordelingstabellen, rad 0,8, kolonne 0,03 og finner 0,7967. Dette er om lag ${\large \frac {0{,}9049 − 0{,}7967}{0{,}9049}} \approx 0{,}12$, altså om lag 12 % for lavt.

Tilbake til oppgaven

Oppgave 3:

Vi trekker 200 varer tilfeldig fra et parti på 10 000 varer der 1000 av varene har feil. Dette er en hypergeometrisk situasjon med n = 200, N = 10 000 og M = 1000. Hvis X betegner antall varer med feil, er altså X ~ hypergeom(10 000, 1000, 200). Det er oppgitt at P(X ≥ 15) ≈ 0,8595.

  1. Vi skal avgjøre om vi kan forvente at en normaltilnærming er god i dette tilfellet.
    Vi har N = 10 000 og 20 · 200 = 4000, så kriteriet N ≥ 20n er oppfylt.
    Videre har vi $n{\large \frac{M}{N}}(1 − {\large \frac{M}{N}}) = 200{\large \frac{1000}{10 \, 000}}(1 − {\large \frac{1000}{10 \, 000}}) \approx 17{,}64$. Siden dette er mer enn 10, bør normaltilnærmingen være god.
     
  2. Vi skal bruke normaltilnærming til å beregne sannsynligheten for at P(X ≥ 15).
    Vi har at
    $E(X) = n \cdot {\large \frac{M}{N}} = 200 \cdot {\large \frac{1000}{10 \,000}} = 20$.
    $Var(X) = \Big( {\large \frac{N − n}{N − 1}} \Big) \cdot n \cdot {\large \frac{M}{N}} \cdot \Big(1 − {\large \frac{M}{N}} \Big) = \Big( {\large \frac{10 \, 000 − 200}{10 \, 000 − 1}} \Big) \cdot 200 \cdot {\large \frac{1.000}{10 \, 000}} \cdot \Big(1 − {\large \frac{1.000}{10 \, 000}} \Big) \approx 17{,}64$
    Så normalfordelingen blir N(200, 17,64). Vi gjør en standardisering og finner ut at
    $P(X \ge 15) = 1 − G({\large \frac{15 − 20}{17{,}64}}) \approx 1 − G(−1{,}19) = G(1{,}19)$.
    Vi går inn i normalfordelingstabellen, rad 1,1, kolonne 0,09 og finner 0,8830. Dette er om lag ${\large \frac {0{,}8830 − 0{,}8595}{0{,}8595}} \approx 0{,}0273$, altså om lag 2,7 % for høyt.

Tilbake til oppgaven

Oppgave 4:

Vi skal gjøre om igjen normaltilnærmingene i oppgave 2 og 3 med heltallskorreksjon og vurdere om resultatene blir bedre eller dårligere enn i oppgave 2 og 3.

I oppgave 2 hadde vi X ~ hypergeom(100, 10, 20), og skulle finne P(X ≥ 1). Vi fant at svaret var om lag 0,9049. Normaltilnærming uten heltallskorreksjon ga 0,7967, ca. 12 % for lavt.

Med heltallskorreksjon får vi $1 − G({\large \frac{1 + 0{,}5 − 2}{\sqrt{1{,}45}}}) \approx 1 − G(−0{,}42) = G(0{,}42)$.

Vi går inn i normalfordelingstabellen, rad 0,4, kolonne 0,02 og finner 0,6628. Dette er om lag ${\large \frac {0{,}9049 − 0{,}6628}{0{,}9049}} \approx 0{,}27$, altså om lag 27 % for lavt.

Dette er et verre resultat enn uten heltallskorreksjon. Men vi har jo uansett konkludert med at normaltilnærming ikke er brukbar i denne situasjonen.

I oppgave 3 hadde vi X ~ hypergeom(10 000, 1000, 200), og det var oppgitt at P(X ≥ 15) ≈ 0,8595. Normaltilnærming uten heltallskorreksjon ga 0,8830, ca. 2,7 % for høyt.

Med heltallskorreksjon får vi $1 − G({\large \frac{15 + 0{,}5 − 20}{17{,}64}}) \approx 1 − G(−1{,}07) = G(1{,}07)$.

Vi går inn i normalfordelingstabellen, rad 1,0, kolonne 0,07 og finner 0,8577. Dette er om lag ${\large \frac {0{,}8595 − 0{,}8577}{0{,}8595}} \approx 0{,}00209$, altså om lag 0,21 % for lavt. Heltallskorreksjon har gitt en forbedring, fra 2,7 % til 0,21 % feil.

Tilbake til oppgaven

Estimering

Oppgave 1:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, skal vi gi et forventningsrett estimat for dagsproduksjonen av støtfangere.

Som estimat bruker vi gjennomsnittet: $\mu = \overline X = {\large \frac{210 + 220 + 210 + 225 + 220 + 217}{6}} = 217$.

Tilbake til oppgaven

Oppgave 2:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, og at standardavviket til produksjonen er $\sigma = 5{,}8$, skal vi angi estimert gjennomsnitt i form av en rapportering.

I oppgave 1 fant vi at gjennomsnittlig dagsproduksjon var 217 støtfangere.

En rapportering av estimatet til gjennomsnittlig produksjon vil derfor bli

$217 \pm \frac{\displaystyle 5{,}8}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}37$

Tilbake til oppgaven

Oppgave 3:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, skal vi estimere standardavviket til produksjonen og presentere estimert gjennomsnitt i form av en rapportering..

Vi fant i oppgave 1 at gjennomsnittsproduksjonen var 217 enheter

Vi estimerer standardavviket med utvalgsstandardavviket, som blir

 $\hat \sigma = S = \sqrt{\large \frac{(210 −217)^2 + (220 − 217)^2 + (210 −217)^2 + (225 − 217)^2 + (220 − 217)^2 + (217 − 217)^2}{5}} = 6$.

Og en rapportering blir

$217 \pm \frac{\displaystyle 6}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}45$

Tilbake til oppgaven

Oppgave 4:

Basert på at dagsproduksjonen av støtfangere i seks forskjellige dager er henholdsvis 210, 220, 210, 225, 220 og 217 enheter og at standardavviket til produksjonen er $\sigma = 5{,}8$, skal vi angi et 95 % og 99 % konfidensintervall for gjennomsnittet til produksjonen.

Et 95 % konfidensintervall er gitt ved

$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 1{,}96 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [212{,}36, \: 221{,}64]$

Et 99 % konfidensintervall er gitt ved

$\overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 2{,}58 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [210{,}89, \: 223{,}11]$

Tilbake til oppgaven

Oppgave 5:

Vi skal bruke (normal) kvantiltabellen til å finne et 97 % konfidensintervall for gjennomsnittsvekten av laks når 13 laks er veid med et gjennomsnitt på 4,14 kg, og standardavviket til vekta i populasjonen er $\sigma = 0{,7}$.

I et 97 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}97}{2}} = 0{,}015$. Vi slår opp ${\large \frac{\alpha}{2}} = 0{,}015$ i kvantiltabellen og får $2{,}1701$.

Et 97 % konfidensintervall er gitt ved

$\overline X \pm 2{,}17 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 4,14 \pm 2{,}17 \cdot {\large \frac{0{,}7}{\sqrt{13}}} \approx [3{,}72, \: 4{,}56]$

Tilbake til oppgaven

Oppgave 6:

Vi skal bruke Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere, som på seks tilfeldige dager er 210, 220, 210, 225, 220 og 217 enheter, når vi vet at standardavviket til produksjonen er 5,8.

Vi skriver =konfidens.norm(1-0,98; 5,8; 6) i Excel, og får ut 5,51.

Vi har tidligere beregnet at gjennomsnittsproduksjonen er 217 enheter.

Et 98 prosent konfidensintervall blir derfor om lag

[217 − 5,51, 217 − 5,51 = [211,49, 222,51]

Tilbake til oppgaven

Oppgave 7:

Basert på at 6 tilfeldige observasjoner gir at gjennomsnittlig antall produserte støtfangere er $\overline X = 217$ og at produksjonens standardavvik er $S = 6$, skal vi lage og sammenlikne et 95 % konfidensintervall basert på normalfordeling med ett basert på t-fordeling.

I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}95}{2}} = 0{,}025$.

Vi vet fra tidligere at

${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.

Basert på normalfordelingen får vi derfor følgende 95 % konfidensintervall:

$217 \pm 1{,}96 \cdot {\large \frac{6}{\sqrt{6}}} \approx [212{,}2, \: 221{,}8]$

Vi slår opp ${\large t_{0{,}025 \, (5)}}$ i (t) kvantiltabellen, og finner 2,571.

Basert på t-fordelingen får vi derfor følgende 95 % konfidensintervall:

$217 \pm 2{,}57 \cdot {\large \frac{6}{\sqrt{6}}} \approx [210{,}7, \: 223{,}3]$

Konfidensintervallet blir en del bredere med t-fordeling enn med normalfordeling, dette skyldes usikkerheten når standardavviket er estimert ut fra så lite som 6 målinger.

Tilbake til oppgaven

Oppgave 8:

Basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 skal vi lage et 95 % konfidensintervall basert på t-fordeling ved hjelp av Excel.

I Excel skriver vi =konfidens.t(1-0,95; 6; 6) og får ut 6,30.

Så et 95 % konfidensintervall blir

$217 \pm 6{,}30 \approx [210{,}7, \: 223{,}3]$

Som er det samme som vi fant da vi gjorde beregningen for hånd i oppgave 7.

Tilbake til oppgaven

Oppgave 9:

Basert på at 35 av 2000 tilfeldige ladere er målt til å være defekte, skal vi estimere sannsynligheten for at en vilkårlig lader er defekt, og finne et 95 % konfidensintervall for denne sannsynligheten.

Et forventningsrett estimat for sannsynligheten for at en lader er defekt vil være andelen defekte ladere i utvalget. Altså:

$\hat p = {\large \frac{35}{2000}} = 0{,}0175$, altså 1,75 %.

Estimert standardavvik til estimatoren blir

$\sqrt{\large \frac{\hat p(1− \hat p)}{n}} = \sqrt{\large \frac{0{,}0175(1 − 0{,}0175)}{2000}} \approx 0{,}0029$.

En rapportering av sannsynligheten for at en lader er defekt blir da

$0{,}0175 \pm 0{,}067$

I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}95}{2}} = 0{,}025$.

Vi vet fra tidligere at

${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.

Så et 95 % konfidensintervall blir

$0{,}0175 \pm 1{,}96 \cdot 0{,}0029 \approx [0{,}0118, \: 0{,}0232]$, mellom 1,18 % og 2,32 %.

Tilbake til oppgaven

Hypotesetesting

Oppgave 1:

Basert på at hundre terningkast gir 20 seksere, skal vi sette opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og teste hypotesen med et signifikansnivå på 5 %.

Den alternative hypotesen er at terningen gir for mange seksere, det vil si at sannsynligheten for å få seks er mer enn en sjettedel, slik den er på en rettferdig terning. Kaller vi sannsynligheten for å få en sekser for $p$, har vi

$H_A: p > \frac{\displaystyle 1}{\displaystyle 6}$.

Nullhypotesen blir da at terningen er rettferdig, med sannsynlighet lik en sjettedel for å få en sekser:

$H_0: p = \frac{\displaystyle 1}{\displaystyle 6}$.

Grensen for forkastningsområdet blir:

$z_{\large \alpha} = z_{\large 0{,}05} \approx 1{,}6449$.

Testobservatoren blir:

$Z = \frac{\displaystyle X − np_0}{\displaystyle \sqrt{np_0(1 − p_0)}} = \frac{\displaystyle 20 − 100 \cdot \frac{1}{6}}{\displaystyle \sqrt{100 \cdot \frac{1}{6} \Big(1 − \frac{1}{6} \Big)}} \approx 0{,}8944$.

Siden testobservatoren ligger til venstre for grensen for forkastningsområdet, kan vi ikke forkaste nullhypotesen på signifikansnivå 0,05. 20 av 100 seksere gir altså ikke grunnlag for å si at terningen gir for mange seksere.

Tilbake til oppgaven

Oppgave 2:

Vi skal utføre samme test som i oppgave 1, men nå basert på at 1000 terningkast ga 200 seksere. Hypotesene blir de samme, og grensen for signifikansnivået det samme, $z_{\large 0{,}05} \approx 1{,}6449$.

Testobservatoren blir nå

$Z = \frac{\displaystyle X − np_0}{\displaystyle \sqrt{np_0(1 − p_0)}} = \frac{\displaystyle 200 − 1000 \cdot \frac{1}{6}}{\displaystyle \sqrt{1000 \cdot \frac{1}{6} \Big(1 − \frac{1}{6} \Big)}} \approx 2{,}8284$.

Testobservatoren ligger nå langt inni forkastningsområdet, og vi forkaster nullhypotesen på signifikansnivå 0,05. 200 av 1000 seksere gir altså grunnlag for å si at terningen gir for mange seksere.

Sammenlikninger vi med oppgave 1, ser vi at det relative antallet seksere er det samme i begge tilfeller: $\frac{\displaystyle 20}{\displaystyle 100} = \frac{\displaystyle 200}{\displaystyle 1000} = 0{,}2$. Men å få 200 seksere på 1000 kast er altså mye mindre sannsynlig enn å få 20 på 100 kast. Det kommer av at den forventede spredningen, altså standardavviket, blir mindre jo flere forsøk vi gjør. 200 av 1000 seksere vil faktisk gi forkastning av nullhypotesen på så lite signifikansnivå som 0,0025. Det er altså mindre enn 0,25 % sjanse for å få 200 eller flere seksere på 1000 kast.

Tilbake til oppgaven

Oppgave 3:

Vi skal sette opp og gjennomføre en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet i dressingpakker er over 10 ml, når gjennomsnittet i 25 pakker er målt til 10,3 ml, og produksjonen har et standardavvik på 0,65 ml.

Hypotesene blir $H_A: \mu > 10$, $H_0: \mu = 10$.

Vi har $\overline X = 10{,}3$, og $\sigma = 0{,}65$.

Så vi får: Testobservator: $Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}3 − 10}{\displaystyle \frac{0{,}65}{\sqrt{25}}} \approx 2{,}31$.

Vi har $z_{\large \alpha} = z_{\large 0{,}01} \approx 2{,}3263$.

Siden $Z \not > z_{\large \alpha}$ kan vi ikke forkaste nullhypotesen, målingene gir med andre ord ikke dekning for at dressingene i snitt inneholder mer enn 10 ml. olje.

Tilbake til oppgaven

Oppgave 4:

Basert på at 15 målinger av svartid på en servicetelefon gir et gjennomsnitt på 37 sekunder med et standardavvik på 14 skal vi sette opp og gjennomføre en hypotesetest på signifikansnivå 5 % på om oppgitt gjennomsnittlig ventetid på 30 sekunder er lavt.

Hypotesene blir $H_A: \mu > 30$$H_0: \mu = 30$.

Siden vi baserer oss på utvalgsstandardavviket, bruker vi t-fordeling i testen. Antall frihetsgrader blir $15 − 1 = 14$.

Testobservator $T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 37 − 30}{\displaystyle \frac{14}{\sqrt{15}}} \approx 1{,}937$.

Grensen for forkastningsområdet blir $ t_{\large 0{,}05 \, (14)} = 1{,}761$.

Siden $T > t_{\large 0{,}05 \, (14)}$, kan vi forkaste nullhypotesen, og har på 5 % signifikansnivå grunnlag for å si at gjennomsnittlig ventetid er over 30 sekunder.

Tilbake til oppgaven

Oppgave 5:

Basert på at innholdet i 30 glass syltetøy i gjennomsnitt er målt til 47,7 % bær, med et standardavvik på 5,7 %, skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder mindre enn fabrikantens påstand om minst 50 % bær.

Hypotesene blir $H_A: \mu < 50$, $H_0: \mu = 50$.

Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen.

Testobservator blir $T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 47{,}7 − 50}{\displaystyle \frac{5{,}7}{\sqrt{30}}} \approx −2{,}210$.

Grensen for forkastningsområdet ved 5 % signifikansnivå blir $−t_{\large 0{,}05 \, (29)} \approx −1{,}699$.

Grensen for forkastningsområdet ved 1 % signifikansnivå blir $−t_{\large 0{,}01 \, (29)} \approx −2{,}462$.

Siden $T < −t_{\large 0{,}05 \, (29)}$ kan vi på 5 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at syltetøyet har for lite bær.

Man siden $T \not < −t_{\large 0{,}01 \, (29)}$ kan vi på 1 % nivå ikke forkaste nullhypotesen.

Tilbake til oppgaven

Oppgave 6:

Basert på 15 stikkprøver av sukkermengde med en vekt på gjennomsnittlig 82,5 gram og et standardavvik på 0,6 gram skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om gjennomsnittlig sukkermengde er 83 gram.

Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen, med 15 − 1 = 14 frihetsgrader.

Testobservator blir $T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 82{,}5 − 83}{\displaystyle \frac{0{,}6}{\sqrt{15}}} \approx −3{,}227$.

Grensen for forkastningsområdet ved 1 % signifikansnivå blir $t_{\large 0{,}01/2 \, (14)} \approx 2{,}997$.

Siden $|T| > t_{\large 0{,}01/2 \, (14)}$, kan vi på 1 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at sukkermengden ikke er korrekt, og følgelig også på 5 % nivå.

Tilbake til oppgaven

Sammenlikne datasett

Oppgave 1:

Vi har gitt to datasett $X$ og $Y$ med 4 korresponderende verdier:

$X_1 = 242$ $X_2 = 266$ $X_3 = 218$ $X_4 = 234$
$Y_1 = 363$ $Y_2 = 399$ $Y_3 = 327$ $Y_4 = 351$

og skal beregne

  1. Gjennomsnittet i hvert av settene.
    Vi får
    $\overline X = {\large \frac{242 + 266 + 218 + 234}{4}} = 240$
    $\overline Y = {\large \frac{363 + 399 + 327 + 351}{4}} = 360$
     
  2. Standardavviket i hvert av settene.
    Summen av kvadratavvikene i $X$ er
    $(242 − 240)^2 + (266 − 240)^2 + (218 − 240)^2 + (234 − 240)^2 = 1200$
    Og standardavviket blir $\sigma^{\phantom 1}_X = \sqrt {\large \frac{1200}{4}} \approx 17{,}32$
    Summen av kvadratavvikene i $Y$ er
    $(363 − 360)^2 + (399 − 360)^2 + (327 − 360)^2 + (351 − 360)^2 = 2700$
    Og standardavviket blir $\sigma^{\phantom 1}_Y = \sqrt {\large \frac{2700}{4}} \approx 25{,}98$.
     
  3. Kovariansen mellom settene.
    Vi får $Cov(X, Y)= {\large \frac{(242 − 240)(363 − 360) + (266 − 240)(399 − 360) + (218 − 240)(327 − 360) + (234 − 240)(351 − 360)}{4}} = 450$
     
  4. Korrelasjonskoeffisienten mellom settene.
    Vi får $R(X, Y) = {\large \frac{Cov(X, Y)}{\sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y}} \approx {\large \frac{450}{17{,}32 \cdot 25{,}98}} \approx 1$
    Vi har altså perfekt samvariasjon. Hvis vi kontrollregner, ser vi at det stemmer, for hvert element i $Y$ er lik det tilhørende elementet i $X$ multiplisert med $1{,}5$.

Tilbake til oppgaven

Oppgave 2:

En bedrift sammenlikner to maskiner for å se om det er forskjell i mengden sukker de tilsetter i en matvare. Maskin X arbeider med et standardavvik på 0,11 og maskin Y med et standardavvik på 0,13. 

60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Så skal vi sette opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker.

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}107 − 10{,}061}{\displaystyle \sqrt{\frac{(0{,}11)^2}{60} + \frac{(0{,}13)^2}{75}}} \approx 2{,}226$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{\alpha^\phantom 1}{2}}$

I (kvantil)normalfordelingstabellen finner vi at $z_{\Large \frac{0{,}05}{2}} \approx 1,9600$.

Siden $|Z| > z_{\Large \frac{0{,}05}{2}}$, kan vi forkaste vi nullhypotesen. Undersøkelsen bekrefter at det er forskjell på sukkermengdene.

Tilbake til oppgaven

Oppgave 3:

Frukthøsten til 13 kirsebærtrær av type $X$ og 12 kirsebærtrær av type $Y$ er vist i tabellen under, og vi skal sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Type $X$ 44 44 56 46 47 38 58 53 49 35 46 30 41
Type $Y$ 35 47 55 29 40 39 32 41 42 57 51 39  

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$.

Fra kalkulator eller PC får vi:

$\overline X \approx 45{,}154$.

$\overline Y = 42{,}250$.

$S_X \approx 7{,}998$.

$S_Y \approx 8{,}740$.

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {7{,}998}^2(13 − 1) + {8{,}740}^2(12 − 1)}{\displaystyle 13 + 12 − 2} \approx 8{,}361$.

$T \approx \frac{\displaystyle 45{,}154 − 42{,}250}{\displaystyle 8{,}361 \sqrt{\frac{1}{13} + \frac{1}{12}}} \approx 0{,}868$.

Vi har her en tosidig test, og forkaster nullhypotesen hvis $|T| > t_{\Large \frac{\alpha}{2},\, (v)}$.

Vi slår opp i (t) kvantiltabellen med $a = 0{,}025$ og $v = 13 + 12 − 2 = 23$ og finner $2{,}069$.

Siden $|T| \not > t_{\large 0{,}025 \, (23)}$, kan vi ikke forkaste nullhypotesen. Undersøkelsen gir ikke grunnlag for å si at den ene typen trær gir mer kirsebær enn den andre.

Tilbake til oppgaven

Oppgave 4:

Basert på blodtrykket til 15 pasienter før og etter bruk av en medisin, vist i tabellen under, skal vi sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om medisinen som en bieffekt reduserer blodtrykket.

Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84
Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Her gir det bare mening å gjøre en parvis test. Vi beregner først differansen mellom før og etter:

Differanse 2 8 10 6 18 10 4 26 18 −8 0 32 0 −4 10

Vi kaller «før» for $X$, «etter» for $Y$ og differansen for $D$.

Hypotesene blir $H_A: \overline X > \overline Y$, $H_0: \overline X = \overline Y$.

Fra kalkulator eller PC får vi:

$\overline D = 8{,}8$.

$S_p = S_D \approx 10{,}975$.

Testobservatoren blir

$T \approx \frac{\displaystyle 8{,}8}{\displaystyle 10{,}975 \frac{1}{\sqrt{15}}} \approx 3{,}105$.

Vi har her en høyresidig test, og forkaster nullhypotesen hvis $T > t_{\large \alpha, \, (v)}$.
Vi slår opp i t-fordelingstabellen med $\alpha = 0{,}05$ og $v = 15 − 1 = 14$ og finner $1{,}761$.

Siden $T > t_{\large 0{,}05 \, (14)}$, kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at medisinen gir redusert blodtrykk.

Tilbake til oppgaven

Oppgave 5:

En bedrift skal undersøke om det er forskjell i sannsynlighetene for defekter ved to produksjonslinjer for bukser. De finner 147 av 2500 defekte ved første produksjonslinje og 151 av 2000 ved andre. Vi skal sette opp og på 5 % signifikansnivå teste en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene.

Vi kaller sannsynligheten for defekt ved linje 1 for $p_1$ og sannsynligheten for defekt ved linje 2 for $p_2$. Hypotesene blir

$H_A: p_1 \ne p_2$ mot $H_0: p_1 = p_2$.

Vi har $n_1 = 2500$, $n_2 = 2000$.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 147}{\displaystyle 2500} \approx 0{,}0588$.

$\hat p_2 = \frac{\displaystyle 151}{\displaystyle 2000} \approx 0{,}0755$.

$\hat p = \frac{\displaystyle 147 + 151}{\displaystyle 2500 + 2000} \approx 0{,}0662$.

Og vi får

$Z \approx \frac{\displaystyle 0{,}0588 − 0{,}0755}{\displaystyle \sqrt{0{,}0662(1 − 0{,}0662)(\frac{\displaystyle 1}{\displaystyle 2500} + \frac{\displaystyle 1}{\displaystyle 2000})}} \approx −2{,}239$.

Siden vi har en tosidig test med 5 % signifikansnivå, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{0{,}05}{2}} = z_{\large 0{,}025}$. Vi slår opp i (normal) kvantiltabellen, og finner $z_{\large 0{,}025} = 1{,}9600$.

Siden $|Z| = 2{,}239 > 1{,}9600$, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i defektsannsynligheten ved de to linjene.

Tilbake til oppgaven

Datainnsamling

Oppgave 1:

Du ønsker å finne ut hvor populært kino er i forhold til å se film hjemme, går i byen en kveld og intervjuer tilfeldige forbipasserende.

Naturligvis er det liten grunn til å tro at dette utvalget er representativt. Det er jo mer sannsynlig at du treffer kinogjengerne på byen enn de som sitter hjemme og ser på film.

Tilbake til oppgaven