Løsningsforslag, statistikk

Introduksjon til statistikk

Oppgave 1:

Vi påstår at de fleste mennesker har mer enn gjennomsnittlig antall armer og spør om dette er korrekt, og hva i så fall problemet med denne påstanden er.

Påstanden er statistisk korrekt fordi ingen har mer enn 2 armer, men noen mangler en arm eller begge armene. Det betyr at gjennomsnittlig antall armer er litt under 2, og alle som har 2 armer ligger over gjennomsnittet. Problemet er at gjennomsnittet i dette tilfellet ikke gir noe godt bilde av virkeligheten. Median, som vi skal lære om i artikkelen om måltall i statistikk vil være mye bedre å bruke her.

Tilbake til oppgaven

Måltall i statistikk

Oppgave 1:

Basert på disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2, skal vi lage:

1:

En frekvenstabell som viser fordeling av karakterene, inkludert relativ frekvens i prosent.
Vi teller opp, og finner ut at karakterene fordeler seg slik: 4 enere, 5 toere, 5 treere, 7 firere, 3 femmere og 1 sekser. Totalt er det 25 karakterer, så de relative frekvensene blir:

enere ${\large \frac{4}{25}} = 0{,}16$, altså 16 %
toere ${\large \frac{5}{25}} = 0{,}20$, altså 20 %
treere ${\large \frac{5}{25}} = 0{,}20$, altså 20 %
firere ${\large \frac{7}{25}} = 0{,}28$, altså 28 %
femmere ${\large \frac{3}{25}} = 0{,}12$, altså 12 %
seksere ${\large \frac{1}{25}} = 0{,}04$, altså 4 %

Så frekvenstabellen blir slik:

Karakter 1 2 3 4 5 6
Frekvens 4 5 5 7 3 1
Relativ frekvens 16 % 20 % 20 % 28 % 12 % 4 %

2:

En frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6, inkludert relativ frekvens i prosent.
Frekvensene og de relative frekvensene finner vi i tabellen over. 1-2: 4 + 5 = 9 og 16 % + 20 % = 36 %. 3-4: 5 + 7 = 12 og 24 % + 24 % = 48 %. 5-6: 3 + 1 = 4 og 12 % + 4 % = 16 %. Frekvenstabellen blir seende slik ut

Karakter 1-2 3-4 5-6
Frekvens 9 12 4
Relativ frekvens 36 % 48 % 16 %

3:

Et søylediagram som illustrerer karakterfordelingen i punkt 2.
Vi åpner et regneark, for eksempel Excel og legger inn følgende data:

"1-2" 9
"3-4" 12
"5-6" 4

(Vi har brukt anførselstegn for å unngå at regnearket tolker teksten i venstre kolonne som datoer. Alternativt kunne vi formatert kolonna som "tekst" før vi skrev inn.)
Så markerer vi datoene, velger "Sett inn" – "Stolpe", velger stolpetype, og får et stolpediagram likt det under:

Søylediagram grupperte karaktererdata

Tilbake til oppgaven

Oppgave 2:

Vi skal beregne gjennomsnittet av karakterene 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Vi summerer først alle verdiene: 1 + 4 + 5 + 5 + 4 + 1 + 3 + 4 + 2 + 2 + 2 + 4 + 4 + 4 + 3 + 3 + 1 + 3 + 2 + 5 + 6 + 3 + 1 + 4 + 2 = 78.

Siden vi i oppgave 1 fant ut at vi har 4 enere, 5 toere, 5 treere, 7 firere, 3 femmere og 1 sekser, kan vi imidlertid gjøre utregningen litt enklere:

$4 \cdot 1 + 5 \cdot 2 + 5 \cdot 3 + 7 \cdot 4 + 3 \cdot 5 + 6 = 78$.

Så finner vi gjennomsnittet ved å dividere denne summen på antall målinger, som er 25, og får

$\overline X = {\large \frac{78}{25}} \approx 3{,}12$.

Gjennomsnittskarakteren er ca. 3,12.

Tilbake til oppgaven

Oppgave 3:

Vi skal finne median og typetall blant karakterene 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Vi sorterer først karakterene i stigende rekkefølge: 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6.

Vi har 25 elementer, så midtelementet blir element nummer ${\large \frac{25 + 1}{2}} = 13$. Det trettende elementet har verdien 3, så medianen er 3.

4 forekommer flest ganger, så typetallet er 4.

Tilbake til oppgaven

Oppgave 4:

Vi skal beregne standardavviket til de 25 karakterene 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

I oppgave 2 fant vi ut at gjennomsnittet var ca. 3,12.Vi må nå beregne summen av de kvadratiske avstandene mellom verdiene og gjennomsnittet: $(1 – 3{,}12)^2 + (4 – 3{,}12)^2 + \dots$

Siden vi i oppgave 1 fant ut at vi har 4 enere, 5 toere, 5 treere, 7 firere, 3 femmere og 1 sekser, kan vi imidlertid gjøre utregningen litt enklere:

$4 \cdot (1 – 3{,}12)^2 + 5 \cdot (2 – 3{,}12)^2 + 5 \cdot (3 – 3{,}12)^2 + 7 \cdot (4 – 3{,}12)^2 + 3 \cdot (5 – 3{,}12)^2 + (6 – 3{,}12)^2 \approx 48{,}64$.

Så finner vi standardavviket ved å ta kvadratrota av denne summen dividert på antall elementer, det vil si 25:

$\sigma \approx {\large \sqrt \frac{48{,}64}{25}} \approx 1{,}39$.

Standardavviket til karakterene er omlag 1,39.

Tilbake til oppgaven

Oppgave 5:

Vi skal beregne gjennomsnitt og standardavvik til karakterene i en prøve med 6 enere, 5 toere, 5 treere, 2 firere, 4 femmere og 3 seksere og sammenlikne resultatene med det vi fikk i oppgave 2 og 4.

Vi beregner først gjennomsnittet. Summen av karakterene er $6 \cdot 1 + 5 \cdot 2 + 5 \cdot 3 + 2 \cdot 4 + 4 \cdot 5 + 3 \cdot 6 = 77$.

Så gjennomsnittet blir $\overline X = {\large \frac{77}{25}} \approx 3{,}08$. Gjennomsnittskarakteren er ca. 3,08.

Så beregner vi summen av de kvadratiske avstandene mellom verdiene og gjennomsnittet:

$6 \cdot (1 – 3{,}08)^2 + 5 \cdot (2 – 3{,}08)^2 + 5 \cdot (3 – 3{,}08)^2 + 2 \cdot (4 – 3{,}08)^2 + 4 \cdot (5 – 3{,}08)^2 + 3 \cdot (6 – 3{,}08)^2 \approx 73{,}84$.

Og standardavviket blir $\sigma = {\large \sqrt \frac{73{,}84}{25}} \approx 1{,}71$.

Sammenlikner vi de to prøvene, ser vi at gjennomsnittet har gått litt ned, fra 3,12 til 3,08, men det er ingen stor endring. Sett under ett er altså klassen omtrent på samme nivå som før. Men standardavviket er gått opp fra 1,39 til 1,71. Det betyr at spredningen av karakterer er større, det er blitt flere gode og dårlige karakterer, og færre middelmådige.

Tilbake til oppgaven

Oppgave 6:

Vi skal finne og tolke variasjonsbredden og kvartilbredden til datasettet 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14, som representerer antall minutter et tog er forsinket.

Vi sorterer først dataene i stigende rekkefølge: 0, 0, 2, 5, 6, 8, 10, 14, 14, 15, 20, 23, 25, 27, 29, 29, 30, 30, 125.

Variasjonsbredden er avstanden mellom største og laveste verdi, 125 – 0 = 125.

Datasettet har 19, verdier, så første kvartil blir verdien til element nummer $(19 + 1) \cdot 0,25 = 5$, altså 6. Tredje kvartil blir verdien til element nummer $(19 + 1) \cdot 0,75 = 15$, altså 29.

Kvartilbredden blir 29 – 6 = 23.

Basert på kvartilbredden ser vi at forsinkelsene normalt varierer med 23 minutter, mellom 6 og 29 minutter.

Ser vi på variasjonsbredden, er den antakelig ikke representativ på grunn av enkeltverdien 125, som ligger langt over de andre verdiene, og kanskje er forårsaket av en spesiell hendelse. På den annen side ser vi at toget noen ganger faktisk ikke er forsinket. 

Tilbake til oppgaven

Forventning og varians

Oppgave 1:

Vi skal finne forventningen til hvor mye en kunde kjøper i en klesbutikk når 30 % ikke kjøper noen ting, 20 % kjøper ett plagg, 40 % kjøper to plagg og 10 % kjøper 3 plagg.

Vi kaller antall kjøpte plagg for X. Det er oppgitt at P(X = 0) = 0,3, P(X = 1) = 0,2, P(X = 2) = 0,4 og P(X = 3) = 0,1.

Så vi får $E(X) = 0 \cdot 0{,}3 + 1 \cdot 0{,}2 + 2 \cdot 0{,}4 + 3 \cdot 0{,}1 = 1{,}3$.

En vilkårlig kunde kan i gjennomsnitt forventes å kjøpe 1,3 plagg.

Tilbake til oppgaven

Oppgave 2:

Vi skal finne forventning, varians og standardavvik til antall varer en kunde kjøper når 20 % ikke kjøper noen ting, 20 % kjøper én vare og 60 % kjøper to varer. Antall kjøpte varer betegnes med X. Vi får 

$E(X) = 0 \cdot 0{,}2 + 1 \cdot 0{,}2 + 2 \cdot 0{,}6 = 1{,}4$

$E(X^2) = 0^2 \cdot 0{,}2 + 1^2 \cdot 0{,}2 + 2^2 \cdot 0{,}6 = 2{,}6$

$Var(X) = E(X^2) – (E(X))^2 = 2{,}6 – (1{,}4)^2 = 0{,}64$

$\sigma(X) = \sqrt{Var(X)} = \sqrt{0{,}64} = 0{,}8$

Forventningen er 1,4, variansen 0,64 og standardavviket 0,8.

Tilbake til oppgaven

Oppgave 3:

Hvis X representer utfallet av et kast en mynt med "1" på den ene siden og "6" på den andre, er E(X) = 3,5 og Var(X) = 6,25. Nå skal vi beregne E(X) og Var(X) hvis verdiene i stedet er multiplisert med 2, til "2" og "12", og vurdere om resultatet er i tråd med reglene for forventning og varians til en variabel multiplisert med en konstant.

Vi får:

$E(X) = 2 \cdot 0{,}5 + 12 \cdot 0{,}5 = 7$.

$E(X^2) = 2^2 \cdot 0{,}5 + (12)^2 \cdot 0{,}5 = 74$.

$Var(X) = E(X^2) – (E(X))^2 = 74 – 7^2 = 25$.

Vi ser at dette er i tråd med reglene:

$E(k \cdot X) = k \cdot E(X)$, fordi $E(2 \cdot X) = 7 = 2 \cdot 3{,}5$.

$Var(k \cdot X) = k^2 \cdot Var(X)$, fordi $Var(2 \cdot X) = 25 = 2^2 \cdot 6{,}25$.

Det er intuitivt riktig at å multiplisere med 2 fører til at variansen firedobles, fordi avstanden mellom verdiene dobles, og variansen måler kvadratet av avstandene.

Tilbake til oppgaven

Diskrete sannsynlighetsfordelinger

Oppgave 1:

$X$ betegner antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6, og vi skal beregne de tre sannsynlighetene under, både ved bruk av binomialformelen

$P(X = x) = {\large \binom{n}{x}} p^x (1 – p)^{n – x}$

og tabellen over binomisk fordeling.

Her er p = 0,6 siden sannsynligheten for kron er 0,6, og n = 8 fordi vi kaster 8 ganger.

  1. $P(X = 4)$
    Formel:
    ${\large \binom{8}{4}} (0{,}6)^4 (1 – 0{,}6)^{8 – 4} \approx 0{,}2322$
    Tabell:
    $P(X \le 4) – P(X \le 3) \approx 0{,}4059 – 0{,}1737 = 0{,}2322$. Markert med rødt i bildet under.
     
  2. $P(X \le 2)$
    Formel:
    Dette er summen av sannsynlighetene for at $X$ er 0, 1 eller 2:
    $P(X = 2) + P(X = 1) + P(X = 0) = \\
    {\large \binom{8}{2}} (0{,}6)^2 (1 – 0{,}6)^{8 – 2} + {\large \binom{8}{1}} (0{,}6)^1 (1 – 0{,}6)^{8 – 1} + {\large \binom{8}{0}} (0{,}6)^0 (1 – 0{,}6)^{8 – 0} \approx \\
    0{,}0413 + 0{,}0079 + 0{,}0007 = 0{,}0498$

    Tabell:
    $P(X \le 2) = 0{,}0498$. Markert med blått i bildet under.
  3. $P(X \le 6)$
    Formel:
    I stedet for å summere sannsynlighetene for at $X$ er 0,1,2 3, 4, 5 eller 6, er det enklere å benytte seg av komplementærhendelsen, $X > 6$, altså at $X$ er 7 eller 8.
    $P(X \le 6) = 1 – P(X > 6) = 1 – P(X = 8) – P(X = 7) = \\
    1 – {\large \binom{8}{8}} (0{,}6)^8 (1 – 0{,}6)^{8 – 8} – {\large \binom{8}{7}} (0{,}6)^7 (1 – 0{,}6)^{8 – 7} \approx \\
    1 – 0{,}0168 – 0{,}0896 = 0{,}8936$

    Tabell: $P(X \le 6) = 0{,}8936$. Markert med oransje i bildet under.

Eksempler på oppslag i binomisk tabell

For å kontrollere svarene i Excel, skriver vi henholdsvis

  1. =binom.fordeling.n(4; 8; 0,6; usann)
     
  2. =binom.fordeling.n(2; 8; 0,6; sann)
     
  3. =binom.fordeling.n(6; 8; 0,6; sann)

For å kontrollere svarene i GeoGebra, velger vi "Innstillinger" – "Avrunding" – "4 desimaler" og skriver henholdsvis

  1. FordelingBinomial(8, 0.6, 4, false)
     
  2. FordelingBinomial(8, 0.6, 2, true)
     
  3. FordelingBinomial(8, 0.6, 6, true)

Så skal vi vurdere om P(X = 7) er mindre enn, lik eller større enn P(X = 1).

P(X = 7) tilsvarer "7 kron", mens P(X = 1) tilsvarer "7 mynt". Siden kron har høyere sannsynlighet enn mynt, vil en overvekt av kron være mer sannsynlig enn en tilsvarende overvekt av mynt, så P(X = 7) > P(X = 1). Hadde sannsynlighetene vært like, p = 0,5, ville vi hatt P(X = 7) = P(X = 1).

Tilbake til oppgaven

Oppgave 2:

Vi skal finne $E(X)$, $Var(X)$ og $\sigma(X)$ når

  1. $X$ er antall kron i 10 kast med en rettferdig mynt.
    Dette er en binomisk situasjon der kron betyr suksess og mynt betyr fiasko. Vi har $n = 10$ og $p = 0{,}5$, så vi får
    $E(X) = n \cdot p = 10 \cdot 0{,}5 = 5$.
    $Var(X) = n \cdot p(1 – p) = 10 \cdot 0{,}5(1 – 0{,}5) = 2{,}5$.
    $\sigma(X) = \sqrt{Var(X)} = \sqrt{2{,}5} \approx 1{,}58$.
     
  2. $X$ er antall seksere i 5 kast med en rettferdig terning.
    Dette er en binomisk situasjon der "sekser" betyr suksess og "ikke sekser" betyr fiasko. Vi har $n = 5$ og $p = {\large \frac{1}{6}} \approx 0{,}167$, så vi får
    $E(X) = n \cdot p \approx 5 \cdot 0{,}167 = 0{,}84$.
    $Var(X) = n \cdot p(1 – p) \approx 5 \cdot 0{,}167(1 – 0{,}167) = 0{,}70$.
    $\sigma(X) = \sqrt{Var(X)} = \sqrt{0{,}70} \approx 0{,}83$.

Tilbake til oppgaven

Oppgave 3:

I en forening med 65 medlemmer er 13 negative til et forslag. Vi velger 20 representanter tilfeldig fra gruppen og skal finne sannsynligheten for at et visst antall er negative. Lar vi X være antall negative representanter, er P(X) hypergeometrisk fordelt med N = 65  elementer, av disse er M = 13 spesielle, altså negative. Vi trekker n = 20 ganger og skal finne sannsynligheten for at

  1. Ingen av representantene er negative.
    Vi får
    $P(X = 0) = \frac{\displaystyle \binom{13}{0} \cdot \binom{65 – 13}{20 – 0}}{\displaystyle \binom{65}{20}} \approx 0{,}0044$.
    Det er ca. 0,44 % sannsynlighet for at ingen er negative.
     
  2. Én av representantene er negativ.
    Vi får
    $P(X = 1) = \frac{\displaystyle \binom{13}{1} \cdot \binom{65 – 13}{20 – 1}}{\displaystyle \binom{65}{20}} \approx 0{,}0350$.
    Det er ca. 3,5 % sannsynlighet for at én er negativ.
     
  3. To eller flere av representantene er negative.
    Dette kan vi beregne som
    $P(X = 2) + P(X = 3) + \dots + P(X = 20)$, men det er mye enklere å se på komplementærhendelsen. Da kan vi også bruke det vi har funnet i punkt 1 og 2.
    Vi får
    $P(X \ge 2) = 1 – P(X = 0) – P(X = 1) \approx 0{,}9605$.
    Det er ca. 96,05 % sannsynlighet for at to eller flere er negative.

For å kontrollere svarene i Excel, skriver vi henholdsvis

  1. =hypgeom.fordeling.n(0; 20; 13; 65; usann)
     
  2. =hypgeom.fordeling.n(1; 20; 13; 65; usann)
     
  3. =1 – hypgeom.fordeling.n(1; 20; 13; 65; sann)

For å kontrollere svarene i GeoGebra, velger vi "Innstillinger" – "Avrunding" – "4 desimaler" og skriver vi henholdsvis

  1. FordelingHypergeometrisk(65, 13, 20, 0, false)
     
  2. FordelingHypergeometrisk(65, 13, 20, 1, false)
     
  3. 1 – FordelingHypergeometrisk(65, 13, 20, 1, true)

RegnearkÅpne et regneark med beregningene fra oppgave 3
 

​Tilbake til oppgaven

Oppgave 4

Vi skal finne $E(X)$, $Var(X)$ og $\sigma(X)$ i et utvalg der $N = 65$, $M = 13$ og $n = 20$. Vi får

$E(X) = 20 \cdot {\large \frac{13}{65}} = 4$.

$Var(X) = \Big({\large \frac{65 – 20}{65 – 1}} \Big) \cdot 20 \cdot {\large \frac{13}{65}} \cdot \Big(1 – {\large \frac{13}{65}} \Big) = 2{,}25$.

$\sigma(X) = \sqrt{Var(X)} = \sqrt{2{,}25} = 1{,}50$.

​Tilbake til oppgaven

Oppgave 5:

Vi vet at det i en vannprøve i gjennomsnitt er to hoppekreps, at forekomsten av hoppekreps er poissonfordelt, og skal finne sannsynligheten for at en tilsvarende vannprøve inneholder et gitt antall hoppekreps. Vi skal både bruke formelen for poissonfordeling, $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{- \lambda}$ og tabellen over poissonfordeling med $\lambda = 2$.

  1. Sannsynligheten for ingen hoppekreps.
    Formel: $P(X = 0) = \frac{\displaystyle 2^{0}}{\displaystyle 0!}e^{-2} \approx 0{,}1353$.
    Tabell: $P(X = 0) = P(X \le 0) = 0{,}1353$. Markert med rødt i bildet under.
     
  2. Sannsynligheten for én hoppekreps
    Formel: $P(X = 1) = \frac{\displaystyle 2^{1}}{\displaystyle 1!}e^{-2} \approx 0{,}2707$.
    Tabell: $P(X = 1) = P(X \le 1) – P(X \le 0) = 0{,}4060 – 0{,}1353 = 0{,}2707$. Markert med blått i bildet under.
     
  3. Sannsynligheten for to eller flere hoppekreps. Vi ser på komplementærhendelsen:
    Formel: $P(X \ge 2) = 1 – P(X = 1) – P(X = 0) \approx 1 – 0{,}1353 – 0{,}2707 = 0{,}5940$.
    Tabell: $P(X \ge 2) = 1 – P(X \le 1) = 1 – 0{,}4060 = 0{,}5940$. Markert med oransje i bildet under.

Eksempler på oppslag i poissontabell

For å kontrollere svarene i Excel, skriver vi henholdsvis

  1. =poisson.fordeling(0; 2; usann)
     
  2. =poisson.fordeling(1; 2; usann)
     
  3. =1 – poisson.fordeling(1; 2; sann)

For å kontrollere svarene i GeoGebra, velger vi "Innstillinger" – "Avrunding" – "4 desimaler" og skriver vi henholdsvis

  1. FordelingPoisson(2, 0, false)
     
  2. FordelingPoisson(2, 1, false)
     
  3. 1 – FordelingPoisson(2, 1, true)

RegnearkÅpne et regneark med beregningene fra oppgave 5
 

​Tilbake til oppgaven

Oppgave 6:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten.

Her har vi altså $N = 10\, 000$, $M = 5000$, $n = 100$, og skal finne $P(X = 50)$.

  1. Vi skal først bruke hypergeometrisk fordeling og får:
    $P(X = 50) = \frac{\displaystyle \binom{5000}{50} \cdot \binom{10000 – 5000}{100 – 50}}{\displaystyle \binom{10000}{100}} \approx 0{,}0800$.
    Vi ser at mellomregningene involverer svært høye tall, for eksempel er ${\large \binom{10000}{100}} \approx 6{,}52 \cdot 10^{241}$.
     
  2. Så skal vi avgjøre om en tilnærming med binomisk fordeling vil være god. Vi har $n = 100$ og ${\large \frac{N}{20}} = 500$. Siden $n \le {\large \frac{N}{20}}$, er tilnærmingen god.
     
  3. Vi bruker binomisk fordeling og får: $P(X = 50) = {\large \binom{100}{50}} (0,5)^{50} (1 – 0,5)^{100 – 50} \approx 0{,}0796$.
     
  4. Med fire siffer bak komma ble feilen $0{,}0800 – 0{,}0796 = 0{,}0004$.

Tilbake til oppgaven

Oppgave 7:

Vi skal bruke binomisk sannsynlighetsfordeling for å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Vi har $n = 75$ og $p = {\large \frac{1}{52}} \approx 0{,}0192$. Det enkleste er å basere seg på sannsynligheten for komplementærhendelsen "aldri spar ess":

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \binom{75}{0}} (0{,}0192)^0 (1 – 0{,}0192)^{75 – 0} \approx 0{,}7664$.

Så skal vi avgjøre om vi kan bruke poissonfordeling til å beregne denne sannsynligheten. Vi har $n = 75$, som er innenfor grensa på $n > 50$, og vi har $p = 0{,}0192$, som er innenfor grensa på $p \le 0{,}05$, så tilnærmingen bør være god. Vi har $\lambda = 75 \cdot 0,0192 = 1,44$ og får

$P(X \ge 1) = 1 – P(X = 0) = 1 – {\large \frac{(1{,}44)^0}{0!}}e^{-1{,}44} \approx 0{,}7631$

Tilbake til oppgaven

Normalfordelingen

Oppgave 1:

Vi skal bruke normalfordelingstabellen til å finne

  1. $P(Z \le 0{,}85)$
    Det vil si $G(0{,}85)$.
    Vi leser av tabellen der rad 0,8 krysser kolonne 0,05, og får
    $0,8023$.
     
  2. $P(Z \le -1{,}21)$
    Det vil si $G(-1{,}21) = 1 – G(1{,}21)$
    Vi leser av tabellen der rad 1,2 krysser kolonne 0,01, og får 0,8669.
    Så vi får $1 – 0,8669 = 0,1131$.
     
  3. $P(-0{,}22 \le Z \le 0{,}22)$
    Det vil si $G(0{,}22) – G(-0{,}22) = G(0{,}22) – \big(1 – G(0{,}22) \big) = 2 \cdot G(0{,}22) – 1$
    Vi leser av tabellen der rad 0,2 krysser kolonne 0,02, og får 0,5871.
    Så vi får $2 \cdot 5871 – 1 = 0,1742$.

Tilbake til oppgaven

Oppgave 2:

På en eksamen er resultatene $N(14, 2^2)$, og vi skal finne hvor mange som forventes å stryke, det vil si få mindre enn 12 poeng. Vi skal bruke normalfordelingstabellen, Excel og GeoGebra.

Det vi skal beregne er $P(X < 12)$ i den gitte fordelingen. Vi gjør en standardisering og finner ut at dette tilsvarer $G({\large \frac{12 – 14}{2}}) = G(-1) = 1 – G(1)$. Vi går inn i normalfordelingstabellen, rad 1,0 og kolonne 0,00, og finner 0,8413.

$P(X < 12) \approx 1 – 0{,}8413 = 0{,}1587$. Omlag 15,8 % kan forventes å stryke.

I Excel skriver vi =norm.fordeling(12; 14; 2; sann) og får 0,1587.

I GeoGebra skriver vi FordelingNormal(14, 2, 12) og får det samme. (Muligens etter at vi har brukt menyen "Innstillinger" – "Avrunding" til å sette at GeoGebra skal vise tall med 4 desimaler.

Tilbake til oppgaven

Oppgave 3:

Vi skal finne sannsynligheten for at en orkidedyrker klarer å produsere minst 3200 blomsterstengler når han har 2500 planter, og i gjennomsnitt 20 % av plantene ikke får blomsterstengler, 40 % får én stengel, 30 % to stengler, og 10 % tre stengler.

Dersom X er antall stengler per plante, har vi altså at P(X = 0) = 0,2, P(X = 1) = 0,4, P(X = 2) = 0,3 og P(X = 3) = 0,1. Dersom Y er antall stengler totalt, skal vi finne P(Y \ge 3200).

Vi beregner forventning og varians for X:

$E(X) = 0 \cdot 0{,}2 + 1 \cdot 0{,}4 + 2 \cdot 0{,}3 + 3 \cdot 0{,}1 = 1{,}3$.

$E(X^2) = 0^2 \cdot 0{,}2 + 1^2 \cdot 0{,}4 + 2^2 \cdot 0{,}3 + 3^2 \cdot 0{,}1 = 2{,}5$.

$Var(X) = E(X^2) – (E(X))^2 = 2{,}5 – (1{,}3)^2 = 0{,}81$.

Altså $\mu = E(X) = 1{,}3$, og $\sigma^2 = Var(X) = 0{,}81$.

n = 2500, langt over tommelfingerregelen på "> 30". Så dersom antall stengler på en plante er uavhengig av de andre, har vi ifølge sentralgrenseteoremet at summen er tilnærmet normalfordelt,

$N(n \mu, n \sigma^2) = N(2500 \cdot 1{,}3, 2500 \cdot 0{,}81) = N(3250, 2025)$.

Grunnen til at vi trekker ut rota av 2025 er at det er variansen, $\sigma^2$, som er 2025, så standardavviket blir $\sigma = \sqrt{2025}$.

Vi gjør en standardisering, og finner ut at

$P(Y \ge 3200) = 1 – P(Y < 3200)$ tilsvarer

$1 – G({\large \frac{3200 – 3250}{\sqrt{2025}}}) \approx 1 – G(-1{,}11) = G(1{,}11)$.

Vi går inn i normalfordelingstabellen, rad 1,1, kolonne 0,01 og finner 0,8665.

Alternativt skriver vi =1-norm.fordeling(3200; 3250; rot(2025); sann) i Excel eller 1- FordelingNormal(3250, sqrt(2025), 3200) i GeoGebra og får 0,8667, som er litt mer presist.

Det er altså omlag 86,7 % sannsynlighet for at han klarer å produsere nok stengler.

Tilbake til oppgaven

Oppgave 4:

Vi trekker 20 varer tilfeldig fra et parti på 100 varer der 10 av varene har feil. Dette er en hypergeometrisk situasjon med $n = 20$, $N = 100$ og $M = 10$. Hvis $X$ betegner antall varer med feil, er altså $X \sim \text{hypergeom}(100, 10, 20)$.

  1. Vi skal finne sannsynligheten for at minst 1 av varene har feil, altså $P(X \ge 1) = 1 – P(X = 0)$.
    I en hypergeometrisk fordeling er $P(X = x) = {\Large \frac{\binom{M}{x} \binom{N – M}{n – x}}{\binom{N}{n}}}$, så $P(X = 0) = {\Large \frac{\binom{10}{0} \binom{90}{20}}{\binom{100}{20}}} \approx 0{,}0951$, og
    $P(X \ge 1) \approx 1 – 0{,}0951 = 0{,}9049$. Det er ca. 90,5 % sannsynlig at minst 1 av varene i utvalget har feil.
     
  2. Vi skal avgjøre om vi kan forvente at en normaltilnærming er god i dette tilfellet. Vi har $N = 100$ og $20 \cdot 20 = 400$, så kriteriet $N \ge 20n$ er absolutt ikke oppfylt, og vi kan ikke forvente at tilnærmingen er særlig god.
     
  3. Vi skal bruke normaltilnærming til å beregne den samme sannsynligheten som i 1). Vi har at
    $E(X) = n \cdot {\large \frac{M}{N}} = 20 \cdot {\large \frac{10}{100}} = 2$.
    $Var(X) = \Big( {\large \frac{N – n}{N – 1}} \Big) \cdot n \cdot {\large \frac{M}{N}} \cdot \Big(1 – {\large \frac{M}{N}} \Big) = \Big( {\large \frac{100 – 20}{100 – 1}} \Big) \cdot 20 \cdot {\large \frac{10}{100}} \cdot \Big(1 – {\large \frac{10}{100}} \Big) \approx 1,45$.
    Så normalfordelingen blir $N(2, \, 1{,}45)$. Vi gjør en standardisering og finner ut at
    $P(X \ge 1) = 1 – G({\large \frac{1 – 2}{\sqrt{1{,}45}}}) \approx 1 – G(-0{,}83) = G(0{,}83)$.
    Vi går inn i normalfordelingstabellen, rad 0,8, kolonne 0,03 og finner $0{,}7967$. Dette er omlag ${\large \frac {0{,}9049 – 0{,}7967}{0{,}9049}} \approx 0{,}12$, altså omlag 12 % for lavt.

Tilbake til oppgaven

Oppgave 5:

Vi trekker 200 varer tilfeldig fra et parti på 10 000 varer der 1000 av varene har feil. Dette er en hypergeometrisk situasjon med $n = 200$, $N = 10 \, 000$ og $M = 1000$. Hvis $X$ betegner antall varer med feil, er altså $X \sim \text{hypergeom}(10 \,000, 1000, 200)$. Det er oppgitt at $P(X \ge 15) \approx 0{,}8595$.

  1. Vi skal avgjøre om vi kan forvente at en normaltilnærming er god i dette tilfellet.
    Vi har $N = 10 \, 000$ og $20 \cdot 200 = 4000$, så kriteriet $N \ge 20n$ er oppfylt. Videre har vi $n{\large \frac{M}{N}}(1 – {\large \frac{M}{N}}) = 200{\large \frac{1000}{10 \, 000}}(1 – {\large \frac{1000}{10 \, 000}}) \approx 17{,}64$. Siden dette er mer enn $10$, bør normaltilnærmingen være god.
     
  2. Vi skal bruke normaltilnærming til å beregne sannsynligheten for at $P(X \ge 15)$.
    Vi har at
    $E(X) = n \cdot {\large \frac{M}{N}} = 200 \cdot {\large \frac{1000}{10 \,000}} = 20$.
    $Var(X) = \Big( {\large \frac{N – n}{N – 1}} \Big) \cdot n \cdot {\large \frac{M}{N}} \cdot \Big(1 – {\large \frac{M}{N}} \Big) = \Big( {\large \frac{10 \, 000 – 200}{10 \, 000 – 1}} \Big) \cdot 200 \cdot {\large \frac{1.000}{10 \, 000}} \cdot \Big(1 – {\large \frac{1.000}{10 \, 000}} \Big) \approx 17{,}64$
    Så normalfordelingen blir $N(200, 17{,}64)$. Vi gjør en standardisering og finner ut at
    $P(X \ge 15) = 1 – G({\large \frac{15 – 20}{17{,}64}}) \approx 1 – G(-1{,}19) = G(1{,}19)$.
    Vi går inn i normalfordelingstabellen, rad 1,1, kolonne 0,09 og finner $0{,}8830$. Dette er omlag ${\large \frac {0{,}8830 – 0{,}8595}{0{,}8595}} \approx 0{,}0273$, altså omlag 2,7 % for høyt.

Tilbake til oppgaven

Oppgave 6:

Vi skal gjøre om igjen normaltilnærmingene i oppgave 4 og 5 med heltallskorreksjon og vurdere om resultatene blir bedre eller dårligere enn i oppgave 4 og 5.

I oppgave 4 hadde vi $X \sim \text{hypergeom}(100, 10, 20)$ og skulle finne $P(X \ge 1)$. Vi fant at svaret var omlag 0,9049. Normaltilnærming uten heltallskorreksjon ga 0,7967, ca. 12 % for lavt.

Med heltallskorreksjon får vi $1 – G({\large \frac{1 + 0{,}5 – 2}{\sqrt{1{,}45}}}) \approx 1 – G(-0{,}42) = G(0{,}42)$.

Vi går inn i normalfordelingstabellen, rad 0,4, kolonne 0,02 og finner $0{,}6628$. Dette er omlag ${\large \frac {0{,}9049 – 0{,}6628}{0{,}9049}} \approx 0{,}27$, altså omlag 27 % for lavt.

Dette er et verre resultat enn uten heltallskorreksjon. Men vi har jo uansett konkludert med at normaltilnærming ikke er brukbar i denne situasjonen.

I oppgave 5 hadde vi $X \sim \text{hypergeom}(10 \, 000, 1000, 200)$, og det var oppgitt at $P(X \ge 15) \approx 0{,}8595$. Normaltilnærming uten heltallskorreksjon ga 0,8830, ca. 2,7 % for høyt.

Med heltallskorreksjon får vi $1 – G({\large \frac{15 + 0{,}5 – 20}{17{,}64}}) \approx 1 – G(-1{,}07) = G(1{,}07)$.

Vi går inn i normalfordelingstabellen, rad 1,0, kolonne 0,07 og finner $0{,}8577$. Dette er omlag ${\large \frac {0{,}8595 – 0{,}8577}{0{,}8595}} \approx 0{,}00209$, altså omlag 0,21 % for lavt. Heltallskorreksjon har gitt en forbedring, fra 2,7 til 0,21 % feil.

Tilbake til oppgaven

Estimering

Oppgave 1:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, skal vi gi et forventningsrett estimat for dagsproduksjonen av støtfangere.

Som estimat bruker vi gjennomsnittet: $\overline X = {\large \frac{210 + 220 + 210 + 225 + 220 + 217}{6}} = 217$.

Tilbake til oppgaven

Oppgave 2:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, og at standardavviket til produksjonen er $\sigma = 5{,}8$, skal vi angi estimert gjennomsnitt i form av en rapportering.

I oppgave 1 fant vi at gjennomsnittlig dagsproduksjon var 217 støtfangere.

En rapportering av estimatet til gjennomsnittlig produksjon vil derfor bli

$217 \pm \frac{\displaystyle 5{,}8}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}37$

Tilbake til oppgaven

Oppgave 3:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, skal vi estimere standardavviket til produksjonen og presentere estimert gjennomsnitt i form av en rapportering..

Vi fant i oppgave 1 at gjennomsnittsproduksjonen var 217 enheter

Vi estimerer standardavviket med utvalgsstandardavviket, som blir

 $S = \sqrt{\large \frac{(210 -217)^2 + (220 – 217)^2 + (210 -217)^2 + (225 – 217)^2 + (220 – 217)^2 + (217 – 217)^2}{5}} = 6$.

Og en rapportering blir

$217 \pm \frac{\displaystyle 6}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}45$

Tilbake til oppgaven

Oppgave 4:

Basert på at dagsproduksjonen av støtfangere i seks forskjellige dager er henholdsvis 210, 220, 210, 225, 220 og 217 enheter og at standardavviket til produksjonen er $\sigma = 5{,}8$, skal vi angi et 95 % og 99 % konfidensintervall for gjennomsnittet til produksjonen.

Et 95 % konfidensintervall er gitt ved

$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 1{,}96 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [212{,}36, \: 221{,}64]$

Et 99 % konfidensintervall er gitt ved

$\overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 2{,}58 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [210{,}89, \: 223{,}11]$

Tilbake til oppgaven

Oppgave 5:

Vi skal bruke (normal) kvantiltabellen til å finne et 97 % konfidensintervall for gjennomsnittsvekten av laks når 13 laks er veid med et gjennomsnitt på 4,14 kg, og standardavviket til vekta i populasjonen er $\sigma = 0{,7}$.

I et 97 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 – 0{,}97}{2}} = 0{,}015$. Vi slår opp ${\large \frac{\alpha}{2}} = 0{,}015$ i kvantiltabellen og får $2{,}1701$.

Et 97 % konfidensintervall er gitt ved

$\overline X \pm 2{,}17 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 4,14 \pm 2{,}17 \cdot {\large \frac{0{,}7}{\sqrt{13}}} \approx [3{,}72, \: 4{,}56]$

Tilbake til oppgaven

Oppgave 6:

Vi skal bruke Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere, som på seks tilfeldige dager er 210, 220, 210, 225, 220 og 217 enheter, når vi vet at standardavviket til produksjonen er 5,8.

Vi skriver =konfidens.norm(1-0,98; 5,8; 6) i Excel, og får ut 5,51.

Vi har tidligere beregnet at gjennomsnittsproduksjonen er 217 enheter.

Et 98 prosent konfidensintervall blir derfor omlag

[217 – 5,51, 217 – 5,51 = [211,49, 222,51]

Tilbake til oppgaven

Oppgave 7:

Basert på at 6 tilfeldige observasjoner gir at gjennomsnittlig antall produserte støtfangere er $\overline X = 217$ og at produksjonens standardavvik er $S = 6$, skal vi lage og sammenlikne et 95 % konfidensintervall basert på normalfordeling med ett basert på t-fordeling.

I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 – 0{,}95}{2}} = 0{,}025$.

Vi vet fra tidligere at

${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.

Basert på normalfordelingen får vi derfor følgende 95 % konfidensintervall:

$217 \pm 1{,}96 \cdot {\large \frac{6}{\sqrt{6}}} \approx [212{,}2, \: 221{,}8]$

Vi slår opp ${\large t_{0{,}025 \, (5)}}$ i (t) kvantiltabellen, og finner 2,571.

Basert på t-fordelingen får vi derfor følgende 95 % konfidensintervall:

$217 \pm 2{,}57 \cdot {\large \frac{6}{\sqrt{6}}} \approx [210{,}7, \: 223{,}3]$

Konfidensintervallet blir en del bredere med t-fordeling enn med normalfordeling, dette skyldes usikkerheten når standardavviket er estimert ut fra så lite som 6 målinger.

Tilbake til oppgaven

Oppgave 8:

Basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 skal vi lage et 95 % konfidensintervall basert på t-fordeling ved hjelp av Excel.

I Excel skriver vi =konfidens.t(1-0,95; 6; 6) og får ut 6,30.

Så et 95 % konfidensintervall blir

$217 \pm 6{,}30 \approx [210{,}7, \: 223{,}3]$

Som er det samme som vi fant da vi gjorde beregningen for hånd i oppgave 7.

Tilbake til oppgaven

Oppgave 9:

Basert på at 35 av 2000 tilfeldige ladere er målt til å være defekte, skal vi estimere sannsynligheten for at en vilkårlig lader er defekt, og finne et 95 % konfidensintervall for denne sannsynligheten.

Et forventningsrett estimat for sannsynligheten for at en lader er defekt vil være andelen defekte ladere i utvalget. Altså:

$\hat p = {\large \frac{35}{2000}} = 0{,}0175$, altså 1,75 %.

Estimert standardavvik til estimatoren blir

$\sqrt{\large \frac{\hat p(1- \hat p)}{n}} = \sqrt{\large \frac{0{,}0175(1 – 0{,}0175)}{2000}} \approx 0{,}0029$.

En rapportering av sannsynligheten for at en lader er defekt blir da

$0{,}0175 \pm 0{,}067$

I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 – 0{,}95}{2}} = 0{,}025$.

Vi vet fra tidligere at

${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.

Så et 95 % konfidensintervall blir

$0{,}0175 \pm 1{,}96 \cdot 0{,}0029 \approx [0{,}0118, \: 0{,}0232]$, mellom 1,18 % og 2,32 %.

Tilbake til oppgaven

Hypotesetesting

Oppgave 1:

Basert på at hundre terningkast gir 20 seksere, skal vi sette opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og teste hypotesen med et signifikansnivå på 5 %.

Den alternative hypotesen er at terningen gir for mange seksere, det vil si at sannsynligheten for å få seks er mer enn en sjettedel, slik den er på en rettferdig terning. Kaller vi sannsynligheten for å få en sekser for $p$, har vi

$H_A: p > \frac{\displaystyle 1}{\displaystyle 6}$.

Nullhypotesen blir da at terningen er rettferdig, med sannsynlighet lik en sjettedel for å få en sekser:

$H_0: p = \frac{\displaystyle 1}{\displaystyle 6}$.

Grensen for forkastningsområdet blir:

$z_{\large \alpha} = z_{\large 0{,}05} \approx 1{,}6449$.

Testobservatoren blir:

$Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}} = \frac{\displaystyle 20 – 100 \cdot \frac{1}{6}}{\displaystyle \sqrt{100 \cdot \frac{1}{6} \Big(1 – \frac{1}{6} \Big)}} \approx 0{,}8944$.

Siden testobservatoren ligger til venstre for grensen for forkastningsområdet, kan vi ikke forkaste nullhypotesen på signifikansnivå 0,05. 20 av 100 seksere gir altså ikke grunnlag for å si at terningen gir for mange seksere.

Tilbake til oppgaven

Oppgave 2:

Vi skal utføre samme test som i oppgave 1, men nå basert på at 1000 terningkast ga 200 seksere. Hypotesene blir de samme, og grensen for signifikansnivået det samme, $z_{\large 0{,}05} \approx 1{,}6449$.

Testobservatoren blir nå

$Z = \frac{\displaystyle X – np_0}{\displaystyle \sqrt{np_0(1 – p_0)}} = \frac{\displaystyle 200 – 1000 \cdot \frac{1}{6}}{\displaystyle \sqrt{1000 \cdot \frac{1}{6} \Big(1 – \frac{1}{6} \Big)}} \approx 2{,}8284$.

Testobservatoren ligger nå langt inni forkastningsområdet, og vi forkaster nullhypotesen på signifikansnivå 0,05. 200 av 1000 seksere gir altså grunnlag for å si at terningen gir for mange seksere.

Sammenlikninger vi med oppgave 1, ser vi at det relative antallet seksere er det samme i begge tilfeller: $\frac{\displaystyle 20}{\displaystyle 100} = \frac{\displaystyle 200}{\displaystyle 1000} = 0{,}2$. Men å få 200 seksere på 1000 kast er altså mye mindre sannsynlig enn å få 20 på 100 kast. Det kommer av at den forventede spredningen, altså standardavviket, blir mindre jo flere forsøk vi gjør. 200 av 1000 seksere vil faktisk gi forkastning av nullhypotesen på så lite signifikansnivå som 0,0025. Det er altså mindre enn 0,25 % sjanse for å få 200 eller flere seksere på 1000 kast.

Tilbake til oppgaven

Oppgave 3:

Vi skal sette opp og gjennomføre en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet i dressingpakker er over 10 ml, når gjennomsnittet i 25 pakker er målt til 10,3 ml, og produksjonen har et standardavvik på 0,65 ml.

Hypotesene blir $H_A: \mu > 10$, $H_0: \mu = 10$.

Vi har $\overline X = 10{,}3$, og $\sigma = 0{,}65$.

Så vi får: Testobservator: $Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}3 – 10}{\displaystyle \frac{0{,}65}{\sqrt{25}}} \approx 2{,}31$.

Vi har $z_{\large \alpha} = z_{\large 0{,}01} \approx 2{,}3263$.

Siden $Z \not > z_{\large \alpha}$ kan vi ikke forkaste nullhypotesen, målingene gir med andre ord ikke dekning for at dressingene i snitt inneholder mer enn 10 ml. olje.

Tilbake til oppgaven

Oppgave 4:

Basert på at en TV-kanal en uke sender henholdsvis 3,3, 3,4, 4,0, 3,8, 3,8, 3,9 og 3,6 timer reklame per dag, skal vi sette opp og gjennomføre en hypotesetest på signifikansnivå 5 % på om kanalen sener mer reklame enn de tillatte 3,5 timer per dag.

Hypotesene blir $H_A: \mu > 3{,}5$$H_0: \mu = 3{,}5$.

De oppgitte tidene har et gjennomsnitt på $\overline X \approx 3{,}69$ og et standardavvik på $S \approx 0{,}26$. Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen. Antall frihetsgrader blir $7 – 1 = 6$.

Testobservator blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 3{,}69 – 3{,}5}{\displaystyle \frac{0{,}26}{\sqrt{7}}} \approx 1{,}933$.

Grensen for forkastningsområdet blir $ t_{\large 0{,}05 \, (6)} = 1{,}943$.

Siden $T \not > t_{\large 0{,}05 \, (6)}$, kan vi ikke forkaste nullhypotesen, og har på 5 % signifikansnivå ikke grunnlag for å si at kanalen sender for mye reklame.

Tilbake til oppgaven

Oppgave 5:

Basert på at innholdet i 20 glass syltetøy i gjennomsnitt er målt til 47,7 % bær, med et standardavvik på 5,7 %, skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder mindre enn fabrikantens påstand om minst 50 % bær.

Hypotesene blir $H_A: \mu < 50$, $H_0: \mu = 50$.

Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen.

Testobservator blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 47{,}7 – 50}{\displaystyle \frac{5{,}7}{\sqrt{20}}} \approx -1{,}80$.

Grensen for forkastningsområdet ved 5 % signifikansnivå blir $-t_{\large 0{,}05 \, (19)} \approx -1{,}729$.

Grensen for forkastningsområdet ved 1 % signifikansnivå blir $-t_{\large 0{,}01 \, (19)} \approx -2{,}539$.

Siden $T < -t_{\large 0{,}05 \, (19)}$ kan vi på 5 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at syltetøyet har for lite bær.

Man siden $T \not < -t_{\large 0{,}01 \, (19)}$ kan vi på 1 % nivå ikke forkaste nullhypotesen.

Tilbake til oppgaven

Oppgave 6:

Basert på 15 stikkprøver av sølvbarrer med 82,50 % gjennomsnittlig sølvmengde og et standardavvik på 0,73 % skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om gjennomsnittlig sølvmengde er 83,00 %.

Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen.

Testobservator blir $T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 82{,}50 – 83{,}00}{\displaystyle \frac{0{,}73}{\sqrt{15}}} \approx -2{,}653$.

Grensen for forkastningsområdet ved 5 % signifikansnivå blir $t_{\large 0{,}025 \, (14)} \approx 2{,}145$.

Grensen for forkastningsområdet ved 1 % signifikansnivå blir $t_{\large 0{,}005 \, (14)} \approx 2{,}977$.

Siden $|T| > t_{\large 0{,}025 \, (14)}$, kan vi på 5 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at sølvmengden ikke er korrekt.

Man siden $|T| \not > t_{\large 0{,}005 \, (14)}$, kan vi på 1 % nivå ikke forkaste nullhypotesen.

Tilbake til oppgaven

Sammenlikne datasett

Oppgave 1:

Vi har gitt to datasett $X$ og $Y$ med 4 korresponderende verdier:

$X_1 = 242$ $X_2 = 266$ $X_3 = 218$ $X_4 = 234$
$Y_1 = 363$ $Y_2 = 399$ $Y_3 = 327$ $Y_4 = 351$

og skal beregne

  1. Gjennomsnittet i hvert av settene.
    Vi får
    $\overline X = {\large \frac{242 + 266 + 218 + 234}{4}} = 240$
    $\overline Y = {\large \frac{363 + 399 + 327 + 351}{4}} = 360$
     
  2. Standardavviket i hvert av settene.
    Summen av kvadratavvikene i $X$ er
    $(242 – 240)^2 + (266 – 240)^2 + (218 – 240)^2 + (234 – 240)^2 = 1200$
    Og standardavviket blir $\sigma^{\phantom 1}_X = \sqrt {\large \frac{1200}{4}} \approx 17{,}32$
    Summen av kvadratavvikene i $Y$ er
    $(363 – 360)^2 + (399 – 360)^2 + (327 – 360)^2 + (351 – 360)^2 = 2700$
    Og standardavviket blir $\sigma^{\phantom 1}_Y = \sqrt {\large \frac{2700}{4}} \approx 25{,}98$.
     
  3. Kovariansen mellom settene.
    Vi får $Cov(X, Y)= {\large \frac{(242 – 240)(363 – 360) + (266 – 240)(399 – 360) + (218 – 240)(327 – 360) + (234 – 240)(351 – 360)}{4}} = 450$
     
  4. Korrelasjonskoeffisienten mellom settene.
    Vi får $R(X, Y) = {\large \frac{Cov(X, Y)}{\sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y}} \approx {\large \frac{450}{17{,}32 \cdot 25{,}98}} \approx 1$
    Vi har altså perfekt samvariasjon. Hvis vi kontrollregner, ser vi at det stemmer, for hvert element i $Y$ er lik det tilhørende elementet i $X$ multiplisert med $1{,}5$.

Tilbake til oppgaven

Oppgave 2:

En bedrift  sammenlikner to maskiner for å se om det er forskjell i mengden sukker de tilsetter i en matvare. Maskin X arbeider med et standardavvik på 0,11 og maskin Y med et standardavvik på 0,13. 

60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Så skal vi sette opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker.

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}107 – 10{,}061}{\displaystyle \sqrt{\frac{(0{,}11)^2}{60} + \frac{(0{,}13)^2}{75}}} \approx 2{,}226$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{\alpha^\phantom 1}{2}}$

I (kvantil)normalfordelingstabellen finner vi at $z_{\Large \frac{0{,}05}{2}} \approx 1,9600$.

Siden $|Z| > z_{\Large \frac{0{,}05}{2}}$, kan vi forkaste vi nullhypotesen. Undersøkelsen bekrefter at det er forskjell på sukkermengdene.

Tilbake til oppgaven

Oppgave 3:

Frukthøsten til 13 kirsebærtrær av type $X$ og 12 kirsebærtrær av type $Y$ er vist i tabellen under, og vi skal sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Type $X$ 44 44 56 46 47 38 58 53 49 35 46 30 41
Type $Y$ 35 47 55 29 40 39 32 41 42 57 51 39  

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$.

Fra kalkulator eller PC får vi:

$\overline X \approx 45{,}154$.

$\overline Y = 42{,}250$.

$S_X \approx 7{,}998$.

$S_Y \approx 8{,}740$.

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {7{,}998}^2(13 – 1) + {8{,}740}^2(12 – 1)}{\displaystyle 13 + 12 – 2} \approx 8{,}361$.

$T \approx \frac{\displaystyle 45{,}154 – 42{,}250}{\displaystyle 8{,}361 \sqrt{\frac{1}{13} + \frac{1}{12}}} \approx 0{,}868$.

Vi har her en tosidig test, og forkaster nullhypotesen hvis $|T| > t_{\Large \frac{\alpha}{2},\, (v)}$.

Vi slår opp i (t) kvantiltabellen med $a = 0{,}025$ og $v = 13 + 12 – 2 = 23$ og finner $2{,}069$.

Siden $|T| \not > t_{\large 0{,}025 \, (23)}$, kan vi ikke forkaste nullhypotesen. Undersøkelsen gir ikke grunnlag for å si at den ene typen trær gir mer kirsebær enn den andre.

Tilbake til oppgaven

Oppgave 4:

Basert på blodtrykket til 15 pasienter før og etter bruk av en medisin, vist i tabellen under, skal vi sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om medisinen som en bieffekt reduserer blodtrykket.

Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84
Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Her gir det bare mening å gjøre en parvis test. Vi beregner først differansen mellom før og etter:

Differanse 2 8 10 6 18 10 4 26 18 -8 0 32 0 -4 10

Vi kaller "før" for $X$, "etter" for $Y$ og differansen for $D$.

Hypotesene blir $H_A: \overline X > \overline Y$, $H_0: \overline X = \overline Y$.

Fra kalkulator eller PC får vi:

$\overline D = 8{,}8$.

$S_p = S_D \approx 10{,}975$.

Testobservatoren blir

$T \approx \frac{\displaystyle 8{,}8}{\displaystyle 10{,}975 \frac{1}{\sqrt{15}}} \approx 3{,}105$.

Vi har her en høyresidig test, og forkaster nullhypotesen hvis $T > t_{\large \alpha, \, (v)}$.
Vi slår opp i t-fordelingstabellen med $\alpha = 0{,}05$ og $v = 15 – 1 = 14$ og finner $1{,}761$.

Siden $T > t_{\large 0{,}05 \, (14)}$, kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at medisinen gir redusert blodtrykk.

Tilbake til oppgaven

Oppgave 5:

En bedrift skal undersøke om det er forskjell i sannsynlighetene for defekter ved to produksjonslinjer for bukser. De finner 147 av 2500 defekte ved første produksjonslinje og 151 av 2000 ved andre. Vi skal sette opp og på 5 % signifikansnivå teste en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene.

Vi kaller sannsynligheten for defekt ved linje 1 for $p_1$ og sannsynligheten for defekt ved linje 2 for $p_2$. Hypotesene blir

$H_A: p_1 \ne p_2$ mot $H_0: p_1 = p_2$.

Vi har $n_1 = 2500$, $n_2 = 2000$.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 147}{\displaystyle 2500} \approx 0{,}0588$.

$\hat p_2 = \frac{\displaystyle 151}{\displaystyle 2000} \approx 0{,}0755$.

$\hat p = \frac{\displaystyle 147 + 151}{\displaystyle 2500 + 2000} \approx 0{,}0662$.

Og vi får

$Z \approx \frac{\displaystyle 0{,}0588 – 0{,}0755}{\displaystyle \sqrt{0{,}0662(1 – 0{,}0662)(\frac{\displaystyle 1}{\displaystyle 2500} + \frac{\displaystyle 1}{\displaystyle 2000})}} \approx -2{,}239$.

Siden vi har en tosidig test med 5 % signifikansnivå, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{0{,}05}{2}} = z_{\large 0{,}025}$. Vi slår opp i (normal) kvantiltabellen, og finner $z_{\large 0{,}025} = 1{,}9600$.

Siden $|Z| = 2{,}239 > 1{,}9600$, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i defektsannsynligheten ved de to linjene.

Tilbake til oppgaven

Datainnsamling

Oppgave 1:

Du ønsker å finne ut hvor populært kino er i forhold til å se film hjemme, går i byen en kveld og intervjuer tilfeldige forbipasserende.

Naturligvis er det liten grunn til å tro at dette utvalget er representativt. Det er jo mer sannsynlig at du treffer kinogjengerne på byen enn de som sitter hjemme og ser på film.

Tilbake til oppgaven