Løsningsforslag, mer om statistikk

Sentralgrenseteoremet

Oppgave 1:

Vi skal finne sannsynligheten for at en orkidedyrker klarer å produsere minst 3200 blomsterstengler når han har 2500 planter, og i gjennomsnitt 20 % av plantene ikke får blomsterstengler, 40 % får én stengel, 30 % to stengler, og 10 % tre stengler.

Dersom X er antall stengler per plante, har vi altså at P(X = 0) = 0,2, P(X = 1) = 0,4, P(X = 2) = 0,3 og P(X = 3) = 0,1. Dersom Y er antall stengler totalt, skal vi finne P(Y ≥ 3200).

Vi beregner forventning og varians for X:

E(X) = 0 · 0,2 + 1 · 0,4 + 2 · 0,3 + 3 · 0,1 = 1,3.

E(X2) = 02 · 0,2 + 12 · 0,4 + 22 · 0,3 + 32 · 0,1 = 2,5.

Var(X) = E(X2) − [E(X)]2 = 2,5 − (1,3)2 = 0,81.

Altså μ = E(X) = 1,3, og σ2 = Var(X) = 0,81.

n = 2500, langt over tommelfingerregelen på «> 30». Så dersom antall stengler på en plante er uavhengig av de andre, har vi ifølge sentralgrenseteoremet at summen er tilnærmet normalfordelt. Standardavviket og variansen til Y blir 2500 ganger standardavviket og variansen til X, siden vi har 2500 planter.

Y ~ N(2500 · 1,3, 2500 · 0,81) = N(3250, 2025) = N(3250, 452).

Så skal vi finne P(Y ≥ 3200). Vi skriver =1-norm.fordeling(3200; 3250; 45; sann) i Excel eller 1- fordelingnormal(3250, 45, 3200) i GeoGebra og får 0,8667.

Det er altså om lag 86,67 % sannsynlighet for at han klarer å produsere nok stengler.

Vi kan også finne normaltilnærmngen ved å bruke normalfordelingstabellen. Vi gjør da først en standardisering, og finner at P(Y ≥ 3200) = 1 − P(Y < 3200) tilsvarer $1 – G({\large \frac{3200 – 3250}{45}}) \approx 1 – G(-1{,}11) = G(1{,}11)$. Så går vi inn i tabellen, rad 1,1, kolonne 0,01, der det står 0,8665.

Tilbake til oppgaven

Oppgave 2:

Vi har en juksemynt med sannsynlighet p = 0,6 for kron, og vil finne sannsynligheten for å få 125 eller færre kron i 200 kast. Det er oppgitt at sannsynligheten for dette er ca. 0,7858.

Vi skal avgjøre om en normaltilnærming kan forventes å være god i dette tilfellet. En normaltilnærming anses å være god hvis np(1 − p) ≥ 10. Vi har n = 200, p = 0,6, så vi får np(1 − p) = 200 · 0,6(1 − 0,6) = 48, så vi forventer at normaltilnærmingen er god.

Vi har at når X ~ bin(np), er normaltilnærmingen N(np, np(1 − p)), det vil si N(200 · 0,6, 200 · 0,6(1 − 0,6) = N(120, 48).

Hvis vi så skriver =norm.fordeling(125; 120; rot(48); sann) i Excel eller fordelingnormal(120, sqrt(48), 125) GeoGebra, får vi 0,7648.

Dette er en feil på ${\large \frac{0{,}7858 – 0{,}7648}{0{,}7858}} \approx 0{,}0268$, ca. 2,6 % for lavt.

Tilbake til oppgaven

Oppgave 3:

I oppgave 2 brukte vi normaltilnærming for å finne sannsynligheten for å få 125 eller færre kron i 200 kast med en mynt med sannsynlighet p = 0,6 for kron. Nå skal vi gjøre tilnærmingen om igjen med heltallskorreksjon.

Normalfordelingen er den samme som i oppgave 2, N(120, 48), men vi skal erstatte 125 med 125 + 0,5 = 125,5.

Hvis vi skriver =norm.fordeling(125,5; 120; rot(48); sann) i Excel eller fordelingnormal(120, sqrt(48), 125.5) i GeoGebra, får vi 0,7864.

I forhold til den riktige verdien på 0,7858, er feilen ${\large \frac{0{,}7858 – 0{,}7864}{0{,}7858}} \approx -0{,}0007$, ca. 0,1 % for høyt.

Tilnærmingen er altså blitt bedre, med bare 0,1 % feil i forhold til 2,6 % feil uten heltallskorreksjon.

Tilbake til oppgaven

Estimering

Oppgave 1:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, skal vi gi et forventningsrett estimat for dagsproduksjonen av støtfangere.

Som estimat bruker vi gjennomsnittet: $\mu = \overline X = {\large \frac{210 + 220 + 210 + 225 + 220 + 217}{6}} = 217$.

Tilbake til oppgaven

Oppgave 2:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, som i oppgave 1, og at standardavviket til produksjonen er σ = 5,8, skal vi angi estimert gjennomsnitt i form av en rapportering.

I oppgave 1 fant vi at gjennomsnittlig dagsproduksjon var 217 støtfangere.

I en rapportering angir vi estimert verdi pluss/minus standardavviket til estimatoren.

Standardavviket til estimatoren er $\frac{\displaystyle \sigma}{\displaystyle \sqrt n} = \frac{\displaystyle 5{,}8}{\displaystyle \sqrt 6} \approx 2{,}37$.

Så en rapportering av estimatet til gjennomsnittlig produksjon blir

$217 \pm \frac{\displaystyle 5{,}8}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}37$

Tilbake til oppgaven

Oppgave 3:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, som i oppgave 1, skal vi estimere standardavviket til produksjonen og presentere estimert gjennomsnitt i form av en rapportering.

Vi fant i oppgave 1 at gjennomsnittsproduksjonen var 217 enheter

Vi estimerer standardavviket med utvalgsstandardavviket, som blir

 $\hat \sigma = S = \sqrt{\large \frac{(210 −217)^2 + (220 − 217)^2 + (210 −217)^2 + (225 − 217)^2 + (220 − 217)^2 + (217 − 217)^2}{5}} = 6$.

Og en rapportering blir

$217 \pm \frac{\displaystyle 6}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}45$

Tilbake til oppgaven

Oppgave 4:

Basert på at dagsproduksjonen av støtfangere i seks forskjellige dager er henholdsvis 210, 220, 210, 225, 220 og 217 enheter, som i oppgave 1, og at standardavviket til produksjonen er er σ = 5,8, skal vi angi et 95 % og 99 % konfidensintervall for gjennomsnittet til produksjonen.

Et 95 % konfidensintervall er gitt ved

$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 1{,}96 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [212{,}36, \: 221{,}64]$

Et 99 % konfidensintervall er gitt ved

$\overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 2{,}58 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [210{,}89, \: 223{,}11]$

Tilbake til oppgaven

Oppgave 5:

Vi skal bruke (normal) kvantiltabellen til å finne et 97 % konfidensintervall for gjennomsnittsvekta av laks når 13 laks er veid med et gjennomsnitt på 4,14 kg, og standardavviket til vekta i populasjonen er er σ = 0,7.

I et 97 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}97}{2}} = 0{,}015$. Vi slår opp ${\large \frac{\alpha}{2}} = 0{,}015$ i kvantiltabellen, der det står 2,1701.

Et 97 % konfidensintervall er da gitt ved

$\overline X \pm 2{,}17 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 4,14 \pm 2{,}17 \cdot {\large \frac{0{,}7}{\sqrt{13}}} \approx [3{,}72, \: 4{,}56]$

Tilbake til oppgaven

Oppgave 6:

Vi skal bruke Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere, som på seks tilfeldige dager er 210, 220, 210, 225, 220 og 217 enheter, når vi vet at standardavviket til produksjonen er σ = 5,8.

Vi skriver =konfidens.norm(1-0,98; 5,8; 6) i Excel, og får ut 5,51.

Vi har tidligere beregnet at gjennomsnittsproduksjonen er 217 enheter.

Et 98 prosent konfidensintervall blir derfor om lag

[217 − 5,51, 217 + 5,51 = [211,49, 222,51]

Tilbake til oppgaven

Oppgave 7:

Basert på at 6 tilfeldige observasjoner gir at gjennomsnittlig antall produserte støtfangere er X = 217 og at produksjonens standardavvik er S = 6, skal vi lage og sammenlikne et 95 % konfidensintervall basert på normalfordeling, med et basert på t-fordeling.

I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}95}{2}} = 0{,}025$.

Vi vet fra tidligere at

${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.

Basert på normalfordelingen får vi derfor følgende 95 % konfidensintervall:

$217 \pm 1{,}96 \cdot {\large \frac{6}{\sqrt{6}}} \approx [212{,}2, \: 221{,}8]$

Siden vi har 6 observasjoner, får vi v = 6 − 1 = 5 frihetsgrader. 

Vi slår opp ${\large t_{0{,}025 \, (5)}}$ i (t) kvantiltabellen, og finner 2,571.

Basert på t-fordelingen får vi derfor følgende 95 % konfidensintervall:

$217 \pm 2{,}57 \cdot {\large \frac{6}{\sqrt{6}}} \approx [210{,}7, \: 223{,}3]$

Konfidensintervallet blir en del bredere med t-fordeling enn med normalfordeling, dette skyldes at usikkerheten er stor når standardavviket er estimert ut fra så lite som 6 målinger.

Tilbake til oppgaven

Oppgave 8:

Basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 skal vi lage et 95 % konfidensintervall basert på t-fordeling ved hjelp av Excel.

I Excel skriver vi =konfidens.t(1-0,95; 6; 6) og får ut 6,30.

Så et 95 % konfidensintervall blir

217 ± 6,30 ≈ [210,7, 223,3]

Som er det samme som vi fant da vi gjorde beregningen for hånd i oppgave 7.

Tilbake til oppgaven

Oppgave 9:

Basert på at 35 av 2000 tilfeldige ladere er målt til å være defekte, skal vi estimere sannsynligheten for at en vilkårlig lader er defekt, og finne et 95 % konfidensintervall for denne sannsynligheten.

Et forventningsrett estimat for sannsynligheten for at en lader er defekt vil være andelen defekte ladere i utvalget. Altså:

$\hat p = {\large \frac{35}{2000}} = 0{,}0175$, altså 1,75 %.

Estimert standardavvik til estimatoren blir

$\sqrt{\large \frac{\hat p(1− \hat p)}{n}} = \sqrt{\large \frac{0{,}0175(1 − 0{,}0175)}{2000}} \approx 0{,}0029$.

En rapportering av sannsynligheten for at en lader er defekt blir da

0,0175 ± 0,067

I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}95}{2}} = 0{,}025$.

Vi vet fra tidligere at

${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.

Så et 95 % konfidensintervall blir

0,0175 ± 1,96 · 0,0029 ≈ [0,0118, 0,0232], mellom 1,18 % og 2,32 %.

Tilbake til oppgaven

Hypotesetesting

Oppgave 1:

Basert på at hundre terningkast gir 20 seksere, skal vi sette opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og teste hypotesen med et signifikansnivå på 5 %.

Den alternative hypotesen er at terningen gir for mange seksere, det vil si at sannsynligheten for å få seks er mer enn en sjettedel, slik den er på en rettferdig terning. Kaller vi sannsynligheten for å få en sekser for p, har vi

$H_A: p > \frac{\displaystyle 1}{\displaystyle 6}$.

Nullhypotesen blir da at terningen er rettferdig, med sannsynlighet lik en sjettedel for å få en sekser:

$H_0: p = \frac{\displaystyle 1}{\displaystyle 6}$.

Grensen for forkastningsområdet blir zα = z0,05 ≈ 1,6449, som vi finner ved å slå opp 0,05 i (kvantil)normalfordelingstabellen.

Testobservatoren blir

$Z = \frac{\displaystyle X − np_0}{\displaystyle \sqrt{np_0(1 − p_0)}} = \frac{\displaystyle 20 − 100 \cdot \frac{1}{6}}{\displaystyle \sqrt{100 \cdot \frac{1}{6} \Big(1 − \frac{1}{6} \Big)}} \approx 0{,}8944$.

Siden testobservatoren ligger til venstre for grensen for forkastningsområdet, kan vi ikke forkaste nullhypotesen på signifikansnivå 0,05. 20 av 100 seksere gir altså ikke grunnlag for å si at terningen gir for mange seksere.

Tilbake til oppgaven

Oppgave 2:

Vi skal utføre samme test som i oppgave 1, men nå basert på at 1000 terningkast ga 200 seksere. Hypotesene blir de samme, og grensen for forkastningsområdet det samme, zα = z0,05 ≈ 1,6449.

Testobservatoren blir nå

$Z = \frac{\displaystyle X − np_0}{\displaystyle \sqrt{np_0(1 − p_0)}} = \frac{\displaystyle 200 − 1000 \cdot \frac{1}{6}}{\displaystyle \sqrt{1000 \cdot \frac{1}{6} \Big(1 − \frac{1}{6} \Big)}} \approx 2{,}8284$.

Testobservatoren ligger nå langt inni forkastningsområdet, og vi forkaster nullhypotesen på signifikansnivå 0,05. 200 av 1000 seksere gir altså grunnlag for å si at terningen gir for mange seksere.

Sammenlikninger vi med oppgave 1, ser vi at det relative antallet seksere er det samme i begge tilfeller: $\frac{\displaystyle 20}{\displaystyle 100} = \frac{\displaystyle 200}{\displaystyle 1000} = 0{,}2$. Men å få 200 seksere på 1000 kast er altså mye mindre sannsynlig enn å få 20 på 100 kast. Det kommer av at den forventede spredningen, altså standardavviket, blir mindre jo flere forsøk vi gjør. 200 av 1000 seksere vil faktisk gi forkastning av nullhypotesen på så lite signifikansnivå som 0,0025. Det er altså mindre enn 0,25 % sjanse for å få 200 eller flere seksere på 1000 kast.

Tilbake til oppgaven

Oppgave 3:

Vi skal sette opp og gjennomføre en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet i dressingpakker er over 10 ml, når gjennomsnittet i 25 pakker er målt til 10,3 ml, og produksjonen har et standardavvik på 0,65 ml.

Hypotesene blir HA: μ > 10, H0: μ = 10.

Vi har X = 10,3, og σ = 0,65.

Vi vet fra eksempel 3 at grensen for forkastningsområdet er zα = z0,05 ≈ 1,6449.

Testobservatoren blir:

$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}3 − 10}{\displaystyle \frac{0{,}65}{\sqrt{25}}} \approx 2{,}31$.

Siden Z ≈ 2,31 $\ngtr$ zα ≈ 2,3263, kan vi ikke forkaste nullhypotesen. Målingene gir med andre ord ikke dekning for at dressingene i snitt inneholder mer enn 10 ml. olje.

Tilbake til oppgaven

Oppgave 4:

Basert på at 15 målinger av svartid på en servicetelefon gir et gjennomsnitt på 37 sekunder med et standardavvik på 14 skal vi sette opp og gjennomføre en hypotesetest på signifikansnivå 5 % på om oppgitt gjennomsnittlig ventetid på 30 sekunder er lavt.

Hypotesene blir HA: μ > 30, H0: μ = 30.

Siden vi baserer oss på utvalgsstandardavviket, bruker vi t-fordeling i testen. Antall frihetsgrader blir 15 − 1 = 14. For å finne grensen til forkastningsområdet slår vi opp i (kvantil) t-fordelingstabellen, med t0,05 (14), der det står 1,761.

Testobservatoren blir

$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 37 − 30}{\displaystyle \frac{14}{\sqrt{15}}} \approx 1{,}94$.

Siden T ≈ 1,94 > t0,05 (14) ≈ 1,761, kan vi forkaste nullhypotesen, og har på 5 % signifikansnivå grunnlag for å si at gjennomsnittlig ventetid er over 30 sekunder.

Tilbake til oppgaven

Oppgave 5:

Basert på at innholdet i 30 glass syltetøy i gjennomsnitt er målt til 47,7 % bær, med et standardavvik på 5,7 %, skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder mindre enn fabrikantens påstand om minst 50 % bær.

Hypotesene blir HA: μ < 50, H0: μ = 50.

Siden vi baserer oss på utvalgsstandardavviket, bruker vi t-fordeling i testen. Antall frihetsgrader blir 30 − 1 = 29. For å finne grensene til forkastningsområdene slår vi opp i (kvantil) t-fordelingstabellen, med henholdsvis t0,05 (29), der det står 1,699, og t0,01 (29), der det står 2,462. Siden vi har en venstresidig test, blir grensene −1,699 og −2,462.

Testobservatoren blir

$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 47{,}7 − 50}{\displaystyle \frac{5{,}7}{\sqrt{30}}} \approx −2{,}21$.

Siden T ≈ −2,21 < t0,05 (29) ≈ −1,699, kan vi på 5 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at syltetøyet har for lite bær.

Men siden T ≈ −2,21 $\nless$ t0,01 (29) ≈ −2,462, kan vi på 1 % nivå ikke forkaste nullhypotesen.

Tilbake til oppgaven

Oppgave 6:

Basert på 15 stikkprøver av sukkermengde med en vekt på gjennomsnittlig 82,5 gram og et standardavvik på 0,6 gram skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om gjennomsnittlig sukkermengde er 83 gram.

Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen, med 15 − 1 = 14 frihetsgrader. For å finne grensene til forkastningsområdene slår vi opp i (kvantil) t-fordelingstabellen, med henholdsvis t0,05 (14), der det står 1,761, og t0,01 (14), der det står 2,462.

Testobservator blir $T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 82{,}5 − 83}{\displaystyle \frac{0{,}6}{\sqrt{15}}} \approx −3{,}227$.

Grensen for forkastningsområdet ved 1 % signifikansnivå blir $t_{\large 0{,}01/2 \, (14)} \approx 2{,}997$.

Siden $|T| > t_{\large 0{,}01/2 \, (14)}$, kan vi på 1 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at sukkermengden ikke er korrekt, og følgelig også på 5 % nivå.

Tilbake til oppgaven

Sammenlikne datasett

Oppgave 1:

Vi har gitt to datasett X og Y med 4 korresponderende verdier:

X1 = 242 X2 = 266 X3 = 218 X4 = 234
Y1 = 363 Y2 = 399 Y3 = 327 Y4 = 351

og skal beregne

  1. Gjennomsnittet i hvert av settene.
    Vi får
    $\overline X = {\large \frac{242 + 266 + 218 + 234}{4}} = 240$
    $\overline Y = {\large \frac{363 + 399 + 327 + 351}{4}} = 360$
     
  2. Standardavviket i hvert av settene.
    Summen av kvadratavvikene i X er
    $(242 − 240)^2 + (266 − 240)^2 + (218 − 240)^2 + (234 − 240)^2 = 1200$
    Og standardavviket blir $\sigma^{\phantom 1}_X = \sqrt {\large \frac{1200}{4}} \approx 17{,}32$
    Summen av kvadratavvikene i Y er
    $(363 − 360)^2 + (399 − 360)^2 + (327 − 360)^2 + (351 − 360)^2 = 2700$
    Og standardavviket blir $\sigma^{\phantom 1}_Y = \sqrt {\large \frac{2700}{4}} \approx 25{,}98$.
     
  3. Kovariansen mellom settene.
    Vi får $Cov(X, Y)= {\large \frac{(242 − 240)(363 − 360) + (266 − 240)(399 − 360) + (218 − 240)(327 − 360) + (234 − 240)(351 − 360)}{4}} = 450$
     
  4. Korrelasjonskoeffisienten mellom settene.
    Vi får $R(X, Y) = {\large \frac{Cov(X, Y)}{\sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y}} \approx {\large \frac{450}{17{,}32 \cdot 25{,}98}} \approx 1$
    Vi har altså perfekt samvariasjon. Hvis vi kontrollregner, ser vi at det stemmer, for hvert element i Y er lik det tilhørende elementet i X multiplisert med 1,5.

Tilbake til oppgaven

Oppgave 2:

En bedrift sammenlikner to maskiner for å se om det er forskjell i mengden sukker de tilsetter i en matvare. Maskin X arbeider med et standardavvik på 0,11 og maskin Y med et standardavvik på 0,13. 

60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Så skal vi sette opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker.

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}107 − 10{,}061}{\displaystyle \sqrt{\frac{(0{,}11)^2}{60} + \frac{(0{,}13)^2}{75}}} \approx 2{,}226$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{\alpha^\phantom 1}{2}}$

I (kvantil)normalfordelingstabellen finner vi at $z_{\Large \frac{0{,}05}{2}} \approx 1,9600$.

Siden $|Z| > z_{\Large \frac{0{,}05}{2}}$, kan vi forkaste vi nullhypotesen. Undersøkelsen bekrefter at det er forskjell på sukkermengdene.

Tilbake til oppgaven

Oppgave 3:

Frukthøsten til 13 kirsebærtrær av type X og 12 kirsebærtrær av type Y er vist i tabellen under, og vi skal sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Type X 44 44 56 46 47 38 58 53 49 35 46 30 41
Type Y 35 47 55 29 40 39 32 41 42 57 51 39  

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$.

Fra kalkulator eller PC får vi:

$\overline X \approx 45{,}154$.

$\overline Y = 42{,}250$.

$S_X \approx 7{,}998$.

$S_Y \approx 8{,}740$.

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {7{,}998}^2(13 − 1) + {8{,}740}^2(12 − 1)}{\displaystyle 13 + 12 − 2} \approx 8{,}361$.

$T \approx \frac{\displaystyle 45{,}154 − 42{,}250}{\displaystyle 8{,}361 \sqrt{\frac{1}{13} + \frac{1}{12}}} \approx 0{,}868$.

Vi har her en tosidig test, og forkaster nullhypotesen hvis $|T| > t_{\Large \frac{\alpha}{2},\, (v)}$.

Vi slår opp i (t) kvantiltabellen med a = 0,025 og v = 13 + 12 − 2 = 23, der det står 2,069.

Siden $|T| \not > t_{\large 0{,}025 \, (23)}$, kan vi ikke forkaste nullhypotesen. Undersøkelsen gir ikke grunnlag for å si at den ene typen trær gir mer kirsebær enn den andre.

Tilbake til oppgaven

Oppgave 4:

Basert på blodtrykket til 15 pasienter før og etter bruk av en medisin, vist i tabellen under, skal vi sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om medisinen som en bieffekt reduserer blodtrykket.

Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84
Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Her gir det bare mening å gjøre en parvis test. Vi beregner først differansen mellom før og etter:

Differanse 2 8 10 6 18 10 4 26 18 −8 0 32 0 −4 10

Vi kaller «før» for X, «etter» for Y og differansen for D.

Hypotesene blir $H_A: \overline X > \overline Y$, $H_0: \overline X = \overline Y$.

Fra kalkulator eller PC får vi:

$\overline D = 8{,}8$.

$S_p = S_D \approx 10{,}975$.

Testobservatoren blir

$T \approx \frac{\displaystyle 8{,}8}{\displaystyle 10{,}975 \frac{1}{\sqrt{15}}} \approx 3{,}105$.

Vi har her en høyresidig test, og forkaster nullhypotesen hvis $T > t_{\large \alpha, \, (v)}$.
Vi slår opp i t-fordelingstabellen med $\alpha = 0{,}05$ og $v = 15 − 1 = 14$ og finner $1{,}761$.

Siden $T > t_{\large 0{,}05 \, (14)}$, kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at medisinen gir redusert blodtrykk.

Tilbake til oppgaven

Oppgave 5:

En bedrift skal undersøke om det er forskjell i sannsynlighetene for defekter ved to produksjonslinjer for bukser. De finner 147 av 2500 defekte ved første produksjonslinje og 151 av 2000 ved andre. Vi skal sette opp og på 5 % signifikansnivå teste en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene.

Vi kaller sannsynligheten for defekt ved linje 1 for $p_1$ og sannsynligheten for defekt ved linje 2 for $p_2$. Hypotesene blir

$H_A: p_1 \ne p_2$ mot $H_0: p_1 = p_2$.

Vi har $n_1 = 2500$, $n_2 = 2000$.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 147}{\displaystyle 2500} \approx 0{,}0588$.

$\hat p_2 = \frac{\displaystyle 151}{\displaystyle 2000} \approx 0{,}0755$.

$\hat p = \frac{\displaystyle 147 + 151}{\displaystyle 2500 + 2000} \approx 0{,}0662$.

Og vi får

$Z \approx \frac{\displaystyle 0{,}0588 − 0{,}0755}{\displaystyle \sqrt{0{,}0662(1 − 0{,}0662)(\frac{\displaystyle 1}{\displaystyle 2500} + \frac{\displaystyle 1}{\displaystyle 2000})}} \approx −2{,}239$.

Siden vi har en tosidig test med 5 % signifikansnivå, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{0{,}05}{2}} = z_{\large 0{,}025}$. Vi slår opp i (normal) kvantiltabellen, og finner $z_{\large 0{,}025} = 1{,}9600$.

Siden |Z| = 2,239 > 1,9600, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i defektsannsynligheten ved de to linjene.

Tilbake til oppgaven