Sentralgrenseteoremet
Oppgave 1:
Vi skal finne sannsynligheten for at en orkidedyrker klarer å produsere minst 3200 blomsterstengler når han har 2500 planter, og i gjennomsnitt 20 % av plantene ikke får blomsterstengler, 40 % får én stengel, 30 % to stengler, og 10 % tre stengler.
Dersom X er antall stengler per plante, har vi altså at P(X = 0) = 0,2, P(X = 1) = 0,4, P(X = 2) = 0,3 og P(X = 3) = 0,1. Dersom Y er antall stengler totalt, skal vi finne P(Y ≥ 3200).
Vi beregner forventning og varians for X:
E(X) = 0 · 0,2 + 1 · 0,4 + 2 · 0,3 + 3 · 0,1 = 1,3.
E(X2) = 02 · 0,2 + 12 · 0,4 + 22 · 0,3 + 32 · 0,1 = 2,5.
Var(X) = E(X2) − [E(X)]2 = 2,5 − (1,3)2 = 0,81.
Altså μ = E(X) = 1,3, og σ2 = Var(X) = 0,81.
n = 2500, langt over tommelfingerregelen på «> 30». Så dersom antall stengler på en plante er uavhengig av de andre, har vi ifølge sentralgrenseteoremet at summen er tilnærmet normalfordelt. Standardavviket og variansen til Y blir 2500 ganger standardavviket og variansen til X, siden vi har 2500 planter.
Y ~ N(2500 · 1,3, 2500 · 0,81) = N(3250, 2025) = N(3250, 452).
Så skal vi finne P(Y ≥ 3200). Vi skriver =1-norm.fordeling(3200; 3250; 45; sann) i Excel eller 1- fordelingnormal(3250, 45, 3200) i GeoGebra og får 0,8667.
Det er altså om lag 86,67 % sannsynlighet for at han klarer å produsere nok stengler.
Vi kan også finne normaltilnærmngen ved å bruke normalfordelingstabellen. Vi gjør da først en standardisering, og finner at P(Y ≥ 3200) = 1 − P(Y < 3200) tilsvarer $1 – G({\large \frac{3200 – 3250}{45}}) \approx 1 – G(-1{,}11) = G(1{,}11)$. Så går vi inn i tabellen, rad 1,1, kolonne 0,01, der det står 0,8665.
Tilbake til oppgaven
Oppgave 2:
Vi har en juksemynt med sannsynlighet p = 0,6 for kron, og vil finne sannsynligheten for å få 125 eller færre kron i 200 kast. Det er oppgitt at sannsynligheten for dette er ca. 0,7858.
Vi skal avgjøre om en normaltilnærming kan forventes å være god i dette tilfellet. En normaltilnærming anses å være god hvis np(1 − p) ≥ 10. Vi har n = 200, p = 0,6, så vi får np(1 − p) = 200 · 0,6(1 − 0,6) = 48, så vi forventer at normaltilnærmingen er god.
Vi har at når X ~ bin(n, p), er normaltilnærmingen N(np, np(1 − p)), det vil si N(200 · 0,6, 200 · 0,6(1 − 0,6) = N(120, 48).
Hvis vi så skriver =norm.fordeling(125; 120; rot(48); sann) i Excel eller fordelingnormal(120, sqrt(48), 125) GeoGebra, får vi 0,7648.
Dette er en feil på ${\large \frac{0{,}7858 – 0{,}7648}{0{,}7858}} \approx 0{,}0268$, ca. 2,6 % for lavt.
Tilbake til oppgaven
Oppgave 3:
I oppgave 2 brukte vi normaltilnærming for å finne sannsynligheten for å få 125 eller færre kron i 200 kast med en mynt med sannsynlighet p = 0,6 for kron. Nå skal vi gjøre tilnærmingen om igjen med heltallskorreksjon.
Normalfordelingen er den samme som i oppgave 2, N(120, 48), men vi skal erstatte 125 med 125 + 0,5 = 125,5.
Hvis vi skriver =norm.fordeling(125,5; 120; rot(48); sann) i Excel eller fordelingnormal(120, sqrt(48), 125.5) i GeoGebra, får vi 0,7864.
I forhold til den riktige verdien på 0,7858, er feilen ${\large \frac{0{,}7858 – 0{,}7864}{0{,}7858}} \approx -0{,}0007$, ca. 0,1 % for høyt.
Tilnærmingen er altså blitt bedre, med bare 0,1 % feil i forhold til 2,6 % feil uten heltallskorreksjon.
Tilbake til oppgaven
Estimering
Oppgave 1:
Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, skal vi gi et forventningsrett estimat for dagsproduksjonen av støtfangere.
Som estimat bruker vi gjennomsnittet: $\mu = \overline X = {\large \frac{210 + 220 + 210 + 225 + 220 + 217}{6}} = 217$.
Tilbake til oppgaven
Oppgave 2:
Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, som i oppgave 1, og at standardavviket til produksjonen er σ = 5,8, skal vi angi estimert gjennomsnitt i form av en rapportering.
I oppgave 1 fant vi at gjennomsnittlig dagsproduksjon var 217 støtfangere.
I en rapportering angir vi estimert verdi pluss/minus standardavviket til estimatoren.
Standardavviket til estimatoren er $\frac{\displaystyle \sigma}{\displaystyle \sqrt n} = \frac{\displaystyle 5{,}8}{\displaystyle \sqrt 6} \approx 2{,}37$.
Så en rapportering av estimatet til gjennomsnittlig produksjon blir
$217 \pm \frac{\displaystyle 5{,}8}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}37$
Tilbake til oppgaven
Oppgave 3:
Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, som i oppgave 1, skal vi estimere standardavviket til produksjonen og presentere estimert gjennomsnitt i form av en rapportering.
Vi fant i oppgave 1 at gjennomsnittsproduksjonen var 217 enheter
Vi estimerer standardavviket med utvalgsstandardavviket, som blir
$\hat \sigma = S = \sqrt{\large \frac{(210 −217)^2 + (220 − 217)^2 + (210 −217)^2 + (225 − 217)^2 + (220 − 217)^2 + (217 − 217)^2}{5}} = 6$.
Og en rapportering blir
$217 \pm \frac{\displaystyle 6}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}45$
Tilbake til oppgaven
Oppgave 4:
Basert på at dagsproduksjonen av støtfangere i seks forskjellige dager er henholdsvis 210, 220, 210, 225, 220 og 217 enheter, som i oppgave 1, og at standardavviket til produksjonen er er σ = 5,8, skal vi angi et 95 % og 99 % konfidensintervall for gjennomsnittet til produksjonen.
Et 95 % konfidensintervall er gitt ved
$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 1{,}96 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [212{,}36, \: 221{,}64]$
Et 99 % konfidensintervall er gitt ved
$\overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 2{,}58 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [210{,}89, \: 223{,}11]$
Tilbake til oppgaven
Oppgave 5:
Vi skal bruke (normal) kvantiltabellen til å finne et 97 % konfidensintervall for gjennomsnittsvekta av laks når 13 laks er veid med et gjennomsnitt på 4,14 kg, og standardavviket til vekta i populasjonen er er σ = 0,7.
I et 97 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}97}{2}} = 0{,}015$. Vi slår opp ${\large \frac{\alpha}{2}} = 0{,}015$ i kvantiltabellen, der det står 2,1701.
Et 97 % konfidensintervall er da gitt ved
$\overline X \pm 2{,}17 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 4,14 \pm 2{,}17 \cdot {\large \frac{0{,}7}{\sqrt{13}}} \approx [3{,}72, \: 4{,}56]$
Tilbake til oppgaven
Oppgave 6:
Vi skal bruke Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere, som på seks tilfeldige dager er 210, 220, 210, 225, 220 og 217 enheter, når vi vet at standardavviket til produksjonen er σ = 5,8.
Vi skriver =konfidens.norm(1-0,98; 5,8; 6) i Excel, og får ut 5,51.
Vi har tidligere beregnet at gjennomsnittsproduksjonen er 217 enheter.
Et 98 prosent konfidensintervall blir derfor om lag
[217 − 5,51, 217 + 5,51 = [211,49, 222,51]
Tilbake til oppgaven
Oppgave 7:
Basert på at 6 tilfeldige observasjoner gir at gjennomsnittlig antall produserte støtfangere er X = 217 og at produksjonens standardavvik er S = 6, skal vi lage og sammenlikne et 95 % konfidensintervall basert på normalfordeling, med et basert på t-fordeling.
I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}95}{2}} = 0{,}025$.
Vi vet fra tidligere at
${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.
Basert på normalfordelingen får vi derfor følgende 95 % konfidensintervall:
$217 \pm 1{,}96 \cdot {\large \frac{6}{\sqrt{6}}} \approx [212{,}2, \: 221{,}8]$
Siden vi har 6 observasjoner, får vi v = 6 − 1 = 5 frihetsgrader.
Vi slår opp ${\large t_{0{,}025 \, (5)}}$ i (t) kvantiltabellen, og finner 2,571.
Basert på t-fordelingen får vi derfor følgende 95 % konfidensintervall:
$217 \pm 2{,}57 \cdot {\large \frac{6}{\sqrt{6}}} \approx [210{,}7, \: 223{,}3]$
Konfidensintervallet blir en del bredere med t-fordeling enn med normalfordeling, dette skyldes at usikkerheten er stor når standardavviket er estimert ut fra så lite som 6 målinger.
Tilbake til oppgaven
Oppgave 8:
Basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 skal vi lage et 95 % konfidensintervall basert på t-fordeling ved hjelp av Excel.
I Excel skriver vi =konfidens.t(1-0,95; 6; 6) og får ut 6,30.
Så et 95 % konfidensintervall blir
217 ± 6,30 ≈ [210,7, 223,3]
Som er det samme som vi fant da vi gjorde beregningen for hånd i oppgave 7.
Tilbake til oppgaven
Oppgave 9:
Basert på at 35 av 2000 tilfeldige ladere er målt til å være defekte, skal vi estimere sannsynligheten for at en vilkårlig lader er defekt, og finne et 95 % konfidensintervall for denne sannsynligheten.
Et forventningsrett estimat for sannsynligheten for at en lader er defekt vil være andelen defekte ladere i utvalget. Altså:
$\hat p = {\large \frac{35}{2000}} = 0{,}0175$, altså 1,75 %.
Estimert standardavvik til estimatoren blir
$\sqrt{\large \frac{\hat p(1− \hat p)}{n}} = \sqrt{\large \frac{0{,}0175(1 − 0{,}0175)}{2000}} \approx 0{,}0029$.
En rapportering av sannsynligheten for at en lader er defekt blir da
0,0175 ± 0,067
I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}95}{2}} = 0{,}025$.
Vi vet fra tidligere at
${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.
Så et 95 % konfidensintervall blir
0,0175 ± 1,96 · 0,0029 ≈ [0,0118, 0,0232], mellom 1,18 % og 2,32 %.
Tilbake til oppgaven
Hypotesetesting
Oppgave 1:
Basert på at hundre terningkast gir 20 seksere, skal vi sette opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og teste hypotesen med et signifikansnivå på 5 %.
Den alternative hypotesen er at terningen gir for mange seksere, det vil si at sannsynligheten for å få seks er mer enn en sjettedel, slik den er på en rettferdig terning. Kaller vi sannsynligheten for å få en sekser for p, har vi
$H_A: p > \frac{\displaystyle 1}{\displaystyle 6}$.
Nullhypotesen blir da at terningen er rettferdig, med sannsynlighet lik en sjettedel for å få en sekser:
$H_0: p = \frac{\displaystyle 1}{\displaystyle 6}$.
Grensen for forkastningsområdet blir zα = z0,05 ≈ 1,6449, som vi finner ved å slå opp 0,05 i (kvantil)normalfordelingstabellen. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,05) i Excel eller inversnormalfordeling(0, 1, 1 – 0.05) i GeoGebra.
Testobservatoren blir
$Z = \frac{\displaystyle X − np_0}{\displaystyle \sqrt{np_0(1 − p_0)}} = \frac{\displaystyle 20 − 100 \cdot \frac{1}{6}}{\displaystyle \sqrt{100 \cdot \frac{1}{6} \Big(1 − \frac{1}{6} \Big)}} \approx 0{,}8944$.
Siden Z ≈ 0,8944 $\ngtr$ zα ≈ 1,6449, kan vi ikke forkaste nullhypotesen på signifikansnivå 5 %. 20 seksere i 100 kast gir altså ikke grunnlag for å si at terningen gir for mange seksere.
Tilbake til oppgaven
Oppgave 2:
Vi skal utføre samme test som i oppgave 1, men nå basert på at 1000 terningkast gir 200 seksere. Hypotesene blir de samme, og grensen for forkastningsområdet det samme, zα = z0,05 ≈ 1,6449.
Testobservatoren blir nå
$Z = \frac{\displaystyle X − np_0}{\displaystyle \sqrt{np_0(1 − p_0)}} = \frac{\displaystyle 200 − 1000 \cdot \frac{1}{6}}{\displaystyle \sqrt{1000 \cdot \frac{1}{6} \Big(1 − \frac{1}{6} \Big)}} \approx 2{,}8284$.
Z ≈ 2,8284 > zα ≈ 1,6449. Testobservatoren ligger langt inni forkastningsområdet, og vi forkaster nullhypotesen på signifikansnivå 5 %. 200 av 1000 seksere gir altså grunnlag for å si at terningen gir for mange seksere.
Sammenlikninger vi med oppgave 1, ser vi at det relative antallet seksere er det samme i begge tilfeller: $\frac{\displaystyle 20}{\displaystyle 100} = \frac{\displaystyle 200}{\displaystyle 1000} = 0{,}2$. Men å få 200 seksere på 1000 kast er altså mye mindre sannsynlig enn å få 20 på 100 kast. Det kommer av at den forventede spredningen, altså standardavviket, blir mindre jo flere forsøk vi gjør. 200 av 1000 seksere vil faktisk gi forkastning av nullhypotesen på så lite signifikansnivå som 0,25 %.
Tilbake til oppgaven
Oppgave 3:
Vi skal sette opp og gjennomføre en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet i dressingpakker er over 10 ml, når gjennomsnittet i 25 pakker er målt til 10,3 ml, og produksjonen har et standardavvik på 0,65 ml.
Hypotesene blir HA: μ > 10, H0: μ = 10.
Vi har X = 10,3, og σ = 0,65.
Vi vet fra eksempel 3 at grensen for forkastningsområdet er zα = z0,05 ≈ 1,6449.
Testobservatoren blir:
$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}3 − 10}{\displaystyle \frac{0{,}65}{\sqrt{25}}} \approx 2{,}31$.
Siden Z ≈ 2,31 $\ngtr$ zα ≈ 2,3263, kan vi ikke forkaste nullhypotesen på 1 % signifikansnivå. Målingene indikerer altså ikke at dressingene i snitt inneholder mer enn 10 ml. olje.
Tilbake til oppgaven
Oppgave 4:
Basert på at 15 målinger av svartid på en servicetelefon gir et gjennomsnitt på 37 sekunder med et standardavvik på 14 sekunder skal vi sette opp og gjennomføre en hypotesetest på signifikansnivå 5 % på om oppgitt gjennomsnittlig ventetid på 30 sekunder er lav.
Hypotesene blir HA: μ > 30, H0: μ = 30.
Siden vi baserer oss på utvalgsstandardavviket, bruker vi t-fordeling i testen. Antall frihetsgrader blir 15 − 1 = 14. For å finne grensen til forkastningsområdet slår vi opp i (kvantil) t-fordelingstabellen, med t0,05 (14), der det står 1,761. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 14) i Excel eller inverstfordeling(14, 1 – 0.05) i GeoGebra.
Testobservatoren blir
$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 37 − 30}{\displaystyle \frac{14}{\sqrt{15}}} \approx 1{,}94$.
Siden T ≈ 1,94 > t0,05 (14) ≈ 1,761, kan vi forkaste nullhypotesen, og har på 5 % signifikansnivå grunnlag for å si at gjennomsnittlig ventetid er over 30 sekunder.
Tilbake til oppgaven
Oppgave 5:
Basert på at innholdet i 30 glass syltetøy i gjennomsnitt er målt til 47,7 % bær, med et standardavvik på 5,7 %, skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder mindre enn fabrikantens påstand om minst 50 % bær.
Hypotesene blir HA: μ < 50, H0: μ = 50.
Siden vi baserer oss på utvalgsstandardavviket, bruker vi t-fordeling i testen. Antall frihetsgrader blir 30 − 1 = 29. For å finne grensene til forkastningsområdene slår vi opp i (kvantil) t-fordelingstabellen, med henholdsvis t0,05 (29), der det står 1,699, og t0,01 (29), der det står 2,462. Alternativt kan vi finne disse verdiene ved å skrive henholdsvis =t.inv(1 – 0,05; 29) og =t.inv(1 – 0,01; 29) i Excel, eller henholdsvis inverstfordeling(29, 1 – 0.05) og inverstfordeling(29, 1 – 0.01) i GeoGebra.
Siden vi har en venstresidig test, blir grensene −1,699 og −2,462.
Testobservatoren blir
$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 47{,}7 − 50}{\displaystyle \frac{5{,}7}{\sqrt{30}}} \approx −2{,}21$.
Siden T ≈ −2,21 < −t0,05 (29) ≈ −1,699, kan vi på 5 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at syltetøyet har for lite bær.
Men siden T ≈ −2,21 $\nless$ −t0,01 (29) ≈ −2,462, kan vi på 1 % nivå ikke forkaste nullhypotesen.
Tilbake til oppgaven
Oppgave 6:
Basert på 15 stikkprøver av sukkermengde med en vekt på gjennomsnittlig 82,5 gram og et standardavvik på 0,6 gram skal vi sette opp og gjennomføre en hypotesetest på signifikansnivå 1 % på om gjennomsnittlig sukkermengde er 83 gram.
Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen, med 15 − 1 = 14 frihetsgrader. For å finne grensene til forkastningsområdet slår vi opp i (kvantil) t-fordelingstabellen, med t0,01/2 (14) = t0,005 (14), der det står 2,977. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,005; 14) i Excel eller inverstfordeling(14, 1 – 0.005) i GeoGebra.
Testobservator blir $T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 82{,}5 − 83}{\displaystyle \frac{0{,}6}{\sqrt{15}}} \approx −3{,}227$.
Siden |T| ≈ 3,227 > t0,005 (14) ≈ 2,977, kan vi på 1 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at sukkermengden ikke er korrekt.
Tilbake til oppgaven
Samvariasjon
Oppgave 1:
Vi har gitt to datasett X og Y med 4 korresponderende verdier:
X1 = 242 |
X2 = 266 |
X3 = 218 |
X4 = 234 |
Y1 = 363 |
Y2 = 399 |
Y3 = 327 |
Y4 = 351 |
og skal beregne
- Gjennomsnittet i hvert av settene.
$\overline X = \frac{\displaystyle 242 + 266 + 218 + 234}{\displaystyle 4} = 240$
$\overline Y = \frac{\displaystyle 363 + 399 + 327 + 351}{\displaystyle 4} = 360$
- Standardavviket i hvert av settene.
Summen av kvadratavvikene i X er
(242 − 240)2 + (266 − 240)2 + (218 − 240)2 + (234 − 240)2 = 1200
Og standardavviket blir
$S_X = \sqrt {\frac{\displaystyle 1200}{\displaystyle 4-1}} = 20$
Summen av kvadratavvikene i Y er
(363 − 360)2 + (399 − 360)2 + (327 − 360)2 + (351 − 360)2 = 2700
Og standardavviket blir
$S_Y = \sqrt {\frac{\displaystyle 2700}{\displaystyle 4-1}} = 30$
- Kovariansen mellom settene.
Summen av produktene av avstandene mellom verdi og gjennomsnitt i settene er
(242 − 240)(363 − 360) + (266 − 240)(399 − 360) + (218 − 240)(327 − 360) + (234 − 240)(351 − 360) = 1800
Og kovariansen blir
$Cov(X, Y) = \frac{\displaystyle 1800}{\displaystyle 4-1} = 600$
- Korrelasjonskoeffisienten mellom settene.
$R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle S_X S_Y} = \frac{\displaystyle 600}{\displaystyle 20 \cdot 30} = 1$
Tolkningen av korrelasjonskoeffsienten er at vi har perfekt samvariasjon. Hvis vi kontrollregner, ser vi at det stemmer, for hvert element i Y er lik det tilhørende elementet i X multiplisert med 1,5.
Tilbake til oppgaven
Sammenlikne datasett
Oppgave 1:
En bedrift sammenlikner to maskiner for å se om det er forskjell i mengden sukker de tilsetter i en matvare. Maskin X arbeider med et standardavvik på 0,11 og maskin Y med et standardavvik på 0,13.
60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y gir et snitt på 10,061 gram sukker.
Så skal vi sette opp hypoteser og gjennomføre en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker.
Vi har altså X = 10,107, Y = 10,061, σX = 0,11, σY = 0,13, nX = 60, nY = 75.
Hypotesene blir HA: μX ≠ μY , H0: μX = μY .
Testobservatoren blir
$Z = \frac{\displaystyle 10{,}107 − 10{,}061}{\displaystyle \sqrt{\frac{(0{,}11)^2}{60} + \frac{(0{,}13)^2}{75}}} \approx 2{,}2261$
Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2
Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025.
Vi slår opp i (kvantil)normalfordelingstabellen med α = 0,025, der det står 1,9600. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,025) i Excel eller inversnormalfordeling(0, 1, 1 – 0.025) i GeoGebra.
Siden |Z| ≈ 2,2261 > zα/2 ≈ 1,9600, kan vi forkaste vi nullhypotesen. Undersøkelsen bekrefter at det er forskjell på sukkermengdene.
Tilbake til oppgaven
Oppgave 2:
Frukthøsten til 13 kirsebærtrær av type X og 12 kirsebærtrær av type Y er vist i tabellen under, og vi skal sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.
Type X |
44 |
44 |
56 |
46 |
47 |
38 |
58 |
53 |
49 |
35 |
46 |
30 |
41 |
Type Y |
35 |
47 |
55 |
29 |
40 |
39 |
32 |
41 |
42 |
57 |
51 |
39 |
|
Hypotesene blir HA: μX ≠ μY , H0: μX = μY .
Vi har altså nX = 13, nY = 12.
Fra kalkulator eller PC får vi:
X = 45,1538
Y = 42,25
SX ≈ 7,9984
SY ≈ 8,7399
Vi beregner:
$S_P = \sqrt \frac{\displaystyle {S_X}^2(n^{\phantom 1}_X − 1) + {S_Y}^2(n^{\phantom 1}_Y − 1)}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y − 2} \approx \sqrt \frac{\displaystyle {7{,}9984}^2(13 − 1) + {8{,}7399}^2(12 − 1)}{\displaystyle 13 + 12 − 2} \approx 8{,}3612$
Testobservatoren blir da
$T = \frac{\displaystyle \overline X − \overline Y}{\displaystyle S_P \sqrt{\frac{1}{n^{\phantom 1}_X} + \frac{1}{n^{\phantom 1}_Y}}} \approx \frac{\displaystyle 45{,}1538 − 42{,}25}{\displaystyle 8{,}3612 \sqrt{\frac{1}{13} + \frac{1}{12}}} \approx 0{,}8675$.
Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |T| > tα/2 (v)
Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025
Vi slår opp i (t) kvantiltabellen med a = 0,025 og v = 13 + 12 − 2 = 23, der det står 2,069. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,025; 23) i Excel eller inverstfordeling(23, 1 – 0.025) i GeoGebra.
Siden |T| ≈ 0,8675 $\ngtr$ tα/2 ≈ 2,069, kan vi ikke forkaste nullhypotesen. Undersøkelsen gir ikke grunnlag for å si at den ene typen trær gir mer kirsebær enn den andre.
Tilbake til oppgaven
Oppgave 3:
Basert på blodtrykket til 15 pasienter før og etter bruk av en medisin, vist i tabellen under, skal vi sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om medisinen som en bieffekt reduserer blodtrykket.
Før |
70 |
80 |
72 |
76 |
76 |
76 |
72 |
78 |
82 |
64 |
74 |
92 |
74 |
68 |
84 |
Etter |
78 |
72 |
62 |
70 |
58 |
66 |
68 |
52 |
64 |
72 |
74 |
60 |
74 |
72 |
74 |
Her gir det bare mening å gjøre en parvis test. Vi beregner først differansen mellom før og etter:
Differanse |
2 |
8 |
10 |
6 |
18 |
10 |
4 |
26 |
18 |
−8 |
0 |
32 |
0 |
−4 |
10 |
Vi kaller «før» for X, «etter» for Y og differansen for D.
Hypotesene blir HA: μX > μY , H0: μX ≤ μY .
Fra kalkulator eller PC får vi:
X = 8,8
SD ≈ 10,9753
Testobservatoren blir
$T = \frac{\displaystyle \overline D}{\displaystyle S_D \frac{1}{\sqrt n}} \approx \frac{\displaystyle 8{,}8}{\displaystyle 10{,}975 \frac{1}{\sqrt{15}}} \approx 3{,}1054$.
Siden vi har en ensidig test, skal vi forkaste nullhypotesen hvis |T| > tα (v)
Med 5 % signifikansnivå blir α = 0,05
Vi slår opp i (t) kvantiltabellen med a = 0,05 og v = 15 − 1 = 14, der det står 1,761. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 14) i Excel eller inverstfordeling(14, 1 – 0.05) i GeoGebra.
Siden |T| ≈ 3.1054 > tα (v) ≈ 1,761, kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at medisinen gir redusert blodtrykk.
Tilbake til oppgaven
Oppgave 4:
En bedrift skal undersøke om det er forskjell i sannsynlighetene for defekter ved to produksjonslinjer for bukser. De finner 147 av 2500 defekte ved første produksjonslinje og 151 av 2000 ved andre. Vi skal sette opp og på 5 % signifikansnivå teste en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene.
Vi kaller sannsynligheten for defekt ved linje 1 for p1 og sannsynligheten for defekt ved linje 2 for p2. Hypotesene blir
HA: p1 ≠ p2 mot H0: p1 = p2.
Vi har n1 = 2500, n2 = 2000, X1 = 147, X2 = 151.
Vi estimerer
$\hat p_1 = \frac{\displaystyle 147}{\displaystyle 2500} = 0{,}0588$.
$\hat p_2 = \frac{\displaystyle 151}{\displaystyle 2000} = 0{,}0755$.
$\hat p = \frac{\displaystyle 147 + 151}{\displaystyle 2500 + 2000} \approx 0{,}0662$.
Og vi får
$Z \approx \frac{\displaystyle 0{,}0588 − 0{,}0755}{\displaystyle \sqrt{0{,}0662(1 − 0{,}0662)(\frac{\displaystyle 1}{\displaystyle 2500} + \frac{\displaystyle 1}{\displaystyle 2000})}} \approx −2{,}239$.
Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2
Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025.
I (kvantil)normalfordelingstabellen finner vi at z0,025 ≈ 1,9600. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,025) i Excel eller inversnormalfordeling(0, 1, 1 – 0.025) i GeoGebra.
Siden |Z| ≈ 2,239 > zα/2 ≈ 1,9600, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i sannsynligheten for defekt ved de to linjene.
Tilbake til oppgaven