Innhold
l artikkelen om hypotesetesting lærer vi å lage hypotesetester om avvik i forventede verdier eller binomiske sannsynligheter i et datasett. I denne artikkelen skal vi lage hypotesetester om forskjeller mellom to datasett. Det kan for eksempel være at en ønsker å teste om en ny medisin gir økt virkning, eller om en ny type gjødsel gir økt avling.
Sammenlikne forventning
I artikkelen om hypotesetesting baserer vi oss på testobservatoren
$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$
som kan skrives som
$Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \sqrt \frac{\sigma^2}{n}}$
Her er X målt gjennomsnitt, μ0 forventet gjennomsnitt, σ fordelingens standardavvik, og n antall målinger.
Nå skal vi se på to datasett, som vi kaller X og Y. Vi vil da ha to gjennomsnitt, X og Y, to standardavvik, σX og σY, og to tall på antall målinger, nX og nY. I stedet for å bruke gjennomsnittets avvik fra forventet verdi, X − μ0, skal vi bruke forskjellen på gjennomsnittene, X − Y.
Testobservatoren blir
$\fbox{$Z = \frac{\displaystyle \overline X − \overline Y}{\displaystyle \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}}$}$
Vi skiller på ensidige og tosidige tester. I en ensidig test er den alternative hypotesen at forventningen i det ene settet skiller seg fra forventningen i det andre, HA: μX ≠ μY. I en tosidig test er den alternative hypotesen at forventningen i det ene settet er mindre eller større enn forventningen i det andre, HA: μX < μY eller HA: μX > μY. I en ensidig test forkaster vi nullhypotesen hvis |Z| > zα, i en tosidig test forkaster vi nullhypotesen hvis |Z| > zα/2.
Eksempel 1:
To maskiner tilsetter sukker i en matvare. Maskin X er oppgitt å ha et standardavvik på 0,11, maskin Y er oppgitt å ha et standardavvik på 0,13. En bedrift ønsker å gjøre en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker. 70 prøver av maskin X gir et snitt på 10,103 gram, 85 prøver av maskin Y et snitt på 10,069 gram.
Vi har altså X = 10,103, Y = 10,069, σX = 0,11, σY = 0,13, nX = 70, nY = 80.
Hypotesene blir HA: μX ≠ μY , H0: μX = μY .
Testobservatoren blir
$Z = \frac{\displaystyle 10{,}103 − 10{,}069}{\displaystyle \sqrt{\frac{(0{,}11)^2}{70} + \frac{(0{,}13)^2}{85}}} \approx 1{,}7636$
Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2
Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025.
Vi slår opp i (kvantil)normalfordelingstabellen med α = 0,025, der det står 1,9600. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,025) i Excel eller inversnormalfordeling(0, 1, 1 – 0.025) i GeoGebra.
Siden |Z| ≈ 1,764 $\ngtr$ zα/2 ≈ 1,9600, kan vi ikke forkaste vi nullhypotesen. Undersøkelsen indikerer ikke at det er forskjell på sukkermengdene.
Etter en tid gjør bedriften nye målinger med maskinene i eksempel 1. 60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.
Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.
Sett opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene nå tilsetter forskjellig mengde sukker.
Ukjent standardavvik
Vi arbeider i dette avsnittet med noen eksempler som for oversiktens skyld baseres på svært få målinger. Vi forutsetter da at populasjonene er normalfordelte.
I artikkelen om estimering og artikkelen om hypotesetesting sier vi at vi ofte ikke kjenner fordelingers standardavvik nøyaktig. Da baserer vi oss på utvalgsstandardavviket, med testobservator
$T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}}$
I stedet for å slå opp verdier i normalfordelingstabellen slår vi opp i t-fordelingstabellen.
For å tilpasse observatoren til to grupper, må vi altså erstatte X − μ0 med X − Y. Men observatoren må også tilpasses to utvalgsstandardavvik.
Det gjør vi ved å erstatte $\frac{\displaystyle S}{\displaystyle \sqrt n}$ med $S_P \sqrt{\frac{\displaystyle 1}{\displaystyle n_X} + \frac{\displaystyle 1}{\displaystyle n_Y}}$, der SP er et felles standardavvik beregnet for de to utvalgene. P-en står for «pooled», «samlet» på norsk.
I artikkelen om måltall i statistikk ser vi at vi beregner utvalgsstandardavviket i et enkelt utvalg som
$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$
SP beregnes etter tilsvarende mønster:
$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i − \overline X)^2 + \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i − \overline Y)^2 \;}{\displaystyle n_X + n_Y − 2}$}$
Vi ser at det krever mye regnearbeid å beregne SP for hånd. Siden kalkulatorer ofte har funksjoner for å finne standardavviket i et enkelt datasett, skal vi skrive det om litt, slik at vi finner SP uttrykt ved standardavviket til hvert av datasettene, Sx og Sy.
Vi tar utgangspunkt i den generelle formelen for utvalgsstandardavvik:
$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1} $
Så multipliserer vi med $\sqrt{n − 1}$ på begge sider av likhetstegnet:
$S \sqrt{n − 1} = \sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}$
Så kvadrerer vi på begge sider av likhetstegnet:
$S^2 (n − 1) = \displaystyle \sum_{i = 1}^n(X_i − \overline X)^2$
Det betyr at vi i formelen for SP kan sette inn ${S_X}^2(n_X − 1)$ i stedet for $\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i − \overline X)^2$ og ${S_Y}^2(n_Y− 1)$ i stedet for $\displaystyle \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i − \overline Y)^2$
$\fbox{$S_P = \sqrt \frac{\displaystyle {S_X}^2(n^{\phantom 1}_X − 1) + {S_Y}^2(n^{\phantom 1}_Y − 1)}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y − 2}$}$
På denne formen er utregningene mye enklere hvis vi har verktøy til å finne SX og SY.
Og observatoren er altså
$\fbox{$T = \frac{\displaystyle \overline X − \overline Y}{\displaystyle S_P \sqrt{\frac{1}{n^{\phantom 1}_X} + \frac{1}{n^{\phantom 1}_Y}}}$}$
I artikkelen om hypotesetesting og artikkelen om estimering lærer vi at når vi skal slå opp i en t-fordelingstabell, må vi kjenne antall frihetsgrader, v, som vi setter lik antall observasjoner minus 1, v = n − 1. Nå har vi to sett med observasjoner, og får v = (nX − 1) + (nY − 1) = nX + ny − 2.
I en ensidig test forkaster vi nullhypotesen hvis |T| > zα (v), i en tosidig test forkaster vi nullhypotesen hvis |T| > zα/2 (v).
Eksempel 2:
Et oljeselskap ønsker å teste ut om en ny type tilsetningsstoff i bensin gir redusert forbruk i praksis, og gjør et forsøk med 5 biler. Uten tilsetningsstoff brukere bilene henholdsvis 4,7, 3,5, 3,3, 4,2 og 3,6 liter per 100 kilometer. Med tilsetningsstoff bruker bilene henholdsvis 4,2, 3,2, 3,0, 3,9 og 3,3 liter per 100 kilometer. Vi kaller observasjonene uten tilsetning for X, og observasjonene med tilsetning for Y.
Så skal vi på 5 % signifikansnivå utføre en hypotesetest på om tilsetningsstoffet gir redusert forbruk.
Hypotesene blir HA: μX > μY , H0: μX ≤ μY .
Vi har altså nX = nY = 5.
Fra kalkulator eller PC får vi:
X = 3,86
Y = 3,52
SX ≈ 0,5771
SY ≈ 0,5070
Vi beregner:
$S_p \approx \sqrt \frac{\displaystyle {0{,}5771}^2(5 − 1) + {0{,}5070}^2(5 − 1)}{\displaystyle 5 + 5 − 2} \approx 0{,}5432$
$T \approx \frac{\displaystyle 3{,}86 − 3{,}52}{\displaystyle 0{,}5432 \sqrt{\frac{1}{5} + \frac{1}{5}}} \approx 0{,}9897$
Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |T| > tα (v)
Med 5 % signifikansnivå blir α = 0,05.
Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 + 5 − 2 = 8 der det står 1,860. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 8) i Excel eller inverstfordeling(8, 1 – 0.05) i GeoGebra.
Siden T ≈ 0,9897 $\ngtr$ tα (v) ≈ 1,860, kan vi ikke forkaste nullhypotesen. Testen gir ikke grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.
Men som vi skal se i eksempel 3, har vi gjennomført denne testen på en klønete måte.
En fruktbonde har to forskjellige typer kirsebærtrær, og vil undersøke om de gir forskjellig mengde frukt. Han veier frukthøsten fra 13 trær av type X og 12 trær av type Y, og får:
Type X | 44 | 44 | 56 | 46 | 47 | 38 | 58 | 53 | 49 | 35 | 46 | 30 | 41 |
Type Y | 35 | 47 | 55 | 29 | 40 | 39 | 32 | 41 | 42 | 57 | 51 | 39 |
Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.
Paret test
Hvis vi ser nøyere på dataene i eksempel 2, ser vi at konklusjonen om at tilsetningsstoffet ikke gir lavere forbruk virker underlig. For hver bil har faktisk en markant nedgang i forbruk. Problemet ligger i måten vi beregner det sammenslåtte standardavviket på. Vi undersøker hvor stort avviket fra gjennomsnittet er i hver av de to gruppene, men dette er egentlig helt uinteressant. Det vi burde sett på, var hvor mye hver bils endring i forbruk, Xi − Yi avviker fra gjennomsnittsendringen, X − Y.
Vi bør altså heller beregne SP som
$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n}\big(X_i − Y_i − (\overline X − \overline Y)\big)^2}{\displaystyle n − 1}$}$
Vi opererer her ikke lenger med nX + nY enkeltmålinger, men med n = nX = nY par. (nX må være lik nY, ellers ville vi jo ikke kunne danne par.)
Igjen gir formen på SP en del regnearbeid, men nå gjør vi et triks, og lager et nytt datasett, D som består av differansen i hvert par.
$\fbox{$D_i = X_i − Y_i, \; i \in [1, n] $}$
Testobservatoren blir da:
$\fbox{$T = \frac{\displaystyle \overline D}{\displaystyle S_D \frac{1}{\sqrt n}}$}$
Eksempel 3:
Vi skal gjøre om igjen undersøkelsen fra eksempel 2, men denne gangen som en paret test.
Hypotesene blir som før HA: μX > μY , H0: μX ≤ μY .
Vi beregner:
D1 = 4,7 − 4,2 = 0,5
D2 = 3,5 − 3,2 = 0,3
D3 = 3,3 − 3,0 = 0,3
D4 = 4,2 − 3,9 = 0,3
D5 = 3,6 − 3,3 = 0,3
Fra kalkulator eller PC får vi:
D = 0,34
SD ≈ 0,0894
Vi beregner:
$T \approx \frac{\displaystyle 0{,}34}{\displaystyle 0{,}0894 \frac{1}{\sqrt 5}} \approx 8{,}5041$
Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |T| > tα (v).
Med 5 % signifikansnivå blir α = 0,05.
Vi slår opp i (kvantil)t-fordelingstabellen med α = 0,05 og v = 5 − 1 = 4, der det står 2,132. Alternativt kan vi finne denne verdien ved å skrive =t.inv(1 – 0,05; 4) i Excel eller inverstfordeling(4, 1 – 0.05) i GeoGebra.
Siden T ≈ 8,5041 > tα (v) ≈ 2,132, kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.
En lege ønsker å undersøke om en medisin, som en bieffekt, reduserer blodtrykket. Han måler blodtrykket til 15 pasienter før og etter de begynner å ta medisinen, og får følgende resultat
Før | 70 | 80 | 72 | 76 | 76 | 76 | 72 | 78 | 82 | 64 | 74 | 92 | 74 | 68 | 84 |
Etter | 78 | 72 | 62 | 70 | 58 | 66 | 68 | 52 | 64 | 72 | 74 | 60 | 74 | 72 | 74 |
Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om medisinen reduserer blodtrykket.
Sammenlikne forventning i Excel og GeoGebra
Excel har en egen funksjon for å gjøre hypotestetester om forskjeller mellom to datasett, t.test. Brukeren må angi hvilke celleområder de to datasettene ligger i, om det er en ensidig eller tosidig test, og om testen skal gjøres paret eller uparet. t.test beregner P-verdi. Er P-verdien mindre enn testens signifikansnivå, kan nullhypotesen forkastes.
Regnearket under har to ark. Ett for uparet test og ett for paret test.
Last ned regneark med beregninger fra eksempel 2 og 3 og bruk av «t.test»
Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, har også funksjonalitet for hypotesetester om forskjeller.
Sammenlikne binomiske sannsynligheter
I artikkelen om hypotesetesting introduserer vi testobservatoren
$Z = \frac{\displaystyle \hat p − p_0}{\displaystyle \sqrt{\frac{p_0(1 – p_0)}{n}}}$
for binomiske sannsynligheter. Her er $\hat p$ estimert sannsynlighet basert på X suksesser i n forsøk, $\hat p = \frac{\displaystyle X}{\displaystyle n}$, og p0 er sannsynligheten i nullhypotesen.
For å teste hypoteser om forskjeller mellom sannsynligheter i to datasett bruker vi testobservatoren.
$\fbox{$Z = \frac{\displaystyle \hat p_1 − \hat p_2}{\displaystyle \sqrt{\hat p(1 − \hat p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})}}$}$
Her er
$\hat p_1 = \frac{\displaystyle X_1}{\displaystyle n_1}$ estimert sannsynlighet i datasett 1.
$\hat p_2 = \frac{\displaystyle X_2}{\displaystyle n_2}$ estimert sannsynlighet i datasett 2.
$\hat p = \frac{\displaystyle X_1 + X_2}{\displaystyle n_1 + n_2}$ estimert sannsynlighet i begge datasettene samlet.
Dersom n1 og n2 er store nok, vil Z være tilnærmet standard normalfordelt. Som en tommelfingerregel for hva som menes med store nok, bør $n \hat p \ge 5$ og $n(1 − \hat p) \ge 5$ i begge datasettene.
Eksempel 4:
En bedrift produserer PC-skjermer ved to forskjellige anlegg. Noen skjermer er defekte, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekte skjermer ved de to anleggene. 200 skjermer undersøkes på hvert anlegg. På anlegg 1 er 17 defekte, på anlegg 2 er 31 defekte. Vi kaller sannsynligheten for defekte ved anlegg 1 for p1 og sannsynligheten for defekte ved anlegg 2 for p2, og skal teste følgende hypotese på 5 % signifikansnivå:
HA: p1 ≠ p2 mot H0: p1 = p2.
Vi har n1 = n2 = 200, X1 = 17, X2 = 31.
Vi estimerer
$\hat p_1 = \frac{\displaystyle 17}{\displaystyle 200} = 0{,}0850$
$\hat p_2 = \frac{\displaystyle 31}{\displaystyle 200} = 0{,}1550$
$\hat p = \frac{\displaystyle 17 + 33}{\displaystyle 200 + 200} = 0{,}1200$
Og vi får
$Z = \frac{\displaystyle 0{,}0850 − 0{,}1550}{\displaystyle \sqrt{0{,}1200(1 − 0{,}1200)(\frac{\displaystyle 1}{\displaystyle 200} + \frac{\displaystyle 1}{\displaystyle 200})}} \approx −2{,}154$
Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis |Z| > zα/2
Med 5 % signifikansnivå blir α/2 = 0,05/2 = 0,025.
I (kvantil)normalfordelingstabellen finner vi at z0,025 ≈ 1,9600. Alternativt kan vi finne denne verdien ved å skrive =norm.s.inv(1 – 0,025) i Excel eller inversnormalfordeling(0, 1, 1 – 0.025) i GeoGebra.
Siden |Z| ≈ 2,154 > zα/2 ≈ 1,9600, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i sannsynligheten for defekt på de to anleggene.
En bedrift produserer bukser ved to forskjellige produksjonslinjer. En del av buksene har defekte sømmer, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekter ved de to linjene. Ved første produksjonslinje er 147 av 2500 defekte, ved andre er 151 av 2000 defekte. Sett opp og test en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene. Bruk 5 % signifikansnivå.
Kilder
-
- Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
- Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
- Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
- Bjørkestøl K. (2015) Upublisert undervisningsmateriale.