Sammenlikne datasett

I statistikk er vi ofte interessert i å sammenlikne datasett. Vi kan for eksempel lure på om det er noen sammenheng mellom gjennomsnittstemperatur og høyden på en type blomster. Eller vi kan undersøke en hypotese om effektiviteten av en ny type gjødsel ved å sammenlikne et utvalg planter som har fått den nye gjødselen med et utvalg som har fått den gamle.

Korrelasjonskoeffisient

Et praktisk mål for å vurdere om det er sammenheng mellom to sett variabler er korrelasjonskoeffisienten. Korrelasjonskoeffisienten måler i hvor stor grad verdiene i to datasett samvarierer, og er et tall mellom 1 og -1. 1 betyr fullstendig samvariasjon, for eksempel at høyden på en type blomster øker proporsjonalt med temperaturen, -1 betyr fullstendig omvendt samvariasjon, for eksempel at høyden på en type blomster synker proporsjonalt med temperaturen. 0 betyr at det ikke kan påvises noen samvariasjon. Mellom disse ytterpunktene er alle tall mulige. For eksempel vil 0,1 bety en svak samvariasjon, mens 0,9 betyr en sterk samvariasjon.

Hvis vi lager et plott av verdiene, vil data med fullstendig samvariasjon ligge på ei rett linje. Verdier uten samvariasjon vil ligge spredt tilfeldig utover.

Eksempel 1:

Høyde og vekt for 10 kvinnelige toppidrettsutøvere er gitt i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 51 56 51 62 54 56 56 59 57 54

Korrelasjonskoeffisienten for disse dataene er ca. 0,626. Som vi kan forvente, har vi en positiv samvariasjon. Men den er ikke perfekt, det vil vi sjelden finne i virkeligheten. Et plott av dataene er vist under, med høyde langs x-aksen og vekt langs y-aksen.
Illustrasjon av korrelasjonskoeffisient 0,626

Vi ser at det er et tydelig mønster i at større høyde henger sammen med større vekt, men samtidig er det avvik. Personen på 170 centimeter er for eksempel uvanlig lett i forhold til de andre.

Eksempel 2:

Vi manipulerer vektene i eksempel 1, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52,5 53,4 54,4 54,7 53,1 54,1 53,7 54,6 53,8 53,8

Nå har vi nesten perfekt samvariasjon, korrelasjonskoeffisienten er ca. 0,998. Lager vi et plott av dataene, ser vi at de ligger nesten fullstendig på linje.

Illustrasjon av korrelasjonskoeffisient 0,996

Eksempel 3:

Vi manipulerer vektene i eksempel 1 en gang til, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52 54 51 50 53 58 57 56 59 60

Nå har vi ingen samvariasjon, korrelasjonskoeffisienten er 0,000. Lager vi et plott av dataene, ser vi at de ligger spredt utover uten noe mønster:

Illustrasjon av korrelasjonskoeffisient 0,000

Korrelasjonskoeffisienten baserer seg på i hvilken grad avvik fra gjennomsnittet stemmer overens i de to datasettene. Positive bidrag til korrelasjonskoeffisienten vil vi for eksempel få hvis en høyde langt over gjennomsnittet korresponderer med en vekt langt over gjennomsnittet, en høyde litt over gjennomsnittet korresponderer med en vekt litt over gjennomsnittet, en høyde litt under gjennomsnittet med en vekt litt under gjennomsnittet, og så videre.

I artikkelen om måltall i statistikk lærte vi å beregne gjennomsnitt og standardavvik. Gjennomsnittet kalte vi $\overline X$, og standardavviket $\sigma$. For å beregne standardavviket startet vi med å beregne kvadratavstanden mellom verdiene i datasettet og gjennomsnittet: $(X_i – \overline X)^2$.

Nå har vi to datasett, vi kaller det ene $X$ og det andre $Y$. Produktet av avstandene mellom en verdi og gjennomsnittet i hvert av settene, $(X_i – \overline X)(Y_i – \overline Y)$, vil gi et mål på i hvilken grad korresponderende verdier samvarierer. Hvis både $(X_i – \overline X)$ og $(Y_i – \overline Y)$ ligger mye over gjennomsnittet, vil vi produktet bli et stort, positivt tall. Det samme vil skje hvis begge verdiene ligger mye under gjennomsnittet. Vi får da et produkt av to store negative tall, noe som blir et stort positivt tall. Verdier nær gjennomsnittet vil gi små tall. Dersom den ene verdien ligger over og den andre under gjennomsnittet, vil produktet bli et negativt tall.

Når vi beregner summen av alle slike produkter og dividerer på antall produkter, $n$, får vi kovariansen mellom settene.

$\fbox{$Cov(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)(Y_i – \overline Y)}{\displaystyle n^\phantom 1}$}$

Vi forutsetter her at vi arbeider på hele populasjonen. Som vi så i artikkelen om måltall i statistikk, kunne vi i tillegg til å beregne standardavvik ved å ta hensyn til hele populasjonen, også beregne standardavviket for et utvalg. Vi dividerte da med $n – 1$ i stedet for $n$ og fikk et tall som var litt høyere. Tilsvarende kan vi også finne kovarians for et utvalg ved å dividere på $n – 1$. For korrelasjonskoeffisienten spiller dette imidlertid ingen rolle.

Kovariansen er på samme måte som korrelasjonskoeffisienten et mål på samvariasjonen i to datasett, men er beheftet med noen ulemper. Ett problem er at kovariansen vil ha en enhet som er avhengig av enhetene i datasettene. I eksempel 1 vil enheten bli $\text{cm} \cdot \text{kg}$. Et annet problem er at størrelsen på kovariansen avhenger av størrelsen på dataene. Hvis vi for eksempel får en kovarians på 100, må vi undersøke dataene for å avgjøre om denne tyder på høy eller lav samvariasjon. I noen datasett kan det være det ene, i andre datasett det andre.

Vi gjør derfor en normering ved å dividere kovariansen på produktet av standardavvikene i datasettene vi sammenlikner. Da blir vi kvitt enheten, og får en standardisert tallverdi som varierer mellom -1 og 1. Dette er korrelasjonskoeffisienten, R:

$\fbox{$R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle \sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y}$}$

Skrevet ut i detalj:

$\fbox{$R(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)(Y_i – \overline Y)}{\sqrt{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2\displaystyle \sum_{i = 1}^n(Y_i – \overline Y)^2 \;}}$}$

Vi ser at $n$ ikke er med i uttrykket, det er fordi $n$ opptrer i både teller og nevner og kan forkortes bort.

I noen bøker brukes den greske bokstaven $\rho$ i stedet for R som symbol for korrelasjonskoeffisienten.

Eksempel 4:

Vi skal beregne korrelasjonskoeffisienten i eksempel 1. Vi viser ikke utregningen av gjennomsnitt og standardavvik i hvert av datasettene, hvordan vi gjør dette drillet vi på i artikkelen om måltall i statistikk.

Vi kaller datasettet med høyder $X$ og datasettet med vekt $Y$. Gjennomsnittene blir $\overline X = 168{,}2$ og $\overline Y = 55{,}6$, standardavvikene blir $\sigma^{\phantom 1}_X \approx 2{,}088$ og $\sigma^{\phantom 1}_Y \approx 3{,}200$.

Summen av produktet av avstandene mellom hver verdi og gjennomsnittet i hvert av de 10 settene blir:

(164 – 168,2)(51 – 55,6) + (167 – 168,2)(56 – 55,6) + (170 – 168,2)(51 – 55,6)
+ (171 – 168,2)(62 – 55,6) + (166 – 168,2)(54 – 55,6) + (169 – 168,2)(56 – 55,6)
+ (168 – 168,2)(56 – 55,6) + (171 – 168,2)(59 – 55,6) + (168 – 168,2)(57 – 55,6)
+ (168 – 168,2)(54 – 55,6) = 41,8

Kovariansen blir $Cov(X, Y) = \frac{\displaystyle 41{,}8}{\displaystyle 10} = 4{,}18$.

Korrelasjonskoeffisienten blir $R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle \sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y} \approx \frac{\displaystyle 41{,}8}{\displaystyle 2{,}088 \cdot 3{,}200} \approx 0{,}626$.

Oppgave 1:

To datasett med 4 korresponderende verdier er vist i tabellen under:

$X_1 = 242$ $X_2 = 266$ $X_3 = 218$ $X_4 = 234$
$Y_1 = 363$ $Y_2 = 399$ $Y_3 = 327$ $Y_4 = 351$

Beregn

  1. Gjennomsnittet i hvert av settene, $\overline X$ og $\overline Y$
     
  2. Standardavviket i hvert av settene, $\sigma^{\phantom 1}_X$ og $\sigma^{\phantom 1}_Y$
     
  3. Kovariansen mellom settene, $Cov(X, Y)$
     
  4. Korrelasjonskoeffisienten mellom settene, $R(X, Y)$.

Se løsningsforslag

Det er sjelden vi regner ut korrelasjonskoeffisienten manuelt. På litt avanserte kalkulatorer legger vi bare inn dataene, og så gjør kalkulatoren resten av jobben. I Excel bruker vi funksjonen kovarians.p til å beregne kovarians, og korrelasjon til å beregne korrelasjonskoeffisienten. De tilsvarende funksjonene i GeoGebra heter Kovarians og Korrelasjonskoeffisient. I Excel kan vi bruke funksjonen kovarians.s hvis vi ønsker utvalgskovarians, det finnes ikke noe tilsvarende i GeoGebra.

RegnearkÅpne regneark med beregning av kovarians og korrelasjon på dataene fra eksempel 1
 

Sammenlikne forventning

l artikkelen om hypotesetesting lærte vi å teste hypoteser om at gjennomsnitt eller sannsynlighet avvek fra en forventet verdi. Naturligvis kan det også være veldig interessant å teste hypoteser om at gjennomsnitt eller sannsynlighet er forskjellig i to grupper. Det kan for eksempel være at en ønsker å teste om en ny medisin gir økt virkning, eller om en ny type gjødsel gir økt avling.

Målemodellen

artikkelen om hypotesetesting baserte vi oss på en testobservator

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}}$

som kan skrives som

$Z = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \sqrt \frac{\sigma^2}{n}}$

Her er $\overline X$ målt gjennomsnitt, $\mu_0$ forventet gjennomsnitt, $\sigma$ fordelingens standardavvik, og $n$ antall målinger.

Når vi skal arbeide med to utvalg, vil vi ha to gjennomsnitt, $\overline X$ og $\overline Y$, to standardavvik, $\sigma_X$ og $\sigma_Y$, og to populasjonsstørrelser, $n_X$ og $n_Y$. Og i stedet for å bruke gjennomsnittets avvik fra forventet verdi, $X – \mu_0$, skal vi bruke forskjellen på gjennomsnittene, $\overline X – \overline Y$.

Testobservatoren blir

$\fbox{$Z = \frac{\displaystyle \overline X – \overline Y}{\displaystyle \sqrt{\frac{\sigma_X^2}{n_X} + \frac{\sigma_Y^2}{n_Y}}}$}$

Eksempel 5:

To maskiner tilsetter sukker i en matvare. Maskin X er oppgitt å ha et standardavvik på 0,11, maskin Y er oppgitt å ha et standardavvik på 0,13. En bedrift ønsker å gjøre en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker. 70 prøver av maskin X gir et snitt på 10,103 gram, 85 prøver av maskin Y et snitt på 10,069 gram.

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}103 – 10{,}069}{\displaystyle \sqrt{\frac{(0{,}11)^2}{70} + \frac{(0{,}13)^2}{85}}} \approx 1{,}764$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{\alpha^\phantom 1}{2}}$

I (kvantil)normalfordelingstabellen finner vi at $z_{\Large \frac{0{,}05}{2}} \approx 1,9600$.

Siden $|Z| \not > z_{\Large \frac{0{,}05}{2}}$, kan vi ikke forkaste vi nullhypotesen. Undersøkelsen bekrefter ikke at det er forskjell på sukkermengdene.

Oppgave 2:

Etter en tid gjør bedriften nye målinger. 60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.

Sett opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene nå tilsetter forskjellig mengde sukker.

Se løsningsforslag

Ukjent standardavvik

I artikkelen om estimering og artikkelen om hypotesetesting sa vi at vi ofte ikke kjente fordelingers standardavvik nøyaktig. Da baserte vi oss på utvalgsstandardavviket med testobservator

$T = \frac{\displaystyle \overline X – \mu_0}{\displaystyle \frac{S}{\sqrt n}}$

Og i stedet for å slå opp verdier i normalfordelingstabellen slo vi opp i t-fordelingstabellen.

For å tilpasse observatoren til to grupper, må vi altså erstatte $\overline X – \mu_0$ med $\overline X – \overline Y$. Men observatoren må også tilpasses to utvalgsstandardavvik.

Dette gjør vi ved å erstatte $\frac{\displaystyle S}{\displaystyle \sqrt n}$ med $S_P \sqrt{\frac{\displaystyle 1}{\displaystyle n^{\phantom 1}_X} + \frac{\displaystyle 1}{\displaystyle n^{\phantom 1}_Y}}$, der $S_P$ et felles standardavvik beregnet for de to gruppene. P-en står for "pooled".

I artikkelen om måltall i statistikk så vi at vi beregnet standardavviket i et enkelt utvalg som 

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

$S_P$ beregnes etter tilsvarende mønster:

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n^{\phantom 1}_X}(X_i – \overline X)^2 + \sum_{i = 1}^{n^{\phantom 1}_Y}(Y_i – \overline Y)^2 \;}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y – 2}$}$

Vi ser at det krever mye regnearbeid å beregne $S_P$ for hånd. Siden kalkulatorer ofte har funksjoner for å finne standardavviket i et enkelt datasett, skal vi regne om litt, slik at vi finner $S_P$ uttrykt ved standardavviket til hvert av datasettene, $S_X$ og $S_Y$.

Multipliserer vi med $\sqrt{n – 1}$ på begge sider av likhetstegnet i uttrykket $S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$, får vi

$S \sqrt{n – 1} = \sqrt{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2} \\
\Downarrow \\
S^2 (n – 1) = \displaystyle \sum_{i = 1}^n(X_i – \overline X)^2$

Det betyr at vi kan erstatte $\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2$ med $S^2(n – 1)$ for henholdsvis $S_X$ og $S_Y$ i formelen for $S_P$.

$\fbox{$S_P = \sqrt \frac{\displaystyle {S_X}^2(n^{\phantom 1}_X – 1) + {S_Y}^2(n^{\phantom 1}_Y – 1)}{\displaystyle n^{\phantom 1}_X + n^{\phantom 1}_Y – 2}$}$

På denne formen er utregningene mye enklere hvis vi har verktøy til å finne $S_X$ og $S_Y$.

Og observatoren er altså

$\fbox{$T = \frac{\displaystyle \overline X – \overline Y}{\displaystyle S_P \sqrt{\frac{1}{n^{\phantom 1}_X} + \frac{1}{n^{\phantom 1}_Y}}}$}$

artikkelen om hypotesetesting og artikkelen om estimering lærte vi at når vi skulle slå opp i en t-fordelingstabell, måtte kjenne antall frihetsgrader, $v$, som vi satte lik antall observasjoner minus 1, $v = n – 1$. Nå har vi to sett med observasjoner, og får $v = (n^{\phantom 1}_X – 1) + (n^{\phantom 1}_Y – 1) = n^{\phantom 1}_X + n^{\phantom 1}_Y – 2$.

Eksempel 6:

Et oljeselskap ønsker å teste ut om en ny type tilsetningsstoff i bensin gir redusert forbruk i praksis, og gjør et forsøk med 5 biler. Uten tilsetningsstoff brukere bilene henholdsvis 4,7, 3,5, 3,3, 4,2 og 3,6 liter per 100 kilometer. Med tilsetningsstoff brukere bilene henholdsvis 4,2, 3,2, 3,0, 3,9 og 3,3 liter per 100 kilometer. Vi kaller observasjonene uten tilsetning for $X$, og observasjonene med tilsetning for $Y$.

Så skal vi på 5 % signifikansnivå utføre en hypotesetest på om tilsetningsstoffet gir redusert forbruk.

Hypotesene blir $H_A: \overline X > \overline Y$, $H_0: \overline X = \overline Y$.

Ved en slik sammenlikning blir det ingen forskjell på en høyresidig eller venstresidig test, det spørs bare hva vi trekker fra hva. Her velger vi å bruke en høyresidig test.

Vi har altså $n^{\phantom 1}_X = n^{\phantom 1}_Y = 5$

Fra kalkulator eller PC får vi:

$\overline X = 3{,}86$

$\overline Y = 3{,}52$

$S_X \approx 0{,}5771$

$S_Y \approx 0{,}5070$

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {0{,}5771}^2(5 – 1) + {0{,}5070}^2(5 – 1)}{\displaystyle 5 + 5 – 2} \approx 0{,}5432$

$T \approx \frac{\displaystyle 3{,}86 – 3{,}52}{\displaystyle 0{,}543 \sqrt{\frac{1}{5} + \frac{1}{5}}} \approx 0{,}991$

Vi forkaster nullhypotesen hvis $T > t_{\large \alpha \, (v)}$.

Vi slår opp i (kvantil)t-fordelingstabellen med $\alpha = 0{,}05$ og $v = 5 + 5 – 2 = 8$ og finner $1{,}860$.

Siden $T \not > t_{\large 0{,}05 \, (8)}$ kan vi ikke forkaste nullhypotesen. Testen gir ikke grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Men som vi skal se i eksempel 7, har vi gjennomført denne testen på en klønete måte.

Oppgave 3:

En fruktbonde har to forskjellige typer kirsebærtrær, og vil undersøke om de gir forskjellig mengde frukt. Han veier frukthøsten fra 13 trær av type $X$ og 12 trær av type $Y$, og får:

Type $X$ 44 44 56 46 47 38 58 53 49 35 46 30 41
Type $Y$ 35 47 55 29 40 39 32 41 42 57 51 39  

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Se løsningsforslag

Parvis test

Hvis vi ser nøyere på dataene i eksempel 6, ser vi at konklusjonen om at tilsetningsstoffet ikke gir lavere forbruk virker underlig. For hver bil har faktisk en markant nedgang i forbruk. Problemet ligger i måten vi beregner det sammenslåtte standardavviket på. Vi ser på hvor stort avviket fra gjennomsnittet er i hver av de to gruppene, men dette er egentlig helt uinteressant. Det vi burde sett på var hvor mye hver bils endring i forbruk, $X_i – Y_i$ avviker fra gjennomsnittsendringen, $\overline X – \overline Y$.

Vi bør altså heller beregne $S_P$ som

$\fbox{$S_P = \sqrt \frac{\displaystyle \sum_{i = 1}^{n}\big(X_i – Y_i – (\overline X – \overline Y)\big)^2}{\displaystyle n – 1}$}$

Vi opererer her ikke lenger med $n_X + n_Y$ enkeltelementer, men med $n = n_X = n_Y$ par. ($n_Y$ må være lik $n_X$, ellers ville vi jo ikke kunne ha par).

Igjen gir formen på $S_P$ en del regnearbeid, men hvis vi lager et nytt datasett, $D$ som består av differansen i hvert par, vil $S_P$ bli lik standardavviket til dette datasettet, noe vi kan beregne på kalkulator:

$\fbox{$D_i = X_i – Y_i, \; i \in [1, n] \
S_p = S_D$}$

I testobservatoren må vi også ta hensyn til at vi bare har $n$ observasjoner:

$\fbox{$T = \frac{\displaystyle \overline D}{\displaystyle S_p \frac{1}{\sqrt n}}$}$

Eksempel 7:

Vi skal gjøre om igjen undersøkelsen fra eksempel 6, men denne gangen som en parvis test.

Hypotesene blir som før $H_A: \overline X > \overline Y$, $H_0: \overline X = \overline Y$.

Vi beregner:

$D_1 = 4{,}7 – 4{,}2 = 0{,}5, D_2 = 3{,}5 – 3{,}2 = 0{,}3, D_3 = 3{,}3 – 3{,}0 = 0{,}3, D_4 = 4{,}2 – 3{,}9 = 0{,}3, D_5 = 3{,}6 – 3{,}3 = 0{,}3$

Fra kalkulator eller PC får vi:

$\overline D = 0{,}34$

$S_p = S_D \approx 0{,}0894$

Vi beregner:

$T \approx \frac{\displaystyle 0{,}34}{\displaystyle 0{,}0894 \frac{1}{\sqrt 5}} \approx 8{,}504$

Vi har her en høyresidig test, og forkaster nullhypotesen hvis $T > t_{\large \alpha \, (v)}$.

Vi slår opp i (kvantil)t-fordelingstabellen med $\alpha = 0{,}05$ og $v = 5 – 1 = 4$ og finner $2{,}132$.

Siden $T > t_{\large 0{,}05 \, (4)}$ kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at tilsetningsstoffet gir redusert bensinforbruk.

Oppgave 4:

En lege ønsker å undersøke om en medisin, som en bieffekt, reduserer blodtrykket. Han måler blodtrykket til 15 pasienter før og etter de begynner å ta medisinen, og får følgende resultat

Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84
Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Sett opp og gjennomfør en hypotesetest på 5 % signifikansnivå på om medisinen reduserer blodtrykket.

Se løsningsforslag

Excel har en egen funksjon for å utføre t-test mellom to datasett, t.test. Brukeren må angi hvilke celleområder de to datasettene ligger i, om det er en ensidig eller tosidig test, og om testen skal gjøres parvis eller ikke parvis. t.test beregner P-verdi. Er denne verdien mindre enn testens signifikansnivå, kan nullhypotesen forkastes.

Regnearket under har to ark. Ett for uparet test og ett for paret test.

RegnearkÅpne regneark med beregninger fra eksempel 6 og 7 og bruk av "t.test"


Sannsynlighetskalkulatoren i GeoGebra, som omtales i artikkelen om statistikk med GeoGebra, har også funksjonalitet for slike beregninger.

Binomisk modell

I artikkelen om estimering og artikkelen om hypotesetesting har vi sett at vi i en binomisk modell ikke baserer oss på gjennomsnittet av et antall målinger, men en estimert sannsynlighet for at elementer i en populasjon har en gitt egenskap. Denne estimerte sannsynligheten anga vi med $\hat p$. Vi gjorde et utvalg på $n$ elementer, lot $X$ være antall av disse som hadde egenskapen, og estimerte $\hat p$ som "gunstige på mulige", $\hat p = \frac{\displaystyle X}{\displaystyle n}$.

Nå har vi to utvalg, med henholdsvis $n_1$ og $n_2$ elementer, og estimerte sannsynligheter $\hat p_1 = \frac{\displaystyle X_1}{\displaystyle n_1}$ og $\hat p_2 = \frac{\displaystyle X_2}{\displaystyle n_2}$

Differansen mellom de to sannsynlighetene, $p_1 – p_2$, estimeres med $\hat p_1 – \hat p_2$

Vi har da:

$E(\hat p_1 – \hat p_2) = p_1 – p_2$.

Og, når $X_1$ og $X_2$ er uavhengige:

$Var(\hat p_1 – \hat p_2) = Var(\hat p_1) + Var(-\hat p_2) = Var(\hat p_1) + (-1)^2Var(\hat p_2) = \\
Var(\hat p_1) + Var(\hat p_2) = \frac{\displaystyle p_1(1 – p_1)}{\displaystyle n_1} + \frac{\displaystyle p_2(1 – p_2)}{\displaystyle n_2}$

Hvis nullhypotesen er at $p_1 = p_2$, kan vi under forutsetning av at den er riktig erstatte $p_1$ og $p_2$ med et enkelt symbol, $p$, og vi får:

$Var(\hat p_1 – \hat p_2) = p(1 – p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})$

Hvis $p_1 = p_2$, kan vi se på de to utvalgene som ett felles utvalg med $n_1 + n_2$ elementer der $X_1 + X_2$ har en gitt egenskap. Vi estimerer derfor $p$ som

$\fbox{$\hat p = \frac{\displaystyle X_1 + X_2}{\displaystyle n_1 + n_2}$}$

Og som testobservator får vi

$\fbox{$Z = \frac{\displaystyle \hat p_1 – \hat p_2}{\displaystyle \sqrt{\hat p(1 – \hat p)(\frac{\displaystyle 1}{\displaystyle n_1} + \frac{\displaystyle 1}{\displaystyle n_2})}}$}$

Dersom $n_1$ og $n_2$ er store nok, vil $Z$ være tilnærmet standard normalfordelt. Som en tommelfingerregel for hva som menes med store nok, bør $n_1 \hat p_1, n_1(1 – \hat p_1), n_2 \hat p_2, n_2(1 – \hat p_2)$ alle være større eller lik $5$.

Eksempel 8:

En bedrift produserer PC-skjermer ved to forskjellige anlegg. Noen skjermer er defekte, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekte skjermer ved de to anleggene. 200 skjermer undersøkes på hvert anlegg. På anlegg 1 er 17 defekte, på anlegg 2 er 31 defekte. Vi kaller sannsynligheten for defekte ved anlegg 1 for $p_1$ og sannsynligheten for defekte ved anlegg 2 for $p_2$, og skal teste følgende hypotese på 5 % signifikansnivå:

$H_A: p_1 \ne p_2$ mot $H_0: p_1 = p_2$.

Vi har $n_1 = n_2 = 200$.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 17}{\displaystyle 200} = 0{,}0850$

$\hat p_2 = \frac{\displaystyle 31}{\displaystyle 200} \approx 0{,}1550$

$\hat p = \frac{\displaystyle 17 + 33}{\displaystyle 200 + 200} = 0{,}1200$

Og vi får

$Z = \frac{\displaystyle 0{,}0850 – 0{,}1550}{\displaystyle \sqrt{0{,}1200(1 – 0{,}1200)(\frac{\displaystyle 1}{\displaystyle 200} + \frac{\displaystyle 1}{\displaystyle 200})}} \approx -2{,}154$

Siden vi har en tosidig test med 5 % signifikansnivå, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{0{,}05}{2}} = z_{\large 0{,}025}$. Vi slår opp i (kvantil)normalfordelingstabellen, og finner $z_{\large 0{,}025} \approx 1{,}9600$.

Siden $|Z| = 2{,}154 > 1{,}9600$, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i defektsannsynligheten på de to anleggene.

Oppgave 5:

En bedrift produserer bukser ved to forskjellige produksjonslinjer. En del av buksene har defekte sømmer, og bedriften vil undersøke om det er forskjell i sannsynlighetene for defekter ved de to linjene. Ved første produksjonslinje er 147 av 2500 defekte, ved andre er 151 av 2000 defekte. Sett opp og test en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene. Bruk 5 % signifikansnivå.

Se løsningsforslag

Kilder:

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
  • Bjørkestøl K. (2015) Upublisert undervisningsmateriale.
  • Wikipedia