Samvariasjon

I statistikk er vi ofte interessert i å sammenlikne datasett. Vi kan for eksempel lure på om det er noen sammenheng mellom gjennomsnittstemperatur og høyden på en type blomster.

Et praktisk mål for å vurdere om det er sammenheng mellom to sett variabler er korrelasjonskoeffisienten. Korrelasjonskoeffisienten måler i hvor stor grad verdiene i to datasett samvarierer, og er et tall mellom 1 og −1. 1 betyr fullstendig samvariasjon, for eksempel at høyden på en type blomster øker proporsjonalt med temperaturen, −1 betyr fullstendig omvendt samvariasjon, for eksempel at høyden på en type blomster synker proporsjonalt med temperaturen. 0 betyr at det ikke kan påvises noen samvariasjon. Mellom disse ytterpunktene er alle tall mulige. For eksempel vil 0,1 bety en svak samvariasjon, mens 0,9 betyr en sterk samvariasjon.

Hvis vi lager et plott av verdiene, vil data med fullstendig samvariasjon ligge på ei rett linje. Verdier uten samvariasjon vil ligge spredt tilfeldig utover.

Eksempel 1:

Høyde og vekt for 10 kvinnelige toppidrettsutøvere er gitt i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 51 56 51 62 54 56 56 59 57 54

Korrelasjonskoeffisienten for disse dataene er ca. 0,626. Som vi kan forvente, har vi en positiv samvariasjon. Men den er ikke fullstendig, det vil vi sjelden finne i virkeligheten. Et plott av dataene er vist under, med høyde langs x-aksen og vekt langs y-aksen.
Illustrasjon av korrelasjonskoeffisient 0,626

Vi ser at det er et tydelig mønster i at større høyde henger sammen med større vekt, men samtidig er det avvik. Personen på 170 centimeter er for eksempel uvanlig lett i forhold til høyden.

Eksempel 2:

Vi manipulerer vektene i eksempel 1, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52,5 53,4 54,4 54,7 53,1 54,1 53,7 54,6 53,8 53,8

Nå har vi nesten perfekt samvariasjon, korrelasjonskoeffisienten er ca. 0,998. Lager vi et plott av dataene, ser vi at de ligger nesten fullstendig på linje.

Illustrasjon av korrelasjonskoeffisient 0,996

Eksempel 3:

Vi manipulerer vektene i eksempel 1 en gang til, slik at de blir som vist i tabellen under:

Høyde (cm) 164 167 170 171 166 169 168 171 168 168
Vekt (kg) 52 54 51 50 53 58 57 56 59 60

Nå har vi ingen samvariasjon, korrelasjonskoeffisienten er 0,000. Lager vi et plott av dataene, ser vi at de ligger spredt utover uten noe mønster:

Illustrasjon av korrelasjonskoeffisient 0,000

Korrelasjonskoeffisienten baserer seg på i hvilken grad avvik fra gjennomsnittet stemmer overens i de to datasettene. Positive bidrag til korrelasjonskoeffisienten vil vi for eksempel få hvis en høyde langt over gjennomsnittet korresponderer med en vekt langt over gjennomsnittet, en høyde litt over gjennomsnittet korresponderer med en vekt litt over gjennomsnittet, en høyde litt under gjennomsnittet med en vekt litt under gjennomsnittet, og så videre.

I artikkelen om måltall i statistikk lærer vi å beregne gjennomsnitt, X, og standardavvik. For å beregne standardavvik starter vi med å beregne kvadratavstanden mellom verdiene i datasettet og gjennomsnittet: (XiX)2.

Nå har vi to datasett, vi kaller det ene X og det andre Y. Produktet av avstandene mellom en verdi og gjennomsnittet i hvert av settene, (XiX)(YiY), vil gi et mål på i hvilken grad korresponderende verdier samvarierer. Hvis både (XiX) og (YiY) ligger mye over gjennomsnittet, vil vi produktet bli et stort, positivt tall. Det samme vil skje hvis begge verdiene ligger mye under gjennomsnittet. Vi får da et produkt av to store negative tall, noe som blir et stort positivt tall. Verdier nær gjennomsnittet vil gi små tall. Dersom den ene verdien ligger over og den andre under gjennomsnittet, vil produktet bli et negativt tall.

Når vi beregner summen av alle slike produkter og dividerer på antall produkter, n, får vi kovariansen mellom settene.

$\fbox{$Cov(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\displaystyle n^\phantom 1}$}$

Vi forutsetter her at vi arbeider på hele populasjonen. Som vi så i artikkelen om måltall i statistikk, kunne vi i tillegg til å beregne standardavvik ved å ta hensyn til hele populasjonen, også beregne standardavviket for et utvalg. Vi dividerte da med n − 1 i stedet for n og fikk et tall som var litt høyere. Tilsvarende kan vi også finne kovarians for et utvalg ved å dividere på n − 1. For korrelasjonskoeffisienten spiller dette imidlertid ingen rolle.

Kovariansen er på samme måte som korrelasjonskoeffisienten et mål på samvariasjonen i to datasett, men er beheftet med noen ulemper. Ett problem er at kovariansen vil ha en enhet som er avhengig av enhetene i datasettene. I eksempel 1 vil enheten bli cm · kg. Et annet problem er at størrelsen på kovariansen avhenger av størrelsen på dataene. Hvis vi for eksempel får en kovarians på 100, må vi undersøke dataene for å avgjøre om denne tyder på høy eller lav samvariasjon. I noen datasett kan det være det ene, i andre datasett det andre.

Vi gjør derfor en normering ved å dividere kovariansen på produktet av standardavvikene i datasettene vi sammenlikner. Da blir vi kvitt enheten, og får en standardisert tallverdi som varierer mellom −1 og 1. Dette er korrelasjonskoeffisienten, R:

$\fbox{$R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle \sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y}$}$

Skrevet ut i detalj:

$\fbox{$R(X, Y) = \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)(Y_i − \overline Y)}{\sqrt{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2\displaystyle \sum_{i = 1}^n(Y_i − \overline Y)^2 \;}}$}$

Vi ser at n ikke er med i uttrykket, det er fordi n opptrer i både teller og nevner og kan forkortes bort.

I noen bøker brukes den greske bokstaven ρ i stedet for R som symbol for korrelasjonskoeffisienten.

Eksempel 4:

Vi skal beregne korrelasjonskoeffisienten i eksempel 1. Vi viser ikke utregningen av gjennomsnitt og standardavvik i hvert av datasettene, hvordan vi gjør dette drillet vi på i artikkelen om måltall i statistikk.

Vi kaller datasettet med høyder X og datasettet med vekt Y. Gjennomsnittene blir X = 168,2 og Y= 55,6, standardavvikene blir σX ≈ 2,088 og σY ≈ 3,200.

Summen av produktet av avstandene mellom hver verdi og gjennomsnittet i hvert av de 10 settene blir:

(164 − 168,2)(51 − 55,6) + (167 − 168,2)(56 − 55,6) + (170 − 168,2)(51 − 55,6)
+ (171 − 168,2)(62 − 55,6) + (166 − 168,2)(54 − 55,6) + (169 − 168,2)(56 − 55,6)
+ (168 − 168,2)(56 − 55,6) + (171 − 168,2)(59 − 55,6) + (168 − 168,2)(57 − 55,6)
+ (168 − 168,2)(54 − 55,6) = 41,8

Kovariansen blir $Cov(X, Y) = \frac{\displaystyle 41{,}8}{\displaystyle 10} = 4{,}18$.

Korrelasjonskoeffisienten blir $R(X, Y) = \frac{\displaystyle Cov(X, Y)}{\displaystyle \sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y} \approx \frac{\displaystyle 4{,}18}{\displaystyle 2{,}088 \cdot 3{,}200} \approx 0{,}626$.

Oppgave 1:

To datasett med 4 korresponderende verdier er vist i tabellen under:

X1 = 242 X2 = 266 X3 = 218 X4 = 234
Y1 = 363 Y2 = 399 Y3 = 327 Y4 = 351

Beregn

  1. Gjennomsnittet i hvert av settene, X og Y
     
  2. Standardavviket i hvert av settene, σX og σY
     
  3. Kovariansen mellom settene, Cov(X, Y)
     
  4. Korrelasjonskoeffisienten mellom settene, R(X, Y)

Se løsningsforslag

Det er sjelden vi regner ut korrelasjonskoeffisienten manuelt. På litt avanserte kalkulatorer legger vi bare inn dataene, og så gjør kalkulatoren resten av jobben. I Excel bruker vi funksjonen kovarians.p til å beregne kovarians, og korrelasjon til å beregne korrelasjonskoeffisienten. De tilsvarende funksjonene i GeoGebra heter Kovarians og Korrelasjonskoeffisient. I Excel kan vi bruke funksjonen kovarians.s hvis vi ønsker utvalgskovarians, det finnes ikke noe tilsvarende i GeoGebra.

RegnearkÅpne regneark med beregning av kovarians og korrelasjon på dataene fra eksempel 1

 
SkjermfilmSe filmen «Samvariasjon»

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
    • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons