Måltall i statistikk

Et sett med data kan inneholde mange verdier og være svært uoversiktlig. Vi har derfor behov for både metoder til å presentere data på en strukturert måte, og til å beregne nøkkeltall som beskriver dataene.

Eksempel 1:

En gruppe på 30 barneskoleelever var til helsekontroll og fikk målt høyden. Resultatene var 140, 141, 137, 143, 145, 142, 139, 138, 139, 141, 144, 137, 138, 142, 140, 142, 140, 138, 135, 142, 144, 141, 148, 140, 149, 135, 141, 140, 139 og 137 cm. Vi ser at det uten nitid granskning er vanskelig å si noe mer enn at høydene ser ut til å ligge i området 135 – 150 cm.

Frekvenstabell

En måte å strukturere data på er å lage en frekvenstabell. Da lister vi opp de forskjellige verdiene og oppgir hvor mange ganger de forekommer. Dividerer vi antall forekomster av en verdi på antall forekomster totalt, får vi verdiens relative frekvens, som forteller hvor stor del av helheten den utgjør.

Eksempel 2:

Det er totalt 30 målinger i eksempel 1, med verdier fra 135 til 149. En frekvenstabell basert på disse målingene vil se slik ut:

Høyde (cm) 135 136 137 138 139 140 141 142
Frekvens 2 0 3 3 3 5 4 4
Relativ frekvens 7 % 0 % 10 % 10 % 10 % 17 % 13 % 13 %
 
Høyde (cm) 143 144 145 146 147 148 149  
Frekvens 1 2 1 0 0 1 1
Relativ frekvens 3 % 7 % 3 % 0 % 0 % 3 % 3 %

Her har vi angitt den relative frekvensen i prosent. For eksempel er den relative frekvensen for 140 lik ${\large \frac{5}{30}} \approx 0{,}17$, det vil si at omlag 17 % av elevene er 140 centimeter.

Vi kan også presentere en frekvenstabell grafisk i form av et søylediagram, der vi har én søyle for hver verdi, og høyden på søylen angir hvor mange ganger verdien forekommer.

Eksempel 3:

Frekvenstabellen fra eksempel 2 kan presenteres slik, i form av et søylediagram:

Søylediagram ugrupperte høydedata

Nå ser vi for eksempel lett at det er flest (5) elever som er 140 centimeter og ingen elever som er 136, 146 eller 147 centimeter.

Av og til kan en frekvenstabell inneholde for mye informasjon. Skal vi for eksempel lage en frekvenstabell over nordmenns inntekt, vil det bli uoverkommelig mange kolonner hvis vi skal gå ned på kronenivå og ha én kolonne for 250.000, én kolonne for 250.001, og så videre. For å forenkle, grupperer vi da verdier, for eksempel ved å ha én kolonne for "under 250.000", én for "250.000 – 299.999", én for "300.000 – 349.999" og så videre.

Eksempel 4:

Grupperer vi målingene fra eksempel 1 i intervallene 135-139, 140-144, 145-149, får vi følgende frekvenstabell og søylediagram:

Høyde (cm) 135-139 140-144 145-149
Frekvens 11 16 3
Relativ frekvens 37 % 53 % 10 %

Søylediagram grupperte høydedata

Vi ser enkelt at flest elever (16) ligger i gruppa 140-144, noen færre (11) i gruppa 135-139, og få (3) i gruppa 145-149.

I Excel kalles søylediagrammer for stolpediagrammer, disse begrepene brukes mye om hverandre. Enkelte lærebøker hevder imidlertid at et stolpediagram er et søylediagram der søylene ikke har bredde, de tegnes bare som en strek.

I Excel lager vi søylediagrammer ved å skrive inn og markere dataene, velge "Sett inn" – "Stolpe", og så velge stolpetype.

RegnearkÅpne et regneark med stolpediagrammene vist over
 

Oppgave 1:

På en prøve fikk elevene i en klasse disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

  1. Lag en frekvenstabell som viser fordeling av karakterene. Tabellen skal også vise relativ frekvens i prosent.
     
  2. Lag en frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6. Tabellen skal også vise relativ frekvens i prosent.
     
  3. Lag et søylediagram som illustrerer karakterfordelingen i punkt 2.

Se løsningsforslag

Intervaller er imidlertid mer vanlig å presentere i histogrammer. Et histogram minner om et søylediagram, men har en kontinuerlig x-akse, og søylene ligger helt inntil hverandre.

Det er litt tungvint å lage histogrammer i Excel, figurene i eksempel 5 og 6 er laget i GeoGebra. På dette nettstedet finnes en egen artikkel om statistikk med GeoGebra, der det beskrives hvordan GeoGebra kan brukes til å lage søylediagrammer og histogrammer.

Eksempel 5:

Figuren under viser samme data som eksempel 4, presentert i et histogram.

Histogram

Det er ikke noe krav at intervallene som presenteres i et histogram skal være like store. Søylens areal, ikke høyden, forteller hvor mange verdier som ligger i hvert intervall.

Eksempel 6:

Tabellen under viser fire intervaller med bredder på henholdsvis 5, 5, 10 og 20. Det er 5 målinger i hvert intervall.

Intervall $[0, 5 \rangle$ $[5, 10 \rangle$ $[10,20 \rangle$ $[20, 40 \rangle$
Frekvens 5 5 5 5

Det tilhørende histogrammet er vist under.

Histogram med ulik intervallbredde

Vi ser at selv om det er like mange målinger i hvert intervall, er ikke søylene like høye, fordi intervallbredden er forskjellig. Arealet av hver søyle er imidlertid det samme.

I det følgende kommer vi til å presentere en del sentral- og spredningsmål i statistikk. Alle disse måltallene kan beregnes i Excel, slik det er vist i eksemplet under:

RegnearkÅpne et regneark med eksempler på måltall
 

Sentralmål

Det kan ofte være interessant å vite hvilke verdier et datasett er sentrert rundt. Hvis vi for eksempel måler høyden på nye sjetteklassinger over tjue år, vil vi få enorme mengder med data som er vanskelig å få oversikt over på ubehandlet form. Men sammenlikner vi et sentralmål for hvert år, vil vi kjapt kunne se hvordan høyden på sjetteklassinger generelt har endret seg gjennom årene.

Vanlige sentralmål er gjennomsnitt, median og typetall.

Gjennomsnitt

Gjennomsnitt, også kalt middelverdi, angir et datasetts nøyaktige midtpunkt. Hvis vi tenker oss verdiene i et datasett fordelt utover ei vektstang, vil gjennomsnittet være vektstangas balansepunkt. Gjennomsnittet trenger ikke ligge på, eller en gang i nærheten av, noen av verdiene i settet, for eksempel er gjennomsnittet av 1 og 99 lik 50.

Gjennomsnitt beregnes ved å summere alle verdiene i et datasett og dividere på antall elementer. Det er vanlig å betegne gjennomsnitt med en $X$ med strek over: $\overline X$. I noen lærebøker benyttes liten bokstav, $\overline x$.

​I matematisk terminologi, hvis vi har et datasett med $n$ elementer, kaller hver verdi $X_i$, der $i \in \{1, 2, 3, \dots, n\}$, uttrykker vi gjennomsnittet, $\overline X$, slik:

$\fbox{Gjennomsnitt: $\overline X = \frac{\displaystyle \sum_{i = 1}^n X_i}{\displaystyle n^\phantom 1}$}$

Gjennomsnittet har samme enhet som enkeltelementene. Hvis vi for eksempel beregner gjennomsnittet av høyder i centimeter, er gjennomsnittshøyden også i centimeter.

Eksempel 7:

Vi skal beregne gjennomsnittet av elevhøydene fra eksempel 1. Vi summerer først alle høydene: 140 + 141 + 137 + 143 + 145 + 142 + 139 + 138 + 139 + 141 + 144 + 137 + 138 + 142 + 140 + 142 + 140 + 138 + 135 + 142 + 144 + 141 + 148 + 140 + 149 + 135 + 141 + 140 + 139 + 137 = 4217. Så finner vi gjennomsnittet ved å dividere denne summen på antall målinger, som er 30, og får $\overline X = {\large \frac{4217}{30}} \approx 140{,}6.$ Gjennomsnittshøyden er ca. 140,6 centimeter.

​I praksis beregner vi imidlertid sjelden gjennomsnittet manuelt på denne måten. På litt avanserte kalkulatorer legger vi bare inn alle dataene og trykker på knappen for å beregne gjennomsnitt.

I Excel bruker vi funksjonen gjennomsnitt til å beregne gjennomsnitt. La os si at dataene ligger i området A1 – C4. Da skriver vi =gjennomsnitt(A1:C4) i cella der vi vil ha gjennomsnittet lagt inn. I GeoGebra heter funksjonen Gjennomsnitt, og brukes helt tilsvarende Excel, i GeoGebras regneark-felt. Vi kan også få opp gjennomsnittet i algebra-feltet ved å skrive i Gjennomsnitt-kommandoen i inntastingsfeltet, men da sløyfer vi likhetstegnet foran kommandoen. Når vi skriver i inntastingsfeltet, kan vi velge om vi vil liste opp verdiene der, eller referere til dem i regneark-delen.

Oppgave 2:

Beregn gjennomsnittet av karakterene i oppgave 1, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Se løsningsforslag

Median

Hvis vi sorterer et datasett stigende, vil naturligvis det første elementet ha den laveste verdien i settet, og det siste elementet den høyeste. Det gir også mening å snakke om midten av et slikt sortert sett. Midten finner vi ved å ta antall elementer i settet, legge til 1 og dividere med 2. I et datasett med et odde antall elementer vil det være ett element som ligger midt i, i et datasett med et par antall verdier vil midten bli delt av to elementer. Verdien til midtelementet i et sett med et odde antall elementer, og gjennomsnittet av verdiene til de to midtelementene i et sett med et par antall elementer, kalles datasettets median.

Eksempel 8:

  1. Deltakerne på et kveldskurs er 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Her har vi 9 elementer, så midten blir element nummer ${\large \frac{9 + 1}{2}} = 5$. Settet har et odde antall elementer, så medianen er verdien til element nummer 5, altså 22.
     
  2. Det kommer en ny deltaker på kurset som er 19 år. Stiller vi opp aldrene på nytt, blir det 19, 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Vi har nå 10 elementer, så midten blir element nummer ${\large \frac{10 + 1}{2}} = 5{,}5$, det vil si at element nummer 5 og 6, med verdi 21 og 22, deler midtplassen. Medianen blir da gjennomsnittet av disse verdiene, altså ${\large \frac{21 + 22}{2}} = 21{,}5$.

​Men hvorfor skal vi ha to måltall, både gjennomsnitt og median, til å angi sentrum av et datasett? Vel, begge har sine fordeler og ulemper. Gjennomsnittet trenger vi til en del andre beregninger, for eksempel standardavvik, som vi skal se på senere. Dessuten ligger gjennomsnittet alltid i sentrum av datasettet, selv om det ikke finnes noen verdier i nærheten. Medianen, derimot, er avhengig av en eller to verdier å hekte seg på, noe som kan gi rare utslag hvis det ikke finnes verdier nær gjennomsnittet. På den annen side er medianen mer robust mot sterkt avvikende verdier i et datasett enn gjennomsnittet er. Medianen kan også generaliseres til å angi ikke bare midten av et datasett, men for eksempel fjerdeparten eller en bestemt prosentandel.

Eksempel 9:

  1. I en gruppe besteforeldre og barnebarn er aldrene 5, 10, 11, 14, 57, 60, 63, 65 og 66 år. Gjennomsnittsalderen blir 39, som er i sentrum av datasettet. Men medianen blir 57, noe som er veldig misvisende. Kommer det så en 11-åring og en 12-åring inn i gruppa, går gjennomsnittet noe ned, til 34, men medianen hopper ekstremt, helt ned til 14. I dette tilfellet representerer altså gjennomsnittet dataene best.
     
  2. Ti elever skriver opp hvor mange husdyr de har hjemme. Tre har 0, fire har 1 og 3 har 2. Både gjennomsnitt og median blir 1, noe som beskriver datasettet godt. Men så kommer det til en elev som bor på gård der de har 34 husdyr. Nå hopper gjennomsnittet opp til 4, noe som slett ikke forteller noe om hvor mange husdyr det er vanlig å ha. Medianen derimot, forblir 1. I dette tilfellet representerer altså medianen dataene best.

I Excel og GeoGebra beregner vi median ved hjelp av funksjonen median, som brukes helt tilsvarende gjennomsnitt-funksjonen.

Typetall

Typetall, også kalt modus, er den verdien i et datasett som forekommer flest ganger. I eksempel 5.1 er typetallet 140, fordi denne verdien forekommer 5 ganger, mer enn noen av de andre verdiene. En fordel med typetallet er at det i motsetning til gjennomsnitt og median er definert for verdier som ikke er tall. For eksempel kan typetallet angi hvilken bokstav som forekommer flest ganger i en tekst. I "februar" er for eksempel typetallet "r". I lange tekster vil typetallet angi hvilken bokstav som er mest brukt i et språk. En ulempe med typetall er at typetall som ligger langt fra gjennomsnittet i et datasett, kan gi et dårlig bilde av hvor datasettet er sentrert. En annen ulempe er at det ikke er konsensus om hva typetallet er når det finnes flere alternativer, slik som i "Mississippi", der både "s" og "i" forekommer 4 ganger. Noe litteratur sier at typetallet i slike tilfeller ikke er definert, annen at alle alternativene da er typetall.

I Excel beregner vi typetallet ved hjelp av funksjonen modus.sngl, i GeoGebra ved hjelp av funksjonen Typetall. Funksjonene brukes helt tilsvarende gjennomsnitt-funksjonen. Er det flere alternativer, velger Excel en av verdiene, uklart hvilken. GeoGebra gir en liste over verdiene.

Oppgave 3:

Finn median og typetall blant karakterene i oppgave 1, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Se løsningsforslag

Spredningsmål

Det kan ofte være interessant å ikke bare vite hvor sentrum av et datasett er, men også hvor spredt dataene ligger. Datasettene 50 og 50, og 1 og 99 har for eksempel begge 50 som gjennomsnitt, men spredningen er veldig forskjellig, i det første tilfellet har vi ikke spredning i det hele tatt.

Vanlige spredningsmål er standardavvik, variasjonsbredde og kvartilbredde.

Standardavvik

Standardavvik er et spredningsmål som er basert på gjennomsnittet. Å beregne standardavvik manuelt er ganske omstendelig, i praksis lar vi en kalkulator eller et regneark gjøre jobben. For å få innsikt i hva standardavvik egentlig er, skal vi allikevel gå gjennom metoden for å regne det ut manuelt.

Vi starter med å summere de kvadratiske avstandene mellom hver verdi i et datasett og datasettets gjennomsnitt.

Eksempel 10 a:

Fem deltakere i en lesesirkel er 35, 37, 38, 41 og 44 år. Gjennomsnittsalderen er da $\overline X = 39$ år. Summen av de kvadratiske avstandene blir

$(35 – 39)^2 + (37 – 39)^2 + (38 – 39)^2 + (41 – 39)^2 + (44 – 39)^2 = 16 + 4 + 1 + 4 + 25 = 50$.

Grunnen til at vi beregner den kvadratiske avstanden og ikke bare avstanden, er at vi i datasettet vil ha verdier som er både større og mindre enn gjennomsnittet. Hvis vi da beregner avstanden, vil vi få en blanding av positive og negative tall. Og summen av disse vil alltid være 0, fordi gjennomsnittet ligger sentrert blant verdiene. Med verdiene fra eksempel 10 a) vil vi få -4 -2 -1 + 2 + 5 = 0.

Når vi har funnet summen av de kvadratiske avstandene, dividerer vi den på antall elementer vi har. Verdien vi da får kalles varians. Til slutt får vi fram standardavviket ved å ta kvadratrota av variansen.

Eksempel 10 b:

I eksempel 10 a) fant vi ut at summen av de kvadratiske avstandene til aldrene var 50. Det er 5 deltakere, så vi skal dividere 50 på 5 for å finne variansen. Så tar vi kvadratrota og får $\sqrt {\large \frac{50}{5}} \approx 3{,}16$. Standardavviket til aldrene i lesesirkelen er ca. 3,16 år.

​I matematisk terminologi, hvis vi har et datasett med $n$ elementer, og kaller hver verdi $X_i$, der $i \in \{1, 2, 3, \dots, n\}$, uttrykker vi standardavviket, $\sigma$, slik:

$\fbox{Standardavvik: $\sigma = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n}$}$

Standardavviket har samme enhet som enkeltelementene. Hvis vi for eksempel beregner standardavviket til høyder i centimeter, er standardavviket også i centimeter.

Nær beslektet med standardavviket er utvalgsstandardavviket. Dette benyttes når beregningen er basert på et utvalg fra en større mengde, for eksempel lengden på 10 tilfeldige laks vi plukker opp i et oppdrettsanlegg. Utvalgsstandardavviket betegnes med $S$ eller $s$ og beregnes nesten på samme måte som $\sigma$, men vi dividerer med $n – 1$ i stedet for $n$:

$\fbox{Utvalgsstandardavvik: $S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$}$

Resultatet blir litt større enn $\sigma$, men når $n$ vokser, blir forskjellen ubetydelig. Utvalgsstandardavvik kommer vi tilbake til i artikkelen om estimering. Dessverre blander en del lærebøker symbolene for standardavvik og utvalgsstandardavvik, og på en del kalkulatorer brukes henholdsvis $\sigma_n$ og $\sigma_{n-1}$ eller $S_n$ og $S_{n-1}$ som symboler på de to typene standardavvik.

I denne artikkelen holder vi oss imidlertid til $\sigma$.

Oppgave 4:

Beregn standardavviket til de 25 karakterene i oppgave 1, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2. Husk at du beregnet gjennomsnittet i oppgave 2, så det trenger du ikke gjøre på nytt.

​​Se løsningsforslag

Standardavviket forteller hvor mye de enkelte verdiene i et datasett avviker fra gjennomsnittet.

Eksempel 11:

I eksempel 10 så vi at gjennomsnittsalderen i en lesesirkel med medlemmer på 35, 37, 38, 41 og 44 år var 39 år, og standardavviket ca. 3,5 år. I en annen lesesirkel med 5 medlemmer er deltakerne 18, 21, 24, 71, 61 år. Her blir gjennomsnittsalderen også 39 år, men standardavviket blir ca. 25 år. Standardavviket er mye høyere fordi aldrene i dette tilfellet ligger mye lenger unna gjennomsnittet.

Oppgave 5:

Elevene fra oppgave 1 hadde en ny prøve en måned senere. Da ble resultatene 6 enere, 5 toere, 5 treere, 2 firere, 4 femmere og 3 seksere. Beregn gjennomsnitt og standardavvik til karakterene i den nye prøven, og tolk likheter og forskjeller mellom de to prøvene.

​​Se løsningsforslag

I Excel beregner vi standardavviket, $\sigma$, ved hjelp av funksjonen stdav.p, der p-en står for "population". Utvalgsstandardavviket, $s$, beregnes ved hjelp av funksjonen stdav.s, der s-en står for "sample". I GeoGebra heter de tilsvarende funksjonene Standardavvik og UtvalgStandardavvik.

Variasjonsbredde

Variasjonsbredde er avstanden mellom største og minste verdi i et datasett.

Eksempel 12:

De to lesesirklene i eksempel 10 og 11 hadde deltakere i alderen 35 – 44 år og 18 – 61 år. I den første lesesirkelen er da variasjonsbredden 44 – 35 = 9 år, og i den andre 61 – 18 = 43 år.

Variasjonsbredden er imidlertid følsom for ekstreme verdier i et datasett. Hvis det for eksempel i den første lesesirkelen hadde kommet til en person på 75 år, ville variasjonsbredden ha hoppet fra 9 til 40, en endring som ikke i det hele tatt er representativ for endringen i aldersfordeling.

I Excel kan vi beregne variasjonsbredden ved å finne største verdi med funksjonen størst og trekke fra minste verdi som vi finner med funksjonen min. (Det er litt snurrig skrivemåte her). I GeoGebra heter de samme funksjonene Maks og Min. Funksjonene brukes tilsvarende gjennomsnitt-funksjonen, men hvis vi vil oppgi mer enn to tall i inntastingsfeltet i GeoGebra, må de angis som en liste, det vil si mellom krøllparenteser. For eksempel Maks({2, 7, 4}).

Kvartilbredde

Vi har tidligere sagt at medianen befinner seg i midten av et sortert datasett. Medianbegrepet kan generaliseres til persentiler, der vi bestemmer en verdi ut fra hvor i datasettet den prosentvis befinner seg.

Eksempel 13:

Et sortert datasett består av tallene 3, 5, 6, 7, 8, 10, 13, 16 og 17, og vi skal finne 20- og 80-persentilene. Da må vi finne ut hvilke verdier som ligger 20 % og 80 % opp i settet. Siden settet har 9 elementer, får vi $(9 + 1) \cdot 20 \% = 2$ og $(9 + 1) \cdot 80 \% = 8$. Siden element nummer 2 har verdien 5, blir 20-persentilen lik 5, og siden element nummer 8 har verdien 16, blir 80-persentilen lik 16.

Da vi skulle finne medianen i et datasett med $n$ elementer, fant vi midten av datasettet ved å beregne ${\large \frac{n + 1}{2}}$. Dette ble bare et helt tall når $n$ var oddetall, slik at divisjonen ${\large \frac{n + 1}{2}}$ gikk opp. Gikk divisjonen ikke opp, ble medianen gjennomsnittet av de to midterste elementene. Tilsvarende får vi ofte ikke et helt tall når vi skal beregne posisjonen til en persentil. I eksempel 13 fant vi 20-persentilen ved å multiplisere n + 1 med 20 %, noe som tilsvarer å dividere med 5. En slik divisjon går bare opp når n + 1 er delelig med 5, slik som 9 + 1 i eksempel 13. I de tilfellene divisjonen ikke går opp, blir persentilen et vektet gjennomsnitt. Vi illustrerer med et eksempel, deretter holder vi oss til divisjoner som går opp.

Eksempel 14:

  1. Vi skal finne 33-persentilen i datasettet fra eksempel 13, som har 9 elementer: 3, 5, 6, 7, 8, 10, 13, 16 og 17. Vi beregner $(9 + 1) \cdot 0{,}33 = 3{,}3$. Siden dette er 0,3 over 3, tar vi 0,3 fra elementet etter element nummer 3 (nummer 4, som har verdi 7) og 0,7 fra element nummer 3 (som har verdi 6). Så 33-persentilen blir $0{,}3 \cdot 7 + 0{,}7 \cdot 6 = 6{,}3$.
     
  2. Vi skal finne 66-persentilen i det samme datasettet. Vi beregner $(9 + 1) \cdot 0{,}66 = 6{,}6$. Siden dette er 0,6 over 6, tar vi 0,6 fra elementet etter element 6 (nummer 7, som har verdi 13) og resten fra element nummer 6 (som har verdi 10). Så 66-persentilen blir $0{,}4 \cdot 10 + 0{,}6 \cdot 13 = 11{,}8$.

I Excel kan vi beregne persentiler ved hjelp av funksjonen persentil.ink, i GeoGebra funksjonen Persentil. Her må vi i tillegg til å angi hvilke data vi vil beregne persentilen til, også angi hvilken persentil vi skal beregne, i form av et desimaltall. 20-persentilen angir vi for eksempel som 0,2, og 80-persentilen som 0,8. Funksjonene brukes tilsvarende gjennomsnitt-funksjonen, men hvis vi bruke inntastingsfeltet i GeoGebra, må verdiene angis som en liste, det vil si mellom krøllparenteser. For eksempel Persentil({3, 5, 6, 7, 8, 10, 13, 16, 17}, 0.8).

Men mens Excel beregner et vektet gjennomsnitt av persentiler, velger GeoGebra det nærmeste elementet hvis ikke elementnummeret er et helt tall. Dette illustrerer problemet med at det ikke er konsensus om hvordan en persentil beregnes når elementnummeret ikke er et helt tall. Det vanligste er å ta et vektet gjennomsnitt, men det finnes ingen entydig definisjon.

Medianen er en 50-persentil som har fått et eget navn. To andre persentiler med egne navn er første og tredje kvartil, som er henholdsvis 25- og 75-persentiler. Andre kvartil er naturligvis det samme som medianen.

Eksempel 15:

Vi skal finne første og tredje kvartil i et datasett med 11 elementer: 13, 14, 17, 18, 18, 21, 23, 23, 27, 30 og 32. Vi beregner $(11 + 1) \cdot 0{,}25 = 3$. Første kvartil blir verdien av element nummer 3, altså 17. Så beregner vi $(11 + 1) \cdot 0{,}75 = 9$. Tredje kvartil blir verdien av element nummer 9, altså 27.

I Excel kan vi beregne kvartiler ved hjelp av funksjonen kvartil.eks. Her må vi i tillegg til å angi hvilke data vi vil beregne kvartilen til, også angi hvilket kvartil vi skal beregne, 1 for første kvartil og 3 for tredje kvartil. GeoGebra har to funksjoner for å beregne kvartiler, Q1 og Q3

Vi så at variasjonsbredden som spredningsmål var følsom for ekstreme verdier i et datasett. Et bedre mål kan derfor være kvartilbredden, avstanden mellom første og tredje kvartil, som ikke blir påvirket av de 25 % laveste eller 25 % høyeste verdiene i et datasett.

Er kvartilbredden høy, betyr det stor spredning, er den lav, betyr det lav spredning.

I Excel og GeoGebra kan vi beregne kvartilbredden ved å finn øvre kvartil og så trekke fra nedre kvartil.

Eksempel 16:

Vi skal finne kvartilbredden til datasettet fra eksempel 15. I eksempel 15 fant vi at første kvartil var 17, og tredje kvartil 27, så kvartilbredden blir 27 – 17 = 10.

Oppgave 6:

Olga pendler til jobben med toget, og skriver opp hvor mange minutter forsinket toget er hver dag. En måned har hun notert følgende: 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14. Beregn og tolk variasjonsbredden og kvartilbredden for dette datasettet.

​​​Se løsningsforslag

Kilder:

  • Hinna, K.R.C., Rinvold, R.A., Gustavsen, TS. (2011). QED 5-10, bind 1. Høyskoleforlaget
  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Bhattacharya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons
  • Wikipedia