Måltall i statistikk

I denne artikkelen presenterer vi en del sentral- og spredningsmål i statistikk. Alle disse måltallene kan beregnes i regneark, slik det er vist i regnearket under:

RegnearkRegneark med eksempler på måltall
 

Sentralmål

Det kan ofte være interessant å vite hvilke verdier et datasett er sentrert rundt. Hvis vi for eksempel måler høyden på nye sjetteklassinger gjennom en periode på tjue år, vil vi få enorme mengder med data som er vanskelig å få oversikt over på ubehandlet form. Men sammenlikner vi et sentralmål for hvert år, vil vi kjapt kunne se hvordan høyden på sjetteklassinger generelt har endret seg gjennom årene.

Vanlige sentralmål er gjennomsnitt, median og typetall.

Gjennomsnitt

Gjennomsnitt, også kalt middelverdi, angir et datasetts nøyaktige midtpunkt. Hvis vi tenker oss verdiene i et datasett fordelt utover ei vektstang, vil gjennomsnittet være vektstangas balansepunkt. Gjennomsnittet trenger ikke ligge på, eller en gang i nærheten av, noen av verdiene i settet, for eksempel er gjennomsnittet av 1 og 99 lik 50.

Gjennomsnitt beregnes ved å summere alle verdiene i et datasett og dividere på antall elementer. Det er vanlig å betegne gjennomsnitt med en X med strek over: X. I noen kilder benyttes liten bokstav, x.

​I matematisk terminologi, hvis vi har et datasett med n elementer, og kaller hver verdi Xi, der i ∈ {1, 2, 3, …, n}, uttrykker vi gjennomsnittet, X, slik:

$\fbox{Gjennomsnitt: $\overline X = \frac{\displaystyle \sum_{i = 1}^n X_i}{\displaystyle n^\phantom 1}$}$

Vi summerer altså alle elementene og dividerer med antall elementer.

Gjennomsnittet har samme enhet som enkeltelementene. Hvis vi for eksempel beregner gjennomsnittet av høyder i centimeter, er gjennomsnittshøyden også i centimeter.

Eksempel 1:

Vi skal beregne gjennomsnittet av elevhøydene fra eksempel 1 i artikkelen om grafiske presentasjoner. Vi summerer først alle høydene: 140 + 141 + 137 + 143 + 145 + 142 + 139 + 138 + 139 + 141 + 144 + 137 + 138 + 142 + 140 + 142 + 140 + 138 + 135 + 142 + 144 + 141 + 148 + 140 + 149 + 135 + 141 + 140 + 139 + 137 = 4217. Så finner vi gjennomsnittet ved å dividere denne summen på antall målinger, som er 30, og får $\overline X = {\large \frac{4217}{30}} \approx 140{,}6.$ Gjennomsnittshøyden er ca. 140,6 centimeter.

​I praksis beregner vi imidlertid sjelden gjennomsnittet manuelt på denne måten. På litt avanserte kalkulatorer legger vi bare inn alle dataene og trykker på knappen for å beregne gjennomsnitt.

I Excel bruker vi funksjonen gjennomsnitt til å beregne gjennomsnitt. La os si at dataene ligger i celleområdet A1 – C4. Da skriver vi =gjennomsnitt(A1:C4) i cella der vi vil ha gjennomsnittet beregnet. I GeoGebra heter funksjonen gsnitt eller gjennomsnitt, og brukes i GeoGebras regneark-felt, som vi får fram ved å velge «Vis» – «Regneark». Vær imidlertid oppmerksom på at GeoGebra krever at cellenavn skrives med store bokstaver, for eksempel A1. a1 vil ikke bli gjenkjent som et cellenavn. Vi kan også få opp gjennomsnittet i algebra-feltet ved å skrive i gsnitt-kommandoen i inntastingsfeltet, men da sløyfer vi likhetstegnet foran kommandoen. Når vi skriver i inntastingsfeltet, kan vi velge om vi vil liste opp verdiene der, eller referere til dem i regneark-delen.

Oppgave 1:

Vi gjør 6 tellinger av antall passasjerer på en bussrute mellom Andeby og Gåseby, og finner henholdsvis 20, 34, 16, 27, 8 og 9 passasjerer. Beregn gjennomsnitt for passasjertallet.

Kontroller resultatet i et regneark eller GeoGebra.

Se løsningsforslag

Median

Hvis vi sorterer et datasett stigende, vil naturligvis det første elementet ha den laveste verdien i settet, og det siste elementet den høyeste. Det gir også mening å snakke om midten av et slikt sortert sett. Midten til et sett med n elementer blir ${\large \frac{1 + n}{2}}$. (Grunnen til at vi adderer 1, er at første element er nummer 1, ikke nummer 0).
I et datasett med et odde antall elementer vil det være ett element som ligger midt i, i et datasett med et par antall verdier vil det være to elementer. Verdien til midtelementet i et sett med et odde antall elementer, og gjennomsnittet av verdiene til de to midtelementene i et sett med et par antall elementer, kalles datasettets median.

Eksempel 2:

    1. Deltakerne på et kveldskurs er 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Her har vi 9 elementer, så midten blir element nummer ${\large \frac{1 + 9}{2}} = 5$. Settet har et odde antall elementer, så medianen er verdien til element nummer 5, altså 22.
       
    2. Det kommer en ny deltaker på kurset som er 19 år. Stiller vi opp aldrene på nytt, blir det 19, 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Vi har nå 10 elementer, så midten blir element nummer ${\large \frac{1 + 10}{2}} = 5{,}5$, det vil si at element nummer 5 og 6, med verdi 21 og 22, deler midtplassen. Medianen blir da gjennomsnittet av disse verdiene, altså ${\large \frac{21 + 22}{2}} = 21{,}5$.

​Men hvorfor skal vi ha to måltall, både gjennomsnitt og median, til å angi sentrum av et datasett? Vel, begge har sine fordeler og ulemper. Gjennomsnittet trenger vi til en del andre beregninger, for eksempel standardavvik, som vi skal se på senere. Dessuten ligger gjennomsnittet alltid i sentrum av datasettet, selv om det ikke finnes noen verdier i nærheten. Medianen, derimot, er avhengig av én eller to verdier å hekte seg på, noe som kan gi rare utslag hvis det ikke finnes verdier nær gjennomsnittet. På den annen side er medianen mer robust mot sterkt avvikende verdier i et datasett enn gjennomsnittet er. Medianen kan også generaliseres til å angi ikke bare midten av et datasett, men for eksempel fjerdeparten eller en bestemt prosentandel.

Eksempel 3:

  1. I en gruppe besteforeldre og barnebarn er aldrene 5, 10, 11, 14, 57, 60, 63, 65 og 66 år. Gjennomsnittsalderen blir 39, som er i sentrum av datasettet. Men medianen blir 57, noe som er veldig misvisende. Kommer det så en 11-åring og en 12-åring inn i gruppa, går gjennomsnittet noe ned, til 34, men medianen hopper ekstremt, helt ned til 14. I dette tilfellet representerer altså gjennomsnittet dataene best.
     
  2. Ti elever skriver opp hvor mange husdyr de har hjemme. Tre har 0, fire har 1 og tre har 2. Både gjennomsnitt og median blir 1, noe som beskriver datasettet godt. Men så kommer det til en elev som bor på gård der de har 34 husdyr. Nå hopper gjennomsnittet opp til 4, noe som slett ikke forteller noe om hvor mange husdyr det er vanlig å ha. Medianen derimot, forblir 1. I dette tilfellet representerer altså medianen dataene best.

I Excel og GeoGebra beregner vi median ved hjelp av funksjonen median, som brukes helt tilsvarende gjennomsnitt-funksjonen.

Typetall

Typetall, også kalt modus, er den verdien i et datasett som forekommer flest ganger. I eksempel 1 er typetallet 140, fordi denne verdien forekommer 5 ganger, mer enn noen av de andre verdiene. En fordel med typetallet er at det i motsetning til gjennomsnitt og median er definert for verdier som ikke er tall. For eksempel kan typetallet angi hvilken bokstav som forekommer flest ganger i en tekst. I «februar» er for eksempel typetallet «r». I lange tekster vil typetallet angi hvilken bokstav som opptrer oftest i et språk. En ulempe med typetall er at typetall som ligger langt fra gjennomsnittet i et datasett, kan gi et dårlig bilde av hvor datasettet er sentrert. En annen ulempe er at det ikke er konsensus om hva typetallet er når det finnes flere alternativer, slik som i «Mississippi», der både «s» og «i» forekommer 4 ganger. Noen kilder sier at typetallet i slike tilfeller ikke er definert, andre at alle alternativene da er typetall.

I Excel beregner vi typetallet ved hjelp av funksjonen modus.sngl, i GeoGebra ved hjelp av funksjonen typetall. Funksjonene brukes helt tilsvarende gjennomsnitt-funksjonen. Er det flere alternativer, velger Excel én av verdiene, uklart hvilken. GeoGebra gir en liste over verdiene.

Oppgave 2:

Finn median og typetall blant karakterene i oppgave 1, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Se løsningsforslag

SkjermfilmSe filmen «Sentralmål i statistikk»
 

Spredningsmål

Det kan ofte være interessant å ikke bare vite hvor sentrum av et datasett er, men også hvor spredt dataene ligger. Datasettene {50, 50} og {1, 99} har for eksempel begge 50 som gjennomsnitt, men spredningen er veldig forskjellig, i det første tilfellet har vi ikke spredning i det hele tatt.

Vanlige spredningsmål er standardavvik, variasjonsbredde og kvartilbredde.

Standardavvik

Standardavvik er et spredningsmål som er basert på gjennomsnittet. Å beregne standardavvik manuelt er ganske omstendelig, i praksis lar vi en kalkulator eller et regneark gjøre jobben. For å få innsikt i hva standardavvik egentlig er, skal vi allikevel gå gjennom metoden for å regne det ut manuelt.

Vi starter med å summere de kvadratiske avstandene mellom hver verdi i et datasett og datasettets gjennomsnitt.

Eksempel 4a:

Lengden på fem laks vi tar opp av et oppdrettsanlegg, blir målt til 35, 37, 38, 41 og 44 cm. Gjennomsnittslengden er da X = 39 cm. Summen av de kvadratiske avstandene blir

(35 − 39)2 + (37 − 39)2 + (38 − 39)2 + (41 − 39)2 + (44 − 39)2 = 16 + 4 + 1 + 4 + 25 = 50.

Grunnen til at vi beregner den kvadratiske avstanden og ikke bare avstanden, er at vi i datasettet vil ha verdier som er både større og mindre enn gjennomsnittet. Hvis vi da beregner avstanden, vil vi få en blanding av positive og negative tall. Og summen av disse vil alltid være 0, fordi gjennomsnittet ligger sentrert blant verdiene. Med verdiene fra eksempel 4a vil vi få −4 − 2 − 1 + 2 + 5 = 0.

Når vi har funnet summen av de kvadratiske avstandene, dividerer vi den på 1 mindre enn antall elementer vi har. Verdien vi da får kalles varians. Til slutt får vi fram standardavviket ved å ta kvadratrota av variansen.

Eksempel 4b:

I eksempel 4a fant vi ut at summen av de kvadratiske avstandene til fem lengder var 50. Siden det er 5 målinger, vi skal dividere 50 på 5 − 1 = 4 for å finne variansen. Så tar vi kvadratrota og får $\sqrt {\large \frac{50}{4}} \approx 3{,}54$. Standardavviket til laksens lengde er ca. 3,54 cm.

​I matematisk terminologi, hvis vi har et datasett med n elementer, og kaller hver verdi Xi, der i ∈ {1, 2, 3, …, n}, uttrykker vi standardavviket, S, slik:

$\fbox{$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$}$

Standardavviket har samme enhet som enkeltelementene. Hvis vi for eksempel beregner standardavviket til høyder i centimeter, er standardavviket også i centimeter.

Standardavvik beregnes med samme teknikk som gjennomsnitt i Excel og GeoGebra. I Excel med funksjonen stdav.s, og i GeoGebra med funksjonen stavv.

Oppgave 3:

I oppgave 1 beregnet vi at 20, 34, 16, 27, 8 og 9 busspassasjerer ga et gjennomsnitt på 19 passasjerer. Beregn standardavviket til passasjertallet.

Kontroller resultatet i et regneark eller GeoGebra.

​​Se løsningsforslag

Oppgave 4:

Hvis det på bussen med færrest passasjerer i oppgave 1 og 3 hadde vært 2 i stedet for 8 passasjerer, og på bussen med flest passasjerer 40 i stedet for 34, hvordan ville det påvirket gjennomsnitt og standardavvik? Tenk gjennom problemstillingen først, og gjør beregningene etterpå.

​​Se løsningsforslag

Populasjonsstandardavvik

Mer presist kalles det standardavviket vi har beregnet, for utvalgsstandardavviket, fordi det er basert på et utvalg fra en populasjon. Det finnes imidlertid også noe som heter populasjonsstandardavviket, der vi forutsetter at vi har målinger fra alle individer i populasjonen. Dette betegner vi med en liten gresk sigma, σ, og beregner det på samme måte som utvalgsstandardavviket, bortsett fra at vi dividerer med n i stedet for n − 1:
$\sigma = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n}$

Populasjonsstandardavviket vil følgelig være mindre enn utvalgsstandardavviket, men når vi har mange dataelementer slik at n blir stor, vil forskjellen på de to være liten.

I Excel beregner vi populasjonsstandardavviket ved hjelp av funksjonen stdav.p, der p-en står for «population». Tilsvarende står s-en i stdav.s for «sample». I GeoGebra beregner vi populasjonsstandardavviket ved hjelp av funksjonen stavp.

Eksempel 5:

I eksempel 4 beregnet vi at de kvadratiske avstandene mellom lengdene til 5 laks og gjennomsnittet var 50, og utvalgsstandardavviket følgelig ble $S = \sqrt {\large \frac{50}{4}} \approx 3{,}54$.

Hvis disse 5 hadde vært hele populasjonen, ville vi i stedet ha beregnet populasjonsstandardavviket, $\sigma = \sqrt {\large \frac{50}{5}} \approx 3{,}16$.

I Excel ville vi brukt funksjonen stdav.p, og i GeoGebra stavp.

Det er slik at gjennomsnittet av utvalgsstandardavvikene til alle mulige utvalg i en populasjon er lik populasjonsstandardavviket.

I praksis har vi imidlertid sjelden hele populasjonen tilgjengelig, så det er utvalgsstandardavviket som er mest aktuelt å beregne. Utvalgsstandardavvik kalles også gjerne empirisk, altså erfaringsbasert standardavvik.

Dessverre presenterer mange kilder bare den ene eller den andre formen for standardavvik, uten å gjøre rede for at det egentlig finnes to former. Mange kilder blander også symbolene for utvalgsstandardavvik og populasjonsstandardavvik. På en del kalkulatorer brukes σn−1 eller Sn−1 for utvalgsstandardavvik og σn eller Sn for populasjonsstandardavvik. Vi vil imidlertid holde oss til å bruke S for utvalgsstandardavvik og σ for populasjonsstandardavvik.

σ vil vi møte igjen i artikkelen forventning og varians, som det teoretiske standardavviket til en sannsynlighetsfordeling.

SkjermfilmSe filmen «Spredningsmål i statistikk»
 

Variasjonsbredde

Variasjonsbredde er avstanden mellom største og minste verdi i et datasett.

Eksempel 6:

Deltakerne i en lesesirkel er 35, 37, 40, 40, 42 og 44 år. Variasjonsbredden til deltakerne er da 44 − 35 = 9 år.

Variasjonsbredden er imidlertid følsom for ekstreme verdier i et datasett. Hvis det for eksempel i lesesirkelen i eksempel 6 hadde kommet til en person på 75 år, ville variasjonsbredden ha hoppet fra 9 til 40, en endring som ikke i det hele tatt er representativ for endringen i aldersfordeling.

I Excel kan vi beregne variasjonsbredden ved å finne største verdi med funksjonen størst og trekke fra minste verdi som vi finner med funksjonen min. (Det er litt snurrig skrivemåte her). I GeoGebra heter de samme funksjonene maks og min. Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi vil oppgi mer enn to tall i inntastingsfeltet i GeoGebra, må de angis som en liste, det vil si mellom krøllparenteser. For eksempel maks({2, 7, 4}).

Kvartiler

Deler vi et sortert datasett i to like store deler, heter delingspunktet median, som vi har sett tidligere. Deler vi det i fire like store deler, heter delingspunktene kvartiler, henholdsvis første, andre og tredje kvartil, som vi betegner med Q1, Q2 og Q3.

Q1 finner vi som ${\large \frac{1 + n}{2}}$.

Q2 finner vi som ${\large \frac{2(1 + n)}{4}} = {\large \frac{1 + n}{2}}$.

Q3 finner vi som ${\large \frac{3(1 + n)}{4}}$.

Eksempel 7:

Vi skal finne kvartilene til datasettet 13, 14, 17, 18, 18, 21, 23, 23, 27, 30 og 32.

Her har vi 11 elementer, så Q1 blir element nummer ${\large \frac{1 + 11}{4}} = 3$, Q2 blir element nummer ${\large \frac{1 + 11}{2}} = 6$ og Q3 blir element nummer ${\large \frac{3(1 + 11)}{4}} = 9$.

Element nummer 3 har verdien 17, nummer 6 verdien 21, og nummer 9 verdien 27.

Så vi har:
Første kvartil, Q1 = 17.
Andre kvartil (median), Q2 = 21.
Tredje kvartil, Q3 = 27.

I Excel kan vi beregne kvartiler på tilsvarende måte som gjennomsnitt, o.l., ved hjelp av funksjonen kvartil.eks. Her må vi i tillegg til å angi hvilke data vi vil beregne kvartilen til, også angi hvilket kvartil vi skal beregne, 1 for første kvartil, 2 for andre og 3 for tredje kvartil. GeoGebra har to funksjoner for å beregne kvartiler, q1 og q3. For å finne Q2 må vi bruke funksjonen median. Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi bruker inntastingsfeltet i GeoGebra, må verdiene angis som et sett, det vil si mellom krøllparenteser, for eksempel q3({13, 14, 17, 18, 18, 21, 23, 23, 27, 30, 32}) for å beregne tredje kvartil i eksempel 7.

Kvartilbredde

Vi så at variasjonsbredden som spredningsmål var følsom for ekstreme verdier i et datasett. Et bedre mål kan derfor være kvartilbredden, det vil si avstanden mellom første og tredje kvartil, som ikke blir påvirket av de 25 % laveste eller 25 % høyeste verdiene i et datasett.

Er kvartilbredden høy, betyr det stor spredning, er den lav, betyr det lav spredning.

I Excel og GeoGebra kan vi beregne kvartilbredden ved å finne øvre kvartil og så trekke fra nedre kvartil.

Eksempel 8:

Vi skal finne kvartilbredden til datasettet fra eksempel 7. Der fant vi at første kvartil var 17, og tredje kvartil 27, så kvartilbredden blir 27 − 17 = 10.

Oppgave 5:

Olga pendler til jobben med toget, og skriver opp hvor mange minutter forsinket toget er hver dag. En måned har hun notert følgende: 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14. Beregn og tolk variasjonsbredden og kvartilbredden for dette datasettet.

​​​Se løsningsforslag

Persentiler

Oppdelingen av et sortert datasett kan gjøres enda mer detaljert ved hjelp av persentiler (prosentiler), der vi bestemmer en verdi ut fra hvor i datasettet den prosentvis befinner seg.

Eksempel 9:

Et sortert datasett består av tallene 3, 5, 6, 7, 8, 10, 13, 16 og 17, og vi skal finne 20- og 80-persentilene. Da må vi finne ut hvilke verdier som ligger 20 % og 80 % opp i settet. Siden settet har 9 elementer, får vi (1 + 9) · 20 % = 2 og (1 + 9) · 80 % = 8. Siden element nummer 2 har verdien 5, blir 20-persentilen lik 5, og siden element nummer 8 har verdien 16, blir 80-persentilen lik 16.

Q1, Q2 og Q3 tilsvarer henholdsvis 25-, 50- og 75-persentiler.

Når vi skal bestemme medianen i et datasett med n elementer, finner vi midten av datasettet ved å beregne ${\large \frac{1 + n}{2}}$. Dette blir bare et helt tall når n er oddetall, slik at 1 + n blir et helt tall når vi deler med 2. Tilsvarende blir posisjonen til Q1 og Q3 bare hele tall hvis 1 + n delt på 4 blir et helt tall, og posisjonen til et a-persentil blir bare et helt tall hvis 1 + n delt på ${\large \frac{100}{\Large a}}$ blir et helt tall. Dette var tilfelle i eksempel 9, der 20-persentilet lå i posisjon
${\large \frac{1 + n}{\LARGE \, \frac{100}{\huge a} \,}} = {\large \frac{10}{\LARGE \, \frac{100}{20} \,}} = 2$, og 80-persentilet i posisjon ${\large \frac{1 + n}{\LARGE \, \frac{100}{\huge a} \,}} = {\large \frac{10}{\LARGE \, \frac{100}{80} \,}} = 8$.

Dersom posisjonen til medianen ikke blir et helt tall, blir desimaldelen alltid 0,5. Posisjonen ligger da midt mellom to tall, og medianen blir gjennomsnittet av disse. Med kvartiler og persentiler vil det imidlertid ikke alltid være slik. Vi kan for eksempel få en posisjon med desimaldel 0,8, som i eksempel 10 under. Vi beregner da ikke et 50/50 gjennomsnitt, men et vektet gjennomsnitt. Hvis desimaldelen er m, summerer vi da tallet i posisjonen til venstre multiplisert med 1 − m og tallet i posisjonen til høyre multiplisert med m. Medianen er et spesialtilfelle av dette, med 1 − m = m = 0,5.

Eksempel 10:

    • Vi skal finne 38-persentilen i datasettet fra eksempel 9, som har 9 elementer: 3, 5, 6, 7, 8, 10, 13, 16 og 17. Vi beregner (1 + 9) · 0,38 = 3,8. Dette tallet ligger mellom 3 og 4, så vi skal altså beregne et vektet gjennomsnitt av tallene i posisjon 3 og 4, det vil si verdiene 6 og 7. Desimaldelen til 3,8 er 0,8, så vi har m = 0,8, og følgelig er 1 − m = 0,2. Så det vektede gjennomsnittet blir (1 − m) · 6 + m · 7 = 0,2 · 6 + 0,8 · 7 = 6,8.
       
    • Vi skal finne 64-persentilen i det samme datasettet. Vi beregner (1 + 9) · 0,64 = 6,4. Dette tallet ligger mellom 6 og 7, så vi skal altså beregne et vektet gjennomsnitt av tallene i posisjon 6 og 7, det vil si verdiene 10 og 13. Desimaldelen til 6,4 er m = 0,4, og følgelig er 1 − m = 0,6. Så det vektede gjennomsnittet blir (1 − m) · 10 + m · 13 = 0,6 · 10 + 0,4 · 13 = 11,2.
       

I Excel kan vi beregne persentiler, slik vi har gjort i eksempel 9 og 10, ved hjelp av funksjonen persentil.eks. I GeoGebra ved hjelp av funksjonen persentil. Her må vi i tillegg til å angi hvilke data vi vil beregne persentilen til, også angi hvilken persentil vi skal beregne, i form av et desimaltall mellom 0 (0 %) og 1 (100 %). Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, o.l., men hvis vi bruker inntastingsfeltet i GeoGebra, må verdiene angis som et sett, det vil si mellom krøllparenteser, for eksempel persentil({3, 5, 6, 7, 8, 10, 13, 16, 17}, 0.8) for å beregne 80-persentilen i eksempel 9.

Mer om persentiler i Excel og GeoGebra

Excel har egentlig to funksjoner for å beregne persentiler, persentil.eks og persentil.ink. persentil.eks bruker metoden vi har vist i eksempel 9 og 10. Har vi totalt n elementer, ligger første element da på persentil ${\large \frac{1}{1 + n}}$, og siste element på persentil $n − {\large \frac{1}{1 + n}}$. Forsøker vi å bruke persentil.eks til å beregne persentiler som er mindre enn ${\large \frac{1}{1 + n}}$ eller større enn $n − {\large \frac{1}{1 + n}}$, får vi en feilmelding. Uansett hvor mange elementer vi har, vil det med denne beregningsmetoden aldri finnes noe 0-persentil eller 100-persentil. Disse verdiene er ekskludert, derav navnet «eks».

persentil.ink regner derimot at første element ligger på 0-persentilen og siste element på 100-persentilen. Disse verdiene er inkludert, derav navnet «ink».

GeoGebra bruker samme metode som persentil.eks, men dersom vi prøver å beregne persentiler som er mindre enn ${\large \frac{1}{1 + n}}$ eller større enn $n − {\large \frac{1}{1 + n}}$, gir ikke GeoGebra feilmelding, men velger i stedet henholdsvis første og siste element.

Eksempel 11:

Vi har et sortert datasett som består av tallene 10, 20 og 30. Her er det 3 elementer, så ${\large \frac{1}{1 + n}} = {\large \frac{1}{4}} = 25 \, \%$.

persentil.ink regner de tre tallene som henholdsvis 0-, 50- og 100-persentiler, persentil.eks som henholdsvis 25-, 50- og 75-persentiler, slik det er illustrert under.

Histogram med ulik intervallbredde

persentil.eks vil gi feilmelding hvis vi prøver å finne persentiler mindre enn 25 % eller større enn 75 %. GeoGebra vil gi henholdsvis 10 og 30.

Drar vi det ut i det ekstreme, og har et sett med bare ett element, vil persentil.eks ikke beregne andre persentiler enn 50-persentilen, mens persentil.ink knytter alle persentiler til det ene elementet.

På samme måte som Excel har to varianter av funksjoner for å beregne persentiler, finners det også to funksjoner for å beregne kvartiler, kvartil.eks, og kvartil.ink.

Kilder

    • Hinna, K.R.C., Rinvold, R.A., Gustavsen, TS. (2011). QED 5-10, bind 1. Høyskoleforlaget
    • Hagen, P.C. (2000), Innføring i statistikk og sannsynlighetsregning. Cappelen Akademisk
    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Bhattacharya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons