Estimering

Dersom vi er ute etter å finne gjennomsnittsvekta på fisk i et oppdrettsanlegg, kan vi ta opp all fisken, veie hvert individ, og ut fra det beregne gjennomsnittet, slik vi lærte i avsnittet om måltall i statistikk. Vi undersøker da hele populasjonen,

I praksis vil imidlertid en slik fremgangsmåte være lite hensiktsmessig. I stedet gjør vi et utvalg, og gir på bakgrunn av dette et anslag av vekta.

Vi kan nøye oss med å ta opp én enkelt fisk, men intuitivt skjønner vi at det vil være bedre å ta opp flere og basere anslaget på gjennomsnittsvekta.

I artikkelen om sentralgrenseteoremet så vi at hvis vi har n variabler som er uavhengige og har samme fordeling, med forventning μ og varians σ2, vil gjennomsnittet av variablene være tilnærmet normalfordelt med forventning $\mu$ og varians $\frac{\displaystyle \sigma^2}{\displaystyle n}$. Vi antydet at n burde være > 30 for at tilnærmingen skulle være god, men hvis vi kan anta at variablene i utgangspunktet er tilnærmet normalfordelt, kan vi fire på dette kravet.

Sørger vi for at fisken vi tar opp blir valgt tilfeldig, vil altså variansen til gjennomsnittsvekta være $\frac{\displaystyle \sigma^2}{\displaystyle n}$, der n er antall fisk vi har veid og σ2 variansen til vekta i fiskepopulasjonen. Jo flere fisk vi veier, jo større blir nevneren i brøken, og jo mindre blir variansen til gjennomsnittet.

Å anslå verdier basert på undersøkelser kaller vi å estimere. For å angi et estimat, bruker vi en estimator. For å indikere at en variabel er en estimator, bruker vi en «hatt», for eksempel er $\hat \theta$ en estimator for $\theta$.

Dersom en estimator gir den forventede verdien til en variabel, det vil si at $E(\hat \theta) = \theta$, kalles estimatoren forventningsrett. I motsatt fall er den forventningsskjev.

Målemodellen

I målemodellen baserer vi estimater på måling av verdier, for eksempel vekta til fisk. En forventningsrett estimator for forventningen, μ, er da gjennomsnittet, $\hat \mu = \overline X$. Har vi gjort n målinger av X, har vi altså

$\fbox{$\hat \mu = \overline X = \frac{\displaystyle X_1 + X_2 + \dots + X_n}{\displaystyle n}$}$
 
Eksempel 1:

Vi har tatt opp og veid 13 laks fra et oppdrettsanlegg. Laksene veide
3,9, 3,6, 5,1, 4,8, 3,7, 3,2, 4,6, 5,4, 3,0, 4,2, 3,8, 4,4 og 4,1 kg.

Et forventningsrett estimat for gjennomsnittsvekta til all laksen i anlegget er da gjennomsnittet av veiingene:

$\hat \mu = \overline X = {\large \frac{3{,}9 + 3{,}6 + 5{,}1 + 4{,}8 + 3{,}7 + 3{,}2 + 4{,}6 + 5{,}4 + 3{,}0 + 4{,}2 + 3{,}8 + 4{,}4 + 4{,}1}{13}} \approx 4{,}14$. Altså om lag 4,14 kg.

Oppgave 1:

En enhet i en bedrift produserer støtfangere. Dagsproduksjonen på seks tilfeldig valgte dager er
210, 220, 210, 225, 220 og 217 enheter. Beregn et forventningsrett estimat for hvor mange støtfangere som produseres daglig.

Se løsningsforslag

Som vi nevner i artikkelen om måltall i statistikk, er det imidlertid sjelden vi beregner gjennomsnitt for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen gjennomsnitt i Excel eller GeoGebra.

Rapportering

Hvor sikkert estimatet er, sier imidlertid ikke $\hat \mu$ noe om, men estimatet har naturligvis en usikkerhet knyttet til seg. Rimelig nok er denne usikkerheten avhengig av antall målinger estimatet er basert på. Jo færre målinger, jo mer usikkert estimat. Usikkerheten er også avhengig av standardavviket, σ, til populasjonen vi estimerer i. Jo større σ er, jo større er spredningen, og jo mer usikkert er estimatet. Dersom σ er 0, har vi ikke spredning, og en enkelt måling vil gi et estimat uten usikkerhet.

Når vi angir et estimat, er det vanlig å angi usikkerheten til estimatet, på formen «estimert verdi pluss/minus standardavviket til estimatoren».

Dersom estimatoren er gjennomsnittet av n målinger, er altså variansen til estimatoren $\frac{\displaystyle \sigma^2}{\displaystyle n}$, og følgelig standardavviket til estimatoren $\frac{\displaystyle \sigma}{\displaystyle \sqrt n}$. Så i målemodellen har vi

$\fbox{Rapportering: $\hat \mu \pm \frac{\displaystyle \sigma}{\displaystyle \sqrt n}$}$
 
Eksempel 2:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks vi tok opp var om lag 4,14 kg.

Hvis standardavviket til vekta i fiskepopulasjonen er σ = 0,7, vil en rapportering av estimatet til gjennomsnittsvekta derfor bli

$4{,}14 \pm \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}19$

Oppgave 2:

I oppgave 1 estimerte vi dagsproduksjonen av støtfangere basert på at produksjonen i seks forskjellige dager var henholdsvis 210, 220, 210, 225, 220 og 217 enheter. Anta at standardavviket til produksjonen er σ = 5,8, og angi estimert gjennomsnitt i form av en rapportering.

Se løsningsforslag

Av og til kjenner vi en populasjons standardavvik, for eksempel hvis avviket skyldes dokumenterte unøyaktigheter i et måleinstrument. Men som regel er standardavviket ukjent, og må estimeres, det også.

Det vil da være naturlig å ta utgangspunkt i det standardavviket vi kan beregne ut fra de målingene vi har gjort, utvalgsstandardavviket. I artikkelen om måltall i statistikk så vi at hvis vi har gjort n målinger av X og beregnet at gjennomsnittet er X, er utvalgsstandardavviket gitt ved

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

Som vi nevnte i artikkelen om måltall i statistikk, er det imidlertid sjelden vi beregner standardavvik for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen stdav.s i Excel eller stdav i GeoGebra.

Utvalgsstandardavviket kalles ofte også det empiriske standardavviket, fordi det er basert på empiri, erfaring.

Utvalgsvariansen, S2 vil være et forventningsrett estimat for variansen i en fordeling, σ2. På grunn av at kvadratrotfunksjonen ikke er lineær, vil imidlertid ikke utvalgsstandardavviket, S, som estimat for standardavviket, σ, være forventningsrett. Feilen er imidlertid så liten at det er vanlig å bruke utvalgsstandardavviket som estimator for en fordelings standardavvik:

$\hat \sigma = S$

Formelen for rapportering blir da
$\fbox{Rapportering: $\hat \mu \pm \frac{\displaystyle S}{\displaystyle \sqrt n}$}$

Eksempel 3:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks fra et oppdrettsanlegg var
3,9, 3,6, 5,1, 4,8, 3,7, 3,2, 4,6, 5,4, 3,0, 4,2, 3,8, 4,4 og 4,1 kg.

Et estimat for standardavviket til vekta er da

$\hat \sigma = S \approx 0{,}711$, beregnet ved hjelp av stdav.s i Excel.

En rapportering av gjennomsnittsvekta blir derfor

$4{,}14 \pm \frac{\displaystyle 0{,}711}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}20$

Oppgave 3:

I oppgave 1 så vi at dagsproduksjonen av støtfangere på seks tilfeldig valgte dager i en bedrift var 210, 220, 210, 225, 220 og 217 enheter.

Estimer standardavviket til produksjonen, og presenter estimert gjennomsnitt i form av en rapportering.

Se løsningsforslag

Konfidensintervaller

Å estimere en gjennomsnittsverdi kaller vi å angi et punktestimat, fordi vi anslår et punkt på tallinjen som gjennomsnittet. Vi skal nå se på konfidensintervaller, der vi angir et intervall på tallinjen som vi med en viss sannsynlighet anslår at gjennomsnittet ligger i. For eksempel at gjennomsnittsvekten på laks i eksempel 1 med 95 % sannsynlighet ligger mellom 3,8 og 4,5 kg.

For å finne ut hvordan vi bestemmer grensene i et konfidensintervall, starter vi med å se på en standard normalfordeling, altså en normalfordeling der forventningen er 0 og variansen 1.

Figuren under viser en standard normalfordelingskurve der 95 % av arealet under kurven er markert. Det vil si at hvis vi gjentatte ganger velger en tilfeldig variabel fra denne fordelingen, vil den 95 % av gangene havne innenfor det fargede området, altså mellom –z og z. Arealet er gitt ved G(z) – G(-z) = 0,95. Det vil si at G(z) – [1 – G(z)] = 0,95 ⇒ 2G(z) = 0,95 + 1 ⇒ G(z) = 0,975.

Normalfordelingskurve med 95 % av arealet under kurven markert.

Når vi tidligere har brukt normalfordelingstabellen, har vi kjent z og brukt tabellen til å finne G(z). Nå skal vi gå andre veien. Vi kjenner G(z) og skal finne z. Vi leter i tabellen og finner 0,9750 i rad 1,9 og kolonne 0,06:

Baklengs oppslag i normalfordelingstabell

Det vil si at z = 1,96 og følgelig –z = -1,96. Vi ser at det stemmer bra med figuren over.

I figuren under er 99 % av arealet markert. Arealet her er gitt ved G(z) – G(-z) = 0,99. Det vil si at G(z) – [1 – G(z)] = 0,99 ⇒ 2G(z) = 0,99 + 1 ⇒ G(z) = 0,995.

Normalfordelingskurve med 99 % av arealet under kurven markert.

I normalfordelingstabellen finner vi ikke nøyaktig 0,995, men G(2,57) = 0,9949 og G(2,58) = 0,9951. Vi tar gjennomsnittet og setter z = 2,575 og –z = -2,575. Vi ser at det stemmer bra med figuren over.

Det betyr at for en standard normalfordelt variabel er [-1,96, 1,96] et 95 % konfidensintervall, og [-2,58, 2,58] er et 99 % konfidensintervall.

I artikkelen om normalfordelingen så vi at hvis vi hadde en variabel, X, som var normalfordelt N(μ, σ2), standardiserte vi variabelen ved å beregne $Z = \frac{\displaystyle X – \mu}{\displaystyle \sigma}$, som er normalfordelt N(0, 1).

Nå går vi andre veien. Vi har en Z som er normalfordelt, N(0, 1), og beregner X = Z · σ + μ, som er normalfordelt, N(μ, σ2).

Et 95 % konfidensintervall for en fordeling som er N(μ, σ2) blir derfor

[μ – 1,96 · σ, μ + 1,96 · σ]

Eller mer kompakt uttrykt som μ ± 1,96 · σ.

Vi ser at intervallet er sentrert rundt forventningen, μ, og blir bredere jo større σ blir. Det er rimelig. Jo større standardavvik, jo mer usikkert er estimatet, og jo bredere må intervallet være for at vi skal være 95 % sikre på at det rommer gjennomsnittet.

Da vi estimerte gjennomsnitt i en populasjon, så vi at standardavviket til estimatet var $\frac{\displaystyle \sigma}{\displaystyle \sqrt n}$.

Hvis gjennomsnittet av n målinger i en fordeling med standardavvik σ er X, blir derfor et 95 % konfidensintervall for gjennomsnittet

$[\overline X \, – 1{,}96 \cdot  \frac{\displaystyle \sigma}{\displaystyle \sqrt n}, \, \overline X + 1{,}96 \cdot  \frac{\displaystyle \sigma}{\displaystyle \sqrt n}]$

Eller på kompakt form
$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n}$

Vi ser at bredden på et konfidensintervall ikke bare avhenger av σ, men også av antall målinger. Jo flere målinger, jo smalere blir konfidensintervallet.

Vi så i figuren over at i et 95 % og et 99 % konfidensintervall er grensen for z henholdsvis om lag 1,96 og 2,58. Tilsvarende kan vi finne at grensen er om lag 1,65 for et 90 % konfidensintervall.

I kortform:

$\fbox{$\begin{align}\, \\
&\text{Konfidensintervaller:}\\
&\, \\
&\text{90 %: } \overline X \pm 1{,}65 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
&\text{95 %: } \overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
&\text{99 %: } \overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \\
\end{align}$}$

Vi ser at intervallene blir bredere jo høyere konfidens vi ønsker.

Eksempel 4:

I eksempel 1 fant vi at gjennomsnittsvekta på 13 laks vi tok opp var om lag 4,14 kg.

Hvis vi vet at populasjonen er normalfordelt med standardavvik σ = 0,7, vil vi få følgende 90 %, 95 % og 99 % konfidensintervaller for laksens gjennomsnittsvekt:

90 %: $4{,}14 \pm 1{,}65 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}32 = [3{,}82, 4{,}46]$

95 %: $4{,}14 \pm 1{,}96 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}38 = [3{,}76, 4{,}52]$

99 %: $4{,}14 \pm 2{,}58 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}50 = [3{,}64, 4{,}64]$

Oppgave 4:

I oppgave 1 estimerte vi dagsproduksjonen av støtfangere basert på at produksjonen i seks forskjellige dager var henholdsvis 210, 220, 210, 225, 220 og 217 enheter. Anta at produksjonen er normalfordelt med standardavvik σ = 5,8, og angi 95 % og 99 % konfidensintervaller for gjennomsnittsproduksjonen.

Se løsningsforslag

Vi har nå sett på 90 %, 95 % og 99 % konfidensintervaller, men andre prosenter er selvsagt også mulig. Det generelle uttrykket er

$\fbox{$\begin{align} &\text{Konfidensintervall:} \\
&\overline X \pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} \end{align}$}$

Her representerer α den prosentdelen som ligger utenfor konfidensintervallet. Halvparten av α ligger til venstre for, og halvparten av α til høyre for intervallet, som vist under:

Illustrasjon av alfa som brukes i konfidensintervaller

$\pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}}$ er da z-verdiene i yttergrensene av det fargede området.

I et k % konfidensintervall er altså ${\large \frac{\alpha}{2}} = {\large \frac{1 – k}{2}}$, for eksempel ${\large \frac{1 – 0{,}95}{2}} = 0{,}025$ i et 95 % konfidensintervall og ${\large \frac{1 – 0{,}99}{2}} = 0{,}005$ i et 99 % konfidensintervall.

Da vi skulle finne intervallet [-z, z] som utgjorde et 95 % og 99 % konfidensintervall i en standard normalfordeling, gjorde vi et baklengs oppslag i normalfordelingstabellen for å finne z. Dette er tungvint, og det er derfor laget ferdige, omvendte tabeller. I en slik tabell slår vi opp a, og får ut z, slik at arealet under kurven til høyre for z er a.

Dette kalles kvantiltabeller eller fraktiltabeller for normalfordelingen, en kvantiltabell for normalfordelingen finnes på dette nettstedet.

Eksempel 5:

Vi er interessert i å finne et 98 % konfidensintervall for gjennomsnittsvekten til laksen fra eksempel 1.

Vi får at ${\large \frac{\alpha}{2}} = {\large \frac{1 – 0{,98}}{2}} = 0{,}01$. Vi slår opp 0,010 i (kvantil)normalfordelingstabellen og får 2,3263.

Vi har altså at ${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} = {\large z}_{0{,}01}^\phantom 1 \approx 2{,}3263$.

I eksempel 1 fant vi at gjennomsnittsvekten til n = 13 laks var 4,14 kg. Hvis laksepopulasjonen er normalfordelt med standardavvik σ = 0,7, blir altså et 98 % konfidensintervall

$4{,}14 \pm 2{,}33 \cdot \frac{\displaystyle 0{,}7}{\displaystyle \sqrt{13}} \approx 4{,}14 \pm 0{,}45 = [3{,}69, 4{,}59]$

Oppgave 5:

Bruk metoden fra eksempel 5 til å finne et 97 % konfidensintervall for laksens gjennomsnittsvekt.

Se løsningsforslag

I Excel og GeoGebra finnes egne funksjoner for baklengs oppslag i normalfordelinger, norm.inv i Excel og InversNormalfordeling i GeoGebra. Med disse er det imidlertid $1 – {\large \frac{\alpha}{2}}$ vi slår opp, vi angir altså arealet under normalfordelingskurven til venstre for, ikke til høyre for, ${\large \frac{\alpha}{2}}$.

Funksjonene er inverser av funksjonene norm.fordeling og FordelingNormal, som vi presenterte i artikkelen om normalfordelingen. Der oppga vi en grenseverdi, og fikk ut sannsynligheten for at en normalfordelt, tilfeldig variabel var mindre eller lik denne grenseverdien. I de inverse funksjonene oppgir vi sannsynligheten, og får ut grenseverdien. I tillegg må vi også gi inn normalfordelingens forventningsverdi og standardavvik. Excel har også en funksjon, norm.s.inv, som er inversen til norm.s.fordeling. Her trenger vi ikke oppgi forventningsverdi eller standardavvik, verdiene 0 og 1 brukes automatisk. Noe tilsvarende finnes ikke i GeoGebra.

Disse funksjonene er imidlertid ikke veldig interessante når vi skal beregne bredden på konfidensintervaller. Har vi en datamaskin tilgjengelig, kan vi bruke Excel eller GeoGebra til å beregne denne bredden direkte.

I Excel bruker vi funksjonen konfidens.norm, der vi gir inn $\alpha$, samt fordelingens varians og antall elementer i utvalget. (Vi gir altså inn $\alpha$, ikke ${\large \frac{\alpha}{2}}$.) Excel beregner da avstanden fra utvalgets gjennomsnitt til intervallgrensene. I GeoGebra bruker vi sannsynlighetskalkulatoren, slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Eksempel 6:

Med basis i data fra lakseveiningen i eksempel 1, skal vi bruke Excel til å beregne grensene i et 95 % og et 99 % konfidensintervall for laksens gjennomsnittsvekt. Vi har altså veid 13 fisk og funnet et gjennomsnitt på 4,14 kg. Populasjonen er normalfordelt med standardavvik 0,7.

Skriver vi =konfidens.norm(1-0,95; 0,7; 13) i Excel, får vi ut 0,38. Et 95 prosent konfidensintervall blir derfor om lag

[4,14 – 0,38, 4,14 + 0,38] = [3,76, 4,52].

Skriver vi =konfidens.norm(1-0,99; 0,7; 13) i Excel, får vi ut 0,50. Et 99 prosent konfidensintervall blir derfor om lag

[4,14 – 0,50, 4,14 + 0,50] = [3,64, 4,64].
 

RegnearkÅpne et regneark som beregner 90 – 99 % (normal)konfidensintervaller

 
Oppgave 6:

Bruk Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere fra oppgave 1. Vi har altså dagsproduksjoner på henholdsvis 210, 220, 210, 225, 220 og 217 enheter, og vet at produksjonen er normalfordelt med standardavvik 5,8.

Se løsningsforslag

Konfidensintervaller ved ukjent standardavvik

Når vi har brukt normalfordelingen til å lage konfidensintervaller for et estimat i en populasjon, har vi forutsatt at standardavviket til populasjonen, σ, er kjent. Av og til kjenner vi en populasjons standardavvik, for eksempel hvis avviket skyldes dokumenterte unøyaktigheter i et måleinstrument. Men som regel er standardavviket ukjent, og må estimeres, det også.

Det vil da være naturlig å ta utgangspunkt i det standardavviket vi kan beregne ut fra de målingene vi har gjort, nemlig utvalgsstandardavviket, S, og estimere σ som

$\hat \sigma = S$

I artikkelen Måltall i statistikk så vi at hvis vi har gjort n målinger av en variabel X og beregnet at gjennomsnittet er X, er utvalgsstandardavviket, S, gitt ved

$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i – \overline X)^2}{\displaystyle n – 1}$

Som vi nevnte samtidig, er det imidlertid sjelden vi beregner standardavvik for hånd. I stedet bruker vi statistikkfunksjoner på en kalkulator, eller funksjonen stdav.s i Excel eller stdev i GeoGebra.

Bruk av utvalgsstandardavviket innebærer imidlertid at vi innfører en usikkerhet, noe som medfører at normalfordelingen gir et for smalt intervall. I stedet for normalfordelingen bruker vi da en t-fordeling, også kalt Students t-fordeling. t-fordelingen er ikke én enkelt kurve, men en familie med kurver som blir lavere og bredere jo høyere usikkerhet vi har. Denne usikkerheten måler vi i frihetsgrader, v, der økende antall frihetsgrader gir synkende usikkerhet.

Figuren under viser et plott av tre t-kurver med frihetsgrader på henholdsvis v = 1, v = 5 og v = 30, med grønn, blå og rød linje. I figuren er det også vist en normalfordelingskurve med svart, prikkete linje. Vi ser at t-kurven nærmer seg normalkurven når antall frihetsgrader øker, ved 30 frihetsgrader er kurvene så å si overlappende.

Plott av normalfordeling og t-fordelinger med 1, 5 og 30 frihetsgrader.

Når vi skal bruke t-fordelingen ut fra et utvalgsstandardavvik basert på n målinger, setter vi antall frihetsgrader, v, lik antall målinger minus 1, v = n – 1.

t-kurven blir altså bredere jo færre målinger vi har.

Vi har tidligere sett hvordan vi brukte en kvantiltabell for normalfordelingen til å slå opp a og få ut z, slik at arealet under kurven til høyre for z var a. En kvantiltabell for t-fordelingen er tilsvarende, men vi må i tillegg til a også angi antall frihetsgrader, v. På dette nettstedet finnes en kvantiltabell for t-fordelingen. Tabellen går opp til 30 frihetsgrader. Har vi flere frihetsgrader, er t-fordelingen så nærme normalfordelingen at vi i stedet kan bruke kvantiltabellen for normalfordelingen.

Eksempel 7:

I eksempel 3 målte vi vekta på 13 laks, og fant at gjennomsnittet var X ≈ 4,14 kg og utvalgsstandardavviket S ≈ 0,71 kg.

Skulle vi brukt normalfordelingen til å lage et 95 % konfidensintervall for vekta, ville vi basert oss på z0,025 ≈ 1,96, og fått:

$4{,}14 \pm 1{,}96 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}75, 4{,}53]$.

Men siden vi baserer oss på utvalgsstandardavviket, bruker vi i stedet (kvantil)t-fordelingstabellen med a = 0,025 og v = 13 – 1 = 12. Vi finner at t0,025 (12) ≈ 2,179 og får:

$4{,}14 \pm 2{,}179 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}71, 4{,}57]$.

Konfidensintervallet blir litt bredere enn da vi brukte normalfordelingen, dette gjenspeiler usikkerheten ved at bruk av utvalgsstandardavviket basert på så lite som 13 målinger.

Oppgave 7:

I oppgave 1 og 2 fant vi, basert på 6 tilfeldige observasjoner at gjennomsnittlig antall produserte støtfangere var X= 217 stk, og produksjonens utvalgsstandardavvik S = 6 stk. Lag og sammenlikn et 95 % konfidensintervall basert på normalfordeling med ett basert på t-fordeling.

Se løsningsforslag

Når standardavviket til en populasjon er ukjent, beregner vi altså et konfidensintervall som

$\fbox{$\begin{align} &\text{Konfidensintervall:} \\
&\overline X \pm {\large t_{\Large \frac{\alpha^\phantom 1}{2} \,(v)}} \cdot \frac{\displaystyle S}{\displaystyle \sqrt n} \end{align}$}$

Excel og GeoGebra har mange funksjoner for oppslag i t-fordeling, tilsvarende de som finnes for oppslag i normalfordeling.

I artikkelen om normalfordelingen presenterte vi Excel-funksjonen norm.fordeling og GeoGebra-funksjonen FordelingNormal, som beregner P(Xx) i en vilkårlig normalfordeling. Motsvarende i t-fordelingen heter henholdsvis t.fordeling og FordelingT. I t-fordelingen antas forventningen å være 0 og standardavviket 1, så det trenger vi ikke oppgi. I stedet må vi oppgi antall frihetsgrader. I norm.fordeling er parameterne x, antall frihetsgrader, og sann/usann for kumulativ/ikke-kumulativ sannsynlighet. I FordelingT oppgir vi først antall frihetsgrader, deretter x og true/false for kumulativ/ikke-kumulativ. true/false kan sløyfes, da benyttes kumulativ sannsynlighet, som er det vanligste.

I denne artikkelen presenterte vi inversene til funksjonene nevnt over, norm.inv i Excel og InversNormalfordeling i GeoGebra. Motsvarende for t-fordelingen heter t.inv og InversTFordeling. I Excel er første parameter sannsynligheten og andre antall frihetsgrader, omvendt i GeoGebra.

I denne artikkelen har vi også sett hvordan vi kunne bruke funksjonen konfidens.norm i Excel og sannsynlighetskalkulatoren i GeoGebra til å beregne grensene i et konfidensintervall.

I Excel bruker vi funksjonen konfidens.t til å beregne bredden av et konfidensintervall basert på en t-fordeling. Vi gir da inn α, standardavvik og utvalgsstørrelse. I GeoGebra bruker vi sannsynlighetskalkulatoren, slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Eksempel 8:

I eksempel 7 fant vi at et 95 % konfidensintervall for gjennomsnittsvekta til 13 laks med gjennomsnittsvekt 4,14 og utvalgsstandardavvik 0,711 var

$4{,}14 \pm 2{,}179 \cdot {\large \frac{0{,}71}{\sqrt{13}}} \approx [3{,}71, 4{,}57]$

For å beregne det samme i Excel, skriver vi =konfidens.t(1-0,95; 0,71; 13) og får ut 0,43. Et 95 prosent konfidensintervall blir derfor om lag

[4,14 – 0,43, 4,14 + 0,43] = [3,71, 4,57].
 

RegnearkÅpne et regneark som beregner 90 – 99 % (t)konfidensintervaller

 
Oppgave 8:

I oppgave 7 beregnet vi, basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 et 95 % konfidensintervall basert på t-fordeling. Gjør den samme beregningen i Excel.

Se løsningsforslag

Når vi eksempler og oppgaver har forutsatt at populasjonene er normalfordelte, er det fordi vi har gjort beregninger basert på ganske få målinger. Hvis vi øker antall målinger til 30 eller mer, kan vi imidlertid fire på dette kravet. Sentralgrenseteoremet garanterer at gjennomsnittene i alle tilfeller vil være tilnærmet normalfordelte.

Binomisk modell

Det vi har gjort så langt, har vært basert på gjennomsnitt. Av og til er imidlertid ikke gjennomsnittet interessant, vi er i stedet ute etter å estimere sannsynligheten for at elementer i en populasjon har en gitt egenskap. Vi antar at hvert element enten har eller ikke har egenskapen, og at det er uavhengighet mellom elementene. Vi har derved en binomisk modell. I en binomisk modell bruker vi symbolet $\hat p$ til å estimere sannsynligheten p. Trekker vi n elementer fra populasjonen, og X av disse har den gitte egenskapen, er en forventningsrett estimator
$\hat p = {\large \frac{X}{n}}$.

Standardavviket til estimatoren baseres ikke på et utvalgsstandardavvik, men på at variansen i en binomisk fordeling er Var(X) = np(1-p), slik vi så i artikkelen om forventning og varians.

Ved å bruke regnereglene vi lærte i denne artikkelen, kan vi finne variansen til estimatoren:

$Var(\hat p) = Var(\frac{\displaystyle X}{\displaystyle n}) = {(\frac{\displaystyle 1}{\displaystyle n})}^2Var(X) = {(\frac{\displaystyle 1}{\displaystyle n})}^2(np(1 – p)) = \frac{\displaystyle p(1 – p)}{\displaystyle n}$.

Og standardavviket til estimatoren blir $\sqrt \frac{\displaystyle p(1 – p)}{\displaystyle n}$

Vi ser at denne blir 0 når $\hat p = 1$ eller $\hat p = 0$, rimelig nok, siden vi da ikke har spredning i det hele tatt. Størst standardavvik får vi når $\hat p = 0{,}5$.

Nå er jo ikke $p$ kjent, dette er jo den ukjente variabelen vi skal estimere, så vi tilnærmer $p$ med den estimerte sannsynligheten, $\hat p$.

Formelen for rapportering i denne modellen blir da

$\fbox{Rapportering: $\overline X \pm \sqrt \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}$}$

Og et konfidensintervall angis som

$\fbox{$\begin{align}&\text{Konfidensintervall:} \\
&\hat p \pm {\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \cdot \sqrt{ \frac{\displaystyle \hat p(1 – \hat p)}{\displaystyle n}} \end{align}$}$

I målemodellen så vi at vi kompenserte for usikkerheten ved at variansen ikke var kjent ved å bruke t-fordeling i stedet for normalfordeling. Det gjør vi ikke i den binomiske modellen, vi forutsetter i stedet at vi har minst 30 målinger, slik at normalfordelingen gir en god nok tilnærming.

Eksempel 9:

Når vi kaster en vanlig mynt 50 ganger, er forventningsverdien til antall kron 50 · 0,5 = 25. Store avvik fra dette kan tyde på at det er noe juks med mynten.

Vi kaster en mynt vi mistenker er jukset med 50 ganger, og får 33 kron.

Vi estimerer da sannsynligheten for kron med $\hat p = {\large \frac{X}{n}} = {\large \frac{33}{50}}= 0{,}66$.

Vi estimerer standardavviket til estimatoren med $\sqrt{\large \frac{\hat p(1- \hat p)}{n}} = \sqrt{\large \frac{0{,}66(1 – 0{,}66)}{50}} \approx 0{,}067$.

En rapportering av denne sannsynligheten blir da

$0{,}66 \pm 0{,}067$

Så ønsker vi å finne 95 % og 99 % konfidensintervaller for den estimerte sannsynligheten.

Fra tidligere eksempler vet vi at vi i et 95 % konfidensintervall har

${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \approx 1{,}96$

og i et 99 % konfidensintervall har

${\large z_{\Large \frac{\alpha^\phantom 1}{2}}} \approx 2{,}58$

Så et 95 % konfidensintervall blir 0,66 ± 1,96 · 0,067 ≈ [0,53, 0,79].

Og et 99 % konfidensintervall blir 0,66 ± 2,58 · 0,067 ≈ [0,49, 0,83].

Vi ser at et 95 % konfidensintervall ikke fanger opp sannsynligheten for en normal mynt, som er 0,5, men 99 % intervallet gjør det så vidt. Det betyr at estimatet med 95 % sikkerhet indikerer at mynten er jukset med, men ikke med 99 % sikkerhet.

Oppgave 9:

En bedrift som produserer mobilladere tester 2000 tilfeldige ladere, og finner ut at 35 av dem er defekte.

Finn et estimat for hvor stor sannsynligheten er for at en vilkårlig lader er defekt, og angi resultatet som en rapportering.

Finn deretter et 95 % konfidensintervall for estimatet.

Se løsningsforslag

Å beregne konfidensintervaller i en binomisk modell i Excel er tungvint, men sannsynlighetskalkulatoren i GeoGebra gjør dette enkelt , slik det er beskrevet i artikkelen om statistikk med GeoGebra.

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk
  • Bhattacharyya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons

Måltall i statistikk

Et sett med data kan inneholde mange verdier og være svært uoversiktlig. Vi har derfor behov for både metoder til å presentere data på en strukturert måte, og til å beregne nøkkeltall som beskriver dataene.

Eksempel 1:

En gruppe på 30 barneskoleelever var til helsekontroll og fikk målt høyden. Resultatene var 140, 141, 137, 143, 145, 142, 139, 138, 139, 141, 144, 137, 138, 142, 140, 142, 140, 138, 135, 142, 144, 141, 148, 140, 149, 135, 141, 140, 139 og 137 cm. Vi ser at det uten nitid granskning er vanskelig å si noe mer enn at høydene ser ut til å ligge i området 135 – 150 cm.

Frekvenstabell

En måte å strukturere data på er å lage en frekvenstabell. Da lister vi opp de forskjellige verdiene og oppgir hvor mange ganger de forekommer. Dividerer vi antall forekomster av en verdi på antall forekomster totalt, får vi verdiens relative frekvens, som forteller hvor stor del av helheten den utgjør.

Eksempel 2:

Det er totalt 30 målinger i eksempel 1, med verdier fra 135 til 149. En frekvenstabell basert på disse målingene vil se slik ut:

Høyde (cm) 135 136 137 138 139 140 141 142
Frekvens 2 0 3 3 3 5 4 4
Relativ frekvens 7 % 0 % 10 % 10 % 10 % 17 % 13 % 13 %
 
Høyde (cm) 143 144 145 146 147 148 149  
Frekvens 1 2 1 0 0 1 1
Relativ frekvens 3 % 7 % 3 % 0 % 0 % 3 % 3 %

Her har vi angitt den relative frekvensen i prosent. For eksempel er den relative frekvensen for 140 lik ${\large \frac{5}{30}} \approx 0{,}17$, det vil si at om lag 17 % av elevene er 140 centimeter.

Søylediagram

Vi kan også presentere en frekvenstabell grafisk i form av et søylediagram, der vi har én søyle for hver verdi, og høyden på søylen angir hvor mange ganger verdien forekommer.

Eksempel 3:

Frekvenstabellen fra eksempel 2 kan presenteres slik, i form av et søylediagram:

Søylediagram ugrupperte høydedata

Nå ser vi for eksempel lett at det er flest (5) elever som er 140 centimeter og ingen elever som er 136, 146 eller 147 centimeter.

Av og til kan en frekvenstabell inneholde for mye informasjon. Skal vi for eksempel lage en frekvenstabell over nordmenns inntekt, vil det bli uoverkommelig mange kolonner hvis vi skal gå ned på kronenivå og ha én kolonne for 250.000, én kolonne for 250.001, og så videre. For å forenkle, grupperer vi da verdier, for eksempel ved å ha én kolonne for «under 250.000», én for «250.000 – 299.999», én for «300.000 – 349.999» og så videre.

Eksempel 4:

Grupperer vi målingene fra eksempel 1 i intervallene 135-139, 140-144, 145-149, får vi følgende frekvenstabell og søylediagram:

Høyde (cm) 135-139 140-144 145-149
Frekvens 11 16 3
Relativ frekvens 37 % 53 % 10 %

Søylediagram grupperte høydedata

Vi ser enkelt at flest elever (16) ligger i gruppa 140-144, noen færre (11) i gruppa 135-139, og få (3) i gruppa 145-149.

I Excel kalles søylediagrammer for stolpediagrammer, disse begrepene brukes mye om hverandre. Enkelte kilder hevder imidlertid at et stolpediagram er et søylediagram der søylene ikke har bredde, de tegnes bare som en strek.

I Excel lager vi søylediagrammer ved å skrive inn og markere dataene, velge «Sett inn» – «Stolpe», og så velge stolpetype.

RegnearkÅpne et regneark med stolpediagrammene vist over
 
 
Oppgave 1:

På en prøve fikk elevene i en klasse disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

    1. Lag en frekvenstabell som viser fordeling av karakterene. Tabellen skal også vise relativ frekvens i prosent.
       
    2. Lag en frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6. Tabellen skal også vise relativ frekvens i prosent.
       
    3. Lag et søylediagram som illustrerer karakterfordelingen i punkt 2.

Se løsningsforslag

Histogrammer

Intervaller er imidlertid mer vanlig å presentere i histogrammer. Et histogram minner om et søylediagram, men har en kontinuerlig x-akse, og søylene ligger helt inntil hverandre.

Det er litt tungvint å lage histogrammer i Excel, figurene i eksempel 5 og 6 er laget i GeoGebra. På dette nettstedet finnes en egen artikkel om statistikk med GeoGebra, der det beskrives hvordan GeoGebra kan brukes til å lage søylediagrammer og histogrammer.

Eksempel 5:

Figuren under viser samme data som eksempel 4, presentert i et histogram.

Histogram

Det er ikke noe krav at intervallene som presenteres i et histogram skal være like store. Søylens areal, ikke høyden, forteller hvor mange verdier som ligger i hvert intervall.

Eksempel 6:

Tabellen under viser fire intervaller med bredder på henholdsvis 5, 5, 10 og 20. Det er 5 målinger i hvert intervall.

Intervall [0, 5) [5, 10) [10,20) [20, 40)
Frekvens 5 5 5 5

Det tilhørende histogrammet er vist under.

Histogram med ulik intervallbredde

Vi ser at selv om det er like mange målinger i hvert intervall, er ikke søylene like høye, fordi intervallbredden er forskjellig. Arealet av hver søyle er imidlertid det samme.

SkjermfilmSe filmen «Grafisk presentasjon»
 

I det følgende kommer vi til å presentere en del sentral- og spredningsmål i statistikk. Alle disse måltallene kan beregnes i regneark, slik det er vist i eksemplet under:

RegnearkÅpne et regneark med eksempler på måltall
 

Sentralmål

Det kan ofte være interessant å vite hvilke verdier et datasett er sentrert rundt. Hvis vi for eksempel måler høyden på nye sjetteklassinger over tjue år, vil vi få enorme mengder med data som er vanskelig å få oversikt over på ubehandlet form. Men sammenlikner vi et sentralmål for hvert år, vil vi kjapt kunne se hvordan høyden på sjetteklassinger generelt har endret seg gjennom årene.

Vanlige sentralmål er gjennomsnitt, median og typetall.

Gjennomsnitt

Gjennomsnitt, også kalt middelverdi, angir et datasetts nøyaktige midtpunkt. Hvis vi tenker oss verdiene i et datasett fordelt utover ei vektstang, vil gjennomsnittet være vektstangas balansepunkt. Gjennomsnittet trenger ikke ligge på, eller en gang i nærheten av, noen av verdiene i settet, for eksempel er gjennomsnittet av 1 og 99 lik 50.

Gjennomsnitt beregnes ved å summere alle verdiene i et datasett og dividere på antall elementer. Det er vanlig å betegne gjennomsnitt med en X med strek over: X. I noen kilder benyttes liten bokstav, x.

​I matematisk terminologi, hvis vi har et datasett med n elementer, kaller hver verdi Xi, der i ∈ {1, 2, 3, …, n}, uttrykker vi gjennomsnittet, X, slik:

$\fbox{Gjennomsnitt: $\overline X = \frac{\displaystyle \sum_{i = 1}^n X_i}{\displaystyle n^\phantom 1}$}$

Vi summerer altså alle elementene og dividerer med antall elementer.

Gjennomsnittet har samme enhet som enkeltelementene. Hvis vi for eksempel beregner gjennomsnittet av høyder i centimeter, er gjennomsnittshøyden også i centimeter.

Eksempel 7:

Vi skal beregne gjennomsnittet av elevhøydene fra eksempel 1. Vi summerer først alle høydene: 140 + 141 + 137 + 143 + 145 + 142 + 139 + 138 + 139 + 141 + 144 + 137 + 138 + 142 + 140 + 142 + 140 + 138 + 135 + 142 + 144 + 141 + 148 + 140 + 149 + 135 + 141 + 140 + 139 + 137 = 4217. Så finner vi gjennomsnittet ved å dividere denne summen på antall målinger, som er 30, og får $\overline X = {\large \frac{4217}{30}} \approx 140{,}6.$ Gjennomsnittshøyden er ca. 140,6 centimeter.

​I praksis beregner vi imidlertid sjelden gjennomsnittet manuelt på denne måten. På litt avanserte kalkulatorer legger vi bare inn alle dataene og trykker på knappen for å beregne gjennomsnitt.

I Excel bruker vi funksjonen gjennomsnitt til å beregne gjennomsnitt. La os si at dataene ligger i celleområdet A1 – C4. Da skriver vi =gjennomsnitt(A1:C4) i cella der vi vil ha gjennomsnittet beregnet. I GeoGebra heter funksjonen gsnitt eller gjennomsnitt, og brukes i GeoGebras regneark-felt, som vi får fram ved å velge «Vis» – «Regneark». Vær imidlertid oppmerksom på at GeoGebra krever at cellenavn skrives med store bokstaver, for eksempel A1. a1 vil ikke bli gjenkjent som et cellenavn. Vi kan også få opp gjennomsnittet i algebra-feltet ved å skrive i gsnitt-kommandoen i inntastingsfeltet, men da sløyfer vi likhetstegnet foran kommandoen. Når vi skriver i inntastingsfeltet, kan vi velge om vi vil liste opp verdiene der, eller referere til dem i regneark-delen.

Oppgave 2:

Vi gjør 6 tellinger av antall passasjerer på en bussrute mellom Andeby og Gåseby, og finner henholdsvis 20, 34, 16, 27, 8 og 9 passasjerer. Beregn gjennomsnitt for passasjertallet.

Kontroller resultatet i et regneark eller GeoGebra.

Se løsningsforslag

Median

Hvis vi sorterer et datasett stigende, vil naturligvis det første elementet ha den laveste verdien i settet, og det siste elementet den høyeste. Det gir også mening å snakke om midten av et slikt sortert sett. Midten til et sett med n elementer blir ${\large \frac{1 + n}{2}}$. (Grunnen til at vi adderer 1, er at første element er nummer 1, ikke nummer 0).
I et datasett med et odde antall elementer vil det være ett element som ligger midt i, i et datasett med et par antall verdier vil det være to elementer. Verdien til midtelementet i et sett med et odde antall elementer, og gjennomsnittet av verdiene til de to midtelementene i et sett med et par antall elementer, kalles datasettets median.

Eksempel 8:

    1. Deltakerne på et kveldskurs er 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Her har vi 9 elementer, så midten blir element nummer ${\large \frac{1 + 9}{2}} = 5$. Settet har et odde antall elementer, så medianen er verdien til element nummer 5, altså 22.
       
    2. Det kommer en ny deltaker på kurset som er 19 år. Stiller vi opp aldrene på nytt, blir det 19, 19, 20, 20, 21, 22, 23, 23, 23 og 26 år. Vi har nå 10 elementer, så midten blir element nummer ${\large \frac{1 + 10}{2}} = 5{,}5$, det vil si at element nummer 5 og 6, med verdi 21 og 22, deler midtplassen. Medianen blir da gjennomsnittet av disse verdiene, altså ${\large \frac{21 + 22}{2}} = 21{,}5$.

​Men hvorfor skal vi ha to måltall, både gjennomsnitt og median, til å angi sentrum av et datasett? Vel, begge har sine fordeler og ulemper. Gjennomsnittet trenger vi til en del andre beregninger, for eksempel standardavvik, som vi skal se på senere. Dessuten ligger gjennomsnittet alltid i sentrum av datasettet, selv om det ikke finnes noen verdier i nærheten. Medianen, derimot, er avhengig av én eller to verdier å hekte seg på, noe som kan gi rare utslag hvis det ikke finnes verdier nær gjennomsnittet. På den annen side er medianen mer robust mot sterkt avvikende verdier i et datasett enn gjennomsnittet er. Medianen kan også generaliseres til å angi ikke bare midten av et datasett, men for eksempel fjerdeparten eller en bestemt prosentandel.

Eksempel 9:

  1. I en gruppe besteforeldre og barnebarn er aldrene 5, 10, 11, 14, 57, 60, 63, 65 og 66 år. Gjennomsnittsalderen blir 39, som er i sentrum av datasettet. Men medianen blir 57, noe som er veldig misvisende. Kommer det så en 11-åring og en 12-åring inn i gruppa, går gjennomsnittet noe ned, til 34, men medianen hopper ekstremt, helt ned til 14. I dette tilfellet representerer altså gjennomsnittet dataene best.
     
  2. Ti elever skriver opp hvor mange husdyr de har hjemme. Tre har 0, fire har 1 og tre har 2. Både gjennomsnitt og median blir 1, noe som beskriver datasettet godt. Men så kommer det til en elev som bor på gård der de har 34 husdyr. Nå hopper gjennomsnittet opp til 4, noe som slett ikke forteller noe om hvor mange husdyr det er vanlig å ha. Medianen derimot, forblir 1. I dette tilfellet representerer altså medianen dataene best.

I Excel og GeoGebra beregner vi median ved hjelp av funksjonen median, som brukes helt tilsvarende gjennomsnitt-funksjonen.

Typetall

Typetall, også kalt modus, er den verdien i et datasett som forekommer flest ganger. I eksempel 1 er typetallet 140, fordi denne verdien forekommer 5 ganger, mer enn noen av de andre verdiene. En fordel med typetallet er at det i motsetning til gjennomsnitt og median er definert for verdier som ikke er tall. For eksempel kan typetallet angi hvilken bokstav som forekommer flest ganger i en tekst. I «februar» er for eksempel typetallet «r». I lange tekster vil typetallet angi hvilken bokstav som opptrer oftest i et språk. En ulempe med typetall er at typetall som ligger langt fra gjennomsnittet i et datasett, kan gi et dårlig bilde av hvor datasettet er sentrert. En annen ulempe er at det ikke er konsensus om hva typetallet er når det finnes flere alternativer, slik som i «Mississippi», der både «s» og «i» forekommer 4 ganger. Noen kilder sier at typetallet i slike tilfeller ikke er definert, andre at alle alternativene da er typetall.

I Excel beregner vi typetallet ved hjelp av funksjonen modus.sngl, i GeoGebra ved hjelp av funksjonen typetall. Funksjonene brukes helt tilsvarende gjennomsnitt-funksjonen. Er det flere alternativer, velger Excel én av verdiene, uklart hvilken. GeoGebra gir en liste over verdiene.

Oppgave 3:

Finn median og typetall blant karakterene i oppgave 1, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Se løsningsforslag

SkjermfilmSe filmen «Sentralmål i statistikk»
 

Spredningsmål

Det kan ofte være interessant å ikke bare vite hvor sentrum av et datasett er, men også hvor spredt dataene ligger. Datasettene {50, 50} og {1, 99} har for eksempel begge 50 som gjennomsnitt, men spredningen er veldig forskjellig, i det første tilfellet har vi ikke spredning i det hele tatt.

Vanlige spredningsmål er standardavvik, variasjonsbredde og kvartilbredde.

Standardavvik

Standardavvik er et spredningsmål som er basert på gjennomsnittet. Å beregne standardavvik manuelt er ganske omstendelig, i praksis lar vi en kalkulator eller et regneark gjøre jobben. For å få innsikt i hva standardavvik egentlig er, skal vi allikevel gå gjennom metoden for å regne det ut manuelt.

Vi starter med å summere de kvadratiske avstandene mellom hver verdi i et datasett og datasettets gjennomsnitt.

Eksempel 10 a:

Lengden på fem laks vi tar opp av et oppdrettsanlegg, blir målt til 35, 37, 38, 41 og 44 cm. Gjennomsnittslengden er da X = 39 cm. Summen av de kvadratiske avstandene blir

(35 − 39)2 + (37 − 39)2 + (38 − 39)2 + (41 − 39)2 + (44 − 39)2 = 16 + 4 + 1 + 4 + 25 = 50.

Grunnen til at vi beregner den kvadratiske avstanden og ikke bare avstanden, er at vi i datasettet vil ha verdier som er både større og mindre enn gjennomsnittet. Hvis vi da beregner avstanden, vil vi få en blanding av positive og negative tall. Og summen av disse vil alltid være 0, fordi gjennomsnittet ligger sentrert blant verdiene. Med verdiene fra eksempel 10 a) vil vi få −4 − 2 − 1 + 2 + 5 = 0.

Når vi har funnet summen av de kvadratiske avstandene, dividerer vi den på 1 mindre enn antall elementer vi har. Verdien vi da får kalles varians. Til slutt får vi fram standardavviket ved å ta kvadratrota av variansen.

Eksempel 10 b:

I eksempel 10 a) fant vi ut at summen av de kvadratiske avstandene til lengdene var 50. Det er 5 målinger, så vi skal dividere 50 på 5 − 1 = 4 for å finne variansen. Så tar vi kvadratrota og får $\sqrt {\large \frac{50}{4}} \approx 3{,}54$. Standardavviket til laksens lengde er ca. 3,54 cm.

​I matematisk terminologi, hvis vi har et datasett med n elementer, og kaller hver verdi Xi, der i ∈ {1, 2, 3, …, n}, uttrykker vi standardavviket, S, slik:

$\fbox{$S = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n − 1}$}$

Standardavviket har samme enhet som enkeltelementene. Hvis vi for eksempel beregner standardavviket til høyder i centimeter, er standardavviket også i centimeter.

Standardavvik beregnes med samme teknikk som gjennomsnitt i Excel og GeoGebra. I Excel med funksjonen stdav.s, og i GeoGebra med funksjonen stavv.

Oppgave 4:

I oppgave 2 beregnet vi at 20, 34, 16, 27, 8 og 9 busspassasjerer ga et gjennomsnitt på 19 passasjerer. Beregn standardavviket til passasjertallet.

Kontroller resultatet i et regneark eller GeoGebra.

​​Se løsningsforslag

Oppgave 5:

Hvis det på bussen med færrest passasjerer i oppgave 4 hadde vært 2 i stedet for 8 passasjerer, og på bussen med flest passasjerer 40 i stedet for 34, hvordan ville det påvirket gjennomsnitt og standardavvik? Tenk gjennom problemstillingen først, og gjør beregningene etterpå.

​​Se løsningsforslag

Mer presist kalles det standardavviket vi har beregnet, for utvalgsstandardavviket, fordi det er basert på et utvalg fra en populasjon. Det finnes også noe som heter populasjonsstandardavviket, der vi forutsetter at vi har målinger fra alle individer i populasjonen. Dette betegner vi med en liten gresk sigma, σ, og beregner det på samme måte som utvalgsstandardavviket, bortsett fra at vi dividerer med n i stedet for n − 1:
$\sigma = \sqrt \frac{\displaystyle \sum_{i = 1}^n(X_i − \overline X)^2}{\displaystyle n}$

Populasjonsstandardavviket vil følgelig være mindre enn utvalgsstandardavviket, men når vi har mange dataelementer, slik at n blir stor, vil forskjellen på de to være liten.

I Excel beregner vi populasjonsstandardavviket ved hjelp av funksjonen stdav.p, der p-en står for «population». Tilsvarende står s-en i stdav.s for «sample». I GeoGebra beregner vi populasjonsstandardavviket ved hjelp av funksjonen stavp.

Eksempel 11:

I eksempel 10 beregnet vi at de kvadratiske avstandene mellom lengdene til 5 laks og gjennomsnittet var 50, og utvalgsstandardavviket følgelig ble $S = \sqrt {\large \frac{50}{4}} \approx 3{,}54$.

Hvis disse 5 hadde vært hele populasjonen, ville vi i stedet ha beregnet populasjonsstandardavviket, $\sigma = \sqrt {\large \frac{50}{5}} \approx 3{,}16$.

I Excel ville vi brukt funksjonen stdav.p, og i GeoGebra stavp.

Det er slik at gjennomsnittet av utvalgsstandardavvikene til alle mulige utvalg i en populasjon er lik populasjonsstandardavviket.

I praksis har vi imidlertid sjelden hele populasjonen tilgjengelig, så det er utvalgsstandardavviket som er mest aktuelt å beregne. Utvalgsstandardavvik kalles også gjerne empirisk, altså erfaringsbasert standardavvik.

Dessverre presenterer mange kilder bare den ene eller den andre formen for standardavvik, uten å gjøre rede for at det egentlig finnes to former. Mange kilder blander også symbolene for utvalgsstandardavvik og populasjonsstandardavvik. På en del kalkulatorer brukes σn−1 eller Sn−1 for utvalgsstandardavvik og σn eller Sn for populasjonsstandardavvik. Vi vil imidlertid holde oss til å bruke S for utvalgsstandardavvik og σ for populasjonsstandardavvik.

σ vil vi møte igjen i artikkelen forventning og varians, som det teoretiske standardavviket til en sannsynlighetsfordeling.

SkjermfilmSe filmen «Spredningsmål i statistikk»
 

Variasjonsbredde

Variasjonsbredde er avstanden mellom største og minste verdi i et datasett.

Eksempel 12:

Deltakerne i en lesesirkel er 35, 37, 40, 40, 42 og 44 år. Variasjonsbredden til deltakerne er da 44 − 35 = 9 år.

Variasjonsbredden er imidlertid følsom for ekstreme verdier i et datasett. Hvis det for eksempel i lesesirkelen i eksempel 12 hadde kommet til en person på 75 år, ville variasjonsbredden ha hoppet fra 9 til 40, en endring som ikke i det hele tatt er representativ for endringen i aldersfordeling.

I Excel kan vi beregne variasjonsbredde ved å finne største verdi med funksjonen størst og trekke fra minste verdi som vi finner med funksjonen min. (Det er litt snurrig skrivemåte her). I GeoGebra heter de samme funksjonene maks og min. Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi vil oppgi mer enn to tall i inntastingsfeltet i GeoGebra, må de angis som en liste, det vil si mellom krøllparenteser. For eksempel maks({2, 7, 4}).

Kvartiler

Deler vi et sortert datasett i to like store deler, heter delingspunktet median, som vi har sett tidligere. Deler vi det i fire like store deler, heter delingspunktene kvartiler, henholdsvis første, andre og tredje kvartil, som vi betegner med Q1, Q2 og Q3. Q2 vil være det samme som medianen, som vi finner som ${\large \frac{1 + n}{2}}$. Q1 finner vi tilsvarende som ${\large \frac{1 + n}{4}}$, og Q3 som ${\large \frac{3(1 + n)}{4}}$.

Eksempel 13:

Vi skal finne kvartilene til datasettet 13, 14, 17, 18, 18, 21, 23, 23, 27, 30 og 32.

Her har vi 11 elementer, så Q1 blir element nummer ${\large \frac{1 + 11}{4}} = 3$, Q2 blir element nummer ${\large \frac{1 + 11}{2}} = 6$ og Q3 blir element nummer ${\large \frac{3(1 + 11)}{4}} = 9$.

Element nummer 3 har verdien 17, nummer 6 verdien 21, og nummer 9 verdien 27. Så vi har

Q1 = 17, Q2 (median) = 21, Q3 = 27.

I Excel kan vi beregne kvartiler på tilsvarende måte ved hjelp av funksjonen kvartil.eks. Her må vi i tillegg til å angi hvilke data vi vil beregne kvartilen til, også angi hvilket kvartil vi skal beregne, 1 for første kvartil, 2 for andre og 3 for tredje kvartil. GeoGebra har to funksjoner for å beregne kvartiler, q1 og q3. For å finne Q2 må vi bruke funksjonen median. Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi bruker inntastingsfeltet i GeoGebra, må verdiene angis som et sett, det vil si mellom krøllparenteser, for eksempel q3({13, 14, 17, 18, 18, 21, 23, 23, 27, 30, 32}) for å beregne tredje kvartil i eksempel 13.

Kvartilbredde

Vi så at variasjonsbredden som spredningsmål var følsom for ekstreme verdier i et datasett. Et bedre mål kan derfor være kvartilbredden, som er avstanden mellom første og tredje kvartil.

Er kvartilbredden høy, betyr det stor spredning, er den lav, betyr det lav spredning.

I Excel og GeoGebra kan vi beregne kvartilbredden ved å finn øvre kvartil og så trekke fra nedre kvartil.

Eksempel 14:

Vi skal finne kvartilbredden til datasettet fra eksempel 13. Der fant vi at Q1 var 17, og at Q3 var 27, så kvartilbredden blir 27 − 17 = 10.

Oppgave 6:

Olga pendler til jobben med toget, og skriver opp hvor mange minutter forsinket toget er hver dag. En måned har hun notert følgende: 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14. Beregn og tolk variasjonsbredden og kvartilbredden for dette datasettet.

​​​Se løsningsforslag

Persentiler

Oppdelingen av et sortert datasett kan gjøres enda mer detaljert ved hjelp av persentiler, der vi bestemmer en verdi ut fra hvor i datasettet den prosentvis befinner seg.

Eksempel 15:

Et sortert datasett består av tallene 3, 5, 6, 7, 8, 10, 13, 16 og 17, og vi skal finne 20- og 80-persentilene. Da må vi finne ut hvilke verdier som ligger 20 % og 80 % opp i settet. Siden settet har 9 elementer, får vi (1 + 9) · 20 % = 2 og (1 + 9) · 80 % = 8. Siden element nummer 2 har verdien 5, blir 20-persentilen lik 5, og siden element nummer 8 har verdien 16, blir 80-persentilen lik 16.

Q1, Q2 og Q3 tilsvarer henholdsvis 25-, 50- og 75-persentiler.

Når vi skal bestemme medianen i et datasett med n elementer, finner vi midten av datasettet ved å beregne ${\large \frac{1 + n}{2}}$. Dette blir bare et helt tall når n er oddetall, slik at 1 + n blir et helt tall når vi deler med 2. Tilsvarende blir posisjonen til Q1 og Q3 bare hele tall hvis 1 + n delt på 4 blir et helt tall, og posisjonen til et a-persentil blir bare et helt tall hvis 1 + n delt på ${\large \frac{100}{\Large a}}$ blir et helt tall. Dette var tilfelle i eksempel 15, der 20-persentilet lå i posisjon
${\large \frac{1 + n}{\LARGE \, \frac{100}{\huge a} \,}} = {\large \frac{10}{\LARGE \, \frac{100}{20} \,}} = 2$, og 80-persentilet i posisjon ${\large \frac{1 + n}{\LARGE \, \frac{100}{\huge a} \,}} = {\large \frac{10}{\LARGE \, \frac{100}{80} \,}} = 8$.

Dersom posisjonen til medianen ikke blir et helt tall, blir desimaldelen alltid 0,5, som for eksempel i 21,5 i eksempel 8.2. Posisjonen ligger da midt mellom to tall, og medianen blir gjennomsnittet av disse. Med kvartiler og persentiler vil det imidlertid ikke alltid være slik. Vi kan for eksempel få en posisjon med desimaldel 0,8, som i eksempel 16. Vi beregner da ikke et 50/50 gjennomsnitt, men et vektet gjennomsnitt. Hvis desimaldelen er m, summerer vi da tallet i posisjonen til venstre multiplisert med 1 − m og tallet i posisjonen til høyre multiplisert med m. Medianen er et spesialtilfelle av dette, med 1 − m = m = 0,5.

Eksempel 16:

  • Vi skal finne 38-persentilen i datasettet fra eksempel 15, som har 9 elementer: 3, 5, 6, 7, 8, 10, 13, 16 og 17. Vi beregner (1 + 9) · 0,38 = 3,8. Dette tallet ligger mellom 3 og 4, så vi skal altså beregne et vektet gjennomsnitt av tallene i posisjon 3 og 4, det vil si verdiene 6 og 7. Desimaldelen til 3,8 er 0,8, så vi har m = 0,8, og følgelig er 1 − m = 0,2. Så det vektede gjennomsnittet blir (1 − m) · 6 + m · 7 = 0,2 · 6 + 0,8 · 7 = 6,8.
     

    • Vi skal finne 64-persentilen i det samme datasettet. Vi beregner (1 + 9) · 0,64 = 6,4. Dette tallet ligger mellom 6 og 7, så vi skal altså beregne et vektet gjennomsnitt av tallene i posisjon 6 og 7, det vil si verdiene 10 og 13. Desimaldelen til 6,4 er m = 0,4, og følgelig er 1 − m = 0,6. Så det vektede gjennomsnittet blir (1 − m) · 10 + m · 13 = 0,6 · 10 + 0,4 · 13 = 11,2.
       
    • I Excel kan vi beregne persentiler, slik vi har gjort i eksempel 15 og 16, ved hjelp av funksjonen persentil.eks. I GeoGebra ved hjelp av funksjonen persentil. Her må vi i tillegg til å angi hvilke data vi vil beregne persentilen til, også angi hvilken persentil vi skal beregne, i form av et desimaltall mellom 0 (0 %) og 1 (100 %). Funksjonene brukes med samme teknikk som gjennomsnitt-funksjonen, men hvis vi bruker inntastingsfeltet i GeoGebra, må verdiene angis som et sett, det vil si mellom krøllparenteser, for eksempel persentil({3, 5, 6, 7, 8, 10, 13, 16, 17}, 0.8) for å beregne 80-persentilen i eksempel 15.

Mer om persentiler i Excel og GeoGebra

Excel har egentlig to funksjoner for å beregne persentiler, persentil.eks og persentil.ink. persentil.eks bruker metoden vi har vist i eksempel 15 og 16. Har vi totalt n elementer, ligger første element da på persentil ${\large \frac{1}{1 + n}}$, og siste element på persentil $n − {\large \frac{1}{1 + n}}$. Forsøker vi å bruke persentil.eks til å beregne persentiler som er mindre enn ${\large \frac{1}{1 + n}}$ eller større enn $n − {\large \frac{1}{1 + n}}$, får vi en feilmelding. Uansett hvor mange elementer vi har, vil det med denne beregningsmetoden aldri finnes noe 0-persentil eller 100-persentil. Disse verdiene er ekskludert, derav navnet «eks».

persentil.ink regner derimot at første element ligger på 0-persentilen og siste element på 100-persentilen. Disse verdiene er inkludert, derav navnet «ink».

GeoGebra bruker samme metode som persentil.eks, men dersom vi prøver å beregne persentiler som er mindre enn ${\large \frac{1}{1 + n}}$ eller større enn $n − {\large \frac{1}{1 + n}}$, gir ikke GeoGebra feilmelding, men velger i stedet henholdsvis første og siste element.

Eksempel 17:

Vi har et sortert datasett som består av tallene 10, 20 og 30. Her er det 3 elementer, så ${\large \frac{1}{1 + n}} = {\large \frac{1}{4}} = 25 \, \%$.

persentil.ink regner de tre tallene som henholdsvis 0-, 50- og 100-persentiler, persentil.eks som henholdsvis 25-, 50- og 75-persentiler, slik det er illustrert under.

Histogram med ulik intervallbredde

persentil.eks vil gi feilmelding hvis vi prøver å finne persentiler mindre enn 25 % eller større enn 75 %. GeoGebra vil gi henholdsvis 10 og 30.

Drar vi det ut i det ekstreme, og har et sett med bare ett element, vil persentil.eks ikke beregne andre persentiler enn 50-persentilen, mens persentil.ink knytter alle persentiler til det ene elementet.

På samme måte som Excel har to varianter av funksjoner for å beregne persentiler, finners det også to funksjoner for å beregne kvartiler, kvartil.eks, og kvartil.ink.

Kilder

    • Hinna, K.R.C., Rinvold, R.A., Gustavsen, TS. (2011). QED 5-10, bind 1. Høyskoleforlaget
    • Hagen, P.C. (2000), Innføring i statistikk og sannsynlighetsregning. Cappelen Akademisk
    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Bhattacharya, G, Johnson, R.A. (1977) Statistical concepts and methods. John Wiley & Sons