Regneark

Tabellen under gir en oversikt over alle regneark (Excel) det refereres til på nettstedet.

Artikkel Beskrivelse Regneark
Pytagoreiske tripler Genererer pytagoreiske tripler basert på formlene $x = 2st$, $y = s^2 – t^2$ og $z = s^2 + t^2$. pytagoreiske_tripler
Begreper i sannsynlighet Simulerer 1000 kast med to terninger og teller opp hvor mange ganger de forskjellige summene forekommer sum_to_terninger
Misforståelser i sannsynlighet Simulerer 20 bilsifre og 30 fødselsdager, og markerer like verdier med en X. flere_like
Gir brukeren mulighet til å eksperimentere med parametere i paradokset med de falske positive falske_positive
Kombinatorikk Eksempler på bruk av kombinatorikk-funksjonene fakultet, permuter og kombinasjon. kombinatorikk
Lar brukeren oppgi antall gutter og jenter i en klasse og i et utvalg, og beregner hvor mange kombinasjoner det finnes. utvalg_av_elever
Introduksjon til statistikk Viser hvordan vi kan bruke diagrammer til å gi galt inntrykk ved å "jukse" med aksene. aksejuks
Måltall i statistikk Viser et par stolpediagrammer. stolpediagrammer
Demonstrerer bruk av funksjoner for å beregne gjennomsnitt, median, typetall, standardavvik, variasjonsbredde, persentiler, kvartiler og kvartilbredde. maaltall
Diskrete sannsynlighetsfordelinger Viser bruk av funksjonen for å beregne binomiske sannsynligheter. binom_fordeling
Viser bruk av funksjonen for å beregne hypergeometriske sannsynligheter. hypergeom_fordeling
Viser bruk av funksjonen for å beregne poissonsannsynligheter. poissonfordeling
Normalfordelingen Beregner sannsynligheter i en normalfordeling med en gitt forventning og et gitt standardavvik normalfordeling
Estimering Beregner konfidensintervaller for et gitt gjennomsnitt, et gitt standardavvik og en gitt populasjonsstørrelse basert på en normalfordeling. konfidens_normal
Beregner konfidensintervaller for et gitt gjennomsnitt, et gitt standardavvik og en gitt populasjonsstørrelse basert på en t-fordeling. konfidens_t
Sammenlikne datasett Beregner kovarians og korrelasjonskoeffisient samvariasjon
Viser eksempler på bruk av funksjonen t.test t_test

 

Løsningsforslag, statistikk

Introduksjon til statistikk

Oppgave 1:

Vi påstår at de fleste mennesker har mer enn gjennomsnittlig antall armer og spør om dette er korrekt, og hva i så fall problemet med denne påstanden er.

Påstanden er statistisk korrekt fordi ingen har mer enn 2 armer, men noen mangler én arm eller begge armene. Det betyr at gjennomsnittlig antall armer er litt under 2, og alle som har 2 armer ligger derved over gjennomsnittet. Problemet er at gjennomsnittet i dette tilfellet ikke gir noe godt bilde av virkeligheten. Median, som vi skal lære om i artikkelen om måltall i statistikk vil være mye bedre å bruke her.

Tilbake til oppgaven

Måltall i statistikk

Oppgave 1:

Basert på disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2, skal vi lage:

1:
En frekvenstabell som viser fordeling av karakterene, inkludert relativ frekvens i prosent.
Vi teller opp, og finner ut at karakterene fordeler seg slik: 4 enere, 5 toere, 5 treere, 7 firere, 3 femmere og 1 sekser. Totalt er det 25 karakterer, så de relative frekvensene blir:

enere ${\large \frac{4}{25}} = 0{,}16$, altså 16 %
toere ${\large \frac{5}{25}} = 0{,}20$, altså 20 %
treere ${\large \frac{5}{25}} = 0{,}20$, altså 20 %
firere ${\large \frac{7}{25}} = 0{,}28$, altså 28 %
femmere ${\large \frac{3}{25}} = 0{,}12$, altså 12 %
seksere ${\large \frac{1}{25}} = 0{,}04$, altså 4 %

Så frekvenstabellen blir slik:

Karakter 1 2 3 4 5 6
Frekvens 4 5 5 7 3 1
Relativ frekvens 16 % 20 % 20 % 28 % 12 % 4 %

2:
En frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6, inkludert relativ frekvens i prosent.
Frekvensene og de relative frekvensene finner vi i tabellen over. 1-2: 4 + 5 = 9 og 16 % + 20 % = 36 %. 3-4: 5 + 7 = 12 og 24 % + 24 % = 48 %. 5-6: 3 + 1 = 4 og 12 % + 4 % = 16 %. Frekvenstabellen blir seende slik ut

Karakter 1-2 3-4 5-6
Frekvens 9 12 4
Relativ frekvens 36 % 48 % 16 %

3:
Et søylediagram som illustrerer karakterfordelingen i punkt 2.
Vi åpner et regneark, for eksempel Excel og legger inn følgende data:

«1-2» 9
«3-4» 12
«5-6» 4

(Vi har brukt anførselstegn for å unngå at regnearket tolker teksten i venstre kolonne som datoer. Alternativt kunne vi formatert kolonna som «tekst» før vi skrev inn.)
Så markerer vi cellene med data, velger «Sett inn» – «Stolpe», velger stolpetype, og får et stolpediagram likt det under:

Søylediagram grupperte karaktererdata

Tilbake til oppgaven

Oppgave 2:

6 tellinger av busspassasjerer har gitt henholdsvis 20, 34, 16, 27, 8 og 9 passasjerer, og vi skal beregne gjennomsnitt for passasjertallet.

Gjennomsnittet blir $\overline X = {\large \frac{20 + 34 + 16 + 27 + 8 + 9}{6}} = 19$.

Gjennomsnittlig passasjertall er 19.

I et regneark som Excel legger vi inn dataene i hver sin celle, la oss si at det er A1 … A6. Så setter vi markøren i cella der vi vil ha utført beregningen, og skriver =gjennomsnitt(A1: A6). Regnearket beregner gjennomsnittet til 19.

I GeoGebra kan vi gjøre tilsvarende med funksjonen gsnitt, vi kan også skrive gsnitt(20, 34, 16, 27, 8, 9) direkte i inntastingsfeltet.

Tilbake til oppgaven

Oppgave 3:

Vi skal finne median og typetall blant karakterene 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

Vi sorterer først karakterene i stigende rekkefølge: 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6.

Vi har 25 elementer, så midtelementet blir element nummer ${\large \frac{1 + 25}{2}} = 13$. Det trettende elementet har verdien 3, så medianen er 3.

4 forekommer flest ganger, så typetallet er 4.

Tilbake til oppgaven

Oppgave 4:

Vi vet at 20, 34, 16, 27, 8 og 9 busspassasjerer gir et gjennomsnitt på 19 passasjerer, og skal beregne standardavviket.

Summen av de kvadratiske avstandene blir

(20 − 19)2 + (34 − 19)2 + (16 − 19)2 + (27 − 19)2 + (8 − 19)2 + (9 − 19)2 = 1 + 225 + 9 + 64 + 121 + 100 = 520.

Det er 6 målinger, så vi skal dividere 520 på 6 − 1 = 5 for å finne variansen. Så tar vi kvadratrota og får $\sqrt {\large \frac{520}{5}} \approx 10{,}20$. Standardavviket til passasjertallet er ca. 10,20 passasjerer.

I et regneark som Excel legger vi inn dataene i hver sin celle, la oss si at det er A1 … A6. Så setter vi markøren i cella der vi vil ha utført beregningen og skriver =stdav.s(A1: A6). Regnearket beregner standardavviket til om lag 10,20.

I GeoGebra kan vi gjøre tilsvarende med funksjonen stavv, vi kan også skrive stavv(20, 34, 16, 27, 8, 9) direkte i inntastingsfeltet.

Tilbake til oppgaven

Oppgave 5:

Vi skal vurdere hvordan det påvirker gjennomsnitt og standardavvik for antall busspassasjerer hvis det på bussen med færrest passasjerer i oppgave 4 er 2 i stedet for 8 passasjerer, og på bussen med flest passasjerer 40 i stedet for 34.

Dette betyr 6 færre passasjerer på én buss, og 6 flere på en annen. Senterpunktet blir da det samme, så gjennomsnittet endrer seg ikke. Vi får

$\overline X = {\large \frac{20 + 40 + 16 + 27 + 2 + 9}{6}} = 19$.

Spredningen øker derimot, så standardavviket øker.

Summen av de kvadratiske avstandene blir

(20 − 19)2 + (40 − 19)2 + (16 − 19)2 + (27 − 19)2 + (8 − 19)2 + (9 − 19)2 = 1 + 441 + 9 + 64 + 289 + 100 = 904.

Og standardavviket blir

$\sqrt {\large \frac{904}{5}} \approx 13{,}45$.

Tilbake til oppgaven

Oppgave 6:

Vi skal finne og tolke variasjonsbredden og kvartilbredden til datasettet 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14, som representerer antall minutter et tog er forsinket.

Vi sorterer først dataene i stigende rekkefølge: 0, 0, 2, 5, 6, 8, 10, 14, 14, 15, 20, 23, 25, 27, 29, 29, 30, 30, 125.

Variasjonsbredden er avstanden mellom største og laveste verdi, 125 − 0 = 125.

Datasettet har 19, verdier, så første kvartil blir verdien til element nummer (1 + 19) · 0,25 = 5, altså 6. Tredje kvartil blir verdien til element nummer (1 + 19) · 0,75 = 15, altså 29.

Kvartilbredden blir 29 − 6 = 23.

Basert på kvartilbredden ser vi at forsinkelsene normalt varierer med 23 minutter, mellom 6 og 29 minutter.

Ser vi på variasjonsbredden, er den antakelig ikke representativ på grunn av enkeltverdien 125, som ligger langt over de andre verdiene, og kanskje er forårsaket av en spesiell hendelse. På den annen side ser vi at toget noen ganger faktisk ikke er forsinket. 

Tilbake til oppgaven

Forventning og varians

Oppgave 1:

Vi skal finne forventningen til hvor mange plagg en kunde kjøper i en klesbutikk når 30 % ikke kjøper noen ting, 20 % kjøper ett plagg, 40 % kjøper to plagg og 10 % kjøper 3 plagg.

Vi kaller antall kjøpte plagg for X.

At 30 % ikke kjøper noen ting, kan vi da uttrykke som P(X = 0) = 0,3.

At 20 % kjøper ett plagg, kan vi da uttrykke som P(X = 1) = 0,2.

At 40 % kjøper to plagg, kan vi da uttrykke som P(X = 2) = 0,4.

At 10 % kjøper tre plagg, kan vi da uttrykke som P(X = 3) = 0,1.

Forventningen til antall kjøpte plagg finner vi ved å multiplisere hver variant av antall kjøpte plagg med den tilhørende sannsynligheten, og summere produktene.

Så vi får μ = E(X) = 0 · 0,3 + 1 · 0,2 + 2 · 0,4 + 3 · 0,1 = 1,3.

En vilkårlig kunde kan forventes å kjøpe 1,3 plagg.

Tilbake til oppgaven

Oppgave 2:

Vi skal avgjøre om Farmen-deltakere med lite penger bør satse 2 kroner på et lykkehjul med 16 sektorer, der det er åtte kroners gevinst på 1 sektor, fire kroners gevinst på 6 sektorer, to kroners gevinst på 5 sektorer, og ingen gevinst på 4 sektorer. Vi kan anta at alle sektorene er like store, det vil si at sannsynligheten for at hjulet stopper i en vilkårlig sektor er ${\large \frac{1}{16}}$.

Forventet gevinst finner vi ved å multiplisere gevinsten i hver sektor med sannsynligheten for at hjulet stopper i den sektoren, og addere produktene:

$\mu = E(X) = 8 \cdot {\large \frac{1}{16}} + 4 \cdot {\large \frac{6}{16}} + 2 \cdot {\large \frac{5}{16}} + 0 \cdot {\large \frac{4}{16}} = {\large \frac{42}{16}} = {\large \frac{21}{8}} \approx 2{,}63$.

Forventet gevinst er høyere enn innsatsen på 2 kroner, så det vil i det lange løp lønne seg å spille på lykkehjulet. En annen sak er at sjansen for å tape innsatsen er ${\large \frac{4}{16}} = {\large \frac{1}{4}}$. Så med uflaks i de første rundene og lite penger er det jo en risiko for å bli blakk før en får gevinst.

(Farmen-deltakerne tapte i første runde, men spilte videre, og ga seg med 4 kroner i pluss.)

Tilbake til oppgaven

Oppgave 3:

Vi skal finne forventning, varians og standardavvik til antall varer en kunde kjøper når 20 % ikke kjøper noen ting, 20 % kjøper én vare og 60 % kjøper to varer. Antall kjøpte varer betegnes med X. Vi får 

μ = E(X) = 0 · 0,2 + 1 · 0,2 + 2 · 0,6 = 1,4

E(X2) = 02 · 0,2 + 12 · 0,2 + 22 · 0,6 = 2,6

Var(X) = E(X2) − μ2 = 2,6 − (1,4)2 = 0,64

$\sigma = \sqrt{Var(X)} = \sqrt{0{,}64} = 0{,}8$

Forventningen er 1,4, variansen 0,64 og standardavviket 0,8.

Tilbake til oppgaven

Oppgave 4:

Vi har en terning der antall øyne er multiplisert med 2, med lik sannsynlighet for å få 2, 4, 6, 8, 10 og 12. Vi skal så beregne μ = E(X) og Var(X) og sjekke om dette er i tråd med reglene for forventning og varians til en variabel multiplisert med en konstant.

Vi får:

$\mu = E(X) = (2 + 4 + 6 + 8 + 10 + 12)\cdot {\large \frac{1}{6}} = {\large \frac{42}{6}} = 7$.

Og vi får

$E(X^2) = (2^2 + 4^2 + 6^2 + 8^2 + 10^2 + 12^2)\cdot {\large \frac{1}{6}} = {\large \frac{364}{6}}$.

$Var(X) = E(X^2) − \mu^2 = {\large \frac{364}{6}} − 7^2 \approx 11{,}667$

De tilsvarende verdiene for en vanlig terning er E(X) = 3,5 og Var(X) ≈ 2,917. 

Vi ser at dette er i tråd med reglene om å multiplisere en konstant med en tilfeldig variabel:

E(k · X) = k · E(X) fordi E(2 · X) = 7 = 2 · E(X) = 2 · 3,5.

og

Var(k · X) = k2 · Var(X) fordi Var(2 · X) ≈ 11,667 ≈ 22 · Var(X) ≈ 22 · 2,917.

Tilbake til oppgaven

Diskrete sannsynlighetsfordelinger

Oppgave 1:

X betegner antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6, og vi skal beregne de tre sannsynlighetene under, både ved bruk av binomialformelen

$P(X = x) = {\large \binom{n}{x}} p^x (1 − p)^{(n − x)}$

og tabellen over binomisk fordeling.

Her er p = 0,6 siden sannsynligheten for kron er 0,6, og n = 8 fordi vi kaster 8 ganger.

  1. P(X = 4)
     
    Formel:
    ${\large \binom{8}{4}} (0{,}6)^4 (1 − 0{,}6)^{(8 − 4)} \approx 0{,}2322$
     
    Tabell:
    $P(X \le 4) − P(X \le 3) \approx 0{,}4059 − 0{,}1737 = 0{,}2322$. Markert med rødt i bildet under.
     
  2. P(X ≤ 2)
     
    Formel:
    Dette er summen av sannsynlighetene for at X er 0, 1 eller 2:
    $P(X = 2) + P(X = 1) + P(X = 0) =$

    ${\large \binom{8}{2}} (0{,}6)^2 (1 − 0{,}6)^{(8 − 2)} + {\large \binom{8}{1}} (0{,}6)^1 (1 − 0{,}6)^{(8 − 1)} + {\large \binom{8}{0}} (0{,}6)^0 (1 − 0{,}6)^{(8 − 0)} \approx$
    $0{,}0413 + 0{,}0079 + 0{,}0007 = 0{,}0498$
     
    Tabell:
    $P(X \le 2) = 0{,}0498$. Markert med blått i bildet under.
     

  3. P(X ≤ 6)
     
    Formel:
    I stedet for å summere sannsynlighetene for at X er 0,1,2 3, 4, 5 eller 6, er det enklere å benytte seg av komplementhendelsen, X > 6, altså at X er 7 eller 8.
    $P(X \le 6) = 1 − P(X > 6) = 1 − P(X = 8) − P(X = 7) =$

    $1 − {\large \binom{8}{8}} (0{,}6)^8 (1 − 0{,}6)^{(8 − 8)} − {\large \binom{8}{7}} (0{,}6)^7 (1 − 0{,}6)^{(8 − 7)} \approx$
    $1 − 0{,}0168 − 0{,}0896 = 0{,}8936$
     
    Tabell:
    $P(X \le 6) = 0{,}8936$. Markert med oransje i bildet under.

Eksempler på oppslag i binomisk tabell

For å kontrollere svarene i Excel, skriver vi henholdsvis

    1. =binom.fordeling.n(4; 8; 0,6; usann)
       
    2. =binom.fordeling.n(2; 8; 0,6; sann)
       
    3. =binom.fordeling.n(6; 8; 0,6; sann)

For å kontrollere svarene i GeoGebra, velger vi «Innstillinger» – «Avrunding» – «4 desimaler» og skriver henholdsvis

    1. FordelingBinomial(8, 0.6, 4, false)
       
    2. FordelingBinomial(8, 0.6, 2, true)
       
    3. FordelingBinomial(8, 0.6, 6, true)

Så skal vi vurdere om P(X = 7) er større, lik, eller lavere enn P(X = 1).

P(X = 7) tilsvarer «7 kron», mens P(X = 1) tilsvarer «7 mynt». Siden kron har høyere sannsynlighet enn mynt, vil en overvekt av kron være mer sannsynlig enn en tilsvarende overvekt av mynt, så P(X = 7) > P(X = 1). Hadde sannsynlighetene for mynt og kron vært like, p = 0,5, ville vi hatt P(X = 7) = P(X = 1).

Tilbake til oppgaven

Oppgave 2:

Vi skal finne E(X), Var(X) og σ når

  1. X er antall kron i 10 kast med en rettferdig mynt.
    Dette er en binomisk situasjon der kron betyr suksess og mynt betyr fiasko. Vi har $n = 10$ og $p = 0{,}5$, så vi får
    $E(X) = n \cdot p = 10 \cdot 0{,}5 = 5$.
    $Var(X) = n \cdot p(1 − p) = 10 \cdot 0{,}5(1 − 0{,}5) = 2{,}5$.
    $\sigma = \sqrt{Var(X)} = \sqrt{2{,}5} \approx 1{,}58$.
     
  2. X er antall seksere i 5 kast med en rettferdig terning.
    Dette er en binomisk situasjon der «sekser» betyr suksess og «ikke sekser» betyr fiasko. Vi har $n = 5$ og $p = {\large \frac{1}{6}} \approx 0{,}167$, så vi får
    $E(X) = n \cdot p \approx 5 \cdot 0{,}167 = 0{,}84$.
    $Var(X) = n \cdot p(1 − p) \approx 5 \cdot 0{,}167(1 − 0{,}167) = 0{,}70$.
    $\sigma = \sqrt{Var(X)} = \sqrt{0{,}70} \approx 0{,}83$.

Tilbake til oppgaven

Oppgave 3:

I en forening med 65 medlemmer er 13 negative til et forslag. Vi velger 20 representanter tilfeldig fra gruppen og skal finne sannsynligheten for at et visst antall er negative. Lar vi X være antall negative representanter, er P(X) hypergeometrisk fordelt med N = 65 elementer, av disse er M = 13 spesielle, altså negative. Vi trekker n = 20 ganger og skal finne sannsynligheten for at

  1. Ingen av representantene er negative.
    Vi får
    $P(X = 0) = \frac{\displaystyle \binom{13}{0} \cdot \binom{65 − 13}{20 − 0}}{\displaystyle \binom{65}{20}} \approx 0{,}0044$.
    Det er ca. 0,44 % sannsynlighet for at ingen er negative.
     
  2. Én av representantene er negativ.
    Vi får
    $P(X = 1) = \frac{\displaystyle \binom{13}{1} \cdot \binom{65 − 13}{20 − 1}}{\displaystyle \binom{65}{20}} \approx 0{,}0350$.
    Det er ca. 3,5 % sannsynlighet for at én er negativ.
     
  3. To eller flere av representantene er negative.
    Dette kan vi beregne som
    P(X = 2) + P(X = 3) + … + P(X = 20), men det er mye enklere å se på komplementhendelsen. Da kan vi også bruke det vi har funnet i punkt 1 og 2.
    Vi får
    P(X ≥ 2) = 1 − P(X = 0) − P(X = 1) ≈ 1 − 0,004 − 0,035 = 0,9610.
    Det er ca. 96,10 % sannsynlighet for at to eller flere er negative.

For å kontrollere svarene i Excel, skriver vi henholdsvis

    1. =hypgeom.fordeling.n(0; 20; 13; 65; usann)
       
    2. =hypgeom.fordeling.n(1; 20; 13; 65; usann)
       
    3. =1 – hypgeom.fordeling.n(1; 20; 13; 65; sann)

For å kontrollere svarene i GeoGebra, velger vi «Innstillinger» – «Avrunding» – «4 desimaler» og skriver vi henholdsvis

    1. FordelingHypergeometrisk(65, 13, 20, 0, false)
       
    2. FordelingHypergeometrisk(65, 13, 20, 1, false)
       
    3. 1 – FordelingHypergeometrisk(65, 13, 20, 1, true)

RegnearkÅpne et regneark med beregningene fra oppgave 3
 

​Tilbake til oppgaven

Oppgave 4

Vi skal bruke formelen for hypergeometrisk fordeling til å finne sannsynligheten for å få henholdsvis 5 og 4 rette i Lotto. Vi trekker da 7 tall fra en mengde på 34, der 7 er spesielle (vinnertallene), og beregner hva sannsynligheten for å få henholdsvis 5 og 4 av de spesielle er. Vi får

$P(X = 5) = \frac{\displaystyle \binom{7}{5} \cdot \binom{34 − 7}{7 − 5}}{\displaystyle \binom{34}{7}} \approx 1{,}370 \cdot 10^{−3}$.

$P(X = 4) = \frac{\displaystyle \binom{7}{4} \cdot \binom{34 − 7}{7 − 4}}{\displaystyle \binom{34}{7}} \approx 1{,}903 \cdot 10^{−2}$.

Det er om lag 0,137 % sannsynlighet for å få 5 rette, og om lag 1,903 % sannsynlighet for å få 4 rette

​Tilbake til oppgaven

Oppgave 5

Vi skal finne E(X), Var(X) og σ i et utvalg der N = 65, M = 13 og n = 20. Vi får

$E(X) = 20 \cdot {\large \frac{13}{65}} = 4$.

$Var(X) = \Big({\large \frac{65 − 20}{65 − 1}} \Big) \cdot 20 \cdot {\large \frac{13}{65}} \cdot \Big(1 − {\large \frac{13}{65}} \Big) = 2{,}25$.

$\sigma = \sqrt{Var(X)} = \sqrt{2{,}25} = 1{,}50$.

​Tilbake til oppgaven

Oppgave 6:

Vi vet at det i en vannprøve i gjennomsnitt er to hoppekreps, at forekomsten av hoppekreps er poissonfordelt, og skal finne sannsynligheten for at en tilsvarende vannprøve inneholder et gitt antall hoppekreps. Vi skal både bruke formelen for poissonfordeling, $P(X = x) = \frac{\displaystyle \lambda^x}{\displaystyle x!}e^{− \lambda}$ og tabellen over poissonfordeling med $\lambda = 2$.

  1. Sannsynligheten for ingen hoppekreps.
    Formel: $P(X = 0) = \frac{\displaystyle 2^{0}}{\displaystyle 0!}e^{−2} \approx 0{,}1353$.
    Tabell: $P(X = 0) = P(X \le 0) = 0{,}1353$. Markert med rødt i bildet under.
     
  2. Sannsynligheten for én hoppekreps
    Formel: $P(X = 1) = \frac{\displaystyle 2^{1}}{\displaystyle 1!}e^{−2} \approx 0{,}2707$.
    Tabell: $P(X = 1) = P(X \le 1) − P(X \le 0) = 0{,}4060 − 0{,}1353 = 0{,}2707$. Markert med blått i bildet under.
     
  3. Sannsynligheten for to eller flere hoppekreps. Vi ser på komplementhendelsen:
    Formel: $P(X \ge 2) = 1 − P(X = 1) − P(X = 0) \approx 1 − 0{,}1353 − 0{,}2707 = 0{,}5940$.
    Tabell: $P(X \ge 2) = 1 − P(X \le 1) = 1 − 0{,}4060 = 0{,}5940$. Markert med oransje i bildet under.

Eksempler på oppslag i poissontabell

For å kontrollere svarene i Excel, skriver vi henholdsvis

    1. =poisson.fordeling(0; 2; usann)
       
    2. =poisson.fordeling(1; 2; usann)
       
    3. =1 – poisson.fordeling(1; 2; sann)

For å kontrollere svarene i GeoGebra, velger vi «Innstillinger» – «Avrunding» – «4 desimaler» og skriver vi henholdsvis

    1. FordelingPoisson(2, 0, false)
       
    2. FordelingPoisson(2, 1, false)
       
    3. 1 – FordelingPoisson(2, 1, true)

RegnearkÅpne et regneark med beregningene fra oppgave 5
 

​Tilbake til oppgaven

Oppgave 7:

Innbyggerne i en by med 10 000 innbyggere er delt akkurat på midten når det gjelder synet på kommunesammenslåing. Vi trekker 100 innbyggere tilfeldig og skal beregne sannsynligheten for at den gruppen også er delt akkurat på midten.

Her har vi altså N = 10 000, M = 5000, n = 100, og skal finne P(X = 50).

  1. Vi skal først bruke hypergeometrisk fordeling og får:
    $P(X = 50) = \frac{\displaystyle \binom{5000}{50} \cdot \binom{10000 − 5000}{100 − 50}}{\displaystyle \binom{10000}{100}} \approx 0{,}0800$.
    Vi ser at mellomregningene involverer svært høye tall, for eksempel er ${\large \binom{10000}{100}} \approx 6{,}52 \cdot 10^{241}$.
     
  2. Så skal vi avgjøre om en tilnærming med binomisk fordeling vil være god. Vi har $n = 100$ og ${\large \frac{N}{20}} = 500$. Siden $n \le {\large \frac{N}{20}}$, er tilnærmingen god.
     
  3. Vi bruker binomisk fordeling og får: $P(X = 50) = {\large \binom{100}{50}} (0,5)^{50} (1 − 0,5)^{100 − 50} \approx 0{,}0796$.
     
  4. Med fire siffer bak komma ble feilen 0,0800 − 0,0796 = 0,0004.

Tilbake til oppgaven

Oppgave 8:

Vi skal bruke binomisk sannsynlighetsfordeling for å finne sannsynligheten for å få spar ess minst én gang når vi trekker 75 ganger fra en komplett kortstokk. Vi har $n = 75$ og $p = {\large \frac{1}{52}} \approx 0{,}0192$. Det enkleste er å basere seg på sannsynligheten for komplementhendelsen «aldri spar ess»:

$P(X \ge 1) = 1 − P(X = 0) = 1 − {\large \binom{75}{0}} (0{,}0192)^0 (1 − 0{,}0192)^{75 − 0} \approx 0{,}7664$.

Så skal vi avgjøre om vi kan bruke poissonfordeling til å beregne denne sannsynligheten. Vi har $n = 75$, som er innenfor grensa på $n > 50$, og vi har $p = 0{,}0192$, som er innenfor grensa på $p \le 0{,}05$, så tilnærmingen bør være god. Vi har $\lambda = 75 \cdot 0,0192 = 1,44$ og får

$P(X \ge 1) = 1 − P(X = 0) = 1 − {\large \frac{(1{,}44)^0}{0!}}e^{−1{,}44} \approx 0{,}7631$

Tilbake til oppgaven

Normalfordelingen

Oppgave 1:

Vi skal bruke normalfordelingstabellen til å finne

    1. P(Z ≤ 0,85)
      Det vil si G(0,85).
      Vi leser av tabellen der rad 0,8 krysser kolonne 0,05, og får
      0,8023.
       
    2. P(Z ≤ −1,21)
      Det vil si G(−1,21) = 1 − G(1,21)
      Vi leser av tabellen der rad 1,2 krysser kolonne 0,01, og får 0,8669.
      Så vi får 1 − 0,8669 = 0,1131.
       
    3. P(−0,22 ≤ Z ≤ 0,22)
      Det vil si G(0,22) − G(−0,22) = G(0,22) − [1 − G(0,22)] = 2 · G(0,22) − 1
      Vi leser av tabellen der rad 0,2 krysser kolonne 0,02, og får 0,5871.
      Så vi får 2 · 0,5871 − 1 = 0,1742.

Tilbake til oppgaven

Oppgave 2:

På en eksamen er resultatene N(14, 22), og vi skal finne hvor mange som forventes å stryke, det vil si få 12 poeng eller mindre. Vi skal bruke normalfordelingstabellen, Excel og GeoGebra.

Det vi skal beregne er P(X ≤ 12) i den gitte fordelingen. Vi gjør en standardisering og finner ut at dette tilsvarer $G({\large \frac{12 − 14}{2}}) = G(−1) = 1 − G(1)$. Vi går inn i normalfordelingstabellen, rad 1,0 og kolonne 0,00, og finner 0,8413.

P(X < 12) ≈ 1 − 0,8413 = 0,1587. Om lag 15,8 % kan forventes å stryke.

I Excel skriver vi =norm.fordeling(12; 14; 2; sann) og får 0,1587.

I GeoGebra skriver vi FordelingNormal(14, 2, 12) og får det samme. (Muligens etter at vi har brukt menyen «Innstillinger» – «Avrunding» til å sette at GeoGebra skal vise tall med 4 desimaler.

Tilbake til oppgaven

Sentralgrenseteoremet

Oppgave 1:

Vi skal finne sannsynligheten for at en orkidedyrker klarer å produsere minst 3200 blomsterstengler når han har 2500 planter, og i gjennomsnitt 20 % av plantene ikke får blomsterstengler, 40 % får én stengel, 30 % to stengler, og 10 % tre stengler.

Dersom X er antall stengler per plante, har vi altså at P(X = 0) = 0,2, P(X = 1) = 0,4, P(X = 2) = 0,3 og P(X = 3) = 0,1. Dersom Y er antall stengler totalt, skal vi finne P(Y ≥ 3200).

Vi beregner forventning og varians for X:

E(X) = 0 · 0,2 + 1 · 0,4 + 2 · 0,3 + 3 · 0,1 = 1,3.

E(X2) = 02 · 0,2 + 12 · 0,4 + 22 · 0,3 + 32 · 0,1 = 2,5.

Var(X) = E(X2) − [E(X)]2 = 2,5 − (1,3)2 = 0,81.

Altså μ = E(X) = 1,3, og σ2 = Var(X) = 0,81.

n = 2500, langt over tommelfingerregelen på «> 30». Så dersom antall stengler på en plante er uavhengig av de andre, har vi ifølge sentralgrenseteoremet at summen er tilnærmet normalfordelt. Standardavviket og variansen til Y blir 2500 ganger standardavviket og variansen til X, siden vi har 2500 planter.

Y ~ N(2500 · 1,3, 2500 · 0,81) = N(3250, 2025).

Vi gjør en standardisering, og finner ut at

P(Y ≥ 3200) = 1 − P(Y < 3200) tilsvarer

$1 − G({\large \frac{3200 − 3250}{\sqrt{2025}}}) \approx 1 − G(−1{,}11) = G(1{,}11)$.

Vi går inn i normalfordelingstabellen, rad 1,1, kolonne 0,01 og finner 0,8665.

Alternativt skriver vi =1-norm.fordeling(3200; 3250; rot(2025); sann) i Excel eller 1- FordelingNormal(3250, sqrt(2025), 3200) i GeoGebra og får 0,8667, som er litt mer presist.

Det er altså om lag 86,7 % sannsynlighet for at han klarer å produsere nok stengler.

Grunnen til at vi trekker ut rota av 2025 er at det er variansen, σ2, som er 2025, så standardavviket blir $\sigma = \sqrt{2025}$.

Tilbake til oppgaven

Oppgave 2:

Vi trekker 20 varer tilfeldig fra et parti på 100 varer der 10 av varene har feil. Dette er en hypergeometrisk situasjon med n = 20, N = 100 og M = 10. Hvis X betegner antall varer med feil, er altså X ~ hypergeom(100, 10, 20).

  1. Vi skal finne sannsynligheten for at minst 1 av varene har feil, altså P(X ≥ 1) = 1 − P(X = 0).
     
    I en hypergeometrisk fordeling er $P(X = x) = {\Large \frac{\binom{M}{x} \binom{N − M}{n − x}}{\binom{N}{n}}}$, så $P(X = 0) = {\Large \frac{\binom{10}{0} \binom{90}{20}}{\binom{100}{20}}} \approx 0{,}0951$, og
    P(X ≥ 1) ≈ 1 − 0,0951 = 0,9049. Det er ca. 90,5 % sannsynlig at minst 1 av varene i utvalget har feil.
     
  2. Vi skal avgjøre om vi kan forvente at en normaltilnærming er god i dette tilfellet. Vi har N = 100 og 20 · 20 = 400, så kriteriet N ≥ 20n er absolutt ikke oppfylt, og vi kan ikke forvente at tilnærmingen er særlig god.
     
  3. Vi skal bruke normaltilnærming til å beregne den samme sannsynligheten som i 1). Vi har at
    $E(X) = n \cdot {\large \frac{M}{N}} = 20 \cdot {\large \frac{10}{100}} = 2$.
    $Var(X) = \Big( {\large \frac{N − n}{N − 1}} \Big) \cdot n \cdot {\large \frac{M}{N}} \cdot \Big(1 − {\large \frac{M}{N}} \Big) = \Big( {\large \frac{100 − 20}{100 − 1}} \Big) \cdot 20 \cdot {\large \frac{10}{100}} \cdot \Big(1 − {\large \frac{10}{100}} \Big) \approx 1,45$.
    Så normalfordelingen blir N(2, 1,45). Vi gjør en standardisering og finner ut at
    $P(X \ge 1) = 1 − G({\large \frac{1 − 2}{\sqrt{1{,}45}}}) \approx 1 − G(−0{,}83) = G(0{,}83)$.
    Vi går inn i normalfordelingstabellen, rad 0,8, kolonne 0,03 og finner 0,7967. Dette er om lag ${\large \frac {0{,}9049 − 0{,}7967}{0{,}9049}} \approx 0{,}12$, altså om lag 12 % for lavt.

Tilbake til oppgaven

Oppgave 3:

Vi trekker 200 varer tilfeldig fra et parti på 10 000 varer der 1000 av varene har feil. Dette er en hypergeometrisk situasjon med n = 200, N = 10 000 og M = 1000. Hvis X betegner antall varer med feil, er altså X ~ hypergeom(10 000, 1000, 200). Det er oppgitt at P(X ≥ 15) ≈ 0,8595.

  1. Vi skal avgjøre om vi kan forvente at en normaltilnærming er god i dette tilfellet.
    Vi har N = 10 000 og 20 · 200 = 4000, så kriteriet N ≥ 20n er oppfylt.
    Videre har vi $n{\large \frac{M}{N}}(1 − {\large \frac{M}{N}}) = 200{\large \frac{1000}{10 \, 000}}(1 − {\large \frac{1000}{10 \, 000}}) \approx 17{,}64$. Siden dette er mer enn 10, bør normaltilnærmingen være god.
     
  2. Vi skal bruke normaltilnærming til å beregne sannsynligheten for at P(X ≥ 15).
    Vi har at
    $E(X) = n \cdot {\large \frac{M}{N}} = 200 \cdot {\large \frac{1000}{10 \,000}} = 20$.
    $Var(X) = \Big( {\large \frac{N − n}{N − 1}} \Big) \cdot n \cdot {\large \frac{M}{N}} \cdot \Big(1 − {\large \frac{M}{N}} \Big) = \Big( {\large \frac{10 \, 000 − 200}{10 \, 000 − 1}} \Big) \cdot 200 \cdot {\large \frac{1.000}{10 \, 000}} \cdot \Big(1 − {\large \frac{1.000}{10 \, 000}} \Big) \approx 17{,}64$
    Så normalfordelingen blir N(200, 17,64). Vi gjør en standardisering og finner ut at
    $P(X \ge 15) = 1 − G({\large \frac{15 − 20}{17{,}64}}) \approx 1 − G(−1{,}19) = G(1{,}19)$.
    Vi går inn i normalfordelingstabellen, rad 1,1, kolonne 0,09 og finner 0,8830. Dette er om lag ${\large \frac {0{,}8830 − 0{,}8595}{0{,}8595}} \approx 0{,}0273$, altså om lag 2,7 % for høyt.

Tilbake til oppgaven

Oppgave 4:

Vi skal gjøre om igjen normaltilnærmingene i oppgave 2 og 3 med heltallskorreksjon og vurdere om resultatene blir bedre eller dårligere enn i oppgave 2 og 3.

I oppgave 2 hadde vi X ~ hypergeom(100, 10, 20), og skulle finne P(X ≥ 1). Vi fant at svaret var om lag 0,9049. Normaltilnærming uten heltallskorreksjon ga 0,7967, ca. 12 % for lavt.

Med heltallskorreksjon får vi $1 − G({\large \frac{1 + 0{,}5 − 2}{\sqrt{1{,}45}}}) \approx 1 − G(−0{,}42) = G(0{,}42)$.

Vi går inn i normalfordelingstabellen, rad 0,4, kolonne 0,02 og finner 0,6628. Dette er om lag ${\large \frac {0{,}9049 − 0{,}6628}{0{,}9049}} \approx 0{,}27$, altså om lag 27 % for lavt.

Dette er et verre resultat enn uten heltallskorreksjon. Men vi har jo uansett konkludert med at normaltilnærming ikke er brukbar i denne situasjonen.

I oppgave 3 hadde vi X ~ hypergeom(10 000, 1000, 200), og det var oppgitt at P(X ≥ 15) ≈ 0,8595. Normaltilnærming uten heltallskorreksjon ga 0,8830, ca. 2,7 % for høyt.

Med heltallskorreksjon får vi $1 − G({\large \frac{15 + 0{,}5 − 20}{17{,}64}}) \approx 1 − G(−1{,}07) = G(1{,}07)$.

Vi går inn i normalfordelingstabellen, rad 1,0, kolonne 0,07 og finner 0,8577. Dette er om lag ${\large \frac {0{,}8595 − 0{,}8577}{0{,}8595}} \approx 0{,}00209$, altså om lag 0,21 % for lavt. Heltallskorreksjon har gitt en forbedring, fra 2,7 % til 0,21 % feil.

Tilbake til oppgaven

Estimering

Oppgave 1:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, skal vi gi et forventningsrett estimat for dagsproduksjonen av støtfangere.

Som estimat bruker vi gjennomsnittet: $\mu = \overline X = {\large \frac{210 + 220 + 210 + 225 + 220 + 217}{6}} = 217$.

Tilbake til oppgaven

Oppgave 2:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, og at standardavviket til produksjonen er $\sigma = 5{,}8$, skal vi angi estimert gjennomsnitt i form av en rapportering.

I oppgave 1 fant vi at gjennomsnittlig dagsproduksjon var 217 støtfangere.

En rapportering av estimatet til gjennomsnittlig produksjon vil derfor bli

$217 \pm \frac{\displaystyle 5{,}8}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}37$

Tilbake til oppgaven

Oppgave 3:

Basert på at en bedrift på 6 tilfeldige dager produserer 210, 220, 210, 225, 220 og 217 støtfangere, skal vi estimere standardavviket til produksjonen og presentere estimert gjennomsnitt i form av en rapportering..

Vi fant i oppgave 1 at gjennomsnittsproduksjonen var 217 enheter

Vi estimerer standardavviket med utvalgsstandardavviket, som blir

 $\hat \sigma = S = \sqrt{\large \frac{(210 −217)^2 + (220 − 217)^2 + (210 −217)^2 + (225 − 217)^2 + (220 − 217)^2 + (217 − 217)^2}{5}} = 6$.

Og en rapportering blir

$217 \pm \frac{\displaystyle 6}{\displaystyle \sqrt{6}} \approx 217 \pm 2{,}45$

Tilbake til oppgaven

Oppgave 4:

Basert på at dagsproduksjonen av støtfangere i seks forskjellige dager er henholdsvis 210, 220, 210, 225, 220 og 217 enheter og at standardavviket til produksjonen er $\sigma = 5{,}8$, skal vi angi et 95 % og 99 % konfidensintervall for gjennomsnittet til produksjonen.

Et 95 % konfidensintervall er gitt ved

$\overline X \pm 1{,}96 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 1{,}96 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [212{,}36, \: 221{,}64]$

Et 99 % konfidensintervall er gitt ved

$\overline X \pm 2{,}58 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 217 \pm 2{,}58 \cdot {\large \frac{5{,}8}{\sqrt{6}}} \approx [210{,}89, \: 223{,}11]$

Tilbake til oppgaven

Oppgave 5:

Vi skal bruke (normal) kvantiltabellen til å finne et 97 % konfidensintervall for gjennomsnittsvekten av laks når 13 laks er veid med et gjennomsnitt på 4,14 kg, og standardavviket til vekta i populasjonen er $\sigma = 0{,7}$.

I et 97 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}97}{2}} = 0{,}015$. Vi slår opp ${\large \frac{\alpha}{2}} = 0{,}015$ i kvantiltabellen og får $2{,}1701$.

Et 97 % konfidensintervall er gitt ved

$\overline X \pm 2{,}17 \cdot \frac{\displaystyle \sigma}{\displaystyle \sqrt n} = 4,14 \pm 2{,}17 \cdot {\large \frac{0{,}7}{\sqrt{13}}} \approx [3{,}72, \: 4{,}56]$

Tilbake til oppgaven

Oppgave 6:

Vi skal bruke Excel til å beregne et 98 % konfidensintervall for gjennomsnittsproduksjonen av støtfangere, som på seks tilfeldige dager er 210, 220, 210, 225, 220 og 217 enheter, når vi vet at standardavviket til produksjonen er 5,8.

Vi skriver =konfidens.norm(1-0,98; 5,8; 6) i Excel, og får ut 5,51.

Vi har tidligere beregnet at gjennomsnittsproduksjonen er 217 enheter.

Et 98 prosent konfidensintervall blir derfor om lag

[217 − 5,51, 217 − 5,51 = [211,49, 222,51]

Tilbake til oppgaven

Oppgave 7:

Basert på at 6 tilfeldige observasjoner gir at gjennomsnittlig antall produserte støtfangere er $\overline X = 217$ og at produksjonens standardavvik er $S = 6$, skal vi lage og sammenlikne et 95 % konfidensintervall basert på normalfordeling med ett basert på t-fordeling.

I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}95}{2}} = 0{,}025$.

Vi vet fra tidligere at

${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.

Basert på normalfordelingen får vi derfor følgende 95 % konfidensintervall:

$217 \pm 1{,}96 \cdot {\large \frac{6}{\sqrt{6}}} \approx [212{,}2, \: 221{,}8]$

Vi slår opp ${\large t_{0{,}025 \, (5)}}$ i (t) kvantiltabellen, og finner 2,571.

Basert på t-fordelingen får vi derfor følgende 95 % konfidensintervall:

$217 \pm 2{,}57 \cdot {\large \frac{6}{\sqrt{6}}} \approx [210{,}7, \: 223{,}3]$

Konfidensintervallet blir en del bredere med t-fordeling enn med normalfordeling, dette skyldes usikkerheten når standardavviket er estimert ut fra så lite som 6 målinger.

Tilbake til oppgaven

Oppgave 8:

Basert på 6 tilfeldige observasjoner med gjennomsnitt 217 og utvalgsstandardavvik 6 skal vi lage et 95 % konfidensintervall basert på t-fordeling ved hjelp av Excel.

I Excel skriver vi =konfidens.t(1-0,95; 6; 6) og får ut 6,30.

Så et 95 % konfidensintervall blir

$217 \pm 6{,}30 \approx [210{,}7, \: 223{,}3]$

Som er det samme som vi fant da vi gjorde beregningen for hånd i oppgave 7.

Tilbake til oppgaven

Oppgave 9:

Basert på at 35 av 2000 tilfeldige ladere er målt til å være defekte, skal vi estimere sannsynligheten for at en vilkårlig lader er defekt, og finne et 95 % konfidensintervall for denne sannsynligheten.

Et forventningsrett estimat for sannsynligheten for at en lader er defekt vil være andelen defekte ladere i utvalget. Altså:

$\hat p = {\large \frac{35}{2000}} = 0{,}0175$, altså 1,75 %.

Estimert standardavvik til estimatoren blir

$\sqrt{\large \frac{\hat p(1− \hat p)}{n}} = \sqrt{\large \frac{0{,}0175(1 − 0{,}0175)}{2000}} \approx 0{,}0029$.

En rapportering av sannsynligheten for at en lader er defekt blir da

$0{,}0175 \pm 0{,}067$

I et 95 % konfidensintervall er ${\large \frac{\alpha}{2}} = {\large \frac{1 − 0{,}95}{2}} = 0{,}025$.

Vi vet fra tidligere at

${\large z_{0{,}025}} \approx 1{,}96$, eller vi slår det opp i (normal) kvantiltabellen.

Så et 95 % konfidensintervall blir

$0{,}0175 \pm 1{,}96 \cdot 0{,}0029 \approx [0{,}0118, \: 0{,}0232]$, mellom 1,18 % og 2,32 %.

Tilbake til oppgaven

Hypotesetesting

Oppgave 1:

Basert på at hundre terningkast gir 20 seksere, skal vi sette opp nullhypotese og alternativ hypotese for at terningen gir for mange seksere, og teste hypotesen med et signifikansnivå på 5 %.

Den alternative hypotesen er at terningen gir for mange seksere, det vil si at sannsynligheten for å få seks er mer enn en sjettedel, slik den er på en rettferdig terning. Kaller vi sannsynligheten for å få en sekser for $p$, har vi

$H_A: p > \frac{\displaystyle 1}{\displaystyle 6}$.

Nullhypotesen blir da at terningen er rettferdig, med sannsynlighet lik en sjettedel for å få en sekser:

$H_0: p = \frac{\displaystyle 1}{\displaystyle 6}$.

Grensen for forkastningsområdet blir:

$z_{\large \alpha} = z_{\large 0{,}05} \approx 1{,}6449$.

Testobservatoren blir:

$Z = \frac{\displaystyle X − np_0}{\displaystyle \sqrt{np_0(1 − p_0)}} = \frac{\displaystyle 20 − 100 \cdot \frac{1}{6}}{\displaystyle \sqrt{100 \cdot \frac{1}{6} \Big(1 − \frac{1}{6} \Big)}} \approx 0{,}8944$.

Siden testobservatoren ligger til venstre for grensen for forkastningsområdet, kan vi ikke forkaste nullhypotesen på signifikansnivå 0,05. 20 av 100 seksere gir altså ikke grunnlag for å si at terningen gir for mange seksere.

Tilbake til oppgaven

Oppgave 2:

Vi skal utføre samme test som i oppgave 1, men nå basert på at 1000 terningkast ga 200 seksere. Hypotesene blir de samme, og grensen for signifikansnivået det samme, $z_{\large 0{,}05} \approx 1{,}6449$.

Testobservatoren blir nå

$Z = \frac{\displaystyle X − np_0}{\displaystyle \sqrt{np_0(1 − p_0)}} = \frac{\displaystyle 200 − 1000 \cdot \frac{1}{6}}{\displaystyle \sqrt{1000 \cdot \frac{1}{6} \Big(1 − \frac{1}{6} \Big)}} \approx 2{,}8284$.

Testobservatoren ligger nå langt inni forkastningsområdet, og vi forkaster nullhypotesen på signifikansnivå 0,05. 200 av 1000 seksere gir altså grunnlag for å si at terningen gir for mange seksere.

Sammenlikninger vi med oppgave 1, ser vi at det relative antallet seksere er det samme i begge tilfeller: $\frac{\displaystyle 20}{\displaystyle 100} = \frac{\displaystyle 200}{\displaystyle 1000} = 0{,}2$. Men å få 200 seksere på 1000 kast er altså mye mindre sannsynlig enn å få 20 på 100 kast. Det kommer av at den forventede spredningen, altså standardavviket, blir mindre jo flere forsøk vi gjør. 200 av 1000 seksere vil faktisk gi forkastning av nullhypotesen på så lite signifikansnivå som 0,0025. Det er altså mindre enn 0,25 % sjanse for å få 200 eller flere seksere på 1000 kast.

Tilbake til oppgaven

Oppgave 3:

Vi skal sette opp og gjennomføre en hypotesetest med et signifikansnivå på 1 % på om oljeinnholdet i dressingpakker er over 10 ml, når gjennomsnittet i 25 pakker er målt til 10,3 ml, og produksjonen har et standardavvik på 0,65 ml.

Hypotesene blir $H_A: \mu > 10$, $H_0: \mu = 10$.

Vi har $\overline X = 10{,}3$, og $\sigma = 0{,}65$.

Så vi får: Testobservator: $Z = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{\sigma}{\sqrt n}} = \frac{\displaystyle 10{,}3 − 10}{\displaystyle \frac{0{,}65}{\sqrt{25}}} \approx 2{,}31$.

Vi har $z_{\large \alpha} = z_{\large 0{,}01} \approx 2{,}3263$.

Siden $Z \not > z_{\large \alpha}$ kan vi ikke forkaste nullhypotesen, målingene gir med andre ord ikke dekning for at dressingene i snitt inneholder mer enn 10 ml. olje.

Tilbake til oppgaven

Oppgave 4:

Basert på at 15 målinger av svartid på en servicetelefon gir et gjennomsnitt på 37 sekunder med et standardavvik på 14 skal vi sette opp og gjennomføre en hypotesetest på signifikansnivå 5 % på om oppgitt gjennomsnittlig ventetid på 30 sekunder er lavt.

Hypotesene blir $H_A: \mu > 30$$H_0: \mu = 30$.

Siden vi baserer oss på utvalgsstandardavviket, bruker vi t-fordeling i testen. Antall frihetsgrader blir $15 − 1 = 14$.

Testobservator $T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 37 − 30}{\displaystyle \frac{14}{\sqrt{15}}} \approx 1{,}937$.

Grensen for forkastningsområdet blir $ t_{\large 0{,}05 \, (14)} = 1{,}761$.

Siden $T > t_{\large 0{,}05 \, (14)}$, kan vi forkaste nullhypotesen, og har på 5 % signifikansnivå grunnlag for å si at gjennomsnittlig ventetid er over 30 sekunder.

Tilbake til oppgaven

Oppgave 5:

Basert på at innholdet i 30 glass syltetøy i gjennomsnitt er målt til 47,7 % bær, med et standardavvik på 5,7 %, skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om syltetøyet inneholder mindre enn fabrikantens påstand om minst 50 % bær.

Hypotesene blir $H_A: \mu < 50$, $H_0: \mu = 50$.

Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen.

Testobservator blir $T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 47{,}7 − 50}{\displaystyle \frac{5{,}7}{\sqrt{30}}} \approx −2{,}210$.

Grensen for forkastningsområdet ved 5 % signifikansnivå blir $−t_{\large 0{,}05 \, (29)} \approx −1{,}699$.

Grensen for forkastningsområdet ved 1 % signifikansnivå blir $−t_{\large 0{,}01 \, (29)} \approx −2{,}462$.

Siden $T < −t_{\large 0{,}05 \, (29)}$ kan vi på 5 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at syltetøyet har for lite bær.

Man siden $T \not < −t_{\large 0{,}01 \, (29)}$ kan vi på 1 % nivå ikke forkaste nullhypotesen.

Tilbake til oppgaven

Oppgave 6:

Basert på 15 stikkprøver av sukkermengde med en vekt på gjennomsnittlig 82,5 gram og et standardavvik på 0,6 gram skal vi sette opp og gjennomføre hypotesetester på signifikansnivå 5 % og signifikansnivå 1 % på om gjennomsnittlig sukkermengde er 83 gram.

Siden vi baserer oss på utvalgsstandardavviket, må vi bruke t-fordeling i testen, med 15 − 1 = 14 frihetsgrader.

Testobservator blir $T = \frac{\displaystyle \overline X − \mu_0}{\displaystyle \frac{S}{\sqrt n}} = \frac{\displaystyle 82{,}5 − 83}{\displaystyle \frac{0{,}6}{\sqrt{15}}} \approx −3{,}227$.

Grensen for forkastningsområdet ved 1 % signifikansnivå blir $t_{\large 0{,}01/2 \, (14)} \approx 2{,}997$.

Siden $|T| > t_{\large 0{,}01/2 \, (14)}$, kan vi på 1 % signifikansnivå forkaste nullhypotesen og akseptere hypotesen om at sukkermengden ikke er korrekt, og følgelig også på 5 % nivå.

Tilbake til oppgaven

Sammenlikne datasett

Oppgave 1:

Vi har gitt to datasett $X$ og $Y$ med 4 korresponderende verdier:

$X_1 = 242$ $X_2 = 266$ $X_3 = 218$ $X_4 = 234$
$Y_1 = 363$ $Y_2 = 399$ $Y_3 = 327$ $Y_4 = 351$

og skal beregne

  1. Gjennomsnittet i hvert av settene.
    Vi får
    $\overline X = {\large \frac{242 + 266 + 218 + 234}{4}} = 240$
    $\overline Y = {\large \frac{363 + 399 + 327 + 351}{4}} = 360$
     
  2. Standardavviket i hvert av settene.
    Summen av kvadratavvikene i $X$ er
    $(242 − 240)^2 + (266 − 240)^2 + (218 − 240)^2 + (234 − 240)^2 = 1200$
    Og standardavviket blir $\sigma^{\phantom 1}_X = \sqrt {\large \frac{1200}{4}} \approx 17{,}32$
    Summen av kvadratavvikene i $Y$ er
    $(363 − 360)^2 + (399 − 360)^2 + (327 − 360)^2 + (351 − 360)^2 = 2700$
    Og standardavviket blir $\sigma^{\phantom 1}_Y = \sqrt {\large \frac{2700}{4}} \approx 25{,}98$.
     
  3. Kovariansen mellom settene.
    Vi får $Cov(X, Y)= {\large \frac{(242 − 240)(363 − 360) + (266 − 240)(399 − 360) + (218 − 240)(327 − 360) + (234 − 240)(351 − 360)}{4}} = 450$
     
  4. Korrelasjonskoeffisienten mellom settene.
    Vi får $R(X, Y) = {\large \frac{Cov(X, Y)}{\sigma^{\phantom 1}_X \sigma^{\phantom 1}_Y}} \approx {\large \frac{450}{17{,}32 \cdot 25{,}98}} \approx 1$
    Vi har altså perfekt samvariasjon. Hvis vi kontrollregner, ser vi at det stemmer, for hvert element i $Y$ er lik det tilhørende elementet i $X$ multiplisert med $1{,}5$.

Tilbake til oppgaven

Oppgave 2:

En bedrift sammenlikner to maskiner for å se om det er forskjell i mengden sukker de tilsetter i en matvare. Maskin X arbeider med et standardavvik på 0,11 og maskin Y med et standardavvik på 0,13. 

60 prøver av maskin X gir et snitt på 10,107 gram sukker, 75 prøver av maskin Y et snitt på 10,061 gram sukker.

Så skal vi sette opp hypoteser og gjennomfør en hypotesetest på 5 % signifikansnivå på om de to maskinene tilsetter forskjellig mengde sukker.

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$

Testobservatoren blir

$Z = \frac{\displaystyle 10{,}107 − 10{,}061}{\displaystyle \sqrt{\frac{(0{,}11)^2}{60} + \frac{(0{,}13)^2}{75}}} \approx 2{,}226$

Siden vi har en tosidig test, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{\alpha^\phantom 1}{2}}$

I (kvantil)normalfordelingstabellen finner vi at $z_{\Large \frac{0{,}05}{2}} \approx 1,9600$.

Siden $|Z| > z_{\Large \frac{0{,}05}{2}}$, kan vi forkaste vi nullhypotesen. Undersøkelsen bekrefter at det er forskjell på sukkermengdene.

Tilbake til oppgaven

Oppgave 3:

Frukthøsten til 13 kirsebærtrær av type $X$ og 12 kirsebærtrær av type $Y$ er vist i tabellen under, og vi skal sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om de to typene trær gir forskjellig mengde frukt.

Type $X$ 44 44 56 46 47 38 58 53 49 35 46 30 41
Type $Y$ 35 47 55 29 40 39 32 41 42 57 51 39  

Hypotesene blir $H_A: \overline X \ne \overline Y$, $H_0: \overline X = \overline Y$.

Fra kalkulator eller PC får vi:

$\overline X \approx 45{,}154$.

$\overline Y = 42{,}250$.

$S_X \approx 7{,}998$.

$S_Y \approx 8{,}740$.

Vi beregner:

$S_p \approx \sqrt \frac{\displaystyle {7{,}998}^2(13 − 1) + {8{,}740}^2(12 − 1)}{\displaystyle 13 + 12 − 2} \approx 8{,}361$.

$T \approx \frac{\displaystyle 45{,}154 − 42{,}250}{\displaystyle 8{,}361 \sqrt{\frac{1}{13} + \frac{1}{12}}} \approx 0{,}868$.

Vi har her en tosidig test, og forkaster nullhypotesen hvis $|T| > t_{\Large \frac{\alpha}{2},\, (v)}$.

Vi slår opp i (t) kvantiltabellen med $a = 0{,}025$ og $v = 13 + 12 − 2 = 23$ og finner $2{,}069$.

Siden $|T| \not > t_{\large 0{,}025 \, (23)}$, kan vi ikke forkaste nullhypotesen. Undersøkelsen gir ikke grunnlag for å si at den ene typen trær gir mer kirsebær enn den andre.

Tilbake til oppgaven

Oppgave 4:

Basert på blodtrykket til 15 pasienter før og etter bruk av en medisin, vist i tabellen under, skal vi sette opp og gjennomføre en hypotesetest på 5 % signifikansnivå på om medisinen som en bieffekt reduserer blodtrykket.

Før 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84
Etter 78 72 62 70 58 66 68 52 64 72 74 60 74 72 74

Her gir det bare mening å gjøre en parvis test. Vi beregner først differansen mellom før og etter:

Differanse 2 8 10 6 18 10 4 26 18 −8 0 32 0 −4 10

Vi kaller «før» for $X$, «etter» for $Y$ og differansen for $D$.

Hypotesene blir $H_A: \overline X > \overline Y$, $H_0: \overline X = \overline Y$.

Fra kalkulator eller PC får vi:

$\overline D = 8{,}8$.

$S_p = S_D \approx 10{,}975$.

Testobservatoren blir

$T \approx \frac{\displaystyle 8{,}8}{\displaystyle 10{,}975 \frac{1}{\sqrt{15}}} \approx 3{,}105$.

Vi har her en høyresidig test, og forkaster nullhypotesen hvis $T > t_{\large \alpha, \, (v)}$.
Vi slår opp i t-fordelingstabellen med $\alpha = 0{,}05$ og $v = 15 − 1 = 14$ og finner $1{,}761$.

Siden $T > t_{\large 0{,}05 \, (14)}$, kan vi forkaste nullhypotesen. Testen gir absolutt grunnlag for å si at medisinen gir redusert blodtrykk.

Tilbake til oppgaven

Oppgave 5:

En bedrift skal undersøke om det er forskjell i sannsynlighetene for defekter ved to produksjonslinjer for bukser. De finner 147 av 2500 defekte ved første produksjonslinje og 151 av 2000 ved andre. Vi skal sette opp og på 5 % signifikansnivå teste en hypotese om at sannsynligheten for defekter er forskjellig ved de to linjene.

Vi kaller sannsynligheten for defekt ved linje 1 for $p_1$ og sannsynligheten for defekt ved linje 2 for $p_2$. Hypotesene blir

$H_A: p_1 \ne p_2$ mot $H_0: p_1 = p_2$.

Vi har $n_1 = 2500$, $n_2 = 2000$.

Vi estimerer

$\hat p_1 = \frac{\displaystyle 147}{\displaystyle 2500} \approx 0{,}0588$.

$\hat p_2 = \frac{\displaystyle 151}{\displaystyle 2000} \approx 0{,}0755$.

$\hat p = \frac{\displaystyle 147 + 151}{\displaystyle 2500 + 2000} \approx 0{,}0662$.

Og vi får

$Z \approx \frac{\displaystyle 0{,}0588 − 0{,}0755}{\displaystyle \sqrt{0{,}0662(1 − 0{,}0662)(\frac{\displaystyle 1}{\displaystyle 2500} + \frac{\displaystyle 1}{\displaystyle 2000})}} \approx −2{,}239$.

Siden vi har en tosidig test med 5 % signifikansnivå, skal vi forkaste nullhypotesen hvis $|Z| > z_{\Large \frac{0{,}05}{2}} = z_{\large 0{,}025}$. Vi slår opp i (normal) kvantiltabellen, og finner $z_{\large 0{,}025} = 1{,}9600$.

Siden $|Z| = 2{,}239 > 1{,}9600$, forkaster vi nullhypotesen og aksepterer den alternative hypotesen om at det er forskjell i defektsannsynligheten ved de to linjene.

Tilbake til oppgaven

Datainnsamling

Oppgave 1:

Du ønsker å finne ut hvor populært kino er i forhold til å se film hjemme, går i byen en kveld og intervjuer tilfeldige forbipasserende.

Naturligvis er det liten grunn til å tro at dette utvalget er representativt. Det er jo mer sannsynlig at du treffer kinogjengerne på byen enn de som sitter hjemme og ser på film.

Tilbake til oppgaven

Skjermfilmer, statistikk

Tabellen under gir en oversikt over alle skjermfilmer det refereres til på nettstedet, under temaet «Statistikk».

Artikkel Beskrivelse Skjermfilm
Introduksjon til statistikk En introduksjon til statistikk med noen klassiske eksempler på misbruk av statistikk. Introduksjon til statistikk
Måltall i statistikk Om hvordan data kan presenteres grafisk ved hjelp av linje-, stolpe- og sektordiagram. Grafisk presentasjon
Vi lærer om sentralmålene gjennomsnitt, median, kvartil, prosentil og typetall. Sentralmål i statistikk
Vi lærer om spredningsmålene standardavvik og utvalgsstandardavvik. Spredningsmål i statistikk
Diskrete sannsynlighetsfordelinger En presentasjon av binomisk sannsynlighetsfordeling Binomisk fordeling
Normalfordelingen Vi studerer normalfordelingen og sentralgrenseteoremet Normalfordelingen
Sammenlikne datasett En presentasjon av begrepene kovarians og korrelasjon Samvariasjon
Datainnsamling Metodikk i datainnsamling og regler for å lage spørreundersøkelser. Datainnsamling

Statistikk med GeoGebra

Søylediagram og histogram

For å kunne lage diagrammer på en effektiv måte i GeoGebra, må vi ta i bruk GeoGebras regneark. Hvis regnearket ikke allerede er framme, klikker vi på «Vis» – «Regneark».

Hvordan få fram regnearket i GeoGebra

Vil vi ha regnearket bort igjen, klikker vi på «Vis» – «Regneark» en gang til.

Blir det trangt om plassen, kan vi godt skjule algebrafeltet, det er ikke så interessant når vi skal lage diagrammer. Hvis algebrafeltet er framme, vil det forsvinne hvis vi klikker på «Vis» – «Algebrafelt».

Regnearket i GeoGebra fungerer på samme måte som andre regneark, for eksempel Excel, men har mindre funksjonalitet.

Arbeidsgangen ved å lage diagrammer er å først skrive dataene i regnearket og så skrive en kommando som refererer til dataene i inntastingsfeltet. Referanse til data gjøres gjennom å oppgi navnene på cellene der dataene befinner seg. Dette navnet består av kolonnenavnet satt sammen med radnummeret, for eksempel A1, for cella øverst til venstre.
NB! Kolonnenavn må angis med store bokstaver.

Kommandoen for å lage søylediagrammer er SøyleDiagram, og kommandoen for å lage histogrammer er Histogram.

Søylediagram kan vi lage på flere måter. Én måte er å skrive inn alle verdiene i et område i regnearket, og i SøyleDiagram-kommandoen angi navnet på cella øverst til venstre og cella nederst til høyre i dataområdet, atskilt med kolon. Vi må også angi ønsket søylebredde. 

Eksempel 1:

Vi skal lage et søylediagram som presenterer dataene fra eksempel 1 i artikkelen om måltall i statistikk, 140, 141, 137, 143, 145, 142, 139, 138, 139, 141, 144, 137, 138, 142, 140, 142, 140, 138, 135, 142, 144, 141, 148, 140, 149, 135, 141, 140, 139 og 137.

Vi skriver da inn verdiene i regnearket:

Regneark med dataliste i GeoGebra

Øvre, venstre celle i dataområdet er A1 og nedre, høyre D8. Det spiller ingen rolle at det er tomme celler i området, de blir ignorert av GeoGebra.

I inntastingsfeltet skriver vi SøyleDiagram(A1:D8, 0.5), der 0.5 betyr at hver søyle skal ha en bredde på 0,5. GeoGebra lager et søylediagram i grafikkfeltet:

Søylediagram i GeoGebra

Det kan være vi må justere litt på aksene før vi ser diagrammet. Vi kan så endre farge, linjetykkelse, m.m. ved å høyreklikke på en av søylene og velge «Egenskaper».

Har vi algebrafeltet framme, ser vi at GeoGebra der presenterer tallet 15. Det virker jo litt underlig, siden vi har 30 celler med data. Men dette tallet angir ikke mengden data, men det totale arealet av søylene. Og siden søylebredden er 0,5 blir det totale arealet 30 · 0,5 = 15.

I stedet for å skrive inn hver forekomst av en verdi, kan vi angi hver verdi, og hvor mange ganger den forekommer. Vi angir da de forskjellige verdiene i én kolonne, antall forekomster i en annen. I SøyleDiagram-kommandoen angir vi så første og siste celle i hver av kolonnene, i stedet for å angi alt som ett dataområde. 

Eksempel 2:

Vi skal lage et søylediagram som presenterer samme data som eksempel 1, men nå baserer vi oss på frekvenstabellen i eksempel 2 i artikkelen om måltall i statistikk, der vi har talt opp hvor mange ganger hver høyde forekommer, 135:2, 136:0, 137:3, 138:3, 139:3, 140:5, 141:4, 142:4, 143:1, 144:2, 145:1, 146:0, 147:0, 148:1, 149:1.

Vi skriver inn verdiene i regnearket:

Regneark med frekvensdata i GeoGebra

Her er høydene listet opp mellom celle A1 og A12 og antall forekomster mellom celle B1 og B12. I inntastingsfeltet skriver vi SøyleDiagram(A1:A12, B1:B12, 0.5). 0,5 er som før søylebredden, som vi kan sette til hva vi vil.

GeoGebra tegner opp samme søylediagram som i eksempel 1.

Oppgave 1:

Bruk GeoGebra til å lage et søylediagram som viser fordeling av karakterene fra oppgave 1 i artikkelen om måltall i statistikk, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.
Søylebredden skal være 0,75.
Bruk både metoden fra eksempel 1 og fra eksempel 2.

Se løsningsforslag

For å lage histogrammer, må vi angi intervallgrensene samt høyden av hver søyle. Vi forklarer dette greiest gjennom et eksempel:

Eksempel 3:

Vi skal lage et histogram som viser fire intervaller med bredder på henholdsvis 5, 5, 10 og 20. Det er 5 målinger i hvert intervall:

 Intervall  [0, 5⟩ [5,10⟩ [10,20⟩ [20,40⟩
 Frekvens  5 5 5

Vi starter med å fylle ut intervall og frekvens, slik det står i tabellen over:

Regneark med grunnlagsdata for histogram i GeoGebra

Overskriftene er kosmetiske, de har ingen betydning for beregningene, og er der bare for å hjelpe oss å huske hva som er hva.

Vi har her angitt starten på hvert intervall i kolonne A, i tillegg til slutten på siste intervall. I kolonne B har vi skrevet inn frekvensen, altså antall forekomster i hvert intervall. Men vi trenger også høyden på hver søyle, og den er det enklest å la regnearket beregne selv. Vi starter med å lage en hjelpekolonne som inneholder bredden på hver søyle. Denne bredden er jo lik avstanden mellom starten på ett intervall og starten på neste. For å beregne bredden på første søyle, tar vi altså innholdet i celle A3 og trekker fra innholdet i celle A2. Dette kan vi gjøre direkte i regnearket ved å skrive = A3 – A2. Husk å skrive likhetstegnet!

Regneark med beregning av søylebredde i histogram i GeoGebra

I cella under skal det stå = A4 – A3, og så videre nedover. Men vi trenger ikke skrive inn dette selv. Hvis vi tar tak i nedre, høyre hjørne i celle C2 og drar nedover, fyller regnearket ut formlene selv.

Regneark med demonstrasjon av å dra ut formel i GeoGebra

Søylehøyden beregner vi så ved å dividere frekvensen på bredden. I celle D2 skriver vi = B2 / C2, og trykker <enter>. Så tar vi tak i nedre, høyre hjørne i cella og drar nedover. Resultatet blir slik:

Regneark med ferdig beregnede data til histogram i GeoGebra

Så gjenstår det bare å opprette selve histogrammet. Vi skriver Histogram(A2:A6, D2:D5) i inntastingsfeltet. Her angir altså A2:A6 celleområdet med intervallgrenser, D2:D5 celleområdet med søylehøyder. GeoGebra lager et histogram som vist under, når vi har justert aksene litt.

Ferdig histogram laget med GeoGebra

Oppgave 2:

Bruk GeoGebra til å lage et histogram som viser fordeling av karakterene fra oppgave 1, med intervaller 1-2, 3, 4 og 5-6.

Her kan det være lurt å sentrere søylene om karakterene, slik at intervallene blir 0,5-2,5, 2,5-3,5, 3,5-4,5 og 4,5-6,5.

Se løsningsforslag

Boksplott

Et boksplott kan være en god måte å illustrere spredningen i et datasett på. Boksplottet under illustrerer for eksempel dataene fra eksempel 15 i artikkelen om måltall i statistikk, 13, 14, 17, 18, 18, 21, 23, 23, 27, 30 og 32. Her er laveste verdi 13, første kvartil 17, median 21, tredje kvartil 27 og høyeste verdi 32.

Boksplott laget med GeoGebra

Vi ser at de ytterste, vertikale strekene markerer laveste og høyeste verdi i datasettet, begynnelsen og slutten på boksen markerer første og tredje kvartil, og den vertikale streken inni boksen markerer medianen.

For å lage et boksplott, bruker vi kommandoen Boksplott. Skriver vi Boksplott(1, 0.5, 13, 17, 21, 27, 32), tegner GeoGebra boksplottet vist over. Tallene 1 og 0,5 som står først, betyr at boksplottet skal sentreres rundt y=1 og ha bredde 0,5. Deretter følger laveste verdi, første kvartil, median, tredje kvartil og høyeste verdi.

Bredden måles fra sentrum og ut, slik at boksens totale bredde blir 1.

Eksempel 4:

Vi skal lage et boksplott sentrert rundt y=2 med total bredde 0,8, laveste verdi 1, første kvartil 3, median 4, tredje kvartil 6 og høyeste verdi 7. Vi skriver Boksplott(2, 0.4, 1, 3, 4, 6, 7) i inntastingsfeltet. GeoGebra lager boksplottet under:

Boksplott laget med GeoGebra

Det er også mulig å lage et boksplott basert på settet med rådata. I stedet for å skrive laveste verdi, første kvartil, median, tredje kvartil og høyeste verdi, lister vi da opp rådataene mellom krøllparenteser, for eksempel Boksplott(1, 0.5, {13, 14, 17, 18, 18, 21, 23, 23, 27, 30, 32}). Alternativt kan dataene legges inn i regneark-delen i GeoGebra. I stedet for å liste opp dataene, referer vi da til aktuelt celleområde, for eksempel, Boksplott(1, 0.5, A1:A11), hvis dataene ligger i kolonne A, fra rad 1 til 11. 

Oppgave 3:

Lag et boksplott av dataene fra oppgave 6 i artikkelen om måltall i statistikk, 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14. Plottet skal være sentrert rundt y=1 og ha total bredde 1. 

  1. Basert på rådataene.
     
  2. Basert på at laveste verdi er 0, første kvartil 6, median 15, tredje kvartil 29 og største verdi 125.

Se løsningsforslag

Sannsynlighetsfordelinger

GeoGebra har en egen sannsynlighetskalkulator som vi får fram ved å klikke på «Vis» – «Sannsynlighetskalkulator».

Bildet under viser en framstilling av sannsynligheten for antall kron i et kast med 5 mynter.

Illustrasjon av sannsynlighetskalkulatoren i GeoGebra

Forventning og standardavvik angis altså med de greske bokstavene μ og σ.

«Venstresidig» brukes hvis vi skal finne sannsynligheten for at X er mindre eller lik en verdi. «Intervall» brukes hvis vi skal finne sannsynligheten for at X ligger på og mellom to verdier, og «Høyresidig» brukes hvis vi skal finne sannsynligheten for at X er større eller lik en verdi.

De aktuelle verdiene kan vi enten skrive i utfyllingsfeltene nederst, eller sette ved å dra i pilene i underkant av kolonnene.

Binomisk fordeling

Vi skal nå illustrere hvordan vi gjør beregninger i en binomisk modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra.

Eksempel 5:

Vi skal beregne forskjellige sannsynligheter for antall kron ved kast med 7 mynter. Hvis sannsynlighetskalkulatoren ikke er framme, tar vi den fram ved å velge «Vis» – «Sannsynlighetskalkulator».

Vi har en binomisk sannsynlighetsmodell. n = 7 fordi vi gjør 7 kast, og p = 0,5 fordi sannsynligheten for suksess er 0,5. Vi velger «Binomisk fordeling» og setter «n» til 7 og «p» til 0,5. GeoGebra regner ut at fordelingens forventningsverdi er μ = 3,5 og standardavviket σ ≈ 1,3229:

Sannsynlighetskalkulatoren stilt inn for å beregne binomisk sannsynlighet

Så skal vi finne

  1. Sannsynligheten for 3 kron.
    Vi klikker på symbolet for «Intervall» og angir 3 som både øvre og nedre grense. GeoGebra presenterer svaret 0,2734.
    Sannsynlighetskalkulatoren stilt inn for intervallsannsynlighet
     
  2. Sannsynligheten for 1 kron eller mindre.
    Vi klikker på symbolet for «Venstresidig» og angir 1 som øvre grense. GeoGebra presenterer svaret 0,0625.
    Sannsynlighetskalkulatoren stilt inn for venstresidig sannsynlighet
     
  3. Sannsynligheten for 5 kron eller mer.
    Vi klikker på symbolet for «Høyresidig» og angir 5 som nedre grense. GeoGebra presenterer svaret 0,2266.
    Sannsynlighetskalkulatoren stilt inn for høyresdidig intervall

I stedet for å angi X-verdiene ved å skrive inn tall, kan vi også dra i pil-symbolene under kolonnene.

Oppgave 4:

La X betegne antall kron i 8 kast med en juksemynt der sannsynligheten for kron er 0,6. Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne

  1. ​Fordelingens forventningsverdi og standardavvik.
     
  2. P(X = 4)
     
  3. P(X ≤ 2)
     
  4. P(X > 6)

Se løsningsforslag

Hypergeometrisk fordeling

Når vi skal gjøre beregninger i en hypergeometriskmodell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Hypergeometrisk fordeling».

Parameterne heter imidlertid noe annet enn det vi har kalt dem i artikkelen om diskrete sannsynlighetsfordelinger. Grunnmengden N heter «populasjon», mengden spesielle elementer, M, heter «n» og antall vi trekker, n, heter «utvalg».

Eksempel 6:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for å få en hånd med akkurat 2 spar når vi trekker 5 kort fra en full stokk.

Sannsynlighetskalkulatoren stilt inn for å beregne hypergeometrisk sannsynlighet

«Populasjon» er antall kort totalt, altså 52, «n» er antall spar totalt, altså 13 og «utvalg» er antall kort vi trekker, altså 5.
Så angir vi et intervall som både begynner og slutter med 2, og får som svar at sannsynligheten er om lag 0,2743.

Denne beregningen gjorde vi med formler i eksempel 4 i artikkelen om diskrete sannsynlighetsfordelinger.

Oppgave 5:

I en forening med 65 medlemmer er 13 negative til et forslag.

Bruk sannsynlighetskalkulatoren til å finne fordelingens forventning og standardavvik.

Anta at vi velger 20 representanter tilfeldig fra gruppen. Bruk sannsynlighetskalkulatoren til å finne sannsynligheten for at

  1. Ingen av representantene er negative.
     
  2. Én av representantene er negativ.
     
  3. To eller flere av representantene er negative.

Disse beregningene gjorde vi for hånd i oppgave 4 og 3 i artikkelen om diskrete sannsynlighetsfordelinger.

Se løsningsforslag

Poissonfordeling

Når vi skal gjøre beregninger i en poissonfordelt modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Poissonfordeling».

Her heter imidlertid ikke hyppigheten λ, men «μ». Det er et naturlig valg, siden forventningsverdien i en poissonfordeling er lik λ.

Eksempel 7:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for 7 trær i et skogsområde når λ = 8, som vi regnet ut i eksempel 5 i artikkelen om diskrete sannsynlighetsfordelinger.

Sannsynlighetskalkulatoren stilt inn for å beregne poissonsannsynlighet

Vi får som svar at sannsynligheten er om lag 0,1396.

Oppgave 6:

I en vannprøve er det i gjennomsnitt to hoppekreps. Anta at mengden hoppekreps er poissonfordelt, og bruk sannsynlighetskalkulatoren i GeoGebra til å finne sannsynligheten for at en annen, like stor vannprøve inneholder

  1. Ingen hoppekreps.
     
  2. Én hoppekreps.
     
  3. To eller flere hoppekreps.

Disse beregningene gjorde vi for hånd i oppgave 5 i artikkelen om diskrete sannsynlighetsfordelinger.

Se løsningsforslag

Normalfordeling

Når vi skal gjøre beregninger i en normalfordelt modell ved hjelp av sannsynlighetskalkulatoren i GeoGebra, velger vi naturligvis «Normalfordeling».

Vi må da fylle ut fordelingens forventning, «μ», og standardavvik, «σ».

Eksempel 8:

Bildet under viser hva vi fyller ut for å beregne sannsynligheten for at en person er mellom 170 og 180 cm når forventningen er 177 cm og standardavviket 7 cm. Vi ser at GeoGebra finner verdien 0,5072.
Dette regnet vi ut ved hjelp av tabeller i eksempel 4, punkt 3 i artikkelen om normalfordelingen. Da fikk vi 0,5077, som ikke er helt korrekt på grunn av avrundingsfeil i standardiseringen.

Sannsynlighetskalkulatoren stilt inn for å beregne normalfordelt sannsynlighet

Oppgave 7:

På en eksamen er resultatene normalfordelt med en forventning på 14 poeng og et standardavvik på 2, N(14, 22). Laveste poengsum for å stå er 12 poeng. Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne hvor stor del av de som tar eksamenen kan forventes å stryke.

Dette regnet vi ut for hånd i oppgave 2 i artikkelen om normalfordelingen.

Se løsningsforslag

Diskret fordeling og normaltilnærming samtidig

I en diskret sannsynlighetsfordeling kan vi samtidig vise en tilnærmet normalfordeling ved å klikke på knappen med den røde normalfordelingskurven. Bildet under viser en binomisk fordeling med 20 forsøk og suksess-sannsynlighet 0,6, der den tilhørende normalfordelingen er tegnet inn.

Sannsynlighetskalkulatoren viser både binomisk og normalfordelt sannsynlighet

Konfidensintervaller

Sannsynlighetskalkulatoren i GeoGebra gir også mulighet for å beregne konfidensintervaller og utføre tester. Vi åpner sannsynlighetskalkulatoren og klikker på fanen «Statistikk».

Valg av statistikkfunksjon i sannsynlighetskalkulator

Så velger vi type estimat, avhengig av hvilken modell vi er i.

Målemodell, kjent standardavvik

For å lage et konfidensintervall for et gjennomsnitt i en målemodell når en populasjons standardavvik er kjent, velger vi «Z-estimat av et gjennomsnitt». Så angir vi ønsket konfidensnivå, gjennomsnitt, standardavvik og antall målinger.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 9:

Vi skal finne et 95 % konfidensintervall for et gjennomsnitt i en normalfordelt populasjon med kjent standardavvik 0,7. Vi har målt 13 elementer, og funnet et gjennomsnitt på 4,14.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, n-fordeling

GeoGebra beregner at konfidensintervallet er om lag [3,7595, 4,5205].

Dette regnet vi ut for hånd i eksempel 4 i artikkelen om estimering.

Oppgave 8:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 99 % konfidensintervall for dagsproduksjonen av støtfangere, basert på at gjennomsnittet målt over seks dager er X = 217 enheter og at produksjonen er normalfordelt med standardavvik σ = 5,8.

Se løsningsforslag

Målemodell, ukjent standardavvik

For å lage et konfidensintervall for et gjennomsnitt i en målemodell når en populasjons standardavvik er ukjent, velger vi «T-estimat av et gjennomsnitt». Så angir vi ønsket konfidensnivå, gjennomsnitt, utvalgsstandardavvik og antall målinger.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 10:

Vi skal finne et 95 % konfidensintervall for et gjennomsnitt i en normalfordelt populasjon der vi har målt 13 elementer, og funnet et gjennomsnitt på 4,14 og et utvalgsstandardavvik på 0,71.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, t-fordeling

GeoGebra beregner at konfidensintervallet er om lag [3,711, 4,569].

Dette regnet vi ut for hånd i eksempel 8 i artikkelen om estimering.

Oppgave 9:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 90 % konfidensintervall for dagsproduksjonen av støtfangere, basert på at gjennomsnittet målt over seks dager er X = 217 enheter og at utvalgsstandardavviket er beregnet til S = 6.

Se løsningsforslag

Binomisk modell

For å lage et konfidensintervall for en sannsynlighet i en binomisk modell, velger vi «Z-estimat av en andel». Så angir vi ønsket konfidensnivå, antall suksesser og antall forsøk totalt.

GeoGebra beregner grensene i konfidensintervallet.

Eksempel 11:

Vi skal finne et 95 % konfidensintervall for sannsynligheten for kron hos en mynt som har gitt kron i 33 av 50 kast.

For å estimere et konfidensintervall til en sannsynlighet bruker vi menyvalget «Z-estimat av en andel» i sannsynlighetskalkulatoren.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Beregning av 95 % konfidensintervall i sannsynlighetskalkulator, binomisk modell

GeoGebra beregner at konfidensintervallet er om lag [0,5287, 0,7913].

Dette regnet vi ut for hånd i eksempel 9 i artikkelen om estimering.

Oppgave 10:

Bruk sannsynlighetskalkulatoren i GeoGebra til å beregne et 95 % konfidensintervall for sannsynligheten for at en vilkårlig mobillader er defekt, når det blant 2000 stikkprøver ble funnet 35 defekte.

Se løsningsforslag

Hypotesetester

Under fanen «Statistikk» i sannsynlighetskalkulatoren kan vi også utføre hypotesetester. GeoGebra beregner da blant annet en såkalt P-verdi. P-verdien er, gitt at nullhypotesen er sann, sannsynligheten for et resultat som er likt med eller mer ekstremt enn det observerte. Definisjonen er tung, men anvendelsen enkel: Hvis P-verdien er mindre enn testens signifikansnivå, kan nullhypotesen forkastes.

Binomisk modell

For å gjøre en hypotesetest i en binomisk modell, velger vi «Z-test av en andel». Så angir vi nullhypotesen, om vi ønsker en venstresidig, høyresidig eller tosidig test, antall suksesser og antall forsøk totalt.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 12:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om en mynt som gir 524 kron i 1000 kast har større sannsynlighet enn 0,5 for å få kron.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest i binomisk modell

Vi angir altså «p = 0,5» som verdien i nullhypotesen fordi dette er sannsynligheten for at en normal mynt gir kron. Så velger vi «>» for den alternative hypotesen fordi dette er en høyresidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 1,5179. Dette regnet vi ut for hånd i eksempel 2 i artikkelen om hypotesetesting.

Denne verdien kan vi så sammenlikne med zα = z0,05 ≈ 1,6449, og konkludere med at vi ikke kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0645. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Oppgave 11:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om henholdsvis 20 av 100 og 200 av 1000 seksere ved terningkast tyder på at terningen gir for mange seksere.

Se løsningsforslag

Målemodell, kjent standardavvik

For å gjøre en hypotesetest i en målemodell med kjent standardavvik, velger vi «Z-test av et gjennomsnitt». Så angir vi nullhypotesen, om vi ønsker en venstresidig, høyresidig eller tosidig test, gjennomsnitt, standardavvik og antall målinger..

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 13:

Vi skal gjøre en hypotesetest på 1 % signifikansnivå på om en maskin som i snitt skal gi ut 10 ml. olje, normalfordelt med et standardavvik på 0,65, gir ut for mye olje, når gjennomsnittsmengden i 20 målinger i snitt er 10,5 ml.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest i målemodell, standardavvik kjent

Vi angir altså «μ = 10» som verdien i nullhypotesen fordi dette er den oljemengden maskinen forventes å gi ut. Så velger vi «>» for den alternative hypotesen fordi dette er en høyresidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 3,4401. Dette regnet vi ut for hånd i eksempel 3 i artikkelen om hypotesetesting.

Denne verdien kan vi så sammenlikne med zα = z0,01 ≈ 2,3263, og konkludere med at vi kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0003. Siden P-verdien er mindre enn signifikansnivået på 0,01, kan nullhypotesen forkastes.

Målemodell, ukjent standardavvik

For å gjøre en hypotesetest i en målemodell med ukjent standardavvik, velger vi «T-test av et gjennomsnitt». Så angir vi nullhypotesen, om vi ønsker en venstresidig, høyresidig eller tosidig test, gjennomsnitt, utvalgsstandardavvik og antall målinger..

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 14:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om en maskin som normalfordelt i snitt skal gi ut 425 gram bønner gir ut feil mengde, når gjennomsnittsmengden i 20 målinger i snitt er 427,5 gram. Utvalgsstandardavviket er 5 gram.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest i målemodell, basert på utvalgsstandardavvik

Vi angir altså «μ = 425» som verdien i nullhypotesen fordi dette er den mengden bønner maskinen forventes å gi ut. Så velger vi «≠» for den alternative hypotesen fordi dette er en tosidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag t ≈ 2,2361.

Denne verdien kan vi så sammenlikne med t0,025 (19) ≈ 2,0930, og konkludere med at vi kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0375. Siden P-verdien er mindre enn signifikansnivået på 0,05, kan nullhypotesen forkastes.

Oppgave 12:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om angitt gjennomsnittlig ventetid på 30 sekunder på en telefontjeneste er satt for lavt når 15 oppringninger gir en gjennomsnittlig ventetid på 37 sekunder, med et standardavvik på 14.

Se løsningsforslag

Hypotesetester mellom to utvalg

Målemodell, standardavvik kjent

For å gjøre en hypotesetest mellom to utvalg i en målemodell, når standardavvik i begge utvalg er kjent, velger vi «Z-test. Forskjell mellom gjennomsnitt». Så angir vi nullhypotesen, det vil si forventet forskjell på to gjennomsnitt, om vi ønsker en venstresidig, høyresidig eller tosidig test, gjennomsnitt, standardavvik og antall målinger i hvert av de to utvalgene.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 15:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på mengden sukker to maskiner tilsetter en matvare. Maskin X opererer med et standardavvik på 0,11, og 70 stikkprøver viser at den i snitt tilsetter 10,103 gram sukker. Maskin Y opererer med et standardavvik på 0,13, og 85 stikkprøver viser at den i snitt tilsetter 10,069 gram sukker. 

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest mellom to utvalg i målemodell, standardavvik kjent

Vi angir altså «μ1 = μ2 = 0» som nullhypotese, altså at de to gjennomsnittene er like. Så velger vi «≠» for den alternative hypotesen fordi dette er en tosidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ 1,7636. Dette regnet vi ut for hånd i eksempel 5 i artikkelen om å sammenlikne datasett.

Denne verdien kan vi så sammenlikne med Z0,025 ≈ 1,9600, og konkludere med at vi ikke kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0778. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Oppgave 13:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre samme test som i eksempel 15, men basert på at 60 stikkprøver av maskin X gir et snitt på 10,107 gram sukker, og 75 stikkprøver av maskin Y gir et snitt på 10,061 gram sukker. Standardavvikene kan forutsettes å være de samme, 0,11 gram for maskin X og 0,13 gram for maskin Y.

Se løsningsforslag

Målemodell, standardavvik ukjent

For å gjøre en hypotesetest mellom to utvalg i en målemodell, når standardavvik i ett eller begge utvalg er ukjent, velger vi «T-test. Differanse mellom gjennomsnitt». Så angir vi nullhypotesen, det vil si forventet forskjell på to gjennomsnitt, om vi ønsker en venstresidig, høyresidig eller tosidig test, gjennomsnitt, utvalgsstandardavvik og antall målinger i hvert av de to utvalgene.

GeoGebra beregner t-verdi og P-verdi.

Eksempel 16:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på frukthøsten fra to trær, av type X og Y når 13 trær av type X i gjennomsnitt gir 45,154 kg med et utvalgsstandardavvik på 7,998 og 12 trær av type X i gjennomsnitt gir 42,250 kg med et utvalgsstandardavvik på 8,740.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest mellom to utvalg i målemodell, standardavvik ukjent

Vi angir altså «μ1 = μ2 = 0″ som nullhypotese, altså at de to gjennomsnittene er like. Så velger vi «≠» for den alternative hypotesen fordi dette er en tosidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag t ≈ 0,8644. Dette regnet vi ut for hånd i oppgave 3 i artikkelen om å sammenlikne datasett.

Denne verdien kan vi så sammenlikne med t0,025 (23) ≈ 2,0687, og konkludere med at vi ikke kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,3965. Siden P-verdien ikke er mindre enn signifikansnivået på 0,05, kan ikke nullhypotesen forkastes.

Binomisk modell

For å gjøre en hypotesetest mellom to utvalg i en binomisk modell, velger vi «Z-test. Forskjell mellom andeler». Så angir vi nullhypotesen, det vil si forventet forskjell på to sannsynligheter, om vi ønsker en venstresidig, høyresidig eller tosidig test, antall suksesser og antall forsøk totalt i hvert av de to utvalgene.

GeoGebra beregner Z-verdi og P-verdi.

Eksempel 17:

Vi skal gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell mellom antallet defekte PC-skjermer ved to forskjellige anlegg, når det på det ene anlegget ble målt at 17 av 200 var defekte, og på det andre at 31 av 200 var defekte.

Vi åpner sannsynlighetskalkulatoren, velger «Statistikk» og fyller ut som vist under.

Hypotesetest mellom to utvalg i binomisk modell

Vi angir altså «p1 – p2 = 0″ som nullhypotese, altså at de to sannsynlighetene er like. Så velger vi «≠» for den alternative hypotesen fordi dette er en tosidig test.

GeoGebra regner ut at verdien til testobservatoren blir om lag Z ≈ -2,1541. Dette regnet vi ut for hånd i eksempel 8 i artikkelen om å sammenlikne datasett.

Denne verdien kan vi så sammenlikne med Z0,025 ≈ 1,9600, og konkludere med at vi kan forkaste nullhypotesen. Men det trenger vi ikke, for GeoGebra gir også ut P-verdien 0,0312. Siden P-verdien er mindre enn signifikansnivået på 0,05, kan nullhypotesen forkastes.

Oppgave 14:

Bruk sannsynlighetskalkulatoren i GeoGebra til å gjøre en hypotesetest på 5 % signifikansnivå på om det er forskjell på antall defekte sømmer på bukser produsert ved to produksjonslinjer når det ved første produksjonslinje er 147 av 2500 defekter og ved andre 151 av 2000.

Se løsningsforslag

Kilder

  • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
  • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk

Normalfordelingstabell

Tabellen under viser G(z), det vil si P(Zz) i en standard normalfordeling, z ∈ [0,00,  3,99].

De to første sifrene til z finnes i kolonna til venstre, det tredje sifferet i raden øverst. Vil vi for eksempel finne G(1,24), går vi inn der raden med 1,2 krysser kolonna med 0,04, og leser av 0,8925.

For negative z benytter vi at G(-z) = 1 – G(z). Vil vi for eksempel finne G(-1,32), finner vi 1 – G(1,32) = 1 – 0,9066 =  0,0934.

Tabell over standard normalfordeling

Poissonfordelingstabell

Tabellen under viser P(Xx) i en kumulativ poissonfordeling.

Tabellen har to deler, en for λ ∈ [0,1, 1,0] og en for λ ∈ [1, 10].

For å slå opp, velger vi rad ut fra antall forekomster (x) og kolonne ut fra hyppigheten (λ). Hvis for eksempel X er poissonfordelt med λ = 0,4, finner vi P(X ≤ 3) i den øvre delen av tabellen ved å gå inn der raden med x = 3 krysser kolonna der λ = 0,4, og lese av 0,9992. Hvis X er poissonfordelt med λ = 5, finner vi P(X ≤ 3) i den nedre delen av tabellen ved å gå inn der raden med x = 3 krysser kolonna der λ = 5, og lese av 0,2650.

Tabell over kumulativ poissonfordeling

Binomisk fordelingstabell

Tabellen under viser P(Xx) i en kumulativ binomisk fordeling, n ∈ [1, 8].

For å slå opp, velger vi rad ut fra antall forsøk (n) og antall suksesser (x), og kolonne ut fra sannsynligheten for suksess (p). Hvis for eksempel X ~ Bin(5, 0,4), finner vi P(X ≤ 3) ved å gå inn der raden med n = 5, x = 3 krysser kolonna med p = 0,4, og lese av 0,9130.

Tabell over kumulativ binomisk fordeling

Datainnsamling

Når vi skal lage statistikk, må vi ha et datagrunnlag å arbeide ut fra. Vi kan bruke data som andre har samlet inn, eller vi kan samle inn våre egne. Det er da viktig at vi gjør det på en måte som sikrer at dataene er representative.

Ferdig innsamlede og bearbeidede data kan vi for eksempel finne hos Statistisk sentralbyrå: www.ssb.no. Før vi setter i gang egne datainnsamlinger, kan det være verd å sjekke om Statistisk sentralbyrå allerede har noe vi kan bruke.

Skal vi samle inn data selv, er stikkord telle, måle og spørre. Det kan være at vi skal telle antall biler som passerer et gitt punkt, måle vekten på villaks i ei elv eller spørre folk om de er for eller imot kommunesammenslåing.

Feilkilder

Ofte ønsker vi å måle effekten av noe, for eksempel en ny gjødseltype eller en ny type medisin. Det gjelder da å eliminere uvedkommende faktorer som kan påvirke resultatet. Dette kaller vi forsøksplanlegging. Skal vi teste ut en ny type gjødsel, lager vi gjerne to plantefelt med samme kombinasjon av planter, og bruker den gamle gjødselen på det ene, og den nye på det andre. Typiske feilkilder kan da være ulik vanning, forskjellig jordsmonn eller ulike lysforhold. Og sikkert mye mer, det er vanskelig å tenke på alle mulige feilkilder. Av og til oppdager vi at et forsøk er blitt påvirket av en feilkilde vi ikke har tenkt på. Da må vi kompensere for feilen hvis det lar seg gjøre, eller eliminere feilkilden og gjøre forsøket på nytt.

Når en skal prøve ut en ny type medisin, har en gjerne en forsøksgruppe og en kontrollgruppe, der forsøksgruppa får den nye medisinen og kontrollgruppa ikke gjør det. En velkjent og betydelig feilkilde er da placebo-effekten, som består i at folk blir friske bare fordi de tror de får en medisin som virker. For å kompensere for placebo-effekten lar man kontrollgruppa få medisin uten effekt, gjerne kalt «sukkerpiller». Forsøkspersonene vet ikke om de får ekte medisin eller ikke, dette kalles derfor en blindtest. I en dobbel blindtest vet heller ikke den som leder forsøket hvilke piller som er hva. Noen utenforstående har gjort en koding som ikke brytes før etter at forsøket er avsluttet.

Representative utvalg

Hvis vi har for mange data til at vi kan undersøke alle, må vi gjøre et utvalg. Det gjelder da å få utvalget representativt. Et klassisk eksempel på en feilkonklusjon basert på et skjevt utvalg er presidentvalget i USA i 1936, der en prøvde å forutsi om Langdon eller Roosevelt ville vinne. Et blad kalt Literary Digest spurte 2 000 000 personer og konkluderte med at Langdon ville bli den neste presidenten. Det var feil. Problemet var at Literary Digest baserte seg på telefonlister, og bare velstående personer hadde telefon på den tiden. Naturligvis er det en sammenheng mellom politiske preferanser og levekår, så dette utvalget var ikke representativt. Derimot forutsa George Gallup korrekt at Roosevelt ville vinne, basert på intervjuer med bare 50 000 personer. Gallups navn er da også blitt udødeliggjort ved at ordet gallup er blitt et synonym for rundspørring.

Hvem vi spør er altså viktigere enn hvor mange vi spør. I politiske meningsmålinger i Norge i dag intervjues bare om lag 0,05 % av velgermassen.

En taktikk for å få et representativt utvalg er stratifisering. Vi deler da datamengden inn i kategorier, såkalte strata, og velger separat fra alle kategorier. Skal vi for eksempel undersøke om folk er for eller imot bompenger, kan aktuelle strata være politisk ståsted, inntekt, om de har bil eller ikke, kjønn, alder og bosted. Og sikkert mer. En ulempe med stratifisering er at vi risikerer å utelate viktige kategorier. En fordel er at vi kan få fram interessante meningsforskjeller mellom kategoriene.

Vi kan også lage et helt tilfeldig utvalg, og satse på at tilfeldighetene sørger for at utvalget blir representativt på tvers av kategorier. Det er gjerne enklere, men kan kamuflere effekter som skyldes forskjeller mellom kategorier.

Oppgave 1:

Du ønsker å finne ut hvor populært kino er i forhold til å se film hjemme. Du går i byen en kveld og intervjuer tilfeldige forbipasserende. Ser du noen feilkilder?

Se løsningsforslag

Spørreundersøkelser

En vanlig måte å skaffe informasjon på er å la folk svare på spørreundersøkelser. Å lage gode spørreundersøkelser er krevende, noen gode tips er:

    • Undersøkelsen bør ha en god tittel.
       
    • Undersøkelsen bør være så kort som mulig, så ikke deltakerne slites ut.
       
    • Undersøkelsen bør være enkel å gjennomføre, noe som bør være enkelt i dag, siden undersøkelsen kan gjennomføres på nett. Det finnes mange verktøy til å lage spørreundersøkelser. Noen er gratis, for eksempel Microsoft Forms, forms.office.com. Verktøyene har også et varierende utvalg av funksjoner for å bearbeide svarene statistisk.
       
    • Det bør gå fram hvem som står bak undersøkelsen.
       
    • Det bør gå fram hva som er hensikten med undersøkelsen.
       
    • Det bør gå fram hvordan deltakernes konfidensialitet blir ivaretatt.
       
    • Det bør gis instrukser om hvordan spørreskjemaet skal fylles ut.

I Norge skal undersøkelser som involverer behandling av personopplysninger meldes til Sikt: https://sikt.no/tjenester/personverntjenester-forskning/fylle-ut-meldeskjema-personopplysninger. Sikt har også en rekke maler som kan brukes gratis.

Utforme spørsmål

I en spørreundersøkelse kan vi bruke lukkede og åpne spørsmål.

I lukkede spørsmål har vi faste svaralternativer, gjerne i form av avkrysningsbokser. Fordeler med lukkede spørsmål er at de gir lett målbare data som er egnet for automatisert behandling med programvare, og at de er raske å svare på. Ulemper er at vi kan få ugjennomtenkte svar, der deltakerne bare velger fordi de må velge noe. Vi får heller ikke opplysninger utover det vi spør om. Til lukkede spørsmål brukes såkalte Likert-skalaer mye, der deltakerne angir hvor enige eller uenige de er i en påstand. Typiske valgmuligheter er «svært uenig», «litt uenig», «verken enig eller uenig», «litt enig» og «svært enig». En variant er tallskalaer, der deltakerne blir bedt om å angi et tall som indikerer hvor enige de er i en påstand. For eksempel formulert som «På en skala fra 1 til 5, der 1 er svært uenig og 5 er svært enig, hvor enig er du i følgende påstander:». Med tallverdier kan vi bruke statistiske analyseverktøy direkte på svarene.

Åpne spørsmål har ingen svaralternativer, deltakerne må svare ved å formulere en tekst selv. Fordeler med åpne spørsmål er at vi kan få fyldige, fantasirike svar, og få fram uventede opplysninger. Ulemper er at det tar lang tid å fylle ut skjemaet og at det kan være krevende å analysere resultatene etterpå.

En god spørreundersøkelse kan gjerne bestå av både åpne og lukkede spørsmål, der deltakerne kan krysse av for faste alternativer, men også har muligheten til å svare mer utdypende på viktige spørsmål.

Noen råd når det gjelder spørsmålsformulering er:

    • Unngå ledende spørsmål. Si for eksempel ikke «Er du enig i at bensinprisene er for høye?» Det er et ledende spørsmål fordi det antyder at bensinprisene faktisk er for høye. En nøytral formulering er i stedet «Hva synes du om dagens bensinpriser?».
       
    • Unngå upresise formuleringer. En upresis formulering er for eksempel «Ser du mye på TV?» For hva er «mye»? og mener vi til hverdags eller i helga? En mye mer presis formulering er for eksempel «Hvor mange timer ser du i gjennomsnitt på TV på hverdager?» Et slikt spørsmål vil for øvrig være godt egnet for faste svaralternativer med intervaller. F.eks. «Mindre enn 1 time», «1 – 2 timer», etc.
       
    • Still ett spørsmål av gangen. Si for eksempel ikke «Hva synes du om dagens bensinpriser og bompengesatser?», det er to spørsmål i ett. Del opp i to spørsmål, ett om bensinpriser og ett om bompenger.
       
    • Unngå doble negative. Si for eksempel ikke «Er du uenig i at ungdom under 16 bør nektes prevensjon?» Her er «ikke nektes» en dobbel negativ som betyr «tillates». Så si heller «Er du enig i at ungdom under 16 bør tilbys prevensjon?».
       
    • Sørg for entydige svaralternativer. På spørsmål om alder for eksempel, ha ikke 20-25 og 25-29 som alternativer. For her er det overlapp, 25 er med i to kategorier. I kategoriene 20-24 og 25-29 er det derimot ikke overlapp, og de to kategoriene er like store.

Organisere spørsmål

Noen råd når det gjelder organisering av spørsmålene er:

    • Ta de viktigste og mest generelle spørsmålene først.
       
    • Ta enkle og ufarlige spørsmål først.
       
    • Ta konkrete spørsmål først.
       
    • Ta spørsmål med svaralternativer først.
       
    • Ta personlige og demografiske spørsmål til slutt.

Bortfall

Når vi vurderer kvaliteten på svarene på en spørreundersøkelse, må vi ta hensyn til bortfall, altså hvem som ikke svarer. Det er ofte ikke tilfeldig hvem som svarer eller ikke. I en spørreundersøkelse om priser, for eksempel, kan vi forvente at det er flere som svarer blant de som synes prisene er for høye, enn de som er fornøyd med prisnivået. En undersøkelse med stort bortfall vil ha stor usikkerhet knyttet til seg. For å redusere bortfall kan det være en strategi å kontakte potensielle deltakere, presentere temaet overordnet, og spørre om de er villige til å svare på noen spørsmål.

SkjermfilmSe filmen «Datainnsamling»
 

Kilder

    • Wenstøp F. (2004). Statistikk og dataanalyse. Universitetsforlaget.
    • Loughborough University. Questionnaire Design.