Statistikk med GeoGebra

Søylediagram og histogram

For å kunne lage diagrammer på en effektiv måte i GeoGebra, må vi ta i bruk GeoGebras regneark. Hvis regnearket ikke allerede er framme, klikker vi på «Vis» – «Regneark».

Hvordan få fram regnearket i GeoGebra

Vil vi ha regnearket bort igjen, klikker vi på «Vis» – «Regneark» en gang til.

Blir det trangt om plassen, kan vi godt skjule algebrafeltet, det er ikke så interessant når vi skal lage diagrammer. Hvis algebrafeltet er framme, vil det forsvinne hvis vi klikker på «Vis» – «Algebrafelt».

Regnearket i GeoGebra fungerer på samme måte som andre regneark, for eksempel Excel, men har mindre funksjonalitet.

Arbeidsgangen ved å lage diagrammer er å først skrive dataene i regnearket og så skrive en kommando som refererer til dataene i inntastingsfeltet. Referanse til data gjøres gjennom å oppgi navnene på cellene der dataene befinner seg. Dette navnet består av kolonnenavnet satt sammen med radnummeret, for eksempel A1, for cella øverst til venstre.
NB! Kolonnenavn må angis med store bokstaver.

Kommandoen for å lage søylediagrammer er søylediagram, og kommandoen for å lage histogrammer er histogram.

Søylediagram kan vi lage på flere måter. Én måte er å skrive inn alle verdiene i et område i regnearket, og i søylediagram-kommandoen angi navnet på cella øverst til venstre og cella nederst til høyre i dataområdet, atskilt med kolon. Vi må også angi ønsket søylebredde. 

Eksempel 1:

Vi skal lage et søylediagram som presenterer dataene fra eksempel 1 i artikkelen om måltall i statistikk, 140, 141, 137, 143, 145, 142, 139, 138, 139, 141, 144, 137, 138, 142, 140, 142, 140, 138, 135, 142, 144, 141, 148, 140, 149, 135, 141, 140, 139 og 137.

Vi skriver da inn verdiene i regnearket:

Regneark med dataliste i GeoGebra

Øvre, venstre celle i dataområdet er A1 og nedre, høyre D8. Det spiller ingen rolle at det er tomme celler i området, de blir ignorert av GeoGebra.

I inntastingsfeltet skriver vi søylediagram(A1:D8, 0.5), der 0.5 betyr at hver søyle skal ha en bredde på 0,5. GeoGebra lager et søylediagram i grafikkfeltet:

Søylediagram i GeoGebra

Det kan være vi må justere litt på aksene før vi ser diagrammet. Vi kan så endre farge, linjetykkelse, m.m. ved å høyreklikke på en av søylene og velge «Egenskaper».

Har vi algebrafeltet framme, ser vi at GeoGebra der presenterer tallet 15. Det virker jo litt underlig, siden vi har 30 celler med data. Men dette tallet angir ikke mengden data, men det totale arealet av søylene. Og siden søylebredden er 0,5 blir det totale arealet 30 · 0,5 = 15.

I stedet for å skrive inn hver forekomst av en verdi, kan vi angi hver verdi, og hvor mange ganger den forekommer. Vi angir da de forskjellige verdiene i én kolonne, antall forekomster i en annen. I søylediagram-kommandoen angir vi så første og siste celle i hver av kolonnene, i stedet for å angi alt som ett dataområde. 

Eksempel 2:

Vi skal lage et søylediagram som presenterer samme data som eksempel 1, men nå baserer vi oss på frekvenstabellen i eksempel 2 i artikkelen om måltall i statistikk, der vi har talt opp hvor mange ganger hver høyde forekommer, 135:2, 136:0, 137:3, 138:3, 139:3, 140:5, 141:4, 142:4, 143:1, 144:2, 145:1, 146:0, 147:0, 148:1, 149:1.

Vi skriver inn verdiene i regnearket:

Regneark med frekvensdata i GeoGebra

Her er høydene listet opp mellom celle A1 og A12 og antall forekomster mellom celle B1 og B12. I inntastingsfeltet skriver vi søylediagram(A1:A12, B1:B12, 0.5). 0,5 er som før søylebredden, som vi kan sette til hva vi vil.

GeoGebra tegner opp samme søylediagram som i eksempel 1.

Oppgave 1:

Bruk GeoGebra til å lage et søylediagram som viser fordeling av karakterene fra oppgave 1 i artikkelen om måltall i statistikk, altså 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.
Søylebredden skal være 0,75.
Bruk både metoden fra eksempel 1 og fra eksempel 2.

Se løsningsforslag

For å lage histogrammer, må vi angi intervallgrensene samt høyden av hver søyle. Vi forklarer dette greiest gjennom et eksempel:

Eksempel 3:

Vi skal lage et histogram som viser fire intervaller med bredder på henholdsvis 5, 5, 10 og 20. Det er 5 målinger i hvert intervall:

 Intervall  [0, 5⟩ [5,10⟩ [10,20⟩ [20,40⟩
 Frekvens  5 5 5

Vi starter med å fylle ut intervall og frekvens, slik det står i tabellen over:

Regneark med grunnlagsdata for histogram i GeoGebra

Overskriftene er kosmetiske, de har ingen betydning for beregningene, og er der bare for å hjelpe oss å huske hva som er hva.

Vi har her angitt starten på hvert intervall i kolonne A, i tillegg til slutten på siste intervall. I kolonne B har vi skrevet inn frekvensen, altså antall forekomster i hvert intervall. Men vi trenger også høyden på hver søyle, og den er det enklest å la regnearket beregne selv. Vi starter med å lage en hjelpekolonne som inneholder bredden på hver søyle. Denne bredden er jo lik avstanden mellom starten på ett intervall og starten på neste. For å beregne bredden på første søyle, tar vi altså innholdet i celle A3 og trekker fra innholdet i celle A2. Dette kan vi gjøre direkte i regnearket ved å skrive = A3 – A2. Husk å skrive likhetstegnet!

Regneark med beregning av søylebredde i histogram i GeoGebra

I cella under skal det stå = A4 – A3, og så videre nedover. Men vi trenger ikke skrive inn dette selv. Hvis vi tar tak i nedre, høyre hjørne i celle C2 og drar nedover, fyller regnearket ut formlene selv.

Regneark med demonstrasjon av å dra ut formel i GeoGebra

Søylehøyden beregner vi så ved å dividere frekvensen på bredden. I celle D2 skriver vi = B2 / C2, og trykker <enter>. Så tar vi tak i nedre, høyre hjørne i cella og drar nedover. Resultatet blir slik:

Regneark med ferdig beregnede data til histogram i GeoGebra

Så gjenstår det bare å opprette selve histogrammet. Vi skriver histogram(A2:A6, D2:D5) i inntastingsfeltet. Her angir altså A2:A6 celleområdet med intervallgrenser, D2:D5 celleområdet med søylehøyder. GeoGebra lager et histogram som vist under, når vi har justert aksene litt.

Ferdig histogram laget med GeoGebra

Oppgave 2:

Bruk GeoGebra til å lage et histogram som viser fordeling av karakterene fra oppgave 1, med intervaller 1-2, 3, 4 og 5-6.

Her kan det være lurt å sentrere søylene om karakterene, slik at intervallene blir 0,5-2,5, 2,5-3,5, 3,5-4,5 og 4,5-6,5.

Se løsningsforslag

Boksplott

Et boksplott kan være en god måte å illustrere spredningen i et datasett på. Boksplottet under illustrerer for eksempel dataene fra eksempel 7 i artikkelen om måltall i statistikk, 13, 14, 17, 18, 18, 21, 23, 23, 27, 30 og 32. Her er laveste verdi 13, første kvartil 17, median 21, tredje kvartil 27 og høyeste verdi 32.

Boksplott laget med GeoGebra

Vi ser at de ytterste, vertikale strekene markerer laveste og høyeste verdi i datasettet, begynnelsen og slutten på boksen markerer første og tredje kvartil, og den vertikale streken inni boksen markerer medianen.

For å lage et boksplott bruker vi kommandoen boksplott. Skriver vi boksplott(1, 0.5, 13, 17, 21, 27, 32), tegner GeoGebra boksplottet vist over. Tallene 1 og 0,5 som står først, betyr at boksplottet skal sentreres rundt y=1 med avstand 0,5 fra senter til ytterlinje. Deretter følger laveste verdi, første kvartil, median, tredje kvartil og høyeste verdi.

Bredden måles altså fra senter til ytterlinje, slik at boksens totale bredde blir 1.

Eksempel 4:

Vi skal lage et boksplott sentrert rundt y=2 med total bredde 0,8, laveste verdi 1, første kvartil 3, median 4, tredje kvartil 6 og høyeste verdi 7. Vi skriver boksplott(2, 0.4, 1, 3, 4, 6, 7) i inntastingsfeltet. GeoGebra lager boksplottet under:

Boksplott laget med GeoGebra

Det er også mulig å lage et boksplott basert på settet med rådata. I stedet for å skrive laveste verdi, første kvartil, median, tredje kvartil og høyeste verdi, lister vi da opp rådataene mellom krøllparenteser, for eksempel boksplott(1, 0.5, {13, 14, 17, 18, 18, 21, 23, 23, 27, 30, 32}). Alternativt kan dataene legges inn i regneark-delen i GeoGebra. I stedet for å liste opp dataene, referer vi da til aktuelt celleområde, for eksempel, boksplott(1, 0.5, A1:A11), hvis dataene ligger i kolonne A, fra rad 1 til 11. 

Oppgave 3:

Lag et boksplott av dataene fra oppgave 5 i artikkelen om måltall i statistikk, 6, 25, 15, 8, 29, 14, 27, 30, 0, 29, 0, 2, 23, 125, 5, 30, 20, 10, 14. Plottet skal være sentrert rundt y=1 og ha total bredde 1. 

  1. Basert på rådataene.
     
  2. Basert på at laveste verdi er 0, første kvartil 6, median 15, tredje kvartil 29 og største verdi 125.

Se løsningsforslag

Kilder

    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk

Grafiske presentasjoner

Et sett med data kan inneholde mange verdier og være svært uoversiktlig. Vi har derfor behov for både metoder til å presentere data på en strukturert måte, og til å beregne nøkkeltall som beskriver dataene.

Eksempel 1:

En gruppe på 30 barneskoleelever var til helsekontroll og fikk målt høyden. Resultatene var 140, 141, 137, 143, 145, 142, 139, 138, 139, 141, 144, 137, 138, 142, 140, 142, 140, 138, 135, 142, 144, 141, 148, 140, 149, 135, 141, 140, 139 og 137 cm. Vi ser at det uten nitid granskning er vanskelig å si noe mer enn at høydene ser ut til å ligge i området 135 – 150 cm.

Frekvenstabell

En måte å strukturere data på er å lage en frekvenstabell. Da lister vi opp de forskjellige verdiene og oppgir hvor mange ganger de forekommer. Dividerer vi antall forekomster av en verdi på antall forekomster totalt, får vi verdiens relative frekvens, som forteller hvor stor del av helheten den utgjør.

Eksempel 2:

Det er totalt 30 målinger i eksempel 1, med verdier fra 135 til 149. En frekvenstabell basert på disse målingene vil se slik ut:

Høyde (cm) 135 136 137 138 139 140 141 142
Frekvens 2 0 3 3 3 5 4 4
Relativ frekvens 7 % 0 % 10 % 10 % 10 % 17 % 13 % 13 %
 
Høyde (cm) 143 144 145 146 147 148 149  
Frekvens 1 2 1 0 0 1 1
Relativ frekvens 3 % 7 % 3 % 0 % 0 % 3 % 3 %

Her har vi angitt den relative frekvensen i prosent. For eksempel er den relative frekvensen for 140 lik ${\large \frac{5}{30}} \approx 0{,}17$, det vil si at om lag 17 % av elevene er 140 centimeter.

Søylediagram

Vi kan også presentere en frekvenstabell grafisk i form av et søylediagram, der vi har én søyle for hver verdi, og høyden på søylen angir hvor mange ganger verdien forekommer.

Eksempel 3:

Frekvenstabellen fra eksempel 2 kan presenteres slik, i form av et søylediagram:

Søylediagram med ugrupperte høydedata

Nå ser vi for eksempel lett at det er flest (5) elever som er 140 centimeter og ingen elever som er 136, 146 eller 147 centimeter.

Av og til kan en frekvenstabell inneholde for mye informasjon. Skal vi for eksempel lage en frekvenstabell over nordmenns inntekt, vil det bli uoverkommelig mange kolonner hvis vi skal gå ned på kronenivå og ha én kolonne for 250.000, én kolonne for 250.001, og så videre. For å forenkle, grupperer vi da verdier, for eksempel ved å ha én kolonne for «under 250.000», én for «250.000 – 299.999», én for «300.000 – 349.999» og så videre.

Eksempel 4:

Grupperer vi målingene fra eksempel 1 i intervallene 135-139, 140-144, 145-149, får vi følgende frekvenstabell og søylediagram:

Høyde (cm) 135-139 140-144 145-149
Frekvens 11 16 3
Relativ frekvens 37 % 53 % 10 %

Søylediagram med grupperte høydedata

Vi ser enkelt at flest elever (16) ligger i gruppa 140-144, noen færre (11) i gruppa 135-139, og få (3) i gruppa 145-149.

I Excel kalles søylediagrammer for stolpediagrammer, disse begrepene brukes mye om hverandre. Enkelte kilder hevder imidlertid at et stolpediagram er et søylediagram der søylene ikke har bredde, de tegnes bare som en strek.

I Excel lager vi søylediagrammer ved å skrive inn og markere dataene, velge «Sett inn» – «Stolpe», og så velge stolpetype.

RegnearkLast ned regneark med stolpediagrammene vist over
 
 
Oppgave 1:

På en prøve fikk elevene i en klasse disse karakterene: 1, 4, 5, 5, 4, 1, 3, 4, 2, 2, 2, 4, 4, 4, 3, 3, 1, 3, 2, 5, 6, 3, 1, 4, 2.

    1. Lag en frekvenstabell som viser fordeling av karakterene. Tabellen skal også vise relativ frekvens i prosent.
       
    2. Lag en frekvenstabell som viser fordeling av karakterene gruppert som 1-2, 3-4 og 5-6. Tabellen skal også vise relativ frekvens i prosent.
       
    3. Lag et søylediagram i Excel som illustrerer karakterfordelingen i punkt 2.

Se løsningsforslag

Histogrammer

Intervaller er imidlertid mer vanlig å presentere i histogrammer. Et histogram minner om et søylediagram, men har en kontinuerlig x-akse, og søylene ligger helt inntil hverandre.

Det er litt tungvint å lage histogrammer i Excel, figurene i eksempel 5 og 6 er laget i GeoGebra. På dette nettstedet finnes en egen artikkel om statistikk med GeoGebra, der det beskrives hvordan GeoGebra kan brukes til å lage søylediagrammer og histogrammer.

Eksempel 5:

Figuren under viser samme data som eksempel 4, presentert i et histogram.

Histogram med høydetata

Det er ikke noe krav at intervallene som presenteres i et histogram skal være like store. Søylens areal, ikke høyden, forteller hvor mange verdier som ligger i hvert intervall.

Eksempel 6:

Tabellen under viser fire intervaller med bredder på henholdsvis 5, 5, 10 og 20. Det er 5 målinger i hvert intervall.

Intervall [0, 5) [5, 10) [10,20) [20, 40)
Frekvens 5 5 5 5

Det tilhørende histogrammet er vist under.

Histogram med ulik intervallbredde

Vi ser at selv om det er like mange målinger i hvert intervall, er ikke søylene like høye, fordi intervallbredden er forskjellig. Arealet av hver søyle er imidlertid det samme.

SkjermfilmSe filmen «Grafisk presentasjon»