Sannsynlighetstrær

En sammensetning av betingede sannsynligheter kan illustreres ved hjelp av sannsynlighetstrær. Et sannsynlighetstre vil kunne gjøre det enklere å få oversikt over de forskjellige sannsynlighetene.

I eksempel 4 i artikkelen om Bayes regel studerer vi en situasjon der:

    • 1 % av en befolkningen i et land har en sykdom.
    • En test påviser sykdommen i 90 % av tilfellene hos de syke.
    • 9,6 % av testene er falske positive, det vil si at de feilaktig påviser sykdommen hos friske.

Disse opplysningene kan vi illustrere slik, i et sannsynlighetstre:

Sannsynlighetstre med bare oppgitte opplysninger

I et sannsynlighetstre illustrerer vi de forskjellige mulighetene som greiner. Punktene som greinene løper ut fra, kalles noder. I denne artikkelen nøyer vi oss med å se på trær med to greiner per node, men det er fullt mulig å ha flere.

Greinene som løper ut fra en node, skal illustrere alle valgmuligheter, derfor må summen av sannsynlighetene i disse være 1, altså 100 %. Vi kan derved enkelt regne ut hvilke verdier som skal stå ved spørsmålstegnene i treet vårt:

Sannsynlighetstre inkludert beregnede grenverdier

Lest ovenfra og nedover representerer verdiene i første nivå med greiner de uavhengige sannsynlighetene for «syk», og «frisk». I andre nivå med greiner representerer verdiene de betingede sannsynlighetene for «positiv test, gitt syk», «negativ test, gitt syk», «positiv test, gitt frisk» og «negativ test, gitt frisk».

Ytterpunktene i treet, det vil si nodene det ikke løper ut greiner fra, kalles løvnoder. Ved å multiplisere sannsynlighetene langs greinene som fører fram til en løvnode, kan vi finne sannsynligheten for å ende i den noden:

Sannsynlighetstre inkludert verdier i løvnodene

Den totale sannsynligheten for å få positiv test finner vi ved å summere verdiene i løvnodene som er knyttet til en grein med positiv test, altså 0,9 % + 9,504 % = 10,404 %. Tilsvarende kan vi finne den totale sannsynligheten for å få negativ test ved å summere verdiene i løvnodene som er knyttet til en gren med negativ test, altså 0,1 % + 89,496 % = 89,596 %. Dette kan vi naturligvis også beregne ut fra at summen av sannsynlighetene i løvnodene utgjør 100 %: 100 % − 10,404 % = 89,596 %.

Skal vi så beregne sannsynligheten for at en person som tester positivt, faktisk har sykdommen, kan vi gjøre det ved å dividere sannsynligheten for en positiv test der vedkommende faktisk er syk, med sannsynligheten for en positiv test totalt: 0,9 % / 10,404 % ≈ 8,65 %. Dette er det samme som vi finner i eksempel 4 i artikkelen om Bayes regel.

Kaller vi hendelsen «syk person» for A og hendelsen «positiv test» for B, og setter dette inn i sannsynlighetstreet, ser det slik ut:

Sannsynlighetstre med symbolske sannsynligheter

I artikkelen om Bayes regel ser vi at vi regner ut P(A|B) som $\frac{\displaystyle P(A) \cdot P(B | A)}{\displaystyle P(B)}$. Vi ser også at vi kan regne ut P(B) som P(A) · P(B|A) + P(AC) · P(B|AC). Setter vi dette sammen, får vi

$P(A|B) = \frac{\displaystyle P(A) \cdot P(B | A)}{\displaystyle P(A) \cdot P(B|A) + P(A^C) \cdot P(B|A^C)}$

Så markerer vi elementene i telleren i denne brøken med en gul sirkel, og elementene i nevneren med grønne sirkler i sannsynlighetstreet:

Sannsynlighetstre med symbolske sannsynligheter og markeringer

Da ser vi at vi egentlig brukte Bayes regel da vi beregnet sannsynligheten for at en person som testet positivt, faktisk hadde sykdommen, basert på verdiene i sannsynlighetstreet.

Oppgave 1:

Tegn et sannsynlighetstre for situasjonen i oppgave 2 i artikkelen om Bayes regel:

        • Katteallergi forekommer hos 10 % av en befolkningen.
        • En test påviser allergi hos 80 % av de allergiske.
        • 15 % av testene er falske positive, det vil si at de feilaktig påviser allergi hos friske.

Skriv inn sannsynligheter i alle greinene og løvnodene, og bruk så disse til å beregne sannsynligheten for at en person som tester positivt, faktisk har allergi. Sjekk at du får det samme som i oppgave 2 i artikkelen om Bayes regel.

Se løsningsforslag

Kilder

      • Hinna, K.R.C., Rinvold, R.A., Gustavsen, TS. (2011). QED 5-10, bind 1. Høyskoleforlaget
      • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
      • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk

Bayes regel

I artikkelen om betinget sannsynlighet ser vi hvordan vi kan finne den betingede sannsynligheten P(B|A) hvis vi kjenner P(AB) og P(A).

Hvis vi kjenner den betingede sannsynligheten P(B|A), kan vi ved hjelp av Bayes regel finne den «omvendte» betingede sannsynligheten, P(A|B):

$\fbox{Bayes regel: $P(A | B) = \frac{\displaystyle P(A) \cdot P(B | A)}{\displaystyle P(B)}$}$

Bayes regel ble formulert av presten Thomas Bayes.

Vi ser at for å bruke Bayes regel må vi i tillegg til P(B|A) kjenne P(A) og P(B), men vi trenger ikke kjenne P(AB).

Eksempel 1:

I eksempel 2 i artikkelen om betinget sannsynlighet har vi en situasjon der sannsynligheten for hendelse A, at en gamer spiller WoW, er 80 %, at sannsynligheten for hendelse B, at en gamer spiller CoD, er 30 %, og vi regner ut at sannsynligheten for (B|A) er 25 %. Da kan vi ved hjelp av Bayes regel regne ut sannsynligheten for (A|B), altså at en gamer som spiler CoD, også spiller WoW:

$P(A | B) = \frac{\displaystyle P(A) \cdot P(B | A)}{\displaystyle P(B)} = {\large \frac{0{,}8 \cdot 0{,}25 }{0{,}3}} = {\large \frac{2}{3}} \approx 0{,}6667$. Gitt at en gamer spiller CoD, er det om lag 67 % sannsynlig at vedkommende også spiller WoW. Vi ser av Venn-diagrammet under at dette stemmer, fordi $ {\large \frac{2}{3}}$ av alle gamerne i B også ligger i A.

P(A) = 80/100, P(A|B) = 20/100

Oppgave 1:

I eksempel 1 i artikkelen om betinget sannsynlighet ser vi på et spill der vi kaster to terninger og vinner hvis vi får sum 11 eller 12. Vi har følgende sannsynligheter:

Sannsynlighet for «sum 11 eller 12»: $P(B) = {\large \frac{1}{12}}$.

Sannsynlighet for «seks på første terning»: $P(A) = {\large \frac{1}{6}}$.

Sannsynlighet for å vinne, gitt at vi har fått seks på første terning: $P(B | A) = {\large \frac{1}{3}}$.

Bruk Bayes regel til å finne den «omvendte», betingede sannsynligheten, det vil si sannsynligheten for at første terning var 6 hvis vi har vunnet, altså P(A|B).

Se løsningsforslag

Eksempel 2:

På en smerteklinikk får 10 % av pasientene narkotiske tabletter. Generelt er 5 % av pasientene narkomane. Av de som får narkotiske tabletter, er 8 % narkomane. Så skal vi regne ut hvor sannsynlig det er at en narkoman pasient får narkotiske tabletter.

Kaller vi hendelsen at en pasient får narkotiske tabletter for A, har vi at P(A) = 0,1.

Kaller vi hendelsen at en pasient er narkoman for B, har vi at P(B) = 0,05.

Hendelsen at en pasient er narkoman, gitt at vedkommende får narkotiske tabletter, blir da B|A, og vi har at P(B|A) = 0,08.

Sannsynligheten for at en narkoman pasient får narkotiske tabletter blir da P(A|B), og Bayes regel gir oss at

$P(A | B) = \frac{\displaystyle P(A) \cdot P(B | A)}{\displaystyle P(B)} = {\large \frac{0{,}1 \cdot 0{,}08}{0{,}05}} = 0{,}16$.

Det er 16 % sannsynlig at en narkoman pasient får narkotiske tabletter.

Eksempel 3:

$ {\large \frac{1}{10 \, 000}}$ av innbyggerne i et land har en sykdom. Velger vi personer tilfeldig, og lar hendelse A være at en vilkårlig person er syk, vil vi ha $P(A) = {\large \frac{1}{10 \, 000}} = 0{,}0001$.

Det finnes en test for sykdommen, som i snitt gir utslag i 1,0098 % av tilfellene den brukes. Lar vi hendelse B være at testen gir utslag, vil vi ha $P(B) = 0{,}010098$.

Testen er 99 % sikker, det vil si at hvis en syk person testes, vil den slå ut med 99 % sikkerhet. Vi har derfor at sannsynligheten for «utslag, gitt syk» er $P(B|A) = 0{,}99$.

Ved hjelp av Bayes regel kan vi så finne sannsynligheten for at en vilkårlig person som får positivt utslag, faktisk er syk, altså «syk, gitt utslag», $ P(A|B)$:

$P(A|B) =\frac{\displaystyle P(A) \cdot P(B | A)}{\displaystyle P(B)} = {\large \frac{0,0001 \cdot 0{,}99}{0{,}010098}} \approx 0{,}0098$.

Det er om lag 0,98 % sannsynlig at en vilkårlig person som får positivt utslag, faktisk er syk.

Tallene i eksempel 3 er hentet fra oppgave 3 i artikkelen med introduksjon til sannsynlighet, der vi skulle tippe hvor sannsynlig det var at vi, med positivt utslag på en 99 % sikker test, hadde en sykdom som rammet hver ti-tusende innbygger. P(B), altså hvor ofte testen i snitt ga utslag, var imidlertid ikke oppgitt, men dette kan vi regne oss fram til. Positiv test får vi i 99 % av tilfellene for syke personer og 1 % av tilfellene for friske personer. Av 10 000 er 1 syk og 9999 friske, så vi får

$P(B) = {\large \frac{1}{10 \, 000}} \cdot 0{,}99 + {\large \frac{9999}{10 \, 000}} \cdot 0{,}01 = 0{,}010098$

At en vilkårlig person er frisk, er den komplementære hendelsen til A, altså AC, så vi ser at vi regner ut P(B) som P(A) · P(B|A) + P(AC) · P(B|AC).

Ofte vil vi måtte regne oss fram til P(B) på denne måten. En sykdomstest vil i praksis også gjerne ha forskjellig nøyaktighet for syke og friske.

Eksempel 4:

        • 1 % av en befolkningen i et land har en sykdom.
        • En test påviser sykdommen i 90 % av tilfellene hos de syke.
        • 9,6 % av testene er falske positive, det vil si at de feilaktig påviser sykdommen hos friske.

Så skal vi beregne sannsynligheten for at en person som tester positivt, faktisk har sykdommen.

Kaller vi hendelsen «syk person» for A og hendelsen «positiv test» for B, har vi:

        • P(A) = 0,01. Sannsynligheten for at en person er syk, er 0,01.
        • P(AC) = 1 − 0,01 = 0,99. Sannsynligheten for at en person er frisk, er 0,99.
        • P(B|A) = 0,9. Sannsynligheten for positiv test hos en syk person er 0,9.
        • P(B|AC) = 0,096. Sannsynligheten for positiv test hos en frisk person er 0,096.

Og vi får P(B) = P(A) · P(B|A) + P(AC) · P(B|AC) = 0,01 · 0,9 + 0,99 · 0,096 = 0,10404.

Ved hjelp av Bayes regel kan vi så beregne sannsynligheten for at en person har sykdommen, gitt en positiv test:

$P(A | B) = \frac{\displaystyle P(A) \cdot P(B | A)}{\displaystyle P(B)} = {\large \frac{0{,}01 \cdot 0{,}9}{0{,}10404}}\approx 0{,}0865$

Sannsynligheten for sykdom, gitt positiv test, er ca. 8,65 %.

Oppgave 2:

        • Katteallergi forekommer hos 10 % av en befolkningen.
        • En test påviser allergi hos 80 % av de allergiske.
        • 15 % av testene er falske positive, det vil si at de feilaktig påviser allergi hos friske.

Beregn sannsynligheten for at en person som tester positivt, faktisk har allergi.

Se løsningsforslag

SkjermfilmSe filmen «Bayes setning»

Kilder

    • Hinna, K.R.C., Rinvold, R.A., Gustavsen, TS. (2011). QED 5-10, bind 1. Høyskoleforlaget
    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk

Betinget sannsynlighet

Hva er betinget sannsynlighet?

I artikkelen om produktregelen ser vi at vi regner ut sannsynligheten for at to avhengige hendelser begge inntreffer ved å multiplisere sannsynligheten for at den første inntreffer med sannsynligheten for at den andre inntreffer, gitt at den første har inntruffet: $P(A \cap B) = P(A) \cdot P(B)$.

Vi bruker så denne regelen til å regne ut at hvis sannsynligheten for sol en vilkårlig dag er 60 %, og sannsynligheten for sol etter en annen soldag er 80 %, er sannsynligheten for sol to etterfølgende dager 0,6 · 0,8 = 0,48.

Men så snur vi litt på problemstillingen, og sier at vi vet at sannsynligheten for sol en vilkårlig dag er 60 %, og at sannsynligheten for sol på to etterfølgende dager er 48 %. Og så skal vi regne ut sannsynligheten for at en dag får sol gitt at det var sol dagen før. Det betyr at vi må finne verdien til x i likningen 0,6 · x = 0,48. Og det gjør vi ved å dividere med 0,6 på begge sider av likhetstegnet, noe som gir x = 0,8, det vil si 80 prosent.

Vi finner altså sannsynligheten for «sol, gitt sol dagen før» ved å dividere sannsynligheten for «sol etterfølgende dager» på sannsynligheten for «sol første dag». Generaliserer vi dette, og dividerer med P(A) på begge sider av likhetstegnet i produktregelen, får vi $ \frac{\displaystyle P(A \cap B)}{\displaystyle P(A)} = P(B|A)$. Bytter vi så om høyre og venstre side, får vi regelen for betinget sannsynlighet:

$\fbox{Betinget sannsynlighet: $P(B|A) = \frac{\displaystyle P(A \cap B)}{\displaystyle P(A)}$}$

Denne regelen sier at sannsynligheten for at B inntreffer, gitt at A har inntruffet, er lik sannsynligheten for at A og B begge inntreffer, dividert med sannsynligheten for at A inntreffer.

I eksempel 1 under illustrerer vi denne regelen med terningkast.

Eksempel 1:

I et spill kaster vi to terninger og vinner hvis summen av øyne er elleve eller tolv. Kaller vi dette hendelse B, kan vi illustrere situasjonen med dette Venn-diagrammet:

Venn diagram som illustrerer terningkombinasjoner som gir sum 11 eller 12

Venn-diagrammet inneholder alle de 36 mulige kombinasjonene av øyne på terningene, med delmengden B, de kombinasjonene som gir sum elleve eller tolv, innringet. Vi ser at B inneholder 3 kombinasjoner, så «gunstige på mulige» gir $P(B) = {\large \frac{3}{36}} = {\large \frac{1}{12}}$. Sannsynligheten for å vinne er $ {\large \frac{1}{12}}$.

Men så tenker vi oss at vi kaster den første terningen, får seks, og skal finne hva sannsynligheten er for å vinne når vi kaster den andre terningen.

Kaller vi hendelsen «seks på første terning» for A, kan vi illustrere situasjonen med dette Venn-diagrammet:

Venn diagram som illustrerer terningkombinasjoner som gir sum 11 eller 12, gitt at en hendelse har inntruffet

Vi ser at $P(A \cap B) = {\large \frac{2}{36}} = {\large \frac{1}{18}}$ fordi 2 av 36 kombinasjoner ligger både i A og B. Vi vet også at $P(A) = {\large \frac{1}{6}}$ fordi sannsynligheten for å få seks på en terning er ${\large \frac{1}{6}}$. Sannsynligheten for å vinne når første terning var seks, kan vi uttrykke som P(B|A), det vil si sannsynligheten for hendelse B, «sum elleve eller tolv», gitt hendelse A, «seks på første terning».

Regelen for betinget sannsynlighet gir at $P(B|A) = \frac{\displaystyle P(A \cap B)}{\displaystyle P(A)} = {\Large\frac{\frac{1}{18}}{\frac{1}{6}}} = {\large \frac{6}{18}} = {\large \frac{1}{3}}$. Sannsynligheten for å vinne når første terning var seks, er $ {\large \frac{1}{3}}$.

Dette gir mening hvis vi ser på Venn-diagrammet. Av totalt 6 kombinasjoner i A, ligger 2 også i B, og sannsynligheten for at vi får en av disse når vi kaster andre terning, er, ifølge «gunstige på mulige», ${\large \frac{2}{6}} = {\large \frac{1}{3}}$.

Illustrasjon av betinget sannsynlighet

I eksempel 2 under illustrerer vi hvordan P(B|A) endrer seg når P(AB) endrer seg og når P(A) endrer seg.

Eksempel 2:

Blant 100 gamere som ble intervjuet, spilte 80 «World of Witchcraft» (WoW), 30 spilte «Claw of Duty» (CoD), og 20 spilte begge disse. Lar vi hendelse A være at noen spiller WoW, og hendelse B at noen spiller CoD, kan vi illustrere dette med Venn-diagrammet under, der hver gamer er representert med en blå prikk.

P(A) = 80/100, P(A|B) = 20/100

Vi antar at disse dataene er representative for gamere, og skal anslå hvor sannsynlig det er at en vilkårlig gamer spiller CoD, gitt at vedkommende spiller WoW.

Vi har P(A) = 0,8 fordi 80 av 100 spiller WoW, og vi har P(AB) = 0,2 fordi 20 av 100 spiller både WoW og CoD. Regelen for betinget sannsynlighet gir da:

$P(B | A) = \frac{\displaystyle P(A \cap B)}{\displaystyle P(A)} = {\large \frac{0{,}2}{0{,}8}} = {\large \frac{1}{4}} =0{,}25$. Gitt at en gamer spiller WoW, er det 25 % sannsynlig at vedkommende også spiller CoD. Vi ser av Venn-diagrammet at dette er fornuftig, for av alle gamerne i A ligger $ {\large \frac{1}{4}}$ også i B.

Så skal vi se hvordan denne sannsynligheten endrer seg hvis 80 av 100 spiller WoW som før, men bare 10 av disse også spiller CoD. Denne situasjonen kan vi illustrere med dette Venn-diagrammet:

P(A) = 80/100, P(A|B) = 10/100

Sannsynligheten for at en vilkårlig gamer spiller både WoW og CoD blir nå:

$P(B | A) = \frac{\displaystyle P(A \cap B)}{\displaystyle P(A)} = {\large \frac{0{,}1}{0{,}8}} = {\large \frac{1}{8}} = 0{,}125$. Sannsynligheten er halvert fordi bare $ {\large \frac{1}{8}}$ av alle gamerne i A også ligger i B.

Går vi tilbake til at 20 gamere spiller både WoW og CoD, men sier at bare 40 av 100 spiller WoW, får vi dette Venn-diagrammet:

P(A) = 40/100, P(A|B) = 20/100

Sannsynligheten for at en vilkårlig gamer spiller både WoW og CoD blir nå:

$P(B | A) = \frac{\displaystyle P(A \cap B)}{\displaystyle P(A)} = {\large \frac{0{,}2}{0{,}4}} = {\large \frac{1}{2}} = 0{,}5$. Sannsynligheten er doblet fordi hele $ {\large \frac{1}{2}}$ av alle gamerne i A også ligger i B.

Vi legger merke til at

        • Sannsynligheten for B|A øker når sannsynligheten for AB øker.
        • Sannsynligheten for B|A øker når sannsynligheten for A avtar. Jo vanskeligere det er å få A, jo mer sannsynlig blir B|A.
        • Vi trenger ikke kjenne sannsynligheten for B for å beregne sannsynligheten for B|A.

Oppgave 1:

I et spill der du kaster to terninger, vinner du hvis du får sum 4 eller mindre.

  1. Hva er sannsynligheten for å vinne?
     
  2. Hva er sannsynligheten for å vinne hvis du har kastet den ene terningen og fått 2?

Se løsningsforslag

Oppgave 2:

På et gatekjøkken kjøper 40 % av kundene pølse, og 15 % kjøper pølse og chips. Bruk regelen om betinget sannsynlighet til å beregne sannsynligheten for at en vilkårlig kunde som kjøper pølse, også kjøper chips.

Se løsningsforslag

Betinget sannsynlighet og mengder

Vi kan også bruke kardinalitet i mengder til å komme fram til regelen for betinget sannsynlighet.

I artikkelen om mengder bruker vi bokstaven n for å angi en mengdes kardinalitet, altså antall elementer i en mengde. For eksempel betyr n(A) = 6 at mengden A inneholder 6 elementer, slik som i eksempel 1.

Tenker vi «gunstige på mulige», kan vi uttrykke P(B|A) som antall elementer som ligger i både A og B, dividert på antall elementer i A totalt. Altså $P(B|A) = \frac{\displaystyle n(A \cap B)}{\displaystyle n(A)}$.

Gjør vi så et lite mattetriks, og utvider brøken med $\frac{\displaystyle 1}{\displaystyle n(U)}$, der n(U) er antall elementer i mengden som består av hele utfallsrommet, får vi:

$P(B|A) = \frac{\displaystyle n(A \cap B)}{\displaystyle n(A)} \cdot \frac{\frac{\displaystyle 1}{\displaystyle n(U)}}{\frac{\displaystyle 1}{\displaystyle n(U)}} = \frac{\frac{\displaystyle n(A \cap B)}{\displaystyle n(U)}}{\frac{\displaystyle n(A)}{\displaystyle n(U)}}$

Det som står i telleren i hovedbrøken, er antall elementer i AB dividert på antall elementer totalt. Noe som ikke er annet enn «gunstige på mulige» for hendelsen AB , altså P(AB). Tilsvarende er det som står i nevneren P(A). Trekker vi det hele sammen, får vi regelen for betinget sannsynlighet: $P(B|A) = \frac{\displaystyle P(A \cap B)}{\displaystyle P(A)}$.

SkjermfilmSe filmen «Betinget sannsynlighet»

Uavhengighet kan også angis ved hjelp av betinget sannsynlighet:

$\fbox{$B$ er uavhengig av $A$ hvis $P(B|A) = P(B)$}$

Hendelsen B er uavhengig av hendelsen A hvis sannsynligheten for B ikke påvirkes av om A har inntruffet eller ikke.

Kilder

    • Hinna, K.R.C., Rinvold, R.A., Gustavsen, TS. (2011). QED 5-10, bind 1. Høyskoleforlaget
    • Ubøe, J. (2011). Statistikk for økonomifag. Gyldendal akademisk
    • Hagen, Per C. (2000). Innføring i sannsynlighetsregning og statistikk. Cappelen akademisk