• Ingen resultater fundet

1 Valg af fordeling for stokastiske variable

N/A
N/A
Info
Hent
Protected

Academic year: 2022

Del "1 Valg af fordeling for stokastiske variable"

Copied!
116
0
0

Indlæser.... (se fuldtekst nu)

Hele teksten

(1)

Institut for Farmaci

Danmarks Farmaceutiske Universitet Henrik Spliid, Februar 2005

Kompendium til Elementær Statistik Kursus F22-1

Henrik Spliid

Indhold :

1. Valg af fordeling for stokastiske variable 2. Mere om Poissonfordelingen

3. Datablade for Poisson-, binomial- og normalfordelingen 4. Kommenterede løsninger til opgaver fra lærebogen 5. F-Fordelingen (udvidet)

6. Rettede kurveblade 7. Engelsk - dansk ordliste

8. Symbolliste

(2)

Indhold

1 Valg af fordeling for stokastiske variable 6

1.1 Diskrete fordelinger . . . 6

1.2 De mest benyttede diskrete fordelinger . . . 6

1.2.1 Poissonfordelingen: Pois(λ) . . . 6

1.2.2 Binomialfordelingen: Bin(n,p) . . . 7

1.2.3 Bernoulli-fordelingen: Bern(p) . . . 9

1.3 Andre diskrete fordelinger . . . 9

1.3.1 Hypergeometrisk fordeling: Hyp(n,M,N) . . . 9

1.3.2 Multinomialfordelingen: Multi(n, p1, p2, . . . , pk) . . . 9

1.3.3 Geometrisk fordeling: Geom(p) . . . 10

1.4 Kontinuerte fordelinger . . . 11

1.4.1 Exponentialfordelingen: Exp(β) . . . 11

1.4.2 Gammafordelingen: Gam(k,β) . . . 11

1.4.3 Uniformfordelingen: U(α,β) . . . 12

1.4.4 Normalfordelingen: N(µ,σ2) . . . 13

1.4.5 Log-normalfordelingen: LN(α, β2) . . . 15

2 Mere om Poissonfordelingen 18 2.1 Sandsynlighedsfordeling . . . 18

2.2 Approximation . . . 18

2.3 Nogle enkle egenskaber . . . 18

2.4 Relation til eksponentialfordelingen . . . 19

2.5 Relation til χ2-fordelingen og normalfordelingen . . . 19

2.6 Inferens i Poissonfordelingen for ´en stikprøve . . . 19

2.6.1 Estimation . . . 19

2.6.2 Konfidensintervaller . . . 20

2.6.3 Hypoteseprøvning . . . 20

(3)

2.6.4 OC-funktion . . . 21

2.7 Inferens for to eller flere stikprøver . . . 21

2.7.1 Estimation . . . 21

2.7.2 Konfidensinterval . . . 22

2.7.3 Sammenligning af to Poissonfordelinger . . . 22

2.7.4 Sammenligning af flere Poissonfordelinger . . . 23

2.8 Eksempel . . . 23

3 Datablade for Poisson-, binomial- og normalfordelingen 24 3.1 Datablad for Poissonfordelingen . . . 24

3.2 Datablad for binomialfordelingen . . . 25

3.3 Datablad for normalfordelingen . . . 26

4 Kommenterede løsninger til opgaver. Numre og sidetal fra 7. udgave (med 6. udg. i parentes) 28 4.1 Opgave 4.21, side 114 (4.19, side 111) . . . 28

4.2 Opgave 5.91, side 190 (187) . . . 28

4.3 Opgave 5.113, side 201 (197) . . . 29

4.4 Opgave 5.116, side 201 (197) . . . 30

4.5 Opgave 5.119, side 201 (197) . . . 31

4.6 Opgave 6.2, side 214 (210) . . . 32

4.7 Opgave 6.3, side 214 (210) . . . 32

4.8 Opgave 6.5, side 215 (210) . . . 33

4.9 Opgave 6.17, side 216 (212) . . . 33

4.10 Opgave 6.20, side 221 (217) . . . 34

4.11 Opgave 6.21, side 221 (217) . . . 35

4.12 Opgave 6.23, side 221 (218) . . . 36

4.13 opgave 7.4 og 7.5, side 235 (231) . . . 38

4.14 Opgave 7.11, side 236 (231) . . . 38

4.15 Opgave 7.15, side 236 (232) . . . 39

(4)

4.16 Opgave 7.24, side 237 (232) . . . 40

4.17 Opgave 7.28, side 244 (240) . . . 41

4.18 Opgave 7.38, side 245 (241) . . . 42

4.19 Opgave 7.43, side 257 (253) . . . 43

4.20 Opgave 7.48, side 257 (253) . . . 44

4.21 Opgave 7.49, side 257 (253) . . . 44

4.22 Opgave 7.63, side 269 (265) . . . 45

4.23 Opgave 7.68, side 270 (266) . . . 45

4.24 Opgave 7.69, side 270 (266) . . . 48

4.25 Opgave 7.70, side 270 (266) . . . 49

4.26 Opgave 7.72, side 272 (267) . . . 51

4.27 Opgave 8.5, side 284 (277) . . . 52

4.28 Opgave 8.9, side 289 (281) . . . 53

4.29 Opgave 8.15, side 289 (282) . . . 54

4.30 Opgave 9.1, side 297 (289) . . . 56

4.31 Opgave 9.2, side 297 (289) . . . 56

4.32 Opgave 9.10, side 298 (290) . . . 57

4.33 Opgave 9.11, side 298 (290) . . . 58

4.34 Opgave 9.19, side 306 (298) . . . 58

4.35 Opgave 9.28, side 307 (299) . . . 59

4.36 Opgave 9.29, side 307 (299) . . . 61

4.37 Opgave 9.39, side 313 (305) . . . 62

4.38 Opgave 9.41, side 314 (306) . . . 63

4.39 Opgave 9.47, side 315 (307) . . . 65

4.40 Opgave 11.4 side 352 (11.2, side 345) . . . 68

4.41 Opgave 11.5, side 353 (11.3, side 345) . . . 70

4.42 Opgave 11.6, 11.7 11.8 side 353 (11.4, 11.5 og 11.6, side 345) . . . 70

4.43 Opgave 12.6, side 414 (403) . . . 74

(5)

4.43.1 Model kontrol: . . . 76

4.44 Opgave 12.10, side 415 (404) . . . 77

4.45 Opgave 12.50 side 446 (12.48, side 434) . . . 79

4.46 Opgave 12.54 side 447 (12.52, side 435) . . . 82

4.47 Opgave 13.1, side 466 (455) . . . 85

5

Udvidet tabel for F -fordelingen 89

6 Rettede kurveblade til ”Miller & Freund” p 585 103

7 Engelsk-dansk ordliste jfr. bogens indeksregister 105

8 Symbolliste til ”Miller & Freund” 7. (og 6.) udgave 115

(6)

1 Valg af fordeling for stokastiske variable

1.1 Diskrete fordelinger

Karakteristikum: Den stokastiske variabel,X har kun diskrete udfald.

De mulige udfald ordnes (oftest) som heltallige udfald, dvs, at X typisk kan antage værdier som heltallene 0,1,2, . . ..

Det mest almindelige diskrete udfald er, hvor man tæller et vist antal af bestemte hændelser eller udfald.

1.2 De mest benyttede diskrete fordelinger

1.2.1 Poissonfordelingen: Pois(λ) Biologi

X = Optalt antal insekter af en bestemt art p˚a en bestemt plante. X kan antage værdierne 0,1,2, . . ..

Biologi

X= Optalt antal dyr af en bestemt art p˚a et bestemt areal (f.eks. grønne løvfrøer p˚a ´en kvadratkm. mose).

Biokemi

X= Optalt antal svampe-vækstpunkter i et felt p˚a en petrisk˚al med en vandprøve.

Trafik

X = Optalt antal cyklister, som passerer et bestemt sted i et bestemt tidsrum.

Telefoni

X = Optalt antal SMS-beskeder, som en bestemt mobilsendemast skal h˚andtere i et bestemt tidsrum, f.eks. i ´et minut.

Sundhed/sygdom

X = Antal af en bestemt mikroorganisme (f.eks. en bestemt virus) i ´en ml. blod fra en (potentielt) smittet patient.

Fysik

X = Antal γ-partikler i et vist tidsrum fra en radioaktiv kilde (en bestemt mængde, f.eks. 1 mg).

Approximation/grænse

HvisX∈Binomial(n, p) =Bin(n, p) fornmeget stor ogpmeget lille: Bin(n, p)⇒ P ois(np), se nedenfor og bogen side 126.

I alle eksemplerne er X heltallig og i princippet ubegrænset, omend sandsynligheden for meget storeX-værdier kan være hastigt aftagende.

(7)

X ∈P ois(λ)⇐⇒Pr{X =x}= λx·eλ

x! ; x= 0,1,2, . . . Pr{X ≤x}=

Xx i=0

λi·eλ

i! ; x= 0,1,2, . . . E{X}=λ og V{X}=λ

Approximation for store λ-værdier: P ois(λ)⇒N(λ, λ) Pr{X ≤x} 'Pr{N(λ, λ)≤x+1

2}= Φ x+ 1/2−λ

√λ

!

Pr{x1 ≤X ≤x2} 'Φ x2+ 1/2−λ

√λ

!

Φ x1 1/2−λ

√λ

!

Hvis X1 ∈P ois(λ1) og X2 ∈P ois(λ2) ⇒X1+X2 ∈P ois(λ1+λ2). Kan generaliseres til flere Poissonfordelte variable. Parameteren λ kaldes ofte Poissonintensiteten.

1.2.2 Binomialfordelingen: Bin(n,p) Biologi

Undersøg n individer af en bestemt art insekter (bananfluer f.eks.) og optæl X

= antal (blandt den) af en bestemt fænotype (med et bestemt fremtoningspræg, øjenfarve f.eks.). X kan antage værdierne 0,1,2, . . . , n dvs. heltallig, men be- grænset til max. n.

Sundhed/Sygdom

Undersøg n personer og optæl X = antal personer (blandt de n), som har et bestemt antistof (for en vis sygdom f.eks.) i blodet. Xkan igen antage værdierne 0,1,2, . . . , n dvs. heltallig, men begrænset til max. n, det samlede antal un- dersøgte individer.

Biokemi

Foretag udstrygning af en vandprøver fra et vandværk p˚a n petrisk˚ale. Optæl X = antallet af petrisk˚ale (blandt de n), som udviser vækst. pangiver sandsyn- ligheden for vækst p˚a ´en sk˚al.

Trafik

Stop n cyklister, som passerer et bestemt sted p˚a en cykelsti, og registr´er X

= antal heraf, som kører uden cykellygte. p angiver sandsynligheden for, at ´en cyklist kører uden lygte. X kan igen antage værdierne 0,1,2, . . . , ndvs. heltallig, men begrænsettil max. n, det samlede antal standsede cyklister.

Lægemidler/Kvalitetskontrol

Udtag n ampuller med et vist lægemiddel, og undersøg de enkelte ampullers indhold mht. koncentration/styrke af aktivt stof. X = antal ampuller af util- fredsstillende kvalitet (blandt de n undersøgte ampuller). p angiver fejlandelen af ampuller.

(8)

Fysik/Materialer

Udtag n prøver af et bestemt materiale. M˚al p˚a de n prøver, om de kan modst˚a en vis elektrisk spændingsbelastning. X = antal blandt denprøver, som modst˚ar belastningen. pangiver andelen af materialeprøver, som modst˚ar belastningen.

I eksemplerne er X i alle tilfælde heltallig, men begrænset til max. n.

X ∈Bin(n, p)⇐⇒Pr{X=x}= n x

!

px(1−p)nx ; x= 0,1,2, . . . , n Pr{X ≤x}=

Xx i=0

n i

!

pi(1−p)ni ; x= 0,1,2, . . . , n E{X}=np og V{X}=np(1−p)

Approximation for store n-værdier men sm˚a p-værdier:

Bin(n, p)⇒P ois(np)⇒

Pr{X ≤x} 'Pr{P ois(np)≤x}

Anvendes fortrinsvis for n 20 og p 0.05. Andre brugbare regler er (n 50 og np≤5) eller (n100 og np≤10) eller tilsvarende.

Approximation for store n-værdier og np≥5 og n(1−p)≥5:

Bin(n, p)→N(np, np(1−p))⇒

Pr{X ≤x} 'Φ

x+ 1/2−np

q

np(1−p)

Pr{x1 ≤X ≤x2} 'Φ

x2+ 1/2−np

q

np(1−p)

Φ

x11/2−np

q

np(1−p)

Hvis X1 Bin(n1, p) og X2 ∈Bin(n2, p) X1 +X2 Bin(n1+n2, p). Kan genera- liseres til flere binomialfordelte variable.

(9)

1.2.3 Bernoulli-fordelingen: Bern(p) Binomialfordelingen for n = 1:

X ∈Bern(p)⇔f(x) = Pr{X ≤x} =px(1−p)1−x for x={0,1} E{X}=p og V{X}=p(1−p)

Hvis X1 Bern(p) og X2 Bern(p) X1 +X2 Bin(2, p). Kan generaliseres til flere Bernoullifordelte variable.

1.3 Andre diskrete fordelinger

1.3.1 Hypergeometrisk fordeling: Hyp(n,M,N)

Udtagning af prøver uden tilbagelægning/Kvalitetskontrol

Sæt, at man har i altN enheder og, at ud af disse er præcisM defekte. Udtager vi nu en stikprøve p˚anenheder blandt deN, vil antallet af defekte,X, i stikprøven følge en hypergeometrisk fordeling. X kan antage værdierne 0, 1, 2,...,M.

X ∈Hyp(n, M, N)⇐⇒Pr{X =x}= M

x

! N −M n−x

!

N n

!

E{X} =n·M/N og V{X}=nM N

(N −M) N

(N −n) (N 1)

Approximation forn << N ogn <<(N −M): Hyp(n, M, N)⇒Bin(n, M/N)

1.3.2 Multinomialfordelingen: Multi(n, p1, p2, . . . , pk)

Kaldes i mange fremstillinger ogs˚a for polynomial-fordelingen. Er en generalisering af binomialfordelingen.

Biologi

Undersøg n individer af en bestemt art (mennesker f.eks.) og opdel dem efter fænotype (med et bestemt fremtoningspræg, øjenfarve f.eks.). X1 er antal med bl˚a øjne, X2 er antal med brune øjne,X3 er antal med grønne øjne,X4 er antal med gr˚a øjne, X5 er antal med andre øjenfarver (f.eks. ´et brunt og ´et bl˚at øje).

p1, p2, . . . , pk angiver andelene af de k kategorier.

Sundhed/Sygdom

Undersøg n personer af en bestemt kategori (f.eks. mænd med en bestemt sygdomsdisposition) og optæl X = antal personer (blandt de n), som har en

(10)

bestemt blodtype. X1=antal blodtype 0, X2=antal blodtype A, X3=antal blod- type B, X4=antal blodtype AB. (p1, p2, p3, p4) angiver blodtypefordelingen for den p˚agældende kategori af personer.

Kvalitetskontrol

Udtag n prøver af en vare (f.eks. en stor sending af et medicinsk præparat) og kategoriser de enkelte prøver efter X1= antal OK, X2= antal med sm˚a fejl, X3= antal med betydelige fejl, X4= antal med kritiske fejl.

f(x1, x2, . . . , xk) =Pr{X1 =x1∩X2 =x2∩. . .∩Xk =xk}= n!·px11px22· · ·pxkk x1!x2!· · ·xk! E{X1, X2, . . . , Xk}= (np1, np2, . . . , npk)

Det gælder, at X1+X2+. . .+Xk =n ogp1+p2+. . .+pk = 1.

1.3.3 Geometrisk fordeling: Geom(p)

Den geometriske fordeling hører sammen med binomialfordelingen, idet den er fordeling forventetiden (m˚alt i antal) ved gentagne binomialforsøg, indtil man møder den første

“succes”. X kan antage heltalsværdierne 1, 2, 3,..., i princippet ubegrænset.

Kvalitetskontrol

Udtag prøver af en vare (f.eks. en sending af et medicinsk præparat) og bliv ved, indtil du finder den første fejlbehæftede enhed. X angiver antal prøver, der er udtaget ialt (alts˚a inklusiv den fejlbehæftede). X kan antage værdierne 1, 2, 3, ... (principielt ubegrænset).

Biologi

Sæt, at man vil udvikle en ny type plante, hvor man forsøger at krydse to beslæg- tede arter. I ´et forsøg krydses de to arter, og X angiver antal forsøg, der skal gøres, indtil (og med) det første gang lykkes at f˚a en levedygtig plante, der kan opformeres. X kan antage værdierne 1, 2, 3, ... (principielt ubegrænset).

Sundhed

Sæt, at man har en behandlingsmetode, som ikke virker hver gang, men kun med en vis sandsynlighed, f.eks. et bestemt træningprogram (rygeafvænning f.eks).

Hvis sandsynligheden for, at ´et behandlingsforsøg virker, er p, vil antallet af nødvendige behandlinger følge en geomentrisk fordeling med parameterp. X kan antage værdierne 1, 2, 3, ... (principielt ubegrænset).

X ∈Geom(p)⇔f(x) = Pr{X =x}=p(1−p)x for x= 1,2,3, . . . Pr{X ≤x} =

Xx i=1

p(1−p)i for E{X}= 1/p og V{X}= (1−p)/p2

(11)

1.4 Kontinuerte fordelinger

Karakteristikum: Den stokastiske variabel, X er kendetegnet ved, at den kan antage ikke heltallige værdier, f.eks. alle reelle tal (normalfordelingen), de positive tal (log- normalfordelingen) eller eksponentialfordelingen. De kan ogs˚a være begrænset til et interval som i den uniforme fordeling.

1.4.1 Exponentialfordelingen: Exp(β)

Hører naturligt sammen med Poissonfordelingen, idet den er ventetidsfordeling for den næste hændelse i en Poissonproces. X kan antage positive reelle værdier , dvs. alle x >0.

Biologi/Trafik

Man m˚aler tiden, der g˚ar, mellem en bestemt dyreart observeres p˚a et bestemt sted eller tidsafstanden mellem cyklister uden lys p˚a en bestemt vej. Tiden, T, mellem observationerne kan ofte beskrives ved en exponentialfordeling. Hvis antallet X pr tidsenhed er Poissonfordelt med parameter λ, er tidsafstanden T exponentialfordelt med middelværdi β = 1/λ- og vice versa.

Fysik

Ventetiden, T, mellem toγ-partikler fra en radioaktiv kilde.

Kvalitetskontrol/Levetidsundersøgelser For mange komponenter i appa- rater kan tiden fra komponenten ibrugtages, til den fejler (f.eks. en el-pære, som brænder over) beskrives ved en exponentialfordeling. Den gennemsnitlige tid kaldes ofte komponentens middellevetid eller blot levetiden.

X exp(β)⇔f(x) = 1

β exp(−x/β) for x >0 og β >0 F(x) =Pr{X ≤x}=

Z x

0 f(t)dt= 1exp(−x/β) E{X}=β og V{X}=β2

Hvis X1 exp(β) ogX2 exp(β)⇒X1+X2 ∈Gam(2, β). Kan generaliseres til flere exponentialfordelte variable.

1.4.2 Gammafordelingen: Gam(k,β)

hører naturligt sammen med Poisson- og exponentialfordelingen. Den er nemlig ven- tetidsfordeling mellem k hændelser, hvor de enkelte hændelsers tidsafstande alle er exponentialfordelte exp(β) og ikke influerer p˚a hinanden (er uafhængige, som man siger). X kan antage positive reelle værdier , dvs. alle x >0.

(12)

Biologi/Trafik

Man m˚aler tiden, der g˚ar, mellem en bestemt dyreart observeres p˚a et bestemt sted eller tidsafstanden mellem cyklister uden lys p˚a en bestemt vej. Tiden,T, fra man starter med at observere, til detk’te individ observeres, følger en Gam(k, β)- fordeling, hvis tidsafstandende fra ´et individ til det næste er exponentialfordelt exp(β).

Køteori/Planlægning

Man kan forestiller sig, at det tager en bestemt tid at udføre en bestemt opgave (f.eks. en operation p˚a et sygehus). Samtidig ankommer kunder (patienter), som skal behandles med en vis intensitet, som kunne svare til en Poissonfordeling.

Man kan s˚a være interesseret i at vurdere sandsynligheden for, at køen af kunder (patienter) ikke overskrider et vist antal, svarende til, at der ikke ankommer flere end et vist antal i et bestemt tidsrum.

Hvis T er ventetiden til den k’te kunde (patient) ankommer, er Pr{T t0} lig med sandsynligheden for, at denk’te kunde (patient) ankommer inden tidspunk- tet t0

X ∈Gam(k, β)⇔f(x) = xk−1

βkΓ(k)exp(−x/β) for x >0 , k >0 og β >0 F(x) =Pr{X ≤x}=

Z x

0 f(t)dt (beregnes p˚a computer f.eks.) E{X}=k·β og V{X}=k·β2

Hvis X1 Gam(k1, β) og X2 Gam(k2, β) X1 +X2 Gam(k1 +k2, β). Kan generaliseres til flere gammafordelte variable.

1.4.3 Uniformfordelingen: U(α,β) Afrundingsfejl/M˚aling

N˚ar man anfører et m˚aleresultat afrundet til et begrænset antal cifre, vil der være en afvigelse fra den faktiske værdi. P˚a et pH-meter udlæses f.eks. værdien pH=7.42. Den faktiske pH-værdi ligger et sted i intervallet [7.4157.425] og med lige stor sandsynlighed over hele intervallet.

AfrundingsfejlenXer alts˚a mellem -0.005 og +0.005, dvsX ∈U(−0.005,+0.005).

Fysik/Materialer

Hvis man undersøger et stykke metaltr˚ad af en bestemt længde, f.eks. b, og finder dens svageste sted, vil man i reglen antage, at dette optræder et helt tilfældigt sted over tr˚adens længde. Kaldes stedet X, vil X∈U(0, b).

Biologi

Under et eksperiment har man p˚a et bestemt tidspunkt t0 et individ, som lever.

Til tiden t1 konstaterer man, at individet er dødt. Hvis man ikke ved andet, vil man kunne benytte uniformfordelingenU(t0, t1) som model for tidspunktet, hvor individet døde.

(13)

X ∈U(α, β)⇔f(x) = 1

β−α for α < x < β Pr{X ≤x}=

Z x

α

f(t)dt= x−α β−α

E{X}= (α+β)/2 og V{X}= (β−α)2/12

1.4.4 Normalfordelingen: N(µ,σ2)

er statistikkens (uden sammenligning) mest betydningsfulde fordeling, og den benyttes i et utal af sammenhænge, dels som model for et stort antal naturligt forekommende (mere eller mindre) tilfældige fænomener. Desuden er den grænsefordeling for mange andre fordelinger. X kan antage alle reelle værdier.

Den centrale grænseværdisætning

Denne sætning findes i flere varianter. Den enkleste er: Antag , at Xi , i = {1,2, . . . , n}, er uafhængige stokastiske variable med samme fordeling, der har middelværdi µog varians σ2. Da vil summen

Xn i=1

Xi asymptotisk ∈N(nµ, nσ2)

Sætningen findes i andre varianter, hvor det f.eks.ikke kræves, at alle X’er har helt samme fordeling.

Hovedbudskabet er, at summer af mange stokastiske variable, som er af nogen- lunde samme størrelsesorden, (eventuelt tilnærmelsesvist) vil følge en normal- fordeling.

Approximation

Mange approksimationer udspringer af den centrale grænseværdisætning. Hvis f.eks. E{Xi}=µ ogV{Xi}=σ2 vil gennemsnit X = (PXi)/n ikke alene have en middelværdi µ og varians σ2/n, den vil ogs˚a (evt tilnærmelsesvist) følge en normalfordeling.

Poisson- og binomialfordelingen tilnærmes for storen ved normalfordelingen (se under disse).

Fysik/Kemi/M˚alefejl

En fysisk eller kemisk størrelse har en bestemt (men ukendt) værdi f.eks. θ, som kunne være pH=6.4987856432765712456....=θ, dvs en reel værdi. Med en m˚alemetode forsøger man at bestemmeθ, og man udlæser værdien Y. M˚alefejlen erX =Y −θ.

Hvis man ikke kender noget til sit apparat, kan man ikke sige meget om, hvor den faktiske værdi θ ligger i forhold til m˚aleresultatet Y. Dvs. man kan ikke sige præcist hvor storX i det konkrete tilfælde er, men en god model er (meget ofte), at X er normalfordelt med en vis middelværdi, µ, og en vis varians, σ2 (hvor µ gerne skulle være nær nul og σ2 s˚a lille som muligt).

(14)

Biologi

Hvis man har en population, hvor der er en vis variation mellem individerne (det kan f.eks. være deres vægt, længde, eller andre fysisk-kemiske egenskaber), vil normalfordelingen ofte være velegnet til at beskrive disse. Typisk vil der være to fordelinger for en given aldersgruppe, nemlig ´en for hun-individer og ´en for hanindivider.

Sundhed

N˚ar man bestemmer blodsukker hos en patient, vil dette variere omkring en vis værdi, hvis man m˚aler flere gange. Variationen omkring patientens middelniveau, µ, for indhold af sukker i blod beskrives godt med en normalfordeling med mid- delværdi µ(for raske personer mellem ca. 4 og 7 mmol/liter).

Kvalitetskontrol/Lægemidler

Ved fremstilling medicinske præparater tilstræbes, at deres styrke (koncentration) ligger i et bestemt (snævert) interval omkring den tilstræbte værdi µ. Der vil altid være større eller mindre variationer for denne koncentration i forhold til det tilstræbte. S˚adanne variationer bekrives i reglen godt med normalfordelingen.

Miljø

pH-værdien i almindelig nedbør bør være gennemsnitligt nær 7, dvs neutral. I det daglige vejr vil den faktiske nedbørs pH-værdi variere omkring en vis værdi, som kan være µ < 7 (sur regn). En egnet model for disse variationerer normal- fordelingen (hvis ikke pludselige begivenheder gør billedet atypisk - vulkanudbrud f.eks.).

Folkesundhed

N˚ar man m˚aler en egenskab hos et stort antal personer (en normalbefolkning f.eks.) finder man hyppigt, at værdierne fordeler sig som fra en normalfordeling.

Det gælder f.eks. længde og vægt af spædbørn med en vis alder, og p˚a samme m˚ade vægt og længde for voksne (mænd og kvinder har typisk hver sin fordeling).

Et m˚al for fedme er det s˚akaldtebody mass index, som modelleres udmærket med en normalfordeling. Den enkelte persons værdi sammenholdes med normalpopu- lationens fordeling (den m˚a ikke ligge for langt væk fra midten).

Intelligens

Intelligenskvotienten hos normale mennesker har et normalomr˚ade, og en forde- ling, som intelligensforskere med et poppet udtryk kalder ’the bell curve’, der alts˚a blot er normalfordelingen.

Sport/Doping

N˚ar sportsfolk indtager midlet epo (og lignende præparater) øges antal røde blodlegener, dvs blodets evne til at optage ilt. Iltoptagelsesevnen m˚ales med den s˚akaldte hematocritværdi (koncentrationsm˚al for røde blodlegemer). Hos normale unge personer, varierer denne omkring 45 for unge mænd og 41 for unge kvinder, i begge tilfælde med en spredning p˚a ca 3. Normalfordelingen kunne muligvis anvendes, men i praksis ligger der relativt mange omkring fordelingens midte, og fordelingens haler er hurtigere aftagende end i normalfordelingen. Ek- semplet er et eksempel p˚a, at selv i tilfælde, hvor normalfordelingen synes et oplagt valg, kan der være problemer.

(15)

Dagligvarer

N˚ar man køber en dagligvare, f.eks. en pakke fødevarer med p˚askriften ’1000 g’ vil det faktiske indhold afvige herfra. Ved p˚afyldning skal fabrikanten sikre, at sandsynligheden for, at der faktisk er mindre end de 1000 g, er lille. Det er ikke tilstrækkeligt, at indholdet i middel for mange pakker er 1000 g (det er det,

’e’-mærkningen handler om).

Som model for den faktisk p˚afyldte mængde benyttes gerne normalfordelingen, der følgelig skal have en middelværdi µ >1000 g, for at sikre, at kun f˚a pakker er undervægtige.

X ∈N(µ, σ2)⇔f(x) = 1 σ√

2π exp (x−µ)22

!

Pr{X ≤x}=

Z x

−∞f(t)dt= Φ

x−µ σ

hvor

φ(x) = 1

2πexp −x2 2

!

og Φ(x) =

Z x

−∞φ(t)dt E{X}=µ og V{X}=σ2

Hvis X1 ∈N1, σ12) og X2 ∈N2, σ22) og Y =a+b·X1+c·X2, vil for alle reelle a, b og c

Y ∈N(a+b·µ1+c·µ2 , b2σ21 +c2σ22)

Resultatet kan generaliseres til alle linearkombinationer af vilk˚arligt mangeuafhængige normalfordelte variable.

1.4.5 Log-normalfordelingen: LN(α, β2)

Generelt, s˚afremt Y ∈N(α, β2) X =eY LN(α, β2) (definition). Symbolet log(.) betegner den naturlige logaritme, dvs med grundtal e.

Det betyder alts˚a, at s˚afremt X LN(α, β2), vil den naturlige logaritme af X følge en N(α, β2)-fordeling. X kan antage positive reelle værdier, dvs. alle x >0.

N˚ar man arbejder med log-normalfordelte værdier, logaritmetransformeres først, og derefter benyttes normalfordelingen p˚a sædvanlig m˚ade.

P˚alidelighed

Sæt, at et system best˚ar af et stort antal komponenter, og at Q1, Q2, . . . , QN angiver sandsynlighederne for, at de enkelte komponenter virker til et bestemt tidspunkt. Q’erne er stokastiske variable, 0 << Qi 1, dvs at sandsynligheden for, at ´et eksemplar af systemet som helhed fungerer, er:

Qsystem =Q1 ·Q2· · ·QN

(16)

Tager vi nu den naturlige logaritme:

log(Qsystem) = log(Q1) + log(Q2) +· · ·log(QN)

Ifølge den centrale grænseværdisætning vil log(Qsystem) (tilnærmelsesvist) følge en normalfordeling. Qsystem selv vil følge en lognormalfordeling.

Biologi/Stokastisk vækst

I mange biologiske systemer er væksten i et kort tidsrum (med en vis variation) proportional med den tilstedeværende mængde biomasse (bakterier, alger, gær- celler). Til tidspunktet i kaldes biomassen Xi og vækstkoefficienten er Ci. Som model for væksten fra tiden i til tiden i+ 1 benyttes da, at

Xi+1 =Xi +Ci·Xi = (1 +Ci)Xi

Kaldes biomassen til tiden ’0’ for x0, vil den til tiden n være

Xn =x0·(1 +C1)(1 +C2). . .(1 +Cn) =x0·Πni=1(1 +Ci)

Hvis nuCi’erne er stokastiske variable med (nogenlunde) samme fordeling, vil log- normalfordelingen ( igen ifølgeden centrale grænseværdisætning) være en naturlig fordeling for mængden af biomasse til et bestemt tidspunkt efter igangsætningen af væksten.

Pulverteknologi/Tabletter

Som model for f.eks. kornstørrelsen af de enkelte korn i et pulver, som f.eks.

presses til tabletter, benyttes log-normalfordelingen ofte.

P˚a samme m˚ade benyttes log-normalfordelingen som model for s˚avel vægtfordelin- gen som antalsfordelingen for forskellige fraktioner ved sigtning af pulvere.

Skæve fordelinger/Transformation

I mange m˚aletekniske situationer kan værdierne udvise en skæv fordeling, sam- tidig med, at det formelt set er umuligt at opn˚a negative værdier (m˚al og vægt f.eks). N˚ar værdierne er langt fra 0, vil fordelingen ofte synes normal, men for sm˚a værdier finder man hyppigt fordelinger, som ligner log-normalfordelinger.

Følgende figur illustrerer dette:

0 1 2 3 4 5 6 7 8

0 0.2 0.4 0.6 0.8 1 1.2 1.4

α = 0.0 , β = 0.69 α = 0.5 , β = 0.50

α = 1.0 , β = 0.34 α = −0.5 , β = 0.89

α = 2.0 , β = 0.22 5 log−normale fordelinger alle med varians 1

Man noterer, at fordelingen længst til højre meget ligner en normalfordeling, medens fordelingen for de sm˚a værdier er meget (højre-)skæv.

(17)

X ∈LN(α, β2)⇔f(x) = 1 xβ√

2πexp (log(x)−α)22

!

Pr{X ≤x}=

Z x

0 f(t)dt= Φ log(x)−α β

!

hvor

φ(x) = 1

2πexp −x2 2

!

og Φ(x) =

Z x

−∞φ(t)dt

E{X}= exp(α+β2/2) og V{X}= exp(2α+β2)(exp(β2)1)

Hvis X1 ∈LN(α1, β12) og X2 ∈LN2, β22) og Y =a·X1b·X2c, vil fora >0 og reelleb ogc :

Y ∈LN(log(a) +b·α1+c·α2 , b2β12+c2β22)

Resultatet kan generaliseres til alle produktkombinationer af vilk˚arligt mangeuafhængige log-normalfordelte variable.

(18)

2 Mere om Poissonfordelingen

Anvendelse af Poissonfordelingen

Poissonfordelingen benyttes til at beskrive fænomener som ’hændelser’ i et tidsforløb,

’punkter’s optræden i eksempelvis planen eller i et bestemt omr˚ade. En typisk an- vendelse er, at X angiver, hvor mange telefonopkald, der kommer i et minut til en telefoncentral. Indenfor biologien kan X angive, hvor mange ’pletter’ man finder med vækst i en agarbakke, hvor man f.eks. har strøget en vis mængde spildevand ud. An- tallet afα-partikler, som i et bestemt tidsinterval udsendes af en bestemt mængde af et radioaktivt stof, er Poissonfordelt (forudsat stoffets halveringstid er væsentligt større end det betragtede tidsinterval).

For s˚adanne fænomener, som forløber i tid eller i et vist omr˚ade, taler man ofte om en Poissonproces (med intensitet λ).

2.1 Sandsynlighedsfordeling

Poissonfordelingen har tæthedsfunktionen

f(x) =Pr{X =x}= λxexp(−λ)

x! ; x∈[0,1,2. . . ,∞] og dermed fordelingsfunktionen

F(x) =Pr{X ≤x}=

Xx i=0

λiexp(−λ)

i! ; x∈[0,1,2. . . ,∞]

Vi skriver kort X P(λ) og siger, at ’(den stokastiske variabel) X er Poissonfordelt med intensitet λ’.

Middelværdi og varians : E{X}=λ , og V{X}=λ

2.2 Approximation

Pr{X ≤x} 'Φx+12λ λ

, (normalfordelingen) benyttes bedst for λ≥5 .

2.3 Nogle enkle egenskaber

I mange anvendelser anføres intensiteten λ som gennemsnitligt antal pr. tidsenhed, pr. arealenhed, pr. agarbakke eller lignende. Antager vi, at antal hændelser i f.eks.

´en tidsenhed er Poissonfordelt P(λ), da vil antallet X i et tidsinterval af længde t tidsenheder være Poissonfordelt P(t·λ).

(19)

Hvis X1 ∈P1) og X2 P2), da vil (X1 +X2) ∈P1+λ2). Generelt er en sum af (uafhængige) Poissonfordelte stokastiske variable igen Poissonfordelt med summen af intensiteterne som intensitet:

Xi ∈Pi) for i= 1, . . . , n=Xn

i=1

Xi ∈P(

Xn i=1

λi)

2.4 Relation til eksponentialfordelingen

Betragt en stokastisk variabel X ∈P(λ), som angiver antal ’hændelser’ pr. tidsenhed i en Poissonproces. Vi kan nu spørge om, hvorn˚ar den næste ’hændelse’ indtræffer.

Vi kan kalde den tid, der g˚ar, for T. Størrelsen T er igen en stokastisk variabel, og T ∈Exp(1/λ).

2.5 Relation til χ

2

-fordelingen og normalfordelingen

LadX ∈P(λ). Der gælder følgende identitet og approximation:

F(x) =Pr{X ≤x}= 1−Pr2(2x+ 2)} '1Φλ−x−1

√x+ 1

hvorχ2(2x+2) angiver enχ2-fordelt variabel med 2x+2 frihedsgrader. Φ(.) angiver den standardiserede normalfordeling. Approximationen bygger p˚a, atχ2(f)'N(f,2f) og den benyttes bedst for f >10 (ca).

2.6 Inferens i Poissonfordelingen for ´ en stikprøve

Betragt en stikprøve X1, X2, . . . , Xn, hvor vi antager, at Xi ∈P(ki·λ). Dvs. n obser- vationer af Poissonfordelte variable med samme underliggende intensitet og observeret over f.eks. tidsintervaller af længderk1, k2, . . . , kn, henholdsvis. Observationerne kaldes x1, x2, . . . , xn.

Vi benytter betegnelserne x=Pni=1xi og k =Pni=1ki. Er specielt k1 =. . .=kn= 1 , bliver k =n.

2.6.1 Estimation

S˚afremtXi ∈P(kiλ), er Pni=1Xi ∈PPni=1ki), hvoraf λb =

Pn

i=1xi

Pn

i=1ki = x k

For k1 =. . .=kn= 1 findes λb = n1Pni=1xi =x. Middelværdi og varians for bλ er E{λb}=λ og V{λb}=λ/k

(20)

2.6.2 Konfidensintervaller

Et eksakt tosidet (1−α)-konfidensinterval forλ er:

I1−α(λ)tosidet =

1

2k ·χ2(2x)1−α/2 , 1

2k ·χ2(2x+ 2)α/2

Et approximativt interval kan baseres p˚a normalfordelingen, idetχ2(f)p 'f+ 2f·zp, hvorχ2(f)p angiver (1−p)-fraktilen iχ2-fordelingen medf frihedsgrader, ogzp angiver (1−p)-fraktilen i den standardiserede normalfordeling.

Not´er, at i udtrykkene er f.eks. χ2(f)α/2 og zα/2 de fraktiler, som har sandsynligheds- massen α/2 til højre for sig - som benyttet i bogens tabeller!

I1−α(λ)tosidet'

"

x+

x·z1−α/2

k , x+ 1 +

x+ 1·zα/2 k

#

Et ´ensidet (opadtil begrænset) konfidensinterval forλ er:

I1−α(λ)opad=

0 , 1

2k ·χ2(2x+ 2)α

'

"

0 , x+ 1 +

x+ 1·zα

k

#

Et ´ensidet (nedadtil begrænset) konfidensinterval forλ er:

I1−α(λ)nedad =

1

2k ·χ2(2x)1−α , '

"

x+

x·z1−α

k ,

#

De approximative intervaller bør ikke benyttes for x <5 og bedst er det, hvis x >10.

2.6.3 Hypoteseprøvning

Der er tre principielt forskellige testsituationer, som alle kan undersøges ved at beregne det relevante konfidensinterval for λ og undersøge, om det omfatter den hypotetiske værdi λ0. Ved test p˚a niveau α findes:

Situation I II III

Hypotese H0: λ=λ0 H0: λλ0 H0: λλ0

eller λ=λ0 ellerλ=λ0

Alternativ H1: λ6=λ0 H1: λ > λ0 H1: λ < λ0

Afvis H0, hvis λ0/I1−α)tosidet λ0/ I1−α)nedad λ0/ I1−α)opad dvs. hvis λ0> 21kχ2(2x+ 2)α/2 eller λ0<21kχ2(2x)1−α λ0> 21kχ2(2x+ 2)α

λ0< 21kχ2(2x)1−α/2

Tilsvarende approximative tests kan baseres p˚a normalfordelingen:

(21)

Situation I II III Hypotese H0: λ=λ0 H0: λλ0 H0: λλ0

eller λ=λ0 ellerλ=λ0 Alternativ H1: λ6=λ0 H1: λ > λ0 H1: λ < λ0

Afvis H0, hvis x > kλ0+zα/2

0 eller x > kλ0+zα

0 x < kλ0zα

0

x < kλ0zα/2 0

2.6.4 OC-funktion

Den eksakte OC-funktion for de ovenst˚aende tests kan beregnes p˚a basis af Poisson- fordelingen eller χ2-fordelingen. Et ret enkelt alternativ er imidlertid at basere sig p˚a en normalfordelingsapproximationer b˚ade ved konstruktion af test og beregning af OC-funktionen. Man finder da

Situation I II III

Hypotese H0: λ=λ0 H0: λλ0 H0: λλ0 ellerλ=λ0 ellerλ=λ0

Alternativ H1: λ6=λ0 H1: λ > λ0 H1: λ < λ0

Afvis H0, hvis x > kλ0+zα/2

0 eller x > kλ0+zα

0 x < kλ0zα

0 x < kλ0zα/2

0 Approximativ

OC-funktion Φ

k(λ0λ)−zα/2 λ0

λ

Φ

k(λ0λ)+zα λ0

λ

Φ

k(λλ0)+zα λ0

λ

OC(λ)' −Φk(λ

0λ)+zα/2 λ0

λ

2.7 Inferens for to eller flere stikprøver

Betragt to stikprøveX1, X2, . . . , Xn, hvor vi antager, atXi ∈P(ki·λx), ogY1, Y2, . . . , Ym, hvor vi antager, at Yi P(li·λy) , dvs. n hhv. m observationer af Poissonfordelte variable med underliggende intensiteterλx hhv. λy, der er observeret over f.eks. tidsin- tervaller af længder angivet ved ki og li. Observationerne kaldes x1, x2, . . . , xn og y1, y2, . . . , ym. Vi benytter betegnelserne x = Pni=1xi , kx = Pni=1ki , y = Pmi=1yi og ky =Pmi=1li .

Inferens for to Poissonfordelinger kan baseres p˚a eksakte metoder, men kan ogs˚a baseres p˚a normalfordelingsapproximation og (især for tests vedkommende) p˚a χ2-fordelingen.

2.7.1 Estimation

Vi har λcx =x/kx og λcy =y/ky og dermed

λxd−λy =x/kx−y/ky med middelværdi og varians hhv.

E{λxd−λy}=λx−λy og V{λxd−λy}=λx/kx+λy/ky

(22)

2.7.2 Konfidensinterval

Et approximativt tosidet (1−α)-konfidensinterval for λx −λy , baseret p˚a normal- fordelingen er :

I1−αx−λy) = x kx y

ky

±zα/2

sx k2x + y

k2y

Ensidede (1´ −α)-konfidensintervaller kan konstrueres p˚a lignende m˚ade.

2.7.3 Sammenligning af to Poissonfordelinger

Ved sammenligning af to Poissonfordelinger benyttes ofte et test baseret p˚a binomial- fordelingen. S˚afremtX ∈P(kx·λx) ogY ∈P(ky·λy), og summen t=X+Y er givet, da vil Y være binomialfordelt:

Y|X+Y=t∈B(t, ρ) , hvor ρ= ky·λy kx·λx+ky·λy

Den anførte binomialfordeling kaldes den af t =X+Y betingede fordeling for Y. Hvis specielt λx =λy , s˚a er ρ=ky/(kx+ky).

Ved sammenligning af to Poissonfordelinger, hvorX ∈P(kxλx) ogY ∈P(kyλy), er der tre principielt forskellige situationer, som alle kan undersøges ved hjælp af ovenst˚aende binomialfordeling. For niveau α tests f˚as:

Situation I II III

Hypotese H0: λx=λy H0: λxλy H0: λxλy

eller λx=λy ellerλx=λy

Alternativ H1: λx6=λy H1: λx> λy H1: λx< λy

Afvis H0, hvis Y > B(t, ρ0)α/2eller Y < B(t, ρ0)1−α Y > B(t, ρ0)α

Y < B(t, ρ0)1−α/2

hvor ρ0 =ky/(kx+ky), og f.eks. B(t, ρ0)α er (1−α)-fraktil i binomialfordelingen med parametre (t, ρ0). Det vil sige, at, hvis Y ∈B(t, ρ0), s˚a erB(t, ρ0)α det mindste heltal, for hvilket det gælder, at

Pr{Y > B(t, ρ0)α} ≤α Eksempelvis er B(20,0.25)0.05= 8 , fordi

Pr{B(20,0.25) >7}= 10.8982'0.10 og Pr{B(20,0.25)>8}= 10.9591 '0.04 De viste tests kan konstrueres ved at approksimere fraktilerne i binomialfordelingen med normalfordelingsfraktiler. Det enkleste er i ovenst˚aende skema at benytte, at f.eks.

B(t, ρ0)α 't·ρ0+zα

q

t·ρ0(1−ρ0) og tilsvarende for de øvrige binomialfordelingsfraktiler.

Referencer

RELATEREDE DOKUMENTER

Disability sidder ikke i den konkrete krop, påpeger Clare i Exile and Pride, men i omverdenens blik på og reaktion på denne krop (Clare, 1999, s.. er vigtig for at forstå, at

Allerede før Lene Gammelgaard sad i flyet på vej mod Nepal og Mount Everest i 1996, vidste hun, hvad hendes næste livsopgave skulle være. Hun skulle ikke bestige et nyt bjerg,

Allerede hollænderne havde i sin tid bygget smådiger, men først efter 1860 byggedes der diger efter en fælles og det hele omfattende plan. I november 1872

Hvis kommunen vurderer, at der er åbenbar risiko for, at barnets sundhed eller udvikling lider alvorlig skade, kan de beslutte at indstille til børn og unge- udvalget, at barnet

”Når du siger til medarbejderne, at de skal lade deres faglighed træde en lille smule i baggrunden, fordi de skal tage udgangspunkt i borge- rens ønsker, ressourcer og ideer til

Og de fik også mange be- søg.” Patricia involverede ikke sine venner, fordi hun syntes, ansvaret for at handle lå hos de voksne, ikke andre børn og unge: ”Grunden til, at jeg

Anden del af artiklen viser, hvordan det civile engagement i konkrete bestyrelser i de selvejende daginstitutioner ikke kan ses som en afgrænset størrelse, men derimod får form og

ling (inden for det enkelte datasæt), tidsfordeling (inden for flere datasæt) og krydstabulering (fordeling efter to variable på en gang). Valg af variabel der