• Ingen resultater fundet

Poisson fordelingen

In document En Introduktion til Statistik (Sider 108-118)

Sandsynlighedsteoretiske modeller

1.3 Nogle modeller om stikprøveudtagning

1.4.1 Poisson fordelingen

Vi anfører først definitionen på Poisson fordelingen.

DEFINITION1.9. Vi siger, at en stokastisk variabel

X

er Poisson fordelt med param-eter

, hvis den har frekvensfunktionen

f(x) = x! e

x ?

; x = 0;1;2;

:

Vi skriver kort

X

2

P()

. N

Vi antyder parametrenes indflydelse på fordelingen ved at skitsere nogle grafer af frekvensfunktioner for forskellige værdier af

.

1.4. POISSON MODELLER. ERLANG-OG

?

-FORDELINGEN 109

0 1 2 3 4 5 6 7 8 9 10

0 0.5 1

P(0.2)

0 1 2 3 4 5 6 7 8 9 10

0 0.2 0.4

0.6

P(0.5)

0 1 2 3 4 5 6 7 8 9 10

0 0.2 0.4

0.6

P(2)

0 1 2 3 4 5 6 7 8 9 10

0 0.2 0.4

0.6

P(5)

Det ses, at skævheden aftager meget med større værdier af

. Samtidig spredes sandsyn-lighedsmassen mere jævnt ud over de naturlige tal.

Vi samler nogle resultater om Poisson fordelingen i

SÆTNING1.11. Lad

X

2

P()

. Da er den karakteristiske funktion lig

(t) = exp

?

(e

it?

1)

;

og middelværdi og varians er

E(X) = V(X) =

Bevis. Vi benytter sætning 0.10. Den karakteristiske funktion findes direkte ud fra

definitionen:

(t) = E

?

e

iXt

=

X1

x=0

e

itx

x

x! e

?

= e

?X1

x=0

x! 1

?

e

itx

= e

?

exp

?

e

it

Vi finder middelværdien ved at differentiere

m.h.t.

t

. Vi har

0

(t) = e

?

exp

?

e

it

i

e

it

E(X) =

?

i

0

(0) = :

Analogt fås resultatet for variansen v.h.a.

00

(t)

.

Vi bemærker, at middelværdi og varians er ens.

SÆTNING1.12 (REPRODUKTIVITETSSÆTNING). Lad

X

og

Y

være uafhængige stokastiske variable. Da gælder

X

2

P(

1

)

^

Y

2

P(

2

)

)

X + Y

2

P(

1

+

2

):

Bevis. Den karakteristiske funktion for

X + Y

er, jfr. sætning 0.11

(t) = exp

?

1

(e

it?

1)

exp

?

2

(e

it?

1)

= exp

?

(

1

+

2

)(e

it?

1)

;

hvilket netop er den karakteristiske funktion for en

P(

1

+

2

)

-fordeling.

Vi giver nu Poisson’s sætning, der viser, at Poisson fordelingen kan fremkomme ved en passende grænseovergang i binomialfordelingen.

SÆTNING1.13 (POISSON). Lad

X

n2

B(n;p

n

)

.

Hvis

n

p

n!

; n

!1

;

1.4. POISSON MODELLER. ERLANG-OG

?

-FORDELINGEN 111 da vil for

x = 0;1;2;

P

f

X

n

= x

g!

x

x! e

?

; n

!1

:

Bevis. Se [21][p. 140].

Denne sætning forklarer, hvorfor man i praksis ofte møder Poisson fordelingen, når man har et meget stort antal forsøg og en meget lille sandsynlighed for, at en bestemt hændelse indtræffer i det enkelte forsøg (jfr. [10][p. 55]). Et eksempel, hvor man præciserer disse verbale formuleringer, har vi i

SÆTNING1.14. Der er givet en proces, der tilfældigt genererer punkter i et område.

Processen tilfredsstiller:

1. Sandsynligheden for, at der er et punkt i et givet delområde, afhænger kun af områdets størrelse (volumen, areal etc.) og ikke af områdets form.

2. Sandsynligheden for, at der er et punkt i et område af størrelsen v, er

v + o(v);

og sandsynligheden for, at der er mere end ét punkt, er

o(v)

1.

3. Antallene af punkter i ikke-overlappende områder er stokastisk uafhængige.

Da er sandsynligheden for, at et område af størrelsen

v

netop indeholder

k

punkter lig

k!(v) 1

k

e

?v

; k = 0;1;

;

d.v.s. antallet af punkter i et område af størrelsen

v

er en stokastisk variabel2

P(v)

.

Bevis. Vi inddeler området A i

n

lige store dele. Sandsynligheden for at få mindst ét udfald i en givet del er ifølge 2. (idet

o(v) + o(v) = o(v)

)

p

n

= vn +o

v n

:

Ifølge 3. har vi nu givet

n

Bernoulli forsøg med sandsynligheden

p

nfor succes (hvor succes altså betyder mindst ét punkt i et delområde. Antallet af succeser er derfor2

1En funktionf2o(v );v!0, hvisf(v )!0;v!0d.v.s.fgår hurtigere mod 0 endv.

B(n;p

n

)

. Da sandsynlighed for at få 2 eller flere udfald i et delområde er forsvindende

for

n

!1, kan vi anvende Poisson’s sætning, og resultatet følger.

EKSEMPEL1.10. I forbindelse med partikeltælling i mikroskop møder man ofte Pois-son fordelingen. Deler man synsfeltet i mikroskopet op i

n

lige store dele, og tæller man derefter antallet af partikler i hvert delfelt, vil man, hvis fordelingen er "til-fældig" (d.v.s. tilfredsstiller 1)-3) i sætningen), have

n

realisationer af Poisson fordelte stokastiske variable. Dette er f.eks. ofte tilfældet, når man tæller bakteriekolonier eller blodplader etc. Eksempler på rumlige fordelinger af tilfældigt placerede punkter er f.eks. fordelingen af sten af en vis størrelse i beton eller fordelingen af "fejl" i faste stoffer (e.g. små brud o.lign. i metalstykker etc.).

Den af forudsætningerne, som i praksis er mest kritisk, er nok 3), uafhængighedsfor-udsætningen. Således vil partikler opløst i væsker ofte enten tiltrække eller frastøde hinanden, således at 3) ikke længere kan antages opfyldt. Hvis partikelkoncentrationen er stor, vil de øvrige betingelser ofte ikke være til stede, således at man må forvente, at Poisson fordelingen vil være en dårlig approksimation til fordelingen. I sådanne tilfælde vil man hyppigt kunne rede situationen ved at fortynde opløsningen.

Vi giver dernæst et eksempel, der kan illustrere ovenstående problemstilling.

EKSEMPEL1.11. I nedenstående figur har vi anført 100 punkters placering i et kvadrat.

Vi vil søge at afgøre, om placeringen kan antages at være foregået efter en proces, der tilfredsstiller de i sætning 1.20 anførte betingelser, eller - mere enkelt - om punk-terne synes tilfældigt fordelt i planen efter en lovmæssighed, som angivet ved Poisson-fordelingen.

Vi har inddelt kvadratet i 25 mindre delkvadrater og talt antallet af punkter i hvert kvadrat. Herved er følgende tal fremkommet.

4, 0, 4, 1, 9, 5, 2, 4, 1, 3, 0, 4, 3,

6, 1, 3, 4, 5, 5, 12, 5, 6, 2, 8, 3,

1.4. POISSON MODELLER. ERLANG-OG

?

-FORDELINGEN 113

0 2 4 6 8 10

0 1 2 3 4 5 6 7 8 9 10

Hvis den punktgenererede proces virkelig spredte punkterne tilfældigt udover kvadratet, måtte disse tal kunne opfattes som realiserede udfald

x

1

;

;x

25 af indbyrdes uaf-hængige identisk

P()

-fordelte stokastiske variable. Vi vil derfor sammenligne den empiriske fordeling svarende til ovenstående tal med en

P()

-fordeling. Det vises i kapitel 2, at den (i en vis forstand) bedst approksimerende Poisson fordeling er en

P(4)

-fordeling (idet der gennemsnitligt er 4 punkter/kvadrat).

Vi finder først den empiriske fordeling.

Antal

pkt.f. 0 1 2 3 4 5 6 7 8 9 10 11 12

kvadr.

Antal

kvadr. 2 3 2 4 5 4 2 0 1 1 0 0 1

Rela-tive

antal 0.08 0.12 0.08 0.16 0.20 0.16 0.08 0.00 0.04 0.04 0.00 0.00 0.04 kvadr.

Denne empiriske fordeling er på nedenstående figur sammenlignet med en

P(4)

-forde-ling.

0 2 4 6 8 10 12 0

1 2 3 4 5 6

Antal pkt. pr. felt

Antal felter

25 Poisson(4) Observeret

Det ses, at den empiriske fordeling har tykkere haler end Poisson fordelingen. Dette svarer til, at der er større sandsynlighed for at finde helt tomme kvadrater og for at finde kvadrater med mange observationer i, end der ville være, hvis punkterne var fordelt tilfældigt ud over planen. Der synes med andre ord at være en tendens til "klumpning".

De samme forudsætninger som 1)-3) i sætning 1.20 møder vi i postulaterne for Poisson processen. Der er givet en proces, der til tilfældige tidspunkter genererer en hændelse.

Antallet af hændelser i tidsintervallet

[0;t)

kaldes

X(t)

. Da er

X(t)

en stokastisk pro-ces, d.v.s. at vi til ethvert tidspunkt

t

2

[0;

1

)

har en stokastisk variabel

X(t)

. Vi

anfører nu postulaterne i

SÆTNING1.15. Hvis processen tilfredsstiller:

a. sandsynligheden for at få mindst én hændelse i et interval af længden h er

h + o(h);

b. sandsynligheden for at få 2 eller flere hændelser i intervallet er

o(h)

,

c. antallene af hændelser i ikke-overlappende intervaller er stokastisk uafhængige, da er

X(t)

2

P(t)

.

1.4. POISSON MODELLER. ERLANG-OG

?

-FORDELINGEN 115 Bevis. Beviset for dette resultat kan naturligvis føres ganske som beviset for sætning 1.20. Imidlertid kan man ved at foretage nogle grænseovergange komme frem til et system af differentialligninger, som ved løsning umiddelbart giver

X(t)

2

P(t)

.

Disse overvejelser er, hvad angår den matematiske stringens, mere tilfredsstillende.

For nærmere detaljer henvises til [32][p. 65], [19], [21].

DEFINITION1.10. Det i sætningen forekommende

kaldes intensiteten. Den an-giver middelantallet af hændelser i et tidsinterval af længden

1

(én). N

EKSEMPEL1.12. Et af de kendteste tilfælde på tilfældige hændelser, der fører til Pois-son processer, er udsendelsen af

-partikler fra et radioaktivt stof med en ikke for kort

halveringstid (konstant intensitet).

EKSEMPEL1.13. Betragter man telefontrafikken i en central, vil man meget ofte have, at antallet af opkald til centralen følger en Poisson proces, i det mindste i den såkaldte travle time (den time i døgnet, hvor trafikken er størst). Hvis man betragter et længere tidsrum, vil intensiteten

ikke længere være konstant. Da centraler oftest planlægges og udbygges efter trafikken i den travle time, betyder dette ikke nogen indskrænkning i anvendeligheden af Poisson fordelingen som beskrivelse af forholdene. I [27] findes en mængde eksempler på anvendelser af Poisson processen i teletrafikken.

EKSEMPEL1.14. I tabellen side 117 er anført kundeankomsttiderne for en kasse i et supermarked (i min.) og afstandene mellem disse tider (i 1

100

min.).

For at vurdere, om ankomstprocessen tilfredsstiller Poisson postulaterne, kan vi be-tragte antallet af kundeankomster i en fast tidsenhed, f.eks. et minut. Dette giver værdierne

1, 3, 1, 1, 0, 1, 2, 1, 1, 2, 2, 1,

1, 3, 0, 1, 2, 2, 3, 1, 4, 0, 1, 0,

0, 1, 2, 1, 2, 1, 2, 0, 0, 0, 1, 2,

3, 0, 1, 2, 0, 0, 1, 2, 2, 2, 4, 2,

0, 1, 1, 0, 2, 0, 0, 2, 2, 2, 0, 0.

Disse skal kunne opfattes om realiserede udfald af indbyrdes uafhængige

P()

-fordelte

variable, hvis antagelserne om ankomstprocessen holder. Vi finder derfor de relative hyppigheder

Antal kunde- Antal Rel. antal ank./min. minutter minutter

0 17 0.28

1 19 0.32

2 18 0.30

3 4 0.07

4 2 0.03

I grafen side 116 er de relative hyppigheder sammenlignet med frekvensfunktionen for en

P(1:25)

-fordeling.

Der ses at være en pæn overensstemmelse mellem de to frekvensfunktioner, og Poisson modellen synes derfor velegnet til at beskrive de betragtede ankomsttider.

0 1 2 3 4 5 6

0 2 4 6 8 10 12 14 16 18 20 22

Antal kundeankomster/minut

Antal minutter

60 Poisson(1.25) Observeret

EKSEMPEL1.15. Ved et busstoppested ankommer busser efter en Poisson proces med en intensitet på

0:4

busser pr. minut. Hvad er da fordelingen af ventetiden mellem 2 busser? Ventetiden er større end

t

, netop hvis der ingen busser ankommer i intervallet

(0;t)

. Dette sker med sandsynligheden

e

?0:4t. Ventetiden

T

har altså fordelingen

P

f

T

t

g

= 1

?

P

f

T > t

g

= 1

?

e

?0:4t

; t > 0

for

t

målt i minutter.

1.4. POISSON MODELLER. ERLANG-OG

?

-FORDELINGEN 117

Ank. Diff Ank. Diff Ank. Diff Ank. Diff

0.93 15.60 29.10 46.61

11 106 92 0

1.04 16.66 30.02 46.61

4 27 52 2

1.08 16.93 30.54 46.63

52 52 350 61

1.60 17.45 34.04 47.24

43 38 121 35

2.03 17.83 35.25 47.59

186 43 55 178

3.89 18.26 35.80 49.37

128 68 71 121

5.17 18.94 36.51 50.58

127 1 26 163

6.44 18.95 36.77 52.21

46 64 10 53

6.90 19.59 36.87 52.74

41 53 197 269

7.31 20.22 38.84 55.43

157 22 35 13

8.88 20.44 39.19 55.56

36 0 71 69

9.24 20.44 39.90 56.25

71 13 271 33

9.25 20.57 42.61 56.58

29 147 64 84

10.24 22.04 43.25 57.42

62 342 61 51

10.86 25.46 43.86 57.93

58 86 17 227

Tabel 1.1: Kundeankomsttider ved kasse i et supermarked og differenser mellem disse (i min. og 1

100

min.).

Med dette eksempel er vi ovre i næste afsnit, hvor vi skal diskutere ventetidsfordelinger i Poisson processen.

In document En Introduktion til Statistik (Sider 108-118)