• Ingen resultater fundet

Grafiske metoder

In document En Introduktion til Statistik (Sider 100-110)

4.2 Kontrol af fordelingslov

4.2.1 Grafiske metoder

Vi skal nu se på, hvorledes man mest hensigtsmæssigt afbilder empiriske fordelinger grafisk.

Vi betragter først et eksempel med en diskret fordelt variabel.

EKSEMPEL4.4. En batch bestående af 500 stålplader blev undersøgt for overfladefejl.

Observationerne var

Antal fejl 0 1 2 3 4 5 6 7

Antal plader 90 154 133 77 29 13 3 1

Spørgsmålet er nu, om disse fejl optræder tilfældigt?

Ifølge sætning 1.20, p. 122, er dette spørgsmål ensbetydende med at spørge, om antallet af fejl pr. plade følger en Poisson fordeling.

Hvis vi nu indledningsvis går ud fra, at dette er tilfældet, har vi altså, at frekvensfunk-tionen er

f(x) = 1x! x e

?

x = 0;1;2;

:

Da vi ikke kender

, vil vi estimere den. Ifølge skemaet p. 248 er maximum likelihood skønnet for

lig

^ = 1n

X

i

=1

n

x i

= 1 500(90

0 + 154

1 +

+ 1

7) = 1:71

Vi vil nu sammenligne den empiriske fordeling med en

P(1:71)

-fordeling. For at sikre en rimelig nøjagtighed vil vi nu beregne punktsandsynlighederne i

P(1:71)

-fordelingen.

Af tabel fås

f(0) = e

?1

:

71

= 0:181:

Vi beregner nu

f(1)

,

f(2)

, rekursivt, idet vi anvender formlen

f(x) = e

?

x x!

= e

?

x

?1

(x

?

1)!

x

= f(x

?

1)x:

Ved hjælp af denne rekursionsformel får vi nu let følgende skema

x f(x) 500

f(x)

Observeret

500f(x)

?obs.

0 0.181 90.5 90 0.5

1 0.310 155.0 154 1.0

2 0.265 132.5 133 -0.5

3 0.151 75.5 77 -1.5

4 0.064 32.0 29 3.0

5 0.022 11.0 13 -2.0

6 0.006 3.0 3 0.0

7 0.001 0.5 1 -0.5

I alt 1.000 500.0 500 0.0

Vi ser, at der er en meget fin overensstemmelse mellem det observerede antal plader med et givet antal fejl og så det antal, man skulle forvente, hvis de fulgte en Poisson fordeling.

Denne overensstemmelse fremgår også af nedenstående figur, hvor vi har sammen-lignet de 2 frekvensfunktioner. (Bemærk i øvrigt, at overgangen fra at betragte frekvens-funktionerne til at betragte de forventede antal blot svarer til en skalaændring på ordi-nataksen).

0 2 4 6 8 0

20 40 60 80 100 120 140 160

Antal fejl

Antal

Poisson 500 Observeret

Ved vurderingen af figuren (eller det dermed ensbetydende skema p. 395) bør man lægge mærke til, at afvigelserne mellem de 2 frekvensfunktioner ikke er systematiske.

Hvis man har et tilfælde, der er så åbenbart som ovenstående, vil næppe nogen være i tvivl om, at man bør godtage antagelsen om, at antallet af fejl følger en Poisson fordeling. I andre tilfælde vil det være rart at kunne give en mere præcis regel knyttet til en numerisk størrelse. Dette vender vi tilbage til i næste afsnit.

Hvis man skal sammenligne kontinuerte fordelinger, er det ofte lettere at se på fordel-ingsfunktionerne i stedet for, som i ovenstående eksempel, frekvensfunktionerne.

Vi betragter en fordelingsfunktion

y = H(x);

og vi vil undersøge, om den kan antages at være af samme type som

F

, der antages at være kontinuert og strengt monoton. Vi vil altså undersøge, om der for et

(;)

med

> 0

gælder

8

x

H(x) = F

x

?

:

Idet vi med

F

?1betegner den inverse funktion til

F

, har vi, at ovenstående er

, 8

x

F

?1?

H(x)

= x

?

, 8

x

?

x;F

?1

(H(x))

2

`

;

hvor

`

er linien med ligningen

y = x

?

= 1

x

?

:

Vi kan derfor undersøge, om

H

kan antages at være af samme type som

F

, ved at

afbilde punkterne

?

x i ;F

?1

(H(x i ))

; i = 1;

;n

(4.5)

i et koordinatsystem. Her er

x

1

;

;x n

en punktmængde, der ligger passende spredt i definitionsområdet for

F

og

H

. Hvis punkterne (4.5) ligger på eller tilnærmelsesvis på en ret linie, vil

F

og

H

være af samme type, henholdsvis tilnærmelsesvis af samme type.

DEFINITION4.2. En afbildning af punkterne (4.5) i et 2-dimensionalt

koordinatsys-tem kaldes et fraktildiagram. N

Der findes ark, hvor transformationen

F

?1 er fortrykt på ordinataksen. Mest almin-delige er ark til sammenligning med en normal fordeling og en logaritmisk normal fordeling. Det er endvidere ikke svært at se, at almindeligt logaritmepapir kan bruges til at undersøge, om en fordeling er en

Ex()

-fordeling.

Med henblik på at undersøge, om et realiseret udfald af den empiriske fordelingsfunkti-on kan antages at følge en kendt fordeling, betragter vi et øjeblik igen definitifordelingsfunkti-on 4.2. Vi erindrer, af

F n (x)

er en stokastisk variabel. Vi kalder det realiserede udfald af

F n (x)

for

H(x)

. Vi har da

H(x) =

8

<

:

0 x < x

(1)

in x

(

i

)

x < x

(

i

+1)

i = 1;2;

;n

?

1;

1 x

(

n

)

x

hvor

x

(1)

;

;x

(

n

)er de ordnede udfald.

Hvis vi vil sammenligne

H

med fordelingsfunktionen

F

, kan vi som ovenfor angivet gøre dette ved hjælp af et fraktildiagram.

F

H

x(i−1) x(i)

i n i−1−−

n

Som det fremgår af tegningen, vil vi begå en systematisk skævhed, hvis vi afsætter punkterne

x

(

i

)

;F

?1?

H(x

(

i

)

)

=

x

(

i

)

;F

?1?

i n

i = 1;

;n:

Det vil være mere rimeligt at sammenligne

F(x

(

i

)

)

med midtpunktet mellem de 2 van-drette stykker, i.e. med

(i

?12

)=n

. Vi skal altså i stedet indtegne punkterne

x

(

i

)

;F

?1

i

?12

n

i = 1;

;n:

EKSEMPEL4.5. Vi betragter de i eksempel 1.1 p. 88 og eksempel 2.13, p. 241, anførte målinger af diameteren af 36 nittehoveder. Vi postulerede i eksempel 2.13, at fordelin-gen var normal. Denne hypotese vil vi nu undersøge. I figuren herunder er indtegnet et fraktil diagram for observationerne, hvor den rette linje svarer til en

N(^; ^

2

)

-fordeling.

Centrale skøn over

og

2er udregnet til

^ = 13:376

^

2

= 0:125

2

13.1 13.2 13.3 13.4 13.5 13.6 13.7

Af figuren fremgår det at de stjerne-markerede punkter, der beskriver den empiriske fordeling, er fordelt rimeligt omkring den rette linje. Dvs. vi kan godtage antagelsen om at observationerne følger en normalfordeling.

EKSEMPEL4.6. Vi betragter igen de i eksempel 2.12, p. 238 anførte målinger over kundeankomsttider. Vi ønsker at undersøge, om antagelsen om, at de anførte data kan beskrives ved en eksponentialfordeling, er rimelig. Vi vil foretage denne sammenlign-ing ved hjælp af et fraktildiagram.

Vi har altså, at

F(x) = 1

?

e

?

x ;

og det ses, at

F

?1

(p) =

?

log e (1

?

p):

Heraf følger, at vi skal afsætte punkterne

?

x

(

i

)

;

?

log e (1

?

i

?12

n )

i = 1;

;n

i et retvinklet koordinatsystem, hvor disse punkter i bekræftende fald skulle gruppere sig om en ret linie med hældningen

1. Heraf får vi, at punkterne

(x

(

i

)

;1

?

i

?12

n ) i = 1;

;n

indtegnet på almindeligt logaritmepapir igen vil fordele sig om en ret linie, hvis

H(x)

minder om en eksponentialfordeling.

Vi ordner observationerne og anfører de for tegning af fraktildiagrammet nødvendige størrelser i nedenstående tabel.

i x

(

i

)

1

?

i

?

n

12

i x

(

i

)

1

?

i

?

n

12

1 4 0:975 11 52 0:475 2 11 0:925 12 58 0:425 3 16 0:875 13 62 0:375 4 17 0:825 14 71 0:325 5 29 0:775 15 127 0:275 6 36 0:725 16 127 0:225 7 41 0:675 17 128 0:175 8 43 0:625 18 157 0:125 9 45 0:575 19 186 0:075 10 46 0:525 20 211 0:025

Herefter er det intet problem at tegne fraktildiagrammet, der bliver som vist i figuren herunder.

0 50 100 150 200

10−1 100

Mellemankomsttider (ordnede) Fraktildiagram for mellemankomsttider

På grafen har vi endvidere indtegnet linien svarende til

F(x) = 1

?

exp(

?

x 73:35);

idet vi jo erindrer, at maximum likelihood skønnet for

var 73.35. Denne linie fås f.eks. ved at forbinde punkterne

?

0;1

?

F(0)

^?

146:70;1

?

(1

?

e

?2

)

;

i.e. punkterne

(0;1)

^

(146:70;0:135):

Det ses, at den trappekurve, den empiriske fordeling beskriver, fordeler sig rimeligt om linien, således at vi kan godtage antagelsen, at observationerne følger en

eksponential-fordeling.

Vi repeterer nu begrebet en gruppering og definitionen på histogrammet for at få en samlet fremstilling her (jvf. p. 88).

Hvis der foreligger mange observationer fra en kontinuert fordeling, bliver ovenstående fremgangsmåde med at se på data enkeltvis for besværlig. Vi foretager da en såkaldt gruppering af materialet, d.v.s. vi inddeler det interval, der indeholder alle observa-tionerne, i et antal (lige store) delintervaller. Vi tænker os nu, at alle observationer, der ligger i et delinterval, er jævnt fordelt over delintervallet. En sådan inddeling giver anledning til

DEFINITION4.3. Den tæthedsfunktion, som er konstant i ethvert delinterval, og hvis integral over ethvert interval er proportional med antallet af observationer i intervallet,

kaldes det til inddelingen svarende histogram. N

DEFINITION4.4. Den til et histogram svarende fordelingsfunktion kaldes en

sumpoly-gon. N

Når man i en konkret situation skal vælge en inddeling, kan man som håndregel an-vende følgende formel til bestemmelse af det nødvendige antal intervaller

k = 1 + 1:44

log e n:

Det må dog indskærpes, at der tale om en empirisk begrundet regel, som er udmærket i mange situationer, men som ingenlunde garanterer en fornuftig inddeling.

Ved en gruppering er det endvidere hensigtsmæssigt at angive klassegrænserne med én decimal mere end observationerne, således at der ikke opstår tvivl om, hvilken klasse en observation skal anbringes i.

Hvis man vil sammenligne sumpolygonen

H

for et grupperet materiale med en fordel-ingsfunktion

F

, afbilder man altså punkterne

t i ;F

?1?

H(t i )

i = 1;

;n;

hvor

t i

er øvre intervalgrænse i klasse nr.

i

, i et fraktildiagram.

Vi giver et eksempel til belysning af den ovenfor omtalte teknik.

EKSEMPEL4.7. Vi betragter de i eksempel 1.1 p. 88 og eksempel 2.13, p. 241, an-førte målinger af diameteren af 36 nittehoveder. Vi postulerede i eksempel 2.13, at fordelingen var normal. Denne hypotese vil vi nu undersøge. Vi har, at

x

(1)

= 13:13 x

(36)

= 13:63:

Vi vælger derfor - som det også er gjort i eksempel 1.1 - at inddele intervallet

(13:105;13:705)

, der omslutter alle observationer i 6 lige store dele. Vi bemærker, at intervalendepunkterne har én decimal mere end målingerne på nittehovedet. Tallet 6 er valgt i overensstemmelse med den ovenfor anførte håndregel (

1+1:44log e (36) = 6:1

).

Vi bestemmer nu antallet af observationer i hver klasse og får de p. 88–90 anførte ske-maer og figurer. Vi kunne nu undersøge normalitetsantagelsen ved at indtegne den teoretiske tæthedsfunktion henholdsvis fordelingsfunktion i figurerne svarende til his-togram og sumpolygon. Dette udelader vi dog og går direkte over til at betragte frak-tildiagrammet.

På et såkaldt sandsynlighedspapir kan afsættes punkterne

(13:205;0:08);

;(13:605;0:94):

Vi indtegner endvidere linien, der svarer til en

N(^; ^

2

)

-fordeling, hvor

^ = 13:376

^

2

= 0:125

2

er maximum likelihood skøn over

og

2. Da

ses det, at linien svarende til

N(;

2

)

går gennem punkterne

(;50%)

^

( + ;84:1%)

^

(

?

;15:9%):

Vi bemærker, at punkterne grupperer sig tilfældigt om linien, hvorfor vi ikke vil afvise

hypotesen om normalitet.

Vi vil ikke fordybe os mere i metoder til grafisk testning og til empirisk formulering af en fordelingslov, men blot henvise til [25], hvor der især, hvad angår normalfordelin-gen, findes en indgående beskrivelse af metoderne. I [23] findes der afbildet sandsyn-lighedspapir til brug for undersøgelser af ekstremværdifordelinger.

In document En Introduktion til Statistik (Sider 100-110)