4.2 Kontrol af fordelingslov
4.2.1 Grafiske metoder
Vi skal nu se på, hvorledes man mest hensigtsmæssigt afbilder empiriske fordelinger grafisk.
Vi betragter først et eksempel med en diskret fordelt variabel.
EKSEMPEL4.4. En batch bestående af 500 stålplader blev undersøgt for overfladefejl.
Observationerne var
Antal fejl 0 1 2 3 4 5 6 7
Antal plader 90 154 133 77 29 13 3 1
Spørgsmålet er nu, om disse fejl optræder tilfældigt?
Ifølge sætning 1.20, p. 122, er dette spørgsmål ensbetydende med at spørge, om antallet af fejl pr. plade følger en Poisson fordeling.
Hvis vi nu indledningsvis går ud fra, at dette er tilfældet, har vi altså, at frekvensfunk-tionen er
f(x) = 1x! x e
?x = 0;1;2;
:
Da vi ikke kender
, vil vi estimere den. Ifølge skemaet p. 248 er maximum likelihood skønnet forlig^ = 1n
Xi
=1n
x i
= 1 500(90
0 + 154
1 +
+ 1
7) = 1:71
Vi vil nu sammenligne den empiriske fordeling med en
P(1:71)
-fordeling. For at sikre en rimelig nøjagtighed vil vi nu beregne punktsandsynlighederne iP(1:71)
-fordelingen.Af tabel fås
f(0) = e
?1:
71= 0:181:
Vi beregner nu
f(1)
,f(2)
, rekursivt, idet vi anvender formlenf(x) = e
?x x!
= e
?x
?1(x
?1)!
x
= f(x
?1)x:
Ved hjælp af denne rekursionsformel får vi nu let følgende skema
x f(x) 500
f(x)
Observeret500f(x)
?obs.0 0.181 90.5 90 0.5
1 0.310 155.0 154 1.0
2 0.265 132.5 133 -0.5
3 0.151 75.5 77 -1.5
4 0.064 32.0 29 3.0
5 0.022 11.0 13 -2.0
6 0.006 3.0 3 0.0
7 0.001 0.5 1 -0.5
I alt 1.000 500.0 500 0.0
Vi ser, at der er en meget fin overensstemmelse mellem det observerede antal plader med et givet antal fejl og så det antal, man skulle forvente, hvis de fulgte en Poisson fordeling.
Denne overensstemmelse fremgår også af nedenstående figur, hvor vi har sammen-lignet de 2 frekvensfunktioner. (Bemærk i øvrigt, at overgangen fra at betragte frekvens-funktionerne til at betragte de forventede antal blot svarer til en skalaændring på ordi-nataksen).
0 2 4 6 8 0
20 40 60 80 100 120 140 160
Antal fejl
Antal
Poisson 500 Observeret
Ved vurderingen af figuren (eller det dermed ensbetydende skema p. 395) bør man lægge mærke til, at afvigelserne mellem de 2 frekvensfunktioner ikke er systematiske.
Hvis man har et tilfælde, der er så åbenbart som ovenstående, vil næppe nogen være i tvivl om, at man bør godtage antagelsen om, at antallet af fejl følger en Poisson fordeling. I andre tilfælde vil det være rart at kunne give en mere præcis regel knyttet til en numerisk størrelse. Dette vender vi tilbage til i næste afsnit.
Hvis man skal sammenligne kontinuerte fordelinger, er det ofte lettere at se på fordel-ingsfunktionerne i stedet for, som i ovenstående eksempel, frekvensfunktionerne.
Vi betragter en fordelingsfunktion
y = H(x);
og vi vil undersøge, om den kan antages at være af samme type som
F
, der antages at være kontinuert og strengt monoton. Vi vil altså undersøge, om der for et(;)
med> 0
gælder8
x
H(x) = F
x
?
:
Idet vi med
F
?1betegner den inverse funktion tilF
, har vi, at ovenstående er, 8
x
F
?1?H(x)
= x
?
, 8
x
?x;F
?1(H(x))
2`
;
hvor
`
er linien med ligningeny = x
?= 1
x
?:
Vi kan derfor undersøge, om
H
kan antages at være af samme type somF
, ved atafbilde punkterne
?
x i ;F
?1(H(x i ))
; i = 1;
;n
(4.5)i et koordinatsystem. Her er
x
1;
;x n
en punktmængde, der ligger passende spredt i definitionsområdet forF
ogH
. Hvis punkterne (4.5) ligger på eller tilnærmelsesvis på en ret linie, vilF
ogH
være af samme type, henholdsvis tilnærmelsesvis af samme type.DEFINITION4.2. En afbildning af punkterne (4.5) i et 2-dimensionalt
koordinatsys-tem kaldes et fraktildiagram. N
Der findes ark, hvor transformationen
F
?1 er fortrykt på ordinataksen. Mest almin-delige er ark til sammenligning med en normal fordeling og en logaritmisk normal fordeling. Det er endvidere ikke svært at se, at almindeligt logaritmepapir kan bruges til at undersøge, om en fordeling er enEx()
-fordeling.Med henblik på at undersøge, om et realiseret udfald af den empiriske fordelingsfunkti-on kan antages at følge en kendt fordeling, betragter vi et øjeblik igen definitifordelingsfunkti-on 4.2. Vi erindrer, af
F n (x)
er en stokastisk variabel. Vi kalder det realiserede udfald afF n (x)
for
H(x)
. Vi har daH(x) =
8
<
:
0 x < x
(1)in x
(i
)x < x
(i
+1)i = 1;2;
;n
?1;
1 x
(n
)x
hvor
x
(1);
;x
(n
)er de ordnede udfald.Hvis vi vil sammenligne
H
med fordelingsfunktionenF
, kan vi som ovenfor angivet gøre dette ved hjælp af et fraktildiagram.F
H
x(i−1) x(i)
−i n i−1−−
n
Som det fremgår af tegningen, vil vi begå en systematisk skævhed, hvis vi afsætter punkterne
x
(i
);F
?1?H(x
(i
))
=
x
(i
);F
?1?i n
i = 1;
;n:
Det vil være mere rimeligt at sammenligne
F(x
(i
))
med midtpunktet mellem de 2 van-drette stykker, i.e. med(i
?12)=n
. Vi skal altså i stedet indtegne punkterne
x
(i
);F
?1i
?12n
i = 1;
;n:
EKSEMPEL4.5. Vi betragter de i eksempel 1.1 p. 88 og eksempel 2.13, p. 241, anførte målinger af diameteren af 36 nittehoveder. Vi postulerede i eksempel 2.13, at fordelin-gen var normal. Denne hypotese vil vi nu undersøge. I figuren herunder er indtegnet et fraktil diagram for observationerne, hvor den rette linje svarer til en
N(^; ^
2)
-fordeling.Centrale skøn over
og2er udregnet til^ = 13:376
^
2= 0:125
213.1 13.2 13.3 13.4 13.5 13.6 13.7
Af figuren fremgår det at de stjerne-markerede punkter, der beskriver den empiriske fordeling, er fordelt rimeligt omkring den rette linje. Dvs. vi kan godtage antagelsen om at observationerne følger en normalfordeling.
EKSEMPEL4.6. Vi betragter igen de i eksempel 2.12, p. 238 anførte målinger over kundeankomsttider. Vi ønsker at undersøge, om antagelsen om, at de anførte data kan beskrives ved en eksponentialfordeling, er rimelig. Vi vil foretage denne sammenlign-ing ved hjælp af et fraktildiagram.
Vi har altså, at
F(x) = 1
?e
?x ;
og det ses, at
F
?1(p) =
?log e (1
?p):
Heraf følger, at vi skal afsætte punkterne
?
x
(i
);
?log e (1
?i
?12n )
i = 1;
;n
i et retvinklet koordinatsystem, hvor disse punkter i bekræftende fald skulle gruppere sig om en ret linie med hældningen
1. Heraf får vi, at punkterne(x
(i
);1
?i
?12n ) i = 1;
;n
indtegnet på almindeligt logaritmepapir igen vil fordele sig om en ret linie, hvis
H(x)
minder om en eksponentialfordeling.
Vi ordner observationerne og anfører de for tegning af fraktildiagrammet nødvendige størrelser i nedenstående tabel.
i x
(i
)1
?i
?n
12i x
(i
)1
?i
?n
121 4 0:975 11 52 0:475 2 11 0:925 12 58 0:425 3 16 0:875 13 62 0:375 4 17 0:825 14 71 0:325 5 29 0:775 15 127 0:275 6 36 0:725 16 127 0:225 7 41 0:675 17 128 0:175 8 43 0:625 18 157 0:125 9 45 0:575 19 186 0:075 10 46 0:525 20 211 0:025
Herefter er det intet problem at tegne fraktildiagrammet, der bliver som vist i figuren herunder.
0 50 100 150 200
10−1 100
Mellemankomsttider (ordnede) Fraktildiagram for mellemankomsttider
På grafen har vi endvidere indtegnet linien svarende til
F(x) = 1
?exp(
?x 73:35);
idet vi jo erindrer, at maximum likelihood skønnet for
var 73.35. Denne linie fås f.eks. ved at forbinde punkterne?
0;1
?F(0)
^?146:70;1
?(1
?e
?2)
;
i.e. punkterne
(0;1)
^(146:70;0:135):
Det ses, at den trappekurve, den empiriske fordeling beskriver, fordeler sig rimeligt om linien, således at vi kan godtage antagelsen, at observationerne følger en
eksponential-fordeling.
Vi repeterer nu begrebet en gruppering og definitionen på histogrammet for at få en samlet fremstilling her (jvf. p. 88).
Hvis der foreligger mange observationer fra en kontinuert fordeling, bliver ovenstående fremgangsmåde med at se på data enkeltvis for besværlig. Vi foretager da en såkaldt gruppering af materialet, d.v.s. vi inddeler det interval, der indeholder alle observa-tionerne, i et antal (lige store) delintervaller. Vi tænker os nu, at alle observationer, der ligger i et delinterval, er jævnt fordelt over delintervallet. En sådan inddeling giver anledning til
DEFINITION4.3. Den tæthedsfunktion, som er konstant i ethvert delinterval, og hvis integral over ethvert interval er proportional med antallet af observationer i intervallet,
kaldes det til inddelingen svarende histogram. N
DEFINITION4.4. Den til et histogram svarende fordelingsfunktion kaldes en
sumpoly-gon. N
Når man i en konkret situation skal vælge en inddeling, kan man som håndregel an-vende følgende formel til bestemmelse af det nødvendige antal intervaller
k = 1 + 1:44
log e n:
Det må dog indskærpes, at der tale om en empirisk begrundet regel, som er udmærket i mange situationer, men som ingenlunde garanterer en fornuftig inddeling.
Ved en gruppering er det endvidere hensigtsmæssigt at angive klassegrænserne med én decimal mere end observationerne, således at der ikke opstår tvivl om, hvilken klasse en observation skal anbringes i.
Hvis man vil sammenligne sumpolygonen
H
for et grupperet materiale med en fordel-ingsfunktionF
, afbilder man altså punkternet i ;F
?1?H(t i )
i = 1;
;n;
hvor
t i
er øvre intervalgrænse i klasse nr.i
, i et fraktildiagram.Vi giver et eksempel til belysning af den ovenfor omtalte teknik.
EKSEMPEL4.7. Vi betragter de i eksempel 1.1 p. 88 og eksempel 2.13, p. 241, an-førte målinger af diameteren af 36 nittehoveder. Vi postulerede i eksempel 2.13, at fordelingen var normal. Denne hypotese vil vi nu undersøge. Vi har, at
x
(1)= 13:13 x
(36)= 13:63:
Vi vælger derfor - som det også er gjort i eksempel 1.1 - at inddele intervallet
(13:105;13:705)
, der omslutter alle observationer i 6 lige store dele. Vi bemærker, at intervalendepunkterne har én decimal mere end målingerne på nittehovedet. Tallet 6 er valgt i overensstemmelse med den ovenfor anførte håndregel (1+1:44log e (36) = 6:1
).Vi bestemmer nu antallet af observationer i hver klasse og får de p. 88–90 anførte ske-maer og figurer. Vi kunne nu undersøge normalitetsantagelsen ved at indtegne den teoretiske tæthedsfunktion henholdsvis fordelingsfunktion i figurerne svarende til his-togram og sumpolygon. Dette udelader vi dog og går direkte over til at betragte frak-tildiagrammet.
På et såkaldt sandsynlighedspapir kan afsættes punkterne
(13:205;0:08);
;(13:605;0:94):
Vi indtegner endvidere linien, der svarer til en
N(^; ^
2)
-fordeling, hvor^ = 13:376
^
2= 0:125
2er maximum likelihood skøn over
og2. Dases det, at linien svarende til
N(;
2)
går gennem punkterne(;50%)
^( + ;84:1%)
^(
?;15:9%):
Vi bemærker, at punkterne grupperer sig tilfældigt om linien, hvorfor vi ikke vil afvise
hypotesen om normalitet.
Vi vil ikke fordybe os mere i metoder til grafisk testning og til empirisk formulering af en fordelingslov, men blot henvise til [25], hvor der især, hvad angår normalfordelin-gen, findes en indgående beskrivelse af metoderne. I [23] findes der afbildet sandsyn-lighedspapir til brug for undersøgelser af ekstremværdifordelinger.