4.2 Kontrol af fordelingslov
5.1.1 Ensidet variansanalyse
Vi introducerer problemstillingen ved hjælp af
EKSEMPEL5.1. På en virksomhed, hvor man fremstiller gødningsstoffer, har man målt det procentuelle indhold af kali
K
2O
i nogle stikprøver, man har taget fra 4 forskel-lige produktionsgrene. Man målte følgende data413
Produktionsgren
A B C D
11.9 15.9 13.9 15.6 9.0 17.2 14.6 18.3 10.2 21.0 16.1 14.6 8.5 17.1 14.9 16.9 13.6 19.0 13.7 14.7 11.3 23.2 12.4 –
Som det fremgår, mislykkedes en af analyserne. Årsagen til, at man har taget oven-stående målinger, kunne være, at der har været fremført klager over for stærkt vari-erende indhold af kali i gødning stammende fra forskellige grene. Man ønsker derfor at få undersøgt variationen i kaliindholdet i ovenstående 4 stikprøver.
For at kunne foretage en statistisk analyse af en situation som ovenstående må vi først formulere en matematisk model. Vi har givet
k
stikprøver (i eksemplet 4) medn
1;
;n k
(i eksemplet 6, 6, 6, 5) realiserede udfald af stokastiske variable1 : X
11;
;X
1n
12 : X
21;
;X
2n
2...
k : X k
1;
;X kn
k:
Vi antager nu, at
X
’erne1. er indbyrdes uafhængige 2. er normalt fordelte 3. har samme varians
2.Vi forudsætter endvidere, at der er homogenitet inden for grupper , d.v.s. at variable i samme gruppe har samme middelværdi, i.e.
4.
E(X ij ) = i
.Det, man nu er interesseret i, er at teste, om de
k
gruppemiddelværdier er ens, i.e. testeH
0:
1=
= k
modH
1:
9i;j( i
6= j ):
Denne hypotese kaldes (meget naturligt) hypotesen om fuldstændig homogenitet. Det
Det ses umiddelbart, at disse relationer entydigt bestemmer
ogi
. Her angiveraltså et universelt niveau, og
i
angiver deni
’te gruppes specielle effekt. Vi kan nu omformulere vor hypotese tilH
0:
1=
= k = 0
mod
H
1:
9i( i
6= 0):
Det er en model som den her beskrevne, der benævnes en ensidet variansanalyse-model. Vi har nu
SÆTNING5.1. Lad situationen være som beskrevet ovenfor. Da er kvotienttestet på niveau
for test afH
0modH
1bestemt ved det kritiske områdeC =
Bevis. Forbigås. Se f.eks. [48][p. 55].
BEMÆRKNING5.1. Det er muligt at give en heuristisk begrundelse for sætningen.
Lad os betragte de i eksempel 5.1 anførte data. Vi afbilder dem i et koordinatsystem som anført nedenfor.
A B C D
5 10 15 20 25
− Gennemsnit af samtlige. obs.
−− Gennemsnit af obs. i batch
Gren
Kaliindhold
Vi ser nu, at tælleren i teststørrelsen, i.e.
k
?1 1
k
X
i
=1n i ( X i
?X)
2er summen (vægtet) af kvadraterne på de enkelte gruppemiddelværdiers afvigelse fra den totale middelværdi, d.v.s. den er et udtryk for variationen mellem de enkelte grupper. Hvis
H
0er sand, er den et centralt skøn over2.Nu er
N 1
?k
k
X
i
=1n
iX
j
=1(X ij
?X i )
2= 1
P
(n i
?1)
?
(n
1?1)S
12+
+ (n k
?1)S k
2;
hvor
S i
2= 1 n i
?1
n
iX
j
=1(X ij
?X i )
2d.v.s. nævneren er et vejet gennemsnit af variansskønnene beregnet for hver gruppe.
Ifølge reproduktionssætningen for
2-fordelingen (p. 195) er nævneren derfor et cen-tralt skøn over2(jfr. p. 261). Dette skøn er beregnet på grundlag af variationen inden for grupper. Det er nu intuitivt klart, at et rimeligt test vil være at forkaste hypotesenH
0, at middelværdierne i grupperne er ens, hvis gruppegennemsnittene afviger "for meget" fra hinanden. Nu er det ikke klart, hvad "for meget" er; vi må finde en størrelse at måle afvigelsen relativt til, og det er da rimeligt at vælge et skøn over variansen beregnet på grundlag af variansskøn fra de enkelte grupper. Det virker derfor rimeligt,at det kritiske område har den anførte form. H
Det er mindre indlysende, at teststørrelsen er
F(k
?1;N
?k)
-fordelt. Dette følger af SÆTNING5.2. Der gælderk
Under
H
0gælder endvidere, at de 2 kvadratsummer på højresiden er stokastisk uafhængige og22-fordelte medN
?k
henholdsvisk
?1
frihedsgrader.Bevis. Spaltningen af kvadratsummen på venstresiden fås ved direkte regning:
X
ifølge definitionen på
X i
.Resultaterne vedrørende uafhængigheden og fordelingen af kvadratsummerne følger af Sætning 1.77, side 195 (se f.eks. [34] eller [48, p. 419 eller p. 127]).
BEMÆRKNING5.2. Vi ser, at vi har fået spaltet observationernes variation om det "to-tale" middel op i observationernes variation om gruppemiddeltallene plus gruppemid-deltallenes variation om det totale middel. Vort test er baseret på disse komponen-ters indbyrdes størrelsesforhold, d.v.s. det er en analyse af variationerne omkring de forskellige middelværdier. Heraf kommer navnet variansanalyse. H
En umiddelbar følge af sætningen og definition 1.45, p. 201, er følgende KOROLLAR5.1. Under hypotesen om fuldstændig homogenitet er
Z =
Under den numeriske behandling kan det være hensigtsmæssigt at anvende følgende regneskema:
Vi beregner nu let kvadratafvigelsessummerne:
SAK
0=
XResultaterne samles sædvanligvis i et såkaldt variansanalyseskema:
Variation
SAK f S
2 TeststørrelseMellem grupper
SAK
2k
?1 SAK
2=(k
?1)
Z =
SAKSAK21= =
((N k
?1)?k
) Inden for grupperSAK
1N
?k SAK
1=(N
?k)
Total
SAK
0N
?1
Ved test på niveau
er det kritiske områdeC =
f(x
11;
;x kn
k)
jz > F(k
?1;N
?k)
1?g:
Hvis
H
0accepteres, kan vi som skøn over variansen2anvendeN 1
?1SAK
0= 1 N
?1
X
i
X
j (X ij
?X)
2:
Hvis
H
0ikke accepteres, anvendesN 1
?kSAK
1= 1 N
?k
BEMÆRKNING5.3. Formålet med en ensidet variansanalyse er som nævnt at fork-lare den totale variation
SAK
0 ved at spalte den i et bidrag, der skyldes variatio-nen mellem grupper, (SAK
2), og et bidrag, der skyldes variationen indenfor grup-per, (SAK
1). Såfremt hypotesenH
0 accepteres, er der ikke nogen signifikant forskel mellem grupperne, og den totale variation kan ikke forklares ved andet end tilfældige målefejl. Omvendt, hvisH
0afvises, så er der en signifikant forskel mellem grupperne, som forklares af forskellen mellem grupperne udtrykt gennemSAK
2. Tilbage er blot de tilfældige målefejl, som bidrager medSAK
1til den totale variationSAK
0. Dettesvarer til, at estimatet på
2, som er variansen på den tilfældige målefejl, afhænger aftestets udfald. H
Vi vil nu bestemme maximum likelihood skøn over
ogi
,i = 1;
;k
. Ifølgesætning 2.11 p. 253, kan disse findes ved hjælp af mindste kvadraters metode. Vi skal vælge
ogi
således, atf(;
1;
; k ) =
Xi
X
j (x ij
??i )
2minimaliseres. Vi har
@f @ =
?2
Xi
X
j (x ij
??i )
=
?2
hXi
X
j x ij
?N
?Xi n i
i
i
=
?2
hXi
X
j x ij
?N
i;
d.v.s.
@f @ = 0
,= x:
Endvidere er
@ @f i =
?2
Xj (x ij
??i )
=
?2n i (x i
??i ):
Heraf fås
@ @f i = 0
,i = x i
?:
Ved en sammenfatning af disse relationer fås
^ = X = 1N
Xi
Xj X ij
^ i = X i
?X = 1n i
X
j X ij
?1 N
X
X
j X j :
Eksempel 5.1 fortsættes i
EKSEMPEL5.2. Vi er nu i stand til at gennemføre et test for, om kaliindholdet fra de 4 grene kan antages at være ens. Vi forudsætter, at vi har indbyrdes uafhængige stokastiske variable, der er normalt fordelte med samme varians. Endvidere forudsætter vi, at der er homogenitet inden for grupper. Vi skal ikke i dette eksempel komme ind på undersøgelsen af rimeligheden af disse forudsætninger, men blot konstatere, at en sådan undersøgelse ikke må mangle ved løsningen af et praktisk problem. Idet vi anvender de ovenfor anførte betegnelser, vil vi nu teste
H
0:
1=
= k = 0
modH
1:
9i( i
6= 0):
Vi har en ensidet variansanalysemodel. Beregningsskemaet bliver, idet vi udelader observationssøjlen:
i n i S i SK i S i
2=n i SAK
1i f i 1 6 64:5 711:55 693:375 18:175 5 2 6 113:4 2181:30 2143:260 38:040 5 3 6 85:6 1229:04 1221:227 7:813 5 4 5 80:1 1293:11 1283:202 9:908 4
Total
23 343:6 5415:00 5341:064 73:936 19
Heraf fås:
SAK
0= 5415:00
?5133:085 = 281:915 SAK
1= 73:936
SAK
2= 5341:064
?5133:085 = 207:979:
Variansanalyseskemaet bliver
Variation
SAK f s
2 TestMellem grene
Inden for grene
207:979 73:936 3
19 69:326
3:891 17:817
Total
281:915 22
Nu er
F(3;19)
99:
95%= 9:42
, d.v.s. vi vil forkaste hypotesen, i hvert fald på alle niveauer større end0:0005
. Vi vil derfor konkludere, at der er et varierende indhold af kali i gødning fra de forskellige grene.Vi har derfor, at kaliindholdet i en gødning fra batch nr.
i
beskrives vedX ij
2N( + i ;
2);
hvor
^
2= sak 19 = 3:891 = 1:97
1 2og
^ = x = 14:94
^
1= x
1?x =
?4:19
^
2= x
2?x = 3:96
^
3= x
3?x =
?0:67
^
4= x
4?x = 1:08
Vi kan nu formulere vor konklusion således, at kaliindholdet i gødningerne fordeler sig om en middelværdi, der er estimeret til
14:94%
, plus et bidrag, der afhænger af produktionsenhed. Variansen af udfaldene er estimeret til3:891 = 1:97
2, dvs. enspredning på 1.97.