• Ingen resultater fundet

Ensidet variansanalyse

In document En Introduktion til Statistik (Sider 119-129)

4.2 Kontrol af fordelingslov

5.1.1 Ensidet variansanalyse

Vi introducerer problemstillingen ved hjælp af

EKSEMPEL5.1. På en virksomhed, hvor man fremstiller gødningsstoffer, har man målt det procentuelle indhold af kali

K

2

O

i nogle stikprøver, man har taget fra 4 forskel-lige produktionsgrene. Man målte følgende data

413

Produktionsgren

A B C D

11.9 15.9 13.9 15.6 9.0 17.2 14.6 18.3 10.2 21.0 16.1 14.6 8.5 17.1 14.9 16.9 13.6 19.0 13.7 14.7 11.3 23.2 12.4 –

Som det fremgår, mislykkedes en af analyserne. Årsagen til, at man har taget oven-stående målinger, kunne være, at der har været fremført klager over for stærkt vari-erende indhold af kali i gødning stammende fra forskellige grene. Man ønsker derfor at få undersøgt variationen i kaliindholdet i ovenstående 4 stikprøver.

For at kunne foretage en statistisk analyse af en situation som ovenstående må vi først formulere en matematisk model. Vi har givet

k

stikprøver (i eksemplet 4) med

n

1

;

;n k

(i eksemplet 6, 6, 6, 5) realiserede udfald af stokastiske variable

1 : X

11

;

;X

1

n

1

2 : X

21

;

;X

2

n

2

...

k : X k

1

;

;X kn

k

:

Vi antager nu, at

X

’erne

1. er indbyrdes uafhængige 2. er normalt fordelte 3. har samme varians

2.

Vi forudsætter endvidere, at der er homogenitet inden for grupper , d.v.s. at variable i samme gruppe har samme middelværdi, i.e.

4.

E(X ij ) = i

.

Det, man nu er interesseret i, er at teste, om de

k

gruppemiddelværdier er ens, i.e. teste

H

0

:

1

=

= k

mod

H

1

:

9

i;j( i

6

= j ):

Denne hypotese kaldes (meget naturligt) hypotesen om fuldstændig homogenitet. Det

Det ses umiddelbart, at disse relationer entydigt bestemmer

og

i

. Her angiver

altså et universelt niveau, og

i

angiver den

i

’te gruppes specielle effekt. Vi kan nu omformulere vor hypotese til

H

0

:

1

=

= k = 0

mod

H

1

:

9

i( i

6

= 0):

Det er en model som den her beskrevne, der benævnes en ensidet variansanalyse-model. Vi har nu

SÆTNING5.1. Lad situationen være som beskrevet ovenfor. Da er kvotienttestet på niveau

for test af

H

0mod

H

1bestemt ved det kritiske område

C =

Bevis. Forbigås. Se f.eks. [48][p. 55].

BEMÆRKNING5.1. Det er muligt at give en heuristisk begrundelse for sætningen.

Lad os betragte de i eksempel 5.1 anførte data. Vi afbilder dem i et koordinatsystem som anført nedenfor.

A B C D

5 10 15 20 25

− Gennemsnit af samtlige. obs.

−− Gennemsnit af obs. i batch

Gren

Kaliindhold

Vi ser nu, at tælleren i teststørrelsen, i.e.

k

?

1 1

k

X

i

=1

n i ( X i

?

X)

2

er summen (vægtet) af kvadraterne på de enkelte gruppemiddelværdiers afvigelse fra den totale middelværdi, d.v.s. den er et udtryk for variationen mellem de enkelte grupper. Hvis

H

0er sand, er den et centralt skøn over

2.

Nu er

N 1

?

k

k

X

i

=1

n

i

X

j

=1

(X ij

?

X i )

2

= 1

P

(n i

?

1)

?

(n

1?

1)S

12

+

+ (n k

?

1)S k

2

;

hvor

S i

2

= 1 n i

?

1

n

i

X

j

=1

(X ij

?

X i )

2

d.v.s. nævneren er et vejet gennemsnit af variansskønnene beregnet for hver gruppe.

Ifølge reproduktionssætningen for

2-fordelingen (p. 195) er nævneren derfor et cen-tralt skøn over

2(jfr. p. 261). Dette skøn er beregnet på grundlag af variationen inden for grupper. Det er nu intuitivt klart, at et rimeligt test vil være at forkaste hypotesen

H

0, at middelværdierne i grupperne er ens, hvis gruppegennemsnittene afviger "for meget" fra hinanden. Nu er det ikke klart, hvad "for meget" er; vi må finde en størrelse at måle afvigelsen relativt til, og det er da rimeligt at vælge et skøn over variansen beregnet på grundlag af variansskøn fra de enkelte grupper. Det virker derfor rimeligt,

at det kritiske område har den anførte form. H

Det er mindre indlysende, at teststørrelsen er

F(k

?

1;N

?

k)

-fordelt. Dette følger af SÆTNING5.2. Der gælder

k

Under

H

0gælder endvidere, at de 2 kvadratsummer på højresiden er stokastisk uafhængige og

2

2-fordelte med

N

?

k

henholdsvis

k

?

1

frihedsgrader.

Bevis. Spaltningen af kvadratsummen på venstresiden fås ved direkte regning:

X

ifølge definitionen på

X i

.

Resultaterne vedrørende uafhængigheden og fordelingen af kvadratsummerne følger af Sætning 1.77, side 195 (se f.eks. [34] eller [48, p. 419 eller p. 127]).

BEMÆRKNING5.2. Vi ser, at vi har fået spaltet observationernes variation om det "to-tale" middel op i observationernes variation om gruppemiddeltallene plus gruppemid-deltallenes variation om det totale middel. Vort test er baseret på disse komponen-ters indbyrdes størrelsesforhold, d.v.s. det er en analyse af variationerne omkring de forskellige middelværdier. Heraf kommer navnet variansanalyse. H

En umiddelbar følge af sætningen og definition 1.45, p. 201, er følgende KOROLLAR5.1. Under hypotesen om fuldstændig homogenitet er

Z =

Under den numeriske behandling kan det være hensigtsmæssigt at anvende følgende regneskema:

Vi beregner nu let kvadratafvigelsessummerne:

SAK

0

=

X

Resultaterne samles sædvanligvis i et såkaldt variansanalyseskema:

Variation

SAK f S

2 Teststørrelse

Mellem grupper

SAK

2

k

?

1 SAK

2

=(k

?

1)

Z =

SAKSAK21

= =

((

N k

?1)?

k

) Inden for grupper

SAK

1

N

?

k SAK

1

=(N

?

k)

Total

SAK

0

N

?

1

Ved test på niveau

er det kritiske område

C =

f

(x

11

;

;x kn

k

)

j

z > F(k

?

1;N

?

k)

1?

g

:

Hvis

H

0accepteres, kan vi som skøn over variansen

2anvende

N 1

?

1SAK

0

= 1 N

?

1

X

i

X

j (X ij

?

X)

2

:

Hvis

H

0ikke accepteres, anvendes

N 1

?

kSAK

1

= 1 N

?

k

BEMÆRKNING5.3. Formålet med en ensidet variansanalyse er som nævnt at fork-lare den totale variation

SAK

0 ved at spalte den i et bidrag, der skyldes variatio-nen mellem grupper, (

SAK

2), og et bidrag, der skyldes variationen indenfor grup-per, (

SAK

1). Såfremt hypotesen

H

0 accepteres, er der ikke nogen signifikant forskel mellem grupperne, og den totale variation kan ikke forklares ved andet end tilfældige målefejl. Omvendt, hvis

H

0afvises, så er der en signifikant forskel mellem grupperne, som forklares af forskellen mellem grupperne udtrykt gennem

SAK

2. Tilbage er blot de tilfældige målefejl, som bidrager med

SAK

1til den totale variation

SAK

0. Dette

svarer til, at estimatet på

2, som er variansen på den tilfældige målefejl, afhænger af

testets udfald. H

Vi vil nu bestemme maximum likelihood skøn over

og

i

,

i = 1;

;k

. Ifølge

sætning 2.11 p. 253, kan disse findes ved hjælp af mindste kvadraters metode. Vi skal vælge

og

i

således, at

f(;

1

;

; k ) =

X

i

X

j (x ij

?

?

i )

2

minimaliseres. Vi har

@f @ =

?

2

X

i

X

j (x ij

?

?

i )

=

?

2

hX

i

X

j x ij

?

N

?X

i n i

i

i

=

?

2

hX

i

X

j x ij

?

N

i

;

d.v.s.

@f @ = 0

,

= x:

Endvidere er

@ @f i =

?

2

X

j (x ij

?

?

i )

=

?

2n i (x i

?

?

i ):

Heraf fås

@ @f i = 0

,

i = x i

?

:

Ved en sammenfatning af disse relationer fås

^ = X = 1N

X

i

X

j X ij

^ i = X i

?

X = 1n i

X

j X ij

?

1 N

X

X

j X j :

Eksempel 5.1 fortsættes i

EKSEMPEL5.2. Vi er nu i stand til at gennemføre et test for, om kaliindholdet fra de 4 grene kan antages at være ens. Vi forudsætter, at vi har indbyrdes uafhængige stokastiske variable, der er normalt fordelte med samme varians. Endvidere forudsætter vi, at der er homogenitet inden for grupper. Vi skal ikke i dette eksempel komme ind på undersøgelsen af rimeligheden af disse forudsætninger, men blot konstatere, at en sådan undersøgelse ikke må mangle ved løsningen af et praktisk problem. Idet vi anvender de ovenfor anførte betegnelser, vil vi nu teste

H

0

:

1

=

= k = 0

mod

H

1

:

9

i( i

6

= 0):

Vi har en ensidet variansanalysemodel. Beregningsskemaet bliver, idet vi udelader observationssøjlen:

i n i S i SK i S i

2

=n i SAK

1

i f i 1 6 64:5 711:55 693:375 18:175 5 2 6 113:4 2181:30 2143:260 38:040 5 3 6 85:6 1229:04 1221:227 7:813 5 4 5 80:1 1293:11 1283:202 9:908 4

Total

23 343:6 5415:00 5341:064 73:936 19

Heraf fås:

SAK

0

= 5415:00

?

5133:085 = 281:915 SAK

1

= 73:936

SAK

2

= 5341:064

?

5133:085 = 207:979:

Variansanalyseskemaet bliver

Variation

SAK f s

2 Test

Mellem grene

Inden for grene

207:979 73:936 3

19 69:326

3:891 17:817

Total

281:915 22

Nu er

F(3;19)

99

:

95%

= 9:42

, d.v.s. vi vil forkaste hypotesen, i hvert fald på alle niveauer større end

0:0005

. Vi vil derfor konkludere, at der er et varierende indhold af kali i gødning fra de forskellige grene.

Vi har derfor, at kaliindholdet i en gødning fra batch nr.

i

beskrives ved

X ij

2

N( + i ;

2

);

hvor

^

2

= sak 19 = 3:891 = 1:97

1 2

og

^ = x = 14:94

^

1

= x

1?

x =

?

4:19

^

2

= x

2?

x = 3:96

^

3

= x

3?

x =

?

0:67

^

4

= x

4?

x = 1:08

Vi kan nu formulere vor konklusion således, at kaliindholdet i gødningerne fordeler sig om en middelværdi, der er estimeret til

14:94%

, plus et bidrag, der afhænger af produktionsenhed. Variansen af udfaldene er estimeret til

3:891 = 1:97

2, dvs. en

spredning på 1.97.

In document En Introduktion til Statistik (Sider 119-129)