• Ingen resultater fundet

Test i kontingenstabel

In document En Introduktion til Statistik (Sider 69-76)

(x

1

;

;x k )

jX

k

i

=1

?

x i

?

np i (^)

2

np i (^) >

2

(k

?

1

?

r)

1?

)

;

hvor

^= (^

1

;

; ^ r )

er et maximum likelihood skøn over

.

Bevis. Forbigås. Se f.eks. [35][p. 423].

BEMÆRKNING3.9. Sætningen er ikke helt præcis i udformningen. Der skal således bl.a. gælde, at ingen af parametrene

i

kan beregnes ud fra de

r

?

1

øvrige. Endvidere skal funktionerne

p i ()

have kontinuerte afledede med hensyn til alle

i

. Endelig skal vi bemærke, at det er tilstrækkeligt, at estimatorerne

^

1

;

; ^ r

er asymptotisk effi-ciente. Dette indebærer f.eks., at vi kan anvende estimatorer, der kun asymptotisk er

lig maximum likelihood estimatorerne. H

Vi skal nu betragte nogle anvendelser af sætningen.

3.2.8 Test i kontingenstabel

Vi vil først omtale de såkaldte kontingenstabeller. I dette tilfælde er udfaldet af det tilfældige eksperiment karakteriseret ved 2 egenskaber, i.e. den ene egenskab er netop 1 af visse udtømmende og hinanden udelukkende hændelser

A

1

;

;A r

og den anden

tilsvarende med

B

1

;

;B s

. Eksperimentet er gentaget

n

gange, og

X ij

betegner hyppigheden af hændelsen

A i

\

B j

. Vi ordner vore data i et skema som

B

1

B s

A

1

X

11

X

1

s

... ... ...

A r X r

1

X rs

(3.3)

Det er et skema som (3.3), der benævnes en kontingenstabel (engelsk: contingency=mu-lighed).

Vi sætter sandsynligheden for at få et udfald i klassen

A i

\

B j

lig

p ij

, i.e.

p ij = P(A i

\

B j ):

Af beviset for sætning 3.4 fås nu, at

r

X

i

=1

s

X

j

=1

(X ij

?

np ij )

2

np ij

asymptotisk 2

2

(rs

?

1):

(3.4)

Man vil nu hyppigt være interesseret i at undersøge, om der er uafhængighed mellem de to inddelingskriterier, i.e. om

P(A i

\

B j ) = P(A i )P(B j )

8

i;j:

Her er den marginale sandsynlighed for hændelsen

A i

:

P(A i ) =

X

s

j

=1

P(A i

\

B j ) =

X

s

j

=1

p ij :

Denne størrelse betegnes kort

p i :

, hvor punktummet angiver, at der er summeret over det pågældende index. Tilsvarende defineres

p: j

. Vi kan nu formulere vort problem som et testproblem med hypotese

H

0

: p ij = p i

p

j

8

i;j;

hvor

p i

=

X

s

j

=1

p ij ; p

j =

X

r

i

=1

p ij ;

mod alle alternativer.

Vi estimerer parametrene

p i

og

p

j

ved de respektive relative hyppigheder

^p i

= X n ; X i

i

=

X

s

j

=1

X ij

^p

j = X n ; X

j

j =

X

r

i

=1

X ij :

Vi indsætter nu

p ij = ^p i

^p

j

i (3.4) og får derved størrelsen

Z =

X

r

i

=1

s

X

j

=1

?

X ij

?

n(X i

=n)(X

j =n)

2

n(X i

=n)(X

j =n) :

(3.5)

Da

p

j = p i

= 1

, har vi estimeret

s

?

1+r

?

1

parametre. Ifølge (bemærkningerne til) sætning 3.5 er derfor

Z

asymptotisk 2

2?

rs

?

1

?

(r + s

?

2)

=

2?

(r

?

1)(s

?

1)

under

H

0. Af den samme sætning følger nu direkte

SÆTNING3.6. I kontigenstabellen (3.3) er kvotienttestet på niveau

for hypotesen om uafhængighed mellem inddelingskriterierne asymptotisk ækvivalent med testet givet ved det kritiske område

C =

n

(x

11

;

;x rs )

jX

r

i

=1

s

X

j

=1

?

x ij

?

n(x i

=n)(x

j =n)

2

n(x i

=n)(x

j =n)

>

2?

(r

?

1)(s

?

1)

1?

o

:

Vi skal nu give et eksempel på anvendelsen af sætningen.

EKSEMPEL3.18. På et laboratorium karakteriserer man visse metallegeringer ved deres hårdhed (lille, normal, stor) og ved deres elasticitet (lille, normal, stor). For at få oplyst, om der er sammenhæng mellem disse 2 egenskaber, har man foretaget en analyse af 100 prøver. Man fik følgende data.

Antal Hårdhed Total Lille Normal Stor

Lille 10 8 3 21

Elasticitet: Normal 12 21 7 40

Stor 7 22 10 39

Total 29 51 20 100

Vi undersøger, om der er nogen sammenhæng ved at teste, om der er uafhængighed mellem inddelingskriterierne.

Vi bestemmer først estimater over de forventede antal i hver klasse. De bliver Estimeret

forventet Lille Normal Stor Total antal

Lille 6.09 10.71 4.20 21.00

Normal 11.60 20.40 8.00 40.00

Stor 11.31 19.89 7.80 39.00

Total 29.00 51.00 20.00 100.00 Her beregnes f.eks. værdien i klassen (E stor, H lille) som

x

3

x

1

n = 39

29

100 = 11:31:

Ved hjælp af dette skema findes den observerede værdi af teststørrelsen (3.5) let. Den er

z = (10

?

6:09)

2

6:09 +

+ (10

?

7:80)

2

7:80 = 6:182:

Det kritiske område er ved et test på niveau

approksimativt lig med

C =

(x

11

;

;x

33

)

j

z >

2?

(3

?

1)(3

?

1)

1?

=

(x

11

;

;x

33

)

j

z >

2

(4)

1?

:

Da

6:182 <

2

(4)

0

:

90, vil vi derfor acceptere hypotesen på alle niveauer mindre end

10%

. Med det foreliggende materiale er der derfor ikke påvist sammenhæng mellem

de 2 inddelingskriterier.

3.2.9 Homogenitetstestet

Vi vil til slut give et test for homogenitet af

k

(observerede grupperede) fordelinger.

Vi har givet et skema af formen

Fordeling nr. Gruppe nr. Total

1

m

1 X

11

X

1

m n

1

... ... ... ...

k X k

1

X km n k

Total

X

1

X

m n

Her angiver

X ij

antallet af observationer fra den

i

’te fordeling i den

j

’te gruppe. To-talen

n i

er lig antallet af observationer fra den

i

’te fordeling, d.v.s.

n i = X i

=

X

j X ij :

Endvidere har vi igen anvendt betegnelsen

X

j =

P

i X ij

.

Vi ønsker nu at undersøge hypotesen

H

0, at de

k

observerede fordelinger er tilfældige stikprøver fra den samme population, i.e. at sandsynligheden for at falde i den

j

’te

gruppe

(j = 1;

;m)

er ens for alle fordelinger (homogenitet). Denne sandsynlighed kan derfor sættes lig

j

under

H

0.

Da

(X i

1

;

;X im )

2

Pol(n i ;

1

;

; m )

, hvis ovenstående hypotese er korrekt, er

m

X

j

=1

(X ij

?

n i j )

2

n i j

asymptotisk 2

2

(m

?

1):

Af

2-fordelingens reproduktivitetssætning (p. 106) følger nu, at

k

X

i

=1

m

X

j

=1

(X ij

?

n i j )

2

n i j

asymptotisk 2

2?

k(m

?

1)

(3.6)

under

H

0. Parametrene

j

estimeres naturligvis ved de tilsvarende relative hyppigheder, i.e.

^ j = X n ; j = 1;

j

;m:

Indsættes disse estimatorer i (3.6), fås størrelsen

Z =

X

k

i

=1

m

X

j

=1

(X ij

?

n i X

j =n)

2

n i X

j =n

(3.7)

Da vi har estimeret

m

?

1

uafhængige parametre (idet

P

j = 1

), får vi som før, at

Z

asymptotisk 2

2?

k(m

?

1)

?

m + 1

=

2?

(k

?

1)(m

?

1)

:

Efter disse betragtninger er det nu klart, at vi har

SÆTNING3.7. Kvotienttestet på niveau

for homogenitetshypotesen

H

0mod alle al-ternativer er asymptotisk ækvivalent med testet ved det kritiske område

C =

n

(x

1

1;

;x km )

jX

k

i

=1

m

X

j

=1

(x ij

?

n i x

j =n)

2

n i x

j =n

>

2?

(k

?

1)(m

?

1)

1?

o

:

BEMÆRKNING3.10. Vi ser, at teststørrelsen beregnes på samme måde som teststør-relsen for uafhængighedstestet i kontigenstabellen. Vi ser endvidere, at de asympto-tiske fordelinger ligeledes stemmer overens, således at det, hvad angår de numeriske betragtninger, er underordnet, om man opfatter situationen på den ene eller den anden måde. Det er dog vigtigt, at man gør sig klart, at modellerne er forskellige. I kontigen-stabellen er totalen

n

givet, og ved homogenitetstestet er det rækkemarginalsummerne

n

1

;

;n k

, der er givne. H

Vi illustrerer sætningen med

EKSEMPEL3.19. På en levnedsmiddelfabrik ønsker man at undersøge 3 forskellige konserveringsmidlers indflydelse på den færdige vares udseende.

Man har derfor bedømt en række prøver behandlet med et af de 3 konserveringsmidler efter udseendet. Man anvendte følgende klasser: Meget fint udseende, Fint udseende, Acceptabelt udseende og Dårligt udseende. Man fik herved data, som fremgår af ne-denstående skema.

Behandling Udseende Total Meget fint Fint Acceptabelt Dårligt

1 45 27 20 12 104

2 25 10 9 10 54

3 56 47 30 18 151

Vi vil nu teste en hypotese om, at de 3 fordelinger har samme sandsynligheder for at falde i de respektive klasser, mod alle alternativer.

Vi finder først alle marginalsummer.

1 2 3 4 Total

1 45 27 20 12 104

2 25 10 9 10 54

3 56 47 30 18 151

Total 126 84 59 40 309

Herefter kan vi let beregne estimater for de forventede antal i de enkelte grupper fra de 3 fordelinger.

n i ^ j

1 2 3 4 Total

1 42.41 28.27 19.86 13.46 104.00

2 22.02 14.68 10.31 6.99 54.00

3 61.57 41.05 28.83 19.55 151.00 Total 126.00 84.00 59.00 40.00 309.00 Ved hjælp af dette skema findes den observerede værdi af teststørrelsen til

z = (45

?

42:41)

2

42:41 +

+ (18

?

19:55)

2

19:55 = 5:269:

Det kritiske område ved test på niveau

er approksimativt

C =

f

(x

11

;

;x

34

)

j

z >

2?

(3

?

1)(4

?

1)

1?

g

=

f

(x

11

;

;x

34

)

j

z >

2

(6)

1?

g

:

Da

5:269 <

2

(6)

50%

= 5:35

, vil vi acceptere hypotesen på alle niveauer mindre end

50%

. Vi vil derfor ikke på det foreliggende grundlag afvise hypotesen, at de 3 behan-dlingsmetoder har samme effekt. Man siger også, at hypotesen

H

0ikke er statistisk

signifikant.

In document En Introduktion til Statistik (Sider 69-76)