(x
1;
;x k )
jXk
i
=1?
x i
?np i (^)
2np i (^) >
2(k
?1
?r)
1?)
;
hvor
^= (^
1;
; ^ r )
er et maximum likelihood skøn over.Bevis. Forbigås. Se f.eks. [35][p. 423].
BEMÆRKNING3.9. Sætningen er ikke helt præcis i udformningen. Der skal således bl.a. gælde, at ingen af parametrene
i
kan beregnes ud fra der
?1
øvrige. Endvidere skal funktionernep i ()
have kontinuerte afledede med hensyn til allei
. Endelig skal vi bemærke, at det er tilstrækkeligt, at estimatorerne^
1;
; ^ r
er asymptotisk effi-ciente. Dette indebærer f.eks., at vi kan anvende estimatorer, der kun asymptotisk erlig maximum likelihood estimatorerne. H
Vi skal nu betragte nogle anvendelser af sætningen.
3.2.8 Test i kontingenstabel
Vi vil først omtale de såkaldte kontingenstabeller. I dette tilfælde er udfaldet af det tilfældige eksperiment karakteriseret ved 2 egenskaber, i.e. den ene egenskab er netop 1 af visse udtømmende og hinanden udelukkende hændelser
A
1;
;A r
og den andentilsvarende med
B
1;
;B s
. Eksperimentet er gentagetn
gange, ogX ij
betegner hyppigheden af hændelsenA i
\B j
. Vi ordner vore data i et skema somB
1B s
A
1X
11X
1s
... ... ...A r X r
1X rs
(3.3)
Det er et skema som (3.3), der benævnes en kontingenstabel (engelsk: contingency=mu-lighed).
Vi sætter sandsynligheden for at få et udfald i klassen
A i
\B j
ligp ij
, i.e.p ij = P(A i
\B j ):
Af beviset for sætning 3.4 fås nu, at
r
X
i
=1s
X
j
=1(X ij
?np ij )
2np ij
asymptotisk 22(rs
?1):
(3.4)Man vil nu hyppigt være interesseret i at undersøge, om der er uafhængighed mellem de to inddelingskriterier, i.e. om
P(A i
\B j ) = P(A i )P(B j )
8i;j:
Her er den marginale sandsynlighed for hændelsen
A i
:P(A i ) =
Xs
j
=1P(A i
\B j ) =
Xs
j
=1p ij :
Denne størrelse betegnes kort
p i :
, hvor punktummet angiver, at der er summeret over det pågældende index. Tilsvarende defineresp: j
. Vi kan nu formulere vort problem som et testproblem med hypoteseH
0: p ij = p i
p
j
8i;j;
hvor
p i
=
Xs
j
=1p ij ; p
j =
Xr
i
=1p ij ;
mod alle alternativer.
Vi estimerer parametrene
p i
ogp
j
ved de respektive relative hyppigheder^p i
= X n ; X i
i
=
Xs
j
=1X ij
^p
j = X n ; X
j
j =
Xr
i
=1X ij :
Vi indsætter nu
p ij = ^p i
^p
j
i (3.4) og får derved størrelsenZ =
Xr
i
=1s
X
j
=1?
X ij
?n(X i
=n)(X
j =n)
2n(X i
=n)(X
j =n) :
(3.5)Da
p
j = p i
= 1
, har vi estimerets
?1+r
?1
parametre. Ifølge (bemærkningerne til) sætning 3.5 er derforZ
asymptotisk 22?rs
?1
?(r + s
?2)
=
2?(r
?1)(s
?1)
under
H
0. Af den samme sætning følger nu direkteSÆTNING3.6. I kontigenstabellen (3.3) er kvotienttestet på niveau
for hypotesen om uafhængighed mellem inddelingskriterierne asymptotisk ækvivalent med testet givet ved det kritiske områdeC =
n(x
11;
;x rs )
jXr
i
=1s
X
j
=1?
x ij
?n(x i
=n)(x
j =n)
2n(x i
=n)(x
j =n)
>
2?(r
?1)(s
?1)
1?o
:
Vi skal nu give et eksempel på anvendelsen af sætningen.
EKSEMPEL3.18. På et laboratorium karakteriserer man visse metallegeringer ved deres hårdhed (lille, normal, stor) og ved deres elasticitet (lille, normal, stor). For at få oplyst, om der er sammenhæng mellem disse 2 egenskaber, har man foretaget en analyse af 100 prøver. Man fik følgende data.
Antal Hårdhed Total Lille Normal Stor
Lille 10 8 3 21
Elasticitet: Normal 12 21 7 40
Stor 7 22 10 39
Total 29 51 20 100
Vi undersøger, om der er nogen sammenhæng ved at teste, om der er uafhængighed mellem inddelingskriterierne.
Vi bestemmer først estimater over de forventede antal i hver klasse. De bliver Estimeret
forventet Lille Normal Stor Total antal
Lille 6.09 10.71 4.20 21.00
Normal 11.60 20.40 8.00 40.00
Stor 11.31 19.89 7.80 39.00
Total 29.00 51.00 20.00 100.00 Her beregnes f.eks. værdien i klassen (E stor, H lille) som
x
3x
1n = 39
29
100 = 11:31:
Ved hjælp af dette skema findes den observerede værdi af teststørrelsen (3.5) let. Den er
z = (10
?6:09)
26:09 +
+ (10
?7:80)
27:80 = 6:182:
Det kritiske område er ved et test på niveau
approksimativt lig medC =
(x
11;
;x
33)
jz >
2?(3
?1)(3
?1)
1?=
(x
11;
;x
33)
jz >
2(4)
1?:
Da
6:182 <
2(4)
0:
90, vil vi derfor acceptere hypotesen på alle niveauer mindre end10%
. Med det foreliggende materiale er der derfor ikke påvist sammenhæng mellemde 2 inddelingskriterier.
3.2.9 Homogenitetstestet
Vi vil til slut give et test for homogenitet af
k
(observerede grupperede) fordelinger.Vi har givet et skema af formen
Fordeling nr. Gruppe nr. Total
1
m
1 X
11X
1m n
1... ... ... ...
k X k
1X km n k
Total
X
1X
m n
Her angiver
X ij
antallet af observationer fra deni
’te fordeling i denj
’te gruppe. To-talenn i
er lig antallet af observationer fra deni
’te fordeling, d.v.s.n i = X i
=
Xj X ij :
Endvidere har vi igen anvendt betegnelsen
X
j =
Pi X ij
.Vi ønsker nu at undersøge hypotesen
H
0, at dek
observerede fordelinger er tilfældige stikprøver fra den samme population, i.e. at sandsynligheden for at falde i denj
’tegruppe
(j = 1;
;m)
er ens for alle fordelinger (homogenitet). Denne sandsynlighed kan derfor sættes ligj
underH
0.Da
(X i
1;
;X im )
2Pol(n i ;
1;
; m )
, hvis ovenstående hypotese er korrekt, erm
X
j
=1(X ij
?n i j )
2n i j
asymptotisk 22(m
?1):
Af
2-fordelingens reproduktivitetssætning (p. 106) følger nu, atk
X
i
=1m
X
j
=1(X ij
?n i j )
2n i j
asymptotisk 22?k(m
?1)
(3.6)under
H
0. Parametrenej
estimeres naturligvis ved de tilsvarende relative hyppigheder, i.e.^ j = X n ; j = 1;
j
;m:
Indsættes disse estimatorer i (3.6), fås størrelsen
Z =
Xk
i
=1m
X
j
=1(X ij
?n i X
j =n)
2n i X
j =n
(3.7)Da vi har estimeret
m
?1
uafhængige parametre (idetP
j = 1
), får vi som før, atZ
asymptotisk 22?k(m
?1)
?m + 1
=
2?(k
?1)(m
?1)
:
Efter disse betragtninger er det nu klart, at vi har
SÆTNING3.7. Kvotienttestet på niveau
for homogenitetshypotesenH
0mod alle al-ternativer er asymptotisk ækvivalent med testet ved det kritiske områdeC =
n(x
11;
;x km )
jXk
i
=1m
X
j
=1(x ij
?n i x
j =n)
2n i x
j =n
>
2?(k
?1)(m
?1)
1?o
:
BEMÆRKNING3.10. Vi ser, at teststørrelsen beregnes på samme måde som teststør-relsen for uafhængighedstestet i kontigenstabellen. Vi ser endvidere, at de asympto-tiske fordelinger ligeledes stemmer overens, således at det, hvad angår de numeriske betragtninger, er underordnet, om man opfatter situationen på den ene eller den anden måde. Det er dog vigtigt, at man gør sig klart, at modellerne er forskellige. I kontigen-stabellen er totalen
n
givet, og ved homogenitetstestet er det rækkemarginalsummernen
1;
;n k
, der er givne. HVi illustrerer sætningen med
EKSEMPEL3.19. På en levnedsmiddelfabrik ønsker man at undersøge 3 forskellige konserveringsmidlers indflydelse på den færdige vares udseende.
Man har derfor bedømt en række prøver behandlet med et af de 3 konserveringsmidler efter udseendet. Man anvendte følgende klasser: Meget fint udseende, Fint udseende, Acceptabelt udseende og Dårligt udseende. Man fik herved data, som fremgår af ne-denstående skema.
Behandling Udseende Total Meget fint Fint Acceptabelt Dårligt
1 45 27 20 12 104
2 25 10 9 10 54
3 56 47 30 18 151
Vi vil nu teste en hypotese om, at de 3 fordelinger har samme sandsynligheder for at falde i de respektive klasser, mod alle alternativer.
Vi finder først alle marginalsummer.
1 2 3 4 Total
1 45 27 20 12 104
2 25 10 9 10 54
3 56 47 30 18 151
Total 126 84 59 40 309
Herefter kan vi let beregne estimater for de forventede antal i de enkelte grupper fra de 3 fordelinger.
n i ^ j
1 2 3 4 Total1 42.41 28.27 19.86 13.46 104.00
2 22.02 14.68 10.31 6.99 54.00
3 61.57 41.05 28.83 19.55 151.00 Total 126.00 84.00 59.00 40.00 309.00 Ved hjælp af dette skema findes den observerede værdi af teststørrelsen til
z = (45
?42:41)
242:41 +
+ (18
?19:55)
219:55 = 5:269:
Det kritiske område ved test på niveau
er approksimativtC =
f(x
11;
;x
34)
jz >
2?(3
?1)(4
?1)
1?g
=
f(x
11;
;x
34)
jz >
2(6)
1?g:
Da
5:269 <
2(6)
50%= 5:35
, vil vi acceptere hypotesen på alle niveauer mindre end50%
. Vi vil derfor ikke på det foreliggende grundlag afvise hypotesen, at de 3 behan-dlingsmetoder har samme effekt. Man siger også, at hypotesenH
0ikke er statistisksignifikant.