• Ingen resultater fundet

Andre tests for varianshomogenitet

In document En Introduktion til Statistik (Sider 190-196)

Vi anfører først en sætning, som følger af den centrale grænseværdisætning

SÆTNING5.13. Med de i afsnit 5.3.1 anvendte betegnelser har vi for

i = 1;

;k

, at

således at vi blot skal undersøge, om middelværdierne i

k

normalfordelinger med kendte varianser kan antages at være ens. Idet vi sætter

2=(n i

?

1) = a

2

i

, kan vi

som kritisk område ved test på niveau

anvende

C

1

=

Her er teststørrelsen fremkommet ved den sædvanlige opspaltning

Vi skal ikke komme ind på begrundelsen for, at det kritiske områdes størrelse bestemmes ved fraktiler i

2-fordelingen.

Dette test, hvis originale idé skyldes D.G. Kendall og Bartlett, stammer i den her viste version fra [37, p. 272]. Det udmærker sig ved ikke at være så følsomt som Bartlett’s test overfor mindre afvigelser fra forudsætningerne om, at observationerne er normalt fordelte. Vi kan her indskyde, at heller ikke variansanalyserne er følsomme over for moderate afvigelser fra normalitet (men meget følsomme over for inhomogene vari-anser).

EKSEMPEL5.11. Vi vil nu anvende det nys konstruerede test på det samme datama-teriale som i det foregående eksempel. Vi samler beregningerne i nedenstående skema.

i n i a

2

i a i Z i

0

= log e S

12

i Z i

0

=a

2

i Z i

0

=a i 1 6 0:4 0:6325 1:2906 3:2265 2:0405 2 6 0:4 0:6325 2:0292 5:0730 3:2082 3 6 0:4 0:6325 0:4466 1:1165 0:7061 4 5 0:5 0:7071 0:9070 1:8140 1:2827

Heraf får vi nu

X

1=a

2

j = 9:5

X

(Z i

0

=a i )

2

= 16:6001

X

Z i

0

=a

2

i = 11:2300:

Vi beregner nu let teststørrelsen

z = 16:6001

?

1

9:511:2300

2

= 3:33;

d.v.s. et resultat, der ligger meget tæt op ad det i eksempel 5.11 fundne. Da vi skal sammenligne med den samme fraktil i

2-fordelingen, vil vi derfor komme til samme

konklusion, nemlig at varianserne kan antages ens.

Til slut vil vi nævne et test, der er mere hensigtsmæssigt, hvis vi mistænker en enkelt af varianserne for at være større end de øvrige

k

?

1

. Det bygger på teststørrelsen

max(S

112

;

;S

12

k )

P

S

12

i :

(5.14)

Testet skyldes Cochran og kræver ydermere, at

n

1

=

= n k

. Tabeller over fordelin-gen af (5.14) findes bl.a. i Techniques of Statistical Analysis (1947).

5.4 Fordelingsfrie tests

I dette afsnit skal vi kort omtale nogle fordelingsfrie metoder, der kan anvendes i situa-tioner svarende til simple varians- og regressionsanalysemodeller. Indledningsvis vil vi kort omtale forskellige former for måleskalaer. Det vil blive godtgjort, at nogle af disse nødvendigvis fører til, at man må anvende nogle ikke-parametriske metoder, nemlig de såkaldte rangtests.

5.4.1 Måleskalaer

Når man foretager almindelige, fysiske målinger som f.eks. at veje nogle emner, tillader man sig e.g. at beregne gennemsnitsvægte af emnerne, eller man udtaler sig om, hvad vægten af halvdelen af et emne vil være (nemlig det halve). Når man foretager disse tilsyneladende uskyldige operationer, underforstår man en meget vigtig ting, nemlig at de reelle tals struktur er isomorf med strukturen af den fysiske genstand, der måles på.

At dette ikke trivielt er opfyldt, kan det følgende måske lidt søgte, men ret simple -eksempel vise.

EKSEMPEL5.12. Ved en sortering af nogle farvede emner knyttes for simpelheds skyld tallene 1, 2, 3 og 4 til de forekommende fire farver. Resultatet af optællingen kan eksempelvis være

1, 1, 2, 1, 4, 3, 3, 4, 2, 4.

En svag sjæl kunne muligvis da føle sig fristet til at beregne gennemsnittet af målingerne.

Dette er lig

2

12. En sådan operation er selvfølgelig ganske uden mening. Det fundne gennemsnit kan på ingen måde karakterisere populationen af farvede emner.

Det ovenfor anførte eksempel illustrerer en måling foretaget i en såkaldt nomial-skala eller en klassifikationsskala. En måling i en sådan skala består i, at måleobjektet klassificeres som hørende til netop en af

k

hinanden udelukkende klasser

A

1

;

;A k

,

k

2

N

. Den eneste relation, der er involveret her, er ækvivalens, i.e. at alle medlemmer af en bestemt underklasse må være ækvivalente, hvad angår den egenskab, der klassi-ficeres efter. Vi betegner ækvivalensrelationen med lighedstegnet

=

. Ved målingen er det selvsagt principielt ligegyldigt, om vi i eksempel 5.1 kalder rød for farve nr. 1 eller grøn for farve nr. 1. Det væsentlige er blot, at der til hver farve svarer netop et tal. Dette kan også udtrykkes, at de strukturbevarende transformationer netop er alle bijektive afbildninger.

Denne simple struktur influerer selvfølgelig også på de metoder, der kan tages i an-vendelse ved en statistisk analyse. Hvis man vil beskrive et sandsynlighedsmål på

en nomial skala, kan dette ikke ske på samme måde som ved mål, defineret på den reelle akse. Som "beliggenhedsmål" kan vi anvende fordelingens modus, i.e. angive den klasse, der har den største sandsynlighed. Som variationsmål kan vi anvende entropien. Kaldes

P(A i ) = p i

, defineres entropien ved

H(p

1

;

;p n ) =

?X

n

i

=1

p i log a p i ;

hvor

log a

betegner en logaritmefunktion med vilkårligt grundtal

a

. Det kan vises, at

p

1

max ;

;p

n

H(p

1

;

;p n ) = H( 1n;

; 1n)

og

p

1

min ;

;p

n

H(p

1

;

;p n ) = H(1;0;

;0):

Af disse relationer udledes, at entropien virkelig er et anvendeligt variationsmål. Yder-ligere oplysninger om entropien kan e.g. findes i [32] eller [36].

Efter et forsøg med målinger i en nomial skala vil man som regel betragte den stokastiske variable

(X

1

;

;X n )

, der angiver antallet af udfald i de forskellige klasser.

(X

1

;

;X n )

vil være polynomialt fordelte, og estimation og testning foregår som omtalt under estimation og testning i binomial- og polynomialfordelingen.

Hvis det er muligt at rangordne de emner, vi måler, siger vi, at vi måler på ordinal-skala. En sådan foreligger f.eks., når man klassificerer soldater efter militær rang, når man klassificerer børn efter intelligens etc., etc. I en ordinal-skala foreligger der foruden den simple ækvivalensrelation = også en ordningsrelation, som vi kan skrive

<

. Hvis vi vil transformere målinger, der er foretaget i en ordinal-skala, må vi tage hensyn til denne, således at de strukturbevarende transformationer bliver de monotone afbildninger.

En sandsynlighedsfordeling, der er defineret på en ordinal-skala, kan selvfølgelig delvis beskrives ved de mål, der er omtalt under nomiale skalaer. Som beliggenhedsmål kan vi endvidere anvende medianen og som variationsmål "forskelle" mellem fraktiler, f.eks. angive, hvor mange klasser, der ligger mellem

75%

- og

25%

-fraktilen.

Efter forsøg med målinger i en ordinal-skala vil man som regel betragte de stokastiske variable, der angiver observationens rang i den totale stikprøve, i.e. observationens nummer, hvis disse er ordnet efter "størrelse". De testmetoder, der kommer på tale, er de såkaldte rangtests.

En mere struktureret måleskala er den såkaldte interval-skala. Den fremkommer, når man foruden en rangfølge blandt målingerne også har en afstand mellem to vilkårlige målinger. For at sikre skalauafhængighed måles afstandene oftest relativt til afstanden mellem to faste punkter, i.e.

d

0

(x;y) = d(x;y) d(x

0

;y

0

):

Der forudsættes ikke noget "naturgivent" nulpunkt. De strukturbevarende transforma-tioner er de affine afbildninger. Et eksempel på målinger i en intervalskala er f.eks.

temperaturmålinger. En affin afbildning mellem to ækvivalente måleskalaer er e.g.

F = 95C+32;

der giver sammenhængen mellem målinger i Fahrenheit- og Celcius-skalaen.

Sandsynlighedsmål på en intervalskala kan beskrives ved de sædvanlige beliggenheds-og spredningsmål, nemlig middelværdi beliggenheds-og varians. Som stokastisk variabel anven-des sædvanligvis blot den afbildning, der angiver måletallet i en given skala (f.eks.

afbildningen, der fører

500

C

!

500

). Forsøg med målinger i intervalskala fører til de sædvanlige statistiske modeller som f.eks. normalfordelingsmodeller og andre kontinuerte sandsynlighedsfordelinger defineret på hele den reelle akse,

R

.

Hvis man på en intervalskala har et naturgivent nulpunkt, taler man om en ratio-skala.

En sådan foreligger f.eks. ved vægtmålinger eller ved ventetidsmålinger. De struk-turbevarende transformationer er de lineære afbildninger. Som eksempel kan angives overgangen fra målinger i engelske fod til meter, i.e.

F = 0:3048m

Sandsynlighedsmål på en ratioskala (NB. kun den positive del) kan foruden ved de sæd-vanlige beliggenhedsmål og spredningsmål også beskrives ved de såkaldte geometriske mål, nemlig geometrisk middelværdi og geometrisk standardafvigelse. Disse de-fineres præcist ved

g = exp

f

E(log e X)

g

g = exp

fp

V(log e X)

g

;

naturligvis forudsat, at forventningsværdierne eksisterer. Forsøg med målinger i en ratioskala fører til de modeller, man kender på

R

+, nemlig

?

-fordelingsmodeller og logaritmiske normalfordelingsmodeller.

In document En Introduktion til Statistik (Sider 190-196)