• Ingen resultater fundet

D ANNELSE OG TILKNYTNING AF FORMAT SAMT PÅSÆTNING AF LABEL

In document statistisk analyse i SAS ® (Sider 36-40)

5. REKODNING AF VARIABLER SAMT DANNELSE OG TILKNYTNING AF FORMATER OG

5.3. D ANNELSE OG TILKNYTNING AF FORMAT SAMT PÅSÆTNING AF LABEL

Efter rekodningen af kønsvariablen har vi det problem, at det kan være svært at huske, hvilket tal der står for hvilket køn. Jeg vil derfor danne et format, som kan knyttes til den nye variabel, således at der i stedet for ‘0’ og ‘1’ bliver skrevet ‘Piger’ og ‘Drenge’. Som nævnt er dette ikke noget, der får indflydelse på analyserne, men kun på output (SAS bruger de bagvedliggende tal i beregningerne). Jeg danner formatet således:

Der skrives det lidt ulogiske ‘library=library’, fordi formatet skal lagres i format-biblioteket, og dette bibliotek har jo netop det faste kaldenavn ‘library’. Man kan spørge, hvorfor det så ikke er lavet sådan, at man slet ikke behøver skrive noget, men det er der i hvert fald én god grund til. Hvis man ikke skriver ‘library=library’, altså bare ‘proc

20 I forhold til den tidligere viste tabel over variablen for køn figurerer drenge og piger nu i omvendt rækkefølge.

SAS skriver dem fra den mindste til den største værdi, oppefra og ned, og da ‘P’, som er større end ‘D’, har fået værdien ‘0’, som er mindre end ‘1’, så vil det være sådan.

Efter rekodning ser en frekvenstabel over den nye variabel, ‘NEWSEX’, således ud20:

Cumulative Cumulative NEWSEX Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

0 180 49.0 180 49.0

1 187 51.0 367 100.0

*Programeksempel 5.4;

proc format library=library;

value FKON 0='Piger' 1='Drenge'

; run;

format;’, så dannes der kun et midlertidigt format i workbiblioteket, der, som tidligere nævnt, slettes, når SAS lukkes ned.

Ordet ‘value’ skal altid anføres i forbindelse med denne type formater, mens

FKON’ er et selvvalgt navn for det format, der skal knyttes til den nye kønsvariabel.

Bogstavet ‘F’ i starten af navnet er blot for at nemme forståelsen; man kan kalde formatet hvad som helst - blot maksimalt otte tegn, og til forskel fra variabelnavne må det ikke slutte med et nummer. Semikolonnet, der står lige under et-tallet, kunne lige så godt være placeret umiddelbart efter det sidste anførselstegn. Det er en vanesag, hvordan man foretrækker sådanne layout-mæssige detaljer. På samme vis med størrelsen af tabulerings-indryk eller blanktegn rundt omkring.

Ekskurs: Om permanente kontra midlertidige formater

I forbindelse med format-biblioteker er det væsentligt at bemærke, at det ofte kan være en rigtig god ide udelukkende at benytte sig af formater, der er gemt i det midlertidige work-bibliotek og så blot gemme programmerne, der laver formaterne. Alene det at skulle holde styr på alle de formater, man i tidens løb får hobet op, kan være et stort problem.

Ydermere vil man ofte skulle analysere på datasæt, som andre har siddet med først, og man giver selv datasæt videre til andre. Fordelen ved de permanente formater er selvfølgelig, at de kan genbruges i efterfølgende projekter, men det kræver et gevaldigt godt overblik og en god ordenssans. Yderligere fordele ved at benytte work-biblioteket (ud over at det er nemmere at holde styr på, og man ikke risikerer at overskrive formater, der ikke skulle overskrives) er, at man ikke behøver ‘assigne’ formatbibliotek, og at de nemt kan ændres, hvis der skulle opstå behov herfor.

Selvom der altså gennemgående i denne vejledning vises eksempler med formater, der gemmes permanent, vil det derfor for mange være anbefalelsesværdigt at holde sig til formater i work-biblioteket. Meget vigtigt er det imidlertid, at man i så fald husker at gemme programmerne, der danner de midlertidige formater. Vælger man imidlertid at benytte et permanent bibliotek til sine formater, kan det være en stor fordel at få udskrevet oplysninger om samtlige formater på et givent bibliotek. Dette gøres ved hjælp af en “format”-procedure. Eksempelvis udskrives oplysninger om samtlige formater på biblioteket “library” med følgende procedure.

Programeksempel 5.5

proc format library=library fmtlib;

run;

For formatet “FKON”, som jeg lige har dannet, ser output ud som vist herunder, og det fremgår, at vi bl.a. kan se, hvilken værdi der hører til hvilket køn. Det kan synes lidt overflødigt, at der både angives start- og slutværdi på kategorierne, men det hænger sammen med, at man kan lave formater, hvor hver kategori dækker over et interval (se herom senere):

Efter denne lille ekskurs vender jeg tilbage til det konkrete eksempel. Jeg har nu oprettet et køns-format og skal derpå knytte dette til den nye køns-variabel, og samtidig vil jeg påhæfte en såkaldt label. En label er en kort forklaring/betegnelse af variablen.

Variabelnavnet må jo maksimalt fylde otte karakterer, og da et survey-datasæt ofte vil indeholde langt over 50 variabler, vil det efterhånden komme til at knibe med at huske, hvad de enkelte variabelnavne står for21. Ved at påsætte labels, kan man få forklaringer ud i output. Format og label tilknyttes således:

Format-sætningen knytter formatet ‘FKON’ til variablen ‘NEWSEX’. Det er meget vigtigt, at der er et punktum umiddelbart efter formatnavnet, og her må der ikke være nogen mellemrum. Hvis ikke der sættes et punktum, tror SAS at der er tale om et nyt variabelnavn. Man kan nemlig udmærket knytte et og samme format til flere variabler.

Man skriver blot variabelnavnene efter hinanden efterfulgt til sidst af formatnavnet plus punktum. Derefter kan sætningen afsluttes med semikolon, eller der kan fortsættes med andre formattilknytninger.

21 Et godt råd i forbindelse med navngivning af variabler, når man selv foretager en spørgeskemaundersøgelse, er at opkalde dem efter spørgsmålsnumrene, således f.eks. at variablen til spørgsmål nummer 7 får navnet ‘V07’, og hvis der er flere underspørgsmål, kan de f.eks. kaldes ‘V07A’ og ‘V07B’. ‘V’ står for ‘variabel’, men der kan benyttes et

„ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ†

FORMAT NAME: FKON LENGTH: 6 NUMBER OF VALUES: 2

MIN LENGTH: 1 MAX LENGTH: 40 DEFAULT LENGTH 6 FUZZ: STD

‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ…ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‰

‚START ‚END ‚LABEL (VER. 6.12 15MAR00:10:23:17)

‡ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‰

0‚ 0‚Piger

1‚ 1‚Drenge

Šƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ‹ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒŒ

* Programeksempel 5.6;

data SKOLE.ELEVER2;

set SKOLE.ELEVER2;

format NEWSEX FKON.;

label NEWSEX=’Køn - rekodet til numerisk’;

run;

Format- og labeltilknytningen ovenfor samt rekodningen, som jeg lavede i afsnit 5.1., kan selvfølgelig laves i ét skridt. Det ser således ud:

Og en frekvensudskrift af den formaterede kønsvariabel ser ud som følger:

hvilket som helst bogstav - variabelnavnet skal blot begynde med et bogstav (og hvis variablerne skal bruges som elementer i tabeller, skal de ende på fortløbende cifre, ikke bogstaver).

* Programeksempel 5.7;

data SKOLE.ELEVER2;

set SKOLE.ELEVER;

if SEX='P' then NEWSEX=0;

else if SEX='D' then NEWSEX=1;

else NEWSEX=.;

format NEWSEX FKON.;

label NEWSEX=’Køn - rekodet til numerisk’;

run;

’Køn - rekodet til numerisk’

Cumulative Cumulative NEWSEX Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ

Piger 180 49.0 180 49.0

Drenge 187 51.0 367 100.0

5.4. Inddeling i intervaller (fra interval- til ordinalskala) samt

In document statistisk analyse i SAS ® (Sider 36-40)