• Ingen resultater fundet

DEPENDENSSTRUKTURER I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK Eckhard Bick

N/A
N/A
Info
Hent
Protected

Academic year: 2022

Del "DEPENDENSSTRUKTURER I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK Eckhard Bick"

Copied!
31
0
0

Indlæser.... (se fuldtekst nu)

Hele teksten

(1)

I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK

Eckhard Bick

Instit u t for Lingvistik, Århus Universite t, Nord re Ringga de, DK- 8000 Århus C tel: + 4 5 - 89 4221 7 0, fax: + 4 5 - 86 2813 9 7, e - mail: lineb@hu m.a a u. d k

Abstract

The paper prese n t s some syntac tic aspec t s of an auto m a tic gra m m a r - and lexicon - based parse r for unre s t r ic te d Portu g u e s e text, ulti ma t ely inten d e d for applicatio n s like corp o r a tagging, gra m m a r teachin g and machine tran sla tio n. Gram m a t ical rules are for m u la t e d in the Cons tr ain t Gram m a r form alis m (CG) and focus on disa m b ig u a tio n and robu s t n e s s. In spite of using a highly differe n tia t e d tag set, the parse r yields correct n e s s rates - for unre s t r ict e d and unk n ow n text - of over 99% for mor p h o lo gy / POS and 97 - 98% for syntax (where work is still in progre s s), even when geared to full disa m big u a ti o n. Amo ng other thing s, argu m e n t struc t u r e, depe n d e n c y relatio n s and subcla u se func tio n are treate d in an innovative way, and the autho r argues that the stru c t u r a l infor m a ti o n conte n t of a "flat" CG- based syntac tical descri p tio n can be aug me n t e d in such a way tha t auto m a ti c tran sf o r m a t i o n into tra ditio n al tree struc t u r e s (like in DCG and PSG) is ma de possible. The parse r uses valency and sema n ti cal class infor m a t io n fro m the lexicon, but disa m bi g u a t io n on these levels is still experi me n t a l.

The syste m runs at abou t 100 word s / s e c on a 100 MHz Pentiu m base d Linux syste m, when using all levels. Morp hological and POS disa m big u a ti o n alone app ro ac h 100 0 words / s e c .

(2)

1. Oversigt

I den n e artikel pr æ s e n t e r e s en morf ologisk - syntak ti s k par se r for fri port u gisis k tekst, hvor der anven d e s Const r ai n t Gram m a r til disa m big u e ri ng af ikke kun ord klas s e r og morfologiske tags, men også depe n d e n s - og valensf o r h o l d, sam t leds æ t ni n g er s funk tio n. Parsere n er udviklet so m led i min Ph.D.- forsk ni n g om auto m a t i s k analyse af por t ugi sis k. Projektet har en leksikog r afis k baggr u n d (besk revet i mit can d. m ag. - speciale) og et maski n ove r s æ t t el s e s - pers p e k tiv, men i det følgen d e vil det være det syntak ti s k e niveau, der står i forgr u n d e n . Især vil jeg disk u te r e de særlige egens k a b e r ved en funk tio n elt udre t te t, "flad" depe n d e n s g r a m m a t i k, og vurd er e muligh ed e r n e for en auto m a ti s k tran s f o r m a ti o n til egentlige træ s t r u k t u r e r . Selv om arbej de t med par se r e n ikke er afslut t e t end n u, vil jeg forsøge en evaluerin g af nogle foreløbige kvan tit ative result at e r. Endeligt skal en række ekse m p e l s æ t n i n g e r og omfat te n d e taglister gøre det muligt for læsere n selv at vurde r e par se r e n s notatio n elle konce p t i forhol d til and r e syste me r.

2. Baggrund

De fleste ord i natu r s p r o g s t e k s t e r er - isolere t set - flerty dige med hen sy n til ordkla s s e, bøjning, syntak ti s k rolle, sema n ti s k indh old m.m. Det er sæt ni ng s k o n t e k s t e n (foru d e n den ind hol d s m æ s s i ge same n h æ n g og læsere n s

"viden om verden"), der afgør hvor d a n ordet skal forstå s. Constraint Gra m m a r (CG), so m den er udviklet af Helsinki - skolen (fx. Karlsso n et.al., 1995) er en gra m m a ti s k meto d e der søger at genne m f ø r e en såda n éntydiggø rel se (disa m big u e ri n g) ved at opstille regler for hvilken af et ord s mulige læsninge r der skal vælges og hvilke læsninge r der skal forka s t e s i en given sæt ni ng s k o n t e k s t. I selve par ser e n bliver regler ne kom pilere t til et comp u t e r p r o g r a m , der som inpu t tager tekst hvor hvert ord har fået tilføjet tags for alle dets mulige morfologiske og ord klas s e - læsni nge r af en leksiko n - basere t tagger. Som outp u t leveres for hver ordfor m kun én tag - linie, med den korrek t e grun d f o r m, ord klas s e m.m.

(1) "<n u n c a > "

"nunca" ADV

"<co m o > "

"como" <r el > ADV

"como" <in te r r > ADV

"como" KS

"como" <vt > V PR 1S VFIN

"<peixe >"

"peixe" N M S

"<$. >"

[ADV=adverbiu m, KS=sub o r d i n ere n d e konjun k tion, V=verbu m , N=s u b s t a n tiv, PR=pr æ s e n s, S=sing ularis, M=mas k u lin u m , 1 = 1.pe r s o n, VFIN=finit verbu m, <rel > = r e l a tivu m ,

<inter r > = i n t e r r o ga tivu m, <vt > = m o n o t r a n s i tiv]

De fire læsninger af ordfor m e r n 'como' kaldes i CG- ter min ologien en kohorte. En typisk CG- regel til disa m b ig u e r in g af den n flerty dig he d er fx.

følgen d e:

(3)

(2) @w =! (VFIN) (NOT *- 1 VFIN) (NOT *1 VFIN)

[vælg (=!) for enhver ordfo r m (@w) læsninge n VFIN (finit verbu m) hvis der ikke (NOT) - hverken til venst re (*- 1) eller til højre (*1) - findes et andet ord der kan være VFIN.]1

Ved først at tilføje ("map p e") alle2 mulige synta k ti s k e funk tio n e r til ordfo r m e n udfr a den s ord klas s e, bøjning m.m., og herefter at disa m big u e r e den n e synta k ti s k e flerty dig he d, kan Constr ai n t Gram m a r også bruges til syntak ti s k par si ng, som det fx. er sket i Bank - of - English - projek t e t (200 millioner ord, Järvinen, 1994).

(3) "<n u n c a > "

"nunca" ADV @ADVL

"<co m o > "

"como" <vt > V PR 1S VFIN @FMV

"<peixe >"

"peixe" N M S @SUBJ @ACC @SC @OC

[@ADVL=adveerbial, @FMV=finit hovedverb u m , @SUBJ=s ub jek t, @ACC=akku s a tivobjekt,

@SC=s u bjekt p r æ di k a tiv, @OC=objekt p r æ d i ka tiv]

Tilføjelse n af de mulige syntak tis k e tags (@) har i eksem p le t resulte r et i firedo b b elt syntak tis k ambig uite t for peixe. Læsninge n so m direkt e objekt (@ACC) kan udvælges positivt med en =! - regel der ud nyt t e r verbet s tran sitivitet, men den kan lige så godt frem s t å indirek te3, - ved at være den sidst e overleve n d e læsning, efter at CG- regler har forka s t e t de andr e:

(4) @w =0 (@SUBJ) (0 N) (NOT *- 1 V3) (NOT *1 V3)

[forkas t (=0) subjektlæ s ni nge n hvis ordet (0) er et subs t a n tiv (N) og der ikke findes et verbu m i 3. perso n]

@w =0 (@SC) (NOT *- 1 <vK >) (NOT *1 <vK >)

[forkas t subjekt p r æ d i k a tivlæs nin ge n (@SC) hvis der ikke findes et kopulaverbu m (<vK>) i sæt ninge n]

@w =0 (@OC) (NOT *- 1 @ACC) (NOT *1 @ACC)

[forkas t objekt p r æ d ik a tivlæ s ni n ge n (@OC) hvis der ikke findes et direkte objekt (@ACC) i sæt nin ge n]4

1 Reglen er forenklet, idet den foru d s æ t t e r at enhver periode indeholder minds t ét finit verbu m, hvad der ikke altid er tilfælde t i overskrifter, udråb o.l. Reglen kan gøres mere sikker ved at kræve et pun kt u m (*1 PUNKTUM) eller udny t te den mulige valens relation mellem det transitive comer og den 'sikre' NP peixe (0 <vt >) (1C NP).

2 Også i mappi ng - fasen anvende s cons t rai n t - regler, og listen over mulige syntaktis ke funktion er for et beste m t ord kan sålede s gøres konteks t - afhæ ngig (og derm e d kortere).

3 Det er denne indirekte disa m big u ering, der er mest karakteris tis k for Const rain t Gram m a r, og her ligger en vigtig årsag til metode n s robus t h e d : selv sjæld ne eller ufulds t æ n d ig e konst r u k tio ne r vil få min ds t én analyse - nemlig den der overlever flest forbu d s r e gler.

Parsere n foretr æ kk e således som regel en struk t u r, der er "næsten rigtig" frem for en, der er

"tem melig forkert".

4 Alle anførte regler gør brug af "ubun d n e" konteks t be tin gels er:

*- 1 = kontek s t b e ti ng else n søges opfyld t fra og med det 1. ord til venstre (et eller andet sted til venstre)

*1 = konteks t be ti ngelse n søges opfyldt fra og med 1. ord til højre (et eller andet sted til højre)

Man kan også bruge "bundn e" konteks t be ti ngelse r, fx - 2 = andet ord til venstre, 3 = tredje ord til højre. De "bund n e" kontek s t b e ti ngelser kan i princip pe t gengives som n - gram - regler (som brugt i mange proba bilistis ke parsere), mens de "ubund n e" (*- konteks t er) er mere CG-

(4)

CG- gram m a ti k k e r er først og frem m e s t blevet beskreve t for engelsk (fx.

Karlsso n et.al., 1991), men der findes - i hver t fald på det morfologisk e niveau - projek t e r for flere andr e sprog fra såvel den germ a n s k e, roma n s k e og finno - ugrisk e sprogf a milie (svensk, tysk, fran s k, finsk m.m.). En mod e n CG- gram m a ti k for det morfologisk e niveau (ordklas s e - disa m big u e ri n ge n m.m.) består typisk af 1.000 - 2.000 regler. For engelsk opgives fejlpr oce n t e r på und er 0.3% ved en disam big u e r i ng sg r a d på 94 - 97% (Voutilainen, 1992).

3. "Flade" træstrukturer i CG- syntak s

3.1 Syntaktis k form og syntaktis k funktio n

I min pars er, som i and re Const r ai n t Gram m a r - syste me r, benytte r jeg mig af en "flad" repr æ s e n t a t io n af syntak ti s k str u k t u r. Beskrivelsen indeh ol d e r infor m a tio n om både synta ktisk fun ktion (fx argu m e n t e r som @SUBJ, @ACC) og kon s tit u e n t s t r u k t u r (synta ktisk for m ). Den sids te bliver mark e r e t ved hjælp af depe n d e n s m a r k ø r e r (<, >) som er rette t mod det pågæld e n d e syntag m e s hoved og samler kon s tit u e n t e n til en koh æ r e n t helhed med implicitte syntag m eg r æ n s e r. Hvor hoved et ikke er hovedver b e t, bliver det anfø rt ved pilespi d s e n (fx N for no min al - hoved, A for adjek t - hoved5).

Depen d e n s m a r k ø r e r bliver enten hæftet til de fun ktio n elle tags (fx @<SUBJ,

@ADVL>, @N<PRED), eller står, ved visse beste m m e r l e d, alene (fx @>N for [beste m m e r - ] præ n o m i n al).

Idet hvert ord således kun behøver at "huske" sin umid d elb a r e depe n d e n s r el a ti o n (dvs. hvad det selv er depen d e n t til), kan hele den syntak ti s k e stru k t u r besk rives lokalt (som ordr elat e r e t tag), - som i en uro, hvor den enkelte tråd kun "kend er" nøjagtig 2 af uroen s mange faste dele: i den ene ende den stang den selv hæ nge r i (hovede t, som depe n d e n s m a r k ø r e n peger på) og i den ande n ende det objekt (eller den stang) der hæ nge r i trå de n (depen d e n t e n , som depe n d e n s m a r k ø r e n peger væk fra). Hvis bare man skriver ned for hver del i uroen hvilken ande n del den skal hæ nge i, kan man faktisk godt skæ r e den i stykke r og gem m e den i en skotøjs æ s k e - den str u k t u r e lle infor m a ti o n bevares6.

Jeg vil her skelne mellem 3 hoved ty p e r af kons tit u e n t s t r u k t u r e r , so m efterfølgen d e eksem p lificeres:

specifikke.

5 Ved et adjekt h ove d forstå r jeg kerne n i et adjektiv - eller adverbialsyn t ag m e. Også attrib utivt brug te participier tilhører adjektk a t eg orien.

6 At den struk t u relle infor m a tio n både markeres og proces s e re s lokalt (på ordplan) er faktisk kongs t a n ke n i CG's syntaktisk e filosofi, og jeg vil i afsnit 3 diskutere fordelene (og ulem p er n e) ved en såda n "flad" beskrivelse, og vise hvorda n selv mere kom pleks e depen de n t e r (leds æ t n i n ger m.m.) kan håndt e re s på denne måde.

7 Reglen udsiger, at der i et syntag m e ikke kan være to argu m e n t e r med sam m e syntak tis ke funktion, med mindre der er tale om koordina tion. Fx kan hovedverb et i et sæt ning s s y n t a g m e

(5)

a) argume nt er b) frie adjunkter c) beste m m er - adjunkter

valens valens b u n d e n ikke valens b u n d e n ikke valen s b u n d e n blokeringsregel7 gyldig (dog ikke

ved koor di n a ti o n)

ikke gyldig ikke gyldig

fokuserb a r h e d kan

foku s er e s / i s o le r e s ved kløvning

kan

foku se r e s / i s o l e r e s ved kløvning

kan ikke isoleres ved kløvning a) Argu m e n t s t r u k t u r:

Argu me n t Hoved Argu m e n t

João PROP @SUBJ> come V VFIN <v t > @FMV carne N @<ACC

João spiser kød.

quer V VFIN <x > @FAUX jogar V INF @#ICL- AUX<

[Han / h u n ] vil spille

rico ADJ < + e m > @FMV em PRP @A< ouro N

@P<

rig på guld

Depen d e n s f o r h o l d e t er for argu m e n t e r n e s vedko m m e n d e også mar ke r et i tråd e n s øvre ende: hovedet bærer en valens m a r k ø r: en tag som <vt >

('mon o t r a n s i tiv t verb u m '), for eksem p el, "forvente r" et direkt e objekt (@ACC) et eller and et sted i sæt ning e n8. Rico em ouro er et ekse m p el på hvor d a n besk rivelse n hån d t e r e r flere hierar ki s k e niveaue r: præ p o si tio n e n em er hovedet for et præ p o si tio n s s y n t a g m e (dette mar ke r e s på depe n d e n t e n ouro som @P<), men samtidigt selv argu m e n t for adjektivsyn t ag m e t s hoved rico (marker e t ved @A<). I mod s æ t n i n g til engelsk og dan s k kan et pro n o m i n al t subjek t på port ugisis k inkor p o r e r e s i det finitte verb u m (fx. quer jogar ), og skal derfo r besk rives ikke som sæt ni ng s k o n s t i t u e n t, men som (fakultativ og valens s t y r et) kons tit u e n t i verbalsy n t ag m e t.

b) Struk t u r med frie adju n k t e r:

Adju n k t Hoved Adjun k t

Ontem ADV @ADVL> ele PERS @SUBJ>

veio V VFIN <ve >

@FMV

muito ADV @>A tarde ADV @<ADVL

I går han kom meget sent.

Zang a d a PCP @PRED> , saíu V VFIN @FMV sozinh a ADJ @<PRED

Sur gik [hun] (ud) alene.

således kun styre ét akkus a tiv - objekt. Reglen gælder neto p kun for argu m e n t e r og ikke for andre - frie - kons tit ue n te r (her kaldet for adjunkt e r).

8 I en rent syntak tis k sam m e n h æ n g anses valens m a r k ø re r dog for sekun d æ r e i forhold til de prim æ re tags (@- tagsen e), og et ord kan have en lang række af (potentielle) valens m a r k ø re r, og stadigvæk være syntaktis k énty digt beskrevet igenne m sit @- tag. Kun de (syntaktis k) prim æ re tags skal disa m big u ere s på det syntaktis ke niveau. Valens m a rk ø r di s a m b ig u erin g kan dog være et nyttig reds ka b på et højere analysepla n, hvor der tilsigtes polyse mi differen tiering (jf. afsnit 4).

(6)

Frie adju n k t e r er ikke valens s t y r e t og depe n d e n s e n mark er e s derfo r kun ved depe n d e n t e n: adju n k t - adver bialer (@ADVL9) peger på hovedver b e t, og frie (adju n k t - ) præ dik a tiver peger på en nomin algr u p p e (ofte subjek t e t, der igen kan være inkor p o r e r e t i det finitte verbu m).

c) Struk t u r med beste m m e r - adju n k t e r:

Præn o m i n al Hoved Postn o m i n a l

O DET <ar t > @>N grande ADJ @>N

poeta N M S flu mine nse ADJ @N<

Den store digter fra Rio.

caro ADJ M S dem ais ADV @A<

dyr for [dyr]

mais ADV <q u a n t > @>A interessado PCP M S

mere interes s e re t

Bestem m e r e er de depe n d e n t e r, der er tætte s t bun d e t til syntag m e h o v e d e t, og man kan argu m e n t e r e, at en beste m m e r s synta k tis k e funktio n neto p kun er 'beste m m e r ', og at en yderligere pr æcise ri ng af den s funktio n elle rolle (attrib u t, kvan tifikat o r m.m.) allered e fremgå r af den s ord klas s e - tag og de lekse m s p ecifikke sema n tis k e træk. Jeg nøjes derfo r med en ren depe n d e n s m a r k e r i n g (dvs. ude n funk tio n el tag på pilens "åbne" side).

3.2 Syntaktisk information si n d h o ld og ækvi vale nt e træstrukturer

Spørgs m å le t er nu, om det på den ene eller ande n måde er muligt, at omd a n n e den besk rev n e flade str u k t u r til en træ s t r u k t u r , so m ma n ken de r den fra mere "traditio n elle" besk rivelser (DCG10, PSG11 m.m.). Og, vil der i så fald være tale om infor m a tio n s t a b, eller, mod s a t, øget ambig uite t?

Begge dele, forek o m m e r det mig. På den ene side ville det koste infor m a tio n si n d h o l d, at erstat t e fun ktio n elle og depe n d e n s - tags med en ren kon s tit u e n t s t r u k t u r ("bracketi ng")12, især for verbalko m p l e m e n t e r i n ge n og på leds æ t n i n g s n ivea u, hvor mit syste m er mest differe n tie r et (funktio n og depe n d e n s mark er e s), og i noget min d r e grad ved ad - N- og ad - A- kon s t r u k ti o n e r n e (kun depe n d e n s mar ke r e s, og argu m e n t - /a d j u n k t - skellet ekspliciter e s nor m al t kun igenne m syntag m e h o v e d e t s valens t ag s, og ikke igenn e m et funk tio n elt tag for det depen d e n t e led, jf. 3.1 c).

På den ande n side vil nogle tilfæld e af un d e r s p e cifikatio n af depe n d e n s f o r h o l d blive synliggjor t, når der opbygges en eksplicit træ s t r u k t u r , som fx:

i) @N< efter post n o m i n a l der selv indeh ol d e r et no mi n alt hoved:

... o gigante Venceslau comedor de gente fam o s o ...

9 valens b u n d n e circum s t a n t ielle adverbialer tagges som @ADV (adverbialobjekt), og præ p o si tio n s s y n t a g m e r, der ikke kan ersta t te s med rene adverbier, tagges som @PIV (præp o si tion alo bjekt).

10 Definite Clause Gram m a r

11 Phrase Struct ure Gram m a r

12 Selvfølgelig kan man så vælge - når der skal trans f o r m e re s fra "flad" til træ - beskrivelse - at

"berige" den klassiske ph ras e - stru ct u r e - notatio n ved at bevare de funktio nelle og depen de n s - markø rer fra CG- notatio ne n.

(7)

@>N @NPHR @N< @N< @N< @P< @N<

I den n e sæt ning kan fa m oso syntak tis k relater e s til:

- gente (forbyde s dog af genu s - kongr u e n s k r a v)

- comedor (den rigtige løsning udfr a princip p e t om syntag m e k o h æ s i o n eller "close attac h m e n t")

- Venceslau (usan d s y nligt hoved for et adjektiv - post n o m i n al, fordi der er tale om et egen n av n)

- giga nte (kernen i den hierar ki s k øverste NP- pare n t e s i udtryk k e t) ii) koor din a tio n s p r o b l e m e r, fx enkelt - vs. dobb elt - tilh æft ni ng af et @N<

(post n o m i n a l):

... cinco ho m en s e quatro mulheres do Rio ...

(@>N @NPHR @CO @>N @NPHR) @N< @P<

eller @>N @NPHR @CO (@>N @NPHR @N< @P<)

iii) @<PRED (præ dik a tiv) efter mellem s t å e n d e nomi n ale grup p e r (som fx.

@<ACC):

... viu o amigo, exausto ... - não viu nen h u m a solução, exausta

@FMV @>N @<ACC @<PRED @ADVL> @FMV @>N @<ACC @<PRED

Her er den første sæt ni ng flertydig ved han - køns - subjek t, hvor præ dik a tivet kun n e pege på både subjek te t eller objek te t; den ande n sæt ning er ligelede s synta k tis k flerty dig (denn e gang ved hun - køns - subjek t), men ville kun n e udre d e s sem a n ti s k (løsninge r kan ikke være ud ma t t e d e).

Som det fremgå r, ville mulige løsning s s t r a t egier involvere fx. kongr u e n s [i (i), i det mind s t e for port ugi sis k], minimal attach m e n t [eller mini m al coor din a ti o n], og sema n t is k kongr u e n s mellem hoved og beste m m e r [i (iii)].

Samtidigt er det dog vanskeligt at se hvor d a n nogen som helst prim æ r t syntak ti s k beskrivelse skulle kun n e hån d t e r e den n e type ambig uite t, - hvorfo r den "flade" besk rivelses "elegant e und er s p e cifik atio n" måske end d a bur d e betrag te s som den bed s t e eller i hver t fald mest prag m a ti s k e løsning.

3.3 Auto matisk transf ormation

Følgend e skrid t kan udgøre skelettet af en algorit m e til opbygnin g af kon s tit u e n t t r æ e r udfr a en "flad" depe n d e n s b e s k r iv else som den er foreslået i min pars e r:

1. Alle adn o mi n al er (@>N, @N<) og adverbielle adjek te r (@>A, @A<) hæftes til deres hoveder, define re t so m det første ord af egnet ordkla s s e, der mød es i den af depen d e n s m a r k ø r e r n e (>, <) angivne retning. De i skrid t (1) etablere d e syntag m e r vil herefte r flyttes og koor di n e r e s som helhed e r [skridt (4) og (2)].

2. Koordin a t o r e r betrag te s som intra - syntag m a t i s k, hvor et skrid t - 1- eleme n t skal kryd se dem for at finde et hoved af egnet ordkla s s e. Ellers koor di n e r e s fun ktio n s æ k vivalen t e ord / s y n a g m e r på det højest mulige niveau der ikke bryde r uniq u e n e s s princip p e t.

(8)

3. Ledsæ t ni n g sg r æ n s e r intro d u c e r e s, hvor 2 ukoor di n e r e d e argu m e n t e r kom m e r i konflikt pga. blokering s r egle n, og mellem depe n d e n s m a r k ø r e r (af sam m e niveau) der peger i mod s a t t e retning er.

4. Argu me n t e r og adju n k t e r på (led)sæ t ni n g s niv ea u (hvad ente n de er ord, syntag m e r eller hierar kis k laveres t å e n d e leds æ t ni n g er) hæftes til nær m e s t e @MV (hovedver b u m ) i den udp eged e retning, med mi n d r e der er en mellem s t å e n d e ledsæ t n i n g sg r æ n s e - i dette tilfæld e vælges det først k o m m e n d e @MV efter den and e n (komple m e n t æ r e) ledsæ t n i n g sg r æ n s e, osv.

Den gradvise intro d u k t i o n af hierar ki s k e paren t e s e r (eller træfo r g r e n i ng s s e k tio n e r) kun n e tæn ke s at foregå som i følgen d e ekse m p el:

a) rå "flad" notatio n:

O pai de o menino que venceu compro u dez cervejas.

DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC

b) tilhæfting af præ n o m i n aler:

(O pai ) de ( o menino) que venceu compro u (dez cervejas).

DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC

c) tilhæft ning af post n o m i n al relativ og etablering af PP:

(O pai ) ( de (( o menino) que venceu )) compro u (dez cervejas).

DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC

d) afslutte t depe n d e n s b e s k r ivelse af sætninge n s førest NP:

((O pai ) ( de (( o menino) que venceu ))) compro u (dez cervejas).

DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC

e) (led)sæt ningsgr æ n s e r (markeret ved ‘- ’) intro d u c e r e s pga. sam m e n s t ø d af ukoor di n e r e t 2x @SUBJ>

og 2x @FMV (unique ne s s princip), samt subjekt / o b j e k t - tilhæft ning:

(((O pai ) ( de (( o menino) - (que venceu) - ))) compro u (dez cervejas)).

DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC

Jeg har skrevet et Perl13- progr a m, der realisere r nogle af disse princip p e r14 og tran sf o r m e r e r den flade ordb as e r e d e synta k tis k e str u k t u r til en mere traditio n el træ s t r u k t u r , hvor kons tit u e n t h i e r a r k iet og syntag m eg r æ n s e r n e synliggøres, og hvor de kom plek s e konstit u e n t e r med deres for m og funktio n indføjes som selvst æ n d ig e stør r else r imellem orden e.

Neden s t å e n d e en analyser e t sæt ni ng før og efter tra n sf o r m a t i o n e n:

(5) anlyser et teks t, i "flad", ordb a s e r e t CG- notatio n:

13 Et progra m m e ri n g s s p r o g , der er særligt velegnet til streng m a n i p ul a tion og sproglige opgaver.

14 Program m e t er eksperi m e n t elt, og opbygger - hvor CG- besk rivelsen unders p ecificerer - kun én ud af flere mulige træs t r u k t u r e r.

(9)

ordfor m grun d fo r m

valens &

sema n tik

ordklasse &

bøjnin g

syntaks

*a [a] <ar t > DET F S @>N

crise [crise] <sit > N F S @SUBJ>

apur a [apu r ar] <vt > <sN > V PR 3S IND VFIN

@FMV

o [o] <ar t > DET M S @>N

palad a r [palad a r] <a n o s t > <f h > N M S @<ACC

de [de] <sa m - > PRP @N<

o [o] < - sam > <ar t > DET M S @>N

cons u m i d or

[cons u m i r ]

<DERS - or > N M S @P<

e [e] KC @CO

valoriz a [valoriz ar] <vt > <sN > V PR 3S IND VFIN

@FMV

o [o] <ar t > DET M S @>N

dono [dono] <H > N M S @<ACC

de [de] PRP @N<

resta u r a n t e

[resta u r a n te]

<in s t > N M S @P<

que [que] <r el > SPEC M/F S/P @SUBJ> @#FS- N<

pilota [pilotar] <vt > <vH > V PR 3S IND VFIN

@FMV

a [a] <ar t > DET F S @>N

pró p ria [próp rio] <j n > ADJ F S @>N

cozin h a [cozin h a] <ejo > N F S @<ACC

[ordklass er: DET=d ete r m i n e r, N=no u n, V=verb, PRP=p re p o s i tio n, KC=coo r di n a ti ng conju n c tio n, SPEC=s pecifier - prono u n, ADJ=a djek tiv; bøjning: S=singular, P=plu r a r, M= male, F=fem ale, PR= pr es e n t, 3S=t hir d pers o n singular; derivation: <DERS - or > = s u f fik s d e rivatio n på '- or'; syntaks:

@>N = p r e n o m i n al, @SUBJ> = s u b j ec t, @FMV=finite main verb, @<ACC=accu s a tive object,

@N< = p o s t n o m i n al, @P< = a r g u m e n t of prep o sitio n, @CO=coor di n a t o r, @#FS- N< = finite subclau se functio ning as post n o m i n al; valen s: <ar t > = a r t i cle, <rel > = r e l a tive, <vt > = m o n o t r a n si tive verb;

semantik: <H > = h u m a n , < sit > = s i t u a ti o n, <ejo > = f u n c t i o n al place, <ins t > = i n s t i t u tio n,

<a n o s t > = a n a t o m i c al bone struct u r e; selektion sre gler: <fh > = h u m a n feature, <sN > = h a s non - hu m a n subject, <vH > = h a s always hum a n subject, <jn > has non - hum a n head; ortografi: < sa m - >&< - sam > = f i r s t and secon d part of fused expressio n]

(10)

(6) sam m e tekst, efter tran sf o r m a ti o n til træ s t r u k t u r , med indføjed e syntag m e - tags og hiera r kis k indryk ni n g:

@SUBJ>:np

| - @>N:DET F S *a [a] <a r t >

| - @H:N F S crise [crise] <sit >

@FMV:V PR 3S IND VFIN apur a [apu r ar] <vt > <sN >

@<ACC:np

| - @>N:DET M S o [o] <a r t >

| - @H:N M S palad a r [palad a r] <a n o s t > <f h >

| - @N<:pp

| - @H:PRP de [de] <s a m - >

| - @P<:np

| - @>N:DET M S o [o] < - sam > <a r t >

| - @H:N M S cons u m i d

or

[cons u m i r] <DERS - or >

@CO:KC e [e]

@FMV:V PR 3S IND VFIN valoriz a [valoriz ar] <vt > <sN >

@<ACC:np

| - @>N:DET M S o [o] <a r t >

| - @H:N M S dono [dono] <H >

| - @N<:pp

| | - @H:PRP de [de]

| | - @P<:N M S resta u r a n t e

[resta u r a n t e] <in s t >

| - @N<:fcl

| - @SUBJ>:SPEC M/F S/P que [que] <rel >

| - @FMV:V PR 3S IND VFIN

pilota [pilotar] <vt > <vH >

| - @<ACC:np

| - @>N:DET F S a [a] <a r t >

| - @>N:ADJ F S pró p ria [próp rio] <j n >

| - @H:N F S cozin h a [cozin h a] <ejo >

[@H=hea d, np = n o u n phrase, pp = p r e p o si tio n al phrase, fcl= finite clause, ':'= se p a r a t o r for functio n and form]

4. Hvilken slags Constraint Grammar

I princip p e t er CG en robu s t disa m b ig u e rin g s filo sofi, der ikke på én gang genere r e r en hel analyse med en beste m t "lovlig" sæt ning s s t r u k t u r , men accepte r e r ethver t inpu t og mejsler bort hvad der ikke kan være del af nogen (tillad t) str u k t u r . Her er hverk en mejslete k ni k k e n (regels æ t t e t) eller mejsler e d s k a b e r n e (regel - compiler n e) beste m t af CG- idéen so m såda n. Hver billed h u gg er beste m m e r selv hvor d a n han vil for me sit værk. Og dog ...

Histo ris k set uds p ri n ge r CG fra morfologisk analyse, de fleste syste m e r benytt er sig af en morf ologisk tonivea u - analyse (TWOL, jf. Kosken n ie mi,

(11)

1983) som præ p r o c e s s o r , og foku se r e r på morfologisk e træk og ordkla s s e r.

Den gra m m a ti s k e besk rivelse er derfo r i høj grad ord ba s e r e t og imple me n t e r e s ved at hæfte tags til ordfor m e r. "Flad" synta k s er en natu rlig kon sekv e n s af dette. Men uden specielle depe n d e n s f o r bi n d el s e r kan en såda n flad beskrivelse kun funger e tilfred s s tille n d e, hvor et enkelt ord bærer hele vægte n af et syntag m e s funk tio n. Der vil uvægerligt være proble m e r med depe n d e n s f o r h o l d der involverer flere forsk ellige syntak ti s k e niveaue r.

Således løber en CG- besk rivelse uden (funktio n elle) leds æ t ni n g s t ag s ind i vansk elighe d e r som følgen d e:

? (Led)sæt n i ng sg r æ n s e r, selv hvor de synliggøre s, er ikke udlagt hierar kis k, hvorfo r der kan være proble m e r med uklar e sæt ni ng s tilh ø r s f o r h o l d (fx efter indsk u d t e relativs æ t ni n g er).

? Visse valenst r æ k "udfylde s" ikke altid, som fx. i tilfæld e af "manglen d e"

subjek t på engelsk ('Visiting the Louvre was not his only reason for coming to Paris'), eller manglen d e akku s a tiv - objekte r (‘that / q u e / a t’ - sæt ning er efter "kognitive" verber).

? "Oversky d e n d e" argu m e n t e r pga. uklare tilhø r sf o r h o l d mh t.

sæt ning s h ie r a r k i, som i ‘O perigo de os inimigos atacare m à noite era imane nte.’ , hvor både perigo og inimigos er subjek te r, noget der er imod blokering s r eg el, og kun kan løses ved at løfte det and et subjek t s hovedver b u m (atacare m) ud af matrix s æ t n i n g e n og besk rive det som (ledsæ t ni n g s - )argu m e n t til den foru dg åe n d e præ p o si tio n 'de'.

? Nedsat infor m a tio n s i n d h o l d i sam m e n lig ni ng med en træ s t r u k t u r (jf.

ovenfor).

Jeg mene r at det ved at skelne mellem CG so m disa m b ig u e ri n g s t e k n i k på den ene side, og den ud m ej sled e gram m a t i s k e besk rivelse på den and e n side, er muligt at skabe en for m for flad repr æ s e n t a t io n der er funk tio n elt ækvivalen t til træ s t r u k t u r e r og so m kan hån d t e r e argu m e n t - og valens s t r u k t u r e r på en hierar kis k måde.

Min meto d e har været (a) at forsyn e alle de synta k ti s k e tags med

"retted e" depen d e n s m a r k ø r e r (jf. ovenfo r), og (b) at hæfte 2 tags til de centr ale forbin d e r o r d ("comple m e n ti z e r" som: sub o r di n e r e n d e konju n k ti o n e r, relativer og interr o g a tiver) i finitte og absolu t t e leds æ t n i n ge r, sam t til infinitiver, geru n d ie r og participier i infinitte leds æ t n i n ge r15. Disse ord vil så bære både en "indadve n d t" tag (@...) der beskriver deres funk tio n i leds æ t ni n g e n, og en "udadve n d t" tag (@#...) der besk river leds æ t n i n g e n s egen ledfu n k ti o n i sæt ni nge n s depe n d e n s h i e r a r k i. Teknisk set hån d t e r e s @- tags og @#- tags som to adskilte lister, såled es at "indadve n d t e" og "udadve n d t e"

tags kan disam b ig u e r e s uafh æ n gig af hinan d e n , af distin k te regelmo d u le r.

(7) Sabe [saber] <vq > V PR 3S IND @FMV

que [que] KS @#FS- <ACC @SUB

os [o] <ar t > DET M P @>N

proble m a s [proble m a] N M P @SUBJ>

15 En ande n metod e til funktionel tagging af ledsæ t ni ng er beskrives af Voutilainen (1994).

Her er det hovedverb et, der bærer leds æ t ni ng e n s tag (...@), men s depen d e n s f o r h o l d e n e gøres mere eksplicitte ved at inds æ t t e markører for leds æ t ni ng s g r æ n s e r, og ved at skelne mellem argu me n t e r af henhol d svis finitte og infinitte verbaler.

(12)

são [ser] <vK > V PR 3P IND @FMV

graves [grave] ADJ M/F P @<SC

$.

[@FMV = finite main verb, @#FS- <ACC = finite subclau se, functio ning as direct (accusative) object attach e d to a main verb to the left, @SUB = subor di n a t o r, @>N = preno mi n al modifier,

@SUBJ> = subject for a main verb to the right, @<SC = subject comple m e n t for a (copula) verb to the left, V = verb, KS = subo r di na ti ng conju nctio n, DET = deter mine r, N = noun, ADJ

= adjective, PR = prese n t tense, IND = indicative, 3S = third perso n singular, 3P = third pers o n plural, M = male, F = female, S = singular, P = plural, <ar t > = article, <vq > = cognitive verb, <vK > = copula verb]

5. Et teleologi sk bedø m m e l s e s p e r s p e k ti v

Når man sam m e n lig ne r forsk ellige synta k ti s k e besk rivelse r, udgø r infor m a tio n si n d h o l d og kons tit u e n t s t r u k t u r kun to af de mulige bedø m m el s e s p e r s p e k t ive r, og begge må ses i lyset af et beste m t teoretis k baglan d, som fx funk tio n el (FG) eller genera tiv gra m m a ti k. Det kan imidlerti d være intere s s a n t at se på hvilke prak tis k e anven d el s er en beste m t besk rivelse s m o d e l retter sig imod.

Her er mit eget pers p e k tiv maski n o ve r s æ t t el s e (MT), og aspek te r som de følgen d e vil derfor få tillagt særlig vægt:

? Detaljered e ordfølgeu af h æ n gige funk tio n elle tags gør det nem m e r e at tran sf o r m e r e kildes p r o g s s t r u k t u r (SL) til måls p r og s s t r u k t u r (TL), uden at skulle intro d u c e r e for mange indviklede tra n sf o r m a t i o n s r e gle r. Således kan den dan s k e hoved s æ t n i n g s - ordfølge SVO med subje k t i forfeltet etableres direk te på trod s af den mere frie port u gisis k e ord s tilling:

(8a) O rei @SUBJ> queria @FMV mais terra @<ACC.

(8b) Queria @FMV o rei @<SUBJ mais terr a @<ACC.

(8c) - > konge n @SUBJ> ønske d e @FMV mere land @<ACC.

? Det er af stor betyd ni n g for polyse mi differ e n tie ri n ge n at vide, hvilket af et ords poten tielle valen s m ø n s t r e der er blevet realiseret i en given (led) sæt ning s k o n t e k s t, og hvilken sema n ti s k klasse udfyld er en given valens pla d s (slot). I den n e forbin d els e får valens t ag s (og selektio n s r e s t r i k tio n e r) betyd ni ng ikke kun so m seku n d æ r e tags (som udelu k k e n d e bruges til at disa m big u e r e morf ologis ke / s y n t a k ti s k e tags), men også som selvst æ n d ige prim æ r e tags, der kan og skal disa m big u e r e s:

(9aa) rever <vt > 'gense' realiser et valen s: tran sitiv <vt >

(9ab) rever <vi > 'sive igenne m' realisere t valens:

intra n si tiv <vi >

(9ba) revista < + n > < r r > 'avis' realisere t valens:

titel < + n > , sema n ti s k klasse: læsest o f <r r >

(9bb) revista <CP > 'insp e k ti o n' realisere t

sema n ti s k klasse: + CONTROL, + PERFEKTIV

(13)

? De ovenfo r omtalte proble m e r med und er s p e cifik atio n af post n o m i n al e r, koor di n a ti o n og frie no min ala d j u n k t e r bliver til et gode, når man betrag ter dem udfr a et MT- per s p e k tiv: - for det første er mange af disse tilfæld e ekse m p le r på "ægte flertydig he d", der kun kan tydes af den fuldt konte k s t u a lise r e d e - men n e s k elige - lytter / l æ s e r (og und er alle oms t æ n d ig h e d e r er der tale om ægte syntaktisk flerty digh e d). - Og for det ande t er en rækk e af disse str u k t u r elle ambig uite te r (især koor din a tio n (11a) og "kort" (10b) vs. "lang" (10a) tilhæf t ni n g af post n o m i n a le præ p o si tio n s s y n t a g m e r) forh old svis univer selle, dvs. sprog u af h æ n g ig, således at de kan bevare s i overs æ t t els e n, der basere s direkte på den

"flade" besk rivelse (10c).

(10a) Han hent e d e ((man d e n @<ACC med @N< cyklen @P< ) fra @N< Kina

@P< ).

(10b) Han hente d e (man d e n @<ACC med @N< (cyklen @P< fra @N< Kina

@P< )).

(10c) Foi buscar o hom e m @<ACC com @N< a bicicleta @P< de @N< a China @P<

At gøre en såda n flerty dig h e d eksplicit (for et spr og p a r der ellers hån d t e r e r den éns) ville kun belast e overs æ t t el se s m o d u l e t med irrelevan t ballast. Adjektivisk e beste m m e r e, enten post n o m i n al eller som frie adju n k t e r, er derimo d mere proble m a ti s k e, idet der kan være kong r u e n s r e l a tio n e r (11b) mellem hoved og beste m m e r:

(11a) gifte @>N kvinde r @NPHR og @CO mæ n d @NPHR (11b) home n s @NPHR e @CO mulhere s @NPHR casad as @N<

6. Statistisk evaluering

For at kun n e afpr øve nye og kon tr oller e gamle regler i min pars e r har jeg udar b ej d e t et "bench mar k" - corp u s (i alt ca. 33.000 ord), hvor der for hver flerty dige kohor t e mar ke r e s med en <Cor r ec t! > - tag hvilken læsning der er korr ek t. Pga. de mange gentes t ni n g er har regler ne efter h å n d e n kun n e t opnå fuld disa m big u e ri n g og fejlpr oce n t e r på und er 0.1% for disse arbejd s t e k s t e r. For uken d t teks t er tallene selvfølgelig lavere; alligevel er resulta t e t ikke irrelevan t. Det viser nemligt, at CG- meto d e n ikke lider und er syste mi m m a n e n t e interfere n ce - proble m e r i sam m e grad som fx. en prob abilistis k tagger baseret på en ren trigra m - HMM16, hvor der (så vidt jeg ved) selv ved gentr æ n i n g og - måling på sam m e corp u s sjælde n t opnå s fejlpr ocen t e r på un de r 3%, end ikke for ordkla s s e - tags17.

16 Hidden Markov Model, hvor de mulige sætnings a n alys er udtrykke s so m (oftest ordklas s e - ) tagsekven se r og siden vurderes for deres respektive sand sy nlighe d: at en ordfor m skulle bære en given tag beregn es som prod u k t e t af a) den leksikale san d s y nlighe d (ord / o r d kl a s s e) og b) n - gram - sand sy nlighe de n (for bigra m m e r fx. ordklas s en/or d kla s s en- 1), og hele sekvensen san d sy nlighe d igen er pro d u k t e t af de "individuelle" sand s y nligh e de r for de i sekven se n realisere de tags.

17 I en proba bilistisk tagger vil "man uelle" indgreb (håndlavede regler, bias eller priming), designe t til at hånd te re uregelm æ s s ig he de r eller sjæld n e struk t u re r, ofte resultere i skadelige interfere ncer, fordi de proba bilistiske regler er "majoritet s d rev ne", og en lille "gevinst" for minoritets tilfæl de ne vil tit føre til tilsvare n de større "tab" mht. majoritet s tilfæl de n e, idet

(14)

For at opnå mak si m al pr æcisio n, har jeg også arbej d et med et stør r e utagget teks t m a t e r i ale (170.000 ord fra Borba - Ramsey - corp u s e t18), både på det morfologisk e og det syntak ti s k e nivea u. Dette var muligt, fordi precision (definere t som overleven de korrekte læsninger : overleven de læsninger i alt) kan appr o k si m e r e s ved at nedb ri n ge ambiguitete n, i hver t fald så længe lejlighed svise bench mar k - kørsler sikrer at nye regler kun forkas te r få korrek t e tags, og så længe ambiguitet e n sta digt er høj. Ambiguitete n kan så måles nem t med auto m a ti s k e midler (fx. progr a m m e t grep) på en hvilken som helst teks t. Derimo d kan recall (definer et som overlevende korrekte læsninger : alle korrekte læsninger ) kun kvan tificer es ved optælling i mind r e testt ek s t e r (der findes mig beken d t ikke noget stort analyse re t por t ugisis k corp u s til sam m e n lig nin g). Indstiller man par se r e n til fuld disa m b ig u e rin g (hvor der med und t agel se af de få tilfæld e af ægte ambiguitet kun er én overleven d e læsning per ordfo r m), kan man her betr agt e recall tallene so m et direkte mål for pars er e n s præ s t a tio n, og jeg vil i det følgen d e bruge det mere generelle udtry k correctness i betyd ni ng e n af recall ved 100%

disa m big u erin g.

En opt ælling af fejltyper n e und er test - kørslen af en min d r e ("uken d t") pros a - tekst på ca. 2.500 ord ("O teso u r o" af Eça de Queiro z) gav følgen d e resulta t:

fejl i: antal fejl:

ordklas s e r 16

gru n d f o r m e r 1

Alle morfolo gis k e 17 (99.3 % correctn es s)

verbalf u n k ti o n 3

verber s argu m e n t e r 25 præ p o si tio n e r s argu m e n t e r 2

Argum e nt struktur 30

beste m m e r e 13

Bestem m er e 13

adju n k t e r 11

Adjunkt er 11

finitte leds æ t n i n g e r 6 infinitte ledsæ t n i n g e r 3 absolu t t e leds æ t ni n g e r 1

Ledsætning er 10

Alle syntaktisk e 64 (97.4 % correctn es s) "lokale" synta k ti s k e fejl pga.

morfologisk e / o r d k l a s s e - fejl - 27

Rent syntaktisk e 37 (98.5% correctn es s)

opprioriteringe n af undt agelser n e går ud over de "norm ale" statistiske regler (jf. Chanod &

Tapanaine n, 1994).

18 Corpu s et indeh olde r mes t brasilian s k materiale, og er i alt på 5 millioner ord. Over 600.000 ord er offentliggjort på CD so m led i ECI- projekte t (Europea n Corpus Initiative).

(15)

Man kun n e for m o d e at fejlene var fordelt jævnt over hele tekste n, hvad der - ved en genne m s n i tlig sæt ni ng sl æ n g d e på 15 ord - ville svare til en

"fejltæ t h e d" af ca. 1 morfologisk fejl i hver tiend e sæt ni ng, og en syntak ti s k i hver tredje. Dette er imidlertid ikke tilfældet. Fejlene optr æ d e r ofte i grup p e r: indlysen d e nok, vil de fleste ord med ordklas s ef ejl også kun n e findes på listen over syntak tis k e fejl, og mange syntak ti s k e fejl vekselvirk er med læsninger i naboo r d e n e, pga. regler der involverer sætnin g sg r æ n s e - ord, uniq u e n e s s - princip p e t osv. Således kan en N- V- ord klas s e f ejl afføde 2 eller 3 synta k ti s k e fejl omk ri ng sig. Denne "ophob n i ng s t e n d e n s" for syntak tis k e fejl har en gavnlig sideeffek t på par ser e n s rob u s t h e d (mange sætnin ge r er såled es helt fejlfrie), og letter des u d e n gra m m a ti k e r e n s arbejde: en korrek t u r ét sted kan "helbred e" en hel kæde af seku n d æ r e interfer e n s - fejl.

Fejlinter fer e n c e n betyder også at den synta k ti s k e par se r alene, dvs. når den forsy ne s med morfologisk fejlfri tekst som inpu t, kan opnå end n u bedre resulta t e r (forsk ellen er typisk på 0.5 - 1 procen t p oi n t).

For at un de r s ø g e, om fejlpr ocen t e r n e varierer i afhæ ngig he d af tekst ty p e n, har jeg også testet par ser e n på aktuelle avistek s t e r19 (VEJA- magasin e t). Der er igen tale om (for par se r e n) uken d t, løben d e teks t.

Artikler n e rep r æ s e n t e r e r hen h ol d s vis un de r h o l d n i n g s - og kun s t - genrer n e.

Tekst: "VEJA"

(video ga m e s) 2412 ord

"VEJA"

(kunst) 1837 ord

ialt

4249 ord

Fejltyp er: antal fejl %

korr ek t

antal fejl %

korrek t

antal fejl %

korr ek t

Morfologi (alle) 29 98.8 % 7 99.6 % 36 99.2 %

uken d t e engelsk e ord

i oversk rifter

- 10 - 3

- 1 - 0

- 11 - 3

Morfologi (ren) 16 99.3 % 6 99.7 % 22 99.5 %

Syntaks (alle) 66 97.3 % 46 97.5 % 112 97.4 %

syntak s pga.

morfologi

- 37 - 7 - 44

Syntaks (ren) 29 98.8 % 39 97.9 % 68 98.4 %

En nær m e r e genne m g a n g af fejltyper n e viser, at de valgte avistek s t e r n e adskiller sig fra fiktion s p r o s a både leksikals k og synta k ti s k. For det første mø der man en stor andel af kom plek s e egen n av n e (fx. 'Massac h u s e t s Institu t e of Techn ology'), forkor t el s er ('MIT') og engelske mod eo r d (således er det ét enkelt ord, console , der - brugt so m uken d t engelsk subs t a n t iv ['spilleko n s ol'], og ikke so m port u gisisk verbu m ['trøste r '] - tegner sig for en tredje d el (!) af fejlene i tekste n om video - spil). For det ande t er tekste r n e - på det syntak tis k e plan - meget rige på frie præ di k ativer (typisk oplysni nge r

19 Tal for yderligere 2 avisteks te r fra VEJA (genre m æ s s igt placeret indenfor politik og su nd h e d), viser nogenlun d e de sam m e fejlproce nte r (jf. Bick, 1996).

(16)

om per so n e r, instit u tio n e r eller forko r t else r, som alder, sted, definition m.m.) og indsk u d t e "overflødige" finitte verber i for m af citatio n s r a m m e r .

Fejlproce n t e r n e skal desu d e n ses i lyset af det meget differen tier e d e tag - set (jf. 7.1). Således kan par ser e n s detaljere d e depe n d e n s - og fun ktio n s o p ly s n i n ge r for pr æ p o s itio n al - syntag m e r n e (som fx. post - no mi n al @N<, adverbielt posta d j e k t @A<, adver bielt adju n k t

@<ADVL, @ADVL>, @ADVL, adverbielt objekt @<ADV, @ADV>, præ p o si tio n elt objekt @<PIV, @PIV>, subje k t s p r æ d i k a t iv @<SC, frit præ dik a tiv, @<PRED, argu m e n t for forbin d e r le d @AS<) give anled ni ng til en lang ræk ke pote n tielle "indbyr d e s" fejl, der ville være "usynlige" i en besk rivelse, der smelter disse tags sam m e n til en simpel "syntag m a ti s k" tag 'PP' (præ p o si tio n s s y n t a g m e), eller et ru di me n t æ r t "funk tio n el t" 'ADVL' (adverbial). Indbyr d e s "forvekslinger" inden for PP- grup p e n står såled es for 15 tilfæld e, eller hele 22%, af de 68 ren t synta k ti s k e fejl i VEJA- tekst er n e.

7. Parseren

7.1 Tag - sættet

Parser e n s tag - sæt indeh ol d e r 13 ord klas s e - katego rier, der kom bin e r e s med 24 tags for bøjning sf o r m e r, ialt flere hun d r e d e distin k t e kom plek s e tags. I tag - linien 'V PR 3S IND VFIN', for ekse m p el, alter n e r e r ordklas s e n 'V' således med 12 and re ordkla s s e r, og inden fo r V- klasse n alter n er e r 'PR' (præ se n s) med 5 and r e tider, der hver igen findes i 6 forskellige pers o n - nu m e r u s forme r for både 'IND' (indikativ) og 'SUBJ' (konj u n k t iv). På den n e måd e besk rives 6x6x2 = 7 2 finitte verbalfo r m e r ved hjælp af kun 6 + 6 + 2 = 1 4 deltags. Denne analytisk e karak t er af tag - stre nge n e gør dem mere

"genne m s k u elige", og letter desu d e n arbej de t for disa m big u e ri n g s - regler ne. I mo d s æ t n i n g til andr e syste m e r (jf., for eksem p el, CLAWS- syste m e t, som besk r evet i Leech, Garside, Bryant, 1994), skelne s der i tag - streng e n skar p t mellem grun d f o r m e r ("ord"), ordklas s e r og bøjnings k a t eg o rie r. Desu d e n etabler es ordkla s s e r n e næ st e n udelu k k e n d e på morfologisk vis, og holde s der m e d adskilt fra de syntak tis k e katego rier. Således definere s et subs t a n tiv (N) par a dig m a ti s k som den ordkla s s e der udviser genu s som (invarian t) lekse m k a t eg o ri og nu m e r u s som (variabel) ordfo r m k a t e g o ri. Det mo d s a t t e gælder for nu me r alia (NUM), men s både genu s og nu m e r u s er lekse m k a t eg o rier for prop ria (PROP), og ordfor m k a t e g o rie r for adjektiver (ADJ)20.

20 Prono mi ner kan opdeles efter sam m e skem a, i en deter mi n er - klasse (DET) med de sam m e (variable) kategorier som adjektiver, og en "specifier" - klasse (SPEC) af "subst a n tiviske"

pro no m i n e r der udviser de sam m e (invariante) kategorier som prop ria - klassen. Personlige pro no m i n e r (PERS), som tredje klasse, har 4 ordfor m k a t e g o rier: num er u s, genu s, casu s og pers o n. Alle 3 prono m i n alkla s s e r adskiller sig fra de "rigtige" no minalklas s e r ved at de ikke tillader derivation. Prono miner so m 'o' og 'este', der både kan foreko m m e "adjektivisk" og

"subs ta n tivisk", er efter dette syste m enty dige medle m m e r af DET- klasse n. Artikel - klassen får heller ikke særst a t u s: 'o' er altid DET, uans et om det bruges som "artikel", "adjektivisk dem on s t r a tiv" eller "subs ta n tivisk demon s t r a tiv". Tagsene <ar t > og < de m > optages på tagliste n, men de er ikke ordklas s e - kategorier, og disa m bigu e res først på et senere tids p u n k t (valens - niveauet), til brug ved MT.

Participiet (V PCP), ordklas s s e r n e s enfant terrible, er morfologisk markeret som ('- id/ - ad'); men udenfor verbalk æ d e n overtager det adjektivets ordfo r m k a t e g o rier, og parsere n vælger i dette tilfælde at "fusione re" PCP/ADJ - ambiguitete n: <ADJ > V PCP.

(17)

Det syntak ti s k e tag - sæt råder over 40 tags for ord / s y n t a g m e - fun k tio n og ca. 30 tags for sæt ni ng sf u n k ti o n (der dækk er over tre slags leds æ t n i n g e r:

finitte, infinitte og absolu t t e [=verb alløs e]). Også her er det virkelige antal af distin k te tag - streng e meget højer e, fordi det ord der bære r leds æ t n i n g e n s tag, jo også skal mar ke r e s for dets leds æ t ni n g s - inter n e fun ktio n.

Syste me r n e for valens og sema n ti k er und er udvikling, og det er derfo r vansk eligt at angive nøjagtige tal for tag - sæt te n e s stør r els e. Omtr en t lige tal er ca. 100 for valen s kl as s e r (især for verber), og ca. 200 for sem a n ti s k e klasser (især for sub s t a n tive r). De sem a n ti s k e klasse r er baseret på 16

"ato ma r e" træk (som, fx., ±HUM).

7.2 Parseren s teknisk e data

Den por t ugi sis ke par ser består af en række progr a m m o d u l e r , der - bort se t fra lingsofts sprog u af h æ n gig e com piler for CG- regler - er skrevet af mig selv i progr a m m e r i n g s s p r o g e n e C og Perl. Parsere n omfat t er følgen d e mo d ule r på det morfologisk - synta k ti s k e niveau21:

1. et morfologis k analy s e - program (beskrevet i Bick, 1995), som beha n d le r orth og r afi sk pr æ p r o ce s s e r i ng, ordkla s s e, bøjning, derivatio n, faste udt ry k (polyleksik alier) og inkor p o r e r e n d e verber. Analyse - mod u le t støtter sig til et hån d bygget leksiko n med 70.000 enhe d e r, der dækk e r over ca. 50.000 leksem e r og udgør en tilpas s e t elektr o ni s k version af ordb og s m a t e ri ale fra forfatte r e n s can d. m ag. - speciale om leksikogr afi (Bick, 1993)

2. en morfolo gi s k disambig uat or med 1700 Const r ai n t Gram m a r regler

3. en syntaktisk "mapper" med 400 kon tek s t b a s e r e d e regler der "map p e r"

(alle mulige) synta k ti s k e funk tio n e r udfr a en ordfor m s morfologisk e / o r d k l a s s e - tags

4. en syntaktis k disambiguator med 1500 Const r ai n t Gram m a r regler

5. en disam big uat or for valens og semantis k e klass er (med 2200 Const r ai n t Gram m e r regler, eksp eri m e n t el)

En fulds t æ n d ig gram m a t i s k analyse på alle nivea ue r hån d t e r e r ca. 100 ord / s e c på en 100 MHz Pentiu m - basere t Linux - mas kin e. Den morfologisk e / o r d k l a s s e - disa m big u e ri n g alene opnå r hastig he d e r i nær h e d e n af 1000 ord / s e c.

Systeme t kan afprøves igen ne m en inter ak tiv bruge rflad e på følgen d e web - adres s e: http: / / lin g. h u m . a a u . d k / ~ e c k h a r d / Li n g uistics.ht ml. Større prøvetek s t e r til auto m a ti s k analyse (i ISO Latin - 1 for m at) kan også sen de s via e- mail til eckhar d@ling.hu m . a a u. d k un de r emne t portpars (tekste n skal begyn de med ordet pars m ail på første og afse n d e r e n s retu r a d r e s s e på ande n linie, og afslut t e s med ordet parsslut på en linie for sig).

8. Perspe kti v

21 Hertil ko m m er eksperi m e n t elle mod uler for port u gisisk - dans k MT:

polysemidis a m big u erin g, overs æ t t else af disa m biguere de grun d fo r m e r, port ugisisk - dan s k syntaktis k trans fo r m a tio n og en generat or for dans k morfologi.

(18)

Parser e n kan sam m e n f a t t e n d e besk rives som et leksiko n - og gram m a t i k b a s e r e t syste m, der besk river ord og sætnin ge r med hensy n til både form og fun ktio n, hvor dens notatio n elle sær p r æ g ligger i den s ordb a s e r e d e "flade" gengivelse af synta k ti s k str u k t u r. Den bagvedliggen d e form alis m e, Const r ai n t Gram m a r, har vist sig også for Portugisis k at muliggø re lave fejlpr oce n t e r, en høj hastig he d sam t en meget robu s t hån d t e r i n g af fri teks t. Selve meto d e n synes i øvrigt til en vis grad at være

"niveau n e u t r al", idet jeg med succes s har kun n e t anven d e den på stadigt

"højere" analyse - niveau er: leds æ t ni n g s f u n k t i o n, valen s - og sema n tis k disa m big u e ri n g (samt herigen n e m polyse mi r e s o l u ti o n).

Systeme t s for melle og indh ol d s m æ s s i ge egen s k a b e r må for m o d e s at have stor betyd ni ng for mulige anven d el s e s o m r å d e r , og jeg vil afslut te n d e disk u te r e syste m e t udfr a den n e synsvink el. Neden s t å e n d e tabel viser hvilke af par ser e n s egens k a b e r jeg tillægger betyd ni n g ved anven d els e n indenf o r beste m t e opgaveo m r å d e r (af hvilke nogle for øvrigt kan afprøve s på oven n æ v n t e web - site).

EGENSKABER corpu s

-

arbejde

grammatis k

stav ek o ntr ol

gram matik -

formidling

maskin - ov ers ætt el s e

informatio n s - ekstraktio n

indhold s m æ s s i g e:

1. leksiko n - basere t + + + + + + + + +

2. besk river for m og depe n d e n s

+ + + + + + + + + +

3. besk river funktio n

+ + + + + + + + + + + +

4. flad syntak s + + + + + + + + +

formelle / m e t o d i s ke:

5. lav fejlpr oce n t + + + + + + + + + +

6. høj hastigh e d + + + + + + + + + +

7. robu s t + + + + + + + + + +

8. meto d e m æ s s ig t niveau n e u t r al

+ + + + + + +

9. ordba s e r e t notatio n

+ + + + + + + +

REALISERING alle

CG- syste m er

engelsk VISL22

(portu gisis k)

port ugi sis k - dan s k

?

Mens både staveko n t r ol, maskin ov er s æ t t e l s e og infor m a tio n s e k s t r a k t i o n profiter e r af detaljer e d e leksikals k e oplys ninge r (1), har kun de sidste to applik atio n e r brug for en meto d e der tillader også en vis sema n ti s k analyse

22 VISL står for 'visual interactive syntax learning' og er et CTU- støttet projekt på Odense Universitet (Institut for Sprog og Kom m u nika tio n). Projekt s p r o g er engelsk, tysk og frans k, med port u gisisk som foreløbig "models p r o g" i opstar t - fasen.

(19)

(8). Gram m a ti k f o r m i d ling e n ud skiller sig fra de andr e felter ved at lægge mere vægt på par ser e n s indh ol d s m æ s s i ge (2, 3) end den s for melle egens k a b e r, og især tidsf ak t o r e n (6) og robu s t h e d e n (7) spiller en min d r e rolle, idet der typisk vil arbejd es med korte fejlfrie tekste r (enkelte sæt ni ng er). Den flade ordb a s e r e d e notatio n (4, 9) har den pæ d ag ogisk e fordel, at katego rie r, funk tio n m.m. kan mark e r e s direkt e i den løben d e tekst, fx. igenne m farven o t a tio n, und er s t r e g ni n g, sub - /s u p e r s c r i p t - indices, eller i for m af en slags "meta - tekst"23- linie. Ved det lingvistis ke corp u s - arbejde værd s æ t t e s ligeledes den flade notatio n, omen d på en and en baggr u n d: stren g s øg n in g s o p e r a ti o n e r lettes betyd eligt og gøres mere fleksible. Bland t de formelle egensk a b e r er corp u s - arbejd e t og infor m a tio n s e k s t r a k t i o n de omr å d e r der har stør s t gavn af parse r e n s høje hastig he d (6) , men s fejlpr oce n t e n (5) er vigtigst for de teks t p r o d u c e r e n d e - og der m e d læser k o n t r o lle re d e - syste m e r (stavek o n t r o l og maski n ove r s æ t t el s e).

23 En horiso n t al meta tek s t n o t a ti o n kunne fx se ud som i følgen de sæt ni n g:

Having read the letter fro m Italy she called her Swedish friend im m ediately.

x:A> v:X< d:>N s:<O prp:N< n:P< pe:S> v:V d:>N adj: >N s:<O adv: <A [hvor notatione n er ordklas s e:fun k tion, og x=hj æl pever bu m , v=verb u m , d = d e t e r m i n e r, s= s u b s t a n tiv, prp = p r æ p o s i tio n, n = p r o p ri u m , pe = p e r s o n ligt pron o m e n, adj = a d j ek tiv, adv = a d v e r bi u m, A> / A < = a d v e r bial, X< =ikke - første led i verbalkæ d e, >N = p r æ n o m i n al,

<O = d i re k t e objekt, N< = p o s t n o m i n a l, P< = s t y r r else af præ p o si tio n, S> = s u b j ek t, V=finit hovedverb u m]

(20)

Appendik s I: Sætning s e k s e m p l er

a) halvgrafisk træ - notation med eksplicit syntag m e - markering

@ADVL>:ap

| - @H:ADV *depois [depois] < + d e >

| - @A<:pp

| - @H:PRP de [de]

| - @P<:np

| - @>N:NUM F S uma [um] <car d >

| - @H:N F S décad a [década]

| - @N<:PP em = vigor [em =vigo r] <a d j >

$ \,

@SUBJ>:np

| - @>N:DET M S o [o] <a r t >

| - @H:N M S estilo [estilo] <ak >

| - @N<:ADJ M S gastr o n ô m i c

o

[gastr ô n o m o] <DERS - ico >

<j n >

| - @N<:fcl

| - @SUBJ>:SPEC M/F S/P que [que] <rel >

| - @FMV:V IMPF 1/ 3S IND VFIN supe rv alo ri z ava

[superv alo ri z a r] <vt > <vH >

| - @<ACC:np

| | - @>N:DET M S o [o] <a r t >

| | - @H:N M S req uin te [requin te] <a m >

| | - @N<:pp

| | - @H:PRP de [de] <s a m - >

| | - @P<:np

| | - @>N:DET F S a [a] < - sam > <ar t >

| | - @H:N F S decor aç ão [decoração] <CP > <ac >

| - $\,

| - @<ADVL:pp

| - @H:PRP sob [sob]

| - @P<:np

| - @>N:DET M S o [o] <a r t >

| - @H:N M S coma n d o [coma n d o] <s > <CI >

| - @N<:pp

| - @H:PRP de [de] < + h u m >

| - @P<:np

| - @H:N M P profissio n ai s

[profissio n al] <p r o f >

| - @N<:fcl

| - @SUBJ>:SPEC M/F S/P que [que] <rel > <q u e - hu m >

| - @ADVL>:ADV não [não] <d ei > <s e t o p >

| - @FMV:V IMPF 3P IND VFIN

era m [ser] <vK > < sH >

| - @<SC:pp

| | - @H:PRP de [de] <s a m - > < + t o p >

| | - @P<:np

| | - @>N:DET M S o [o] < - sam > <a r t >

| | - @H:N M S ram o [ramo] <a n b o > <s t o k > <f ag >

| - $\,

(21)

@FMV:V PR 3S IND VFIN vive [viver] <vt > <va +STED>

<vH >

@<ACC:np

| - @>N:DET F S a [a] <a r t >

| - @H:N F S hora [hora] <d u r > <te m p >

| - @N<:pp

| - @H:PRP de [de] <s a m - >

| - @P<:np

| - @>N:DET F S a [a] < - sam > <ar t >

| - @H:N F S verda d e [verda d e] <feat > < s s > <a m >

<s h >

$.

Referencer

RELATEREDE DOKUMENTER

To bypass the usual lexico-analytical setup (analyzers, lexica, finite state machines), we compared and combined 3 methods - (a) morphological APPEND rules,

Um exemplo de exercício gramatical interativo é o jogo de cores gramaticais: etiquetas de classe de palavra, fornecidas pelo parser, podem ser usadas para colorir um texto, palavra

The PaNoLa project (Parsing Nordic Languages) has been funded by The Nordic Council of Ministers' Language Technology Research Programmefor a 2-year period (2002-2003),

However, as rule­based systems, they normally demand not only a full lexicon­based  morphological  analysis  as  input,  but also  a  large

Assigning semantic roles to the arguments of a verb (or to the arguments of a proposition in general) is an obvious way of adding deep, semantic structure to the syntactic

Thus, syntactic structure is usually encoded as function tags (subject, object etc.) with or without some directional dependency information.. However, since

Since it has already been shown that morphosyntactic CG tagging does support syntactic trees, either through a PSG layer (Bick 2003, for

This paper describes an effort to move this last, tree-building step into the realm of Constraint Grammar proper, thus allowing the user to exploit CG's