I CONSTRAINT GRAMMAR SYNTAKS FOR PORTUGISISK
Eckhard Bick
Instit u t for Lingvistik, Århus Universite t, Nord re Ringga de, DK- 8000 Århus C tel: + 4 5 - 89 4221 7 0, fax: + 4 5 - 86 2813 9 7, e - mail: lineb@hu m.a a u. d k
Abstract
The paper prese n t s some syntac tic aspec t s of an auto m a tic gra m m a r - and lexicon - based parse r for unre s t r ic te d Portu g u e s e text, ulti ma t ely inten d e d for applicatio n s like corp o r a tagging, gra m m a r teachin g and machine tran sla tio n. Gram m a t ical rules are for m u la t e d in the Cons tr ain t Gram m a r form alis m (CG) and focus on disa m b ig u a tio n and robu s t n e s s. In spite of using a highly differe n tia t e d tag set, the parse r yields correct n e s s rates - for unre s t r ict e d and unk n ow n text - of over 99% for mor p h o lo gy / POS and 97 - 98% for syntax (where work is still in progre s s), even when geared to full disa m big u a ti o n. Amo ng other thing s, argu m e n t struc t u r e, depe n d e n c y relatio n s and subcla u se func tio n are treate d in an innovative way, and the autho r argues that the stru c t u r a l infor m a ti o n conte n t of a "flat" CG- based syntac tical descri p tio n can be aug me n t e d in such a way tha t auto m a ti c tran sf o r m a t i o n into tra ditio n al tree struc t u r e s (like in DCG and PSG) is ma de possible. The parse r uses valency and sema n ti cal class infor m a t io n fro m the lexicon, but disa m bi g u a t io n on these levels is still experi me n t a l.
The syste m runs at abou t 100 word s / s e c on a 100 MHz Pentiu m base d Linux syste m, when using all levels. Morp hological and POS disa m big u a ti o n alone app ro ac h 100 0 words / s e c .
1. Oversigt
I den n e artikel pr æ s e n t e r e s en morf ologisk - syntak ti s k par se r for fri port u gisis k tekst, hvor der anven d e s Const r ai n t Gram m a r til disa m big u e ri ng af ikke kun ord klas s e r og morfologiske tags, men også depe n d e n s - og valensf o r h o l d, sam t leds æ t ni n g er s funk tio n. Parsere n er udviklet so m led i min Ph.D.- forsk ni n g om auto m a t i s k analyse af por t ugi sis k. Projektet har en leksikog r afis k baggr u n d (besk revet i mit can d. m ag. - speciale) og et maski n ove r s æ t t el s e s - pers p e k tiv, men i det følgen d e vil det være det syntak ti s k e niveau, der står i forgr u n d e n . Især vil jeg disk u te r e de særlige egens k a b e r ved en funk tio n elt udre t te t, "flad" depe n d e n s g r a m m a t i k, og vurd er e muligh ed e r n e for en auto m a ti s k tran s f o r m a ti o n til egentlige træ s t r u k t u r e r . Selv om arbej de t med par se r e n ikke er afslut t e t end n u, vil jeg forsøge en evaluerin g af nogle foreløbige kvan tit ative result at e r. Endeligt skal en række ekse m p e l s æ t n i n g e r og omfat te n d e taglister gøre det muligt for læsere n selv at vurde r e par se r e n s notatio n elle konce p t i forhol d til and r e syste me r.
2. Baggrund
De fleste ord i natu r s p r o g s t e k s t e r er - isolere t set - flerty dige med hen sy n til ordkla s s e, bøjning, syntak ti s k rolle, sema n ti s k indh old m.m. Det er sæt ni ng s k o n t e k s t e n (foru d e n den ind hol d s m æ s s i ge same n h æ n g og læsere n s
"viden om verden"), der afgør hvor d a n ordet skal forstå s. Constraint Gra m m a r (CG), so m den er udviklet af Helsinki - skolen (fx. Karlsso n et.al., 1995) er en gra m m a ti s k meto d e der søger at genne m f ø r e en såda n éntydiggø rel se (disa m big u e ri n g) ved at opstille regler for hvilken af et ord s mulige læsninge r der skal vælges og hvilke læsninge r der skal forka s t e s i en given sæt ni ng s k o n t e k s t. I selve par ser e n bliver regler ne kom pilere t til et comp u t e r p r o g r a m , der som inpu t tager tekst hvor hvert ord har fået tilføjet tags for alle dets mulige morfologiske og ord klas s e - læsni nge r af en leksiko n - basere t tagger. Som outp u t leveres for hver ordfor m kun én tag - linie, med den korrek t e grun d f o r m, ord klas s e m.m.
(1) "<n u n c a > "
"nunca" ADV
"<co m o > "
"como" <r el > ADV
"como" <in te r r > ADV
"como" KS
"como" <vt > V PR 1S VFIN
"<peixe >"
"peixe" N M S
"<$. >"
[ADV=adverbiu m, KS=sub o r d i n ere n d e konjun k tion, V=verbu m , N=s u b s t a n tiv, PR=pr æ s e n s, S=sing ularis, M=mas k u lin u m , 1 = 1.pe r s o n, VFIN=finit verbu m, <rel > = r e l a tivu m ,
<inter r > = i n t e r r o ga tivu m, <vt > = m o n o t r a n s i tiv]
De fire læsninger af ordfor m e r n 'como' kaldes i CG- ter min ologien en kohorte. En typisk CG- regel til disa m b ig u e r in g af den n flerty dig he d er fx.
følgen d e:
(2) @w =! (VFIN) (NOT *- 1 VFIN) (NOT *1 VFIN)
[vælg (=!) for enhver ordfo r m (@w) læsninge n VFIN (finit verbu m) hvis der ikke (NOT) - hverken til venst re (*- 1) eller til højre (*1) - findes et andet ord der kan være VFIN.]1
Ved først at tilføje ("map p e") alle2 mulige synta k ti s k e funk tio n e r til ordfo r m e n udfr a den s ord klas s e, bøjning m.m., og herefter at disa m big u e r e den n e synta k ti s k e flerty dig he d, kan Constr ai n t Gram m a r også bruges til syntak ti s k par si ng, som det fx. er sket i Bank - of - English - projek t e t (200 millioner ord, Järvinen, 1994).
(3) "<n u n c a > "
"nunca" ADV @ADVL
"<co m o > "
"como" <vt > V PR 1S VFIN @FMV
"<peixe >"
"peixe" N M S @SUBJ @ACC @SC @OC
[@ADVL=adveerbial, @FMV=finit hovedverb u m , @SUBJ=s ub jek t, @ACC=akku s a tivobjekt,
@SC=s u bjekt p r æ di k a tiv, @OC=objekt p r æ d i ka tiv]
Tilføjelse n af de mulige syntak tis k e tags (@) har i eksem p le t resulte r et i firedo b b elt syntak tis k ambig uite t for peixe. Læsninge n so m direkt e objekt (@ACC) kan udvælges positivt med en =! - regel der ud nyt t e r verbet s tran sitivitet, men den kan lige så godt frem s t å indirek te3, - ved at være den sidst e overleve n d e læsning, efter at CG- regler har forka s t e t de andr e:
(4) @w =0 (@SUBJ) (0 N) (NOT *- 1 V3) (NOT *1 V3)
[forkas t (=0) subjektlæ s ni nge n hvis ordet (0) er et subs t a n tiv (N) og der ikke findes et verbu m i 3. perso n]
@w =0 (@SC) (NOT *- 1 <vK >) (NOT *1 <vK >)
[forkas t subjekt p r æ d i k a tivlæs nin ge n (@SC) hvis der ikke findes et kopulaverbu m (<vK>) i sæt ninge n]
@w =0 (@OC) (NOT *- 1 @ACC) (NOT *1 @ACC)
[forkas t objekt p r æ d ik a tivlæ s ni n ge n (@OC) hvis der ikke findes et direkte objekt (@ACC) i sæt nin ge n]4
1 Reglen er forenklet, idet den foru d s æ t t e r at enhver periode indeholder minds t ét finit verbu m, hvad der ikke altid er tilfælde t i overskrifter, udråb o.l. Reglen kan gøres mere sikker ved at kræve et pun kt u m (*1 PUNKTUM) eller udny t te den mulige valens relation mellem det transitive comer og den 'sikre' NP peixe (0 <vt >) (1C NP).
2 Også i mappi ng - fasen anvende s cons t rai n t - regler, og listen over mulige syntaktis ke funktion er for et beste m t ord kan sålede s gøres konteks t - afhæ ngig (og derm e d kortere).
3 Det er denne indirekte disa m big u ering, der er mest karakteris tis k for Const rain t Gram m a r, og her ligger en vigtig årsag til metode n s robus t h e d : selv sjæld ne eller ufulds t æ n d ig e konst r u k tio ne r vil få min ds t én analyse - nemlig den der overlever flest forbu d s r e gler.
Parsere n foretr æ kk e således som regel en struk t u r, der er "næsten rigtig" frem for en, der er
"tem melig forkert".
4 Alle anførte regler gør brug af "ubun d n e" konteks t be tin gels er:
*- 1 = kontek s t b e ti ng else n søges opfyld t fra og med det 1. ord til venstre (et eller andet sted til venstre)
*1 = konteks t be ti ngelse n søges opfyldt fra og med 1. ord til højre (et eller andet sted til højre)
Man kan også bruge "bundn e" konteks t be ti ngelse r, fx - 2 = andet ord til venstre, 3 = tredje ord til højre. De "bund n e" kontek s t b e ti ngelser kan i princip pe t gengives som n - gram - regler (som brugt i mange proba bilistis ke parsere), mens de "ubund n e" (*- konteks t er) er mere CG-
CG- gram m a ti k k e r er først og frem m e s t blevet beskreve t for engelsk (fx.
Karlsso n et.al., 1991), men der findes - i hver t fald på det morfologisk e niveau - projek t e r for flere andr e sprog fra såvel den germ a n s k e, roma n s k e og finno - ugrisk e sprogf a milie (svensk, tysk, fran s k, finsk m.m.). En mod e n CG- gram m a ti k for det morfologisk e niveau (ordklas s e - disa m big u e ri n ge n m.m.) består typisk af 1.000 - 2.000 regler. For engelsk opgives fejlpr oce n t e r på und er 0.3% ved en disam big u e r i ng sg r a d på 94 - 97% (Voutilainen, 1992).
3. "Flade" træstrukturer i CG- syntak s
3.1 Syntaktis k form og syntaktis k funktio n
I min pars er, som i and re Const r ai n t Gram m a r - syste me r, benytte r jeg mig af en "flad" repr æ s e n t a t io n af syntak ti s k str u k t u r. Beskrivelsen indeh ol d e r infor m a tio n om både synta ktisk fun ktion (fx argu m e n t e r som @SUBJ, @ACC) og kon s tit u e n t s t r u k t u r (synta ktisk for m ). Den sids te bliver mark e r e t ved hjælp af depe n d e n s m a r k ø r e r (<, >) som er rette t mod det pågæld e n d e syntag m e s hoved og samler kon s tit u e n t e n til en koh æ r e n t helhed med implicitte syntag m eg r æ n s e r. Hvor hoved et ikke er hovedver b e t, bliver det anfø rt ved pilespi d s e n (fx N for no min al - hoved, A for adjek t - hoved5).
Depen d e n s m a r k ø r e r bliver enten hæftet til de fun ktio n elle tags (fx @<SUBJ,
@ADVL>, @N<PRED), eller står, ved visse beste m m e r l e d, alene (fx @>N for [beste m m e r - ] præ n o m i n al).
Idet hvert ord således kun behøver at "huske" sin umid d elb a r e depe n d e n s r el a ti o n (dvs. hvad det selv er depen d e n t til), kan hele den syntak ti s k e stru k t u r besk rives lokalt (som ordr elat e r e t tag), - som i en uro, hvor den enkelte tråd kun "kend er" nøjagtig 2 af uroen s mange faste dele: i den ene ende den stang den selv hæ nge r i (hovede t, som depe n d e n s m a r k ø r e n peger på) og i den ande n ende det objekt (eller den stang) der hæ nge r i trå de n (depen d e n t e n , som depe n d e n s m a r k ø r e n peger væk fra). Hvis bare man skriver ned for hver del i uroen hvilken ande n del den skal hæ nge i, kan man faktisk godt skæ r e den i stykke r og gem m e den i en skotøjs æ s k e - den str u k t u r e lle infor m a ti o n bevares6.
Jeg vil her skelne mellem 3 hoved ty p e r af kons tit u e n t s t r u k t u r e r , so m efterfølgen d e eksem p lificeres:
specifikke.
5 Ved et adjekt h ove d forstå r jeg kerne n i et adjektiv - eller adverbialsyn t ag m e. Også attrib utivt brug te participier tilhører adjektk a t eg orien.
6 At den struk t u relle infor m a tio n både markeres og proces s e re s lokalt (på ordplan) er faktisk kongs t a n ke n i CG's syntaktisk e filosofi, og jeg vil i afsnit 3 diskutere fordelene (og ulem p er n e) ved en såda n "flad" beskrivelse, og vise hvorda n selv mere kom pleks e depen de n t e r (leds æ t n i n ger m.m.) kan håndt e re s på denne måde.
7 Reglen udsiger, at der i et syntag m e ikke kan være to argu m e n t e r med sam m e syntak tis ke funktion, med mindre der er tale om koordina tion. Fx kan hovedverb et i et sæt ning s s y n t a g m e
a) argume nt er b) frie adjunkter c) beste m m er - adjunkter
valens valens b u n d e n ikke valens b u n d e n ikke valen s b u n d e n blokeringsregel7 gyldig (dog ikke
ved koor di n a ti o n)
ikke gyldig ikke gyldig
fokuserb a r h e d kan
foku s er e s / i s o le r e s ved kløvning
kan
foku se r e s / i s o l e r e s ved kløvning
kan ikke isoleres ved kløvning a) Argu m e n t s t r u k t u r:
Argu me n t Hoved Argu m e n t
João PROP @SUBJ> come V VFIN <v t > @FMV carne N @<ACC
João spiser kød.
quer V VFIN <x > @FAUX jogar V INF @#ICL- AUX<
[Han / h u n ] vil spille
rico ADJ < + e m > @FMV em PRP @A< ouro N
@P<
rig på guld
Depen d e n s f o r h o l d e t er for argu m e n t e r n e s vedko m m e n d e også mar ke r et i tråd e n s øvre ende: hovedet bærer en valens m a r k ø r: en tag som <vt >
('mon o t r a n s i tiv t verb u m '), for eksem p el, "forvente r" et direkt e objekt (@ACC) et eller and et sted i sæt ning e n8. Rico em ouro er et ekse m p el på hvor d a n besk rivelse n hån d t e r e r flere hierar ki s k e niveaue r: præ p o si tio n e n em er hovedet for et præ p o si tio n s s y n t a g m e (dette mar ke r e s på depe n d e n t e n ouro som @P<), men samtidigt selv argu m e n t for adjektivsyn t ag m e t s hoved rico (marker e t ved @A<). I mod s æ t n i n g til engelsk og dan s k kan et pro n o m i n al t subjek t på port ugisis k inkor p o r e r e s i det finitte verb u m (fx. quer jogar ), og skal derfo r besk rives ikke som sæt ni ng s k o n s t i t u e n t, men som (fakultativ og valens s t y r et) kons tit u e n t i verbalsy n t ag m e t.
b) Struk t u r med frie adju n k t e r:
Adju n k t Hoved Adjun k t
Ontem ADV @ADVL> ele PERS @SUBJ>
veio V VFIN <ve >
@FMV
muito ADV @>A tarde ADV @<ADVL
I går han kom meget sent.
Zang a d a PCP @PRED> , saíu V VFIN @FMV sozinh a ADJ @<PRED
Sur gik [hun] (ud) alene.
således kun styre ét akkus a tiv - objekt. Reglen gælder neto p kun for argu m e n t e r og ikke for andre - frie - kons tit ue n te r (her kaldet for adjunkt e r).
8 I en rent syntak tis k sam m e n h æ n g anses valens m a r k ø re r dog for sekun d æ r e i forhold til de prim æ re tags (@- tagsen e), og et ord kan have en lang række af (potentielle) valens m a r k ø re r, og stadigvæk være syntaktis k énty digt beskrevet igenne m sit @- tag. Kun de (syntaktis k) prim æ re tags skal disa m big u ere s på det syntaktis ke niveau. Valens m a rk ø r di s a m b ig u erin g kan dog være et nyttig reds ka b på et højere analysepla n, hvor der tilsigtes polyse mi differen tiering (jf. afsnit 4).
Frie adju n k t e r er ikke valens s t y r e t og depe n d e n s e n mark er e s derfo r kun ved depe n d e n t e n: adju n k t - adver bialer (@ADVL9) peger på hovedver b e t, og frie (adju n k t - ) præ dik a tiver peger på en nomin algr u p p e (ofte subjek t e t, der igen kan være inkor p o r e r e t i det finitte verbu m).
c) Struk t u r med beste m m e r - adju n k t e r:
Præn o m i n al Hoved Postn o m i n a l
O DET <ar t > @>N grande ADJ @>N
poeta N M S flu mine nse ADJ @N<
Den store digter fra Rio.
caro ADJ M S dem ais ADV @A<
dyr for [dyr]
mais ADV <q u a n t > @>A interessado PCP M S
mere interes s e re t
Bestem m e r e er de depe n d e n t e r, der er tætte s t bun d e t til syntag m e h o v e d e t, og man kan argu m e n t e r e, at en beste m m e r s synta k tis k e funktio n neto p kun er 'beste m m e r ', og at en yderligere pr æcise ri ng af den s funktio n elle rolle (attrib u t, kvan tifikat o r m.m.) allered e fremgå r af den s ord klas s e - tag og de lekse m s p ecifikke sema n tis k e træk. Jeg nøjes derfo r med en ren depe n d e n s m a r k e r i n g (dvs. ude n funk tio n el tag på pilens "åbne" side).
3.2 Syntaktisk information si n d h o ld og ækvi vale nt e træstrukturer
Spørgs m å le t er nu, om det på den ene eller ande n måde er muligt, at omd a n n e den besk rev n e flade str u k t u r til en træ s t r u k t u r , so m ma n ken de r den fra mere "traditio n elle" besk rivelser (DCG10, PSG11 m.m.). Og, vil der i så fald være tale om infor m a tio n s t a b, eller, mod s a t, øget ambig uite t?
Begge dele, forek o m m e r det mig. På den ene side ville det koste infor m a tio n si n d h o l d, at erstat t e fun ktio n elle og depe n d e n s - tags med en ren kon s tit u e n t s t r u k t u r ("bracketi ng")12, især for verbalko m p l e m e n t e r i n ge n og på leds æ t n i n g s n ivea u, hvor mit syste m er mest differe n tie r et (funktio n og depe n d e n s mark er e s), og i noget min d r e grad ved ad - N- og ad - A- kon s t r u k ti o n e r n e (kun depe n d e n s mar ke r e s, og argu m e n t - /a d j u n k t - skellet ekspliciter e s nor m al t kun igenne m syntag m e h o v e d e t s valens t ag s, og ikke igenn e m et funk tio n elt tag for det depen d e n t e led, jf. 3.1 c).
På den ande n side vil nogle tilfæld e af un d e r s p e cifikatio n af depe n d e n s f o r h o l d blive synliggjor t, når der opbygges en eksplicit træ s t r u k t u r , som fx:
i) @N< efter post n o m i n a l der selv indeh ol d e r et no mi n alt hoved:
... o gigante Venceslau comedor de gente fam o s o ...
9 valens b u n d n e circum s t a n t ielle adverbialer tagges som @ADV (adverbialobjekt), og præ p o si tio n s s y n t a g m e r, der ikke kan ersta t te s med rene adverbier, tagges som @PIV (præp o si tion alo bjekt).
10 Definite Clause Gram m a r
11 Phrase Struct ure Gram m a r
12 Selvfølgelig kan man så vælge - når der skal trans f o r m e re s fra "flad" til træ - beskrivelse - at
"berige" den klassiske ph ras e - stru ct u r e - notatio n ved at bevare de funktio nelle og depen de n s - markø rer fra CG- notatio ne n.
@>N @NPHR @N< @N< @N< @P< @N<
I den n e sæt ning kan fa m oso syntak tis k relater e s til:
- gente (forbyde s dog af genu s - kongr u e n s k r a v)
- comedor (den rigtige løsning udfr a princip p e t om syntag m e k o h æ s i o n eller "close attac h m e n t")
- Venceslau (usan d s y nligt hoved for et adjektiv - post n o m i n al, fordi der er tale om et egen n av n)
- giga nte (kernen i den hierar ki s k øverste NP- pare n t e s i udtryk k e t) ii) koor din a tio n s p r o b l e m e r, fx enkelt - vs. dobb elt - tilh æft ni ng af et @N<
(post n o m i n a l):
... cinco ho m en s e quatro mulheres do Rio ...
(@>N @NPHR @CO @>N @NPHR) @N< @P<
eller @>N @NPHR @CO (@>N @NPHR @N< @P<)
iii) @<PRED (præ dik a tiv) efter mellem s t å e n d e nomi n ale grup p e r (som fx.
@<ACC):
... viu o amigo, exausto ... - não viu nen h u m a solução, exausta
@FMV @>N @<ACC @<PRED @ADVL> @FMV @>N @<ACC @<PRED
Her er den første sæt ni ng flertydig ved han - køns - subjek t, hvor præ dik a tivet kun n e pege på både subjek te t eller objek te t; den ande n sæt ning er ligelede s synta k tis k flerty dig (denn e gang ved hun - køns - subjek t), men ville kun n e udre d e s sem a n ti s k (løsninge r kan ikke være ud ma t t e d e).
Som det fremgå r, ville mulige løsning s s t r a t egier involvere fx. kongr u e n s [i (i), i det mind s t e for port ugi sis k], minimal attach m e n t [eller mini m al coor din a ti o n], og sema n t is k kongr u e n s mellem hoved og beste m m e r [i (iii)].
Samtidigt er det dog vanskeligt at se hvor d a n nogen som helst prim æ r t syntak ti s k beskrivelse skulle kun n e hån d t e r e den n e type ambig uite t, - hvorfo r den "flade" besk rivelses "elegant e und er s p e cifik atio n" måske end d a bur d e betrag te s som den bed s t e eller i hver t fald mest prag m a ti s k e løsning.
3.3 Auto matisk transf ormation
Følgend e skrid t kan udgøre skelettet af en algorit m e til opbygnin g af kon s tit u e n t t r æ e r udfr a en "flad" depe n d e n s b e s k r iv else som den er foreslået i min pars e r:
1. Alle adn o mi n al er (@>N, @N<) og adverbielle adjek te r (@>A, @A<) hæftes til deres hoveder, define re t so m det første ord af egnet ordkla s s e, der mød es i den af depen d e n s m a r k ø r e r n e (>, <) angivne retning. De i skrid t (1) etablere d e syntag m e r vil herefte r flyttes og koor di n e r e s som helhed e r [skridt (4) og (2)].
2. Koordin a t o r e r betrag te s som intra - syntag m a t i s k, hvor et skrid t - 1- eleme n t skal kryd se dem for at finde et hoved af egnet ordkla s s e. Ellers koor di n e r e s fun ktio n s æ k vivalen t e ord / s y n a g m e r på det højest mulige niveau der ikke bryde r uniq u e n e s s princip p e t.
3. Ledsæ t ni n g sg r æ n s e r intro d u c e r e s, hvor 2 ukoor di n e r e d e argu m e n t e r kom m e r i konflikt pga. blokering s r egle n, og mellem depe n d e n s m a r k ø r e r (af sam m e niveau) der peger i mod s a t t e retning er.
4. Argu me n t e r og adju n k t e r på (led)sæ t ni n g s niv ea u (hvad ente n de er ord, syntag m e r eller hierar kis k laveres t å e n d e leds æ t ni n g er) hæftes til nær m e s t e @MV (hovedver b u m ) i den udp eged e retning, med mi n d r e der er en mellem s t å e n d e ledsæ t n i n g sg r æ n s e - i dette tilfæld e vælges det først k o m m e n d e @MV efter den and e n (komple m e n t æ r e) ledsæ t n i n g sg r æ n s e, osv.
Den gradvise intro d u k t i o n af hierar ki s k e paren t e s e r (eller træfo r g r e n i ng s s e k tio n e r) kun n e tæn ke s at foregå som i følgen d e ekse m p el:
a) rå "flad" notatio n:
O pai de o menino que venceu compro u dez cervejas.
DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC
b) tilhæfting af præ n o m i n aler:
(O pai ) de ( o menino) que venceu compro u (dez cervejas).
DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC
c) tilhæft ning af post n o m i n al relativ og etablering af PP:
(O pai ) ( de (( o menino) que venceu )) compro u (dez cervejas).
DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC
d) afslutte t depe n d e n s b e s k r ivelse af sætninge n s førest NP:
((O pai ) ( de (( o menino) que venceu ))) compro u (dez cervejas).
DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC
e) (led)sæt ningsgr æ n s e r (markeret ved ‘- ’) intro d u c e r e s pga. sam m e n s t ø d af ukoor di n e r e t 2x @SUBJ>
og 2x @FMV (unique ne s s princip), samt subjekt / o b j e k t - tilhæft ning:
(((O pai ) ( de (( o menino) - (que venceu) - ))) compro u (dez cervejas)).
DET- @>N N- @SUBJ> PRP- @N< DET- @>N N- @P< < rel > - @#FS- N< - @SUBJ> V- @FMV V- @FMV NUM- @>N N- @<ACC
Jeg har skrevet et Perl13- progr a m, der realisere r nogle af disse princip p e r14 og tran sf o r m e r e r den flade ordb as e r e d e synta k tis k e str u k t u r til en mere traditio n el træ s t r u k t u r , hvor kons tit u e n t h i e r a r k iet og syntag m eg r æ n s e r n e synliggøres, og hvor de kom plek s e konstit u e n t e r med deres for m og funktio n indføjes som selvst æ n d ig e stør r else r imellem orden e.
Neden s t å e n d e en analyser e t sæt ni ng før og efter tra n sf o r m a t i o n e n:
(5) anlyser et teks t, i "flad", ordb a s e r e t CG- notatio n:
13 Et progra m m e ri n g s s p r o g , der er særligt velegnet til streng m a n i p ul a tion og sproglige opgaver.
14 Program m e t er eksperi m e n t elt, og opbygger - hvor CG- besk rivelsen unders p ecificerer - kun én ud af flere mulige træs t r u k t u r e r.
ordfor m grun d fo r m
valens &
sema n tik
ordklasse &
bøjnin g
syntaks
*a [a] <ar t > DET F S @>N
crise [crise] <sit > N F S @SUBJ>
apur a [apu r ar] <vt > <sN > V PR 3S IND VFIN
@FMV
o [o] <ar t > DET M S @>N
palad a r [palad a r] <a n o s t > <f h > N M S @<ACC
de [de] <sa m - > PRP @N<
o [o] < - sam > <ar t > DET M S @>N
cons u m i d or
[cons u m i r ]
<DERS - or > N M S @P<
e [e] KC @CO
valoriz a [valoriz ar] <vt > <sN > V PR 3S IND VFIN
@FMV
o [o] <ar t > DET M S @>N
dono [dono] <H > N M S @<ACC
de [de] PRP @N<
resta u r a n t e
[resta u r a n te]
<in s t > N M S @P<
que [que] <r el > SPEC M/F S/P @SUBJ> @#FS- N<
pilota [pilotar] <vt > <vH > V PR 3S IND VFIN
@FMV
a [a] <ar t > DET F S @>N
pró p ria [próp rio] <j n > ADJ F S @>N
cozin h a [cozin h a] <ejo > N F S @<ACC
[ordklass er: DET=d ete r m i n e r, N=no u n, V=verb, PRP=p re p o s i tio n, KC=coo r di n a ti ng conju n c tio n, SPEC=s pecifier - prono u n, ADJ=a djek tiv; bøjning: S=singular, P=plu r a r, M= male, F=fem ale, PR= pr es e n t, 3S=t hir d pers o n singular; derivation: <DERS - or > = s u f fik s d e rivatio n på '- or'; syntaks:
@>N = p r e n o m i n al, @SUBJ> = s u b j ec t, @FMV=finite main verb, @<ACC=accu s a tive object,
@N< = p o s t n o m i n al, @P< = a r g u m e n t of prep o sitio n, @CO=coor di n a t o r, @#FS- N< = finite subclau se functio ning as post n o m i n al; valen s: <ar t > = a r t i cle, <rel > = r e l a tive, <vt > = m o n o t r a n si tive verb;
semantik: <H > = h u m a n , < sit > = s i t u a ti o n, <ejo > = f u n c t i o n al place, <ins t > = i n s t i t u tio n,
<a n o s t > = a n a t o m i c al bone struct u r e; selektion sre gler: <fh > = h u m a n feature, <sN > = h a s non - hu m a n subject, <vH > = h a s always hum a n subject, <jn > has non - hum a n head; ortografi: < sa m - >&< - sam > = f i r s t and secon d part of fused expressio n]
(6) sam m e tekst, efter tran sf o r m a ti o n til træ s t r u k t u r , med indføjed e syntag m e - tags og hiera r kis k indryk ni n g:
@SUBJ>:np
| - @>N:DET F S *a [a] <a r t >
| - @H:N F S crise [crise] <sit >
@FMV:V PR 3S IND VFIN apur a [apu r ar] <vt > <sN >
@<ACC:np
| - @>N:DET M S o [o] <a r t >
| - @H:N M S palad a r [palad a r] <a n o s t > <f h >
| - @N<:pp
| - @H:PRP de [de] <s a m - >
| - @P<:np
| - @>N:DET M S o [o] < - sam > <a r t >
| - @H:N M S cons u m i d
or
[cons u m i r] <DERS - or >
@CO:KC e [e]
@FMV:V PR 3S IND VFIN valoriz a [valoriz ar] <vt > <sN >
@<ACC:np
| - @>N:DET M S o [o] <a r t >
| - @H:N M S dono [dono] <H >
| - @N<:pp
| | - @H:PRP de [de]
| | - @P<:N M S resta u r a n t e
[resta u r a n t e] <in s t >
| - @N<:fcl
| - @SUBJ>:SPEC M/F S/P que [que] <rel >
| - @FMV:V PR 3S IND VFIN
pilota [pilotar] <vt > <vH >
| - @<ACC:np
| - @>N:DET F S a [a] <a r t >
| - @>N:ADJ F S pró p ria [próp rio] <j n >
| - @H:N F S cozin h a [cozin h a] <ejo >
[@H=hea d, np = n o u n phrase, pp = p r e p o si tio n al phrase, fcl= finite clause, ':'= se p a r a t o r for functio n and form]
4. Hvilken slags Constraint Grammar
I princip p e t er CG en robu s t disa m b ig u e rin g s filo sofi, der ikke på én gang genere r e r en hel analyse med en beste m t "lovlig" sæt ning s s t r u k t u r , men accepte r e r ethver t inpu t og mejsler bort hvad der ikke kan være del af nogen (tillad t) str u k t u r . Her er hverk en mejslete k ni k k e n (regels æ t t e t) eller mejsler e d s k a b e r n e (regel - compiler n e) beste m t af CG- idéen so m såda n. Hver billed h u gg er beste m m e r selv hvor d a n han vil for me sit værk. Og dog ...
Histo ris k set uds p ri n ge r CG fra morfologisk analyse, de fleste syste m e r benytt er sig af en morf ologisk tonivea u - analyse (TWOL, jf. Kosken n ie mi,
1983) som præ p r o c e s s o r , og foku se r e r på morfologisk e træk og ordkla s s e r.
Den gra m m a ti s k e besk rivelse er derfo r i høj grad ord ba s e r e t og imple me n t e r e s ved at hæfte tags til ordfor m e r. "Flad" synta k s er en natu rlig kon sekv e n s af dette. Men uden specielle depe n d e n s f o r bi n d el s e r kan en såda n flad beskrivelse kun funger e tilfred s s tille n d e, hvor et enkelt ord bærer hele vægte n af et syntag m e s funk tio n. Der vil uvægerligt være proble m e r med depe n d e n s f o r h o l d der involverer flere forsk ellige syntak ti s k e niveaue r.
Således løber en CG- besk rivelse uden (funktio n elle) leds æ t ni n g s t ag s ind i vansk elighe d e r som følgen d e:
? (Led)sæt n i ng sg r æ n s e r, selv hvor de synliggøre s, er ikke udlagt hierar kis k, hvorfo r der kan være proble m e r med uklar e sæt ni ng s tilh ø r s f o r h o l d (fx efter indsk u d t e relativs æ t ni n g er).
? Visse valenst r æ k "udfylde s" ikke altid, som fx. i tilfæld e af "manglen d e"
subjek t på engelsk ('Visiting the Louvre was not his only reason for coming to Paris'), eller manglen d e akku s a tiv - objekte r (‘that / q u e / a t’ - sæt ning er efter "kognitive" verber).
? "Oversky d e n d e" argu m e n t e r pga. uklare tilhø r sf o r h o l d mh t.
sæt ning s h ie r a r k i, som i ‘O perigo de os inimigos atacare m à noite era imane nte.’ , hvor både perigo og inimigos er subjek te r, noget der er imod blokering s r eg el, og kun kan løses ved at løfte det and et subjek t s hovedver b u m (atacare m) ud af matrix s æ t n i n g e n og besk rive det som (ledsæ t ni n g s - )argu m e n t til den foru dg åe n d e præ p o si tio n 'de'.
? Nedsat infor m a tio n s i n d h o l d i sam m e n lig ni ng med en træ s t r u k t u r (jf.
ovenfor).
Jeg mene r at det ved at skelne mellem CG so m disa m b ig u e ri n g s t e k n i k på den ene side, og den ud m ej sled e gram m a t i s k e besk rivelse på den and e n side, er muligt at skabe en for m for flad repr æ s e n t a t io n der er funk tio n elt ækvivalen t til træ s t r u k t u r e r og so m kan hån d t e r e argu m e n t - og valens s t r u k t u r e r på en hierar kis k måde.
Min meto d e har været (a) at forsyn e alle de synta k ti s k e tags med
"retted e" depen d e n s m a r k ø r e r (jf. ovenfo r), og (b) at hæfte 2 tags til de centr ale forbin d e r o r d ("comple m e n ti z e r" som: sub o r di n e r e n d e konju n k ti o n e r, relativer og interr o g a tiver) i finitte og absolu t t e leds æ t n i n ge r, sam t til infinitiver, geru n d ie r og participier i infinitte leds æ t n i n ge r15. Disse ord vil så bære både en "indadve n d t" tag (@...) der beskriver deres funk tio n i leds æ t ni n g e n, og en "udadve n d t" tag (@#...) der besk river leds æ t n i n g e n s egen ledfu n k ti o n i sæt ni nge n s depe n d e n s h i e r a r k i. Teknisk set hån d t e r e s @- tags og @#- tags som to adskilte lister, såled es at "indadve n d t e" og "udadve n d t e"
tags kan disam b ig u e r e s uafh æ n gig af hinan d e n , af distin k te regelmo d u le r.
(7) Sabe [saber] <vq > V PR 3S IND @FMV
que [que] KS @#FS- <ACC @SUB
os [o] <ar t > DET M P @>N
proble m a s [proble m a] N M P @SUBJ>
15 En ande n metod e til funktionel tagging af ledsæ t ni ng er beskrives af Voutilainen (1994).
Her er det hovedverb et, der bærer leds æ t ni ng e n s tag (...@), men s depen d e n s f o r h o l d e n e gøres mere eksplicitte ved at inds æ t t e markører for leds æ t ni ng s g r æ n s e r, og ved at skelne mellem argu me n t e r af henhol d svis finitte og infinitte verbaler.
são [ser] <vK > V PR 3P IND @FMV
graves [grave] ADJ M/F P @<SC
$.
[@FMV = finite main verb, @#FS- <ACC = finite subclau se, functio ning as direct (accusative) object attach e d to a main verb to the left, @SUB = subor di n a t o r, @>N = preno mi n al modifier,
@SUBJ> = subject for a main verb to the right, @<SC = subject comple m e n t for a (copula) verb to the left, V = verb, KS = subo r di na ti ng conju nctio n, DET = deter mine r, N = noun, ADJ
= adjective, PR = prese n t tense, IND = indicative, 3S = third perso n singular, 3P = third pers o n plural, M = male, F = female, S = singular, P = plural, <ar t > = article, <vq > = cognitive verb, <vK > = copula verb]
5. Et teleologi sk bedø m m e l s e s p e r s p e k ti v
Når man sam m e n lig ne r forsk ellige synta k ti s k e besk rivelse r, udgø r infor m a tio n si n d h o l d og kons tit u e n t s t r u k t u r kun to af de mulige bedø m m el s e s p e r s p e k t ive r, og begge må ses i lyset af et beste m t teoretis k baglan d, som fx funk tio n el (FG) eller genera tiv gra m m a ti k. Det kan imidlerti d være intere s s a n t at se på hvilke prak tis k e anven d el s er en beste m t besk rivelse s m o d e l retter sig imod.
Her er mit eget pers p e k tiv maski n o ve r s æ t t el s e (MT), og aspek te r som de følgen d e vil derfor få tillagt særlig vægt:
? Detaljered e ordfølgeu af h æ n gige funk tio n elle tags gør det nem m e r e at tran sf o r m e r e kildes p r o g s s t r u k t u r (SL) til måls p r og s s t r u k t u r (TL), uden at skulle intro d u c e r e for mange indviklede tra n sf o r m a t i o n s r e gle r. Således kan den dan s k e hoved s æ t n i n g s - ordfølge SVO med subje k t i forfeltet etableres direk te på trod s af den mere frie port u gisis k e ord s tilling:
(8a) O rei @SUBJ> queria @FMV mais terra @<ACC.
(8b) Queria @FMV o rei @<SUBJ mais terr a @<ACC.
(8c) - > konge n @SUBJ> ønske d e @FMV mere land @<ACC.
? Det er af stor betyd ni n g for polyse mi differ e n tie ri n ge n at vide, hvilket af et ords poten tielle valen s m ø n s t r e der er blevet realiseret i en given (led) sæt ning s k o n t e k s t, og hvilken sema n ti s k klasse udfyld er en given valens pla d s (slot). I den n e forbin d els e får valens t ag s (og selektio n s r e s t r i k tio n e r) betyd ni ng ikke kun so m seku n d æ r e tags (som udelu k k e n d e bruges til at disa m big u e r e morf ologis ke / s y n t a k ti s k e tags), men også som selvst æ n d ige prim æ r e tags, der kan og skal disa m big u e r e s:
(9aa) rever <vt > 'gense' realiser et valen s: tran sitiv <vt >
(9ab) rever <vi > 'sive igenne m' realisere t valens:
intra n si tiv <vi >
(9ba) revista < + n > < r r > 'avis' realisere t valens:
titel < + n > , sema n ti s k klasse: læsest o f <r r >
(9bb) revista <CP > 'insp e k ti o n' realisere t
sema n ti s k klasse: + CONTROL, + PERFEKTIV
? De ovenfo r omtalte proble m e r med und er s p e cifik atio n af post n o m i n al e r, koor di n a ti o n og frie no min ala d j u n k t e r bliver til et gode, når man betrag ter dem udfr a et MT- per s p e k tiv: - for det første er mange af disse tilfæld e ekse m p le r på "ægte flertydig he d", der kun kan tydes af den fuldt konte k s t u a lise r e d e - men n e s k elige - lytter / l æ s e r (og und er alle oms t æ n d ig h e d e r er der tale om ægte syntaktisk flerty digh e d). - Og for det ande t er en rækk e af disse str u k t u r elle ambig uite te r (især koor din a tio n (11a) og "kort" (10b) vs. "lang" (10a) tilhæf t ni n g af post n o m i n a le præ p o si tio n s s y n t a g m e r) forh old svis univer selle, dvs. sprog u af h æ n g ig, således at de kan bevare s i overs æ t t els e n, der basere s direkte på den
"flade" besk rivelse (10c).
(10a) Han hent e d e ((man d e n @<ACC med @N< cyklen @P< ) fra @N< Kina
@P< ).
(10b) Han hente d e (man d e n @<ACC med @N< (cyklen @P< fra @N< Kina
@P< )).
(10c) Foi buscar o hom e m @<ACC com @N< a bicicleta @P< de @N< a China @P<
At gøre en såda n flerty dig h e d eksplicit (for et spr og p a r der ellers hån d t e r e r den éns) ville kun belast e overs æ t t el se s m o d u l e t med irrelevan t ballast. Adjektivisk e beste m m e r e, enten post n o m i n al eller som frie adju n k t e r, er derimo d mere proble m a ti s k e, idet der kan være kong r u e n s r e l a tio n e r (11b) mellem hoved og beste m m e r:
(11a) gifte @>N kvinde r @NPHR og @CO mæ n d @NPHR (11b) home n s @NPHR e @CO mulhere s @NPHR casad as @N<
6. Statistisk evaluering
For at kun n e afpr øve nye og kon tr oller e gamle regler i min pars e r har jeg udar b ej d e t et "bench mar k" - corp u s (i alt ca. 33.000 ord), hvor der for hver flerty dige kohor t e mar ke r e s med en <Cor r ec t! > - tag hvilken læsning der er korr ek t. Pga. de mange gentes t ni n g er har regler ne efter h å n d e n kun n e t opnå fuld disa m big u e ri n g og fejlpr oce n t e r på und er 0.1% for disse arbejd s t e k s t e r. For uken d t teks t er tallene selvfølgelig lavere; alligevel er resulta t e t ikke irrelevan t. Det viser nemligt, at CG- meto d e n ikke lider und er syste mi m m a n e n t e interfere n ce - proble m e r i sam m e grad som fx. en prob abilistis k tagger baseret på en ren trigra m - HMM16, hvor der (så vidt jeg ved) selv ved gentr æ n i n g og - måling på sam m e corp u s sjælde n t opnå s fejlpr ocen t e r på un de r 3%, end ikke for ordkla s s e - tags17.
16 Hidden Markov Model, hvor de mulige sætnings a n alys er udtrykke s so m (oftest ordklas s e - ) tagsekven se r og siden vurderes for deres respektive sand sy nlighe d: at en ordfor m skulle bære en given tag beregn es som prod u k t e t af a) den leksikale san d s y nlighe d (ord / o r d kl a s s e) og b) n - gram - sand sy nlighe de n (for bigra m m e r fx. ordklas s en/or d kla s s en- 1), og hele sekvensen san d sy nlighe d igen er pro d u k t e t af de "individuelle" sand s y nligh e de r for de i sekven se n realisere de tags.
17 I en proba bilistisk tagger vil "man uelle" indgreb (håndlavede regler, bias eller priming), designe t til at hånd te re uregelm æ s s ig he de r eller sjæld n e struk t u re r, ofte resultere i skadelige interfere ncer, fordi de proba bilistiske regler er "majoritet s d rev ne", og en lille "gevinst" for minoritets tilfæl de ne vil tit føre til tilsvare n de større "tab" mht. majoritet s tilfæl de n e, idet
For at opnå mak si m al pr æcisio n, har jeg også arbej d et med et stør r e utagget teks t m a t e r i ale (170.000 ord fra Borba - Ramsey - corp u s e t18), både på det morfologisk e og det syntak ti s k e nivea u. Dette var muligt, fordi precision (definere t som overleven de korrekte læsninger : overleven de læsninger i alt) kan appr o k si m e r e s ved at nedb ri n ge ambiguitete n, i hver t fald så længe lejlighed svise bench mar k - kørsler sikrer at nye regler kun forkas te r få korrek t e tags, og så længe ambiguitet e n sta digt er høj. Ambiguitete n kan så måles nem t med auto m a ti s k e midler (fx. progr a m m e t grep) på en hvilken som helst teks t. Derimo d kan recall (definer et som overlevende korrekte læsninger : alle korrekte læsninger ) kun kvan tificer es ved optælling i mind r e testt ek s t e r (der findes mig beken d t ikke noget stort analyse re t por t ugisis k corp u s til sam m e n lig nin g). Indstiller man par se r e n til fuld disa m b ig u e rin g (hvor der med und t agel se af de få tilfæld e af ægte ambiguitet kun er én overleven d e læsning per ordfo r m), kan man her betr agt e recall tallene so m et direkte mål for pars er e n s præ s t a tio n, og jeg vil i det følgen d e bruge det mere generelle udtry k correctness i betyd ni ng e n af recall ved 100%
disa m big u erin g.
En opt ælling af fejltyper n e und er test - kørslen af en min d r e ("uken d t") pros a - tekst på ca. 2.500 ord ("O teso u r o" af Eça de Queiro z) gav følgen d e resulta t:
fejl i: antal fejl:
ordklas s e r 16
gru n d f o r m e r 1
Alle morfolo gis k e 17 (99.3 % correctn es s)
verbalf u n k ti o n 3
verber s argu m e n t e r 25 præ p o si tio n e r s argu m e n t e r 2
Argum e nt struktur 30
beste m m e r e 13
Bestem m er e 13
adju n k t e r 11
Adjunkt er 11
finitte leds æ t n i n g e r 6 infinitte ledsæ t n i n g e r 3 absolu t t e leds æ t ni n g e r 1
Ledsætning er 10
Alle syntaktisk e 64 (97.4 % correctn es s) "lokale" synta k ti s k e fejl pga.
morfologisk e / o r d k l a s s e - fejl - 27
Rent syntaktisk e 37 (98.5% correctn es s)
opprioriteringe n af undt agelser n e går ud over de "norm ale" statistiske regler (jf. Chanod &
Tapanaine n, 1994).
18 Corpu s et indeh olde r mes t brasilian s k materiale, og er i alt på 5 millioner ord. Over 600.000 ord er offentliggjort på CD so m led i ECI- projekte t (Europea n Corpus Initiative).
Man kun n e for m o d e at fejlene var fordelt jævnt over hele tekste n, hvad der - ved en genne m s n i tlig sæt ni ng sl æ n g d e på 15 ord - ville svare til en
"fejltæ t h e d" af ca. 1 morfologisk fejl i hver tiend e sæt ni ng, og en syntak ti s k i hver tredje. Dette er imidlertid ikke tilfældet. Fejlene optr æ d e r ofte i grup p e r: indlysen d e nok, vil de fleste ord med ordklas s ef ejl også kun n e findes på listen over syntak tis k e fejl, og mange syntak ti s k e fejl vekselvirk er med læsninger i naboo r d e n e, pga. regler der involverer sætnin g sg r æ n s e - ord, uniq u e n e s s - princip p e t osv. Således kan en N- V- ord klas s e f ejl afføde 2 eller 3 synta k ti s k e fejl omk ri ng sig. Denne "ophob n i ng s t e n d e n s" for syntak tis k e fejl har en gavnlig sideeffek t på par ser e n s rob u s t h e d (mange sætnin ge r er såled es helt fejlfrie), og letter des u d e n gra m m a ti k e r e n s arbejde: en korrek t u r ét sted kan "helbred e" en hel kæde af seku n d æ r e interfer e n s - fejl.
Fejlinter fer e n c e n betyder også at den synta k ti s k e par se r alene, dvs. når den forsy ne s med morfologisk fejlfri tekst som inpu t, kan opnå end n u bedre resulta t e r (forsk ellen er typisk på 0.5 - 1 procen t p oi n t).
For at un de r s ø g e, om fejlpr ocen t e r n e varierer i afhæ ngig he d af tekst ty p e n, har jeg også testet par ser e n på aktuelle avistek s t e r19 (VEJA- magasin e t). Der er igen tale om (for par se r e n) uken d t, løben d e teks t.
Artikler n e rep r æ s e n t e r e r hen h ol d s vis un de r h o l d n i n g s - og kun s t - genrer n e.
Tekst: "VEJA"
(video ga m e s) 2412 ord
"VEJA"
(kunst) 1837 ord
ialt
4249 ord
Fejltyp er: antal fejl %
korr ek t
antal fejl %
korrek t
antal fejl %
korr ek t
Morfologi (alle) 29 98.8 % 7 99.6 % 36 99.2 %
uken d t e engelsk e ord
i oversk rifter
- 10 - 3
- 1 - 0
- 11 - 3
Morfologi (ren) 16 99.3 % 6 99.7 % 22 99.5 %
Syntaks (alle) 66 97.3 % 46 97.5 % 112 97.4 %
syntak s pga.
morfologi
- 37 - 7 - 44
Syntaks (ren) 29 98.8 % 39 97.9 % 68 98.4 %
En nær m e r e genne m g a n g af fejltyper n e viser, at de valgte avistek s t e r n e adskiller sig fra fiktion s p r o s a både leksikals k og synta k ti s k. For det første mø der man en stor andel af kom plek s e egen n av n e (fx. 'Massac h u s e t s Institu t e of Techn ology'), forkor t el s er ('MIT') og engelske mod eo r d (således er det ét enkelt ord, console , der - brugt so m uken d t engelsk subs t a n t iv ['spilleko n s ol'], og ikke so m port u gisisk verbu m ['trøste r '] - tegner sig for en tredje d el (!) af fejlene i tekste n om video - spil). For det ande t er tekste r n e - på det syntak tis k e plan - meget rige på frie præ di k ativer (typisk oplysni nge r
19 Tal for yderligere 2 avisteks te r fra VEJA (genre m æ s s igt placeret indenfor politik og su nd h e d), viser nogenlun d e de sam m e fejlproce nte r (jf. Bick, 1996).
om per so n e r, instit u tio n e r eller forko r t else r, som alder, sted, definition m.m.) og indsk u d t e "overflødige" finitte verber i for m af citatio n s r a m m e r .
Fejlproce n t e r n e skal desu d e n ses i lyset af det meget differen tier e d e tag - set (jf. 7.1). Således kan par ser e n s detaljere d e depe n d e n s - og fun ktio n s o p ly s n i n ge r for pr æ p o s itio n al - syntag m e r n e (som fx. post - no mi n al @N<, adverbielt posta d j e k t @A<, adver bielt adju n k t
@<ADVL, @ADVL>, @ADVL, adverbielt objekt @<ADV, @ADV>, præ p o si tio n elt objekt @<PIV, @PIV>, subje k t s p r æ d i k a t iv @<SC, frit præ dik a tiv, @<PRED, argu m e n t for forbin d e r le d @AS<) give anled ni ng til en lang ræk ke pote n tielle "indbyr d e s" fejl, der ville være "usynlige" i en besk rivelse, der smelter disse tags sam m e n til en simpel "syntag m a ti s k" tag 'PP' (præ p o si tio n s s y n t a g m e), eller et ru di me n t æ r t "funk tio n el t" 'ADVL' (adverbial). Indbyr d e s "forvekslinger" inden for PP- grup p e n står såled es for 15 tilfæld e, eller hele 22%, af de 68 ren t synta k ti s k e fejl i VEJA- tekst er n e.
7. Parseren
7.1 Tag - sættet
Parser e n s tag - sæt indeh ol d e r 13 ord klas s e - katego rier, der kom bin e r e s med 24 tags for bøjning sf o r m e r, ialt flere hun d r e d e distin k t e kom plek s e tags. I tag - linien 'V PR 3S IND VFIN', for ekse m p el, alter n e r e r ordklas s e n 'V' således med 12 and re ordkla s s e r, og inden fo r V- klasse n alter n er e r 'PR' (præ se n s) med 5 and r e tider, der hver igen findes i 6 forskellige pers o n - nu m e r u s forme r for både 'IND' (indikativ) og 'SUBJ' (konj u n k t iv). På den n e måd e besk rives 6x6x2 = 7 2 finitte verbalfo r m e r ved hjælp af kun 6 + 6 + 2 = 1 4 deltags. Denne analytisk e karak t er af tag - stre nge n e gør dem mere
"genne m s k u elige", og letter desu d e n arbej de t for disa m big u e ri n g s - regler ne. I mo d s æ t n i n g til andr e syste m e r (jf., for eksem p el, CLAWS- syste m e t, som besk r evet i Leech, Garside, Bryant, 1994), skelne s der i tag - streng e n skar p t mellem grun d f o r m e r ("ord"), ordklas s e r og bøjnings k a t eg o rie r. Desu d e n etabler es ordkla s s e r n e næ st e n udelu k k e n d e på morfologisk vis, og holde s der m e d adskilt fra de syntak tis k e katego rier. Således definere s et subs t a n tiv (N) par a dig m a ti s k som den ordkla s s e der udviser genu s som (invarian t) lekse m k a t eg o ri og nu m e r u s som (variabel) ordfo r m k a t e g o ri. Det mo d s a t t e gælder for nu me r alia (NUM), men s både genu s og nu m e r u s er lekse m k a t eg o rier for prop ria (PROP), og ordfor m k a t e g o rie r for adjektiver (ADJ)20.
20 Prono mi ner kan opdeles efter sam m e skem a, i en deter mi n er - klasse (DET) med de sam m e (variable) kategorier som adjektiver, og en "specifier" - klasse (SPEC) af "subst a n tiviske"
pro no m i n e r der udviser de sam m e (invariante) kategorier som prop ria - klassen. Personlige pro no m i n e r (PERS), som tredje klasse, har 4 ordfor m k a t e g o rier: num er u s, genu s, casu s og pers o n. Alle 3 prono m i n alkla s s e r adskiller sig fra de "rigtige" no minalklas s e r ved at de ikke tillader derivation. Prono miner so m 'o' og 'este', der både kan foreko m m e "adjektivisk" og
"subs ta n tivisk", er efter dette syste m enty dige medle m m e r af DET- klasse n. Artikel - klassen får heller ikke særst a t u s: 'o' er altid DET, uans et om det bruges som "artikel", "adjektivisk dem on s t r a tiv" eller "subs ta n tivisk demon s t r a tiv". Tagsene <ar t > og < de m > optages på tagliste n, men de er ikke ordklas s e - kategorier, og disa m bigu e res først på et senere tids p u n k t (valens - niveauet), til brug ved MT.
Participiet (V PCP), ordklas s s e r n e s enfant terrible, er morfologisk markeret som ('- id/ - ad'); men udenfor verbalk æ d e n overtager det adjektivets ordfo r m k a t e g o rier, og parsere n vælger i dette tilfælde at "fusione re" PCP/ADJ - ambiguitete n: <ADJ > V PCP.
Det syntak ti s k e tag - sæt råder over 40 tags for ord / s y n t a g m e - fun k tio n og ca. 30 tags for sæt ni ng sf u n k ti o n (der dækk er over tre slags leds æ t n i n g e r:
finitte, infinitte og absolu t t e [=verb alløs e]). Også her er det virkelige antal af distin k te tag - streng e meget højer e, fordi det ord der bære r leds æ t n i n g e n s tag, jo også skal mar ke r e s for dets leds æ t ni n g s - inter n e fun ktio n.
Syste me r n e for valens og sema n ti k er und er udvikling, og det er derfo r vansk eligt at angive nøjagtige tal for tag - sæt te n e s stør r els e. Omtr en t lige tal er ca. 100 for valen s kl as s e r (især for verber), og ca. 200 for sem a n ti s k e klasser (især for sub s t a n tive r). De sem a n ti s k e klasse r er baseret på 16
"ato ma r e" træk (som, fx., ±HUM).
7.2 Parseren s teknisk e data
Den por t ugi sis ke par ser består af en række progr a m m o d u l e r , der - bort se t fra lingsofts sprog u af h æ n gig e com piler for CG- regler - er skrevet af mig selv i progr a m m e r i n g s s p r o g e n e C og Perl. Parsere n omfat t er følgen d e mo d ule r på det morfologisk - synta k ti s k e niveau21:
♦ 1. et morfologis k analy s e - program (beskrevet i Bick, 1995), som beha n d le r orth og r afi sk pr æ p r o ce s s e r i ng, ordkla s s e, bøjning, derivatio n, faste udt ry k (polyleksik alier) og inkor p o r e r e n d e verber. Analyse - mod u le t støtter sig til et hån d bygget leksiko n med 70.000 enhe d e r, der dækk e r over ca. 50.000 leksem e r og udgør en tilpas s e t elektr o ni s k version af ordb og s m a t e ri ale fra forfatte r e n s can d. m ag. - speciale om leksikogr afi (Bick, 1993)
♦ 2. en morfolo gi s k disambig uat or med 1700 Const r ai n t Gram m a r regler
♦ 3. en syntaktisk "mapper" med 400 kon tek s t b a s e r e d e regler der "map p e r"
(alle mulige) synta k ti s k e funk tio n e r udfr a en ordfor m s morfologisk e / o r d k l a s s e - tags
♦ 4. en syntaktis k disambiguator med 1500 Const r ai n t Gram m a r regler
♦ 5. en disam big uat or for valens og semantis k e klass er (med 2200 Const r ai n t Gram m e r regler, eksp eri m e n t el)
En fulds t æ n d ig gram m a t i s k analyse på alle nivea ue r hån d t e r e r ca. 100 ord / s e c på en 100 MHz Pentiu m - basere t Linux - mas kin e. Den morfologisk e / o r d k l a s s e - disa m big u e ri n g alene opnå r hastig he d e r i nær h e d e n af 1000 ord / s e c.
Systeme t kan afprøves igen ne m en inter ak tiv bruge rflad e på følgen d e web - adres s e: http: / / lin g. h u m . a a u . d k / ~ e c k h a r d / Li n g uistics.ht ml. Større prøvetek s t e r til auto m a ti s k analyse (i ISO Latin - 1 for m at) kan også sen de s via e- mail til eckhar d@ling.hu m . a a u. d k un de r emne t portpars (tekste n skal begyn de med ordet pars m ail på første og afse n d e r e n s retu r a d r e s s e på ande n linie, og afslut t e s med ordet parsslut på en linie for sig).
8. Perspe kti v
21 Hertil ko m m er eksperi m e n t elle mod uler for port u gisisk - dans k MT:
polysemidis a m big u erin g, overs æ t t else af disa m biguere de grun d fo r m e r, port ugisisk - dan s k syntaktis k trans fo r m a tio n og en generat or for dans k morfologi.
Parser e n kan sam m e n f a t t e n d e besk rives som et leksiko n - og gram m a t i k b a s e r e t syste m, der besk river ord og sætnin ge r med hensy n til både form og fun ktio n, hvor dens notatio n elle sær p r æ g ligger i den s ordb a s e r e d e "flade" gengivelse af synta k ti s k str u k t u r. Den bagvedliggen d e form alis m e, Const r ai n t Gram m a r, har vist sig også for Portugisis k at muliggø re lave fejlpr oce n t e r, en høj hastig he d sam t en meget robu s t hån d t e r i n g af fri teks t. Selve meto d e n synes i øvrigt til en vis grad at være
"niveau n e u t r al", idet jeg med succes s har kun n e t anven d e den på stadigt
"højere" analyse - niveau er: leds æ t ni n g s f u n k t i o n, valen s - og sema n tis k disa m big u e ri n g (samt herigen n e m polyse mi r e s o l u ti o n).
Systeme t s for melle og indh ol d s m æ s s i ge egen s k a b e r må for m o d e s at have stor betyd ni ng for mulige anven d el s e s o m r å d e r , og jeg vil afslut te n d e disk u te r e syste m e t udfr a den n e synsvink el. Neden s t å e n d e tabel viser hvilke af par ser e n s egens k a b e r jeg tillægger betyd ni n g ved anven d els e n indenf o r beste m t e opgaveo m r å d e r (af hvilke nogle for øvrigt kan afprøve s på oven n æ v n t e web - site).
EGENSKABER corpu s
-
arbejde
grammatis k
stav ek o ntr ol
gram matik -
formidling
maskin - ov ers ætt el s e
informatio n s - ekstraktio n
indhold s m æ s s i g e:
1. leksiko n - basere t + + + + + + + + +
2. besk river for m og depe n d e n s
+ + + + + + + + + +
3. besk river funktio n
+ + + + + + + + + + + +
4. flad syntak s + + + + + + + + +
formelle / m e t o d i s ke:
5. lav fejlpr oce n t + + + + + + + + + +
6. høj hastigh e d + + + + + + + + + +
7. robu s t + + + + + + + + + +
8. meto d e m æ s s ig t niveau n e u t r al
+ + + + + + +
9. ordba s e r e t notatio n
+ + + + + + + +
REALISERING alle
CG- syste m er
engelsk VISL22
(portu gisis k)
port ugi sis k - dan s k
?
Mens både staveko n t r ol, maskin ov er s æ t t e l s e og infor m a tio n s e k s t r a k t i o n profiter e r af detaljer e d e leksikals k e oplys ninge r (1), har kun de sidste to applik atio n e r brug for en meto d e der tillader også en vis sema n ti s k analyse
22 VISL står for 'visual interactive syntax learning' og er et CTU- støttet projekt på Odense Universitet (Institut for Sprog og Kom m u nika tio n). Projekt s p r o g er engelsk, tysk og frans k, med port u gisisk som foreløbig "models p r o g" i opstar t - fasen.
(8). Gram m a ti k f o r m i d ling e n ud skiller sig fra de andr e felter ved at lægge mere vægt på par ser e n s indh ol d s m æ s s i ge (2, 3) end den s for melle egens k a b e r, og især tidsf ak t o r e n (6) og robu s t h e d e n (7) spiller en min d r e rolle, idet der typisk vil arbejd es med korte fejlfrie tekste r (enkelte sæt ni ng er). Den flade ordb a s e r e d e notatio n (4, 9) har den pæ d ag ogisk e fordel, at katego rie r, funk tio n m.m. kan mark e r e s direkt e i den løben d e tekst, fx. igenne m farven o t a tio n, und er s t r e g ni n g, sub - /s u p e r s c r i p t - indices, eller i for m af en slags "meta - tekst"23- linie. Ved det lingvistis ke corp u s - arbejde værd s æ t t e s ligeledes den flade notatio n, omen d på en and en baggr u n d: stren g s øg n in g s o p e r a ti o n e r lettes betyd eligt og gøres mere fleksible. Bland t de formelle egensk a b e r er corp u s - arbejd e t og infor m a tio n s e k s t r a k t i o n de omr å d e r der har stør s t gavn af parse r e n s høje hastig he d (6) , men s fejlpr oce n t e n (5) er vigtigst for de teks t p r o d u c e r e n d e - og der m e d læser k o n t r o lle re d e - syste m e r (stavek o n t r o l og maski n ove r s æ t t el s e).
23 En horiso n t al meta tek s t n o t a ti o n kunne fx se ud som i følgen de sæt ni n g:
Having read the letter fro m Italy she called her Swedish friend im m ediately.
x:A> v:X< d:>N s:<O prp:N< n:P< pe:S> v:V d:>N adj: >N s:<O adv: <A [hvor notatione n er ordklas s e:fun k tion, og x=hj æl pever bu m , v=verb u m , d = d e t e r m i n e r, s= s u b s t a n tiv, prp = p r æ p o s i tio n, n = p r o p ri u m , pe = p e r s o n ligt pron o m e n, adj = a d j ek tiv, adv = a d v e r bi u m, A> / A < = a d v e r bial, X< =ikke - første led i verbalkæ d e, >N = p r æ n o m i n al,
<O = d i re k t e objekt, N< = p o s t n o m i n a l, P< = s t y r r else af præ p o si tio n, S> = s u b j ek t, V=finit hovedverb u m]
Appendik s I: Sætning s e k s e m p l er
a) halvgrafisk træ - notation med eksplicit syntag m e - markering
@ADVL>:ap
| - @H:ADV *depois [depois] < + d e >
| - @A<:pp
| - @H:PRP de [de]
| - @P<:np
| - @>N:NUM F S uma [um] <car d >
| - @H:N F S décad a [década]
| - @N<:PP em = vigor [em =vigo r] <a d j >
$ \,
@SUBJ>:np
| - @>N:DET M S o [o] <a r t >
| - @H:N M S estilo [estilo] <ak >
| - @N<:ADJ M S gastr o n ô m i c
o
[gastr ô n o m o] <DERS - ico >
<j n >
| - @N<:fcl
| - @SUBJ>:SPEC M/F S/P que [que] <rel >
| - @FMV:V IMPF 1/ 3S IND VFIN supe rv alo ri z ava
[superv alo ri z a r] <vt > <vH >
| - @<ACC:np
| | - @>N:DET M S o [o] <a r t >
| | - @H:N M S req uin te [requin te] <a m >
| | - @N<:pp
| | - @H:PRP de [de] <s a m - >
| | - @P<:np
| | - @>N:DET F S a [a] < - sam > <ar t >
| | - @H:N F S decor aç ão [decoração] <CP > <ac >
| - $\,
| - @<ADVL:pp
| - @H:PRP sob [sob]
| - @P<:np
| - @>N:DET M S o [o] <a r t >
| - @H:N M S coma n d o [coma n d o] <s > <CI >
| - @N<:pp
| - @H:PRP de [de] < + h u m >
| - @P<:np
| - @H:N M P profissio n ai s
[profissio n al] <p r o f >
| - @N<:fcl
| - @SUBJ>:SPEC M/F S/P que [que] <rel > <q u e - hu m >
| - @ADVL>:ADV não [não] <d ei > <s e t o p >
| - @FMV:V IMPF 3P IND VFIN
era m [ser] <vK > < sH >
| - @<SC:pp
| | - @H:PRP de [de] <s a m - > < + t o p >
| | - @P<:np
| | - @>N:DET M S o [o] < - sam > <a r t >
| | - @H:N M S ram o [ramo] <a n b o > <s t o k > <f ag >
| - $\,
@FMV:V PR 3S IND VFIN vive [viver] <vt > <va +STED>
<vH >
@<ACC:np
| - @>N:DET F S a [a] <a r t >
| - @H:N F S hora [hora] <d u r > <te m p >
| - @N<:pp
| - @H:PRP de [de] <s a m - >
| - @P<:np
| - @>N:DET F S a [a] < - sam > <ar t >
| - @H:N F S verda d e [verda d e] <feat > < s s > <a m >
<s h >
$.