silex un sistem lexico-morfologic computerizat … · o componentd staticd, de tip diclionar...

12
SANDA CHERATA, TEODOR VU$CAN, EMMA TAUANNU SILEX _UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT PENTRU ANALIZA TEXTELOR ROMANESTI , Preocupdrile in domeniul lingvisticii computalionale sunt la noi de datd relativ recenti Ei nesistematice, astfel cd pAnS in prezent ele nu s-au finalizat in instrumente de lucru cum ar fi dicfionarele computerizate, programele de analizd morfosintacticd, corectoarele de ortografie etc., instrumente care pentru alte limbi sunt in uz curent de 1-2 decenii. Sistemul lexico-morfologic computerizat (SILEX) pe care il prezentlm in cele de mai jos - sistem creat de un colectiv de cercetdtori clujeni - constituie o primd realizare de acest fel in cadrul limbii rom6ne, Ea are o valoare apreciabilS in primul r6nd prin aceea cE inldturl cea mai mare parte dinfie nea-iunsurile abord6rii materialului lingvistic prin metode tradilionale; spre a mdsura utilitatea SILEX-ului, menlion6m cdteva dintre aceste neajunsuri: a) timp Ei volum de lucru neeconomice, nemaivorbind de faptul cd rurele cercetdri nici nu pot t-i realizate prin prelucrdri neasistate de calculator; b) incompletitudine a materialului supus cercetlrii (,,inventare" deschise, situalii statistice pebazd,de eqantioane nu intotdeauna concludente, clasificdri inexacte li labile); c) descrieri neunitare qi neomogene; d) imprecizia lucrului cu clasicele fiqe; e) caracterul ,,inghe1at" al literei tipdrite, fapt care exclude flexibilitatea gi maniabilitatea in exploatare. Notd terminologicd. Icmd=vnitale lexical5, reprezentat5 in mod conventional printr-o formd de bazS (exemplu infinitivul prezent activ al verbului, nominativul singular nearticulat al substantivului etc.) qi apartenen{a ei la o anumit6 clasd lexico-gramaticald. = procesul prin care fiecare formi ocurent6 intr-un text elte incadratE lemei sale. Atribut *temenul este folosit in accepgia sa generali, ;i nu in cea specializatii din sintaxi' l. SILEX - prezentare generall 1. l. Componente Si funclii SILEX este un produs informatic multifunclional, astfel conceput incit permite rezolvarea unui spectru larg de probleme din aria cercetdrilor de D.4L\)RoMANtn serie noud, I, l9g4-lgg5, Clu.i-Nupot'u, p. 201-212

Upload: others

Post on 01-Sep-2019

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

SANDA CHERATA, TEODOR VU$CAN, EMMA TAUANNU

SILEX _UN SISTEM LEXICO-MORFOLOGICCOMPUTERIZAT PENTRU ANALIZA TEXTELOR

ROMANESTI,

Preocupdrile in domeniul lingvisticii computalionale sunt la noi de datd

relativ recenti Ei nesistematice, astfel cd pAnS in prezent ele nu s-au finalizat ininstrumente de lucru cum ar fi dicfionarele computerizate, programele de analizd

morfosintacticd, corectoarele de ortografie etc., instrumente care pentru alte

limbi sunt in uz curent de 1-2 decenii. Sistemul lexico-morfologic computerizat

(SILEX) pe care il prezentlm in cele de mai jos - sistem creat de un colectiv de

cercetdtori clujeni - constituie o primd realizare de acest fel in cadrul limbiirom6ne, Ea are o valoare apreciabilS in primul r6nd prin aceea cE inldturl cea

mai mare parte dinfie nea-iunsurile abord6rii materialului lingvistic prin metode

tradilionale; spre a mdsura utilitatea SILEX-ului, menlion6m cdteva dintre aceste

neajunsuri: a) timp Ei volum de lucru neeconomice, nemaivorbind de faptul cd

rurele cercetdri nici nu pot t-i realizate prin prelucrdri neasistate de calculator; b)

incompletitudine a materialului supus cercetlrii (,,inventare" deschise, situaliistatistice pebazd,de eqantioane nu intotdeauna concludente, clasificdri inexacte

li labile); c) descrieri neunitare qi neomogene; d) imprecizia lucrului cu clasicele

fiqe; e) caracterul ,,inghe1at" al literei tipdrite, fapt care exclude flexibilitatea gi

maniabilitatea in exploatare.

Notd terminologicd. Icmd=vnitale lexical5, reprezentat5 in mod conventional

printr-o formd de bazS (exemplu infinitivul prezent activ al verbului,

nominativul singular nearticulat al substantivului etc.) qi apartenen{a ei la o

anumit6 clasd lexico-gramaticald. = procesul prin care fiecare formi ocurent6

intr-un text elte incadratE lemei sale. Atribut *temenul este folosit in accepgia

sa generali, ;i nu in cea specializatii din sintaxi'

l. SILEX - prezentare generall1. l. Componente Si funcliiSILEX este un produs informatic multifunclional, astfel conceput incit

permite rezolvarea unui spectru larg de probleme din aria cercetdrilor de

D.4L\)RoMANtn serie noud, I, l9g4-lgg5, Clu.i-Nupot'u, p. 201-212

Page 2: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

202 SANDACHERATA, TEODORVU$CAN. EMMA TAMATANU

lingvisticd computa{ionald asupra limbii romdne;i din cea a prelucrdrii automatea textelor romdneqti.

SILEX este constituit din douA componente principale:a. O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o

manierd structuratri, un lexic rdmdnesc de cca 50 000 de intrlari debaz\ cu toqteinformaliile morfologice necesare pentru definirea statutului sistemic qi(gramatical-)textual al unit5lilor lexicale (vezi infra, 3.). Diclionarulcomputerizat acoperd in intregime informa{ia gramaticald cuprinsi in DOOM,verificatE, achnlizatl qi/sau corectatd, ftrd insi a se reduce la aceasta.

b. O componentd dinamicS, cu funcliile de:(i) generare de forme (pentru cuvintele flexibile); sistemul genereazd toate

formele flexionate ale unui cuvAnt, pornind de la lemd si utilizAnd atributeleasociate ei in dic{ionarul morfologic.

(ii) analizd a formelor; analizorul determind clasa lexico-gramaticald a unuicuvhnt-ocuren{E, impreund cu valorile categoriilor gramaticale materializate inrespectiva formi. kr actuala versiune a SILEX, forma este analizatdacontextual,adicd se realizeazdtoate incadrdrile posibile (se identificd toate lemele in a cdrorparadigmd apare forma in cauzd)r. Din acest motiv, anumite aplica[ii careutilizeazd SILEX se vor desfi$ura interactiv, necesitAnd, in cazul formeloromografe, selectarea, dintre lemele indicate ca posibile, a celei validate decontext.

Exenplu. Pentru forma a, analizorul indicE lemele:' a avea - verb auxiliara prepoziliea/ - pronume (semiindependent) posesiv.

in articolul de'fa!6 vom prezenta, in datele lui generale, diclionarul SILEX.1.2. Cerin{e metodologice ;i de performan{dAvdnd in vedere cE un dic[ionar computerizat trebuie sI con$n6, inh-o primd

etap6, cvasitotalitatea cuvintelor limbii actuale (ceea ce ar insemna aproximativ100 000 de intrdri), se impune o structurare Ei reprezentare a informafieilingvistice de naturd sh rbspundd cerin{elor de completitudine, coeren[5 ;iperformanl5, in ce priveste atit spaliul ocupat, cit qi timpul de acces. Solu{iilepentru structurarea qi reprezentarea informaliei lingvistice au fost adoptate infunclie de urmdtoarele condilii:

(1) orice formd a unui cuvdnt trebuie sI fie recunoscutl, fie direct, avtndinfare proprie in dicfionar, fie prin mijloace algoritmice eficiente; fieclrei formetrebuie sd i se poat6 ataqa lemr;

' Sunt in curs de elaborare proceduri de restrAngere a sferei incadrdrilor posibile, proceduribazate pe analizarea contextului imediat in care apare forma supusd procesului de recunoagtere.

Page 3: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

SILEX - UN SISTEM LEXICO.MORFOLOGIC COMPUTERIZAT 203

(2) informa[iile din diclionar trebuie s6 permitd procesul invers, de generarea intregii paradigme a unui cuv6nt, pornind de la lema datd;

(3) timpuf de acces la un cuv0nt din dic{ionar s6 fie c6t mai scurt, astfel inc6taplica{iile cwe utilizeazA dicfionarul sd se desfiqoare fErd intArzieri sup[r-dtoare ;

(4) spa{iul de memorie pe care il ocupd volumul mare al datelor diClionaruluisd fie cAt mai restrdns;

-(5) intrelinerea diclionarului sd se facd prin metode eficienre ;i simplu de

aplicat; aceastapresupune existenla facilitrlilor de: introducere a noi cuvinte,corectare, actualizare ;i imbogl{ire a informa{iei cuprinse in dicfionar;

(6) structurarea diclionarului trebuie s6 ofere posibilitatea selectdriicuvintelor dupd toate criteriile lexico-morfologice qi dupd cat mai variatecombinafii de criterii. Experienla de pdnr acum dovedeEte cd o asemeneafacilitate oferd. mijloace de_mare eficienf5 atit pentru studii statistice asupralexicului, cit Ei pentru'verificarea corectitudinii informa{iei din dic{ionar.

1,3. Aplicalii ale SILEXTratarea computerizatE a textelor romineqti nu se poate realiza in absenta

unui instrument cum este SILEX. Funcfiile acestuia, p.ecum gi aplicaliilc p. "*.SILEX le face posibile prezinti atat relevangE teoretic-descriptivd, c6t gi interes

practic. Enumerim doar cAteva dintre aceste aplicatii, in oidinea crescAndd acomplexitdgii lor funclionale:

a. dic[ionar ortografic ;i morfologic computerizat al limbii romine, usor deintrefinut Ei imbogdfit, furnizabil atat in formd computerizatd., cat qi in iormdtipdriti;

b. corector ortografic qi morfologic penFu textele romineqti;c. sistem pentru studii statistice asupra lexicului limbii romane, dupd cele mai

diverse criterii qi. combinafii de criterii;

. ,. d,. sup.oJq,nentru orice tip de cercetare sincronicd (qi, in perspectivd, gidiacronici) asupra limbii romdne (exemple de asemenea obiect-e de cercetare:productivitatea anumitor procedee derivative, ponderea relativd a diverselortipuri de paradigme);

e. sistem pentm studii de statisticd lexicald qi gramaticald asupra textelorliterare;' f. sistem de realizare a concordanlelor pentru operele literare rom6ne;ti, culematizare in mare parte automatd;

g. suport didactic pentru studierea asistatd de calculator a gramaticii limbiiromdne in invdldmdntul preuniversitar qi pentru invdfarea limbii romAne calimbd strdind (ortografie, morfologie Ei lexic).

' : 2, :Elaborarea sistemuluiSILEX a fost conceput ca proiect interdisciplinar, in cadrul unei colabordri

ample intre un colectiv de la S.C. Softrvare ITC S.A qi Centrul de Analizd a

Page 4: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

204 SANDA CHERATA. TEODOR VUSCAN. EMMA TAMAIANU

'fextului de la Facultatea de Litere a UniversitSlii,,Babeq-tsolyai".

SILF.X a lbst elaborat dc cercet. qt. pr. I Teodor Vuqcan ;i cercet. gr. pr. ItSanda Cherata (S.C. Soflware ITC S.A.), Centrul de Analizi a Textuluiasigurind asistenla in problemele de descriere lingvisticd, prin prof., univ. dr.Marian Papahagi (coordonare) ;i asist. univ. Emma Timdianu.

Realizarea sistemului intr-un timp relativ scurt (aproximativ 6 luni) a fost inmare mdsur[ posibild grafie experienlei in domeniul lingvisticii computalionaledeja acumulate de colectivul de informaticieni, angajat de mai mulli ani intr-unproiect vizind traducerea automatE prin intermediul limbii esperanto.

2.1. Sursein proiectarea diclionarirlui computerizat al limbii romdne s-a plecat de la

DEX, DOOM;i GA. Este insd esenlial sI precizdm cd informalia morfologicddin sursele sus-menlionate nu a putut fi pur Ei simplu preluati ca atare, ea

nefiind nici unitard, nici complet6; in anumite cazuri s-a impus chiar corectareaerorilor de descriere lingvisticd gi integrarea unor solulii propuse qi validate inlucrdri de specialitate mai recente'.

2.2. Principii de structurare a informalieiDin punct de vedere abstract,^diclionarul este o mul{ime de articole, fiecare

articol fiind asociat unei leme. In SILEX, articolele de diclionar con{in doudcategorii de informalii: a) informalii ce permit determinarea atributelormorfologice ale unei forme flexionatc din paradigma lemei respective: b)informalii care permit regdsirea oricdrei forme flexionate din paradigma lemeiasociate, precum qi generarea intregii paradigme.

Atributele comune tuturor articolelor sunt:(l) clasa lexico-gramaticald a lemei; valorile corespund clasificdrii

tradi{ionale, din ele derivdnd atributele proprii ;i specifice fiec6rei clase;(2) radicalul / radicalii paradigmei, atribut dupd ale cdrui valori sunt ordonate

articolele dic{ionarului.(Pentru inventarul de atribute al fiecdrei clase lexico-gramaticale, vezi infra,

3. l.)2.2. l. Optimizdri privind intrdrile de diclionarPentru a reduce numdrul intrdrilor de diclionar, frrd" a resffange mullimea

cuvintelor ce pot fi recunoscute, s-a recurs la solu{ia de a nu introduceurmdtoarele categorii de cuvinte: : :

I ) participiile, inclusiy participiile-adjective; se economisesc astfelaproximativ 5 000 de intrdri;2) substantivele provenite din inhnitivul lung; se economisesc astfet inciaproximativ 5 000 de intrdri;

Page 5: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

SII.EX _ UN SISTEM. LgXICO.MORFOLOGIC COMPUTERIZAT 205

3) substantivele qi adjectivele derivate din radical verbal cu ajutorul sufixului-tor (exemplu muncilor, muncitoare, semdndtoare); se economisesc astl'elaproximativ 7000 de intrdri;4) substantivele omografe cu adjective (exemplu: calmant. diagonald, tonic):5) substantivele, adjectivele ;i verbele derivate din radical verbal cu prefixelene- qi re- (exemplu: a rescrie, neinle les, neinlelegere, revdzut);

in plus, pentm substantivele mobile se introduce o singurd intrare,corespunzdtoare cuvanfului la genul masculin (ex: pentru elivlelevd se infioducein diclionar numai cuvdntul e/ev).

Cuvintele care nu au intrare proprie in diclionar sunt recunoscute pe bazaalgoritmilor de flexionare. Aceastl solufie are, pe l6ngd plusul deeconomicitate, ;i avantajul - nu mai pu{in important - de a reflecta mai fideldinamico derivdrilor lexicale.

2. 2. 2. Structurarea inJbrmaliilor referitoare la f exiuneDatoritd specificului limbii romdne, prezenta in dicfionar a informa{iilor

referitoare Ia flexiune este indispensabilE pentru orice aplicalie de prelucrare atextelor romdneqti. Aceste informa{ii permit atdt recunoaqterea cuvintelor-ocu-renld, cdt ;i elaborarea rutinelor de flexionare a oricdrei forme de baza. Dincauza complcxitSlii proccdcclor flcxionale, in spccial din cauza modificirilorproduse, in cursul flexiunii, in rddlcina / tema cuvintelor, codificarea din SILEXnu a fost operatl dupi criterii propriu-zis lingvistice, ci dupd criterii pur formale.Lr urrrsccinl.l, (sub)ciascic ficxionalc, ,,rld[cinilc" ;i mul$miie tie termiuaiii nucoincid in totalitate cu subcategorizlrile practicate in descrierea lingvisticd.Aceast5 codificare line insd exclusiv de organizarea interni a informaliilor dinSILEX, astfel cd rezultarul final al analizei / generlrii formelor, singurul care ilintereseazS pe utilizator, este intru totul coincident cu realitatea lingvisticl.

Astfel, un cuvdnt din categoria celor flexionale are, din unghiul analizeiautomate, urmdtoarea formS:, tradica[ * ftermina$e',

unde (a) 'radical' inseamnd sirul de caractere invariant in cursul flexiunii(pentru intreaga paradigmd sau doar pentru o parte a acesteia), iar (b)'termina{ie'

linseamnd Eirul de caractere ce se adaugd 'radicalului' pentru a obline o formiflexionatd a cuvAntului.

in consecingd, penmr fiecare intrare diclionarul confine'radicalul' qi o seriede trimiteri codificate la listele de 'termina{ii' prin a cdror ataqare rensltd

, paradigma cuvdntului dat.

3. Structurile dicfionarului SILEX, 3. l. Slructura atributelor pe clase lexico-gramaticule

in limUaiul atgebrei relalionale, diclionarul este o reuniune de rela{ii, fiecarerelalie corespunzind uneia dintre clasele lexico-gramaticale tradifionale

Page 6: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

206 SANDACHERATA, TEODORVU$CAN, EMMATAMAIANU

(substantiv, adjectiv, verb, advetb etc.). in cele ce urmeazd descriem acesterelalii impreun6 cu schemele lor, cu semnifica{ia atributelor gi cu domeniile devalori.

3. 1. 1. Rela$a substantivului

SUBST (Sinv, cls, gen, defect, lst_ter, setjarad, lema), unde:

Sinv: segmentul de cuv6nt comun (invariant al) unei pdrli aparadigmei;

cls: clasa lexico-gramaticalS a cuvdntului; valoarea acestui atributeste sbt;

gen: genul substantiwlui; domeniul de valori este {m,f,n, d}, unde:tn = masculin;

/ = feminin;n = neutru;d = indicd substantivele mobile;

defect: defectivitatea substantivului; domeniul de valori este {r, s, p},unde:

I - indicE substantivele cu paradigmd completd;s - indicd substantivele cu forme numai pentrusingular (defective de plural);p * indicl substantivele cu forme numai pentru plural(defective de singular);

lst_ter: clasa flexionald a substantiwlui, specificati printr-un numdrasociat listei de terminagii;

setlrarad: submullimea formelor paradigmei in care Sinv este parteainvariant6;

lema: reprezentatd prin forma de N/Ac singular nearticulat.Exemplu:

'Sinv Categ Gen Defect Lt Set-1l Lema

$orrce sbt m I I4 t soricel

femei sbt f t I6 I fcmeie

tabel sbt n t I2 l tabel

sef sbt d t I T sef

ldin sht f .f .s ldinii

Page 7: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

SILEX _ UN SISTEM LEXICO.MORFOLOC;IC COMPUTERIZAT

3. l. 2. Rela{ia adjectiwlui

ADJECTIV (Sinv, cls, g€n, oms, lst-ter, set3aradm, setjaradf, Iema), undc:

207

Sinv:cls:

lema:

segmentul de cuvint comun (invariant al) unei pdrli a paradigmei;clasa leiico-gramaticali a cuvdntului; valoarea acestui atribut esteadi;

gen: genul adjectivului; domeniul de valori este {m,f, n}, unde:m apare la adjectivele care determind numai substantive

: de genul masculin;

n - apare la adjectivele care determind numai substantivede genul neutru;

Precizare lu atrihutul 'gen'. La adjectiv, atributul 'gen'reflecti exclusiv un fapt de normiactuald standard: datoritl semnificaliei lui lexicale, utilizarea adjectivului in cauzd estecircumscrisi la aceea de determinant al unuirnumir finit de substantive dintr-un domeniusemantic compatibil; exemplu orlic, i.roscel, specializate ca determinante pentru triunghi (n).

oms: omografia cu un substantiv; domeniul de valori este {*, m,f, n, dl,unde:

* - semniticd absen[a omografiei;m indici omografia cu un substantiv masculin;

/- omografia cu un substantiv feminin;n - omograiia cu un substrantiv neutru;

. ,,, ,, d-- omografia cu un substantiv mobil;

PrecEure la atributu,l:toms'. Atributul priveqte numai omografia cu un substantiv primar saurezultat prin substantivaqgaailjectivului, dar interpretat de vorbitorul contemporan drept cuvdntautonom (exemplu diagonald).

lst ter: clasa flexionald a adjectivului, specificatd printr-un numlr asociatlistei de termina[ii;

setparadm: submul{imea formelor paradigmei de masculin pentru care Sinv estepartea invarianti;

setgaradf: submullimea formelor paradigmei de feminin in care Siinvestepartea

invariant[;reprezentati prin forma de N/Ac masculin singular (nearticulat).

Page 8: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

208 SANDA CHEMTA, TEODOR VU$CAN, EMMA TAMAIANU

Exemplu:

Slnv Categ Gen Oms Lt Sjtm 's--pf Lema

.*tiinlific adi mfn * I t t stiintifir

solid adi mfn n 3 t t solid

ortic adi n * I J p ortic

ndi mfn a I

3. 1. 3. Rela(ia verbului

VERB (Sinv, cls, tip-vrbn s tor, p-ne, p-re,lst-ter, p-ind, p-conj,p_imp, p_mmqp, p_ps, p_np,lema), unde:

Sinv: segmentul de cuvdnt comun (invariant al) unei pI4i a paradigmei;

cls: clasa lexico-gramaticalE; in acest saz ae valoarea vrD;

tip-vrb: tipul gramatical al verbului; domeniul de valori: {aux, cp, prl, vndeQilr = verb auxiliar;cp = verb copulativ;,pr = verb predioativ;

s_tor: posibilitstea fomrdrii de substantive qi adjective prin sufixare cu -tor.pornind de la radicalul verbal; domeniul de valori este boolean.

p_ne: posibilitatea formdrii unei alte fonne verbale (participiu) prinprefixare cu ne-; domeniul de valori este boolean.

p_re: posibilitatea formlrii unui alt verb prin prefixare cu re- i domeniulde valori este boolean.

lst ter: clasa flexionall a verbului, specificatl printr-un numdr asociat listeide terminalii;

p_ind: mullimea formelor din paradigma de indica,tjv prezent in care Sinveste parte invariantii; i ,. :j ..1

p_conj: mulgimea forrnelor din paradigma de cor{uctiv prezent in care Sinveste parte invariantii;

p-imp: mul{imea formelor din paradigma de indicativ imperfect in care Sinveste parte invariant[;

p_mmcp: mu[imea formelor din paradigma de indicativ mai mult ca perfecl

in care Sinv este parte invariantii;p-ps: mul[imea formelor din paradigma de indicativ perfect

simplu in care Sinv este parte invarianti;

Page 9: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

SILEX _ UN SISTEM LEXICO.MORI.'OLOGIC COMPUTERIZAT 209

p_np: mullimea formelor din paradigma modurilor nepersonale(inlinitiv. participiu, gerunziu) qi a imperativului in care Sinv esteparte invarizurtd;

lema: reprezentatl prin forma de infinitiv (fErd a) prezent activ.

3.1. 4. Relalia cuvintelor neflexibile

Neflexibil (Sinv, cls, atribute, lema), unde:

tbrma invarianti a cuvintului, care in acest caz coincide culema;clasa lexico-gramaticald a cuvAntului; domeniul de valorieste {adv, cnj,prp, lnt},unde:

adv: adverb'.cn7 = conjunc[ic;prp = prepozilie;rnt = interjeclie.

diverse, in funclie de clasd.

De exemplu, in cazul adverbului, se semnaleazi dacl estesau nu ,,cvasiadverb"; in cazul conjuncfiei, se semnaleazldacd este coordonatoare sau subordonatoare etc.forma de baz[ a cuvdntului, in cazul acesta invariantd.

3.2. Structura listelor de terminaliiListele de terminafii sunt referite din diclionar prin num5rul asociat listei.

Informaliile din diclionar, impreund cu cele con{inute in listele de terminalii,permit recunoasterea qi flexionarea cuvintelor limbii romine, precum Ei un marenum6r de derivlri lexicale.

Listele de temrina{ii atapte claselor flexionale au structuri specifice fiecdreiclase lexico-gramaticale. Astfel, existi liste de terminalii pentru substantive, listepentru subparadigma masculinl Ei, respectiv, pentm subparadigma feminin5 aadjectivelor gi liste pentru fiecare mod/timp al verbului.

Sinv:

cls:

atribute:

lema:

Exemplu:

iinv Cat Tor Prf LI Ind Cni Imp Ps ND iJema

:ak:ul vrh t I I I ulctllr

'il vrh I I J t I I cili

ner vrh 7 I t , merae

ililqn vrh I

Page 10: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

210 SANDACTTERATA. TEODORVU$CAN, $MMATAMAIANU

in cazul in care formei invariante a ctrvdntului nu i se ataEeazd nici otermina[ie (terminalie vidd), faptul este semnalat in listi prin simbolul @.

3.2.1. Stntctura listelor de terminaEii pentru substantive Ei adjectiveDatoriti atributelor comune substantivelor qi adjectivelor, structura listelor

de terminafii pentru aceste clase este aceeaqi, cuprinz6nd urmdtoarele informafii:

Cat flex: numdrul listei ataqate respectivei clase flexionale; acesta este referitdin dictionar;

nasn: tcrmina[ia pentru forma de N/Ac singular nearticulat;gdsn: termina[ia pentu forma de G/D singular nearticulat;napn: termina{ia pentru forma de N/Ac plural nearticulat;gdpn: termina[ia pentru forma de G/D plural nearticulat;nasa: termina{ia penfu forma de N/Ac singular articulat;gdsa: termina{ia penfu forma de G1D singular articulat;napa: termina{ia pentu forma de N/Ac plural articulat;gdpa: terminalia pentru forma de G/D plural articulat,

Exemplu:

cf nasn gdsn napn gdpn nasa gdsa napa gdpa Ex,

6 I I I lul Iui u ibr {nrt.(:el

l6 e @ (a @ Q I le lor femeie

6 @ @ t ul ului ii ilor $el

3 d d ZT zt dul dului zu zibr solid/nrl; t

3. 2.2. Structura listelor de termina{ii pentru verbe

Pentnr verbe existd qase categorii de liste de terminalii (toate privind,desi gur, diatez.a activ6) :

a) pentru indicativ prezent;

b) pentru conjunctiv prezent;

c) pentru imperfectul indicatiwlui;d) pentru mai mult ca perfectul indicativului;e) pentru pedectul simplu al indicativului;f) pentru modurilp nepersonale qi imperativ.

Primele cinci categorii de liste au, toate, aceeaqi structurl ;i prezintdurmltoarel e informalii :

Page 11: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

SILEX _ FUNCTIILE DE LEMATIZARE $I DE GENERARE A PARADIGMELOR 2I I

cat-flex: numdrul listei ata;ate respectivei categorii flexionale: acesta este

referit din diclionar;pls: terminalia pentru persoana I singular;p?s: terminafia penEu persoan a all-a singular;p3s: termina{ia pentru persoana a III-a singular;plp: terminalia.pentru persoana I plural;p2p: terminalia penhu persoana a II-a plural;p3p: termina{ia penku persoana a III-a plural.

Exemplu:

, Lls-lele de termina[ii corespunzdtoare modurilor nepersonale qi imperatiwluiau urmdtoarea structurd:

Cat_flex: numtrrul listei ataqate respectivei categorii flexionale; acesta este

referit din diclionar;imper: termina[ia pentru modul imperativ, persoana a II-a singular;

,inf: '

tenninatia pentru infinitiv;par$: termina{ia pentu particiPiu;

Erz terminafia pentru gerunziu.

Exemplu:

cf Pls P2s P3s Plo P2p P3p Exemplu

I ez ezt eaza am a(i eQza c'ulcula/nrez)

I am at a am ati au calcula(imnrl)

3 esc eSti e{te tm iti esc cili/nrpzl

7 c gt ge gem celi merSe

Cf Imper Inf Part Grz Exemplu

I eaza a at dnd cdlculu

3 este I it ind citi

7 i e .s sdnd merge

t5 4n70 a at Ani

Page 12: SILEX UN SISTEM LEXICO-MORFOLOGIC COMPUTERIZAT … · O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o manierd structuratri, un lexic rdmdnesc de cca 50

212 SANDA CI.II]RATA. TEODOR VUSCAN; .EMMA.TAMAIANU

4. ConcluziiSILEX a presupus nu doar fbrmalizarea gi ,codificarea unei descrieri

lingvistice preexistente, ci gi, in multe privinle, gdsireA unor solulii descriptive

originale, in prezent incorporate lui. Elaborarea instrumentelor Ei procedurilor

de analizd lexico-morfolopicd automatE scoate insd la"ivealb Ei probleme

teoretice care se cer rezolvate. La acestea ne vom opri in articole urmdtoare.

Diclionarul SILEX - Prezentare sinteticd. Dic{ionarul computerizat al

SILEX contine cvasitotalitatea cuvintelor de uz general (acoperind aproximativ

95% dintr-un diclionar cum este DGLR]). Aceasta face ca, in prelucrarea

textelor reale, numdrul de insuccese (cuvinte nerecunoscute din: cauza.absentei

lor din dicfionar) sd fie foarte mic. ' '

in momentul de fa!b, diclionarul computerizat al SILEX confin?J aproximativ3l 000 de intrdri Ei permite recunoaEterea unui numdr de aproximativ 51 000 de

leme (multiplicat apoi prinfi-un numdr egal cu totalitatea formelor flexionate ale

fiecdrei leme).SILEX este implementat pe un calculator compatibil IBM PC 386.Bazele de date utilizate ocupd un spa[iu pe disc de l;68 MB, iar intregul

sistem SILEX ocupd un spa[iu pe disc de 2,15 MB.Modul de organizare a informafiei ;i procedurile de .analizA permit deja

realizareaunor apreciabile performan{e de timp (intr-un minut sunt recunoscute

aproximativ I 000 de cuvinte), performante la a cdror imbundtdfire se lncreazd

in prezent.Apreciem cA, datoriti facilit{ilor cu care este proiectat, SILEX va constitui

un element centrai in orice viitoare aplicalie de prelucrare atextelor romdnegti.

Universitatea,, Babe;- Bo lva i "Faiukatea de Litere

Centrul tle Analizd a TextuluiCluj-Napoca, str. Horeu, 3l

t Vasile Breban, Dit'lbnar generul al limbii romiine, Bucuregti, 1987.