prezentare in sectia stidcristea/talks/cristea_acad2013.pdf · contribuii*ladezvoltareateoriei*...
TRANSCRIPT
Contribuţții la dezvoltarea teoriei discursului și aplicaţții
Dan Cristea Universitatea “Alexandru Ioan Cuza” din Iași – Facultatea de
Informa@că Academia Română, Filiala Iași – Ins@tutul de Informa@că Teore@că
Secția Tehnologia și Știința Informației, Academia Română 27 ianuarie 2013
Partea 1
• Note biografice, cariera didac@că și de cercetare, colec@vul, @puri de ac@vităţți, temele principale de cercetare, cooperări, proiecte
2 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Studii
• Diplomă de inginer în Calculatoare, la Universitatea Politehnica Bucureş@, Facultatea de Automa@că și Calculatoare, secţția Calculatoare, în 1975.
• Diplomă în matema@că, la Universitatea “Alexandru Ioan Cuza” din Iaşi, Facultatea de Matema@că, în 1981.
• Diploma de doctor inginer în Calculatoare, la Universitatea Politehnica Bucureş@, Facultatea de Automa@că și Calculatoare, în 1994.
3 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Poziţții profesionale și funcţțiile actuale
– Profesor la UAIC-‐FII (din sept. 2002) – Conducere de doctorat în Informa@că (din 2005) – Director al Departamentului de Cercetare din UAIC-‐FII (din 2008)
– Cercetător principal I (1/2 normă), la AR-‐IIT (din 2008)
4 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Cariera universitară
• Cursuri predate la UAIC: – Informa@că: Inteligenţță Ar-ficială, Programare Bazată pe Reguli,
– Masterat: Probleme de Teoria Discursului, Introducere în Prelucrarea Limbajului Natural, Algoritmi şi Structuri de Date
– Școala Doctorală UAIC-‐FII: Tehnici avansate de cercetare
5 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Conducerea de doctorat
• 6 teze terminate (dintre care 2 în cotutelă) • 7 în derulare (dintre care 2 în cotutelă) • 3 studenţți exmatriculaţți (neîndeplinirea în termen a obligaţțiilor)
6 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
• Premiul Academiei (Secţția ȘTI) în 2001 • Sunt membru corespondent al Academiei de Ş@inţțe Tehnice din România din 2002
• În decembrie 2006 am primit premiul cercetării, acordat de CNCSIS.
• În 2008 am primit premiul pentru ac@vitatea de cercetare, acordat de UAIC
• Președintele Comisiei CNATDCU de Informa@că (2004-‐2011, 2012-‐prezent)
7 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Recunoașterea pres@giului profesional
• Citări (conform Google Scholer ian. 2013): – 735, dintre care 7 sunt în lucrări indexate ISI Web of Science
• h-‐index = 14, i10-‐index = 18 • 110 conferinţțe invitate și comunicări:
– 58 în afara ţțării; – 52 în ţțară.
• Membru în comitete de program ale unor evenimente ș@inţțifice sau ca recenzor în reviste (numai din 2000) – aprox. 100 de par@cipări
8 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Recunoașterea pres@giului profesional
Sunt membru al organizaţțiilor profesionale: – SIGDial – Special Interest Group in Dialogue and Discourse – USA, – Associa6on de Recherches Cogni6ves (ARC) – France, – Associa6on of Computer Machinery (ACM) – USA, – Organizaţția Română de Inteligenţță Ar6ficială (membru fondator),
– Comisia de Informa6zare pentru Limba Română din cadrul Academiei Române (neînregistrată) – vicepreşedinte pentru secţțiunea Prelucrarea Limbajului Natural,
– Consorţțiul de Informa6zare pentru Limba Română (neînregistrată),
9 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Recunoașterea pres@giului profesional
Recunoașterea pres@giului profesional
Par@cipări în comisii de doctorat în străinătate • Universitatea din Neuchatel (Elveţția) • Universitatea din Geneva (Elveţția) • Max-‐Planck Ins@tute Nijmegen (Olanda) • Universitatea din Strassbourg (Franţța) • Universitatea Lille I (Franţța) • Universitatea din Trento (Italia) • Universitatea din Madrid (consultant) • Ins@tutul de Matema@că – Informa@că al Academiei de Ș@inţțe
a Moldovei (teză de doctor habilitat)
10 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Publicaţții • 185 de @tluri (unele pot fi consultate la hmp://www.info.uaic.ro/~dcristea/publica@ons): – 5 cărţți, dintre care 2 ca unic autor; – 5 cărţți editate; – 29 de capitole de cărţți; – 21 de ar@cole în jurnale; – 75 de lucrări publicate în proceedings-‐uri (42 internaţționale și 33 naţționale);
– 44 de eseuri și alte publicaţții despre ș@inţță; – coautor la peste 100 de rapoarte de cercetare
• Indexări: – 12 Web of Knowledge, 24 – DBLP, 14 – ACM, 12 – CiteSeer și 2 Cornwell University Library.
11 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Componentele muncii mele de cercetare
Elaborarea de modele teore@ce Crearea de resurse și instrumente Validarea modelelor și a instrumentelor pe resursele
create manual Integrarea instrumentelor în aplicaţții Publicaţții Colaborări și par@ciparea în proiecte Par@ciparea în compe@ţții Organizarea de evenimente ș@inţțifice Predarea la catedră a descoperirilor
M
R I
A
P
C Pr
V
12 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Crearea de resurse lingvis@ce româneș@
• Dicţționare și tezaure: RoWordNet (în colaborare), eDTLR (în colaborare)
• Corpusuri adnotate: RoTreeBank, RoVerbNet (în dezvoltare), RoFrameNet, speech2text aliniat (în dezvoltare), RoCoref, RoClSeg, RoSemClasses etc.
13 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Crearea de instrumente de prelucrare a limbii române
• Module: – Categorizer, ALPE, AnaMorph, Diacri@csRecovery, LanguageIden@fier, tokeniser+POS-‐tagger+lema@zer, NP-‐chunker, DependencyParser, ClauseSplimer, DiscourseParser, RARE, Summarizer etc.
• Servicii web: – tokeniser+POS-‐tagger+lema@zer, NP-‐chunker, DependencyParser, ClauseSplimer, DiscourseParser, Classifier
14 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Spectrul cercetărilor
1983-‐1987 IURES Sistem de întrebare-‐răspuns la baze de cunoș@nţțe seman@ce
ICI
1985-‐1989 QUERNAL Sistem de întrebare-‐răspuns la baze de date
ICI
Ins@tutul de Cercetări Metalurgice, Intr. “Flamura Roşie” Sibiu, Ins@. Hidrologie Iași, Intr. Extracţție ŢȚiţței Moineș@
R M
C
P
R M
P
A C
Pr A
15 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Spectrul cercetărilor 1989-‐2004 L-‐Exp/PARLOG Limbaj dedicat descrierii aplicaţțiilor de prelucrare
a limbajului natural (teza de doctorat)
1993-‐1994 MICH MULTI-‐MORPH
Morfologie prin clasificare: model mul@lingv de flexionare morfologică
Univ. Edinburg , Paris-‐Sud Orsay
1994-‐1995 PROSODICS Analiza forman@că a semnalului vocal: iden@ficarea frecvenţței fundamentale F0 și regăsirea traseelor prozodice ale enunţțurilor vocale
Univ. Veneţția
I M
C
P
I M
P
C
I M
P A
16 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Spectrul cercetărilor 1981-‐2011 Ana-‐Morph Morfologia paradigma@că a limbii române
Acad. Română – ICIA, DEX-‐online
1998-‐prezent
Dezvoltări ale teoriilor discursului și Teoria Nervurilor
Relaţția dintre structura discursului și referenţțialitate, coerenţța și coeziunea discursului, generalizarea Centering Univ. Pensylvania, Vasar College, Univ. Nancy, ISI California, Univ. Saarbruecken, IRST Trento, Univ. Sheffield, Univ. Toronto, Univ. Penang -‐ Mallaysia, Univ. Marseille, Univ. Sussex, Univ. Paris-‐VII, Univ. Humbold-‐Berlin etc.
ALEAR
1998-‐prezent
DiscPar Parser de discurs Univ. Sheffield, Univ. ATLANTIS – Atena, TETRACOM – Sofia, Polish Acad., Univ. Hamburg, Vassar College, Univ. Lisabona, Univ. Manchester, Univ. Pompeu-‐Fabra Barcelona etc.
ATLAS, METANET4U
I R
C
A
R M
I
C R M
I V
C
V
P
Pr
Pr P A
Spectrul cercetărilor 2004-‐prezent
AR-‐Engine RARE
Model mixt și mul@lingv de rezoluţție a anaforelor Univ. Singapore, Univ. ATLANTIS – Atena, TETRACOM – Sofia, Polish Acad., Univ. Hamburg, Vassar College, Univ. Lisabona, Univ. Manchester, Univ. Pompeu-‐Fabra Barcelona etc.
ATLAS, METANET4U
1994-‐prezent
ALPE Model ierarhic de organizare a workflow-‐urilor în PLN Univ. Tubingen, Univ. Utrecht, Univ. Malta, Univ. Hamburg, Univ. Manchester,
LT4eL, CLARIN, METANET4U
1997-‐2010 eDTLR Dicţționarul Tezaur al Limbii Române în format electronic Acad. Română – Ins@t. “Philippide” Iași, “Iordan-‐Rosez” Bucureș@, “Pușcariu” Cluj-‐Napoca, ICIA-‐Bucureș@, IIT-‐Iași, UAIC-‐Fac. Litere.
eDTLR
R M
C
I
I M
P
C
R M
I V
C
Pr
Pr
P A
V
P A
Pr
Spectrul cercetărilor 2010-‐prezent
DAT AnaDiP
Model și instrument de analiză a discoursului poli@c
UAIC-‐Dep. Jurnalism, Univ. Strasbourg
CIDO -‐ Civic iden6ty of online journals forums users: a pragmalinguis6c perspec6ve
2012-‐prezent
Hymas (Help Your Master in Any Situa@on)
Model de asistent inteligent (a situa6on aware discreet intelligent assistant) IDIAP-‐Mar@gny, Univ. Hamburg, SIVECO, Elhuyar Fundazioa-‐Spania, Univ. Sao-‐Paolo
SEAMA -‐ Seman6c Awareness in Mobile Applica6ons
2011 -‐ prezent
SkyBooks Prelucrări textuale pe fluxuri mari de date Polish. Acad., TUBITAK și KORTO Turcia, TETRACOM – Sofia, Univ. Lisabona
Rolling Words, PROLIR, SkyBooks – “animarea” cărţților
R M
C
I
I M
A
C
P
M
C
Pr
Pr
V
P A
Pr
I
Proiecte de cercetare • Proiecte ins@tuţționale (valoarea pentru grupul coordonat de mine: > 1,5 Mil Eur) – europene: BALKANET, LT4eL, RoLTech, CLARIN, ALEAR, ATLAS, METANET4U
– naţționale: ROTEL, InterOb, E-‐MANAGE, eDTLR, SIR-‐RESDEC, ALEAR-‐RO
• Proiecte didac@ce – proiecte de an: >20 – proiecte de diplomă: >100 – proiecte de dizertaţție: >40
• Proiecte individuale în stagii internaţționale de cercetare: 8
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română 20
Organizare de manifestări ș@inţțifice
• Seria de Școli de Vară în Prelucrarea Limbajului Natural EUROLAN (10 ediţții)
• Iniţțiator și coorganizator al seriei de conferinţțe Resurse lingvis6ce și instrumente pentru prelucrarea limbii române al Consorţțiului de Informa@zare pentru Limba Română – ConsILR (8 ediţții)
• Iniţțiator și coorganizator al seriei de manifestări BringITon: promovarea cercetării universitare în mediile industriale: 20011, 2012 (2 ediţții)
21 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
EUROLAN
1993-‐2011: 10 ediţții
22 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Organizare de manifestări ș@inţțifice
ConsILR 2001-‐2012: 8 ediţții
23 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Alte preocupări
• Literatură – Premiul de debut al Editurii Cartea Românească pentru anul 2009 cu romanul “Scaune de pluș”
24 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Partea 2
• Problema@ca cercetărilor din zona discursului • Contribuţții personale în rezoluţția anaforei și relaţția dintre structura discursului și referenţțialitate
25 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
26
Un text nu este neapărat un discurs! Dar devide discurs imediat ce este ci@t de un om ... sau de o mașină.
Cum este un text interpretat în @mpul lecturii? Care sunt structurile pe care le construim în minte și cum ne ajută ele să avansăm cu lectura? În ce fel legăm referinţțele de reprezentările pe care le construim?
Text faţță de discurs
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
27
Teorii asupra discursului
Teoria structurilor retorice: Mann and Thompson, 1987
– unitate elementară de discurs: propoziţția/clauza – relaţția retorică: între două segmente de text – argumentele relaţțiilor sunt nuclee și sateliţți – analizele sunt arbori – analizele sunt subiec@ve
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
28
O analiză RST 1. Farmington Police had to help control traffic recently
2. when hundreds of people lined up to be among the first applying for jobs at the yet-‐to-‐open Marriot Hotel.
3. The hotel’s help-‐wanted announcement – for 300 openings – was a rare opportunity for many unemployed. 4. The people wai6ng in line carried a message of claims that the jobless could be employed if only they showed enough
moxie.
5. Every rule has excep6ons,
6. but the tragic and too-‐common tableaux of hundreds of people snake-‐lining up for any task with a paycheck illustrates a lack of jobs,
7 not laziness.
circumstance
3 2
2-‐3
voli@onal result
1-‐3
4
evidence
5
6
an@thesis
7
6-‐7
concession
5-‐7
4-‐7
background
1-‐7
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
29
Teorii asupra discursului
Teoria centrelor: Grosz, Joshi and Weinstein, 1995
– segment: o secţțiune a discursului care manifestă coerenţță – secvenţță de unităţți elementare de discurs: propoziţții/clauze – tranziţții între unităţțile adiacente: grade de coerenţță, măsurabilă
– condiţții de u@lizare a pronumelor
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
30
An-cipaţții (expecta'ons) în discurs
Dan Cristea, Bonnie L. Webber (1998). Expecta@ons in Incremental Discourse Processing. In Proceedings of ACL '98 and EACL '98 – Indexări: ACM, DBLP, Conwell University Library, CiteSeer, Web of Knowledge.
– 44 citări
– două operaţții (de la Tree Adjoining Grammars) în parsarea incrementală a discoursului: adjuncţția și subs-tuţția
– fron-era dreaptă ex-nsă Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Fron-era dreaptă ex-nsă
Fron@era dreaptă a subarborelui care are rădăcina în fratele stâng al celui mai interior nod subs@tuţție.
*
33 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
34
Expecta-ons-‐driven incremental parsing
a. Clinton is bound to win the elec6ons.
b. He is a natural born campaigner. c. If you hold some posi6on on an issue, d. then if Clinton wants to get your vote,
e. he will assure you with great sincerity that he holds that posi6on too.
8
(Cristea and Webber, 1997)
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
35
a. Clinton is bound to win the elec6ons.
a
b
EVIDENCE
*
b. He is a natural born campaigner.
9
Expecta-ons-‐driven incremental parsing
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
36
a. Clinton is bound to win the elec6ons. b. He is a natural born campaigner.
a b
EVIDENCE
c. If you hold some posi6on on an issue,
EVIDENCE
* c
ANT-CONS
?
13
Expecta-ons-‐driven incremental parsing
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
37
a. Clinton is bound to win the elec6ons. b. He is a natural born campaigner. c. If you hold some posi6on on an issue,
a
b
EVIDENCE
EVIDENCE
c
ANT-CONS
?
14
Expecta-ons-‐driven incremental parsing
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
38
a. Clinton is bound to win the elec6ons.
b. He is a natural born campaigner.
c. If you hold some posi6on on an issue, d. then if Clinton wants to get your vote,
d
ANT-CONS
?
a
b
EVIDENCE
EVIDENCE
c
ANT-CONS
?
16
Expecta-ons-‐driven incremental parsing
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
39
a. Clinton is bound to win the elec6ons.
b. He is a natural born campaigner.
c. If you hold some posi6on on an issue, d. then if Clinton wants to get your vote, e. he will assure you with great sincerity that he holds that posi6on too.
d
ANT-CONS
a
b
EVIDENCE
EVIDENCE
c
ANT-CONS
?
17
Expecta-ons-‐driven incremental parsing
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
40
a. Clinton is bound to win the elec6ons.
b. He is a natural born campaigner.
c. If you hold some posi6on on an issue, d. then if Clinton wants to get your vote, e. he will assure you with great sincerity that he holds that posi6on too.
d
ANT-CONS
a
b
EVIDENCE
EVIDENCE
c
ANT-CONS
e
18
Expecta-ons-‐driven incremental parsing
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
41
Teoria nervurilor Dan Cristea, Nancy Ide, Laurent Romary (1998). Veins Theory. An Approach to
Global Cohesion and Coherence. In Coling '98 and ACL '98, Montreal. – Indexări: ACM, DBLP, CiteSeer.
– 111 citări Dan Cristea, Nancy Ide, Daniel Marcu, Valen@n Tablan (1999). Discourse Structure
and Co-‐Reference: An Empirical Study, In ACL'99, Maryland. – 38 citări
Nancy Ide, Dan Cristea (2000). A Hierarchical Account of Referen@al Accessibility. In ACL'2000, Hong Kong. – Indexări: ACM, DBLP, CiteSeer, Web of Knowledge – 26 citări
Dan Cristea, Nancy Ide, Daniel Marcu, Valen@n Tablan (2000). An empirical inves@ga@on of the rela@on between discourse structure and co-‐reference. In COLING'2000, Luxembourg. – Indexări: ACM, DBLP – 20 citări
Dan Cristea (2009). Mo@va@ons and implica@ons of veins theory: a discussion of discourse cohesion. In Interna6onal Journal of Speech Technology – Indexări: ACM
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
42
Teoria nervurilor
– plasează la bază convenţții din RST, dar ignoră numele relaţțiilor
– noţțiunea de nervură: un domeniul de referenţțialitate al unităţților decupat din arborele de discurs
– conjectura coeziunii: o referinţță între unităţți este posibilă cu precădere când există o legătură structurală ierarhică între ele
– conjectura coerenţței: generalizează Centering dincolo de restricţția de localitate
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
43
Nervuri
... în contextul întregului discurs: unităţțile cele mai semnifica@ve ale textului acoperit de nod împreună cu altele din afara lui
Expresia nervură a unui nod: secvenţța de unităţți necesare pentru înţțelegerea textului acoperit de nod, în contextul întregului discurs
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
44
Regenţți și nervuri
H=3
H=1 2
H=3 H=1
H=2 H=3 H=4
H=5
H=3
1 2 3 4
5
V=3 5
V=3 V=3
V=1 2 3
V=1 2 3
V=1 2 3
V=(1 2) 3
V=(1 2) 3 V=3 4
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
45
Tipuri de referinţțe
evoca@ve
-‐ procese de rezoluţție evoca@ve: -‐ un anafor poate avea ca antecedent o referinţță care nu este în mod necesar cea mai apropiată linear, ci doar cea mai apropiată ierarhic -‐ se bazează pe asociaţții de proprietăţți morfologice, sintac@ce, seman@ce -‐ sunt rapide -‐ dau flenţță textului
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
46
Tipuri de referinţțe
-‐ procese de rezoluţție post-‐evoca@ve: -‐ sunt mai încete computaţțional (angrenează mecanisme cu mai mare încărcătură inferenţțială), -‐ necesită elemente referenţțiale tari (de ex., nume proprii), -‐ sunt mai puţțin frecvente.
post-‐evoca@ve
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
47
Din conjectura coeziunii: căutând pe nervuri, potenţțialul de a
găsi antecedenţți e mai mare
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
48
Din conjectura coeziunii: efortul de a-‐i găsi e mai mic
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
49
Măsurând coerenţța
• Un scor al tranziţțiilor: – CONTINUING = 4 – RETAINING = 3 – SMOOTH SHIFT =2 – ABRUPT SHIFT = 1 – NO Cb = 0
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română
Din conjectura coerenţței: scorul total Centering calculat pe nervuri
e mai mare decât calculat linear
0
0.5
1
1.5
2
2.5
Average CT score per transi@on Average VT score per transi@on
English
French
Romanian
Average
50
51
Rezoluţția anaforei • Dan Cristea, Gabriela-‐Eugenia Dima (2001). An integra@ng framework for
anaphora resolu@on. In Informa6on Science and Technology, Romanian Academy Publishing House.
– Premiul "Grigore Moisil" în december 2003.
– 13 citări
• Dan Cristea, Oana Postolache, Gabriela-‐Eugenia Dima, Cătălina Barbu (2002). AR-‐Engine – a framework for unrestricted co-‐reference resolu@on. In LREC-‐2002, Las Palmas de Gran Canaria.
– Indexări: DBLP, CiteSeer.
– 25 citări
• Dan Cristea, Gabriela-‐Eugenia Dima, Oana Postolache, Ruslan Mitkov (2002). Handling complex anaphora resolu@on cases. In Discourse Anaphora and Anaphor Resolu6on Colloquium, Lisbon.
– 10 citări
• Constan@n Orăsan, Dan Cristea, Ruslan Mitkov, Antonio Branco (2008). Anaphora Resolu@on Exercise – An Overview. In LREC-‐2008, Marrakech.
– Indexări: DBLP, CiteSeer.
– 12 citări Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Relaţția anafor – antecedent: coreferenţțialitate
Secţția de Ș@inţța Și Tehnologia Informaţțiilor – Academia Română 52
Nivelul textului …………………………………………………………………………………………………………………………………..………………………
Nivelul semantic ……………………………….………………………. DEa
RE1
RE1 propune DE
RE2 REk
REk evocă DE RE2 evocă DE
AR-‐engine: the architecture
AR-engine
text
AR-‐model3
AR-‐model2
AR-‐model1
anaphoric links
53 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Partea a 3-‐a
• Aplicaţții prac@ce ale cercetărilor mele din zona discursului, ul@mele realizări de instrumente de prelucrare a limbajului natural.
• Planuri de viitor.
54 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Un lanţț de rezumare automată în 6 limbi
Prerequisite Summarizer text
SEN text TOK xml POS LEM NP NER
summary
55 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Un lanţț de rezumare automată în 6 limbi
Prerequisite Summarizer summary text
AR CS xml DP SUM summary SMO
56 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
ATLAS summariser versus SOA Daniel Anechitei, Dan Cristea, Ioannidis Dimosthenis, Eugen Ignat, Diman Karagiozov, Svetla Koeva, Mateusz Kopeć, Cris@na Vertan (2013, to appear). Summarizing Short Texts Through a Discourse-‐Centered Approach in a Mul@lingual Context. In Neustein, A., Markowitz, J.A. (eds.), Where Humans Meet Machines: Innova@ve Solu@ons to Knomy Natural Language Problems. Springer Verlag, Heidelberg/New York.
Language BG DE EN GR PL RO AVG
UAIC’s VT Summarizer P (H) 0.19 0.23 0.27 0.23 0.17 0.22 0.22
R (H) 0.29 0.44 0.41 0.41 0.36 0.32 0.37
F (H) 0.23 0.3 0.32 0.29 0.23 0.25 0.27
Open Text Summarizer P (H) 0.16 0.19 0.24 0.27 0.19 0.29 0.22
R (H) 0.25 0.2 0.22 0.33 0.21 0.06 0.21
F (H) 0.19 0.2 0.23 0.27 0.2 0.1 0.2
LexRank Summarizer P (H) 0.15 0.23 0.27 0.24 0.24 0.21 0.21
R (H) 0.18 0.25 0.25 0.22 0.24 0.22 0.18
F (H) 0.16 0.24 0.26 0.23 0.22 0.21 0.19
Proiecte de viitor
• Prelucrări textuale în flux con@nuu: propunerea de proiect SkyBooks – depusă în ianuarie 2013
• Recunoașterea situaţțiilor SEAMA -‐ Seman6c Awareness in Mobile Applica6ons – propunerea va fi depusă în februarie
• Îmbunătăţțirea eDTLR și exploatarea lui – la IIT, în colaborare cu Academia
• Construirea unui corpus aliniat vorbire-‐text – la IIT • Studii de morfologie diacronică românească – colaborare cu Ins@t. Philippide
58 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română
Formarea de discipoli • NLP-‐Group: consolidat în cursul anilor la UAIC-‐FII, IIT și Ins@t. Philippide – Un nucleu stabil de 7 colaboratori doctori – Restul (până la 15-‐18):
• Post-‐doctoranzi îndrumaţți de mine • Studenţți doctoranzi conduși de mine • Masteranzi de Lingvis@că Computaţțională de talent
• 28 de foș@ studenţți, @neri doctori sau cercetători în domeniul Limbajului Natural
• 10 doctori în diverse domenii care au colaborat sau au rămas în legături de colaborare cu NLP-‐Group
59 Secţția de Ș@inţța Și Tehnologia Informaţțiilor
– Academia Română