prezentare in sectia stidcristea/talks/cristea_acad2013.pdf · contribuii*ladezvoltareateoriei*...

60
Contribuii la dezvoltarea teoriei discursului și aplicaii Dan Cristea Universitatea “Alexandru Ioan Cuza” din Iași – Facultatea de Informa@că Academia Română, Filiala Iași – Ins@tutul de Informa@că Teore@că [email protected] Secția Tehnologia și Știința Informației, Academia Română 27 ianuarie 2013

Upload: others

Post on 10-Mar-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Contribuţții  la  dezvoltarea  teoriei  discursului  și  aplicaţții  

Dan  Cristea  Universitatea  “Alexandru  Ioan  Cuza”  din  Iași  –  Facultatea  de  

Informa@că  Academia  Română,  Filiala  Iași  –  Ins@tutul  de  Informa@că  Teore@că  

[email protected]    

Secția Tehnologia și Știința Informației, Academia Română 27 ianuarie 2013

Partea  1  

•  Note  biografice,  cariera  didac@că  și  de  cercetare,  colec@vul,  @puri  de  ac@vităţți,  temele  principale  de  cercetare,  cooperări,  proiecte  

2  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Studii  

•  Diplomă  de  inginer  în  Calculatoare,  la  Universitatea  Politehnica  Bucureş@,  Facultatea  de  Automa@că  și  Calculatoare,  secţția  Calculatoare,  în  1975.  

•  Diplomă  în  matema@că,  la  Universitatea  “Alexandru  Ioan  Cuza”  din  Iaşi,  Facultatea  de  Matema@că,  în  1981.  

•  Diploma  de  doctor  inginer  în  Calculatoare,  la  Universitatea  Politehnica  Bucureş@,  Facultatea  de  Automa@că  și  Calculatoare,  în  1994.    

3  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Poziţții  profesionale  și  funcţțiile  actuale  

– Profesor  la  UAIC-­‐FII  (din  sept.  2002)  – Conducere  de  doctorat  în  Informa@că  (din  2005)  – Director  al  Departamentului  de  Cercetare  din  UAIC-­‐FII  (din  2008)  

– Cercetător  principal  I  (1/2  normă),  la  AR-­‐IIT  (din  2008)  

4  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Cariera  universitară  

•  Cursuri  predate  la  UAIC:    – Informa@că:  Inteligenţță  Ar-ficială,  Programare  Bazată  pe  Reguli,    

– Masterat:  Probleme  de  Teoria  Discursului,  Introducere  în  Prelucrarea  Limbajului  Natural,  Algoritmi  şi  Structuri  de  Date  

– Școala  Doctorală  UAIC-­‐FII:  Tehnici  avansate  de  cercetare  

5  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Conducerea  de  doctorat  

•  6  teze  terminate  (dintre  care  2  în  cotutelă)  •  7  în  derulare  (dintre  care  2  în  cotutelă)  •  3  studenţți  exmatriculaţți  (neîndeplinirea  în  termen  a  obligaţțiilor)  

6  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

•  Premiul  Academiei  (Secţția  ȘTI)  în  2001  •  Sunt  membru  corespondent  al  Academiei  de  Ş@inţțe  Tehnice  din  România  din  2002    

•  În  decembrie  2006  am  primit  premiul  cercetării,  acordat  de  CNCSIS.  

•  În  2008  am  primit  premiul  pentru  ac@vitatea  de  cercetare,  acordat  de  UAIC  

•  Președintele  Comisiei  CNATDCU  de  Informa@că  (2004-­‐2011,  2012-­‐prezent)      

7  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Recunoașterea  pres@giului  profesional  

•  Citări  (conform  Google  Scholer  ian.  2013):  – 735,  dintre  care  7  sunt  în  lucrări  indexate  ISI  Web  of  Science  

•  h-­‐index  =  14,  i10-­‐index  =  18  •  110  conferinţțe  invitate  și  comunicări:    

– 58  în  afara  ţțării;  – 52  în  ţțară.    

•  Membru  în  comitete  de  program  ale  unor  evenimente  ș@inţțifice  sau  ca  recenzor  în  reviste  (numai  din  2000)    – aprox.  100  de  par@cipări  

8  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Recunoașterea  pres@giului  profesional  

Sunt  membru  al  organizaţțiilor  profesionale:    –  SIGDial  –  Special  Interest  Group  in  Dialogue  and  Discourse  –  USA,    –  Associa6on  de  Recherches  Cogni6ves  (ARC)  –  France,    –  Associa6on  of  Computer  Machinery  (ACM)  –  USA,    – Organizaţția  Română  de  Inteligenţță  Ar6ficială  (membru  fondator),    

–  Comisia  de  Informa6zare  pentru  Limba  Română  din  cadrul  Academiei  Române  (neînregistrată)  –  vicepreşedinte  pentru  secţțiunea  Prelucrarea  Limbajului  Natural,    

–  Consorţțiul  de  Informa6zare  pentru  Limba  Română  (neînregistrată),  

9  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Recunoașterea  pres@giului  profesional  

Recunoașterea  pres@giului  profesional  

Par@cipări  în  comisii  de  doctorat  în  străinătate  •  Universitatea  din  Neuchatel  (Elveţția)  •  Universitatea  din  Geneva  (Elveţția)  •  Max-­‐Planck  Ins@tute  Nijmegen  (Olanda)  •  Universitatea  din  Strassbourg  (Franţța)  •  Universitatea  Lille  I  (Franţța)  •  Universitatea  din  Trento  (Italia)    •  Universitatea  din  Madrid  (consultant)  •  Ins@tutul  de  Matema@că  –  Informa@că  al  Academiei  de  Ș@inţțe  

a  Moldovei  (teză  de  doctor  habilitat)    

10  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Publicaţții  •  185  de  @tluri  (unele  pot  fi  consultate  la  hmp://www.info.uaic.ro/~dcristea/publica@ons):    – 5  cărţți,  dintre  care  2  ca  unic  autor;    – 5  cărţți  editate;    – 29  de  capitole  de  cărţți;  – 21  de  ar@cole  în  jurnale;    – 75  de  lucrări  publicate  în  proceedings-­‐uri    (42  internaţționale  și  33  naţționale);  

– 44  de  eseuri  și  alte  publicaţții  despre  ș@inţță;  – coautor  la  peste  100  de  rapoarte  de  cercetare  

•  Indexări:    – 12  Web  of  Knowledge,  24  –  DBLP,  14  –  ACM,  12  –  CiteSeer  și  2  Cornwell  University  Library.    

11  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Componentele  muncii  mele  de  cercetare  

Elaborarea  de  modele  teore@ce  Crearea  de  resurse  și  instrumente  Validarea  modelelor  și  a  instrumentelor  pe  resursele  

create  manual  Integrarea  instrumentelor  în  aplicaţții    Publicaţții  Colaborări  și  par@ciparea  în  proiecte  Par@ciparea  în  compe@ţții  Organizarea  de  evenimente  ș@inţțifice  Predarea  la  catedră  a  descoperirilor    

M

R   I  

A  

P  

C   Pr  

V  

12  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Crearea  de  resurse  lingvis@ce  româneș@  

•  Dicţționare  și  tezaure:  RoWordNet  (în  colaborare),  eDTLR  (în  colaborare)  

•  Corpusuri  adnotate:  RoTreeBank,  RoVerbNet  (în  dezvoltare),  RoFrameNet,  speech2text  aliniat  (în  dezvoltare),  RoCoref,  RoClSeg,  RoSemClasses  etc.    

13  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Crearea  de  instrumente  de  prelucrare  a  limbii  române  

•  Module:  – Categorizer,  ALPE,  AnaMorph,  Diacri@csRecovery,  LanguageIden@fier,  tokeniser+POS-­‐tagger+lema@zer,  NP-­‐chunker,  DependencyParser,  ClauseSplimer,  DiscourseParser,  RARE,  Summarizer  etc.        

•  Servicii  web:    – tokeniser+POS-­‐tagger+lema@zer,  NP-­‐chunker,  DependencyParser,  ClauseSplimer,  DiscourseParser,  Classifier      

14  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Spectrul  cercetărilor  

1983-­‐1987     IURES   Sistem  de  întrebare-­‐răspuns  la  baze  de  cunoș@nţțe  seman@ce  

                   ICI    

1985-­‐1989     QUERNAL   Sistem  de  întrebare-­‐răspuns  la  baze  de  date  

                   ICI    

                   Ins@tutul  de  Cercetări  Metalurgice,  Intr.  “Flamura  Roşie”  Sibiu,  Ins@.  Hidrologie  Iași,  Intr.  Extracţție  ŢȚiţței  Moineș@    

R  M

C  

P  

R  M

P  

A  C  

Pr  A  

15  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Spectrul  cercetărilor  1989-­‐2004     L-­‐Exp/PARLOG   Limbaj  dedicat  descrierii  aplicaţțiilor  de  prelucrare  

a  limbajului  natural  (teza  de  doctorat)  

1993-­‐1994     MICH  MULTI-­‐MORPH  

Morfologie  prin  clasificare:  model  mul@lingv    de  flexionare  morfologică  

                 Univ.  Edinburg  ,  Paris-­‐Sud  Orsay  

1994-­‐1995     PROSODICS   Analiza  forman@că  a  semnalului  vocal:  iden@ficarea  frecvenţței  fundamentale  F0  și  regăsirea  traseelor  prozodice  ale  enunţțurilor  vocale  

                   Univ.  Veneţția            

I  M

C  

P  

I  M

P  

C  

I  M

P   A  

16  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Spectrul  cercetărilor  1981-­‐2011     Ana-­‐Morph   Morfologia  paradigma@că  a  limbii  române  

                   Acad.  Română  –  ICIA,  DEX-­‐online  

1998-­‐prezent    

Dezvoltări  ale  teoriilor  discursului  și  Teoria  Nervurilor    

Relaţția  dintre  structura  discursului  și  referenţțialitate,  coerenţța  și  coeziunea  discursului,  generalizarea  Centering                      Univ.  Pensylvania,  Vasar  College,  Univ.  Nancy,                      ISI  California,  Univ.  Saarbruecken,  IRST  Trento,  Univ.  Sheffield,  Univ.  Toronto,  Univ.  Penang  -­‐  Mallaysia,  Univ.  Marseille,  Univ.  Sussex,  Univ.  Paris-­‐VII,  Univ.  Humbold-­‐Berlin  etc.      

                   ALEAR  

1998-­‐prezent    

DiscPar   Parser  de  discurs                        Univ.  Sheffield,  Univ.  ATLANTIS  –  Atena,                      TETRACOM  –  Sofia,  Polish  Acad.,  Univ.  Hamburg,  Vassar  College,  Univ.  Lisabona,  Univ.  Manchester,  Univ.  Pompeu-­‐Fabra  Barcelona  etc.    

                   ATLAS,  METANET4U                

I  R  

C  

A  

R  M

I  

C  R  M

I   V  

C  

V  

P  

Pr  

Pr  P   A  

Spectrul  cercetărilor  2004-­‐prezent  

AR-­‐Engine  RARE  

Model  mixt  și  mul@lingv  de  rezoluţție  a  anaforelor                        Univ.  Singapore,  Univ.  ATLANTIS  –  Atena,                      TETRACOM  –  Sofia,  Polish  Acad.,  Univ.  Hamburg,  Vassar  College,  Univ.  Lisabona,  Univ.  Manchester,  Univ.  Pompeu-­‐Fabra  Barcelona  etc.        

                     ATLAS,  METANET4U  

1994-­‐prezent    

ALPE   Model  ierarhic  de  organizare  a  workflow-­‐urilor  în  PLN                          Univ.  Tubingen,  Univ.  Utrecht,  Univ.  Malta,                            Univ.  Hamburg,  Univ.  Manchester,      

                     LT4eL,  CLARIN,  METANET4U  

1997-­‐2010   eDTLR   Dicţționarul  Tezaur  al  Limbii  Române  în  format  electronic                        Acad.  Română  –  Ins@t.  “Philippide”  Iași,                        “Iordan-­‐Rosez”  Bucureș@,  “Pușcariu”  Cluj-­‐Napoca,  ICIA-­‐Bucureș@,  IIT-­‐Iași,  UAIC-­‐Fac.  Litere.  

                     eDTLR  

R  M

C  

I  

I  M

P  

C  

R  M

I   V  

C  

Pr  

Pr  

P   A  

V  

P   A  

Pr  

Spectrul  cercetărilor  2010-­‐prezent  

DAT  AnaDiP    

Model  și  instrument  de  analiză  a  discoursului  poli@c    

                     UAIC-­‐Dep.  Jurnalism,  Univ.  Strasbourg  

                     CIDO  -­‐  Civic  iden6ty  of  online  journals  forums  users:  a  pragmalinguis6c  perspec6ve                        

2012-­‐prezent    

Hymas  (Help  Your  Master  in  Any  Situa@on)  

Model  de  asistent  inteligent  (a  situa6on  aware  discreet  intelligent  assistant)                        IDIAP-­‐Mar@gny,  Univ.  Hamburg,  SIVECO,                          Elhuyar  Fundazioa-­‐Spania,  Univ.  Sao-­‐Paolo  

                     SEAMA  -­‐  Seman6c  Awareness  in  Mobile  Applica6ons      

2011  -­‐  prezent  

SkyBooks   Prelucrări  textuale  pe  fluxuri  mari  de  date                          Polish.  Acad.,  TUBITAK  și  KORTO  Turcia,                          TETRACOM  –  Sofia,  Univ.  Lisabona  

                     Rolling  Words,  PROLIR,  SkyBooks  –  “animarea”  cărţților    

R  M

C  

I  

I  M

A  

C  

P  

M

C  

Pr  

Pr  

V  

P   A  

Pr  

I  

Proiecte  de  cercetare  •  Proiecte  ins@tuţționale  (valoarea  pentru  grupul  coordonat  de  mine:  >  1,5  Mil  Eur)  – europene:  BALKANET,  LT4eL,  RoLTech,  CLARIN,  ALEAR,  ATLAS,  METANET4U  

– naţționale:  ROTEL,  InterOb,  E-­‐MANAGE,  eDTLR,  SIR-­‐RESDEC,  ALEAR-­‐RO  

•  Proiecte  didac@ce  – proiecte  de  an:  >20  – proiecte  de  diplomă:  >100  – proiecte  de  dizertaţție:  >40  

•  Proiecte  individuale  în  stagii  internaţționale  de  cercetare:  8  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română   20  

Organizare  de  manifestări  ș@inţțifice  

•  Seria  de  Școli  de  Vară  în  Prelucrarea  Limbajului  Natural  EUROLAN  (10  ediţții)  

•  Iniţțiator  și  coorganizator  al  seriei  de  conferinţțe  Resurse  lingvis6ce  și  instrumente  pentru  prelucrarea  limbii  române  al  Consorţțiului  de  Informa@zare  pentru  Limba  Română  –  ConsILR  (8  ediţții)  

•  Iniţțiator  și  coorganizator  al  seriei  de  manifestări  BringITon:  promovarea  cercetării  universitare  în  mediile  industriale:  20011,  2012  (2  ediţții)  

21  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

EUROLAN  

1993-­‐2011:  10  ediţții    

22  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Organizare  de  manifestări  ș@inţțifice  

ConsILR  2001-­‐2012:  8  ediţții  

23  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Alte  preocupări  

•  Literatură  – Premiul  de  debut  al  Editurii  Cartea  Românească  pentru  anul  2009  cu  romanul  “Scaune  de  pluș”  

24  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Partea  2  

•  Problema@ca  cercetărilor  din  zona  discursului    •  Contribuţții  personale  în  rezoluţția  anaforei  și  relaţția  dintre  structura  discursului  și  referenţțialitate  

25  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

26  

Un  text  nu  este  neapărat  un  discurs!  Dar  devide  discurs  imediat  ce  este  ci@t  de  un  om  ...  sau  de  o  mașină.  

Cum  este  un  text  interpretat  în  @mpul  lecturii?    Care  sunt  structurile  pe  care  le  construim  în  minte  și  cum  ne  ajută  ele  să  avansăm  cu  lectura?    În  ce  fel  legăm  referinţțele  de  reprezentările  pe  care  le  construim?    

Text  faţță  de  discurs  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

27  

Teorii  asupra  discursului  

Teoria  structurilor  retorice:  Mann  and  Thompson,  1987  

– unitate  elementară  de  discurs:  propoziţția/clauza  – relaţția  retorică:  între  două  segmente  de  text  – argumentele  relaţțiilor  sunt  nuclee  și  sateliţți    – analizele  sunt  arbori  – analizele  sunt  subiec@ve‏  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

28  

O  analiză  RST  1.  Farmington  Police  had  to  help  control  traffic  recently  

2.  when  hundreds  of  people  lined  up  to  be  among  the  first  applying  for  jobs  at  the  yet-­‐to-­‐open  Marriot  Hotel.  

3.  The  hotel’s  help-­‐wanted  announcement  –  for  300  openings  –  was  a  rare  opportunity  for  many  unemployed.  4.  The  people  wai6ng  in  line  carried  a  message  of  claims  that  the  jobless  could  be  employed  if  only  they  showed  enough  

moxie.  

5.  Every  rule  has  excep6ons,  

6.  but  the  tragic  and  too-­‐common  tableaux  of  hundreds  of  people  snake-­‐lining  up  for  any  task  with  a  paycheck  illustrates  a  lack  of  jobs,  

7  not  laziness.  

circumstance  

3  2  

2-­‐3  

voli@onal  result  

1-­‐3  

4  

evidence  

5  

6  

an@thesis  

7  

6-­‐7  

concession  

5-­‐7  

4-­‐7  

background  

1-­‐7  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

29  

Teorii  asupra  discursului  

Teoria  centrelor:  Grosz,  Joshi  and  Weinstein,  1995  

– segment:  o  secţțiune  a  discursului  care  manifestă  coerenţță  – secvenţță  de  unităţți  elementare  de  discurs:  propoziţții/clauze  – tranziţții  între  unităţțile  adiacente:  grade  de  coerenţță,  măsurabilă  

– condiţții  de  u@lizare  a  pronumelor  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

30  

An-cipaţții  (expecta'ons)  în  discurs  

Dan  Cristea,  Bonnie  L.  Webber  (1998).  Expecta@ons  in  Incremental  Discourse  Processing.  In  Proceedings  of  ACL  '98  and  EACL  '98    – Indexări:  ACM,  DBLP,  Conwell  University  Library,  CiteSeer,  Web  of  Knowledge.  

– 44  citări  

– două  operaţții  (de  la  Tree  Adjoining  Grammars)  în  parsarea  incrementală  a  discoursului:  adjuncţția  și  subs-tuţția  

–  fron-era  dreaptă  ex-nsă  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Adjuncţția  

31  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Subs-tuţția  

32  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Fron-era  dreaptă  ex-nsă  

Fron@era  dreaptă  a  subarborelui  care  are  rădăcina  în  fratele  stâng  al  celui  mai  interior  nod  subs@tuţție.  

*

33  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

34  

Expecta-ons-­‐driven  incremental  parsing  

a.  Clinton  is  bound  to  win  the  elec6ons.  

b.  He  is  a  natural  born  campaigner.  c.  If  you  hold  some  posi6on  on  an  issue,  d.  then  if  Clinton  wants  to  get  your  vote,  

e.  he  will  assure  you  with  great  sincerity  that  he  holds  that  posi6on  too.    

8

(Cristea  and  Webber,  1997)  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

35  

a.  Clinton  is  bound  to  win  the  elec6ons.  

a

b

EVIDENCE

*

b.  He  is  a  natural  born  campaigner.  

9

Expecta-ons-­‐driven  incremental  parsing  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

36  

a.  Clinton  is  bound  to  win  the  elec6ons.  b.  He  is  a  natural  born  campaigner.  

a b

EVIDENCE

c.  If  you  hold  some  posi6on  on  an  issue,  

EVIDENCE

* c

ANT-CONS

?

13

Expecta-ons-­‐driven  incremental  parsing  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

37  

a.  Clinton  is  bound  to  win  the  elec6ons.  b.  He  is  a  natural  born  campaigner.  c.  If  you  hold  some  posi6on  on  an  issue,  

a

b

EVIDENCE

EVIDENCE

c

ANT-CONS

?

14

Expecta-ons-­‐driven  incremental  parsing  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

38  

a.  Clinton  is  bound  to  win  the  elec6ons.  

b.  He  is  a  natural  born  campaigner.  

c.  If  you  hold  some  posi6on  on  an  issue,  d.  then  if  Clinton  wants  to  get  your  vote,  

d

ANT-CONS

?

a

b

EVIDENCE

EVIDENCE

c

ANT-CONS

?

16

Expecta-ons-­‐driven  incremental  parsing  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

39  

a.  Clinton  is  bound  to  win  the  elec6ons.  

b.  He  is  a  natural  born  campaigner.  

c.  If  you  hold  some  posi6on  on  an  issue,  d.  then  if  Clinton  wants  to  get  your  vote,  e.  he  will  assure  you  with  great  sincerity  that  he  holds  that  posi6on  too.  

d

ANT-CONS

a

b

EVIDENCE

EVIDENCE

c

ANT-CONS

?

17

Expecta-ons-­‐driven  incremental  parsing  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

40  

a.  Clinton  is  bound  to  win  the  elec6ons.  

b.  He  is  a  natural  born  campaigner.  

c.  If  you  hold  some  posi6on  on  an  issue,  d.  then  if  Clinton  wants  to  get  your  vote,  e.  he  will  assure  you  with  great  sincerity  that  he  holds  that  posi6on  too.  

d

ANT-CONS

a

b

EVIDENCE

EVIDENCE

c

ANT-CONS

e

18

Expecta-ons-­‐driven  incremental  parsing  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

41  

Teoria  nervurilor  Dan  Cristea,  Nancy  Ide,  Laurent  Romary  (1998).  Veins  Theory.  An  Approach  to  

Global  Cohesion  and  Coherence.  In  Coling  '98  and  ACL  '98,  Montreal.    –  Indexări:  ACM,  DBLP,  CiteSeer.  

–  111  citări  Dan  Cristea,  Nancy  Ide,  Daniel  Marcu,  Valen@n  Tablan  (1999).  Discourse  Structure  

and  Co-­‐Reference:  An  Empirical  Study,  In  ACL'99,  Maryland.    –  38  citări  

Nancy  Ide,  Dan  Cristea  (2000).  A  Hierarchical  Account  of  Referen@al  Accessibility.  In  ACL'2000,  Hong  Kong.  –  Indexări:  ACM,  DBLP,  CiteSeer,  Web  of  Knowledge  –  26  citări  

Dan  Cristea,  Nancy  Ide,  Daniel  Marcu,  Valen@n  Tablan  (2000).  An  empirical  inves@ga@on  of  the  rela@on  between  discourse  structure  and  co-­‐reference.  In  COLING'2000,  Luxembourg.    –  Indexări:  ACM,  DBLP  –  20  citări  

Dan  Cristea  (2009).  Mo@va@ons  and  implica@ons  of  veins  theory:  a  discussion  of  discourse  cohesion.  In  Interna6onal  Journal  of  Speech  Technology  –  Indexări:  ACM    

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

42  

Teoria  nervurilor  

– plasează  la  bază  convenţții  din  RST,  dar  ignoră  numele  relaţțiilor  

– noţțiunea  de  nervură:  un  domeniul  de  referenţțialitate  al  unităţților  decupat  din  arborele  de  discurs  

– conjectura  coeziunii:  o  referinţță  între  unităţți  este  posibilă  cu  precădere  când  există  o  legătură  structurală  ierarhică  între  ele  

– conjectura  coerenţței:  generalizează  Centering  dincolo  de  restricţția  de  localitate  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

43  

Nervuri  

 ...  în  contextul  întregului  discurs:  unităţțile  cele  mai  semnifica@ve  ale  textului  acoperit  de  nod  împreună  cu  altele  din  afara  lui  

Expresia  nervură  a  unui  nod:  secvenţța  de  unităţți  necesare  pentru  înţțelegerea  textului  acoperit  de  nod,  în  contextul  întregului  discurs  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

44  

Regenţți  și  nervuri  

H=3  

H=1  2  

H=3  H=1  

H=2   H=3   H=4  

H=5  

H=3  

1   2   3   4  

5  

V=3  5  

V=3  V=3  

V=1  2  3  

V=1  2  3  

V=1  2  3  

V=(1  2)  3  

V=(1  2)  3   V=3  4  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

45  

Tipuri  de  referinţțe  

evoca@ve  

-­‐   procese  de  rezoluţție  evoca@ve:  -­‐   un  anafor  poate  avea  ca  antecedent  o  referinţță  care  nu  este  în  mod  necesar  cea  mai  apropiată  linear,  ci  doar  cea  mai  apropiată  ierarhic  -­‐   se  bazează  pe  asociaţții  de  proprietăţți  morfologice,  sintac@ce,  seman@ce  -­‐   sunt  rapide  -­‐   dau  flenţță  textului  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

46  

Tipuri  de  referinţțe  

-­‐   procese  de  rezoluţție  post-­‐evoca@ve:  -­‐   sunt  mai  încete  computaţțional  (angrenează  mecanisme  cu  mai  mare  încărcătură  inferenţțială),  -­‐   necesită  elemente  referenţțiale  tari  (de  ex.,  nume  proprii),    -­‐   sunt  mai  puţțin  frecvente.      

post-­‐evoca@ve  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

47  

Din  conjectura  coeziunii:    căutând  pe  nervuri,  potenţțialul  de  a  

găsi  antecedenţți  e  mai  mare  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

48  

Din  conjectura  coeziunii:    efortul  de  a-­‐i  găsi  e  mai  mic  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

49  

Măsurând  coerenţța  

•  Un  scor  al  tranziţțiilor:  – CONTINUING  =  4  – RETAINING  =  3  – SMOOTH  SHIFT  =2  – ABRUPT  SHIFT  =  1  – NO  Cb  =  0  

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română  

Din  conjectura  coerenţței:    scorul  total  Centering  calculat  pe  nervuri    

e  mai  mare  decât  calculat  linear    

0  

0.5  

1  

1.5  

2  

2.5  

Average  CT  score  per  transi@on     Average  VT  score  per  transi@on    

English    

French    

Romanian    

Average  

50  

51  

Rezoluţția  anaforei  •  Dan  Cristea,  Gabriela-­‐Eugenia  Dima  (2001).  An  integra@ng  framework  for  

anaphora  resolu@on.  In  Informa6on  Science  and  Technology,  Romanian  Academy  Publishing  House.    

–  Premiul  "Grigore  Moisil"  în  december  2003.  

–  13  citări    

•  Dan  Cristea,  Oana  Postolache,  Gabriela-­‐Eugenia  Dima,  Cătălina  Barbu  (2002).  AR-­‐Engine  –  a  framework  for  unrestricted  co-­‐reference  resolu@on.  In  LREC-­‐2002,  Las  Palmas  de  Gran  Canaria.  

–  Indexări:  DBLP,  CiteSeer.  

–  25  citări  

•  Dan  Cristea,  Gabriela-­‐Eugenia  Dima,  Oana  Postolache,  Ruslan  Mitkov  (2002).  Handling  complex  anaphora  resolu@on  cases.  In  Discourse  Anaphora  and  Anaphor  Resolu6on  Colloquium,  Lisbon.  

–  10  citări    

•  Constan@n  Orăsan,  Dan  Cristea,  Ruslan  Mitkov,  Antonio  Branco  (2008).  Anaphora  Resolu@on  Exercise  –  An  Overview.  In  LREC-­‐2008,  Marrakech.  

–  Indexări:  DBLP,  CiteSeer.  

–  12  citări      Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Relaţția  anafor  –  antecedent:  coreferenţțialitate    

Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  –  Academia  Română   52  

Nivelul  textului  …………………………………………………………………………………………………………………………………..………………………

Nivelul  semantic  ……………………………….……………………….  DEa

RE1

RE1  propune  DE

RE2 REk

REk  evocă  DE RE2  evocă  DE

AR-­‐engine:  the  architecture  

AR-engine

text

AR-­‐model3  

AR-­‐model2  

AR-­‐model1  

anaphoric links

53  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Partea  a  3-­‐a  

•  Aplicaţții  prac@ce  ale  cercetărilor  mele  din  zona  discursului,  ul@mele  realizări  de  instrumente  de  prelucrare  a  limbajului  natural.    

•  Planuri  de  viitor.      

54  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Un  lanţț  de  rezumare  automată    în  6  limbi  

Prerequisite   Summarizer text

SEN  text   TOK   xml  POS   LEM   NP   NER  

summary  

55  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Un  lanţț  de  rezumare  automată    în  6  limbi  

Prerequisite   Summarizer   summary   text

AR   CS  xml   DP   SUM   summary  SMO  

56  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

ATLAS  summariser  versus  SOA  Daniel  Anechitei,  Dan  Cristea,  Ioannidis  Dimosthenis,  Eugen  Ignat,  Diman  Karagiozov,  Svetla  Koeva,  Mateusz  Kopeć,  Cris@na  Vertan  (2013,  to  appear).  Summarizing  Short  Texts  Through  a  Discourse-­‐Centered  Approach  in  a  Mul@lingual  Context.  In  Neustein,  A.,  Markowitz,  J.A.  (eds.),  Where  Humans  Meet  Machines:  Innova@ve  Solu@ons  to  Knomy  Natural  Language  Problems.  Springer  Verlag,  Heidelberg/New  York.    

Language BG DE EN GR PL RO AVG

UAIC’s VT Summarizer P (H) 0.19 0.23 0.27 0.23 0.17 0.22 0.22

R (H) 0.29 0.44 0.41 0.41 0.36 0.32 0.37

F (H) 0.23 0.3 0.32 0.29 0.23 0.25 0.27

Open Text Summarizer P (H) 0.16 0.19 0.24 0.27 0.19 0.29 0.22

R (H) 0.25 0.2 0.22 0.33 0.21 0.06 0.21

F (H) 0.19 0.2 0.23 0.27 0.2 0.1 0.2

LexRank Summarizer P (H) 0.15 0.23 0.27 0.24 0.24 0.21 0.21

R (H) 0.18 0.25 0.25 0.22 0.24 0.22 0.18

F (H) 0.16 0.24 0.26 0.23 0.22 0.21 0.19

Proiecte  de  viitor  

•  Prelucrări  textuale  în  flux  con@nuu:  propunerea  de  proiect  SkyBooks  –  depusă  în  ianuarie  2013  

•  Recunoașterea  situaţțiilor  SEAMA  -­‐  Seman6c  Awareness  in  Mobile  Applica6ons  –  propunerea  va  fi  depusă  în  februarie    

•  Îmbunătăţțirea  eDTLR  și  exploatarea  lui  –  la  IIT,  în  colaborare  cu  Academia  

•  Construirea  unui  corpus  aliniat  vorbire-­‐text  –  la  IIT  •  Studii  de  morfologie  diacronică  românească  –  colaborare  cu  Ins@t.  Philippide    

58  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Formarea  de  discipoli  •  NLP-­‐Group:  consolidat  în  cursul  anilor  la  UAIC-­‐FII,  IIT  și  Ins@t.  Philippide  – Un  nucleu  stabil  de  7  colaboratori  doctori  – Restul  (până  la  15-­‐18):  

•  Post-­‐doctoranzi  îndrumaţți  de  mine  •  Studenţți  doctoranzi  conduși  de  mine    •  Masteranzi  de  Lingvis@că  Computaţțională  de  talent  

•  28  de  foș@  studenţți,  @neri  doctori  sau  cercetători  în  domeniul  Limbajului  Natural  

•  10  doctori  în  diverse  domenii  care  au  colaborat  sau  au  rămas  în  legături  de  colaborare  cu  NLP-­‐Group  

59  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română  

Vă  mulţțumesc!  

60  Secţția  de  Ș@inţța  Și  Tehnologia  Informaţțiilor  

–  Academia  Română