cursul 13 noțiuni de prelucrare a limbajului naturaldcristea/cursuri/ia/2018-2019... ·...

66
Cursul 13 Noțiuni de prelucrare a limbajului natural

Upload: others

Post on 25-Jan-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Cursul13Noțiunide

prelucrarealimbajuluinatural

Page 2: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Domeniul

•  Lingvis'cacomputaţională(LC)–osaturateore<că– computa'onallinguis'cs

•  Prelucrarealimbajuluinatural–zonaaplica<vă– naturallanguageprocessing–  tehnologialimbajuluinatural,naturallanguagetechnology

–  tehnologialimbajuluiuman,humanlanguagetechnology

2

Page 3: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Tehnologialimbajuluinatural

•  Limbajulvorbit•  Limbajulscris•  Limbajulîncorelaţiecualtemodalităţideexpresie(mul<modalitate)

3

Page 4: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Tehnologiilelimbajuluivorbit

•  Interpretareavocii–  reprezentareasemnalelorvocale–  recunoaştereavorbirii– analizaprozodiei–  recunoaştereavorbitorului

•  Sintezavocală

4

Page 5: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Prelucrareasemnaluluisonor

PrinbunăvoinţaAcad.H.N.Teodorescu5

Page 6: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Tehnologiilelimbajuluiscris

•  Tehnologiiprimare– Analizaimaginiidocumentelor– Recunoaştereacaracterelorde<par– Recunoaştereacaracterelordemână

•  Op'calCharacterRecogni'on(OCR)

6

Page 7: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Ms.45BARCluj-Napoca,secondhalfof17thcentury

Differenttypesofwri<ngintherevisedcopyofNicolaeMilescu’stransla<onofSeptuaginta,p.412-413

7

Page 8: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Tehnologiilelimbajuluiscris

•  Analizaşiînţelegerealimbajului– prelucrărisub-sintac<ce

•  unităţilelexicale•  graniţeledefrază•  granițeledepropoziții•  parteadevorbireşimarcamorfologică•  lema•  numeledeen<tăţi•  grupurile(nominale,verbale,prepoziţionaleetc.)şiatracţiilelexicale(colocaţii)

8

Page 9: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

FrazeComisiajuridicăaCamereiDeputaţiloravotatluniîmpotrivaînceperiiurmăririipenaleaministruluidemisionaralFondurilorEuropene,RovanaPlumb,dupăceaceastaafostaudiată,alăturideavocat,aproxima<voorădecătredeputaţiijuriş<.|RovanaPlumbs-adeclarat,dinnou,laieşireadelaaudieriledincomisiajuridică,nevinovatădeacuzaţiileadusedeprocuroriian<corupţie.|

9

Page 10: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

PropozițiiPe22septembrie,DNAaanunţatcă|vicepremierulSevilShhaidehestesuspectăde|săvârşireainfracţiuniideabuzînserviciu|cânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,|prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,|părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,|pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.|

10

Page 11: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

UnitățilexicalePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

11

Page 12: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

En<tățicunumePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

persoană

12

Page 13: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

En<tățicunumePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

repertemporal

dată

Page 14: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

En<tățicunumePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

ins<tuție

14

Page 15: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

En<tățicunumePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

locațiigeografice

15

Page 16: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Lemașiparteadevorbire

Solicitat–solicita–vbsă–să–conjcomenteze–comenta–vbun–un–art.nehot.editorial–editorial–sbrecent–recent–adj...

16

Page 17: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

•  English

Adnotareamorfologică

0 1 He he subj:>2 @SUBJPRON2 did do v-ch:>4 @+FAUXVV3 not not neg:>2 @ADVLNEG-PART4 knowknowmain:>0 @-FMAINVV5 her she subj:>6 @OBJPRON6 namenameobj:>4@-FMAINVV

•  Romanian

<TOKID="TOK478"root="Nu"pv="Par<cle"Type="nega<on">Nu</TOK><TOKID="TOK479"root="ş<"pv="Verb"Type="main"Mood="indic."

Tense="imperfect"Person="third"Number="singular">ş<a</TOK><TOKID="TOK480"root="cum"pv="Adverb"type="int_rel">cum</TOK><TOKID="TOK481"root="el"pv="Pronoun"Type="pers"Person="third"

Gender="feminine"Number="singular"Case="accusa<ve">o</TOK><TOKID="TOK482"root="chema"pv="Verb"Type="main"Mood="indic."

Tense="present"Person="third">cheamă</TOK>

17

Page 18: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Grupurinominale

Solicitatsăcomenteze[uneditorialrecentallui[DinuPatriciu]],în[care][acesta]precizacănucredeîn[social-liberalism]şisăapreciezedacă,asxel,adat[oloviturăde[imagine]][USL],[Antonescu]aspuscănuş<edacă[Patriciu]s-areferitla[USL].

18

Page 19: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

<NPID="NP903"HEADID="W3190"VERBPOS="W3191"><WID="W3190"POS="PRON"NUM="SG"GENDER="M"ROLE="SUBJ" LEMMA="he"LINK="W3191"LINKTYPE="subj">He</W></NP>

<WID="W3191"POS="V"ROLE="+FAUXV"LEMMA="do"LINK="W3193"LINKTYPE="v-ch">did</W>

<WID="W3192"POS="NEG-PART"ROLE="ADVL"LEMMA="not"LINK="W3191"LINKTYPE="neg">not</W>

<WID="W3193"POS="V"ROLE="-FMAINV"LEMMA="know"LINK="W3189"LINKTYPE="main">know</W>

<NPID="NP1188"HEADID="W3195"><NPID="NP904"HEADID="W3194"VERBPOS="W3189"> <WID="W3194"POS="PRON"NUM="SG"GENDER="F” ROLE="OBJ"LEMMA="she"LINK="W3195“LINKTYPE="subj">her</W></NP><WID="W3195"POS="V"ROLE="-FMAINV"LEMMA="name”LINK="W3193"LINKTYPE="obj">name</W></NP>

Adnotarelagrupurinominale

19

Page 20: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Tehnologiilelimbajuluiscris

•  Analizaşiînţelegerealimbajului– prelucrărisintac<ce

•  formalismegrama<cale•  parsareaèstructurasintac<căafrazei

20

Page 21: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Ambiguităţisintac<ce

Mariapriveştecalulcuochelari.

VP

priveşte

S

Maria

NP

calul

PP

NP

cu ochelari

NP

VP

priveşte

S

Maria

NP

calul

NP

cu ochelari

NP

PP

21

Page 22: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

InstrumentedebazăînPLN

•  Tokenizer:determinăgranițeleunitățilorlexicale–  intrare:text(șirdecaractere)–  ieșire:<tok id=“...”>cuvânt</tok>– cum:prinexpresiiregulate

2222

Page 23: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

InstrumentedebazăînPLN

•  POS-Tagger:e<chetarelapartedevorbire(dezambiguizaremorfosintac<că)–  intrare:<tok id=“...”>cuvânt</tok>–  ieșire:<tok id=“...” POS=“...”>cuvânt</tok>– cum:exploatândfrecvențeledeaparițieaanumitorsecvențedepărțidevorbire=>op<mizareglobalăasecvențelordee<chete

Thesawmadenoise.

DET VN

NV

N

23

Page 24: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

InstrumentedebazăînPLN

•  Lema_zator:determinăformadebazăacuvintelor–  intrare:<tok id=“...” POS=“...”>word</tok>–  ieșire:<tok id=“...” POS=“...” lemma=“...”>word</tok>

– cum:pebazaunuidicționardelemeșiexploatândfrecvențedeaparițieasecvențelordeleme=>op<mizareglobală

Thesawmadenoise.

the sawsee

mademake

noise

24

Page 25: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

InstrumentedebazăînPLN

•  NP-Chunker:detecteazăgrupurinominale–  intrare:secvențedeelemente<tok>–  ieșire:<npid=“...”>...</np>– cum:aplicândexpresiiregulate

25

Page 26: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

InstrumentedebazăînPLN

•  NER(nameen_tyrecogniser):recunoașteșiclasificănumedeen<tăți–  intrare:text–  ieșire:<neid=“...”type=“...”>...</ne>– cum:pebazădeexpresiiregulateșilistefoartemaridenumedeen<tățispecializatepelimbi(gazeteers)

26

Page 27: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Tehnologiilelimbajuluiscris

•  Analizaşiînţelegerealimbajului– Prelucrăriseman<ceşidediscurs

•  dezambiguizareseman<căèsensurilecuvintelor•  determinarearolurilorseman<cealeverbelor•  structuraretoricăadiscursuluişidialogului•  rezoluţiaanaforelor•  rezumareatextelor

27

Page 28: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Lanțuri coreferențiale

Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room. One of them was a girl whom he often passed in the corridors. He did not know her name, but he knew that she worked in the Fiction Department.

28

Page 29: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Lanțuri coreferențiale

Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room. One of them was a girl whom he often passed in the corridors. He did not know her name, but he knew that she worked in the Fiction Department.

29

Page 30: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Lanțuri coreferențiale

Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room. One of them was a girl whom he often passed in the corridors. He did not know her name, but he knew that she worked in the Fiction Department

30

Page 31: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Lanțuri coreferențiale

Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room. One of them was a girl whom he often passed in the corridors. He did not know her name, but he knew that she worked in the Fiction Department.

31

Page 32: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Cuvinteleîşiprecizeazăsensulîncontext

•  Ionseprinseînhorăcuofatăcucosiţelungi.•  Cândfatăiapata?

•  Mămaidauodatăpepâr'aroşie.•  I-amdatunapestemână.•  Mariaadatcarteaînapoi.

•  M-amscos…•  Mi-amscosmăseauademinte.

32

Page 33: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Pre-processing

TEXT

TOK

Tokeniser

TOK(POS,LEM)

POS-tagger+Lemma<ser

SENT

SENT-SPLITTER

33

Page 34: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

NP-chunking,NER

TOK+NP

NP-chunker

TOK+NP+NE(PER)

TOK(POS,LEM)

TOK+NP+TIME

NER_<me

TOK+NP+NE(ORG)

NER_orgNER_person

TOK+NP+NE

merge

34

Page 35: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Coreference,syntac<cparsing

TOK+NP+NE+COREF

TOK+NP+NE

TOK+SENT+SYNT

TOK+NP+NE+COREF+SENT+SYNT

merge

RARE

TOK(POS,LEM) SENT

TOK+SENT

FDG-parser

merge

35

Page 36: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Events

EVENT-finder

TOK+NP+NE+COREF+SENT+SYNT

TOK+NP+NE+COREF+SENT+SYNT+EVENT

TEXT

EVENT

simplifica<on

manualannota<on

36

Page 37: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

KinshipandSpace

KINSHIP-finder

TOK+NP+NE+COREF+SENT+SYNT

TOK+NP+NE+COREF+SENT+SYNT+KINSHIP

TEXT

KINSHIP SPACE

SPACE-finder

simplifica<onsimplifica<on

manualannota<on

manualannota<on

TOK+NP+NE+COREF+SENT+SYNT+SPACE

37

Page 38: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Relațiiderudenie:exemplu

-Lascăcu'nemărăfuiescdupă,îiscăpăprintredințiomuluieiDonca,nevastacălugăruluizbanghiuZuicu,care-IaduseselaelacasăpeIonșipepreședinte.

Apoziție:Per-X,Rel(atrib)Per-Ygen,=>marriage(X:person[sex:?],Y:person[sex:?])

marriage(Donca:person[sex:f],Zuicu:person[sex:m])

38

Page 39: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Relațiiderudenie:exemplu-VremedepatruzecideaniviațaElleiRubinstein1fusesecaoapăstătătoare…Soțulei1,David,eraunden'stdesucces…

Apoziție:RelPer-Xpron,gen,Per-Y,=>marriage(antecedent(X):person[sex:?],Y:person[sex:?])

marriage(EllaRubistein:person[sex:f],David:person[sex:m])

39

Page 40: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Relațiispațiale:exemplu

LacinciverstedeiurteleAremziansk,înmijloculrâuluiIrtâş,seaflăostrovulKuntai.SatulluiFilatovseaflăpemalulstângladouăverstedeostrov.

40

Page 41: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Eventshappenin<me

Cândaintratîncamerăe1,Ionaaprinsluminae2.Dupăcinciminuteaieşite3.Laieşireas'nsluminae4.

41

Page 42: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Eventshappenin<me

Cândaintratîncamerăe1,Ionaaprinsluminae2.Dupăcinciminuteaieşite3.Laieşireas'nsluminae4.

Twotypesoftemporalexpressions:•  instants...

e1:t1/e2:t1/e3:t2=t1+5min/e4:t2

time

e1

t1

e3

t2

e2 e4 42

Page 43: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Eventshappenin<me

Cândaintratîncamerăe1,Ionaaprinsluminae2.Dupăcinciminuteaieşite3.Laieşireas'nsluminae4.

Twotypesoftemporalexpressions:•  ...andintervals:

time

e1

t1

e3

t2

e2 e4

5 minutes

43

Page 44: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Eventscanbe...

•  Instantaneous:Ionaieşitdincameră.Marias-aîntâlnitcuprofuldemate.

•  Take<me:Ionaci'ttoatăseara.Afarăplouă.

time t

e

time t1

e

t2

44

Page 45: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Signalsfortemporalrela<ons

Cândaintratîncamerăe1,Ionaaprinsluminae2.Dupăcinciminuteaieşite3.Laieşireas'nsluminae4.

cândei,ejèt(ei)=t(ej)ei.După<interval>ejèt(ej)=t(ei)+<interval>La<reference(ei)>ejèt(ei)=t(ej)

timp

e1

t1

e3

t2

e2 e4

5 minute

45

Page 46: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Typeofreasoningwhere<mema~ers

2. [Falimentul firmei] a avut loc la un an după [înfiinţarea ei].

un an

1. Samurai S.R.L. a luat fiinţă la 23 ianuarie 1984.

Când a falimentat Samurai S.R.L.?

46

Page 47: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Processingstatements

a luat fiinţă

Samurai S.R.L.(id=obj1) subj

la

23 ianuarie 1984

compl

PP ev1

23ianuarie1984

ISA aluafiinţă

SamuraiS.R.L. REC

TIME

evenimential representation

<object ID=“obj1” ISA=“companie” NAME=“Samurai S.R.L.”/>

<event ID=“ev1” ISA=“a_lua_fiinţă” REC=“obj1” TIME=“23.01.1984”/>

47

Page 48: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

simplificări

a avut loc

falimentarea subj

la

an

compl

atrib. genit? firmei

un după

înfiinţarea

ei

PP

atrib. genit?

det

a avut loc

falimentarea subj

la

an

compl

atrib. genit? obj1

un după

înfiinţarea

obj1

PP

atrib. genit?

det

rezoluţia anaforelor

a falimenta subj

la

an

compl obj1

un după

ev1

PP

det

dacă are_loc falimentarea lui X atunci X falimentează

referinţă anaforică la un eveniment deja menţionat

48

Page 49: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Processingstatements

evenimential representations

a falimenta subj

la

an

compl obj1

un după

ev1

PP

det temporal expression

anchored in another event

<event ID=“ev2” ISA=“a_falimenta” REC=“obj1” TIME=“timex1”/>

<timex ID=“timex1” TYPE=“after” REF=“ev1” DUR=“1” UNIT=“year”/>

49

Page 50: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Compu<ng<me<objectID=“obj1”ISA=“companie”NAME=“SamuraiS.R.L.”/><eventID=“ev1”ISA=“a_lua_fiinţă”REC=“obj1”TIME=“23.01.1984”/><eventID=“ev2”ISA=“a_falimenta”REC=“obj1”TIME=“<mex1”/><<mexID=“<mex1”TYPE=“a�er”REF=“ev1”DUR=“1”UNIT=“year”/><eventID=“ev2”ISA=“a_falimenta”REC=“obj1”TIME=“23.01.1985”/>

50

Page 51: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Corpusul‘QuoVadis’

51

Page 52: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Uncorpusdeen<tățișirelațiiseman<ce

•  Tipurideen<tăți:–  persoane–  zei–  grupuridepersoaneșizei–  părțifizice

•  Relațiiseman<ceexprimateîntreaceste<purideen<tăți

52

Page 53: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

En<tăți•  Personaje(MarcusVinicius,Ligia),grupuri (creș'nii,soldații);

•  La nivelul textului: grupuri nominale (tânărulpatrician,fiulconsulului);

•  En<tățiincluse:[Te]1[iubesc;REALISATION=INCLUDED]2,Marcus!•  Expresiireferențialeimbricate:[fiica[luiAulus]2]1

53

Page 54: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Tipuriderelații

•  Anaforice•  Seman<ce

–  rudenie– afec<ve– sociale

54

Page 55: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Relațiianaforice•  coref•  coref-interpret•  member-of,has-as-member(inverse)•  isa,class-of(inverse)•  part-of,has-as-part(inverse)•  subgroup-of,has-as-subgroup(inverse)•  has-name,name-of(inverse)1:[Acteea]...2:[tânăralibertă]...=>[2]coref[1]1:[mâna2:[lui]dreaptă]=>[1]part-of[2]

55

Page 56: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Relațiiderudenie•  parent-of•  child-of(inverseofparent-of)•  grandparent-ofandgrandchild-of(inverse)•  sibling(symmetrical)•  ant-uncle-of,nephew-of(inverserela<on)•  cousin-of(symmetrical)•  spouse-of(symmetrical)•  unknown

1:[celuide-aldoileasoț2:[alPopeii]]=>[1]spouse-of[2]1:[soralui2:[Petronius]]=>[1]sibling-of[2]

56

Page 57: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Relațiisociale

•  superior-of•  inferior-of•  incoopera'on-with•  colleague-of•  incompe''on-with•  opposite-toEliberând-1:[o],2:[Nero]…=>[2]superior-of[1]1:[Tânărul]luptasesubcomanda2:[luiCorbulon]=>[1]inferior-of[2]

57

Page 58: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Relațiiafec<ve•  love•  loved-by•  hate•  hatedby•  upset•  friendship•  worship•  angerPe1:[Vinicus]îlcuprinseomânienăprasnicăîmpotriva

2:[împăratului]șiîmpotriva3:[Acteii]=>[1]anger[2],[1]anger[3]

58

Page 59: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

<ENTITYID="E8"TYPE="PERSON"><Wid="28"LEMMA="Marcus">Marcus</W><Wid="29"LEMMA="Vinicius">Vinicius</W></ENTITY><Wid="30"LEMMA="fi">era</W><KINSHIPID="KIN57"FROM="E12"TO="E11"TRIGGER="31"

TYPE="child-of"><ENTITYID="E12"TYPE="PERSON"><Wid="31"LEMMA="fiu">fiul</W><KINSHIPID="KIN53"FROM="E11"TO="E10"TRIGGER="32"

TYPE="sibling-of"><ENTITYID="E11"TYPE="PERSON"><Wid="32"LEMMA="soră">surorii</W><ENTITYID="E10"TYPE="PERSON"><Wid="33"LEMMA="său">sale</W></ENTITY><Wid="34"LEMMA="mai">mai</W><Wid="35"LEMMA="mare">mari</W></ENTITY></KINSHIP></ENTITY></KINSHIP><Wid="36"LEMMA=",">,</W><KINSHIPID="KIN59"FROM="E13"TO="E15"TRIGGER="44"

TYPE="spouse-of"><ENTITYID="E13"TYPE="PERSON"><Wid="37"LEMMA="care">care</W></ENTITY><Wid="38"LEMMA=",">,</W><Wid="39"LEMMA="cu">cu</W><Wid="40"LEMMA="an">ani</W><Wid="41"LEMMA="în_urmă">înurmă</W><Wid="42"LEMMA=",">,</W><Wid="43"LEMMA="sine">se</W>

<Wid="44"LEMMA="căsători">căsătorise</W><Wid="45"LEMMA="cu">cu</W><KINSHIPID="KIN61"FROM="E15"TO="E14"TRIGGER="46"TYPE="parent-of"><ENTITYID="E15"TYPE="PERSON"><Wid="46"LEMMA="tată">tatăl</W><ENTITYID="E14"TYPE="PERSON"><Wid="47"LEMMA="acesta">acestuia</W></ENTITY></ENTITY></KINSHIP></KINSHIP><SOCIALID="SOC9"FROM="E17"TO="E16"TRIGGER="49"TYPE="inferior-of"><ENTITYID="E17"TYPE="PERSON"><Wid="49"LEMMA="consul">consul</W><Wid="50"LEMMA="pe">pe</W><Wid="51"LEMMA="vreme">vremea</W><Wid="52"LEMMA="el">lui</W><ENTITYID="E16"TYPE="PERSON"><Wid="53"LEMMA="Tiberiu">Tiberiu</W></ENTITY></ENTITY></SOCIAL><Wid="54"LEMMA=".">.</W><REFERENTIALID="REF37"FROM="E12"TO="E8"TYPE="coref"/REFERENTIAL><REFERENTIALID="REF38"FROM="E13"TO="E11"TYPE="coref"/REFERENTIAL><REFERENTIALID="REF39"FROM="E14"TO="E8"TYPE="coref"/REFERENTIAL><REFERENTIALID="REF40"FROM="E17"TO="E15"TYPE="class-of"/REFERENTIAL>

Adno

tarea

Page 60: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Sta<s<ciasupracorpusului

•  7.281fraze•  146.822cuvinteșisemnedepunctuație•  24.636mențiunideen<tăți•  22.301relațiireferențiale•  755relațiiAKS(Affec<ve+Kinship+Social)•  752triggere

60

Page 61: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Example:relațiileloveșiworship

61

Page 62: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Relațiileafec<vefear-ofșihate

62

Page 63: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

RelațiileluiViniciuscualtepersonaje

63

Page 64: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Distribuțiarelațiilorseman<ceîncareesteimplicatpersonajulVinicius

64

Page 65: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Linguis'csLinkedOpenData(LLOD)

-  Dezvoltareadetehnicicarevorpermitedescifrareaconținutuluiseman_caltextelor-  rezumate(generale,parțiale,focalizatepepersonaje),-  liniinara<ve(e.g.evoluțiasen<mentelordintreViniciusșiLigia)

-  conexiunista<ceîntreen<tăți(e.g.arborigenealogici),-  sta<s<ciasupraen<tăților(e.g.sen<mentelemajoritarealecreș<nilorcomparatecucelealeromanilor)

65

Page 66: Cursul 13 Noțiuni de prelucrare a limbajului naturaldcristea/cursuri/IA/2018-2019... · 2018-12-18 · En

Linguis'csLinkedOpenData(LLOD)

-  Generareadeontologiidincolecțiidetratate-  aplicațiicare“citesc”tratateleunuidomeniușiformalizeazăconcepteleșiinstanțeleacestora

-  Căutaredocumentarăinteligentă-  asistențipersonalizațiaiac<vitățiidecercetare

66