cursurile 5-6 introducere în prelucrarea limbajului...

74
Cursurile 5-6 Introducere în prelucrarea limbajului natural

Upload: lamminh

Post on 08-Feb-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Cursurile5-6Introducereîn

prelucrarealimbajuluinatural

Page 2: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Domeniul

•  Lingvis'cacomputaţională(LC)–osaturateore=că– computa'onallinguis'cs

•  Prelucrarealimbajuluinatural–zonaaplica=vă– naturallanguageprocessing–  tehnologialimbajuluinatural,naturallanguagetechnology

–  tehnologialimbajuluiuman,humanlanguagetechnology

2

Page 3: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Tehnologialimbajuluinatural

•  Limbajulvorbit•  Limbajulscris•  Limbajulîncorelaţiecualtemodalităţideexpresie(mul=modalitate)

3

Page 4: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Tehnologiilelimbajuluivorbit

•  Interpretareavocii–  reprezentareasemnalelorvocale–  recunoaştereavorbirii– analizaprozodiei–  recunoaştereavorbitorului

•  Sintezavocală

4

Page 5: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Prelucrareasemnaluluisonor

PrinbunăvoinţaAcad.H.N.Teodorescu5

Page 6: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Tehnologiilelimbajuluiscris

•  Tehnologiiprimare– Analizaimaginiidocumentelor– Recunoaştereacaracterelorde=par– Recunoaştereacaracterelordemână

•  Op'calCharacterRecogni'on(OCR)

6

Page 7: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Ms.45BARCluj-Napoca,secondhalfof17thcentury

Differenttypesofwri=ngintherevisedcopyofNicolaeMilescu’stransla=onofSeptuaginta,p.412-413

7

Page 8: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Tehnologiilelimbajuluiscris

•  Analizaşiînţelegerealimbajului– prelucrărisub-sintac=ce

•  unităţilelexicale•  graniţeledefrază•  granițeledepropoziții•  parteadevorbireşimarcamorfologică•  lema•  numeledeen=tăţi•  grupurile(nominale,verbale,prepoziţionaleetc.)şiatracţiilelexicale(colocaţii)

8

Page 9: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

FrazeComisiajuridicăaCamereiDeputaţiloravotatluniîmpotrivaînceperiiurmăririipenaleaministruluidemisionaralFondurilorEuropene,RovanaPlumb,dupăceaceastaafostaudiată,alăturideavocat,aproxima=voorădecătredeputaţiijuriş=.|RovanaPlumbs-adeclarat,dinnou,laieşireadelaaudieriledincomisiajuridică,nevinovatădeacuzaţiileadusedeprocuroriian=corupţie.|

9

Page 10: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

PropozițiiPe22septembrie,DNAaanunţatcă|vicepremierulSevilShhaidehestesuspectăde|săvârşireainfracţiuniideabuzînserviciu|cânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,|prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,|părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,|pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.|

10

Page 11: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

UnitățilexicalePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

11

Page 12: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

En=tățicunumePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

persoană

12

Page 13: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

En=tățicunumePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

repertemporal

dată

Page 14: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

En=tățicunumePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

ins=tuție

14

Page 15: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

En=tățicunumePe22septembrie,DNAaanunţatcăvicepremierulSevilShhaidehestesuspectădesăvârşireainfracţiuniideabuzînserviciucânderasecretardestatlaMDRAP,într-undosarconformcăruia,în2013,prinacţiuneaconcertatăaunorpersoanecufuncţiipublice,părţidinInsulaBelinaşiBraţulPavelautrecutilegaldinproprietateastatuluiînproprietateajudeţuluiTeleormanşiînadministrareaCJTeleorman,pentruca,doarlacâtevazile,săfieînchiriatetotilegaluneifirmeprivate.

locațiigeografice

15

Page 16: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Lemașiparteadevorbire

Solicitat–solicita–vbsă–să–conjcomenteze–comenta–vbun–un–art.nehot.editorial–editorial–sbrecent–recent–adj...

16

Page 17: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

•  English

Adnotareamorfologică

0 1 He he subj:>2 @SUBJPRON2 did do v-ch:>4 @+FAUXVV3 not not neg:>2 @ADVLNEG-PART4 knowknowmain:>0 @-FMAINVV5 her she subj:>6 @OBJPRON6 namenameobj:>4@-FMAINVV

•  Romanian

<TOKID="TOK478"root="Nu"pv="Par=cle"Type="nega=on">Nu</TOK><TOKID="TOK479"root="ş="pv="Verb"Type="main"Mood="indic."

Tense="imperfect"Person="third"Number="singular">ş=a</TOK><TOKID="TOK480"root="cum"pv="Adverb"type="int_rel">cum</TOK><TOKID="TOK481"root="el"pv="Pronoun"Type="pers"Person="third"

Gender="feminine"Number="singular"Case="accusa=ve">o</TOK><TOKID="TOK482"root="chema"pv="Verb"Type="main"Mood="indic."

Tense="present"Person="third">cheamă</TOK>

17

Page 18: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Grupurinominale

Solicitatsăcomenteze[uneditorialrecentallui[DinuPatriciu]],în[care][acesta]precizacănucredeîn[social-liberalism]şisăapreciezedacă,asxel,adat[oloviturăde[imagine]][USL],[Antonescu]aspuscănuş=edacă[Patriciu]s-areferitla[USL].

18

Page 19: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

<NPID="NP903"HEADID="W3190"VERBPOS="W3191"><WID="W3190"POS="PRON"NUM="SG"GENDER="M"ROLE="SUBJ" LEMMA="he"LINK="W3191"LINKTYPE="subj">He</W></NP>

<WID="W3191"POS="V"ROLE="+FAUXV"LEMMA="do"LINK="W3193"LINKTYPE="v-ch">did</W>

<WID="W3192"POS="NEG-PART"ROLE="ADVL"LEMMA="not"LINK="W3191"LINKTYPE="neg">not</W>

<WID="W3193"POS="V"ROLE="-FMAINV"LEMMA="know"LINK="W3189"LINKTYPE="main">know</W>

<NPID="NP1188"HEADID="W3195"><NPID="NP904"HEADID="W3194"VERBPOS="W3189"> <WID="W3194"POS="PRON"NUM="SG"GENDER="F” ROLE="OBJ"LEMMA="she"LINK="W3195“LINKTYPE="subj">her</W></NP><WID="W3195"POS="V"ROLE="-FMAINV"LEMMA="name”LINK="W3193"LINKTYPE="obj">name</W></NP>

Adnotarelagrupurinominale

19

Page 20: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Tehnologiilelimbajuluiscris

•  Analizaşiînţelegerealimbajului– prelucrărisintac=ce

•  formalismegrama=cale•  parsareaèstructurasintac=căafrazei

20

Page 21: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Ambiguităţisintac=ce

Mariapriveştecalulcuochelari.

VP

priveşte

S

Maria

NP

calul

PP

NP

cu ochelari

NP

VP

priveşte

S

Maria

NP

calul

NP

cu ochelari

NP

PP

21

Page 22: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

InstrumentedebazăînPLN

•  Tokenizer:determinăgranițeleunitățilorlexicale–  intrare:text(șirdecaractere)–  ieșire:<tok id=“...”>cuvânt</tok>– cum:prinexpresiiregulate

2222

Page 23: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

InstrumentedebazăînPLN

•  POS-Tagger:e=chetarelapartedevorbire(dezambiguizaremorfosintac=că)–  intrare:<tok id=“...”>cuvânt</tok>–  ieșire:<tok id=“...” POS=“...”>cuvânt</tok>– cum:exploatândfrecvențeledeaparițieaanumitorsecvențedepărțidevorbire=>op=mizareglobalăasecvențelordee=chete

Thesawmadenoise.

DET VN

NV

N

23

Page 24: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

InstrumentedebazăînPLN

•  Lema_zator:determinăformadebazăacuvintelor–  intrare:<tok id=“...” POS=“...”>word</tok>–  ieșire:<tok id=“...” POS=“...” lemma=“...”>word</tok>

– cum:pebazaunuidicționardelemeșiexploatândfrecvențedeaparițieasecvențelordeleme=>op=mizareglobală

Thesawmadenoise.

the sawsee

mademake

noise

24

Page 25: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

InstrumentedebazăînPLN

•  NP-Chunker:detecteazăgrupurinominale–  intrare:secvențedeelemente<tok>–  ieșire:<npid=“...”>...</np>– cum:aplicândexpresiiregulate

25

Page 26: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

InstrumentedebazăînPLN

•  NER(nameen_tyrecogniser):recunoașteșiclasificănumedeen=tăți–  intrare:text–  ieșire:<neid=“...”type=“...”>...</ne>– cum:pebazădeexpresiiregulateșilistefoartemaridenumedeen=tățispecializatepelimbi(gazeteers)

26

Page 27: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Tehnologiilelimbajuluiscris

•  Analizaşiînţelegerealimbajului– Prelucrăriseman=ceşidediscurs

•  dezambiguizareseman=căèsensurilecuvintelor•  determinarearolurilorseman=cealeverbelor•  structuraretoricăadiscursuluişidialogului•  rezoluţiaanaforelor•  rezumareatextelor

27

Page 28: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Lanțuri coreferențiale

Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room. One of them was a girl whom he often passed in the corridors. He did not know her name, but he knew that she worked in the Fiction Department.

28

Page 29: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Lanțuri coreferențiale

Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room. One of them was a girl whom he often passed in the corridors. He did not know her name, but he knew that she worked in the Fiction Department.

29

Page 30: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Lanțuri coreferențiale

Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room. One of them was a girl whom he often passed in the corridors. He did not know her name, but he knew that she worked in the Fiction Department

30

Page 31: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Lanțuri coreferențiale

Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room. One of them was a girl whom he often passed in the corridors. He did not know her name, but he knew that she worked in the Fiction Department.

31

Page 32: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Cuvinteleîşiprecizeazăsensulîncontext

•  Ionseprinseînhorăcuofatăcucosiţelungi.•  Cândfatăiapata?

•  Mămaidauodatăpepâr'aroşie.•  I-amdatunapestemână.•  Mariaadatcarteaînapoi.

•  M-amscos…•  Mi-amscosmăseauademinte.

32

Page 33: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Pre-processing

TEXT

TOK

Tokeniser

TOK(POS,LEM)

POS-tagger+Lemma=ser

SENT

SENT-SPLITTER

33

Page 34: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

NP-chunking,NER

TOK+NP

NP-chunker

TOK+NP+NE(PER)

TOK(POS,LEM)

TOK+NP+TIME

NER_=me

TOK+NP+NE(ORG)

NER_orgNER_person

TOK+NP+NE

merge

34

Page 35: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Coreference,syntac=cparsing

TOK+NP+NE+COREF

TOK+NP+NE

TOK+SENT+SYNT

TOK+NP+NE+COREF+SENT+SYNT

merge

RARE

TOK(POS,LEM) SENT

TOK+SENT

FDG-parser

merge

35

Page 36: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Events

EVENT-finder

TOK+NP+NE+COREF+SENT+SYNT

TOK+NP+NE+COREF+SENT+SYNT+EVENT

TEXT

EVENT

simplifica=on

manualannota=on

36

Page 37: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

KinshipandSpace

KINSHIP-finder

TOK+NP+NE+COREF+SENT+SYNT

TOK+NP+NE+COREF+SENT+SYNT+KINSHIP

TEXT

KINSHIP SPACE

SPACE-finder

simplifica=onsimplifica=on

manualannota=on

manualannota=on

TOK+NP+NE+COREF+SENT+SYNT+SPACE

37

Page 38: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Relațiiderudenie:exemplu

-Lascăcu'nemărăfuiescdupă,îiscăpăprintredințiomuluieiDonca,nevastacălugăruluizbanghiuZuicu,care-IaduseselaelacasăpeIonșipepreședinte.

Apoziție:Per-X,Rel(atrib)Per-Ygen,=>marriage(X:person[sex:?],Y:person[sex:?])

marriage(Donca:person[sex:f],Zuicu:person[sex:m])

38

Page 39: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Relațiiderudenie:exemplu-VremedepatruzecideaniviațaElleiRubinstein1fusesecaoapăstătătoare…Soțulei1,David,eraunden'stdesucces…

Apoziție:RelPer-Xpron,gen,Per-Y,=>marriage(antecedent(X):person[sex:?],Y:person[sex:?])

marriage(EllaRubistein:person[sex:f],David:person[sex:m])

39

Page 40: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Relațiispațiale:exemplu

LacinciverstedeiurteleAremziansk,înmijloculrâuluiIrtâş,seaflăostrovulKuntai.SatulluiFilatovseaflăpemalulstângladouăverstedeostrov.

40

Page 41: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Cumsecalibreazăunmodul?

Săpresupunemcăvremsăconstruimunmodulcaresărealizezeunanumitobiec=v.Atunci,defapt,vatrebuisăfabricăm3module:§ Modululdeantrenare(TM)§ Modululpropriu-zis(X)§ Modululdeevaluare(EM)

41

Page 42: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

•  TMextragedintr-uncorpusdeantrenareunmodelcarevafiapoifolositdemolululX.

Modululdeantrenare(TM)

TrainingModuleTrainingCorpus

model

preferencesTraining.pref

42

Page 43: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

•  Xaplicăunalgoritmasuprauneiintrăripentruaotransformaînconformitatecumodelulînvățat.

ModululX

ThemoduleX output.xml

input.xml

preferencesX.pref

model

43

Page 44: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

•  EMevaluează(compară)unfișierTestfațădeunfișierconsideratcorect(deaur)Gold.

Modululdeevaluare(EM)

Evalua=onModule evalLog

preferencesEvalua=on.pref

output.xml

gold.xml

Test

44

Page 45: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Măsuriînevaluare

•  Precision=#itemiîncomunînTest&Gold/#itemiînTest•  Recall=#itemiîncomunînTest&Gold/#itemiînGold•  F-measure=2*P*R/(P+R)

45

Page 46: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Arhitecturagenerală

TMTrainingcorpus

model

preferencesTraining.pref

X

EM

preferencesX.pref

preferencesEvalua=on.pref

input.xml

output.xml

gold.xml

evalLog

46

Page 47: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Sistemdecalibrare

TM

X

EM

configura=on.cfg

TrainingCorpus

input.xml

gold.xml

preferencesTraining.pref

preferencesX.pref

C

Op=malvalues

preferencesEvalua=on.pref

47

Page 48: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

FormarecomandatăaunuiinstrumentNLPcarepar=cipăîntr-unlanțde

prelucrări

ModuleXstandardinput

standardoutput

outputinput

resourses

standardresourses

48

parameters

txt

Page 49: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Eventshappenin=me

Cândaintratîncamerăe1,Ionaaprinsluminae2.Dupăcinciminuteaieşite3.Laieşireas'nsluminae4.

49

Page 50: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Eventshappenin=me

Cândaintratîncamerăe1,Ionaaprinsluminae2.Dupăcinciminuteaieşite3.Laieşireas'nsluminae4.

Twotypesoftemporalexpressions:•  instants...

e1:t1/e2:t1/e3:t2=t1+5min/e4:t2

time

e1

t1

e3

t2

e2 e4 50

Page 51: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Eventshappenin=me

Cândaintratîncamerăe1,Ionaaprinsluminae2.Dupăcinciminuteaieşite3.Laieşireas'nsluminae4.

Twotypesoftemporalexpressions:•  ...andintervals:

time

e1

t1

e3

t2

e2 e4

5 minutes

51

Page 52: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Eventscanbe...

•  Instantaneous:Ionaieşitdincameră.Marias-aîntâlnitcuprofuldemate.

•  Take=me:Ionaci'ttoatăseara.Afarăplouă.

time t

e

time t1

e

t2

52

Page 53: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Signalsfortemporalrela=ons

Cândaintratîncamerăe1,Ionaaprinsluminae2.Dupăcinciminuteaieşite3.Laieşireas'nsluminae4.

cândei,ejèt(ei)=t(ej)ei.După<interval>ejèt(ej)=t(ei)+<interval>La<reference(ei)>ejèt(ei)=t(ej)

timp

e1

t1

e3

t2

e2 e4

5 minute

53

Page 54: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Typeofreasoningwhere=mema�ers

2. [Falimentul firmei] a avut loc la un an după [înfiinţarea ei].

un an

1. Samurai S.R.L. a luat fiinţă la 23 ianuarie 1984.

Când a falimentat Samurai S.R.L.?

54

Page 55: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Processingstatements

a luat fiinţă

Samurai S.R.L.(id=obj1) subj

la

23 ianuarie 1984

compl

PP ev1

23ianuarie1984

ISA aluafiinţă

SamuraiS.R.L. REC

TIME

evenimential representation

<object ID=“obj1” ISA=“companie” NAME=“Samurai S.R.L.”/>

<event ID=“ev1” ISA=“a_lua_fiinţă” REC=“obj1” TIME=“23.01.1984”/>

55

Page 56: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

simplificări

a avut loc

falimentarea subj

la

an

compl

atrib. genit? firmei

un după

înfiinţarea

ei

PP

atrib. genit?

det

a avut loc

falimentarea subj

la

an

compl

atrib. genit? obj1

un după

înfiinţarea

obj1

PP

atrib. genit?

det

rezoluţia anaforelor

a falimenta subj

la

an

compl obj1

un după

ev1

PP

det

dacă are_loc falimentarea lui X atunci X falimentează

referinţă anaforică la un eveniment deja menţionat

56

Page 57: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Processingstatements

evenimential representations

a falimenta subj

la

an

compl obj1

un după

ev1

PP

det temporal expression

anchored in another event

<event ID=“ev2” ISA=“a_falimenta” REC=“obj1” TIME=“timex1”/>

<timex ID=“timex1” TYPE=“after” REF=“ev1” DUR=“1” UNIT=“year”/>

57

Page 58: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Compu=ng=me<objectID=“obj1”ISA=“companie”NAME=“SamuraiS.R.L.”/><eventID=“ev1”ISA=“a_lua_fiinţă”REC=“obj1”TIME=“23.01.1984”/><eventID=“ev2”ISA=“a_falimenta”REC=“obj1”TIME=“=mex1”/><=mexID=“=mex1”TYPE=“a�er”REF=“ev1”DUR=“1”UNIT=“year”/><eventID=“ev2”ISA=“a_falimenta”REC=“obj1”TIME=“23.01.1985”/>

58

Page 59: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Corpusul‘QuoVadis’

59

Page 60: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Uncorpusdeen=tățișirelațiiseman=ce

•  Tipurideen=tăți:–  persoane–  zei–  grupuridepersoaneșizei–  părțifizice

•  Relațiiseman=ceexprimateîntreaceste=purideen=tăți

60

Page 61: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

En=tăți•  Personaje(MarcusVinicius,Ligia),grupuri (creș'nii,soldații);

•  La nivelul textului: grupuri nominale (tânărulpatrician,fiulconsulului);

•  En=tățiincluse:[Te]1[iubesc;REALISATION=INCLUDED]2,Marcus!•  Expresiireferențialeimbricate:[fiica[luiAulus]2]1

61

Page 62: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Tipuriderelații

•  Anaforice•  Seman=ce

–  rudenie– afec=ve– sociale

62

Page 63: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Relațiianaforice•  coref•  coref-interpret•  member-of,has-as-member(inverse)•  isa,class-of(inverse)•  part-of,has-as-part(inverse)•  subgroup-of,has-as-subgroup(inverse)•  has-name,name-of(inverse)1:[Acteea]...2:[tânăralibertă]...=>[2]coref[1]1:[mâna2:[lui]dreaptă]=>[1]part-of[2]

63

Page 64: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Relațiiderudenie•  parent-of•  child-of(inverseofparent-of)•  grandparent-ofandgrandchild-of(inverse)•  sibling(symmetrical)•  ant-uncle-of,nephew-of(inverserela=on)•  cousin-of(symmetrical)•  spouse-of(symmetrical)•  unknown

1:[celuide-aldoileasoț2:[alPopeii]]=>[1]spouse-of[2]1:[soralui2:[Petronius]]=>[1]sibling-of[2]

64

Page 65: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Relațiisociale

•  superior-of•  inferior-of•  incoopera'on-with•  colleague-of•  incompe''on-with•  opposite-toEliberând-1:[o],2:[Nero]…=>[2]superior-of[1]1:[Tânărul]luptasesubcomanda2:[luiCorbulon]=>[1]inferior-of[2]

65

Page 66: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Relațiiafec=ve•  love•  loved-by•  hate•  hatedby•  upset•  friendship•  worship•  angerPe1:[Vinicus]îlcuprinseomânienăprasnicăîmpotriva

2:[împăratului]șiîmpotriva3:[Acteii]=>[1]anger[2],[1]anger[3]

66

Page 67: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

<ENTITYID="E8"TYPE="PERSON"><Wid="28"LEMMA="Marcus">Marcus</W><Wid="29"LEMMA="Vinicius">Vinicius</W></ENTITY><Wid="30"LEMMA="fi">era</W><KINSHIPID="KIN57"FROM="E12"TO="E11"TRIGGER="31"

TYPE="child-of"><ENTITYID="E12"TYPE="PERSON"><Wid="31"LEMMA="fiu">fiul</W><KINSHIPID="KIN53"FROM="E11"TO="E10"TRIGGER="32"

TYPE="sibling-of"><ENTITYID="E11"TYPE="PERSON"><Wid="32"LEMMA="soră">surorii</W><ENTITYID="E10"TYPE="PERSON"><Wid="33"LEMMA="său">sale</W></ENTITY><Wid="34"LEMMA="mai">mai</W><Wid="35"LEMMA="mare">mari</W></ENTITY></KINSHIP></ENTITY></KINSHIP><Wid="36"LEMMA=",">,</W><KINSHIPID="KIN59"FROM="E13"TO="E15"TRIGGER="44"

TYPE="spouse-of"><ENTITYID="E13"TYPE="PERSON"><Wid="37"LEMMA="care">care</W></ENTITY><Wid="38"LEMMA=",">,</W><Wid="39"LEMMA="cu">cu</W><Wid="40"LEMMA="an">ani</W><Wid="41"LEMMA="în_urmă">înurmă</W><Wid="42"LEMMA=",">,</W><Wid="43"LEMMA="sine">se</W>

<Wid="44"LEMMA="căsători">căsătorise</W><Wid="45"LEMMA="cu">cu</W><KINSHIPID="KIN61"FROM="E15"TO="E14"TRIGGER="46"TYPE="parent-of"><ENTITYID="E15"TYPE="PERSON"><Wid="46"LEMMA="tată">tatăl</W><ENTITYID="E14"TYPE="PERSON"><Wid="47"LEMMA="acesta">acestuia</W></ENTITY></ENTITY></KINSHIP></KINSHIP><SOCIALID="SOC9"FROM="E17"TO="E16"TRIGGER="49"TYPE="inferior-of"><ENTITYID="E17"TYPE="PERSON"><Wid="49"LEMMA="consul">consul</W><Wid="50"LEMMA="pe">pe</W><Wid="51"LEMMA="vreme">vremea</W><Wid="52"LEMMA="el">lui</W><ENTITYID="E16"TYPE="PERSON"><Wid="53"LEMMA="Tiberiu">Tiberiu</W></ENTITY></ENTITY></SOCIAL><Wid="54"LEMMA=".">.</W><REFERENTIALID="REF37"FROM="E12"TO="E8"TYPE="coref"/REFERENTIAL><REFERENTIALID="REF38"FROM="E13"TO="E11"TYPE="coref"/REFERENTIAL><REFERENTIALID="REF39"FROM="E14"TO="E8"TYPE="coref"/REFERENTIAL><REFERENTIALID="REF40"FROM="E17"TO="E15"TYPE="class-of"/REFERENTIAL>

Adno

tarea

Page 68: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Sta=s=ciasupracorpusului

•  7.281fraze•  146.822cuvinteșisemnedepunctuație•  24.636mențiunideen=tăți•  22.301relațiireferențiale•  755relațiiAKS(Affec=ve+Kinship+Social)•  752triggere

68

Page 69: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Example:relațiileloveșiworship

69

Page 70: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Relațiileafec=vefear-ofșihate

70

Page 71: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

RelațiileluiViniciuscualtepersonaje

71

Page 72: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Distribuțiarelațiilorseman=ceîncareesteimplicatpersonajulVinicius

72

Page 73: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Linguis'csLinkedOpenData(LLOD)

-  Dezvoltareadetehnicicarevorpermitedescifrareaconținutuluiseman_caltextelor-  rezumate(generale,parțiale,focalizatepepersonaje),-  liniinara=ve(e.g.evoluțiasen=mentelordintreViniciusșiLigia)

-  conexiunista=ceîntreen=tăți(e.g.arborigenealogici),-  sta=s=ciasupraen=tăților(e.g.sen=mentelemajoritarealecreș=nilorcomparatecucelealeromanilor)

73

Page 74: Cursurile 5-6 Introducere în prelucrarea limbajului naturaldcristea/cursuri/IA/2017-2018/Curs5-6... · – analiza prozodiei – recunoaşterea vorbitorului ... Rovana Plumb, după

Linguis'csLinkedOpenData(LLOD)

-  Generareadeontologiidincolecțiidetratate-  aplicațiicare“citesc”tratateleunuidomeniușiformalizeazăconcepteleșiinstanțeleacestora

-  Căutaredocumentarăinteligentă-  asistențipersonalizațiaiac=vitățiidecercetare

74