curs11-tehnici utile in proiect - profs.info.uaic.rodcristea/cursuri/ia/2017-2018/curs11-tehnici...
Embed Size (px)
TRANSCRIPT

Curs11
Tehniciu)leînrealizareaproiectului

Definițiaontologiei
• Oontologieesteunsetdetermenireferitorilaundomeniudeinteres,asociațicudefinițiiîntr-olimbănaturală(deexemplu,engleza),șicareaurelațiiformaleșiconstrângericesuntuClizatedeoameniînmuncalorși,eventual,deprogramedecalculator.
Aprox.din:EdHovy(1998).CombiningandStandardizingLarge-Scale,PracCcalOntologiesforMachineTranslaConandOtherUses.LREC,Granada

Extragereadeontologiidintexte

Determinarearelațieidehyponimie
Thebowlute,suchastheBambarandang,ispluckedandhasanindividualcurvedneckforeachstring.Lăutacuarc,precumBambarandang,esteîn>nsășiareungâtcurbatindividualpentrufiecarestrună.
Din:M.Hearst(1992).AutomaCcAcquisiConofHyponymsfromLargeTextCorpora,ACL

PaXernurilexicale
NP0.....suchas{NP1,NP2....(and|or)}NPnimplicăforallNPi1<i<n,hyponym(NPi,NP0)Dinexempluldemaisusrezultă:hyponym("Barmbarandang","bowlute”)

PaXernurilexicale
suchNPas{NP,}*{(or|and)}NP...worksbysuchauthorsasHerrick,Goldsmith,andShakespeare.=>hyponym("author","Herrick")hyponym("author","Goldsmith")hyponym("author","Shakespeare")

PaXernurilexicale
NP{,NP}*{,}orotherNPBruises,wounds,brokenbonesorotherinjuries...=>hyponym("bruise","injury")hyponym("wound","injury“)hyponym("brokenbone","injury")

PaXernurilexicaleNP{,NP}*{,}andotherNP...temples,treasuries,andotherimportantcivicbuildings.=>hyponym("temple","civicbuilding")hyponym("treasury","civicbuilding")

PaXernurilexicale
NP{,}including{NP{,}}*{or|and}NPAllcommon-lawcountries,includingCanadaandEngland...=>hyponym("Canada","common-lawcountry")hyponym("England","common-lawcountry")

PaXernurilexicale
NP{,}especially{NP,}*{or]and}NP...mostEuropeancountries,especiallyFrance,England,andSpain.=>hyponym("France","Europeancountry")hyponym("England","Europeancountry")hyponym("Spain","Europeancountry")

CumsepotgăsinoipaXernuri?1. Decidețiasuprauneirelațiilexicale,R,careestedeinteres,
deexemplu,"grup-membru"2. Colectațiolistădetermenipentrucareaceastărelațieeste
cunoscută,deexemplu,"Anglia-țară".– Listapoatefigăsităautomatprinbootstrappingporninddela
paXernurigăsitemanualsauprinbootstrappingdelaunlexicsauobazădecunoșCnțeexistente.
3. GăsițiaparițiiîncorpusîncareacesteexpresiiaparsintacCcunalângăcealaltășiînregistrațiacestecontexte.
4. GăsițipărțilecomunealeacestorcontexteșiipotezațicăacesteaformeazăCparecareindicărelațiadeinteres.
5. OdatăceunpaXernnouafostidenCficat,uClizați-lpentruaadunamaimulteexemplealerelațieițintășiconCnuațicuPasul2.

CumsepotgăsinoipaXernuri?1.Antrenare:
(a)Exportațiexempledintoateperechiledehipernime(perechidecuvinteaflateîntr-orelațiehipernimie/hiponimie)dinWordNet.(b)Pentrufiecareperechehipernimică,găsițifrazeîncareaparambelecuvinte.(c)ParsațifrazeleșiextragețiautomatpaXernuridinarboreledeparsare,carereprezintăindiciibunepentrurelațiahipernimică.(d)InstruițiunclasificatorhipernimicbazatpeacestecaracterisCci.
2.Test:(a)Fiinddatăoperechedecuvintedinsetuldetestare,extragețicaracterisCcileșiuClizațiclasificatorulpentruadecidedacăperecheadecuvinteseaflăînrelațiahipernim/hiponimsaunu.
Din:Snow,JuravskyandNg(2004).LearningsyntacCcpaXernsforautomaCchypernymdiscovery,inNIPS.

PaXernurilexico-sintacCce
“...suchauthorsasHerrickandShakespeare”Trăsăturilesuntreprezentatecatriplete:(word1, CATEGORY1:RELATION:CATEGORY2, word2)
undeword1șiword2suntrădăcinidecuvinte
Toatecăileminime,delungime≤4,întreoricaredouăsubstanCvedintr-unarborededependență

GeneralizareapaXernurilor:notațiadependențelorexCnse
• Rețineceamaiscurtăcale:authors–Herrick• Adaugăsateliți:authors–such• Distribuielegăturilededependențăînjurulelementelorconjuncționate

PaXernuritrasee
(word1, CAT1:REL12:CAT2, word2) (word2, CAT2:REL23:CAT3, word3)
(word1, CAT1:REL12:CAT2, word2) (word2, CAT2:REL23:CAT3, word3)
CAT1:REL12:CAT2, word2 , word2, CAT2:REL23:CAT3
word1 word2 word3REL12 REL23
CAT1 CAT2 CAT3

RepresentărilepaXernurilorluiHearstcatraseededependență
• NPX and other NPY : (and,U:PUNC:N),-N:CONJ:N, (other,A:MOD:N)
• NPX or other NPY : (or,U:PUNC:N),-N:CONJ:N, (other,A:MOD:N)
• NPY such as NPX: N:PCOMP-N:PREP,such as,such as,PREP:MOD:N
• Such NPY as NPX: N:PCOMP-N:PREP,as,as,PREP:MOD:N,(such,PREDET:PRE:N)
• NPY including NPX: N:OBJ:V,include,include,V:I:C,dummy node,dummy node,C:REL:N
• NPY , especially NPX: -N:APPO:N,(especially,A:APPO-MOD:N)
word1, CATEGORY1:RELATION:CATEGORY2, word2)

Clasificator
• Intrare:operecheordonatădecuvinte• Ieșire:odeciziebinarăcuprivirelafaptuldacăsubstanCvelesuntînlegăturădehipernimieorinu
• CaracterisCci:căi(trasee)pecareprimulșiulCmulcuvântsuntînlocuitedecategoriaN(substanCv)
• Corpus:6milioanedefrazedeșCri– corpusparsatcuMINIPAR– suntextrasetoateperechiledesubstanCvecareaparînaceeașifrază

Clasificator– 752.311perechidesubstanCveaufosteCchetatedreptCunoscut-ca-HipernimsauCunoscut-ca-Non-HipernimfolosindWN:• operechedesubstanCve(n1,n2)esteeCchetăCunoscut-ca-Hipernimdacăn2esteunstrămoșalprimuluisensalluin1întaxonomiadehipernimiedinWNșidacărelațiahypernym*dinWNțineîntreprimelesensuricasubstanCveenumerateînWordNet(carereprezintăcelemai“frecventuClizate"sensurialefiecăruicuvânt)
• operechedesubstanCveesteeCchetatăCunoscut-ca-Non-HipernimdacăambelesubstanCvesuntconținuteînWN,darniciunuldintrecuvintenuesteunstrămoșalceluilaltîntaxonomiahipernimicădinWNpentruoricesensalfiecăruicuvânt

EvaluareapaXernurilor• Caredintretraseelededependență(paXernurilexico-sintacCce)sedovedescaficaracterisCciuClepentruclasificatori:– afostconstruitcâteunclasificatorbinarpentrufiecarepaXern:paXernulestereprezentaCvpentruaclasificaoperechedesubstanCvecahipernime/hiponimedacășinumaidacăpaXernulrespecCvaparecelpuținodatăpentruoperechedesubstanCcecareseîntâmplăsăfieînrelațiahipernim/hiponim,conformWN
=>printremultealtele,modelelegăsitemanualdeHearstaufost"redescoperite"

DescoperireadenoipaXernuri
• AltepaXernuridescormare:
NPY like NPX: N:PCOMP-N:PREP,like,like,PREP:MOD:N NPY called NPX: N:DESC:V,call,call,V:VREL:N NPX is a NPY: N:S:VBE,be,be,-VBE:PRED:N NPX, a NPY (appositive): N:APPO:N

ClasificareahipernimelordupăpaXernuri

MINIPAR• hXps://gate.ac.uk/releases/gate-7.0-build4195-ALL/doc/tao/splitch17.html

Combinarea(fuziunea)deontologii

Fuziuneadeontologii–definiție
• Procesuldefuziuneontologicăprimeșteînintraredouă(saumaimulte)ontologiisursășireturneazăoontologiecarecombinăontologiilesursădate.
GerdStumme,AlexanderMaedche.OntologyMergingforFederatedOntologiesontheSemanCcWeb

Abordări
• AbordărilesebazeazăpeeurisCcidepotriviresintacCcășisemanCcăcarederivădincomportamentulinginerilorontologiatuncicândseconfruntăcusarcinadeaîmbinaontologii,i.e.sesimuleazăcomportamentuluman.
• TehnicistaCsCce,carejudecăsimilaritateaconceptelorșiasemănareabrutăainstanțelor,prinmetricideșiruritextualeșicunoșCnțedenaturăsemanCcă.

Viziunicomuneoridiferiteasupralumii,combinare

Ontologie:definițieformală
• Definiție:Oontologie(debază)esteuntupluO:=(C;is_a;R;σ),undeCesteunsetalecăruielementesenumescconcepte,is_aesteoordineparțialăpeC(adicăorelațiebinarăis_a⊆CCcareestereflexivă,tranziCvășianCsimetrică),Resteunsetalecăruielementesuntnumitenumederelații(sau,pescurt,relații),iarσ:RàC+esteofuncțiecareatribuiefiecăruinumederelațiearitateasa.

• Fiinddațidoitermeniapropiați,câteunuldinfiecareontologie:– Ceidoitermenisuntechivalențièeipotfidirectaliniați;
Ax Aym
Ay1 Ay
2 Ay3
Ay
Ay1 Ay
2 Ay3
Cumsepotcombinatermenii?

Cumsepotcombinatermenii?• Fiinddațidoitermeni,câteunuldinfiecareontologie:– Untermenestemaigeneraldecâtcelălaltètermenulmaispecific(șitoțisubordonații,posibilșifrațiilui)potfiintegrațisubtermenulmaigeneral;
Ay
mAx
1
Ay2 Ay
3
Ay
Ay2 Ay
3
Ax2 Ax
3
Ax1
Ax2 Ax
3

• Fiinddațidoitermeni,câteunuldinfiecareontologie:– TermeniisuntincompaCbili(i.e.,idenCficareaacestoraarcauzaproblemededefinireșirelaționaleîntreceilalțitermeni)-cazîncare:(1) unuldintretermenitrebuierespinsșinutrebuieîncorporat,(2) unuldintretermenișialțiicaredepinddeeltrebuiesăfie
redefiniți,(3) trebuiecreatăo"microteorie"separată,încaretermeniișitoți
ceilalțitermenicaredepinddeeaexistăînparalel(4) poatefiîncorporatăoversiunemaislabăatermenului
infracțional,fărădefinițiilesaurelațiilecareaucauzatinconsecvența
Cumsepotcombinatermenii?

SugesCideeurisCcidealiniere
1.Potriviripeșiruridelitere,e.g.:– Potrivirialenumelordeconcepte(cognatematching):numesuficientdeasemănătoare(înaceeașilimbă)suntdovezicădezvoltatoriiconsiderăconceptelesimilare.
– Potriviriîndefiniții(prinprocesaredetextșimăsuridesuprapuneri):definițiisimilareînlimbajnaturalartrebuifieconsiderate,deasemenea,dovezialesimilaritățiiconceptelor.

SugesCideeurisCcidealiniere
2.Potrivirileierarhiceexploateazăstructuradetaxonomizareaontologiilor.Eleinclud:– Filtrareaambiguitățiiprinsuperconceptepartajate:atuncicândunconceptpoatefialiniatlamaimultealternaCve,seiauînconsiderarecelealecărorsuperconceptesuntcumvaaliniatelasuperconcepteleconceptuluițintă.
– MăsuribazatepedistanțesemanCce(numărdelegături)(v.(Agirreetal.,1994)).

Măsuridealiniere
• Potriviredenume(cognatematch):comparănumeleN1șiN2aledouăconcepte.– ConsiderăsubșiruridescrescătoarealeluiN1,tăinddinstânga.Numeleformatedincuvintecompusesuntîmpărțiteîncuvinteseparate,seîntoarcescorulmaxim.Numelemaimicide3literesuntignorate.• NAMESCORE: = numărul de litere potrivite la pătrat + 20 de puncte dacă cuvintele sunt exact egale sau 10 puncte dacă cuvintele coincid la sfârșit

Măsuridealiniere:exempledesugesCidepotriviridenumecuscoruri(alignval ‘|S@cuisine| ‘(
(NAME M@LIMOUSINE 26) (NAME M@VINE 19) (NAME M@MORPHINE 19) (NAME M@ENGINE-GOVERNOR 19) (NAME M@BUSINESS-COVERAGE-OF 16) (NAME M@AGRIBUSINESS-ACTIVITY 16) (NAME M@TABLE-LINEN 9) (NAME M@TRAINER 9) ... 120 more ... ))
(alignval ‘|S@Free World| ‘((NAME M@PERCENT-OF-WORLD-POPULATION 46) (NAME M@WORLD 35) ))

Măsuridealiniere• Potriviripedefiniții:comparădefinițiileînenglezăD1șiD2aledouăconcepte.Maiîntâi,ambeledefinițiisuntseparateincuvinteseparate(seîndepărteazăapostroafele,limioareledeunireetc.)șitoatecuvintelesuntlemaCzate.– definițialuiM@FOOD:("any""substance""that""can""be""metabolized""organism""give""energy""build""Cssue")
– apoi,secalculează3valori:• strength=raportuldintrenumăruldecuvintecareaparînambeledefinițiișinumăruldecuvintealedefinițieicelemaiscurte,
• reliability=număruldecuvintecomune,• defscore=strength*reliability:.• DEFSCORE:=(Shared(D1,D2)/min{D1,D2})*Shared(D1,D2)

Măsuridealiniere:exempledesugesCidepotriviridedefiniții
cuscoruri
(strength, reliability, score): (alignval ‘|S@cuisine| ‘(
(DEF M@KITCHEN (0.62 5 3.12)) (DEF M@CHEESE (0.62 5 3.12)) (DEF M@FOODSTUFF (0.62 5 3.12)) (DEF M@PET-FOOD (0.62 5 3.12)) (DEF M@CUTLERY (0.50 4 2.00)) (DEF M@RACETRACK ( 0.37 3 1.12)) (DEF M@COOK ( 0.40 2 0.80)) ... 5 more ... ))

Măsuridealiniere
• PotrivireTAXONOMICĂ(întreontologiileSENSUSșiMIKROKOSMOS):pentruunanumitconceptSENSUS,colecteazătoateconcepteledinMIKROKOSMOScaresunt"maiapropiate"de10link-urideel.Algoritmultraverseazătaxonomiaatâtîn��direcțiilesuperconceptcâtșiînsubconcepte.– Scoruldepotrivireestedatdeinversalink-distanței:
– TAXSCORE := 1 / number-of-links

Măsuridealiniere:exempledesugesCidepotriviride
taxonomiecuscoruri(alignval ‘|S@end>come out| ‘((TAX M@SOCIAL-EVENT 0.17) (TAX M@EMANATE 0.17) (TAX M@EMIT-LIGHT 0.17) (TAX M@EMIT-SOUND 0.17) (TAX M@REFLECT-LIGHT 0.17) (TAX M@EXTRACT 0.17) (TAX M@APPLY-FORCE 0.20) (TAX M@PACK 0.20) ... 22 more ... ))

Combinareascorurilor• CaracterisCcileformulelordecombinare:– săcreascăcuvaloriîncreșterealeNAME,DEFșiTAX– sănormalizezescorurileeurisCcilor– sădiminuezetendințascorurilorNAMEdeacreșterapid– săatenuareatendințascorurilordeTAXONOMIEdediminuarerapidă
– săîntoarcăunscornenuldacăcelpuținoeurisCcăîntoarceunscornenul
• SCORE := sqrt(NAMESCORE) * DEFSCORE * (10 * TAXSCORE)
cugrijacădacăNAMESCOREsauDEFSCOREsuntzero,elesuntînlocuiteprin1,șidacăTAXSCOREe0,eleînlocuitprin0.01.Uzual,scoruriledealiniereseplaseazăînscara0–16.

Generareaîntrebărilor

Generareaîntrebărior(ques>ongenera>on–QG):
unsubdomeniualIA• GenerareadeîntrebărimulC-variantedinontologii(MCQG)– pentruevaluareastudenților– beneficiipentruinstructori:
• sarcinadeaconstruimanualMCQpentrutesteestegreoaieșiconsumatoaredeCmp
• esteadeseadificilsăsedezvoltearCcoleMCQdeînaltăcalitate– sistemedeMCQcarepleacădelaontologiireușescsăgenerezearCcoleMCQ• DAR:câtdebineslujestacesteartefacteprocesuluieducațional?

Generatoruldeîntrebări
• Scopulîntrebărilor:– evaluare,– revizuirisauîntrebăridestudiu,– exercițiuldeapuneîntrebări,– întrebăriderezolvareaproblemelor,– întrebărigeneraleîntr-undomeniuspecific,cumarfiturismul,
– sauîntrebăridintr-undomeniudeschis

SistemedeQG• Pebazădesintaxă(uneledintreprimele):– parserdelimbajnaturalfolositpentruaanalizasintaxafrazeișiaidenCficacomponentelemajorecarepotfifolositepentruaformaoîntrebare.
– dezavantaje:• propozițiisintacCcambigue(singuramodalitatedeaanalizacorectas�eldepropozițiiestedeaînțelegesemnificațialor)
• sistemulestedependentdelimbă– avantaje:
• esteindependentdedomeniu,as�elîncâtpentruaformulaoîntrebareînoricedomeniutrebuieformulatăopropozițieînlimbanaturalădată

OGsystems• AbordăribazatepesemanCcă-deobicei,dependentededomeniu:folosescunmodelsemanCcaldomeniuluipentruageneraîntrebări.– OntAWare:
• foloseșteoontologieșigenereazăîntrebăribazatepecunoașterearelațiilordintreclasă-subclasășidintreclasă-instanță.
• oferă,printrealtefuncționalitățipentruredactareaconținutuluieducațional,generareasemiautomaCcăaobiectelordeînvățare,inclusivîntrebări.
• foloseșterelațiiledesubsumareîntreclasepentruageneraîntrebări,cumarfi:"Caredintreurmătoareleelementeeste(saunueste)unexemplualconceptului,X?”

PaXernuriîngenerareatestelor
• TestegeneratepebazacunoșCnțelordedomeniuexprimateînontologiiOWL:– unnumărdeșabloanedefinitepentruîntrebărisuntuClizatedesistempentruageneraelementeledetestare
ŽitkoB,StankovS,RosićM,GrubišićA.(2009)DynamictestgeneraConoverontology-basedknowledgerepresentaConinauthoringshell.ExpertSystemswithApplica>ons.36:8185–8196.

ExempledepaXernuricaregenereazăteste
Caredintreurmătoareleelemente:shuffle(someOf(desc(B)),someOf(desc(siblingOf(B)))suntB-uri?
B1
B C
A
B2 B3 C1 C2

ExempledepaXernuricaregenereazăteste
Caredintreurmătoarelepropietăți:setOfProperCesOf(B)caracterizeazărandom(descOf(B))șicareestevaloareei?
B1
B VP2B
B2 B3
propertyP2
VP1B
propertyP1
VP2B2
propertyP2