modulul 5 analiza automata a discursului stiintific ... - analiza automata [compatibility... ·...

Post on 04-Feb-2018

289 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Modulul 5 Analiza automata a discursului stiintific

-Teorie, programe, aplicatii -

Programele considerate:Tropes: Software de analiza a textelor: clasificare semantica, analiza Tropes: Software de analiza a textelor: clasificare semantica, analiza

calitativa, analiza discursului, extragerea de cuvinte cheie; constructia de thesauri si ontologii.

Zoom: Motor de cautare, de clasificare si filtrare semantica, dotat cu un nucleu de indexare in limbaj natural.

Prof. Dr. Dan CARAGEAProf. Dr. Dan CARAGEA

Preliminarii

Analiza discursului este un demers multidisciplinar, calitativ si cantitativ, care studiaza continutul si contextul discursului (oral si scris).

Analiza discursului se sprijina pe concepte imprumutate din retorica, lingvistica, stiintele comunicarii, psihologie, sociologie, istorie, informatica etc.informatica etc.

Discursul este considerat o realitate in sine, si nu un reflex al realitatii, asa cum se afirma in analiza continutului.

Analiza evidentiaza o serie de comentarii textuale care sunt relatii de putere, incluziune, excluziune...

Automatizarea acestui tip de analiza este posibila, programele propuse de noi fiind, probabil, dintre cele mai complexe de pe piata.

Cronologie

Anii 80: Rodolphe Ghiglione si laboratorul sau (le Groupe de Recherche sur la Parole, Universitatea Paris VIII) lucreaza la Analiza Propozitionala a Discursului (APD). Aceste cercetari incercau sa fundeze stiintific interpretarea textelor bazata pe teoria «subiectului comunicant».bazata pe teoria «subiectului comunicant».

1985: Publicarea cartii «Dires analysés», PUV, de catre Ghiglione et alli. Prima carte asupra noii metode de analiza a continuturilor, APD.

1991: Publicarea cartii «Analyse de contenu et contenus d’analyse», Dunod, de catre Ghiglione si Blanchet. Teoria analizei propozitionale a discursului este finalizata.

Cronologie

1991: Rodolphe Ghiglione si Pierre MoletteUn psiholog si un informatician lucreaza impreuna la automatizarea analizei textelor.

1994: Crearea firmei ACETIC si comercializarea programului Tropes V1.0Tropes V1.0Primul program de analiza a textelor bazat pe APD. Versiunea 1.4 putea sa trateze pana la 30 000 de documente, fiind primul program care rezolva automat ambiguitatiile limbii.

1995: «L’Analyse cognitivo-discursive», PUG, de catre Ghiglione et alli. Se naste o noua teorie, analiza cognitivo-discursiva, care include APD.

Cronologie

1997: Acetic lanseaza Tropes V3.0Primul program care automatizeaza ACD (fraze remarcabile) si analiza cronologica a textului (rafale si episoade), plecand de la lucrari provenind din Stiintele Politice.

1998: «Discours politique et télévision», PUF, de catre Ghiglione et 1998: «Discours politique et télévision», PUF, de catre Ghiglione et alli.Analiza cu Tropes a integralitatii articolelor din Le Figaro,Libérationsi Le Mondein timpul campaniei prezidentiale.

1998: Publicarea cartii «L’analyse automatique des contenus», Dunod, de catre Ghiglione et alli. Teoria analizei cognitive a discursului este finalizata.

Cronologie

1998: Cartografierea semantica a continuturilor pe WanadooPrima analiza tematica a cautarilor intr-un motor de indexare si cautare international.

1999: Indexarea Enciclopediei HachettePrima aplicare a unei tehnici de cercetare in limbaj natural pentru a Prima aplicare a unei tehnici de cercetare in limbaj natural pentru a imbunatati cercetarea pe CD-ROM-ul unei enciclopedii pentru marele public.

1999: Acetic lanseaza Index V4 Primul motor capabil sa faca o analiza morfologica si semantica a totalitatii Web-ului (francez/englez).

Cronologie2001: Acetic este considerata o societate de referinta de catre Ministerul francez al CercetariiTropes intra in invatamantul secundar (Litere, Istorie, Geografie).

2002: Gama Tropes Zoom V6 functioneaza in patru limbi (franceza, engleza, portugheza, spaniola)

2003: Crearea societatii Cyberlex (Portugalia)Premiul Fundatiei Marchizul de Pombal pentru Inovatie si Tehnologie. Program pe termen lung de colaborare stiintifica cu societatea Acetic.

Fundamentul teoretic

ACD este o teorie care se bazeaza pe: • decuparea textului in propozitii; • clasificarea semantica a cuvintelor utile; • identificarea de clase paradigmatice de substantive (referinte nodale);• obtinerea unui model propozitional simplificat din punct de vedere • obtinerea unui model propozitional simplificat din punct de vedere formal (structura fundamentala de semnificare).

Rezumand, este vorba de extragerea din text a unei serii de variabile, tratate apoi statistic, pentru a obtine rezultate obiective de analiza (identificabile sau nu la o lectura mai profunda a textului).

Functionarea interna

• Lanturi de caractere >> ANALIZA MORFOLOGICA

• Forme lexicale >> ANALIZA LEXICALA

• Fraze >> ANALIZA SINTACTICA

• Cuvinte, propozitii >> ANALIZA SEMANTICA• Cuvinte, propozitii >> ANALIZA SEMANTICA

• Sensuri >> ANALIZA COGNITIVO-DISCURSIVA

• SFS >> STATISTICI

Categorii gramaticale

• SUBSTANTIVE (comune si proprii)• ADJECTIVE (subiective, obiective, numerice)• VERBE (factive, stative, declarative, performative)• PRONUME (personale; altele)• MODALIZARI (timp, loc, mod, afirmatie, indoiala, negatie, • MODALIZARI (timp, loc, mod, afirmatie, indoiala, negatie, intensitate)• CONECTORI (conditie, cauza, scop, aditie, disjunctie, opozitie, comparatie, timp, loc)

Retele Semantice

• REFERINTE UTILIZATE («Bucuresti, Cluj, Iasi»)

• UNIVERSUL DE REFERINTA 2 («Romania»)

• UNIVERSUL DE REFERINTA 1 («Geografie»)

Structura Fundamentala de Semnificare

• Relatii (inter-referentiale)

• Episoade si rafale

• Fraze remarcabile (triaj)

• Stil

• Statistici

Caracteristici

• Metode confirmate, bazate pecercetarea universitara.

• O preocupare permanenta pentruobiectivitate: Tropes isi «justifica» analizele,

prezentand indicatorii luati in considerare in diagnosicul sau.

• O ergonomiesimpla, pentru unsoftware interactiv, destinatat analistilor de orice nivel,

mai ales celor obisnuiti cu suportul hartie.

• O logica de inteligenta artificiala capabila sa rezolve ambiguitatile (lexicale si

semantice) si sa clasifice majoritatea cuvintelor unei limbi.

• Dictionare enciclopedice pragmatice: suporta peste 500.000 de clasificari semantice,

inclusiv marci si nume de firme...

• Un motor de analiza lingvisticafoarte rapid, capabil sa trateze (in fiecare zi) mii de

documente intr-un computer obisnuit.

Procesul de analiza

•Relatii inter-referentiale

•ACD: Episoade si Rafale

• Fraze remarcabile (triaj)

•Stil

•Statistici

Functionarea Tropes-Zoom

•Relatii inter-referentiale

•ACD: Episoade si Rafale

• Fraze remarcabile (triaj)

•Stil

•Statistici

Aplicatii

Gestiunea Informatiei si a CunoasteriiIndexarea si clasificarea bazelor documentare. Crearea de

thesauri.

Marketing, sondaje si chestionare Analiza calitativa/cantitativa a datelor textuale. Studiul Analiza calitativa/cantitativa a datelor textuale. Studiul

concurentei. Analiza presei.

Comunicarea in Relatii Publice, MarketingStudiul imaginii de marca al unei firme. Analiza mesajelor

strategice. Analiza mailing-ului.

Alte domenii Inteligenta economica. Informatica decizionala. Studii

sociologice. Analiza discursului politic. Invatamant.

Coordonatele noastre

Bel Llodrà Riera, Hyperlinks

Dan Caragea

UEFISCSU

dan.caragea@uefiscsu.ro

top related