raport finalizare_intelpro

1

1. Prezentarea rezultatelor proiectului

“IntelPro - Sistem Inteligent de Asistarea Deciziei Terapeutice la Pacientii

cu Cancer de Prostata Categoria de proiect: Modul I, Domeniul 03 P-CD

Coordonator: UNIVERSITATEA TEHNICA DIN CLUJ-NAPOCA Director proiect: Prof. dr. ing. Sergiu Nedevschi Parteneri:

1. Institutul Oncologic „PROF. DR. IOAN CHIRICUTA”, Cluj-Napoca,

2. Universitatea de Medicină şi Farmacie “Iuliu Haţieganu„ Cluj-Napoca

3. SOLUTIONS OF ARTIFICIAL INTELLIGENCE

APPLICATIONS, 4. S.C. IPA S.A

Numar contract: 18 CEEX/2005

Durata de desfasurare a proiectului: oct. 2005 – oct. 2008 1. Obiectivele proiectului: Problematica propusă spre rezolvare constă în crearea

unui sistem inteligent capabil de: Predicţia evoluţiei la pacienţii cu cancer de prostată, trataţi prin

prostatectomie radicală, prin încadrarea în două grupe cu prognostic diferit, în funcţie de nivelurile PSA (sub şi respectiv peste 0,3 ng/ml) post-terapeutice, estimate de către sistemul inteligent.

Extragerea de reguli din bazele de date, create în acest proiect, care să exprime, într-un limbaj inteligibil de către experţii medicali umani,

modalitatea de delimitare a celor două grupuri de pacienţi prin valorile cutoff ale parametrilor clinici şi paraclinici analizaţi.

Acesta va permite adaptarea şi individualizarea strategiei terapeutice, în special

chirurgicale, la cele două grupuri de pacienţi avînd drept consecinţă scăderea mortalităţii, morbidităţii şi a costurilor.

Obiectivele specifice ale proiectului au fost:

- studiul stadiului actual al domeniului predicţiei preoperatorii al stadiului

patologic la pacienţi cu cancer de prostată implicand stadiul realizarilor stiintifice si tehnice existente, sistemele relevante existente, studiul

metodelor bazate pe interpretarea directă a parametrilor, interpretare statistică, interpretare bazată pe metode din Inteligenţa Artificială

- elaborarea unui set de modele informatice de analiză a parametrilor care

conduc la stabilirea stadiului de evoluţie a bolii, de predicţie automată a stadiului pe baza unor metode de clasificare, de management a cunostintelor

in domeniul cancerului de prostata - implementarea componentelor experimentale de achizitie a datelor, stocare a

2

datelor, clasificare si predictie pe baza modelelor dezvoltate - implementarea unor instrumente software auxiliare necesare pentru adaptarea

si configurare a componentelor experimentale la necesitatile si particularitatile concrete ale unor cazuri specifice;

- validarea si testarea componentelor experimentale implementate. 2. Descrierea componentelor sistemului IntelPro:

- Baza de date

Baza de date a sistemului INTELPRO, destinată monitorizării datelor pacienţilor bolnavi sau suspecţi de cancer de prostată, este o bază de date relaţională [1], realizată în mediul Microsoft SQL Server, reprezentată sub forma unei constelaţii,

conţinând tabela centrală Pacienţi, pentru memorarea datelor generale ale bolnavilor, respectiv tabele secundare pentru reprezentarea datelor legate de

urmărirea stării bolnavului, analizele medicale ale bolnavului, respectiv despre eventualele intervenţii chirurgicale. Un fragment al structurii bazei de date este prezentat in figura urmatoare:

- Modul de gestiune al datelor

Sistemul software realizat este destinat monitorizării în detaliu a datelor pacienţilor bolnavi de cancer de prostată. Utilizatorul sistemului va fi medicul, care va avea

posibilitatea să introducă date, să vizualizeze datele şi să modifice valorile datelor existente. Aplicaţia constă din următoarele secţiuni, care corespund principalelor

funcţionalităţi: Secţiunea pentru manipularea datelor generale ale bolnavului Secţiunea pentru urmărirea stării bolnavului

Secţiunea pentru datele legate de analizele bolnavului Secţiunea pentru specificarea detaliilor legate de intervenţiile

chirurgicale

- Modul data mining

3

Cercetari recente in domeniul metodelor clinice si biologice de diagnostic au condus la o mai buna intelegere a posibilei evolutii si a consecintelor acestei boli. Cu toate

acestea, acuratetea diagnosticului si a prognosticului este in multe cazuri redusa, din cauza influentei negative a unor factori ca: experienta specialistului, intuitia si

subiectivitatea, sau volumul mare de date ce trebuiesc analizate. In acest context, tehnicile machine learning pot fi folosite pentru a deduce reguli de diagnostic automat, din descrierile pacientilor tratati cu succes in trecut. Aceste date sunt

inregistrate in arhivele spitalelor, si pot fi facute disponibile relativ usor tehnicilor de invatare. Astfel, folosind modelele derivate, specialistii primesc suport in procesul

de diagnostic, acesta devenind mai rapid, obiectiv si mai eficient. Datele medicale poseda o serie de particularitati care fac ca procesul de data mining sa fie mai complex si mai interesant pentru aceste probleme. Natura

complexa a datelor (eterogene, ierarhice, serii de timp, etc.), calitatea (date incomplete, zgomot, redundanta) si cantitatea lor, precum si incorporarea

cunostintelor de domeniu si aspectele etice si sociale sunt doar cateva din caracteristicile importante. Transparenta si acuratetea procesului de decizie sunt doua cerinte esentiale in data mining-ul medical, intrucat acestea asigura eficienta

si interactiunea cu specialistul medical. Probabil cea mai importanta particularitate a problemor medicale este conceptul de cost, atat prin prisma faptului ca acesta

capteaza ceea ce se intampla in realitate in procesul de diagnostic, cat si a necesitatii dezvoltarii de tehnici machine learning speciale, de invatare sensibila la

costuri (cost-sensitive learning). Modelul data mining propus incorporeaza particularitatile problemelor medicale, concentrandu-se in special pe invatarea sensibila la cost si pastrarea acuratetii si a

transparentei procesului de decizie. Pentru tratarea particularitatilor legate de date s-a folosit preprocesarea manuala, asistata de echipa medicala.

- Modul de clasificare sensibila la cost – ProICET Modulul principal de clasificare dezvoltat (ProICET) se concentreaza pe invatarea

sensibila la costuri, implementand o metoda robusta, care asigura atat reducerea costului total, cat si pastrarea unui nivel ridicat al acuratetii. Considerarea costului

in procesul de invatare este esentiala din doua motive: Diferitele erori de clasificare au impact diferit asupra vietii umane (eroarea de

a clasifica un pacient ca fiind sanatos, cand in realitate este bolnav este mult

mai serioasa decat eroarea din situatia opusa); cu toate ca aceste dezechilibre sunt greu de stabilit (din pricina faptului ca nu se poate pune un

pret pe viata umana), acestea trebuiesc considerate in procesul de invatare; costurile de eroare (misclassification costs) capteaza aceste aspecte.

Testele medicale sunt costisitoare, atat din punct de vedere economic, cat si

din punctul de vedere al impactului pe care il au asupra confortului fizic si psihic al pacientului, a timpului de colectare a rezultatelor, s.a.m.d. Acestea

sunt relativ mai usor de cuantificat, fiind inglobate in costurile de test (test costs)

Procesul de invatare trebuie sa stabileasca un echilibru intre aceste costuri. In

realitate, efectuarea tuturor testelor medicale nu este o solutie fezabila. Astfel, doar un subset de teste relevante trebuie selectat. Cand costul unui test nou depaseste

penalizarea pentru eroare, efectuarea de teste noi nu se justifica.

4

Modulul ProICET se concentreaza pe reducerea costului total, considerand ambele tipuri de costuri. Avantajul net al metodei in fata altor clasificatori sensibili la cost

este faptul ca ia in considerare ambele tipuri de costuri, spre deosebire de alte metode cunoscute, care se concentreaza fie doar pe costurile de eroare (AdaCost,

MetaCost, stratificarea), fie doar pe cele de test (Eg3, CS-ID3, IDX). Avand o abordare hibrida, prin combinarea cautarii euristice greedy (arbori de decizie) cu metode evolutionare, se introduce un element nou, care mareste

variabilitatea cautarii in spatiul arborilor de decizie. Modelul rezultat are capacitatea de a reduce costurile totale, oferind in acelasi timp

o acuratete ridicata. Intrucat modelul invatat este un arbore de decizie, se asigura si transparenta procesului de diagnostic, arborii de decizie fiind cunoscuti pentru reprezentarea compacta si usor de inteles pe care o ofera.

- Modul de imbunatatire a performantelor clasificatorilor simbolici prin

preprocesare cu ansamblu de retele neuronale – bazat pe metoda PANE Cu toate ca modulul ProICET a fost validat ca fiind robust si de incredere in oferirea unei solutii potrivite pentru domeniul medical (atat pe date medicale benchmark,

cat si pe date reale provenind de la pacienti suferind de cancer de prostata), enuntul teoremei No Free Lunch ne obliga sa consideram mai multe abordari, si in

urma evaluarii pe o anumita problema sa o alegem pe cea mai potrivita. Astfel, s-au abordat si alte tehnici robuste, cunoscute in literatura pentru calitatile

lor de a oferi o acuratete ridicata (PANE, SVM si metode ensemble) si o transparenta ridicata (PANE). Modulul PANE a fost implementat cu scopul de a imbunatati acuratetea

clasificatorilor simbolici, pastrandu-le transparenta. Astfel, un ansamblu de retele neuronale este folosit ca si pas de pre-procesare pentru clasificatorul simbolic (in

implementarea curenta s-a folosit C4.5). - Modul de evaluare a setului de date si de stabilire a preciziei minimale

pentru setul de date – bazat pe teoria matematica a gradului de incredere („belief”) si a combinarii probelor („evidence”) a lui Dempster si a lui

Shafer (DST) Astfel, avand la dispozitie un set de date brute, primul pas se concentreaza pe evaluarea acuratetii minimale (assess baseline accuracy), folosind modulul DST.

Necesitatea acestui pas este data de teorema No Free Lunch, care evidentiaza superioritatea selectiva a clasificatorilor: nu exista un clasificator care sa fie

universal bun. Succesul unei metode pe un anumit set de date este legat de potrivirea biasului metodei cu distributia reala (probabilitatea posterioara reala). Modulul DST combina predictiile a trei clasificatori diferiti (kNN, Naive Bayes si

C4.5), folosind principiile teoriei matematice a lui Dempster si Shafer, functii de incredere si rationarea plauzibila. Astfel, se realizeaza o stabilitate crescuta si

posibilitatea obtinerii unei estimari de incredere a acuratetii minimale a setului de date, obtinandu-se un mecanism de selectie a celor mai potrivite tehnici pentru o problema data.

- Modul de analiza imagistica tumorala, respectiv de diagnoza automata si

semiautomata pe baza modelului imagistic tumoral si al metodelor de clasificare

5

Obiectivele modulului sunt: elaborarea unor metode si instrumente adecvate diagnozei automate si semi-automate a cancerului prostatic (ADKP), detectia

tumorii maligne prostatice (ADKP) prin metode non-invazive => “biopsia virtuala”, determinarea, prin intermediul texturii, a unor caracteristici ale ADKP greu de

sesizat cu ochiul liber, localizarea ADKP in interiorul prostatei si determinarea limitelor de expansiune tumorala Realizarile acestui modul se refera la:

determinarea valorilor unui set exhaustiv de parametri texturali elaborarea modelului imagistic textural al ADKP constand in:

o setul exhaustiv si neredondant al trasaturilor texturale relevante in caracterizarea ADKP

o valorile specifice asociate trasaturilor texturale: media, deviatia standard,

distributia de probabilitate clasificare (diagnoza automata): separarea tesutului ADKP de alte tipuri de

tesuturi localizarea ADKP in cadrul prostatei

Experimente si rezultatele obtinute:

Experimentarea metodelor de analiza a texturii Transformarile de energie ale lui Laws: detectia microstructurilor texturale

Figura 1. Detectia microstructurinlor de tip pata in interiorul ADKP si in afara ADKP, in interiorul prostatei

Modelarea densitatii de probabilitate prin mixturi de distributii gaussiene: separarea trasaturilor bimodale(relevante) de cele uni-modale [1], [2]

6

Figura 2. Omogenitatea GLCM – trasatura bi-modala

Trasaturile relevante in caracterizarea ADKP sunt:

indexul de autocorelatie si corelatia GLCM – intotdeauna importante pentru separarea intre clase

energia GLCM, entropia GLCM – denota o crestere a gradului de dezordine in structura nivelurilor de gri in cazul ADKP entropiile wavelet – denota cresterea gradului de dezordine la rezolutii multiple

statisticile bazate pe trasaturil locale, frecventa microstructurilor texturale - mai mari in cazul ADKP decat pentru celelalte clase de tesut, indicand complexitatea

tesutului tumoral. - Modul generic bazat pe sisteme expert

Arhitectura sistemului, permite generarea unei instante de sistem expert prin selectarea domeniului, a datelor si a nucleului de sistem expert. O instanta de

sistem expert este compusa dintr-un modul de nucleu de sistem expert, un modul de cunostinte si un modul de date.

Modulul de nucleu de sistem reprezinta principala parte a sistemului expert, responsabila de procesele de “gandire”. Nucleul trebuie sa furnizeze mijloace de lucru cu toate cunostintele disponibile sub forma faptelor si a regulilor. Totodata,

nucleul trebuie sa permita inferente care sa ia si incertitudinea in considerare. Modulul de cunostinte este responsabil de managementul bazei de

cunostinte. Acest modul defineste, achizitioneaza si stocheaza cunostintele de domeniu sub forma unei ontologii de domeniu si a unor reguli associate. Regulile sunt reprezentate generic, astfel ca ele pot fi translatate in formatul necesar unor

nucleuri de sisteme expert diferite. Astfel, modulul de cunostinte contine si translatoare de cunostinte care convertesc cunostintele generice in cunostinte

specific. Modulul de date stocheaza datele primare (disponibile in baze de date specifice domeniului) care vor fi convertite in fapte prin utilizarea cunostintelor de

domeniu. Cand datele primare sunt selectate pentru o anumita instant de sistem expert, acestea sunt colectate intr-un repository de date si sunt mapate pe

cunostintele de domeniu asociate, generand astfel fapte specifice domeniului. - Modul de clasificare bazat pe retele neuronale si arbori decizionali

7

Acest modul este bazat pe retele neuronale de tip perceptron multi-strat, avind functii liniare in stratul de output si sigmoidale in straturile ascunse. Acestea se

constituite intr-un ansamblu, utilizind boosting, predictia evolutiei post-terapeutice realizindu-se prin vot. De asemenea, se utilizeaza arbori decizionali de tip C5,

ultima varianta a algoritmului C4.5, decizia fiind luata tot prin vot, utilizindu-se boosting ca metoda de grup. Performantele prognostice ale acestora pot atinge 100%.

- Modul bazat pe maşini cu vectori suport pentru clasificarea şi predicţia

parametrilor medicali privind cancerul de prostată Aplicatia bazata pe masini cu vectori suport permite includerea pacienţilor diagnosticati cu cancer de prostati in clase de risc, in urma efectuarii

prostatectomiei radicale. Masinile cu vectori suport (SVM = Support Vector Machines) sunt clasificatori autoinstruibili, in care invatarea se bazeaza pe principiul

minimizarii riscului structural. Nivelul PSA postoperator da eticheta fiecarei clase: „mic”, „mediu”, respectiv „mare”. Aplicatia utilizeaza o implementare a SVM in C++, denumita SVMLight care contine doua module: svm_learn si svm_classify.

Aplicatia utilizeaza datele din baza de date INTELPRO pentru crearea fisierelor de antrenare, a fisierelor model si a fisierelor de test pentru SVM, si permite

clasificarea si gestiunea exemplelor noi.

3. Domenii de aplicare si perspective:

Prin implementarea sa acest sistem informatic permite:

- achizitia datelor referitoare la pacientii bolnavi de cancer de prostata si stocarea acestora

- analiza datelor utilizand o gama variata de tehnici si metode

implementate in diferitele componente ale sistemului - clasificarea datelor si predictia evolutiei pe baza analizei datelor, ceea ce

permite individualizarea strategiei terapeutice.

Prin realizarea sa modulara sistemul este flexibil si poate fi adaptat cu usurinta pentru a aplica tehnicile relevante pentru problema specifica. Prin dezvoltarea

ulterioara a setului de date existent, performanta actuala a unor module se poate imbunatati substantial.

raport finalizare_intelpro

Documents