raport finalizare_intelpro
DESCRIPTION
...TRANSCRIPT
1
1. Prezentarea rezultatelor proiectului
“IntelPro - Sistem Inteligent de Asistarea Deciziei Terapeutice la Pacientii
cu Cancer de Prostata Categoria de proiect: Modul I, Domeniul 03 P-CD
Coordonator: UNIVERSITATEA TEHNICA DIN CLUJ-NAPOCA Director proiect: Prof. dr. ing. Sergiu Nedevschi Parteneri:
1. Institutul Oncologic „PROF. DR. IOAN CHIRICUTA”, Cluj-Napoca,
2. Universitatea de Medicină şi Farmacie “Iuliu Haţieganu„ Cluj-Napoca
3. SOLUTIONS OF ARTIFICIAL INTELLIGENCE
APPLICATIONS, 4. S.C. IPA S.A
Numar contract: 18 CEEX/2005
Durata de desfasurare a proiectului: oct. 2005 – oct. 2008 1. Obiectivele proiectului: Problematica propusă spre rezolvare constă în crearea
unui sistem inteligent capabil de: Predicţia evoluţiei la pacienţii cu cancer de prostată, trataţi prin
prostatectomie radicală, prin încadrarea în două grupe cu prognostic diferit, în funcţie de nivelurile PSA (sub şi respectiv peste 0,3 ng/ml) post-terapeutice, estimate de către sistemul inteligent.
Extragerea de reguli din bazele de date, create în acest proiect, care să exprime, într-un limbaj inteligibil de către experţii medicali umani,
modalitatea de delimitare a celor două grupuri de pacienţi prin valorile cutoff ale parametrilor clinici şi paraclinici analizaţi.
Acesta va permite adaptarea şi individualizarea strategiei terapeutice, în special
chirurgicale, la cele două grupuri de pacienţi avînd drept consecinţă scăderea mortalităţii, morbidităţii şi a costurilor.
Obiectivele specifice ale proiectului au fost:
- studiul stadiului actual al domeniului predicţiei preoperatorii al stadiului
patologic la pacienţi cu cancer de prostată implicand stadiul realizarilor stiintifice si tehnice existente, sistemele relevante existente, studiul
metodelor bazate pe interpretarea directă a parametrilor, interpretare statistică, interpretare bazată pe metode din Inteligenţa Artificială
- elaborarea unui set de modele informatice de analiză a parametrilor care
conduc la stabilirea stadiului de evoluţie a bolii, de predicţie automată a stadiului pe baza unor metode de clasificare, de management a cunostintelor
in domeniul cancerului de prostata - implementarea componentelor experimentale de achizitie a datelor, stocare a
2
datelor, clasificare si predictie pe baza modelelor dezvoltate - implementarea unor instrumente software auxiliare necesare pentru adaptarea
si configurare a componentelor experimentale la necesitatile si particularitatile concrete ale unor cazuri specifice;
- validarea si testarea componentelor experimentale implementate. 2. Descrierea componentelor sistemului IntelPro:
- Baza de date
Baza de date a sistemului INTELPRO, destinată monitorizării datelor pacienţilor bolnavi sau suspecţi de cancer de prostată, este o bază de date relaţională [1], realizată în mediul Microsoft SQL Server, reprezentată sub forma unei constelaţii,
conţinând tabela centrală Pacienţi, pentru memorarea datelor generale ale bolnavilor, respectiv tabele secundare pentru reprezentarea datelor legate de
urmărirea stării bolnavului, analizele medicale ale bolnavului, respectiv despre eventualele intervenţii chirurgicale. Un fragment al structurii bazei de date este prezentat in figura urmatoare:
- Modul de gestiune al datelor
Sistemul software realizat este destinat monitorizării în detaliu a datelor pacienţilor bolnavi de cancer de prostată. Utilizatorul sistemului va fi medicul, care va avea
posibilitatea să introducă date, să vizualizeze datele şi să modifice valorile datelor existente. Aplicaţia constă din următoarele secţiuni, care corespund principalelor
funcţionalităţi: Secţiunea pentru manipularea datelor generale ale bolnavului Secţiunea pentru urmărirea stării bolnavului
Secţiunea pentru datele legate de analizele bolnavului Secţiunea pentru specificarea detaliilor legate de intervenţiile
chirurgicale
- Modul data mining
3
Cercetari recente in domeniul metodelor clinice si biologice de diagnostic au condus la o mai buna intelegere a posibilei evolutii si a consecintelor acestei boli. Cu toate
acestea, acuratetea diagnosticului si a prognosticului este in multe cazuri redusa, din cauza influentei negative a unor factori ca: experienta specialistului, intuitia si
subiectivitatea, sau volumul mare de date ce trebuiesc analizate. In acest context, tehnicile machine learning pot fi folosite pentru a deduce reguli de diagnostic automat, din descrierile pacientilor tratati cu succes in trecut. Aceste date sunt
inregistrate in arhivele spitalelor, si pot fi facute disponibile relativ usor tehnicilor de invatare. Astfel, folosind modelele derivate, specialistii primesc suport in procesul
de diagnostic, acesta devenind mai rapid, obiectiv si mai eficient. Datele medicale poseda o serie de particularitati care fac ca procesul de data mining sa fie mai complex si mai interesant pentru aceste probleme. Natura
complexa a datelor (eterogene, ierarhice, serii de timp, etc.), calitatea (date incomplete, zgomot, redundanta) si cantitatea lor, precum si incorporarea
cunostintelor de domeniu si aspectele etice si sociale sunt doar cateva din caracteristicile importante. Transparenta si acuratetea procesului de decizie sunt doua cerinte esentiale in data mining-ul medical, intrucat acestea asigura eficienta
si interactiunea cu specialistul medical. Probabil cea mai importanta particularitate a problemor medicale este conceptul de cost, atat prin prisma faptului ca acesta
capteaza ceea ce se intampla in realitate in procesul de diagnostic, cat si a necesitatii dezvoltarii de tehnici machine learning speciale, de invatare sensibila la
costuri (cost-sensitive learning). Modelul data mining propus incorporeaza particularitatile problemelor medicale, concentrandu-se in special pe invatarea sensibila la cost si pastrarea acuratetii si a
transparentei procesului de decizie. Pentru tratarea particularitatilor legate de date s-a folosit preprocesarea manuala, asistata de echipa medicala.
- Modul de clasificare sensibila la cost – ProICET Modulul principal de clasificare dezvoltat (ProICET) se concentreaza pe invatarea
sensibila la costuri, implementand o metoda robusta, care asigura atat reducerea costului total, cat si pastrarea unui nivel ridicat al acuratetii. Considerarea costului
in procesul de invatare este esentiala din doua motive: Diferitele erori de clasificare au impact diferit asupra vietii umane (eroarea de
a clasifica un pacient ca fiind sanatos, cand in realitate este bolnav este mult
mai serioasa decat eroarea din situatia opusa); cu toate ca aceste dezechilibre sunt greu de stabilit (din pricina faptului ca nu se poate pune un
pret pe viata umana), acestea trebuiesc considerate in procesul de invatare; costurile de eroare (misclassification costs) capteaza aceste aspecte.
Testele medicale sunt costisitoare, atat din punct de vedere economic, cat si
din punctul de vedere al impactului pe care il au asupra confortului fizic si psihic al pacientului, a timpului de colectare a rezultatelor, s.a.m.d. Acestea
sunt relativ mai usor de cuantificat, fiind inglobate in costurile de test (test costs)
Procesul de invatare trebuie sa stabileasca un echilibru intre aceste costuri. In
realitate, efectuarea tuturor testelor medicale nu este o solutie fezabila. Astfel, doar un subset de teste relevante trebuie selectat. Cand costul unui test nou depaseste
penalizarea pentru eroare, efectuarea de teste noi nu se justifica.
4
Modulul ProICET se concentreaza pe reducerea costului total, considerand ambele tipuri de costuri. Avantajul net al metodei in fata altor clasificatori sensibili la cost
este faptul ca ia in considerare ambele tipuri de costuri, spre deosebire de alte metode cunoscute, care se concentreaza fie doar pe costurile de eroare (AdaCost,
MetaCost, stratificarea), fie doar pe cele de test (Eg3, CS-ID3, IDX). Avand o abordare hibrida, prin combinarea cautarii euristice greedy (arbori de decizie) cu metode evolutionare, se introduce un element nou, care mareste
variabilitatea cautarii in spatiul arborilor de decizie. Modelul rezultat are capacitatea de a reduce costurile totale, oferind in acelasi timp
o acuratete ridicata. Intrucat modelul invatat este un arbore de decizie, se asigura si transparenta procesului de diagnostic, arborii de decizie fiind cunoscuti pentru reprezentarea compacta si usor de inteles pe care o ofera.
- Modul de imbunatatire a performantelor clasificatorilor simbolici prin
preprocesare cu ansamblu de retele neuronale – bazat pe metoda PANE Cu toate ca modulul ProICET a fost validat ca fiind robust si de incredere in oferirea unei solutii potrivite pentru domeniul medical (atat pe date medicale benchmark,
cat si pe date reale provenind de la pacienti suferind de cancer de prostata), enuntul teoremei No Free Lunch ne obliga sa consideram mai multe abordari, si in
urma evaluarii pe o anumita problema sa o alegem pe cea mai potrivita. Astfel, s-au abordat si alte tehnici robuste, cunoscute in literatura pentru calitatile
lor de a oferi o acuratete ridicata (PANE, SVM si metode ensemble) si o transparenta ridicata (PANE). Modulul PANE a fost implementat cu scopul de a imbunatati acuratetea
clasificatorilor simbolici, pastrandu-le transparenta. Astfel, un ansamblu de retele neuronale este folosit ca si pas de pre-procesare pentru clasificatorul simbolic (in
implementarea curenta s-a folosit C4.5). - Modul de evaluare a setului de date si de stabilire a preciziei minimale
pentru setul de date – bazat pe teoria matematica a gradului de incredere („belief”) si a combinarii probelor („evidence”) a lui Dempster si a lui
Shafer (DST) Astfel, avand la dispozitie un set de date brute, primul pas se concentreaza pe evaluarea acuratetii minimale (assess baseline accuracy), folosind modulul DST.
Necesitatea acestui pas este data de teorema No Free Lunch, care evidentiaza superioritatea selectiva a clasificatorilor: nu exista un clasificator care sa fie
universal bun. Succesul unei metode pe un anumit set de date este legat de potrivirea biasului metodei cu distributia reala (probabilitatea posterioara reala). Modulul DST combina predictiile a trei clasificatori diferiti (kNN, Naive Bayes si
C4.5), folosind principiile teoriei matematice a lui Dempster si Shafer, functii de incredere si rationarea plauzibila. Astfel, se realizeaza o stabilitate crescuta si
posibilitatea obtinerii unei estimari de incredere a acuratetii minimale a setului de date, obtinandu-se un mecanism de selectie a celor mai potrivite tehnici pentru o problema data.
- Modul de analiza imagistica tumorala, respectiv de diagnoza automata si
semiautomata pe baza modelului imagistic tumoral si al metodelor de clasificare
5
Obiectivele modulului sunt: elaborarea unor metode si instrumente adecvate diagnozei automate si semi-automate a cancerului prostatic (ADKP), detectia
tumorii maligne prostatice (ADKP) prin metode non-invazive => “biopsia virtuala”, determinarea, prin intermediul texturii, a unor caracteristici ale ADKP greu de
sesizat cu ochiul liber, localizarea ADKP in interiorul prostatei si determinarea limitelor de expansiune tumorala Realizarile acestui modul se refera la:
determinarea valorilor unui set exhaustiv de parametri texturali elaborarea modelului imagistic textural al ADKP constand in:
o setul exhaustiv si neredondant al trasaturilor texturale relevante in caracterizarea ADKP
o valorile specifice asociate trasaturilor texturale: media, deviatia standard,
distributia de probabilitate clasificare (diagnoza automata): separarea tesutului ADKP de alte tipuri de
tesuturi localizarea ADKP in cadrul prostatei
Experimente si rezultatele obtinute:
Experimentarea metodelor de analiza a texturii Transformarile de energie ale lui Laws: detectia microstructurilor texturale
Figura 1. Detectia microstructurinlor de tip pata in interiorul ADKP si in afara ADKP, in interiorul prostatei
Modelarea densitatii de probabilitate prin mixturi de distributii gaussiene: separarea trasaturilor bimodale(relevante) de cele uni-modale [1], [2]
6
Figura 2. Omogenitatea GLCM – trasatura bi-modala
Trasaturile relevante in caracterizarea ADKP sunt:
indexul de autocorelatie si corelatia GLCM – intotdeauna importante pentru separarea intre clase
energia GLCM, entropia GLCM – denota o crestere a gradului de dezordine in structura nivelurilor de gri in cazul ADKP entropiile wavelet – denota cresterea gradului de dezordine la rezolutii multiple
statisticile bazate pe trasaturil locale, frecventa microstructurilor texturale - mai mari in cazul ADKP decat pentru celelalte clase de tesut, indicand complexitatea
tesutului tumoral. - Modul generic bazat pe sisteme expert
Arhitectura sistemului, permite generarea unei instante de sistem expert prin selectarea domeniului, a datelor si a nucleului de sistem expert. O instanta de
sistem expert este compusa dintr-un modul de nucleu de sistem expert, un modul de cunostinte si un modul de date.
Modulul de nucleu de sistem reprezinta principala parte a sistemului expert, responsabila de procesele de “gandire”. Nucleul trebuie sa furnizeze mijloace de lucru cu toate cunostintele disponibile sub forma faptelor si a regulilor. Totodata,
nucleul trebuie sa permita inferente care sa ia si incertitudinea in considerare. Modulul de cunostinte este responsabil de managementul bazei de
cunostinte. Acest modul defineste, achizitioneaza si stocheaza cunostintele de domeniu sub forma unei ontologii de domeniu si a unor reguli associate. Regulile sunt reprezentate generic, astfel ca ele pot fi translatate in formatul necesar unor
nucleuri de sisteme expert diferite. Astfel, modulul de cunostinte contine si translatoare de cunostinte care convertesc cunostintele generice in cunostinte
specific. Modulul de date stocheaza datele primare (disponibile in baze de date specifice domeniului) care vor fi convertite in fapte prin utilizarea cunostintelor de
domeniu. Cand datele primare sunt selectate pentru o anumita instant de sistem expert, acestea sunt colectate intr-un repository de date si sunt mapate pe
cunostintele de domeniu asociate, generand astfel fapte specifice domeniului. - Modul de clasificare bazat pe retele neuronale si arbori decizionali
7
Acest modul este bazat pe retele neuronale de tip perceptron multi-strat, avind functii liniare in stratul de output si sigmoidale in straturile ascunse. Acestea se
constituite intr-un ansamblu, utilizind boosting, predictia evolutiei post-terapeutice realizindu-se prin vot. De asemenea, se utilizeaza arbori decizionali de tip C5,
ultima varianta a algoritmului C4.5, decizia fiind luata tot prin vot, utilizindu-se boosting ca metoda de grup. Performantele prognostice ale acestora pot atinge 100%.
- Modul bazat pe maşini cu vectori suport pentru clasificarea şi predicţia
parametrilor medicali privind cancerul de prostată Aplicatia bazata pe masini cu vectori suport permite includerea pacienţilor diagnosticati cu cancer de prostati in clase de risc, in urma efectuarii
prostatectomiei radicale. Masinile cu vectori suport (SVM = Support Vector Machines) sunt clasificatori autoinstruibili, in care invatarea se bazeaza pe principiul
minimizarii riscului structural. Nivelul PSA postoperator da eticheta fiecarei clase: „mic”, „mediu”, respectiv „mare”. Aplicatia utilizeaza o implementare a SVM in C++, denumita SVMLight care contine doua module: svm_learn si svm_classify.
Aplicatia utilizeaza datele din baza de date INTELPRO pentru crearea fisierelor de antrenare, a fisierelor model si a fisierelor de test pentru SVM, si permite
clasificarea si gestiunea exemplelor noi.
3. Domenii de aplicare si perspective:
Prin implementarea sa acest sistem informatic permite:
- achizitia datelor referitoare la pacientii bolnavi de cancer de prostata si stocarea acestora
- analiza datelor utilizand o gama variata de tehnici si metode
implementate in diferitele componente ale sistemului - clasificarea datelor si predictia evolutiei pe baza analizei datelor, ceea ce
permite individualizarea strategiei terapeutice.
Prin realizarea sa modulara sistemul este flexibil si poate fi adaptat cu usurinta pentru a aplica tehnicile relevante pentru problema specifica. Prin dezvoltarea
ulterioara a setului de date existent, performanta actuala a unor module se poate imbunatati substantial.