capitol2 nn

Upload: stelianstancu

Post on 10-Mar-2016

228 views

Category:

Documents


0 download

TRANSCRIPT

  • Capitolul 2 Caracteristici fundamentale ale reelelor neurale artificiale 2.1 Modele pentru neuronul elementar

    2.2 Arhitecturi specifice

    2.3 Algoritmi de nvare

  • 22 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    Reelele neurale artificiale sunt caracterizate de 3 elemente: modelul adoptat pentru elementul de procesare individual (neuronul), structura particular de interconexiuni (arhitectura) i mecanismul de ajustare a legturilor dintre neuroni (algoritmul de nvare). n cele ce urmeaz vom trece n revist pe rnd aceste elemente, prezentnd exemple semnificative i introducnd terminologia corespunztoare. 2.1 Modele pentru neuronul elementar

    n prezentarea modelelor pentru neuronul elementar vom utiliza criteriile de clasificare folosite n mod uzual n teoria sistemelor, punct de vedere care va sugera metodele de analiz i, n unele cazuri, de sintez ale reelelor studiate. n Fig. 2.1 se prezint modalitatea uzual de reprezentare grafic a neuronului individual, detaliat pentru varianta tipic a acestuia corespunztoare aa-numitului model aditiv. A. Dup domeniul de definiie al semnalelor prelucrate:

    a) modele analogice; b) modele discrete Una dintre observaiile fcute n primul capitol sugera ideea potrivit creia creierul este un "calculator" analogic. Fr a avea neaprat n prim plan criteriul plauzibilitii biologice, dezbaterea referitoare la alegerea optim ntre abordarea analogic sau discret este un subiect de strict actualitate. Argumentul cel mai puternic n favoarea primei alternative l constituie viteza superioar recunoscut a calculului analogic, la care se adaug lipsa necesitii sincronizrii (obligatorie n cazul reelelor digitale cu funcionare sincron i care este, n general, dificil de asigurat n reele de dimensiuni mari).

    Fig. 2.1 : Modalitatea de reprezentare a neuronului elementar (model aditiv)

  • 2.1 Modele pentru neuronul elementar 23

    Avantajele abordrii discrete rezid n principal n precizia calculelor, important mai ales n cazurile n care parametrii reelei sunt supui unor restricii severe, de exemplu referitoare la condiii de simetrie. Posibilitatea stocrii pe durate mari de timp n form nealterat a unor valori numerice utile reprezint de asemenea un avantaj. Un aspect fundamental legat de implementarea reelelor digitale l constituie determinarea rezoluiei necesare (a numrului de bii pe care se reprezint valorile numerice) ntr-o aplicaie dat. O distincie suplimentar se poate face n raport cu gradul de cuantizare a semnalelor prelucrate. Se folosesc att semnale necuantizate ct i semnale cuantizate, de obicei binare1. Este important de subliniat c modelul discret nu presupune neaprat implementare digital, ci poate fi folosit i varianta care utilizeaz mrimi discrete necuantizate, folosind circuite cu capaciti comutate. B. Dup natura datelor prelucrate:

    a) modele reale; b) modele complexe n marea majoritate a cazurilor mrimile prelucrate sunt reale, dar n ultimul timp se utilizeaz i reele care lucreaz cu variabile complexe sau, mai general, hipercomplexe2. Aceast alegere este justificat cu precdere n aplicaii n care datele de intrare au o natur complex intrinsec (de exemplu, semnale radar sau unele semnale folosite n transmisiuni de date), precum i de numrul mai redus de parametri necesari fa de varianta real. Algoritmii de nvare sunt, de regul, extensii naturale ale variantelor formulate pentru semnale reale, ns atenie special trebuie acordat n acest caz alegerii funciei de activare, n particular caracterului analitic al acesteia. 1 Exist exemple de reele neurale care prelucreaz semnale avnd mai multe nivele de cuantizare, care pot proveni din utilizarea unor funcii de activare multinivel [92] sau pot avea intrinsec un asemenea caracter, ca n cazul utilizrii unor coduri multinivel (de exemplu, ternare) n transmisiuni de date.

    2 Numerele hipercomplexe generalizeaz noiunea uzual de numr complex. Un exemplu l constituie quaternionii [71], care se pot scrie sub forma: z = z0+z1i+z2j+z3k, unde i, j, k reprezint cei trei vectori spaiali ortogonali, iar z0-z3 sunt parametri reali.

  • 24 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    Fig. 2.2: Funcii de activare pentru neuronul elementar:

    a) comparator bipolar; b) comparator unipolar; c) comparator bipolar cu prag; d) liniar cu saturaie; e) sigmoidal bipolar; f) sigmoidal unipolar

    C. Dup tipul funciei de activare:

    a) modele liniare; b) modele neliniare Funcia de activare reprezint funcia de transfer intrare-ieire a neuronului elementar. De departe, majoritatea reelelor neurale artificiale ntlnite n literatur utilizeaz modele neliniare. Excepia notabil o constituie reeaua de tip Adaline (prescurtare de la ADAptive LInear NEuron) i varianta sa multidimensional Madaline, propuse de ctre profesorul american Bernard Widrow de la Universitatea Stanford [177]. Avantajul acestora l constituie gama larg de algoritmi de nvare performani existeni, dar aria de aplicabilitate a reelelor neurale care utilizeaz modele liniare este relativ restrns (egalizarea liniar a canalelor de transmisiuni de date, clasificatoare liniare). n Fig. 2.2 se prezint cteva dintre funciile de activare des utilizate. Se pot face o serie de observaii interesante: modelul de tip comparator (Fig. 2.2 a,b) poate fi ntlnit att n reele analogice ct i n cele discrete modelul de tip comparator cu prag (Fig. 2.2 c) poate fi nlocuit cu un model fr prag dac valoarea de prag se trateaz ca o intrare distinct de valoare constant egal cu (-1) conectat printr-o legtur (pondere) care se va modifica n timp sub aciunea algoritmului de nvare

  • 2.1 Modele pentru neuronul elementar 25

    Fig. 2.3: Funcii de activare nemonotone

    o justificare teoretic interesant a performanelor superioare pe care le asigur funciile de tip sigmoidal (Fig. 2.2 e,f) se prezint n [70]. Dei majoritatea funciilor de activare sunt monotone, exist i exemple de funcii nemonotone care conduc la performane foarte bune (Fig. 2.3).

    Observaie: Caracterul monoton (cresctor) al funciei de activare constituie o cerin indispensabil n formularea unor teoreme de convergen pentru o clas larg de reele neurale recurente [47], [83].

    D. Dup prezena memoriei:

    a) reele cu memorie; b) reele fr memorie Memoria poate apare ntr-o reea neural pe 2 ci: datorit modelului adoptat pentru neuronii elementari i, respectiv, datorit modelului adoptat pentru interconexiunile dintre acetia. Primul caz este pus n eviden prin modalitatea de descriere a dinamicii individuale prin ecuaii difereniale, respectiv, cu diferene sau chiar prin ecuaii mixte, de tip diferenial cu diferene. Al doilea caz este ilustrat de aa-numitele reele (discrete) cu sinapse dinamice, la care legturile dintre neuroni nu sunt exprimate prin simple valori scalare, ci sunt reprezentate sub forma unor funcii de transfer caracteristice filtrelor discrete cu rspuns finit sau infinit la impuls. O situaie intermediar o constituie folosirea filtrelor gamma [150], care "mprumut" din avantajele ambelor tipuri. Un caz special l constituie reelele cu memorie rezistiv, obinute prin considerarea unei funcii de activare cu histerezis [95]. Reelele fr memorie sunt reele la care propagarea semnalelor se face numai dinspre intrare spre ieire (feedforward), iar modelele adoptate att pentru neuronii elementari ct i pentru ponderi sunt strict algebrice. Aa cum vom vedea n capitolele urmtoare,

  • 26 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    pentru astfel de reele exist algoritmi de antrenare foarte puternici, de exemplu cei din categoria backpropagation (cu propagare invers a erorii). Este important s subliniem c exist exemple de reele de tip feedforward cu reacie local, utilizate mai ales n aplicaii de prelucrare de semnale vocale. Unii autori identific o aa-numit memorie pe termen scurt (short-time memory), reprezentat de valorile variabilelor de stare ale sistemului i o memorie pe termen lung (long time memory), dat de valorile interconexiunilor. Din punctul de vedere al implementrii, reelele recurente ridic probleme speciale legate de necesitatea stocrii unui volum mare de informaii pe perioade nsemnate de timp i de elaborarea unor algoritmi de nvare suficient de rapizi pentru aplicaii n timp real. E. Dup dimensiunea spaiului strilor pentru neuronul individual:

    a) modele de ordinul I; b) modele de ordin superior n cazul reelelor feedforward, modelele considerate pentru neuronul elementar sunt de obicei de ordinul I i se ncadreaz n aa-numitul tip aditiv, potrivit cruia acesta efectueaz o prelucrare n general neliniar asupra sumei ponderate a semnalelor aplicate la intrare (mrime care definete activarea neuronului):

    xw f = y(x) iiN

    1=i

    (2. 1)

    Au fost propuse i modele de ordin superior, capabile s confere reelelor formate din astfel de neuroni capacitatea de a surprinde corelaii mai complexe ale datelor prelucrate, n particular posibilitatea de a asigura invariana rspunsului reelei la semnale de intrare obinute prin transformri elementare (translaie, rotaie) ale bazei de date originale. Exemplele cele mai cunoscute din acest categorie sunt modelul sigma-pi [157] i cel propus de ctre Giles i Maxwell, bazat pe relaia [66]:

    ... +xxw+xw f = y(x) jiijji

    iii

    (2. 2)

    n ceea ce privete reelele neurale recurente, analogice sau discrete, acestea sunt descrise de una din ecuaiile:

  • 2.1 Modele pentru neuronul elementar 27

    [0] , [k],( F = 1]+[k (0)) , (t),( F = (t)

    W

    WXuXX

    XuXX

    (2. 3)

    unde matricea de interconexiuni W este determinat de aplicaia concret, vectorul X reunete variabilele de stare ale sistemului, u semnific semnalul de intrare, iar X(0), X[0] desemneaz condiiile iniiale. n cele mai multe modele prezentate n literatur neuronul individual este descris de o ecuaie diferenial sau cu diferene de ordinul I, exemplul tipic fiind oferit de reeaua Hopfield [83]:

    [n]x w f =1] +[nx

    )xf( w+x- = x

    jij

    N

    j=1i

    jij

    N

    j=1ii

    (2. 4)

    unde N este numrul total de neuroni din sistem. Recent au fost propuse i modele de ordin superior pentru neuronii individuali, care utilizeaz n general oscilatoare pe post de elemente de procesare elementare. Un exemplu n acest sens l reprezint modelul de ordinul II introdus n [75]:

    ( )xK f+y- = yau+yK-xw f+x- = x

    iiii

    iiijijN

    1=jii

    (2. 5)

    unde f(x) = (2/)tan-1 (x/a), iar a, Ki sunt constante reale. Mai mult, n [2] i [5] se introduc modele de ordinul III, care prezint particularitatea de a prezenta evoluie haotic chiar la nivelul unui neuron individual, cu efect favorabil n unele aplicaii. Dei sunt mai bine motivate din punct de vedere biologic, modelele de ordin superior sunt mai dificil de analizat i sintetizat la nivel de sistem, iar n unele aplicaii rezultatele nu sunt mult mai bune fa de varianta de ordinul I.

  • 28 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    2.2 Arhitecturi specifice Exist numeroase modaliti de interconectare a neuronilor elementari, care conduc la o evoluie specific a reelei i care se utilizeaz n aplicaii dintre cele mai diverse. Pot fi identificate 2 clase distincte de arhitecturi: cu propagare a informaiei numai dinspre intrare spre ieire (reele de tip feedforward). O particularitate constructiv a acestora o constituie posibilitatea de a identifica seturi de neuroni elementari grupai n aa-numite "straturi", care ofer similitudini de conexiune. Ca terminologie, identificm un strat de intrare, un strat de ieire, iar toate celelalte sunt denumite straturi ascunse (hidden layers). Indexarea straturilor nu este tratat unitar n literatur (unii autori includ n numerotare i stratul de intrare, alii nu), ns de regul este mai indicat s numrm straturile de ponderi (interconexiuni). O variant util n multe aplicaii const n separarea neuronilor din straturile ascunse n module distincte i restricionarea structurii de interconexiuni. reele recurente (cu reacie). Au fost introduse recent i arhitecturi "mixte", al cror aspect global este feedforward, dar care prezint reacie local. Este interesant de subliniat c semnalul de reacie poate proveni de la stratul de ieire, respectiv de la unul sau mai multe straturi ascunse. Modalitatea de interconectare este divers, mergnd de la interconectarea neuronilor dintr-un strat numai spre stratul urmtor (n reelele de tip feedforward multistrat) pn la reele complet interconectate (recurente). ntre aceste 2 extreme sunt cuprinse o multitudine de soluii intermediare, dintre care enumerm reele feedforward generalizate, care permit i conexiuni ntre neuroni aflai n straturi nenvecinate, reele feedforward la care apar legturi de reacie ntre neuronii de pe acelai strat (reele cu inhibiie lateral) i reele la care legturile de reacie sunt prezente numai ntre neuronii elementari strict nvecinai (reele neurale celulare). n Fig. 2.4 se indic arhitecturile cel mai des ntlnite, iar n Fig. 2.5 o serie de exemple mai exotice. O clas special de circuite o constituie cele local recurente, la care reacia este prezent la nivelul modelului considerat pentru neuronii elementari, care sunt interconectai apoi n reele feedforward obinuite. Prezentm n Fig. 2.6 schemele de principiu ale celor mai des utilizate. n general, neuronii elementari sunt dispui ntr-un ir unidimensional n cadrul unui strat. Unele arhitecturi, de exemplu reelele celulare [41] i cele cu autoorganizare de tip Kohonen [103], pot avea straturi bidimensionale. Din considerente legate de volumul de calcul necesar, dar i ca urmare a existenei unor rezultate teoretice riguroase, rareori se utilizeaz n practic reele neurale cu mai mult de 3 straturi. Excepii notabile sunt reeaua de tip counterpropagation [79], precum i unele variante de reele autoasociative [49].

  • 2.2 Arhitecturi specifice 29

    Fig. 2.4: Exemple de arhitecturi de reele neurale artificiale:

    a) b)

    Fig. 2.5: a) Arhitectur de tip inel; b) reea neural celular (CNN)

  • 30 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    O problem fundamental o constituie modalitatea de a alege arhitectura adecvat pentru o aplicaie dat. Lipsa unor teoreme constructive care s precizeze tipul reelei i numrul de neuroni elementari mpreun cu modalitatea de interconectare dintre acetia n vederea rezolvrii unei anumite sarcini constituie n continuare una dintre principalele limitri ale utilizrii reelelor neurale artificiale i totodat cmpul unor intense cercetri. Menionm totui c exist aplicaii pentru care au fost formulate condiii minimale referitoare la arhitectur. Mai mult, n literatur se prezint modaliti de construcie sistematic urmnd un proces iterativ, grupate n 2 categorii: tehnici de tip pruning, n care se pleac de la sisteme de dimensiuni suficient de mari3 i se elimin pe rnd neuronii elementari i legturile care se dovedesc neimportante (cele care nu se modific semnificativ n procesul de nvare). Decizia de eliminare este de regul bazat pe un calcul de senzitivitate al funciei de eroare n raport cu diversele ponderi ale sistemului. Un exemplu binecunoscut l reprezint metoda Optimal Brain Damage [109]. tehnici de tip learn and grow, n care se pleac de la reele de dimensiuni reduse i se adaug neuroni i conexiuni pn cnd performanele sistemului sunt suficient de bune. Ca exemple putem cita algoritmul cascade-correlation [57] i metoda denumit projection pursuit [61].

    Fig. 2.6: Arhitecturi local recurente

    3 n realitate, este greu de apreciat ce nseamn "suficient de mari".

  • 2.3 Algoritmi de nvare 31

    2.3 Algoritmi de nvare Unul dintre aspectele care difereniaz reelele neurale fa de alte sisteme de prelucrare a informaiei l constituie capacitatea acestora de a nva n urma interaciunii cu mediul nconjurtor i, ca urmare, de a-i mbunti n timp performanele (conform unui criteriu precizat). Dei nu exist o definiie general acceptat a procesului de nvare, prezentm mai jos pe cea din [76]:

    nvarea este un proces prin care parametrii unei reele neurale se adapteaz n urma interaciunii continue cu mediul de lucru. Tipul mecanismului de nvare este determinat de modalitatea concret prin care se produce ajustarea valorilor parametrilor sistemului.

    Un aspect fundamental l constituie modul de reprezentare intern a informaiilor care s permit interpretarea, predicia i rspunsul corect la un stimul provenit din mediul nconjurtor. O reprezentare corect i va permite sistemului, n particular reelei neurale, s construiasc un model al procesului analizat n stare s se comporte satisfctor n condiiile n care la intrare i se vor aplica stimuli care nu au fost utilizai n procesul prealabil de nvare. Informaiile utilizate n etapa de nvare (i deci de sintez a reelei) sunt de 2 tipuri: informaii disponibile a priori referitoare la particularitile i, eventual, restriciile crora le este supus aplicaia considerat. Astfel de considerente conduc, n general, la sisteme specializate de dimensiuni reduse, mai uor de antrenat i mai ieftine. informaii sub forma unor perechi intrare-ieire care surprind o relaie de tip cauz-efect. Setul de date disponibil se mparte n dou pri, una fiind folosit n procesul de modificare a ponderilor, deci de nvare propriu-zis, iar cealalt pentru a testa performanele sistemului rezultat, oferind o imagine a aa-numitei capaciti de generalizare a reelei. Procesul de reprezentare intern respect cteva reguli de baz, care sunt enumerate n continuare [8]: Regula 1: Date de intrare similare trebuie s capete reprezentri interne asemntoare. Exist mai multe moduri de a msura "asemnarea" dintre 2 intrri distincte. Cea mai des folosit este cea bazat pe distana Euclidian dintre intrri (vzute ca vectori reali multidimensionali). Uneori se utilizeaz produsul scalar sau funcia de intercorelaie dintre cele 2 mrimi.

  • 32 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    Regula 2: Intrri aparinnd unor categorii distincte trebuie s aib reprezentri interne ct mai diferite. Regula 3: n reprezentarea intern a unei caracteristici importante a datelor de intrare trebuie s fie implicai un numr mare de neuroni elementari. Aceast regul asigur un grad mare de ncredere n luarea unei decizii i toleran sporit n cazul funcionrii incorecte a unora dintre neuronii implicai n reprezentare. Regula 4: Orice informaie disponibil a priori, precum i eventuale invariane trebuie folosite n etapa de configurare (stabilirea arhitecturii i a modului de interconectare) a reelei. Aceast indicaie favorizeaz funcionarea corect a reelei deoarece aceasta nu trebuie s mai nvee particularitile specifice aplicaiei considerate. Sistemele rezultate sunt n general specializate, avnd dimensiuni reduse, sunt mai uor de implementat i mai ieftine. Modalitile de reprezentare a invarianelor n raport cu diverse transformri elementare n reele neurale se prezint n [16]. 2.3.1 Criterii de clasificare a algoritmilor de nvare Exist mai multe criterii n funcie de care se pot clasifica algoritmii de nvare, dintre care amintim: A. n funcie de disponibilitatea rspunsului dorit la ieirea reelei neurale:

    a) nvare supravegheat; b) nvare nesupravegheat; c) nvare folosind un critic

    nvarea supravegheat (supervised learning) presupune existena n orice moment a unei valori dorite (target) a fiecrui neuron din stratul de ieire al reelei. Sistemului i se furnizeaz seturi de perechi intrare-ieire dorit cu ajutorul crora se calculeaz mrimi de eroare n funcie de diferena dintre valoarea real a ieirii i cea dorit, pe baza crora se ajusteaz valorile parametrilor reelei (interconexiuni i, eventual, valori de prag ale funciilor de activare). Exemple tipice: a) pentru reele feedforward: algoritmul LMS (Least Mean Square) [176], clasa de algoritmi back-propagation (cu propagare invers a erorii) [77], cuantizarea vectorial cu nvare

  • 2.3 Algoritmi de nvare 33

    (LVQ) [103]; b) pentru reele recurente: backpropagation-through-time [174], real-time recurrent learning [179]. n nvarea nesupravegheat (unsupervised learning) reeaua extrage singur anumite caracteristici importante ale datelor de intrare formnd reprezentri interne distincte ale acestora. Reeaua nu beneficiaz de seturi de ieiri dorite, n schimb se utilizeaz un gen de "competiie" ntre neuronii elementari care are ca efect modificarea conexiunilor aferente numai neuronului care "ctig" ntrecerea, restul legturilor rmnnd neafectate. Exemple din aceast categorie sunt: a) pentru reele feedforward: counterpropagation [79]; b) pentru reele recurente: algoritmul propus de Kohonen pentru hrile cu autoorganizare (SOM) [103], algoritmul Hebb [78], Teoria Rezonanei Adaptive (ART) elaborate de Grossberg [70]. n unele modele apare un parametru denumit intuitiv "contiin" care intr n funciune atunci cnd unul dintre neuroni ctig prea des competiia. nvarea folosind un "critic" (reinforcement learning) este denumit uneori i cu recompens/pedeaps (reward/punishment). n aceast situaie, reeaua nu beneficiaz de un semnal dorit, ca n cazul nvrii supravegheate, ci de un semnal care ofer o informaie calitativ ilustrnd ct de bine funcioneaz sistemul (informaia este binar, de tipul rspunsul este bun/greit, ns nu se indic i ct de bun/greit). Algoritmii aparinnd acestei categorii sunt inspirai ntr-o mai mare msur de observaii experimentale fcute pe animale i, n esen, funcioneaz dup urmtorul principiu [76]: dac urmarea unei anumite aciuni ntreprinse de un sistem capabil s nvee are un efect favorabil, tendina de a produce aciunea respectiv este ncurajat, n caz contrar este inhibat. n general algoritmii de nvare respect urmtoarea regul [76]: vectorul multidimensional al ponderilor (interconexiunilor) aferente unui neuron elementar Wi se modific proporional cu produsul scalar dintre vectorul mrimilor de intrare x i un aa-numit "vector de nvare" r, reprezentat n general de o funcie dependent de Wi, x i, eventual, de vectorul ieirilor dorite d: ) , ,( = dxWrr (2. 6)

    Valoarea ponderilor se modific dup o relaie de forma: xrW = (2. 7)

    unde este o constant real, de obicei subunitar, denumit constant de nvare.

  • 34 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    B. n funcie de existena unui model analitic: a) algoritmi parametrici; b) algoritmi neparametrici Algoritmii parametrici presupun c procesul analizat poate fi modelat sub forma unei expresii matematice avnd o form cunoscut, dependente de un numr (n general, restrns) de parametri. Scopul urmrit n acest caz const n estimarea ct mai exact a valorilor acestor parametri pe baza datelor intrare-ieire disponibile. n cazul n care modelul considerat nu este adecvat, calitatea aproximrii poate fi nesatisfctoare. n aceast situaie sunt de preferat algoritmii neparametrici, care nu impun constrngeri de modelare. Astfel de algoritmi sunt capabili s aproximeze orice dependen intrare-ieire, orict de complicat, n virtutea unei aa-numite capaciti de aproximare universal pe care o posed unii dintre acetia. C. n funcie de tipul aplicaiei pentru care sunt utilizai: a) regresie; b) clasificare Categoria cea mai rspndit de aplicaii n care sunt utilizate reelele neurale este cea de aproximare funcional, n care se modeleaz dependene dintre un set de variabile de intrare i una sau mai multe variabile de ieire. Setul de parametri care traduc aceast dependen este constituit din valorile interconexiunilor dintre neuroni, denumite de regul ponderi sau sinapse. n modul cel mai general, o reea neural poate fi privit ca un mod particular de a stabili forma acestei dependene, mpreun cu modalitatea concret de a fixa valorile parametrilor corespunztori folosind baza de date disponibil. Se pot distinge 2 categorii majore de aplicaii: a) n clasificare se urmrete alocarea datelor aplicate la intrarea reelei a uneia dintre etichetele corespunztoare unui set discret de categorii avute la dispoziie (de exemplu, unei imagini reprezentnd un caracter scris de mn i se asociaz una dintre cele 26 de litere ale alfabetului). Din punct de vedere statistic, se urmrete de fapt aproximarea ct mai exact a probabilitii de apartenen a datelor de intrare la una dintre categoriile existente; b) n cazul n care ieirea reelei poate avea valori continue avem de-a face cu o problem de regresie, al crei scop este aproximarea unei aa-numite funcii de regresie (definit printr-o operaie de mediere aritmetic a unei mrimi statistice specifice, ce va fi prezentat pe larg ntr-unul dintre paragrafele urmtoare). Regresia liniar este binecunoscut n analiza statistic, ns exist aplicaii practice importante (de exemplu, aplicaiile financiare) n care rezultatele obinute sunt nesatisfctoare, fiind necesar introducerea unui model neliniar.

  • 2.3 Algoritmi de nvare 35

    n alegerea unui algoritm de nvare trebuie avute n vedere i unele considerente de ordin practic, precum necesarul de memorie, viteza de convergen, complexitatea calculelor, comportarea n faza de testare. n Tabelul 2.1 se prezint caracteristicile principalilor algoritmi de nvare, care vor fi tratai pe larg n capitolele urmtoare. Tabelul 2.1: Principalele tipuri de algoritmi de nvare

    Caracteristici Denumire Param. (P)/ Neparam. (N)

    Clasificare (C)/ Regresie (R) Necesar de

    memorie Vitez

    Regresie liniar P R Foarte sczut Rapid Backpropagation N R Sczut Lent Filtru Kalman P R Ridicat Rapid LM N R Mediu Rapid K-means N C Mediu Mediu Projection pursuit

    N R Sczut Mediu

    SOM N C Sczut Mediu LVQ N C Medu Lent Bayesian N C Sczut Rapid

    Legenda: LM Levenberg-Marquardt; SOM Self-Organizing Map; LVQ Learning Vector Quantization S notm n final cele 2 puncte de vedere distincte asupra procesului de nvare care se pot identifica analiznd arhitecturile ntlnite n literatur, care explic n acelai timp i capacitatea de generalizare a acestora: reelele de tip feedforward trateaz nvarea ca pe o problem de aproximare a unei funcii de mai multe variabile (reale sau complexe) care exprim legtura (necunoscut) dintre intrarea i ieirea sistemului pe baza unui set finit de exemple de tip intrare-ieire dorit. O importan deosebit o are dimensiunea bazei de date folosite n antrenare, aflat n strns dependen de numrul total de parametri ai reelei (ponderi i, eventual, valori de prag ale funciei de activare) i care are un efect semnificativ asupra erorii de aproximare [19]. Necesitatea de a beneficia de o baz de date extrem de mare n cazul unor reele cu muli neuroni i/sau straturi a fost denumit intuitiv "blestem al dimensionalitii" (curse of dimensionality). De asemenea, este recunoscut pericolul de supraantrenare (overfitting), care const n posibilitatea ca reeaua s memoreze nsei datele folosite n etapa de antrenare (n

  • 36 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    general, nsoite de zgomot) i nu s construiasc un model al sistemului care le-a generat. n privina capacitii reelelor feedforward de a aproxima funcii neliniare oarecare au fost elaborate analize teoretice extrem de riguroase, care pun n eviden proprietatea de aproximare universal a unor reele cu funcii de activare monotone de tip sigmoidal [52], [85] sau nemonotone de tip gaussian [139]. Au fost studiate i condiiile n care astfel de sisteme permit aproximarea simultan att a funciei ct i a derivatelor acesteia [86] i au fost formulate estimri ale erorilor de aproximare. Reelele de tip feedforward au fost utilizate cu succes n aplicaii de clasificare, identificare de sistem, analiz a seriilor de timp. reelele recurente codeaz informaia sub forma mulimilor limit ale unor sisteme dinamice neliniare multidimensionale [81]. Mulimile limit (care, n mod intuitiv, reprezint generalizarea noiunii de regim permanent din cazul sistemelor liniare) conduc la unul dintre urmtoarele 4 tipuri de reprezentri n spaiul strilor: stri de echilibru stabil, cicluri limit corespunztoare unor regimuri dinamice periodice, atractori specifici unor regimuri cvasiperiodice (de exemplu, cu aspect toroidal) i atractori stranii, care pun n eviden prezena regimului de funcionare haotic. n cele mai multe situaii se utilizeaz sisteme a cror dinamic evolueaz spre puncte de echilibru stabil (sistemele sunt denumite cu dinamic convergent), ale cror poziii n spaiul strilor sunt fixate prin valorile interconexiunilor. n acest context, au fost raportate rezultate remarcabile n rezolvarea unor probleme de optimizare, de conversie analog-numeric i de clasificare [84]. Analiza stabilitii unor asemenea reele se bazeaz de obicei pe metoda Liapunov [81], care prezint avantajul de a nu necesita rezolvarea ecuaiilor care descriu sistemul. Recent se acord un interes crescnd i reelelor cu comportare periodic, n special n privina sincronizrii ansamblurilor de oscilatoare elementare i a stocrii informaiei sub forma ciclurilor limit. Mai mult, studiul reelelor neurale cu comportare haotic este de asemenea avut n vedere, n special datorit raportrii unor rezultate care confirm existena unor astfel de regimuri n anumite zone ale creierului uman [62]. 2.3.2 Funcia de cost Un aspect fundamental legat de procesul de nvare al reelelor neurale este cel referitor la scopul pentru care acestea sunt utilizate. Astfel, n cazul aplicaiilor de regresie, se poate arta c inta urmrit o constituie modelarea densitii de probabilitate a valorilor de ieire (target) condiionat de distribuia datelor de intrare. Pe de alt parte, n cazul problemelor de clasificare se urmrete estimarea probabilitilor ca variabilele de intrare s aparin uneia dintre categoriile disponibile. Atingerea acestor obiective devine posibil prin optimizarea unor funcii de cost

  • 2.3 Algoritmi de nvare 37

    convenabil definite n funcie de parametrii reelei neurale, cu observaia c cele 2 tipuri de aplicaii necesit de regul folosirea unor funcii de cost specifice. n cele ce urmeaz trecem n revist o serie de aspecte teoretice fundamentale care vor permite nelegerea mai exact a modului de operare al reelelor neurale. A. Estimarea densitii de probabilitate n Anexa A sunt prezentate o serie de definiii ale unor noiuni de baz din teoria probabilitilor. Ne vom ocupa n cele ce urmeaz de posibilitatea de a modela o funcie de densitate de probabilitate p(X) folosind un numr finit de exemple X[n], cu n = 1,N. Pornind de aici, vom ilustra n paragraful urmtor posibilitatea de a estima densiti de probabilitate condiionate, care vor justifica n final scopul n care sunt folosite reelele neurale. Exist 2 categorii de metode de estimare a densitilor de probabilitate, anume metode parametrice, respectiv neparametrice. Cele dinti impun o form predefinit a funciei de densitate, dependent de un numr de parametri specifici, ale cror valori urmeaz s fie estimate folosind baza de date disponibil. Dezavantajul unei asemenea abordri const n faptul c forma funcional particular impus pur i simplu se poate dovedi inadecvat modelrii procesului fizic real care a generat datele. Metodele neparametrice nu particularizeaz forma funciei modelate, ci realizeaz estimarea pornind exclusiv de la datele disponibile, cu dezavantajul c numrul parametrilor necesari crete pe msur ce baza de date se lrgete. n cele ce urmeaz ne vom referi la o metod parametric de estimare bazat pe principiul denumit maximum likelihood [24]. Astfel, s considerm o funcie densitate de probabilitate p(X) dependent de un set de parametri = [1 2 M]T i un numr de N vectori {X[1], X[2], X[N]} care vor servi la estimarea acestor parametri. Densitatea de probabilitate a ansamblului acestor vectori (joint probability density) va fi:

    ==

    N

    nnpL

    1])[()( X

    (2. 8)

    care reprezint o funcie ce depinde de variabilele pentru un set fixat de vectori X[n]. Principiul denumit maximum likelihood urmrete determinarea valorilor vectorului de parametri care asigur maximizarea funciei L() (justificarea logic fiind legat de maximizarea probabilitii ca datele disponibile s fi fost generate de ctre un model avnd parametrii optimi ). Pentru ca procesul de optimizare s fie asociat cu noiunea mai familiar a unei funcii de eroare care ar trebui minimizat se prefer nlocuirea funciei L() prin versiunea sa procesat sub forma:

  • 38 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    =

    ==N

    nnpLJ

    1]))[(ln())(ln( X

    (2. 9)

    Soluia acestei probleme de optimizare va depinde de forma particular a funciei p(X) considerate i, de regul, va necesita utilizarea unui metode numerice adecvate. n cazul particular n care densitatea de probabilitate p(X) se presupune de form normal (gaussian) vom avea: )()(

    21

    2/12/

    1

    ||)2(

    1)(XX

    X

    =T

    ep d (2. 10)

    n care reprezint media aritmetic a vectorilor X (presupui de dimensiune d), iar este matricea de covarian, de dimensiune (dxd). Se poate arta c procesul de minimizare a funciei J conduce n aceast situaie la urmtoarele valori estimate ale parametrilor modelului (parametrii se particularizeaz la valorile i ):

    =

    =

    =

    =

    N

    n

    T

    N

    n

    nnN

    nN

    1

    1

    )][)(][(1

    ][1

    XX

    X

    (2. 11)

    Intuitiv, rezultatele obinute se justific, innd cont c nlocuind n relaiile anterioare operaiunea de mediere aritmetic pe un set finit de realizri individuale cu operatorul standard E{.} (expectation) ajungem la definiiile standard ale celor dou mrimi valabile n cazul variabilelor cu distribuie normal. B. Estimarea densitii de probabilitate condiionat Reamintim c scopul principal al unei reele neurale este de a oferi un model ct mai exact al procesului fizic responsabil de generarea perechilor de date intrare-ieire disponibile i nu memorarea acestor valori particulare. Dac scopul este atins, sistemul va furniza rspunsuri adecvate i pentru date de intrare noi, care nu au fost utilizate efectiv n procesul de estimare a valorilor parametrilor specifici modelului. Instrumentul care permite descrierea procesului prin care sunt generate perechi de

  • 2.3 Algoritmi de nvare 39

    vectori intrare-ieire dorit este densitatea de probabilitate p(X,t), care se poate exprima n mod echivalent sub forma: )()|(),( XXttX ppp = (2. 12)

    unde p(t|X) desemneaz densitatea de probabilitate condiionat a ieirii n raport cu intrarea (adic densitatea de probabilitate a variabilei t dac intrarea X are o valoare particular dat), iar p(X) este densitatea (necondiionat) de probabilitate a intrrii. innd cont de definiia funciei L() din paragraful anterior, se poate scrie n mod asemntor relaia: ==

    nnnpnnpnnpL ])[(])[|][(])[],[( XXttX (2. 13)

    Mai mult, trecnd la varianta prelucrat sub forma unei funcii de eroare, se poate scrie: ==

    n nnpnnpLJ ]))[(ln(]))[|][(ln()ln( XXt (2. 14)

    Vom justifica imediat c scopul principal al unei reele neurale va fi de a estima ct mai exact primul termen al relaiei anterioare. Deoarece cel de al doilea termen nu depinde de parametrii reelei neurale putem renuna la acesta, funcia de eroare cptnd forma mai simpl: =

    nnnpJ ]))[|][(ln( Xt (2. 15)

    Alegnd diverse forme particulare ale densitii de probabilitate condiionate p(t|X) se ajunge la definirea mai multor tipuri de funcii de eroare. Pentru simplitate, s considerm n cele ce urmeaz c variabila aleatoare care definete semnalul dorit este unidimensional i este obinut pe baza relaiei: Nnnenhnt 1,][])[(][ =+= X (2. 16)

    n care h(.) desemneaz o funcie determinist, iar e[n] reprezint zgomot cu distribuie normal (gaussian) cu valoare medie nul i dispersie independent de semnalul de intrare, de forma:

  • 40 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    2

    2

    221)(

    e

    eep

    = (2. 17)

    S presupunem c avem la dispoziie o reea neural capabil s ofere o aproximaie a funciei h(.) sub forma yW(X), n care vectorul W reunete totalitatea parametrilor reelei. n aceste condiii relaia (2. 3) se poate rescrie sub forma:

    2

    2

    2))((

    21)|(

    XWX

    yt

    etp

    =

    (2. 18)

    astfel nct funcia de eroare (2. 15) capt forma:

    { } )2ln(2

    ln])[(][2

    12

    12

    NNnyntJN

    n++=

    =XW

    (2. 19)

    Lsnd deoparte valorile constante (independente de valorile parametrilor W) ajungem n final la expresia binecunoscutei erori ptratice:

    { }2

    1])[(][

    21

    ==

    N

    nnyntJ XW

    (2. 20)

    Observaii: a) analiza anterioar poate fi extins comod la cazul variabilelor target multidimensionale b) pentru precizarea complet a expresiei (2.18) este necesar i obinerea valorii parametrului . Avnd la dispoziie valorile optime W* rezultate n urma minimizrii funciei de eroare se poate demonstra c valoarea cutat este: { }

    ==

    N

    nnynt

    N 1

    2*

    2 ])[(][1 XW (2. 21)

  • 2.3 Algoritmi de nvare 41

    c) nu este obligatoriu ca densitatea de probabilitate p(t|X) s aib o distribuie normal, ns se poate arta c n cazul utilizrii funciei de eroare ptratice valorile optime ale parametrilor reelei neurale nu vor putea face posibil distincia ntre o distribuie normal i oricare alt tip de distribuie avnd aceeai valoare medie i aceeai dispersie. d) n aplicaiile practice se folosesc deseori unele variante ale erorii ptratice (2. 20), anume:

    Eroare ptratic medie (MSE): { }

    2

    1])[(][

    21

    ==

    N

    nnynt

    NJ XW

    (2. 22)

    Eroare ptratic medie normalizat (NMSE): { }

    { }

    =

    =

    = N

    nt

    N

    n

    nt

    nynt

    J

    1

    2

    1

    2

    )][

    ])[(][

    XW

    (2. 23)

    Varianta din relaia (2. 22) prezint avantajul independenei valorii erorii de numrul de exemplare care formeaz baza de date, iar cea din relaia (2. 3) al unei imagini relative a valorii erorii n raport cu energia semnalului target (t desemneaz valoarea medie a datelor target).

    C. Interpretarea ieirilor unei reele neurale Avnd la dispoziie rezultatele foarte importante prezentate n paragrafele anterioare, vom ilustra n finalul acestui capitol modalitatea de interpretare a rspunsurilor oferite de ieirile unei reele neurale. Pentru simplitate, vom considera din nou cazul unei reele cu o singur ieire. Astfel, n cazul unei baze de date de dimensiune infinit (cu N ) expresia erorii ptratice (2. 20) devine [24]:

  • 42 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    { }

    { }

    =

    ===

    XXX

    X

    W

    W

    dtdtpnynt

    nyntN

    JN

    nN

    ),(])[(][21

    ])[(][21lim

    2

    2

    1

    (2. 24)

    Folosind relaia (2. 12) putem scrie n continuare: { } = XXXXW dtdptpnyntJ )()|(])[(][21 2 (2. 25)

    Introducem urmtoarele definiii ale unor medii aritmetice condiionate:

    =

    =dttptXt

    dtttpXt

    )|(

    )|(

    22 X

    X

    (2. 26)

    n urma unui calcul simplu se ajunge la urmtoarea expresie echivalent cu relaia (2. 25): { } { } += XXXXXXXX W dpttdpytJ )(21)()(21 222

    (2. 27)

    Se observ uor c cel de al doilea termen din relaia precedent nu depinde de parametrii reelei neurale, astfel nct minimizarea funciei de eroare va presupune anularea primului termen. Ajungem astfel la concluzia important c atunci cnd se utilizeaz o funcie de eroare ptratic ieirea unei reele neurale poate fi interpretat ca valoarea medie a informaiei target condiionat de datele de intrare X: XXW ty =)( (2. 28)

    Interpretarea geometric a acestei relaii se indic n Fig. 2.7.

  • 2.3 Algoritmi de nvare 43

    Fig. 2.7: Interpretarea ieirii unei reele neurale ca probabilitate condiionat

    Observaii: a) analiza anterior se poate extinde comod i la cazul variabilelor target multidimensionale b) concluziile fundamentale din ultimul paragraf pot fi aplicate n practic n

    condiiile valabilitii unor ipoteze care merit comentate. Prima se refer la necesitatea de a dispune de o baz de date de dimensiune foarte mare (pentru a permite trecerea de la sume finite la integrale). A doua se refer la capacitatea de modelare a sistemului care ofer ieirea yW(X) i care nu este obligatoriu s fie implementat sub forma unei reele neurale! n sensul c trebuie s avem garania c exist un set de parametri W n stare s asigure minimizarea funciei de eroare. n sfrit, presupunnd c un astfel de set optim de parametri exist, trebuie s avem la ndemn o tehnic de optimizare adecvat, capabil s permit convergena ctre acest set de parametri. Din aceast perspectiv, utilizarea unor reele neurale n vederea estimrii densitii de probabilitate (2. 3) se justific prin capacitatea de aproximare universal pe care unele dintre acestea o posed.

    c) ieirea yW(X) poate fi furnizat att de reele neurale statice (strict algebrice), ct i de reele recurente. Pentru ca ieirile unei reele neurale s poat fi interpretate ca probabiliti se folosesc de regul funcii de activare speciale pentru neuronii plasai n stratul de ieire, pentru a asigura ndeplinirea celor 2 condiii axiomatice referitoare la caracterul pozitiv, repectiv la condiia ca suma acestora s fie egal cu 1 [138]. Un

  • 44 CAPITOLUL 2: CARACTERISTICI FUNDAMENTALE

    exemplu n acest sens este oferit de funcia denumit softmax:

    =

    = Nj

    x

    xi

    j

    i

    e

    exf

    1

    )( , unde N este numrul total de ieiri ale reelei.

    d) o utilizare extrem de util a noiunilor prezentate n acest paragraf se ntlnete n cazul aplicaiilor financiare de predicie, n care se prefer obinerea nu a unei valori punctuale ci estimarea ntregii densiti de probabilitate, cu efectul benefic al obinerii n acest mod a unei aprecieri a gradului de ncredere n valoarea prezis [134].

    Capitolul 2Caracteristici fundamentale ale reelelor neurale artificialTabelul 2.1: Principalele tipuri de algoritmi de nvareParam. (P)/