1. reţele neuronale artificiale - etc. · pdf file-arbore dendridic – este structura...

99

1. Reţele Neuronale Artificiale

1.1. Introducere

Pornindu-se de la performanţele şi capabilităţile remarcabile pe care fiinţa umana le manifestă în diferitele arii de activitate, în particular de la performanţele creierului uman, diferite domenii teoretice, tehnice şi aplicative au încercat şi încearcă să atingă performanţe similare prin „copierea” diferitelor sisteme şi funcţii ale organismului uman şi nu numai.

Creierul uman este o structură paralelă de procesare şi stocare a informaţiei compusă din aproximativ 10 miliarde de neuroni interconectaţi (1010) []. Se estimează că în medie în creierul uman sunt aproximativ 60 de trilioane de conexiuni neuronale.

Un neuron are rolul fundamental de a primi, conduce, procesa şi transmite diferite semnale primite de la organele de simţ, diferiţi proprioceptori sau de la alţi neuroni.

Fiecare neuron biologic este format din:

- corpul celular (soma); - axon – axonul transportă semnalele la distanţă faţă de corpul

celular, către alţi neuroni sau celule ţintă (de exemplu, motoneuronii care transportă semnalele de la măduva spinării până la musculatura picioarelor au axoni cu lungimi de până la un metru [a]); în final axonul se ramifică într-un număr de terminaţii axonale care se cuplează prin intermediul sinapselor cu dendridele altor neuroni sau direct cu corpul altor neuroni;

- arbore dendridic – este structura care primeşte semnale de la axonii altor neuroni (de exemplu există neuronii care primesc informaţii de la peste 100.000 de alţi neuroni [a]);

- sinapse – sinapsele sunt conexiunile ce se realizează la nivelul axonului unui neuron cu dendridele altui neuron.

Faţă de structura fundamentală de bază a unui neuron prezentată anterior există o serie de excepţii care ţin de: lipsa axonului (dendridele au rol atât de receptor cât şi de emiţător), atât axonii cât şi dendridele pot forma sinapse cu alţi axoni şi cu alte dendride deci nu numai sinapse de tip axon-dendridă etc.

Cercetătorii W.S. McCulloch şi W. Pitts au propus în anul 1943 primul model neuronal artificial []. Ca o particularitate a acestui model, el este caracterizat de o activare de tip totul sau nimic (ieşirea acestui model neuronal are doar două stări); acest neuron lucrează mai de grabă ca un

100

dispozitiv binar. În Figura 1.1 se prezintă structura generală a unui neuron artificial.

Neuronul artificial modelează comportamentul unui neuron real. Astfel, conexiunile dintre neuroni, denumite ponderi sinaptice, sunt folosite în stocarea informaţiei. După o procesare locală a semnalului de intrare funcţie de informaţia stocată în ponderile sinaptice (multiplicarea acesteia cu valorile informaţionale stocate) se produce o integrare (sumare) globală a rezultatelor obţinute – proces similar cu cel ce are loc în corpul celular al unui neuron biologic real. Dacă răspunsul global obţinut depăşeşte un anumit prag informaţia este transmisă mai departe.

Figura 1.1. Structura fundamentală a unui neuron artificial

Reţelele neuronale artificiale (RNA) sunt structuri artificiale care

încearcă să copie modul de funcţionare a creierului uman şi sunt construite din mai multe elemente de procesare (EP) sau neuroni artificiali grupaţi în straturi, fiecare strat având un număr variabil de elemente.

Trăsăturile fundamentale ale RNA sunt următoarele:

sunt structuri distribuite, sunt structuri adaptive, sunt maşini universale de învăţare neliniară.

w1

w2

w3

wd

x1

x2

x3

xd

...

f( )

Combinator liniar

Ponderi sinaptice

x1 w1

x2 w2

x3 w3

xd wd

Functia de activare

d

iii wxxg

1

)(

Activareag(x)

bPragul

(threshold, bias)

y

)())((1

bwxfbxgfyd

iii

101

Din punct de vederea al problemelor de clasificare, o reţea neurală dă naştere – prin elementele sale de procesare – la funcţii discriminant. Topologia reţelei neuronale artificiale este cea care defineşte şi determină numărul şi modalitatea de cuplare a funcţiilor discriminant. Suprafeţele de decizie obţinute prin gruparea acestor funcţii discriminant se modifică o dată cu topologia reţelei şi cu valorile ponderilor fiecărui neuron. Unul dintre avantajele centrale ale reţelelor neurale este acela că sunt suficient de puternice pentru a crea funcţii discriminant arbitrare astfel încât reţeaua neuronală artificială să conveargă către o clasificare optimală.

RNA aparţin clasei clasificatorilor semiparametrici. Parametrii reţelei neuronale (ponderile RNA) sunt determinate din setul de date pe baza unui algoritm de adaptare (similar ca în cazul clasificatorilor parametrici) în schimb reţeaua neuronală nu face nici o supoziţie în legătură cu distribuţia datelor – cu forma funcţională a funcţiei densitate de probabilitate.

Într-o RNA şi, în general, în cazul sistemelor adaptive cel care construieşte reţeaua nu trebuie să specifice parametrii sistemului (valorile ponderilor fiecărui neuron în parte). Valorile acestor parametri sunt extraşi, în mod automat, din datele de intrare şi din răspunsul dorit, folosind ca mijloc pentru atingerea acestui obiectiv anumiţi algoritmi, denumiți de antrenare sau de adaptare.

Utilizarea acestor algoritmi pentru modificarea valorilor ponderilor în scopul obţinerii unei clasificări cât mai bune este unul din conceptele fundamentale ale unei RNA. Performanţele clasificării sunt cuantificate folosind pentru aceasta un anumit criteriu de eroare.

Utilizarea extensivă a RNA în probleme de aproximare şi clasificare este motivată de abilitatea demonstrată a unei reţele neuronale (RNA) cu două straturi ascunse, antrenată cu algoritmul invers de propagare a erorii, de a aproxima orice funcţie continuă, cu o eroare oricât de mică [Funahashi, 1989] – conceptul de maşină universală de învăţare neliniară. Condiţia ca aceste structuri neuronale să fie maşini universale de învăţare este ca pe straturile ascunse să se regăsească un număr suficient de mare de neuroni [Hornik, 1989] astfel încât RNA să aibă puterea necesară îndeplinirii acestei condiţii. Astfel, pentru orice funcţie f definită pe o submulţime D a lui Rn:

f : D Rn R (1.1)

putem găsi o aproximare foarte bună F (dată de o reţea neuronală artificială), în sensul unei topologii definită pe D, cu o eroare mai mică decât un arbitrar ales pentru care să avem:

|| f – F || = Dx

sup

| f (x) – F (x)| < (1.2)

102

Conceptual, elemente definitorii în realizarea unei reţele neurale artificiale (a unui clasificator semiparametric), utilizat într-o problemă de clasificare, sunt:

selecţia formei funcţiilor discriminant, determinarea numărului funcţiilor discriminant, plasarea lor în spaţiul trăsăturilor și

modalitatea optimă de cuplare a lor

astfel încât eroarea de clasificare să fie minimă. Acestea generează automat și numărul de straturi ale RNA. Vom discuta în cele ce urmează toate aceste elemente. De asemenea, vom discuta şi analiza algoritmii de antrenare pentru diferite topologii de reţele neurale artificiale.

1.2. Modelul neuronal Adaline

În cadrul acestui subcapitol vom studia unul dintre modelele "timpurii"

ale neuron artificial – modelul Adaline (ADAptive LINear Element) [xx]. Acest model este de o mare importanţă conceptuală şi practică. Modelul Adaline este unul utilizat într-o gamă extrem de largă de aplicaţii şi a fost introdus de B. Widrow şi M.E. Hoff la începutul anilor '60 [xx]. Ieşirea y a modelului este descrisă de relaţia:

1;0

0

kxkd

ixk

iwky nn

i (1.3)

unde w0[k], w1[k], ..., wd[k] sunt ponderile sinaptice ale modelului la momentul k, iar x1

n [k], x2n [k],..., xd

n [k] sunt intrările modelului – date de

vectorul de trăsături xn prezentat modelului neuronal la acelaşi moment k, în timp ce d reprezintă dimensionalitatea spațiului de trăsături.

Comparativ cu reprezentarea grafică din Figura 1.1 se observă că modelul neuronal Adaline este o particularizare în care funcţia de activare este egală cu unitatea iar pragul este înglobat în model prin intermediul intrării x0

n [k].

În continuare vom discuta despre două proceduri de determinare (instruire, adaptare) a ponderilor modelului Adaline, descris de ecuaţia (1.3).

Ambele proceduri fac parte din categoria procedurilor de instruire supervizată. Acest tip de proceduri utilizează pe lângă setul de date de intrare A = {x1, x2, ..., xK} un set de exemplare ce vor caracteriza doritul reţelei neuronale, fiecare element din acest set fiind asociat cu unul din elementele de intrare. Deci, în final vom avea un set de exemplare {xn, dn}, n = 1, 2, ... ,

103

K, unde xn este vectorul de intrare în model, xn = [x1n, x2

n, ... , xdn]T, ce este

aplicat la un anumit moment de timp, iar dn reprezintă ieşirea dorită, corespunzătoare intrării xn. Ponderile modelului se calculează astfel încât pentru fiecare intrare xn, ieşirea yn a modelului să fie cât mai apropiată (conform unui criteriu de performanţă) de ieşirea dorită dn.

În literatura de specialitate setul de exemplare {xn, dn}, cu n = 1, 2, ..., K, este cunoscut sub numele de set de antrenare.

1.2.1. Algoritmul MMSE (Minimum Mean Square Error)

În cadrul acestei metode se calculează un vector wopt optim de ponderi

astfel încât să fie minimizată eroarea medie pătratică 2eE :

nnn

K

nn ydee

KydEeE

;1

1

222 (1.4)

În relaţia (1.4) eroarea en poartă numele de eroarea instantanee de

instruire. Ieşirea neuronului Adaline este dată de:

wxxwy TT (1.5)

În relaţia (1.5) prin wT şi xT s-au notat vectorii linie care sunt transpuşii vectorilor coloană w (vector ponderi sinaptice) şi x (vector de intrare).

Considerând că setul de antrenare este un proces statistic staţionar (estimatorii momentelor statistice variază lent în timp) ecuaţia (1.4) se scrie sub forma:

wxdEwxxEwdEydEeE TTT }{2222 (1.6)

Matricea Tx xxER este matricea de corelaţie a vectorului aleator real

x de intrare. În plus, definim şi vectorul P = E{d xT}. Cu aceste definiţii, relaţia (1.6) devine:

wPwRwdEeEw xT 222 (1.7)

de unde se observă că eroarea medie pătratică este o funcţie explicită dependentă de vectorul ponderilor w.

Pentru determinarea vectorului wopt, corespunzător minimului erorii pătratice medii, se calculează derivatele funcţiei (w), şi se foloseşte condiţia de extrem:

104

PwRw

wx 22

)(

(1.8)

Având în vedere faptul că funcţia (w) este pozitivă, rezultă că extremul funcţiei este un minim dat de ecuaţia:

022 PwR optx (1.9)

Din relaţia (1.9) rezultă că vectorul optim al ponderilor sinaptice pentru care se obţine o eroare pătratică minimă este wopt = Rx

-1P.

Metoda MMSE poate fi sintetizată prin următoarele etape:

1. având întregul set de antrenare, apriori cunoscut, se calculează matricea de corelaţie a vectorului de trăsături de intrare

Tx xxER şi vectorul P = E{d xT};

2. se calculează vectorul optim al ponderilor cu relaţia wopt = Rx-1P.

Metoda MMSE presupune cunoaşterea apriorică a întregului set de antrenare, fiind o metodă de instruire de tip globală sau bloc.

În acele situaţii în care nu se dispune apriori de un set de antrenare, sau inversarea matricii de corelaţie a serului de date, Rx, este dificilă, se recurge la următoarea metoda de adaptare (instruire) a ponderilor ce va fi discutată în subcapitolul următor.

1.2.2. Algoritmul LMS (Least Mean Square)

O altă modalitate de calcul a ponderilor, corespunzătoare minimului

funcţiei (w), este dată de metoda de coborârea pe suprafaţa funcţiei de eroare în direcţia pantei celei mai abrupte.

Dacă am analiza problema obţinerii erorii minime medii pătratice, dată de relaţia (1.4), pentru un caz unidimensonal considerând, în plus, şi valoarea pragului egală cu zero am obţine următoarea relaţie:

K

m

nnnn

K

n

nn xwxwdd

Kwxd

KydEw

1

222

1

22 211 (1.10)

În relaţia (1.10) dacă considerăm drept variabil numai parametrul w iar ceilalţi parametri sunt ţinuţi constanţi observăm că obţinem o ecuaţie de gradul doi în w a cărui coeficient a termenului pătratic w2 va fi întotdeauna pozitiv. O posibilă reprezentare grafică a erorii medii pătratice (a relaţiei (1.10)) este dată în Figura 1.2 (Ex.0).

105

Gradientul pe suprafaţa de eroare într-un anumit punct arbitrar, de exemplu în punctul wc, se poate determina cu relaţia:

w

wwwww

cc

w

c

2

lim0

(1.11)

Din relaţia (1.11) se observă că gradientul este direct proporţional cu panta suprafeţei de eroare şi ia valori negative în stânga punctului w* ( = wopt, punct de minim al suprafeţei de eroare) şi valori pozitive în dreapta acestui punct.

Figura 1.2. Suprafaţa de eroare Deşi Figura 1.2 este reprezentată în situaţia unui spaţiu monodimensonal

de trăsături ea poate fi generalizată pentru situaţia unui spaţiu d dimensional unde vom obţine o suprafaţă „pătratică” d dimensională. Această figură ne ajută de asemenea în găsirea unei metode intuitive de determinare a vectorului optim de ponderi wopt prin intermediul unei metode iterative. Astfel, după cum se observă în oricare punct al suprafeţei, direcţia de coborâre pe suprafaţa de eroare este în direcţia negativului gradientului funcţiei, din punctul respectiv. Astfel, punctul de minim poate fi determinat prin aplicarea iterativă a relaţiei:

kwkwkw 1 (1.12)

unde kw este gradientul

T

dwww

...,

1,

0

în w[k],

iar este o constantă pozitivă denumită constantă de adaptare (de învățare).

w

(w)

wop

min (wopt)

ww

(wb)

(wa)

(wa)

(wb)

106

După cum am demonstrat anterior gradientul erorii pătratice medii se poate calcula prin intermediul relaţiei (1.8) dacă se cunosc matricea de corelaţie a setului de date, Rx, şi vectorul P. Dar există situaţii în care nu dispunem apriori de un set de instruire sau estimarea matricii Rx şi a vectorului P este dificilă. În aceste situaţii se recurge la aproximarea gradientului erorii medii pătratice, , cu gradientul erorii pătratice instantanee. Algoritmii de calcul ai ponderilor rezultaţi în urma acestei aproximări formează clasa algoritmilor de tip gradient stohastic.

Algoritmul de tip gradient stohastic utilizat în cadrul modelul Adaline este denumit în literatura de specialitate algoritmul Least Mean Square sau prescurtat LMS.

În cadrul procesului de adaptare a ponderilor întregul set de antrenare {xn, dn}, i = 1, 2, ... , K, va fi prezentat modelului neuronal Adaline de mai multe ori până când un anumit criteriu de performanţă este îndeplinit, de exemplu eroarea medie pătratică scade sub o anumită valoare. Prezentarea întregului set de date modelului neuronal poartă numele de epocă de antrenare. Astfel, procesul de adaptare al ponderilor este format dintr-un anumit număr de epoci de antrenare.

Eroarea pătratică instantanee a modelului Adaline este definită de relaţia:

nxkTwkn

ykn

ykn

dk

e ;2 2 (1.13)

În relaţia anterioară dn este ieşirea dorită corespunzătoare vectorului de

intrare xn, iar yn este ieşirea modelului la momentul de timp k calculată pentru

vectorul de intrare xn şi vectorul de ponderi w[k], n fiind numărul curent al perechii {xn, dn} din setul de antrenare. Deoarece procesul de antrenare este unul iterativ, după cum s-a prezentat anterior, atingerea criteriului de oprire a procesului de adaptare a structurii neuronale necesită prezentarea de mai multe ori a setului de date de antrenare. Din această perspectivă, vom spune că algoritmul LMS necesită un anumit număr de epoci de antrenare până la atingerea criteriului de convergentă a ponderilor către acele valori ce determină obținerea unei erori globale minime. O epocă de anterenare este formată din toate exemplare { xn, dn } existente în setul de antrenare. Revenind la relaţia (1.13) indicele k precizează momentul de timp în care se face actualiazare; presupunând că suntem în epoca nep (de exemplu, epoca 9) exemplarul n (de exemplu, n = 62) şi o epocă este formată din 100 de exemplare de antrenare (K = 100; n = 1, 2, ..., 100), atunci:

k = (nep - 1) ∙ K + n (1.14)

rezultând pentru exemplul particular anterior: k = 8 ∙ 100 + 62 = 862.

107

În aceste condiţii, gradientul erorii pătratice instantanee este dat de:

nxk

ek

e 2)2( (1.15)

Conform relaţiilor (1.12) - (1.15) algoritmul LMS are următoarele etape:

1. se iniţializează vectorul w al ponderilor (în multe situaţii practice pentru iniţializare se folosesc valori mici, generate aleator);

2. la iteraţia k a algoritmului de adaptare: se aplică un vector de intrare xi modelului; se calculează eroarea instantanee:

ek = di – yi (1.16)

În relaţia anterioară di este ieşirea dorită, iar yi este

produsul dintre vectorul corespunzător doritului actual, xi, şi vectorului curent de ponderi, w[k]:

yi [k] = wT[k] xi (1.17)

se modifică vectorul ponderilor cu relaţia:

ixk

ekwkw 21 (1.18)

3. se opreşte procesul de adaptare a ponderilor o dată cu îndeplinirea unui anumit criteriu global (de exemplu eroarea instantanee coboară sub un anumit prag); în caz contrar se revine la punctul 2.

Problemă 11.1: (a) Dezvoltaţi un program în mediul LabWindows CVI capabil să determine un număr arbitrar de coeficienţi LPC (Linear Prediction Coefficients) prin metoda iterativă LMS. Programul va fi capabil să determine valorile coeficienţilor filtrului FIR predictiv pentru orice serie de timp încărcată dintr-un fişier de tipul TXT în care setul de date este stocat sub forma unei coloane.

(b) Pentru un semnal sinusoidal şi unul de tip ECG (aceste semnale se regăsesc în directorul de semnale asociat acestui capitol) determinaţi valorile coeficienţilor modelului prin: metoda iterativă LMS şi prin metoda de modelare autoregresivă Yule-Walker. Numărul coeficienţilor utilizaţi în această modelare va fi cel optim. Acest numărul optim de coeficienţi vor fi determinaţi pentru fiecare serie de timp în parte prin utilizarea erorii de aproximare a metodei Yule-Walker. Comparaţi valorile obţinute prin cele două metode. Explicaţi diferenţele obţinute.

108

Rezolvare: (a) Implementarea programului se găseşte în directorul „LMS -

predicţie” asociat acestui capitol. (b) Acest punct al problemei este temă de casă.

Convergenţa algoritmului LMS este asigurată dacă factorul respectă condiţia [Gelfand, 1999]:

xRtr3

20 (1.19)

unde tr Rx este urma (suma elementelor de pe diagonala principală) a matricii Rx de corelaţie a procesului x de la intrarea neuronului artificial.

Valoarea factorului de adaptare este esenţială pentru nivelul performanţelor de instruire ale neuronului Adaline. Algoritmul LMS clasic utilizează un factor de adaptare constant astfel ales încât să se respecte inegalitatea (1.19).

Dar, pentru a optimiza performanţele de convergenţă ale neuronului Adaline, trebuie să fie variabil. Astfel, la începutul instruirii trebuie să fie „mare” pentru a se obţine o rată „mare” de convergenţă, de coborâre pe suprafaţa de eroare. După ce procesul de convergenţă a intrat într-o fază staţionară este necesar să folosim un „mic”, pentru a se obţine o valoare medie „mică” a erorii de instruire. Problemă 11.2: Fiind dat un semnal arbitrar (s(t) – discretizat s[n]), acesta se

va aproxima prin intermediul altuia caracterizat de relaţia1:

k

l

k

mlm

lmlm

k

l

k

mlm

lmlm

k

mmm

k

mmm nndnncnnbnxnany

1 11 111

(1.20)

Semnalul ce realiza aproximarea va fi dat de o sumă de componente spectrale caracterizate de următoarele componente:

fi : jjj mnx 2sin][ (1.21)

1 Acest mod de compunere a unui semnal din aceste componente spectrale este caracteristic

modalităţii de generare a undelor EEG în creierul uman. Diferitele unde EEG sunt generate în principal pe baza unor oscilaţii spontane (caracterizate de frecvenţele fi), de o serie de componente de autocuplare (situate la frecvenţe cu valori de tipul 2fi) şi, în final, de o altă serie de componente de intercuplare (fi + fj şi fi –fj). Componentele de autocuplare, precum şi cele de intercuplare apar în special datorită mecanismelor neliniare de interacţiune între diferiţii oscilatori interni din zonele corticale şi cele subcorticale [Bai, 2000].

109

2 fi : jjj mn 222sin][ (1.22)

fi – fj : jijiij mmn 2sin][ (1.23)

fi + fj : jijiij mmn 2sin][ (1.24)

Să se determine:

(a) Relaţiile matematice de modificare a amplitudinilor fiecărei componente spectrale utilizând algoritmul LMS ştiind că funcţia de cost a cărui minim trebuie determinat este:

neJ 2

2

1 (1.25)

În relaţia anterioară eroarea instantanee este dată de:

nynsne (1.26)

(b) Relaţiile matematice de modificare a fazelor fiecărei componente spectrale utilizând algoritmul LMS, în aceleaşi condiţiile ca cele prezentate la punctul anterior.

Rezolvare:

(a) Relaţia ce va fi utilizată în modificarea iterativă a amplitudinii oscilaţiilor spontane este similară cu (1.12) fiind dată de:

naJnana jajj j 1 (1.27)

Derivând funcţia de cost se obţine:

na

nynena

na

nenana

jaj

jajj

j

j

2

2

1

1 (1.28)

În final se obţine:

nxnenana jajj j1 (1.29)

În mod similar pentru amplitudinile componentelor de autocuplare cât şi pentru cele de intercupare se obţine:

nnenbnb jbjj j1 (1.30)

110

nnencnc ijcijij ji1 (1.31)

nnendnd ijdijij ji1 (1.32)

Verificarea corectitudinii acestor relaţiilor, determinate anterior, se poate face şi prin intermediul implementării acestora într-un program şi a testării funcţionării algoritmului. Acest program se află în directorul „LMS – modelare amplitudine”.

(b) Acest ultim punct al problemei este temă de casă. Implemetarea programul ce realizează modelarea unui

semnal prin intermediul unor oscilaţii spontane, a componentelor intercuplate şi a celor autocuplate prin adaptarea atât a informaţiei de amplitudine cât şi a celei de fază se află în directorul „LMS – modelare amplitudine si faza”.

1.3. Modelul neuronal McCulloch-Pitts

1.3.1. Capacitatea de discriminarea a modelului neuronal McCulloch-Pitts

Elementul de procesare sau neuronul McCulloch-Pitts (M-P) este o generalizare a modelului neuronal Adaline şi este compus dintr-o sumă de produse dintre intrările neuronului şi ponderile sinaptice ale acestuia plus o valoare constantă, toate acestea trecute printr-o neliniaritate de tip prag. Ecuaţia de intrare-ieşire al acestui neuron artificail este:

d

iii bxwfxgfy

1

(1.33)

De altfel, modelul neuronului McCulloch-Pitts utilizat la ora actuală, prezentat în relaţia (1.33), este o generalizare a modelului neuronal propus în anul 1943 şi care lucra, atunci, doar cu variabile de intrare binare (0 şi 1) fiind caracterizat de ponderi şi praguri fixe.

În relaţia (1.33) d reprezintă numărul de intrări ale neuronului (dimensionalitatea spaţiului de intrare al trăsăturilor), xi reprezintă valorile intrărilor elementului de procesare, wi sunt ponderile iar b este termenul bias sau prag. În cadrul modelului neuronal McCulloch-Pitts funcţia de activare f este o funcţie de tip semn (hard limited) definită prin relaţia:

111

0 dacă1

0 dacă1

x

xxf (1.34)

Această funcţie de activare neliniară poartă şi numele de funcţie semn. Un astfel de sistem, realizat cu ajutorul unui neuron de tipul M-P, este

capabil să separe doar două clase. O primă clasă este asociată valorii +1 a ieşirii sistemului şi cealaltă clasă este asociată valorii -1.

Deci, elementul de procesare M-P este compus din:

elementul liniar adaptiv (combinatorul liniar), cunoscut sub numele de neuronul Adaline (Adaptive Linear Element), şi

o funcţie neliniară.

În continuare vom studia şi vom înţelege capacitatea neuronului M-P de a recunoaşte, de a clasifica diferiţii vectori de trăsături. Din punct de vedere al teoriei clasificatorilor, relaţia (1.33) este generatoarea unei singure funcţii discriminant, dată de relaţia:

d

iiidd bxwbxwxwxwxg

12211 ... (1.35)

Dar, din punct de vedere medical, fiziologic relaţia anterioară este similară şi modelează potenţialul membranei unui neuron biologic.

În paragrafele următoare vom încerca să înţelegem în mod intuitiv ce reprezintă această funcţie discriminant generată de către neuronul M-P.

Pentru facilitarea reprezentării grafice şi a înţelegerii intuitive a capacităţilor acestui neuron vom lucra mai departe într-un spaţiu bidimensional de intrare sau de trăsături. În această situaţie putem scrie ieşirea elementului de procesare astfel:

1,2j

1,2j

0 dacă 1

0 dacă 1

bxw

bxw

yjj

jj

(1.36)

Din relaţia (1.36) se poate observa că valoarea ieşirii neuronului este controlată în mod direct de către termenul:

w1x1+ w2x2+b (1.37)

Termenul, anterior prezentat, reprezintă ecuaţia unei drepte. Dar simultan acest termen este chiar funcţia discriminant, g(x1,x2), generată de neuronul M-P. Mai mult, această funcţie discriminat este ieşirea pentru un neuron de tipul Adaline. Prin aplicarea funcţiei de activare neuronului Adaline va rezulta un sistem care împarte spaţiul de intrare în două semiplane, unul pentru vectorii de trăsături care sunt evaluaţi cu o valoare pozitivă (+1) şi altul

112

cu vectorii evaluaţi cu o valoare negativă (-1). Ecuaţia pentru suprafaţa de decizie se obţine prin egalarea cu zero a

funcţiei discriminant:

0),( 221121 bxwxwxxg (1.38)

Problemă 11.3: Ştiind modalitatea de definire a suprafeţei/suprafeţelor de decizie raportate la funcţiile discriminant a claselor, dovediţi că relaţia anterioară este corectă.

Din relaţia (1.38) rezultând:

21

2

12 w

bx

w

wx (1.39)

Suprafaţa de decizie este ecuaţia unei drepte cu panta:

21 / wwm (1.40)

ce trece prin punctul (0, –b/w2), intersectând deci axa x2 în punctul:

22 w

bx (1.41)

Această dreaptă se găseşte poziţionată la o distanţă2 faţă de origine egală cu:

22

21 ww

bd

(1.42)

Datorită formei şi a semnificaţiei generate de relaţia (1.42) termenul b este cunoscut în literatura de specialitate drept deplasare (bias în engleză).

Dacă sistemul caracterizat de ecuaţia (1.33) ar fi liniar, extragerea caracteristicii intrare-ieşire (a funcţiei de transfer) ar fi fost foarte uşor de aflat şi, în final, de vizualizat. Dar din păcate, pentru un sistem neliniar conceptul de funcţie de transfer nu se aplică.

Relaţia (1.36) ne poate ajuta să vizualizăm răspunsul neuronului de tipul M-P. Acest exemplu este unul foarte simplu în care ieşirea are doar două valori {-1, 1}, dar de obicei ieşirea este foarte greu de obţinut în mod analitic. Din acest motiv se preferă o determinare a caracteristicii neuronului (a suprafeţei de decizie) printr-o parcurgere exhaustivă a întregului spaţiu de intrare. Suprafaţa obţinută reflectând astfel legătura existentă între intrarea şi

2 Distanţa dintre un punct de coordonate (x0, y0) şi o dreaptă de ecuaţie a x + b y + c = 0

este:

22

00

ba

cbyaxd

113

ieşirea sistemului neuronal – implementat în acest caz particular doar cu ajutorul unui singur neuron de tipul McCulloch-Pitts.

În cazul concret al relaţiei (1.38) funcţia discriminant este un plan. Acest plan se intersectează cu planul generat de trăsăturile x1 şi x2 într-o dreaptă (care este chiar suprafaţa de decizie) a cărei ecuaţie este dată de relaţia (1.38), vezi Figura 1.3.

Acest exemplu prezentat anterior se poate extinde şi pentru spaţii de

intrare multidimensionale, numai că de data aceasta suprafaţa de decizie, liniară în cazul anterior, devine un hiperplan cu o dimensiune mai mică cu o unitate faţă de dimensiunea spaţiul de intrare.

Problemă 11.4: Determinaţi ponderile, w1 şi w2, precum şi bias-ul, b, pentru modelul neuronal McCulloch-Pitts astfel încât suprafaţa de decizie să fie poziţionată astfel: (a) Să treacă prin punctele (0.5, 0) şi (0, -0.5). În plus, în planul

de intrare (x1, x2) neuronul să întoarcă o valoare egală cu +1 în partea dreaptă a suprafeţei de decizie, vezi Figura 1.4.(a).

(b) Să treacă prin punctele (0.5, 0) şi (0, -0.5). În plus, în planul de intrare (x1, x2) neuronul să întoarcă o valoare egală cu +1 în partea superioară a suprafeţei de decizie, vezi Figura 1.4.(b).

3210-1-2-3

32

10

-1-2

-3

50

25

0

-25

-50

-75

-100

Funcţia discriminaSuprafaţa de decizie g(x1, x2) = 0,

obţinută la intersecţia funcţiei discriminant

x1

x2 g(x1, x2) -

g > 0

g < 0 -b/|w|

Figura 1.3. Prezentarea funcţiei discriminant pentru cazul unui clasificator binar

114

(c) Să treacă prin punctul (0.5, 0) şi să fie paralelă cu axa x2. Simultan mai există și constrângerea ca în planul de intrare (x1, x2) neuronul să întoarcă o valoare egală cu +1 în partea stângă a suprafeţei de decizie și -1 în partea dreaptă, vezi Figura 1.4.(c).

(d) Să treacă prin punctul (0, 0.5) şi să fie paralelă cu axa x1. În plus, în planul de intrare (x1, x2) neuronul să întoarcă o valoare egală cu +1 în partea superioară a suprafeţei de decizie, vezi Figura 1.4.(d).

Pentru testarea corectitudinii valorilor calculate utilizaţi implementarea din directorul Exemplul 01 asociat acestui capitol.

Figura 1.4. Reprezentările grafice ale regiunilor decizionale pentru

neuronului McCulloch-Pitts pentru diferite valori ale ponderilor sinaptice şi a biasului în conformitate cu datele problemei precedente

x1

x2

10.5

-0.5

-1

1 0.5

-0.5

1

0.5

x2

x1

- 0.5

1

0.5

1

x1

x2

-10.5- 0.5

- 0.5

1

0.

-0.5

-1

-0.5

-0.5

- x1

x2

(a) (b)

(c) (d)

115

În cazul concret al relaţiei (1.35) funcţia discriminant este un plan. Acest plan se intersectează cu planul generat de trăsăturile x1 şi x2 într-o dreaptă (care este chiar suprafaţa de decizie) a cărei ecuaţie este dată de relaţia (1.38).

1.3.2. Tipuri de neliniarităţi

Pentru ecuaţia (1.36) decizia aparteneţei unui element la o clasă sau alta este una de tip crisp (elementul aparține sau nu clasei), deoarece funcţia semn este utilizată la ieşirea neuronului.

De asemenea, alte tipuri de neliniarităţi pot fi utilizate la ieşirea neuronului. Dintre acestea cele mai cunoscute sunt cele ce au o formă sigmoidală3. Dintre acestea, cele mai utilizate neliniarităţi sigmoidale sunt cele de tip: logistic (funcție sigmoidală unipolară) şi tangentă hiperbolică (funcție sigmoidală bipolară).

01

01

x

xxf (1.43)

f(x) = tanh ( x) (1.44)

xxf

exp1

1 (1.45)

(a) (b) (c)

Figura 1.5. Tipuri de neliniarităţi: (a) semn, (b) tangentă hiperbolică şi (c) logistică

Pentru ultimile două neliniarităţi, prezentate grafic şi analitic în Figura

1.5, parametrul determină panta neliniarităţii şi în mod uzual ia valoarea 1. Diferenţa majoră între ultimile două neliniarităţi, prezentate în Figura 1.5(b)

3 aceasta funcţie este una monoton crescătoare având o formă de tip S

= 4

= 1

= 0.25

116

şi Figura 1.5(c), este dată de domeniul de variaţie a valorilor de ieşire. Pentru funcţia logistică domeniul este cuprins între [0, 1] în timp ce pentru funcţia tangent hiperbolică între [-1, 1]. Prin introducerea şi folosirea acestor neliniarităţi am obţinut o generalizare a funcţiilor discriminant pentru neuronul M-P de tipul:

bxwfy

iii (1.46)

Funcţia dată de (1.46) nu mai este un hiperlan similar cu cel dat de relaţia (1.35) – precum la neuronul Adaline. Avantajul fundamental al neliniarităţilor de tip sigmoidal este dat de faptul că acestea sunt derivabile. Derivabilitatea acestor funcţii constituie un avantaj mai ales în cadrul algoritmilor de adaptare nesupervizată când vom folosi derivatele în vederea găsirii minimului suprafeţei de eroare.

Ex.2.

1.3.3. Elementul de procesare clasificator optimal ?

Deoarece ieşirea funcţiei logistice ia valori doar în intervalul [0, 1], ne punem întrebarea legitiă dacă acest fapt ne permite o interpretare a ieşirii neuronului drept probabilitate posterioară pentru o distribuţie Gauss-iană a claselor de intrare.

Conform regulii Bayes o probabilitate de tip posterioară poate fi scrisă ca:

xP

cPcxfxcP ii

i (1.47)

Iar pentru situaţia particulară când avem numai două clase, numitorul relaţiei (1.47) este dat de:

P(x) = f(x | c1) P(c1) + f(x | c2) P(c2) (1.48)

unde c1 şi c2 reprezintă cele două clase. Din punct de vedere matematic se poate arăta ușor că:

axcP

exp1

11

(1.49)

unde 22

11lncPcxf

cPcxfa (1.50)

Deci, din relaţia (1.49), se poate observa că aceasta este chiar forma neliniarităţii de ieşire logistice, deci putem interpreta ieşirea neuronului drept probabilitatea posterioară a eşantionului de intrare.

117

Astfel pentru o ieșire egală cu 1 avem:

1| , (1.51)

în timp ce pentru o ieșire egală cu 0 (în situația elementelor aparținând celei de a doua clase) vom avea:

0| , 1 1| ,1

(1.52)

Având în vedere că putem găsi o relaţie matematică liniară între funcţia tangent hiperbolică şi cea logistică putem nu numai echivala reţelele neuronale care utilizează una dintre aceste funcţii dar putem păstra şi interpretarea de tip probabilitate a ieşirii.

1.3.4. Algoritmul de adaptare al ponderilor

Plasare funcţiei discriminant generată de neuronul McCulloch-Pitts în spaţiul de intrare al trăsăturilor este dată de:

1. raportul ponderilor – acestea controlează panta (orientarea) suprafeţei de decizie, în timp ce

2. bias-ul controlează cu cât se va transla această suprafaţă de decizie faţă de origine, determinând punctul de intersecţie al acesteia cu ambele axe (x1 şi x2) sau numai cu una din ele.

Plasare funcţiei discriminant trebuie controlată astfel încât ieşirea să aibă valoare 1 pentru o clasă şi –1 (sau 0 – funcţie de tipul neliniarităţii de ieşire utilizate) pentru cea de a doua clasă, deci poziţia funcţiei discriminant trebuie modificată în spaţiul de intrare până în momentul în care vom obţine numărul minim de erori.

În cazul bidimensional este foarte uşor să plasăm manual suprafaţa de decizie pentru a obţine separarea corectă a celor două clase. Dar într-un spaţiu multidimensional nu mai avem posibilitatea de a vizualiza poziţia claselor şi deci avem nevoie de o procedură automată pentru poziţionarea suprafeţei de decizie. Pentru a ne atinge acest obiectiv trebuie să: calculăm eroarea instantanee a clasificării (notată cu , egală cu diferenţa între valoarea dorită a ieşirii, d, şi ieşirea reală a neuronului y) şi, în plus, avem nevoie de un algoritm care să minimizeze această eroare.

Ex.3.

118

Există mai multe moduri de calcul a erorii globale dar cea mai folosită este eroarea medie pătratică (MSE – Mean Square Error). Eroarea medie pătratică este o funcţie de cost dată de:

K

nnn

K

nn yd

KKJ

1

2

1

2

2

1

2

1 (1.53)

În relaţia (1.53) n este un index pe întreaga mulţime a vectorilor de trăsături – avem astfel o mulțime de K vectori de trăsături în cadrul setului de antrenare al rețelei.

Scopul clasificatorului este de a minimiza această funcţie de cost prin modificarea ponderilor reţelei. Căutarea vectorului optim de ponderi pentru a minimiza un anumit criteriu este deci în esenţă ideea de bază a algoritmului. Aceeași idee se regăsește la orice altă structură neuronală: trebuie identificați vectorii de pondere optimi, a diferitelor straturi neuronale, care minimizează eroarea sistemului.

Din punct de vedere istoric, Rosenblatt [de cautat] a propus în anul 1958 următoarea procedură de minimizare a erorii de clasificare a neuronului McCulloch-Pitts (M-P):

se ia un exemplar de intrare (un vector de trăsături) din setul de antrenare şi se calculează ieşirea modelului neuronal, dacă:

ieşirea este corectă se trece mai departe – la următorul exemplar din setul de antrenare,

exemplarul de intrare este incorect clasificat se modifică vectorul de ponderi şi bias-ul modelului neuronal,

se execută pașii anteriori pe întregul set de date de câte ori este necesar până când:

ieșirea este corectă pentru fiecare element al setului de date, dacă elementele celor două clasele sunt liniar separabile sau

eroare a scăzut sub un anumit prag acceptabil pentru clase neliniar separabile.

Această procedură este algoritmul de antrenare al perceptronului M-P şi poate fi pusă sub următoarea relaţie analitică:

kxkykdkwkw 1 (1.54)

În relaţia anterioară este pasul de adaptare, y este ieşirea reţelei în timp ce d este răspunsul dorit.

Problemă: Comparaţi relaţia (1.54) cu relaţia de modificare a ponderilor dată de algoritmul LMS, relaţia (1.18). Exista vreo diferenţă?

119

Ex.4.

Din relaţia (1.54) se observă că neuronul învaţă numai când ieşirea greşeşte, deci când vectorul de intrare este clasificat în mod greşit. Deoarece răspunsul dorit poate fi doar -1 şi +1 cantitatea cu care se modifică ponderile este egală cu:

1şi 1 dacã 2

bkwkxsignkdkxkw

iii (1.55)

1şi 1 dacã 2

bkwkxsignkdkxkw

iii (1.56)

În cazul în care eşantioanele de intrare sunt liniar separabile, deci există o funcţie discriminant liniară care va produce eroare de clasificare zero, soluţia algoritmului de adaptare este un vector de ponderi w* şi un prag b* care satisface relaţia:

0**

bnxwsignnd

jji

(1.57)

pentru un index n ce parcurge întregului set de date de intrare. Soluţia pentru cazul bidimensional este o dreaptă caracterizată de

ecuaţia xT w* = 0 (vectorul optimal w* trebuie să fie ortogonal pe fiecare vector de date x). Algoritmului de adaptare dat de relaţia (1.54) îi ia un număr finiţi de paşi pentru a ajunge la soluţia optimă numai dacă clasele sunt liniar separabile.

Există două probleme majore generate de acest algoritm:

În momentul în care ultimul eşantion va fi corect clasificat, funcţia discriminant nu va mai putea fi repoziţionată sub nici o formă. Astfel, acest algoritm de adaptare produce diferite suprafeţe de decizie la diferite iniţializări şi adaptări succesive ale neuronului. Aceste suprafeţe de decizie furnizează o eroare egală cu zero în setul de antrenare, dar eroarea obţinută pe setul de test poate să fie diferită de zero. O poziționare mai corectă a suprafeței determinant ar fi fost în zona punctelor de minim a intersecției funcțiilor de densitate de probabilitate ce caracterizează cele două clase – vezi clasificatorul Bayes-ian.

Algoritmul de adaptare converge numai dacă clasele sunt liniar separabile, în caz contrar suprafaţa de decizie va oscila în mod continuu. (Ex.4a.)

120

1.3.5. Interpretarea geometrică a modelului neuronal M-P şi a algoritmului de adaptare a ponderilor

Pentru o înţelegere intuitivă atât a semnificaţiilor diferitelor elemente ale modelului neuronal McCulloch-Pitts, a interacţiunii dintre acestea cât şi a algoritmului de adaptare a ponderilor, în cadrul acestui subcapitol se va prezenta o interpretare geometrică atât a modelului neuronal McCulloch-Pitts dar şi a algoritmului de adaptare a ponderilor acestui neuron.

În continare considerăm ponderile {w1, w2} drept punctul final al unui vector w

a cărui capăt de început este poziţionat în origine. Observăm de

asemenea că locul geometric al coordonatelor {x1, x2} care satisfac relaţia (1.38):

0),( 221121 bxwxwxxg (1.58)

care este chiar suprafaţa de decizie a neronului. Această suprafaţă de decizie o vom reprezenta şi pe ea în mod vectorial prin intermediul unui vector care pleacă din origine şi sfârşeşte într-un punct aparţinând acestui loc geometric. Acest vector îl notăm în continuare cu g

. Pentru simplitate în continuare vom

presupune că pragul b este egal cu zero şi vom arăta că, utilizând această interpretare geometrică (caracterizată de reprezentarea vectorială w

şi g

),

vectorul ponderilor va fi perpendicular pe suprafaţa de decizie. Constrângerea anterioară, b = 0, nu influenţează sub nici o formă

generalitatea acestei interpretări grafice deoarece ştim dintr-un subcapitol anterior că prin intermediul pragului b se modifică doar punctul de intersecţie a suprafeţei de decizie cu axa x2 nu şi panta dreptei.

Figura 1.6. Interpretarea vectorială a poziţiei vectorului de ponderi

În acest caz vectorial, produsul din relaţia (1.58), w1 x1 + w2 x2, poate fi interpretat ca un produs intern a doi vectori [w1, w2]T şi [x1, x2]T. Pentru a satisface g(x1, x2) = 0, vectorii w

şi g

trebuie să fie perpendiculari deoarece

produsul lor intern este zero. În concluzie suprafaţa de decizie g(x1, x2) = 0 trebuie să fie perpendiculară pe vectorul ponderilor w

, vezi Figura 1.6. Cum

g(x1, ) 0

{w1,

x

x

{x1, x2}

121

ponderile neuronului sunt coeficienţii funcţiei discriminant rezultă că ponderile indică direcţia normală a suprafeţei de separaţie în spaţiul de intrare.

În plus, întotdeauna vectorul w

va fi situat în semiplanul în care răspunsul neuronului M-P va fi +1. Pentru a verifica acest lucru particularizăm funcţia discriminant, g(x1, x2), pentru punctul extrem al acestui vector {w1, w2}, obţinând:

0, 22

21221121 wwwwwwwwg (1.59)

Relaţia (1.59) demonstrează astfel afirmaţia făcută la începutul paragrafului anterior.

Problemă: Pentru un neuron M-P caracterizat de următoarele valori ale parametrilor liberi w1 = 10, w2 = 5 şi b = 0, demonstraţi că în reprezentarea vectorială a acestui neuron, vectorul ponderilor este perpendicular pe suprafaţa de decizie a neuronului.

Rezolvare: Parametrii ce caracterizează suprafaţa de decizie sunt

22

1 w

wm şi intersecţia cu axa x2 este chiar în originea

sistemului de coordonate. Utilizând aceste informaţii trasăm această suprafaţă de decizie ca în Figura 1.7.

Pentru a reprezenta vectorii w

şi g

trebuie să determinăm pentru fiecare vector în parte punctele extremităţilor lor. Dacă pentru vectorul w

rezultatele Figura 1.7 sunt directe, vezi Figura

1.7, pentru vectorul g

trebuie să determinăm un punct de apartenenţă a locului geometric dat de suprafaţa de decizie. Orice punct ce aparţine suprafeţei de decizie satisface relaţia g(x1, x2) = 0. Dacă, de exemplu, luăm x1 = 5 rezultă automat x2 = -10. Reprezentarea grafică a vectorului g

este prezentată în Figura 1.7.

122

Pentru a demonstra că vectorii w

şi g

sunt perpendiculari ne putem folosi de interpretarea produsului intern, în mod similar ca

în demonstraţia făcută anterior în cadrul acestui subcapitol, sau putem calcula pantele dreptelor suport a celor doi vectori şi verificăm că între acestea există relaţia mw = -1 / mg – în această condiţie dreptele suport a vectorilor w

şi g

sunt

perpendiculare. Dacă dreptele suport a vectorilor sunt perpendiculare rezultă automat şi că vectorii w

şi g

sunt perpendiculari. Dreapta suport a vectorului w

trece prin punctele {0, 0} şi {10,

5}; ecuaţia acesteia este:

05

0

010

0 21

xx

(1.60)

Dezvoltând relaţia (1.60) obţinem în final:

2/12 xx (1.61)

Constatând că panta dreptei suport a vectorului w

este mw = ½ în timp ce panta dreptei suport a vectorului g

este mg = -2, tragem

concluzia că cei doi vectori satisfac condiţia anterioară. De aici rezultă că vectorii w

şi g

sunt ortogonali.

În continuare vom prezenta în mod grafic modalitatea de adaptare a ponderilor pentru modelul neuronal McCulloch-Pitts ce lucrează cu un spaţiu bidimensional al trăsăturilor.

În Figura 1.8 se prezintă în mod grafic modalitatea de modificare a suprafeţelor de decizie în situaţia în care vectorii de trăsături E1 şi E2 sunt incorect clasificaţi, iar ponderile sunt modificate datorită influenţei acestor vectori de trăsături. Suprafaţa iniţială de decizie la momentul de timp n este S1.

x1

x2

Suprafaţa de decizie de

Figura 1.7. Reprezentare grafică a rezultatelor obţinute în cadrul

{10,

{5, -

5

5

10

10

-5 -

-5

-

123

Figura 1.8. Modalitatea de infuenţare a suprafeţei de decizie de către un

elemnt clasificat greşit: (a) aparţinând clasei asociată de clasificator cu valoarea +1, respectiv, (b) aparţinând clasei asociată de clasificator cu

valoarea -1 Să presupunem că vectorul de trăsături E1 este utilizat în procesul de

adaptare a ponderilor. Deoarece vectorul de trăsături E1 este clasificat incorect, vezi poziţia suprafeţei de decizie S1 în Figura 1.8(a), şi deoarece valoarea dorită pentru acest element este +1 ponderile se vor modifica cu o cantitate dată de relaţia (1.55). Vectorial putem scrie:

nxnw E12 (1.62)

În acest mod vectorul de pondere 1w

, definitoriu pentru suprafaţa de

decizie S1, este modificat cu o cantitate, w

, în direcţia elementului 1E

devenind vectorul 2w

. Deoarece vectorul 2w

este întotdeauna perpendicular

S3

x1

x2

S1 (b)

x1

x2

S1

S2

(a)

124

pe suprafaţa de decizie, poziţia noii suprafeţe de decizie obţinută în urma procesului de învăţare este cea reprezentată în Figura 1.8(a) prin dreapta S2. Se observă că în acest caz suprafaţa de decizie a fost repoziţionată de influenţa elementul E1 astfel încât acest element să fie corect clasificat.

Pentru situaţia prezentată în Figura 1.8(b) abordarea este similară. De această dată elementul E2 aparţine celei de a doua clase pe care clasificatorul trebuie în final să o asociaze cu valoarea -1 la ieşirea sa. Datorită poziţionării suprafeţei de decizie S1 acest element este clasificat în mod incorect fiind asociat cu o valoare +1 la ieşrea elementului neuronal de procesare McCulloch-Pitts. În această situaţie cantitate cu care se modifică vectorul de ponderi a neuronului este dată de relaţia (1.56). Această relaţie scrisă vectorial devine:

nxnw E22 (1.63)

Observăm că vectorul 1w

este împins în sens contrar direcţiei vectorului

2E

devenind 3w

( www

13 ). Noua suprafaţă de decizie S3 chiar dacă

nu reuşeşte să clasifice în mod corect elementul E2 este mai aproape de soluţia corectă decât suprafaţa de decizie iniţială, S1.

Observăm că din punct de vedere grafic fiecare element din spaţiul trăsăturilor incorect clasificat va „împinge” sau „trage” suprafaţa de decizie prin intermediul vectorului de ponderi, care este perpendicular pe acesta.

1.3.6. Algoritmul delta de antrenare

Algoritmul delta de antrenare a fost dezvoltat de McClelland şi de Rummelhart în anul 1986.

În cadrul algoritmul LMS aplicat neuronului de tip Adaline se adună la vectorul de ponderi o cantitate proporţională cu produsul dintre eroare şi intrarea reţelei:

nk xkwkw 1 (1.64)

Vom încerca mai departe să refolosim ideile de bază conceptuale ale algoritmului LMS pentru antrenarea unui sistem neliniar.

Să presupunem că avem o funcţie y = f(x), ideea de bază este aceea de a calcula y/x, deci de a calcula cum se reflectă o schimbare de mică amplitudine în intrare, x, în valoarea lui y deci cât de sensibil este y la schimbările lui x. Acest parametru poate fi numit sensibilitatea ieşirii la o variaţie a intrării:

125

x

f

f

y

x

y

(1.65)

În mod similar, dacă x este înlocuit cu w ne vom da seama cât de sensibilă este ieşirea sistemului la o schimbare a lui w şi vom modifica vectorul de ponderi proporţional cu această sensibilitate. Singura problemă este dată de faptul că trebuie să trecem printr-o neliniaritate dată de funcţia f. Derivând obţinem:

iii

xgfgwg

y

w

y

(1.66)

În practică avem o eroare la ieşire şi dorim să modificăm toate ponderile astfel încât să minimizăm această eroare. Cel mai simplu mod de a face acest lucru este să distribuim modificările proporţional cu sensibilitatea erorii faţă de fiecare pondere în parte. Dacă vrem să minimizăm eroarea trebuie să facem schimbările cele mai importante în ponderile care afectează cel mai mult valoarea de ieşire şi prin aceasta eroarea.

Eroarea instantanee poate fi scrisă:

22

1kyd nnk (1.67)

unde:

ng

i

niin xkwfky (1.68)

Eroarea medie pătratică este dată de:

K

nnn kyd

Kkw

1

2

2

1 (1.69)

Folosindu-ne de relaţiile (1.66), (1.67) şi (1.68) şi ţinând cont că gradientul erorii medii totale pe întreg setul de date este aproximat prin gradientul unei măsuri instantanee a erorii avem:

nink

ninnn

inin

n

n

k

i

xgfxgfyd

kwgkwg

ky

kykw

(1.70)

126

În cazul utilizării gradientului descendent pe suprafaţa de eroare, avem (deci a relației fundamentale (1.12)) :

kwkwkw 1 (1.71)

Introducând ecuația (1.70) obţinem:

nnikii gfxkwkw 1 (1.72)

Relaţia (1.72) poartă numele de regula delta şi este o extensie a algoritmului LMS pentru sistemele neliniare, cu neliniarităţi derivabile. Deoarece neliniarităţile discutate până acum, într-un subcapitol anterior, se apropie exponenţial de –1 (0) şi de 1, multiplicarea prin derivată reduce termenul care se adună la pondere prin simplul motiv că forma derivatei este de tip Gauss-iană în jurul valorii gn.

Derivatele funcţiei logistice şi a celei de tip tangentă hiperbolică sunt:

pppistic yygf 1log (1.73)

2tanh 15.0 pp ygf (1.74)

Ex.5 Problemă: Demonstraţi valabilitatea relaţiilor (1.73) şi (1.74).

127

1.3.7. Implicaţiile existenţei neliniarităţii de ieşire

În principal existenţa unei neliniarităţii la ieşirea unui neuron

determină schimbarea formei suprafeţei de eroare. Forma parabolică a suprafeţei de eroare existentă în sistemele liniare, precum cea prezentată în Figura 1.2, nu se mai regăseşte în reţelele neuronale neliniare. Se poate observa că suprafaţa de eroare descrie cum costul reţelei se schimbă funcţie de vectorul de ponderi. (Ex.6.) .

Performanţele reţelei depind de topologia acesteia reflectată prin eroarea obţinută. În momentul în care un element de procesare neliniară este utilizat pentru rezolvarea unei probleme relaţia dintre suprafaţa de performanţă şi vectorul de ponderi devine neliniară şi nu mai există nici o garanţie a existenţei unui singur minim. Suprafaţa de eroare poate avea astfel câteva minime din care numai unul este minimul global, restul fiind minime locale.

Figura 1.9. Suprafaţa de performanţă neconvexă Ex.7.

Minimul care produce cea mai mică eroare este numit minimul global. Acest fapt afectează performanțele obținute, deoarece modalitatea de căutare a minimului, în cadrul algoritmilor de tip gradient, este bazată numai pe o informaţia locală. Dacă ne bazăm numai pe informaţia din imediata vecinătate ne este imposibil de a deosebi un minim local de un minim global. În acest mod putem obţine performanţe suboptimale dacă oprim procesul de învăţare în momentul atingerii unui minim local.

Existența minimelor locale, pe suprafața de eroare, generează necesitatea existenței unui număr multiplu de antrenări – fiecare antrenare fiind caracterizată de o nouă generare aleatoare a vectorului de ponderi. Astfel, sperăm că ne vom poziționa pe suprafața de eroare în diferite zone și în urma procesului de antrenare algoritmul va determina convergența ponderilor către minimul global.

direcţii ale gradientului

minim global

minim local

w

(w)

128

1.4. Perceptronul

Perceptronul lui Rosenblatt este un sistem utilizat în recunoaşterea de

paternuri descoperit la începutul anilor 1950 şi utilizat în acel moment în cadrul problemelor de recunoaştere a diferitelor caractere (OCR - optical character recognition). Perceptronul este o reţea neuronală formată dintr-un singur strat de neuroni artificiali conectaţi complet prin intermediul ponderilor la intrările sistemului, Figura 1.10.

Unul din dezavantajele modelului neuronal de tip M-P este dat de capacitatea acestuia de a discrimina doar două clase. Din acest motiv s-a impus o abordare mai generală a problemelor de clasificare astfel încât un sistem să aibă posibilitatea clasificării unui număr mai mare de clase. Pentru a atinge acest scop topologia sistemului de clasificare a fost modificată în sensul includerii unui strat de M elemente de procesare M-P astfel încât fiecare dintre ele să fie capabile să creeze propria funcţie discriminant în spaţiul d-dimensional de intrare. Avantajul de a avea M neuroni este dat de abilitatea de a determina fiecare neuron să răspundă numai de o anumită zonă a spaţiului. Fiecare neuron va decide dacă vectorul de trăsături prezentat la intrare este sau nu în clasa caracterizată de funcţia discriminant pe care acel neuron artificial o generează.

Figura 1.10. Topologia unei RNA de tip perceptronul cu d intrări şi M ieşiri

Relaţia matematică care descrie sistemul neuronal prezentat în Figura

1.10 este următoarea:

d

ijiijjj bxwfgfy

1

(1.75)

unde j = 1, 2, …, M. Una dintre realizările remarcabile ale lui Rosenblatt, în domeniul rețelelor

neuronale, a fost găsirea demonstraţiei care ne asigură că un perceptron

129

antrenat cu ajutorul relației (1.54) poate recunoaşte într-un număr finit de paşi cele M clase, cu condiția ca acestea să fie liniar separabile.

Perceptronul are de asemenea proprietatea de a generaliza (de a furniza răspunsul corect pentru vectori de trăsături care aparţin claselor pentru care a sistemul neuronal a fost antrenat, dar acești vectori nu au fost utilizaţi niciodată în setul de antrenare).

11.4.1. Suprafaţa de decizie a perceptronului

Un perceptron cu M ieşiri poate divide spaţiul de intrare în M regiuni

distincte. Să presupunem că regiunile i şi j au o graniţă comună. Suprafaţa de decizie este o suprafaţă liniară dată de ecuaţia gi(x) = gj(x), unde gi şi gj sunt funcţiile discriminant a claselor i şi j. În total există M(M – 1)/2 astfel de ecuaţii4. Regiunile de decizie ale unui perceptron sunt întotdeauna convexe. În momentul în care un neuron din strat răspunde cu o valoare maximă la un vector de trăsături de intrare înseamnă că acel vector se află în interiorul regiunii definite de neuron.

Figura 1.11. Posibile suprafeţele de decizie ale unui perceptron

Ex.8.

11.4.2. Regula delta aplicată perceptronului

Din punctul de vedere a regulii de adaptare modificările care apar la

trecerea de la un singur neuron la o reţea de tipul perceptron (o rețea neuronală artificială cu un singur strat de neuroni) nu sunt foarte mari.

Pentru antrenarea modelului neuronal se utilizează un set de exemplare {xk, dk} (denumit set de antrenare), cu k = 1, 2, ... , K. Singura deosebire față

4 Combinații de M funcții discriminant luate câte 2 – (

!

! !)

130

de modelul M-P este că de această dată doritul este un vector M dimensional, vezi (1.76).

⋮ ⋮

(1.76)

Și în cazul regulii delta aplicată perceptronului, gradientul erorii totale (a erorii medii pătratice), , este aproximat cu gradientul erorii pătratice instantanee. În cazul perceptronului funcţia de cost trebuie calculată după o sumă a erorii furnizată de fiecare ieşire şi este dată de:

M

je

jnjk

j

kydE1

2

2

1

(1.77)

cu:

d

i

njij

nTjj xkwxkwky

1

(1.78)

Adaptarea ponderilor se va face, similar ca la algoritmul LMS, prin intermediul relației:

kw

Ekwkw

ij

kijij

1 (1.79)

În continuare putem rescrie relaţia (1.70) sub forma:

njjj

jpjjnj

ijjijj

j

j

k

ji

k

xgf

xgfkyd

kwgkwg

ky

ky

E

kw

E

(1.80)

Ex.9.

131

11.4.3. Marginea de decizie a perceptronului

Anterior, am văzut cum regula de adaptare a neuronului McCulloch-Pitts

este eficientă dar nu şi eficace deoarece imediat după ce ultimul eşantion a fost clasificat corect procesul de învăţare se opreşte, lăsând suprafaţa de decizie foarte aproape de acest eşantion. Desigur obţinem performanţe maxime în setul de antrenare dar nu şi în setul de test al sistemului. Acesta este motivul pentru care dorim să înlocuim algoritmul de adaptare al neuronului McCulloch-Pitts astfel încât suprafaţa de decizie să fie plasată în valea dintre distribuţiile celor două clase la distanţe egale de cele două frontiere ale claselor. Pentru aceasta trebuie să introducem şi să definim conceptul de margine de decizie. Să presupunem că avem un set de date de intrare şi de valori dorite ale ieşirii S = {(x1, d1), (x2, d2), …, (xN, dN)} cu d = {- 1, + 1} şi avem o funcţie discriminant definită de (w, b). În aceste condiţii se defineşte marginea hiperplanului de separaţie drept o cantitate proporţională cu:

bwxSx

,min (1.81)

unde <> este produsul intern între x şi w. Definim hiperplanul optim drept acea suprafaţă de decizie care

maximizează marginea de decizie între cele două clase, Figura 1.12. După cum se vede din toate hiperplanele posibile care separă setul de date, cel optimal este acela care trece la jumătatea distanţei dintre eşantioanele care sunt cele mai apropiate de frontierele celor două clase.

Figura 1.12. Hiperplanul de separaţie şi marginea acestuia

Vectori suport

Hiperplan optim

Vector suport x1

x2

132

Problema pe care o avem acum este aceea de a găsi acest hiperplan optim.

După cum se vede în Figura 1.12 trebuie să găsim acele puncte (vectori de trăsături) care se regăsesc pe frontieră (numiţi şi vectori suport), definind-o, iar ulterior să plasăm funcţia discriminant la mijlocul distanţei dintre ele.

Se poarte demonstra uşor, din simple considerente geometrice, că distanţa de la un vector de trăsături x (pentru cazul bidimensional cu care lucrăm de la un punct din plan către o dreaptă) către un hiperplan este dată de:

w

xgd (1.82)

1.4.4. Algoritmul Adatron

În continuare se va prezenta un algoritm simplu, cunoscut sub numele de

Adatron care va găsi funcţia discriminant care maximizează marginea de decizie. Acest algoritm este unul secvenţial, care va găsi în mod garantat soluţia optimă cu o rată de convergenţă exponenţială.

Pentru a explica acest algoritm de antrenare, trebuie să rescriem funcţiile intrare-ieşire ale perceptronului în termenii unei reprezentări dependente de setul de date.

xgxf sgn (1.83)

unde:

N

iii bxxbwxxg

0

,, (1.84)

unde <> este produsul intern, N este numărul de eşantioane. Coeficienții i sunt un set de multiplicatori ce cuantizează influența fiecărui vector de trăsături asupra ponderilor – deoarece vectorul de ponderi se modifică conform relației (1.54) (mai exact a relațiilor (1.55) sau (1.56)) . În Figura 1.13 este prezentată o astfel de topologie care creează o astfel de reprezentare dependentă de setul de date.

În această structură prezentată algoritmul de adaptare a perceptronului va modifica ponderile i în locul ponderilor în situaţia existenţei unei erori. Algoritmul adaptiv devine:

iii xnn 1 (1.85)

133

iii xnbnb 1 (1.86)

Figura 1.13. Perceptronul reprezentat ca o structură dependentă de setul de date

Algoritmul Adatron aplicat unui neuron de tipul M-P este capabil să

distingă numai între două clase. Dacă problema are mai mult de două clase trebuie rezolvată secvenţial ca o decizie de numai două clase.

Figura 1.14. Comparaţie între algoritmul Adatron şi regula delta

Este foarte util să comparăm algoritmul Adatron prezentat în acest

subcapitol cu regula delta prezentată anterior. În cazul regulii delta suprafaţa de decizie este controlată de eşantioanele care produc o valoare a ieşirii care

134

este diferită de valoarea dorită. Aceste eşantioane tind să existe la frontiera dintre cele două clase, deci eroarea medie pătratică este influenţată semnificativ de acestea. Dar, deoarece J conform relaţiei (1.53) este o funcţie continuă a erorii, toate eşantioanele vor contribui într-un mod sau altul la J. În concluzie MSE (Mean Square Error – eroarea medie pătratică) este o funcţie dependentă de întreaga distribuţie a setului de date iar localizarea suprafeţei de decizie va fi afectată de forma clusterului de date și de numărul de elemente existent în acel cluster de date (neajunsuri: apar probleme în cazul maladiilor rare).

Ex.10.

În cazul algoritmului Adatron se observă un comportament diferit. În timpul procesului de adaptare, cea mai mare parte din coeficienţii i se duc către zero iar poziţionarea suprafeţei de decizie este determinată numai de un număr mic de eşantioane situate în imediata vecinătate a frontierei dintre cel două clase. Aceste eşantioane sunt numite vectori suport. Algoritmul de adaptare este astfel insensibil la: (a) forma generală a clusterilor şi se concentrează numai pe o vecinătate de eşantioane din imediata frontieră a celor două clase, Figura 1.14 și (b) numărul elementelor care formează clasele.

Figura 1.15 (a) Tabelul de adevăr a unei porţi SAU-EXCLUSIV şi (b) distribuţia eşantioanelor în spaţiul trăsăturilor

11.4.5. Limitările perceptronului

La fel ca şi modelul neuronal M-P, perceptronul poate rezolva numai

acele probleme care au clasele liniar separabile. Problema „prototip” ce

x1 x2 y

P00 0 0 0 P01 0 1 1 P10 1 0 1 P11 1 1 0

P01 (y = 1) P11 (y = 0)

P00 (y = 0)

P10 (y = 1) x1

x2 S1 S2

S3

(a) (b)

135

caracterizează clasa problemelor de clasificare neliniar separabile şi care nu poate fi rezolvată de un perceptron este dată de clasificarea setului de date rezultat de la ieşirea, y, a unei porţi sau-exclusiv, vezi Figura 1.15.

Indiferent de poziţionarea suprafeţei discriminant, Figura 1.15(b), în cel mai fericit caz va rezulta o grupare în aceeaşi regiune a spaţiului, deci în aceeaşi clasă, a două elemente aparţinând uneia dintre clase dar, din păcate, va exista şi un element aparţinând celeilalte clase. Rezultă astfel obţinerea a cel puţin unei erori de clasificare. În cea de a doua regiune spaţială va exista doar un singur element. Acest element este corect clasificat. Deci, pentru această simplă problemă vom clasifica în mod greşit cel puţin un element. De exemplu, suprafaţa de decizie S1 grupează în mod corect elementele P11 şi P00 dar în aceeaşi regiune a spaţiului se regăseşte şi elementul P10 care este clasificat incorect. Această problemă este exemplul clasic în care vectorii de trăsături nu sunt liniar separabili şi deci problema nu poate fi rezolvată de către o reţea neuronală artificială de tip perceptron.

Ex.11.

136

1.5. Reţeaua neuronală cu un singur strat ascuns

11.5.1. Introducere

Perceptronul multistrat (MLP – Multi Layer Perceptron) lărgeşte noţiunea de percepron în ideea de a generaliza structura acestuia, a perceptronului, prin introducerea straturilor ascunse. Aceste straturi neuronale ascunse reprezintă de fapt straturi de neuroni care nu sunt legate în mod direct către exteriorul reţelei neuronale artificiale (RNA). În cadrul acestui subcapitol vom analiza rețeaua neuronală cu un singur strat ascuns.

În Figura 1.16 se prezintă o reţea de tip MLP cu un singur strat ascuns, cu d intrări, K elemente de procesare ascunse (PE – processing elments, neuroni) şi M ieşiri (totpologia aceastei reţele neuronale se notează prescurtat MLP (d-K-M)). În mod normal, elementele de procesare din reţelele MLP au funcţii de activare neliniare derivabile, deci, obligatoriu de tip sigmoidale pentru a asigura continuitatea funcției în orice punct al domeniului de definiție. Utilizarea funcţiilor de activare continui se impune deoarece aceste reţele neuronale sunt caracterizate de algoritmi de adaptare ce impun derivarea funcțiilor de activare ale elementelor ce procesează informația – neuronii, poziționați pe diferitele straturi în cadrul RNA.

În continuare vom analiza puterea de procesare oferită de elementele neuronale neliniare aparținând stratului ascuns al RNA. Această analiză se va face din punct de vedere al suprafeţelor de decizie obţinute, deci din punct de vedere a puterii de discriminare a acestor RNA. În cadrul acestui subcapitol vom adăuga la percepronul din Figura 1.10 (Subcapitolul anterior 11.4) un nou strat de elemente de procesare, vezi Figura 1.16.

Figura 1.16. Un perceptron cu un strat ascuns (d-K-M)

Reţeaua neuronală artificială cu un strat ascuns construieşte mapări ale spațiului de intrare în valori de ieşire care rezultă dintr-o serie de compuneri de funcții neliniare, de forma:

137

MjcubwbxwffyK

ijjii

d

kkikijj ,1,

1 1

(1.87)

Maparea rezultantă este una foarte flexibila şi este cea care conferă putere de discriminare RNA. Dificultatea generată de o astfel de mapare stă în principal în dificultatea analizei matematice a structurii neuronale. Scopul pe care îl urmărim în continuare este de a găsi tipul de funcţie discriminant care poate fi creată cu reprezentarea descrisă de relaţia (1.87) pentru a avea astfel o înțelegere intuitivă a rolului diferiților neuroni plasați pe diferite straturi în cadrul RNA.

11.5.2. Suprafeţele de decizie

Pentru a înţelege conceptual puterea reţelelor neuronale cu un singur strat ascuns vom analiza o astfel de reţea neuronală simplificată topologic. Reţeaua pe care o vom analiza are un singur strat ascuns cu două elemente de procesare, vezi Figura 1.17. În cadrul structurii din Figura 1.17 elementele de procesare au funcţii de activare de tip semn (hard limited). Scopul final este acela de a găsi potențiale funcţii discriminant generate de stratul ascuns al MLP-ului.

Conceptual, MLP-ul cu un singur strat ascuns este, de fapt, o înseriere de elemente de procesare (EP) - neuroni. Vom încerca, din aceasta perspectivă, să înţelegem faptul ca cei doi neuroni din stratul ascuns creează, în spaţiul de intrare x1, x2, doua funcţii discriminant. Vom nota ieşirea fiecărui element de procesare neuronal poziţionat pe stratul ascuns cu x3 şi x4. Fiecare dintre aceste ieşiri vor fi, de exemplu, +1 “deasupra” suprafeţei de decizie şi -1 inferior acesteia. Panta suprafeţelor discriminant este dată de raportul ponderilor –w1/w2 şi –w3/w4.

Figura 1.17. Reţea neuronală de tip perceptron cu un singur strat ascuns, MLP (2-2-1)

În spaţiul x3, x4 ieşirea ultimului neuron va genera, de asemenea, o funcţie

x

x2

x3

x4

w1

w2

w3

w4

w5

w6

y

∑

∑

∑b1

b2

b3

138

discriminant liniara, ceea ce înseamnă ca se va obţine, de exemplu, un răspuns +1 a ieşirii deasupra (sau dedesubtul) unei linii drepte cu panta data de –w5/w6. Adevărata problemă este generată de dorința găsirii răspunsul y în întreg spațiul de ieșire funcție de orice valoare a variabilelor de intrare x1, x2 – a trăsăturilor x1, x2. Aceasta reprezintă o problema care ţine de compunerea funcţiilor, cunoscându-se relaţia parametrică (neliniara) dintre x3 şi (x1, x2), şi între x4 şi (x1, x2). Este foarte utilă și instructivă scrierea tuturor relaţiilor intrare-ieşire sub forma de mai jos:

y = f(w5x3 + w6x4 + b3) = f (w5 f1(w1x1 + w2x2 + b1) + + w6 f2(w3x1 + w4x2 + b2) + b3) = f ( f1 + f2 + b3 )

(1.88)

Relaţia (1.88) a fost scrisă ţinând cont şi de presupunerea ca ponderile stratului de ieşire sunt w5 = w6 = 1, această particularizare a fost aleasă doar pentru simplificarea prezentării. Fiecare expresie din interiorul parantezelor creează o funcţie discriminant, care conduce la o funcţie cu o valoare pozitiva pe o jumătate de plan (funcţia de ieşire a neuronilor cu ieşirile x3 şi x4 este o funcţie de tip semn). Localizarea tranziţiei în spaţiul de intrare este controlata de funcţiile discriminant ale neuronilor din stratul ascuns, astfel ca expresia din paranteze reprezintă suma a doua funcţii semn, f1 şi f2, cu un termen reprezentând deplasarea (bias-ul) b3. În regiunea spaţiului de intrare unde ambele funcţii f1 şi f2 sunt pozitive, valoarea lui y va fi cea mai mare. Ieşirea y va avea o valoare intermediară în zonele din spaţiu unde doar una dintre funcţiile f1 sau f2 este pozitiva (dar nu amândouă) şi, în final, exista o arie în spaţiul de intrare unde y are valoarea minimă, unde ambele funcţii f1 şi f2 iau valoarea minimă posibilă.

Figura 1.18. (a) Poziţionarea suprafeţei de decizie şi partiţionarea spaţiului dată de primul neuron, (b) Poziţionarea suprafeţei de decizie şi

partiţionarea spaţiului dată de cel de al doilea neuron, (c) modul de divizarea al spaţiului de intrare pentru b3 = 0, în cazul în care funcţia de activare a

neuronului de ieşire este funcţia unitate

x1

x2

x1

x2

x1

x2

Ieşirea y Ieşirea x3 Ieşirea x4

valoare +1

valoare -1

valoare +1

valoare -1

x3, x4 = +1

x3, x4 = -1

x3, = -1 x4 = +1

x3, = +1 x4 = -1

y = 2

y = -2 y = 0

y = 0

(c) (b)(a)

139

Formele suprafeţelor de decizie finale sunt controlate de plasarea funcţiilor discriminant generate de neuronii poziţionaţi pe stratul ascuns (care, la rândul lor, sunt controlate de valorile variabilelor w1, w2, w3, w4, b1 şi b2 din ecuaţia (1.88)). Trebuie observat, de asemenea, ca valoarea bias-ului b3 este adăugata la rezultatul aferent stratului ascuns. Valoarea lui va dicta daca valoarile de vârf a lui y sunt pozitive (zonele spațiale pentru care y = 2) sau, daca vârful şi ambele “platouri” (y = 0, conform Figura 1.18(c)) sunt pozitive, sau, dacă toate sunt pozitive sau daca toate sunt negative.

Deci, rolul bias-ului pentru stratul de ieşire este unul substanţial diferit de ceea ce se înţelege ca fiind un simplu control asupra ieșirii y – cum este rolul bias-ul la nivelul stratului ascuns. În cazul stratului de ieșire bias-ul relevă detalii diferite despre compunerea funcţiilor, schimbând efectiv asocierea tuturor valorilor partiţiei create de stratul ascuns. Ponderile de ieşire w5 si w6 asigura flexibilitatea (se pot da ponderi diferite ieşirii fiecărui neuron din stratul ascuns) şi, mai mult, modifică modul în care se mixează ieşirile neuronilor de pe stratul ascuns.

Figura 1.19. Obţinirea diferitelor zone decizionale funcție de diferitele valori ale parametrului b3, pentru exemplul prezentat în Figura 1.18, ţinând cont şi de funcţia de activare a neuronului de ieşire: (a) b3 = -1, (b) b3 = 1 şi

(c) b3 = 3 Problemă: Implementaţi în mediul de dezvoltare neuronal NeuroSolutions o

reţea neuronală artificială similară cu cea din Figura 1.17 şi determinaţi ponderile acesteia pentru a obţine zone decizionale similare cu cele din Figura 1.19.

Combinarea tuturor valorilor parametrilor relaţiei (1.88) poate genera suprafețe de decizie complexe, generând o mult mai mare flexibilitate a reţelei neuronale cu un singur strat ascuns comparativ cu cea a perceptronului. Este foarte important de observat faptul că adăugând un nou strat la reţeaua neuronală de tip perceptron se modifică în mod calitativ forma funcţiei globale discriminant obţinută. Regiunile de decizie nu mai sunt restricţionate

x1

Ieşirea y

y = 1

(a) x1

Ieşirea y

y = 1

(b)x1

Ieşirea y

y = 1

(c)

x2 x2 x2

y = -1 y = -1

140

să fie convexe, întrucât reţeaua are un mecanism mult mai puternic de compunere.

Ex.12. (şi XOR)

În cazul RNA cu un strat ascuns se pot reţine următoarele caracteristici mai importante:

numărul maxim de regiuni distincte ale spaţiului de intrare este controlat de numărul de neuroni situaţi pe stratul ascuns (2K pentru un K mult mai mare decât d ). O afirmaţie alternativa ar fi aceea ca fiecare neuron situat pe stratul ascuns creează o funcţie discriminant liniara;

neuronii din stratul de ieşire au capacitatea de a combina o parte din regiunile create de elementele de procesare neuronale situate pe stratul ascuns printr-un efect multiplicativ sau aditiv. Acest aspect creează regiuni de decizie care nu mai sunt convexe;

În al treilea rând, există mai multe combinaţii de ponderi care conduc la obţinerea aceeaşi divizări a spaţiului de intrare.

În concluzie, clasificarea obţinută folosind o reţea de tipul MLP este una realizabilă prin controlul adecvat exercitat asupra poziţiei funcţiilor discriminant, corespunzător datelor de intrare şi răspunsului dorit. Puterea unei reţele de tipul MLP-ul este dată de modul mult mai flexibil în care se pot combina spaţial suprafeţele de decizie, generate de o anumită topologie a RNA. În plus, există şi algoritmi de învăţare care permit sistemului să descopere în mod automat poziţia funcţiilor discriminant necesare clasificării corecte a datelor de antrenare.

Figura 1.20. (a) Reprezentarea grafică a porţii XOR, (b) tabelul de adevăr şi (c) distribuţia caselor – pentru o distribuţie a elementelor în spaţiul

trăsăturilor similară cu acea furnizată de o poartă sau exlusiv

x1

x2 Out

x1 x2 Out -1 -1 -1 - -1 1 1 -

1 -1 1 - 1 1 -1 -

(a) (b)

x1

x2

(-1,-1) (1,-1)

(1,1) (-1,1)

(c)

141

Problemă: Pentru o problemă de clasificare caracterizată de o distribuţie

a claselor similară cu cea a unei porţi XOR (Figura 1.20), determinaţi: (a) Tipul neliniarităţii ce trebuie utilizată pentru toţi neuronii

reţelei în vederea obţinerii unei clasificări conforme cu tabelul de adevăr prezentat în Figura 1.20(b).

(b) Topologia minimală a reţelei neuronale artificiale capabilă să realizeze o partiţionare a spaţiului de intrare astfel încât să fie respectat tabelul de funcţionare din Figura 1.20(b). Justificaţi-vă răspunsul!

(c) Ponderile şi deplasarea (bias-ul) fiecărui neuron în parte astfel încât să se maximizeze marginea suprafeţelor de decizie.

Rezolvare: (a) Pentru obţinerea unui răspuns egal cu unitatea pentru anumite

elemente ale setului de antrenare şi un răspuns egal cu -1 pentru restul vectorilor de trăsături se va folosi o neliniariate de tip signum asociată neuronului de ieşire. Se poate folosi şi o neliniaritate de tip tangent hiperbolic dar pentru ca regiuea de tranziţie dintre valorile -1 şi +1 a neliniartăţii să nu se facă simţită, ponderile neuronului corespondent trebuie să fie de valori cât mai mari. Pentru a se folosi simultan şi întreaga gamă dinamică a neuronilor, „forţată” de setul de date de intrare (care ia numai valorile {-1, 1}) se va folosi acelaşi tip de liniaritate şi pentru toţi neuronii din stratul ascuns a reţelei. Neliniaritatea de tip tangent hiperboloic este descrisă de ecuaţia:

)tanh()( xxfactiv (1.89)

În continuare pentru toate reprezentările grafice ce vor fi prezentate în continuare valoarea parametrului α a fost aleasă egală cu unitatea.

(b) Pentru rezolvarea acestei probleme de clasificare vom utiliza o reţea neuronală cu un singur strat ascuns. Pe primul strat ascuns vor exista doi neuroni care vor partiţiona spaţul în conformitate cu Figura 1.21.

Primii doi neuroni de pe stratul ascuns vor realiza două suprafeţe de decizii, notate cu S1 şi S2 în figura de mai jos. Stratul de ieşire va avea un singur neuron care va cupla zonele determinate de cele două suprafeţe de decizii, S1 şi S2, astfel încât pentru zona haşurată sistemul neuronal va întoarce

142

valoarea 1, iar pentru restul spaţiului de trăsături sistemul va genera valoarea -1.

(c) Pentru maximizarea marginii suprafeţelor de decizie acestea vor fi plaste în conformitate cu poziţia suprafeţelor prezentate în Figura 1.21. Astfel, intersecţia cu axa x2 a suprafeţei S1 va fi în punctul -1, iar a suprafeţei S2 în punctul 1, iar panta ambelor segmente va fi -1. În acest mod distanţele de la vectorii suport la suprafeţele de decizie vor fi egale şi de valori maxime.

În plus, vom alege pentru fiecare zonă a planului divizat de suprafeţele de decizie (S1 sau S2) un anumit semn caracteristic pe care neuronul liniar (valoarea obţinută înainte trecerii acesteia prin funcţia de activare) îl va asocia acestor zone.

S1: Panta acestui segment este egală cu -1, deci:

12

11

S

S

w

wm ,

12

111S

S

w

w (1.90)

pentru realizarea egalităţii de mai sus alegem w1S1 = - 10 (se putea alege orice altă valoare). Imediat rezultă că w2S1 = - 10.

Figura 1.21. Spaţiul trăsătrilor şi plasarea suprafeţelor de decizie a primului strat pentru problema XOR-ului

În plus, deoarece s-a ales ca intersecţia cu axa x2 a

segmentului S1 să fie în punctul -1, avem relaţia 12

11S

S

w

b ,

din această relaţie rezultă că bS1 = -10. Funcţia discriminant a primului neuron este dată de relaţia:

101010),( 2121 xxxxg (1.91)

Ultima etapă rămasă în determinarea ponderilor primului

x1

x2

(-1,-1) (1,-1)

(1,1) (-1,1)

S1 S2

+

+

-

-(0,-1)

(0,1)

2

00

143

neuron de pe stratul ascuns este de a verifica semnul asociat zonelor obţinute în urma folosirii funcţiei discriminant tocmai determinate. Pentru acest test se alege punctul de origine a sistemului de coordonate:

1010010010)0,0( g (1.92)

Rezultatul obţinut demonstrează o asociere greşită a semnului pentru cele două zone ale spaţiului de intrare obţinute în urma utilizării acestei funcţii discriminant. Pentru rezolvarea acestei probleme se schimbă semnul bias-ului păstrându-se toate celelalte constrângeri (panta segmentului şi intersecţia cu axa x2). Rezultatul final este:

w1S1 = 10, w2S1 = 10 şi bS1 = 10.

S2: În vederea determinării parametrilor pentru cel de al doilea neuron, de pe stratul ascuns, paşii care trebuie urmaţi sunt similari. Astfel, în final se obţin următoarele valori:

w1S2 = -10, w2S2 = -10 şi bS2 = 10.

O: Prin cuplarea directă a ieşirilor neuronilor din stratul ascuns (sumarea directă a ieşirilor) se obţine o distribuţie a valorilor de ieşire funcţie de o anumită zonă a spaţiului conformă cu cea din Figura 1.21 – valorile încercuite din cele trei zone. Deoarece se doreşte obţinerea unei valori unitare în zona haşurată şi -1 în restul spaţiului, după trecerea ieşirii ultimului neuron prin neliniritate, trebuie să avem valori pozitive în zona haşurată şi valori negative în restul spaţiului. Dar, aceste valori ce se vor obţine trebuie să fie cât mai mari posibile pentru saturarea nelinirităţii de ieşire şi obţinerea unor valori cât mai apropiate de -1 şi 1 a ieşirii reţelei neuronale artificiale. Din aceste motive se aleg pentru vectorii de pondere valorile: w1o = 10 şi w2o = 10. Utilizând aceste valori vom obţine pentru zona haşurată valoarea 20 şi 0 în rest. Utilizând un bias egal cu bo = -10 rezultă că în zona haşurată se va obţine o valoare egală cu +10 iar în restul spaţiului de trăsături reţeaua neuronală artificială va genera o valoare egală cu -10. Prin trecerea acestor valori prin neliniaritatea de ieşire se va obţine o partajare corectă a setului de date conform cerinţelor impuse în tabelul din Figura 1.20(b). Partiţionările spaţiului de trăsături obţinute la ieşirea reţelei neuronale şi la ieşirile celor 2 neuroni de pe stratul ascuns prin

144

utilizarea ponderilor determinate anterior sunt prezentate în Figura 1.22 – în aceste figuri prin culoarea alb se simbolizează o valoare egală cu unu, iar prin culoarea negru o valoare egală cu -1.

Figura 1.22. Topologia reţelei neuronale utilizată în clasificare şi suprafeţele de decizie realizate

O reprezentare grafică tridimensională a ieșirii globale a

sistemului este prezentată în Figura 1.23.

Figura 1.23. Suprafaţa de decizie a reţelei neurale artificiale

-1.5-1

-0.50

0.51

1.5 -1.5

-1

-0.5

0

0.5

1

1.5

-1

0

1

x1

x2

Out

∑

∑

∑

w1S1

w2S1

w1S2

w2S2

w1o

w2o

Out

(-1,1)

(-1,-1)

(1,1)

(1,-1)

(-1,1) (1,1)

(-1,-1) (1,-1)

(-1,1) (1,1)

(-1,-1) (1,-1)

x1

x2

145

1.5.3. Antrenarea reţelelor neuronale cu un strat ascuns

Atât perceptronul cât şi reţeaua neuronală cu un singur strat ascuns sunt antrenate cu algoritmi de adaptare a ponderilor care necesită existenţa unui dorit pe care reţeaua trebuie să-l realizeze în urma procesului de adaptare.

Algoritmul de antrenare a reţelelor neuronale multistrat este cunoscut sub numele de algoritmul de retropropagare a erorii (backpropagation) sau regula delta generalizată. Acest algoritm se bazează pe ideea de propagare inversă a erorii – începând cu stratul de ieşire şi continuând până la stratul de intrare. Algoritmul are două etape:

Prima, de propagare înaînte a informației – RNA primește vectorul de intrare și propagă această informație, din strat în strat, până se obține ieșirea, și;

Cea de a doua, de propagare inversă a erorii – funcție de doritul RNA este obținută eroare de clasificare, care se propagă invers (de la stratul de ieșire către cel de intrare) ajustând la fiecare propagare ponderile rețelei funcție de mărimeaerorii.

Acest algoritm va fi prezentat în întregime în cadrul următorului capitol pentru cazul unei RNA cu două straturi ascunse. Deoarece RNA cu două straturi ascunse este o generalizare a RNA cu un singur strat ascuns ecuațiile necesare în cadrul acestui subcapitol pot fi deduse din prezentarea acestora pentru o RNA cu două straturi ascunse.

Ex.13. Ex.14. Ex.15.

11.5.4. Efectul numărului de neuroni de pe stratul ascuns

Una din problemele centrale ce trebuie analizată în cadrul reţelelor neuronale artificiale este dată de selectarea corecta a numărului de neuroni din stratul ascuns. Există două cazuri extreme:

reţeaua are prea mulţi neuroni poziţionaţi pe stratul ascuns, comparativ cu gradul de complexitate al problemei pe care aceasta încearcă să o rezolve;

reţeaua are prea puţine elemente de procesare (neuroni) existente pe stratul ascuns.

Înţelegerea fiecărui caz în parte este importantă, deoarece alegerea corectă a numărului de elemente de procesare este o sarcină dificilă.

Dezavantajele utilizării unui număr superior de neuroni faţă de cel optim sunt următoarele:

146

creşterea timpului de antrenare necesar fiecărei epoci în parte;

neuronii redundanţi au un efect negativ asupra performanţelor în setul de test5 al reţelei neuronale deoarece reţeaua neuronală MLP-ul poate începe să memoreze setul de date de antrenare. De aici va rezulta o capacitate de generalizare redusă a reţelei neuronale. În procesul de adaptare se doreşte ca structura adaptivă (MLP-ul) să descopere şi să înveţe mecanismul intern ce guvernează setului de date şi nu să memoreze corespondenţa dintre intrările reţelei şi doritul acesteia;

crearea unor regiuni artificiale suplimentare în spaţiul de intrare care nu conţin eşantioane aparţinând setului de antrenare şi care nu afectează cu nimic performanţele obţinute în acest set de date, deoarece acolo nu sunt eşantioane specifice, dar care pot afecta în mod negativ performanţele care vor fi obţinute în setul de test.

Ex.16.

În cealaltă situaţie aflată în studiu, când reţeaua nu are îndeajunşi neuroni pe stratul ascuns, apar probleme de o altă natură. O situaţie similară a fost observată când am încercat să rezolvăm problema XOR-ului cu un perceptron (zero neuroni pe stratul ascuns). În această situaţie, sistemul nu ştie dacă problema este rezolvabilă sau nu şi va încerca să facă tot posibilul pentru a minimiza eroarea, încercând să clasifice cea mai mare parte din eşantioane în mod corect.

Ex.17.

În general algoritmul de învăţare încearcă să găsească mai întâi o plasare

corectă a suprafeţelor discriminant pentru a clasifica corect cea mai mare parte din eşantioane, urmând apoi un proces de modificare lentă a funcţiilor discriminant pentru minimizarea funcţiei de cost. Dacă sistemul nu va avea îndeajuns de multe grade de libertate eroarea se va stabiliza la o valoare mare, deoarece sistemul nu poate să rezolve problema.

Câte o dată, sistemul neuronal artificial poate oscila. Oscilaţiile pot să apară când:

rata de învăţare este prea mare, sau

5 setul de date de test – un set de date pe care reţeaua neuronală nu l-a utilizat

în procesul antrenării şi pe care se testează performanţele ei

147

în situaţia existenţei unor schimbări bruşte a valorilor vectorilor pondere între două soluţii suboptimale.

148

1.6. Reţeaua neuronală cu două straturi ascunse

1.6.1. Funcţiile discriminant

O reţea neuronală cu două straturi ascunse are trei nivele de compoziţie:

y = f( f( f( () ) ) ) (1.93)

Din nou dorim să găsim regiunile de decizie create de această reţea neuronală artificială cu două straturi ascunse. O modalitate de abordare este să găsim suprafeţele de decizie create de reţele neuronală cu un singur strat ascuns iar apoi să compunem ieşirile lor. Desigur că acesta reţea neuronală cu două straturi ascunse este mai complexă dar este foarte important să înţelegem capacităţile de care dispunem atunci când lucrăm cu o astfel de structură neuronală.

Din subcapitolul precedent ştim că o reţea neuronală cu un singur strat ascuns poate să creeze regiuni locale în spaţiul de intrare. Prin folosirea unui strat neuronal suplimentar se vor combina aceste regiuni disjuncte din spaţiul de intrare. Această proprietate a unei reţele neuronale cu două straturi ascunse este un rezultat foarte important, deoarece în teoria aproximărilor de funcţii s-au demonstrat teoreme care arată că un combinator liniar de regiuni ale spaţiului de intrare poate să aproximeze în mod rezonabil (cu o anumită eroare) orice tip de funcţie. În concluzie putem afirma că o reţea neuronală cu două straturi ascunse este de asemenea un aproximator universal, deci poate să realizeze orice tip de mapare intrare-ieşire.

Aceste teoreme sunt numai nişte teoreme care demonstrează existenţa reţelei cu proprietatea menţionată anterior, dar din păcate nu ne prezintă nici o modalitate de alegere a numărului de neuroni sau strasuri ascunse pentru a rezolva o anumită problemă. Cu toate acestea teorema anterioară este foarte importantă pentru că ne furnizează certitudinea că o reţea neuronală de tip MLP cu două straturi ascunse este un aproximator universal. Deci, cu certitudine o reţea neuronală (cu unul sau cu două straturi ascunse) ne va rezolva problema.

În principal trebuie să asociem numărul de neuroni din primul strat ascuns cu numărul total de funcţii discriminant în spaţiul de intrare. În general avem nevoie de maximum 2d (d – dimensiunea spaţiului de intrare) neuroni ascunşi în primul strat şi un neuron în cel de al doilea strat pentru a forma o regiune mărginită în spaţiul de intrare.

Numărul de neuroni în cel de al doilea strat ascuns determină numărul de astfel de regiuni mărginite în spaţiul de intrare care sunt necesare pentru aproximare.

149

Stratul de ieşire combină aceste regiuni pentru a produce maparea intre-ieşire dorită. Toată această prezentare relevă faptul că o reţea neuronală cu două straturi ascunse poate aproxima virtual orice mapare intrare-ieşire.

(a) (b)

Figura 1.24. (a) Un posibil exemplu de mapare intrare ieşire, (b) topologia reţelei pentru a obţine această mapare, MLP (2-13-4-1)

Ex.18.

Dacă cumva avem informaţii apriori despre distribuţia datelor din spaţiul

de intrare putem să alegem topologia optimă a reţelei chiar de la început. De exemplu, dacă ştim că în spaţiul de intrare datele sunt repartizate conform distribuţiei din Figura 1.24(a), atunci topologia reţelei va fi cea din aceiaşi figură partea (b). Deci vom avea o reţea neuronală de tip MLP (2-13-4-1).

Ex.19. Ex.20.

150

Problemă: Pentru o distribuţie a trei clase conformă cu Figura 1.25 (● reprezintă elementele, vectorii de trăsături, aparţinând primei clase, ○ reprezintă elemente aparţin celei de a doua clase, în timp ce ■ reprezintă elementele ultimei clase) se cere:

(a). Precizaţi tipul reţelei neuronale şi topologia (numărul de straturi ascunse şi numărul de neuroni de pe fiecare strat) minimală pe care dumneavoastră aţi alege-o pentru realizarea unei partiţionări corecte a setului de date. Justificaţi-vă răspunsul (de exemplu: de ce atâţia neuroni pe stratul i; de ce atâtea ieşiri are reţeaua; de ce ieşirea neuronului n de pe stratul m se conectează numai cu primii k neuroni de pe următorul strat; am folosit o neliniaritate de tipul .... pentru că ...; neuronul j corespunde suprafeţei de decizie S1; etc.). Răspundeţi la această întrebare ţinând cont şi de cerinţa de la subpunctul (b) al acestei problemei.

(b). Desenaţi poziţia exactă a suprafeţelor de decizie astfel încât acestea să maximizeze marginea de decizie a reţelei.

(c). Indicaţi pentru fiecare suprafaţă de decizie vectorii suport asociaţi (acele puncte care se găsesc la frontiera setului de date şi faţă de care se determină marginea de decizie).

x1

x2

1

2

3

4

5

1 2 3 4 0

-1

-2

-3

-4

-5

-1-2-3-4

Figura 1.25 . Distribuţia elementelor în spaţiul de trăsături x

151

(d). Determinaţi pentru fiecare suprafaţă de decizie marginea de decizie.

(e). Determinaţi ponderile şi bias-ul pentru fiecare neuron în parte ce aparţine acestei reţele minimale ce generează suprafeţe de decizie ce maximizează marginile de decizie şi care sunt capabilă să clasifice în mod corect toate elementele distribuţiilor din Figura 1.25.

(f). Implementaţi în NeuroSolutions soluţia determinată analitic în cadrul punctului precedent şi verificaţi corectitudinea ei.

Rezolvare:

(a) Pentru rezolvarea acestei probleme există mai multe soluţii. Una dintre aceste soluţii este prezentată în Figura 1.26.

Prin atribuirea corespunzătoare a ponderilor şi a bias-ului

fiecărui neuron din primul strat ascuns al reţelei neuronale

x1

x2

1

2

3

4

5

1 2 3 4 0

-1

-2

-3

-4

-5

-1-2-3-4

Figura 1.26. Distribuţia elementelor în spaţiul de trăsături x

S1

S2 S3

S4

152

Figura 1.27. (a) Identificarea zonele obţinute, (b) Topologia reţelei neuronale

n4 (S4)

x1

x2

n1 (S1)

n2(S2)

n3 (S3)

n5

n6 (Z1)

n7 (Z2)

n8 (Z3)

Clasa ■

Clasa ●

Clasa ○ n9

(neuronii n1, n2, n3 şi n4 din Figura 1.27(b)) se obţine o plasare a suprafeţelor de decizie conformă cu Figura 1.26. Aceste suprafeţe de decizie determină o partiţionare a spaţiului conformă cu cea din Figura 1.27(a), obţinându-se astfel o delimitare a spaţiului de intrare în diferite zone de interes.

Topologia reţelei neuronale, care plecând de la această partiţionare a spaţiului, este capabilă să clasifice corect întregul set de date este prezentată în Figura 1.27(b).

În această reţea neuronală ieşirea neuronului n5 va cupla

suprafeţele de decizie S1 şi S2 şi va clasifica toate elementele care sunt poziţionate în exteriorul triunghiului determinat de aceste două suprafeţe de decizie ca aparţinând clasei ■.

Neuronul n6 determină zona Z1 prin cuplarea suprafeţelor de decizie S1, S2, S3 şi S4. Deci, ieşirea neuronului n6 va indica toate elementele clasei ● care sunt poziţionate în zona Z1.

Pentru clasificarea corectă a vectorilor de trăsături simbolizaţi în planul de intrare prin ○ trebuie să cuplăm zonele Z2 şi Z3. Zona Z2 este realizată de către neuronul n7 prin cuplarea în mod corespunzător a suprafeţelor S1, S2, S3 în timp ce zona Z3 determinată de cuplarea suprafeţelor de decizie S1, S2 şi S4 este reflectată la ieşirea neuronului n7 printr-un nivel +1. Cuplarea

S1

S2 S3

S4

Z1

Z2

Z3

(a)

(b)

153

regiunilor Z2 şi Z3 se realizează prin intermediul neuronului n9 care va diferenţia vectorii trăsături simbolizaţi prin ○ de restul elementelor aparţinând celorlalte clase.

Deşi această reţea neuronală este aparent una minimală, din punct de vedere al implementării ea este o RNA atipică deoarece o ieşire este obţinută din ultimul strat în timp ce celelalte două ieşiri sunt obţinute din stratul ascuns care astfel nu mai este „ascuns” fiind direct conectat cu exteriorul.

Ideea de bază a soluţiei corecte este prezentată în Figura 1.28. Această soluţie a problemei defineşte două „triunghiuri” (primul triunghi, T1, format din zonele Z1, Z2 şi Z5 iar cel de al doilea triunghi, T2, din zonele Z3, Z4 şi Z5). Astfel elementele ○ sunt poziţionate exclusiv în zonele Z1 şi Z2 şi această clasă se obţine numai pentru acele elemente care sunt interioare triunghiului T1 şi exterioare triunghiului T2. În mod similar elementele ■ sunt întotdeauna interioare triunghiului T2 şi exterioare triunghiului T1. Ultima clasa dată de elementele ● este interioară atât lui T1 cât şi lui T2.

Pentru poziţionarea corectă a suprafeţelor de decizie S1, S2, S3 şi S4 se vor defini şi determina în mod corespunzător parametrii neuronilor n1, n2, n3 şi n4 asociaţi acestor suprafeţe. Spaţiul intern definit de primul triunghi, T1, compus din zonele Z1, Z2 şi Z5 este delimitat automat de ieşirea neuronului n5 în timp ce zona definită de T2 este obţinută la ieşirea neuronului n6. Dacă ambele intrări sunt complet conectate la primul strat ascuns prin ponderile aferente ce vor fi ulterior determinate, neuronii celui de al doilea strat ascuns (format din n5 şi n6) se conectează numai cu acei neuroni ce definesc acele suprafeţe de decizie care sunt necesare pentru izolarea zonelor anterior menţionate. Astfel neuronului n5 îi sunt suficiente suprafeţele S1 şi S2 pentru izolarea zonelor Z1, Z2 şi Z5 iar neuronul n6 va utiliza doar suprafeţele de decizie S3 şi S4 pentru izolarea zonelor Z3, Z4 şi Z5. Pentru uşurarea modalităţii de decizie a stratului de ieşire se vor folosi neliniarităţi de tip semn pentru neuronii n5 şi n6; definirea zonelor dorite făcându-se astfel prin valoarea +1 asociată cu regiunea decizională plasată în interiorul suprafeţei decizionale definită de T1 şi T2. Poziţionarea elementelor în exteriorul zonelor de interes este dată de o valoare -1 întoarsă de aceşti doi neuroni. Alegerea neliniarităţii de tip semn este justificată de trecerea abruptă ce se realizează de la o zonă de decizie la alta ceea ce ne garantează corecta clasificare a tuturor

154

n4 (S4)

x1

x2

n1 (S1)

n2 (S2)

n3 (S3)

n5 (T1)

n7

n6 (T2)

n8

Clasa ■

Clasa ●

Clasa ○

n9

elementelor inclusiv a celor ce sunt foarte apropiate de suprafaţa de decizie.

Reţeaua neuronală are 3 ieşiri, fiecare ieşire corespunde uneia din cele trei clase. Oricare din aceste ieşiri va întoarce +1 pentru elementele asociate ei şi -1 pentru restul elementelor. Deci, pe stratul de ieşire vor fi 3 neuroni. Stratul de ieşire este unul complet conectat la cei doi neuroni, ce definesc cele două triunghiuri, tocmai pentru că în procesul decizional al acestor neuroni sunt necesare informaţii legate de poziţionarea elementului ce urmează să fie clasificat faţă de ambele zonele definite de neuronii n5 şi n6.

Figura 1.28. (a) Poziţionarea corectă a suprafeţelor de decizie conformă cu cerinţele problemei, (b) zonele de interes definite şi

(c) arhitectura reţelei neuronale

(b)

(c)

S1

S2 S3 S4

Z1

Z2

Z3

Z4

Z5

x1

x2

1

2

3

4

5

1 2 3 4 0

-1

-2

-3

-4

-1-2-3 -4

(a)

155

După cum s-a prezentat anterior cunoaşterea zonei de poziţionare a elementului de clasificat faţă de o singură zonă nu este îndeajuns (de exemplu elementele ■ sunt întotdeauna interioare triunghiului T2 şi exterioare triunghiului T1, deci avem nevoie de informaţia oferită de ambele ieşiri ale neuronilor n5 şi n6). Funcţiile de activare a neuronilor din stratul de ieşire (n7, n8 şi n9) vor fi de tipul semn, în acest mod elementele aparţinând uneia sau alteia dintre clase vor fi caracterizate de o valoare +1 a ieşirii corespondente în timp ce celelalte ieşiri vor avea valoarea -1.

Analizând comparativ topologia reţelei neuronale din Figura 1.28(c) cu aceea a reţelei neuronale artificiale din Figura 1.27(b) se observă că acestea au acelaşi număr de neuroni în schimb ultima topologie corespunde conceptului de reţea neuronală cu două straturi ascunse şi, în plus, această topologie are un număr de ponderi (18) inferior primei topologii prezentate (ce are 22 de ponderi) – putem spune astfel că această topologie prezentată în Figura 1.28 este cea căutată.

Reţeaua neuronală ce satisface cerinţele problemei noastre este una cu două straturi ascunse fiind caracterizată de următoarea configuraţie: 2:4:2:3 (intrări : nr. neuroni pe primul strat ascuns : nr. neuroni pe cel de al doilea strat ascuns : număr de ieşiri).

(b). Pentru maximizarea marginii de decizie suprafaţa de decizie trebuie să fie optimă adică să treacă prin jumătatea distanţei dintre eşantioanele care sunt cele mai apropiate de frontiera dintre cele două clase.

Aceste eşantioane poartă numele de vectori suport. În Figura 1.28(a) suprafeţele de decizie au fost deja trasate astfel încât această regulă să fie respectată.

(c). Vectorii suport sunt acele puncte care se găsesc la frontiera setului de date şi faţă de care se determină marginea de decizie astfel încât să se maximizeze marginea de decizie. Raportându-ne la Figura 1.29 pentru următoarele suprafeţe de decizie avem următorii vectori suport:

pentru suprafaţa S1 avem vectorii E11, E12 şi E19 pentru clasa ○, E20, E21, E22, E23 şi E24 pentru clasa ■ şi E17 pentru clasa ●;

pentru suprafaţa S2 avem vectorii E1 şi E19 pentru clasa ○, E14

pentru clasa ■ şi E15 pentru clasa ●;

156

pentru suprafaţa S3 avem vectorii E19 pentru clasa ○, E13, E14, E20, E28 pentru clasa ■ şi E15 pentru clasa ●;

pentru suprafaţa S4 avem vectorii E5 şi E9 pentru clasa ○, E13, E24 pentru clasa ■ şi E18 pentru clasa ●.

Figura 1.29. Spaţiul trăsăturilor, suprafeţele de decizie şi elementele aparţinând celor 3 clase

(d). În cazul poziţionării corecte a suprafeţelor de decizie pentru maximizarea marginii de decizie, condiţie satisfăcută în cadrul punctului (b) al problemei noastre, marginea de decizie se poate determina foarte uşor pentru o anumită suprafaţă de decizie aleasă drept distanţa de la oricare vector suport a respectivei suprafeţe de decizie către aceasta. De exemplu, vezi Figura 1.29, marginea de decizie pentru suprafaţa S4 se poate calcula din relaţia (două moduri diferite de a exprima aria triunghiului OE5A):

22554 AEOEOAdS

rezultând în final

5

125

25

55554

AEOE

AEOE

OA

AEOEdS .

x1

x2

E1

E2

E3 E4

E5 E6

E7 E8

E10 E9

E11 E12

E13

E15

E14

E16

E19

E18

E17

E20

E25

E24

E23 E22 E21

E26 E27 E28

S1

S2

S4

S3

A

O

157

În mod similar se calculează pentru S2 rezultând aceeaşi valoare. Pentru suprafeţele S1 şi S4 marginile de decizie se calculează foarte uşor deoarece acestea sunt paralele cu axele Ox1 şi Ox2 şi trec chiar prin mijlocul distanţei dintre vectorii suport. Rezultând în final:

11 Sd şi 5.03 Sd .

(e). Din punct de vedere matematic, panta unei drepte de ecuaţie w1 ∙ x1 + w2 ∙ x2 + b = 0 este:

2

1

w

wm

în timp ce intersecţia cu axa x2 a segmentului este dată de relaţia

22 w

bx .

În vederea determinării ponderilor şi bias-ului suprafeţelor de decizie S1, S2, S3, S4 ne vom folosi de aceste relaţii. În plus vom ţine cont şi de faptul că în interiorul triunghiurilor T1 şi T2 vom avea valori +1 întoarse de neuronii n5 şi n6. Funcţiile de activare a tuturor neuronilor acestei reţele sunt de tip semn şi vor fi notate în continuare cu f.

S1: 012

111

S

SS w

wm , 3

12

121

S

S

w

bxS de aici rezultă: w1S1 = 0,

w2S1 = 10, bS1 = 30. Funcţia discriminant a acestui neuron este dată de relaţia: 3010),( 2211 xxxgS . Pentru a testa corectitudinea

valorilor asociate celor două regiuni vom lua un punct din oricare din cele două regiuni şi vom trece prin neliniaritatea neuronului valoarea obţinută de către funcţia discriminat particularizată în punctul respectiv. Dacă acestă valoare nu corespunde cerinţelor impuse vom schimba semnul uneia din ponderile w1, w2. Această schimbare de semn determinând automat rezolvarea problemei noastre. În cazul nostru pentru simplitatea abordării alegem drept punct de test punctul (0,0). Rezultând:

1300,01 fgf S

Valoare întoarsă de acest neuron corespunzând cerinţelor impuse trecem la calcularea ponderilor pentru suprafeţele de decizie rămase.

158

S2: 222

212

S

SS w

wm , 5

22

222

S

S

w

bxS de aici rezultă: w1S2 =

10, w2S2 = 5, bS2 = -25.

25510),( 21212 xxxxgS , 1250,02 fgf S

observăm că am obţinut un rezultat incorect deoarece ne-am dori ca în interiorul zonei delimitate de T1 să avem o valoare egală cu +1. Deci, schimbăm semnul ponderii w1S2 rezultând: w1S2 = -10, w2S2 = -5, bS1 = 25. Testăm corectitudinea noii atribuiri:

25510),( 21212 xxxxgS , 1250,02 fgf S .

S3: 32

313

S

SS w

wm , 5.2

31

313

S

S

w

bxS de aici rezultă: w2S3 =

0, w1S3 = -10, bS3 = 25.

2510),( 1213 xxxgS , 1250,03 fgf S

S4: 242

414

S

SS w

wm , 0

41

424

S

S

w

bxS de aici rezultă: w2S4 = 20,

w1S4 = -10, bS4 = 0.

21214 1020),( xxxxgS , 1200,14 fgf S

Pentru cel de al doilea strat neuronal ascuns, format din neuronii n5 şi n6, modalitatea de calcul a ponderilor acestora este diferită. Aceşti neuroni au un rol de compunere a zonelor decizionale realizate de neuronii poziţionaţi pe primul strat ascuns. Conform raţionamentului prezentat în cadrul punctului (a) al problemei dorim ca la ieşirile neuronii n5 şi n6 să avem valori de +1 pentru zonele interioare triunghiurilor T1 (Z1, Z2 şi Z5) şi T2 (Z3, Z4

şi Z5) şi -1 în exteriorul lor. Ţinând cont şi de faptul că acest strat neuronal are funcţii de activare de tipul semn, vezi relaţia (1.43), rezultă că în zonele interioare celor două triunghiuri în urma multiplicării ieşirilor neuronilor n1, n2, n3, n4 cu ponderile sinaptice ale neuronilor n5 şi n6 şi a adunării bias-urilor proprii rezultatul trebuie să fie mai mare sau egal cu zero iar în exteriorul acestor zone negativ. Dacă ponderile neuronului n5 sunt ambele egale cu unitatea iar bias-ul este zero la ieşirea acestuia, dar înaintea funcţiei de activare, diferitele zone ale spaţiului de trăsături de intrare primesc valorile prezentate în Figura 11.31(a) încadrate într-un chenar.

159

Dacă aceste valori sunt trecute prin funcţia neliniară se observă că zonele ce iau valori egale cu +2 şi 0 vor fi asociate aceleiaşi clase caracterizată de o valoare egală cu +1 a neuronului n5. Această asociere este una greşită. Dacă în schimb luăm o valoare egală cu -1 a bias-ului neuronului n5 valorile obţinute sunt cele subliniate din Figura 1.30(a). De această dată prin trecerea acestor valori prin funcţia neliniară se observă o partiţionare corectă a spaţiului de intrare.

Figura 1.30. Valorile asociate cu diferitele zone decizionale de către neuronii: (a) n5 şi (b) n6 anterioare funcţiei de activare

În mod evident că obţinerea acestui rezultat (această partiţionare a spaţiului de intrare dată de neuronul n5) nu este unică. De exemplu, atunci când am determinat ponderile pentru neuronul ce generează suprafaţa S2 am schimbat semnul ponderii w1S2 pentru a obţine rezultatul dorit. Dar am fi putut ajunge la un rezultat final identic cu cel prezentat mai sus dacă nu am fi schimbat semnul ponderii w1S2 în schimb ponderea w2 a neuronului n5 ar fi fost egală cu -1.

Tabelul 1.1. Asocierile neuronilor n5 şi n6

Ieşire n5 Ieşire n6 Zonă asociată

-1 -1 exterioară -1 +1 clasă ■ +1 -1 clasă ○ +1 +1 clasă ●

S1

S2

0

+2 0

-2-1

+1

+1

-1

S3

S4

+1 -1 +1

-1

+2

-2

0

0

+1

-1

-1

-3

+1-1

-1

-3

(a) (b)

160

Pentru neuronul n6 analiza este similară cu cea pe care am prezentat-o la neuronul n5. Ponderile sinaptice ale acestui neuron sunt egale cu +1 iar bias-ul este -1, vezi partiţionarea prezentată în Figura 1.30(b).

Pentru calcularea ponderilor neuronilor de pe stratul de ieşire va trebui să ţinem cont de rezultatele obţinute la ieşirile neuronilor n5 şi n6 ce generează diferitele zone spaţiale decizionale. Aceste rezultate corelate cu dispunerea elementelor ce aparţin celor trei clase sunt prezentate în Tabelul 1.1.

Figura 1.31. Asignarea valorică a diferitelor zone spaţiale

decizionale De exemplu, pentru ca reţeaua neuronală să întoarcă la ieşirea

neuronului n9 o valoare egală cu +1 pentru elementele clasei ○ trebuie ca în urma grupării favorabile a ieşirilor neuronilor n5 şi n6, prin intermediul ponderilor sinaptice şi a bias-ului acestui neuron, să obţinem valori mai mari sau egale cu zero în zonele Z2 şi Z1 şi valori mai mici ca zero în restul zonelor. Printr-o simplă multiplicare a ieşirii neuronului n5 cu valoarea +1, prin intermediul ponderii sinaptice w1 a neuronului n5, şi prin multiplicare cu -1 a ieşirii neuronului n6 vom obţine o asignare valorică a diferitelor zone spaţiale la ieşirea neuronului, dar anterioară funcţiei de activare, conformă cu cea din Figura 1.31. Rezultatele prezentate în Figura 1.31 sunt obţinute pentru o valoare egală cu zero a bias-ului neuronului n9. Trecând aceste valori prin funcţia neliniară de ieşire observăm că obţinem o cuplare incorectă a zonelor decizionale. Toate zonele decizionale ce au asociate valori egale cu 0 şi +2 vor fi asignate de n9 clasei ○ printr-o valoare +1 de ieşire. Pentru corectarea acestei situaţii vom utiliza o valoare egală cu -1 pentru bias-ul neuronului n9. Această valoare va determina o

S1

S2 S3 S4

+2

+2

-2

-2

0

0

0

0 0 0

161

cuplare corectă a zonelor decizionale. Deci rezultatele finale pentru acest neuron sunt w1n9 = +1, w2n9 = -1 şi bn9 = -1. În mod similar, utilizând aceeaşi paşi, vor fi obţinute şi valorile ponderilor pentru neuronii n7 şi n8. Ponderile neuronului n7 sunt w1n7 = -1, w2n7 = +1 şi bn7 = -1. În timp ce ponderile neuronului n8 sunt w1n7 = +1, w2n7 = +1 şi bn7 = -1.

(f). În directorul de probleme asociat acestui capitol se găseşte în subdirectorul “Problemă clasificare 3 clase” implementarea în NeuroSolution a soluţiei acestei probleme. Poziţionaţi instrumentul de vizualizare a suprafeţelor de decizie la ieşirile diferiţilor neuroni poziţionaţi pe straturile neuronale ale reţelei şi corelaţi zonele decizionale obţinute cu ponderile neuronului respectiv.

1.6.2. MLP-ul drept clasificator universal

Să ne întoarcem pentru un moment înapoi la metodele statistice de

recunoaştere de paternuri şi să încercăm să răspundem întrebării: Poate o reţea de tipul MLP să fie un clasificator optimal?

Un clasificator optimal trebuie să deţină potenţialul de a crea funcţii discriminant arbitrare capabile să separe setul de date în clusteri în conform cu probabilităţile posterioare (probabilitatea unui eveniment după determinarea unor anumite cantităţi) a fiecărui cluster. Deoarece noi ştim că o reţea de tip MLP este un aproximator universal, bănuim că reţeaua va satisface şi această condiţie. Un clasificator optimal utilizând teoria Bayesiană trebuie să producă la ieşiri probabilităţile posterioare, P(Ci | a0), a claselor Ci dată de eşantionul de intrare a0 – vectrorul de trăsături.

Ar putea reţeaua MLP produce ieşiri care să poată fi interpretate în acest mod? Răspunsul la această întrebare este da, dacă reţeaua este antrenată într-un mod specific și respectă anumite condiţii. Mai mult putem arăta că MLP produce la ieşiri estimări directe ale probabilităţilor posterioare. Trebuie să ne amintim că la metodele de recunoaştere de paternuri statistice aveam nevoie de regula lui Bayes pentru a evalua probabilităţile posterioare. Cu o reţea de tipul MLP noi obţinem estimatele funcţiilor de densitate de probabilitate direct la ieşirile reţelei dacă aceasta este antrenată într-un mod specific şi topologia reţelei neuronale este de un anumit tip.

În continuare vom presupune că:

reţeaua va folosi drept funcţie de cost eroarea medie pătratică, reţeaua are un număr suficient de elemente de procesare

pentru a putea produce o mapare corectă intrare-ieşire,

162

setul de date este suficient şi acoperă tot spaţiul de intrare, şi algoritmul de adaptare este capabil să conducă sistemul către

minimul global.

Cerinţa finală este ca valoarea ieşirii să fie între 0 şi 1 iar suma tuturor ieşirilor să fie egală cu 1 pentru orice vector de trăsături a0 de intrare – astfel ca fiecare ieşire să poată fi interpretată ca o probabilitate de apartenenţă a intrării la clasa reprezentată de neuronul de ieşire respectiv. Pentru a garanta suma ieşirilor 1 nu mai putem utiliza funcţia logistică la ieşirea fiecărui neuron. Trebuie să utilizăm un nou tip de neliniaritate (de tip softmax) a cărui funcţie caracterisitică este:

jj

kk net

nety

exp

exp

(1.94)

Funcţia de activare softmax este similară cu cele de tip logistic şi tangent hiperbolic, diferenţa constă în normalizarea ieşirii la suma totală a ieşirilor stratului ascuns.

Pentru situaţia a două clase şi o singură ieşire a reţelei neliniaritatea poate fi de tipul logistic. În această situaţie probabilitatea primei clase este dată direct la ieşirea reţelei în timp ce probabilitatea celei de a doua clase va fi 1 minus ieşirea actuală a reţelei.

După cum s-a observat nu am specificat nicăieri în paragraful anterior că reţeaua trebuie să fie de tipul MLP. Reţeaua de tip MLP este numai un exemplu a unei posibile implementări viabile şi eficiente a unui clasificator statistic, din simplul motiv că este un clasificator universal. Cel mai important aspect al problemei este minimizarea erorii pătratice medii. Dacă scriem eroarea medie pătratică pentru situaţia în care avem un număr mare de eşantioane de intrare în formă integrală:

dxdtxtptwxyJ kk

kkk ,,2

1 2 (1.95)

în relaţia (1.95) răspunsul dorit este notat cu t, k este indicele sumei pe ieşirile reţelei în timp ce suma pe setul de eşantioane a fost transformată în integrală - care trebuie să fie scrisă ca o probabilitate reunită a răspunsului dorit şi a intrării.

Termenul pătratic de sub integrală poate fi scris ca:

22 ,, kkkkkk txtExtEwxytwxy (1.96)

unde:

163

kkkk dtxtptxtE (1.97)

Relaţia (1.96) poate fi dezvoltată:

2

22 ,2,,

kk

kkkkkkkk

txtE

txtExtEwxyxtEwxytwxy

(1.98)

Dacă substituim relaţia (1.98) în (1.95) si facem simplificările obţinem:

k k

kkkk dxxpxtExtEdxxpxtEwxyJ222

2

1,

2

1 (1.99)

Cum cel de al doilea terme al relaţiei (1.99) este independent de reţea, deci nu îşi va schimba valoare în timpul procesului de adaptare, rezultă că sistemul va încerca să minimizeze doar primul termen şi minimul este obţinut atunci când vectorul de ponderi devine astfel încât:

xtEwxy kk *, (1.100)

sau alternativ:

i

kikik xtptwxy ,,*, (1.101)

Pentru o problemă de clasificare în care răspunsul dorit este 1 şi 0 şi presupunem că avem C clase este uşor de arătat că:

xcpxy kk (1.102)

Ecuaţia (1.102) ne demonstrează că ieşirea unei reţele MLP ne furnizează probabilitatea posterioară a unei clase dată de un vector de trăsături de la intrarea reţelei. Ne putem aminti din capitolul de clasificare statistică a datelor că probabilitatea posterioară minimizează eroarea de clasificare şi ne furnizează eroarea cea mai mică posibilă la care ne putem aştepta de la un clasificator optimal.

Ex.21.

164

1.7. Proiectarea şi antrenarea reţelelor neuronale

1.7.1. Controlul procesului de învăţare

Învăţarea este procedura de extragere a informaţiei din setul de date de

antrenare necesară modificării valorilor termenilor liberi ai unei RNA (a ponderilor) în vederea obţinerii fenomenului de generalizare – a obţinerii erorii minime de clasificare corecte a eşantioanelor din alt set de date ce nu a fost prezentat anterior RNA pentru învățare.

Pentru o anumită RNA utilizatorul poate influenţa procesul de căutare al optimului prin:

iniţializarea ponderilor reţelei, algoritmul utilizat în căutare minimului, valorile de iniţializare a parametrilor algoritmului de adaptare, şi criteriul de oprire – în situaţia în care procesul de învăţare nu este

finalizat, ponderile RNA nu vor fi situate aproape de valoarea lor optimă şi performanţele reţelei vor fi slabe.

Totodată, performanţele reţelei neuronale sunt influențate în mod decisiv de:

mărimea setul de date utilizat în antrenare, şi de reprezentativitatea setul de date raportat la problema supusă

rezolvării.

În acest subcapitol vom studia influenţa acestor factori asupra performanţelor reţelei, a abilităţii acesteia de a atinge minimul global al erorii.

Ex.22.

1. Ponderile reţelei

Este important să înţelegem că în procese succesive de adaptare a

ponderilor unei reţele neuronale artificiale vom obţine, la finalul procesului, valori diferite pentru aceşti parametri chiar în situaţia în care reţeaua are de fiecare dată aceeaşi topologie, lucrează cu acelaşi set de date etc. Acest fapt se datorează în principal următoarelor motive:

Existenţa unui număr mare de simetrii în maparea setului de date de intrare în ieşire. Astfel două reţele care produc aceleaşi rezultate pot să aibă vectori de pondere diferiţi. De exemplu, după cum am discutat în subcapitolul precedent, poziţia funcţiilor

165

discriminant este determinată de raportul ponderilor nu de valorile lor. De exemplu, prin schimbarea semnului unei ponderi de la ieşirea unui neuron se poate compensa semnul ponderilor din stratul anterior.

Mai mult nu există nici o garanţie că o problemă are o singură soluţie – gândiţi-vă la problema analizată anterior a XOR-ului.

Utilizarea unei topologie neminimale – în această situaţie neuronii redundanţi pot crea mai multe posibile soluţii. Din punctul de vedere, al erorii pe care dorim să o minimizăm, atâta timp cât aceasta este minimă orice soluţie este bună.

Valoarea finală a ponderilor este obţinută printr-un proces iterativ din nişte valori aleator generate pentru vectorii de pondere. Datorită condiţiilor iniţiale, alese în mod aleator pentru setul de ponderi, vom obţine un set diferi de vectori ponderi la sfârşitul procesului de antrenare chiar dacă: oprim algoritmul de învăţare după un număr fix de iteraţii, ne folosim de acelaşi set de antrenare etc.

În concluzie putem spune că învăţarea este un proces stohastic care depinde nu numai de parametrii de învăţare, dar şi de condiţiile iniţiale. Astfel dacă dorim să comparăm timpul de convergenţă a unei reţele sau valorile finale ale erorii medii pătratice după un număr de epoci de antrenare, rezultatul obţinut numai după o singură rulare este fără semnificaţie. Pentru a obţine rezultate corecte trebuie să rulăm fiecare reţea de mai multe ori cu condiţiile iniţiale alese aleator şi să alegem cele mai bune rezultate.

Când scopul este să comparăm diferiţi algoritmi de învăţare, se obişnuieşte să mediem rezultatele obţinute (să prezentăm, de exemplu, o medie a curbelor de învăţare, o valoare medie a modului cum variază eroarea). Această valoare medie trebuie însoţită şi de varianţa rezultatului sau de numărul de medieri din care a fost obţinută.

Ex.23.

2. Controlul pasului de învăţare în timpul procesului de adaptare

Pentru suprafeţele de eroare pătratice (furnizate de reţele liniare)

există întotdeauna algoritmi de selecţie a ratei optime de învăţare pentru fiecare iteraţie. În schimb în cazul reţelelor cu mai multe straturi care includ neliniarităţi nu avem metode de determinare a pasului optim pentru fiecare iteraţie în parte.

166

Putem spune că alegerea parametrului de adaptare este un compromis între:

viteza de învăţare şi acurateţea rezultatului final.

În cazul reţelelor neliniare, selecţia pasului de adaptare este şi mai importantă. Această importanţă se datorează în principal existenţei minimelor şi maximelor locale unde procesul de învăţare se poate opri. Vom trata problema minimelor locale folosindu-ne de metode mult mai puternice de învăţare puţin mai târziu. În acst subcapitol se va prezenta numai o abordare minimală a acestei probleme.

O tehnică comună de variaţie a pasului de adaptare este de a utiliza:

valori mari pentru acesta la începutul procesului de adaptare, pentru a:

scădea timpul petrecut în faza de căutare, şi pentru depăşirea eventualelor minime locale.

valori mici în finalul procesului de adaptare, deci vom scădea rata de învăţare, pentru a obţine o bună acurateţe a vectorilor de ponderi în faza de convergenţă a algoritmului.

De exemplu, putem utiliza în controlul pasului de antrenare relaţia:

0

0

1n

nn

(1.103)

În relaţia anterioară 0 este pasul iniţial, în timp ce n0 este o constantă reprezentând numărul curent a unei anumite epoci de antrenare. În cazul în care n << n0, pasul ia practic valoarea 0, în timp ce atunci când n >> n0, pasul se apropie după o pogresi geometrică către zero.

Din păcate, valorile prametrlor n0 şi 0 se găsesc experimental şi sunt caracteristice fiecărei probleme în parte. Mai mult, nu existând relaţii matematice pentru determinarea acestor parametri.

Dacă valoarea iniţială a lui 0 este prea mare, procesul de învăţare poate diverge. Selecţia lui n0 este dependentă direct de forma suprafeţei de eroare. În cazul în care n0 este prea mic, faza de căutare va fi scurtă şi procesul de învăţare se poate opri prematur într-o soluţie neoptimală (de exemplu dacă sistemul este “prins” într-un minim local). În situaţia în care n0 este prea mare sistemul petrece prea mult timp în faza de învăţare, oscilând în jurul soluţiei optime.

167

În cazul suprafeţelor de eroare care prezintă minimele locale, acest procedeu ne ajută să depăşim pe acestea. Problema fundamentală a acestei abordări ţine de faptul că noi nu cunoaştem aprioric valoarea optimă a termenilor liberi utilizați în algoritmul de învăţare, astfel încât selecţia corectă a acestor constrângeri, a parametrilor, în relația (1.103) este dependentă de problemă.

Ex.24.

3. Alegerea constantei de învăţare de-a lungul reţelei

În literatură s-a sugerat că pentru a obţine o convergenţă rapidă şi robustă

neuronii reţelei trebuie să înveţe la aceiaşi viteză. Acest scop este uşor de atins în reţele liniare dar mai greu de atins în sisteme neliniare, în principal deoarece eroarea este atenuată prin derivata neliniarităţii neuronilor.

Ca o regulă practică constanta de învăţare trebuie crescută cu un factor aflat în intervalul 2…5 de la un strat la altul pentru o parcurgere a reţelei de la ieşirea acesteia către intrare.

Această reducere a erorii este dată de cantitatea cu care se modifică fiecare pondere şi care este proporţională cu derivata neliniarităţii de la ieşirea fiecărui neuron în parte. Această derivată are forma unui clopot centrat în origine, Figura 11.33(b). Astfel pentru valori mari ale erorii (de valoare pozitivă sau negativă) ponderile sunt multiplicate cu cantităţi care tind către zero.

Ex.25.

4. Neliniaritatea neuronilor - sursă de competiţie

Abilitatea reţelei neuronale multistrat de a discrimina între vectorii de

trăsături de intrare este corelată în mod direct cu:

atenuarea erorii prin neliniarităţile reţelei şi saturarea ieşirii elementelor de procesare.

Neliniarităţile neuronilor lucrează ca un proces de competiţie internă, care permite diferiţilor neuroni să se specializeze în diferite zone ale spaţiului de intrare (amintiţi-vă că modificarea ponderilor este proporţională cu: ieşirea locală, eroarea şi cu derivata neliniarităţii – f’()).

168

Pentru un vector de date particular, dacă activarea rezultată a neuronului este situată într-o vecinătate apropiată superioară sau inferioară valorii zero atunci vectorul de ponderi a acestui neuron va fi modificat substanţial, Figura 1.32(c). Astfel în timpul procesului de învăţare, diferiţi neuroni vor învăţa mai mult numai în anumite zone ale spaţiului de intrare. În cazul unei neliniarităţi sigmoidale s-a arătat că, aceasta, este mai senzitivă pentru activări cu valori apropiate de 0.707. Efectul global al neliniarităţii este de a stabiliza vectorul de ponderi în centrul unei anumite zone a spaţiului de intrare.

Figura 1.32. Derivata neliniarităţii şi efectul ei asupra procesului de

învăţare

În cazul în care unul dintre neuroni este saturat (activarea are o valoare mare sau foarte mare în valoare absolută) în urma procesului de adaptare vectorul pondere a acestui neuron nu se va schimba în mod semnificativ. În mod similar se petrec lucrurile dacă activarea este în vecinătatea valorii zero. Acest mod de adaptare a ponderilor este o sursă de competiţie internă care tinde să asigneze o parte din neuroni unei clase în timp ce alţii vor fi asignaţi unei alte clase. Deoarece în cadrul unui clasificator se doreşte crearea de funcţii discriminant, tocmai aceste neliniarităţi furnizează putere reţelei neuronale artficale comparativ cu reţelele neuronale artificiale liniare.

Dacă neuronii vor fi liniari sau neliniari, dar neliniarităţile acestora nu au proprietatea de a se satura, nu va exista intern nici o competiţie şi astfel neuronii nu se vor specializa. În acest mod reţeaua nu va putea răspunde cu

(a)

(b)

(c)

y f’ ( xi ∙wi )

f’ ( xi ∙wi )

y = f ( xi ∙wi)

(xi ∙wi)

(xi ∙wi)

(xi ∙wi)

169

valori mari pentru anumiţi vectori de intrare şi cu valori reduse pentru alţi vectori.

5. Iniţializarea ponderilor

Atenuarea erorii de-a lungul reţelei impune anumite constrângeri

procesului de învăţare. Aceste constrângeri sunt date de:

modalitatea de iniţializarea ponderilor reţelei, şi numărul de straturi ascunse pe care le vom folosi într-un clasificator

neuronal.

Pentru a avea o antrenare eficientă nu trebuie să creăm o topologie cu multe straturi, deoarece automat straturile apropiate de intrare vor învăţa lent. De obicei se porneşte cu un perceptron avansând spre o reţea cu un strat ascuns urmată de una cu două straturi ascunse. Trecerea se va realiza numai dacă nu obţinem o eroare rezonabilă scopurilor propuse. Deoarece o reţea neuronală cu două straturi ascunse este un sistem de mapare universal, mai mult de două straturi sunt rar recomandate.

Iniţializare ponderilor în mod corect, înainte de începerea procesului de învăţare, este o altă cerinţă esenţială. Ponderile iniţiale influenţează performanţele procesului de învăţare (o iniţializare depărtată de minimul global creşte timpul de învăţare) dar simultan influenţează şi viteza de învăţare a diferiţilor neuroni (dorim ca toţi neuronii să înveţe la aceiaşi viteză). Pentru performanţe de antrenare superioară dorim ca toţi neuronii să înveţe la aceiaşi rată. După cum am discutat anterior neuronii aflaţi în regiunea liniară a caracteristicii învaţă mai repede decât cei aflaţi în regiunea saturată.

Totodată valori iniţiale prea mari pentru ponderi pot satura neuronii. În mod practic ponderile sunt iniţializate în mod aleator. Dacă alegem într-o manieră potrivită varianţa valorilor aleatoare cu care iniţializăm ponderile ţinând cont de fan-in-ul fiecărui neuron în parte, aceştia vor fi în regiunea liniară şi în concluzie vor învăţa la aceiaşi viteză. O regulă practică impune ca valorile ponderilor pentru un neuron al reţelei să fie distribuite uniform în intervalul:

ii FF

4.2,

4.2 (1.104)

unde Fi este fan-in-ul fiecărui neuron (numărul de intrări a fiecărui neuron în parte).

170

Ex.26.

1.7.2. Metode de îmbunătăţire a procedurii de adaptare

1. Folosirea termenului de tip moment

Cu cât facem mai mic pasul de învăţare, , cu atât mai mici vor fi

posibilele modificări ale vectorului de ponderi a unui strat de neuroni de la o iteraţie la alta, obţinând o traiectorie mai lină în spaţiul vectorilor de ponderi. Costul pe care trebuie sa-l plătim va fi dat de o viteză de învăţare scăzută. În cazul în care alegem o valoare mare pentru pasul de adaptare, pentru a mări viteza învăţării, obţinem schimbări mari de amplitudine ale vectorilor de ponderi şi este posibil ca reţeaua să devină instabilă.

Pentru creşterea vitezei de învăţare şi, simultan, stabilizarea convergenţei reţelei neuronale artificiale putem introduce un termen de tip moment. În acest mod ecuaţia de modificare a ponderilor devine:

nw

ijijij

ijij

ij

nwnwnw

nJnwnw

1)(

1 (1.105)

cu

1)(

nwnw

nJnw ij

ijij (1.106)

este constanta momentului. În mod normal trebuie să fie între 0.5 şi 0.9. În cazul în care devine zero se revine la algoritmul standard de modificare a ponderilor. Acest nou algoritm de adaptare al reţelei îl vom numi algoritm de tip moment, în principal datorită formei ultimului termen care este apropiată de modalitate de definire a momentului în mecanică.

Pentru a observa efectul termenului scriem:

1

nw

nw

nJnw ij

ijij (1.107)

2

1

11

nwnw

nJnw ij

ijij (1.108)

171

folosindu-ne de relaţiile (1.107) şi (1.108) anterioare obţinem:

nw

nJ

nw

nJnwnw

ijijijij

)(

1

)1(22

(1.109)

continuând dezvoltarea relaţiei (11.104), vom obţine:

tw

tJ

tw

tJwnw

ij

n

t

tn

ij

n

t

tnij

nij

)()(0

00

(1.110)

Folosindu-ne de relaţia (1.110) putem să facem următoarele observaţii:

1. Cantitatea cu care se modifică o pondere wij(n) este o sumă de termeni ponderaţi exponenţial. Pentru ca această serie de timp să fie convergentă plaja de variaţie a momentul trebuie restrânsă la intervalul 0 | | < 1. Cu toate că constanta poate fi atât pozitivă cât şi negativă, este puţin probabil ca în practică să fie utilizată o valoare mai mică ca zero.

2. În momentul în care derivata parţială J(t)/wij(t) are acelaşi semn timp de câteva epoci consecutive suma wij(n) creşte în valoare iar ponderile wij(n) sunt modificate cu o cantitate mai mare. Astfel includerea termenului de tip moment va accelera coborârea pe suprafaţa de eroare.

3. Când derivata parţială J(t)/ wij(t) are semne contrare în epoci consecutive valoarea cantităţii wij(n) scade şi în acest mod ponderile sunt ajustate cu o cantitate mai mică, obţinându-se astfel un efect de stabilizare al algoritmului.

4. În situaţia în care se ajunge într-o regiune plată sau poate într-un minim local nu foarte “adânc” al suprafeţei de eroare, deci atunci când derivata devine zero, este posibil ca algoritmul sa depăşească această zonă tocmai datorită acestui termen de tip moment care asigură o anumită “inerţie” sistemului.

În concluzie putem afirma ca algoritmul de adaptare a ponderilor care

înglobează termen de tip moment este o metodă robustă de creştere a vitezei de învăţare a reţelei neuronale şi este recomandat ca regulă de adaptare implicită pentru reţelele care înglobează neliniarităţi.

Ex.27.

172

2. Utilizarea unui pas adaptiv de învăţare

Simplitatea utilizării unui pas de învăţare constant, de modificare a

ponderilor de-a lungul întregului ciclu de învăţare, este singurul motiv pentru care nu se utilizează o metodă adaptivă de variere a pasului. Observând comportarea erorii, a vectorilor de ponderi sau a ambelor cantităţi simultan putem să obţinem un control superior al procesului de învăţare. Intuitiv putem accepta că în momentul în care suprafaţa de eroare este plată sau are o caracteristică de tip pantă „descrescătoare”, pasul de învăţare trebuie crescut iar în situaţia în care pe curba de învăţare observăm oscilaţii pasul de învăţare trebuie redus. În cazul extrem când eroarea creşte în mod constant putem trage concluzia că procesul de învăţare este instabil, iar procesul de învăţare al reţelei trebuie repornit. În continuare vom prezenta un mod automat şi independent de alegere a constantei de învăţare pentru fiecare pondere din reţea în parte în timpul etapei de învăţare.

În loc să ne uităm la curba de învăţare ne vom folosi de variaţiile obţinute în criteriul de eroare datorate fiecărei ponderi în parte. Astfel, când modificări consecutive ale ponderilor sunt de acelaşi semn putem creşte rata de învăţare. Iar în momentul în care semnul ponderii se modifică în epoci consecutive înseamnă că pasul de învăţare este prea mare şi trebuie sa-l scădem. Aceste reguli simple pot fi puse într-un procedeu de învăţare având scopul de a modifica în mod adaptiv pasul de învăţare pentru fiecare pondere în parte. Pentru a obţine rezultate semnificative trebuie utilizat un pas adaptiv pentru fiecare pondere în parte. Să notăm rata de învăţare a ponderii wij cu ij. Modul de adaptare a fiecărei ponderi în parte este dat de relaţia:

contrarcazîn

nDnSdacănb

nDnSdacăkn

n ijijij

ijijij

ij

0

01

01)(

1

(1.111)

unde Sij este o medie a gradienţilor precedenţi iar Dij este gradientul curent. Când Sij şi Dij au acelaşi semn produsul lor va fi mai mare ca zero. În acest caz avem o convergenţă lentă a algoritmului şi în concluzie pasul de învăţare este crescut cu o anumită cantitate la fiecare iteraţie, acesta fiind un proces lent. În cea de a doua situaţie avem o oscilaţie a ponderii şi în concluzie algoritmul scade rata de învăţare în mod proporţional cu valoarea curentă, dar în mod agresiv. Dacă comparăm aceste cazuri, avem o progresie geometrică în ultima situaţe, comparativ cu priml caz când creşterea era guvernata de o progresie aritmetică. Se obţine astfel o creştere lentă a constantei de învăţare

173

şi o scăderea rapidă a acesteia pentru a evita divergenţa algoritmului şi pierderea întregii cantităţi de informaţiei învăţată.

Dacă Dij(n) este derivata parţială a funcţiei de cost în raport cu pondere wij ( ijwJ ) în timp ce Sij(n) este media derivatei curente şi a celor anterioare,

fiind dată de:

Sij(n) = (1 – )Dij(n) + Sij(n – 1) (1.112)

În relaţia (1.112) este un număr între 0 şi 1. Produsul dintre Sij(n) şi Dij(n) verifică dacă gradientul actual are acelaşi semn ca media sumelor gradienţilor precedenţi. Acest algoritm poartă numele Delta-Bar-Delta.

Există un număr mare de algoritmi care caută să realizeze o modificare adaptivă a pasului de învăţare. Printre aceştia putem aminti: quickprop, algoritmul adaptiv al lui Almeida etc. O problemă de bază cu toţi aceşti algoritmi ţine de faptul că ei au număr destul de mare de parametri de care depinde procesul de învăţare. Pentru toţi aceşti parametri nu există metode clare şi precise de selecţie şi inţializare, ei necesitând iniţializări spcifice pentru fiecare problemă în parte.

Ex.28.

3. Perturbări aleatoare în timpul învăţării

O altă metodă de îmbunătăţire a posibilităţilor de căutare în spaţiul erorii

este de a injecta un zgomot aleator în ponderi sau în răspunsul dorit. Motivaţia introducerii acestui zgomot este de a “scutura” ponderile în timpul procesului de învăţării pentru a minimiza probabilitatea de a „cădea” în minime locale. Metoda este foarte uşor de implementat când zgomotul este introdus în doritul reţelei. În situaţia în care adunăm un zgomot Gaussian de medie zero în răspunsul dorit, obţinem:

dw(n) = d(n) + nw(n) (1.113)

Acest zgomot este injectat prin eroarea instantanee, (n), către ponderi prin algoritmul de propagare inversă a erorii. Marele avantaj al acestei metode (de introducerea a perturbaţiei ponderilor prin sursa de zgomot plasată în doritul reţelei) este dat de existenţa unei singure surse de zgomot introdusă în reţea. Pentru a obţine soluţia optimă trebuie să scădem către zero varianţa zgomotului către sfârşitul procesului de învăţare. Din păcate nu există o abordare riguroasă a modului în care trebuie să scădem varianţa sau să alegem valoarea iniţială pe care trebuie să o dăm varianţei sursei de zgomot.

174

Injectarea zgomotului la intrarea sistemului nu va mai avea o contribuţie liniară la modificarea ponderilor ca în cazul injectării acestui zgomot în semnalul dorit dar s-a demonstrat că şi acest mecanism va produce o mai bună generalizare.

Ex.29.

1.7.3 Criterii de oprire a unei reţele neuronale artificiale

Antrenarea reţelei neuronale trebuie oprită în momentul în care

sistemul a învăţat problema respectivă şi deţine în continuare proprietatea de a generaliza informaţia învăţată. Din păcate nu există o metodă directă pentru a sesiza momentul când acest prag a fost atins, mai de grabă există câteva criterii, fiecare cu meritul lui personal, care pot fi utilizate în oprirea reţelei.

1. Oprirea reţelei bazată pe informaţia furnizată de eroarea pe setul de antrenare

Cea mai simplă metodă de a opri o reţea este de a limita numărul epocilor

de antrenare la o valoare standard predeterminată. Singurul avantaj al acestei metode este simplicitatea, deoarece metoda nu se foloseşte de nici o informaţie pe care sistemul o poate furniza în timpul perioadei de antrenare. În momentul opririi nu există nici o garanţie că reţeaua a găsit vectorii de pondere care sunt cei mai apropiaţi de soluţia optimă.

Pentru formularea unui criteriu mai bun putem analiza proprietățile pe care le deţin minimul local şi cel global pe suprafaţa de eroare. O condiţie necesară impusă vectorilor de ponderi pentru ca reţeaua să atingă minimul global este ca vectorul gradient al ponderilor să fie zero – (w). Astfel putem formula un prim criteriu de oprire al reţelei:

Vom opri procesul de învăţare al reţelei, considerând că aceasta a convers în momentul în care norma Euclidiană a vectorului gradient al ponderilor a atins un prag suficient de mic.

Această metodă necesită în plus şi calcularea vectorului gradient a ponderilor.

O variaţie a criteriului prezentat anterior este aceea de a privi către eroarea medie pătratică a reţelei, . În momentul când eroarea medie pătratică scade sub un anumit prag putem opri procesul de învăţare.

175

Vom opri procesul de învăţare al reţelei, considerând că aceasta a convers în momentul în care , unde este un prag suficient de mic

Deoarece eroarea medie pătratică este doar o mărime indirectă în clasificare ne putem păcăli. Mai mult nu avem nici o garanţie că sistemul va ajunge vreodată la acel prag, astfel încât procesul de învăţare este posibil să nu se oprească niciodată.

O altă proprietate a unui minim de care ne putem folosi este dată de observaţia că RNA atunci când atinge un astfel de punct eroarea medie pătratică este staţionară, ne mai variind foarte mult. În concluzie un alt criteriu de oprire a procesului de învăţare este:

Algoritmul de retropropagare a erorii se consideră că a convers în momentul în care variaţia absolută a erorii pătratice medii pe o epocă este suficient de mică.

Ex.30.

Rata tipică de variaţie a erorii pătratice medii care este considerată suficientă pentru oprirea algoritmului de învăţare este în domeniul de 0.1 până la 1 procent pe epocă. Câteodată chiar şi variaţii de 0.01 pe epocă sunt utilizate. Ideea de bază a acestei metode este de a antrena reţeaua până atunci când nu mai poate să extragă mai multă informaţie din setul de date de antrenare. Din păcate această metodă are dezavantajul de a opri antrenarea reţelei prematur în momentul în care se ajunge în regiuni plate ale suprafeţei de eroare.

Un criteriu hibrid de oprire a fost sugerat în literatură:

Antrenarea reţelei este oprită atunci când vectorul de ponderi wfinal satisface una dintre condiţiile:

|| (wfinal) || , unde este un prag suficient de mic, sau (wfinal) , este un prag de tip energie suficient de mic.

2. Criteriu de oprire bazat pe capacitatea de generalizare a reţelei

Criteriile anterioare prezentate, pentru oprirea unei RNA, nu ne dau nici

un indiciu asupra capacităţii reţelei de a generaliza6 cunoştinţele dobândite în urma procesului de învăţare.

6 Generalizare este abilitatea unei reţele de a clasifica corect vectori de

trăsături de intrare care nu au fost utilizați în setul de antrenare.

176

Informaţii extrase din teoria modelării seturilor de date şi din cea a învăţării ne indică în mod cert că o RNA antrenată cu algoritmul de retropropagare a erorii peste un anumit punct va continua să-şi îmbunătăţească în mod continuu performanţele pe setul de antrenare. Dar, aceste performanţe, după un anumit număr de epoci, se vor înrăutăţi dacă se utilizează un alt set de test – denumit set de crosvalidare, neutilizat în antrenarea RNA, Figura 1.33. Acest fenomen poartă numele de supra-antrenarea RNA sau, termenul echivalent din limba engleză, overtraining. Popular se spune că RNA a început să “tocească” setul de date.

Motivarea acestei segmentări, a setului de antrenare, este de a valida capacitatea de generalizare a modelului neuronal (RNA), utilizându-se pentru aceasta un set de date diferit de cel utilizat în estimarea modelului – diferit deci de cel utilizat în antrenarea RNA, cu ajutorul căruia ponderile au fost modificate funcțe de intrarea rețelei neuronale și de eroarea medie pătratică.

Figura 1.33. Variaţia erorii pe setul de cros validarea şi pe cel de

antrenare; prezentarea punctului optim de oprire a RNA Intuitiv, în prima parte a procesului de adaptare RNA încearcă să

descopere mecanismul intern de generare a setului de antrenare, a corespondenței ce există între intrările RNA și ieșirile dorite. În cea de a doua parte a procesului de adaptare RNA stochează în ponderile sale, precum o memorie RAM (dar în acest caz distribuită), corespondența între intrare și ieșire (pentru un set de valori de intrare care sunt similare cu “acesta” răspunsul este “acesta” etc.) pierzându-și astfel capacitatea de generalizare. Utilizându-se setul de date de crosvalidare, atâta timp cât RNA modelează din ce în ce mai bine funcționala intrare-ieșire, eroarea pe acest set de date va scădea în mod continuu. Dar, din momentul în care RNA va fi suprantrenată, capacitatea de generalizare scade în mod continuu, iar eroarea pe setul de crosvalidare va crește. Deci, antrenarea RNA va fi oprită în momentul în care eroarea pe setul de crosvalidare începe să crească – acesta este momentul în care RNA își atinge capacitatea maximă de generalizare, vezi Figura 1.33.

Punctul de oprire optim

pentru generalizare

Setul de antrenare

Eroare

Epoci

177

Cu toate că utilizarea setului de date de crosvalidare s-a impus ca un standard, pentru identifcarea momentului când RNA își atinge potențele de maximă generalizare, acestă metodă prezintă cel puțin un dezavantaj: setul de crosvalidare micşorează setul de date utilizat în antrenarea RNA. În schimb beneficiile obţinute sunt mult mai mari decât costurile generate de această metodă – din acest motiv utilizarea setului de crosvalidare este recomandată drept criteriu de oprire pentru aplicaţiile reale de clasificare.

Într-o situație reală setul de date, în special atunci când acesta este de mari dimensiuni, va fi împărțit în 3 secțiuni după cum urmează:

1. Seul de antrenare (training set) este utilizat în antrenarea modelelor neuronale – în determinarea parametrilor optimi, a ponderilor neuronale, a fiecărei RNA în vederea obținerii celor mai bune performanțe de clasificare. Deci, acest set este utilizat în determinarea modelului. De exemplu, acest set de date poate fi 60% din întregul set de date inițial.

2. Setul de crosvalidare (cross-validation set) este utilizat în oprirea procesului de adaptare în momentul în care RNA deține capacitatea maximă de generalizare. Dar deoarece dorim să obținem cele mai bune performanțe de clasificare vom testa mai multe tipuri de RNA și/sau algoritmi de clasificare (SVM, MLP, RBF, random forests, k-means, Bayes etc.) cu arhitecturi sau parametri diferiți în vederea obținerii celor mai bune performanțe de clasificare. Din această perspectivă, putem utiliza setul de crosvalidare şi ca un mecanism de alegere a unei RNA sau algoritm de clasifciare dintr-un set de potențiali clasificatori conform performanţelor realizate pe setul de crosvalidare. Din perspectiva utilizării unei singure structuri neuronale, RNA de tip MLP, putem spune că setul de crosvalidare este utilizat în determinarea valorii optime: a numărului de straturi ascunse, a numărului de neuroni pe fiecare strat, a parametrulor algoritmilor de adaptare (rata de învățare - , constantei de tip moment - ), criteriului de eroare (L1 sau L2), etc. Poate reprezenta 20% din întregul set de date.

3. Setul de test (test set) este utilizat în estimarea performanțelor RNA sau a algoritmului ales la pasul anterior, Deci, pentru o structură neuronală de tip MLP aleasă anterior (topologie, număr elemente, parametri de învățare etc.) antrenată (ponderile determinate pe setul de antrenare) evaluarea performanțelor acesteia se face pe setul de test. În conformitate cu datele prezentate anterior dimensiunea acestui set de perechi intrare-dorit este de 20% din setul inițial de date.

178

Există abordări în care modelul particular ales, cel cu cele mai bune performanţe, este apoi antrenat atât pe setul de antrenare cât și pe cel de crosvalidare (reunificate într-un set de date unic), în timp ce abilitatea de a generaliza a reţelei rezultate este măsurată pe setul de date de test.

Mărimile acestor seturi de date, prezentate anterior 60/20/20 (procentuale pe antrenare/crosvalidare/test), nu sunt valori impuse. Astfel, diferiți cercetători utilizează alte rapoarte, precum: 50/25/25 sau 70/15/15.

Ex.31.

1.7.4. Factori ce influenţează procesului de învăţare

1. Mărimea setului de antrenare

Capacitatea de generalizare a unei reţele neuronale artificiale (RNA) este

influenţată de trei factori:

mărimea setului de antrenare, reprezentativitatea setului de antrenare, arhitectura reţelei şi complexitatea problemei de rezolvat.

Cu certitudine nu avem nici un control asupra ultimului factor dar putem să influenţăm capacitate de generalizare din perspectiva celorlalţi trei termeni. Astfel, putem avea următoarele două situaţii:

Arhitectura reţelei fixă – în concordanţă cu complexitatea problemei de rezolvat şi dorim să determinăm mărimea setului de date pentru a obţine performanţele dorite.

Mărimea setului de date este cunoscută, deci avem un număr cunoscut de vectori de trăsături, şi dorim să determinăm cea mai bună arhitectură a reţelei care să ne furnizeze o bună capacitate de generalizare.

Cu toate că ambele abordări, prezentate mai sus, sunt valide ne vom referi doar la ultima care este cea mai des întâlnită în practică. Reţelele neuronale artificiale necesită o cantitate mare de informaţii în setul de antrenare în principal datorită faptului că nu fac nici o presupunere apriori asupra setului de date. În acest context este interesant de aflat raportul ce trebuie să existe între setul de date de antrenare şi mărimea, complexitatea reţelei pentru a obţine o anumită rată de clasificare corectă.

179

În continuare vom descrie rezultatele prezentate în literatură de către Baum şi Haussler [????] care tratează această problemă pentru situaţia unei reţele neuronale cu un singur strat ascuns utilizată drept clasificator binar. Dacă M reprezintă numărul de neuroni de pe stratul ascuns, NW numărul total de ponderi ale reţelei, N numărul de exemplare utilizate în antrenarea reţelei în timp ce reprezintă eroarea maximă în setul de antrenare, s-a demonstrat că reţeaua aproape cu certitudine va avea capacitatea de generalizare dacă următoarele două condiţii sunt îndeplinite:

eroarea realizată pe setul de antrenare este mai mică de /2 şi numărul de exemplare, N, utilizate în antrenarea reţelei este:

MNN W 32

ln32 (1.114)

Ignorând logaritmul natural din relaţia anterioară observăm că numărul de exemplare de antrenare creşte liniar cu numărul de ponderi (aceste ponderi sunt parametri liberi al reţelei) – ceea ce este foarte bine în comparaţie cu alte metode şi invers proporţional cu acurateţea clasificării. În practică pentru o bună generalizare se foloseşte condiţia:

WN

N (1.115)

Astfel, pentru o eroare de 10 procente numărul de exemplare de antrenare trebuie să fie de cel puţin 10 ori mai mare decât numărul de sinapse, ponderi neuronale ale RNA. Această regulă poate fi asumată numai dacă setul de date este reprezentativ pentru întreg spaţiul trăsăturilor. Astfel, din această perspectivă un accent deosebit trebuie pus pe colectarea setului de date. În situaţia în care setul de date nu conţine date dintr-o anumită regiune a spaţiului de trăsături, deci nu este reprezentativ, clasificarea în regiune respectivă se va baza doar pe extrapolări. În această situaţie clasificarea poate sau nu să corespundă realităţii.

Relaţia (1.115) este un factor limitativ. De cele mai multe ori avem setul de date de antrenare disponibil şi pentru a obţine o bună generalizare va trebui să alegem topologia reţelei de o aşa natura astfel încât să ne supunem constrângerii dată de relaţia (1.115).

O posibilă abordare pentru a reduce numărul de ponderi, fără a modifica topologia reţelei, este: (a) de a nu conecta complet spaţiul de intrare la primul strat ascuns sau (b) de a extrage un număr mai mic de trăsături din cele pe care la deţinem (reducând astfel dimensiunea spaţiului de intrare).

Ex.32.

180

2. Scalabilitatea

O altă problemă importantă a sistemelor care au posibilitatea de a învăţa, deci şi a RNA, este aceea de a observa dacă proprietăţile lor (capacitatea de a generaliza, convergenţa etc.) se deteriorează în momentul în care dimensiunile problemei de rezolvat cresc. O importantă concluzie a fost furnizată de Barron, bazată pe analiza erorii medii pătratice pentru probleme de diferite dimensiuni ale spaţiului de intrare, care demonstrează că dacă dispunem de un set de date de antrenare suficient de mare eroarea medie pătratică (pentru o reţea neuronală cu un singur strat ascuns) este independentă de dimensionalitatea spaţiului de intrare şi este invers proporţională cu numărul de neuroni de pe stratul ascuns (O(1/N)).

Deci o reţea neuronală oferă performanţe mult mai bune decât o aproximare polinomială unde eroarea creşte în mod geometric cu dimensiunea d a spaţiului de intrare (O( d N 2/1 )). Din acest motiv putem spune că reţelele neuronale de tip perceptron sunt potrivite problemelor cu dimensionalitate mare a spaţiului trăsăturilor. Această demonstraţie ar putea explica performanţele foarte bune obţinute cu reţele de tip MLP pentru probleme de clasificare având o dimensionalitate mare a spaţiului de trăsături.

3. Timpul de antrenarea

S-a demonstrat experimental ca timpul de antrenare a unei reţele neuronale multistrat creşte exponenţial cu dimensiunea problemei (cu dimensionalitatea spaţiului trăsăturilor). Cu toate că numărul de exemplare pentru antrenare creşte liniar cu numărul de ponderi, timpul de antrenare creşte exponenţial cu dimensiunea reţele. Astfel putem trage concluzia că există probleme care nu pot fi rezolvate de o reţea neuronală multistrat antrenată cu algoritmul de propagare inversă a erorii. Pentru a contrabalansa această tendinţă putem utiliza reţele modulare sau reţele a căror straturi nu vor mai fi complet conectate între ele.

În practică această creştere exponenţială a timpului de antrenare cu dimensiunile reţelei susţine ideea de a începe cu reţele de mici dimensiuni urmând ca apoi să creştem complexitatea acestora dacă performanţele sunt nesatisfăcătoare. Mai mult aceast aspect accentuează importanţa unor metode de antrenare care să fie capabile să extragă mai eficient informaţia din setul de date în comparaţie cu metodele de tip gradient.

181

4. Evaluarea erorii

Pentru a putea utiliza reţelele neuronale artificiale în probleme reale este

foarte important să găsim un criteriu pentru a analiza rezultatele obţinute cu un anumit tip de reţea (de exemplu: MLP, RBF7, SVM8 etc.) sau cu o anumită topologie a acelei reţele neuronale artificiale. Caracteristica de învăţare (eroarea medie pătratică versus numărul de epoci) este un indicator viabil în analiza şi observarea procesului de învăţare dar din păcate eroarea medie pătratică pe setul de antrenare sau test este doar o măsură indirectă a performanţei clasificatorului. Eroarea medie pătratică depinde de normalizarea setului de date, de caracteristicile setului de date de intrare şi a răspunsului dorit. Pentru a avea o idee cât din varianţa setului de date dorit a fost prinsă în modelul neuronal ar trebui să normalizăm eroarea totală la varianţa răspunsului dorit. Putem spune că formularea anterioară este o reminiscenţă a coeficientului de corelaţie, dar totodată nu există o relaţie precisă între acurateţea clasificării şi eroarea medie pătratică.

Clasa 1 Clasa 2 Pe drept aparţinând:Clasa 1 Corect Clasei 1 Incorect Clasei 1 clasei 1 Clasa 2 Incorect Clasei 2 Corect Clasei 2 clasei 2

Clasificate de RNA în:

clasa 1 clasa 2 Nr. total eşantioane

Figura 1.34. Matricea confuziilor pentru un clasificator proiectat să lucreze cu două clase

Performanţa clasificatorului trebuie măsurată în funcţie de eroarea de

clasificare – numărul de eşantioane care sunt clasificate incorect normalizat la numărul total de eşantioane. Acurateţea clasificării devine unu minus eroarea de clasificare. În concluzie un parametru mai relevant de măsurare a erorii este matricea confuziilor, Figura 1.34, în care se regăsesc numărul exact al vectorilor de test clasificaţi în mod greşit. Matricea de confuzie este un tabel unde numărul apartenenţelor reale ale elementelor la diferitele clase este comparat cu informaţia furnizată la ieşirea reţelei. Să presupunem că valoarea reală de apartenenţă a eşantioanelor la o clasă este reprezentată pe liniile tabelului (fiecare linie a tabelului semnifică una dintre clasele existente la care poate aparţine vectorul de trăsături pe drept), în timp

7 RBF – rețea neuronală de tipul Radial Basis Function 8 SVM – rețea neuronală de tipul Support Vector Machines

Aparţinând de drept

Clasificate de reţeaua neuronală

182

ce valoarea furnizată de reţea este dată pe coloane. O clasificare perfectă furnizează o matrice a confuziilor care are elemente numai pe diagonala principală, celelalte valori fiind zero. Eroarea de clasificare fiind suma tuturor elementelor care nu se află pe diagonala principală supra numărul total de eşantioane.

Matricea de confuzie ne permite o vizualizare imediată şi convenabilă a zonelor unde clasificatorul are probleme. În general unele dintre clase vor fi mai separabile decât altele – această informaţie fiind foarte uşor de extras din matricea confuziilor – şi, în plus, se evidenţiază uşor clasele cu probleme de clasificare. În concluzie, matricea confuziilor este o metodă foarte bună de cuantificare a acurateţii clasificatorului. În plus trebuie subliniat că în procesul de testare a clasificatorului, pentru a evalua performanţele sale, trebuie să folosim doar setul de test.

Ex. 33.

O dată ce am stabilit că prin intermediul procesului de învăţare nu s-a reuşit să se extragă din setul de date acele informaţii relevante pentru obţinerea unor performanţe superioare în procesul clasificări (deci obţinem un număr mare de eşantioane clasificate incorect în matricea confuziilor), pasul următor este de a găsi cauza sau cauzele care au determinat ca procesul de învăţare să nu fie un succes. Slabele performanţe obţinute pot să aibă mai multe explicaţii:

reţeaua neuronală nu deţine puterea necesară pentru clasificarea corectă a setului de date, cuantizată în:

numărul de straturi, sau număr insuficient de neuroni pe straturile existente;

procesul de învăţare este captiv într-un minim local; reţeaua neuronală este suprantrenată; probleme generate de setul de date utilizat în antrenare:

nu avem destule exemplare în setul de date, sau exemplarele pe care le avem nu sunt reprezentative pentru

problema în cauză; problema de rezolvat este prea complexă pentru trăsăturile pe care noi

le-am extras, deci trebuie să transformăm intrările sau să adăugăm/alege noi trăsături pentru a simplifica procesul de clasificare.

Din păcate nu există nici o regulă generală de a testa şi identifica care din aceste probleme sau ce combinaţie a lor determină obţinerea unor performanţe slabe de clasificare. Cel care a proiectat clasificatorul trebuie sa-

183

şi utilizeze informaţiile pe care le deţine şi experienţa pe care o are pentru a îmbunătăţi performanţele acestuia.

Problemă: Pentru problema, anterior rezolvată, a clasificării unui set de

date generat în mod similar celui obţinut prin intermediul unei porţi de tip XOR, să:

1. se determine ecuaţia analitică a erori medii pătratice funcţie de ponderile w1S1 şi w2S1 ce aparţin neuronului care generează suprafaţa de decizie S1.

2. se reprezinte grafic această suprafaţă de eroare.

Pentru rezolvarea aceste probleme se va ţine cont că: (a). bias-ul neuronului generator al suprafeţei S1 şi-a păstrat

valoarea 10; (b). în plus, pentru ceilalţi doi neuroni valorile ponderilor şi a bias-

urilor lor au fost păstrate conform celor calculate în cadrul problemei rezolvate anterior (w1S2 = -10, w2S2 = -10, bS2 = 10, w1o = 10, w2o = 10 şi bo = -10);

(c). funcţia de activare a tuturor neuronilor reţelei este de tipul tangenthiperbolic.

Rezolvare:

1. La modul cel mai general ecuaţia unei suprafeţe de decizie generată de unul dintre cei doi neuroni situaţi pe stratul ascuns este dată de relaţia:

bwxwxbwwxxg 22112121 ),,,,( (1.116)

Funcţia de activare fiind de tip tangent hiperbolic este descrisă de relaţia:

xxfactiv tanh (1.117)

În aceste condiţii ieşirea reţelei neuronale va fi:

1010,10,10,,10

10,,,,10,,,

21

21212121

xxgf

wwxxgffwwxxOut

activ

activactiv (1.118)

Eroarea medie pătratică este:

n

kkk yd

nJ

1

21 (1.119)

În relaţia anterioară dk este doritul reţelei (valoarea pe care

184

în mod ideal reţeaua neuronală artificială ar trebui să o genereze atunci când se aplică la intrări vectorul de trăsături cu numărul k) iar yk este ieşirea reală a reţelei neuronale. Eroarea medie pătratică se calculează pentru toate cele n exemplare ale setului de antrenare. În situaţia noastră particulară avem:

2121 ,,, wwxxOuty kkk (1.120)

Ecuaţia analitică a erori medii pătratice funcţie de ponderile w1 şi w2 a neuronului care generează suprafaţa de decizie S1 este:

2

212

21

221

22121

,,1,11,,1,11

,,1,11,,1,114

1,

wwOutwwOut

wwOutwwOutwwJ

(1.121)

Figura 1.35. Reprezentarea grafică a suprafeţei de eroare funcţie de ponderile w1, w2 a neuronului generator a suprafeţei

de decizie S1

-15

-10

-5

0

5

10

15-15 -10 -5 0 5 10 15

0

1

2

-15

-10

-5

5

10

15

-15 -10 -5 5 10 15

(a).

(b).

w1

w2

w1

w2

J(w1, w2)

Zone de minim local de tip „platou”

Zonă de minim global

185

2. Suprafaţa de eroare obţinută este prezentată în Figura 1.35, din două perspective diferite de vizualizare.

Din Figura 1.35 se observă că chiar şi în situaţia unei probleme foarte simple (cum este aceea a clasificării unui set de date cu o distribuţie similară cu cea obţinută folosind o poartă sau-exclusiv) suprafaţa de eroare, obţinută doar pentru două ponderi ale unui singur neuron, prezintă zone de minim local ce „înconjoară” minimul global. În aceste regiuni derivata erorii medii pătratice funcţie de vectorul de ponderi este zero iar ponderile reţelei nu îşi mai pot modifica valoarea datorită procesului de adaptare. Într-o astfel de situaţie se spune că procesul de învăţare este captiv într-un minim local.

Pentru depăşirea minimelor locale metoda care s-a impus este aceea de utilizare a unui termen de tip moment în cadrul algoritmului de retropropagare a erorii. Acest termen prin „inerţia” pe care o aduce algoritmului de adaptare permite modificarea ponderilor chiar atunci când derivata erorii medii pătratice este zero.

Din definiţia erorii medii pătratice particularizată pentru problema de faţă (relaţia (1.121)) se observă că dacă doar un singur element este clasificat în mod greşit J(w1*, w2*) = 1 iar pentru clasificarea greşită a două elemente J(w1

#, w2#) = 2. Deci

din (1.121) se observă că reţeaua neuronală cu un singur strat ascuns, pentru această problemă în această configuraţie (doar la un singur neuron ponderile sunt lăsate libere), poate clasifica cu o eroare de un element sau de două elemente în conformitate cu valorile pe care ponderile le pot lua.

1.7.5. Criterii de eroare

În procesul de învăţare supervizată, de modificare adaptivă a

ponderilor unei RNA, diferenţa dintre răspunsul dorit şi ieşirea actuală a reţelei este utilizat în adaptarea RNA pentru găsirea valorii minime a erorii a suprafaţei de eroare – dată de eroarea medie pătratică versus ponderile reţelei, un astfel de exemplu (doar pentru două ponderi) este prezentat în Figura 1.35. Reprezentarea grafică a suprafeţei de eroare funcţie de ponderile w1, w2 a neuronului generator a suprafeţei de decizie S1.

186

Unul dintre parametrii reţelei neuronale care influenţează procesul de învăţare este chiar modul în care definim criteriul de eroare sau funcţia de cost prin care măsurăm distanţa între dorit şi ieşirea reţelei. O reţea neuronală artificială de tip perceptron multistrat va furniza o ieşire pentru fiecare vector de trăsături prezentat la intrarea acesteia. Astfel, costul (eroarea) J se calculează ca o sumă a costurilor individuale obţinute pentru fiecare prezentare separată a fiecărui vectori de trăsături de la intrare:

k n

nkJJ (1.122)

unde k este un index al tuturor ieşirilor sistemului în timp ce n este un index al exemplarelor de intrare.

Costul individual Jnk este definit ca: Jnk = f ( dnk – ynk ) = f (nk ), unde nk este eroarea instantanee. În această situaţie, singura problemă care mai rămâne de rezolvat este dată de modalitate de alegere a funcţiei de cost f.

Criteriul erorii medii pătratice (MSE – mean square error) defineşte costul individual ca pătratul erorii instantanee între ieşirea dorită şi cea furnizată de reţea:

Jnk = (dnk – ynk )2 (1.123)

Utilizarea erorii medii pătratice are următoarele avantaje:

pentru o reţea liniară, eroarea medie pătratică conduce la o problemă de optimizare liniară, care are întotdeauna o soluţie analitică,

acceptă în anumite condiții o interpretare probabilistică a ieşirii reţelei neuronale,

criteriul este foarte uşor de implementat numeric deoarece atunci când retropropagăm eroarea medie pătratică vom modifica ponderile reţelei cu o cantitate direct proporţională cu eroarea instantanee. Deci, nu suntem obligaţi să calculăm pentru fiecare pondere pătratul unei anumite valori.

Oare mai este nevoie de alte criterii? Pentru a răspunde la această întrebare ne putem uita în Figura 1.36 pentru a înțelege mai bine modul de comportare a diferitelor criterii de eroare.

În figura de mai jos sunt prezentate diferite funcţii de cost pentru diferite puteri a erorii instantanee. În cazul erorii medii pătratice MSE costul este pătratul erorii instantanee. Daca ne amintim cantitatea cu care se modifică ponderile ( wij = jxi) ne dăm seama că este o cantitate direct proporţională cu valoarea erorii şi derivata funcţiei de activare a neuronului – ambii temeni

187

sunt daţi prin intermediul factorului j. Deci, ponderile sunt sensibile la valori mari ale erorii. Acest lucru este rezonabil şi chiar de dorit dacă setul de date este fără largi deviaţii, dar în practică în setul de date vom întâlni adeseori valori extreme. Reţelele neuronale care au neliniarităţi saturate vor ţine sub control mai bine aceste valori decât sistemele liniare, cu toate acestea sunt în continuare mai sensibile la erori mari decât la cele de valori mici. Deoarece valorile ponderilor determină orientarea şi poziţia suprafeţelor de decizie ne aşteptăm ca valorile extreme să influenţeze în mod „substanţial” poziţia funcţiilor discriminant.

Figura 1.36. Reprezentarea grafică a modurilor de variaţi a erorii totale

pentru diferite tipuri de funcţii de cost individuale

Dacă dorim să modificăm modul în care eroarea instantanee influenţează ponderile, putem defini funcţia de cost mai general, în forma:

p

nknknk ydJ (1.124)

În relaţia anterioară p este un număr întreg. În mod normal funcţia de cost este denumită norma de tip p (Lp) a erorii instantanee nk. Când p = 2 obţinem norma de tip L2 care este criteriul erorii medii pătratice (MSE) sau în mod echivalent spunem că utilizăm metrica Eclidiană. Când p = 1 obţinem norma L1 care mai este cunoscută şi sub denumirea de metrică Manhattan. Se poate observa că L1 va fi proporţională direct cu amplitudinea erorii instantanee şi va fi mai puţin senzitivă la valorile extreme decât norma L2. Din acest motiv ea este considerată o normă mai robustă. În general pentru p > 2 se obţin deviaţii şi mai mari.

Ex. 34.

Diferite norme furnizează diferite soluţii la o problemă, deoarece ponderile sunt modificate cu valori care sunt dependente şi de normă şi deci

p = 1

p > 2

p = 2

1.1 -1.1

J

188

poziţiile funcţiilor discriminant sunt afectate în mod direct şi de norma utilizată.

Ex. 35.

Pentru valori pentru p pozitive şi întregi, derivata normei poate fi calculată foarte uşor cu ajutorul relaţiei:

nknk

p

nknknk

nk ydsignydy

J

1

(1.125)

Un alt posibil criteriu de calculare a erorii este pentru cazul când p = 0, deci vom utiliza exclusiv doar semnul deviaţiei.

1.7.6. Complexitatea reţelei neuronale artificiale şi capacitatea de generalizare

Până acum am discutat legătura care trebuie să existe între:

numărul de funcţii discriminant necesare pentru rezolvarea unei probleme şi numărul de neuroni,

cât şi corelaţia care trebuie să existe între:

numărul de ponderi şi cel al exemplarelor de antrenare.

Astfel, am putea trage concluzia că cu cât vom avea o reţea mai mare cu atât vom avea performanţe mai bune (evident dacă avem un număr suficient de exemplare pentru antrenare). Dar, s-a observat anterior că sisteme mari, complexe nu au performanţe bune de învăţare şi mai ales au probleme în abilitatea de a generaliza. Aşadar, întrebarea fundamentală în aplicaţiile practice rămâne: Cât de bine se descurcă reţeaua neuronală artificială în setul de test? Deci, reformulând: Care sunt performanţele de generalizare ale reţelei funcţie de topologia acesteia?

După cum am discutat, o reţea neuronală de tip perceptron multistrat, MLP, antrenată cu algoritmul backpropagation nu controlează capacitatea ei de generalizare. Utilizarea setului de cros-validare pentru oprirea procesului de învăţare ne permite să maximizăm capacitatea de generalizare a unei reţelei. Oricum această metodă nu ne furnizează un mecanism de a stabili cea mai bună topologie pentru a obţine capacităţi maxime de generalizare. În continuare se încearcă a răspunde la întrebarea dacă reţelele complexe păstrează capacităţile de generalizare a celor de mai mici dimensiuni.

189

Dacă ne imaginăm modul în care o reţea neuronală lucrează vom observa imediat că mărimea ei (numită şi complexitatea modelului) este legată de performanţele obţinute. În cazul în care avem prea puţine ponderi nu putem atinge performanţe superioare, în principal din lipsa puterii de discriminare. Dacă reţeaua este prea mare, nu va generaliza, deoarece va memora setul de date. O reţea neuronală intermediară ca mărime ar fi cea mai bună alegere. În concluzie, pentru a obţine performanţe superioare, o metodă de control a complexităţii devine indispensabilă în proiectarea RNA.

Rezolvarea problemei complexităţii reţelei poate fi exprimată într-o manieră simplificată făcând apel la un vechi adagiu (cunoscut sub numele de „lama lui Occam”):

Orice reţea neuronală trebuie să fie suficient de complexă pentru a putea rezolva problema dar nu mai complexă de atât.

Singura problemă este să ştim cât de complexă. Există două abordări ale acestei probleme:

fie începem cu o reţea de mici dimensiuni şi începem sa-i creştem complexitatea – metoda creşterii complexităţii – sau

începem cu o reţea complexă şi mergem în sens opus - metoda reducerii complexităţii.

Prin reducerea complexităţii eliminăm fie ponderi, fie neuroni din RNA. Pentru a obţine o metodă sistematică de reducere a complexităţii trebuie să găsim un criteriu pentru a determina ce trebuie eliminat fără a afecta în mod semnificativ performanţele reţelei. Vom descrie două metode de eliminare a ponderilor:

pe baza valorii lor şi prin calcularea importanţei ponderilor în procesul de clasificare.

1. Eliminarea ponderilor

Ideea de bază ce guvernează acest algoritm de eliminare a ponderilor este

de a crea o forţă care să acţioneze în direcţia scăderii tuturor ponderilor spre zero în timpul procesului de adaptare. Dacă în procesul de mapare intrare – ieşire anumite ponderi trebuie să aibă valori mari, atunci algoritmul de învăţare le va modifica pe acestea în mod constant, celelalte ponderi în schimb vor fi făcute zero. Această idee poate fi implementată foarte simplu prin introducerea unui termen suplimentar în algoritmul de adaptare al ponderilor:

190

nw

nJnwnw

ijijij

)(11 (1.126)

In relaţia (1.126) rata de învăţare iar constanta de diminuare a valorii ponderilor. Ulterior ponderile mai mici decât o anumită valoare vor fi eliminate reducându-se astfel gradul de libertate a reţelei. Acest algoritm de diminuare a ponderilor nu trebuie, însă, aplicat şi ponderilor de tip bias. O modalitate alternativă este de a utiliza semnul ponderii pentru a schimba valoarea aceste-ia:

nwnw

nJnwnw ij

ijijij sgn1

(1.127)

unde sgn() este funcţia de tip semn. Problema generata de ecuaţia anterioara este data de faptul ca favorizează existenţa în cadrul RNA a mai multor ponderi de valori mici decât existenţa uneia sau doar a câteva ponderi de valoare/valori mare/mari. Pentru a contracara acest efect vom utiliza un algoritm de diminuare a ponderilor pentru care constanta de diminuare va fi mai mică pentru ponderi de valoare mare:

nw

nJ

nwnwnw

ijijijij

2111 (1.128)

Procedeul de diminuare al ponderilor este foarte uşor de implementat, singura problemă este generată de modalitatea de alegere a constantei astfel încât procesul de convergenţă al algoritmului să fie eficace iar ponderile inutile să fie făcute zero in timpul procesului de adaptare.

Ex. 37.

2. Comitetul de reţele

Am văzut că procesul de învăţare este unul de tip stohastic, deci trebuie

să antrenăm aceiaşi reţea de câteva ori pentru a fi siguri că rezultatele pe care le obţinem sunt cele mai bune. Tocmai am văzut că alegerea topologiei reţelei neuronale este o alegere dificilă deoarece trebuie să luăm în considerare în primul rând capacitatea de generalizare a sistemului care este dependentă de dimensiunile acestuia.

191

O metodă de îmbunătăţire a performanţelor clasificator neuronali este de a utiliza mai multe reţele neuronale de diferite dimensiuni, având diferite caracteristici şi topologii în rezolvarea aceleiaşi probleme. Să presupunem că antrenăm un număr M de reţele neuronale cu acelaşi set de date. Tentant este de a utiliza în practică reţeaua care produce cea mai mică eroare în setul de antrenare. Strategia nu este foarte bună deoarece pierdem toate celelalte antrenări şi în plus cea mai bună eroare în setul de antrenare nu determină implicit şi eroare mică în setul de test. O strategie mai bună ar fi dacă am utiliza toate reţelele antrenate, deci să luăm o decizie pe baza comitetului, a grupului de reţele. Să analizăm ce se întâmplă dacă mediem ieşirile reţelelor:

M

iicom y

My

1

1 (1.129)

Dacă presupunem că erorile date de fiecare reţea în parte au valoarea medie zero şi sunt necorelate, putem arăta că eroarea comitetului de reţele este:

JM

Jcom

1 (1.130)

unde J este media erorii fiecărei reţele pentru situaţia în care lucrează individual. Deci în concluzie eroarea comitetului este de M ori mai mică cea ce înseamnă o reducere importantă. Acest punct de vedere este unul optimistic deoarece eroarea printre reţele comitetului nu este necorelată. Avantajul major vine din reducerea varianţei erorii prin medierea fiecărei ieşiri în mod individual. Complexitate unei reţele dintr-un comitet trebuie să fie puţin mai mare decât în cazul în care reţeaua va fi utilizată în mod independent. O ponderare a ieşirilor reţelei (proporţională cu performanţele fiecăreia) poate fi utilizată în locul unei simple medieri pentru a obţine rezultate superioare. Modificarea adaptivă a ponderilor sistemului sumator al comitetului de reţele poate fi o altă metodă utilizată.

Ex. 38.

1. reţele neuronale artificiale - etc. · pdf file-arbore dendridic – este structura...

Documents