curs 11. algoritmi aleatori. aplicații în...

38

Biostatistica si bioinformatica (2016) - Curs 11 Curs 11. Algoritmi aleatori. Aplicații în bioinformatică Biblio: cap. 12 din “An introduction to Bioinformatics algorithms”, N.Jones, P. Pevzner

Upload: others

Post on 05-Jan-2020

14 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Curs 11. Algoritmi aleatori. Aplicații în bioinformatică

Biblio: cap. 12 din “An introduction to Bioinformatics algorithms”, N.Jones, P. Pevzner

Page 2: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Algoritmi aleatori

Specific

Algoritmi de tip Las Vegas

Algoritmi de tip Monte Carlo Metode aleatoare pentru identificarea șabloanelor Metode aleatoare pentru identificarea structurii proteinelor

Page 3: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Specific Algoritmii aleatori folosesc valori aleatoare pe parcursul execuției

La rulări diferite secvența de prelucrări, numărul de prelucrări

efectuate sau chiar rezultatele pot fi diferite

Se folosesc în special pentru probleme dificile pentru care algoritmii determiniști sunt ineficienți

Probleme de căutare în spații de dimensiune mare (căutarea aleatoare evită

parcurgerea întregului spațiu de căutare) Probleme de optimizare globală în cazul funcțiilor multimodale (elementele

aleatoare permit evitarea blocării în minime locale)

Page 4: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Variante Algoritmi de tip Las Vegas

Conduc la același rezultat la fiecare rulare Rulările diferă din punct de vedere al numărului de operații efectuate

(acest lucru are importanță în evaluarea complexității în cazul mediu – fiind util în special în cazul în care algoritmul este apelat de multe ori în cadrul unei aplicații)

Exemplu: QuickSort cu alegere aleatoare a valorii elementului pivot

Algoritmi de tip Monte Carlo Conduc la rezultate diferite la rulări diferite Aplicații: simularea unor fenomene fizice, aproximarea integralelor

multiple, determinarea optimului global al unei funcții

Page 5: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

QuickSort cu alegere aleatoare a pivotului Reminder Idee: tehnica divizării (divide and conquer) 1. alege o valoare de referință (pivot) 2. reorganizează tabloul astfel ca toate elementele din prima parte a tabloului să fie mai mici decât pivotul iar toate elementele din a doua parte a tabloului să fie mai mari decât pivotul 3.aplică aceeași strategie pentru fiecare subtablou

3 1 2 4 7 5 8

3 1 2 7 5 8

1 2 3 5 7 8

1 2 3 4 5 7 8

Page 6: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

QuickSort cu alegere aleatoare a pivotului quicksort(x[left..right]) IF le<ri THEN q:=pivot(x[left..right]) x[left..q-1]:=quicksort1(x[left..q-1]) x[q+1..right]:=quicksort1(x[q+1..right]) ENDIF RETURN x[left..right]

pivot(x[left..right]) index:=random(left,right) v:=x[index] i:=left-1 j:=right WHILE i<j DO REPEAT i:=i+1 UNTIL x[i]>=v REPEAT j:=j-1 UNTIL x[j]<=v IF i<j THEN x[i]↔x[j] ENDIF ENDWHILE x[i] ↔ x[right] RETURN i Obs: index este indicele unui element selectat aleator din x

Page 7: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

QuickSort cu alegere aleatoare a pivotului

Analiza complexității:

1 7 5 3 8 2 4 1 7 5 3 8 2 4

1 7 5 3 8 2 4

1 2 5 3 8 7 4

1 2 3 5 8 7 4

1 2 3 4 8 7 5

1 7 5 3 8 2 4

Partiționare echilibrată

Exemplul 1: Exemplul 2:

Exemplul 3:

1 7 5 3 4 2 8

Partiționări dezechilibrate

Page 8: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

QuickSort cu alegere aleatoare a pivotului

Analiza complexității: Numărul de operații efectuate depinde de tipul partiționării: - partiționare dezechilibrată (cazul cel mai defavorabil): O(n2) - partiționare echilibrată (cazul cel mai favorabil): O(nlogn) Cazul mediu: O(nlogn) Alegerea aleatoare a valorii pivotului permite reducerea numărului de situații în care se ajunge la partiționare dezechilibrată Obs. pentru ca o partiționare sa fie echilibrată e suficient ca pivotul (poziția de partiționare) să fie plasat în vecinătatea lui n/k sau a lui n(1-1/k) cu k<10

Page 9: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Algoritmi aleatori pentru identificarea sabloanelor Enunț (reminder curs 5): Pornind de la un set de t secvențe ADN, fiecare de lungime n, să se găsească un set de subsecvențe de lungime dată l, câte una din fiecare secvență astfel încât scorul de potrivire asociat sa fie maxim

sablonuluia ipozitia ink inucleotidefrecventa ),(

),(max),(1 },,,{

=

= ∑=

∈

ikP

ikPsetsscorl

i TGCÁk

Set de secvențe a G g t a c T t C c A t a c g t a c g t T A g t a c g t C c A t C c g t a c g G _________________ Matrice profil A 3 0 1 0 3 1 1 0 C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 _________________ Sablon consensual a c g t a c g t Scor: 3+4+4+5+3+4+3+4=30

Obs: set=setul de t secvențe s=(s1,s2,…st) pozițiile de start ale șablonului în cele t secvențe

Page 10: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Algoritmi aleatori pentru identificarea sabloanelor

Branch and bound Gen(k) IF k=t+1 THEN “prelucrează s[1..t]” actualizează maxScor ELSE inițializare lista candidati L FOR i:=1, m DO s[k]:=i IF scor(s[1..k])+l*(t-k)>maxScor

THEN adauga s[k] la lista L sortează lista descrescător după scor FOR fiecare element i din lista L DO s[k]=i Gen(k+1) obs: m=n-l+1

Greedy: Se determină s1 și s2 FOR i:=3,t Determină si ce maximizează scorul în raport cu alinierea parțială constituită din primele i șabloane selectate

Reminder curs 5

Page 11: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Algoritmi aleatori pentru identificarea sabloanelor Idee: - se pornește de la un set aleator de puncte de start s=(s1,s2,…,st) - se modifică succesiv componentele vectorului s fie aplicând o strategie greedy fie folosind o distribuție de probabilitate Specific: - se folosește o probabilitate de potrivire dintre o subsecvență a=a1…al și un profil P (matrice 4xl care conține frecvențele relative de apariție ale nucleotidelor în setul de secvențe aliniate)

∏=

=l

iiai

pPaprob1

,)|( Frecvența relativă a nucleotidei ai pe poziția i în setul de secvențe aliniate

Obs: dacă a este apropiată de șablonul consensual atunci prob(a|P) va fi mare, altfel prob(a|P) va fi mică

Page 12: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Algoritmi aleatori pentru identificarea sabloanelor Exemplu (l=6):

A 1/2 7/8 3/8 0 1/8 0 C 1/8 0 1/2 5/8 3/8 0 T 1/8 1/8 0 0 1/4 7/8 G 1/4 0 1/8 3/8 1/4 1/8

Prob(atacag|P) = 1/2 x 1/8 x 3/8 x 5/8 x 1/8 x 1/8 = .001602

Prob(aaacct|P) = 1/2 x 7/8 x 3/8 x 5/8 x 3/8 x 7/8 = .033646

Probabilitate șablon consensual:

Probabilitatea altui sir:

Obs: de regulă se caută subsecvențe dintr-o secvență care maximizează probabilitatea de potrivire cu matricea profil

Page 13: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Algoritmi aleatori pentru identificarea sabloanelor Abordare greedy (hill climbing) bazată pe probabilitățile de potrivire:

Pas 1. Selectează aleator poziții de start s=(s1,s2,…,st) și stabilește scorul corespunzător

Pas 2. Creează matricea de profil corespunzătoare configurației s

Pas 3. Identifică în fiecare secvență cea mai probabilă subsecvență (în raport cu profilul curent)

Pas 4. Calculează un nou profil și scorul corespunzător

Pas 5. Dacă s-a obținut o îmbunătățire a scorului se trece la Pas 3 alfel STOP

Page 14: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Algoritmi aleatori pentru identificarea sabloanelor Observații: 1. Fiind metodă de tip hill climbing se poate bloca în optime locale 2. O variantă îmbunătățită care nu se bazează pe o alegere greedy ci pe una aleatoare (în conformitate cu o distribuție de probabilitate care favorizează configurațiile de scor mare) este cea bazată pe selecție de tip Gibbs (Gibbs sampling)

Page 15: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Gibbs sampling pentru identificarea sabloanelor Particularităti ale metodelor de tip Gibbs sampling: 1. la fiecare iterație se modifică punctul de start corespunzător unei singure subsecvențe (în varianta greedy era posibil să se modifice mai multe poziții de start simultan) 2. modificarea are caracter aleator ceea ce permite să se evite optimele locale (varianta greedy se blochează frecvent în optime locale)

Page 16: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Gibbs sampling pentru identificarea sabloanelor Etape: Pas 1. Selectează aleator poziții de start s=(s1,s2,…,st) Pas 2. Se alege uniform aleator una dintre secvențe (pentru care se va modifica poziția de start a subsecvenței) Pas 3. Se construiește profilul corespunzător celorlalte t-1 subsecvențe Pas 4. Pentru fiecare poziție din secvența selectată se calculează probabilitatea de potrivire cu profilul construit la Pasul 3; pornind de la cele m=n-l+1 probabilități se construiește o distribuție de probabilitate pentru poziții de start (din mulțimea {1,2,…,m}) Pas 5. Se generează în secvența selectată un punct de start în conformitate cu distribuția de probabilitate de la Pasul 4 Pas 6. Dacă nu este satisfacută condiția de oprire se reia de la Pasul 2

Page 17: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Gibbs sampling pentru identificarea sabloanelor Obs: 1. condiția de oprire se poate referi la un număr maxim de iterații sau la faptul că nu s-au mai obținut îmbunătățiri ale soluției în ultimele k iterații (k = parametru stabilit de către utilizator) 2. ca orice algoritm aleator necesită rularea de mai multe ori și interpretarea rezultatelor în context statistic

Page 18: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Structura primară: secvență de aminoacizi Structura secundară: ansamblu de structuri locale caracterizate prin maniera de grupare a aminoacizilor vecini: - elice (alfa) - panglici (beta) - bucle Structura terțiară: aranjarea spațială a ansamblului de aminoacizi astfel ca aminoacizi aflați la distanță mare în secvență ajung să fie apropiați spațial

Page 19: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Structura cuaternară: gruparea mai multor secvențe împachetate într-un complex de proteine Exemplu:

Page 20: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Problema împachetării proteinelor = determinarea structurilor alfa, beta și a buclelor Este echivalentă cu o problemă de optimizare (dpdv fizic se urmărește minimizarea energiei libere a structurii) Estimarea energiei libere este dificil de realizat – din acest motiv se utilizeaza modele simplificate Variante simplificate ale problemei: - modelul de tip contact direct - modelul HP (hidrofobic – polar (hidrofilic)) Ambele variante presupun ca aminoacizii sunt plasați în nodurile unei grile sau latici (bi sau tridimensionale)

Page 21: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding)

initiala) secventain esunt vecinnu (dar

in cu vecin este d.n.d 1),(cu ),()(,

CssjijiwCf jiji

ij =∆∆=∑

Modelul de tip contact direct: - pentru o secvență s1s2…sn se caută configurația C care maximizează

Obs. Factorii wij măsoară gradul de interacțiune dintre si și sj. In cazul cel mai simplu wij este nenul doar dacă si=sj

Exemplu: bacbbcacba f(C)=4

Page 22: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding)

initiala) secventain esunt vecinnu (dar

in cu vecin este d.n.d 1),(cu ),()(,

CssjijiwCf jiji

ij =∆∆=∑

Modelul HP (K. Dill, 1985): se bazează pe următoarele proprietăți ale aminoacizilor - aminoacizii hidrofobici (H – non-polari) au tendința să se concentreze în interiorul structurii - aminoacizii hidrofilici (P - polari) se distribuie la suprafața structurii - scorul configurației este similar celui de la modelul de tip contact direct:

Obs. • Factorii wij măsoară gradul de interacțiune dintre si și sj. In cazul cel mai

simplu wijeste nenul doar dacă si și sj sunt ambii hidrofobici • Despre 2 aminoacizi de tip H care sunt vecini in cadrul grilei dar nu sunt

vecini in cadrul secvenței se spune că formează un contact

Page 23: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Modelul HP: ilustrare configuratii. Conventie de reprezentare: verde: H (hidrofobic), gri: P (hidrofilic),

Secventa: HPPHPH

Page 24: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Modelul HP: reprezentarea unei configurații corespunzătoare unei secvențe de n aminoacizi Idee: pentru fiecare element din secvență se specifică direcția de deplasare pentru a ajunge la poziția corespunzătoare următorului element 2D: există 4 direcții posibile: Left, Right, Up, Down 3D: există 6 direcții posibile: cele patru de mai sus + Forward, Backward

Right Left

Up

Down

Forward

Backward

Page 25: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Modelul HP: reprezentarea unei configurații corespunzătoare unei secvențe de n aminoacizi Exemplu: (pt configurația încadrată): RULLD

Right Left

Up

Down

R

U

L L

D

Page 26: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Rezolvarea problemei de optimizare:

• Algoritmi determiniști

• Exacți (similari cu branch and bound) – garantează obținerea soluției

optimale însă sunt de complexitate exponențială • Aproximativi – conduc la soluții sub-optimale în timp polinomial (există

rezultate teoretice privind calitatea soluției: pt minimizarea unei funcții f valoarea soluției aproximative f(aprox) nu depășește a*f(exact), a fiind un raport de aproximare)

Page 27: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Algoritmi aproximativi:

• Permit determinarea unor configuratii pentru care numărul de contacte este

cuprins între a*nrmaxContacte și nrmaxContacte

• In cazul modelelor cu grila pătratică numărul maxim de contacte este 2*min(oddH(S),evenH(S)) unde • oddH(S) reprezintă numărul de poziții impare din secvență pe care se află

aminoacizi de tip H • evenH(S) reprezintă numărul de poziții pare din secvență unde se află

aminoacizi de tip H

• Unul dintre cei mai simpli algoritmi aproximativi (cu rata de aproximare a=0.25) este algoritmul Hart-Istrail

Page 28: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Ideea algoritmului Hart-Istrail:

• Se determină un punct de balansare (p) = indice cu proprietatea că cel puțin

jumătate dintre aminoacizii H de pe poziții impare se află de o parte a lui p iar de cealaltă parte a lui p se află cel puțin jumătate din aminoacizii de tip H de pe poziții pare

• Un astfel de indice există întotdeauna, fiind suficient să se determine indicele cu proprietatea că în stânga sa se află jumătate dintre aminoacizii H de pe poziții pare iar în dreapta cealaltă jumătate

• Pentru determinarea unei împachetări se construiește o buclă în dreptul punctului de balansare și se stabilesc contacte între aminoacizii de tip H aflați pe poziții pare pe o parte a lui p și cei cu poziții impare aflați pe cealaltă parte a lui p (vezi exemple Lab 7)

Page 29: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Ideea algoritmului Hart-Istrail:

Obs: rosu – hidrofobic, albastru - hidrofilic S. Istrail, F. Lam, Combinatorial Algorithms for Protein Folding in Lattice Models: A Survey of Mathematical Results, 2009

Page 30: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Rezolvarea problemei de optimizare:

• Algoritmi probabiliști din familia euristicilor (similari cu algoritmii Monte

Carlo) – conduc la soluții sub-optimale însă în general nu există rezultate teoretice privind calitatea soluției • simulated annealing • algoritmi evolutivi • algoritmi bazați pe modele de inteligență colectivă etc.

Page 31: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Simulated Annealing = algoritm iterativ de căutare aleatoare în

spațiul soluțiilor (configurațiilor) caracterizat prin: - pornind de la configurația curentă se generează o configurație

nouă prin perturbare aleatoare - daca noua configurație este mai bună atunci este acceptată

necondiționat; dacă nu este mai bună atunci este acceptată cu o anumită probabilitate

- probabilitatea de acceptare a configurațiilor mai puțin bune

descrește de la o iterație la alta

Page 32: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Sursa de inspiratie: - procesul de reorganizare a structurii unui solid supus unui

tratament termic: Solidul este încalzit (topit): particulele sunt distribuite într-o

maniera aleatoare Solidul este răcit lent: particulele se reorganizează pentru a

se ajunge la o configurație de energie cât mai mica (cu cât energia internă a sistemului este mai mică cu atât el este mai stabil)

Terminologie: simulated annealing = tratament termic simulat = călire simulată Istoric: Metropolis(1953), Kirkpatrick, Gelatt, Vecchi (1983), Cerny

(1985)

Page 33: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Algoritmul Metropolis (1953) - probabilitate constantă de acceptare –

problema de minimizare Init C(0) k:=0 REPEAT C’:=perturb(C(k)) IF f(C’)< f(C(k)) THEN C(k+1):=C’ (neconditionat) ELSE C(k+1):=C’ cu probabilitatea exp(-(f(C’)-f(C(k))/T) k:=k+1 UNTIL “este indeplinita o conditie de iesire” Obs: pt o problemă de maximizare condiția f(C’)< f(C(k)) se înlocuiește cu

f(C’) >f(C(k)) și se schimba semnul de la expresia de calcul a probabilității de acceptare

Page 34: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Parametrul T joacă rolul temperaturii din procesul fizic de tratare termică a

aliajului Valori mari ale lui T (T tinde la infinit): argumentul lui exp este aproape 0

=> configurațiile sunt echiprobabile (fiecare poate fi acceptată cu aceeași probabilitate)

Valori mici ale lui T (T tinde la 0): vor avea probabilitate nenulă doar configurațiile de scor minim (pt o problema de minimizare) sau maxim (pentru o problema de maximizare)

Simulated annealing = aplicarea repetată a algoritmului Metropolis pentru

diferite valori ale temperaturii (inițial T este mare și treptat este micșorat)

Page 35: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Structura generală Simulated Annealing Init C(0), T(0), k:=0 REPEAT C’:=perturb(C(k)) IF f(C’)< f(C(k)) THEN C(k+1):=C’ (neconditionat) ELSE C(k+1):=C’ cu probabilitatea exp(-(f(C’)-f(C(k))/T) calcul T(k+1) k:=k+1 UNTIL T(k)<eps Problema: alegerea schemei de modificare a temperaturii (“cooling

scheme”)

Page 36: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Scheme de “răcire”: T(k)=T(0)/(k+1) T(k)=T(0)/ln(k+k0) T(k)=aT(k-1) (a<1, ex: a=0.995) Obs. T(0) se alege astfel încât la primele iterații să fie acceptate aproape

toate configurațiile generate (explorarea spațiului soluțiilor)

Page 37: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Proprietăți de convergență: Dacă sunt satisfăcute proprietățile: Pg(C(k+1)=C’|C(k)=C)>0 pentru orice C și C’ (probabilitatea de

trecere între oricare două configurații este nenulă) Pa(C(k+1)=C’|C(k)=C)=min{1,exp(-(f(C’)-f(C))/T)} (probabilitate

de acceptare de tip Metropolis) T(k)=K/lg(k+k0) (schema logaritmică de răcire)

Atunci P(f(C(k))=f(C*)) -> 1 (C(k) tinde în probabilitate la minimul

global C* când k tinde la infinit)

Page 38: Curs 11. Algoritmi aleatori. Aplicații în bioinformaticăstaff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs11/bioinfo2016_curs11.pdf · sabloanelor Idee: - se pornește de

Biostatistica si bioinformatica (2016) - Curs 11

Determinarea structurii proteinelor (protein folding) Alte metaeuristici inspirate de natura: - Algoritmi evolutivi - Algoritmi inspirati de modelul coloniilor de furnici (Ant Colony

Optimization) - Algoritmi inspirati de modelul stolurilor de pasari (Particle Swarm

Optimization)

Detalii: Algoritmi metaeuristici (an II)

LUCRĂRI - editura.mai.gov.ro · Amplu tratat în domeniu, cartea pornește de la definirea unor noțiuni de specialitate, precizarea cadrului legal, până la studiul unor ramuri

Materiale polimerice şi - TSOCMtsocm.pub.ro/educatie/mpc_im/cursuri/MPC-Curs11.pdf · polisulfone, poli(eter-eter) cetone-răşini termoreactive: epoxidice, fenolice, poliesteri,

Adevărata revoluție pornește din inimă

Curs11 Hidrogeologie Aplicata MIM

Curs 2. Biostatistică trecere în revistă a metodelor ...staff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs2/bioinfo2016_curs2.pdf · Se asociază unei succesiuni de n experimente

CLASE şi OBIECTE - Apache2 Ubuntu Default Page: It worksdavos.science.upm.ro/~ccalin/cpp/c11/Curs11.pdf · Programare orientata obiect 14 În domeniul de definiţie al unei clase

FLOROAEI, - PHILOLOGICA JASSYENSIA...Primul dintre acestea, Lumea, o reprezentație dramatică, pornește de la alegerea hamletiană ntre o posibilă răzbunare „simplă”, imediată,

Curs11 12 Protectia Contra Socurilor Electrice Text

Cardiologie și ecocardiografie fetală Tehnica examinării ... medici pdf/Cardiologie... · •imediat deasupra valvei Ao, a. pulmonară pornește din VD și este puțin mai mare

Tehnologie Electronica Curs11

regulament - Centrul de Resurse in Comunicare...Programul pornește de la nevoia de dezvoltare a capacității de comunicare a ONG-urilor din România. Din cauza resurselor limitate

Noul Renault CLIO...noi aventuri la volanul Noului CLIO și pornește către viitor: ecran multimedia de dimensiuni generoase (9.3”), personalizabil și frână de mână electrică

Bazele spectroscopiei si laserilor - physics.uvt.rostef/spectroscopie/curs11.pdf · Dr. Marius S, tef Spectroscopie si Laseri - Notite de Curs 8 jFebruarie j2015 Cursul 11 Metalele

Italian Wine & Food Day! · Bacco pornește de la prelucrarea tradiţională (de la ﬁsticul prelucrat la semiprelucrat, de la torturi cu ﬁstic la lichior, de la torrone la făina

Curs1. Biostatistică și bioinformatică. Introduceredaniela.zaharie/bioinfo2016/curs/curs1/... · Biostatistica si bioinformatica (2016) - Curs 1 Motivatie Cu milioane de ani în

Perspective asupra sărăciei în România · să cerceteze efectele mass-media pornind de la public. În fine, o a treia direcție de cercetare pornește de la analiza mesajelor

Curs 13. Baze de date biologice și platforme/biblioteci ...staff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs13/bioinfo2016_curs13.pdf · aminoacizi) Sunt adnotate cu informații

Curs11-Inginerie citotisulara

Curs 5. Tehnici algoritmice utilizate in bioinformatica Problema …staff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs5/... · 2018-02-26 · Biostatistica si bioinformatica

1. Definiţia şi rolul indicilor în cercetarea ...inf.ucv.ro/documents/danciulescu/curs11-curs12-curs13.pdf · Cu ajutorul acestor indici ... O premisă a valorificării integrale

Compilatoare - ERASMUS Pulseocw.cs.pub.ro/courses/_media/cpl/courses/cpl-curs11.pdf · 2016-01-07 · Heap Management Memoria libera –de obicei o lista inlantuita de blocuri marcate

Se pornește de la interfața Google Classroom și se ...hiphi.ubbcluj.ro/Public/File/licenta/Ghid_Google-meet.pdf · Apps Y Google Meet Bookmarks People Tab Window Google Meet Hpdt_ext_clone

PROF.UNIV.DR. DUMITRU MAZILU DOCTORAND : …...2 MOTTO : ”Dacă războiul pornește din mințile oamenilor, tot acolo trebuie să se găsească și pacea…”. Amos Oz (prozator

Curs11-12-Protectia Contra Socurilor Electrice

cjp-dambovita.minisat.ro€¦ · Web viewStructura ghidului pornește de la principalele categorii de aspecte identificate ca fiind interpretări limitative, neuniforme ale prevederilor

CURS DE FIZICĂ NUCLEARĂ curs11

Introducere in Windows Forms - math.uaic.rocgales/csharp/Curs11.pdf · Form-urile sunt obiecte care expun proprietati ce definesc modul de afisare si metode care raspund evenimentelor

Anestezicele Locale Curs11

Curs 11andrei.clubcisco.ro/cursuri/1pc/co/curs11.pdf · 2009-11-14 · 1. utilizarea de tipuri generice (neprecizate) pentru elementele colecţiei în subprogramele ce realizează

Manualul modemului wireless UPC · • Depanare • Cum să-ți configurezi un cont de client e-mail • Glosar. ... • Pornește PC-ul precum și celelalte dispozitive de rețea

Roboti mobili Roboti mobili Versus EV Tendinte EV Avantaje Concepte esentiale New Beetle Electric Sisteme Incorporate – Curs11 Sisteme Incorporate – Curs11

Teste statisticesorana.academicdirect.ro/pages/doc/TD2014/Curs11.pdf · Sorana D. BOLBOACĂ Curs 1 14.05.2014 Compararea a două medii independente 3 » Greutatea corporală şi tipul

Bioetica reproducerii. Bioetica inceputului vietii. …umfcdbioetica.ro/produse/32/18/curs11.pdfbarbatului” precum sica“Drepturile femeiise extind asupra expresiei sexualitatii

UNIVERSITATEA ”BABEŞ BOLYAI” CLUJ-NAPOCA Claudia Maria.pdf · de teatru poate fi datorată lipsei unor studii comprehensive în acest domeniu. Această concluzie pornește de

Curs 4. Tehnici algoritmice utilizate în bioinformatic Problema …staff.fmi.uvt.ro/~daniela.zaharie/bioinfo2016/curs/curs4/... · 2018-02-26 · Biostatistica si bioinformatica