bioinformaticĂ aplicatĂ În biologia...

15
11.04.2019 Curs 7 – Stabilirea funcției unei proteine. Similaritate și omologie la nivel de secvență 4/8/19 Curs VII - Alinieri de secvente 1 BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂ

Upload: others

Post on 20-Jan-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

11.04.2019Curs 7 – Stabilirea funcției unei proteine. Similaritate și omologie la nivel de

secvență

4/8/19 Curs VII - Alinieri de secvente 1

BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂ

Page 2: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

Legătura secvență –funcție

4/8/19 Curs VII - Alinieri de secvente 2

MAAKYRIGYFVGSLATGSINRVLSQALINLAPEDLEFSEIPIRDLPLYSYDYDADFPPEGR

Folosind metodele experimentale de secvențiere enumerate anterior, se stabilește secvența unei gene.

Aceasta codifică următoarea secvență de aminoacizi:

Care este funcția acestei peptide și implicit a genei codificatoare?

Cunoaşterea secvenţei de nucleotide a unui fragment de ADN și implici a secvenței de aminoacizi a unei proteine nu înseamnă obligatoriu şi cunoaşterea rolului (funcţiei) moleculei respective.

Și totuși, secvența de aminoacizi este cea ce coordonează structura tridimensională a peptidei și deci reacția enzimatică/funcția pe care peptida o are/realizează.

Secvență de nucleotide Funcția proteinei codificateSecvență de aminoacizi Codul genetic

Manual sau cu metode

bioinformatice

Al II-lea cod genetic

Numai cu metode

bioinformatice

Page 3: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

Legătura secvență –funcție

4/8/19 Curs VII - Alinieri de secvente 3

Pentru identificarea computerizată a funţiei unei proteine sau gene necunoscute se pleacă de la următoarele premize:

1. toate genele/proteinele au evoluat din alte gene/proteine prin mutaţia secvenţei primare;

Mutaţiile reprezintă modificări spontane nedirijate a mesajului genetic. Cel mai frecvent mutațiile apar în procesul de replicarea ADN-ului sau prin acțiunea factorilor de mediu asupra ADN-ului. Mutațiile reprezintă materialul de bază pentru variabilitatea şi evoluţia organismelor vii. Cum?Funcţie de amploarea lor mutaţiile se clasifică în:

A. Mutaţii punctiformeB. Mutaţii de amploare micăC. Mutaţii de amploare mare

Ce înseamnă și cum funcționează evoluția?

Page 4: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

Mutațiile ca sursă de diversificare a informației genetice

4/8/19 Curs VII - Alinieri de secvente 4

A. Mutaţiile punctiforme - mutaţii ce afectează o singură bază azotată din secvenţa acizilor nucleici.

Au fost identicate trei tipuri de mutaţii punctiforme:• Substituţii – înlocuirea unei baze azotate cu alta

5'ACCGTCTA3' → 5'ACGGTCTA3‘• Inserţii – adăugarea unei baze azotate suplimentare

5'ACCGTCTA3' → 5'ACCTGTCTA3‘• Deleţii – pierderea uneia sau a mai multor baze azotate

5'ACCGTCTA3' → 5'AGTCTA3'

Funcţie de efectul lor asupra produsului codificat de gena în care apar, mutaţiile punctiforme se clasifică în:

a. mutaţie non-sens – modificare unei baze duce la schimbarea mesajului unui codon în STOP, proteina codificată de genă fiind astfel mai scurtă și nefuncțională;

5'AUGGUCUAUCUAGGCGAUUAA 3' →5'AUGGUCUAACUAGGCGAUUAA 3'START V T L G D Stop START V STOP

b. mutaţie cu sens greşit – modificare unei baze duce la schimbarea mesajului unui codon şi duce la încorporareaunui alt aminoacid în molecula proteică care afectează funcţia proteinei codificate

5'AUGGUCUAUCUAGGCGAUUAA 3' →5'AUGGUCUAUCUAGGCGAAUAA 3'START V T L G D Stop START V T L G E Stop

Page 5: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

4/8/19 Curs VII - Alinieri de secvente 5

c. mutaţie neutră – modificare unei baze ce duce la schimbarea mesajului unui codon, încorporarea unui aminoacid echivalent în molecula proteică, dar nu modifică funcţia proteinei codificate; Cum se explică acest lucru?

d. mutaţie silenţioasă – modificare unei baze ce duce la schimbarea mesajului unui codon dar care:1. are loc într-o zonă ne-tradusă în proteine sau ARN – Ex: introni2. nu modifică aminoacizii încorporaţi – de ce? - mutaţie sinonimă

5'AUGGUCUAUCUAGGCGAUUAA 3' →5'AUGGUCUAUCUAGGAGAUUAA 3'START V T L G D Stop START V T L G D Stop

e. mutaţii cu schimbarea cadrului de lectură (frame-shifts) – inserţia sau deleţia unei baze azotate ce duce la modificarea modului în care ribosomul citeşte mesajul genetic de pe molecula de ARNm.

5'AUGGUCUAUCUAGGCGAUUAA 3' →5'AUGGUCUUCUAGGCGAUUAA 3'START V T L G D Stop START V F STOP

B. Mutaţii de amploare mică – sunt asemănătoare mutaţiilor punctiforme d.p.v. al tipurilor şi efectelor, dar cuprind câteva baze azotate

C. Mutaţii de amploare mare – mutaţii de dimesiuni mari ce afectează poziţia unei gene în cadrul cromozomului şi modul de organizarea a materialului genetic – duplicări, inserții de gene, rearanjări cromozomiale.

Mutațiile ca sursă de diversificare a informației genetice

Page 6: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

4/8/19 Curs VII - Alinieri de secvente 6

Legătura secvență –funcție

2. înlocuirea unui aminoacid cu altul într-o proteină nu este întoteauna aleatoare ci este corelatăcu rolul aminoacidului în cadrul proteinei. Din punct de vedere are frecvenței cu care sunt înlocuiți aufost descrise 3 categorii distincte de aminoacizi într-o secvență proteică:a) aminoacizi înalt conservaţi - nu sunt înlocuiţi decât extrem rar - sunt aminoacizii din situsulcatalitic sau funcţional, implicați în mod direct de realizarea funcţiei;b) aminoacizi conservaţi - sunt înlocuiţi destul de rar - sunt aminoacizii implicaţi în realizareastructurilor secundare şi terţiare;c) aminoacizi puţin conservaţi - sunt înlocuiţi frecvent - sunt în general aminoacizii de pe suprafaţaproteinelor, înlocuirea lor nu modifică semnificativ funcția proteinei.

SELECŢIE

ANARREMERE

ANAAREMERE

NNARREMERE

ALMAREESRE

ANCDREMSREANAARENERE

ANMSAREMERE

ANAAREMERE

ANAACRSDERE

AMAAREMERE

ANARREMERE Diverse variante ale aceleași secvențe de aminoacizi

obținute prin mutații aleatorii

Variante ale secvenței inițiale în care mesajul (funcția) este

păstrată

ANAAREPERE

ANAARENERE

Page 7: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

4/8/19 Curs VII - Alinieri de secvente 7

Alinieri de secvențe

3. Deoarece secvenţele de aminoacizi ale proteinelor / de nucleotide ale genelor au evoluat unadin cealaltă, ele nu au caracter randomic, ci prezintă mai degrabă un anumit grad de similaritateceea ce permite compararea lor.

Pentru compararea a două secvențe se introduc noțiunile de:a. aliniere a două sau mai multe secvenţe - fiecare aminoacid (nucleotid) din secvenţa A este

comparat cu aminoacidul (nucleotidul) corespunzător din secvenţa B. O corespondenţăîntre doi aminoacizi (nucleotide) din aceeaşi poziţie pe cele două secvenţe poartă numele de identitate, iar o neconcordanţă se numeşte substituţie;

TI**YDLGGGTFD*SI*E********TFEEV**T*GD**LGG*DFD***I**L

identitate substitutie

Secvență consens

Alinierile a două sau mai multe secvențe pot fi: -alinieri locale - identifică subregiunile similare dintre două secvenţe -alineri globale - compară două secvenţe pe toată lungimea lor și se utilizează pentru a compara secvenţe de dimensiuni similare dar foarte apropiate evolutiv.

Page 8: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

4/8/19 Curs VII - Alinieri de secvente 8

Alinieri de secvențe

b. identitate - la nivel de secvenţă - se referă la două secvenţe care prezintă asemănări una în raport cu cealaltă datorită unui număr mai mare sau mai mic de aminoacizi identici; similaritatea se exprimă ca procente de similaritate sau procente identitate - % de aminoacizi ce sunt identici între 2 secvențe;c. similaritate la nivel de secvenţă - se referă la două secvenţe care prezintă asemănări una în raport cu cealaltă datorită unui număr mai mare sau mai mic de aminoacizi identici dar ia în calcul și semnificația substituțiilor dintre aminoacizi ; c. omologie - se referă la faptul că două secvenţe se aseamănă una cu cealaltă deoarece au evoluatdintr-un strămoş comun, dar nu au obligatoriu aceeași funcție;d. secvența de aminoacizi identici înalt conservați dintr-o aliniere a două sau mai multe secvențe se numește secvență consens (consensus);

SELECŢIE

ANARREMERE

ANAAREMERENNARREMERE

ALMAREESRE

ANCDREMSRE

ANAARENERE

ANMSAREMERE

ANAAREMERE

AMAAREMERE

ANARREMERE

Variante ale secvenței inițiale în care mesajul (funcția) este

păstratăSecvențe similare

ANAAREPERE

ANAARENERE

Secvențe omoloageAu evoluat dintr-un strămoș comun

ANAAREMERE Secvență inițialăMUTAȚII

Page 9: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

4/8/19 Curs VII - Alinieri de secvente 9

Alinieri de secvențe

Gradul de similaritate a două proteine la nivel de secvenţă este dictat, pe de o parte, de numărul de mutații ce le diferențiază (distanţa evolutivă) şi, pe de altă parte, de structurile lor tridimensionale şi de funcţiile specifice pe care cele două proteine le îndeplinesc.

Două secvențe de nucleotide similare vor codifica un mesaj genetic similar și deci vor avea funcții similare.

Două proteine similare vor avea structuri similare și deci funcții similare.

MAAKYRIGYFVGSLATGSINRVLSQALINLAPEDLEFSEIPIRDLPLYSYDYDADFPPEGR`Care este funcția acestei peptide și implicit a genei codificatoare?´Întrebarea inițială:

devine: cu ce peptidă cunoscută este similară această secvență?

Page 10: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

BLAST – identificarea de secvențe similare

4/8/19 Curs VII - Alinieri de secvente 10

BLAST - Basic Local Alignment Search Tool

1. identifică, dintr-o bază de date, secvenţele similare cu o secvenţă ţintă (tinta analizei, experimentului). Aceste secvenţe identificate poartă numele de secvenţe “subiect”, iar identificarea lor se bazează pe alinieri locale. Secvenţa „subiect este „suprapusă” peste cea țintă la nivelul alinierilor locale astfel încât secvenţele comparate vor fi alcătuite din zone perfect aliniate şi zone nealiniate (aşa numitele GAP’s) care formează bucle între o aliniere locală şi următoarea aliniere locală.2. cuantifică nivelul de similaritate dintre secvenţele “subiect” şi secvenţa ţintă prin utilizarea unor matrici de substituţie O matrice de substituţie arată frecvenţa cu care un aminoacid este înlocuit cu altul şi au la bază observaţiile experimentale.

Page 11: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

BLAST – identificarea de secvențe similare

4/8/19 Curs VII - Alinieri de secvente 11

3. Calculează unu scor de similaritate prin însumarea punctelor pentru fiecare pereche aminoacid-aminoacid și ierarhizează secvenţele ţintă funcţie de valoarea acestui scor.

Scoruri de similaritate calculate de BLAST:

- punctaj brut (engl. Raw score) notat cu S, este calculat prin însumarea punctelor pentru fiecare pereche aminoacid-aminoacid, aminoacid-nimic şi penalizărilor pentru GAP; nu permite ierarhizarea secvențelor, valoare lui depinde de lungimea secvențelor analizate;

- scorul în biţi notat cu S’ - se calculează prin normalizarea lui S în funcţie de diverse variabile statistice care depind, la rândul lor, de tipul de matrice utilizat. Cu cât punctajul S’ obţinut este mai mare cu atât

asemănarea dintre cele două secvenţe este mai mare;

- parametru statistic E - care se defineşte ca număr de potriviri care apar doar datorită şansei într-o bază de date de o anumită dimensiune. Cu cât valorile lui E sunt mai mici, cu atât rezultatele sunt considerate

ca având un înalt grad de semnificaţie (alinierea fiind deci statistic semnificativă).

Page 12: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

Cum se realizează o analiză BLAST?

4/8/19 Curs VII - Alinieri de secvente 12

1. Accesează: https://blast.ncbi.nlm.nih.gov/Blast.cgi

2. Selectează tipul de analiză funcție de secvența de interes:

3. Copie secvența în căsuța pentru secvența țintă (query), setează parametrii căutării și apasă BLAST

A – căsuţa text în care a fost inserată secvenţa ţintă în format FASTA; B – zona cu parametrii utilizaţi pentru restrângerea spaţiului de căutare;C – buton pentru lansarea investigării; D – zona cu parametrii algoritmului de căutare

http://www.ncbi.nlm.nih.gov/books/NBK21101/

Page 13: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

Parametri pentru restrângerea spațiului de căutare

4/8/19 Curs VII - Alinieri de secvente 13

„Query subrange”– se utilizează pentru a reduce secvenţa investigată doar la un anumit fragment precizatprin poziţia de început şi de sfârşit;

„Or, upload file” – permite încărcarea unui fişier text în format FASTA; în acest caz nu mai este necesarăprecizarea secvenţei în căsuţa text;

„Database” – permite selecţia bazei de date unde se va realiza investigarea; funcţia este utilă pentru arestrânge investigarea în diverse direcţii; cea mai mare bază de date utilizabilă este „non-redundantprotein sequences (nr)”; cea mai mică este „Protein Data Bank proteins (pdb)” care are avantajul de a fialcătuită doar din proteine cu structură determinată experimental şi funcţie cunoscută;

„Algorithm” – permite selectarea diverşilor algoritmi de identificare şi aliniere a secvenţelor similare; deasemenea, tot în această pagină, apăsând semnul „+” din faţa textului „Algorithm parameters”, se potmodifica o serie de parametri ai algoritmului de căutare, precum:

„Max target sequences” – numărul maxim de secvenţe subiect ce va fi luat în calcul;

„Expect” – vor fi afişate doar rezultatele care au o valoare a lui E mai mică decât cea specificată;„Matrix” – tipul de matrice care va fi utilizat pentru calcularea punctajului similarităţii (BLOSUM62,

PAM70 etc.)„Gap Costs” – schema de punctaj corespunzătoare prezenţei unui GAP.

Page 14: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

Rezultate BLAST

4/8/19 Curs VII - Alinieri de secvente 14

A – informaţii generale privind interogarea realizată; B – domeniile înalt conservate identificate;C – prezentarea grafică de ansamblu a rezultatelor;D – tabel cu secvenţele identificate;E – exemplu de aliniere între secvenţa de interes şi o secvenţă subiect identificată prinBLAST.

Page 15: BIOINFORMATICĂ APLICATĂ ÎN BIOLOGIA STRUCTURALĂmarius.mihasan/teaching/pdfs/bioinformatics_for_structural...4/8/19 Curs VII -Alinieri de secvente 3 Pentru identificarea computerizată

3. Rezultate BLAST și semnificația lor

4/8/19 Curs VII - Alinieri de secvente 15

Secvenţă nepublicată, funcție teoretică Secvenţă publicată, funcție teoretică

Secvenţă publicată, funcție demonstrată experimental