biologie computaţională - curs 1sorana.academicdirect.ro/pages/doc/computbiol/c04.pdf · 2013....

69
STRUCTURA BIOLOGICĂ. §2.2. REPREZENTAREA & PRELUAREA & STOCAREA SECVENŢELOR Sorana D. BOLBOACĂ

Upload: others

Post on 24-Jan-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

STRUCTURA BIOLOGICĂ.

§2.2. REPREZENTAREA &

PRELUAREA & STOCAREA

SECVENŢELOR

Sorana D. BOLBOACĂ

Page 2: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

2 Despre …

Reprezentarea şi preluarea secvenţelor:

Definiţie

Modalităţi de codificare-reprezentare Prezentare

Stocarea secvenţelor de nucleotide & aminoacizi Modalitate Baze de date: exemple Principii de căutare în baze de date dedicate

Page 3: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

3 DEFINIŢIE

Secvenţa = set liniar de caractere reprezentate

de nucleotide sau amino acizi ADN: 4 nucleotide (baze) – A, C, G, T ARN: 4 nucleotide - A, C, G, U Proteine: amino acizi

Page 4: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

4 REPREZENTAREA SECVENŢELOR

Caractere: Simple Uşor de editat, citit,

etc. Codificare – bit:

Utilizată în stocarea secvenţelor (memorie sau disc calculator)

Mai compact Compresie eficientă

(volum mare de date –spaţiu mic)

Reprezentarea caracterelor: ADN & ARN: cod cu

o singură literă (A, C, G, T/U).

Proteine: Cod cu o singură literă

– C = Cys Cod cu trei litere - Ala

= A = Alanina Cod 1-literă ↔ 3-litere

Page 5: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

5 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Incertitudinea în secvenţe de nucleotice = pentru o

anumită poziţie e posibilă existenţa uneia sau altei

molecule Când?

Pentru a exprima ambiguitate în timpul secvenţierii

Pentru a exprima variaţia unei poziţii în gene în timpul

evoluţiei

Pentru a exprima capacitatea unei enzime de a tolera mai mult de o bază la o anumită poziţie a unui site de

recunoaştere

Page 6: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

6 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Nucleotide: Set de coduri de caractere unic, care reprezintă

toate combinaţiile posibile de baze

Propuse şi adoptate de Uniunea Internaţională

de Biochimie şi este menţionată ca IUB cod

Page 7: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

7 CODUL IUB (International Union of Biochemistry)

Baze standard – cod genetic

Codul DenumireaA AdeninaC CitozinaG GuaninaT TiminaU Uracil

Page 8: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

8 CODUL IUB (International Union of Biochemistry) Baze standard - derivaţii – cod genetic (NC-IUB)

R = A, G (puRine) Y = C, T

(pYrimidine) S = G, C (Strong

hydrogen bonds) W = A, T (Weak

hydrogen bonds) M = A, C (aMino

group)

K = G, T (Keto group)

B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U

(iNdeterminate) X or - are sometimes used

Page 9: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

9 CODUL IUB

Amino acizi

Page 10: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

10REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Proteine: Realizarea unui cod este mai dificilă datorită

numărului mare de aminoacizi

Incertitudinea e mai puţin frecventă în

secvenţele de amino acizi decât în secvenţele de

nucleotide Se poate utiliza o codificare de tip bit dar rar

este şi utilizată

Page 11: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

11BAZE DE DATE: DE CE?

Date biologice disponibile pentru cercetători

Consolidarea datelor din diferite surse Asigurarea accesului la seturi de date mari, care

nu pot fi publicate (ex. genom, etc.) Asigură accesul la date biologice în format

electronic Asigura accesibilitatea datelor pentru analize

automate

Page 12: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

12BAZE DE DATE: DATE VS. BAZE DE DATE

Date

Tipuri de date: • secvenţe de nucleotide

• secvenţe de proteine

• structuri 3D • expresia genelor • căi metabolice

•...

12

Date de intrare şi controlul

calităţii:

• date depozitate • personal specializat adaugă şi

actualizează datele

• datele eronate sunt eliminate sau marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare

•...

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

erorile sunt verificate caracteristici: coerenţă şi actualizare

căi metabolice marcate

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

• căi metabolice

•...marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare

•...Date primare sau secundare:

• Primare: date experimentale • Secundare: rezultate ale analizei bazelor de date primare • Unificarea mai multor baze de date •...

Page 13: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

13BAZE DE DATE: DATE VS. BAZE DE DATE

Baze de date

Organizare: • fişiere plane

• baze de date relaţionale

• baze de date orientate-obiect •...

Disponibilitate: • accesibile publicului fără nici

o restricţie

• disponibile dar cu drepturi de autor • accesibile dar nu se pot salva • academice, dar nu disponibile fără cost

• comerciale

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

academice, dar nu disponibile fără cost

• academice, dar nu

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

obiect •...

• academice, dar nu disponibile fără cost

• comerciale

Curatori: • Instituţii mari, publice (EMBL, NCBI)• Instituţii cvasi-academice (Swiss institute of Bioinformatics, TIGR, etc.)• Grupuri academice sau de cercetare • Companii comerciale ...

Page 14: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

14BAZE DE DATE

Clasificare în funcţie de conţinut:

Descriptiv: denumire, taxonomie, descrierea speciei Kew Plants People Possibilities: http://www.kew.org/plants-

fungi/index.htm Plants Database: http://plants.usda.gov/ Uncon Plant Database: http://www.hort.uconn.edu/plants/ HoriPlex Plant Darabase:

http://hortiplex.gardenweb.com/plants/ Native Plant Database: http://www.wildflower.org/plants/ Tropical Plant Database: http://www.rain-tree.com/plants.htm Plant Encyclopedia Database:

http://www.plantcare.com/encyclopedia/

Page 15: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

15BAZE DE DATE

Clasificare în funcţie de conţinut:

Descriptiv: denumire, taxonomie, descrierea speciei Walters Garden Database:

http://www.waltersgardens.com/plants/ Carnivore Plant Database:

http://www.omnisterra.com/bot/cp_home.cgi PLANTfacts: http://plantfacts.osu.edu/

Page 16: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

16BAZE DE DATE

Clasificare în funcţie de conţinut:

Structură genetică:

Genomul la plante: http://data.kew.org/cvalues/ NCBI: http://data.kew.org/cvalues/ PlantGBD: http://www.plantgdb.org/ Plant Genome Research "Outreach“:

http://www.plantgdb.org/PGROP/pgrop.php BarleyBase:

http://www.plexdb.org/plex.php?database=Barley

Page 17: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

17BAZE DE DATE

Clasificare în funcţie de conţinut:

Structură genetică:

TIGR Rice Genome: http://blast.jcvi.org/euk-blast/index.cgi?project=osa1

Brassica Genome Gateway: http://brassica.bbsrc.ac.uk/

Oryzabase: http://www.shigen.nig.ac.jp/rice/oryzabase/top/top.jsp

RiceGAAS: http://ricegaas.dna.affrc.go.jp/rgadb/ BeanGenes Database:

http://beangenes.cws.ndsu.nodak.edu/ ChlamyDB: http://www.chlamy.org/chlamydb.html

Page 18: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

18BAZE DE DATE

Clasificare în funcţie de conţinut:

Structură genetică:

CottonDB: http://cottondb.org/ EMBL Nucleotide Sequence Database:

http://www.ebi.ac.uk/embl/ DDBJ: http://www.ddbj.nig.ac.jp/fromddbj-e.html PlantPromoterDB: http://ppdb.gene.nagoya-

u.ac.jp/cgi-bin/index.cgi

Page 19: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

19BAZE DE DATE: SECVENŢE DE NUCLEOTIDE

EMBL: www.ebi.ac.uk/embl GenBank: www.ncbi.nlm.nih.gov/GenBank DDBJ: www.ddbj.nig.ac.jp

Sincronizarea zilnică a conţinutului (pe baza codului de

aderare: un şir de litere şi cifre care identifică în mod

unic o intrare în baza sa de date – spre deosebire de identificator codul de aderare nu se modifică)

Nu există specificaţii legale cu privire la utilizarea

acestor baze de date – există însă o serie de secvenţe

brevetate

Page 20: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

20BAZE DE DATE: PROTEINE

Protein Information Resource: http://pir.georgetown.edu

SWISS-PROT: http://www.expasy.ch/sprot

Page 21: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

21BAZE DE DATE: BIOMOLEULE

PDB: http://www.rcsb.org SCOP: http://scop.berkeley.edu CATH: http://biochem.ucl.ac.uk/bsm/CATH ASTRAL: http://astral.berkeley.edu HOMSTRAD: http://www-cryst.bioc.cam.ac.uk/data/align/ Interfeţe la PDB:

PDB at a glance:http://cmm.info.nih.gov/modeling/pdb_at_a_glance.html

Molecules to go: http://molbio.info.nih.gov/cgi-bin/pdb/ EBI interface: http://www.ebi.ac.uk/msd/ PDBSum: http://www.ebi.ac.uk/thornton-

srv/databases/pdbsum

Page 22: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

22RESURSE NCBI: SECVENŢE DE BAZE

Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery

Page 23: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

23RESURSE NCBI: SECVENŢE DE BAZE

dbEST: secvenţe single de cADN http://www.ncbi.nlm.nih.gov/dbEST/index.html

Page 24: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

24RESURSE NCBI: SECVENŢE DE BAZE

dbGSS: secvenţe genomice

http://www.ncbi.nlm.nih.gov/dbGSS/index.html

Page 25: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

25RESURSE NCBI: SECVENŢE DE BAZE

dbSTS:http://www.ncbi.nlm.nih.gov/dbSTS/index.html

Page 26: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

26RESURSE NCBI: SECVENŢE DE BAZE

dbSNP: polimorfism nucleotidic http://www.ncbi.nlm.nih.gov/SNP/index.html

Page 27: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

27RESURSE NCBI: SECVENŢE DE BAZE

Structure: http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure

Page 28: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

28RESURSE NCBI: SECVENŢE DE BAZE

Genome: http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome

Page 29: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

29RESURSE NCBI: SECVENŢE DE BAZE

Proteine: http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein

Page 30: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

30RESURSE NCBI: SECVENŢE DE BAZE

Nucleotide: http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide

Page 31: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

31RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: http://www.ncbi.nlm.nih.gov/sites/entrez?db=taxonomy

Page 32: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

32RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

Page 33: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

33RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

Page 34: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

34RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

Page 35: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

35RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

Page 36: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

36RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

Page 37: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

37RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

Page 38: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

38RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

Page 39: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

39RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

Page 40: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

40ENTREZ

Introducere semi-automată a informaţiei în

baza de date Legătura dintre diferitele baze de date este dată

de prezentarea critică a utilităţii

Sequence searching: Căutarea se secvenţe pentru o anumită genă sau

proteină

Secvenţele identificate se pot copia sau salva

Page 41: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

42ENTREZ: PUBMED

Similaritatea între documente este măsurată prin

intermediul cuvintelor pe care documentele le au în

comun: Care cuvinte sunt luate în considerare?

Care este greutatea fiecărui cuvânt?

Cum putem calcula scorul de similaritate pentru 2 articole?

Page 42: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

43ENTREZ: PUBMED

Evaluarea cuvintelor: Ponderea unei perechi de cuvinte comune:

local wt1 * local wt2 global wt

Similaritatea dintre două articole: suma

ponderilor pentru toate cuvintele comune Cu cât valoarea este mai mare cu atât mai similare

sunt articolele investigate

Page 43: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

44ENTREZ: PUBMED

Evaluarea cuvintelor: Pondere globală: e mai bună dacă cuvântul e

mai puţin frecvent în întreaga bază de date

Pondere locală:

E mai bună dacă cuvântul este mai frecvent în

interiorul documentului Nu sunt favorizate documentele mai lungi

Page 44: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

45ENTREZ: SEQUENCE SEARCHING

Studiu de caz: identificarea de secvenţe pentru MRP1 (ARABIDOPSIS THALIANA MULTIDRUG RESISTANCE-ASSOCIATED PROTEIN 1) OMIM: căutare de cuvinte cheie. Nucleotide database:

Identificare secvenţe nucleotide. Denumire de gene

Protein database: identificare secvenţe proteice. GenPept: salvare a secvenţelor identificate. PubMed: identificare articole de specialitate.

Related Articles: identificarea articolelor similare. Limits: limitarea căutării

Page 45: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

46ENTREZ: SEQUENCE SEARCHING

Page 46: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

47ENTREZ: NUCLEOTIDES

Page 47: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

48ENTREZ: NUCLEOTIDES

Page 48: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

49ENTREZ: NUCLEOTIDES → GenPept

Page 49: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

50ENTREZ: NUCLEOTIDES → FASTA

Page 50: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

51ENTREZ: RELATED STRUCRURES

Page 51: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

52ENTREZ: IDENTICAL PROTEINS

Page 52: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

53ENTREZ: GENOME

Page 53: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

54ENTREZ: GENOME

Page 54: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

55ENTREZ: GENOME

Page 55: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

56ENTREZ: TAXONOMY

Page 56: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

57ENTREZ: GENE

Page 57: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

58ENTREZ: SEQUENCE READ

Page 58: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

59ENTREZ: HOMOLOGENE

Page 59: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

60ENTREZ: PROTEINCLUSTERS

Page 60: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

61ENTREZ: UNIGENE

Page 61: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

62SECVENŢE: TIPURI DE FIŞIERE

Formatul fişierelor:

Text sau binar Minim sau adnotat

Fişierele de tip text:

Utilizează codul IUB

Se pot citi cu procesoarele de text (ex. Microsoft Word, Crimson, etc.)

Fişierele binare:

Se citesc cu programele cu care au fost create (ex. MacVector) Fişierele adnotate conţin informaţii cunoscute cu privire la

secvenţele conţinute

Annotated files preserve information known about the sequence (codarea regiunii de start şi stop, proprietăţile proteinelor, literatura de specialitate, etc.)

Page 62: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

63SECVENŢE: TIPURI DE FIŞIERE

Genome Browser BED & bigBED PSL GFF GTF MAF BAM WIG & bigWIG

Genome Browser Microarray Chain Net Axt .2bit .nib

Page 63: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

64TIPURI DE FIŞIERE: BED & bigBED Trei câmpuri obligatorii:

1. chrom – numele cromozomului (ex. chr3, chrY, chr2_random) sau schelet (ex. scaffold10671).

2. chromStart – poziţia de start a cromozomului sau scheletului – prima bază din cromozom este pe poziţia 0

3. chromEnd – poziţia de stop a cromozomului sau scheletului.

Nouă câmpuri adiţionale:

4. name – defineşte denumirea liniei BED – afişat la dreapta liniei BED în fereastra Genome Browser.

5. score – un scor între 0 şi 1000 identificat în gri

6. strand – definit ca fiind '+' or '-'

Page 64: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

65TIPURI DE FIŞIERE: BED & bigBED

Nouă câmpuri adiţionale:

7. thickStart – poziţia de start la care începe o anumită caracteristică

(ex. codonul de start a unei secvenţe genice)

8. thickEnd – poziţia de stop la care o anumită caracteristică se

termină (ex. codonul stop).

9. itemRgb – valorarea culorilor în spectrul RGB (ex. 255,0,0). blockCount – numărul de exoni din linia BED

10. blockSizes – volumul exeonilor – numărul de valori din această listă

corespunde cu numărul din blockCount.11. blockStarts – listă cu blocurile start calculate relativ la chromStart.

Page 65: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

66TIPURI DE FIŞIERE: GFF

GFF = General Feature Format1. seqname – numele secvenţei.2. source - programul cu care s-a obţinut.3. feature – numele caracteristicii de interes ("CDS", "start_codon",

"stop_codon", "exon“, etc).4. start – poziţia de start a secvenţei. Prima bază din secvenţă este

1.5. end – poziţia de sfârşit a caracteristicii.6. score – un scor cu valoare între 0 şi 1000. 7. strand – caracteristici valide: '+', '-', sau '.' (pentru nu ştiu).8. frame – aplicabil în cazul codificării exonilor când ia valori între

0-2 ceea ce reprezintă frame-ul de citire al primei baze. Dacă nu e vorba de exon, valoarea va fi egală cu '.'.

9. group – toate liniile cu aceleaşi grupări sunt prezentate ca un singur item.

Page 66: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

67TIPURI DE FIŞIERE: GTF

GTF = Gene Transfer Format gene_id – identificator unic al sursei genetice pentru o

anumită secvenţă. transcript_id value – identificator unic pentru

transcriptul prezis.

Page 67: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

68TIPURI DE FIŞIERE: FASTA

*.fsa Primul simbol dintr-un fişier *.fsa este > urmat

de un comentariu care descrie conţinutul

Următoarele linii conţin secvenţele

Secvenţele sunt rupte în mai multe linii cu

aceeaşi lungime arbitrar aleasă, cu excepţia

ultimei linii care poate să fie mai scurtă

Page 68: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

69SECVENŢE: FIŞIERE ASCI

FASTA: Arabidopsis thaliana

Page 69: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

70

LOCUS RATOBESE.G 539 BP SS-RNA ENTERED 09/23/95

DEFINITION Rat mRNA for obese. ACCESSION - KEYWORDS - SOURCE Rattus norvegicus;

Norway rat

...------------ Submitted (10-Mar-1995) to DDBJ by: ...

1 CCAAGAAGAA AAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT

61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA

121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG

181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA

241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT

301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC

361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC

421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC

481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC

GCG