biologie computaţională - curs 1sorana.academicdirect.ro/pages/doc/computbiol/c04.pdf · 2013....

Post on 24-Jan-2021

3 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

STRUCTURA BIOLOGICĂ.

§2.2. REPREZENTAREA &

PRELUAREA & STOCAREA

SECVENŢELOR

Sorana D. BOLBOACĂ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

2 Despre …

Reprezentarea şi preluarea secvenţelor:

Definiţie

Modalităţi de codificare-reprezentare Prezentare

Stocarea secvenţelor de nucleotide & aminoacizi Modalitate Baze de date: exemple Principii de căutare în baze de date dedicate

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

3 DEFINIŢIE

Secvenţa = set liniar de caractere reprezentate

de nucleotide sau amino acizi ADN: 4 nucleotide (baze) – A, C, G, T ARN: 4 nucleotide - A, C, G, U Proteine: amino acizi

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

4 REPREZENTAREA SECVENŢELOR

Caractere: Simple Uşor de editat, citit,

etc. Codificare – bit:

Utilizată în stocarea secvenţelor (memorie sau disc calculator)

Mai compact Compresie eficientă

(volum mare de date –spaţiu mic)

Reprezentarea caracterelor: ADN & ARN: cod cu

o singură literă (A, C, G, T/U).

Proteine: Cod cu o singură literă

– C = Cys Cod cu trei litere - Ala

= A = Alanina Cod 1-literă ↔ 3-litere

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

5 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Incertitudinea în secvenţe de nucleotice = pentru o

anumită poziţie e posibilă existenţa uneia sau altei

molecule Când?

Pentru a exprima ambiguitate în timpul secvenţierii

Pentru a exprima variaţia unei poziţii în gene în timpul

evoluţiei

Pentru a exprima capacitatea unei enzime de a tolera mai mult de o bază la o anumită poziţie a unui site de

recunoaştere

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

6 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Nucleotide: Set de coduri de caractere unic, care reprezintă

toate combinaţiile posibile de baze

Propuse şi adoptate de Uniunea Internaţională

de Biochimie şi este menţionată ca IUB cod

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

7 CODUL IUB (International Union of Biochemistry)

Baze standard – cod genetic

Codul DenumireaA AdeninaC CitozinaG GuaninaT TiminaU Uracil

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

8 CODUL IUB (International Union of Biochemistry) Baze standard - derivaţii – cod genetic (NC-IUB)

R = A, G (puRine) Y = C, T

(pYrimidine) S = G, C (Strong

hydrogen bonds) W = A, T (Weak

hydrogen bonds) M = A, C (aMino

group)

K = G, T (Keto group)

B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U

(iNdeterminate) X or - are sometimes used

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

9 CODUL IUB

Amino acizi

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

10REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE

Proteine: Realizarea unui cod este mai dificilă datorită

numărului mare de aminoacizi

Incertitudinea e mai puţin frecventă în

secvenţele de amino acizi decât în secvenţele de

nucleotide Se poate utiliza o codificare de tip bit dar rar

este şi utilizată

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

11BAZE DE DATE: DE CE?

Date biologice disponibile pentru cercetători

Consolidarea datelor din diferite surse Asigurarea accesului la seturi de date mari, care

nu pot fi publicate (ex. genom, etc.) Asigură accesul la date biologice în format

electronic Asigura accesibilitatea datelor pentru analize

automate

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

12BAZE DE DATE: DATE VS. BAZE DE DATE

Date

Tipuri de date: • secvenţe de nucleotide

• secvenţe de proteine

• structuri 3D • expresia genelor • căi metabolice

•...

12

Date de intrare şi controlul

calităţii:

• date depozitate • personal specializat adaugă şi

actualizează datele

• datele eronate sunt eliminate sau marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare

•...

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

erorile sunt verificate caracteristici: coerenţă şi actualizare

căi metabolice marcate

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

• căi metabolice

•...marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare

•...Date primare sau secundare:

• Primare: date experimentale • Secundare: rezultate ale analizei bazelor de date primare • Unificarea mai multor baze de date •...

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

13BAZE DE DATE: DATE VS. BAZE DE DATE

Baze de date

Organizare: • fişiere plane

• baze de date relaţionale

• baze de date orientate-obiect •...

Disponibilitate: • accesibile publicului fără nici

o restricţie

• disponibile dar cu drepturi de autor • accesibile dar nu se pot salva • academice, dar nu disponibile fără cost

• comerciale

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

academice, dar nu disponibile fără cost

• academice, dar nu

BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE

obiect •...

• academice, dar nu disponibile fără cost

• comerciale

Curatori: • Instituţii mari, publice (EMBL, NCBI)• Instituţii cvasi-academice (Swiss institute of Bioinformatics, TIGR, etc.)• Grupuri academice sau de cercetare • Companii comerciale ...

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

14BAZE DE DATE

Clasificare în funcţie de conţinut:

Descriptiv: denumire, taxonomie, descrierea speciei Kew Plants People Possibilities: http://www.kew.org/plants-

fungi/index.htm Plants Database: http://plants.usda.gov/ Uncon Plant Database: http://www.hort.uconn.edu/plants/ HoriPlex Plant Darabase:

http://hortiplex.gardenweb.com/plants/ Native Plant Database: http://www.wildflower.org/plants/ Tropical Plant Database: http://www.rain-tree.com/plants.htm Plant Encyclopedia Database:

http://www.plantcare.com/encyclopedia/

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

15BAZE DE DATE

Clasificare în funcţie de conţinut:

Descriptiv: denumire, taxonomie, descrierea speciei Walters Garden Database:

http://www.waltersgardens.com/plants/ Carnivore Plant Database:

http://www.omnisterra.com/bot/cp_home.cgi PLANTfacts: http://plantfacts.osu.edu/

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

16BAZE DE DATE

Clasificare în funcţie de conţinut:

Structură genetică:

Genomul la plante: http://data.kew.org/cvalues/ NCBI: http://data.kew.org/cvalues/ PlantGBD: http://www.plantgdb.org/ Plant Genome Research "Outreach“:

http://www.plantgdb.org/PGROP/pgrop.php BarleyBase:

http://www.plexdb.org/plex.php?database=Barley

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

17BAZE DE DATE

Clasificare în funcţie de conţinut:

Structură genetică:

TIGR Rice Genome: http://blast.jcvi.org/euk-blast/index.cgi?project=osa1

Brassica Genome Gateway: http://brassica.bbsrc.ac.uk/

Oryzabase: http://www.shigen.nig.ac.jp/rice/oryzabase/top/top.jsp

RiceGAAS: http://ricegaas.dna.affrc.go.jp/rgadb/ BeanGenes Database:

http://beangenes.cws.ndsu.nodak.edu/ ChlamyDB: http://www.chlamy.org/chlamydb.html

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

18BAZE DE DATE

Clasificare în funcţie de conţinut:

Structură genetică:

CottonDB: http://cottondb.org/ EMBL Nucleotide Sequence Database:

http://www.ebi.ac.uk/embl/ DDBJ: http://www.ddbj.nig.ac.jp/fromddbj-e.html PlantPromoterDB: http://ppdb.gene.nagoya-

u.ac.jp/cgi-bin/index.cgi

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

19BAZE DE DATE: SECVENŢE DE NUCLEOTIDE

EMBL: www.ebi.ac.uk/embl GenBank: www.ncbi.nlm.nih.gov/GenBank DDBJ: www.ddbj.nig.ac.jp

Sincronizarea zilnică a conţinutului (pe baza codului de

aderare: un şir de litere şi cifre care identifică în mod

unic o intrare în baza sa de date – spre deosebire de identificator codul de aderare nu se modifică)

Nu există specificaţii legale cu privire la utilizarea

acestor baze de date – există însă o serie de secvenţe

brevetate

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

20BAZE DE DATE: PROTEINE

Protein Information Resource: http://pir.georgetown.edu

SWISS-PROT: http://www.expasy.ch/sprot

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

21BAZE DE DATE: BIOMOLEULE

PDB: http://www.rcsb.org SCOP: http://scop.berkeley.edu CATH: http://biochem.ucl.ac.uk/bsm/CATH ASTRAL: http://astral.berkeley.edu HOMSTRAD: http://www-cryst.bioc.cam.ac.uk/data/align/ Interfeţe la PDB:

PDB at a glance:http://cmm.info.nih.gov/modeling/pdb_at_a_glance.html

Molecules to go: http://molbio.info.nih.gov/cgi-bin/pdb/ EBI interface: http://www.ebi.ac.uk/msd/ PDBSum: http://www.ebi.ac.uk/thornton-

srv/databases/pdbsum

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

22RESURSE NCBI: SECVENŢE DE BAZE

Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

23RESURSE NCBI: SECVENŢE DE BAZE

dbEST: secvenţe single de cADN http://www.ncbi.nlm.nih.gov/dbEST/index.html

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

24RESURSE NCBI: SECVENŢE DE BAZE

dbGSS: secvenţe genomice

http://www.ncbi.nlm.nih.gov/dbGSS/index.html

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

25RESURSE NCBI: SECVENŢE DE BAZE

dbSTS:http://www.ncbi.nlm.nih.gov/dbSTS/index.html

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

26RESURSE NCBI: SECVENŢE DE BAZE

dbSNP: polimorfism nucleotidic http://www.ncbi.nlm.nih.gov/SNP/index.html

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

27RESURSE NCBI: SECVENŢE DE BAZE

Structure: http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

28RESURSE NCBI: SECVENŢE DE BAZE

Genome: http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

29RESURSE NCBI: SECVENŢE DE BAZE

Proteine: http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

30RESURSE NCBI: SECVENŢE DE BAZE

Nucleotide: http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

31RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: http://www.ncbi.nlm.nih.gov/sites/entrez?db=taxonomy

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

32RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

33RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

34RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

35RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

36RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

37RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

38RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

39RESURSE NCBI: SECVENŢE DE BAZE

Taxonomy: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

40ENTREZ

Introducere semi-automată a informaţiei în

baza de date Legătura dintre diferitele baze de date este dată

de prezentarea critică a utilităţii

Sequence searching: Căutarea se secvenţe pentru o anumită genă sau

proteină

Secvenţele identificate se pot copia sau salva

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

42ENTREZ: PUBMED

Similaritatea între documente este măsurată prin

intermediul cuvintelor pe care documentele le au în

comun: Care cuvinte sunt luate în considerare?

Care este greutatea fiecărui cuvânt?

Cum putem calcula scorul de similaritate pentru 2 articole?

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

43ENTREZ: PUBMED

Evaluarea cuvintelor: Ponderea unei perechi de cuvinte comune:

local wt1 * local wt2 global wt

Similaritatea dintre două articole: suma

ponderilor pentru toate cuvintele comune Cu cât valoarea este mai mare cu atât mai similare

sunt articolele investigate

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

44ENTREZ: PUBMED

Evaluarea cuvintelor: Pondere globală: e mai bună dacă cuvântul e

mai puţin frecvent în întreaga bază de date

Pondere locală:

E mai bună dacă cuvântul este mai frecvent în

interiorul documentului Nu sunt favorizate documentele mai lungi

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

45ENTREZ: SEQUENCE SEARCHING

Studiu de caz: identificarea de secvenţe pentru MRP1 (ARABIDOPSIS THALIANA MULTIDRUG RESISTANCE-ASSOCIATED PROTEIN 1) OMIM: căutare de cuvinte cheie. Nucleotide database:

Identificare secvenţe nucleotide. Denumire de gene

Protein database: identificare secvenţe proteice. GenPept: salvare a secvenţelor identificate. PubMed: identificare articole de specialitate.

Related Articles: identificarea articolelor similare. Limits: limitarea căutării

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

46ENTREZ: SEQUENCE SEARCHING

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

47ENTREZ: NUCLEOTIDES

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

48ENTREZ: NUCLEOTIDES

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

49ENTREZ: NUCLEOTIDES → GenPept

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

50ENTREZ: NUCLEOTIDES → FASTA

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

51ENTREZ: RELATED STRUCRURES

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

52ENTREZ: IDENTICAL PROTEINS

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

53ENTREZ: GENOME

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

54ENTREZ: GENOME

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

55ENTREZ: GENOME

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

56ENTREZ: TAXONOMY

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

57ENTREZ: GENE

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

58ENTREZ: SEQUENCE READ

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

59ENTREZ: HOMOLOGENE

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

60ENTREZ: PROTEINCLUSTERS

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

61ENTREZ: UNIGENE

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

62SECVENŢE: TIPURI DE FIŞIERE

Formatul fişierelor:

Text sau binar Minim sau adnotat

Fişierele de tip text:

Utilizează codul IUB

Se pot citi cu procesoarele de text (ex. Microsoft Word, Crimson, etc.)

Fişierele binare:

Se citesc cu programele cu care au fost create (ex. MacVector) Fişierele adnotate conţin informaţii cunoscute cu privire la

secvenţele conţinute

Annotated files preserve information known about the sequence (codarea regiunii de start şi stop, proprietăţile proteinelor, literatura de specialitate, etc.)

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

63SECVENŢE: TIPURI DE FIŞIERE

Genome Browser BED & bigBED PSL GFF GTF MAF BAM WIG & bigWIG

Genome Browser Microarray Chain Net Axt .2bit .nib

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

64TIPURI DE FIŞIERE: BED & bigBED Trei câmpuri obligatorii:

1. chrom – numele cromozomului (ex. chr3, chrY, chr2_random) sau schelet (ex. scaffold10671).

2. chromStart – poziţia de start a cromozomului sau scheletului – prima bază din cromozom este pe poziţia 0

3. chromEnd – poziţia de stop a cromozomului sau scheletului.

Nouă câmpuri adiţionale:

4. name – defineşte denumirea liniei BED – afişat la dreapta liniei BED în fereastra Genome Browser.

5. score – un scor între 0 şi 1000 identificat în gri

6. strand – definit ca fiind '+' or '-'

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

65TIPURI DE FIŞIERE: BED & bigBED

Nouă câmpuri adiţionale:

7. thickStart – poziţia de start la care începe o anumită caracteristică

(ex. codonul de start a unei secvenţe genice)

8. thickEnd – poziţia de stop la care o anumită caracteristică se

termină (ex. codonul stop).

9. itemRgb – valorarea culorilor în spectrul RGB (ex. 255,0,0). blockCount – numărul de exoni din linia BED

10. blockSizes – volumul exeonilor – numărul de valori din această listă

corespunde cu numărul din blockCount.11. blockStarts – listă cu blocurile start calculate relativ la chromStart.

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

66TIPURI DE FIŞIERE: GFF

GFF = General Feature Format1. seqname – numele secvenţei.2. source - programul cu care s-a obţinut.3. feature – numele caracteristicii de interes ("CDS", "start_codon",

"stop_codon", "exon“, etc).4. start – poziţia de start a secvenţei. Prima bază din secvenţă este

1.5. end – poziţia de sfârşit a caracteristicii.6. score – un scor cu valoare între 0 şi 1000. 7. strand – caracteristici valide: '+', '-', sau '.' (pentru nu ştiu).8. frame – aplicabil în cazul codificării exonilor când ia valori între

0-2 ceea ce reprezintă frame-ul de citire al primei baze. Dacă nu e vorba de exon, valoarea va fi egală cu '.'.

9. group – toate liniile cu aceleaşi grupări sunt prezentate ca un singur item.

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

67TIPURI DE FIŞIERE: GTF

GTF = Gene Transfer Format gene_id – identificator unic al sursei genetice pentru o

anumită secvenţă. transcript_id value – identificator unic pentru

transcriptul prezis.

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

68TIPURI DE FIŞIERE: FASTA

*.fsa Primul simbol dintr-un fişier *.fsa este > urmat

de un comentariu care descrie conţinutul

Următoarele linii conţin secvenţele

Secvenţele sunt rupte în mai multe linii cu

aceeaşi lungime arbitrar aleasă, cu excepţia

ultimei linii care poate să fie mai scurtă

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

69SECVENŢE: FIŞIERE ASCI

FASTA: Arabidopsis thaliana

BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4

70

LOCUS RATOBESE.G 539 BP SS-RNA ENTERED 09/23/95

DEFINITION Rat mRNA for obese. ACCESSION - KEYWORDS - SOURCE Rattus norvegicus;

Norway rat

...------------ Submitted (10-Mar-1995) to DDBJ by: ...

1 CCAAGAAGAA AAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT

61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA

121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG

181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA

241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT

301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC

361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC

421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC

481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC

GCG

top related