biologie computaţională - curs 1sorana.academicdirect.ro/pages/doc/computbiol/c04.pdf · 2013....
TRANSCRIPT
![Page 1: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/1.jpg)
STRUCTURA BIOLOGICĂ.
§2.2. REPREZENTAREA &
PRELUAREA & STOCAREA
SECVENŢELOR
Sorana D. BOLBOACĂ
![Page 2: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/2.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
2 Despre …
Reprezentarea şi preluarea secvenţelor:
Definiţie
Modalităţi de codificare-reprezentare Prezentare
Stocarea secvenţelor de nucleotide & aminoacizi Modalitate Baze de date: exemple Principii de căutare în baze de date dedicate
![Page 3: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/3.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
3 DEFINIŢIE
Secvenţa = set liniar de caractere reprezentate
de nucleotide sau amino acizi ADN: 4 nucleotide (baze) – A, C, G, T ARN: 4 nucleotide - A, C, G, U Proteine: amino acizi
![Page 4: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/4.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
4 REPREZENTAREA SECVENŢELOR
Caractere: Simple Uşor de editat, citit,
etc. Codificare – bit:
Utilizată în stocarea secvenţelor (memorie sau disc calculator)
Mai compact Compresie eficientă
(volum mare de date –spaţiu mic)
Reprezentarea caracterelor: ADN & ARN: cod cu
o singură literă (A, C, G, T/U).
Proteine: Cod cu o singură literă
– C = Cys Cod cu trei litere - Ala
= A = Alanina Cod 1-literă ↔ 3-litere
![Page 5: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/5.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
5 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE
Incertitudinea în secvenţe de nucleotice = pentru o
anumită poziţie e posibilă existenţa uneia sau altei
molecule Când?
Pentru a exprima ambiguitate în timpul secvenţierii
Pentru a exprima variaţia unei poziţii în gene în timpul
evoluţiei
Pentru a exprima capacitatea unei enzime de a tolera mai mult de o bază la o anumită poziţie a unui site de
recunoaştere
![Page 6: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/6.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
6 REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE
Nucleotide: Set de coduri de caractere unic, care reprezintă
toate combinaţiile posibile de baze
Propuse şi adoptate de Uniunea Internaţională
de Biochimie şi este menţionată ca IUB cod
![Page 7: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/7.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
7 CODUL IUB (International Union of Biochemistry)
Baze standard – cod genetic
Codul DenumireaA AdeninaC CitozinaG GuaninaT TiminaU Uracil
![Page 8: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/8.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
8 CODUL IUB (International Union of Biochemistry) Baze standard - derivaţii – cod genetic (NC-IUB)
R = A, G (puRine) Y = C, T
(pYrimidine) S = G, C (Strong
hydrogen bonds) W = A, T (Weak
hydrogen bonds) M = A, C (aMino
group)
K = G, T (Keto group)
B = C, G, T (not A) D = A, G, T (not C) H = A, C, T (not G) V = A, C, G (not T/U) N = A, C, G, T/U
(iNdeterminate) X or - are sometimes used
![Page 9: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/9.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
9 CODUL IUB
Amino acizi
![Page 10: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/10.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
10REPREZENTAREA INCERTITUDINLOR ÎN SECVENŢE
Proteine: Realizarea unui cod este mai dificilă datorită
numărului mare de aminoacizi
Incertitudinea e mai puţin frecventă în
secvenţele de amino acizi decât în secvenţele de
nucleotide Se poate utiliza o codificare de tip bit dar rar
este şi utilizată
![Page 11: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/11.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
11BAZE DE DATE: DE CE?
Date biologice disponibile pentru cercetători
Consolidarea datelor din diferite surse Asigurarea accesului la seturi de date mari, care
nu pot fi publicate (ex. genom, etc.) Asigură accesul la date biologice în format
electronic Asigura accesibilitatea datelor pentru analize
automate
![Page 12: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/12.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
12BAZE DE DATE: DATE VS. BAZE DE DATE
Date
Tipuri de date: • secvenţe de nucleotide
• secvenţe de proteine
• structuri 3D • expresia genelor • căi metabolice
•...
12
Date de intrare şi controlul
calităţii:
• date depozitate • personal specializat adaugă şi
actualizează datele
• datele eronate sunt eliminate sau marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare
•...
BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE
erorile sunt verificate caracteristici: coerenţă şi actualizare
căi metabolice marcate
BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE
• căi metabolice
•...marcate • erorile sunt verificate • caracteristici: coerenţă şi actualizare
•...Date primare sau secundare:
• Primare: date experimentale • Secundare: rezultate ale analizei bazelor de date primare • Unificarea mai multor baze de date •...
![Page 13: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/13.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
13BAZE DE DATE: DATE VS. BAZE DE DATE
Baze de date
Organizare: • fişiere plane
• baze de date relaţionale
• baze de date orientate-obiect •...
Disponibilitate: • accesibile publicului fără nici
o restricţie
• disponibile dar cu drepturi de autor • accesibile dar nu se pot salva • academice, dar nu disponibile fără cost
• comerciale
BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ B B B BIODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE
academice, dar nu disponibile fără cost
• academice, dar nu
BBIOLOGIE IOLOGIE IOLOGIE CCCOMPUTAŢIONALĂ OMPUTAŢIONALĂ OMPUTAŢIONALĂ –– B B B B– B– IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE &IODIVERSITATE & B B BIOCONSERVARE IOCONSERVARE IOCONSERVARE
obiect •...
• academice, dar nu disponibile fără cost
• comerciale
Curatori: • Instituţii mari, publice (EMBL, NCBI)• Instituţii cvasi-academice (Swiss institute of Bioinformatics, TIGR, etc.)• Grupuri academice sau de cercetare • Companii comerciale ...
![Page 14: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/14.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
14BAZE DE DATE
Clasificare în funcţie de conţinut:
Descriptiv: denumire, taxonomie, descrierea speciei Kew Plants People Possibilities: http://www.kew.org/plants-
fungi/index.htm Plants Database: http://plants.usda.gov/ Uncon Plant Database: http://www.hort.uconn.edu/plants/ HoriPlex Plant Darabase:
http://hortiplex.gardenweb.com/plants/ Native Plant Database: http://www.wildflower.org/plants/ Tropical Plant Database: http://www.rain-tree.com/plants.htm Plant Encyclopedia Database:
http://www.plantcare.com/encyclopedia/
![Page 15: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/15.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
15BAZE DE DATE
Clasificare în funcţie de conţinut:
Descriptiv: denumire, taxonomie, descrierea speciei Walters Garden Database:
http://www.waltersgardens.com/plants/ Carnivore Plant Database:
http://www.omnisterra.com/bot/cp_home.cgi PLANTfacts: http://plantfacts.osu.edu/
![Page 16: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/16.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
16BAZE DE DATE
Clasificare în funcţie de conţinut:
Structură genetică:
Genomul la plante: http://data.kew.org/cvalues/ NCBI: http://data.kew.org/cvalues/ PlantGBD: http://www.plantgdb.org/ Plant Genome Research "Outreach“:
http://www.plantgdb.org/PGROP/pgrop.php BarleyBase:
http://www.plexdb.org/plex.php?database=Barley
![Page 17: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/17.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
17BAZE DE DATE
Clasificare în funcţie de conţinut:
Structură genetică:
TIGR Rice Genome: http://blast.jcvi.org/euk-blast/index.cgi?project=osa1
Brassica Genome Gateway: http://brassica.bbsrc.ac.uk/
Oryzabase: http://www.shigen.nig.ac.jp/rice/oryzabase/top/top.jsp
RiceGAAS: http://ricegaas.dna.affrc.go.jp/rgadb/ BeanGenes Database:
http://beangenes.cws.ndsu.nodak.edu/ ChlamyDB: http://www.chlamy.org/chlamydb.html
![Page 18: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/18.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
18BAZE DE DATE
Clasificare în funcţie de conţinut:
Structură genetică:
CottonDB: http://cottondb.org/ EMBL Nucleotide Sequence Database:
http://www.ebi.ac.uk/embl/ DDBJ: http://www.ddbj.nig.ac.jp/fromddbj-e.html PlantPromoterDB: http://ppdb.gene.nagoya-
u.ac.jp/cgi-bin/index.cgi
![Page 19: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/19.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
19BAZE DE DATE: SECVENŢE DE NUCLEOTIDE
EMBL: www.ebi.ac.uk/embl GenBank: www.ncbi.nlm.nih.gov/GenBank DDBJ: www.ddbj.nig.ac.jp
Sincronizarea zilnică a conţinutului (pe baza codului de
aderare: un şir de litere şi cifre care identifică în mod
unic o intrare în baza sa de date – spre deosebire de identificator codul de aderare nu se modifică)
Nu există specificaţii legale cu privire la utilizarea
acestor baze de date – există însă o serie de secvenţe
brevetate
![Page 20: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/20.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
20BAZE DE DATE: PROTEINE
Protein Information Resource: http://pir.georgetown.edu
SWISS-PROT: http://www.expasy.ch/sprot
![Page 21: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/21.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
21BAZE DE DATE: BIOMOLEULE
PDB: http://www.rcsb.org SCOP: http://scop.berkeley.edu CATH: http://biochem.ucl.ac.uk/bsm/CATH ASTRAL: http://astral.berkeley.edu HOMSTRAD: http://www-cryst.bioc.cam.ac.uk/data/align/ Interfeţe la PDB:
PDB at a glance:http://cmm.info.nih.gov/modeling/pdb_at_a_glance.html
Molecules to go: http://molbio.info.nih.gov/cgi-bin/pdb/ EBI interface: http://www.ebi.ac.uk/msd/ PDBSum: http://www.ebi.ac.uk/thornton-
srv/databases/pdbsum
![Page 22: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/22.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
22RESURSE NCBI: SECVENŢE DE BAZE
Entrez: http://www.ncbi.nlm.nih.gov/sites/gquery
![Page 23: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/23.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
23RESURSE NCBI: SECVENŢE DE BAZE
dbEST: secvenţe single de cADN http://www.ncbi.nlm.nih.gov/dbEST/index.html
![Page 24: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/24.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
24RESURSE NCBI: SECVENŢE DE BAZE
dbGSS: secvenţe genomice
http://www.ncbi.nlm.nih.gov/dbGSS/index.html
![Page 25: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/25.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
25RESURSE NCBI: SECVENŢE DE BAZE
dbSTS:http://www.ncbi.nlm.nih.gov/dbSTS/index.html
![Page 26: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/26.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
26RESURSE NCBI: SECVENŢE DE BAZE
dbSNP: polimorfism nucleotidic http://www.ncbi.nlm.nih.gov/SNP/index.html
![Page 27: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/27.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
27RESURSE NCBI: SECVENŢE DE BAZE
Structure: http://www.ncbi.nlm.nih.gov/sites/entrez?db=structure
![Page 28: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/28.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
28RESURSE NCBI: SECVENŢE DE BAZE
Genome: http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome
![Page 29: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/29.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
29RESURSE NCBI: SECVENŢE DE BAZE
Proteine: http://www.ncbi.nlm.nih.gov/sites/entrez?db=protein
![Page 30: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/30.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
30RESURSE NCBI: SECVENŢE DE BAZE
Nucleotide: http://www.ncbi.nlm.nih.gov/sites/entrez?db=nucleotide
![Page 31: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/31.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
31RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: http://www.ncbi.nlm.nih.gov/sites/entrez?db=taxonomy
![Page 32: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/32.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
32RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
![Page 33: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/33.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
33RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
![Page 34: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/34.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
34RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
![Page 35: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/35.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
35RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
![Page 36: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/36.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
36RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
![Page 37: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/37.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
37RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
![Page 38: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/38.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
38RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
![Page 39: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/39.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
39RESURSE NCBI: SECVENŢE DE BAZE
Taxonomy: Arabidopsis thaliana
![Page 40: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/40.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
40ENTREZ
Introducere semi-automată a informaţiei în
baza de date Legătura dintre diferitele baze de date este dată
de prezentarea critică a utilităţii
Sequence searching: Căutarea se secvenţe pentru o anumită genă sau
proteină
Secvenţele identificate se pot copia sau salva
![Page 41: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/41.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
42ENTREZ: PUBMED
Similaritatea între documente este măsurată prin
intermediul cuvintelor pe care documentele le au în
comun: Care cuvinte sunt luate în considerare?
Care este greutatea fiecărui cuvânt?
Cum putem calcula scorul de similaritate pentru 2 articole?
![Page 42: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/42.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
43ENTREZ: PUBMED
Evaluarea cuvintelor: Ponderea unei perechi de cuvinte comune:
local wt1 * local wt2 global wt
Similaritatea dintre două articole: suma
ponderilor pentru toate cuvintele comune Cu cât valoarea este mai mare cu atât mai similare
sunt articolele investigate
![Page 43: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/43.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
44ENTREZ: PUBMED
Evaluarea cuvintelor: Pondere globală: e mai bună dacă cuvântul e
mai puţin frecvent în întreaga bază de date
Pondere locală:
E mai bună dacă cuvântul este mai frecvent în
interiorul documentului Nu sunt favorizate documentele mai lungi
![Page 44: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/44.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
45ENTREZ: SEQUENCE SEARCHING
Studiu de caz: identificarea de secvenţe pentru MRP1 (ARABIDOPSIS THALIANA MULTIDRUG RESISTANCE-ASSOCIATED PROTEIN 1) OMIM: căutare de cuvinte cheie. Nucleotide database:
Identificare secvenţe nucleotide. Denumire de gene
Protein database: identificare secvenţe proteice. GenPept: salvare a secvenţelor identificate. PubMed: identificare articole de specialitate.
Related Articles: identificarea articolelor similare. Limits: limitarea căutării
![Page 45: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/45.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
46ENTREZ: SEQUENCE SEARCHING
![Page 46: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/46.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
47ENTREZ: NUCLEOTIDES
![Page 47: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/47.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
48ENTREZ: NUCLEOTIDES
![Page 48: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/48.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
49ENTREZ: NUCLEOTIDES → GenPept
![Page 49: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/49.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
50ENTREZ: NUCLEOTIDES → FASTA
![Page 50: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/50.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
51ENTREZ: RELATED STRUCRURES
![Page 51: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/51.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
52ENTREZ: IDENTICAL PROTEINS
![Page 52: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/52.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
53ENTREZ: GENOME
![Page 53: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/53.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
54ENTREZ: GENOME
![Page 54: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/54.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
55ENTREZ: GENOME
![Page 55: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/55.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
56ENTREZ: TAXONOMY
![Page 56: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/56.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
57ENTREZ: GENE
![Page 57: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/57.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
58ENTREZ: SEQUENCE READ
![Page 58: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/58.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
59ENTREZ: HOMOLOGENE
![Page 59: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/59.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
60ENTREZ: PROTEINCLUSTERS
![Page 60: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/60.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
61ENTREZ: UNIGENE
![Page 61: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/61.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
62SECVENŢE: TIPURI DE FIŞIERE
Formatul fişierelor:
Text sau binar Minim sau adnotat
Fişierele de tip text:
Utilizează codul IUB
Se pot citi cu procesoarele de text (ex. Microsoft Word, Crimson, etc.)
Fişierele binare:
Se citesc cu programele cu care au fost create (ex. MacVector) Fişierele adnotate conţin informaţii cunoscute cu privire la
secvenţele conţinute
Annotated files preserve information known about the sequence (codarea regiunii de start şi stop, proprietăţile proteinelor, literatura de specialitate, etc.)
![Page 62: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/62.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
63SECVENŢE: TIPURI DE FIŞIERE
Genome Browser BED & bigBED PSL GFF GTF MAF BAM WIG & bigWIG
Genome Browser Microarray Chain Net Axt .2bit .nib
![Page 63: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/63.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
64TIPURI DE FIŞIERE: BED & bigBED Trei câmpuri obligatorii:
1. chrom – numele cromozomului (ex. chr3, chrY, chr2_random) sau schelet (ex. scaffold10671).
2. chromStart – poziţia de start a cromozomului sau scheletului – prima bază din cromozom este pe poziţia 0
3. chromEnd – poziţia de stop a cromozomului sau scheletului.
Nouă câmpuri adiţionale:
4. name – defineşte denumirea liniei BED – afişat la dreapta liniei BED în fereastra Genome Browser.
5. score – un scor între 0 şi 1000 identificat în gri
6. strand – definit ca fiind '+' or '-'
![Page 64: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/64.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
65TIPURI DE FIŞIERE: BED & bigBED
Nouă câmpuri adiţionale:
7. thickStart – poziţia de start la care începe o anumită caracteristică
(ex. codonul de start a unei secvenţe genice)
8. thickEnd – poziţia de stop la care o anumită caracteristică se
termină (ex. codonul stop).
9. itemRgb – valorarea culorilor în spectrul RGB (ex. 255,0,0). blockCount – numărul de exoni din linia BED
10. blockSizes – volumul exeonilor – numărul de valori din această listă
corespunde cu numărul din blockCount.11. blockStarts – listă cu blocurile start calculate relativ la chromStart.
![Page 65: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/65.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
66TIPURI DE FIŞIERE: GFF
GFF = General Feature Format1. seqname – numele secvenţei.2. source - programul cu care s-a obţinut.3. feature – numele caracteristicii de interes ("CDS", "start_codon",
"stop_codon", "exon“, etc).4. start – poziţia de start a secvenţei. Prima bază din secvenţă este
1.5. end – poziţia de sfârşit a caracteristicii.6. score – un scor cu valoare între 0 şi 1000. 7. strand – caracteristici valide: '+', '-', sau '.' (pentru nu ştiu).8. frame – aplicabil în cazul codificării exonilor când ia valori între
0-2 ceea ce reprezintă frame-ul de citire al primei baze. Dacă nu e vorba de exon, valoarea va fi egală cu '.'.
9. group – toate liniile cu aceleaşi grupări sunt prezentate ca un singur item.
![Page 66: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/66.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
67TIPURI DE FIŞIERE: GTF
GTF = Gene Transfer Format gene_id – identificator unic al sursei genetice pentru o
anumită secvenţă. transcript_id value – identificator unic pentru
transcriptul prezis.
![Page 67: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/67.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
68TIPURI DE FIŞIERE: FASTA
*.fsa Primul simbol dintr-un fişier *.fsa este > urmat
de un comentariu care descrie conţinutul
Următoarele linii conţin secvenţele
Secvenţele sunt rupte în mai multe linii cu
aceeaşi lungime arbitrar aleasă, cu excepţia
ultimei linii care poate să fie mai scurtă
![Page 68: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/68.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
69SECVENŢE: FIŞIERE ASCI
FASTA: Arabidopsis thaliana
![Page 69: Biologie computaţională - Curs 1sorana.academicdirect.ro/pages/doc/ComputBiol/C04.pdf · 2013. 11. 22. · de Biochimie şi este menţionată ca IUB cod. B. IOLOGIE . C. OMPUTAŢIONALĂ](https://reader031.vdocuments.net/reader031/viewer/2022012003/60b292bca4ea7954fd3f2fff/html5/thumbnails/69.jpg)
BIOLOGIE COMPUTAŢIONALĂ – BIODIVERSITATE & BIOCONSERVARE – CURS 4
70
LOCUS RATOBESE.G 539 BP SS-RNA ENTERED 09/23/95
DEFINITION Rat mRNA for obese. ACCESSION - KEYWORDS - SOURCE Rattus norvegicus;
Norway rat
...------------ Submitted (10-Mar-1995) to DDBJ by: ...
1 CCAAGAAGAA AAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT
61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA
121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG
181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA
241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT
301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC
361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC
421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC
481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC
GCG