počítačová část

38
Počítačová část 1. Databáze na internetu: (Databáze, navržení primerů) 2. Fylogenetická analýza

Upload: sophie

Post on 15-Jan-2016

45 views

Category:

Documents


0 download

DESCRIPTION

Počítačová část. 1. Databáze na internetu: (Databáze, navržení primerů) 2. Fylogenetická analýza. Kde se dozvědět více?. Kurz Computational Genomics (Marc VanRanst) Bioinformatics bookmarks (http://www.kuleuven.ac.be/rega/mvr/bioinformatics.htm) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Počítačová část

Počítačová část1. Databáze na internetu:

(Databáze, navržení primerů)

2. Fylogenetická analýza

Page 2: Počítačová část

Kde se dozvědět více?

• Kurz Computational Genomics(Marc VanRanst)Bioinformatics bookmarks(http://www.kuleuven.ac.be/rega/mvr/bioinformatics.htm)

• Úvod do bioinformatiky/Základy bioinformatiky(F. Cvrčková)

• Molekulární ekologie(letní semestr, populační genetika, analýza paternity)

Page 3: Počítačová část

Kde najdu adresy stránek z tohoto praktika?

http://web.natur.cuni.cz/zoologie/biodiversity/

(http://www.natur.cuni.cz/~muncling)

Page 4: Počítačová část

DATABÁZE

Primární databáze DNA sekvencí

GenBank (Amerika) EMBL (Evropa) DDBJ (Japonsko)

Databáze genů

Entrez GeneRefSeq

Databáze genových expresních dat

UniGeneGEO

Databáze genomů

NCBIEnsemblUCSC Genome Browser

Důležité odkazy

PROGRAMY

BLASTNa stránkách NCBI, Ensembl

BLATNa stránkách USCS

Primer3 – navrhování primerů

In Silico PCR

RepeatMasker

NCBI - http://www.ncbi.nlm.nih.gov/ tam najdu skoro vše: GenBank, Entrez Gene, UniGene, MapViewer, BLAST…

ENSEMBL - http://www.ensembl.org/Genome Browser, BLAST

USCS – http://genome.ucsc.edu/Genome Browser, BLAT, In Silico PCR

Page 5: Počítačová část

Formáty sekvencí

• Fasta

• GenBank

• NEXUS

• Phylip

Page 6: Počítačová část

FASTA

>gi|gi-number|gb|accession|locus – description

GATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCTCCTTTGTCGAGTAATTTTCACTTTTCATATGAGAACTTATTTTCTTATTCTTTACTCTCACATCCTGTAG

Page 7: Počítačová část

GenBank• Obsahuje velmi podrobnou informaci o sekvenci:

Locus Základní vlastnosti sekvence (název, délka, typ)

Definition Výpis genů v sekvenci

Accession Databázové přístupové číslo

Version Verze dané sekvence

Keywords Pod kterými klíčovými slovy ji lze najít

Source organism Zařazení v systému

Reference Článek, kde byla daná sekvence publikována

Features Podrobný popis jednotlivých genů včetně jejich pozic

Origin Sekvence

Page 8: Počítačová část

Sekvence v genetické bance• Jsou známy nějaké sekvence mamuta (nejlépe

cytochrom b)?

• Z jakého druhu mamuta jsou známé sekvence?

• Sekvence si chci stáhnout a porovnat

Využijeme:

1. genetickou banku na stránkách NCBI (National Centre for Biotechnology Information)

http://www.ncbi.nlm.nih.gov/

2. EMBL-EBI tools nebo volně dostupný program BioEdit

http://www.ebi.ac.uk/

http://www.mbio.ncsu.edu/BioEdit/bioedit.html

Page 9: Počítačová část

Alignment

• Přiřazení dvou i více sekvencí

Sekvence si navzájem odpovídají

Sekvence se liší

Sekvence chybí

Page 10: Počítačová část

• Pairwise Alignment (2 sekvence)– Globální:

• Zhruba stejně dlouhé sekvence

• Snaží se přiřadit od začátku až do konce sekvence

– Lokální:• Jen nejlépe shodující se místa obou sekvencí

• Sekvence různě dlouhé

Např. BioEdit http://www.ebi.ac.uk/http://www.bioinformatics.org/sms2/index.html

http://en.wikipedia.org/wiki/Sequence_alignment

Page 11: Počítačová část

• Multiple Alignment– Více sekvencí– Hledá konzervativní místa– ClustalW

Např. BioEdit,http://www.ebi.ac.uk/,http://www.bioinformatics.org/sms2/index.html

http://en.wikipedia.org/wiki/Multiple_sequence_alignment

Page 12: Počítačová část

Příklad

• Zkuste provést alignment stažených sekvencí mamutů

• V programu BioEdit lze použít možnost:Accessory Applications – ClustalW Multiple Alignment

Page 13: Počítačová část

Čemu je tato sekvence podobná?

BLASTBasic Local Alignment SearchTool

===========================================

• Hledá lokální (částečné) podobnosti• Na rozdíl od klasického alignmentu, umožňuje velmi

rychle a efektivně prohledávat velké databáze

Page 14: Počítačová část

Úloha

• Vyhledejte sekvence nejpodobnější cytochromu b mamuta

• Použijeme BLAST na stránkách NCBI - http://www.ncbi.nlm.nih.gov/

Page 15: Počítačová část

BLAST - Úloha ze života

• Sekvenuji mamuty

• Jedna ze sekvencí se mi nějak nezdáctagccatgc actactcacc agacgcctca accgcctttt catcaatcgc ccacatcact cgagacgtaa attatggctg aatcatccgc taccttcacg ccaatggcgc ctcaatattc tttatctgcc tcttcctaca catcgggcga ggcctatatt acggatcatt tctctactca gaaacctgaa acatcggcat tatcctcctg cttgcaacta tagcaacagc cttcataggc tatgtcctcc cgtgaggaca aatatcattc tga

• V laboratoři se pracuje i s jinými zvířaty

• Chci zjistit, kdo mi zkontaminoval vzorky

Page 16: Počítačová část
Page 17: Počítačová část

Navržení vlastních primerů pro PCR

Page 18: Počítačová část

http://www.repeatmasker.org/

RepeatMasker

• Umožní vyhledat a „zakrýt“ oblasti, které jsou v genomu ve větším počtu (mikrosatelity, retrotranspozony a transpozony)

• Umožní nám to při navrhování primerů se vyvarovat nespecifickým amplifikacím při PCR

• Pouze ale organismy, které jsou již osekvenovány

Page 19: Počítačová část

Zamaskovaná sekvence

• Pomocí N nebo použitím malých písmen (většina programů určených pro analýzu sekvencí s nimi umí pracovat)

>MusY.1ACACTTTTTCTTTTGCATAATGCTGTGTGGAGATTTTGCAGACAGCATTGCTGTAAAATGCAGAGTAATTTCTGTAATGAGCTTGTGAAATATTGACTATTATGGCCCTCTCTAAGCATGGCTTTAATTATATTCTAGCACAGCAGCTTCTCTGGGGATACTCAGGTCAGATCACTGACTGAATGTTGTGTTCATTTGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGTCATTTGTTGGTGTGCTGAATTCTGTTTTGTTTTGCTTTTAACCTAACTAGCTAGAAATTCTGTCAATCTTTTTTCCTTCCTAGAAAGANNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNGAAACACAGGCTTT

Page 20: Počítačová část

Primer3, Primer3Plus

http://primer3.sourceforge.net/

Page 21: Počítačová část

TGCG{CGCTAAGA<CTCCT>AA[CACACACACA]CGGAATTAGGGAAC}TT

Included RegionTargetExcluded Region

Page 22: Počítačová část

Maskování repeatů

Koncentrace Mg2+ Koncentrace dNTPs

Rozestup primerů => délka amplifikované oblasti

Page 23: Počítačová část

Elektronická PCR

• Vezme dvojici primerů a zkouší, zda-li by PCR ve známém genomu amplifikovala pouze námi požadovanou oblast nebo i jiné oblasti

• Server UCSC (http://www.genome.ucsc.edu/)

• Lze i na NCBI

Page 24: Počítačová část

Úloha:

• Zjistěte zda-li se nachází v sekvencích mikrosatelity

• Zamaskujte je pomocí Repeatmaskeru

• Navrhněte kolem nich primery v Primer3

• Zjistěte, které z těchto primerů jsou dále použitelné pomocí e-PCR

Page 25: Počítačová část

Samostatná úloha

• Stáhnout sekvenci cytochromu b alky velké(Pinguinus impennis), tak aby před začátkem i koncem sekvence cyt b byly dostatečně dlouhé oblasti na navrhnutí primerů

• Navrhnout primery na vybranou část sekvence

• Vyhledat podobné sekvence přes BLAST nebo prověřit příbuzné druhy

• Udělat alignment sekvencí sekvencí cytochromu b

Page 26: Počítačová část

Celogenomová data

• Několik serverů skladujících celogenomická data:

http://www.ncbi.nlm.nih.gov/

http://www.ensembl.org/ http://genome.ucsc.edu/

Page 27: Počítačová část

Celogenomová data

Page 28: Počítačová část

Pozice genů v genomu

• Cytogenetická mapa (podle proužkování)

• Genetická mapa (cM)

• Fyzická mapa (bp, Mb)– pozice na chromosomu podle párů bazí

– začátek chromosomu na centromeře – posice 1 (myš)

– např. gen SRY chrY:1,918,381-1,919,568

Page 29: Počítačová část

Prohlížeče: Ensembl

Page 30: Počítačová část

Prohlížeče: Ensembl

Page 31: Počítačová část

BioMart (Ensembl)

• Efektivní získávání dat z celogenomových databází

• Pracuje na principu filtru – lze nastavit parametry výběru

• Výstup lze uložit jako .txt, .csv nebo .xls soubor

Page 32: Počítačová část

BioMart (Ensembl)

Page 33: Počítačová část

BioMart (Ensembl)

Výběr kritérií

Požadovaná data ve výstupu

Propojení s daty z jiných organismů (pokročilé)

Page 34: Počítačová část

BioMart: Příklad 1

• Pomocí laboratorního křížení se podařilo identifikovat oblast na chromosomu 17 (15 – 20 Mb) zodpovědnou za poruchu meiósy během spermatogenese. Najděte některé kandidátní gen.

• Postup – použít filtr:– „Region“: chr7:15000000-2000000 – „Gene Ontology“: „meiosis“

Page 35: Počítačová část

BioMart: Příklad 1

Kritéria výběru

Co ve výstupu

Page 36: Počítačová část

BioMart: Příklad 2

• Připravte multiple alignment sekvencí myších proteinů z rodiny tzv. Major Urinary Proteins (MUPs).

Page 37: Počítačová část

BioMart: Příklad 2

• Postup:– ID rodiny MUPs (na Ensemblu)– BioMart:

• Filtr => „Protein Domains“ => výběr rodiny (zadat ID rodiny)

• Výstup => „Sequences“ => „Protein“ => „Results“

– Multiple Alignment (ClustalW – nejlépe EBI)

Page 38: Počítačová část

BioMart: Příklad 3

• Koncová část chromosomu 1 (197-198 Mb) v lidském genomu byla asociována s velikostí mozku. Najděte kandidátní gen (předpoklad: gen ležící v této oblasti byl klíčový v evoluci člověka a sekvence tedy prošla velmi rychlou evolucí).