kako složiti genomsku slagalicu od milion delova?kako složiti genomsku slagalicu od milion delova?...
TRANSCRIPT
![Page 1: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/1.jpg)
Kako složiti genomsku slagalicu od milion delova?
Grafovski algoritmi
Bioinformatics Algorithms:
an Active Learning Approach
~Poglavlje 3~
Jovana Kovačević, Bioinformatika 1
![Page 2: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/2.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• De Brujinovi grafovi• Ojlerova teorema• Spajanje parova očitavanja • U realnosti
Jovana Kovačević, Bioinformatika 2
![Page 3: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/3.jpg)
Genom
• Genom jednog organizma predstavlja njegov genetski materijal
• Kod većine organizama, genetski materijal je sadržan u DNK
• Kod čoveka, genom sadrži oko tri milijarde nukleotida
• Genomi nekih organizama su i 100 puta veći od humanog genoma
Amoeba Dubia~ 670 milijardi
Paris Japonica~ 150 milijardi
Jovana Kovačević, Bioinformatika 3
![Page 4: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/4.jpg)
• 1977: Walter Gilbert i Frederick Sanger razvijaju nezavisne metode sa sekvencioniranje DNK
• 1980: Podelili su Nobelovu nagradu.
• Njihove metode za sekvencioniranje su bile veoma skupe ($3 milijarde za sekvencioniranje humanog genoma).
Walter Gilbert
Frederick Sanger
Kratka istorija sekvencioniranja genoma
Jovana Kovačević, Bioinformatika 4
![Page 5: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/5.jpg)
Početak sekvencioniranje genoma
• Krajem 2000-tih Sanger metodom je sekvencioniran veliki broj genoma
• Visoka cena je bila ograničavajući faktor i za dalji napredak je bila neophodna nova tehnologija sekvencioniranja
Jovana Kovačević, Bioinformatika 5
![Page 6: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/6.jpg)
•Next Generation Sequencing (NGS)
•Krajem 2000-tih: Na tržištu se pojavljuju nove mašine za sekvencioniranje• Illumina smanjuje trošak sekvencioniranja
humanog gemona sa 3 milijarde na 10 hiljada dolara
• Kompanija Complete Genomics otvara genomsku fabriku u Silikonskoj dolini koja sekvencionira stotine genoma mesečno
• Pekinški genomski institut (BGI - Beijing Genome Institute) preuzima Complete Genomics 2013. godine i postaje najveći svetski centar za sekvencioniranje genoma
Sekvencioniranje nove generacije
Jovana Kovačević, Bioinformatika 6
![Page 7: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/7.jpg)
Sekvencioniranje ličnih genoma
Jovana Kovačević, Bioinformatika 7
![Page 8: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/8.jpg)
• Genomi se kod različitih ljudi razlikuju na malom broju pozicija (u proseku sadrže jednu mutaciju na hiljadu nukleotida)
• Ova razlika je odgovorna za različite visine kod ljudi, da li će imati sklonost ka visokom holesterolu ili ne, za veliki broj genetskih bolesti, ...
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGATCGATCGATCGATTATCTACGATCGATCGATCGATCACTATACGAGCTACTACGTACGTACGATCGCGGGACTATTATCGACTACAGATAAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGAT
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACAACATCGTAGCTACGATGCATTAGCAAGCTATCGATCGATCGATCGATTATCTACGATCGATCGATCGATCACTATACGAGCTACTACGTACGTACGATCGCGTGACTATTATCGACTACAGATGAAACATGCTAGTACAACAGTATACATAGCTGCGGGATACGATTAGCTAATAGCTGACGATATCCGAT
Sekvencioniranje ličnih genoma
Jovana Kovačević, Bioinformatika 8
![Page 9: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/9.jpg)
• 2010: Nicholas Volker je postao prvo ljudsko biće čiji je život spašen zahvaljujući genomskom sekvencioniranju• Lekari nisu mogli da postave tačnu dijagnozu i morali su da ga podvrgnu velikom broju operacija pokušavajući da je utvrde
• Sekvencioniranje je otkrilo retku mutaciju na jednom genu (XIAP) koja je bila povezana sa oštećenjem njegovog imunog sistema
• Ovo otkriće je navelo lekare na adekvatnu terapiju koja je rešila problem
Sekvencioniranje ličnih genoma
Jovana Kovačević, Bioinformatika 9
![Page 10: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/10.jpg)
Sekvencioniranje ličnih genoma
Jovana Kovačević, Bioinformatika 10
![Page 11: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/11.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• De Brujinovi grafovi• Ojlerova teorema• Spajanje parova očitavanja • U realnosti
Jovana Kovačević, Bioinformatika 11
![Page 12: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/12.jpg)
Problem novina
Jovana Kovačević, Bioinformatika 12
![Page 13: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/13.jpg)
Problem novina
Jovana Kovačević, Bioinformatika 13
![Page 14: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/14.jpg)
Problem novina
Jovana Kovačević, Bioinformatika 14
![Page 15: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/15.jpg)
Problem novina
Jovana Kovačević, Bioinformatika 15
![Page 16: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/16.jpg)
Problem novina
Jovana Kovačević, Bioinformatika 16
![Page 17: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/17.jpg)
Problem novina
Jovana Kovačević, Bioinformatika 17
![Page 18: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/18.jpg)
Problem novina kao delovi slagalice koji se preklapaju
Jovana Kovačević, Bioinformatika 18
![Page 19: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/19.jpg)
Problem novina kao delovi slagalice koji se preklapaju
Jovana Kovačević, Bioinformatika 19
![Page 20: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/20.jpg)
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGGATCAGCTACCACATCGTAGC
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGGATCAGCTACCACATCGTAGC
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGGATCAGCTACCACATCGTAGC
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGGATCAGCTACCACATCGTAGC
Milion kopija genoma
Jovana Kovačević, Bioinformatika 20
![Page 21: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/21.jpg)
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGGATCAGCTACCACATCGTAGC
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGGATCAGCTACCACATCGTAGC
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGGATCAGCTACCACATCGTAGC
CTGATGATGGACTACGCTACTACTGCTAGCTGTATTACGATCAGCTACCACATCGTAGCTACGATGCATTAGCAAGCTATCGGATCAGCTACCACATCGTAGC
Genom je razbijen na slučajno odabranim pozicijama
Jovana Kovačević, Bioinformatika 21
![Page 22: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/22.jpg)
CTGATGA TGGACTACGCTAC TACTGCTAG CTGTATTACG ATCAGCTACCACA TCGTAGCTACG ATGCATTAGCAA GCTATCGGA TCAGCTACCA CATCGTAGC
CTGATGATG GACTACGCT ACTACTGCTA GCTGTATTACG ATCAGCTACC ACATCGTAGCT ACGATGCATTA GCAAGCTATC GGATCAGCTAC CACATCGTAGC
CTGATGATGG ACTACGCTAC TACTGCTAGCT GTATTACGATC AGCTACCAC ATCGTAGCTACG ATGCATTAGCA AGCTATCGG A TCAGCTACCA CATCGTAGC
CTGATGATGGACT ACGCTACTACT GCTAGCTGTAT TACGATCAGC TACCACATCGT AGCTACGATGCA TTAGCAAGCT ATCGGATCA GCTACCACATC GTAGC
Generisana su očitavanja (reads)
Jovana Kovačević, Bioinformatika 22
![Page 23: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/23.jpg)
CTGATGA TGGACTACGCTAC TACTGCTAG CTGTATTACG ATCAGCTACCACA TCGTAGCTACG ATGCATTAGCAA GCTATCGGA TCAGCTACCA CATCGTAGC
CTGATGATG GACTACGCT ACTACTGCTA GCTGTATTACG ATCAGCTACC ACATCGTAGCT ACGATGCATTA GCAAGCTATC GGATCAGCTAC CACATCGTAGC
CTGATGATGG ACTACGCTAC TACTGCTAGCT GTATTACGATC AGCTACCAC ATCGTAGCTACG ATGCATTAGCA AGCTATCGG A TCAGCTACCA CATCGTAGC
CTGATGATGGACT ACGCTACTACT GCTAGCTGTAT TACGATCAGC TACCACATCGT AGCTACGATGCA TTAGCAAGCT ATCGGATCA GCTACCACATC GTAGC
Neka očitavanja su nestala u eksploziji
Jovana Kovačević, Bioinformatika 23
![Page 24: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/24.jpg)
ATGCATTAGCAA GCTATCGGA
ACTACTGCTA
GCTGTATTACG
CTGATGATGG
CTGATGATGGACT
TACCACATCGT
Ne znamo sa kojih pozicija su očitavanja došla
Jovana Kovačević, Bioinformatika 25
![Page 25: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/25.jpg)
ATGCATTAGCAA
GCTATCGGA
ACTACTGCTA
GCTGTATTACG
GCAAGCTATC
CTGATGATGG
CTGATGATGGACT
TACCACATCGT
Ne znamo sa kojih pozicija su očitavanja došla
Jovana Kovačević, Bioinformatika 26
![Page 26: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/26.jpg)
ATGCATTAGCAA
GCTATCGGA
ACTACTGCTA
GCTGTATTACG
GCAAGCTATC
CTGATGATGG
CTGATGATGGACT
TACCACATCGT
Ne znamo sa kojih pozicija su očitavanja došla
Jovana Kovačević, Bioinformatika 27
![Page 27: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/27.jpg)
Više kopija genoma (nesekvencioniranog)
Očitavanja
Sastavaljen genom
…GGCATGCGTCAGAAACTATCATAGCTAGATCGTACGTAGCC…
Generisanje očitavanja
Sastavljanje genoma
Od eksperimentalnih doračunarskih problema
Jovana Kovačević, Bioinformatika 28
![Page 28: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/28.jpg)
•Moderne mašine za sekvencioniranje (sekvenceri) ne mogu da pročitaju ceo genom nukleotid po nukleotid od početka do kraja (kao što bismo pročitali knjigu)
•Mogu samo da iseckaju genom i generišu njegova kratka očitavanja
•Sastavljanje genoma nije isto kao i slaganje slagalice: moramo da koristimo preklapajuća očitavanja da bismo rekonstruisali genom
Zašto je sekvencioniranje genoma teško?
Jovana Kovačević, Bioinformatika 29
![Page 29: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/29.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• De Brujinovi grafovi• Ojlerova teorema• Spajanje parova očitavanja • U realnosti
Jovana Kovačević, Bioinformatika 30
![Page 30: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/30.jpg)
Problem sekvencioniranja genoma
Problem sekvencioniranja genoma. Rekonstruisati genom na osnovu očitavanja.• Ulaz. Kolekcija niski Reads. • Izlaz. Niska Genome rekonstruisana na osnovu Reads.
Ovo nije dobro definisan problem!
Jovana Kovačević, Bioinformatika 31
![Page 31: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/31.jpg)
Composition3(TAATGCCATGGGATGTT)=
k-gramski sastav niske
TAA
AAT
ATG
TGC
GCC
CCA
CAT
ATG
TGG
GGG
GGA
GAT
ATG
TGT
GTT
Jovana Kovačević, Bioinformatika 32
![Page 32: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/32.jpg)
Composition3(TAATGCCATGGGATGTT)=
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
=
AAT ATG ATG ATG CAT CCA GAT GCC GGA GGG GTT TAA TGC TGG TGT
leksikografski poredak
k-gramski sastav niske
Jovana Kovačević, Bioinformatika 33
![Page 33: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/33.jpg)
Problem rekonstrukcije niske. Rekonstruisati nisku na osnovu njenog k-gramskog sastava.• Ulaz. Kolekcija k-grama. • Izlaz. Niska Genome takva da je
Compositionk(Genome) ekvivalentno kolekciji k-grama.
Rekonstrukcija niske na osnovu njenog k-gramskog sastava
Jovana Kovačević, Bioinformatika 34
![Page 34: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/34.jpg)
AAT ATG ATG ATG CAT CCA GAT GCC GGA GGG GTT TAA TGC TGG TGT
Naivni pristup
Jovana Kovačević, Bioinformatika 35
![Page 35: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/35.jpg)
AAT ATG ATG ATG CAT CCA GAT GCC GGA GGG GTT TGC TGG TGT
TAA
Naivni pristup
Jovana Kovačević, Bioinformatika 36
![Page 36: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/36.jpg)
ATG ATG ATG CAT CCA GAT GCC GGA GGG GTT TGC TGG TGT
TAA
AAT
Naivni pristup
Jovana Kovačević, Bioinformatika 37
![Page 37: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/37.jpg)
ATG ATG ATG CAT CCA GAT GCC GGA GGG GTT TGC TGG TGT
TAA AAT
Naivni pristup
Jovana Kovačević, Bioinformatika 38
![Page 38: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/38.jpg)
ATG ATG CAT CCA GAT GCC GGA GGG GTT TGC TGG TGT
TAA AAT
ATG
Naivni pristup
Jovana Kovačević, Bioinformatika 39
![Page 39: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/39.jpg)
ATG ATG CAT CCA GAT GCC GGA GGG GTT TGC TGG TGT
TAA AAT
ATG
Naivni pristup
Jovana Kovačević, Bioinformatika 40
![Page 40: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/40.jpg)
ATG ATG CAT CCA GAT GCC GGA GGG GTT TGC TGG TGT
TAA AAT
ATG
Naivni pristup
Jovana Kovačević, Bioinformatika 41
![Page 41: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/41.jpg)
ATG ATG CAT CCA GAT GCC GGA GGG GTT TGC TGG
TAA AAT
ATG
TGT
Naivni pristup
Jovana Kovačević, Bioinformatika 42
![Page 42: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/42.jpg)
ATG ATG CAT CCA GAT GCC GGA GGG GTT TGC TGG
TAA AAT
ATG
TGT
Naivni pristup
Jovana Kovačević, Bioinformatika 43
![Page 43: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/43.jpg)
ATG ATG CAT CCA GAT GCC GGA GGG TGC TGG
TAA AAT
ATG
TGT
GTT
Naivni pristup
Jovana Kovačević, Bioinformatika 44
![Page 44: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/44.jpg)
ATG ATG CAT CCA GAT GCC GGA GGG TGC TGG
TAA AAT
ATG
TGTGTT
Šta je sledeće?
Jovana Kovačević, Bioinformatika 45
![Page 45: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/45.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• De Brujinovi grafovi• Ojlerova teorema• Spajanje parova očitavanja • U realnosti
Jovana Kovačević, Bioinformatika 46
![Page 46: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/46.jpg)
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Genom kao putanja
Composition3(TAATGCCATGGGATGTT)=
Jovana Kovačević, Bioinformatika 47
![Page 47: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/47.jpg)
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Genom kao putanja
Composition3(TAATGCCATGGGATGTT)=
Jovana Kovačević, Bioinformatika 48
![Page 48: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/48.jpg)
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Composition3(TAATGCCATGGGATGTT)=
Genom kao putanja
Da li možemo konstruisati ovu genomsku putanju ako ne znamo sam genom TAATGCCATGGGATGTT ali znamo njegov k-gramski sastav?
Jovana Kovačević, Bioinformatika 49
![Page 49: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/49.jpg)
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Composition3(TAATGCCATGGGATGTT)=
Da li možemo konstruisati ovu genomsku putanju ako ne znamo sam genom TAATGCCATGGGATGTT ali znamo njegov k-gramski sastav?
Možemo. Treba da povežemo k-mer1 sa k-mer2 akosuffix(k-mer1)=prefix(k-mer2).
E.g. TAA → AAT
Genom kao putanja
Jovana Kovačević, Bioinformatika 50
![Page 50: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/50.jpg)
TAATGCCATGGGATGTT
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Graf na osnovu k-gramskog sastava
Možemo. Treba da povežemo k-mer1 sa k-mer2 akosuffix(k-mer1)=prefix(k-mer2).
E.g. TAA → AAT
Jovana Kovačević, Bioinformatika 51
![Page 51: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/51.jpg)
TAATGCCATGGGATGTT
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Od svih putanja, da li možemo da pronađemo genomsku putanju u ovom grafu?
Graf na osnovu k-gramskog sastava
Jovana Kovačević, Bioinformatika 52
![Page 52: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/52.jpg)
TAATGCCATGGGATGTT
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Od svih putanja, da li možemo da pronađemo genomsku putanju u ovom grafu?
Graf na osnovu k-gramskog sastava
Jovana Kovačević, Bioinformatika 53
![Page 53: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/53.jpg)
Gde je genomska putanja?
TAAATG TGCGCCCCACATATG TGGGGGGGAGATATG TGTGTTAAT
Čvorovi su prikazani u rastućem leksikografskom poretku. Šta pokušavamo da pronađemo na ovom grafu?
Hamiltonova putanja: putanja koja posećuje svaki čvor u grafu tačno jednom.
TAATGCCATGGGATGTT
Jovana Kovačević, Bioinformatika 54
![Page 54: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/54.jpg)
Problem Hamiltonove putanje
Problem Hamiltonove putanje. Naći Hamiltonovu putanju u grafu. • Ulaz. Graf.• Izlaz. Putanja koja posećuje svaki čvor u
grafu tačno jednom
Nalaženje Hamiltonove putanje je NP kompletan problem!
Jovana Kovačević, Bioinformatika 55
![Page 55: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/55.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• De Brujinovi grafovi• Ojlerova teorema• Spajanje parova očitavanja • U realnosti
Jovana Kovačević, Bioinformatika 56
![Page 56: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/56.jpg)
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
TAATGCCATGGGATGTT
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Malo drugačija putanja
3-grami kao čvorovi
3-grami kao grane
TAA
Kako obeležavamo početni i krajnji čvor grane?
TA AAprefiks TAA sufiks TAA
Jovana Kovačević, Bioinformatika 57
![Page 57: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/57.jpg)
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
TA CAAA AT TG GC CC AT TG GG GG GA AT TG GT TT
TAATGCCATGGGATGTT
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
Obeležavanje čvorova u novoj putanji
3-grami su čvorovi
3-grami su grane a 2-grami su čvorovi
Jovana Kovačević, Bioinformatika 58
![Page 58: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/58.jpg)
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
TA CAAA AT TG GC CC AT TG GG GG GA AT TG GT TT
Obeležavanje čvorova u novoj putanji
3-grami su grane a 2-grami su čvorovi
Jovana Kovačević, Bioinformatika 59
![Page 59: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/59.jpg)
TAA AAT
ATGTGG GGG GGA GAT ATG TGT GTT
TA AA AT TG GG GG GA AT TG GT TT
TGC
GCCCCA
CAT
CA
TG
GC
CC
ATGAT
Lepljenje identično obeleženih čvorova
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
TA CAAA AT TG GC CC AT TG GG GG GA AT TG GT TT
Jovana Kovačević, Bioinformatika 60
![Page 60: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/60.jpg)
TAA
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG
TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
AT
AT
AAT
Lepljenje identično obeleženih čvorova
Jovana Kovačević, Bioinformatika 61
![Page 61: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/61.jpg)
TAA
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG
TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
AT
AT
AAT
Lepljenje identično obeleženih čvorova
Jovana Kovačević, Bioinformatika 62
![Page 62: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/62.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Lepljenje identično obeleženih čvorova
Jovana Kovačević, Bioinformatika 63
![Page 63: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/63.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Lepljenje identično obeleženih čvorova
Jovana Kovačević, Bioinformatika 64
![Page 64: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/64.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Lepljenje identično obeleženih čvorova
Jovana Kovačević, Bioinformatika 65
![Page 65: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/65.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Lepljenje identično obeleženih čvorova
Jovana Kovačević, Bioinformatika 66
![Page 66: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/66.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Lepljenje identično obeleženih čvorova
Jovana Kovačević, Bioinformatika 67
![Page 67: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/67.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGG
GGA
GAT
ATG TGT GTTTA
CA
AA AT
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Lepljenje identično obeleženih čvorova
Jovana Kovačević, Bioinformatika 68
![Page 68: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/68.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GGGA
TG GT TT
GC
CC
ATG
De Brujinov graf za niskuTAATGCCATGGGATGTT
Gde se Genomekrije u ovom grafu?
Jovana Kovačević, Bioinformatika 69
![Page 69: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/69.jpg)
Šta pokušavamo da pronađemo u ovom
grafu?
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GGGA
TG GT TT
GC
CC
ATG
Gde je Genome u De Brujinovom grafu?
Ojlerova putanja u grafu je putanja koja posećuje svaku granu tačno jednom.
TAATGCCATGGGATGTT
Jovana Kovačević, Bioinformatika 70
![Page 70: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/70.jpg)
Problem Ojlerove putanje
Problem Ojlerove putanje. Pronaći Ojlerovu putanju u grafu. • Ulaz. Graf. • Izlaz. Putanja koja posećuje svaku granu u grafu tačno jednom.
Jovana Kovačević, Bioinformatika 71
![Page 71: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/71.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• De Brujinovi grafovi• Ojlerova teorema• Spajanje parova očitavanja • U realnosti
Jovana Kovačević, Bioinformatika 72
![Page 72: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/72.jpg)
Konstruisali smo De Brujinov graf na osnovu genoma, ali u realnim primenama,genom je nepoznat!
Problem Ojlerove putanje
Problem Ojlerove putanje. Pronaći Ojlerovu putanju u grafu. • Ulaz. Graf. • Izlaz. Putanja koja posećuje svaku granu u grafu tačno jednom.
Jovana Kovačević, Bioinformatika 73
![Page 73: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/73.jpg)
Urađeno: Od genoma do De Brujinovog grafa
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GGGA
TG GT TT
GC
CC
ATG
TAATGCCATGGGATGTT
Jovana Kovačević, Bioinformatika 74
![Page 74: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/74.jpg)
Želimo da uradimo: Od očitavanja (kolekcije k-grama) do genoma
TAATGCCATGGGATGTT
AAT ATG ATG ATG CAT CCA GAT GCC GGA GGG GTT TAA TGC TGG TGT
Jovana Kovačević, Bioinformatika 75
![Page 75: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/75.jpg)
Pokazaćemo: Od očitavanja do De Brujinovog grafa do genoma
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GGGA
TG GT TT
GC
CC
ATG
TAATGCCATGGGATGTT
AAT ATG ATG ATG CAT CCA GAT GCC GGA GGG GTT TAA TGC TGG TGT
Jovana Kovačević, Bioinformatika 76
![Page 76: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/76.jpg)
Konstrukcija De Brujinovog grafa kada je genom poznat
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
TA CAAA AT TG GC CC AT TG GG GG GA AT TG GT TT
TAATGCCATGGGATGTT
Jovana Kovačević, Bioinformatika 77
![Page 77: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/77.jpg)
TAA
AAT
ATG
TGC
GCC
CCA
CAT
ATG
TGG
GGG
GGA
GAT
ATG
TGT
GTT
Composition3(TAATGCCATGGGATGTT)
Konstrukcija De Brujinovog grafa kada je genom nepoznat
Jovana Kovačević, Bioinformatika 78
![Page 78: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/78.jpg)
TAA
AAT
ATG
TGC
GCC
CCA
CAT
ATG
TGG
GGG
GGA
GAT
ATG
TGT
GTT
Predstavimo k-gramski sastav kao graf koji se sastoji od nepovezanih grana
Composition3(TAATGCCATGGGATGTT)
Jovana Kovačević, Bioinformatika 79
![Page 79: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/79.jpg)
TAATA AA
AATAA AT
ATGAT TG
TGCTG GC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Konstruišemo De Brujinov graf na osnovu k-gramskog sastava
Composition3(TAATGCCATGGGATGTT)
Jovana Kovačević, Bioinformatika 80
![Page 80: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/80.jpg)
TAATA AA
AATAA AT
ATGAT TG
TGCTG GC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 81
![Page 81: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/81.jpg)
TAATA AA
AAAT
ATGAT TG
TGCTG GC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 82
![Page 82: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/82.jpg)
TAATA AA
AATAT
ATGAT TG
TGCTG GC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 83
![Page 83: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/83.jpg)
TAATA AA
AATAT
ATGAT TG
TGCTG GC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 84
![Page 84: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/84.jpg)
TAATA AA
AAT ATGAT TG
TGCTG GC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 85
![Page 85: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/85.jpg)
TAATA AA
AAT ATGAT TG
TGCTG GC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 86
![Page 86: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/86.jpg)
TAATA AA
AAT ATGAT TG
TGCGC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 87
![Page 87: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/87.jpg)
TAATA AA
AAT ATGAT TG
TGCGC
GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 88
![Page 88: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/88.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 89
![Page 89: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/89.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCACACC
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 90
![Page 90: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/90.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA
CA
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 91
![Page 91: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/91.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA
CA
CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 92
![Page 92: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/92.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 93
![Page 93: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/93.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
ATGAT TG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 94
![Page 94: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/94.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
ATGTG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 95
![Page 95: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/95.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
ATGTG
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 96
![Page 96: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/96.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
ATG TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
Jovana Kovačević, Bioinformatika 97
![Page 97: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/97.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGGGG GG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 98
![Page 98: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/98.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGGGG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 99
![Page 99: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/99.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGGGG
GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 100
![Page 100: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/100.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 101
![Page 101: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/101.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GATGA AT
ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 102
![Page 102: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/102.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GATAT
ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 103
![Page 103: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/103.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GATAT
ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 104
![Page 104: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/104.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GAT ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 105
![Page 105: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/105.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GAT ATGAT TG
TGTTG GT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 106
![Page 106: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/106.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GAT ATGAT TG
TGTGT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 107
![Page 107: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/107.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GAT ATGAT TG
TGTGT
GTTGT TT
ATG
Jovana Kovačević, Bioinformatika 108
![Page 108: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/108.jpg)
TAATA AA
AAT ATGAT TG
TGC GCCGC CC
CCA CATCA AT
TGGTG GG
GGG GGAGG GA
GAT ATGAT TG
TGT GTTGT TT
ATG
Lepljenje nije završeno
Jovana Kovačević, Bioinformatika 109
![Page 109: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/109.jpg)
TAA AAT
ATGTGG GGG GGA GAT ATG TGT GTT
TA AA AT TG GG GG GA AT TG GT TT
TGC
GCCCCA
CAT
CA
TG
GC
CC
ATGAT
TAA AAT ATG TGC GCC CCA CAT ATG TGG GGG GGA GAT ATG TGT GTT
TA CAAA AT TG GC CC AT TG GG GG GA AT TG GT TT
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 110
![Page 110: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/110.jpg)
TAA
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG
TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
AT
AT
AAT
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 111
![Page 111: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/111.jpg)
TAA
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG
TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
AT
AT
AAT
Jovana Kovačević, Bioinformatika 112
![Page 112: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/112.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 113
![Page 113: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/113.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 114
![Page 114: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/114.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA
TG
AT
TG
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 115
![Page 115: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/115.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 116
![Page 116: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/116.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 117
![Page 117: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/117.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGG
GGA
GAT
ATG TGT GTTTA
CA
AA AT
GG
GG
GA
TG GT TT
TAATGCCATGGGATGTT
GC
CC
ATG
Zalepimo identično obeležene čvorove
Jovana Kovačević, Bioinformatika 118
![Page 118: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/118.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GGGA
TG GT TT
GC
CC
ATG
Isti De Brujinov graf:DeBruin(Genome)=
DeBruin(Genome Composition)
Jovana Kovačević, Bioinformatika 119
![Page 119: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/119.jpg)
Konstrukcija De Brujinovog grafa
De Brujinov graf na osnovu kolekcijek-grama:
– Svaka grana je označena jednim k-gramom
– Svaki čvor je označen prefiksom/sufiksom izlazne/ulazne grane
– Zalepljeni su svi čvorovi sa identičnim oznakama.
Jovana Kovačević, Bioinformatika 120
![Page 120: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/120.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• De Brujinovi grafovi• Ojlerova teorema• Spajanje parova očitavanja • U realnosti
Jovana Kovačević, Bioinformatika 121
![Page 121: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/121.jpg)
Problem Ojlerovog ciklusa
Problem Ojlerovog ciklusa. Pronaći Ojlerov ciklus u grafu. • Ulaz. Graf. • Izlaz. Ciklus koja posećuje svaku granu u grafu tačno jednom.
Jovana Kovačević, Bioinformatika 122
![Page 122: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/122.jpg)
Kažemo da je graf Ojlerov ako sadrži Ojlerov ciklus.
Da li je ovaj graf Ojlerov?
Jovana Kovačević, Bioinformatika 123
![Page 123: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/123.jpg)
1 in, 2 out
Kažemo da je graf balansiran ako za svaki čvor važiindegree = outdegree
Kažemo da je graf Ojlerov ako sadrži Ojlerov ciklus.
Da li je ovaj graf Ojlerov?
Jovana Kovačević, Bioinformatika 124
![Page 124: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/124.jpg)
• Svaki Ojlerov graf je balansiran
• Svaki povezan i balansiran graf je Ojlerov• Kažemo da je graf povezan ako za ma koja dva čvora postoji putanja koja ih povezuje.
Ojlerova teorema
Jovana Kovačević, Bioinformatika 125
![Page 125: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/125.jpg)
Kako bi mrav dokazao Ojlerovu teoremu?
Mrav na slučajan način bira grane kojima će se kretati u grafu. Ne može da obiđe istu granu dvaput!
Jovana Kovačević, Bioinformatika 126
![Page 126: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/126.jpg)
Veoma pametan mrav
“Yay! Now can I go home please?”
Jovana Kovačević, Bioinformatika 127
![Page 127: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/127.jpg)
Manje pametan mrav
Jovana Kovačević, Bioinformatika 128
![Page 128: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/128.jpg)
... obilazi ...
Jovana Kovačević, Bioinformatika 129
![Page 129: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/129.jpg)
... obilazi ...
Jovana Kovačević, Bioinformatika 130
![Page 130: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/130.jpg)
... obilazi ...
Da li može da se zaglavi? U kom čvoru?
Jovana Kovačević, Bioinformatika 131
![Page 131: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/131.jpg)
Mrav može da se zaglavi samo u čvoru iz kog je počeo obilazak
Jovana Kovačević, Bioinformatika 132
![Page 132: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/132.jpg)
Mrav je kreirao ciklus ali još nije dokazao Ojlerovu teoremu
Konstruisani ciklus nije Ojlerov. Možemo li da ga uvećamo?
Jovana Kovačević, Bioinformatika 133
![Page 133: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/133.jpg)
Hajde da započnemo obilazak u nekom drugom čvoru iz zelenog ciklusa
U kom? U onom koji ima neposećene grane.
“Why should I start at a different node? Backtracking? I’m not evolved to walk backwards! And what difference does it make???”
Jovana Kovačević, Bioinformatika 134
![Page 134: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/134.jpg)
Nove instrukcije za mrava:
Počni od čvora koji ima neposećenu granu, obiđi već konstruisani zeleni ciklus i vrati se u početni čvor
Jovana Kovačević, Bioinformatika 135
![Page 135: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/135.jpg)
1
Mrav obilazi prethodno konstruisani ciklus
Počni od čvora koji ima neposećenu granu, obiđi već konstruisani zeleni ciklus i vrati se u početni čvor
Jovana Kovačević, Bioinformatika 136
![Page 136: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/136.jpg)
1
2
Mrav obilazi prethodno konstruisani ciklus
Počni od čvora koji ima neposećenu granu, obiđi već konstruisani zeleni ciklus i vrati se u početni čvor
Jovana Kovačević, Bioinformatika 137
![Page 137: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/137.jpg)
1
2
3“Why do I have to walk along the same cycle again??? Can I see something new?”
Mrav obilazi prethodno konstruisani ciklus
Počni od čvora koji ima neposećenu granu, obiđi već konstruisani zeleni ciklus i vrati se u početni čvor
Jovana Kovačević, Bioinformatika 138
![Page 138: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/138.jpg)
13
2
4
Mrav se vratio nazad ali može da nastavi da obilazi!
Nakon završenog ciklusa, nastavi obilazak tako što ćeš posetiti neku granu koja nije posećena ranije. Ako ih ima više, odaberi jednu na slučajan način.
Počni od čvora koji ima neposećenu granu, obiđi već konstruisani zeleni ciklus i vrati se u početni čvor
Jovana Kovačević, Bioinformatika 139
![Page 139: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/139.jpg)
Uvećavamo prethodno konstruisani ciklus
Jovana Kovačević, Bioinformatika 140
![Page 140: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/140.jpg)
Uvećavamo prethodno konstruisani ciklus
Jovana Kovačević, Bioinformatika 141
![Page 141: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/141.jpg)
Uvećavamo prethodno konstruisani ciklus
Jovana Kovačević, Bioinformatika 142
![Page 142: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/142.jpg)
Uvećavamo prethodno konstruisani ciklus
Jovana Kovačević, Bioinformatika 143
![Page 143: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/143.jpg)
1
2
3
4
5
6 7
8
Mrav se ponovo zaglavio!
Konstruisani zeleno-plavi ciklus i dalje nije Ojlerov. Da li možemo da ga uvećamo?
Mrav treba da obiđe konstruisani ciklus počev od drugog čvora. Od kog?
Jovana Kovačević, Bioinformatika 144
![Page 144: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/144.jpg)
Počinjemo od novog čvora, ponovo…
Jovana Kovačević, Bioinformatika 145
![Page 145: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/145.jpg)
1
Obilazimo prethodno konstruisan zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 146
![Page 146: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/146.jpg)
1
2
Obilazimo prethodno konstruisan zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 147
![Page 147: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/147.jpg)
1
2
3
“I hate to traverse the same cycle! What difference does it make where I start my walk???
Obilazimo prethodno konstruisan zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 148
![Page 148: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/148.jpg)
1
2
3
4
“These instructions are stupid…”
Obilazimo prethodno konstruisan zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 149
![Page 149: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/149.jpg)
1
2
3
4
5
Obilazimo prethodno konstruisan zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 150
![Page 150: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/150.jpg)
1
2
3
4
5
6
Obilazimo prethodno konstruisan zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 151
![Page 151: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/151.jpg)
1
2
3
4
5
6
7
Obilazimo prethodno konstruisan zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 152
![Page 152: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/152.jpg)
1
2
3
4
5
6
7 8
“Hmm, maybe these instructions were not that stupid…”
Mrav se vratio nazad ali može da nastavi da obilazi!
Jovana Kovačević, Bioinformatika 153
![Page 153: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/153.jpg)
Uvećavamo zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 154
![Page 154: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/154.jpg)
Uvećavamo zeleno-plavi ciklus
Jovana Kovačević, Bioinformatika 155
![Page 155: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/155.jpg)
Ojlerova teorema je dokazana
4
5
2
3
78
1
6
9
1011
EulerianCycle(BalancedGraph)form a Cycle by randomly walking in BalancedGraph (avoiding
already visited edges)while Cycle is not Eulerian
select a node newStart in Cycle with still unexplored outgoing edges
form a Cycle’ by traversing Cycle from newStart and randomly walking afterwards
Cycle ← Cycle’ return Cycle
Jovana Kovačević, Bioinformatika 156
![Page 156: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/156.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• Slični problemi sa različitim sudbinama?• De Brujinovi grafovi• Ojlerova teorema• Sastavljanje parova očitavanja • De Bruijn Graphs Face Harsh Realities of Assembly
Jovana Kovačević, Bioinformatika 157
![Page 157: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/157.jpg)
Od očitavanja do De Brujinovog grafa do genoma
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GGGA
TG GT TT
GC
CC
ATG
TAATGCCATGGGATGTT
AAT ATG ATG ATG CAT CCA GAT GCC GGA GGG GTT TAA TGC TGG TGT
Jovana Kovačević, Bioinformatika 158
![Page 158: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/158.jpg)
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GGGA
TG GT TT
GC
CC
ATG
Graf može imati više Ojlerovih putanja
TAA AAT
TGC
GCCCCA
CAT
ATG
TGG
GGGGGA
GAT
ATG TGT GTTTA
CA
AA AT
GGGA
TG GT TT
GC
CC
ATG
TAATGCCATGGGATGTT TAATG ATGGG ATGTTCC
Jovana Kovačević, Bioinformatika 159
![Page 159: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/159.jpg)
DNK sekvencioniranje sa parovima očitavanja
Na slučajnim pozicijama iseći genom na fragmente jednake dužine InsertLength
Više identičnih kopija genoma
Generisati parove očitavanja: dva očitavanja sa krajeva svakog fragmenta, na fiksiranoj udaljenosti
200 bp 200 bp
InsertLengthJovana Kovačević, Bioinformatika 160
![Page 160: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/160.jpg)
Od k-grama do uparenih k-grama
genom
očitavanje 1 očitavanje 2
...A T C A G A T T A C G T T C C G A G …
Pod uparenim k-gramom podrazumevamo par k-grama na fiksiranom rastojanju d u genomu. Na primer, TCA i TCC
na rastojanju d=11 čine jedan upareni k-gram.
rastojanje d=11
Jovana Kovačević, Bioinformatika 162
![Page 161: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/161.jpg)
TAA GCC
Šta je upareni k-gramski sastav PairedComposition(TAATGCCATGGGATGTT)?
Show first line first And then show all the lines
upareni 3-gram
Jovana Kovačević, Bioinformatika 163
![Page 162: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/162.jpg)
TAA GCCAAT CCAATG CATTGC ATGGCC TGGCCA GGGCAT GGAATG GATTGG ATGGGG TGTGGA GTT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Šta je upareni k-gramski sastav PairedComposition(TAATGCCATGGGATGTT)?
Predstavimo upareni 3-gram TAA GCC na sledeći način: TAAGCC
Show first line first And then show all the lines
Jovana Kovačević, Bioinformatika 164
![Page 163: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/163.jpg)
TAA GCCAAT CCAATG CATTGC ATGGCC TGGCCA GGGCAT GGAATG GATTGG ATGGGG TGTGGA GTT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
PairedComposition(TAATGCCATGGGATGTT)
Leksikografski poredak kolekcije PairedComposition
Show first line first And then show all the lines
TAAGCC
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
AATCCA
Jovana Kovačević, Bioinformatika 165
![Page 164: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/164.jpg)
Problem rekonstrukcije niske na osnovu parova očitavanja
Problem rekonstrukcije niske na osnovu parova očitavanja.Rekontruisati nisku na osnovu njenih uparenih k-grama. • Ulaz. Kolekcija uparenih k-grama.• Izlaz. Niska Text takva da je
PairedComposition(Text) jednak kolekciji uparenih k-grama.
Jovana Kovačević, Bioinformatika 166
![Page 165: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/165.jpg)
Kako konstruisati upareni De Brujinov graf na osnovu uparenog k-gramskog sastava?
Pretpostavimo da je dat genom (niska Genome). Posmatrajmo genom kao putanju u grafu obeleženom na osnovu njegovog uparenog k-gramskog sastava
Jovana Kovačević, Bioinformatika 167
![Page 166: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/166.jpg)
TAA GCCAAT CCAATG CATTGC ATGGCC TGGCCA GGGCAT GGAATG GATTGG ATGGGG TGTGGA GTT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Predstavimo genom TAATGCCATGGGATGTT kao putanju
upareni prefiks → ← upareni sufiks
CCAGGG
CCGG
CAGG
CCAGGG
CCAGGG
Jovana Kovačević, Bioinformatika 168
![Page 167: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/167.jpg)
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
TGAT
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Obeležimo čvorove uparenim prefiksima i sufiksima
upareni prefiks → ← upareni sufiks
CCAGGG
CCGG
CAGG
CCAGGG
CCAGGG
Jovana Kovačević, Bioinformatika 169
![Page 168: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/168.jpg)
Zalepimo čvorove za identičnim oznakama
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
TGAT
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Jovana Kovačević, Bioinformatika 170
![Page 169: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/169.jpg)
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
TGAT
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
TGAT
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Zalepimo čvorove za identičnim oznakama
Jovana Kovačević, Bioinformatika 171
![Page 170: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/170.jpg)
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
TGAT
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Upareni De Brujinov graf na osnovu datog genoma
Zalepimo čvorove za identičnim oznakama
Jovana Kovačević, Bioinformatika 172
![Page 171: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/171.jpg)
Kako konstruisati de upareni deBrujinov graf na osnovu uparenog k-gramskog sastava?
• Pretpostavili smo da je dat genom (niska Genome). Posmatrali smo genom kao putanju u grafu obeleženom na osnovu njegovog uparenog k-gramskog sastava
• Sada pretpostavimo da nije dat genom već samo upareni k-gramski sastav
Jovana Kovačević, Bioinformatika 173
![Page 172: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/172.jpg)
Konstrukcija uparenog De Brujinovog grafa na osnovu uparenih k-grama
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Jovana Kovačević, Bioinformatika 174
![Page 173: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/173.jpg)
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Konstrukcija uparenog De Brujinovog grafa na osnovu uparenih k-grama
upareni prefiks → ← upareni sufiks
CCAGGG
CCGG
CAGG
CCAGGG
CCAGGG
Jovana Kovačević, Bioinformatika 175
![Page 174: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/174.jpg)
TAGC
AACC
TAAGCC
AACC
ATCA
AATCCA
ATCA
TGAT
ATGCAT
TGAT
GCTG
TGCATG
GCTG
CCGG
GCCTGG
CCGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
Konstrukcija uparenog De Brujinovog grafa na osnovu uparenih k-grama
upareni prefiks → ← upareni sufiks
CCAGGG
CCGG
CAGG
CCAGGG
CCAGGG
Jovana Kovačević, Bioinformatika 176
![Page 175: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/175.jpg)
TAGC
AACC
TAAGCC
AACC
ATCA
AATCCA
ATCA
TGAT
ATGCAT
TGAT
GCTG
TGCATG
GCTG
CCGG
GCCTGG
CCGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
Konstrukcija uparenog De Brujinovog grafa na osnovu uparenih k-grama
Jovana Kovačević, Bioinformatika 177
![Page 176: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/176.jpg)
TAGC
AACC
TAAGCC
AACC
ATCA
AATCCA
ATCA
TGAT
ATGCAT
TGAT
GCTG
TGCATG
GCTG
CCGG
GCCTGG
CCGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 178
![Page 177: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/177.jpg)
TAGC
AACC
TAAGCC
ATCA
AATCCA
ATCA
TGAT
ATGCAT
TGAT
GCTG
TGCATG
GCTG
CCGG
GCCTGG
CCGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 179
![Page 178: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/178.jpg)
TAGC
AACC
TAAGCC
AATCCA
ATCA
TGAT
ATGCAT
TGAT
GCTG
TGCATG
GCTG
CCGG
GCCTGG
CCGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 180
![Page 179: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/179.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
TGCATG
GCTG
CCGG
GCCTGG
CCGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 181
![Page 180: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/180.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
TGCATG
GCTG
CCGG
GCCTGG
CCGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 182
![Page 181: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/181.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
TGCATG
GCTG
CCGG
GCCTGG
CCGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 183
![Page 182: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/182.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
CCGG
GCCTGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
TGCATG
AATCCA
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 184
![Page 183: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/183.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
TGCATG
GCTG
CCGG
GCCTGG
CAGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 185
![Page 184: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/184.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
TGCATG
GCTG
CCGG
GCCTGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 186
![Page 185: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/185.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
CCGG
GCCTGG
CCAGGG
CAGG
ATGA
CATGGA
ATGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
TGCATG
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 187
![Page 186: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/186.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
CCGG
GCCTGG
CAGG
ATGA
CATGGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
TGCATG
CCAGGG
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 188
![Page 187: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/187.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
CCGG
GCCTGG
CAGG
ATGA
CATGGA
TGAT
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
TGCATG
CCAGGG
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 189
![Page 188: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/188.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
CCGG
GCCTGG
CAGG
ATGA
CATGGA
ATGGAT
TGAT
GGTG
TGGATG
GGTG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
TGCATG
CCAGGG
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 190
![Page 189: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/189.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
CCGG
GCCTGG
CAGG
ATGA
CATGGA
ATGGAT
TGAT
GGTG
TGGATG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
TGCATG
CCAGGG
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 191
![Page 190: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/190.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
CCGG
GCCTGG
CAGG
ATGA
CATGGA
TGAT
GGTG
TGGATG
GGGT
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
TGCATG
ATGGAT
CCAGGG
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 192
![Page 191: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/191.jpg)
TAGC
AACC
TAAGCC
ATCA
TGAT
ATGCAT
GCTG
CCGG
GCCTGG
CAGG
ATGA
CATGGA
TGAT
GGTG
TGGATG
GGGTGT
GGGT
GATT
GGAGTT
AATCCA
TGCATG
ATGGAT
CCAGGG
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 193
![Page 192: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/192.jpg)
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
TGAT
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Lepljenje čvorovasa identičnom oznakom
Jovana Kovačević, Bioinformatika 194
![Page 193: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/193.jpg)
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
TGAT
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 195
![Page 194: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/194.jpg)
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
GGTG
GGGT
GATT
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Upareni De Brujinov graf na osnovu parova očitavanja
Konstrukcija uparenog De Brujinovog grafa
Jovana Kovačević, Bioinformatika 196
![Page 195: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/195.jpg)
Upareni De Brujinov graf
Upareni De Brujinov graf na osnovu kolekcije uparenih k-grama:
– Svaka grana je označena jednim uparenim k-gramom
– Svaki čvor je označen prefiksima/sufiksima izlazne/ulazne grane
– Zalepljeni su svi čvorovi sa identičnim oznakama.
Jovana Kovačević, Bioinformatika 197
![Page 196: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/196.jpg)
TAGC
AACC
ATCA
TGAT
GCTG
CCGG
CAGG
ATGA
GGTG
GGGT
GATT
Koji graf je bolja reprezentacija?
TAAGCC
AATCCA
ATGCAT
TGCATG
GCCTGG
CCAGGG
CATGGA
ATGGAT
TGGATG
GGGTGT
GGAGTT
Jedinstvenarekonstrukcijagenoma
TAATGCCATGGGATGTT
Višestruka rekonstrukcijagenoma
TAATGCCATGGGATGTT
TAATGGGATGCCATGTT
GGA
Upareni De Brujinov graf De Brujinov graf
Jovana Kovačević, Bioinformatika 198
![Page 197: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/197.jpg)
Pregled
• Šta je sekvencioniranje genoma?• Eksplozija u štampariji• Problem rekonstrukcije niske• Rekonstrukcija niske kao problem Hamiltonove putanje• Rekonstrukcija niske kao problem Ojlerove putanje• Slični problemi sa različitim sudbinama?• De Brujinovi grafovi• Ojlerova teorema• Sastavljanje parova očitavanja • U realnosti
Jovana Kovačević, Bioinformatika 199
![Page 198: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/198.jpg)
Nerealne pretpostavke
• Savršena pokrivenost genoma očitavanjima (svaki k-gram iz genoma je očitan)
• Očitavanja ne sadrže greške
• Rastojanja između očitavanja u okviru parova očitavanja su egzaktna
Jovana Kovačević, Bioinformatika 200
![Page 199: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/199.jpg)
Nerealne pretpostavke
• Nesavršena pokrivenost genoma očitavanjima (svaki k-gram iz genoma je očitan)
• Očitavanja ne sadrže greške
• Rastojanja između očitavanja u okviru parova očitavanja nisu egzaktna
• Itd.
Jovana Kovačević, Bioinformatika 201
![Page 200: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/200.jpg)
Prva nerealna pretpostavka: savršena pokrivenostatgccgtatggacaacgact
atgccgtatg
gccgtatgga
gtatggacaa
gacaacgact
Očitavanja dužine 250 nukleotida dobijena Illumina tehnologijom predstavljaju samo mali deo 250-grama unutar genoma.
Jovana Kovačević, Bioinformatika 202
![Page 201: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/201.jpg)
Rešenje: razbiti dobijena očitavanja na kraće k-grame
atgccgtatggacaacgact atgccgtatggacaacgact
atgccgtatg atgcc
gccgtatgga tgccg
gtatggacaa gccgt
gacaacgact ccgta
cgtat
gtatg
tatgg
atgga
tggac
ggaca
gacaa
acaac
caacg
aacga
acgac
cgact
Jovana Kovačević, Bioinformatika 203
![Page 202: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/202.jpg)
atgccgtatggacaacgact atgccgtatggacaacgact
atgccgtatg atgcc
gccgtatgga tgccg
gtatggacaa gccgt
gacaacgact ccgta
cgtaCggaca cgtat
gtatg
tatgg
atgga
tggac
ggaca
gacaa
acaac
caacg
aacga
acgac
cgact
cgtaC
gtaCg
taCgg
aCgga
Cggac
Očitavanje sa greškom (promena
t u C)
Druga nerealna pretpostavka: očitavanja ne sadrže greške
Jovana Kovačević, Bioinformatika 204
![Page 203: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/203.jpg)
De Brujinov graf genoma ATGGCGTGCAATG… kostruisan na osnovu
očitavanja koja ne sadrže greške
.
CGTA GTAT TATG ATGG TGGA GGAC GACATGCC GCCG CCGTATGC
ATGCC TGCCG GCCGT CCGTA CGTAT GTATG TATGG ATGGA TGGAC GGACA
Jovana Kovačević, Bioinformatika 205
![Page 204: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/204.jpg)
Greške u očitavanjima vode do stvaranja balončićau De Brujinovom grafu
.
CGCA GCAT CATGCCGC
GCCGC
CCGCA CGCAT GCATG
CATGBubble!
CGTA GTAT TATG ATGG TGGA GGAC GACATGCC GCCG CCGTATGC
ATGCC TGCCG GCCGT CCGTA CGTAT GTATG TATGG ATGGA TGGAC GGACA
Jovana Kovačević, Bioinformatika 206
![Page 205: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/205.jpg)
Eksplozija balončića
Jovana Kovačević, Bioinformatika 207
![Page 206: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/206.jpg)
De Brujinov graf genoma N. meningitidis
nakon uklanjanja balončića
Crvene grane predstavljaju ponavljanja
Jovana Kovačević, Bioinformatika 208
![Page 207: Kako složiti genomsku slagalicu od milion delova?Kako složiti genomsku slagalicu od milion delova? Grafovski algoritmi Bioinformatics Algorithms: an Active Learning Approach ~Poglavlje](https://reader031.vdocuments.net/reader031/viewer/2022012922/6100ae032b6e9a42ba2046c0/html5/thumbnails/207.jpg)
• Slajdovi pokrivaju poglavlje 3 knjigeBioinformatics Algorithms: an Active Learning Approach
• Sadržaj slajdova je preuzet sa zvaničnih prezentacija autora i dodatno prilagođen
Jovana Kovačević, Bioinformatika 209