ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός
DESCRIPTION
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός. Παντελής Μπάγκος. Δυναμικός Προγραμματισμός. Στοίχιση (τοπική-ολική) RNA secondary structure prediction Διαμεμβρανικά τμήματα Hidden Markov Models Άλλες εφαρμογές. Στοίχιση. Ολική Τοπική Ειδικές περιπτώσεις. Δυναμικός προγραμματισμός. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/1.jpg)
ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ
Δυναμικός Προγραμματισμός
Παντελής Μπάγκος
![Page 2: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/2.jpg)
Δυναμικός Προγραμματισμός
• Στοίχιση (τοπική-ολική)
• RNA secondary structure prediction
• Διαμεμβρανικά τμήματα
• Hidden Markov Models
• Άλλες εφαρμογές
![Page 3: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/3.jpg)
Στοίχιση
• Ολική
• Τοπική
• Ειδικές περιπτώσεις
![Page 4: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/4.jpg)
Δυναμικός προγραμματισμός
![Page 5: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/5.jpg)
Δυο περιπτώσεις στοιχίσεων
( 1, 1) ( , ),
( , ) max ( 1, ) ,
( , 1)
i jF i j s x y
F i j F i j d
F i j d
F(i,0)=-id,F(0,j)=-jd
( 1, 1) ( , ),
( 1, ) ,( , ) max
( , 1) ,
0
i jF i j s x y
F i j dF i j
F i j d
F(i,0)=0,F(0,j)=0
![Page 6: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/6.jpg)
Ποινές για τα κενά (gap penalties)
gdg )(
egdg )1()(
Απλή ποινή για τα κενά:
Σύνθετη ποινή για τα κενά:
![Page 7: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/7.jpg)
Παράδειγμα
CAGTATCGCAyAAGTTAGCAGx
ii
ii
ii yx
yxyxs
αν ,1
αν ,1),(
d=1
A A G T – T A G C A GC A G T A T C G C A -
Έστω δυο ακολουθίες:
Αν έχουμε για τα κενά:
Τότε η καλύτερη ολική στοίχιση θα είναι:
![Page 8: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/8.jpg)
Ολική στοίχιση…
A A G T – T A G C A GC A G T A T C G C A -
![Page 9: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/9.jpg)
Τοπική στοίχιση…
A G T – T A G C A A G T A T C G C A
![Page 10: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/10.jpg)
Άλλοι αλγόριθμοι
• Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης (π.χ. προσαρμογή)
• Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή ακολουθία αν συναντάται σε μια μεγαλύτερηΈστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου lacI της E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία:
και η αλληλουχία του υποκινητή είναι
GCCCGGAAGCATGATAGCTCGCGGTATGx
TATAATy
![Page 11: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/11.jpg)
συνέχεια…
( 1, 1) ( , ),
( , ) max ( 1, ) ,
( , 1)
i jF i j s x y
F i j F i j d
F i j d
F(i,0)=-id F(0,j)=0.
![Page 12: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/12.jpg)
C A T G A T
Και η ακολουθία του πιθανού υποκινητή είναι:
![Page 13: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/13.jpg)
RNA secondary structure prediction
![Page 14: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/14.jpg)
Nussinov
![Page 15: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/15.jpg)
![Page 16: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/16.jpg)
Διαμεμβρανικά τμήματα
N
C
C
N
IN
OUT
IN
OUT
![Page 17: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/17.jpg)
![Page 18: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/18.jpg)
![Page 19: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/19.jpg)
![Page 20: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/20.jpg)
![Page 21: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/21.jpg)
Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ ...
Εκτίμηση• Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας
ακολουθίας συμβόλων. P(x|θ)Αποκωδικοποίηση • Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την
οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων.
Εκπαίδευση • Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να
μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών
θML=argmaxP(x|θ)
),(maxarg*
xP
![Page 22: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/22.jpg)
... και οι απαντήσεις τους
Εκτίμηση• Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που
υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων).
Αποκωδικοποίηση • Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω
αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST).
Εκπαίδευση • Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική
περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).
![Page 23: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/23.jpg)
Αλγόριθμος Forward
![Page 24: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/24.jpg)
![Page 25: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/25.jpg)
![Page 26: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/26.jpg)
Αλγόριθμος Viterbi
![Page 27: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/27.jpg)
Αποκωδικοποίηση forward
![Page 28: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/28.jpg)
“Εκ των υστέρων” αποκωδικοποίηση)|( xkP i Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα:
δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση
Κάνοντας χρήση των Forward και Backward:
![Page 29: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/29.jpg)
Πλεονεκτήματα:
• στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες.
• όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ.
Μειονεκτήματα:
• Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση).
![Page 30: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/30.jpg)
Συνοπτικά ο αλγόριθμος
• Υπολογισμός των Α και Ε
• Υπολογισμός των ΕΜΠ
• Επανάληψη μέχρι να συγκλίνει
![Page 31: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/31.jpg)
Ένα παράδειγμα...
![Page 32: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/32.jpg)
συνέχεια...
Πιθανότητες μεταβάσεωςΠιθανότητες μεταβάσεως::
1 1 000.0.9090 0. 0.10100.10 0.900.10 0.90
Πιθανότητες γεννήσεως Πιθανότητες γεννήσεως ::
ΑΑ ΤΤ G C G C0.0.7700 0. 0.1010 0.0.1010 0. 0.10100.0.2525 0.0.2525 0.0.225 5 0.0.2525
1
0
1
0
![Page 33: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/33.jpg)
συνέχεια...
AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA111111111100000000000001111111111100000000000000111111110000000000001 AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG111111111100000000000000000000011111111111111100000000000000000000000 AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA00000000000000001111111111111100000000000000000011111111111111
Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο:
![Page 34: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/34.jpg)
συνέχεια...
![Page 35: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/35.jpg)
συνέχεια...
Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν:
Πιθανότητες μεταβάσεωςΠιθανότητες μεταβάσεως::
1 1 000.0.9898 0. 0.02020.0.0303 0.9 0.977
Πιθανότητες γεννήσεως Πιθανότητες γεννήσεως ::
ΑΑ ΤΤ G C G C0.0.6060 0. 0.1010 0.0.1010 0. 0.10100.0.2525 0.0.2525 0.0.225 5 0.0.2525
10
10
![Page 36: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/36.jpg)
συνέχεια...
![Page 37: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/37.jpg)
Posterior-Viterbi decodingΟρίζονται οι επιτρεπτές μεταβάσεις:
![Page 38: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/38.jpg)
Optimal Accuracy Posterior Decoding
Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι:
Συνολικά:
![Page 39: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/39.jpg)
![Page 40: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/40.jpg)
![Page 41: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/41.jpg)
Άλλες εφαρμογές
• Fold recognition
• Threading
• Domain recognition
![Page 42: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/42.jpg)
Fold recognition
![Page 43: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/43.jpg)
Threading• Protein threading is the problem of aligning a protein sequence whose structure we
want to elucidate (the target protein) with a protein sequence whose structure is known (the template protein) in such a way that mapping residues of the target onto a template according to the alignment affords an accurate model of the backbone structure of the target.
![Page 44: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/44.jpg)
Domain recognition
![Page 45: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/45.jpg)
![Page 46: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/46.jpg)
Transformational Grammars
“Colourless green ideas sleep furiously”
Chomsky
![Page 47: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/47.jpg)
![Page 48: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/48.jpg)
A transformational grammar consists of a number of symbols and a number of rewriting rules (productions) of the form:
a→b,
where a and b are both strings of symbols.
i.e.: C → cN, C → E
There are two types of symbols:
-abstract nonterminal symbols
-terminal (observable) symbols)
![Page 49: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/49.jpg)
Production rules• Regular grammars: only productions of the form W →aW or
W →a• Context-free grammars: productions of the form W →β.
Left: just one non-terminal, right: any string• Context-sensitive grammars: productions of the form
α1Wα2 →a1βa2
• Unrestricted grammars: any production of the form α1Wα2 →γ
W: any non terminal, a: any terminal, α, γ: any string of nonterminals and/or terminals including null
stringβ: any string of nonterminals and/or terminals not including null
string
![Page 50: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/50.jpg)
![Page 51: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/51.jpg)
Regular Expressions
[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]
![Page 52: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/52.jpg)
Ισοδυναμία…
S → rW1|kW1
W1 → gW2
W2 → [afilmnqrstvwy]W3
W3 → [agsci]W4
W4 → fW5|yW5
W5 → lW6|iW6|vW6|aW6
W6 → [acdefghiklmnpqrstvwy]W7
W7 → f|y|m
[RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]
![Page 53: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/53.jpg)
Stochastic Grammars?…the notion “probability of a sentence” is an entirely
useless one, under any known interpretation of this term.
— Noam Chomsky
(famed linguist)
Every time I fire a linguist, the performance of the
recognizer improves.
— Fred Jelinek
(former head of IBM speech recognition group)
![Page 54: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/54.jpg)
HMMs and Regular grammars
![Page 55: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/55.jpg)
Modeling (allowed) transitions explicitly:
B → L | F | E
L → L | F | E
L → L | F | E
In the notation of the grammars, these are the nonterminal symbols
Modeling emission explicitly (no probab. here):
in state F: a | c | g | t
in state L: a | c | g | t
In the notation of the grammars, these are the terminal symbols
![Page 56: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/56.jpg)
Όλα μαζί…
Together: Modelling each combination of state and transition explicitly:B → aL | cL | gL | tL | aF | cF | gF | tF | EL → aL | cL | gL | tL | aF | cF | gF | tF | EF → aL | cL | gL | tL | aF | cF | gF | tF | E
P( B → aL ) = P(B) * P(a|L)P( L → aF ) = P(F| L) *P(a|F)These are the – so called – rewriting rules
![Page 57: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/57.jpg)
That‘s all we need to define a stochastic regular grammar !
• Finite alphabet of terminal symbols
(a,c,g,t)
• Finite set of nonterminal symbols
(B,L,F,E)
• A set of rewriting rules
(B -> aF, L -> cF, ...)
• Probabilities
P(B->aL) …
![Page 58: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/58.jpg)
Hidden states Non-terminals
Transition matrix Rewriting rules
Emission matrix Terminals
Probabilities Probabilities
![Page 59: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/59.jpg)
Example: possible regular grammar
N → aF | cF | gF | tF | aL | cL | gL | tL | E
0,1 0,1 0,3 ...
B → aF | cF | gF | tF | aL | cL | gL | tL | E
0,2 0,1 0,2 ...
C → aF | cF | gF | tF | aL | cL | gL | tL | E
0,1 0,3 0,2 ...
An example derivation from the above grammar is:
B → aF → aaL → aacL → aactF → aactE
Finite State Automata: Meale, Moore
![Page 60: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/60.jpg)
Αδυναμίες των Regular Grammars
• Regular language
a b a a a b
• Palindrome language
a a b b a a
• Copy language
a a b a a b
![Page 61: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/61.jpg)
•“ΝΙΨΟΝ ΑΝΟΜΗΜΑΤΑ ΜΗ ΜΟΝΑΝ ΟΨΙΝ.”
•“Doc, note. I dissent. A fast never prevents a fatness. I diet on cot.”
•RNA secondary structureaggccuaaauagaucuag...
((()))...(((())))....
Παλίνδρομες Γλώσσες
![Page 62: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/62.jpg)
![Page 63: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/63.jpg)
Context-free grammars
• Στο context-free grammar, στο αριστερό σκέλος πρέπει να έχουμε ένα και μόνο non-terminal, αλλά στο αριστερό οποιόνδήποτε συνδυασμό terminal και non-terminal
• S →aSa|bSb|aa|bb• S aSa aaSaa aabSbaa aabaabaa⇒ ⇒ ⇒ ⇒• To parsing γίνεται με τα Push-down
automata
![Page 64: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/64.jpg)
Context-free grammars for RNA
![Page 65: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/65.jpg)
![Page 66: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/66.jpg)
Chomsky Normal form
• W1→W2W3 or W1→a
• Κάθε γραμματική μπορεί να πάρει τη μορφή αυτή
• Ιδιαίτερα χρήσιμη για τους αλγορίθμους
![Page 67: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/67.jpg)
Stochastic Context-free grammars (SCFGs)
• Σε κάθε κανόνα ανατίθεται μια πιθανότητα• Βασικό πλεονέκτημα, η προφανής
επέκταση και εκλέπτυνση των αποτελεσμάτων (όπως για παράδειγμα από Regular expression σε ΗΜΜ)
• Παράδειγμα: Μπορεί να επιτρέπουμε (με διαφορετικές, και μικρές πιθανότητες) το «λαθεμένο» ζευγάρωμα G-U, C-A
![Page 68: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/68.jpg)
Τα βασικά ερωτήματα σε ένα SCFG
1. Πως θα επιτύχουμε την καλύτερη στοίχιση μιας ακολουθίας με μια γραμματική (alignment-parsing problem)
2. Υπολογισμός της πιθανότητας μιας ακολουθίας δεδομένης μιας γραμματικής (scoring problem)
3. Εύρεση των καλύτερων παραμέτρων μιας γραμματικής αν υπάρχουν γνωστά παραδείγματα (training problem)
![Page 69: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/69.jpg)
Οι απαντήσεις τους
1. Cocke-Younger-Kasami (CYK) algorithm ⇒Αντίστοιχος του Viterbi στα ΗΜΜ
2. Inside (outside) algorithm ⇒ Αντίστοιχος του Forward (Backward)
3. Inside-Outside algorithm ⇒ Αντίστοιχος του Baum-Welch (Forward-Backward)
![Page 70: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/70.jpg)
Αντιστοιχίες…
Στόχος ΗΜΜ SCFG
Βέλτιστη στοίχιση Viterbi CYK
P(x|θ) Forward Inside
EM algorithm Baum-Welch Inside-Outside
Memory complexity
O(LM) O(L2M)
Time complexity O(LM2) O(L3M3)
![Page 71: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/71.jpg)
Άλλες προσεγγίσεις
• Nusinov algorithm
Μεγιστοποιεί το σύνολο των ζευγαριών βάσεων
• Zuker algorithm
Μεγιστοποιεί μια συνάρτηση ενέργειας (ΔG), η οποία αποδίδει καλύτερα
Και οι δυο αλγόριθμοι, μπορούν να γραφούν σε μια ίσοδύναμη μορφη SCFG
![Page 72: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/72.jpg)
Ειδικές περιπτώσεις
![Page 73: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/73.jpg)
Περιπτώσεις pseudoknots
Απαιτούνται ειδικές τροποποιήσεις για να ενσωματωθούν σε ένα SCFG
![Page 74: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/74.jpg)
Επεκτάσεις
• ΗΜΜ→profile HMM
• SCFG→Covariance Model (CM)
Eddy and Durbin, 1994
![Page 75: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/75.jpg)
Τι γίνεται με τις πρωτεΐνες?
![Page 76: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/76.jpg)
Παραλλαγές
• Ranked Node Rewriting Grammar (RNRG)
• Multi-Tape S-Attributed Grammars (MTSAG)
![Page 77: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/77.jpg)
Ranked Node Rewriting Grammar (RNRG)
![Page 78: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/78.jpg)
Ranked Node Rewriting Grammar (RNRG)
![Page 79: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/79.jpg)
Multi-Tape S-Attributed Grammars (MTSAG)
![Page 80: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/80.jpg)
![Page 81: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/81.jpg)
![Page 82: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/82.jpg)
Αποτελέσματα
Prediction of Bacteriorhodopsin (1AP9)
QAQITGRPEWIWLALGTALMGLGTLYFLVKGMGVSDPDAKKFYAITTLVPAIAFTMYLSMLLGYGLTMVPFGGEQNPIYWARYADWLFTTPLLLLDLALLVDAD
.......TTHHHHHHHHHHHTTHHHHHHHHSS..S.HHHHHHHHHHHHTHHHHHHHHHHHHTT.....SSS.SSS....STTHHHHTTTHHHHTTTTSTTTT..
.........MMMMMMMMMMMMMMMMMMMMMMMMMM......PMMPMMPPMMPPMMPPMMPMMPMMPMMP........PPMPPMPPMPPMPPMMPPMPPMPP...
.........PMMPMMPMMPMMPMMPMMPPMMPMMP......PMMPMMPPMMPPMMPPMMPPMMPPMMPP........PPMPPMPPMPPMPPMPPMMPMMPP...
QGTILALVGADGIMIGTGLVGALTKVYSYRFVWWAISTAAMLYILYVLFFGFTSKAESMRPEVASTFKVLRNVTVVLWSAYPVVWLIGSEGAGIVPLNIETLLF
HHHHHHHHHHHHHHHHHHHHHHS..SSS.HHHHHHHHHHHHHHHHHHHTTTTTTT..TT.SHHHHTTHHHHHHHHHHHHHHHHHHTTTTSSSSSS.SHHHHHHH
PPMPPMPPMPPMPPMMPMMPMMP.....PMMPMMPMMPMMPMMPPMMPPMPP..........PPMMPMMPMMPMMPMMPPMMPPMMP......PPMMPPMMPPM
PMMPPMPPMPPMMPMMPMMPMMP.....PMMPMMPMMPMMPPMPPMMPPMMP..........PMMPMMPPMMPMMPPMMPPMPPMPP......MMMMMMMMMMM
MVLDVSAKVGFGLILLRSRAIFGEAEAPEPSAGDGAAATS
HHHHHHHTHHHHTTTT........................
MPPMPPMMPMMPMMPP........................
MMMMMMMMMMMMMMMM........................
P residues brought into conctact by the helix pairing
Mresidues exposed to the membrane environment
![Page 83: ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός](https://reader038.vdocuments.net/reader038/viewer/2022103006/56813fef550346895daaf741/html5/thumbnails/83.jpg)
Software • INFERNAL
http://infernal.wustl.edu/
• RNACAD http://www.cse.ucsc.edu/~mpbrown/rnacad/
• CONUShttp://www.genetics.wustl.edu/eddy/people/robin/conus/
• PKNOTSftp://ftp.genetics.wustl.edu/pub/eddy/software/pknots.tar.gz
• mtsag2chttp://bioweb.pasteur.fr/docs/doc-gensoft/mtsag2c/
• RNAUIhttp://www.uga.edu/RNA-Informatics/software/rnaui0_2.tar