dizilim hizalama - comp.eng.ankara.edu.trcomp.eng.ankara.edu.tr/files/2019/12/w7.pdfdizilim hizalama...
TRANSCRIPT
Dizilim Hizalama Nedir?
• İki veya daha fazla DNA, RNA veya protein dizisinin bir hizalanmasıdır.
• Çoklu dizilim hizalama (Multiple Sequence Alignment - MSA) ikiden daha fazla sayıda
genetik dizilimin hizalanması anlamına gelir.
• Diziler arasındaki homolog bölgeler hizalanır.
• Bunu yapmak için aralara boşluk eklenir.
Neden Hizalama Yaparız?
• Hizalamalar, dizilimler arasındaki benzerlik bölgelerinin tanımlanmasına izin
verir.
• DNA / RNA kopyalanması sırasında oluşabilen indelleri (ekleme ve silme)
tespit ederiz.
Hizalama ne için kullanılır?
• Eldeki genetik dizilimin filogenetik ağacının bulunması için.
• Bir gen içindeki ilgi/koruma alanlarını(motifler, bağlama yerleri vb.) aramak
için
• Kısa okuma analizlerinde referans olarak kullanmak için
Nasıl hizalarız?
• Hizalama programlarının amacı, 3 modifier’a dayalı puanı en üst düzeye çıkarmaktır:
• Ödüllendirici eşleşme (+puan)
• Nadir yer değiştirmelerin cezalandırılması (- puan)
• Bir yer değiştirme matrisine ihtiyaç duyulur.
• Boşlukları cezalandırma
• Boşluk açma ve uzatma için tablo gerektirir.
• Farklı programlar farklı yöntemlerle bu işlemleri gerçekleştirir.
Yer Değiştirme/İkame Matrisleri
• Karakterleri karşılaştırıken üzerlerinde ağırlıklar belirlenir.
• En basit şekilde eşleşme olduğunda +1, olmadığında 0.
• Bazı yer değiştirmeler diğerlerinden daha kabul edilebilir olduğundan,
bunların ağırlıklandırılması gerekir.
• İkame matrisi her yer değiştirme için puan ataması yapar.
• Bu matris verilen benzerlik hizalamaları ile inşa edilir.
Boşluklar
• Bir veya daha fazla dizilimde bir ekleme veya kalan dizilerde bir silme işlemini temsil eder.
• İki tür ceza, boşluklarla ilişkilendirilir
• Boşluk açma
• Sıradaki bir boşluğun ilk açılışını yapmak için
• Boşluk uzatma
• Var olan boşluğa fazladan bir boşluk karakteri ekleme
• Genellikle boşluk uzatma cezası, boşluk açma cezasından daha düşüktür.
İkili Hizalama
• Dot-matrix
• 1 dizilim sütun, 1 dizilim satır olacak şekilde yerleştirilir.
• İki karakterin eşleştiriği yere bir nokta yerleştirilir.
• Dinamik Programlama
• Dizilimleri en iyi şekilde hizalamak için bir puanlama fonksiyonu kullanılır.
• Ya global ya da yerel hizalama algoritması kullanılır.
• Word
• Verilen büyüklükte bir «word/kelime»yi kullanan sezgisel yöntem.
• Eşleşen kelimeleri bulun ve 1 dizilim bitene veya eşiğin altına düşene kadar hizalamayı genişletin
Global ve Yerel
• Global hizalama yöntemi dizileri uçtan uca hizalamaya çalışır.
• Dizilimler yaklaşık olarak aynı boyutlarda ise kullanışlıdır.
• Needleman-Wunsch algoritması
• Yerel bir hizalama yöntemi, benzer dizilerin bir veya daha fazla uzantısını bulmaya çalışır.
• Bir dizilim diğerinden önemli ölçüde daha uzun olduğunda ya da büyük benzer olmayan dizilimlerde benzer motiflerin küçük olması durumunda faydalıdır.
• Smith-Waterman algoritması
Çoklu Dizilim Hizalama (MSA)
• Progressive
• İkili hizalama yap.
• Rehber ağacı oluşturmak için bir kümeleme algoritması kullan.
• Bu rehber ağacını kullanarak, en yakın iki dizilimden başlayıp bunlardan en uzak olana kadar art arda çift hizalamalar oluşturun.
• Iterative
• Bir MSA verildiğinde bir dizilimi kaldırın ve diğerlerine yeniden hizalayın.
• Ağırlıkları ve mesafe ölçütlerini de optimize edebilir
• Yakınsama sağlamak için tekrarla
Needleman-Wunsch Algoritması
• İki dizilimin en iyi hizalanmasının bulunması problemini çözen algoritmadır.
• Bu problemin çözümü için elimizde 2 adet matrisimiz olmalıdır
• Puan matrisi
• Geri-izleme matrisi
Needleman-Wunsch Algoritması
• Bu algoritma 3 adımdan oluşur.
1.Puan matirsinin ilk atamasının yapılması.
2.Puanların hesabı ve Geri-izleme matrisinin doludurulması.
3.Geri-izleme matrisinden hizalamanın çıkarılması.