przewidywanie s truktur rna

Post on 13-Jan-2016

38 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

PRZEWIDYWANIE S TRUKTUR RNA. Maciej Szymański. mszyman@ibch.poznan.pl. 1958. 1970. 1980s. Około 98% sekwencji DNA podlegających transkrypcji w genomach ssaków nie koduje białek 3'-UTR, 5'-UTR introny ncRNA (~50% transkryptów). Transcriptional activity of genomes. Transcriptome. - PowerPoint PPT Presentation

TRANSCRIPT

Maciej Szymański

mszyman@ibch.poznan.pl

PRZEWIDYWANIE STRUKTUR RNA

1958

1970

1980s

Około 98% sekwencji DNA podlegających transkrypcji w genomach ssaków nie koduje białek

• 3'-UTR, 5'-UTR• introny• ncRNA (~50% transkryptów)

Transcriptional activity of genomes

Transcriptome

• TAR i RRE są strukturami kluczowymi dla propagacji HIV

• Struktury 3’- i 5’-UTR są odpowiedzialne za regulację translacji niektórych mRNA

• IRES (internal ribosome entry site) umożliwia inicjację translacji niezależną od rozpoznania 5’-końcowej modyfikacji i udziału białkowych czynników inicjacyjnych

Struktury RNA w regulacji ekspresji genów

Regulacja potranskrypcyjna

• Ryboprzełączniki zmieniające strukturę w zależności od warunków regulują ekspresję wielu genów bakteryjnych

Regulacja transkrypcyjna

U Listeria monocytogenes geny odpowiedzialne

za wirulencję kontrolowane są przez aktywator

transkrypcji PrfA, którego ekspresja zachodzi w

temperaturze 37ºC. W niższych temperaturach

5‘-UTR prfA mRNA tworzy strukturę blokującą

sekwencję Shine-Dalgarno uniemożliwiając

translację białka PrfA i w konsekwencji

transkrypcję genów wirulencji. Mutacje

destabilizujące lub stabilizujące proponowaną

strukturę drugorzędową prowadzą do

odpowiednio obniżenia lub podwyższenia

temperatury aktywacji.

RNA jako termosensor

SD

Start

U bakterii 5’-UTRy mRNA kodujących białka związane z syntezą i

transportem FMN (mononukleotyd flawiny) tworzą struktury

drugorzędowe odpowiedzialne za regulację ich ekspresji na poziomie

transkrypcji. Związanie FMN do tej struktury powoduje zmianę

konformacji i terminację transkrypcji.

RNA jako chemosensor

RFN flavin mononucleotideriboflavin biosynthesis and transport

THI thiamin pyrophosphate thiamin biosynthesis and transport

B12 adenosylcobalaminecobalamin biosynthesis and transport, other genes

S-box adenosyl methionine methionine biosynthesis and transport

G-box purines purine metabolism and transport

L-box lysinelysine biosynthesis, catabolism and transport

glmS glucosamine-6-phosphateglucosamine-6-phosphate synthetase (glmS) genes

gcvT glycine glycine metabolism

Riboswitches

Niekodujące RNA

DsrA RNA: 87 nt induced in low temperaturestimulates expression of RpoS(stress s factor of RNA polymerase)

OxyS RNA:107 ntinduced by oxidative stressnegative regulator of RpoS, and H-NS (global transcriptional factor)

GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUUUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA

Struktura RNA

Zbiór par nukleotydów

Sekwencja RNA R o długości n można zapisac jako uporządkowany ciąg rybonukleotydów:

R = r1; r2; r3; : : : ; rn,

gdzie ri jest i-tym rybonukleotydem. Każdy ri należy do zbioru {A;C; G;U} (bez uwzględnienia modyfikowanych nukleotydów).

Struktura drugorzędowa S sekwencji R jest zbiorem uporządkowanych par i.j, 1 i < j n takich że:

1. j − i > 3 (pętle typu hairpin nie mogą być krótsze niż 3 nukleotydy)

2. jeśli i.j i i’.j’ są dwoma parami zasad:

a) i = i’ i j = j’ (i.j oraz i’.j’ są tą samą parą)

b) i < j < i’ < j’ (i.j poprzedza i’.j’)

c) i < i’ < j’ < j (i.j obejmuje i’.j’).

Warunek c) wyklucza pseudowęzły (pseudoknots).

Struktura drugorzędowa RNA

Pseudowęzły tworzone są gdy dwie pary zasad, i.j i i’.j’ spełniają warunek i < i’ < j < j’ Pseudowęzły nie są uwzględniane w algorytmach przewidywania struktury drugorzędowej ze względu na brak parametrów energetycznych.

Są to faktycznie elementy struktury trzeciorzędowej i mogą być znajdowane we wcześniej obliczonych strukturach drugorzędowych lub metodami porównawczej analizy sekwencji.

i

j’i’

j

Pseudowęzły

RNaseP RNA Group I intron

Dla pojedynczych łańcuchów RNA

• maksymalizacja liczby sparowanych nukleotydów

• minimalizacja energii swobodnej

• prawdopodobieństwo tworzenia par zasad

Dla grup homolgicznych cząsteczek

• metody porównawcze (kowariacje)

• metody statystyczne

Metody przewidywania struktur drugorzędowych RNA

Poszukiwanie optymalnej struktury zawierającej maksymalną liczbę sparowanych nukleotydów

Dozwolone są struktury zawierające pętle typu hairpin o dowolnej długości (w rzeczywistości dopuszczalne są pętle przynajmniej 3-nukleotydowe)

Możliwe są struktury zawierające izolowane pary zasad (helisy o długości 1-bp)

Algorytm Ruth Nussinov (1978)

Najprostszą drogą jest poszukiwanie struktury

o minimalnej energi z zastosowaniem prostych

parametrów enegetycznych przypisanych

poszczególnym parom zasad w zależności od

siły wiązania (liczby wiązań wodorowych).-1 kcal/MG-U

-2 kcal/MA-U

-3 kcal/MG-C

Energia, E(S) dla całej struktury jest sumą

energii poszczególnych par zasad i.j, e(ri,rj)),()(

.j

Sjii rreSE

Algorytmy oparte o minimalizację energii swobodnej

Założenie: cząsteczki RNA przyjmują strukturę o najniższej możliwej energii

mfold(Zuker & Stadler 1981, Zuker 1989)

W programie mfold parametry energetyczne nie są przypisane parom zasad ale pętlom, stanowiącym regiony struktury drugorzędowej ograniczone jedną lub większą liczbą par zasad.

Każdą strukturę drugorzędową można przedstawić jako zbiór pętli

Pętle zamknięte jedną parą zasad i.j zwane są pętlami typu spinki do włosów (hairpin loop) a ich wielkość j – i – 1 3

mfold(Zuker & Stadler 1981, Zuker 1989)

Pętle zamknięte dwoma parami zasad i.j i i’.j’ dzielą się na trzy typy:

a) stacked pairs jeśli i’ – i – 1 = 0 oraz j – j’ – 1 = 0

b) wybrzuszenie (bulge) jeśli i’ – i – 1 > 0 lub j – j’ – 1 > 0

c) pętla wewnętrzna (interior loop) jeśli i’ – i – 1 > 0 oraz j – j’ – 1 > 0

a b c

mfold(Zuker & Stadler 1981, Zuker 1989)

Pętle zamknięte większą liczbą par zasad zwane są pętlami wielorozgałęzionymi (multibranch loops)

Każdą strukturę drugorzędowa można opisać jako zbiór pętli należących do jednego z w/w pięciu typów oraz niesparowanych regionów przy końcach.

mfold(Zuker & Stadler 1981, Zuker 1989)

mfold generuje zbiór struktur, które ewaluowane są w oparciu o parametry energetyczne (empiryczne i teoretyczne) dla poszczególnych pętli. Wyliczona energia jest sumą energii wszystkich elementów składowych.

Stack -3.40 External closing pair is G 1-C 14

Stack -1.40 External closing pair is C 2-G 13

Stack -1.30 External closing pair is G 3-U 12

Stack -2.10 External closing pair is A 4-U 11

Helix -8.20 5 base pairs

Hairpin loop 0.20 Closing pair is G 5-C 10

http://www.bioinfo.rpi.edu/~zukerm/cgi-bin/efiles-3.0.cgi

Problemy:

Przewidywane struktury o minimalnej energii rzadko odpowiadają strukturom uzyskanym z filogenetycznej porównawczej analizy sekwencji

Energie wyliczone dla filogenetycznych struktur tym bardziej odbiegają od przewidywanych wartości minimalnych im dłuższe są analizowane sekwencje

Liczba suboptymalnych struktur drugorzędowych jest bardzo duża co nie pozwala (przy obecnych ograniczeniach mocy obliczeniowej) na ewaluacje wszystkich możliwości.

Parametry energetyczne nie uwzględniają oddziaływań trzeciorzędowych takich jak niestandardowe pary zasad , pseudowęzły, oddziaływania trójek nukleotydów, któr mogą mieć wpływ na tworzenie struktury drugorzędowej w komórce

Długie lańcuchy RNA niekoniecznie muszą przyjmować strukturę o minimalnej energii. Ich konformacja może być wymuszona kinetyką procesu tworzenia stuktury drugorzędowej, co komplikuje obliczenia w stopniu nie pozwalającym na praktyczną implementację.

mfold server

Pełna wersja programu Zukera dostępna sieciowo poprzez formularz na stronie WWW

Obecna wersja pozwala na przewidywanie struktur RNA o długości do 6000 nukleotydów (800 interaktywnie)

Wyniki prezentowane są w postaci graficznej (struktury, dot ploty) w różnych formatach

Użytkownik ma możliwość zmiany niektórych parametrów programu, co pozwala na poszerzenie lub zawężenie zakresu przewidywanych struktur suboptymalnych

http://www.bioinfo.rpi.edu/applications/mfold/rna/form1.cgi

mfold server opcje

percent suboptimality - wartość procentowa energii optymalnej struktury do której generowane są struktury alternatywne (w praktyce dla długich łańcuchów ograniczona do –12 kcal/M)

upper bound number of computed foldings – określa maksymalną dozwoloną liczbę struktur (domyślna wartość 50)

window – określa ile i jak zbliżonych (podobnych) do siebie struktur ma być wygenerowane. Niższa wartość powoduje zwiększenie liczby struktur suboptymalnych nieznacznie od siebie róznych. Domyślnie ustawiany jest w zależności od długości sekwencji.

0- 29 nt W=0; 30- 49 nt W=1; 50- 119 nt W=2; 120-199 nt W=3; 200- 299 nt W=5; 300- 399 nt W=7;

400-499 nt W=8; 500- 599 nt W=10; 600- 699 nt W=11;

700-799 nt W=12; 800-1199 nt W=15; 1200-1999 nt W=20

> 1999 nt W=25

maximum interior/bulge loop size – pozwala na ograniczenie wielkości pętli wewnętrznych i wybrzuszeń (domyślnie 30)

maximum asymmetry of an interior bulge loop size – dla wybrzuszeń jest to maksymalna ich długość, dla pętli wewnętrznych określa jaka jest dopuszczalna różnica długości ich fragmentów jednoniciowych

maximum distance between paired bases – pozwala na ograniczenie wielkości domen zamkniętych jedną parą zasad (domyślnie bez ograniczeń)

temperature – dostepna tylko w wersji 2.3, w wersji 3.1 stała - 37°C

mfold server opcje

mfold server opcje

Dodatkowe opcje pozwalają na ograniczenie liczby struktur przez wymuszenie parowania lub pozostawienia jako jednoniciowych określonych nukleotydów lub fragmentów sekwencji. Wrunki te wprowadz się w polu constraint information

wymusznie parowania odcinka sekwencji

F i 0 k gdzie i – pozycja pierwszego nukleotydu; k – długość odcinka

F 7 0 4 – nukleotydy 7, 8, 9 i 10 muszą być sparowane

wymuszanie nieprzerwanego odcinka dwuniciowego

F i j k gdzie i oraz j definiują pierwszą parę zasad a k określa ile kolejnych par zasad ma zostać wymuszona

F 5 34 4 – w strukturach powinien wystąpić region dwuniciowy zawierający pary zasad 5-34, 6-33, 7-32 i 8-31

W podobny sposób definiuje się regiony które mają pozostać jednoniciowe zastępując F na początku definicji P.

S. cerevisiae tRNAPhe

F 1 72 7F 10 25 4F 27 43 5F 49 65 5

RNAfold oblicza prawdopodobieństwo tworzenia par zasad w strukturze drugorzędowej w oparciu o analizę wszystkich możliwych alternatywnych konformacji.

Wynikiem nie jest pojedyncza optymalna struktura lecz zbiór wartości prawdopodobieństwa dla poszczególnych par.

Dodatkowo (niezależnie) generowana jest struktura o najniższej energii w oparciu o parametry identyczne z tymi wykorzystywanymi przez mfold.

Metody probabilistyczneVienna RNA package

http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi

RNAfold; S. cerevisiae tRNAPhe

GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAUCUGG(((((((..((((........)))).(((((.......)))))

AGGUCCUGUGUUCGAUCCACAGAAUUCGCACCA.....(((((.......))))))))))))....

Inverse folding: optymalizacja sekwencji wg parametrów energetycznych lub statystycznych do zadanej struktury drugorzędowej

Dane wejściowe: struktura druogorzędowa w postaci zapisu nawiasowego (do 100 pozycji)

Wynik: optymalna sekwencja przyjmująca zadaną strukturę

http://www.tbi.univie.ac.at/~ivo/RNA/RNAinvcgi.html

Sequence design server

tRNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAOpt GCGGAUGUAGCUCAGUUGUGAGAGCGCCAGAGAGAUGA

tRNA UCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCAOpt UCUGGAAGUACUGUGUUCGAUCCACAGCAUUCGCACCA

tRNA GCGGAUUUAGCUCAGUUGGGAGAGCGCCAGACUGAAGAOpt CCGAAGUAUGUCCUCGUAACUGGGCUGGAUAGAACGCA

tRNA UCUGGAGGUCCUGUGUUCGAUCCACAGAAUUCGCACCAOpt UAUCCCGAAACUGUAACGCUAAUACAGACUUUGGCACA

Przewidywanie struktur drugorzędowych zawierających pseudowęzły.

Dane wejściowe: pojedyncza sekwencja lub alignment homologicznych sekwencji w formacie FASTA (do 10 kb)

Wyniki prezentowane w kilku formatach (m.in. pliki ct, dot ploty)

http://cic.cs.wustl.edu/RNA/

ILM server

Dane wejściowe: Alignment 4 bakteryjnych sekwencji 5S rRNA

1 2 3 4 5 6 4 6 5 UGCCUGGCGGCCAUAGUGCGGUGGUCCCACCUGACCCCAUGCCGAACUCAGAAGUGAAAC 60....((((((((((...(((.......(((((((.............))))..)))..........................(((...............))).................

3 2 7 7 1 GCUGUAGCGCCGAUGGUAGUGUGGGGUCUCCCCAUGUGAGAGUAGGGAACUGCCAGGCAU 120..))).......))))..((((((((...))))))))............)))))).................................................................

ILM server: 5S rRNA

tRNA

ILM

mfold

RNAfold

E. coli RydC RNA

ILM

mfold RNAfold

Zakłada się, że RNA pełniące takie same funkcje w wiekszym

stopniu zachowują struktury drugorzędowe niż sekwencje. Analiza

większej liczby przypadków sprawia, że przewidywania są bliższe

rzeczywistości

Przewidywanie struktur dla zbiorów homologicznych sekwencji

• Metody porównawczej analizy sekwencji

• Metody mieszane z zastosowaniem algorytmów

stosowanych dla pojedynczych cząsteczek i analizy

porównawczej

Zawartość informacyjna dwóch kolumn alignmentu sekwencji RNA opiera się na założeniu, że jeśli dane dwie kolumny i i j są niezależne (nie obejmują nukleotydów tworzących pary zasad) to częstotliwość występowania par nukleotdów N1,N2 odpowiednio w pozycjach i i j -

fi,j(N1,N2) odpowiada w przybliżeniu iloczynowi częstotliwości

wystepowania N1 w pozycji i - fi(N1) i częstotliwości wystepowania N2 w

pozycji j - fj(N2) .

A zatem: 01log)()(

),(log

21

21, NfNf

NNf

ji

ji

Jeśli zmiany w kolumnach są ze sobą związane wartość ta będzie większa od 0.

Mutual information

Częstotliwości nukleotydów N1 i N2 w pozycjach i oraz jCzęstotliwość występowania pary N1,N2

UGCANN ji

ji

jiij NfNf

NNfNNfM

,,,, 21

21,

221,21 )()(

),(log),(

)( 1Nf i

)( 2Nf j

),( 21, NNf ji

Mutual information

GAAGAGUAUGUCUUCGGAGUGU-UGACUCCGCAGCGUGUGGCUGCGUAGAGUAUGUCUACGCAGAGU-UGUCUGC***** *****

kolumny 2 i 14

f2,14(A,U) = 0.2

f2,14(G,C) = 0.2

f2,14(C,G) = 0.4

f2,14(U,A) = 0.2

f2(A) = 0.2

f2(C) = 0.4

f2(G) = 0.2

f2(U) = 0.2

M1,15 = 1 x log21 = 0

f14 (A) = 0.2

f14(C) = 0.2

f14 (G) = 0.4

f14 (U) = 0.2

kolumny 1 i 15

f1,15(G,C) = 1 f1(G) = 1 f15 (C) = 1

M2,14 = 0.2 x log25 + 0.2 x log25 + 0.4 x log22.5 + 0.2 x log25 = 3 x 0.46 + 0.53 = 1.91

Mutual information: 5S rRNA

316 sekwencji 5S rRNA Eukaryota

Hofacker A.I. et al. (1998) Automatic detection of conserved RNA structure elements in complete RNA virus genomes. Nucleic Acids Res. 26: 3825-3836

Przewidywanie zachowawczych elementów struktury drugorzędowej

Hofacker A.I. et al. (1998) Automatic detection of conserved RNA structure elements in complete RNA virus genomes. Nucleic Acids Res. 26: 3825-3836

Consensus structures of the HIV-1 RRE (Rev Resposnive Element) region from a sets of 13 and 21 sequences. The main hairpins are present in both predictions; the only difference is hairpin IIa which is supported by a single compensatory base pair in the larger data set. The predictions are consistent with an experimentally supported structure that also contains IIa.

Wyniki: struktura kompatybilna z wprowadzonym alignmentem sekwencji, prawdopodobieństwa występowania poszczególnych par zasad w postaci wykresu (dot plot) oraz pliku tekstowego.

Przewidywanie pojedynczych struktur, dla grup homologicznych sekwencji, wprowadzanych jako alignment w formacie Clustal.

http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgi

Alifold server

11 sequence; length of alignment 122alifold output 3 117 0 100.0% 0.000 CG:6 GC:1 UG:1 AU:2 UA:1 69 106 0 99.9% 0.002 CG:4 GC:1 UG:1 AU:1 UA:4 19 59 0 100.0% 0.000 CG:2 GC:2 AU:1 UA:6 15 64 0 99.1% 0.029 CG:7 UG:2 AU:1 UA:1 30 47 0 100.0% 0.000 CG:3 GC:5 AU:3 17 61 0 100.0% 0.000 CG:6 GC:3 UA:2 4 116 0 100.0% 0.001 GC:1 AU:1 UA:9 81 95 0 99.7% 0.009 CG:2 GC:8 GU:1 29 48 0 99.6% 0.012 CG:9 GC:1 UA:1 1 119 0 99.5% 0.014 GC:8 GU:1 AU:2 2 118 1 100.0% 0.001 CG:4 GC:2 GU:1 UG:2 UA:1 18 60 0 100.0% 0.000 CG:3 GC:8

Alifold server: 5S rRNA

Alignment 11 sekwencji eukariotycznych 5S rRNA

http://bioinfo.lifl.fr/carnac/

Przewidywanie struktur dla grup homologicznych sekwencjiRNA z wykorzystaniem kombinacji metod minimalizacji energii, analizy porównawczej i zachowawczości poszczególnych par zasad. Nie wymaga wstępnego generowania alignmentów.

Wyniki: pojedyncze struktury dla poszczególnych sekwencji prezentowane w postaci graficznej oraz plików ct.

CARNAC

CARNAC: 5S rRNA

• identyfikacja regionów jednoniciowych jako celów dla strategii inaktywacji genów w oparciu o oddziaływania antysensowe (rybozymy, RNAi)

• identyfikacja możliwych struktur regulatorowych

• analiza RNA uzyskanych metodami selekcji in vitro

Przktyczne aspekty przewidywania struktur drugorzędowych RNA

Podsumowanie

Nie ma jednej uniwersalnej metody pozwalającej na jednoznaczne określenie struktury drugorzędowej dla każdej sekwencji RNA

Najbardziej wiarygodne wynki można uzyskać przy użyciu połączonych metod statystycznych, termodynamicznych i porównawczych z uwzględnieniem danych eksperymentalnych

Le S.-Y et al. (1988) A program for predicting significant RNA secondary stuctures. Comput. Applic. Biosci. 4: 153-1159.

Chen J.-H et al. (1990) A computational procedure for assessing the significance of RNA secondary stucture. Comput. Applic. Biosci. 6: 7-18.

Struktura drugorzędowa jako kryterium identyfikacji nowych niekodujących RNA(1)

Problem: wyszukiwanie genów niekodujących RNA w sekwencjach genomowych, nie jest możliwe przy wykorzystaniu algorytmów używanych dla identyfikacji genów kodujących białka (brak silnych sygnałów takich jak ORF, wykorzystanie kodonów etc)

Założenie: Sekwencje kodujące strukturalne RNA powinny wykazywać się zdolnością do tworzenia struktur drugorzędowych charakteryzujących się większą stabilnością niż sekwencje przypadkowe o tej samej długości.Sekwencje wyceniane są parametrem (Z-score), który określa o ile odchyleń standardowych energia swobodna (lub inny parametr) dla struktury drugorzędowej danej sekwencji (lub jej fragmentu) różni się od średniej wartości uzyskiwanej dla dużej liczby jej permutacji.

gen tRNA w otoczeniu sekwencji o identycznym składzie nukleotydowym

Rivas E. & Eddy S.R. (2000) Secondary structure alone is generally not statistically significant for the detection of noncoding RNAs. Bioinformatics 16: 583-6005

• Znaczący sygnał pozwalający na detekcję genów RNA w kontekście sekwencji genomowych wymaga wartości Z-score ~5

• Dla ~98% z 1400 analizowanych sekwencji tRNA Z-score jest niższy od 4

• Z 240 genów RNA innych niż tRNA ~30% wykazuje Z-score wyższy od 4

Lepsze wyniki uzyskuje się stosując programy, wykorzystujące mniej lub bardziej precyzyjne deskryptory lub definicje struktur drugorzędowych RNA dla przeszukiwania sekwencji genomowych pod kątem sekwencji mogących przyjmować opisaną nimi strukturę.

tRNA-scan – tRNA

sno-scan – snoRNA

top related