Warum ist dieses Wissen wichtig? | Es ist sowohl für Proteine aber auch für RNAs sehr
schwer, aus der Sequenz ab initio die 3D-Struktur
vorherzusagen. Wertvolle Information liefert in beiden Fällen die
Vorhersage der Sekundärstruktur, die erfolgreicher vorherbestimmt
werden kann. Sowohl für Protein- aber auch RNA-Sequenzen steigt die Vorhersagequalität, wenn als Eingabe ein multiples Sequenzalignment (MSA) anstelle einer einfachen Sequenz verwendet wird. Durch die spaltenspezifischen Häufigkeiten wird für die einzelnen Positionen präziser vorgegeben, welche Ansprüche die Nukleotide bzw. die Aminosäuren erfüllen müssen. Für eine einzelne RNA-Sequenz wird die 2D-Struktur mithilfe eines Ansatzes der dynamischen Programmierung vorhergesagt. Die Scores sind aus den Bindungsenergien abgeleitet und es werden weitere Regeln, die sich aus realen RNA-Strukturen ergeben, berücksichtigt. Wichtige Implementationen sind der Mfold Server von M. Zuker und die Algorithmen des Vienna-Package. Letzteres enthält eine große Anzahl nützlicher Routinen. |
|||||||||||||
Bezug | Diese Übungen ergänzen das Kapitel 18 "Vorhersage der Sekundärstruktur". | |||||||||||||
Lernziel |
|
|||||||||||||
Übung | 2D_RNA_1 | |||||||||||||
tRNA-Moleküle besitzen eine typische 2D-Struktur, die einem Kleeblatt ähnelt. Die tRNA Phe aus der Hefe besitzt die folgende Sequenz | ||||||||||||||
|
||||||||||||||
und dies ist ihre 2D-Struktur. | ||||||||||||||
|
||||||||||||||
|
||||||||||||||
Hinweise |
Benutzen Sie den RNAfold-Server des
Vienna-Packages mit
Default-Einstellungen und vergleichen Sie den Graphical output
mit obiger Struktur. |
|||||||||||||
Übung | 2D_RNA_2 | |||||||||||||
In den letzten Jahren hat sich gezeigt, dass die sogenannten noncoding
RNA-Moleküle (ncRNA) eine enorme Bedeutung z. B. in Regulationsprozessen
besitzen. Sie wurden noncoding genannt, weil sie nicht für Proteine
codieren. Eine weitere Unterteilung dieser RNAs stützt sich auf die Länge
der Moleküle. Deswegen wird zwischen long und small RNAs unterschieden. MALAT1 ist eine long noncoding RNA von der bekannt ist, dass sie in vielen humanen Krebserkrankungen fehlreguliert ist. Eine kurze, stark konservierte small RNA der Länge 61 Nukleotide, die aus MALAT1 stammt, wird in vielen Geweben exprimiert. Diese RNA wurde mascRNA genannt. Weitere Details werden in dieser Publikation beschrieben. Hier finden Sie die komplette lncRNA. |
||||||||||||||
Welche Struktur hat die mascRNA (MALAT1-associated small cytoplasmatic RNA)? | ||||||||||||||
Hinweise | Die Teilsequenz der mascRNA ist als "misc_feature" in der Annotation
des Genbank-Eintrages vermerkt. Klicken Sie auf diesen Verweis und ändern Sie dann die Darstellung auf FASTA, indem Sie unten rechts im Browser bei Display: auf FASTA klicken. |
|||||||||||||
Lassen Sie sich anschließend vom
Mfold Server und dem
RNAfold-Server des
Vienna-Packages die Sekundärstruktur
mit Default-Parametern vorhersagen. Speichern Sie die Ergebnisse lokal ab. Bitte achten Sie auf die von den Servern geforderten Dateiformate (reine Sequenz/Fasta-Format). |
||||||||||||||
Beschreiben Sie die 2D-Struktur der mascRNA, indem Sie die
Circular structure plots bzw. den graphical
output betrachten. Vergleichen Sie Ihre Ergebnisse mit den Befunden aus der oben genannten Publikation. Stimmen die Vorhersagen überein? Wie wurde in der Publikation die 2D-Struktur vorhergesagt? Falls die Ergebnisse abweichen: Benutzen Sie beim Mfold-Server zusätzlich die Energien der Version 2.3. |
||||||||||||||
Spezifische Fragen | Welcher Bereich der
2D-Vorhersage ist mit hoher Wahrscheinlichkeit korrekt? Achten Sie bei den RNAfold-Ergebnissen auf die Farbe des Hintergrundes der einzelnen Nukleotide. |
|||||||||||||
Übung | 2D_RNA_3 | |||||||||||||
Die letzte Übung hat gezeigt, dass die Vorhersage der RNA-2D-Struktur
schwierig ist. Aufgrund des kleinen Alphabets (nur 4 Symbole) und der
chemischen Ähnlichkeit der Purin- und Pyrimidin-Reste unterscheiden sich
die vielen alternativen Vorhersagen nur wenig in ihren Energien. Deswegen
ist für die 2D-Vorhersage, die auf einer Sequenz beruht, mit großen
Fehlern zu rechnen. Ähnlich wie bei der Vorhersage der Protein-2D-Struktur steigt die Vorhersagequalität, wenn anstelle einer Sequenz ein MSA benutzt wird. Allerdings ist der Performanzgewinn bei den RNA-Sequenzen geringer als bei den Proteinsequenzen: Wie Benchmarktest gezeit haben, ist die Qualität einer 2D-Vorhersage, die auf einem RNA-MSA basiert, mit der vergleichbar, die für EINE Proteinsequenz zu erwarten ist. In dieser Übung soll für eine humane ncRNA die Sekundärstruktur zuverlässig vorhergesagt werden. Genauer untersucht wird die RNA U1, die Teil des Spliceosoms ist. Dieser RNA/Proteinkomplex ist, wie der Name vermuten lässt, am Spleißen beteiligt. Dies ist der Prozess, bei dem die Introns aus der prä-mRNA entfernt und die Exons verknüpft werden. Einen Übersichtsartikel zu diesem faszinierenden Komplex finden Sie hier. Proteinsequenzen werden in PFAM-Datenbank zu Familien zusammengefasst. Analog werden RNA-Sequenzen in der Rfam-Datenbank gesammelt und gruppiert. Darin finden sich z. B. in der Familie RF00003 die korrespondierenden Sequenzen der U1 spliceosomal RNA. Auf der zugehörigen Seite finden Sie auch die 2D-Struktur der RNA. |
||||||||||||||
Aufgabe |
|
|||||||||||||
Hinweise |
Sie sollen an diesem Beispiel den Performanzgewinn untersuchen, den die Analyse eines RNA-MSAs bietet. Die Elemente des Vienna-Packages erlaubt es, eine 2D-Struktur sowohl für eine Sequenz (RNAfold Server) als auch für ein MSA (RNAalifold Server) vorherzusagen. Benutzen Sie beide Algorithmen und vergleichen Sie die Ergebnisse. |
|||||||||||||
Sequenzen und MSA beschaffen |
Lesen Sie sich zunächst die Beschreibung durch, die Sie auf der Seite zur Familie RF00003 finden, um die Funktion dieser RNA zu verstehen. Klicken Sie anschließend auf den Reiter Sequences und suchen Sie nach humanen Sequenzen. Sortieren Sie die Sequenzen zunächst nach Type und dann nach Species. Wählen Sie eine seed Sequenz aus Homo sapiens, die möglichst nur die RNA Sequenz enthält. Die Einträge bei Start und End sollten nahe bei 1 bzw. 164 liegen. Sie sollten z. B. diese Sequenz gefunden haben. Speichen Sie die Sequenz lokal ab. Dies ist die eine Eingabe für den Server. Generieren Sie anschließend ein MSA bestehend aus den "seed sequences" dieser RNA-Familie: Klicken Sie auf der Rfam-Seite auf den Reiter Alignment, ändern Sie das Alignment-Format auf FASTA (gapped), nutzen Sie die Option Download und klicken Sie auf die Taste Generate. Speichern Sie das Alignment lokal ab. Dies ist die zweite Eingabe für den Server. Ihr Datensatz sollte diesem hier ähneln. Sie haben nun die beiden Datensätze (einfache Sequenz und MSA) erzeugt. |
|||||||||||||
Vorhersagen für Sequenz generieren |
Lassen Sie vom RNAfold WebServer eine 2D-Struktur für die
einfache Sequenz vorhersagen. Notieren Sie zunächst die freie Energie des Ensembles. Betrachten Sie in der Ausgabe die MFE secondary structure und sichern Sie die PDF Datei, die "MFE structure drawing encoding base-pair probabilities" enthält. Machen Sie sich bitte klar, welche Eigenschaft der Farbcode bewertet. |
|||||||||||||
Vorhersagen für MSA generieren |
Lassen Sie sich nun vom Server RNAalifold eine 2D-Struktur für das MSA erzeugen. Benutzen Sie wiederum die Default-Parameter und klicken Sie auf Proceed. Notieren Sie wiederum die freie Energie des Ensembles. Sichern Sie die PDF Datei, die "structure drawing encoding base-pair probabilities" enthält.
|
|||||||||||||
Ergebnisse vergleichen und bewerten |
Vergleichen Sie die beiden Vorhersagen miteinander: Welches Ensemble besitzt die "bessere" Energie? Hat sich die Vorhersagequalität (Energie) bei der Verwendung des MSAs verbessert? Vergleichen Sie auch die Werte der base-pair probabilities. Vergleichen Sie die zwei vorhergesagten 2D-Strukturen mit der, die Sie auf der Rfam-Seite unter bpcons finden. Welche der beiden Vorhersagen stimmt besser mit dieser Struktur überein? Wo gibt es Unterschiede? Welche Schlüsse ziehen Sie aus diesem Vergleich für zukünftige Analysen? |
|||||||||||||
Was Sie jetzt verstanden haben sollten |
Die exakte Vorhersage der RNA-2D-Struktur ist enorm schwierig. Die Übungen haben gezeigt, dass sich deutlich unterschiedliche Strukturen häufig nur wenig in den Energiewerten (Scores) unterscheiden. Das Verwenden von MSAs kann die Qualität der 2D-Vorhersagen ganz beträchtlich verbessern. | |||||||||||||