Warum ist dieses Wissen wichtig? |
Multiple Sequenzalignments (MSAs) enthalten mehr Information als eine
einzelne Sequenz oder ein paarweises Alignment. In dieser Einheit
beschäftigen wir uns mit Methoden, die dieses Mehr an Information nutzen. Die Idee
ist jeweils, die Verteilung der Symbole spaltenweise zu bewerten. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bezug | Die theoretischen Grundlagen finden Sie im Kapitel 10 "Sequenzmotive". | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Lernziel |
Nach dem Bearbeiten der Übung sollten Sie
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Profile | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Übung | Profile_1, Berechnung von Scores | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Gegen sei das folgende MSA von Erkennungssequenzen und die daraus abgeleitete, unvollständige Scoringmatrix. Die Scores wurde mithilfe der log10-Funktion errechnet. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Welchen Score erreicht die Sequenz ATTG im Vergleich mit diesem Motiv? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hinweise | Bestimmen Sie zunächst
die fehlenden Scores für die Spalte 4. Berechnen Sie anschließend den
Score für die Sequenz ATTG. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Lösung | Hier finden Sie eine Lösung. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Übung | Profile_2, Sequenzlogo | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Gegeben Sei dieses
multiple Sequenzalignment von TrpF-Sequenzen. Uns interessiert die
Verteilung der Aminosäuren an den einzelnen Positionen. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hinweise |
Benutzen Sie diesen Server und übergeben Sie per
copy&paste das MSA. Es empfiehlt sich, folgende Parameter einzustellen: Image format: PDF, Sequence Type amino acid, Multi Line Logo (60). Interpretieren Sie anschließend das Ergebnis: An welchen Positionen sind die Aminosäuren strikt konserviert? An welchen Positionen sind welche Variationen erlaubt?
Gibt es größere Bereiche mit hoher Konservierung der Sequenz? Beschreiben Sie bitte auch den Unterschied zwischen Konsensus-Sequenz und dieser Darstellung. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bestimmen Sie die Verteilung der Residuen auf die Sekundärstrukturelemente. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hinweise | Die erste Sequenz aus dem MSA ist die des
Proteins TRPF_THEMA, d. h. des TrpF -Proteins aus Thermotoga maritima.
Dessen Struktur ist bekannt und
hier finden Sie eine Darstellung der Sekundärstruktur. Welche Elemente
der Struktur sind im MSA besonders konserviert? Vergleichen Sie die
Zusammensetzung der Schleifen (loops) und der α-Helizes
und β-Stränge. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Übung | Profile_3, Alignment Sequenz/Profil | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Im Folgenden beschäftigen wir uns mit dem globalen Alignment zwischen einer Sequenz und einem Profil. Die Sequenz lautet ATCC. Sie ist bereits neben der Matrix eingetragen, diese ist bereits für die Berechnung des Alignments vorbereitet. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Berechnen Sie den Gesamtscore mit Papier und Bleistift. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hinweise | In der mit Gap markierten Zeile sind positionsspezifisch Scores für das Einführen vom Lücken angegeben. Mit
s(ai ,
j) ist der Eintrag gemeint, der in der Spalte
j und der Zeile zu finden ist, die mit dem Symbol ai
bezeichnet ist. Das Alignment ist in diesem Fall nicht relevant. Um ein Alignieren des ersten Symbols zu erzwingen, ist die nullte Spalte hier mit -∞ initialisiert. Verwenden Sie zur Berechnung wiederum dynamische Programmierung. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Die Bedingung für das Füllen der Matrix lautet nun: Sij = max { Si-1, j + Gap(j) , Si-1, j-1 + s(ai , j) , Si, j-1 + Gap(j) }
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wie unterscheidet sich generell die Berechnung eines Alignments zwischen zwei Sequenzen und zwischen einer Sequenz und einem Profil? Hier finden Sie eine Lösung. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Signaturen |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Übung | Signatur_1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Signaturen sind eine "platzsparende" Möglichkeit, um größere
Sequenzmengen komprimiert zu repräsentieren. Ähnlich wie Sequenzlogos
heben sie die charakteristischen Eigenschaften eines Motivs hervor. Ein
einfaches Profil wird im folgenden Beispiel untersucht. Die Proteinstruktur 2gat.pdb enthält einen Zink-Finger. Studieren Sie diesen Eintrag auf der PDB-Sum Seite des EBI. Dies ist die in Prosite dazu hinterlegte Signatur: |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wo ist in der Struktur das Zink-Finger-Motiv zu finden? Wie groß ist die Sequenzvariation innerhalb des Fingers? |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hinweise |
Einen ersten Überblick können Sie sich beispielsweise durch
BLASTEN
und anschließender Analyse eines MSAs verschaffen. Dieses können Sie
erstellen, wenn Sie auf der BLAST-Ergebnisseite bei den Other reports
auf den Link MSA viewer klicken. Ganz generell gilt, dass die Sequenzdatenbanken keinen repräsentativen Datensatz darstellen in dem Sinne, dass alle biologischen Arten gleich häufig repräsentiert werden. Für eine sorgfältige, statistisch einwandfreie Analyse müssten die Treffer aufbereitet werden, um eine mögliche Überrepräsentation bestimmter Arten zu verhindern. Auf solche, relativ aufwändigen Filterschritte wird hier, bei einführenden Übungsseiten, nicht eingegangen. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Was Sie jetzt verstanden haben sollten |
Es gibt mehrere Möglichkeiten, um eine Menge von Sequenzen zu beschreiben. Sehr anschaulich ist eine Repräsentation mit einem Sequenzlogo. Der Vergleich einer Sequenz mit einem Profil führt zu Verfahren wie PSI-BLAST oder den Hidden-Markov-Modellen. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||