Warum ist dieses Wissen wichtig? | MSAs haben in der Bioinformatik eine enorme Bedeutung.
Zum einen, um Gemeinsamkeiten einer Menge von Sequenzen präzise
herauszuarbeiten, zum anderen, um auf empfindliche Weise die
Zugehörigkeit einer Sequenz zu einer Proteinfamilie nachzuweisen.
Durch das Verwenden von MSAs in Alignmentprogrammen oder in Algorithmen zur
Vorhersage der Proteinsekundärstruktur wurde deren Empfindlichkeit
deutlich gesteigert bzw. die Richtigkeit verbessert.
|
||
Bezug | Die theoretischen Grundlagen finden Sie im Kapitel 13 "Multiple Sequenzalignments". | ||
Lernziel |
|
||
Übung | MSA_1 | ||
MSA mit CLUSTAL Omega erzeugen |
Das
VSR Gen von E. coli K-12
soll mit einem multiplen Sequenzalignment genauer charakterisiert
werden. Hier finden Sie eine
erste Sammlung von Sequenzen. Übergeben Sie per copy&paste den Inhalt dieser Datensammlung in das Eingabe-Fenster des CLUSTAL Omega-Servers und stoßen Sie das Generieren eines multiplen Sequenzalignments an. In dieser Übung benutzen wir stets die Standardeinstellungen der Programme. |
||
Beantworten Sie die folgenden Fragen: | |||
Multiples- Sequenz- Alignment bewerten |
Wo unterscheiden sich die Sequenzen am stärksten? Welche Residuen sind am stärksten konserviert? |
||
Hinweise | Betrachten Sie den Guide Tree, um die Sequenzähnlichkeit zu untersuchen. | ||
MSA mit T-COFFEE erzeugen |
Erstellen Sie nun ein multiples Sequenzalignment mit
T-Coffee.
|
||
Vergleichen Sie das Ergebnis mit dem von
CLUSTAL Omega generierten. Gibt es qualitative Unterschiede? |
|||
Hinweise | Vergleichen Sie die Alignments der N-terminalen Regionen und die
Topologie der Guide Trees. Beachten Sie, dass sich in den Ausgaben die Reihenfolgen der
Sequenzen unterscheiden. Die unterschiedlichen Ergebnisse machen klar, dass ein Aligment von wenigen, sich stärker unterscheidenden Sequenzen schwierig ist. |
||
Größeren Datensatz analysieren | Hier finden Sie eine Sammlung mit 250 VSR-Sequenzen , die aus der UniRef90-Datenbank stammt. Diese Datenbank enthält nur Sequenzen, die im paarweisen Vergleich eine maximale Sequenzidentität von 90% besitzen. Damit wird die Überrepräsentation sehr nahe verwandter Arten reduziert. Erstellen Sie mit diesem Datensatz und dem Programm T-Coffee ein MSA und lassen Sie die Ausgabe als HTML-Seite darstellen (Option beim OUTPUT FORMAT). Analysieren Sie die Ausgabe. Die einzelnen Spalten sind mit einem Farbcode markiert. Ein roter Hintergrund gibt an, dass die Alignmentqulität hoch ist. Grüne und blaue Hintergrundfarben kennzeichnen Bereiche von schlechter Alignmentqualität. | ||
Warum gibt es Bereiche schlechter Qualität? Beschreiben Sie das Alignment am Anfang der Proteinsequenzen. |
|||
Typische Fehler in Proteinsequenzen | 1) Es kommt häufig vor, dass in MSAs eine oder wenige Sequenzen in allen
anderen Sequenzen relativ lange Lücken bedingen. Häufig wurden in diesen Fällen die Sequenzen, die aus Hochdurchsatzexperimenten stammen, im Assemblierschritt nicht korrekt kombiniert. Es kann daher sinnvoll sein, auffällig lange Sequenzen zu eliminieren. 2) Es ist schwierig, mit bioinformatischen Mitteln den korrekten Genstart vorherzusagen. Häufig wird ein Präfix VOR dem korrektem Genstart (Aminosäure M) als zum Protein gehörend annotiert. Beide Phänomene treten auch in diesem Datensatz auf. |
||
Hinweise | Werden solch verdächtige Sequenzen eliminiert, erhöht sich in vielen Fällen die Qualität des MSAs ganz beträchtlich. Beispielsweise könnte ein Längenfilter verwendet oder das MSA interaktiv optimiert werden. Für ein interaktives Bearbeiten der Datensätze wurden spezielle MSA-Editoren wie Jalview entwickelt. Diese müssen jedoch lokal installiert werden, daher wird auf dieses, sehr hilfreichen Programme hier nicht eingegangen. Es ist jedoch sehr einfach, Jalview zu installieren und seine Nutzung ist schnell gelernt. | ||
Übung | MSA_2 | ||
1979 wurde im sibirischen Permafrost von einem multidisziplinären Team der Russischen Akademie der Wissenschaften ein gut erhaltenes Exemplar des sibirischen Wollmammuts (Mammuthus primigenius) geborgen. Es konnte dessen Gen für das mitochondriale Cytochrom b sequenziert werden. | |||
|
|||
Hinweise | Besorgen Sie sich die entsprechenden Proteinsequenzen, generieren
Sie ein ein multiples Sequenzalignment und bestimmen Sie die
Sequenzähnlichkeiten. Zur Kontrolle finden Sie
hier die Sequenzen der drei genannten Arten. Eine geeignete Quelle für die Sequenzsuche ist (neben BLAST am NCBI) z.B die UniProt-Datenbank, die ebenfalls einen BLAST-Service anbietet. BLASTEN Sie mit der Mammuthus-Sequenz, wählen Sie als Target database ...Mammals und als E-Threshold 0.0001. Nutzen Sie die ersten 250 Sequenzen, um daraus wiederum per T-Coffee ein MSA zu erstellen. Es sind neben der vollständigen Sequenz auch einige Fragmente in der Datenbank abgespeichert. Stellen Sie bitte sicher, dass die Sequenzen alle ähnliche Längen besitzen. Speichern Sie die Sequenzen für die Analyse ab. Lassen Sie sich wiederum mit T-Coffee und der Option OUTPUT FORMAT HTML ein MSA erzeugen. |
||
Vergleichen Sie die MSA-Qualität mit der aus dem
letzten Experiment. Wie gut ist die MSA-Qualität in diesem Fall? |
|||
Hinweise | In diesem Fall sollte die MSA-Qualität über die gesamte Sequenz
wesentlich besser sein als beim letzten Experiment. Studieren Sie auf der Results Summary Seite die Percent Identity Matrix, um die paarweise Ähnlichkeit der Sequenzen zu bestimmen. Betrachten Sie bitte auch den Phylogenetic Tree der Ausgabe. |
||
Können Sie aus dem Baum die Verwandschaft zwischen den drei Arten (in den Sequenznamen abgekürzt mit MAMPR, LOXAF und ELEMA) ableiten? | |||
Hinweise | Vergleichen Sie Ihr Ergebnis mit
dieser Publikation und dieser
jüngeren, die auf einer größeren Datengrundlage basiert. Aus dem hier verwendeten MSA ist diese Verwandtschaft nicht zuverlässig abzuleiten. Für eine sichere Aussage müssen die Sequenzen mit einem phylogenetischen Verfahren untersucht werden, das die Evolution der Sequenzen modelliert. |
||
Übung | MSA_3 | ||
Betrachten Sie das folgende multiple Sequenzalignment von Trypsin-Inhibitoren,
das mit CLUSTAL W generiert wurde. |
|||
|
|||
Kann das multiple Sequenzalignment durch manuelles Editieren verbessert werden? | |||
Wenn ja, übernehmen Sie den Textblock per copy&paste in einen Texteditor und führen Sie die Änderungen aus. Was erreichen Sie auf diese Weise? |
|||
Hinweise |
Analysieren Sie das Alignment spaltenweise und überlegen Sie, ob ein
Verschieben der Lücken die Anzahl konservierter Positionen erhöhen
würde. |
||
|
|||
Leiten Sie bitte aus diesem binären Baum ab, wie das oben angesprochene "Fehl"-Alignment zustande kommt. | |||
Was Sie jetzt verstanden haben sollten |
Algorithmen zum Erstellen von MSAs unterscheiden sich in ihrer Geschwindigkeit und Qualität. Zu den besten Verfahren, die zur Zeit verfügbar sind, gehören CLUSTAL-Omega, T-Coffee, Muscle und MAFFT. Einige Programme sind auf Servern im Netz verfügbar. Wenige, sehr unterschiedliche Sequenzen generieren oft inhomogene MSAs. Bei größeren Datensätzen empfiehlt es sich, diese zu filtern. | ||