Übungen zu multiplen Sequenzalignments

Warum ist dieses Wissen wichtig?

MSAs haben in der Bioinformatik eine enorme Bedeutung. Zum einen, um Gemeinsamkeiten einer Menge von Sequenzen präzise herauszuarbeiten, zum anderen, um auf empfindliche Weise die Zugehörigkeit einer Sequenz zu einer Proteinfamilie nachzuweisen. Durch das Verwenden von MSAs in Alignmentprogrammen oder in Algorithmen zur Vorhersage der Proteinsekundärstruktur wurde deren Empfindlichkeit deutlich gesteigert bzw. die Richtigkeit verbessert.

Bezug

Die theoretischen Grundlagen finden Sie im Kapitel 13 "Multiple Sequenzalignments".

Lernziel

Nach dem Bearbeiten der Übung sollten Sie

multiple Sequenzalignments generieren,
die Ausgabe von Programmen kritisch bewerten,
Gründe für die Konserviertheit von Residuen nennen,
unterschiedliche Konzepte von Alignmentalgorithmen benennen

können.

Übung

MSA_1

MSA mit
CLUSTAL Omega
erzeugen

Das VSR Gen von E. coli K-12 soll mit einem multiplen Sequenzalignment genauer charakterisiert werden. Hier finden Sie eine erste Sammlung von Sequenzen.

Übergeben Sie per copy&paste den Inhalt dieser Datensammlung in das Eingabe-Fenster des CLUSTAL Omega-Servers und stoßen Sie das Generieren eines multiplen Sequenzalignments an. In dieser Übung benutzen wir stets die Standardeinstellungen der Programme.

Beantworten Sie die folgenden Fragen:

Multiples-
Sequenz-
Alignment
bewerten

Welche Sequenz ist der von VSR aus E. coli am ähnlichsten?
Wo unterscheiden sich die Sequenzen am stärksten?
Welche Residuen sind am stärksten konserviert?

Hinweise

Betrachten Sie den Guide Tree, um die Sequenzähnlichkeit zu untersuchen.

MSA mit
T-COFFEE
erzeugen

Erstellen Sie nun ein multiples Sequenzalignment mit T-Coffee.

Vergleichen Sie das Ergebnis mit dem von CLUSTAL Omega generierten.
Gibt es qualitative Unterschiede?

Hinweise

Vergleichen Sie die Alignments der N-terminalen Regionen und die Topologie der Guide Trees. Beachten Sie, dass sich in den Ausgaben die Reihenfolgen der Sequenzen unterscheiden.

Die unterschiedlichen Ergebnisse machen klar, dass ein Aligment von wenigen, sich stärker unterscheidenden Sequenzen schwierig ist.

Größeren Datensatz analysieren

Hier finden Sie eine Sammlung mit 250 VSR-Sequenzen , die aus der UniRef90-Datenbank stammt. Diese Datenbank enthält nur Sequenzen, die im paarweisen Vergleich eine maximale Sequenzidentität von 90% besitzen. Damit wird die Überrepräsentation sehr nahe verwandter Arten reduziert. Erstellen Sie mit diesem Datensatz und dem Programm T-Coffee ein MSA und lassen Sie die Ausgabe als HTML-Seite darstellen (Option beim OUTPUT FORMAT). Analysieren Sie die Ausgabe. Die einzelnen Spalten sind mit einem Farbcode markiert. Ein roter Hintergrund gibt an, dass die Alignmentqulität hoch ist. Grüne und blaue Hintergrundfarben kennzeichnen Bereiche von schlechter Alignmentqualität.

Warum gibt es Bereiche schlechter Qualität?
Beschreiben Sie das Alignment am Anfang der Proteinsequenzen.

Typische Fehler in Proteinsequenzen

1) Es kommt häufig vor, dass in MSAs eine oder wenige Sequenzen in allen anderen Sequenzen relativ lange Lücken bedingen.
Häufig wurden in diesen Fällen die Sequenzen, die aus Hochdurchsatzexperimenten stammen, im Assemblierschritt nicht korrekt kombiniert. Es kann daher sinnvoll sein, auffällig lange Sequenzen zu eliminieren.
2) Es ist schwierig, mit bioinformatischen Mitteln den korrekten Genstart vorherzusagen. Häufig wird ein Präfix VOR dem korrektem Genstart (Aminosäure M) als zum Protein gehörend annotiert.

Beide Phänomene treten auch in diesem Datensatz auf.

Hinweise

Werden solch verdächtige Sequenzen eliminiert, erhöht sich in vielen Fällen die Qualität des MSAs ganz beträchtlich. Beispielsweise könnte ein Längenfilter verwendet oder das MSA interaktiv optimiert werden. Für ein interaktives Bearbeiten der Datensätze wurden spezielle MSA-Editoren wie Jalview entwickelt. Diese müssen jedoch lokal installiert werden, daher wird auf dieses, sehr hilfreichen Programme hier nicht eingegangen. Es ist jedoch sehr einfach, Jalview zu installieren und seine Nutzung ist schnell gelernt.

Übung

MSA_2

1979 wurde im sibirischen Permafrost von einem multidisziplinären Team der Russischen Akademie der Wissenschaften ein gut erhaltenes Exemplar des sibirischen Wollmammuts (Mammuthus primigenius) geborgen. Es konnte dessen Gen für das mitochondriale Cytochrom b sequenziert werden.

Wie stark hat sich die Cytochrom b Sequenz seit dem Aussterben dieser Art vervndert und wie ähnlich ist sie zu der aus anderen Arten?

Kann aus den Sequenzen abgeleitet werden, mit welcher der heute noch vorhandenen Elefantengattungen Loxodonta africana oder Elephas maximus das Wollmammut näher verwandt ist?

Hinweise

Besorgen Sie sich die entsprechenden Proteinsequenzen, generieren Sie ein ein multiples Sequenzalignment und bestimmen Sie die Sequenzähnlichkeiten. Zur Kontrolle finden Sie hier die Sequenzen der drei genannten Arten.

Eine geeignete Quelle für die Sequenzsuche ist (neben BLAST am NCBI) z.B die UniProt-Datenbank, die ebenfalls einen BLAST-Service anbietet. BLASTEN Sie mit der Mammuthus-Sequenz, wählen Sie als Target database ...Mammals und als E-Threshold 0.0001. Nutzen Sie die ersten 250 Sequenzen, um daraus wiederum per T-Coffee ein MSA zu erstellen.

Es sind neben der vollständigen Sequenz auch einige Fragmente in der Datenbank abgespeichert. Stellen Sie bitte sicher, dass die Sequenzen alle ähnliche Längen besitzen. Speichern Sie die Sequenzen für die Analyse ab.

Lassen Sie sich wiederum mit T-Coffee und der Option OUTPUT FORMAT HTML ein MSA erzeugen.

Vergleichen Sie die MSA-Qualität mit der aus dem letzten Experiment.
Wie gut ist die MSA-Qualität in diesem Fall?

Hinweise

In diesem Fall sollte die MSA-Qualität über die gesamte Sequenz wesentlich besser sein als beim letzten Experiment.

Studieren Sie auf der Results Summary Seite die Percent Identity Matrix, um die paarweise Ähnlichkeit der Sequenzen zu bestimmen. Betrachten Sie bitte auch den Phylogenetic Tree der Ausgabe.

Können Sie aus dem Baum die Verwandschaft zwischen den drei Arten (in den Sequenznamen abgekürzt mit MAMPR, LOXAF und ELEMA) ableiten?

Hinweise

Vergleichen Sie Ihr Ergebnis mit dieser Publikation und dieser jüngeren, die auf einer größeren Datengrundlage basiert.

Aus dem hier verwendeten MSA ist diese Verwandtschaft nicht zuverlässig abzuleiten.
Für eine sichere Aussage müssen die Sequenzen mit einem phylogenetischen Verfahren untersucht werden, das die Evolution der Sequenzen modelliert.

Übung

MSA_3

Betrachten Sie das folgende multiple Sequenzalignment von Trypsin-Inhibitoren, das mit CLUSTAL W generiert wurde.

EETI-II         ----GCPRILMRCKQDSDCLAGCVCGPN-GFCGSP
Ii_Mutant       ----GCPRLLMRCKQDSDCLAGCVCGPN-GFCG--
BDTI-II         ---RGCPRILMRCKRDSDCLAGCVCQKN-GYCG--
CMeTI-B         ---VGCPRILMKCKTDRDCLTGCTCKRN-GYCG--
CMTI-IV         HEERVCPRILMKCKKDSDCLAECVCLEH-GYCG--
CSTI-IIB        ---MVCPKILMKCKHDSDCLLDCVCLEDIGYCGVS
MRTI-I          ---GICPRILMECKRDSDCLAQCVCKRQ-GYCG--
Trypsin         ---RICPRIWMECTRDSDCMAKCICVAG--HCG--
ITRA_MOMCH      ---RSCPRIWMECTRDSDCMAKCICVAG--HCG--
MCTI-A          ---RICPRIWMECKRDSDCMAQCICVDG--HCG--
LCTI-III        ---RICPRILMECSSDSDCLAECICLEN-IFCG--
                     **:: *.*. * **:  * *     .**

Multiples Sequenzalignment
für Trypsin-Inhibitoren

Kann das multiple Sequenzalignment durch manuelles Editieren verbessert werden?

Wenn ja, übernehmen Sie den Textblock per copy&paste in einen Texteditor und führen Sie die Änderungen aus. Was erreichen Sie auf diese Weise?

Hinweise

Analysieren Sie das Alignment spaltenweise und überlegen Sie, ob ein Verschieben der Lücken die Anzahl konservierter Positionen erhöhen würde.

Leiten Sie bitte aus diesem binären Baum ab, wie das oben angesprochene "Fehl"-Alignment zustande kommt.

Was Sie jetzt verstanden haben sollten

Algorithmen zum Erstellen von MSAs unterscheiden sich in ihrer Geschwindigkeit und Qualität. Zu den besten Verfahren, die zur Zeit verfügbar sind, gehören CLUSTAL-Omega, T-Coffee, Muscle und MAFFT. Einige Programme sind auf Servern im Netz verfügbar. Wenige, sehr unterschiedliche Sequenzen generieren oft inhomogene MSAs. Bei größeren Datensätzen empfiehlt es sich, diese zu filtern.