Phylogenetische Analysen

Warum ist dieses Wissen wichtig?

Taxonomie oder Phylogenie beschreibt eine Klassifikationswissenschaft, die zum Ziel hat, jedes Element einer Gruppe (das Taxon) derartig in eine Teilgruppe einzuordnen, dass eine eindeutige und wechselseitig exklusive Zuordnung entsteht. Die resultierenden Kataloge dienen u. A. der Analyse von Verwandtschaftsbeziehungen. Mit Darwins Theorie von der Entwicklung der Arten gilt es als gesichert, dass alles existierende Leben von einem gemeinsamen Vorgänger abstammt und dass neue Spezies natürlicherweise durch Abspaltung aus einer existierenden Population und nicht durch Kreuzung entstehen. Damit sollte es möglich sein, die Entwicklung der Arten als gerichteten Baum abzubilden. Seine Wurzel müsste dann auf die Urform allen Lebens weisen, an den Blättern wären einzelne Spezies anzuordnen und Verzweigungen würden dann entweder auf gemeinsame Vorgänger oder Zeitpunkte schließen lassen, an denen sich Spezies evolutionär getrennt haben. Zur Untersuchung taxonomischer Fragestellungen wurde eine Vielzahl von Programmen entwickelt, die sich in dem Modell unterscheiden, das zur Bewertung von Mutationen in Sequenzen herangezogen wird.

Parsimony-Ansätze gehören zu den kladistischen Verfahren. Parsimony (maximale Sparsamkeit) -Ansätze versuchen, durch eine möglichst kleine Anzahl von Mutationen sämtliche Sequenzen der Eingabemenge zu erzeugen und aus der Reihenfolge des Einführens der Mutationen einen Stammbaum abzuleiten.

Maximum-Likelihood-Ansätze sind sehr aufwändige Algorithmen, liefern aber anerkanntermaßen die zuverlässigsten Ergebnisse. Wer sie nutzen will, muss Softwarepakete lokal installieren.

Bezug

Die theoretischen Grundlagen finden Sie im Kapitel 14 "Grundlagen phylogenetischer Analysen".

Lernziel

Nach dem Bearbeiten der Übung sollten Sie

erste Erfahrungen mit taxonomischen Ansätzen haben,
die wichtigsten Ansätze taxonomischer Algorithmen kennen,
Vor- und Nachteile sowie Grenzen benennen können.

MSA-basierte Identifikation

Übung

NUC_1, 16S RNA

Die Identifizierung von Spezies aufgrund ihrer 16S RNA ist eine heute gängige Methode. Wir nehmen im Folgenden an, dass bei einem Metagenomprojekt die hier deponierte 16S RNA sequenziert wurde.

Stellen Sie fest, zu welchem taxonomischen Genus die Spezies wahrscheinlich gehört.

Hinweise

Verwenden Sie diesen Server, der sich der Analyse ribosomaler RNA widmet.

Starten Sie das Verfahren Search/Sequence Search und setzen Sie das Häckchen bei Search and classify. Reduzieren Sie die Schwelle by min. identity with query sequence auf 0.70 und klicken Sie anschließend auf Run Tool. Studieren Sie anschließend den wahrscheinlichsten Vorgänger (LCA tax. SILVA), den Sie angezeigt bekommen, wenn Sie im Feld Alignment Result Table auf Display Classification klicken.

Benutzen Sie den Taxonomie-Browser am NCBI, um die Einordnung des Taxons zu bestimmen.
Ihr Ergebnis sollte sein, dass die Sequenz aus dem Genus Ferroplasma stammt.

Kladistische Verfahren

Übung

KLAD_1, Papier+Bleistift

Konzept verstehen

Versuchen Sie, die Teilschritte eines kladistischen Verfahrens nachzuvollziehen. Es folgt ein Datensatz von DNA-Sequenzen.

1 CTGAAACAGTGAGGGTAGCAGGATAAGCGCACG
2 ATGAAACAGTGAGGGTAGCAGGAAAAGCGCACG
3 CTGAAACAGTGAGGGTAGCAGGAAAAGCGCACG
4 CTGAAACAGTGAGCGTAGCAGGATAAGCCCACG
5 CTGAAACAGTGAGCGTAGCAGGATAAGCGCACG
6 CTGAAACAGTGAGGGTAGCAGGAAAAGCGCACA

Berechnen Sie mit Papier und Bleistift einen Maximum-Parsimony-Baum.

Jede Mutation soll mit gleichen "Kosten" bewertet werden.
Eine Lösung finden Sie hier.

Distanzbasierte Verfahren

Zu den einfachsten phylogenetischen Verfahren zählen die distanzbasierten. Zu diesen gehört das Neighbour-Joining, das sich in vielen Untersuchungen bewährt hat. Mit den folgenden Übungen wollen wir einige Möglichkeiten untersuchen.

Übung

DIST_1, Neigbour-Joining

Falls Sie diese Übung ausführen wollen, müssen Sie lokal das Programm SplitsTree installieren. Die Software enthält einige Methoden, wie die SplitsTrees, die wir erst später näher betrachten wollen. Im Moment nutzen wir die Standardverfahren. Bitte laden Sie die Software auf ihren Rechner und installieren Sie das Paket. Die Sequenz der D-loop-Region der mitochondrialen DNA wird gerne zur phylogenetischen Untersuchung von Vertebraten verwendet. Ähnlich wie die 16S-RNA weist sie sowohl konservierte als auch hoch variable Bereiche auf, die jedoch nicht direkt aufeinanderfolgen. In dieser Übung sollen Sie die Verwandtschaft verschiedener Primaten anhand dieses Sequenzabschnitts untersuchen.

Hier finden Sie im Phylip-Format, das für taxonomische Anwendungen häufiger benutzt wird, eine Zusammenstellung von Sequenzen aus höheren Säugern. Schneiden Sie eine Sequenz z.B. die humanen Ursprungs aus und stellen Sie durch BLASTEN fest, woher sie stammt. Speichern Sie anschließenden den Datensatz lokal ab.

Aufgabe

Lassen Sie sich von SplitsTree einen Baum berechnen.

Hinweise

Laden Sie den Datensatz in SplitsTree mit \File\Open und wählen Sie als Eingabeformat Phylip Sequences Alignment files (*.phy).
Ignorieren Sie die initial gezeigte Ausgabe und konfigurieren Sie die Berechnung des Baumes, indem Sie die folgenden Befehle absetzen. Studieren Sie bitte die jeweils angegebenen Informationen zu den Teilschritten.

Wählen Sie für die Distanzberechnung \Distances\F81 und klicken Sie auf Apply.
Wählen Sie für die Darstellung \Trees\BioNJ und klicken Sie auf Apply.

Bestimmen Sie nun zusätzlich die Zuverlässigkeit der Kanten mit \Analysis\Bootstrap 100 Run.

Welche Kanten sind aufgrund der Bootstrapwerte eindeutig? Welche Schwelle wird üblicherweise zum Festlegen "belastbarer" Kanten verwendet?

Spezifische Fragen

Erfüllen die Sequenzen "Bovine" und "Mouse" in diesem Fall die Funktion einer Outgroup?

Wurde ein gewurzelter oder ungewurzelter Baum errechnet? Wie könnten Sie dem Baum, bezogen auf die Primaten-Arten, eine Wurzel geben? Nutzen Sie hierfür die Outgroup.

Welches Substitutionsmodell haben Sie durch die Wahl von F81 selektiert?
Mit welchem Verfahren wurde der Baum berechnet?

Welche Spezies sind am engsten miteinander verwandt, stimmt der Baum mit Ihrer Kenntnis zur evolutionären Verwandtschaft der betrachteten Arten überein?

Ausgabe erzeugen

Sie können die Darstellung des Baumes verbessern, indem Sie die Kanten dicker zeichnen lassen und für die Beschriftung der Blätter eine größere Schrift wählen.

Benutzen Sie \Edit\Select Edges zur Auswahl aller Kanten und ändern Sie dann mit \Windows\Format Nodes and Edges die Edge width (Strichbreite) auf 2.
Benutzen Sie \Edit\Select Labeled Nodes zur Auswahl der Beschriftung aller Blätter. Ändern Sie dann mit \Windows\Format Nodes and Edges die Size (Schriftgröße) auf 10 und wählen Sie Bold (Fettdruck).

Sie können interaktiv die Position von Labels (z.B. von Bootstrapwerten) verändern, indem Sie auf eine Kante klicken und anschließend das Textfenster verziehen.

Übung

DIST_2, SplitsTree

Ein alternativer Ansatz zur Darstellung sich möglicherweise widersprechender taxonomischer Signale ist der SplitsTree-Algorithmus. Dieser stellt immer dann Teil-Bäume als Geflecht dar, wenn keine eindeutige Baumstruktur ableitbar ist. Im folgenden Experiment vergleichen Sie dieses Konzept mit den oben eingeführten.

Werten Sie den Datensatz primates.phy mit dem SplitsTree-Algorithmus aus.

Hinweise

Laden Sie den Datensatz. Wählen Sie anschließend /Networks/SplitDecomposition und starten Sie die Auswertung.

Stoßen Sie anschließend ein Bootstrap-Verfahren mit 100 Replikaten an und vergleichen Sie die Lage der "Netze", d. h. der Bäume und die Höhe der Bootstrap-Werte. Welche Übereinstimmung können Sie ableiten und welche Verwandtschaftsbeziehungen sind unsicher, wenn Sie einen Bootstrapwert von 0.75 als Schwelle nutzen?

Maximum-Likelihood-Verfahren

Üblicherweise werden für phylogenetischen Analysen mehrere, hintereinandergeschaltete Programme genutzt, die lokal installiert sind.
Ein Server, mit dem ein solches Protokoll nachvollzogen werden kann, findet sich bislang hier.

Übung

ML_1

Motivation

Die Sulfid-Chinon-Reduktase (SQR) ist ein Enzym, das für das Wachstum photo- und chemolitoautotropher Bakterien und Archaeen, die Sulfid als Elektronendonor verwenden, lebensnotwendig ist. Sie ist ein Teil der Elektronentransportkette und katalysiert den ersten Schritt der Sulfid-Oxidation. Dabei werden Elektronen von SH2 auf FAD und im nächsten Schritt auf Chinon übertragen und letztendlich zur Reduktion von NAD+ zu NADH eingesetzt. Die SQR ist ein membrangebundenes Protein. In den meisten untersuchten Organismen ist sie in die Membran integriert, nur in Rhodobacter capsulatus lässt sie sich relativ leicht von der Membranfraktion trennen und ist wahrscheinlich nur oberflächlich auf der extrazellulären Seite an die Membran gebunden. Der Schwefelwasserstoff gelangt von außen an die Zellen und so direkt an die SQR. Der entstehende elementare Schwefel wird außerhalb der Zellen abgelagert. SQR kommt auch in Eukaryonten vor.

Die Herkunft der eukaryontischen SQRs ist unklar und deswegen wollen wir sie hier mit einem phylogenetischen Analyse studieren. Falls die Sequenzen eukaryontischer SQR-Gene in einem phylogenetischen Baum geclustert liegen, ist dies ein Hinweis auf einen gemeinsamen Vorfahren. Eine Quelle könnten mitochondriale Endosymbionten sein, die die SQR-Sequenz "mitgebracht" haben.

Überprüfen Sie die Hypothese, dass eukaryontische SQR-Gene einen gemeinsamen Vorfahren besitzen.

"One click" Ansatz

Werten Sie hierfür diesen Datensatz aus.

Benutzen Sie den "One Click Mode" dieses Servers und übergeben Sie zunächst die Sequenzen.
Studieren Sie bitte die Namen der Spezies und identifizieren Sie diejenigen aus Eukaryonten.

Klicken Sie anschließend auf Submit, um die Analyse zu starten.

Das Protokoll, das automatisch abläuft, besteht aus vier Schritten:

1) Zunächst wird mit dem Programm MUSCLE ein MSA erzeugt.

2) Das Programm Gblocks eliminiert divergente Regionen, sodass sich die Analyse auf verlässliche Sequenzbereiche konzentriert.

3) Mit PhyML wird anschließend ein phylogenetischer Baum errechnet.

4) Das Programm TreeDyn wird benutzt, um den Baum darzustellen und zu verändern, sofern gewünscht.

Sichern Sie den Baum, z.B. als PDF-Datei und analysieren Sie ihn.

Erscheinen Ihnen die einzelnen Teilcluster sinnvoll in ihrer Zusammenstellung? Sehen Sie phylogenetische Verwandtschaften? Liegen die eukaryontischen Sequenzen in einem Teilcluster, das durch hinreichend große Bootstrapwerte abgesichert ist?

Sie sollten erkennen, dass dieses Ergebnisse kompatibel ist mit der oben eingeführten Hypothese. Allerdings stellt der Baum keinen Beweis dar..

Einen großen Teil der Arbeit für diese Analyse wurde Ihnen erspart. Der meiste Aufwand steckt in der Zusammenstellung der Sequenzen, die bei taxonomischen Untersuchungen ausgewertet werden.

Überlegen Sie sich, wie Sie einen derartigen Datensatz erzeugen würden.

Was Sie jetzt wissen sollten

Distanzbasierte, Parsimony- und Maximum-Likelihood-Verfahren machen einen großen Teil phylogenetischer Analysen aus. Zunehmend an Bedeutung gewinnen Bayessche Ansätze, die allerdings lange Rechenzeiten erfordern. Die Programme für rechenaufwändige Protokolle werden lokal installiert und genutzt.