Warum ist dieses Wissen wichtig? | Taxonomie oder Phylogenie
beschreibt eine Klassifikationswissenschaft, die zum Ziel hat, jedes
Element einer Gruppe (das Taxon) derartig in eine Teilgruppe
einzuordnen, dass eine eindeutige und wechselseitig exklusive Zuordnung
entsteht. Die resultierenden Kataloge dienen u. A. der Analyse von
Verwandtschaftsbeziehungen. Mit Darwins Theorie von der Entwicklung der
Arten gilt es als gesichert, dass alles existierende Leben von einem
gemeinsamen Vorgänger abstammt und dass neue Spezies natürlicherweise
durch Abspaltung aus einer existierenden Population und nicht durch
Kreuzung entstehen. Damit sollte es möglich sein, die Entwicklung der
Arten als gerichteten Baum abzubilden. Seine Wurzel müsste dann auf die
Urform allen Lebens weisen, an den Blättern wären einzelne Spezies
anzuordnen und Verzweigungen würden dann entweder auf gemeinsame
Vorgänger oder Zeitpunkte schließen lassen, an denen sich Spezies
evolutionär getrennt haben. Zur Untersuchung taxonomischer
Fragestellungen wurde eine Vielzahl von Programmen entwickelt, die sich
in dem Modell unterscheiden, das zur Bewertung von Mutationen in
Sequenzen herangezogen wird. |
|
Parsimony-Ansätze gehören zu den kladistischen Verfahren.
Parsimony
(maximale Sparsamkeit) -Ansätze versuchen, durch eine möglichst kleine
Anzahl von Mutationen sämtliche Sequenzen der Eingabemenge zu erzeugen
und aus der Reihenfolge des Einführens der Mutationen einen Stammbaum
abzuleiten.
Maximum-Likelihood-Ansätze sind sehr aufwändige Algorithmen, liefern aber anerkanntermaßen die zuverlässigsten Ergebnisse. Wer sie nutzen will, muss Softwarepakete lokal installieren.
|
||
Bezug | Die theoretischen Grundlagen finden Sie im Kapitel 14 "Grundlagen phylogenetischer Analysen". | |
Lernziel |
|
|
MSA-basierte Identifikation |
||
Übung | NUC_1, 16S RNA | |
Die Identifizierung von Spezies aufgrund ihrer 16S RNA
ist eine heute gängige Methode. Wir nehmen im Folgenden an,
dass bei einem Metagenomprojekt die hier
deponierte 16S RNA sequenziert wurde. |
||
|
||
Hinweise | Verwenden Sie diesen
Server, der sich der Analyse ribosomaler RNA widmet. Starten Sie das Verfahren Search/Sequence Search und setzen Sie das Häckchen bei Search and classify. Reduzieren Sie die Schwelle by min. identity with query sequence auf 0.70 und klicken Sie anschließend auf Run Tool. Studieren Sie anschließend den wahrscheinlichsten Vorgänger (LCA tax. SILVA), den Sie angezeigt bekommen, wenn Sie im Feld Alignment Result Table auf Display Classification klicken. Benutzen Sie den Taxonomie-Browser am NCBI, um die Einordnung des Taxons zu bestimmen. Ihr Ergebnis sollte sein, dass die Sequenz aus dem Genus Ferroplasma stammt. |
|
Kladistische Verfahren |
||
Übung | KLAD_1, Papier+Bleistift | |
Konzept verstehen | Versuchen Sie,
die Teilschritte eines kladistischen Verfahrens nachzuvollziehen. Es
folgt ein Datensatz von DNA-Sequenzen.
|
|
|
||
|
||
Jede Mutation soll mit gleichen "Kosten" bewertet werden. Eine Lösung finden Sie hier.
|
||
Distanzbasierte Verfahren |
||
Zu den einfachsten phylogenetischen Verfahren zählen die distanzbasierten. Zu diesen gehört das Neighbour-Joining, das sich in vielen Untersuchungen bewährt hat. Mit den folgenden Übungen wollen wir einige Möglichkeiten untersuchen. | ||
Übung | DIST_1, Neigbour-Joining | |
Falls Sie diese Übung ausführen wollen, müssen Sie lokal das
Programm SplitsTree installieren. Die Software enthält einige Methoden, wie die SplitsTrees,
die wir erst später näher betrachten wollen. Im Moment nutzen wir die
Standardverfahren. Bitte laden Sie die Software
auf ihren Rechner und installieren Sie das Paket. Die Sequenz der D-loop-Region der mitochondrialen
DNA wird gerne zur phylogenetischen Untersuchung von Vertebraten
verwendet. Ähnlich wie die 16S-RNA weist sie sowohl
konservierte als auch hoch variable Bereiche auf, die jedoch nicht direkt
aufeinanderfolgen. In dieser
Übung sollen Sie die Verwandtschaft verschiedener Primaten
anhand dieses Sequenzabschnitts untersuchen. Hier finden Sie im Phylip-Format, das für taxonomische Anwendungen häufiger benutzt wird, eine Zusammenstellung von Sequenzen aus höheren Säugern. Schneiden Sie eine Sequenz z.B. die humanen Ursprungs aus und stellen Sie durch BLASTEN fest, woher sie stammt. Speichern Sie anschließenden den Datensatz lokal ab. |
||
Aufgabe | Lassen Sie sich von SplitsTree einen Baum berechnen. | |
Hinweise | Laden Sie den Datensatz in SplitsTree
mit \File\Open und wählen Sie als Eingabeformat
Phylip Sequences Alignment files (*.phy). Ignorieren Sie die initial gezeigte Ausgabe und konfigurieren Sie die Berechnung des Baumes, indem Sie die folgenden Befehle absetzen. Studieren Sie bitte die jeweils angegebenen Informationen zu den Teilschritten. Wählen Sie für die Distanzberechnung \Distances\F81 und klicken Sie auf Apply. Wählen Sie für die Darstellung \Trees\BioNJ und klicken Sie auf Apply. Bestimmen Sie nun zusätzlich die Zuverlässigkeit der Kanten mit \Analysis\Bootstrap 100 Run. Welche Kanten sind aufgrund der Bootstrapwerte eindeutig? Welche Schwelle wird üblicherweise zum Festlegen "belastbarer" Kanten verwendet? |
|
Spezifische Fragen | Erfüllen die Sequenzen "Bovine" und "Mouse" in diesem Fall die
Funktion einer Outgroup? Wurde ein gewurzelter oder ungewurzelter Baum errechnet? Wie könnten Sie dem Baum, bezogen auf die Primaten-Arten, eine Wurzel geben? Nutzen Sie hierfür die Outgroup. Welches Substitutionsmodell haben Sie durch die Wahl von F81 selektiert? Mit welchem Verfahren wurde der Baum berechnet? Welche Spezies sind am engsten miteinander verwandt, stimmt der Baum mit Ihrer Kenntnis zur evolutionären Verwandtschaft der betrachteten Arten überein? |
|
Ausgabe erzeugen |
Sie können die Darstellung des Baumes verbessern, indem Sie die Kanten dicker zeichnen lassen und für die Beschriftung der Blätter eine größere Schrift wählen. Benutzen Sie \Edit\Select Edges zur Auswahl aller Kanten und
ändern Sie dann mit \Windows\Format Nodes and Edges die
Edge
width (Strichbreite) auf 2. |
|
Übung | DIST_2, SplitsTree | |
Ein alternativer Ansatz zur Darstellung sich möglicherweise
widersprechender taxonomischer Signale ist der
SplitsTree-Algorithmus. Dieser stellt immer dann Teil-Bäume als Geflecht
dar, wenn keine eindeutige Baumstruktur ableitbar ist. Im
folgenden Experiment vergleichen Sie dieses Konzept mit den oben
eingeführten.
|
||
Werten Sie den Datensatz primates.phy mit dem SplitsTree-Algorithmus aus. | ||
Hinweise |
Stoßen Sie anschließend ein Bootstrap-Verfahren mit 100 Replikaten an und vergleichen Sie die Lage der "Netze", d. h. der Bäume und die Höhe der Bootstrap-Werte. Welche Übereinstimmung können Sie ableiten und welche Verwandtschaftsbeziehungen sind unsicher, wenn Sie einen Bootstrapwert von 0.75 als Schwelle nutzen? |
|
Maximum-Likelihood-Verfahren |
||
Üblicherweise werden für phylogenetischen Analysen mehrere,
hintereinandergeschaltete Programme genutzt, die lokal installiert sind.
Ein Server, mit dem ein solches Protokoll nachvollzogen werden kann, findet sich bislang hier. |
||
Übung | ML_1 | |
Motivation |
Die
Sulfid-Chinon-Reduktase (SQR) ist ein Enzym, das für das Wachstum photo-
und chemolitoautotropher Bakterien und Archaeen, die Sulfid als
Elektronendonor verwenden, lebensnotwendig ist. Sie ist ein Teil der
Elektronentransportkette und katalysiert den ersten Schritt der
Sulfid-Oxidation. Dabei werden Elektronen von SH2 auf FAD und im
nächsten Schritt auf Chinon übertragen und letztendlich zur Reduktion
von NAD+ zu NADH eingesetzt. Die
SQR ist ein membrangebundenes Protein. In den meisten untersuchten
Organismen ist sie in die Membran integriert, nur in Rhodobacter
capsulatus lässt sie sich relativ leicht von der Membranfraktion
trennen und ist wahrscheinlich nur oberflächlich auf der
extrazellulären Seite an die Membran gebunden. Der Schwefelwasserstoff
gelangt von außen an die Zellen und so direkt an die SQR. Der
entstehende elementare Schwefel wird außerhalb der Zellen abgelagert. SQR
kommt auch in Eukaryonten vor. Die Herkunft der eukaryontischen SQRs ist unklar und deswegen wollen wir sie hier mit einem phylogenetischen Analyse studieren. Falls die Sequenzen eukaryontischer SQR-Gene in einem phylogenetischen Baum geclustert liegen, ist dies ein Hinweis auf einen gemeinsamen Vorfahren. Eine Quelle könnten mitochondriale Endosymbionten sein, die die SQR-Sequenz "mitgebracht" haben. |
|
Überprüfen Sie die Hypothese, dass eukaryontische SQR-Gene einen gemeinsamen Vorfahren besitzen. | ||
"One click" Ansatz |
Werten Sie hierfür diesen Datensatz aus. Benutzen Sie den "One Click Mode"
dieses Servers und übergeben Sie zunächst die Sequenzen. Das Protokoll, das automatisch abläuft, besteht aus vier Schritten:
2) Das Programm Gblocks eliminiert divergente Regionen, sodass sich die Analyse auf verlässliche Sequenzbereiche konzentriert. 3) Mit PhyML wird anschließend ein phylogenetischer Baum errechnet. 4) Das Programm TreeDyn wird benutzt, um den Baum darzustellen und zu verändern, sofern gewünscht. Sichern Sie den Baum, z.B. als PDF-Datei und analysieren Sie ihn. Erscheinen Ihnen die einzelnen Teilcluster sinnvoll in ihrer Zusammenstellung? Sehen Sie phylogenetische Verwandtschaften? Liegen die eukaryontischen Sequenzen in einem Teilcluster, das durch hinreichend große Bootstrapwerte abgesichert ist? |
|
Sie sollten erkennen, dass dieses Ergebnisse kompatibel ist mit der oben eingeführten Hypothese. Allerdings stellt der Baum keinen Beweis dar.. Einen großen Teil der Arbeit für diese Analyse wurde Ihnen erspart. Der meiste Aufwand steckt in der Zusammenstellung der Sequenzen, die bei taxonomischen Untersuchungen ausgewertet werden. Überlegen Sie sich, wie Sie einen derartigen Datensatz erzeugen würden. |
||
Was Sie jetzt wissen sollten |
Distanzbasierte, Parsimony- und Maximum-Likelihood-Verfahren machen einen großen Teil phylogenetischer Analysen aus. Zunehmend an Bedeutung gewinnen Bayessche Ansätze, die allerdings lange Rechenzeiten erfordern. Die Programme für rechenaufwändige Protokolle werden lokal installiert und genutzt. | |