Suche mit DNA- und Proteinsequenzen

Warum ist dieses Wissen wichtig?

Heuristiken wie FASTA und BLAST erlauben es, sowohl DNA- als auch Proteinsequenzen paarweise zu vergleichen.

Ist für ein Protein die Gen-, d. h. die DNA-Sequenz bekannt, ist zunächst zu überlegen, ob diese Sequenz oder die in die Proteinsequenz übersetzte zum Suchen verwendet werden soll. Möglicherweise fallen die Ergebnisse unterschiedlich aus, wenn unterschiedliche Sequenztypen als Query verwendet werden. Um diese Effekte zu studieren, machen wir uns die Unterschiede an einem Beispiel klar. Zusätzlich werden einige weitere Optionen des BLAST-Servers, wie das Einschränken auf spezifische Datensätze vorgestellt.

Bezug

Diese Übungen ergänzen das Kapitel 12 "FASTA und die BLAST-Suite".

Lernziel

Nach dem Bearbeiten der Übung sollte verstanden sein

für welche Fragestellungen mit DNA- bzw. Proteinsequenzen

bevorzugt gesucht wird.

Wir benutzen im Folgenden wiederum den BLAST-Server des NCBI in Bethesda.

Gegeben sei die folgende DNA-Sequenz:

Sequenz

>Testsequenz
attttttcgagccagaattccgtacgcgttgctggtaccttgaataa
gtagcaatggtgatggtgccaaaagcacccgtgagtgaaaattacgcatcggtaatcgtca

Übung

SequSuch_1, Gensequenz, Homologiesuche auf DNA-Ebene

Da es sich um eine DNA-Sequenz handelt, suchen wir zunächst in den bekannten DNA-Sequenzen nach signifikanten Treffern.

Blast-Server starten

Starten Sie das Programm BLAST am NCBI.

Wählen Sie die Version für Nucleotide BLAST (blastn).

Sequenz eingeben

Übergeben Sie per copy and paste die obige DNA-Sequenz dem BLAST-Server.

Datenbank wählen

Stellen Sie sicher, dass als Datenbank die Nucleotide collection (nr/nt) ausgewählt ist.

Server starten

Wählen Sie im Feld Program Selection die Version Somewhat similar (blastn) und lassen Sie sich die Ergebnisse in einem separaten Fenster (Häckchen bei Show results in a new window) anzeigen.
Starten Sie die Suche durch Betätigen der Taste BLAST.

Wie groß ist die Sequnzübereinstimmung der sigifikantesten Treffer? Wie hoch sind die E-Werte?

Hinweise

Lassen Sie das Fenster mit den Ergebnisse geöffnet, bis Sie auch das folgende Experiment ausgeführt haben.

Übung

SequSuch_2, Gensequenz, Homologiesuche auf Proteinebene

DNA übersetzen

Nun soll diese Gensequenz erst in eine Proteinsequenz übersetzt werden, ehe sie zum Suchen verwendet wird. Diese Aufgabe nimmt uns der BLAST-Server ab. Die Variante blastx übersetzt eine DNA-Sequenz in allen sechs Leserahmen in korrespondierende Proteinsequenzen, die anschließend parallel als Query benutzt werden.

Starten Sie das Programm BLAST ein zweites Mal.

Wählen Sie als BLAST-Version blastx und stellen Sie sicher, dass als Datenbank Non-redundant protein sequences nr ausgewählt ist. Lassen Sie sich Ergebnisse wiederum in ein separates Fenster ausgeben.

Starten Sie den BLAST-Server durch Betätigen der Taste BLAST.

Wie groß ist die Sequnzübereinstimmung der sigifikantesten Treffer? Wie hoch sind die E-Werte?

Übung

SequSuch_3, Vergleich der Ergebnisse

Wenn Sie auf den beiden Ergebnisseiten auf den Reiter Alignments klicken, können Sie sich jeweils die signifikantesten Treffer ansehen.

Auf DNA-Ebene ist eine Übereinstimmung zwischen Eingabe (Query) und einer Sequenz der Datenbank (Sbjct) durch einen Strich "|" markiert. Bei den Proteinsequenzen wird die Übereinstimmung durch das Symbol in der Zeile zwischen Query und Subjct angezeigt.

Vergleichen Sie die in beiden Läufen gewonnenen Ergebnisse.
In welcher Analyse ist die Sequenzähnlichkeit höher? Wie erklären Sie dieses Resultat?

Hinweise

Berücksichtigen Sie bei Ihrer Interpretation die Degeneriertheit des genetischen Codes. Wenn Sie sich die Alignments der DNA-Sequnzen genau ansehen, können Sie erkennen, dass Mismatches an bestimmten Positionen (dritte Stelle im Codon) häufiger auftreten. Diese verändern die Proteinsequenzen häufig nicht.

Geht es also darum, ein Protein zu charakterisieren, ist es sinnvoller, die Proteinsequenz zu untersuchen.

Übung

SequSuch_4, Intergenische Sequenz

Wiederholen Sie dieses Experiment blastn versus blastx mit der folgende DNA-Sequenz:

Sequenz

>Sequenz_Ecoli
cggatgcggcgtaaacgccttatccggcctaca

Bestimmen des Vorkommens

Nutzen Sie wiederum die beiden BLAST-Varianten und übergeben Sie per copy&paste die Sequenz in das Eingabefenster.

Konfiguration für blastn

In diesem Fall wollen wir exklusiv die Treffer in einem einzigen Genom bestimmen.

Stellen Sie sicher, dass als Database Nucleotide collection (nr/nt) eingestellt ist.
Geben Sie im Feld Entrez Query U00096.3 ein, um die Suche auf diesen genomischen Datensatz von E. coli zu beschränken.
Mittlerweile sind mehrere E. coli Stämme sequenziert worden. U00096.3 enthält das Genom des häufig verwendeten Stammes E. coli K-12.

Lassen Sie die Ausgabe wiederum in ein separates Fenster ausgeben.

Stoßen Sie, nachdem Sie diese Einstellungen vorgenommen haben, die BLAST-Suche an.

Auswertung

Nachdem BLAST die Ergebnisliste anzeigt:

Stellen Sie durch Kontrolle des Reports Taxonomy sicher, dass nur in einem Genom gesucht wurde.

Bestimmen Sie anschließend die Anzahl der Treffer in diesem Genom: Die Zahl der "Matches" wird in der Liste der Alignements rechts oben angegeben. Es sollten mehr als 250 sein.

Konfiguration für blastx

Da wir für den Vergleich der Proteinsequenzen möglichst empfindlich suchen wollen, ist es nicht nötig die Suche auf bestimmte Organismen zu begrenzen. Wir suchen in der gesamten Protein Datenbank (nr).

Aufgabe

Wie viel Treffer findet blastx?
Entspricht die Anzahl der Treffer Ihren Erwartungen?

Hinweise

Blastx sollte KEINE Treffer finden, da es sich bei dieser Sequenz um eine intergenische handelt, die NICHT für ein Protein codiert.
Andrerseits: Diese Sequenz kommt hoch konserviert mehr als 250-mal im E. coli Genom vor. Welche Funktion vermuten Sie für diese Sequenz? Eine Funktion als Bindestelle könnte möglicherweise aus der Annotation des Genoms abgeleitet werden. In den Aligments ist bei jedem Treffer diese Information über den Link Graphics erreichbar.

Was Sie jetzt verstanden haben sollten

Es sollte Ihnen klar geworden sein,

worauf die Unterschiede im Vergleich von DNA- und Proteinsequenzen beruhen,
(rekapitulieren Sie bei Verständnisproblemen den Abschnitt zum genetischen Code)
dass immer dann mit Proteinsequenzen gesucht wird, wenn es um die Funktion der Genprodukte (Proteine) geht,
dass die Suche mit DNA-Sequenzen speziellen Fällen vorbehalten bleibt.