Warum ist dieses Wissen wichtig? | Heuristiken wie FASTA und BLAST erlauben es, sowohl DNA-
als auch Proteinsequenzen paarweise zu vergleichen. Ist für ein Protein die Gen-, d. h. die DNA-Sequenz bekannt, ist zunächst zu überlegen, ob diese Sequenz oder die in die Proteinsequenz übersetzte zum Suchen verwendet werden soll. Möglicherweise fallen die Ergebnisse unterschiedlich aus, wenn unterschiedliche Sequenztypen als Query verwendet werden. Um diese Effekte zu studieren, machen wir uns die Unterschiede an einem Beispiel klar. Zusätzlich werden einige weitere Optionen des BLAST-Servers, wie das Einschränken auf spezifische Datensätze vorgestellt. |
|
Bezug | Diese Übungen ergänzen das Kapitel 12 "FASTA und die BLAST-Suite". | |
Lernziel |
|
|
Wir benutzen im Folgenden wiederum den BLAST-Server des NCBI in Bethesda.
|
||
Gegeben sei die folgende DNA-Sequenz: | ||
Sequenz | >Testsequenz attttttcgagccagaattccgtacgcgttgctggtaccttgaataa gtagcaatggtgatggtgccaaaagcacccgtgagtgaaaattacgcatcggtaatcgtca |
|
Übung | SequSuch_1, Gensequenz, Homologiesuche auf DNA-Ebene | |
Da es sich um eine DNA-Sequenz handelt, suchen wir zunächst in den
bekannten DNA-Sequenzen nach signifikanten Treffern. |
||
Blast-Server starten |
Starten Sie das Programm BLAST am NCBI.
Wählen Sie die Version für Nucleotide BLAST (blastn). |
|
Sequenz eingeben | Übergeben Sie per copy and paste die obige DNA-Sequenz dem BLAST-Server. | |
Datenbank wählen | Stellen Sie sicher, dass als Datenbank die Nucleotide collection (nr/nt) ausgewählt ist. | |
Server starten | Wählen Sie im Feld Program Selection die
Version Somewhat similar (blastn) und lassen Sie sich die
Ergebnisse in einem separaten Fenster (Häckchen bei Show
results in a new window) anzeigen.
Starten Sie die Suche durch Betätigen der Taste BLAST. |
|
Wie groß ist die Sequnzübereinstimmung der sigifikantesten Treffer? Wie hoch sind die E-Werte? | ||
Hinweise | Lassen Sie das Fenster mit den Ergebnisse geöffnet, bis Sie auch das folgende Experiment ausgeführt haben. | |
Übung | SequSuch_2, Gensequenz, Homologiesuche auf Proteinebene | |
DNA übersetzen | Nun soll diese Gensequenz erst in eine Proteinsequenz übersetzt werden, ehe sie zum Suchen verwendet wird. Diese Aufgabe nimmt uns der BLAST-Server ab. Die Variante blastx übersetzt eine DNA-Sequenz in allen sechs Leserahmen in korrespondierende Proteinsequenzen, die anschließend parallel als Query benutzt werden. | |
Starten Sie das Programm BLAST ein zweites Mal. | ||
Wählen Sie als BLAST-Version blastx und stellen Sie sicher, dass als Datenbank Non-redundant protein sequences nr ausgewählt ist. Lassen Sie sich Ergebnisse wiederum in ein separates Fenster ausgeben. | ||
Starten Sie den BLAST-Server durch Betätigen der Taste BLAST. | ||
Wie groß ist die Sequnzübereinstimmung der sigifikantesten Treffer? Wie hoch sind die E-Werte? | ||
Übung | SequSuch_3, Vergleich der Ergebnisse | |
Wenn Sie auf den beiden Ergebnisseiten auf den Reiter
Alignments klicken, können Sie sich jeweils die signifikantesten Treffer
ansehen. Auf DNA-Ebene ist eine Übereinstimmung zwischen Eingabe (Query) und einer Sequenz der Datenbank (Sbjct) durch einen Strich "|" markiert. Bei den Proteinsequenzen wird die Übereinstimmung durch das Symbol in der Zeile zwischen Query und Subjct angezeigt. |
||
In welcher Analyse ist die Sequenzähnlichkeit höher? Wie erklären Sie dieses Resultat? |
||
Hinweise |
Berücksichtigen Sie bei Ihrer Interpretation die Degeneriertheit des genetischen Codes. Wenn Sie sich die Alignments der DNA-Sequnzen genau ansehen, können Sie erkennen, dass Mismatches an bestimmten Positionen (dritte Stelle im Codon) häufiger auftreten. Diese verändern die Proteinsequenzen häufig nicht. Geht es also darum, ein Protein zu charakterisieren, ist es sinnvoller, die Proteinsequenz zu untersuchen.
|
|
Übung | SequSuch_4, Intergenische Sequenz | |
Wiederholen Sie dieses Experiment blastn versus blastx mit der folgende DNA-Sequenz: | ||
Sequenz | >Sequenz_Ecoli cggatgcggcgtaaacgccttatccggcctaca |
|
Bestimmen des Vorkommens | Nutzen Sie wiederum die beiden BLAST-Varianten und übergeben Sie per copy&paste die Sequenz in das Eingabefenster. | |
Konfiguration für blastn |
In diesem Fall wollen wir exklusiv die Treffer in einem einzigen Genom bestimmen. Lassen Sie die Ausgabe wiederum in ein separates Fenster ausgeben. Stoßen Sie, nachdem Sie diese Einstellungen vorgenommen haben, die BLAST-Suche an. |
|
Auswertung | Nachdem BLAST die Ergebnisliste anzeigt: Stellen Sie durch Kontrolle des Reports Taxonomy sicher, dass nur in einem Genom gesucht wurde. Bestimmen Sie anschließend die Anzahl der Treffer in diesem Genom: Die Zahl der "Matches" wird in der Liste der Alignements rechts oben angegeben. Es sollten mehr als 250 sein. |
|
Konfiguration für blastx | Da wir für den Vergleich der Proteinsequenzen möglichst empfindlich suchen wollen, ist es nicht nötig die Suche auf bestimmte Organismen zu begrenzen. Wir suchen in der gesamten Protein Datenbank (nr). | |
Aufgabe |
Entspricht die Anzahl der Treffer Ihren Erwartungen? |
|
Hinweise | Blastx sollte KEINE Treffer finden, da es sich bei dieser Sequenz um
eine intergenische handelt, die NICHT für ein Protein codiert. Andrerseits: Diese Sequenz kommt hoch konserviert mehr als 250-mal im E. coli Genom vor. Welche Funktion vermuten Sie für diese Sequenz? Eine Funktion als Bindestelle könnte möglicherweise aus der Annotation des Genoms abgeleitet werden. In den Aligments ist bei jedem Treffer diese Information über den Link Graphics erreichbar. |
|
Was Sie jetzt verstanden haben sollten |
|
|