Warum ist dieses Wissen wichtig? | FASTA und BLAST gehören zu diejenigen Algorithmen, die sehr häufig zum Sequenzvergleich eingesetzt werden. BLAST ist eine Art "Schweizer Taschenmesser" für den Sequenzvergleich und wird, wie Sie anhand der Übungen sehen können, für die unterschiedlichsten Fragestellungen eingesetzt. Es ist daher ganz wichtig, die Algorithmen, aber auch die Limitationen, verstanden zu haben. Ebenso wichtig ist es, die Ergebnisse richtig zu interpretieren. | ||||||||||||
Bezug | Diese Übungen ergänzen die Kapitel 10 "Sequenzmotive" und Kapitel 12 "FASTA und die BLAST-Suite". | ||||||||||||
Lernziel |
|
||||||||||||
FASTA |
|||||||||||||
Übung | FASTA_1 | ||||||||||||
Öffnen Sie das Eingabefenster des FASTA-Servers am EBI. | |||||||||||||
Parameter |
Lassen Sie sich alle Optionen anzeigen, indem Sie auf More
Options .. klicken. |
||||||||||||
Eingabe- Sequenz |
|
||||||||||||
Starten Sie anschließend die FASTA-Suche. | |||||||||||||
Um welches Protein handelt es sich vermutlich? | |||||||||||||
Ausgabe interpretieren |
Allgemein gilt, dass die Qualität eines BLAST- oder FASTA-Treffers anhand
des E-Wertes bewertet wird. Anhand der niedrigen E-Werte (und der hohen Scores) ist die Funktionszuweisung in diesem Fall einfach. Interpretieren Sie bitte auch das Histogramm der Scorewerte, das Sie mittels Reiter Tool Output finden. Sie sehen hier eine Extremwertverteilung, in einer veralteten, aber dennoch informativen Darstellung. Wo beobachten Sie die größten Abweichungen? Machen Sie sich bitte klar, was die beiden Histogramme ("*" und "=") repräsentieren. |
||||||||||||
Hinweise |
In der Regel sind die Default-Parameter
"vernünftig" gewählt, so dass sich die Nutzenden auf die
angegebenen E-Werte verlassen können. Dennoch macht es Sinn, sich solche
Verteilungen zumindest dann anzusehen, wenn die Ergebnisse nicht mit
der Erwartung übereinstimmen. |
||||||||||||
Übung | FASTA_2, Regionen niedriger Komplexität | ||||||||||||
Eukaryontische Proteinsequenzen enthalten häufig
Regionen niedriger Komplexität, die eine starke Verzerrung der
Aminosäuren- oder Nukleotid-Komposition aufweisen und z.B. als
Glycin-reich oder verallgemeinert als repetitive, nicht-globuläre
Domänen beschrieben werden. Üblicherweise werden diese Regionen bei
der Berechnung von Alignments ausgeblendet. Dies ist bei FASTA und bei
BLAST möglich.
Ein drastisches Beispiel für eine Region niedriger Komplexität untersuchen Sie in der folgenden Übung. |
|||||||||||||
Analysieren Sie mit FASTA die folgende Sequenz. | |||||||||||||
Eingabe- Sequenz |
|
||||||||||||
Benutzen Sie Standard-Einstellungen und
wählen Sie für einen ersten Lauf unter der Option "Filter"
die Einstellung "None". Notieren Sie für die Einstellung Expectation upper value von 1e-10 die Anzahl der Treffer und den kleinsten E-Wert.
Vergleichen Sie die Funktion der Treffer: Haben die Proteine eine
einheitliche Funktion? |
|||||||||||||
|
|||||||||||||
Hinweise |
Wie erklären Sie sich die Unterschiede? |
||||||||||||
BLAST |
|||||||||||||
Das wichtigste Programm für den paarweisen Sequenzvergleich ist BLAST. Wir beginnen mit einer ersten Übung, die ein wichtiges Konzept des Algorithmus klarmacht. | |||||||||||||
Übung | BLAST_1, w-mere berechnen | ||||||||||||
|
|||||||||||||
Drucken Sie hierzu dieses Dokument aus. | |||||||||||||
|
|||||||||||||
Lösung | Hier finden Sie die Lösung. | ||||||||||||
Übung | BLAST_2, Funktionszuweisung | ||||||||||||
Starten Sie den BLAST-Server am NCBI. | |||||||||||||
Hinweise zum Umgang mit BLAST | Bitte achten Sie darauf, als Programm die Version protein BLAST (blastp) auszuwählen. | ||||||||||||
Geben Sie die folgende Sequenz ein und starten Sie die Suche. | |||||||||||||
Sequenz |
|
||||||||||||
|
|||||||||||||
Wichtige Elemente der Ausgabeseite | Die wichtigsten Ergebnisse der
Ausgabe sind auf vier Seiten zusammengefasst, die über die Reiter
Description, Graphic Summary, Alignments und
Taxonomy aktiviert werden.
Beachten Sie, dass die Auswahl der Sequenzen (select all) auf der
Description Seite die Darstellung auf den anderen Seiten bedingt. Auf der Description Seite wird die Funktion der Treffer kurz beschrieben und die Qualität des Alignments charakterisiert. Auf der Graphic Summary Seite wird die Lage der Treffer gezeigt. Die Alignments Seite liefert die einzelnen paarweisen Alignments und auf der Taxonomy Seite werden drei Reports zur Herkunft der Treffer ausgegeben. Mit Ihren Eingaben im Block Filter Results können Sie die Ergebnisse weiter filtern, um z.B. die taxonomische Herkunft der Treffer zu definieren oder um die gewünschte Sequenzähnlichkeit genau zu definieren. |
||||||||||||
Hinweise | Bearbeiten Sie zur
Beantwortung folgende Fragenkomplexe:
Was gibt der E-Wert an? Welchen Werten würden Sie Signifikanz zuweisen? Wie hoch ist der Wert in vorliegendem Fall? Welche Funktion haben die Treffer mit den höchsten Scores? Stimmen die, den signifikanten Treffern zugeschriebenen Funktionen überein? |
||||||||||||
Übung | BLAST_3, Der Einfluss von Scoring-Matrizen auf die Treffer | ||||||||||||
Die Wahl der Scoring-Matrix beeinflusst die
Empfindlichkeit der BLAST-Suche. Der Effekt, der durch die Wahl
unterschiedlicher Matrizen bedingt ist, soll in den folgenden Übungen
genauer untersucht werden. Starten sie den BLAST-Server am NCBI. Bitte wählen Sie im Bereich Algorithm Parameters folgende Einstellungen: Wählen Sie nun Max target sequences 500, Expect
threshold 1e-10 und als Matrix BLOSUM90,
Aktivieren Sie für die nächsten beiden Läufe die Option Show results in a new window und starten Sie BLAST. |
|||||||||||||
Starten Sie anschließend eine weitere Suche mit der BLOSUM 45 Matrix und ändern Sie das Namenssuffix auf _45. |
|||||||||||||
|
|||||||||||||
Übung | BLAST_4, Dotplot generieren | ||||||||||||
Starten Sie nun die Version von BLAST, mit der zwei Sequenzen aligniert werden können (Häkchen bei Align two or more sequences). | |||||||||||||
Überprüfen Sie die
verwendete Matrix und die Kosten für Lücken: Es müssen
eingestellt sein:
BLOSUM90 und für gap open: 6, für gap extension 2. |
|||||||||||||
Geben Sie die folgenden Sequenzen in den
Fenstern Enter Query Sequence
und Enter Subject Sequence
ein. Geben Sie die längere Sequenz (Sequenz 1) in das obere Fenster (Query) und Sequenz 2 in das untere Fenster ein. |
|||||||||||||
Sequenz 1 |
|
||||||||||||
Sequenz 2 |
|
||||||||||||
Alignment generieren | Starten sie BLAST mit der Option
Show results in new window. |
||||||||||||
Wie viele "signifikante" lokale Alignment wurden angelegt? Wo liegen diese? | |||||||||||||
Studieren Sie insbesondere den Graphen, den Sie per Reiter Dot Plot erreichen. Vergleichen Sie den Dotplot und den unter Graphic Summary abgebildeten Graphen, der Ihnen die Lage der lokalen Alignments in der Sequenz angibt. Die Farbe codiert hierbei den erreichten Scorewert. Wählen Sie anschließend die Einstellungen: BLOSUM62 und für gap open: 6, für gap extension 2. |
|||||||||||||
Wie viele Alignments sind nun entstanden? Welche
sind signifikant? Können Sie die unterschiedliche Anzahl von Alignments erklären? |
|||||||||||||
Hinweis |
Ein weiterer wichtiger Parametersatz, der Alignments beeinflusst, ist die
Wahl der Kosten für
Lücken. Bei den Übungen zum NW- und SW-Algorithmus haben Sie diese Parameter ja bereits untersucht. |
||||||||||||
Übung | BLAST_5 Multidomänenproteine | ||||||||||||
Große Proteine sind häufig aus
mehreren Domänen zusammengesetzt. Wir haben bereits mehrere Male
die Domänenstruktur von Proteinen untersucht. Hier machen wir uns
nochmals den möglichen Einfluss dieses Strukturmerkmals auf die
Zusammensetzung der BLAST-Ergebnisse klar.
Blasten Sie die folgende Sequenz einer Cytochromreduktase
des Menschen gegen
das Proteom von Arabidopsis thaliana
und werten Sie die Treffer aus.
Beantworten Sie anschließend die folgende Frage: |
|||||||||||||
Suchen Sie in der Liste mit den Treffern die Nitratreduktase-Sequenz maximaler Länge und bestimmen Sie die Domänen, die in diesem Protein vorkommen. |
|||||||||||||
Hinweise | Die Domänenstruktur können Sie mit dem SMART-Server feststellen oder der Annotation des Proteins. Benutzen Sie den Genomic Mode von Smart und aktivieren Sie unter You may also find: ALLE Optionen. | ||||||||||||
Blasten Sie nun die oben identifizierte Nitratreduktase aus Arabidopsis thaliana (BAE99256.1) gegen das Proteom von Homo sapiens. Schränken Sie wiederum die BLAST-Suche auf das genannte Genom ein. Die Sequenz der Nitratreduktase ist hier angegeben: |
|||||||||||||
|
|||||||||||||
Warum überdecken die meisten Treffer nur einen geringen Teil der Eingabesequenz? |
|||||||||||||
Hinweise | Berücksichtigen Sie bei der Beantwortung der Frage bitte die Domänenstruktur dieser Proteine. | ||||||||||||
Übung | BLAST_6, inhomogene Treffer | ||||||||||||
Die Funktionszuweisung wird schwierig, wenn auf einem Strukturgerüst mehrere, deutlich unterschiedliche Funktionen etabliert sind. Es gibt Vertreter von Enzymfamilien, die sich nur in wenigen Residuen des katalytischen Zentrums unterscheiden, aber verschiedene Reaktionen katalysieren. Einen solchen Fall untersuchen wir hier. | |||||||||||||
Die folgende Sequenz aus Xanthomonas campestris ist als Cyclase annotiert. | |||||||||||||
|
|||||||||||||
|
|||||||||||||
Lassen Sie sich für diese Übung 5000 Treffer anzeigen und schränken Sie die Suche auf archaeelle Proteine ein. Geben Sie dafür im Bereich "Choose Search Set" im Feld Organism den Begriff archaea ein. Welche Funktion haben die Treffer mit den höchsten E-Werten? Unter den Treffern finden sich zwei unterschiedliche
Proteine aus der Histidin Biosynthese, nämlich HisF und HisA. Wählen Sie unter den Treffern jeweils fünf als HisF bzw. als HisA annotierten Sequenzen aus und erzeugen Sie dann ein multiples Sequenzalignment. Nutzen Sie hierfür in der BLAST-Ausgabe unter Descriptions die Felder unter der Select-Spalte und anschließend die Funktion Multiple alignment in der Zeile, die mit Other reports beschriftet ist. Überlegen Sie nochmals, was stärker konserviert
wird: Funktion oder Struktur eines Proteins? Für diese Aufgabe empfiehlt es sich, die Informationen zu konservierten Domänen auszuwerten, die in der BLAST-Ausgabe ebenfalls aufgelistet werden. Sie finden die Ausgabe oben auf der Graphic Summary Seite. Lesen Sie nach, was zu der hier vorkommenden Superfamilie bekannt ist. Diese wird auch in den Übungen zur Proteinstruktur vorgestellt. |
|||||||||||||
Hinweise | Für eine korrekete Funktionszuweisung muss sich in solchen Fällen an eine BLAST-Suche eine präzise Analyse des katalytischen Zentrums anschließen. Diese wollen wir hier nicht ausführen. Grundlage kann, wie oben angedeutet, die Untersuchung der Spalten eines multiples Sequenzalignments sein. Dieses muss aus den Sequenzen von typischen Vertretern der unterschiedlichen Funktionen bestehen. | ||||||||||||
Übung | BLAST_7 Kurze Sequenzen | ||||||||||||
Mit der folgenden Übung sollen Sie die Größe
der Datenbank abschätzen. Überlegen Sie zunächst, welches Programm Sie nutzen
wollen. Welche Scoring-Matrix ist zu wählen, wenn Sie nach Fragmenten suchen, die möglichst präzise mit der Eingabe übereinstimmen sollen? BLASTEN Sie nun die folgenden Sequenzen. Für kurze Sequenzen wählt BLAST die Scoring-Matrix selbständig. Welche Matrix wurde verwendet? Können Sie diese Wahl erklären? |
|||||||||||||
Überlegen Sie sich bitte vor dem BLASTEN, ob Sie Treffer
erwarten. Führen Sie dann die Suche aus. |
|||||||||||||
Was Sie jetzt verstanden haben sollten |
State-of-the-art Verfahren zum paarweisen
Sequenzvergleich haben im Vergleich zu den optimalen Verfahren
Vorteile im Hinblick auf die Ausführungszeit, erreichen jedoch nicht
deren Sensitivität. Die Heuristiken wurden entwickelt, um in Datenbanken "hinreichend" ähnliche Sequenzen zu
identifizieren. Schlagen Sie bitte nochmals im Buch nach: Die Limitationen der Ansätze werden im Abschnitt 12.3 deutlich. Ansätze zur Steigerung der Empfindlichkeit werden in den Kapiteln 12.4 - 12.9 erläutert. |
||||||||||||