Übungen zu FASTA und BLAST

Warum ist dieses Wissen wichtig?

FASTA und BLAST gehören zu diejenigen Algorithmen, die sehr häufig zum Sequenzvergleich eingesetzt werden. BLAST ist eine Art "Schweizer Taschenmesser" für den Sequenzvergleich und wird, wie Sie anhand der Übungen sehen können, für die unterschiedlichsten Fragestellungen eingesetzt. Es ist daher ganz wichtig, die Algorithmen, aber auch die Limitationen, verstanden zu haben. Ebenso wichtig ist es, die Ergebnisse richtig zu interpretieren.

Bezug

Diese Übungen ergänzen die Kapitel 10 "Sequenzmotive" und Kapitel 12 "FASTA und die BLAST-Suite".

Lernziel

Nach dem Bearbeiten der Übung sollten Sie

die den Programmen FASTA und BLAST zugrunde liegenden Algorithmen
sowie deren Limitationen kennen;
Programmparameter sinnvoll einsetzen können.

FASTA

Übung

FASTA_1

Öffnen Sie das Eingabefenster des FASTA-Servers am EBI.

Parameter

Lassen Sie sich alle Optionen anzeigen, indem Sie auf More Options .. klicken.
Studieren Sie die Parameter und machen Sie sich die Bedeutung klar.
Ändern Sie folgende Einstellung: HISTOGRAM yes und geben Sie die folgende Sequenz per copy&paste ein.

Eingabe-
Sequenz

>FASTA_1
MPLTLNQLALLSGRASEHVLAEEVEETGMPAGEILARLRERLAVMRDSVRRGLASDAPSV
AGLVGKNAKTLWEAPDPLQDPLLKRVQAYAMAVNEENARMGRIVAAPTAGSAGTLPGALL
GVADHLGIPDEELLMPLVLAGGVAKMIGRVIHIAGASGGCQAEIGSSAALAAAAVTELLG
GTPEACALAAALALQNTLGLVCDPVGGFVEVPCVMRNGFYAVHAVSAASMALAGIRSVIP
PDEVVLAMAGIGRLLPLELKETGLGGLADTPTGRRLAEEALKKT

Starten Sie anschließend die FASTA-Suche.

Um welches Protein handelt es sich vermutlich?

Ausgabe interpretieren

Allgemein gilt, dass die Qualität eines BLAST- oder FASTA-Treffers anhand des E-Wertes bewertet wird. Anhand der niedrigen E-Werte (und der hohen Scores) ist die Funktionszuweisung in diesem Fall einfach.

Interpretieren Sie bitte auch das Histogramm der Scorewerte, das Sie mittels Reiter Tool Output finden.
Sie sehen hier eine Extremwertverteilung, in einer veralteten, aber dennoch informativen Darstellung.
Wo beobachten Sie die größten Abweichungen?
Machen Sie sich bitte klar, was die beiden Histogramme ("*" und "=") repräsentieren.

Hinweise

In der Regel sind die Default-Parameter "vernünftig" gewählt, so dass sich die Nutzenden auf die angegebenen E-Werte verlassen können. Dennoch macht es Sinn, sich solche Verteilungen zumindest dann anzusehen, wenn die Ergebnisse nicht mit der Erwartung übereinstimmen.

Übung

FASTA_2, Regionen niedriger Komplexität

Eukaryontische Proteinsequenzen enthalten häufig Regionen niedriger Komplexität, die eine starke Verzerrung der Aminosäuren- oder Nukleotid-Komposition aufweisen und z.B. als Glycin-reich oder verallgemeinert als repetitive, nicht-globuläre Domänen beschrieben werden. Üblicherweise werden diese Regionen bei der Berechnung von Alignments ausgeblendet. Dies ist bei FASTA und bei BLAST möglich.

Ein drastisches Beispiel für eine Region niedriger Komplexität untersuchen Sie in der folgenden Übung.

Analysieren Sie mit FASTA die folgende Sequenz.

Eingabe-
Sequenz

>FASTA_2
GGGSYGGGGGRREGGGGYSGGGGGYSSRGGGGGSYGGGRREGGGGYGGGEGGGYGGSGGGGGW

Benutzen Sie Standard-Einstellungen und wählen Sie für einen ersten Lauf unter der Option "Filter" die Einstellung "None".
Notieren Sie für die Einstellung Expectation upper value von 1e-10 die Anzahl der Treffer und den kleinsten E-Wert.

Vergleichen Sie die Funktion der Treffer: Haben die Proteine eine einheitliche Funktion?
Ändern Sie nun die Filter-Einstellung auf "seg" und starten Sie das Programm ein zweites Mal. Wie viele Treffer finden Sie jetzt?

Vergleichen Sie die Anzahl der Treffer und deren Scores.

Hinweise

Wie erklären Sie sich die Unterschiede?
Der Aufbau des SEG-Filters ist im Kapitel 10 beschrieben.

BLAST

Das wichtigste Programm für den paarweisen Sequenzvergleich ist BLAST. Wir beginnen mit einer ersten Übung, die ein wichtiges Konzept des Algorithmus klarmacht.

Übung

BLAST_1, w-mere berechnen

Bestimmen Sie (mit Papier und Bleistift) für die Sequenz HILWVG sämtliche w-mers der Länge 2, die bei Verwendung der BLOSUM62 Matrix einen score (T) > 9 besitzen.

Drucken Sie hierzu dieses Dokument aus.

Substring	w-mers der Länge 2 mit score (T) > 9

Lösung

Hier finden Sie die Lösung.

Übung

BLAST_2, Funktionszuweisung

Starten Sie den BLAST-Server am NCBI.

Hinweise zum Umgang mit BLAST

Bitte achten Sie darauf, als Programm die Version protein BLAST (blastp) auszuwählen.

Geben Sie die folgende Sequenz ein und starten Sie die Suche.

Sequenz

>BLAST_2
MPLTLNQIALISGRASEHILAEEVEETGVPAGEILARLRERLAVMRDSVRRGLASDAPSV
AGLVGKNAKTLWEAPDPLQDPLLKRVQAYAMAVNEENARMGRIVAAPTAGSAGTLPGALL
GVADHLGIPDEELLMPLVLAGGVAKIIGRVIHIAGASGGCQAEIGSSAALAAAAVTELLG
GTPEACALAAALALQNTLGLVCDPVGGFVEVPCVMRNGFYAVHAVSAASMALAGIRSVIP
PDEVVLAMAGIGRLLPLELKETGLGGLADTPTGRRLAEEALKKT

Um welches Protein handelt es sich? Wie begründen Sie Ihre Antwort?

Wichtige Elemente der Ausgabeseite

Die wichtigsten Ergebnisse der Ausgabe sind auf vier Seiten zusammengefasst, die über die Reiter Description, Graphic Summary, Alignments und Taxonomy aktiviert werden. Beachten Sie, dass die Auswahl der Sequenzen (select all) auf der Description Seite die Darstellung auf den anderen Seiten bedingt.

Auf der Description Seite wird die Funktion der Treffer kurz beschrieben und die Qualität des Alignments charakterisiert.
Auf der Graphic Summary Seite wird die Lage der Treffer gezeigt.
Die Alignments Seite liefert die einzelnen paarweisen Alignments und auf der Taxonomy Seite werden drei Reports zur Herkunft der Treffer ausgegeben.

Mit Ihren Eingaben im Block Filter Results können Sie die Ergebnisse weiter filtern, um z.B. die taxonomische Herkunft der Treffer zu definieren oder um die gewünschte Sequenzähnlichkeit genau zu definieren.

Hinweise

Bearbeiten Sie zur Beantwortung folgende Fragenkomplexe:

Was gibt der E-Wert an? Welchen Werten würden Sie Signifikanz zuweisen? Wie hoch ist der Wert in vorliegendem Fall? Welche Funktion haben die Treffer mit den höchsten Scores? Stimmen die, den signifikanten Treffern zugeschriebenen Funktionen überein?

Übung

BLAST_3, Der Einfluss von Scoring-Matrizen auf die Treffer

Die Wahl der Scoring-Matrix beeinflusst die Empfindlichkeit der BLAST-Suche. Der Effekt, der durch die Wahl unterschiedlicher Matrizen bedingt ist, soll in den folgenden Übungen genauer untersucht werden.

Starten sie den BLAST-Server am NCBI. Bitte wählen Sie im Bereich Algorithm Parameters folgende Einstellungen:

Wählen Sie nun Max target sequences 500, Expect threshold 1e-10 und als Matrix BLOSUM90,
geben Sie die Sequenz aus der Übung BLAST_2 ein und hängen Sie an den Namen der Sequenz das Suffix _90.

Aktivieren Sie für die nächsten beiden Läufe die Option Show results in a new window und starten Sie BLAST.

Starten Sie anschließend eine weitere Suche mit der BLOSUM 45 Matrix und ändern Sie das Namenssuffix auf _45.

Nutzen Sie nun auf beiden Ergebnisseiten die Einstellungen des Result-Filters:

Lassen Sie sich nur Treffer mit einer Sequenzähnlichkeit von 20 - 50% anzeigen.

Vergleichen Sie die Ergebnisse der letzten beiden Läufe, insbesondere die Scorewerte am Anfang und Ende der Trefferliste.

Wie groß sind die E-Werte bei etwa gleichen Percent Identity Werten?

Können Sie den Unterschied plausibel machen?

Übung

BLAST_4, Dotplot generieren

Starten Sie nun die Version von BLAST, mit der zwei Sequenzen aligniert werden können (Häkchen bei Align two or more sequences).

Überprüfen Sie die verwendete Matrix und die Kosten für Lücken: Es müssen eingestellt sein:

BLOSUM90 und für gap open: 6, für gap extension 2.

Geben Sie die folgenden Sequenzen in den Fenstern Enter Query Sequence und Enter Subject Sequence ein.
Geben Sie die längere Sequenz (Sequenz 1) in das obere Fenster (Query) und Sequenz 2 in das untere Fenster ein.

Sequenz 1

>1_gi_47211705
GSIYRALWAFQSQQGEHLSFREGDLFRVLSRRDDWWSVRRIDASGRVLDSGLVPGNYLAPAESGQTQPWF
FGTLNRLQAQSHLLAPENSEGAFLIRVSEKDNVGYVLSVRSGDQVKHYKVLQTDQNRFYVEPGRRFSSLA
ELVDYYQKTSLNNAGPLGNPCKRNTLSTPALLPFPTIGWELPKKEFELEEELGSGCFARVYRGRWKNLIR
VAVKILKSAAVSKLVPPDSPQGDGRMPDPLGTSLGWTGPWYYGNINRVKAEKLLLASQNKDGSFLVRISE
SHSDEYTISARSEGKVFHFRIQRSSIGAYFVSDRISFATLGELISYYQRNNRSLGVLLEEPCAQQRPLTP
SLLCLQRELFDMEPWERPREEFRLLRKLGEGHFGEVWEALWSTENRRVAIKTLKQEDTKQDEFVKEVQAL
KSLHHPKLIQLLAMCSRGEPVYIVTELMTKGSLKAYLASAEGQVLTSAHLIYMGSQIAEGMAYLEDRNIV
HRDLAARNILVGEDLVCKVADFGLARIIKDSVYTASRNTKIPVRWTAPEAAIHQRFSVKSDVWSFGVLLY
EMMSRGKMPYEGRNQPGAGWNSRRSRSLPVCRKEQQGGSGPAGVRVPAAVSHSLPPEHLPHDDGLLGGRA
LQEALLPRPAQPAGRHLRPHLLQDHRVPAGGAPVLPGGGPVSGAEPQGRLVVGAEDRRQRPRPGQRPGSG
ELPGPGGVRPDAAMVFRDAEPPSGPEPPVAPENSEGAFLIRVSEKDNVGYVLSVRSGDQVKHYKVLQTDQ
NRFYVEPGRRFSSLAELVDYYQKTSLNNAGPLGNPCKRNTLSTPALLPFPTIGWELPKKEFELEEELGSG
CFARVYRGRWKNLIRVAVKILKSDSELNHGDFQTEVQILKNLRHRHLLSLFAVCTESRPYWIITELMEKG
SLLIFLRSPEGQNQDVASLIDMGTQVADGMSYLEEQKSIHRDLAARNVLVGEDYTCKVGDFGLARVIKEP
FYITEDKKIPYKWTAPEAISHGKFSNKSDVWSFGILLYEITTYGGVPYPGALFSRSWSHDQRPGSVLRVD
AQCVSPVSSSTAMSVQEAYQQVTAGYRMPAPAKCPHFLYQIMLKCWAAEPDDRPDFRTLKVELDNS

Sequenz 2

>gi_108870569
MLIVSGRGRQKQNNPQEPSAVGMSPLWTARYDYQAQGEDELSLRVGQIVFVLSMDSSISGDEGWWTGKIG
DRVGIFPSNFVTNEDPTVLNVQPLEIKFQELDLREVIGVGGFSKVHRAFWNGLEVAVKASRQDEDIDGTR
ENVLKEAKLFWSLKHPNIVELKGVCLEQPILCLVMEYARGGSLNKILAGRKIPPDVLVDWAIQIARGMKY
LHCEAPISVIHRDLKSSNVLICDPVMSGNLKNKTLKITDFGLAREAYTTTRMSAAGTFAWMPPEVIKSGT
YSKASDVWSYGVLLWELLTGETPYKGFDTLSVAYGVAINSLALPIPKTCPEAWGKLMKSCWELDPHRRPS
FRDIEKDLDTIARSGFGQTPHESFHTMQDGWKREIAEVLQELRRKEKELRSKEEELSRVQQEQQFREEDL
AKRKQELDAREIELLGRELKIIITQNTPTPKKRKGKFSKSKLRLLKREPGHISFPLDFRHTITVQPTAIR
DECRQRTDTPPGSPAATRLRAIARK

Alignment generieren

Starten sie BLAST mit der Option Show results in new window.

Wie viele "signifikante" lokale Alignment wurden angelegt? Wo liegen diese?

Interpretieren Sie das Alignment, die Art der Übereinstimmung und die Lage der ähnlichen Teilsequenzen.
Studieren Sie insbesondere den Graphen, den Sie per Reiter Dot Plot erreichen.

Vergleichen Sie den Dotplot und den unter Graphic Summary abgebildeten Graphen, der Ihnen die Lage der lokalen Alignments in der Sequenz angibt. Die Farbe codiert hierbei den erreichten Scorewert.

Wählen Sie anschließend die Einstellungen:

BLOSUM62 und für gap open: 6, für gap extension 2.

Wie viele Alignments sind nun entstanden? Welche sind signifikant?
Können Sie die unterschiedliche Anzahl von Alignments erklären?

Hinweis

Ein weiterer wichtiger Parametersatz, der Alignments beeinflusst, ist die Wahl der Kosten für Lücken.
Bei den Übungen zum NW- und SW-Algorithmus haben Sie diese Parameter ja bereits untersucht.

Übung

BLAST_5 Multidomänenproteine

Große Proteine sind häufig aus mehreren Domänen zusammengesetzt. Wir haben bereits mehrere Male die Domänenstruktur von Proteinen untersucht. Hier machen wir uns nochmals den möglichen Einfluss dieses Strukturmerkmals auf die Zusammensetzung der BLAST-Ergebnisse klar.

Blasten Sie die folgende Sequenz einer Cytochromreduktase des Menschen gegen das Proteom von Arabidopsis thaliana und werten Sie die Treffer aus.
Um diese Einschränkung auf ein Proteom einzuführen, geben Sie bitte im Feld Choose Search Set bei Organism den Speziesnamen Arabidopsis thaliana ein. Starten Sie anschließend BLAST.

>gi|6272654|gb|AAF06147.1|AF169481_1 cytochrome b5 reductase 1 [Homo sapiens]
MGIQTSPVLLASLGVGLVTLLGLAVGSYLVRRSRRPQVTLLDPNEKYLLRLLDKTTVSHNTKRFRFALPT
AHHTLGLPVGKHIYLSTRIDGNLVIRPYTPVTSDEDQGYVDLVIKVYLKGVHPKFPEGGKMSQYLDSLKV
GHVVEFRGPSGLLTYTGKGHFNIQPNKKSPPEPRVAKKLGMIAGGTGITPMLQLIRAILKVPEDPTQCFL
LFANQTEKDIILREDLEELQARYPNRFKLWFTLDHPPKDWAYSKGFVTADMIREHLPAPGDDVLVLLCGP
PPMVQLACHPNLDKLGYSQKMRFTY

Beantworten Sie anschließend die folgende Frage:

Weshalb weist die Sequenz Cytochrome b5 reductase 1 [Homo sapiens] viele, hoch-signifikante Treffer zu Nitratreduktasen auf?

Suchen Sie in der Liste mit den Treffern die Nitratreduktase-Sequenz maximaler Länge und bestimmen Sie die Domänen, die in diesem Protein vorkommen.

Hinweise

Die Domänenstruktur können Sie mit dem SMART-Server feststellen oder der Annotation des Proteins. Benutzen Sie den Genomic Mode von Smart und aktivieren Sie unter You may also find: ALLE Optionen.

Blasten Sie nun die oben identifizierte Nitratreduktase aus Arabidopsis thaliana (BAE99256.1) gegen das Proteom von Homo sapiens.
Schränken Sie wiederum die BLAST-Suche auf das genannte Genom ein. Die Sequenz der Nitratreduktase ist hier angegeben:

>BAE99256.1 nitrate reductase [Arabidopsis thaliana]
MAASVDNRQYARLEPGLNGVVRSYKPPVPGRSDSPKAHQNQTTNQTVFLKPAKVHDDDEDVSSEDENETH
NSNAVYYKEMIRKSNAELEPSVLDPRGEYTADSWIERNPSMVRLTGKHPFNSEAPLNRLMHHGFITPVPL
HYVRNHGHVPKAQWAEWTVEVTGFVKRPMKFTMDQLVSEFAYREFAATLVCAGNRRKEQNMVKKSKGFNW
GSAGVSTSVWRGVPLCDVLRRCGIFSRKGGALNVCFEGSEDLPGGAGTAGSKYGTSIKKEYAMDPSRDII
LAYMQNGEYLTPDHGFPVRIIIPGFIGGRMVKWLKRIIVTTKESDNFYHFKDNRVLPSLVDAELADEEGW
WYKPEYIINELNINSVITTPCHEEILPINAFTTQRPYTLKGYAYSGGGKKVTRVEVTVDGGETWNVCALD
HQEKPNKYGKFWCWCFWSLEVEVLDLLSAKEIAVRAWDETLNTQPEKMIWNLMGMMNNCWFRVKTNVCKP
HKGEIGIVFEHPTLPGNESGGWMAKERHLEKSADAPPSLKKSVSTPFMNTTAKMYSMSEVKKHNSADSCW
IIVHGHIYDCTRFLMDHPGGSDSILINAGTDCTEEFEAIHSDKAKKMLEDYRIGELITTGYSSDSSSPNN
SVHGSSAVFSLLAPIGEATPVRNLALVNPRAKVPVQLVEKTSISHDVRKFRFALPVEDMVLGLPVGKHIF
LCATINDKLCLRAYTPSSTVDVVGYFELVVKIYFGGVHPRFPNGGLMSQYLDSLPIGSTLEIKGPLGHVE
YLGKGSFTVHGKPKFADKLAMLAGGTGITPVYQIIQAILKDPEDETEMYVIYANRTEEDILLREELDGWA
EQYPDRLKVWYVVESAKEGWAYSTGFISEAIMREHIPDGLDGSALAMACGPPPMIQFAVQPNLEKMQYNI
KEDFLIF

Welche humane Proteine ähneln dieser Sequenz am stärksten?
Warum überdecken die meisten Treffer nur einen geringen Teil der Eingabesequenz?

Hinweise

Berücksichtigen Sie bei der Beantwortung der Frage bitte die Domänenstruktur dieser Proteine.

Übung

BLAST_6, inhomogene Treffer

Die Funktionszuweisung wird schwierig, wenn auf einem Strukturgerüst mehrere, deutlich unterschiedliche Funktionen etabliert sind. Es gibt Vertreter von Enzymfamilien, die sich nur in wenigen Residuen des katalytischen Zentrums unterscheiden, aber verschiedene Reaktionen katalysieren. Einen solchen Fall untersuchen wir hier.

Die folgende Sequenz aus Xanthomonas campestris ist als Cyclase annotiert.

>gi|66768686:1-258 cyclase [Xanthomonas campestris pv. campestris str. 8004]
MLSRRIIPCLDVRDGRVVKGVKFRDHIDMGDIVELAMRYRDQGADELVFYDIGASPEGRSVDYAWVERVA
RLIDIPFCVAGGIRDVETARAVLHAGADKISINSPALGRPQLISELADAFGVQCVVVGIDSIREEDGQWR
VRRYTGDPSKTQALPMRTLDWVAEAQRLGAGEIVLNCMDNDGVRHGYDIAQLRQVRALCRVPLIASGGAG
EMQHFADVFDQADADGALAASVFHSGAIPIPELKRFLRAQQIEVRDGQ

Versuchen Sie, die Funktion genauer zu charakterisieren!

Lassen Sie sich für diese Übung 5000 Treffer anzeigen und schränken Sie die Suche auf archaeelle Proteine ein. Geben Sie dafür im Bereich "Choose Search Set" im Feld Organism den Begriff archaea ein.

Welche Funktion haben die Treffer mit den höchsten E-Werten?

Unter den Treffern finden sich zwei unterschiedliche Proteine aus der Histidin Biosynthese, nämlich HisF und HisA.
Welche Funktion haben diese? Wie erklären Sie sich das gemeinsame Auftreten unter den Treffern?

Wählen Sie unter den Treffern jeweils fünf als HisF bzw. als HisA annotierten Sequenzen aus und erzeugen Sie dann ein multiples Sequenzalignment. Nutzen Sie hierfür in der BLAST-Ausgabe unter Descriptions die Felder unter der Select-Spalte und anschließend die Funktion Multiple alignment in der Zeile, die mit Other reports beschriftet ist.

Überlegen Sie nochmals, was stärker konserviert wird: Funktion oder Struktur eines Proteins?
Was schließen Sie in diesem Fall für die Struktur der beiden Proteine? Können Sie diese Annahme überprüfen?

Für diese Aufgabe empfiehlt es sich, die Informationen zu konservierten Domänen auszuwerten, die in der BLAST-Ausgabe ebenfalls aufgelistet werden. Sie finden die Ausgabe oben auf der Graphic Summary Seite.

Lesen Sie nach, was zu der hier vorkommenden Superfamilie bekannt ist. Diese wird auch in den Übungen zur Proteinstruktur vorgestellt.

Hinweise

Für eine korrekete Funktionszuweisung muss sich in solchen Fällen an eine BLAST-Suche eine präzise Analyse des katalytischen Zentrums anschließen. Diese wollen wir hier nicht ausführen. Grundlage kann, wie oben angedeutet, die Untersuchung der Spalten eines multiples Sequenzalignments sein. Dieses muss aus den Sequenzen von typischen Vertretern der unterschiedlichen Funktionen bestehen.

Übung

BLAST_7 Kurze Sequenzen

Mit der folgenden Übung sollen Sie die Größe der Datenbank abschätzen.

Überlegen Sie zunächst, welches Programm Sie nutzen wollen.
Gibt es eine spezielle Version von BLAST für derartige Fragestellungen?

Welche Scoring-Matrix ist zu wählen, wenn Sie nach Fragmenten suchen, die möglichst präzise mit der Eingabe übereinstimmen sollen?

BLASTEN Sie nun die folgenden Sequenzen. Für kurze Sequenzen wählt BLAST die Scoring-Matrix selbständig. Welche Matrix wurde verwendet? Können Sie diese Wahl erklären?

>Test1
WALHALLA

>Test2
GARFIELD

>Test3
LADYGAGA

Überlegen Sie sich bitte vor dem BLASTEN, ob Sie Treffer erwarten. Führen Sie dann die Suche aus.
Entspricht das Ergebnis Ihren Erwartungen?

Was Sie jetzt verstanden haben sollten

State-of-the-art Verfahren zum paarweisen Sequenzvergleich haben im Vergleich zu den optimalen Verfahren Vorteile im Hinblick auf die Ausführungszeit, erreichen jedoch nicht deren Sensitivität. Die Heuristiken wurden entwickelt, um in Datenbanken "hinreichend" ähnliche Sequenzen zu identifizieren.
Schlagen Sie bitte nochmals im Buch nach: Die Limitationen der Ansätze werden im Abschnitt 12.3 deutlich. Ansätze zur Steigerung der Empfindlichkeit werden in den Kapiteln 12.4 - 12.9 erläutert.