Übungen zu Scoring-Schemata

Warum ist dieses Wissen wichtig?

Scoringmatrizen sind neben den Parametern für das Behandeln von Lücken die wichtigsten Eingaben, die das Verhalten der Algorithmen für den Sequenzvergleich steuern. Via Scoring-Schema wird aus der Anwendungsdomäne Wissen über die Bedeutung und die Ähnlichkeit zwischen den Objekten übernommen, die durch die Symbole repräsentiert werden. Machen Sie sich klar, dass die Algorithmen rein schematisch mit Symbolen umgehen. Deswegen muss die Scoringmatrix mit Bedacht und anwendungsspezifisch gewählt werden.

Bezug

Die Theorie zu den Scoring-Schemata finden Sie im Kapitel 11 "Scoring-Schemata".

Lernziel

Nach dem Bearbeiten der Übung sollten Sie

den Aufbau und die Bedeutung von Scoringmatrizen

verstanden haben.

Die physikalisch-chemischen Eigenschaften der Aminosäuren bedingen, dass sie sich unterschiedlich gut substituieren (ersetzen) können. Hier finden Sie ein Venn-Diagramm, das aus diesen Eigenschaften abgeleitet wurde.

Mit den folgenden Übungen wollen wir uns einige Eigenschaften dieser Matrizen etwas genauer ansehen.

Übung

Scores_1, PAM250-Matrix

Hier finden Sie die PAM250-Matrix.

Die Werte in der PAM250-Matrix wurden derart arrangiert, dass Aminosäuren mit ähnlichen Eigenschaften geclustert liegen. Die für das Clustern relevanten Eigenschaften können Sie in der folgenden Übung herausarbeiten.

Weshalb sind

Lys und Arg,
Asp, Glu, Asn, Gln und His,
Phe und Tyr

geclustert? Wie groß sind die paarweisen Scores und weshalb sind die Scores der genannten Gruppen in jeweils der gleichen Farbe dargestellt ?

Weshalb liegt Trp isoliert ? Wie erklären Sie sich den hohen Score für Trp?

Hinweise

Nutzen Sie zur Beantwortung das Venn-Diagramm und achten Sie auf die gemeinsamen und unterschiedlichen Eigenschaften von Aminosäurepaaren.

Übung

Scores_2, BLOSUM62

Hier finden Sie die BLOSUM62-Matrix.

Bestimmen Sie die Scores für

alle Paare von aliphatischen Aminosäuren,
alle Paare von aromatischen Aminosäuren.

Suchen Sie den höchsten Score in der Matrix.
Weshalb ist er genau an dieser Position?
Was schließen Sie daraus auf das Vorkommen der Aminosäure?

Hinweise

Das Vorkommen von Aminosäuren ist im Kapitel 1, Tabelle 1.3 gelistet. Rekapitulieren Sie, wie die BLOSUM-Scores errechnet werden. Welche Häufigkeiten gehen ein? Eine Lösung finden Sie hier.

In dieser Darstellung sind alle Einträge > 0 rot markiert.

Können Sie die Lage der Werte aufgrund physikalisch-chemischer Eigenschaften der Aminosäuren begründen?
Weshalb ist die Diagonale der Scoring-Matrix nicht mit "0en" besetzt?

Übung

Scores_3

Beantworten Sie die folgenden Fragen:

Sowohl BLOSUM als auch PAM Matrizen werden mit einer Zahl genauer charakterisiert (z.B. BLOSUM 62). Warum korrespondieren BLOSUM Matrizen mit niedrigen Nummern mit PAM Matrizen, die hohe Nummern tragen?
Welche der Substitutionen ist für die oben eingeführten Matrizen jeweils wahrscheinlicher: W vs. F oder H vs. R?

Hinweise

Rekapitulieren Sie die Bedeutung der Nummern in den Namen der Matrizen. Wie ist die BLOSUM 62 und wie ist die PAM70 Matrix entstanden?

Übung

Scores_4

Wird BLAST verwendet, um sehr kurze Sequenzen in der Datenbank zu suchen, wird per Default auf die PAM 30-Matrix umgestellt.

Weshalb benutzt BLAST für kurze Sequenzen die PAM 30-Matrix?

Hinweise

Berechnen Sie den Score für den Vergleich der Sequenz S = AVIL mit sich selbst!
Benutzen Sie alternativ die PAM 30- und die BLOSUM 64-Matrix. Welcher Score ist größer?

Überlegen Sie sich zur Beantwortung der Frage, in welchem Schritt des BLAST-Algorithmus der Score für kurze Sequenzfragmente eine Rolle für die weitere Berechnung spielt. Was folgt hieraus allgemein für den Zusammenhang zwischen Sequenzähnlichkeit und Score-Wert bei Verwendung unterschiedlicher Scoring-Matrizen?

Übung

Scores_5

Die Einträge in Substitutionsmatrizen werden aus Substitutionshäufigkeiten f(as_i, as_j) berechnet. Wir wollen diesen Ansatz hier nachvollziehen. Dazu betrachten wir den folgenden Ausschnitt eines Blockes aus der BLOCKS-Datenbank.

Bestimmen Sie exemplarisch das Vorkommen #(as_i, as_j) sämtlicher Paare für die zweite Spalte des folgenden Blocks.

AREA_EMENI|P17429 (673) CTNCFTQTTPLWRRNPEGQPLCNACGLFLKLHGVVRPL 7
AREA_FUSMO|P78688 (694) CTNCFTQTTPLWRRNPEGQPLCNACGLFLKLHGVVRPL 7
AREA_PENRO|O13508 (660) CTNCFTQTTPLWRRNPEGQPLCNACGLVLKLHGVVRPL 11
GAF1_SCHPO|Q10280 ( 70) CTNCQTRTTPLWRRSPDGQPLCNACGLFMKINGVVRPL 16
GAT1_YEAST|P43574 ( 10) CSNCTTSTTPLWRKDPKGLPLCNACGLFLKLHGVTRPL 17
NIT2_NEUCR|P19212 (743) CTNCFTQTTPLWRRNPDGQPLCNACGLFLKLHGVVRPL 8
NRFA_PENUR|Q92269 (665) CTNCFTQTTPLWRRNPEGQPLCNACGLFLKLHGVVRPL 7
NUT1_MAGGR|Q01168 (663) CTNCATQTTPLWRRNPEGQPLCNACGLFLKLHGVVRPL 8
CGPB_FUSSO|Q00858 (403) TDCGTLDSPEWRKGPSGPKTLCNACGLRWAKKEKKRNS 49
WC2_NEUCR|P78714  (469) TDCGTLDSPEWRKGPSGPKTLCNACGLRWAKKEKKKNA 54
DA80_YEAST|P26343 ( 31) CQNCFTVKTPLWRRDEHGTVLCNACGLFLKLHGEPRPI 17
GZF3_YEAST|P42944 (131) CKNCLTSTTPLWRRDEHGAMLCNACGLFLKLHGKPRPI 17
ELT1_CAEEL|P28515 (217) CVNCGVHNTPLWRRDGSGNYLCNACGLYFKMNHHARPL 17
GA1A_XENLA|P23767 (178) CVNCGATVTPLWRRDMSGHYLCNACGLYHKMNGQNRPL 9
GA1B_XENLA|P23768 (180) CVNCGATVTPLWRRDLSGHYLCNACGLYHKMNGQNRPL 9
GA5A_XENLA|P43695 (183) CVNCGAMSTPLWRRDGTGHYLCNACGLYHKMNGMNRPL 6
GA5B_XENLA|P43696 (184) CVNCGAMSTPLWRRDGTGHYLCNACGLYHKMNGINRPL 6
GA6A_XENLA|Q91678 (182) CVNCGSVQTPLWRRDGTGHFLCNACGLYSKMNGLSRPL 9
GA6B_XENLA|P70005 (182) CVNCGSVQTPLWRRDGTGHYLCNACGLYSKMNGLSRPL 7
GAT1_CHICK|P17678 (110) CVNCGATATPLWRRDGTGHYLCNACGLYHRLNGQNRPL 11

Was Sie jetzt verstanden haben sollten

Die Unterschiede in den Eigenschaften der Aminosäuren werden durch die Werte repräsentiert, die in den Scoringmatrizen zu finden sind. Die beim Alignment erreichten Score-Werte hängen von der Wahl der Substitutionsmatrix ab. Diese Korrelation wird auch durch den Wert der Matrix-Entropie hergestellt, die im Abschnitt 11.8 beschrieben wird.