Warum ist dieses Wissen wichtig? Multiple Sequenzalignments (MSAs) enthalten mehr Information als eine einzelne Sequenz oder ein paarweises Alignment. In dieser Einheit beschäftigen wir uns mit Methoden, die dieses Mehr an Information nutzen. Die Idee ist jeweils, die Verteilung der Symbole spaltenweise zu bewerten.
Bezug Die theoretischen Grundlagen finden Sie im Kapitel 10 "Sequenzmotive".

Lernziel

Nach dem Bearbeiten der Übung sollten Sie
  • Scores aus MSAs berechnen können,
  • Sequenz-Logos interpretieren können,
  • das Prinzip des Alignments einer Sequenz mit einem Profil verstanden haben,
  • Signaturen verstehen.
  

Profile

  
Übung Profile_1, Berechnung von Scores
   
  Gegen sei das folgende MSA von Erkennungssequenzen und die daraus abgeleitete, unvollständige Scoringmatrix. Die Scores wurde mithilfe der log10-Funktion errechnet.
 
1234
AATG
ACCG
GGAA
CTAC
TTGT
  1 2 3 4
A 0.125 -0.18 0.125 ?
C 0 0 0 ?
G -0.10 -0.10 -0.10 ?
T -0.10 0.20 -0.10 ?
  Welchen Score erreicht die Sequenz ATTG im Vergleich mit diesem Motiv? 
  
HinweiseBestimmen Sie zunächst die fehlenden Scores für die Spalte 4. Berechnen Sie anschließend den Score für die Sequenz ATTG.
LösungHier finden Sie eine Lösung.
  
Übung Profile_2, Sequenzlogo
  
 Gegeben Sei dieses multiple Sequenzalignment von TrpF-Sequenzen. Uns interessiert die Verteilung der Aminosäuren an den einzelnen Positionen.

 
Bestimmen Sie ein Sequenzlogo.
   
Hinweise Benutzen Sie diesen Server und übergeben Sie per copy&paste das MSA.

Es empfiehlt sich, folgende Parameter einzustellen:

Image format: PDF, Sequence Type amino acid, Multi Line Logo (60).

Interpretieren Sie anschließend das Ergebnis:

An welchen Positionen sind die Aminosäuren strikt konserviert?
An welchen Positionen sind welche Variationen erlaubt?

Gibt es größere Bereiche mit hoher Konservierung der Sequenz?
Gibt es Regionen, in denen die Sequenz kaum konserviert ist?

Beschreiben Sie bitte auch den Unterschied zwischen Konsensus-Sequenz und dieser Darstellung.

   
Bestimmen Sie die Verteilung der Residuen auf die Sekundärstrukturelemente.
  
HinweiseDie erste Sequenz aus dem MSA ist die des Proteins TRPF_THEMA, d. h. des TrpF -Proteins aus Thermotoga maritima. Dessen Struktur ist bekannt und hier finden Sie eine Darstellung der Sekundärstruktur. Welche Elemente der Struktur sind im MSA besonders konserviert? Vergleichen Sie die Zusammensetzung der Schleifen (loops) und der α-Helizes und β-Stränge.
 
Übung Profile_3, Alignment Sequenz/Profil
   
 

Im Folgenden beschäftigen wir uns mit dem globalen Alignment zwischen einer Sequenz und einem Profil. Die Sequenz lautet ATCC. Sie ist bereits neben der Matrix eingetragen, diese ist bereits für die Berechnung des Alignments vorbereitet.

   
  Berechnen Sie den Gesamtscore mit Papier und Bleistift. 
  
HinweiseIn der mit Gap markierten Zeile sind positionsspezifisch Scores für das Einführen vom Lücken angegeben. Mit s(ai , j) ist der Eintrag gemeint, der in der Spalte j und der Zeile zu finden ist, die mit dem Symbol ai bezeichnet ist.

Das Alignment ist in diesem Fall nicht relevant. Um ein Alignieren des ersten Symbols zu erzwingen, ist die nullte Spalte hier mit - initialisiert. Verwenden Sie zur Berechnung wiederum dynamische Programmierung.

 

Die Bedingung für das Füllen der Matrix lautet nun:

Sij = max { Si-1, j + Gap(j) , Si-1, j-1 + s(ai , j) ,  Si, j-1 + Gap(j) }

 

 
Gap-2-1-4-4-1
A453-10
C24-432
G-20202
T-2-12-2-1
-> j
0 00 00 0
A-          
T -          
C -          
C -          

 

 Wie unterscheidet sich generell die Berechnung eines Alignments zwischen zwei Sequenzen und zwischen einer Sequenz und einem Profil?  Hier finden Sie eine Lösung.
  

Signaturen

Übung Signatur_1
   
Signaturen sind eine "platzsparende" Möglichkeit, um größere Sequenzmengen komprimiert zu repräsentieren. Ähnlich wie Sequenzlogos heben sie die charakteristischen Eigenschaften eines Motivs hervor. Ein einfaches Profil wird im folgenden Beispiel untersucht.

Die Proteinstruktur 2gat.pdb enthält einen Zink-Finger. Studieren Sie diesen Eintrag auf der PDB-Sum Seite des EBI.

Dies ist die in Prosite dazu hinterlegte Signatur:
 
C-x-[DN]-C-x(4,5)-[ST]-x(2)-W-[HR]-[RK]-x(3)-[GN]-x(3,4)-C-N-[AS]-C
   
 

Wo ist in der Struktur das Zink-Finger-Motiv zu finden?

Wie groß ist die Sequenzvariation innerhalb des Fingers?

   
Hinweise

Einen ersten Überblick können Sie sich beispielsweise durch BLASTEN und anschließender Analyse eines MSAs verschaffen. Dieses können Sie erstellen, wenn Sie auf der BLAST-Ergebnisseite bei den Other reports auf den Link MSA viewer klicken.
In der ersten Zeile wird im MSA die Eingabesequenz (Query) gelistet. Übereinstimmungen mit den Queryresiduen werden bei den nachfolgenden Sequenzen durch das Symbol "." angezeigt. Überprüfen Sie, ob kritische Residuen wie die Cysteine streng konserviert sind.

Ganz generell gilt, dass die Sequenzdatenbanken keinen repräsentativen Datensatz darstellen in dem Sinne, dass alle biologischen Arten gleich häufig repräsentiert werden. Für eine sorgfältige, statistisch einwandfreie Analyse müssten die Treffer aufbereitet werden, um eine mögliche Überrepräsentation bestimmter Arten zu verhindern. Auf solche, relativ aufwändigen Filterschritte wird hier, bei einführenden Übungsseiten, nicht eingegangen.

   

Was Sie jetzt verstanden haben sollten

Es gibt mehrere Möglichkeiten, um eine Menge von Sequenzen zu beschreiben. Sehr anschaulich ist eine Repräsentation mit einem Sequenzlogo. Der Vergleich einer Sequenz mit einem Profil führt zu Verfahren wie PSI-BLAST oder den Hidden-Markov-Modellen.