Übungen zur 2D-Struktur von Proteinen

Warum ist dieses Wissen wichtig?

Die Kenntnis der Protein-2D-Struktur ist wichtig, um z.B. Proteine in der SCOP-Datenbank klassifizieren zu können. Allerdings hat die Bedeutung der Vorhersageprogramme abgenommen, da in den letzten Jahren sehr leistungsfähige Methoden zur Vorhersage der Protein-3D-Struktur entwickelt wurden. Ist die 3D-Struktur bekannt, kann die 2D-Struktur sehr einfach durch Vermessung von Distanzen und Winkeln errechnet werden.

Das auf neuronalen Netzen basierende Programm PHD war einer der ersten Ansätze, in dem anstelle einer einzigen Sequenz ein multiples Sequenzalignment ausgewertet wurde. Dieses Programm ist nun Teil der größeren Softwaresuite PredictProtein, mit der mehrere Proteineigenschaften vorhergesagt werden.

Mit dem Meta-Ansatz JPRED lernen wir ein Verfahren kennen, um die Vorhersagequalität einzelner Algorithmen zu verbessern: Es werden intern mehrere 2D-Vorhersage-Algorithmen angestoßen und die Ergebnisse zu einer Consensus-Antwort zusammengefasst. Ein Meta-Ansatz wird auch im Rahmen von T-Coffee verwendet, um die Vorhersagequalität dieses Verfahrens zur Berechnung von MSAs zu verbessern.

In einer der folgenden Übung wird skizziert, wie die Vorhersagequalität von Algorithmen ermittelt werden kann: Dies gelingt durch den Vergleich der Vorhersagen mit bekannten Daten; in diesem Fall sind es bekannte 2D-Strukturen.

Bezug

Diese Übungen ergänzen die Konzepte, die im Kapitel 18 "Vorhersage der Sekundärstruktur" vorgestellt werden.

Lernziel

Nach dem Bearbeiten der Übung sollten Sie

die Ausgabe von Sekundärstrukturvorhersageprogrammen interpretieren,
die Verlässlichkeit der Vorhersagen einschätzen

können.

Übung

2D_PROT_1, PHD

Hier folgt eine Sequenz, für die im Rahmen eines Genomprojektes ein TIM-Barrel-Fold [(βα)₈-Fass] vorhergesagt wurde.

Hypothetisches Protein

>putative_tim_barrel
maatktfgvd aikeaiscgi taigenrvqe lmekyphlkg qvdfhfighl qtnkvkyiid
kvklvhsldr eklaeeidkr akqkgiimdc lievnigged tkfgispeem hnlvkkleky
dnikikglmt iapylppeev rpyfkrmrel fedlkrinqr nveaqylsmg msndywvave
eganivrigt aifgerr

Lassen Sie von PredictProtein die Sekundärstruktur vorhersagen. (Ergebnis)

Finden Sie in der Vorhersage die für TIM-Barrels übliche Folge von Supersekundärstrukturelementen?

Hinweise

Betrachten Sie die Ergebnisse, die Sie nach abgeschlossener Analyse auf der Ergebnis-Seite des Servers per Link HTML erreichen.

Sie sollten erkennen, dass keine achtfache Wiederholung der 2D-Elemente (Faltblatt, Helix) vorhergesagt wird.
Studieren Sie die zusätzlichen Vorhersagen. Welche weiteren Proteineigenschaften werden von den in PredictProtein zusammengefassten Programmen untersucht?

Übung

2D_PROT_2

Hier finden Sie das Ergebnis einer Sekundärstrukturvorhersage durch PHD/PROF für das VSR-Protein von E. coli.

Um die Qualität der Vorhersage abschätzen zu können, bewerten wir zunächst den Umfang des MSAs.

Wie viele Sequenzen wurden in das multiple Sequenzalignment aufgenommen ?

Wir wollen für diesen Fall die Vorhersagequalität etwas genauer analysieren.

In der folgenden Tabelle finden Sie die Sekundärstruktur, so wie sie im PDB-Datensatz eingetragen ist.

Sequence and secondary structure

  1 DTAIEKRLAS LLTGQGLAFR VQDASLPGRP DFVVDEYRCV IFTHGCFWHH 
         HHHHH HHHHTT   E ESBTTTTT B SEEEGGGTEE EEEE TTTTT 

 51 HHCYLFKVPA TRTEFWLEKI GKNVERDRRD ISRLQELGWR VLIVWECALR 
     SSTT    S SSHHHHHHHH HHHHHHHHHH HHHHHHTT E EEEEEHHHHS 

101 GREKLTDEAL TERLEEWICG EGASAQIDTQ GIHLLA 
    STT   HHHH HHHHHHHHHT T  SEEEETT EEEE

Sequenz und Sekundärstruktur von VSR aus E. coli

Die Daten sind dem Datensatz 1VSR entnommen.

Vorgehen

Vergleichen Sie die beiden Datensätze, d.h. die aus der 3D-Struktur abgeleitete mit der vorhergesagten 2D-Struktur.
Kopieren Sie die jeweiligen Textzeilen in eine gemeinsame Datei und alignieren Sie diese. Benutzen Sie in Ihrem Texteditor eine Schriftart wie Courier, sodass alle Zeichen die gleiche Breite haben.

Viele Programme, dazu gehört auch PHD, geben zusätzlich ein Maß för die Vorhersagequalität aus.
Wo finden Sie diese Angaben? Machen Sie sich bitte die Bedeutung des Begriffs Rel_sec klar.
Markieren Sie alle Residuen, die in 2D-Strukturen (Helices, ß-Strängen) liegen, die zu mindestens 75 % korrekt erkannt werden. Sie können diese Residuen beispielsweise fett darstellen.

Welchen Reliabilityindex haben diejenigen Sekundärstrukturelemente, die nicht korrekt vorhergesagt wurden?

Häufig können in Protein-Kristallstrukturen einige Sequenzbereiche nicht aufgelöst werden.
Vergleichen Sie die VSR-Sequenz, die aus der Kristallstruktur folgt, mit der, die im UniPROT-Eintrag gelistet ist.

Warum stimmen die beiden Sequenzen nicht überein?

Hinweise

Welcher Bereich fehlt? Überlegen Sie sich mögliche Ursachen.
Denken Sie z. B. an die Beweglichkeit von "losen" Enden.

Übung

2D_PROT_4

Zur Verbesserung der Vorhersagequalität werden inzwischen Meta-Server implementiert, die parallel mehrere Algorithmen zur Sekundärstrukturvorhersage anstoßen und die Ergebnisse zusammenfassen. In dieser Übung lernen Sie einen der bekannteren Meta-Server kennen.

Hier finden Sie für ein Pheromon die 3D-Struktur (1ERP) in der PDBsum-Datenbank und dies ist die zugehörige Sequenz:

>Pheromone ER-10 
DLCEQSALQCNEQGCHNFCSPEDKPGCLGMVWNPELCP

Wie lautet die vorhergesagte Sekundärstruktur?

Hinweise

Übergeben Sie dem Meta-Server Jpred jeweils nur die reine Sequenz (d.h. ohne die Titelzeile >Pheromone ER-10 ).
Stellen Sie sicher, dass die PDB NICHT durchsucht wird. Aktivieren Sie /Advanced options/Check to skip.

Legen Sie eine Tabelle an, tragen Sie Anzahl und Länge der Sekundärstrukturen für die Sequenz ein und vergleichen Sie diese mit den Einträgen in der PDB.

Studieren Sie die Darstellung der 2D-Struktur in PDBsum genau: Was zeichnet die Struktur dieses Pheromons aus? Achten Sie auf die Bindungen, die von den Cysteinen ausgebildet werden.

Sie sollten erkennen, dass diese Cysteinbrücken die 2D-Struktur massiv beeinflussen.
Da dieses speziellen Bindungen im Vorhersagealgorithmus nicht berücksichtigt wurden, ist die Vorhersagequalität gering.

Sagt der in PredictProtein implementierte Server diese Cysteinbrücken korrekt vorher?

Hinweise

Nutzen Sie PredictProtein und vergleichen Sie die Lage der vorhergesagten Disuldid-Brücken mit den PDBsum-Einträgen von 1ERP.

Was Sie jetzt verstanden haben sollten

Zu den 2D-Vorhersageprogrammen mit höchster Performanz gehören diejenigen, die auf neuronalen Netzen basieren. In PredictProtein ist mit PHD/PROF ein derartiges Verfahren umgesetzt. Die Methoden sind auf ein MSA angewiesen, ansonsten sinkt die Vorhersagequalität beträchtlich.
Die Anordnung von Sekundärstrukturelementen dient dazu, Proteine zu klassifizieren. Spezielle Bindungen wie Disulfidbrücken können die 3D-Struktur massiv beeinflussen.