Warum ist dieses Wissen wichtig? Beim Vergleich zweier Proteinsequenzen fällt häufig auf, dass selbst dann, wenn sich die Proteine in ihrer Gesamtheit sehr ähnlich sind, der Ähnlichkeitsgrad längs der Sequenzen stark variieren kann. Häufig wechseln sich Regionen mit signifikant hohen Scores ab mit solchen Regionen, die keinerlei Ähnlichkeit zueinander aufweisen. Eine Ursache für dieses Schwanken des Scores ist der modulare Aufbau von Proteinen aus Domänen. 

Eine Domäne ist in Proteinen die kleinste Einheit mit einer definierten und unabhängig gefalteten Struktur. Proteindomänen bestehen meist aus 50-150 Residuen und führen häufig individuelle Reaktionen aus, deren Zusammenwirken die Gesamtfunktion eines Proteins ausmacht. Im folgenden studieren Sie zunächst ein einfaches Protein, welches aus zwei, leicht zu identifizierenden Domänen besteht. Anschließend experimentieren Sie mit einem komplexeren Proteinsystem.

Bezug Die Übungen komplementieren Kapitel 1 "Biologische Grundlagen" sowie den Abschnitt 9.1 des Buches.

Lernziel

Nach dem Bearbeiten der Übung sollten Sie das Konzept der Proteindomäne
  • verstanden haben,
  • seinen Einfluss auf Alignmentverfahren abschätzen können.
 
 
   
Übung Dom_Str_1
   
  In der folgenden Abbildung sehen Sie die 3D-Struktur eines CAP-Monomers.
Ein CAP-Monomer besteht aus zwei Domänen. Die Domänengrenze ist leicht auszumachen.
  • Bestimmen Sie die Positionen der Residuen, die jeweils an einer Domäne beteiligt sind.
  • Bestimmen sie die Lage der Domänen im Hinblick auf ihre Position innerhalb der Peptidkette 
    (N-terminal bzw. C-terminal).
   
 
3D-Struktur eines CAP-Monomers

Die N-terminale Domäne bindet cAMP und ist an der Dimerisierung beteiligt. Die C-terminale Domäne vermittelt die DNA-Bindung des Proteins. CAP-Dimere sind in Bakterien an der Aktivierung solcher Gene beteiligt, deren Genprodukte in den Zuckerstoffwechsel eingreifen.

   
Übung Dom_Str_2
   
  Der Koagulationsfaktor XII und der Plasminogen-Aktivator sind an der Blutgerinnung beteiligt. Beide Proteine besitzen eine katalytische Domäne, die Serinprotease-Aktivität zeigt. Daneben sind in beiden Proteinen eine Anzahl weiterer, strukturell unterscheidbarer Domänen zu identifizieren. Zwei Domänen, die zuerst in Fibronectin (F-I und F-II) gefunden wurden, eine Domäne die im epidermalen Wachstumsfaktor (EGF) vorkommt und eine Domäne die Kringle genannt wird. Sowohl die Aufeinanderfolge der Domänen, als auch deren Anzahl in den beiden Proteinen ist unterschiedlich. Domänengrenzen fallen (in eukaryontischen Genen) oft mit Intron/Exon-Übergängen zusammen.
 
 
 
Domänenstruktur des humanen Koagulationsfaktors XII (UniProt P00748) und des humanen plasminogen Aktivators (PLA) (UniProt P00750)
   
  Die relative Positionierung von Elementen zweier Sequenzen wird Alignment genannt. Wir werden im Laufe der Übungen mehrere Algorithmen kennen lernen, die Alignments berechnen. Ein einfaches Verfahren, um eine Folge identischer Symbole in einem Paar von Sequenzen zu identifizieren, ist es, in einer Matrix diejenigen Zellen z. B. mit dem Wert 1 zu besetzen, deren Zellenindizes auf identische Symbole in den Sequenzen verweisen. Dieses Verfahren wird im Abschnitt zu Dotplots vorgestellt. Teilsequenzen mit hohen Ähnlichkeitswerten machen sich dann als diagonal verlaufende Linien bemerkbar. Das Programm Dotter arbeitet nach genau diesem Verfahren. Im folgenden Beispiel sehen Sie den Vergleich der oben eingeführten Proteine mit Hilfe einer solchen Matrix. 
 
Vergleich der Protein-Sequenzen des humanen Koagulationsfaktors XII (UniPprot P00748) und des humanen Plasminogen-Aktivators (UniProt P00750). In beiden Sequenzen kommen die Domänen F-I, EGF und Kringle vor. Allerdings ist die Anzahl und Reihenfolge der Domänen in den Sequenzen verschieden. Die Domänen sind in unterschiedlichen Farben dargestellt. Die katalytischen Domänen (gelb, bzw. orange) liegen jeweils am Sequenzende. Der Plot wurde unter Verwendung des Programms Dotter erzeugt.
Nach Schuler, G. D. (1998) "Sequence alignment und database searching" in "Bioinformatics A Practical Guide to the Analysis of Genes and Proteins", Baxevanis A., Quellette, B. F. (Hrsg.) John Wiley & Sons, New York.
   
  Am rechten und unteren Rand des Dotplots sind die in den beiden Proteinen vorkommenden Domänen eingetragen.
  • Wie machen sich im Dotplot mehrfach in den Sequenzen vorkommende Domänen bemerkbar?
  • Können Sie die Domänenstruktur der beiden Proteine bestätigen?
Datenbank SMART Sie können auch die Datenbank SMART bemühen, um die Domänenstruktur der beiden Proteine zu verifizieren.

Übernehmen Sie aus der Datenbank SWISS-PROT (Links sind oben eingefügt) die Sequenzen und übergeben sie diese dem SMART-Server. Dazu ist zunächst der Modus Genomic auszuwählen und dann die Sequenz in das Fenster "Sequence" per cut and paste zu übertragen und die Auswertung durch Betätigen der Taste "Sequence SMART" zu starten. 

Übung Dom_Str_3
 
Es folgen mehrere Sequenzen, die dem Dotlet-Paket von M. Pagni und T. Junier entnommen sind.
  • Stellen Sie unter Verwendung dieser Dotplot-Variante fest, ob diese Proteine gemeinsame Domänen besitzen.
    Starten Sie eine Dotlet-Sitzung durch Aktivierung dieses Links.
   
  MS2_HUMAN (P78325):
MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG
SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL
LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL
NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD
HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP
DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD
GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP
LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC
AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS
RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG
AVGPKVALKPPIQRKQGAGAPTAP
   
  ADAM_CROAD (P34179):
QQNLPQRYIELVVVADRRVFMKYNSDLNIIRTRVHEIVNIINGFYRSLNIDVSLVNLEIWSGQDPLTIQSSSSNTLNSEG
LWREKVLLNKKKKDNAQLLTAIEFKCETLGKAYLNSMCNPRSSVGIVKDHSPINLLVAVTMAHELGHNLGMEHDGKDCLR
GASLCIMRPGLTPGRSYEFSDDSMGYYQKFLNQYKPQCILNKP
   
  SLIT_DROME (P24014):
MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT
GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI
TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW
LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL
PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL
LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE
SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR
ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE
HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT
CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN
KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ
MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT
CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK
CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC
KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV
ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP
AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN
KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCGN
QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY
   
  SERA_PLAFG (P13823):
MKSYISLFFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGASQPGSSEPSNPVSSGHSVSTVSV
SQTSTSSEKQDTIQVKSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTTLKETNNAISFESNSGSLEKK
KYVKLPSNGTTGEQGSSTGTVRGDTEPISDSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSESLPANGPDSPTVKP
PRNLQNICETGKNFKLVVYIKENTLIIKWKVYGETKDTTENNKVDVRKYLINEKETPFTSILIHAYKEHNGTNLIESKNY
ALGSDIPEKCDTLASNCFLSGNFNIEKCFQCALLVEKENKNDVCYKYLSEDIVSNFKEIKAETEDDDEDDYTEYKLTESI
DNILVKMFKTNENNDKSELIKLEEVDDSLKLELMNYCSLLKDVDTTGTLDNYGMGNEMDIFNNLKRLLIYHSEENINTLK
NKFRNAAVCLKNVDDWIVNKRGLVLPELNYDLEYFNEHLYNDKNSPEDKDNKGKGVVHVDTTLEKEDTLSYDNSDNMFCN
KEYCNRLKDENNCISNLQVEDQGNCDTSWIFASKYHLETIRCMKGYEPTKISALYVANCYKGEHKDRCDEGSSPMEFLQI
IEDYGFLPAESNYPYNYVKVGEQCPKVEDHWMNLWDNGKILHNKNEPNSLDGKGYTAYESERFHDNMDAFVKIIKTEVMN
KGSVIAYIKAENVMGYEFSGKKVQNLCGDDTADHAVNIVGYGNYVNSEGEKKSYWIVRNSWGPYWGDEGYFKVDMYGPTH
CHFNFIHSVVIFNVDLPMNNKTTKKESKIYDYYLKASPEFYHNLYFKNFNVGKKNLFSEKEDNENNKKLGNNYIIFGQDT
AGSGQSGKESNTALESAGTSNEVSERVHVYHILKHIKDGKIRMGMRKYIDTQDVNKKHSCTRSYAFNPENYEKCVNLCNV
NWKTCEEKTSPGLCLSKLDTNNECYFCYV
   
Hinweise

Übernehmen Sie jeweils per copy&paste zwei Sequenzen in die Anwendung. Vergleichen Sie auch die Sequenzen mit sich selbst, um das mehrfache Vorkommen von Domänen in einer Sequenz zu überprüfen.

 

Was Sie jetzt verstanden haben sollten

Die wichtigsten Organisationselemente von Proteinen sind die Proteindomänen. Deren Zusammenspiel macht die Funktion komplexer Proteine aus. Wie wir später sehen werden, dienen viele Algorithmen dem Zweck, Domänen und ihre Funktion zu identifizieren. Die Befassung mit Dotplots ist didaktisch sinnvoll um wichtige Prinzipien des Sequenzvergleichs zu studieren, für die präzise Analyse von Sequenzen ist dieser Algorithmus zu unempfindlich.