Warum ist dieses Wissen wichtig? | Beim Vergleich zweier
Proteinsequenzen fällt häufig auf, dass selbst dann, wenn sich die
Proteine in ihrer Gesamtheit sehr ähnlich sind, der Ähnlichkeitsgrad
längs der Sequenzen stark
variieren kann. Häufig wechseln sich Regionen mit signifikant
hohen Scores ab mit solchen Regionen, die keinerlei
Ähnlichkeit zueinander aufweisen. Eine Ursache für
dieses Schwanken des Scores ist der modulare Aufbau von
Proteinen aus Domänen.
Eine Domäne ist in Proteinen die kleinste Einheit mit einer definierten und unabhängig gefalteten Struktur. Proteindomänen bestehen meist aus 50-150 Residuen und führen häufig individuelle Reaktionen aus, deren Zusammenwirken die Gesamtfunktion eines Proteins ausmacht. Im folgenden studieren Sie zunächst ein einfaches Protein, welches aus zwei, leicht zu identifizierenden Domänen besteht. Anschließend experimentieren Sie mit einem komplexeren Proteinsystem. |
|||||
Bezug | Die Übungen komplementieren Kapitel 1 "Biologische Grundlagen" sowie den Abschnitt 9.1 des Buches. | |||||
Lernziel |
Nach dem Bearbeiten der Übung
sollten Sie das Konzept der Proteindomäne
|
|||||
Übung | Dom_Str_1 | |||||
In der folgenden Abbildung sehen Sie die 3D-Struktur
eines CAP-Monomers. Ein CAP-Monomer besteht aus zwei Domänen. Die Domänengrenze ist leicht auszumachen.
|
||||||
|
||||||
Übung | Dom_Str_2 | |||||
Der Koagulationsfaktor XII und der Plasminogen-Aktivator sind an der Blutgerinnung beteiligt. Beide Proteine besitzen eine katalytische Domäne, die Serinprotease-Aktivität zeigt. Daneben sind in beiden Proteinen eine Anzahl weiterer, strukturell unterscheidbarer Domänen zu identifizieren. Zwei Domänen, die zuerst in Fibronectin (F-I und F-II) gefunden wurden, eine Domäne die im epidermalen Wachstumsfaktor (EGF) vorkommt und eine Domäne die Kringle genannt wird. Sowohl die Aufeinanderfolge der Domänen, als auch deren Anzahl in den beiden Proteinen ist unterschiedlich. Domänengrenzen fallen (in eukaryontischen Genen) oft mit Intron/Exon-Übergängen zusammen. | ||||||
|
||||||
Die relative Positionierung von Elementen zweier Sequenzen wird Alignment genannt. Wir werden im Laufe der Übungen mehrere Algorithmen kennen lernen, die Alignments berechnen. Ein einfaches Verfahren, um eine Folge identischer Symbole in einem Paar von Sequenzen zu identifizieren, ist es, in einer Matrix diejenigen Zellen z. B. mit dem Wert 1 zu besetzen, deren Zellenindizes auf identische Symbole in den Sequenzen verweisen. Dieses Verfahren wird im Abschnitt zu Dotplots vorgestellt. Teilsequenzen mit hohen Ähnlichkeitswerten machen sich dann als diagonal verlaufende Linien bemerkbar. Das Programm Dotter arbeitet nach genau diesem Verfahren. Im folgenden Beispiel sehen Sie den Vergleich der oben eingeführten Proteine mit Hilfe einer solchen Matrix. | ||||||
|
||||||
Am rechten und unteren Rand des Dotplots sind die in den beiden Proteinen
vorkommenden Domänen eingetragen.
|
||||||
Datenbank SMART | Sie können auch die Datenbank SMART
bemühen, um die Domänenstruktur der beiden Proteine zu verifizieren.
Übernehmen Sie aus der Datenbank SWISS-PROT (Links sind oben eingefügt) die Sequenzen und übergeben sie diese dem SMART-Server. Dazu ist zunächst der Modus Genomic auszuwählen und dann die Sequenz in das Fenster "Sequence" per cut and paste zu übertragen und die Auswertung durch Betätigen der Taste "Sequence SMART" zu starten. |
|||||
Übung | Dom_Str_3 | |||||
|
||||||
MS2_HUMAN (P78325): MRGLGLWLLGAMMLPAIAPSRPWALMEQYEVVLPRRLPGPRVRRALPSHLGLHPERVSYVLGATGHNFTLHLRKNRDLLG SGYTETYTAANGSEVTEQPRGQDHCLYQGHVEGYPDSAASLSTCAGLRGFFQVGSDLHLIEPLDEGGEGGRHAVYQAEHL LQTAGTCGVSDDSLGSLLGPRTAAVFRPRPGDSLPSRETRYVELYVVVDNAEFQMLGSEAAVRHRVLEVVNHVDKLYQKL NFRVVLVGLEIWNSQDRFHVSPDPSVTLENLLTWQARQRTRRHLHDNVQLITGVDFTGTTVGFARVSAMCSHSSGAVNQD HSKNPVGVACTMAHEMGHNLGMDHDENVQGCRCQERFEAGRCIMAGSIGSSFPRMFSDCSQAYLESFLERPQSVCLANAP DLSHLVGGPVCGNLFVERGEQCDCGPPEDCRNRCCNSTTCQLAEGAQCAHGTCCQECKVKPAGELCRPKKDMCDLEEFCD GRHPECPEDAFQENGTPCSGGYCYNGACPTLAQQCQAFWGPGGQAAEESCFSYDILPGCKASRYRADMCGVLQCKGGQQP LGRAICIVDVCHALTTEDGTAYEPVPEGTRCGPEKVCWKGRCQDLHVYRSSNCSAQCHNHGVCNHKQECHCHAGWAPPHC AKLLTEVHAASGSLPVLVVVVLVLLAVVLVTLAGIIVYRKARSRILSRNVAPKTTMGRSNPLFHQAASRVPAKGGAPAPS RGPQELVPTTHPGQPARHPASSVALKRPPPAPPVTVSSPPFPVPVYTRQAPKQVIKPTFAPPVPPVKPGAGAANPGPAEG AVGPKVALKPPIQRKQGAGAPTAP |
||||||
ADAM_CROAD (P34179): QQNLPQRYIELVVVADRRVFMKYNSDLNIIRTRVHEIVNIINGFYRSLNIDVSLVNLEIWSGQDPLTIQSSSSNTLNSEG LWREKVLLNKKKKDNAQLLTAIEFKCETLGKAYLNSMCNPRSSVGIVKDHSPINLLVAVTMAHELGHNLGMEHDGKDCLR GASLCIMRPGLTPGRSYEFSDDSMGYYQKFLNQYKPQCILNKP |
||||||
SLIT_DROME (P24014): MAAPSRTTLMPPPFRLQLRLLILPILLLLRHDAVHAEPYSGGFGSSAVSSGGLGSVGIHIPGGGVGVITEARCPRVCSCT GLNVDCSHRGLTSVPRKISADVERLELQGNNLTVIYETDFQRLTKLRMLQLTDNQIHTIERNSFQDLVSLERLDISNNVI TTVGRRVFKGAQSLRSLQLDNNQITCLDEHAFKGLVELEILTLNNNNLTSLPHNIFGGLGRLRALRLSDNPFACDCHLSW LSRFLRSATRLAPYTRCQSPSQLKGQNVADLHDQEFKCSGLTEHAPMECGAENSCPHPCRCADGIVDCREKSLTSVPVTL PDDTTDVRLEQNFITELPPKSFSSFRRLRRIDLSNNNISRIAHDALSGLKQLTTLVLYGNKIKDLPSGVFKGLGSLRLLL LNANEISCIRKDAFRDLHSLSLLSLYDNNIQSLANGTFDAMKSMKTVHLAKNPFICDCNLRWLADYLHKNPIETSGARCE SPKRMHRRRIESLREEKFKCSWGELRMKLSGECRMDSDCPAMCHCEGTTVDCTGRRLKEIPRDIPLHTTELLLNDNELGR ISSDGLFGRLPHLVKLELKRNQLTGIEPNAFEGASHIQELQLGENKIKEISNKMFLGLHQLKTLNLYDNQISCVMPGSFE HLNSLTSLNLASNPFNCNCHLAWFAECVRKKSLNGGAARCGAPSKVRDVQIKDLPHSEFKCSSENSEGCLGDGYCPPSCT CTGTVVACSRNQLKEIPRGIPAETSELYLESNEIEQIHYERIRHLRSLTRLDLSNNQITILSNYTFANLTKLSTLIISYN KLQCLQRHALSGLNNLRVVSLHGNRISMLPEGSFEDLKSLTHIALGSNPLYCDCGLKWFSDWIKLDYVEPGIARCAEPEQ MKDKLILSTPSSSFVCRGRVRNDILAKCNACFEQPCQNQAQCVALPQREYQCLCQPGYHGKHCEFMIDACYGNPCRNNAT CTVLEEGRFSCQCAPGYTGARCETNIDDCLGEIKCQNNATCIDGVESYKCECQPGFSGEFCDTKIQFCSPEFNPCANGAK CMDHFTHYSCDCQAGFHGTNCTDNIDDCQNHMCQNGGTCVDGINDYQCRCPDDYTGKYCEGHNMISMMYPQTSPCQNHEC KHGVCFQPNAQGSDYLCRCHPGYTGKWCEYLTSISFVHNNSFVELEPLRTRPEANVTIVFSSAEQNGILMYDGQDAHLAV ELFNGRIRVSYDVGNHPVSTMYSFEMVADGKYHAVELLAIKKNFTLRVDRGLARSIINEGSNDYLKLTTPMFLGGLPVDP AQQAYKNWQIRNLTSFKGCMKEVWINHKLVDFGNAQRQQKITPGCALLEGEQQEEEDDEQDFMDETPHIKEEPVDPCLEN KCRRGSRCVPNSNARDGYQCKCKHGQRGRYCDQGEGSTEPPTVTAASTCRKEQVREYYTENDCRSRQPLKYAKCVGGCGN QCCAAKIVRRRKVRMVCSNNRKYIKNLDIVRKCGCTKKCY |
||||||
SERA_PLAFG (P13823): MKSYISLFFILCVIFNKNVIKCTGESQTGNTGGGQAGNTVGDQAGSTGGSPQGSTGASQPGSSEPSNPVSSGHSVSTVSV SQTSTSSEKQDTIQVKSALLKDYMGLKVTGPCNENFIMFLVPHIYIDVDTEDTNIELRTTLKETNNAISFESNSGSLEKK KYVKLPSNGTTGEQGSSTGTVRGDTEPISDSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSSESLPANGPDSPTVKP PRNLQNICETGKNFKLVVYIKENTLIIKWKVYGETKDTTENNKVDVRKYLINEKETPFTSILIHAYKEHNGTNLIESKNY ALGSDIPEKCDTLASNCFLSGNFNIEKCFQCALLVEKENKNDVCYKYLSEDIVSNFKEIKAETEDDDEDDYTEYKLTESI DNILVKMFKTNENNDKSELIKLEEVDDSLKLELMNYCSLLKDVDTTGTLDNYGMGNEMDIFNNLKRLLIYHSEENINTLK NKFRNAAVCLKNVDDWIVNKRGLVLPELNYDLEYFNEHLYNDKNSPEDKDNKGKGVVHVDTTLEKEDTLSYDNSDNMFCN KEYCNRLKDENNCISNLQVEDQGNCDTSWIFASKYHLETIRCMKGYEPTKISALYVANCYKGEHKDRCDEGSSPMEFLQI IEDYGFLPAESNYPYNYVKVGEQCPKVEDHWMNLWDNGKILHNKNEPNSLDGKGYTAYESERFHDNMDAFVKIIKTEVMN KGSVIAYIKAENVMGYEFSGKKVQNLCGDDTADHAVNIVGYGNYVNSEGEKKSYWIVRNSWGPYWGDEGYFKVDMYGPTH CHFNFIHSVVIFNVDLPMNNKTTKKESKIYDYYLKASPEFYHNLYFKNFNVGKKNLFSEKEDNENNKKLGNNYIIFGQDT AGSGQSGKESNTALESAGTSNEVSERVHVYHILKHIKDGKIRMGMRKYIDTQDVNKKHSCTRSYAFNPENYEKCVNLCNV NWKTCEEKTSPGLCLSKLDTNNECYFCYV |
||||||
Hinweise |
Übernehmen Sie jeweils per copy&paste zwei Sequenzen in die Anwendung. Vergleichen Sie auch die Sequenzen mit sich selbst, um das mehrfache Vorkommen von Domänen in einer Sequenz zu überprüfen. |
|||||
Was Sie jetzt verstanden haben sollten |
Die wichtigsten Organisationselemente von Proteinen sind die Proteindomänen. Deren Zusammenspiel macht die Funktion komplexer Proteine aus. Wie wir später sehen werden, dienen viele Algorithmen dem Zweck, Domänen und ihre Funktion zu identifizieren. Die Befassung mit Dotplots ist didaktisch sinnvoll um wichtige Prinzipien des Sequenzvergleichs zu studieren, für die präzise Analyse von Sequenzen ist dieser Algorithmus zu unempfindlich. | |||||