Biologische Datenbanken

Warum ist dieses Wissen wichtig?

Die wissenschaftliche Literatur und die akkumulierte Menge von biologischem Faktenwissen ist ohne die Unterstützung durch Datenbanksysteme nicht mehr überschaubar. Daher ist es ganz essenziell, die wichtigsten Datenbanken zu kennen und mit ihnen umgehen zu können.

Bezug

Diese Übungen ergänzen das Kapitel 3 "Datenbanken".

Lernziel

Nach dem Bearbeiten der Übungen sollten Sie

sich wissenschaftliche Literatur beschaffen,
Datensätze beschaffen und mit biologische Datenbanken umgehen

können.

Übung

DB_1, Recherche in Google Scholar

Eine weniger bekannte Teildatenbank von Google ist Google-Scholar, mit der wissenschaftliche Literatur aufbereitet wird.
Wir wollen diese Datenbank nutzen, um das Arbeitsgebiet eines Wissenschaftlers zu recherchieren.

Womit beschäftigt sich der Wissenschaftler Sensen?

Hinweise

Benutzen Sie zur Beantwortung dieser Frage alternativ die Google-Datenbank und anschließend Google-Scholar.

Vergleichen Sie, welche Treffer jeweils angezeigt werden.
Machen Sie sich klar, welche Möglichkeiten Scholar bietet.

Erklären Sie die Unterschiede der Trefferlisten Google/Google-Scholar.

Beschreiben Sie, welche Möglichkeiten Ihnen die Links zu "Cited by", "Related articles" und zu "" (Zitieren) bieten.

Schränken Sie die Anzeige auf Artikel ein, an denen CW Sensen im Jahre 1995 beteiligt war.

Benutzen Sie die Option "Custom range".

Welche Arten von Dokumenten werden Ihnen von Google Scholar gelistet?

Übung

DB_2, Recherche in PubMed

Die wichtigste Referenzdatenbank für Literatur aus den Lebenswissenschaften ist jedoch PubMed. Machen Sie sich mit den Möglichkeiten von PubMed vertraut.

Lesen Sie auf der FAQ-Seite die Anworten zu "How do I search PubMed?" and "How do I search by author?"

Weshalb liefert die drei Suchen mit den Eingaben :
1) Miller
2) Miller [au]
3) “Miller HJ“ [au] unterschiedliche Ergebnisse?

Aufgabe

Wie viele Artikel wurden vom 1. Jan. bis zum 31.12 des letzten Jahres von Autoren geschrieben, die mit Nachnamen Coli heißen?

Benutzen Sie zunächst das Eingabefeld auf der PubMed Einstiegsseite. Wählen Sie anschließend die Seite Advanced (Link unterhalb des Eingabefeldes) und erzeugen Sie eine spezifische Suche, in dem Sie mehrere "Terms" wie "Author" und "Date" kombinieren.

Auf wieviele Artikel können Sie als PDF-Datei zugreifen?

Hinweise

Artikel die in der Liste mit Free PMC Article gekennzeichnet sind, sind allgemein zugänglich. Es können weitere Artikel geladen werden, sofern Sie einen Web-Zugang einer Bibliothek nutzen, die wissenschaftliche Zeitschriften abonniert hat.

Um herauszufinden, ob Sie auf die Arbeit Zugriff haben, können Sie in der linken Spalte der Ausgabe die Option Free full text in der Rubrik Text availability wählen.

Ein relativ neues Feature von PubMed verbirgt sich hinter dem Verweis Similar articles. Klicken Sie in der Trefferliste auf einen Artikel Ihrer Wahl und versuchen Sie zu verstehen, warum diese (sekundären) Treffer aufgelistet werden.

Übung

DB_3, Sequenzbeschaffung

Das trpA-Gen codiert für eine Untereinheit der Tryptophansynthase. Wir wollen uns die Gen- und Proteinsequenz des Gens aus dem Stamm E. coli K-12 MG1655 verschaffen.

Suchen Sie in der Gen-Datenbank die entsprechende DNA-Sequenz.

Hinweise

Suchen Sie in den Datenbanken des NCBI, wählen Sie als Datenbank Gene (anstelle von All Databases im Feld Search einstellen) und benutzen Sie als Suchbegriff trpA Escherichia coli K-12 mg1655, den Sie per copy&paste übernehmen sollten.

Der erste Treffer ist mit trpA beschriftet und trägt die GeneID 946204.

Betrachten Sie zunächst den Eintrag.

Unter der Überschrift mRNA and Protein(s) ist ein Eintrag angegeben. Folgen Sie diesem Link.
Sie sehen einen klassischen Genbank-Eintrag mit der Aufteilung in den Annotationsteil und die Sequenz. Unter den Features ist auch die CDS (codierende Sequenz) verlinkt. Ein Klick auf diesen Link liefert die übersetzte Gensequenz.

Wenn Sie nun auf der betrachteten Seite (unten rechts) als Format FASTA auswählen, wird Ihnen die Gensequenz im FASTA-Format angeboten. Diese können Sie dann sehr einfach unterlegen und mit copy&paste ausschneiden und übernehmen.

Unter den Features werden bei /CDS auch Verweise auf die Proteinsequenz gelistet. Durch Klicken auf db_xref="UniProtKB/Swiss-Prot:P0A877 können Sie auf den UniProt-Datenbankeintrag der Proteinsequenz zugreifen. Wird auf dieser Seite beim Abschnitt zur Sequenz nun als Format FASTA gewählt, kann wiederum sehr leicht die Proteinsequenz übernommen werden.

Wir haben uns nun die Gen- und die Proteinsequenz zu einem Gen aus den Datenbanken gezogen.
Gleichzeit macht diese Suche auch klar, wie viele weitere Daten zu den Sequenzen in den Datenbanken zusammen getragen sind.

Übung

DB_5, Domänenstruktur überprüfen

Aus einer früheren Übung kennen wir bereits die Domänenkomposition des menschlichen Koagulationsfaktors XII. Wir wollen in dieser Übung die SMART-Datenbank verwenden, um diese Struktur zu überprüfen.

Bestimmen Sie die Domänenstruktur des menschlichen Koagulationsfaktors XII.

Hinweise

Zunächst laden wir die Proteinsequenz, diesmal aus der UniProt-Datenbank. Folgen Sie diesem Link auf die UniProtKB und durchsuchen Sie die UniProt-Datenbank nach: Coagulation factor XIIa heavy chain.

Der Treffer im menschlichen Genom hat die Accession-Number P00748. Dies ist ein eindeutiger Schlüssel für diese Sequenz.
Folgen Sie diesem Link und studieren Sie die Informationen, die Ihnen die Datenbank liefert.

Relativ weit unten auf dieser Seite wird die Sequenz gelistet.

Stellen Sie wiederum auf das Format FASTA um (diese Taste finden Sie im Abschnitt zur Sequenz) und sichern Sie die Sequenz lokal ab. Sie sollten gefunden haben:

>sp|P00748|FA12_HUMAN Coagulation factor XII OS=Homo sapiens MRALLLLGFLLVSLESTLSIPPWEAPKEHKYKAEEHTVVLTVTGEPCHFPFQYHRQLYHK CTHKGRPGPQPWCATTPNFDQDQRWGYCLEPKKVKDHCSKHSPCQKGGTCVNMPSGPHCL CPQHLTGNHCQKEKCFEPQLLRFFHKNEIWYRTEQAAVARCQCKGPDAHCQRLASQACRT NPCLHGGRCLEVEGHRLCHCPVGYTGAFCDVDTKASCYDGRGLSYRGLARTTLSGAPCQP WASEATYRNVTAEQARNWGLGGHAFCRNPDNDIRPWCFVLNRDRLSWEYCDLAQCQTPTQ AAPPTPVSPRLHVPLMPAQPAPPKPQPTTRTPPQSQTPGALPAKREQPPSLTRNGPLSCG QRLRKSLSSMTRVVGGLVALRGAHPYIAALYWGHSFCAGSLIAPCWVLTAAHCLQDRPAP EDLTVVLGQERRNHSCEPCQTLAVRSYRLHEAFSPVSYQHDLALLRLQEDADGSCALLSP YVQPVCLPSGAARPSETTLCQVAGWGHQFEGAEEYASFLQEAQVPFLSLERCSAPDVHGS SILPGMLCAGFLEGGTDACQGDSGGPLVCEDQAAERRLTLQGIISWGSGCGDRNKPGVYT DVAYYLAWIREHTVS

Verwenden Sie SMART, um die Domänenstruktur zu bestimmen.

Hinweise

Folgen Sie dem Link und übergeben Sie in das Fenster Sequence die Sequenz.
Durch Klicken auf die Taste Sequence SMART wird die Analyse angestoßen.

Vergleichen Sie anschließend das Ergebnis mit dieser Dotplot-Analyse, die Sie bereits kennen.
Möglicherweise sind die Domänen unterschiedlich bezeichnet, die Anzahl und Lage der Domänen sollten jedoch übereinstimmen.

Übung

DB_5, Beschaffen einer Protein-3D-Struktur

Die PDB-Datenbank hält (neben denen anderer Makromoleküle) die Datensätze von Proteinen und Proteinkomplexen vor.

Suchen Sie den Strukturdatensatz zu Azurin, der von E. N. Baker 1987 in der Datenbank deponiert wurde.

Hinweise

Geben Sie die drei Schlagworte Azurin Baker 1987 in die Suchmaske ein.

Es sollte der Datensatz 2AZA angezeigt werden. Bei jedem Datensatz verweisen mehrere Icons auf weitere Möglichkeiten, mit dem der Datensatz zusätzlich prozessiert werden kann.

Durch Klicken auf 3D View können Sie den Inhalt als interaktiv veränderbare Struktur darstellen lassen.
Machen Sie sich mit dem Inhalt der Datei und ihrem Aufbau vertraut.

Der Link Download File erlaubt, den Datensatz auf den eigenen Rechner zu laden, um ihn z. B. mit Jmol oder einem anderen Programm weiter zu prozessieren.

Was Sie jetzt können sollten

Sie können mit den wichtigsten Datenbanken zur Verwaltung von Literatur, DNA- und Proteinsequenzen umgehen und erste Analysen mit Sequenzen ausführen.