Warum ist dieses Wissen wichtig? | Aus Sicht der Bioinformatik ist eine
DNA-Sequenz eine Zeichenkette, in der sinntragende Teile "eingestreut"
sind. Eine wichtige Aufgabe der Bioinformatik ist es, diese
DNA-Abschnitte zu finden.
Damit sind Gene, tRNAs und regulatorische Elemente gemeint. Ziel dieses Prozesses muss es
sein, mit höchster Sensitivität und Spezifität informationstragende
Teilsequenzen zu identifizieren. In den folgenden Übungen lernen Sie
zunächst die Begriffe ORF (open reading frame) und Gen kennen.
Ein ORF ist ein Stück DNA, das von einem Start- und einem Stoppcodon flankiert wird und eine, ganzzahlig durch drei teilbare Anzahl von Basen (die Codonen englisch codons) umfasst. Die Menge der ORFs ist eine Obermenge der Gene; dies sind diejenigen ORFs, die tatsächlich von der Zelle in Proteine übersetzt werden. Da jeder der sechs möglichen Leserahmen codieren kann, überlappen sich ORFs häufig. Sich überlappende Gene sind jedoch sehr selten. Es ist die hohe Kunst der Genidentifikation, aus der Menge der ORFs genau die Menge der Gene herauszufiltern. Die Schwelle zur Genvorhersage wird in Algorithmen zur Genidentifikation so gelegt, dass der Fehler zweiter Art möglichst gering ist. Dann ist jedoch häufig mit einer gewissen Anzahl von falsch positiven Vorhersagen zu rechnen. Für diese Aufgabe werden häufig Algorithmen eingesetzt, die mittels statistischer Analyse aus den Unterschieden im Vorkommen der Nukleotide an den drei Positionen im Codon die korrekte Lage von Leserahmen ableiten. Durch die Auswertung zusätzlicher, in der DNA codierter Signale, wie ribosomaler Bindungsstellen oder Promotoren wird die Anzahl falsch positiver Treffer reduziert und die Vorhersage der exakten Lage des Startcodons verbessert. Auf derartige, wesentlich aufwändigere Tools wird hier nicht weiter eingegangen. Sie üben hier manuell diejenige Tätigkeit aus, die von so genannten Annotationsprogrammen automatisch oder semiautomatisch ausgeführt wird und zum Ziel hat, alle Gene in dem betrachteten Stück DNA zu identifizieren und zu charakterisieren. Annotation ist eine wichtige Aufgabe im Rahmen der Genomanalyse. Es werden hier jedoch nur einige Probleme vorgestellt, die bei dieser Aufgabe algorithmisch zu lösen sind. Im Folgenden benutzen Sie die Programme zum Sequenzvergleich (den BLAST-Server) noch als blackbox. In den Übungen zu den Vegleichsprogrammen können Sie nachvollziehen, nach welchem Verfahren diese Heuristiken arbeiten und was die Parameter bewirken, die Sie interaktiv setzen können. Das Ergebnis eines paarweisen Sequenzvergleichs wird durch einen Score bewertet. Er gibt an, wie ähnlich sich die beiden Sequenzen sind. Je höher der Score, umso ähnlicher sind sich die beiden Sequenzen. Ein alternatives, statistisches Maß zur Bewertung eines Sequenzvergleichs ist der E-value (Erwartungswert). Er ist ein statistisches Maß, das angibt, wie häufig ein derartiges Alignment der beiden Sequenzen bei gegebener Größe der Datenbank rein zufällig wenigstens einen solchen Score erreicht. Ein E-value von 1 bedeutet, das eine Übereinstimmung der gefundenen Güte bei der gegebenen Anzahl von Sequenzen in der Datenbank mindestens 1 x rein zufällig zu erwarten ist. Bedenken Sie, dass der Server Ihre Eingabesequenz mit einer extrem großen Anzahl von Sequenzen (nämlich allen bisher bekannten und das sind sicherlich einige Millionen!) vergleicht. Je größer diese Datenbank, umso wahrscheinlicher wird es, dass aus purem Zufall ein Treffer (mit einer eher mäßigen Ähnlichkeit) auftritt. |
||
Bezug | Diese Übungen ergänzen die Kapitel 1 "Biologische Grundlagen", 2 "Sequenzen und ihre Funktion" und 3 "Datenbanken". | ||
Lernziel |
Nach dem Bearbeiten dieser
Übung sollten Sie
|
||
Übung | Orf_1, Länge und Verteilung von offenen Leserahmen | ||
In einem DNA-Fragment, bestehend aus 7172 Nucleotiden, dessen Sequenz Sie hier finden, sind 20 offene Leserahmen enthalten, die länger als 150 Nucleotide sind. | |||
In der folgenden Grafik sind diese ORFs in den sechs Leserahmen (hier mit +1,+2,+3, -1, -2, -3 markiert) eingetragen, durch Anklicken eines blauen Kästchens, das einen ORF repräsentiert, erhalten Sie die Aminosäuresequenz im FASTA-Format. Diese Grafik wurde mit dem Annotationsprogramm Magpie generiert. | |||
ORFs
identifizieren und codierende ORFs bestimmen |
Vergleichen Sie in obigem Beispiel die Länge der überlappenden ORFs in allen Leserahmen. Welchen Einfluss hat der GC-Gehalt eines Genoms auf die Länge von ORFs in allen sechs Leserahmen? |
||
Beachten Sie bei der
Beantwortung dieser Frage insbesondere die Nukleotidkomposition derjenigen Sequenzen (Tri-
bzw. Hexanukleotide), die als reverses
Komplement in den Leserahmen -1, -2, -3 ein
Stoppcodon ergeben.
Bestimmen Sie, welche ORFs für Proteine codieren. |
|||
Stellen Sie
nun
eine Verbindung zum BLAST-Server des NCBI her. Wählen Sie für diese Übung den Modus Protein BLAST. |
|||
Übertragen Sie per copy&paste jeweils die Aminosäuresequenz eines ORFs mit
Nummer:
in das Eingabefenster des Servers und stoßen Sie die Auswertung durch Betätigen der Taste BLAST an. |
|||
Studieren Sie die
Ausgabe des Sequenzvergleichsprogramms. Warten Sie jeweils, bis eine
Seite angezeigt wird die mit blastp suite results for ....
überschrieben ist. Vergleichen Sie für die einzelnen Sequenzen die Scores und die E-values (E-Werte) der besten Treffer sowie die Anzahl identischer Aminosäurereste zwischen Ihrer Eingabe (Query) und der Vergleichssequenz (Sbjct). Niedrige E-Werte deuten auf eine sehr gute Übereinstimmung der Eingabe und des Datenbankeintrages hin. |
|||
Hinweise | Da die hier untersuchten Sequenzen aus eine Bakterienart stammen, die mittlerweile sehr intensiv untersucht ist, werden die signifikantesten Treffer alle sehr niedige (signifikante) E-Werte aufweisen. Ergebnisse aus dem Jahr 2000 finden Sie hier für die ORFs 1, 4, 8, 12, 20. Diese wesentlich kürzeren Listen belegen auch, wie sehr der Umfang der Datenbanken zugenommen hat. Ihre Analysen sollten jedoch ähnliche Treffer ergeben. | ||
Weitere Fragen |
Aus welchem Organismus stammt die untersuchte DNA-Sequenz? Zu welchen ORFs wurden überhaupt Treffer gefunden? Welchen Länge und Lage haben diese ORFs? |
||
Erst wenn Sie die obigen Fragen beantwortet haben, sollten Sie sich diesen Eintrag ansehen, die den kompletten Eintrag der Sequenz enthält. Versuchen Sie, den Inhalt dieser Datei zu verstehen, indem Sie den Inhalt mit der Definition der Feature Table der Datenbank vergleichen. | |||
Aufbau der NCBI-Einträge | Wie Sie obiger Datei entnehmen können, haben Einträge in der NCBI-Nucleotide-Datenbank einen zweigeteilten Aufbau: Im oberen Teil (der Feature Table) finden Sie Informationen zur Herkunft, zu Veröffentlichungen und zu den informationstragenden Elementen der Sequenz. Im zweiten Teil, der mit dem Schlüssel ORIGIN beginnt, folgt die Sequenz. | ||
Zusätzliche Fragen |
Welchen Nachteil hat dieser Ansatz, der auf der Suche nach
BLAST-Treffern beruht? Wie werden bisher unbekannte Gene gefunden? |
||
Mit diesem Ansatz können nur solche Gene identifiziert
werden, für die in anderen Genomen bereits Homologe bekannt sind. Bisher
gänzlich unbekannte Gene können mit diesem Verfahren nicht
identifiziert werden. Es ist somit nötig, ORFs mit einem gewissen
Codierpotiential zu identifizieren. Ein einfacher Ansatz nutzt hierfür
den lokalen G+C-Gehalt. |
|||
Übung | Orf_2, Identifizierung von Genen, Genstart identifizieren | ||
Interpretation der Codon Usage | Starten Sie das Programm Frameplot. | ||
Übernehmen
Sie per copy&paste
diese DNA-Sequenz.
Hinweis: Benutzen Sie die entsprechenden Befehle Ihres Browsers. |
|||
Stellen Sie in Frameplot die Minimum ORF size auf 50 und starten Sie das Programm durch Betätigen der Taste Cookin´. | |||
Machen Sie sich die Bedeutung des Plots klar und lesen Sie diese Zusammenfassung. Die Beschriftung des Plots verrät, dass hier der G+C-Gehalt der Sequenz als Indikator für die Vorhersage von Genen genutzt wird. | |||
Welche Teilsequenzen besitzen einen erhöhten G+C-Gehalt? |
|||
ORF auswählen | Wählen Sie den ersten ORF im (oberen) Leserahmen 2 aus, klicken Sie hierzu mit der Maus unmittelbar über die zwei, mit kurzem Abstand aufeinanderfolgenden Startcodons (> >), die grün markiert sind. Nutzen Sie zur Positionierung die Angaben neben der Maus; eine Position mit der Angabe zwischen f2:150 und f2:160 passt. | ||
Suche anstoßen | Nach der Sequenzwahl bekommen Sie im Fenster Features die Proteinsequenz f2 (149. .601) und die DNA Sequenz f2 (149. .604) angezeigt. Starten Sie einen Sequenzvergleich mit blastp und der Proteinsequenz durch Betätigen der Taste Search. | ||
Betrachten
Sie auf der BLAST-Ergebnisseite die Grafik mit den Treffern, die durch
rote Balken repräsentiert werden. Welcher Treffer besitzt die höchste Sequenzübereinstimmung von 100% An welcher Resdiuenposition der Query beginnt dieses Alignment? Achten Sie auf die Lage der roten Linien in der Grafik. |
|||
Ergebnis interpretieren |
|
||
Berücksichtigen von ribosomalen Bindungsstellen | Die Vorhersage der Lage von Startcodons wird deutlich verbessert, wenn ribosomale Bindungsstellen identifiziert und berücksichtigt werden. Weitere Informationen zu einem derartigen Algorithmus finden Sie hier. Auch dieser Algorithmus ist mittlerweile durch aufwändigere Verfahren ergänzt worden, auf die wir hier jedoch nicht eingehen wollen. | ||
Was Sie jetzt können sollten |
Sie können nun die Begriffe
ORF und Gen unterscheiden und haben erste Verfahren zum Identifizieren
informationstragender Sequenzen kennengelernt. Dies sind in diesem Fall
die Gene. Sie haben auch erkannt, dass die Verfahren des Sequenzvergleichs dazu verwendet werden können, bei mehreren Alternativen die vermutlich korrekte auszuwählen. Dies gilt allerdings nur, wenn bereits homologe Gene in der Datenbank hinterlegt sind. |
||