Gene und offene Leserahmen

Warum ist dieses Wissen wichtig?

Aus Sicht der Bioinformatik ist eine DNA-Sequenz eine Zeichenkette, in der sinntragende Teile "eingestreut" sind. Eine wichtige Aufgabe der Bioinformatik ist es, diese DNA-Abschnitte zu finden. Damit sind Gene, tRNAs und regulatorische Elemente gemeint. Ziel dieses Prozesses muss es sein, mit höchster Sensitivität und Spezifität informationstragende Teilsequenzen zu identifizieren. In den folgenden Übungen lernen Sie zunächst die Begriffe ORF (open reading frame) und Gen kennen.

Ein ORF ist ein Stück DNA, das von einem Start- und einem Stoppcodon flankiert wird und eine, ganzzahlig durch drei teilbare Anzahl von Basen (die Codonen englisch codons) umfasst. Die Menge der ORFs ist eine Obermenge der Gene; dies sind diejenigen ORFs, die tatsächlich von der Zelle in Proteine übersetzt werden. Da jeder der sechs möglichen Leserahmen codieren kann, überlappen sich ORFs häufig. Sich überlappende Gene sind jedoch sehr selten. Es ist die hohe Kunst der Genidentifikation, aus der Menge der ORFs genau die Menge der Gene herauszufiltern. Die Schwelle zur Genvorhersage wird in Algorithmen zur Genidentifikation so gelegt, dass der Fehler zweiter Art möglichst gering ist. Dann ist jedoch häufig mit einer gewissen Anzahl von falsch positiven Vorhersagen zu rechnen.

Für diese Aufgabe werden häufig Algorithmen eingesetzt, die mittels statistischer Analyse aus den Unterschieden im Vorkommen der Nukleotide an den drei Positionen im Codon die korrekte Lage von Leserahmen ableiten. Durch die Auswertung zusätzlicher, in der DNA codierter Signale, wie ribosomaler Bindungsstellen oder Promotoren wird die Anzahl falsch positiver Treffer reduziert und die Vorhersage der exakten Lage des Startcodons verbessert.

Auf derartige, wesentlich aufwändigere Tools wird hier nicht weiter eingegangen. Sie üben hier manuell diejenige Tätigkeit aus, die von so genannten Annotationsprogrammen automatisch oder semiautomatisch ausgeführt wird und zum Ziel hat, alle Gene in dem betrachteten Stück DNA zu identifizieren und zu charakterisieren. Annotation ist eine wichtige Aufgabe im Rahmen der Genomanalyse. Es werden hier jedoch nur einige Probleme vorgestellt, die bei dieser Aufgabe algorithmisch zu lösen sind.

Im Folgenden benutzen Sie die Programme zum Sequenzvergleich (den BLAST-Server) noch als blackbox. In den Übungen zu den Vegleichsprogrammen können Sie nachvollziehen, nach welchem Verfahren diese Heuristiken arbeiten und was die Parameter bewirken, die Sie interaktiv setzen können.

Das Ergebnis eines paarweisen Sequenzvergleichs wird durch einen Score bewertet. Er gibt an, wie ähnlich sich die beiden Sequenzen sind. Je höher der Score, umso ähnlicher sind sich die beiden Sequenzen. Ein alternatives, statistisches Maß zur Bewertung eines Sequenzvergleichs ist der E-value (Erwartungswert). Er ist ein statistisches Maß, das angibt, wie häufig ein derartiges Alignment der beiden Sequenzen bei gegebener Größe der Datenbank rein zufällig wenigstens einen solchen Score erreicht. Ein E-value von 1 bedeutet, das eine Übereinstimmung der gefundenen Güte bei der gegebenen Anzahl von Sequenzen in der Datenbank mindestens 1 x rein zufällig zu erwarten ist. Bedenken Sie, dass der Server Ihre Eingabesequenz mit einer extrem großen Anzahl von Sequenzen (nämlich allen bisher bekannten und das sind sicherlich einige Millionen!) vergleicht. Je größer diese Datenbank, umso wahrscheinlicher wird es, dass aus purem Zufall ein Treffer (mit einer eher mäßigen Ähnlichkeit) auftritt.

Bezug

Diese Übungen ergänzen die Kapitel 1 "Biologische Grundlagen", 2 "Sequenzen und ihre Funktion" und 3 "Datenbanken".

Lernziel

Nach dem Bearbeiten dieser Übung sollten Sie

die Begriffe ORF und Gen unterscheiden,
erste Methoden zur Identifizierung von Genen anwenden

können.

Übung

Orf_1, Länge und Verteilung von offenen Leserahmen

In einem DNA-Fragment, bestehend aus 7172 Nucleotiden, dessen Sequenz Sie hier finden, sind 20 offene Leserahmen enthalten, die länger als 150 Nucleotide sind.

In der folgenden Grafik sind diese ORFs in den sechs Leserahmen (hier mit +1,+2,+3, -1, -2, -3 markiert) eingetragen, durch Anklicken eines blauen Kästchens, das einen ORF repräsentiert, erhalten Sie die Aminosäuresequenz im FASTA-Format. Diese Grafik wurde mit dem Annotationsprogramm Magpie generiert.

ORFs identifizieren
und
codierende ORFs bestimmen

Überlegen Sie sich einen Algorithmus zur Identifikation offener Leserahmen.

Vergleichen Sie in obigem Beispiel die Länge der überlappenden ORFs in allen Leserahmen.

Welchen Einfluss hat der GC-Gehalt eines Genoms auf die Länge von ORFs in allen sechs Leserahmen?

Beachten Sie bei der Beantwortung dieser Frage insbesondere die Nukleotidkomposition derjenigen Sequenzen (Tri- bzw. Hexanukleotide), die als reverses Komplement in den Leserahmen -1, -2, -3 ein Stoppcodon ergeben.

Bestimmen Sie, welche ORFs für Proteine codieren.

Stellen Sie nun eine Verbindung zum BLAST-Server des NCBI her.

Wählen Sie für diese Übung den Modus Protein BLAST.

Übertragen Sie per copy&paste jeweils die Aminosäuresequenz eines ORFs mit Nummer:

1, 4, 8, 12, 20

in das Eingabefenster des Servers und stoßen Sie die Auswertung durch Betätigen der Taste BLAST an.

Studieren Sie die Ausgabe des Sequenzvergleichsprogramms. Warten Sie jeweils, bis eine Seite angezeigt wird die mit blastp suite results for .... überschrieben ist.

Vergleichen Sie für die einzelnen Sequenzen die Scores und die E-values (E-Werte) der besten Treffer sowie

die Anzahl identischer Aminosäurereste zwischen Ihrer Eingabe (Query) und der Vergleichssequenz (Sbjct).

Niedrige E-Werte deuten auf eine sehr gute Übereinstimmung der Eingabe und des Datenbankeintrages hin.

Hinweise

Da die hier untersuchten Sequenzen aus eine Bakterienart stammen, die mittlerweile sehr intensiv untersucht ist, werden die signifikantesten Treffer alle sehr niedige (signifikante) E-Werte aufweisen. Ergebnisse aus dem Jahr 2000 finden Sie hier für die ORFs 1, 4, 8, 12, 20. Diese wesentlich kürzeren Listen belegen auch, wie sehr der Umfang der Datenbanken zugenommen hat. Ihre Analysen sollten jedoch ähnliche Treffer ergeben.

Weitere Fragen

Aus welchem Organismus stammt die untersuchte DNA-Sequenz?
Zu welchen ORFs wurden überhaupt Treffer gefunden? Welchen Länge und Lage haben diese ORFs?

Erst wenn Sie die obigen Fragen beantwortet haben, sollten Sie sich diesen Eintrag ansehen, die den kompletten Eintrag der Sequenz enthält. Versuchen Sie, den Inhalt dieser Datei zu verstehen, indem Sie den Inhalt mit der Definition der Feature Table der Datenbank vergleichen.

Aufbau der NCBI-Einträge

Wie Sie obiger Datei entnehmen können, haben Einträge in der NCBI-Nucleotide-Datenbank einen zweigeteilten Aufbau: Im oberen Teil (der Feature Table) finden Sie Informationen zur Herkunft, zu Veröffentlichungen und zu den informationstragenden Elementen der Sequenz. Im zweiten Teil, der mit dem Schlüssel ORIGIN beginnt, folgt die Sequenz.

Zusätzliche Fragen

Welchen Nachteil hat dieser Ansatz, der auf der Suche nach BLAST-Treffern beruht?
Wie werden bisher unbekannte Gene gefunden?

Mit diesem Ansatz können nur solche Gene identifiziert werden, für die in anderen Genomen bereits Homologe bekannt sind. Bisher gänzlich unbekannte Gene können mit diesem Verfahren nicht identifiziert werden. Es ist somit nötig, ORFs mit einem gewissen Codierpotiential zu identifizieren. Ein einfacher Ansatz nutzt hierfür den lokalen G+C-Gehalt.

Übung

Orf_2, Identifizierung von Genen, Genstart identifizieren

Interpretation der Codon Usage

Starten Sie das Programm Frameplot.

Übernehmen Sie per copy&paste diese DNA-Sequenz.

Hinweis: Benutzen Sie die entsprechenden Befehle Ihres Browsers.

Stellen Sie in Frameplot die Minimum ORF size auf 50 und starten Sie das Programm durch Betätigen der Taste Cookin´.

Machen Sie sich die Bedeutung des Plots klar und lesen Sie diese Zusammenfassung. Die Beschriftung des Plots verrät, dass hier der G+C-Gehalt der Sequenz als Indikator für die Vorhersage von Genen genutzt wird.

Wie werden Start- und Stoppcodons sowie ORFs eingetragen?
Welche Teilsequenzen besitzen einen erhöhten G+C-Gehalt?

ORF auswählen

Wählen Sie den ersten ORF im (oberen) Leserahmen 2 aus, klicken Sie hierzu mit der Maus unmittelbar über die zwei, mit kurzem Abstand aufeinanderfolgenden Startcodons (> >), die grün markiert sind. Nutzen Sie zur Positionierung die Angaben neben der Maus; eine Position mit der Angabe zwischen f2:150 und f2:160 passt.

Suche anstoßen

Nach der Sequenzwahl bekommen Sie im Fenster Features die Proteinsequenz f2 (149. .601) und die DNA Sequenz f2 (149. .604) angezeigt. Starten Sie einen Sequenzvergleich mit blastp und der Proteinsequenz durch Betätigen der Taste Search.

Betrachten Sie auf der BLAST-Ergebnisseite die Grafik mit den Treffern, die durch rote Balken repräsentiert werden.
Welcher Treffer besitzt die höchste Sequenzübereinstimmung von 100%
An welcher Resdiuenposition der Query beginnt dieses Alignment? Achten Sie auf die Lage der roten Linien in der Grafik.

Ergebnis interpretieren

Die meisten Alignments beginnen nicht an Postion 1 der Query, wie die Liste belegt, die auf der BLAST-Ergebnisseite mit Aligments überschrieben ist. Mit hoher Wahrscheinlichkeit ist das Codon, das mit der Base 149 beginnt, dem eigentlichen Startcodon vorgelagert. Das plausibelste Startcodon entspricht dem Queryresiduum 9.

Berücksichtigen von ribosomalen Bindungsstellen

Die Vorhersage der Lage von Startcodons wird deutlich verbessert, wenn ribosomale Bindungsstellen identifiziert und berücksichtigt werden. Weitere Informationen zu einem derartigen Algorithmus finden Sie hier. Auch dieser Algorithmus ist mittlerweile durch aufwändigere Verfahren ergänzt worden, auf die wir hier jedoch nicht eingehen wollen.

Was Sie jetzt können sollten

Sie können nun die Begriffe ORF und Gen unterscheiden und haben erste Verfahren zum Identifizieren informationstragender Sequenzen kennengelernt. Dies sind in diesem Fall die Gene.

Sie haben auch erkannt, dass die Verfahren des Sequenzvergleichs dazu verwendet werden können, bei mehreren Alternativen die vermutlich korrekte auszuwählen. Dies gilt allerdings nur, wenn bereits homologe Gene in der Datenbank hinterlegt sind.