-
Die
Erfindung betrifft ein Verfahren zur Auswahl einer Teilsequenz aus
einer Nukleinsäuresequenz,
die abgesehen von der enthaltenen Teilsequenz selbst, eine möglichst
geringe Ähnlichkeit
zu einer gegebenen Gesamtsequenz hat. Insbesondere betrifft die
Erfindung ein Verfahren zur Auswahl von Teilsequenzen einer gegebenen
Nukleinsäuresequenz,
die zur Hybridisierung geeignet sind und aufgrund ihrer geringen Ähnlichkeit
zur Gesamtsequenz, abgesehen von der enthaltenen Teilsequenz selbst,
zum Nachweis der gegebenen Nukleinsäuresequenz verwendet werden
können.
-
Um
ein bestimmtes Fragment in einer komplexen Probe mittels kurzer
Oligonukleotide durch Hybridisierung nachzuweisen, muss die DNA-Sequenz
der Oligonukleotide vielerlei Eigenschaften erfüllen. Diese Eigenschaften der
Oligonukleotide lassen sich in zwei wesentliche Kategorien einteilen:
- 1. Oligonukleotid-interne Eigenschaften, wie
die Neigung zur Ausbildung von Sekundärstrukturen, Stabilität der Duplexverbindungen,
Basenkomposition, etc.
- 2. Spezifität
der Oligonukleotide: Angaben über
die Qualität
und Übereinstimmung
der zweiten Bindungsstelle dieses Oligonukleotids in der gewählten Datenbasis.
Ein Oligonukleotid ist für
die meisten Anwendungen wertlos, wenn es neben der eigentlich zu
detektierenden DNA-Sequenz noch eine Vielzahl weiterer Sequenzen
detektiert. Ein Signal dieses Oligonukleotids ließe keine
Rückschlüsse auf
die detektierte Sequenz zu.
-
Die
Bedeutung der Oligonukleotid-internen Parameter gegenüber der
Spezifität
variiert je nach Länge der
zu selektierenden Oligonukleotide.
-
Längerkettige
Sonden (> 50 bp) sind
mit einer sehr großen
Wahrscheinlichkeit ausreichend spezifisch für das zu untersuchende Fragment,
verhalten sich aber zunehmend kritisch, was die Ausbildung von Sekundärstrukturen
und Faltungen betrifft. Kürzere
Oligonukleotide (> 30bp)
wiederum haben eine geringere Tendenz zur Bildung von Faltungen.
Hier kommt aber der Sicherstellung der Spezifität der selektierten Oligonukleotide
eine immer größere Bedeutung
zu.
-
Die
Ermittlung der Oligonukleotid-internen Parameter stellt bei kürzerkettigen
Oligonukleotiden einen vergleichsweise geringen zeitlichen Berechnungsaufwand
dar. Die Ermittlung der Spezifität
der Oligonukleotide kann aber, je nach Datenbasis, die zur Überprüfung herangezogen
wird, einen sehr großen
zeitlichen Aufwand bedeuten.
-
Generell
bestehen zwei mögliche
Ablaufschemata für
die Berechnung der Spezifität
und die Selektion der Oligonukleotide, die in 1 dargestellt sind. Beim ersten Weg wird
die Spezifität
für das
gesamte Fragment bezüglich
aller Nukleinsäuren,
die in einer vorgegebenen Gesamtsequenz vorkommen könnten, berechnet.
Im zweiten Schritt werden aus den Teilsequenzen, die für das Fragment
spezifisch sind, anhand interner Eigenschaften Oligonukleotide selektiert,
die für
die Hybridisierung und damit dem Nachweis des Fragments geeignet
sind. Der zweite Weg verfolgt die umgekehrte Strategie. Zunächst werden
aus dem Fragment anhand interner Eigenschaften potenzielle Oligonukleotide
selektiert, die im zweiten Schritt auf ihre Spezifität bezüglich der
in einer vorgegebenen Gesamtsequenz vorkommenden Nukleinsäuresequenzen überprüft werden.
Beide Wege bieten für
sich Vor- und Nachteile.
-
Ein
Verfahren, das den Weg 1 benutzt, ist von der Firma Illumina publiziert
(http://www.illumina.com/RefSet_Oligos_Tech_Bulletin_5-03.pdf).
Zunächst
werden zu einem gegebenen Transkript ähnliche Regionen in einem Satz
von Nukleotidsequenzen identifiziert. Herangezogen werden z.B. ESTs (estimated
sequence tags) aus der GenBank-Datenbank. Hierzu wird ein Alignment
unter Verwendung des BLAST-Algorithmus durchgeführt. Anhand dessen werden aus
dem gegebenen Transkript diejenigen Sequenzen ausgewählt, die
aufgrund ihrer Spezifität
als Hybridisierungssonden geeignet sein könnten. Im nächsten Schritt wird anhand
fester Kriterien die Auswahl des am besten geeigneten 70mers getroffen.
Ein festes Kriterium ist der Schmelzpunkt TM,
der bei 78°C ± 5°C liegen
muss. Ein weiteres Kriterium ist die Selbstkomplementarität der Sequenz,
die zur Ausbildung von Haarnadelstrukturen führen kann. Die Stammsequenz
der Haarnadelstruktur ist hierbei in der Regel kürzer als 10 Basen. Noch ein
weiteres Kriterium ist der Abstand zum 3'-Ende des Transkripts, wobei Sequenzen
negativ bewertet werden, wenn sie zwischen 300 und 1000 Nukleotide
vom 3'-Ende entfernt
sind. Eine Sequenz wird ausgeschlossen, wenn der Schmelzpunkt außerhalb
des angegebenen Bereiches liegt, die Stammsequenz, die eine Haarnadelstruktur
bilden könnte,
mindestens 10 Basen lang ist, oder wenn der Abstand zum 3'-Ende des Transkripts
300 oder weniger Basen beträgt.
In Einzelfällen
(0,1 %) werden Sonden mit Stammsequenzen von 10 oder mehr Basen
zugelassen. Dem Dokument ist nichts zu entnehmen, auf welche Weise
eine Auswahl zwischen alternativen Sequenzen, die alle die gegebenen
Kriterien erfüllen,
getroffen wird. Das beschriebene Verfahren hat den Nachteil, dass
insbesondere die Spezifitätsberechnungen
praktisch vollständig
wiederholt werden müssen,
wenn der Satz der zugrunde liegenden Nukleotidsequenzen erweitert
werden muss. Insbesondere betrifft dies die ESTs, die in der Regel
unvollständig
annotiert sind und daher einem kontinuierlichen Prozess der Korrektur
(Ergänzung/Streichung)
unterliegen. Dieser Nachteil macht sich insbesondere da bemerkbar,
wo ein aktueller Datensatz als Grundlage für die Sondenberechnung notwendig
ist.
-
Aufgabe
der vorliegenden Erfindung ist es daher, Verfahren bereitzustellen,
die die Auswahl von Bereichen aus einem gegebenen Fragment auf der
Grundlage des jeweils neuesten Standes der öffentlich zugänglichen
Nukleinsäure-Datenbanken
erlauben, wobei die gewählten
Bereiche für
das angegebene Fragment so weit als möglich spezifisch sein sollen
und die entsprechenden Nukleinsäuren
zur Durchführung
von Hybridisierungen geeignet sein sollen. Diese Aufgabe wird vorteilhafterweise
dadurch gelöst,
dass die zeitaufwändige
Berechnung der Spezifitäten
unabhängig
von der Selektion der selektierten Bereiche/Oligonukleotide durchgeführt wird
und die Ergebnisse gespeichert werden. Wenn sogar Spezifitätsinformationen über unterschiedliche
Längen
der selektierten Bereiche/Oligonukleotide gespeichert werden, ist
eine maximale Flexibilität
und Performance bei der späteren
Selektion der Oligonukleotide gegeben.
-
Verfahren,
mit denen alle Prozessschritte von der Synthese der DNA auf DNA-Chips über das
biologische Experiment bis zur Datenerfassung automatisiert in nur
wenigen Stunden durchgeführt
werden können, gehören zum
Stand der Technik. Diese Verfahren können in einem vollautomatisierten
System durchgeführt werden.
Zum Beispiel ist das geniom® one der Fa. febit, Mannheim,
ein außerordentlich
flexibles Gerät
für den Labortisch
zur Synthese, Hybridisierung und Detektion verschiedenster Oligonukleotide.
Es ist daher eine Aufgabe der vorliegenden Erfindung, Verfahren
zur Selektion von Oligonukleotiden bereitzustellen, die so schnell abgearbeitet
werden können,
dass das Potenzial von automatisierten Systemen, wie z.B. des geniom® one, voll
ausgenutzt werden kann.
-
Diese
Aufgaben werden erfindungsgemäß durch
Verfahren gelöst,
die gekennzeichnet sind durch die zeitliche und räumliche
Trennung der Berechnung der spezifischen Bereiche und der Selektion
optimaler Oligonukleotide, durch die Berechnung spezifischer Bereiche
parallel durch mehrere Rechner und durch die Bewertung der optimalen
Oligonukleotide über
eine Bewertungsmatrix, die im Wesentlichen ohne absolute Ausschlusskriterien
arbeitet.
-
Die
erfindungsgemäßen Verfahren
zur Berechnung spezifischer Bereiche haben das Ziel, Oligonukleotide
zu bestimmen, die möglichst
nur in einem von mehreren/vielen Fragmenten vorkommen, die also
eindeutig für
dieses Fragment „kodieren". Diese Oligonukleotide,
Sonden genannt, finden zum Beispiel im Gene Expression Profiling
ihre Anwendung. Hier soll eine Sonde eindeutig für ein bestimmtes Gen kodieren,
so dass durch Hybridisierung festgestellt werden kann, ob das entsprechende
Gen exprimiert wurde.
-
Vor
der Bestimmung spezifischer Bereiche muss festgelegt werden, im
Vergleich zu welchen anderen Fragmenten die Spezifität eines
bestimmten Fragments berechnet werden soll. Eine mögliche Aufgabenstellung
ist zum Beispiel der Abgleich aller Hefe-Gene untereinander, um
für alle
Gene oder bestimmte Gruppen von Genen dieses Organismus eindeutige
Sonden bestimmen zu können.
Der Abgleich der ausgewählten Fragmente
untereinander wird schrittweise durchgeführt. Dazu wird jedes der Fragmente
mit jedem anderen ausgewählten
Fragment verglichen, wobei – wenn
möglich – doppelte
Vergleiche vermieden werden.
-
Mit
Fragment wird jeder Typ einer genetischen Sequenz bezeichnet. Es
kann sich dabei z.B. um Gensequenzen, Consensussequenzen oder unbekanntes
Material handeln. Insbesondere wird der Begriff Fragment, Fragment
oder auch Nukleinsäuresequenz
z.B. der Länge
m verwendet, um die Nukleinsäure/Nukleinsäuresequenz
zu bezeichnen, die vorgegeben ist und für die eine spezifische Teilsequenz
der Länge
n selektiert werden soll. Der Begriff Teilsequenz wird nur in diesem
Sinn verwendet.
-
Die
Gesamtsequenz ist die Gesamtheit aller Nukleotidsequenzen, z.B.
in Form einer Datenbank, die die Grundlage für die Auswahl der Teilsequenz
bildet. Als Gesamtsequenz werden z.B. die bekannten Sequenzen der
Nukleinsäuren
zusammengefasst, die in einer Probe, einem Gewebe oder einem Organismus,
z.B. einer Zelle, vorkommen können,
mit der/dem eine Nukleinsäure
mit der selektierten Teilsequenz in Kontakt gebracht wird. Die Gesamtsequenz
kann z.B. die gesamte Sequenz eines Genoms sein, wie das Humangenom. Alternativ
kann es sich aber auch nur um einen Ausschnitt aus einem Genom,
wie z.B. das Transkriptom handeln. Auch andere Gesamtsequenzen sind
denkbar, z.B. eine Genbibliothek oder ein Klon-Gemisch.
-
Unter
Spezifität
bzw. Spezifitätsberechnung
wird verstanden, wie oft eine Teilsequenz innerhalb der Gesamtsequenz
mit einer definierten Ähnlichkeit
auftritt. Selektion betrifft die Wahl einer Nukleinsäure anhand der
physikalischen und chemischen Eigenschaften und der Struktur im
Vergleich zu anderen Nukleinsäuren, also
die Oligonukleotid-internen Eigenschaften. Die Selektion betrifft
z.B. die Auswahl einer Teilsequenz aus mindestens zwei Teilsequenzen.
-
Ein
Gegenstand der Erfindung ist somit ein Verfahren zur Bestimmung
der Ähnlichkeit
einer Nukleinsäuresequenz
bezüglich
einer gegebenen Gesamtsequenz, umfassend die Schritte
- (I) Alignment der Nukleinsäuresequenz
mit der Gesamtsequenz, wobei diejenigen zusammenhängenden Anteile
der Gesamtsequenz bestimmt werden, die ein vorgegebenes Mindestmaß an Übereinstimmung
mit der Sequenz oder einer Teilsequenz hiervon haben, und
- (II) Beschreibung der Übereinstimmung
der in Schritt (I) bestimmten Anteile der Gesamtsequenz mit der Nukleinsäuresequenz
oder einer Teilsequenz hiervon in Form von Scores mindestens eines
Typs für
Segmente mindestens einer gegebenen Länge und
- (III) gegebenenfalls Mergen der in Schritt (II) erhaltenen Scores.
-
Dieses
Verfahren kann weitere Schritte enthalten. In einer weiteren Ausführungsform
ist es auf die Schritte (I) bis (III) beschränkt. In noch einer weiteren
Ausführungsform
wird in Schritt (I) kein Mindestmaß an Übereinstimmung für das Alignment
festgelegt.
-
Ein
weiterer Gegenstand der Erfindung ist ein Verfahren zur Auswahl
einer Teilsequenz der Länge
n aus einer Nukleinsäuresequenz
der Länge
m, die eine möglichst
geringe Ähnlichkeit
zu einer gegebenen Gesamtsequenz haben soll, die die Nukleinsäuresequenz
der Länge
m nicht enthält,
umfassend die Schritte
- (a) Erstellung einer
Liste von vorbestimmten m – n
+ 1 Teilsequenzen, wobei für
jede Teilsequenz Scores bezüglich
der Gesamtsequenz nach dem oben beschriebenen erfindungsgemäßen Verfahren
zur Bestimmung der Ähnlichkeit
einer Nukleinsäuresequenz
bezüglich
der Gesamtsequenz berechnet werden, und
- (b) Auswahl derjenigen Teilsequenzen aus der Liste nach Schritt
(a) anhand der Scores mit einer möglichst geringen Ähnlichkeit
zur Gesamtsequenz, die die Nukleinsäuresequenz der Länge m nicht
enthält,
und
- (c) Ausschließen
derjenigen Teilsequenzen aus Schritt (b), die vorgegebene absolute
Kriterien nicht erfüllen,
und
- (d) Durchführen
des unten beschriebenen Verfahrens zur Selektion von Nukleinsäuresequenzen
aus einer Liste von Nukleinsäuresequenzen
anhand einer Gesamtpunktzahl für
jede Sequenz mit den nach Schritt
- (c) verbleibenden Teilsequenzen.
-
Dieses
Verfahren kann weitere Schritte enthalten. In einer weiteren Ausführungsform
ist es auf die Schritte (a) bis (d) beschränkt. In noch einer weiteren
Ausführungsform
wird kein Mindestmaß an Übereinstimmung
für das
Alignment festgelegt.
-
In
einer bevorzugten Ausführungsform
ist die Gesamtsequenz die gesamte Sequenz eines Genoms, z.B. eines
Säugers
oder des Menschen, ein Ausschnitt eines Genoms, z.B. das Transkriptom,
eine Genbibliothek, z.B. ein Klongemisch, eine funktionelle Gruppe
von Genen oder/und eine Mischung von verschiedenen Genomen oder/und
von Teilen verschiedener Genome oder/und von Ausschnitten aus Genomen.
-
Der
Wert von m kann die Länge
von mehreren Genomen, insbesondere von Säugergenomen umfassen. Vorzugsweise
umfasst m die Längen
von bis zu fünf,
stärker
bevorzugt von bis zu drei und am stärksten bevorzugt von bis zu
einem kompletten Genom. Der Wert für die untere Grenze vom m kann
die Länge
von mindestens einem Gen oder einem Teilstück eines Gens umfassen. Vorzugsweise
wird die Länge
von mindestens 100 Genen oder Teilstücken von Genen umfasst, stärker bevorzugt
die Länge
von mindestens 1000 Genen oder Teilstücken von Genen, noch stärker bevorzugt
die Länge
von mindestens 5000 Genen oder Teilstücken von Genen und am stärksten bevorzugt
die Länge
von mindestens 20000 Genen oder Teilstücken von Genen.
-
Der
Wert von n ist kleiner als m. Bevorzugte Werte für n betragen 8 bis 100. Stärker bevorzugt
sind Werte von 15 bis 60, am stärksten
bevorzugt 20 bis 30.
-
Ein
bevorzugter Scoretyp ist die Anzahl der exakt übereinstimmenden Nukleotide
(= Matches) innerhalb jedes Bereichs einer gegebenen Länge, z.B.
der Länge
n. Bei diesem Scoretyp werden mit Hilfe des globalen Alignments
in einer Teilsequenz der Länge
n gefundene Übereinstimmungen
zwischen den beiden Fragmenten verwendet. Dieser Scoretyp ist absolut,
d.h. für
jede Übereinstimmung
in einer Base wird der Score um einen Zähler erhöht. So ist bei diesem Scoretyp
ein maximaler Score von n möglich,
was einer vollständigen Übereinstimmung
entspricht. Dieser Score lässt
sich folgendermaßen
darstellen:
mit f(j) = 0, wenn an der
Stelle j ein Mismatch vorliegt und f(j) = 1, wenn an der Stelle
j ein Match vorliegt, wobei Score
i(n) der
Score der Teilsequenz der Länge
n mit dem Startpunkt i ist.
-
Ein
anderer bevorzugter Scoretyp ist die Lage der Matches und Mismatches (=
nicht übereinstimmende
Nukleotide) in Relation zueinander. Dabei handelt es sich um einen
relativen Score. Eine Formel zur Berechnung dieser Scores ist
wobei es sich bei den c
x jeweils um Konstanten handelt. Mit Einzelmatch
wird ein Match bezeichnet, der als Nachbarn keine Matches hat, als
Startmatch wird ein Match bezeichnet, bei dem genau ein Nachbar
ein Match ist, und als Innerermatch wird ein Match bezeichnet, bei
dem beide Nachbarn Matches sind. Zudem kann der konstante Wert für einen
Match noch mit einem Faktor multipliziert werden, der abhängig ist
von der Base, die diesen Match ausbildet.
-
Noch
ein anderer bevorzugter Scoretyp ist ein Wert für die Stabilität der Bindung
auf dem Teilstück
der Länge
n.
-
In
einer weiteren Ausführungsform
wird die Durchführung
von Schritt (a) zeitlich von den anderen Schritten getrennt und
die Ergebnisse werden zwischengespeichert.
-
In
einer weiteren Ausführungsform
umfasst Schritt (a) des erfindungsgemäßen Verfahrens zur Auswahl
einer Teilsequenz der Länge
n aus einer Nukleinsäuresequenz
der Länge
m die Erstellung der Liste in Form einer Datenbank, wobei die Datenbank
Datensätze
enthält,
umfassend jeweils eine gegebene Nukleinsäuresequenz der Länge m, mindestens
eine Teilsequenz mindestens einer Länge n und mindestens einen zur Teilsequenz
gehörigen
Score mindestens eines Typs und wobei der mindestens eine Score
den Grad an Übereinstimmung
der Teilsequenzen der Länge
n der Gesamtsequenz beschreibt.
-
Schritt
(a) des erfindungsgemäßen Verfahrens
zur Auswahl einer Teilsequenz der Länge n aus einer Nukleinsäuresequenz
der Länge
m umfasst folgende Schritte
- (a1) ein Alignment
der Nukleinsäuresequenz
der Länge
m mit der Gesamtsequenz, die die Nukleinsäuresequenz der Länge m nicht
enthält,
- (a2) gegebenenfalls Erstellen eines Spezifitätsstrings aus den Ergebnissen
des Alignments,
- (a3) Berechnen der Scores für
die Teilsequenz der Länge
n anhand der Ergebnisse des Alignments und/oder anhand des Spezifitätsstrings,
- (a4) Speichern der in Schritt (a3) berechneten Scores und
- (a5) gegebenenfalls Wiederholen der Schritte (a1) bis (a3) mit
einer gegebenenfalls modifizierten Gesamtsequenz und Mergen der
erhaltenen Scores mit den in Schritt (a4) gespeicherten Scores.
-
In
einer weiteren Ausführungsform
werden die Schritte (a1) bis (a5) anstelle der Schritte (I) bis
(III) des oben beschriebenen Verfahrens zur Bestimmung der Ähnlichkeit
einer Nukleinsäuresequenz
bezüglich
einer gegebenen Gesamtsequenz durchgeführt. In noch einer weiteren
Ausführungsform
wird kein Mindestmaß an Übereinstimmung
für das
Alignment festgelegt.
-
Zum
Alignment in Schritt (a) des Verfahrens zur Bestimmung der Ähnlichkeit
einer Nukleinsäuresequenz
bezüglich
einer gegebenen Gesamtsequenz oder/und Schritt (a1) zur Auswahl
einer Teilsequenz der Länge
n aus einer Nukleinsäuresequenz
der Länge
m von jeweils zwei der ausgewählten
Fragmente wird der Smith & Waterman-Algorithmus
verwendet, um ein möglichst
gutes global Alignment der beiden Sequenzen zu gewährleisten. Übersteigt
die Größe der aufzustellenden
Smith & Waterman-Matrix
eine vorgegebenen Größe, wird
das Alignmentproblem mit der Divide & Conquer-Methode solange in Teilprobleme zerlegt,
bis deren Matrix die vorgegebene Größe nicht mehr überschreitet.
Alternativ können
Algorithmen wie BLAST oder/und FASTA oder/und Suffix-Trees verwendet
werden.
-
Das
Ergebnis des oben beschriebenen Alignments, die Darstellung der
verglichenen Sequenzen mit Deletionen und Gaps, wird gegebenenfalls
in so genannte Spezifitätsstrings
gewandelt. Diese Strings dienen der Abstraktion und stellen nur
noch die Art der einzelnen Sequenzelemente dar, nicht mehr ihren
Inhalt (2).
-
Mit
Hilfe des Spezifitätsstrings
für das
Fragment, dessen Spezifität
festgestellt werden soll, kann nun das Alignment bewertet werden.
Dazu wird jeder Teilbereich des Spezifitätsstrings betrachtet. Die Größe der Teilbereiche
ergibt sich aus der gewünschten
Länge der
zu bestimmenden Sonden; daher ist es sinnvoll, den Spezifitätsstring
für unterschiedliche
Sondenlängen
zu beurteilen. Die erhaltene Information auf Basenebene (Match/Mismatch)
wird also nun durch eine Information über die Spezifität der möglichen
n-mere aus diesem Fragment ersetzt.
-
Die
Bewertung erfolgt durch Berechnung von verschiedenen Scores für jeden
Bereich des Spezifitätsstrings
der Länge
n. Es ist bevorzugt, dass die Scores in Schritt (a3) für mehr als
einen Wert von n berechnet werden. Die Berechnung der Scores für verschiedene
Längen
n macht die Trennung der Spezifitätsberechnung von der Selektion
der Oligonukleotide möglich.
So können
später
die Sondenlängen
variiert werden, ohne dass die Spezifitäten für andere Sondenlängen neu
berechnet werden müssen.
Die Berechnung der Scores für
mehr als ein n hat also den Vorteil einer größeren Flexibilität. Damit
steht die Sondenlänge
als zusätzlicher
Parameter für
die Auswahl der besten Sonde zur Verfügung, ohne dass sich der Rechenaufwand wesentlich
erhöht.
Durch Berechnung von Scores für
viele Werte von n, bevorzugt für
vorbestimmte Werte oder alle Werte von 8 bis 100, stärker bevorzugt
für vorbestimmte
Werte oder alle Werte von 15 bis 60, am stärksten bevorzugt für vorbestimmte
Werte oder alle Werte von 20 bis 30, ist die Abkopplung der Spezifitätsberechnung
von der späteren
(schnellen) Selektion geeigneter Sondensequenzen möglich, da
die Spezifitätsdaten
für die
entsprechende Sondenlänge
mit einbezogen werden können.
Dies geschieht auf effiziente Weise, indem die Spezifitäten für diese
Längen
als Scores bestimmt werden. Die verschiedenen Scores werden gespeichert,
wobei es für
einen Spezifitätsstring
der Länge
m insgesamt m – n
+ 1 Werte pro Länge
n und Scoretyp gibt.
-
Die
Ergebnisse der Spezifitätsberechnung
können
vollständig
in einem relationellen Datenbank-System abgebildet werden (
3). Um alle Alignments für ein Fragment
in die Bewertung einbeziehen zu können, müssen die Scores der einzelnen
Alignments gemergt werden. Mit diesem Vorgehen erhält man für jeden Teilbereich
des untersuchten Fragments einen oder mehrere Werte für die Spezifität dieses
Teilstücks.
Wenn ein Fragment gegen mehr als ein anderes Fragment abgeglichen
werden soll, ist es notwendig, die bei den unterschiedlichen Alignments
erhaltenen Bewertungen (Scores) zu einer Gesamtbewertung zusammenzufügen (= mergen).
In einer bevorzugten Ausführungsform
geschieht dies dadurch, dass zwei berechnete Scores für die gleiche
Teilsequenz der Länge
n verglichen werden und dann je nach Verfahren entweder der höhere oder
der niedrigere dieser beiden Werte als neuer Score übernommen
wird. Dies wird für
alle Teilstücke
der Länge
n durchgeführt
und für
jedes Fragment mit dem das Ausgangsfragment verglichen wird. Das
Resultat ist die Gesamtbewertung des Fragments im Bezug auf alle
abgeglichenen Fragmente. Diese Bewertung enthält für jede Teilsequenz n je nach
gewähltem
Verfahren entweder den niedrigsten in allen Alignments ermittelten
Wert oder den höchsten
in allen Aligments ermittelten Wert.
![Figure 00120001](https://patentimages.storage.***apis.com/39/56/38/ad90acafdf409a/00120001.png)
wobei
Score
n(i) der Gesamtscore für die Teilsequenz
der Länge
n an der Position i im Fragment ist und Score
nj(i)
der Score des Alignments des Ausgangsfragments mit dem j-ten Fragment
für die
Teilsequenz der Länge
n an der Position i.
-
In
einer anderen bevorzugten Ausführungsform
wird gemergt, indem der Durchschnitt aller Teilscores oder die Summe
aller Teilscores gebildet wird. Es können auch verschiedene Formen
des Mergens nebeneinander verwendet werden.
-
Als
absolutes Kriterium in Schritt (c) wird in einer weiteren bevorzugten
Ausführungsform
die Länge
n der Sonden verwendet. Bevorzugte Werte sind 8 bis 100 Basen, stärker bevorzugt
15 bis 60 Basen und am stärksten
bevorzugt 20 bis 30 Basen. Ein weiteres Kriterium ist die Anzahl,
mit der die gleiche Base hintereinander in der Teilsequenz der Länge n auftritt,
hier wird bevorzugt, dass weniger als 4 gleiche Basen hintereinander
auftreten. Weiterhin kann der prozentuale Anteil von CG (CG-Gehalt)
in den Teilsequenzen als absolutes Kriterium herangezogen werden.
Für Teilsequenzen
der Länge
n = 25 beträgt
ein bevorzugter CG-Gehalt 40 bis 50 %, ein besonders bevorzugter
Wert ist 48 %. Weiterhin werden Teilsequenzen bevorzugt, die mit
anderen Teilsequenzen nur zu einem bestimmten Grad überlappen,
wobei es besonders bevorzugt ist, dass eine selektierte Sonde am
3'- bzw. 5'-Ende mit maximal
5 Basen mit einer anderen selektierten Sonde übereinstimmt.
-
Durch
das oben beschriebene Vorgehen ist es möglich, redundante Informationen
aus unbereinigten Sets von Fragmenten zu filtern. Nach dem Alignment
zweier Sequenzen kann mit Hilfe des Spezifitätsstrings bzw. der Scorewerte
ein Wert für
die Übereinstimmung
der Sequenzen auf der kompletten Länge bestimmt werden. Überschreitet
dieser Wert eine gesetzte Schwelle, gelten die Fragmente als redundant.
Es ist nun möglich,
das redundante Fragment aus der Berechnung auszuschließen.
-
Der
Prozess der Ermittlung spezifischer Bereiche für eine Vielzahl von Fragmenten
(z.B. alle Gene eines Organismus) stellt einen immensen Rechenaufwand
dar. Wenn bei einem Organismus mit 10.000 Genen jedes Gen gegen
alle vorhandenen Gene überprüft werden
soll, dann sind für
diesen Organismus insgesamt 100 Millionen Vergleiche nach Smith & Waterman, BLAST
oder/und FASTA durchzuführen.
Das stellt bei der heute zur Verfügung stehenden Standard PC-Hardware
einen zeitlichen Aufwand von mehreren Monaten dar. Dieser Vorgang
stellt allerdings einen nahezu vollständig parallelisierbaren Prozess
dar. Jedes zu untersuchende Fragmente kann für sich gegen die gewählte Datenbasis überprüft werden,
ohne dass Abhängigkeiten mit
dritten Prozessen zu erwarten sind.
-
Es
ist nun möglich,
einen zentralen Verwaltungs-Server aufzubauen, der die Liste der
zu untersuchenden Fragmente und Angaben über Parameter und die Datenbasis,
gegen die jedes Fragment überprüft werden soll,
enthält.
Anfragende Client-Rechner bekommen jeweils ein zu untersuchendes
Fragment aus der Liste zugewiesen. Dieses Fragment wird auf dem
Verwaltungs-Server als „in
Bearbeitung" vermerkt.
Wenn ein Client ein Fragment bearbeitet hat und das Ergebnis gespeichert
ist, wird dieses Fragment auf dem Verwaltungs-Server von der Liste
der zu untersuchenden Fragmente gelöscht. Mechanismen zur Erkennung
von fehlerhaften und nicht mehr an der Berechnung beteiligten Client-Rechnern
helfen hierbei die Konsistenz zu wahren. Ein solches Server-Client-System
kann z.B. durch Zusammenschluss vieler Standard-PCs zu einem sehr
günstigen
und leistungsfähigen „virtuellen
Großrechner" realisiert werden.
Es ist daher bevorzugt, die Spezifitätsberechnung mit einem Client-Server-System
durchführen.
Insbesondere wird Schritt (I) des Verfahrens zur Bestimmung der Ähnlichkeit
bezüglich
einer gegebenen Gesamtsequenz oder/und Schritt (a) des Verfahrens
zur Auswahl einer Teilsequenz der Länge n aus einer Nukleinsäuresequenz
der Länge
m mit einem Client-Server-System für mindestens zwei verschiedene
Teilsequenzen auf mindestens zwei Clients parallel durchgeführt.
-
Die
bei Selektion von Oligonukleotiden aus einer vorgegebenen Sequenz
ausgewählten
Sonden sollen mehrere Vorgaben erfüllen. Zum einen müssen ihre
allgemeinen Parameter wie gewünschte
Länge oder zugelassene Überlappung
zwischen den Sonden erfüllt
sein. Zum anderen sollen nur solche Oligonukleotide ausgewählt werden,
deren Sequenzmotive ähnliche
biochemische Eigenschaften versprechen. Diese Eigenschaften reichen
von der Stabilität
der bei der Hybridisierung ausgebildeten Duplex-Verbindungen bis
hin zu der Neigung der Sonde zur Ausbildung von dreidimensionalen
Sekundärstrukturen.
Zusätzlich
werden hier die Daten aus der Spezifitätsberechnung zur Selektion
mit herangezogen.
-
Ein
Problem bei der automatisierten Selektion von Oligonukleotiden ist
die Tatsache, dass die Sequenzstrukturen, aus denen die Oligonukleotide
ausgewählt
werden sollen, nicht vorhersehbar sind. Einige Fragmente bieten
hier unter Umständen
genügend
Auswahl an Oligonukleotiden, die alle Parameter erfüllen. Andere
Fragmente hingegen besitzen einen so hohen oder niedrigen Anteil
an Guanin oder Cytosin, dass die geforderte Stabilität der Duplexverbindungen
bei keinem der Sondenkandidaten erreicht werden kann. Ein weiteres
Beispiel wäre
ein Fragment, dass zu großen
Teilen redundant in der Datenbasis zu finden ist, und für das keine
ausreichend spezifischen Oligonukleotide ausgewählt werden können.
-
Eine
Selektionslogik, die auf festen Parametern beruht, würde hier
keine oder zu wenige Sonden finden, die die Spezifikationen erfüllen. Das
ist auch richtig, da dies ja die vorgegebenen Kriterien waren. Eine starre
Selektionslogik würde
allerdings auch solche Oligonukleotide als ungeeignet aussortieren,
die einen nur um 0,1°C
zu hohen Schmelzpunkt besitzen, in alten weiteren Kriterien aber
hervorragende Werte besitzen, also hochspezifisch sind und in der
gewünschten
Region des Fragments liegen. Das erfindungsgemäßen Verfahren selektiert also
nicht die Oligonukleotide, die alle Vorgaben erfüllen, sondern wählt vielmehr
vorteilhafterweise die unter Einbeziehung aller Parameter besten
Oligonukleotide aus dem gewählten
Fragment aus, auch wenn dabei einige Kriterien nicht erfüllt werden.
-
Durch
die Trennung der zeitaufwändigen
Ermittlung spezifischer Bereiche eines Fragments von der Selektion
optimaler Oligonukleotide ist nach einem einmaligen zeitaufwändigen Rechenvorgang
in kürzester Zeit
die Oligonukleotidkonfiguration abänderbar ohne eine weitere zeitaufwändige Berechnung
und ohne Qualitätsverlust
der erzeugten Sequenzen möglich.
Die Selektion der Oligonukleotide verläuft in wesentlichen Teilen
nicht mit starren Parametern, sondern mit einem Bewertungssystem,
dass stets die in der Summe besten Oligonukleotide zurück gibt,
ohne bestimmte Parameter-Werte
auszuschließen.
-
Die
Selektion geschieht durch die Implementierung von gewichteten Parametern
(4). Diese Parameter
besitzen mehrere Eigenschaften. Zum einen wird auch hier ein bevorzugter
Wert festgelegt (z.B. eine Schmelztemperatur der Duplexverbindungen)
und zum anderen gibt der Benutzer einen Strafwert an, der eine Gewichtung
dieses Parameters gegenüber
den anderen Parametern vorgibt. Ein höherer Wert bedeutet hier ein
höherer
Strafwert beim Abweichen von dem bevorzugten Wert und damit eine
schlechtere Einstufung dieser Sonde. Die Strafwerte aller gewichteten
Parameter werden addiert. Die Sonden mit den geringsten Strafwerten
stellen somit die unter Einbeziehung aller Parameter bestmöglichen
Sonden dar. Dieses Prinzip ist dem aus der Biologie bekannten „Survival
of the fittest" sehr ähnlich,
da hier nur die in der Summe am besten angepassten Sonden selektiert
werden.
-
Neben
den gewichteten Parametern müssen
zusätzlich
noch starre Parameter (absolute Parameter) verwendet werden, die
einige Ausschlusskriterien definieren (siehe oben).
-
Die
verwendeten Parameter lassen sich in drei Kategorien einteilen:
- 1. Selektionsparameter: Diese Parameter werden
zur Vor-Selektion der Sonden verwendet (z.B. Länge der Sonden).
- 2. Absolute Parameter: Eine Über-
oder Unterschreitung dieser Parameter führt zum Ausschluss dieser Sonde.
Beispiele hierfür
sind die oben beschriebenen Parameter der Basenkomposition (CG-Gehalt),
der Überlappung
der Sonden, der Länge
der Sonden oder der Anzahl, mit der die gleiche Base hintereinander in
der Teilsequenz auftritt, die sich im praktischen Versuch als essentiell
und nicht tolerierbar herausgestellt haben.
- 3. Gewichtete Parameter: Über-
oder Unterschreitung dieser Werte führt nicht direkt zum Ausschluss
der Sonde. Jedem dieser Parameter ist ein Multiplikator (Gewichtung)
zugeordnet.
-
Die
Selektion der Oligonukleotide beginnt zunächst mit der Generierung aller
möglichen
Sonden gemäß der Selektionsparameter.
Es werden aus einem 2000 bp langen Fragment z.B. alle möglichen
20mere generiert. Man erhält
also in diesem Beispiel 1981 Sondenkandidaten der Länge 20 Basenpaare
(Überlappung).
-
Der
nächste
Schritt ist die Berechnung aller Werte der absoluten Parameter.
Bei einer Über-
oder Unterschreitung der gewählten
Grenzen wird dieser Sondenkandidat intern aus der Liste der möglichen
Kandidaten gelöscht.
-
Für diese
verkleinerte Liste der Sondenkandidaten werden nun für jeden
Kandidaten alle gewichteten Parameter bestimmt. Anschließend werden
die erhaltenen Werte der gewichteten Parameter für jeden Kandidaten zu einer
Gesamtpunktzahl addiert. Hierbei können auch die berechneten Spezifitätsdaten
für die
Teilsequenzen als gewichtete Parameter eingehen.
-
Die
Sondenkandidaten mit der niedrigsten Gesamtpunktzahl stellen nach
den vom Benutzer vorgegebenen Gewichtungen die optimalen Sonden
dar und werden unter Berücksichtigung
der zugelassenen Überlappung
und der Anzahl der Sonden von der Liste der Sondenkandidaten auf
die Liste der ausgewählten
Sonden kopiert.
-
Noch
ein weiterer Gegenstand der Erfindung ist also ein Verfahren zur
Selektion von Nukleinsäuresequenzen
aus einer Liste von Nukleinsäuresequenzen
anhand einer Gesamtpunktzahl für
jede Sequenz, die aus einem Set numerischer Parameter für jede Sequenz
berechnet wird, umfassend die Schritte
- (1)
Festlegung von bevorzugten Werten für jeden Parameter und von Werten
zur Gewichtung für
jeden Parameter und
- (2) Verknüpfung
jedes Parameters mit seinem bevorzugten Wert und Gewichtung des
Ergebnisses zu einem Straf-Wert getrennt für jede Sequenz und
- (3) Verknüpfen
der Ergebnisse aus Schritt (2) zu einer Gesamtpunktzahl getrennt
für jede
Sequenz und
- (4) gegebenenfalls ein- oder mehrfache Wiederholung der Schritte
(1) bis (3) und
- (5) Selektion derjenigen Sequenzen anhand der Gesamtpunktzahlen,
deren Parameter am geringsten von den bevorzugten Werten abweichen.
-
Dieses
Verfahren kann weitere Schritte enthalten.
-
In
einer weiteren Ausführungsform
ist das Verfahren auf die Schritte (1) bis (5) beschränkt.
-
In
bevorzugten Ausführungsformen
werden als numerische Parameter die Schmelztemperatur der Duplexverbindung,
die Position der Sonde im Fragment (Nähe zum 3'-Ende), die Spezifität der Sonde oder/und die Neigung
zur Ausbildung einer Sekundärstruktur
verwendet. Weiterhin ist es bevorzugt, dass die Verknüpfung nach
Schritt (b) und (c) gemäß der Formel
durchgeführt wird, wobei S die Gesamtpunktzahl,
p
i ein numerischer Parameter, b
i ein
bevorzugter Wert, g
i ein Gewichtungsfaktor
und q eine Zahl > 0
ist. Besonders bevorzugt ist 0 < q < 3. Stärker bevorzugt
ist 0,5 < q < 2,5. Am meisten
bevorzugt ist q = 1 oder q = 2. Die Zahl i ist der Laufindex für die verschiedenen
Parameter.
-
In
weiteren bevorzugten Ausführungsformen
wird die Gesamtpunktzahl gemäß
bestimmt.
-
Die
erfindungsgemäßen Verfahren
können überall dort
vorteilhaft eingesetzt werden, wo größere Mengen genetischer Informationen,
die in Datenbanken zur Verfügung
stehen, zur schnellen Auswahl von Hybridisierungssonden bearbeitet
werden müssen.
-
Eine
flexible, schnelle und vollautomatische Methode zur Generierung
von DNA-Arrays mit integrierter Detektion in einem logischen System,
wie sie z.B. in WO 00/13018 und
DE
199 40 749.5 beschrieben ist, ermöglicht es, innerhalb von kurzer
Zeit durch die Auswertung der Daten eines Arrays die notwendigen
Informationen für
den Aufbau eines neuen Arrays zu erhalten (Informationszyklus).
Dieser Informationszyklus erlaubt eine automatische Anpassung der
nächsten
Analyse durch Auswahl geeigneter Polymersonden, z.B. Nukleinsäuresonden
zur Hybridisierung für
das neue Array. Dabei kann unter Berücksichtigung des erhaltenen
Ergebnisses die Breite der Fragestellung zugunsten einer höheren Spezifität eingeschränkt oder
die Richtung der Fragestellung moduliert werden.
-
Ein
weiterer Gegenstand der Erfindung ist daher eine programmtechnisch
eingerichtete Vorrichtung zur Durchführung der erfindungsgemäßen Verfahren
für die
Bestimmung spezifisch bindender Oligonukleotide in einer größeren Gesamtsequenz
in Vorbereitung einer Anwendung von Oligonukleotiden in einem Bindungsexperiment
in zwei Schritten, mit einem ersten Arbeitsschritt für die Ermittlung
möglichst
spezifischer oder selten vorkommender Bereiche innerhalb der Gesamtsequenz
und einem zweiten Arbeitsschritt für die Auswahl von Oligonukleotiden
in diesen Bereichen der bearbeiteten Gesamtsequenz.
-
Noch
ein weiterer Gegenstand der Erfindung ist daher die Verwendung einer
programmtechnisch eingerichteten weiteren Vorrichtung im Zusammenspiel
mit weiteren technischen Vorrichtungen für die Synthese der ausgewählten Oligonukleotid-Sonden.
Diese Synthese erfolgt entweder direkt in Form eines Reaktionsträgers, der
anschließend
einen Microarray aufweist, oder mittels chemischer Oligonukleotid-Synthese
auf einer Säule
und anschließendem
Aufbringen der Oligonukleotid-Sonden auf einen Reaktionsträger.
-
Für die Durchführung eines
Hybridisierungsexperiments handelt es sich bei der Gesamtsequenz
z.B. um ein Genom oder Transkriptom oder Teile hiervon oder Sequenzen
von Nukleinsäuren,
die in Proben enthalten sind, die aus einem oder mehreren Organismen
gewonnen werden können.
Bei der Bestimmung im ersten Schritt handelt es sich um die Auswahl
von selten oder singulär
vorkommenden Sequenzabschnitten in der Gesamtsequenz sowie im zweiten
Schritt um die Auswahl von geeigneten Oligonukleotid-Sonden.
-
Die
Erfindung betrifft somit ein Verfahren zur Herstellung von Hybridisierungssonden,
wobei
- (a) die Sonden als Teilsequenz aus einer
Nukleinsäuresequenz
bezüglich
einer Gesamtsequenz nach dem oben beschriebenen Verfahren ausgewählt werden,
und
- (b) die Sonden synthetisiert werden.
-
Die
Sonden können
auf einem oder mehreren Reaktionsträgern aufgebracht oder auf einem
oder mehreren Reaktionsträgern
synthetisiert werden. Hierbei ist bevorzugt, dass die Hybridisierungssonden
auf einem einzigen Reaktionsträger
aufgebracht werden oder/und auf einem einzigen Reaktionsträger synthetisiert werden.
Der Reaktionsträger
kann ein handelsübliches
DNA-Array sein. Bevorzugt ist es, mindestens 6000 Hybridisierungssonden
gleichzeitig aufzubringen, besonders bevorzugt mindestens 48000.
-
Ein
besonders bevorzugter Reaktionsträger ist ein mikrofluidischer
Träger.
Derartige mikrofluidische Reaktionsträger sind z.B. in WO 01/08799
beschrieben. Ein solcher Reaktionsträger erlaubt eine sehr schnelle,
effiziente und damit kostengünstige
Bereitstellung einer Vielzahl von Reaktionsbereichen, z.B. für die integrierte
Synthese einer Vielzahl von Hybridisierungssonden und die Analyse
einer Vielzahl von Nukleinsäurefragmenten
mittels dieser Sonden.
-
Ein
weiterer Aspekt der Erfindung ist ein Verfahren zur Bestimmung von
Nukleinsäuren
in einer Probe, umfassend die Schritte:
- (a)
Herstellen von Hybridisierungssonden auf mindestens einem Reaktionsträger, z.B.
auf einem DNA-Array oder mindestens einem mikrofluidischen Reaktionsträger nach
dem oben beschriebenen Verfahren mit einer Vielzahl von an bestimmten
Bereichen immobilisierten Hybridisierungssonden, wobei die Hybridisierungssonden
in den einzelnen Bereichen jeweils eine unterschiedliche Spezifität aufweisen,
und
- (b) Inkontaktbringen der Probe, die zu bestimmende Nukleinsäuren enthält, mit
dem mindestens einen Träger
unter Bedingungen, bei denen eine Hybridisierung auf dem mindestens
einen Träger
erfolgen kann, und
- (c) Identifizieren der vorbestimmten Bereiche auf dem mindestens
einen Träger,
an denen eine Hybridisierung in Schritt (b) erfolgt ist, und
- (d) ein- oder mehrfaches Wiederholen der Schritte (a) bis (c),
wobei jeweils Reaktionsträger
verwendet werden, die Hybridisierungssonden enthalten, die gegenüber dem
oder den vorgehenden Durchführungen
der Schritte (a) bis (c) in Abhängigkeit
vom Ergebnis verändert
werden.
-
Das
Identifizieren der vorbestimmten Bereiche auf dem mindestens einen
Träger,
an denen eine Hybridisierung erfolgt ist, kann durch bekannte Verfahren
erfolgen. Hierzu können
die Hybridisierungssonden oder/und die zu bestimmenden Nukleinsäuren eine
Markierung mit z.B. einem Fluoreszenzfarbstoff enthalten. Die Signale
können
z.B. mit einer Detektionseinheit, bestehend aus einer Beleuchtungseinheit
und einem CCD-Chip, die sandwichartig den Träger umgreifen, von allen Bereichen
gleichzeitig aufgenommen werden.
-
In
Schritt (d) werden die Schritte (a) bis (c) mit veränderten
Hybridisierungssonden wiederholt. Es wird also mindestens ein neuer
Reaktionsträger
mit einer Vielzahl von an bestimmten Bereichen immobilisierten Hybridisierungssonden
bereitgestellt, wobei diese Sonden nach dem erfindungsgemäßen Verfahren
auf ihre Spezifität
gegenüber
der Gesamtsequenz überprüft und danach
selektiert werden.
-
Weiterhin
wird die Erfindung durch folgende Abbildungen näher erläutert:
-
1 zeigt mögliche Wege
zur Ermittlung optimaler Oligonukleotide.
-
2 zeigt das Beispiel einer
möglichen
Darstellungsweise für
einen Spezifitätsring.
-
3 zeigt den Berechnungsablauf
für spezifische
Bereiche.
-
4 zeigt das Ablaufschema
für die
Selektion optimaler Oligonukleotide.