DE10351065A1

DE10351065A1 - Sondenberechnung

Info

Publication number: DE10351065A1
Application number: DE10351065A
Authority: DE
Inventors: Michael Dahms; Andrea Schlauersbach; Michael Baum
Original assignee: Febit AG
Current assignee: Febit Holding GmbH
Priority date: 2003-05-08
Filing date: 2003-10-31
Publication date: 2004-12-02

Abstract

Die Erfindung betrifft ein Verfahren zur Auswahl einer Teilsequenz aus einer Nukleinsäuresequenz, die eine möglichst geringe Ähnlichkeit zu einer gegebenen Gesamtsequenz hat. Insbesondere betrifft die Erfindung ein Verfahren zur Auswahl von Teilsequenzen einer gegebenen Nukleinsäuresequenz, die zur Hybridisierung geeignet sind und aufgrund ihrer geringen Ähnlichkeit zur Gesamtsequenz zum Nachweis der gegebenen Nukleinsäuresequenz verwendet werden können.

Description

Die Erfindung betrifft ein Verfahren zur Auswahl einer Teilsequenz aus einer Nukleinsäuresequenz, die abgesehen von der enthaltenen Teilsequenz selbst, eine möglichst geringe Ähnlichkeit zu einer gegebenen Gesamtsequenz hat. Insbesondere betrifft die Erfindung ein Verfahren zur Auswahl von Teilsequenzen einer gegebenen Nukleinsäuresequenz, die zur Hybridisierung geeignet sind und aufgrund ihrer geringen Ähnlichkeit zur Gesamtsequenz, abgesehen von der enthaltenen Teilsequenz selbst, zum Nachweis der gegebenen Nukleinsäuresequenz verwendet werden können.
Um ein bestimmtes Fragment in einer komplexen Probe mittels kurzer Oligonukleotide durch Hybridisierung nachzuweisen, muss die DNA-Sequenz der Oligonukleotide vielerlei Eigenschaften erfüllen. Diese Eigenschaften der Oligonukleotide lassen sich in zwei wesentliche Kategorien einteilen:

1. Oligonukleotid-interne Eigenschaften, wie die Neigung zur Ausbildung von Sekundärstrukturen, Stabilität der Duplexverbindungen, Basenkomposition, etc.
2. Spezifität der Oligonukleotide: Angaben über die Qualität und Übereinstimmung der zweiten Bindungsstelle dieses Oligonukleotids in der gewählten Datenbasis. Ein Oligonukleotid ist für die meisten Anwendungen wertlos, wenn es neben der eigentlich zu detektierenden DNA-Sequenz noch eine Vielzahl weiterer Sequenzen detektiert. Ein Signal dieses Oligonukleotids ließe keine Rückschlüsse auf die detektierte Sequenz zu.

Die Bedeutung der Oligonukleotid-internen Parameter gegenüber der Spezifität variiert je nach Länge der zu selektierenden Oligonukleotide.
Längerkettige Sonden (> 50 bp) sind mit einer sehr großen Wahrscheinlichkeit ausreichend spezifisch für das zu untersuchende Fragment, verhalten sich aber zunehmend kritisch, was die Ausbildung von Sekundärstrukturen und Faltungen betrifft. Kürzere Oligonukleotide (> 30bp) wiederum haben eine geringere Tendenz zur Bildung von Faltungen. Hier kommt aber der Sicherstellung der Spezifität der selektierten Oligonukleotide eine immer größere Bedeutung zu.
Die Ermittlung der Oligonukleotid-internen Parameter stellt bei kürzerkettigen Oligonukleotiden einen vergleichsweise geringen zeitlichen Berechnungsaufwand dar. Die Ermittlung der Spezifität der Oligonukleotide kann aber, je nach Datenbasis, die zur Überprüfung herangezogen wird, einen sehr großen zeitlichen Aufwand bedeuten.
Generell bestehen zwei mögliche Ablaufschemata für die Berechnung der Spezifität und die Selektion der Oligonukleotide, die in 1 dargestellt sind. Beim ersten Weg wird die Spezifität für das gesamte Fragment bezüglich aller Nukleinsäuren, die in einer vorgegebenen Gesamtsequenz vorkommen könnten, berechnet. Im zweiten Schritt werden aus den Teilsequenzen, die für das Fragment spezifisch sind, anhand interner Eigenschaften Oligonukleotide selektiert, die für die Hybridisierung und damit dem Nachweis des Fragments geeignet sind. Der zweite Weg verfolgt die umgekehrte Strategie. Zunächst werden aus dem Fragment anhand interner Eigenschaften potenzielle Oligonukleotide selektiert, die im zweiten Schritt auf ihre Spezifität bezüglich der in einer vorgegebenen Gesamtsequenz vorkommenden Nukleinsäuresequenzen überprüft werden. Beide Wege bieten für sich Vor- und Nachteile.
Ein Verfahren, das den Weg 1 benutzt, ist von der Firma Illumina publiziert (http://www.illumina.com/RefSet_Oligos_Tech_Bulletin_5-03.pdf). Zunächst werden zu einem gegebenen Transkript ähnliche Regionen in einem Satz von Nukleotidsequenzen identifiziert. Herangezogen werden z.B. ESTs (estimated sequence tags) aus der GenBank-Datenbank. Hierzu wird ein Alignment unter Verwendung des BLAST-Algorithmus durchgeführt. Anhand dessen werden aus dem gegebenen Transkript diejenigen Sequenzen ausgewählt, die aufgrund ihrer Spezifität als Hybridisierungssonden geeignet sein könnten. Im nächsten Schritt wird anhand fester Kriterien die Auswahl des am besten geeigneten 70mers getroffen. Ein festes Kriterium ist der Schmelzpunkt T_M, der bei 78°C ± 5°C liegen muss. Ein weiteres Kriterium ist die Selbstkomplementarität der Sequenz, die zur Ausbildung von Haarnadelstrukturen führen kann. Die Stammsequenz der Haarnadelstruktur ist hierbei in der Regel kürzer als 10 Basen. Noch ein weiteres Kriterium ist der Abstand zum 3'-Ende des Transkripts, wobei Sequenzen negativ bewertet werden, wenn sie zwischen 300 und 1000 Nukleotide vom 3'-Ende entfernt sind. Eine Sequenz wird ausgeschlossen, wenn der Schmelzpunkt außerhalb des angegebenen Bereiches liegt, die Stammsequenz, die eine Haarnadelstruktur bilden könnte, mindestens 10 Basen lang ist, oder wenn der Abstand zum 3'-Ende des Transkripts 300 oder weniger Basen beträgt. In Einzelfällen (0,1 %) werden Sonden mit Stammsequenzen von 10 oder mehr Basen zugelassen. Dem Dokument ist nichts zu entnehmen, auf welche Weise eine Auswahl zwischen alternativen Sequenzen, die alle die gegebenen Kriterien erfüllen, getroffen wird. Das beschriebene Verfahren hat den Nachteil, dass insbesondere die Spezifitätsberechnungen praktisch vollständig wiederholt werden müssen, wenn der Satz der zugrunde liegenden Nukleotidsequenzen erweitert werden muss. Insbesondere betrifft dies die ESTs, die in der Regel unvollständig annotiert sind und daher einem kontinuierlichen Prozess der Korrektur (Ergänzung/Streichung) unterliegen. Dieser Nachteil macht sich insbesondere da bemerkbar, wo ein aktueller Datensatz als Grundlage für die Sondenberechnung notwendig ist.
Aufgabe der vorliegenden Erfindung ist es daher, Verfahren bereitzustellen, die die Auswahl von Bereichen aus einem gegebenen Fragment auf der Grundlage des jeweils neuesten Standes der öffentlich zugänglichen Nukleinsäure-Datenbanken erlauben, wobei die gewählten Bereiche für das angegebene Fragment so weit als möglich spezifisch sein sollen und die entsprechenden Nukleinsäuren zur Durchführung von Hybridisierungen geeignet sein sollen. Diese Aufgabe wird vorteilhafterweise dadurch gelöst, dass die zeitaufwändige Berechnung der Spezifitäten unabhängig von der Selektion der selektierten Bereiche/Oligonukleotide durchgeführt wird und die Ergebnisse gespeichert werden. Wenn sogar Spezifitätsinformationen über unterschiedliche Längen der selektierten Bereiche/Oligonukleotide gespeichert werden, ist eine maximale Flexibilität und Performance bei der späteren Selektion der Oligonukleotide gegeben.
Verfahren, mit denen alle Prozessschritte von der Synthese der DNA auf DNA-Chips über das biologische Experiment bis zur Datenerfassung automatisiert in nur wenigen Stunden durchgeführt werden können, gehören zum Stand der Technik. Diese Verfahren können in einem vollautomatisierten System durchgeführt werden. Zum Beispiel ist das geniom^® one der Fa. febit, Mannheim, ein außerordentlich flexibles Gerät für den Labortisch zur Synthese, Hybridisierung und Detektion verschiedenster Oligonukleotide. Es ist daher eine Aufgabe der vorliegenden Erfindung, Verfahren zur Selektion von Oligonukleotiden bereitzustellen, die so schnell abgearbeitet werden können, dass das Potenzial von automatisierten Systemen, wie z.B. des geniom^® one, voll ausgenutzt werden kann.
Diese Aufgaben werden erfindungsgemäß durch Verfahren gelöst, die gekennzeichnet sind durch die zeitliche und räumliche Trennung der Berechnung der spezifischen Bereiche und der Selektion optimaler Oligonukleotide, durch die Berechnung spezifischer Bereiche parallel durch mehrere Rechner und durch die Bewertung der optimalen Oligonukleotide über eine Bewertungsmatrix, die im Wesentlichen ohne absolute Ausschlusskriterien arbeitet.
Die erfindungsgemäßen Verfahren zur Berechnung spezifischer Bereiche haben das Ziel, Oligonukleotide zu bestimmen, die möglichst nur in einem von mehreren/vielen Fragmenten vorkommen, die also eindeutig für dieses Fragment „kodieren". Diese Oligonukleotide, Sonden genannt, finden zum Beispiel im Gene Expression Profiling ihre Anwendung. Hier soll eine Sonde eindeutig für ein bestimmtes Gen kodieren, so dass durch Hybridisierung festgestellt werden kann, ob das entsprechende Gen exprimiert wurde.
Vor der Bestimmung spezifischer Bereiche muss festgelegt werden, im Vergleich zu welchen anderen Fragmenten die Spezifität eines bestimmten Fragments berechnet werden soll. Eine mögliche Aufgabenstellung ist zum Beispiel der Abgleich aller Hefe-Gene untereinander, um für alle Gene oder bestimmte Gruppen von Genen dieses Organismus eindeutige Sonden bestimmen zu können. Der Abgleich der ausgewählten Fragmente untereinander wird schrittweise durchgeführt. Dazu wird jedes der Fragmente mit jedem anderen ausgewählten Fragment verglichen, wobei – wenn möglich – doppelte Vergleiche vermieden werden.
Mit Fragment wird jeder Typ einer genetischen Sequenz bezeichnet. Es kann sich dabei z.B. um Gensequenzen, Consensussequenzen oder unbekanntes Material handeln. Insbesondere wird der Begriff Fragment, Fragment oder auch Nukleinsäuresequenz z.B. der Länge m verwendet, um die Nukleinsäure/Nukleinsäuresequenz zu bezeichnen, die vorgegeben ist und für die eine spezifische Teilsequenz der Länge n selektiert werden soll. Der Begriff Teilsequenz wird nur in diesem Sinn verwendet.
Die Gesamtsequenz ist die Gesamtheit aller Nukleotidsequenzen, z.B. in Form einer Datenbank, die die Grundlage für die Auswahl der Teilsequenz bildet. Als Gesamtsequenz werden z.B. die bekannten Sequenzen der Nukleinsäuren zusammengefasst, die in einer Probe, einem Gewebe oder einem Organismus, z.B. einer Zelle, vorkommen können, mit der/dem eine Nukleinsäure mit der selektierten Teilsequenz in Kontakt gebracht wird. Die Gesamtsequenz kann z.B. die gesamte Sequenz eines Genoms sein, wie das Humangenom. Alternativ kann es sich aber auch nur um einen Ausschnitt aus einem Genom, wie z.B. das Transkriptom handeln. Auch andere Gesamtsequenzen sind denkbar, z.B. eine Genbibliothek oder ein Klon-Gemisch.
Unter Spezifität bzw. Spezifitätsberechnung wird verstanden, wie oft eine Teilsequenz innerhalb der Gesamtsequenz mit einer definierten Ähnlichkeit auftritt. Selektion betrifft die Wahl einer Nukleinsäure anhand der physikalischen und chemischen Eigenschaften und der Struktur im Vergleich zu anderen Nukleinsäuren, also die Oligonukleotid-internen Eigenschaften. Die Selektion betrifft z.B. die Auswahl einer Teilsequenz aus mindestens zwei Teilsequenzen.
Ein Gegenstand der Erfindung ist somit ein Verfahren zur Bestimmung der Ähnlichkeit einer Nukleinsäuresequenz bezüglich einer gegebenen Gesamtsequenz, umfassend die Schritte

(I) Alignment der Nukleinsäuresequenz mit der Gesamtsequenz, wobei diejenigen zusammenhängenden Anteile der Gesamtsequenz bestimmt werden, die ein vorgegebenes Mindestmaß an Übereinstimmung mit der Sequenz oder einer Teilsequenz hiervon haben, und
(II) Beschreibung der Übereinstimmung der in Schritt (I) bestimmten Anteile der Gesamtsequenz mit der Nukleinsäuresequenz oder einer Teilsequenz hiervon in Form von Scores mindestens eines Typs für Segmente mindestens einer gegebenen Länge und
(III) gegebenenfalls Mergen der in Schritt (II) erhaltenen Scores.

Dieses Verfahren kann weitere Schritte enthalten. In einer weiteren Ausführungsform ist es auf die Schritte (I) bis (III) beschränkt. In noch einer weiteren Ausführungsform wird in Schritt (I) kein Mindestmaß an Übereinstimmung für das Alignment festgelegt.
Ein weiterer Gegenstand der Erfindung ist ein Verfahren zur Auswahl einer Teilsequenz der Länge n aus einer Nukleinsäuresequenz der Länge m, die eine möglichst geringe Ähnlichkeit zu einer gegebenen Gesamtsequenz haben soll, die die Nukleinsäuresequenz der Länge m nicht enthält, umfassend die Schritte

(a) Erstellung einer Liste von vorbestimmten m – n + 1 Teilsequenzen, wobei für jede Teilsequenz Scores bezüglich der Gesamtsequenz nach dem oben beschriebenen erfindungsgemäßen Verfahren zur Bestimmung der Ähnlichkeit einer Nukleinsäuresequenz bezüglich der Gesamtsequenz berechnet werden, und
(b) Auswahl derjenigen Teilsequenzen aus der Liste nach Schritt (a) anhand der Scores mit einer möglichst geringen Ähnlichkeit zur Gesamtsequenz, die die Nukleinsäuresequenz der Länge m nicht enthält, und
(c) Ausschließen derjenigen Teilsequenzen aus Schritt (b), die vorgegebene absolute Kriterien nicht erfüllen, und
(d) Durchführen des unten beschriebenen Verfahrens zur Selektion von Nukleinsäuresequenzen aus einer Liste von Nukleinsäuresequenzen anhand einer Gesamtpunktzahl für jede Sequenz mit den nach Schritt
(c) verbleibenden Teilsequenzen.

Dieses Verfahren kann weitere Schritte enthalten. In einer weiteren Ausführungsform ist es auf die Schritte (a) bis (d) beschränkt. In noch einer weiteren Ausführungsform wird kein Mindestmaß an Übereinstimmung für das Alignment festgelegt.
In einer bevorzugten Ausführungsform ist die Gesamtsequenz die gesamte Sequenz eines Genoms, z.B. eines Säugers oder des Menschen, ein Ausschnitt eines Genoms, z.B. das Transkriptom, eine Genbibliothek, z.B. ein Klongemisch, eine funktionelle Gruppe von Genen oder/und eine Mischung von verschiedenen Genomen oder/und von Teilen verschiedener Genome oder/und von Ausschnitten aus Genomen.
Der Wert von m kann die Länge von mehreren Genomen, insbesondere von Säugergenomen umfassen. Vorzugsweise umfasst m die Längen von bis zu fünf, stärker bevorzugt von bis zu drei und am stärksten bevorzugt von bis zu einem kompletten Genom. Der Wert für die untere Grenze vom m kann die Länge von mindestens einem Gen oder einem Teilstück eines Gens umfassen. Vorzugsweise wird die Länge von mindestens 100 Genen oder Teilstücken von Genen umfasst, stärker bevorzugt die Länge von mindestens 1000 Genen oder Teilstücken von Genen, noch stärker bevorzugt die Länge von mindestens 5000 Genen oder Teilstücken von Genen und am stärksten bevorzugt die Länge von mindestens 20000 Genen oder Teilstücken von Genen.
Der Wert von n ist kleiner als m. Bevorzugte Werte für n betragen 8 bis 100. Stärker bevorzugt sind Werte von 15 bis 60, am stärksten bevorzugt 20 bis 30.
Ein bevorzugter Scoretyp ist die Anzahl der exakt übereinstimmenden Nukleotide (= Matches) innerhalb jedes Bereichs einer gegebenen Länge, z.B. der Länge n. Bei diesem Scoretyp werden mit Hilfe des globalen Alignments in einer Teilsequenz der Länge n gefundene Übereinstimmungen zwischen den beiden Fragmenten verwendet. Dieser Scoretyp ist absolut, d.h. für jede Übereinstimmung in einer Base wird der Score um einen Zähler erhöht. So ist bei diesem Scoretyp ein maximaler Score von n möglich, was einer vollständigen Übereinstimmung entspricht. Dieser Score lässt sich folgendermaßen darstellen:
mit f(j) = 0, wenn an der Stelle j ein Mismatch vorliegt und f(j) = 1, wenn an der Stelle j ein Match vorliegt, wobei Score_i(n) der Score der Teilsequenz der Länge n mit dem Startpunkt i ist.
Ein anderer bevorzugter Scoretyp ist die Lage der Matches und Mismatches (= nicht übereinstimmende Nukleotide) in Relation zueinander. Dabei handelt es sich um einen relativen Score. Eine Formel zur Berechnung dieser Scores ist
wobei es sich bei den c_x jeweils um Konstanten handelt. Mit Einzelmatch wird ein Match bezeichnet, der als Nachbarn keine Matches hat, als Startmatch wird ein Match bezeichnet, bei dem genau ein Nachbar ein Match ist, und als Innerermatch wird ein Match bezeichnet, bei dem beide Nachbarn Matches sind. Zudem kann der konstante Wert für einen Match noch mit einem Faktor multipliziert werden, der abhängig ist von der Base, die diesen Match ausbildet.
Noch ein anderer bevorzugter Scoretyp ist ein Wert für die Stabilität der Bindung auf dem Teilstück der Länge n.
In einer weiteren Ausführungsform wird die Durchführung von Schritt (a) zeitlich von den anderen Schritten getrennt und die Ergebnisse werden zwischengespeichert.
In einer weiteren Ausführungsform umfasst Schritt (a) des erfindungsgemäßen Verfahrens zur Auswahl einer Teilsequenz der Länge n aus einer Nukleinsäuresequenz der Länge m die Erstellung der Liste in Form einer Datenbank, wobei die Datenbank Datensätze enthält, umfassend jeweils eine gegebene Nukleinsäuresequenz der Länge m, mindestens eine Teilsequenz mindestens einer Länge n und mindestens einen zur Teilsequenz gehörigen Score mindestens eines Typs und wobei der mindestens eine Score den Grad an Übereinstimmung der Teilsequenzen der Länge n der Gesamtsequenz beschreibt.
Schritt (a) des erfindungsgemäßen Verfahrens zur Auswahl einer Teilsequenz der Länge n aus einer Nukleinsäuresequenz der Länge m umfasst folgende Schritte

(a1) ein Alignment der Nukleinsäuresequenz der Länge m mit der Gesamtsequenz, die die Nukleinsäuresequenz der Länge m nicht enthält,
(a2) gegebenenfalls Erstellen eines Spezifitätsstrings aus den Ergebnissen des Alignments,
(a3) Berechnen der Scores für die Teilsequenz der Länge n anhand der Ergebnisse des Alignments und/oder anhand des Spezifitätsstrings,
(a4) Speichern der in Schritt (a3) berechneten Scores und
(a5) gegebenenfalls Wiederholen der Schritte (a1) bis (a3) mit einer gegebenenfalls modifizierten Gesamtsequenz und Mergen der erhaltenen Scores mit den in Schritt (a4) gespeicherten Scores.

In einer weiteren Ausführungsform werden die Schritte (a1) bis (a5) anstelle der Schritte (I) bis (III) des oben beschriebenen Verfahrens zur Bestimmung der Ähnlichkeit einer Nukleinsäuresequenz bezüglich einer gegebenen Gesamtsequenz durchgeführt. In noch einer weiteren Ausführungsform wird kein Mindestmaß an Übereinstimmung für das Alignment festgelegt.
Zum Alignment in Schritt (a) des Verfahrens zur Bestimmung der Ähnlichkeit einer Nukleinsäuresequenz bezüglich einer gegebenen Gesamtsequenz oder/und Schritt (a1) zur Auswahl einer Teilsequenz der Länge n aus einer Nukleinsäuresequenz der Länge m von jeweils zwei der ausgewählten Fragmente wird der Smith & Waterman-Algorithmus verwendet, um ein möglichst gutes global Alignment der beiden Sequenzen zu gewährleisten. Übersteigt die Größe der aufzustellenden Smith & Waterman-Matrix eine vorgegebenen Größe, wird das Alignmentproblem mit der Divide & Conquer-Methode solange in Teilprobleme zerlegt, bis deren Matrix die vorgegebene Größe nicht mehr überschreitet. Alternativ können Algorithmen wie BLAST oder/und FASTA oder/und Suffix-Trees verwendet werden.
Das Ergebnis des oben beschriebenen Alignments, die Darstellung der verglichenen Sequenzen mit Deletionen und Gaps, wird gegebenenfalls in so genannte Spezifitätsstrings gewandelt. Diese Strings dienen der Abstraktion und stellen nur noch die Art der einzelnen Sequenzelemente dar, nicht mehr ihren Inhalt (2).
Mit Hilfe des Spezifitätsstrings für das Fragment, dessen Spezifität festgestellt werden soll, kann nun das Alignment bewertet werden. Dazu wird jeder Teilbereich des Spezifitätsstrings betrachtet. Die Größe der Teilbereiche ergibt sich aus der gewünschten Länge der zu bestimmenden Sonden; daher ist es sinnvoll, den Spezifitätsstring für unterschiedliche Sondenlängen zu beurteilen. Die erhaltene Information auf Basenebene (Match/Mismatch) wird also nun durch eine Information über die Spezifität der möglichen n-mere aus diesem Fragment ersetzt.
Die Bewertung erfolgt durch Berechnung von verschiedenen Scores für jeden Bereich des Spezifitätsstrings der Länge n. Es ist bevorzugt, dass die Scores in Schritt (a3) für mehr als einen Wert von n berechnet werden. Die Berechnung der Scores für verschiedene Längen n macht die Trennung der Spezifitätsberechnung von der Selektion der Oligonukleotide möglich. So können später die Sondenlängen variiert werden, ohne dass die Spezifitäten für andere Sondenlängen neu berechnet werden müssen. Die Berechnung der Scores für mehr als ein n hat also den Vorteil einer größeren Flexibilität. Damit steht die Sondenlänge als zusätzlicher Parameter für die Auswahl der besten Sonde zur Verfügung, ohne dass sich der Rechenaufwand wesentlich erhöht. Durch Berechnung von Scores für viele Werte von n, bevorzugt für vorbestimmte Werte oder alle Werte von 8 bis 100, stärker bevorzugt für vorbestimmte Werte oder alle Werte von 15 bis 60, am stärksten bevorzugt für vorbestimmte Werte oder alle Werte von 20 bis 30, ist die Abkopplung der Spezifitätsberechnung von der späteren (schnellen) Selektion geeigneter Sondensequenzen möglich, da die Spezifitätsdaten für die entsprechende Sondenlänge mit einbezogen werden können. Dies geschieht auf effiziente Weise, indem die Spezifitäten für diese Längen als Scores bestimmt werden. Die verschiedenen Scores werden gespeichert, wobei es für einen Spezifitätsstring der Länge m insgesamt m – n + 1 Werte pro Länge n und Scoretyp gibt.
Die Ergebnisse der Spezifitätsberechnung können vollständig in einem relationellen Datenbank-System abgebildet werden (3). Um alle Alignments für ein Fragment in die Bewertung einbeziehen zu können, müssen die Scores der einzelnen Alignments gemergt werden. Mit diesem Vorgehen erhält man für jeden Teilbereich des untersuchten Fragments einen oder mehrere Werte für die Spezifität dieses Teilstücks. Wenn ein Fragment gegen mehr als ein anderes Fragment abgeglichen werden soll, ist es notwendig, die bei den unterschiedlichen Alignments erhaltenen Bewertungen (Scores) zu einer Gesamtbewertung zusammenzufügen (= mergen). In einer bevorzugten Ausführungsform geschieht dies dadurch, dass zwei berechnete Scores für die gleiche Teilsequenz der Länge n verglichen werden und dann je nach Verfahren entweder der höhere oder der niedrigere dieser beiden Werte als neuer Score übernommen wird. Dies wird für alle Teilstücke der Länge n durchgeführt und für jedes Fragment mit dem das Ausgangsfragment verglichen wird. Das Resultat ist die Gesamtbewertung des Fragments im Bezug auf alle abgeglichenen Fragmente. Diese Bewertung enthält für jede Teilsequenz n je nach gewähltem Verfahren entweder den niedrigsten in allen Alignments ermittelten Wert oder den höchsten in allen Aligments ermittelten Wert.
wobei Score_n(i) der Gesamtscore für die Teilsequenz der Länge n an der Position i im Fragment ist und Score_nj(i) der Score des Alignments des Ausgangsfragments mit dem j-ten Fragment für die Teilsequenz der Länge n an der Position i.
In einer anderen bevorzugten Ausführungsform wird gemergt, indem der Durchschnitt aller Teilscores oder die Summe aller Teilscores gebildet wird. Es können auch verschiedene Formen des Mergens nebeneinander verwendet werden.
Als absolutes Kriterium in Schritt (c) wird in einer weiteren bevorzugten Ausführungsform die Länge n der Sonden verwendet. Bevorzugte Werte sind 8 bis 100 Basen, stärker bevorzugt 15 bis 60 Basen und am stärksten bevorzugt 20 bis 30 Basen. Ein weiteres Kriterium ist die Anzahl, mit der die gleiche Base hintereinander in der Teilsequenz der Länge n auftritt, hier wird bevorzugt, dass weniger als 4 gleiche Basen hintereinander auftreten. Weiterhin kann der prozentuale Anteil von CG (CG-Gehalt) in den Teilsequenzen als absolutes Kriterium herangezogen werden. Für Teilsequenzen der Länge n = 25 beträgt ein bevorzugter CG-Gehalt 40 bis 50 %, ein besonders bevorzugter Wert ist 48 %. Weiterhin werden Teilsequenzen bevorzugt, die mit anderen Teilsequenzen nur zu einem bestimmten Grad überlappen, wobei es besonders bevorzugt ist, dass eine selektierte Sonde am 3'- bzw. 5'-Ende mit maximal 5 Basen mit einer anderen selektierten Sonde übereinstimmt.
Durch das oben beschriebene Vorgehen ist es möglich, redundante Informationen aus unbereinigten Sets von Fragmenten zu filtern. Nach dem Alignment zweier Sequenzen kann mit Hilfe des Spezifitätsstrings bzw. der Scorewerte ein Wert für die Übereinstimmung der Sequenzen auf der kompletten Länge bestimmt werden. Überschreitet dieser Wert eine gesetzte Schwelle, gelten die Fragmente als redundant. Es ist nun möglich, das redundante Fragment aus der Berechnung auszuschließen.
Der Prozess der Ermittlung spezifischer Bereiche für eine Vielzahl von Fragmenten (z.B. alle Gene eines Organismus) stellt einen immensen Rechenaufwand dar. Wenn bei einem Organismus mit 10.000 Genen jedes Gen gegen alle vorhandenen Gene überprüft werden soll, dann sind für diesen Organismus insgesamt 100 Millionen Vergleiche nach Smith & Waterman, BLAST oder/und FASTA durchzuführen. Das stellt bei der heute zur Verfügung stehenden Standard PC-Hardware einen zeitlichen Aufwand von mehreren Monaten dar. Dieser Vorgang stellt allerdings einen nahezu vollständig parallelisierbaren Prozess dar. Jedes zu untersuchende Fragmente kann für sich gegen die gewählte Datenbasis überprüft werden, ohne dass Abhängigkeiten mit dritten Prozessen zu erwarten sind.
Es ist nun möglich, einen zentralen Verwaltungs-Server aufzubauen, der die Liste der zu untersuchenden Fragmente und Angaben über Parameter und die Datenbasis, gegen die jedes Fragment überprüft werden soll, enthält. Anfragende Client-Rechner bekommen jeweils ein zu untersuchendes Fragment aus der Liste zugewiesen. Dieses Fragment wird auf dem Verwaltungs-Server als „in Bearbeitung" vermerkt. Wenn ein Client ein Fragment bearbeitet hat und das Ergebnis gespeichert ist, wird dieses Fragment auf dem Verwaltungs-Server von der Liste der zu untersuchenden Fragmente gelöscht. Mechanismen zur Erkennung von fehlerhaften und nicht mehr an der Berechnung beteiligten Client-Rechnern helfen hierbei die Konsistenz zu wahren. Ein solches Server-Client-System kann z.B. durch Zusammenschluss vieler Standard-PCs zu einem sehr günstigen und leistungsfähigen „virtuellen Großrechner" realisiert werden. Es ist daher bevorzugt, die Spezifitätsberechnung mit einem Client-Server-System durchführen. Insbesondere wird Schritt (I) des Verfahrens zur Bestimmung der Ähnlichkeit bezüglich einer gegebenen Gesamtsequenz oder/und Schritt (a) des Verfahrens zur Auswahl einer Teilsequenz der Länge n aus einer Nukleinsäuresequenz der Länge m mit einem Client-Server-System für mindestens zwei verschiedene Teilsequenzen auf mindestens zwei Clients parallel durchgeführt.
Die bei Selektion von Oligonukleotiden aus einer vorgegebenen Sequenz ausgewählten Sonden sollen mehrere Vorgaben erfüllen. Zum einen müssen ihre allgemeinen Parameter wie gewünschte Länge oder zugelassene Überlappung zwischen den Sonden erfüllt sein. Zum anderen sollen nur solche Oligonukleotide ausgewählt werden, deren Sequenzmotive ähnliche biochemische Eigenschaften versprechen. Diese Eigenschaften reichen von der Stabilität der bei der Hybridisierung ausgebildeten Duplex-Verbindungen bis hin zu der Neigung der Sonde zur Ausbildung von dreidimensionalen Sekundärstrukturen. Zusätzlich werden hier die Daten aus der Spezifitätsberechnung zur Selektion mit herangezogen.
Ein Problem bei der automatisierten Selektion von Oligonukleotiden ist die Tatsache, dass die Sequenzstrukturen, aus denen die Oligonukleotide ausgewählt werden sollen, nicht vorhersehbar sind. Einige Fragmente bieten hier unter Umständen genügend Auswahl an Oligonukleotiden, die alle Parameter erfüllen. Andere Fragmente hingegen besitzen einen so hohen oder niedrigen Anteil an Guanin oder Cytosin, dass die geforderte Stabilität der Duplexverbindungen bei keinem der Sondenkandidaten erreicht werden kann. Ein weiteres Beispiel wäre ein Fragment, dass zu großen Teilen redundant in der Datenbasis zu finden ist, und für das keine ausreichend spezifischen Oligonukleotide ausgewählt werden können.
Eine Selektionslogik, die auf festen Parametern beruht, würde hier keine oder zu wenige Sonden finden, die die Spezifikationen erfüllen. Das ist auch richtig, da dies ja die vorgegebenen Kriterien waren. Eine starre Selektionslogik würde allerdings auch solche Oligonukleotide als ungeeignet aussortieren, die einen nur um 0,1°C zu hohen Schmelzpunkt besitzen, in alten weiteren Kriterien aber hervorragende Werte besitzen, also hochspezifisch sind und in der gewünschten Region des Fragments liegen. Das erfindungsgemäßen Verfahren selektiert also nicht die Oligonukleotide, die alle Vorgaben erfüllen, sondern wählt vielmehr vorteilhafterweise die unter Einbeziehung aller Parameter besten Oligonukleotide aus dem gewählten Fragment aus, auch wenn dabei einige Kriterien nicht erfüllt werden.
Durch die Trennung der zeitaufwändigen Ermittlung spezifischer Bereiche eines Fragments von der Selektion optimaler Oligonukleotide ist nach einem einmaligen zeitaufwändigen Rechenvorgang in kürzester Zeit die Oligonukleotidkonfiguration abänderbar ohne eine weitere zeitaufwändige Berechnung und ohne Qualitätsverlust der erzeugten Sequenzen möglich. Die Selektion der Oligonukleotide verläuft in wesentlichen Teilen nicht mit starren Parametern, sondern mit einem Bewertungssystem, dass stets die in der Summe besten Oligonukleotide zurück gibt, ohne bestimmte Parameter-Werte auszuschließen.
Die Selektion geschieht durch die Implementierung von gewichteten Parametern (4). Diese Parameter besitzen mehrere Eigenschaften. Zum einen wird auch hier ein bevorzugter Wert festgelegt (z.B. eine Schmelztemperatur der Duplexverbindungen) und zum anderen gibt der Benutzer einen Strafwert an, der eine Gewichtung dieses Parameters gegenüber den anderen Parametern vorgibt. Ein höherer Wert bedeutet hier ein höherer Strafwert beim Abweichen von dem bevorzugten Wert und damit eine schlechtere Einstufung dieser Sonde. Die Strafwerte aller gewichteten Parameter werden addiert. Die Sonden mit den geringsten Strafwerten stellen somit die unter Einbeziehung aller Parameter bestmöglichen Sonden dar. Dieses Prinzip ist dem aus der Biologie bekannten „Survival of the fittest" sehr ähnlich, da hier nur die in der Summe am besten angepassten Sonden selektiert werden.
Neben den gewichteten Parametern müssen zusätzlich noch starre Parameter (absolute Parameter) verwendet werden, die einige Ausschlusskriterien definieren (siehe oben).
Die verwendeten Parameter lassen sich in drei Kategorien einteilen:

1. Selektionsparameter: Diese Parameter werden zur Vor-Selektion der Sonden verwendet (z.B. Länge der Sonden).
2. Absolute Parameter: Eine Über- oder Unterschreitung dieser Parameter führt zum Ausschluss dieser Sonde. Beispiele hierfür sind die oben beschriebenen Parameter der Basenkomposition (CG-Gehalt), der Überlappung der Sonden, der Länge der Sonden oder der Anzahl, mit der die gleiche Base hintereinander in der Teilsequenz auftritt, die sich im praktischen Versuch als essentiell und nicht tolerierbar herausgestellt haben.
3. Gewichtete Parameter: Über- oder Unterschreitung dieser Werte führt nicht direkt zum Ausschluss der Sonde. Jedem dieser Parameter ist ein Multiplikator (Gewichtung) zugeordnet.

Die Selektion der Oligonukleotide beginnt zunächst mit der Generierung aller möglichen Sonden gemäß der Selektionsparameter. Es werden aus einem 2000 bp langen Fragment z.B. alle möglichen 20mere generiert. Man erhält also in diesem Beispiel 1981 Sondenkandidaten der Länge 20 Basenpaare (Überlappung).
Der nächste Schritt ist die Berechnung aller Werte der absoluten Parameter. Bei einer Über- oder Unterschreitung der gewählten Grenzen wird dieser Sondenkandidat intern aus der Liste der möglichen Kandidaten gelöscht.
Für diese verkleinerte Liste der Sondenkandidaten werden nun für jeden Kandidaten alle gewichteten Parameter bestimmt. Anschließend werden die erhaltenen Werte der gewichteten Parameter für jeden Kandidaten zu einer Gesamtpunktzahl addiert. Hierbei können auch die berechneten Spezifitätsdaten für die Teilsequenzen als gewichtete Parameter eingehen.
Die Sondenkandidaten mit der niedrigsten Gesamtpunktzahl stellen nach den vom Benutzer vorgegebenen Gewichtungen die optimalen Sonden dar und werden unter Berücksichtigung der zugelassenen Überlappung und der Anzahl der Sonden von der Liste der Sondenkandidaten auf die Liste der ausgewählten Sonden kopiert.
Noch ein weiterer Gegenstand der Erfindung ist also ein Verfahren zur Selektion von Nukleinsäuresequenzen aus einer Liste von Nukleinsäuresequenzen anhand einer Gesamtpunktzahl für jede Sequenz, die aus einem Set numerischer Parameter für jede Sequenz berechnet wird, umfassend die Schritte

(1) Festlegung von bevorzugten Werten für jeden Parameter und von Werten zur Gewichtung für jeden Parameter und
(2) Verknüpfung jedes Parameters mit seinem bevorzugten Wert und Gewichtung des Ergebnisses zu einem Straf-Wert getrennt für jede Sequenz und
(3) Verknüpfen der Ergebnisse aus Schritt (2) zu einer Gesamtpunktzahl getrennt für jede Sequenz und
(4) gegebenenfalls ein- oder mehrfache Wiederholung der Schritte (1) bis (3) und
(5) Selektion derjenigen Sequenzen anhand der Gesamtpunktzahlen, deren Parameter am geringsten von den bevorzugten Werten abweichen.

Dieses Verfahren kann weitere Schritte enthalten.
In einer weiteren Ausführungsform ist das Verfahren auf die Schritte (1) bis (5) beschränkt.
In bevorzugten Ausführungsformen werden als numerische Parameter die Schmelztemperatur der Duplexverbindung, die Position der Sonde im Fragment (Nähe zum 3'-Ende), die Spezifität der Sonde oder/und die Neigung zur Ausbildung einer Sekundärstruktur verwendet. Weiterhin ist es bevorzugt, dass die Verknüpfung nach Schritt (b) und (c) gemäß der Formel
durchgeführt wird, wobei S die Gesamtpunktzahl, p_i ein numerischer Parameter, b_i ein bevorzugter Wert, g_i ein Gewichtungsfaktor und q eine Zahl > 0 ist. Besonders bevorzugt ist 0 < q < 3. Stärker bevorzugt ist 0,5 < q < 2,5. Am meisten bevorzugt ist q = 1 oder q = 2. Die Zahl i ist der Laufindex für die verschiedenen Parameter.
In weiteren bevorzugten Ausführungsformen wird die Gesamtpunktzahl gemäß
bestimmt.
Die erfindungsgemäßen Verfahren können überall dort vorteilhaft eingesetzt werden, wo größere Mengen genetischer Informationen, die in Datenbanken zur Verfügung stehen, zur schnellen Auswahl von Hybridisierungssonden bearbeitet werden müssen.
Eine flexible, schnelle und vollautomatische Methode zur Generierung von DNA-Arrays mit integrierter Detektion in einem logischen System, wie sie z.B. in WO 00/13018 und DE 199 40 749.5 beschrieben ist, ermöglicht es, innerhalb von kurzer Zeit durch die Auswertung der Daten eines Arrays die notwendigen Informationen für den Aufbau eines neuen Arrays zu erhalten (Informationszyklus). Dieser Informationszyklus erlaubt eine automatische Anpassung der nächsten Analyse durch Auswahl geeigneter Polymersonden, z.B. Nukleinsäuresonden zur Hybridisierung für das neue Array. Dabei kann unter Berücksichtigung des erhaltenen Ergebnisses die Breite der Fragestellung zugunsten einer höheren Spezifität eingeschränkt oder die Richtung der Fragestellung moduliert werden.
Ein weiterer Gegenstand der Erfindung ist daher eine programmtechnisch eingerichtete Vorrichtung zur Durchführung der erfindungsgemäßen Verfahren für die Bestimmung spezifisch bindender Oligonukleotide in einer größeren Gesamtsequenz in Vorbereitung einer Anwendung von Oligonukleotiden in einem Bindungsexperiment in zwei Schritten, mit einem ersten Arbeitsschritt für die Ermittlung möglichst spezifischer oder selten vorkommender Bereiche innerhalb der Gesamtsequenz und einem zweiten Arbeitsschritt für die Auswahl von Oligonukleotiden in diesen Bereichen der bearbeiteten Gesamtsequenz.
Noch ein weiterer Gegenstand der Erfindung ist daher die Verwendung einer programmtechnisch eingerichteten weiteren Vorrichtung im Zusammenspiel mit weiteren technischen Vorrichtungen für die Synthese der ausgewählten Oligonukleotid-Sonden. Diese Synthese erfolgt entweder direkt in Form eines Reaktionsträgers, der anschließend einen Microarray aufweist, oder mittels chemischer Oligonukleotid-Synthese auf einer Säule und anschließendem Aufbringen der Oligonukleotid-Sonden auf einen Reaktionsträger.
Für die Durchführung eines Hybridisierungsexperiments handelt es sich bei der Gesamtsequenz z.B. um ein Genom oder Transkriptom oder Teile hiervon oder Sequenzen von Nukleinsäuren, die in Proben enthalten sind, die aus einem oder mehreren Organismen gewonnen werden können. Bei der Bestimmung im ersten Schritt handelt es sich um die Auswahl von selten oder singulär vorkommenden Sequenzabschnitten in der Gesamtsequenz sowie im zweiten Schritt um die Auswahl von geeigneten Oligonukleotid-Sonden.
Die Erfindung betrifft somit ein Verfahren zur Herstellung von Hybridisierungssonden, wobei

(a) die Sonden als Teilsequenz aus einer Nukleinsäuresequenz bezüglich einer Gesamtsequenz nach dem oben beschriebenen Verfahren ausgewählt werden, und
(b) die Sonden synthetisiert werden.

Die Sonden können auf einem oder mehreren Reaktionsträgern aufgebracht oder auf einem oder mehreren Reaktionsträgern synthetisiert werden. Hierbei ist bevorzugt, dass die Hybridisierungssonden auf einem einzigen Reaktionsträger aufgebracht werden oder/und auf einem einzigen Reaktionsträger synthetisiert werden. Der Reaktionsträger kann ein handelsübliches DNA-Array sein. Bevorzugt ist es, mindestens 6000 Hybridisierungssonden gleichzeitig aufzubringen, besonders bevorzugt mindestens 48000.
Ein besonders bevorzugter Reaktionsträger ist ein mikrofluidischer Träger. Derartige mikrofluidische Reaktionsträger sind z.B. in WO 01/08799 beschrieben. Ein solcher Reaktionsträger erlaubt eine sehr schnelle, effiziente und damit kostengünstige Bereitstellung einer Vielzahl von Reaktionsbereichen, z.B. für die integrierte Synthese einer Vielzahl von Hybridisierungssonden und die Analyse einer Vielzahl von Nukleinsäurefragmenten mittels dieser Sonden.
Ein weiterer Aspekt der Erfindung ist ein Verfahren zur Bestimmung von Nukleinsäuren in einer Probe, umfassend die Schritte:

(a) Herstellen von Hybridisierungssonden auf mindestens einem Reaktionsträger, z.B. auf einem DNA-Array oder mindestens einem mikrofluidischen Reaktionsträger nach dem oben beschriebenen Verfahren mit einer Vielzahl von an bestimmten Bereichen immobilisierten Hybridisierungssonden, wobei die Hybridisierungssonden in den einzelnen Bereichen jeweils eine unterschiedliche Spezifität aufweisen, und
(b) Inkontaktbringen der Probe, die zu bestimmende Nukleinsäuren enthält, mit dem mindestens einen Träger unter Bedingungen, bei denen eine Hybridisierung auf dem mindestens einen Träger erfolgen kann, und
(c) Identifizieren der vorbestimmten Bereiche auf dem mindestens einen Träger, an denen eine Hybridisierung in Schritt (b) erfolgt ist, und
(d) ein- oder mehrfaches Wiederholen der Schritte (a) bis (c), wobei jeweils Reaktionsträger verwendet werden, die Hybridisierungssonden enthalten, die gegenüber dem oder den vorgehenden Durchführungen der Schritte (a) bis (c) in Abhängigkeit vom Ergebnis verändert werden.

Das Identifizieren der vorbestimmten Bereiche auf dem mindestens einen Träger, an denen eine Hybridisierung erfolgt ist, kann durch bekannte Verfahren erfolgen. Hierzu können die Hybridisierungssonden oder/und die zu bestimmenden Nukleinsäuren eine Markierung mit z.B. einem Fluoreszenzfarbstoff enthalten. Die Signale können z.B. mit einer Detektionseinheit, bestehend aus einer Beleuchtungseinheit und einem CCD-Chip, die sandwichartig den Träger umgreifen, von allen Bereichen gleichzeitig aufgenommen werden.
In Schritt (d) werden die Schritte (a) bis (c) mit veränderten Hybridisierungssonden wiederholt. Es wird also mindestens ein neuer Reaktionsträger mit einer Vielzahl von an bestimmten Bereichen immobilisierten Hybridisierungssonden bereitgestellt, wobei diese Sonden nach dem erfindungsgemäßen Verfahren auf ihre Spezifität gegenüber der Gesamtsequenz überprüft und danach selektiert werden.
Weiterhin wird die Erfindung durch folgende Abbildungen näher erläutert:
1 zeigt mögliche Wege zur Ermittlung optimaler Oligonukleotide.
2 zeigt das Beispiel einer möglichen Darstellungsweise für einen Spezifitätsring.
3 zeigt den Berechnungsablauf für spezifische Bereiche.
4 zeigt das Ablaufschema für die Selektion optimaler Oligonukleotide.

Claims

Verfahren zur Bestimmung der Ähnlichkeit einer Nukleinsäuresequenz bezüglich einer gegebenen Gesamtsequenz, umfassend die Schritte (I) Alignment der Nukleinsäuresequenz mit der Gesamtsequenz, wobei die jenigen zusammenhängenden Anteile der Gesamtsequenz bestimmt werden, die ein vorgebenes Mindestmaß an Übereinstimmung mit der Sequenz oder einer Teilsequenz hiervon haben, und (II) Beschreibung der Übereinstimmung der in Schritt (I) bestimmten Anteile der Gesamtsequenz mit der Nukleinsäuresequenz oder einer Teilsequenz hiervon in Form von Scores mindestens eines Typs für Segmente mindestens einer gegebenen Länge und (III) gegebenenfalls Mergen der in Schritt (II) erhaltenen Scores.
Verfahren zur Selektion von Nukleinsäuresequenzen aus einer Liste von Nukleinsäuresequenzen anhand einer Gesamtpunktzahl für jede Sequenz, die aus einem Set numerischer Parameter für jede Sequenz berechnet wird, umfassend die Schritte (1) Festlegung von bevorzugten Werten für jeden Parameter und von Werten zur Gewichtung für jeden Parameter und (2) Verknüpfung jedes Parameters mit seinem bevorzugten Wert und Gewichtung des Ergebnisses zu einem Straf-Wert getrennt für jede Sequenz und (3) Verknüpfen der Ergebnisse aus Schritt (2) zu einer Gesamtpunktzahl getrennt für jede Sequenz und (4) gegebenenfalls ein- oder mehrfache Wiederholung der Schritte (1) bis (3) und (5) Selektion derjenigen Sequenzen anhand der Gesamtpunktzahlen, deren Parameter am geringsten von den bevorzugten Werten abweichen.
Verfahren nach Anspruch 2, wobei als numerische Parameter die Schmelztemperatur der Duplexverbindung, die Position der Sonde im Fragment (Nähe zum 3'-Ende), die Spezifität der Sonde oder/und die Neigung zur Ausbildung einer Sekundärstruktur verwendet wird.
Verfahren nach einem der Ansprüche 2 bis 3, wobei die Verknüpfung nach Schritt (1) und (2) gemäß der Formel
durchgeführt wird, wobei S die Gesamtpunktzahl, p_i ein numerischer Parameter, b_i ein bevorzugter Wert, g_i ein Gewichtungsfaktor, q eine Zahl > 0 ist und i der Laufindex für die verschiedenen Parameter ist.
Verfahren zur Auswahl einer Teilsequenz der Länge n aus einer Nukleinsäuresequenz der Länge m, die eine möglichst geringe Ähnlichkeit zu einer gegebenen Gesamtsequenz haben soll, die die Nukleinsäuresequenz der Länge m nicht enthält, umfassend die Schritte (a) Erstellung einer Liste von vorbestimmten m – n + 1 Teilsequenzen, wobei für jede Teilsequenz Scores z.B. nach dem Verfahren nach Anspruch 1 bezüglich der Gesamtsequenz berechnet werden, und (b) Auswahl derjenigen Teilsequenzen aus der Liste nach Schritt (a) anhand der Scores mit einer möglichst geringen Ähnlichkeit zur Gesamtsequenz, die die Nukleinsäuresequenz der Länge m nicht enthält, und (c) Ausschließen derjenigen Teilsequenzen aus Schritt (b), die vorgegebene absolute Kriterien nicht erfüllen, und (d) Durchführen des Verfahrens nach einem der Ansprüche 2 bis 4 mit den nach Schritt (c) verbleibenden Teilsequenzen.
Verfahren nach Anspruch 5, wobei die Gesamtsequenz die gesamte Sequenz eines Genoms, z.B. eines Säugers oder des Menschen, ein Ausschnitt eines Genoms, z.B. das Transkriptom, eine Genbibliothek, z.B. ein Klongemisch, eine funktionelle Gruppe von Genen oder/und eine Mischung von verschiedenen Genomen oder/und von Teilen verschiedener Genome oder/und von Ausschnitten aus Genomen ist.
Verfahren nach einem der Ansprüche 5 oder 6, wobei als Score die Anzahl der exakt übereinstimmenden Nukleotide oder/und die Lage der exakt übereinstimmenden und der nicht übereinstimmenden Nukleotide in Relation zueinander oder/und ein Wert für die Stabilität der Bindung auf dem Teilstück der Länge n berechnet wird.
Verfahren nach einem der Ansprüche 5 bis 7, wobei die Durchführung von Schritt (a) zeitlich von den anderen Schritten getrennt wird und die Ergebnisse zwischengespeichert werden.
Verfahren nach einem der Ansprüche 5 bis 8, wobei Schritt (a) mit einem Server-Client-System für mindestens zwei verschiedene Teilsequenzen auf mindestens zwei Clients parallel durchgeführt wird.
Verfahren nach einem der Ansprüche 5 bis 9, wobei Schritt (a) die Erstellung der Liste in Form einer Datenbank umfasst, wobei die Datenbank Datensätze enthält, umfassend jeweils eine gegebene Nukleinsäuresequenz der Länge m, mindestens eine Teilsequenz mindestens einer Länge n und mindestens einen zur Teilsequenz gehörigen Score mindestens eines Typs und der mindestens eine Score den Grad an Übereinstimmung der Teilsequenzen der Länge n der Gesamtsequenz beschreibt.
Verfahren nach einem der Ansprüche 5 bis 10, wobei Schritt (a) umfasst (a1) ein Alignment der Nukleinsäuresequenz der Länge m mit der Gesamtsequenz, die die Nukleinsäuresequenz der Länge m nicht enthält, (a2) gegebenenfalls Erstellen eines Spezifitätsstrings aus den Ergebnissen des Alignments, (a3) Berechnen der Scores für die Teilsequenz der Länge n anhand der Ergebnisse des Alignments und/oder anhand des Spezifitätsstrings, (a4) Speichern der in Schritt (a3) berechneten Scores und (a5) gegebenenfalls Wiederholen der Schritte (a1) bis (a3) mit einer gegebenenfalls modifizierten Gesamtsequenz und Mergen der erhaltenen Scores mit den in Schritt (a4) gespeicherten Scores.
Verfahren nach Anspruch 11, wobei für das Alignment nach Schritt (a1) Algorithmen nach Smith & Waterman oder/und nach BLAST oder/und nach FASTA verwendet werden.
Verfahren nach einem der Ansprüche 11 bis 12, wobei in Schritt (a3) die Scores für mehr als einen Wert von n berechnet werden.
Verfahren nach einem der Ansprüche 11 bis 13, wobei das Mergen nach Schritt (a5) erfolgt, indem die Scores getrennt für jeden Typ miteinander verglichen werden und jeweils der Wert, der geringere oder höhere Übereinstimmung zeigt, übernommen wird.
Verfahren nach einem der Ansprüche 5 bis 14, wobei als absolutes Kriterium in Schritt (c) die Länge n der Sonden, die Anzahl, mit der die gleiche Base hintereinander in der Teilsequenz der Länge n auftritt, der Gehalt von CG in den Teilsequenzen oder/und die Überlappung mit einer oder mehreren Teilsequenzen verwendet wird.
Verfahren nach Anspruch 15, wobei der CG-Gehalt bei einer Länge von n = 25 40 bis 50 % beträgt, insbesondere 48 %.
Verfahren zur Herstellung von Hybridisierungssonden, wobei (a) die Sonden als Teilsequenz aus einer Nukleinsäuresequenz bezüglich einer Gesamtsequenz nach dem Verfahren nach einem der Ansprüche 5 bis 15 ausgewählt werden, und (b) die Sonden synthetisiert werden.
Verfahren nach Anspruch 17, wobei die Hybridisierungssonden auf einem einzigen Reaktionsträger aufgebracht oder/und synthetisiert werden.
Verfahren nach Anspruch 18, wobei der Reaktionsträger ein mikrofluidischer Träger ist.
Verfahren zur Bestimmung von Nukleinsäuren in einer Probe, umfassend die Schritte: (a) Herstellen von Hybridisierungssonden auf mindestens einem Reaktionsträger nach dem Verfahren nach einem der Ansprüche 17 bis 19 mit einer Vielzahl von an bestimmten Bereichen immobilisierten Hybridisierungssonden, wobei die Hybridisierungssonden in den einzelnen Bereichen jeweils eine unterschiedliche Spezifität aufweisen, und (b) Inkontaktbringen der Probe, die zu bestimmende Nukleinsäuren enthält, mit dem mindestens einen Träger unter Bedingungen, bei denen eine Hybridisierung auf dem mindestens einen Träger erfolgen kann, und (c) Identifizieren der vorbestimmten Bereiche auf dem mindestens einen Träger, an denen eine Hybridisierung in Schritt (b) erfolgt ist, und (d) ein- oder mehrfaches Wiederholen der Schritte (a) bis (c), wobei jeweils Reaktionsträger verwendet werden, die Hybridisierungssonden enthalten, die gegenüber dem oder den vorgehenden Durchführungen der Schritte (a) bis (c) in Abhängigkeit vom Ergebnis verändert werden.