-
Die vorliegende Erfindung betrifft
Verfahren und Vorrichtungen zur Bestimmung des Genotyps an einer Stelle
innerhalb von genetischem Material.
-
Die vorliegende Erfindung stellt
in einer Ausführungsform
ein Verfahren zur Bestimmung des Genotyps an einer Stelle innerhalb
von genetischem Material bereit, das von einer biologischen Probe
erhalten worden ist. Gemäß dieses
Verfahrens wird das Material an der Stelle zur Erzeugung eines ersten
Reaktionswerts umgesetzt, der die Gegenwart eines gegebenen Allels
an der Stelle anzeigt. Es wird ein Datensatz gebildet, der den ersten
Reaktionswert umfasst. Es wird auch ein Satz von einer oder mehreren
Wahrscheinlichkeitsverteilung(en) erstellt, wobei diese Verteilungen
hypothetische Reaktionswerte mit entsprechenden Wahrscheinlichkeiten
für jeden
interessierenden Genotyp an der Stelle in Zusammenhang bringen.
Der erste Reaktionswert wird auf jede Wahrscheinlichkeitsverteilung
zur Bestimmung eines Maßes
der bedingten Wahrscheinlichkeit jedes interessierenden Genotyps
an der Stelle angewandt. Der Genotyp wird dann auf der Basis dieser
Messungen bestimmt.
-
Gemäß einer weiteren Ausführungsform
dieses Verfahrens wird das Material an der Stelle zur Erzeugung
eines zweiten Reaktionswerts, der unabhängig die Gegenwart eines zweiten
Allels an der Stelle anzeigt, einer zweiten Reaktion unterworfen.
Es wird ein zweiter Datensatz gebildet und der zweite Reaktionswert
ist in dem zweiten Datensatz enthalten. Jede Wahrscheinlichkeitsverteilung
bringt ein hypothetisches Paar von ersten und zweiten Reaktionswerten
mit einer Einzelwahrscheinlichkeit jedes interessierenden Genotyps
in Zusammenhang. Der erste Datensatz umfasst andere Reaktionswerte,
die unter Bedingungen erhalten worden sind, die mit denjenigen vergleichbar
sind, unter denen der erste Reaktionswerterzeugt worden ist, und der
zweite Datensatz umfasst andere Reaktionswerte, die unter Bedingungen
erhalten worden sind, die mit denjenigen vergleichbar sind, unter
denen der zweite Reaktionswert erzeugt worden ist. Wenn beispielsweise zwei
interessierende Allele vorliegen, dann kann die erste Reaktion ein
Test im Hinblick auf das erste Allel sein und die zweite Reaktion
kann ein spezifischer Test im Hinblick auf das andere Allel sein.
Der erste und der zweite Datensatz können Reaktionswerte für die ersten
bzw. die zweiten Reaktionen umfassen, die unter vergleichbaren Bedingungen
mit anderen Proben bezüglich
der gleichen Stelle durchgeführt
worden sind. Alternativ oder zusätzlich
können
die Datensätze
Reaktionswerte für
Reaktionen enthalten, die unter vergleichbaren Bedingungen bezüglich unterschiedlicher
Stellen innerhalb der gleichen Probe durchgeführt worden sind.
-
Gemäß einer weiteren Ausführungsform
können
die Wahrscheinlichkeitsverteilungen iterativ bestimmt werden. In
dieser Ausführungsform
wird jede Wahrscheinlichkeitsverteilung am Anfang abgeschätzt. Jede
anfängliche
Wahrscheinlichkeitsverteilung wird zur Bestimmung der anfänglichen
Genotyp-Wahrscheinlichkeiten unter Verwendung der Reaktionswerte
in den Datensätzen
verwendet. Die resultierenden Daten werden dann zur Modifizierung
der anfänglichen
Wahrscheinlichkeitsverteilung verwendet, so dass die modifizierte
Verteilung die Reaktionswerte in dem Datensatz genauer wiedergibt.
Dieses Verfahren kann beliebige Male wiederholt werden, um die Wahrscheinlichkeitsverteilung
zu verbessern. In der Praxis wurde allgemein gefunden, dass eine
einzige Iteration ausreichend ist.
-
Die vorstehend genannten Verfahren
wurden mit Erfolg zur automatischen Genotyp-Bestimmung auf der Basis von Tests verwendet,
bei denen eine genetische Bitanalyse (GBA) eingesetzt wird. In einem
solchen Fall kann jedes Allel typischerweise ein einzelnes spezifisches
Nucleotid sein. Gemäß der GBA
wird eine Reaktion zur Erzeugung eines Werts gestaltet, der die
Gegenwart eines spezifischen Allels an der Stelle innerhalb des
genetischen Materials anzeigt. Bei der GBA ist der Ansatz typischerweise
derart, dass ein spezifisches Oligonucleotid an das genetische Material
an die Stelle hybridisiert wird, die unmittelbar an das zu ermittelnde Nucleotid
angrenzt. Als nächstes
wird DNA-Polymerase in Gegenwart unterschiedlich markierter Didesoxynucleotidtriphosphate
angewandt.
-
Die Ausleseschritte detektieren die
Gegenwart des Markers oder mehrerer der Marker, der bzw. die kovalent
an das 3'-Ende des Oligonucleotids gebunden worden ist bzw. sind.
Details finden sich in Theo R. Nikiforov et al., "Genetic Bit Analysis,
a solid phase method for typing single nucleotide polymorphisms"
22 Nucleic Acids Research, Nr. 20, 4167–4175 (1994). Die vorliegende
Erfindung ist jedoch auch auf andere Reaktionssysteme zur Allelbestimmung
anwendbar, wie z. B. auf die allelspezifische Hybridisierung (ASH),
die Sequenzierung durch Hybridisierung (CBH), den Oligonucleotidligasetest
(OLA) und die allelspezifische Amplifizierung, und zwar entweder
unter Verwendung der Ligasekettenreaktion (LCR) oder der Polymerasekettenreaktion
(PCR). Die getesteten Allele können
z. B. durch ein einzelnes Nucleotid, ein Paar von Nucleotiden, eine Restriktionsstelle
oder (mindestens teilweise) durch ihre Nucleotidlänge definiert
werden.
-
In einer anderen erfindungsgemäßen Ausführungsform
wird ein Verfahren zur Bestimmung des Genotyps eines Lebewesens
durch Umsetzen von genetischem Material bereitgestellt, das von
dem Lebewesen ausgewählten
Stellen entnommen worden ist. In dieser Ausführungsform kann jede Stelle
ein identifiziertes einzelnes Nucleotid oder eine identifizierte
Gruppen von Nucleotiden sein, und es wird bezüglich jeder der ausgewählten Stellen
ein Reaktionswert erzeugt, der die Gegenwart eines gegebenen Allels
an jeder der ausgewählten
Stellen anzeigt. Diese Reaktionswerte werden zur Bestimmung des
Genotyps des Lebewesens oder alternativ zur Bestimmung einer DNA-Sequenz
verwendet, die mit einer spezifischen Region des genetischen Materials
des Lebewesens zusammenhängt.
(Tatsächlich
kann ein Satz von Genotypen für
ausgewählte
proximale Stellen zur Spezifizierung einer Sequenz des genetischen
Materials verwendet werden.) In weiteren Ausführungsformen werden die Stellen
so ausgewählt,
dass sie eine Art oder mehrere Arten von Informationen) bereitstellen,
die das Lebewesen betreffen, einschließlich der Vererbung eines Merkmals,
der Abstammung, der Identität
und der Übereinstimmung
von Gewebe mit dem eines Spenders. Alternativ können die Stellen über das
gesamte Genom des Lebewesens beabstandet sein, um bei der Charakterisierung
des Genoms der Art des Lebewesens zu unterstützen.
-
In einer weiteren Ausführungsform
der Erfindung wird eine Vorrichtung zur Bestimmung des Genotyps an
einer Stelle innerhalb von genetischem Material bereitgestellt,
das von einem Lebewesen erhalten worden ist. Die Vorrichtung dieser
Ausführungsform
weist eine Reaktionswerterzeugungsanordnung zur Erzeugung eines
ersten physikalischen Zustands auf, der als erster Reaktionswert
quantifizierbar ist und die Gegenwart eines gegebenen Allels an
der Stelle anzeigt, wobei der Wert mit der Reaktion des Materials
an der Stelle in Zusammenhang steht. Die Vorrichtung weist auch
eine Speicheranordnung zur Speicherung eines Datensatzes, der den
ersten Reaktionswert umfasst, und anderer Reaktionswerte auf, die
unter vergleichbaren Bedingungen erhalten worden sind. Eine Verteilungsermittlungsanordnung
ermittelt einen Satz von Wahrscheinlichkeitsverteilungen, der mindestens
eine Verteilung umfasst, wobei hypothetische Reaktionswerte mit
entsprechenden Wahrscheinlichkeiten für jeden interessierenden Genotyp
an der Stelle in Zusammenhang gebracht werden. Eine Genotypberechnungsanordnung
wendet den ersten Reaktionswert auf jede relevante Wahrscheinlichkeitsverteilung
zur Bestimmung der bedingten Wahrscheinlichkeit jedes interessierenden
Genotyps an der Stelle an. Eine Genotypbestimmungsanordnung bestimmt
den Genotyp auf der Basis von Daten, die von der Genotypberechnungsanordnung
erhalten worden sind.
-
In einer weiteren Ausführungsform
kann die Vorrichtung den Genotyp an ausgewählten Stellen bestimmen. In
dieser Ausführungsform
kann die Reaktionswerterzeugungsanordnung einen Reaktionswert erzeugen,
der die Gegenwart eines gegebenen Allels an jeder der ausgewählten Stellen
anzeigt und der Datensatz umfasst die Reaktionswerte, die bezüglich jeder
der ausgewählten
Stellen erhalten worden sind. Die Genotypberechnungsanordnung wendet
Reaktionswerte, die bezüglich
jeder der ausgewählten
Stellen erhalten worden sind, auf jede relevante Wahrscheinlichkeitsverteilung
an.
-
In einer weiteren Ausführungsform
kann die Vorrichtung den Genotyp an einer Stelle innerhalb des genetischen
Materials aus jeder einer Mehrzahl von Proben bestimmen. In dieser
Ausführungsform
kann die Reaktionswerterzeugungsanordnung einen Reaktionswert erzeugen,
der die Gegenwart eines gegebenen Allels eines Materials, das von
jeder der Proben erhalten worden ist, an der Stelle anzeigt, und
der Datensatz umfasst Reaktionswerte, die bezüglich jeder Probe erhalten
worden sind. Die Genotypberechnungsanordnung wendet Reaktionswerte,
die bezüglich
jeder Probe erhalten worden sind, auf jede relevante Wahrscheinlichkeitsverteilung
an.
-
In jeder dieser Ausführungsformen
kann die Reaktionswerterzeugungsanordnung auch eine Anordnung zur
Erzeugung eines zweiten Reaktionswerts umfassen, der unabhängig die
Gegenwart eines zweiten Allels an der Stelle anzeigt. Die Speicheranordnung
umfasst dann ein Mittel zur Speicherung des zweiten Reaktionswerts
und anderer Reaktionswerte, die unter vergleichbaren Bedingungen
erhalten worden sind. Die Genotypberechnungsanordnung wendet den
ersten und den zweiten Reaktionswert auf jede relevante Wahrscheinlichkeitsverteilung
zur Bestimmung der Wahrscheinlichkeit jedes interessierenden Genotyps
an der Stelle an. Jede Wahrscheinlichkeitsverteilung kann von einem
Typ sein, bei dem ein hypothetisches Paar von ersten und zweiten
Reaktionswerten mit einer Einzelwahrscheinlichkeit jedes interessierenden
Genotyps in Zusammenhang gebracht wird. Die Stelle kann ein einzelnes
Nucleotid sein und die Reaktionswerterzeugungsanordnung kann einen
optischen Wandler zum Lesen von Reaktionsergebnissen umfassen und
kann auf einer im Wesentlichen gleichzeitigen Basis die Reaktionswerte
bezüglich
jeder Probe bestimmen.
-
Die Verteilungsermittlungsanordnung
kann so konfiguriert sein, dass sie eine anfängliche Wahrscheinlichkeitsverteilung
dem Datensatz zuordnet, der die hypothetischen Reaktionswerte mit
entsprechenden Wahrscheinlichkeiten für jeden interessierenden Genotyp
an der Stelle in Zusammenhang bringt. Die Verteilungsermittlungsanordnung
veranlasst anschließend
das Genotypberechnungsmittel, jede anfängliche Wahrscheinlichkeitsverteilung
zur Bestimmung von anfänglich
bedingten Wahrscheinlichkeiten für
einen interessierenden Genotyp an der Stelle zu verwenden. Danach
modifiziert die Verteilungsermittlungsanordnung jede anfängliche
Wahrscheinlichkeitsverteilung, so dass jede modifizierte Verteilung
die in dem Speichermittel gespeicherten Reaktionswerte genauer wiedergibt.
-
Der Begriff "Reaktionswert", wie
er in dieser Beschreibung und den beigefügten Patentansprüchen verwendet
wird, steht entweder für
einen einzelnen Zahlenwert oder eine Ansammlung von Zahlen, die
mit einem physikalischen Zustand im Zusammenhang stehen, der durch
die Reaktion erzeugt worden ist. Bei dem in dem vorstehend genannten
Artikel von Nikiforov beschriebenen GBA-Verfahren werden z. B. optische
Signale erzeugt, die als einzelner Zahlenwert gelesen werden können. Alternativ
kann z. B. ein optisches Signal im Laufe der Zeit vereinfacht werden
und der Reaktionswert kann eine Ansammlung von Proben eines solchen Signals
sein. Es ist auch möglich,
ein abgetastetes Bild eines optischen Signals oder einer Reihe von
optischen Signalen zu bilden, das bzw. die durch GBA oder andere
Reaktionsverfahren erzeugt worden ist bzw. sind, und dieses Bild
zu digitalisieren, so dass eine Ansammlung von Pixelwerten in dem
gesamten Bild oder einem Teil des Bilds einen Reaktionswert bildet.
-
Die vorstehend genannten Aspekte
der Erfindung werden unter Bezugnahme auf die folgende detaillierte
Beschreibung zusammen mit den beigefügten Zeichnungen deutlicher,
wobei
-
1 ein
Diagramm einer Vorrichtung gemäß einer
bevorzugten erfindungsgemäßen Ausführungsform
ist;
-
2 ein
Diagramm des logischen Ablaufs gemäß der Ausführungsform von 1 ist;
-
3 eine
Auftragung numerischer Reaktionswerte (Daten), die durch die Ausführungsform
von 1 erzeugt worden
sind, sowie der Genotyp-Bestimmungen ist, die durch die Ausführungsform
aus diesen Daten erzeugt worden ist;
-
die 4 bis 7 Wahrscheinlichkeitsverteilungen,
die von der Ausführungsform
von 1 für drei interessierende
Genotypen (AA, AT und TT) abgeleitet worden sind, sowie einen Fehlermodus
an einer Stelle zeigen; und
-
8 ein
Beispiel der Ausgabe der Vorrichtung in 1 ist.
-
Die Erfindung stellt in bevorzugten
Ausführungsformen
ein Verfahren und eine Vorrichtung zur Genotyp-Bestimmung unter
Verwendung genetischer Markersysteme bereit, die allelspezifische
quantitative Signale erzeugt. Bei einer Ausführungsform wird eine Computerverarbeitung
von Daten eingesetzt, die von einer von uns entwickelten Vorrichtung
zur Erzeugung von GBA-Daten erzeugt worden sind, wobei eine von
uns entwickelte und als "GetGenos" bezeichnete Computersoftware
verwendet wird. Die Vorrichtung erreicht unter anderem Folgendes:
-
- – Eine
vollautomatische Genotyp-Bestimmung aus quantitativen Daten. Die
Offline-Analyse von Datensammlungen ist beabsichtigt, obwohl die
Software schnell genug ist, um sie interaktiv einzusetzen.
- – Das
Vermögen
zur gleichzeitigen Untersuchung vieler Alleltests pro DNA-Probe.
Aus diesen Daten werden ein Genotyp und ein Vertrauensmaß erzeugt.
- – Für jeden
Genotyp wird ein wahres Wahrscheinlichkeits-Vertrauensmaß (eine
LOD-Bewertung) erzeugt,
das geeignet kalibriert ist.
- – Die
Verwendung robuster statistischer Verfahren: Eine Verminderung des
Rauschens über
eine selektive Datensammlung bzw. -vereinigung und eine gleichzeitige
Suche über
Punkte in einer Datensammlung, wodurch eine Verzerrung verhindert
wird.
- – Die
maximale Vermeidung willkürlicher
Parameter und folglich eine Unempfindlichkeit gegenüber einer
starken Variation der Eingangsdaten. Die geringe Anzahl von Parametern,
die für
das zugrundeliegende statistische Modell erforderlich sind, wird
an die beobachteten Daten angepasst, und zwar im Wesentlichen unter
Verwendung des Datensatzes als eigene innere Kontrolle.
- – Die
Flexibilität
bei der Handhabung von Mehrfach-Datentypen. Im Wesentlichen müssen nur
die nachstehend beschriebenen Berechnungen der Wahrscheinlichkeitsverteilung
für die
neuen Datentypen kalibriert werden. Wir erwarten, dass die Erfindung
auf Marker des GBA-, OLA-, ASH- und RAPD-Typs angewandt werden kann.
-
Unsere gegenwärtige Ausführungsform für die Software
ist zur leichten Übertragung
in ein anwendungsspezifisches Laborinformationssystem im übertragbaren
ANSI C implementiert. Dieser Kode lief erfolgreich auf
-
- – Macintosh
- – Sun
- – MS-DOS
- – MS-Windows
-
In unserer gegenwärtigen Ausführungsform der Software wird
zur GBA-Datenverifizierung eine Anzahl von Konsistenzprüfungen durchgeführt, und
zwar sowohl unter Verwendung der GBA-Rohwerte als auch der Kontrollwells.
Die Gesamtstatistik für
die Trendanalyse und QC werden berechnet. Es werden kurze "Genotyp-Berichte"
erzeugt, welche die Ergebnisse für jeden
Datensatz, einschließlich
Fehler, zusammenfassen. Alle Daten werden in einer zweckmäßigen Form
zum Importieren in interaktive statistische Programmlösungen,
wie z. B. DataDeskTM, ausgegeben. Die gegenwärtige Implementierung
ist zur Zeit auf 2-Allel-Test in Diploiden beschränkt, wobei
es sich um die Situation bei gegenwärtigen GBA-Anwendungen handelt.
-
In 1 ist
eine bevorzugte Ausführungsform
einer erfindungsgemäßen Vorrichtung
gezeigt. Die Vorrichtung umfasst einen optischen Detektor 11 zur
Erzeugung von Reaktionswerten, die sich aus einer oder mehreren
Reaktionen ergeben. Diese Reaktionen testen im Hinblick auf ein
oder mehrere Allel(e) in Proben aus genetischem Material. Wir haben
den Detektor 11 unter Verwendung eines bichromatischen
Mikroplattenlesegeräts
Modell 348 und eines Mikroplattenstapelgeräts Modell 83 von ICN Biomedical,
Inc., P.O. Box 5023, Costa Mesa, Kalifornien 92626 implementiert.
Die Mikroplatten liegen in einem 96-Well-Format vor und das Lesegerät nimmt
20 Mikroplatten in einer einzelnen Verarbeitungscharge auf. Demgemäß ermöglicht die
Vorrichtung dieser Ausführungsform
die Verarbeitung großer
Chargen. Bei den Reaktionen in unserer Implementierung wird GBA
eingesetzt, wie es vorstehend beschrieben worden ist. Der Detektor 11 wird
durch den Computer 12 so gesteuert, dass ein selektives
Auslesen von Reaktionswerten von jedem Well verursacht wird. Der Computer 12 ist
so programmiert, dass ein Mehrfach-Auslesen des Reaktionswerts von
einem gegebenen Well über
einen Zeitraum möglich
ist. Die Werte werden vorübergehend
in einem Speicher und dann in der Datenbank 14 gespeichert.
Der Computer 13 hat über
die Leitung 15 einen Zugang zu der Datenbank 14 und verarbeitet
die Daten gemäß dem nachstehend
beschriebenen Verfahren. Natürlich
können
die Computer 12 und 13 und die Datenbank 14 durch
eine integrale Steuereinrichtung und Datenspeicheranordnung implementiert
werden. Eine solche Anordnung könnte
sich in dem Gehäuse
des optischen Detektors 11 befinden.
-
In 2 ist
das von dem Computer 13 durchgeführte Verfahren gezeigt. Die
Schritte in diesem Verfahren sind wie folgt.
-
Eingabedaten: Bei dem Schritt 21
wird ein Datensatz geladen. Bei den meisten Anwendungen sollte jedes
Experiment in dem Satz aus dem Testen (i) des gleichen genetischen
Markers und (ii) des gleichen Satzes von Allelen dieses Markers
unter Verwendung einer vergleichbaren Biochemie (z. B. den gleichen
Reagenzchargen, usw.) bestehen. Große Datensätze unterstützen bei der Verminderung des
Rauschens, obwohl die geeignete Größe eines Datensatzes von den
Allelfrequenzen abhängt
(und folglich von der Anzahl der erwarteten Individuen jeder Genotyp-Klasse).
Jeder Datenpunkt in den Eingabedaten kann als N-Tupel von Zahlenwerten
betrachtet werden, wobei N die Anzahl von Signalen ist, die von
jeder DNA-Probe für
diese Stelle gesammelt worden sind. (N wird gewöhnlich die Anzahl der Allele
sein, die bei diesem Marker getestet worden sind, und mit A bezeichnet,
mit der Ausnahme, wenn ein wiederholtes Testen durchgeführt wird,
wobei dann N größer als
A sein kann.)
-
Vorverarbeitung der Daten: Als nächstes werden
die Daten einer Vorverarbeitung unterworfen (Schritt 22). Es wird
eine interne M-dimensionale euklidische Darstellung der Eingabesignale
erzeugt, wobei jeder Eingabewert (ein N-Tupel) ein Punkt im M-Raum
ist. Gewöhnlich
wird M = N sein und die Koordinaten des Punkts werden die Werte
des Eingabetupels sein und folglich wird die Vorverarbeitung trivial
sein (vgl. jedoch den ersten Absatz der diskutierten Variationen).
Der euklidische Raum kann nicht-linear sein, und zwar abhängig von den
besten verfügbaren
Modellen der Signalerzeugung. (Vollständig mathematisch äguivalent
kann jegliche nicht-Linearität
in den anfänglichen
Wahrscheinlichkeitsverteilungen verwirklicht sein, wie es nachstehend
beschrieben ist.)
-
3 veranschaulicht
vorverarbeitete Reaktionswerte von Schritt 22 für die GBA-Stelle 177-2 auf 80 DNA-Proben.
Die X-Achse gibt die vorverarbeiteten Reaktionswerte für das Allel
1 (A) an und die Y-Achse gibt die vorverarbeiteten Reaktionswerte
für das
Allel 2 (T) an. Aus Gründen
der Klarheit werden die Ergebnisse der Genotyp-Bestimmung für jeden
Punkt angegeben: Dreiecke sind ein TT-Genotyp, Rauten sind AA, Kreise sind
AT und Quadrate sind Fehler (kein Signal).
-
Wahrscheinlichkeitsverteilungen:
In
2 werden die anfänglichen
Wahrscheinlichkeitsverteilungen in dem Schritt 22 für die G
möglichen
Genotypen bestimmt. Beispielsweise gilt für eine statistische diploide Population,
die A getestete Allele enthält:
-
Die anfängliche bedingte Wahrscheinlichkeit
für jegliche(n)
hypothetische Eingabewert(e) (ein Punkt im M-Raum, als Xi bezeichnet) und Genotyp (als g bezeichnet)
ist als die A-priori-Wahrscheinlichkeit
des Auftretens des Signals X; definiert, und zwar unter der Annahme,
dass g der korrekte Genotyp dieses Werts ist. Das heißt: wobei
-
-
Die 4 bis 7 veranschaulichen die anfänglichen
Wahrscheinlichkeitsverteilungen, die für die Daten in 3 erstellt worden sind. Die Wahrscheinlichkeitsverteilungen
sind in den 4, 5, 6 bzw. 7 für die vier interessierenden
Genotyp-Klassen AA, AT, TT und kein Signal ermittelt worden. Die
Schattierung an jeder XY-Position zeigt die Wahrscheinlichkeit,
wobei dunklere Schattierungen eine erhöhte Wahrscheinlichkeit für hypothetische
Datenpunkte mit diesen X- und Y-Reaktionswerten angeben.
-
Die Herkunft dieser Verteilungen
ist für
die Art der Eingabedaten hoch spezifisch. Die Wahrscheinlichkeitsverteilungen
können
entweder bei diesem Schritt vorberechnet und als quantifizierte
Daten gespeichert werden oder sie können gegebenenfalls während des
nachfolgenden Schritts 23 berechnet werden. Die Wahrscheinlichkeitsverteilungen
können
feststehend sein oder sie können
an die beobachteten Daten oder an angenommene Genotypen angepasst
werden, die durch vorherige Iterationen dieses Algorithmus bestimmt
worden sind (vgl. den nachstehenden Punkt "Zusätzliche Merkmale").
-
Bei dem Schritt 23 wird die bedingte
Wahrscheinlichkeit jedes Genotyps berechnet. Für jeden Wert X
i werden
die vorstehend genannten Wahrscheinlichkeiten zu einer bedingten
Aposteriori-Gesamtwahrscheinlichkeit jedes Genotyps für diesen
Wert zusammengefasst:
wobei Pr(Genotyp =
g) die A-priori-Wahrscheinlichkeit eines beliebigen Werts ist, den
Genotyp g aufzuweisen;
Pr(Signal X
i)
die A-priori-Wahrscheinlichkeit des Signals ist (eine Konstante,
die nicht beachtet werden muss); und
Pr(Signal X
i Genotyp
= g) die vorstehend beschriebene anfängliche Wahrscheinlichkeit
ist.
-
Bei dem Schritt 24 wird der Genotyp
bestimmt und die Vertrauensbewertung berechnet. Für jeden Wert
wird unter Verwendung der vorstehend genannten A-posteriori-Wahrscheinlichkeiten
die wahrscheinlichste Genotypenzuordnung g' (der Genotyp mit der
höchsten
A-posteriori-Wahrscheinlichkeit) und dessen Vertrauensbewertung
berechnet. Die Vertrauensbewertung C ist einfach der log des Unterschiedsverhältnisses:
-
Es sollte beachtet werden, dass dieses
Verfahren unter anderem deshalb signifikant ist, da es die Bestimmung
einer robusten Wahrscheinlichkeits-Vertrauensbewertung erlaubt,
die mit jeder Genotypenbestimmung im Zusammenhang steht.
-
Bei dem Schritt 25 kann eine adaptive
Anpassung eingesetzt werden. Zur Erhöhung des Vermögens zur
Handhabung stark unterschiedlicher Eingabedatensätze und zur Verminderung der
Rauschempfindlichkeit kann ein klassischer iterativer adaptiver
Anpassungsalgorithmus eingesetzt werden, wie z. B. die Abschätzung-Maximierung
(E-M). In diesem Fall werden die in Schritt 24 berechneten Genotypen
zur erneuten Anpassung der Verteilungen (von Schritt 22) verwendet.
In dem Schritt 25 wird ein Konvergenztest durchgeführt, der dazu
führen
kann, dass das Programm in einer Schleife zu dem Schritt 23 zurückkehrt,
jedoch nun unter Verwendung der neuen Verteilungen.
-
Als ein Beispiel kann ein E-M-Suchverfahren
zur Maximierung der Gesamtwahrscheinlichkeit verwendet werden, d.
h. zum Auffinden des maximal wahrscheinlichen Satzes von Genotypenzuordnungen
bei gegebenem Eingangsdatensatz. (Die Nettowahrscheinlichkeit kann
aus den vorstehend definierten Bayesschen Wahrscheinlichkeiten berechnet
werden.) Für
geeignete Wahrscheinlichkeitsberechnungen und Wahrscheinlichkeitsverteilungen
wird das EM-Prinzip
sicherstellen, dass dieser Algorithmus ungeachtet des anfänglichen Ansatzes
immer wahre Maximalwahrscheinlichkeitswerte erzeugt und dass er
immer konvergiert.
-
Ausgabedaten: Bei dem Schritt 26
werden die Ergebnisse (Genotypen und Vertrauensbewertungen) an den
Anwender oder an eine Computerdatenbank ausgegeben. Ein Beispiel
einer solchen Ausgabe ist in 8 gezeigt.
-
Zusätzliche
Merkmale
-
In das vorstehend erläuterte Verfahren
können
zusätzliche
Merkmale eingebracht werden. Diese können entweder zusammen oder
getrennt in das Verfahren eingebracht werden und sie wurden alle
in einer bevorzugten Ausführungsform
implementiert.
-
Vorverarbeitung: Während des
Schritts 21 oder 22 können
die Daten (entweder Eingabe-Tupel
oder räumliche
Datenpunkte) unter Verwendung beliebiger klassischer statistischer
Techniken oder Signalverarbeitungstechniken vorverarbeitet werden,
um das Rauschen zu vermindern. Bei diesem Schritt können Kontrolldatenpunkte
verwendet werden. Tatsächlich
können
bei nahezu jedem Schritt in dem Algorithmus verschiedene Arten einer
Signalfilterung oder -normalisierung angewandt werden.
-
Anpassung der Wahrscheinlichkeitsverteilungen:
Die in den Schritten 22 und 23 berechneten Wahrscheinlichkeitsverteilungen
können
an die Eingabedaten angepasst werden, d. h. jede Verteilung kann
eine Funktion der Werte sein, die teilweise aus den Eingabedaten
berechnet werden. Beispielsweise kann die bedingte Wahrscheinlichkeit
eines Signalpunkts für
einen bestimmten Genotyp so definiert werden, dass sie eine Funktion
des Abstands zwischen diesem Punkt und dem beobachteten Mittelwert
für dieses
Signal ist.
-
Verwendung eines anfänglichen
Genotyp-Ansatzes: In dem Schritt 22 kann zur Erzeugung eines anfänglichen
Genotyp-Ansatzes für
jeden Eingabedatenpunkt entweder ein einfacher oder ein heuristischer
Algorithmus eingesetzt werden. Wenn ein ziemlich genauer Ansatz
erzeugt werden kann, dann können
die Wahrscheinlichkeitsverteilungen für jeden Genotyp an den Untersatz
der Daten angepasst werden, von denen angenommen wird, dass sie
dieser Genotyp-Klasse angehören.
Eine andere Verwendung eines Genotyp-Ansatzes besteht in (einer)
anfänglichen
Eingabegültigkeitsprüfung(en)
und/oder -vorverarbeitung (z. B. im Schritt 22), bevor der Rest
des Algorithmus angewandt wird. Um geeignet zu sein, muss ein Ansatz
jedoch nicht die vollständige
Genotyp-Information liefern.
-
Verwendung einer Genotyp-Null-Klasse:
In dem Schritt 22 und allen folgenden Schritten kann eine (oder
mehrere) zusätzliche
Wahrscheinlichkeitsverteilungen hinzugefügt werden, um die Daten an
die Signale anzupassen, die erwartet würden, wenn ein Experiment (z.
B. dieses Werts) fehlschlagen würde.
Beispielsweise
-
Die gegenwärtige vorstehende Implementierung
ist zur Zeit auf M = 2 und N 2 * R beschränkt, wobei R die Anzahl der
wiederholten Tests beider Allele ist. Die beiden Allele werden mit
X und Y bezeichnet. Das Programm versteht das Konzept von "Platten"
von Daten, wobei eine Anzahl davon einen Datensatz bildet.
-
Die Variation des anfänglichen
Ansatzes wird verwendet, um zunächst
Verteilungen unter Verwendung der nachstehend beschriebenen Heuristik
anzupassen. Der anfängliche
Ansatz wird während
des Vorverarbeitungsschritts erzeugt, der die Eingabedaten normalisiert
und den Hintergrund subtrahiert, sowie offensichtlich außen liegende
Punkte entfernt. Diese Schritte werden für jedes der Allelsignale getrennt
durchgeführt
(d. h., es handelt sich um eine eindimensionale Analyse). Diese
Vorverarbeitung wird getrennt mit jedem der R-fach wiederholten
Tests durchgeführt
und der Test mit dem kleinen 2-dimensionalen Gesamtrest wird für die weiteren
Schritte gewählt.
Für die
GBA-Datenvalidierung und für
die QC werden ver schiedene andere Vorverarbeitungs- und Nachverarbeitungsschritte
eingesetzt. Insbesondere können
Kontrollen verwendet werden, die einen bekannten Reaktionswert erzeugen,
um die Integrität
des biochemischen Verfahrens sicherzustellen. In einer bevorzugten
Ausführungsform
werden die Signale als kleine positive Zahlen angenommen (zwischen
0,0 und 5,0, wobei 0,0 anzeigt, dass ein Allel wahrscheinlich nicht
in der Probe vorliegt, und größere Werte
anzeigen, dass es vorliegen kann).
-
Zur Handhabung eines weiten Bereichs
von Signalstärken
der Eingabedaten wird die adaptive Anpassungsvariation eingesetzt.
Das Programm ist jedoch streng kodiert, so dass durch den Schritt
25 exakt nur ein oder zwei Wechselwirkungsabläufe durchgeführt werden,
was für
bestehende GBA-Daten gut funktioniert.
-
Die Wahrscheinlichkeitsverteilungen,
die gegenwärtig
in den Schritten 22 und 25 angepasst werden, weisen als einzige
Parameter (i) das Verhältnis
der X- und Y-Signale für
Heterozygoten und (ii) die Varianz von den normalisierten Mittelwerten
(0,0 negativ für
dieses Allel, 1,0 positiv für
dieses Allel) entlang jeder Achse separat auf. Tatsächlich sind
diese letztgenannten Zahlen so beschränkt, dass es sich mindestens
um ein feststehendes Minimum handelt, das selten überschritten
wird, so dass der Algorithmus mit sehr kleinen Datenmengen gut arbeiten
und das gewünschte
Verhalten erzeugen wird. Diese Zahlen werden für jede Mikrotiterplatte separat
berechnet. Die Wahrscheinlichkeitsverteilungen werden unter Verwendung
des beigefügten Kodes
(in C geschrieben) erzeugt, der als Anhang A in diese Beschreibung
unter Bezugnahme eingefügt
ist.
-
Die Null-Klassen-Variante wird verwendet,
um die Genotyp-Klasse bereitzustellen, die „Kein Signal" anzeigt.
-
Die Qualitätskontrolle kann auch in überraschender
Weise unter Verwendung der hier beschriebenen Verfahren verbessert
werden. Insbesondere dient die Vertrauensbewertung C der Gleichung
(4) als robuster Indikator für
die Leistung des biochemischen Reaktionssystems. Beispielsweise
kann ein Abwärtstrend
der Vertrauensbewertungen innerhalb einer einzelnen Charge oder
in aufeinanderfolgenden Chargen eine Zersetzung eines wichtigen
Reagenzes oder einer Probe oder eine Fehlkalibrierung der Geräte anzeigen.
-
Demgemäß kann der Computer in einer
bevorzugten Ausführungsform
zur Bestimmung der Gegenwart eines Abwärtstrends der Vertrauensbewertung
im Laufe der Zeit verwendet werden, die bezüglich jeder der folgenden Variablen
berechnet wird: Der Stelle (gibt es einen Abwärtstrend der Vertrauensbewertung
einer einzelnen Stelle relativ zu anderen getesteten Stellen?),
der Probe (gibt es einen Abwärtstrend
der Vertrauensbewertung einer einzelnen Probe relativ zu anderen
getesteten Proben?), der Platte (gibt es einen Abwärtstrend
der Vertrauensbewertung dieser Platte relativ zu einer anderen Platte?)
und der Charge (relativ zu anderen Chargen). Wenn ein Abwärtstrend
mit einer statistischen Signifikanz detektiert wird (z. B. mit einem Chi2-Test), wird ein Alarmzustand ausgelöst.
-
Da die Vertrauensbewertung eine genaue
Anzeige der Zuverlässigkeit
des Reaktionssystems und der Genotyp-Bestimmung ist, wird eine niedrige
Vertrauensbewertung bei einer gegebenen Bestimmung als Hinweis dafür genommen,
dass ein erneutes Testen erforderlich ist.
-
Anhang A
-
'/Die Wahrscheinlichkeitsverteilungen
in den
4,
5,
6 bzw. 7 entsprechen den Werten xx_prob, xy_prob,
yy_prob und ns_prob für
alle möglichen
Werte der vorverarbeiteten Reaktionswerte (x_val und y_val) im interessierenden
Bereich (0,0 bis 3,0).
'/Es werden die folgenden globalen Variablen
eingestellt... '/ double x_pos_mean, x_neg_mean, y_pos mean, y_neg_mean,
double x_val, y_val;
'/Und es werden die folgenden globalen
Variablen eingestellt... '/ double xx_prob, xy_prob, yy_prob, ns_prob;