DK2511843T3

DK2511843T3 - Fremgangsmåde og system til at hente variationer i en prøvepolynukleotidsekvens i forhold til en referencepolynukleotidsekvens

Info

Publication number: DK2511843T3
Application number: DK12165247.3T
Authority: DK
Inventors: Paolo Carnevali; Jonathan M Baccash; Igor Nazarenko; Aaron L Halpern; Geoffrey Nilsen; Bruce Martin; Radoje Drmanac
Original assignee: Complete Genomics Inc
Priority date: 2009-04-29
Filing date: 2010-04-28
Publication date: 2017-03-27
Also published as: WO2010127045A2; WO2010127045A3; EP2430441A4; CN102460155B; EP2511843A2; EP2430441B1; EP2511843B1; CN102460155A; EP2511843A3; US20110004413A1; EP2430441A2

Claims

1. Computer-implementeret fremgangsmåde til at hente variationer i kortlagte, parrede aflæsninger, der er opnået fra en polynukleotidsekvens af en prøve sammenlignet med en polynukleotidsekvens af en reference, hvilken fremgangsmåde omfatter: at modtage referencepolynukleotidsekvensen og kortlagte, parrede aflæsninger (200), hvor de kortlagte, parrede aflæsninger opnås fra prøvepolynukleotidsekvensen og kortlægges til steder i referencepolynukleotidsekvensen; for hver af et antal positioner på referencepolynukleotidsekvensen: at beregne en eller flere referenceværdier (510), hvor hver referenceværdi tilhører en hypotese, der er forskellig fra referencepolynukleotidsekvensen ved positionen og som er beregnet på basis af de kortlagte, parrede aflæsninger ved anvendelse af en Bayes-formulering (500) for hypotesen; at identificere lokale områder (300) svarende til positioner, der har en referenceværdi over en tærskelværdi; at anvende de-Bruijn-grafbaserede algoritmer til at bestemme grafer til at identificere lokale de-novo-intervaller (512), hvor hvert lokalt de-novo-interval omfatter en eller flere positioner, ved hvilke grafen afviger fra referencepolynukleotidsekvensen; at kombinere de lokale områder og de lokale de-novo-intervaller til at danne optimeringsintervaller (514); for hvert optimeringsinterval: at generere en første sekvenshypotese (412) ved anvendelse af referenceværdierne eller én eller flere grafer af optimeringsintervallet; og at modificere den første sekvenshypotese for at opnå en optimeret sekvenshypotese (414), der har en forøget sandsynlighed for at være korrekt baseret på de kortlagte, parrede aflæsninger, der kan kortlægges til op timerings interval le tjat identificere og hente variationer (32), der er detekteret i de kortlagte, parrede aflæsninger i forhold til referencepolynukleotidsekvensen ved anvendelse af de optimerede sekvenshypoteser; og at udsende en liste over de variationer, der hver især beskriver en måde, hvorpå de kortlagte, parrede aflæsninger observeres at afvige fra referencepolynukleotidsekvensen ved eller nær et bestemt sted.

2. Fremgangsmåden ifølge krav 1, hvor udlæsning af listen over variationerne yderligere indbefatter udlæsning af en liste over ikke-hentede områder, for hvilke variationer ikke kan hentes på grund af beregningsmæssige usikkerheder.

3. Fremgangsmåden ifølge krav 1, hvor variationerne indbefatter identificerede sekvenser af deletioner, insertioner, mutationer polymorfier og duplikationer eller omlejringer af én eller flere baser.

4. Fremgangsmåden ifølge krav 3, der yderligere omfatter anvendelse af de optimerede sekvenshypoteser til at samle prøvepolynukleotidsekvensen fra de kortlagte, parrede aflæsninger, hvor en samlet polynukleotidsekvens hovedsageligt er baseret på referencepolynukleotidsekvensen, men indbefatter de identificerede sekvenser.

5. Fremgangsmåden ifølge krav 1, hvor hver af de kortlagte, parrede aflæsninger omfatter aflæsninger, der har variable mellemrum.

6. Fremgangsmåden ifølge krav 1, hvor hver af de kortlagte, parrede aflæsninger omfatter aflæsninger, der ikke har mellemrum.

7. Fremgangsmåden ifølge krav 1, hvorved beregning af reference- værdier ved anvendelse af Bayes-formuleringen omfatter: for hver baseposition i referencepolynukleotidsekvensen: at generere et sæt af første hypoteser for denne baseposition i referencepolynukleotidsekvensen ved at modificere en baseværdi ved denne baseposition i p alleler ved alle mulige 1-basevariationer; at bestemme et sæt kortlagte, parrede aflæsninger, der er tæt på denne baseposition af referencepolynukleotidsekvensen; og at beregne referenceværdier for denne baseposition ved at beregne for hver af de første hypoteser i sættet af første hypoteser, et forhold mellem sandsynlighederne Pv/PRef, hvor Pv er en sandsynlighed for en 1-basevariationhypotese, og PRef er en sandsynlighed for basisværdien i referencepolynukleotidsekvensen, og hvor sættet af kortlagte, parrede aflæsninger nær denne baseposition anvendes under beregning af sandsynlighedsforholdet ved denne baseposition; hvor prøvepolynukleotidsekvensen omfatter et genom G, og hvor hver af referenceværdierne omfatter et logaritmisk likelihoodforhold L(G) for hver af hypoteserne, hvor L (G) = Log (Pv/PRef) .

8. Fremgangsmåden ifølge krav 6, hvor de kortlagte, parrede aflæsninger genereres uafhængigt af hinanden, og sandsynlighedsestimater, der tager hensyn til alle af de kortlagte, parrede aflæsninger beregnes ved

hvor N30 repræsenterer et antal baser i referencegenomet, Ng repræsenterer et antal baser i prøvegenomet, og Nd repræsenterer et antal parrede aflæsninger.

9. Fremgangsmåden ifølge krav 7, der yderligere omfatter at repræsentere

med en tilnærmelse for en insertionstraf, således at hver ekstra base i et allel af G forårsager en formindskelse i P(G|MtdRds) med en faktor exp (-c/nD) , hvor nD repræsenterer et antal baser i hver af de kortlagte, parrede aflæsninger, således at ekstra baser ikke tilføjes til G, medmindre de ekstra baser har en tilstrækkelig støtte ved de kortlagte, parrede aflæsninger, hvor c er den gennemsnitlige dækning pr allel.

10. Fremgangsmåden ifølge krav 1, hvor beregning af lokale de-novo-intervaller anvender en partiel de-Bruijn-graf for at finde variationer ud over singlebaseændringer, hvilken fremgangsmåde yderligere omfatter: at initialisere en partielle de-Bruijn-graf med referenceknuder, der er dannet fra basesekvenser fra referencepolynukleotidsekvensen; for hver af referenceknuderne at bestemme et sæt kortlagte, parrede aflæsninger, der kan kortlægges til referenceknuderne og som indbefatter en baseudvidelse, der strækker sig ud over hver ende af referenceknuden af enhver mulig 1-baseværdi; for hver baseudvidelse at beregne en udvidelsesstyrke, der repræsenterer en mængde af støtte for at udvide referenceknuden ved hver 1-baseværdi, som er baseret mindst delvist på et antal kortlagte, parrede aflæsninger, der har den samme udvidelse og antallet af overensstemmelser og ikke-overensstemmelser af disse kortlagte, parrede aflæsninger med sekvensen for knuden, der behandles; idet baseudvidelserne, der har en højeste udvidelsesstyrke, der er uforenelig med referenceknuderne som forgrenede knuder anvendes i den partielle de-Bruijn-graf; at beregne udvidelsesstyrken i retningen af udvidelsen for hver forgrenet knude på en dybde-første måde i en retning, og skabe en ny kant og en forgrenet ny knude efter hver beregning fra baseudvidelserne, der har udvidelsesstyrker over en tærskelværdi; hvis der ikke er baseudvidelser, der har udvidelsesstyrken over tærskelværdien i en bane, returneres en fejl for banen; og hvis en ny forgrenet knude dannes, der er lig med basesekvensen af en af referenceknuderne og som er i overensstemmelse med en SNP eller kort indel, at afslutte beregningen og returnerer banen.

11. Fremgangsmåden ifølge krav 1, hvor kombination af de lokale områder og de lokale de-novo-intervaller til at danne optimeringsintervaller indbefatter: at overveje som kandidater for optimeringsintervaller de lokale de-novo-intervaller og referenceværdierne, der er forbundet med et højt sandsynlighedsforhold Pv/Pp.ef som overstiger tærskelværdien, hvor Pv er en sandsynlighed for en 1-basevariationshypotese, og PRef er en sandsynlighed for baseværdien i referencepolynukleotidsekvensen; og at kombinere kandidatoptimeringsintervallerne, der overlapper hinanden eller der er mindre end en tærskelbaseafstand fra hinanden, til optimeringsintervallerne; hvor prøvepolynukleotidsekvensen omfatter et genom G, og hvor hver af referenceværdierne omfatter et logaritmisk likelihood-forhold L(G) for hver af hypoteserne, hvor L (G) = Log (Pv/PRef) ·

12. Fremgangsmåden ifølge krav 1, hvor modificering af den første sekvenshypotese for at opnå en optimeret sekvenshypotese omfatter: at gennemløbe hver baseposition i en første hypotese i optimeringsintervallet og iterativt at ændre basen med hver af de mulige alternative baseværdier, herunder indsatte og slettede baser, og at beregne et sandsynlighedsforhold for hver ændring; og at anvende ændringer på de første hypoteser, der maksimerer sandsynlighedsforholdet.

13. System, der omfatter: et datalager (14), der lagrer en referencepolynukleotidsekvens og kortlagte, parrede aflæsninger, som er opnået fra en prøvepolynukleotidsekvens, der er kortlagt til steder i referencepolynukleotidsekvensen; et computercluster (10), der omfatter et antal computere (12), som er koblet til datalageret via et netværk; og et variationskaldeprogram (18), der eksekveres parallelt på antallet af computere, hvilket variationskaldeprogram er konfigureret til at udføre fremgangsmåden i ethvert af kravene 1-12.

14. Systemet ifølge krav 13, hvor computerclusteret er konfigureret således, at en instans af variationskaldeprogrammet, der eksekveres på forskellige af antallet af computere, opererer parallelt på forskellige dele af referencepolynukleotidsekvensen og de kortlagte, parrede aflæsninger.

15. Eksekverbart softwareprodukt, der er lagret på et computerlæsbart medium, som indeholder programinstruktioner til at udføre fremgangsmåden ifølge ethvert af kravene 1-12.