SE517259C2 - System för molekylidentifiering - Google Patents

System för molekylidentifiering

Info

Publication number
SE517259C2
SE517259C2 SE0002214A SE0002214A SE517259C2 SE 517259 C2 SE517259 C2 SE 517259C2 SE 0002214 A SE0002214 A SE 0002214A SE 0002214 A SE0002214 A SE 0002214A SE 517259 C2 SE517259 C2 SE 517259C2
Authority
SE
Sweden
Prior art keywords
molecules
masses
mass
stored
database
Prior art date
Application number
SE0002214A
Other languages
English (en)
Other versions
SE0002214D0 (sv
SE0002214L (sv
Inventor
Jan Eriksson
Original Assignee
Jan Eriksson
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jan Eriksson filed Critical Jan Eriksson
Priority to SE0002214A priority Critical patent/SE517259C2/sv
Publication of SE0002214D0 publication Critical patent/SE0002214D0/sv
Priority to AU2001264517A priority patent/AU2001264517A1/en
Priority to PCT/SE2001/001322 priority patent/WO2001096861A1/en
Publication of SE0002214L publication Critical patent/SE0002214L/sv
Publication of SE517259C2 publication Critical patent/SE517259C2/sv

Links

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes
    • H01J49/34Dynamic spectrometers
    • H01J49/40Time-of-flight spectrometers
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures

Landscapes

  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

25 30 5 1 '2 5 9 2 proteinerna ien databas. Proteinet identifieras baserat på en utvärdering av någon av eller båda av dessa jämförelser.
Masspektrometri bestämmer en peptidmassa m,- till en onoggrannhet av :|:Am,-, med Ami/m,- typiskt>3O ppm. Inom massområdet m,d:Am,- kan proteolytiska peptidmassor hos flera proteiner i en genomdatabas överensstämma. Sålunda kommer en omodi- fierad peptid att slumpmässigt överensstämma med flera proteiner i databasen, förutom den sanna överensstämmelsen med det protein som verkligen finns i provet, och, en modifierad peptid kommer att ge enbart slumpmässiga överens- stämmelser. Som konsekvens kommer en databassökning som använder masspekt- roïnetrisk information inte alltid att identifiera ett protein otvetydigt. Därför, för att kunna utföra noggrann och pålitlig molekylidentifiering, måste instrument för erhållande av massdata sammanlänkas på ett lämpligt sätt med användningen av andra tekniska resurser för jämförande av massdata och massdata erhållna från en databas. Sammanlänkningen kan vara ett system som använder ett förfarande som inkluderar sätt att jämföra data och databasinformation, lämpligen kört via en dator.
Trots det raskt ökande påverkanstrycket av masspektrometrisk proteinidentifie- ring på proteomforskning har problemet med att i ett databassökningssystem noggrannt ta hänsyn till fenomenet med slumpmässig massöverensstämmelse iörbisetts. När processer med ökad komplexitet utforskas med MS-baserad pro- teinidentifiering, kommer användningen av optimerade procedurer att bli kritisk.
Ett optimerat proteinidentifieringssystem kan inte designas utan lämpliga hänsyn till processen med slumpmässig massöverensstämmelse.
Teknikens ståndpunkt ldentifieering av proteiner med det ovan beskrivna angreppssättet erfordrar ett schema för bestämningen av den bästa överensstämmelsen mellan experimentella data och en sekvens i databasen. Existerande scheman för bestämningen av den bästa överensstämmelsen inkluderar rankning med antalet överensstämmelser (W .J . Henzel m.fl., Proc. Natl. Acad. Aci. U S A 90, 5011, 1993), ett poängsystem baserat på den obseverade frekvensen av peptider från alla proteiner i en databas inom ett givet molekylviktsområde ( den s.k. “MOWSE score”) (D.C.J. Pappin m.fl., 10. 15 20 25 30 517 259 s Current Biology 6, 327, 1993)), och ett schema baserat på Bayesianska sannolikhe- ter (W. Zhang mfl., Anal. Chem. 72, 2482, 2000).
Inget av dessa scheman tar hänsyn till problemet med slumpmässig överensstäm- melse på ett lämpligt sätt. Avsaknaden av lämplig hänsyn till den slumpmässiga överensstämmelsen förhindrar optimala prestanda i molekylidentifieringsprocedu- rer, eftersom den slumpmässiga överensstämmelsen kan orsaka falska identifie- ringsresultat - särskilt när kvaliten hos masspektrometriska data är dålig.
Sammanfattning av uppfinningen Avsikten med denna uppfinning är att övervinna tillkortakommanden med ovannämnda scheman, det vill säga att tillhandahålla ett förfarande som löser problemet med slumpmässig överensstämmelse.
Denna och andra avsikter har uppnåtts genom att tillhandahålla ett system inkluderande förfaranden för bestämning av sannolikheten att en viss poäng beror på slumpmässig överensstämmelse och att utnyttja den beräknade sannolikheten för att rangordna molekyler. Förfarandet innefattar a) bestämning av antalet överensstämmelser mellan en databasmolekyl och massdata; b) beräkning av sannolikheten att en databasmolekyl skulle ge ett visst antal överensstämmelser av en slump; c) beräkning av en poäng baserat på en eller flera sannolikheter beräknade i b; d) jämförande av poäng för molekyler i databasen och e) identifie- ring av den molekyl eller de molekyler som ger den eller de bästa poängen.
Uppfinningen tillhandahåller vidare ett förfarande för att generera en frekvens- funktion för antalet överensstämmelser för slumpmässiga (falska) molekylidentifie- ringar under vilket experimentellt förhållande som helst. Förfarandet innefattar: a) definiering av en delpopulation av molekyler som ingår i databasen; b) beräk- ning av sannolikheten att en molekyl i denna delpopulation skulle ge ett visst antal överensstämmelser av en slump; c) beräkning av sannolikheten att alla molekyler i delpopulationen skulle ge högst ett visst antal överensstämmelser av en slump; d) beräkning av sannolikheten att minst en molekyl i delpopulationen skulle ge minst ett visst antal överensstämmelser av en slump; och e) bestämmning av den relativa frekvensen för varje antal överenstämmelser genom att använda sannolik- heten som beräknats i steg (d) för varje antal överensstämmelser, för att därifrån 10 15 20 25 30 5117” 259 4 generera en frekvensfunktion för antalet slumpmässiga överensstämmelser vid slumpmässig proteinidentifiering.
Kortfattad ritningsbeskrivning Fig. 1 visar frekvenser (dvs, antal överensstämmande proteiner) för olika tryptiska peptidmassor i en databas.
Fig. 2 visar massfördelningstoppar för tryptiska peptider.
Fig. 3 visar prestanda hos en implementering av en utföringsform av uppfinningen jämfört med system för proteinidentifiering enligt teknikens ståndpunkt. Diagram- met visar resultat från simuleringar med användning av uppfinningen (kallad Probity), en Bayesiansk metod samt en metod baserad på antalet överensstämmel- ser. i Detaljerad beskrivning av uppfinningen Många tillämpningar av molekylidentifiering är av naturen storskaliga. Exempel på storskalig molekylidentifiering finns i proteomprojekt, där tusentals proteiner från celler skall identifieras, eller celler genomsöks efter molekylära markörer för sjukdomstillstånd. Det ultimata målet för molekylidentifieringsprocedurer är att lita till enkla, snabba och automatiska procedurer och instrument. De tekniska lösningarna hos det system som sammanlänkar och jämför data med databasinfor- mation är av ytterst stor betydelse för designen av instrument för automatisk molekylidentifiering, eftersom det system som används starkt kommer att influera förmågan att erhålla en hög frekvens av sanna identifieringsresultat, vilket är särskilt kritiskt när datakvaliteten är dålig. Vidare kräver automatisk identifie- ringsinstrumentering att kvaliteten av ide ntifieringsre sultat kan be dömas automa- tiskt genom användning aviett signifikanstest (J. Eriksson mfl, Anal. Chem. 72, 999, 2000). Ett pålitiligt automatiskt proteinidentifieríngssystem kan emellertid inte konstrueras utan hänsyn till, eller med olämplig hänsyn till, processen med slumpmässig massöverensstämmelse.
Ett syfte med denna uppfinning är att tillhandahålla ett system som utnyttjar förfaranden som tillåter mer noggrann molekylidentifiering och mer noggrann och snabb signifikanstestníng av identifieringsresultat. Förfarandet enligt uppfinning- en tar lämpliga hänsyn till fenomenet med slumpmässig överensstämmelse, och 10 15 20 25 151.7 259 5 är däfór väl lämpad fór implementering i ett automatiskt molekylidentifieringssystem.
En särskild angelägenhet beträffande storskalig molekylidentifiering är den tid som erfordras for att erhålla ett identiñeringsresultat tillsammans med en kvali- tetsbestämning av resultatet. En kvalítetsbestämning kan fullgöras med sígnifi- kanstest, vilket erfordrar vetskap om funktioner som beskriver poäng för falska resultat. Sådana frekvensfunktioner erhålls fór närvarande genom simulering av slumpmässig molekylidentifiering. Då emellertid tiden som behövs for att härleda en frekvensfunktion med hjälp av simulering är ungefär 1000 gånger längre än vid användning av denna uppfinning, så finns det ett behov att härleda en sådan frëkvensfllnktion från en analytisk formel. I en utfórandeform av uppfinningen finns tillhandahållandet av en analytisk formel fór härledningen av en frekvens- funktion. I I Förfarandenna enligt denna uppfinning är väl lämpade fór, men icke begränsade till, tillämpning ivilken molekylerna är biologiska molekyler som existerar i celler- na hos en organism.
Biologiska molekyler innefattar vilken biologisk polymer som helst som kan ned- brytas i beståndsdelar. Nedbrytningen till beståndsdelar skall helst vara vid förut- sägbara lägen för att bilda fórutsägbara massor. Exempel på biologiska molekyler innefattar proteiner, nukleinsyramolekyler, polysackarider och kolhydrater.
En experimentell biologisk molekyl är en biologisk molekyl som skall identifieras; den experimentella biologiska molekylen kan också kallas en okänd biologisk molekyl. En teoretisk biologisk molekyl är en biologisk molekyl är en känd biolo- gisk molekyl beskriven i en databas.
Proteiner är polymerer av aminosyror. Beståndsdelar av proteiner innefattar aminosyror. Ett protein innehåller approximativt minst tio aminosyror, men hellre minst 50 aminosyror ooh ännu hellre minst 100 aminosyror.
Nukleinsyror är polymerer av nukleotider. Beståndsdelar av nukleinsyror innefat- tar nukleotider. Typiskt innehåller en nukleinsyra minst 100 nukleotider, men hellre minst 500 nukleotider. 1o_ 15 20 25 51 12x59 " ° 6 Polysackarider är polymerer av monosackaríder. Beståndsdelar av polysackarider innefattar en eller flera monosackaríder. Typiskt innehåller en polysackarid minst fem monosackarider, men hellre minst tio monosackaríder.
Massdata från biologiska molekyler är kvantifierbar information om massorna av beståndsdelarna av den biologiska molekylen. Massdata inkluderar individuella masspektra och grupper av masspektra. Masspektra kan vara i form av peptidkar- tor, oligonukleotidkartor eller oligosackaridkartor.
Förfarandet i denna uppfinning innefattar generering av experimentella massdata för experimentmolekylen inom ett visst massområde. Massdata innefattar de uppmätta massorna. Förfarandet innefattar också generering av teoretiska mass- data i samma massområde. I en konkret form är massdata en undergrupp av de experimentella massdata.
Exempelvis kan massdata för molekyler genereras på vilket sätt som helst som tillhandahåller massdata inom en viss onoggrannhet. Exempel inkluderar matri- sassisterad laserdesorptions/jonisationsmasspektrometri, elektrosprejjonisations- masspektrometri, kromatografi samt elektrofores. Massdata kan också genereras genom en dator konfigurerad med mjukvara eller på annat sätt.
För syftena med denna uppfinning bestäms massdata, t.ex. en peptidmassa, till någon onoggrannhet :hAmb hellre så Ami/m,- <10 000 ppm, helst <100 ppm, och allra helst <30 ppm.
Ett steg i genereringen av massdata för en molekyl kan innefatta att först spjälka upp molekylen i beståndsdelar. Biologiska molekyler kan uppspjälkas med förfa- randen som är kända inom området. Biologiska molekyler spjälkas helst till be- ståndsdelar i förutsägbara lägen för att bilda förutsägbara massor. Förfaranden för spjälkning inkluderar kemiska metoder. Biologiska molekyler kan nedbrytas genom att den biologiska molekylen ges kontakt med någon kemisk substans.
Exempelvis kan proteiner nedbrytas på förutsägbart sätt till peptider med hjälp av cyanbromid eller enzymer såsom trypsin, endoproteinas Asp-N, V8 proteas, endoproteinas Arg-C, etc. Nukleinsyror kan nedbrytas på förutsägbart sätt till 10. 15 20 25 30 517 259 7 beståndsdelar med restriktionsendonukleaser såsom Eco RI, Sma I, BamH I, Hinc II, etc. Polysackarider kan nedbrytas till beståndsdelar med hjälp av enzymer såsom maltas, amylas, alfa-mannosidas, etc.
I denna uppfinning år ett massområde (mmm, mmax) bestämt för de experimentella data. Massområdet kan vara massområdet fór de experimentella data. I en utfö- ringsform är massområdet minimum och maximum av uppmätta massor hos expe- rimentella massdata för en molekyl.
En molekyldatabas är vilken samling som helst av information om karakteristika hös molekyler. En molekyldatabas kan vara en databas för biologiska molekyler.
Databaser är den föredragna metoden för lagring av såväl aminosyrasekvenser hos polypeptider som av de nukleinsyrasekvenser som kodar dess-a polypeptider. Olika typer av databaser förekommer och dessa har fördelar och nackdelar när de betrak- tas avseende hypotesen för ett polypeptididentifieringsexperiment.
Medan databasposten för en aminosyrasekvens kan vara utförd som en enkel textfil för att en användare skall kunna slå upp en viss polypeptid, är många p databaser organiserade så att de utgör flexibla komplicerade strukturer. Den detaljerade implementeringen av databasen i ett visst system kan vara baserad på en samling av enkla textfiler (eng. “flat-file”database), en samling tabeller (en relationsdatabas), eller så kan den vara organiserad kring koncept som härstam- mar från uppfattningen om ett protein, en gen eller en organism (en objektoriente- rad databas).
Proteinmassdata kan förutsägas från nukleinsyrasekvensdatabaser. Alternativt kan proteinmassdata förutsägas direkt från proteinsekvensdatabaser som innehål- ler en samling av aminosyrasekvenser representerade av en sträng av enbokstavs- koder eller trebokstavskoder för residuerna i en polypeptid, begynnande vid N- terminalen av sekvensen. Dessa koder kan innehålla icke-standardiserade tecken för att indikera tvetydighet i ett visst läge ( såsom “B” indikerande att det kan vara “D” (asparaginsyra) eller “N” (asparagin)). Sekvenserna har typiskt unika siffer- bokstavskombinationer associerade med dem, vilka används internt hos databasen för att identifiera sekvensen, vilket vanligtvis kallas tillträdesnumret (eng. “acces- sion number”) för sekvensen. 10 15 20 25 30 517 2 se - 8 Databaser kan innehålla en kombination av aminosyrasekvenser, kommentarer, litteraturhänvisningar och noter gällande kända posttranslationella modifieringar hos sekvensen. En databas som innehåller dessa element kallas annoterad. Anno- terade databaser används om någon funktionell eller strukturell information är känd för det mogna proteinet, i motsats till en sekvens som är känd endast från översättningen av en bit nukleinsyrasekvens. Icke-annoterade databaser innehål- ler endast sekvensen, ett tillträdesnummer och en beskrivande titel.
Den kända bakgrundsinformationen om en experimentell molekyl genom vilken databassökningen kan avgränsas kan inkludera vilken information som helst.
Några exempel på bakgrundsinformation är information om kategorin för en expe- rimentell biologisk molekyl, kännedom om eller ett antagande om massan av den experimentella biologiska molekylen och den isoelektrisk punkten för den experei- mentella biologiska molekylen.
Exempelvis kan den observerade molekylmassan eller den observerade isoelektris- ka punkten för ett protein användas i kombination med de uppmätta peptidmassor- na som genererats med proteolys, för att avgränsa sökandet efter en polypeptid. I synnerhet kan jämförelsen mellan de teoretiska massdata för databasproteinerna och massdata för det okända proteinet avgränsas till endast de proteiner i databa- sen som är inom ett valt massområde. Det valda massområdet är helst inom 50% av massan hos det okända proteinet, men ännu hellre inom 35% och allra helst inom 25%. På liknande sätt kan jämförelsen mellan de teoretiska massdata för databasproteinerna och massdata for de okända proteinet avgränsas till endast de proteiner i databasen som är inom ett visst valt omrâde för den isoelektriska punk- ten. Den isoelektriska punkten (pl) för ett protein är det pH vid vilket dess netto- laddning är noll. Det valda området för den isoelektriska punkten är helst inom 50% av den isoelektriska punkten för det okända proteinet, men ännu hellre inom 35% och allra helst inom 25%.
Därutöver kan vidare information, såsom ett proteins sekvens, om en experimen- tell biologisk molekyl erhållas genom generering av fragmentmassdata för de experimentella och teoretisk biologiska molekylerna. Fragmentmassdata för en peptid kan genereras på vilket sätt som helst som tillhandahåller fragmentmassda- ta inom en viss onoggrannhet. Experimentella förhållanden inkluderar den energi- 10. 15 20 25 30 517 259 9 form som använs för att generera fragmentmassdata. Vibrationsexcitation kan användas. Den elektroniska excitatíonen kan genereras med hjälp av kollisioner mellan peptiden och elektroner, fotoner, gasmolekyler (t.ex. argon) eller en yta.
I ett annat exempel jämförs det experimentella fragmentmasspektrum för en peptid från ett enzymatiskt spjälkat okänt protein med de teoretiska massor som beräknats genom att tillämpa reglerna för enzymets specificitet samt reglerna för fragmenteringen, som är kända för fackmannen, på aminosyrasekvensen för ett databasprotein.
Fragmentmassdata för de syften som denna uppfinning avser kan genereras genom användning av multidimensionell masspektrometri (MS/MS), även känt som tan- denfmasspektrometrifEtt antal typer av masspektrometrar kan användas, inklu- derande en trippelkvadrupolmasspektrometer, Fouriertransform-cyklotronreso- nansmasspektrometer, en tandemlöptidsmasspektrometer och en kvadrupoljonfál- _ lemasspektrometer. En enstaka peptid från ett spjälkat protein utsätts för ett MS/MS-experiment och det observerade mönstret av fragmentjoner jämförs med mönstren för fragmentjoner förutsagda från databassekvenser.
I en utföringsform tillhandahåller uppfinningen ett förfarande att bestämma sannolikheterna att poängen som en viss molekyl i en databas kan ge av en slump när den jämförs med massdata. Förfarandet kan fungera under olika experimentel- la och databassökningsbegränsningar. Poängen kan vara antalet överensstämmel- ser mellan massor som härletts från kända eller hypotetiska molekyler eller mole- kylbeståndsdelar i en databas och massdata från en eller flera kända eller okända molekyler eller molekylbeståndsdelar. Poängen kan också resultera från en beräk- ning som utnyttjar antalet överensstämmelser.
I en utföringsform tillhandahåller uppfinningen ett förfarande att extrahera infor- mation om molekyler i en databas. Exempel på information som kan extraheras från en databas är total molekylmassa, laddning, isoelektrisk punkt, hydrofobicitet och kända eller hypotetiska kemiska modifieringar, samt massa, laddning, isoelek- trisk punkt, hydrofobicitet och kända eller hypotetiska kemiska modifieringar hos molekylbeståndsdelar. 10 15 20 25 30 517' 25 9 10 len utföringsform tillhandahåller uppfinningen ett förfarande att utföra handling- ar med molekyler i databasen som är ämnade att härma händelser som inträffar i ett experiment. Exempel på händelser är nedbrytning av molekyler till molekyl- beståndsdelar genom hydrolys, där hydrolysen kan vara resultat av kemikaliers eller enzymers aktivitet. Förfarandetkan utföra handlingar på molekylbeståndsde- lar som härmar experimentella händelser. Till exempel fragmentering av en excite- rad molekylbeståndsdel till mindre bitar.
I en utföringsform tillhandahåller uppfinningen ett förfarande att härleda ett molekylbitsantal k 7 u! som resulterar från en aktivitet som antas härma en experi- mentell situation. Bitarna kan vara molekylbeståndsdelar, såsom proteolytiska peptider resulterande från enzymatisk spjälkníng av ett protein, där olika antagan- denlkan göras avseende graden av fullständighet av den enzymatiska spjälkning- en. Bitarna kan vara molekylbeståndsdelar i form av fragment av molekylbes- tåndsdelar, exempelvis fragment av proteolytiska peptider.
I en utföringsform tillhandahåller uppfinningen ett förfarande att organisera massorna för molekyler eller molekylbeståndsdelar eller fragment därav. Exempel på sådan organisatioin ges i Fig. 1 och 2., där Fig. 1 visar antalet proteiner i en databas som överensstämmer med en given proteolytisk peptidmassa och Fig. 2 visar den grupperade fördelningen av proteolytiska peptidmassor. Massor som grupperar sig på detta eller liknande sätt kommer att kallas en massfördelnings- topp. Massfiirdelningstoppar kan återfinnas för alla molekyler som innehåller ett begränsat antal atomslag (t.ex. C, H, N, O, S).
I en utföringsform tillhandahåller uppfinningen ett förfarande att definiera mas- sområden i vilka frekvensen av olika massor kan bestämmas. Förfarandet definie- rar f,- som andelen av massor av molekylbeståndsdelar eller fragment som hamnar inom ett massområde i. I en utföringsform tillhandahåller uppfinningen ett förfa- rande att bestämma sannolikheten p,- att en viss molekyl i en databas skall återfin- nas i en slumpmässigt vald massfördelningstopp i massområdet i: P, = FUfwmfß), där F är en funktion, m,- är ett massområde och c betecknar experimentella och databassökningsbegränsningar. lOi 15 20 25 '517 2259 11 I en utföringsform ges p,- av: k Pi =fi"'iu_'> mi+1"m1 vilken beskriver sannolikheten att en molekylbeståndsdel från en viss molekyl karakteriserad av ku skall återfinnas i en slumpvis utvald massfördelningstopp.
Nämnaren i ovanstående uttryck för p,- betecknar antalet massfördelningstoppar inom massområdet i.
I en utföringsform tillhandahåller uppfinningen ett förfarande att bestämma sannolikheten p,- 'att hitta en molekylbeståndsdel härstammande från en viss molekyl karakteriserad av ku inom ett område :Am kring en slumpvis vald molekyl- besfåndsdelsmassa mf “ p; = p, -5(m,.,Am) , där ó'(m,-, Am) betecknar en funktion som beror av formen på massfördelningstoppen och miavser ett massområde. ó'(m,-, Am) kan tolkas som ett statistiskt mått på anta- let molekylbeståndsdelar som kan hittas inom iAm från en slumpvis vald molekyl- beståndsdelsmassa. Massonoggrannheten kan vara olika före olika massområden, det vill säga i så fall betecknat av Am¿_ ' I en utföringsform tillhandahåller uppfinningen ett förfarande att bestämma 6(m,-, Am) genom simulering av den relativa frekvensen av massor kring en slumpvis vald massa i en massfördelning. I en utföringsform bestäms ó'(m,-, Am) genom integration av en funktion som beskriver molekylbeståndsdelsmassiördelningar samt norme- ring till det totala antalet molekylbeståndsdelsmassor i en massfördelningstopp.
I en utföringsform bestäms ó'(m,-, Am) med direkt räkning följd av normering.
I en utföringsform av uppfinningen används ett begränsat antal massområden mellan m,,,,-,, och mm, där -vart massområde har ett individuellt definierat p,-'.
I en utföringsform används sannolikheternapfiör att beräkna en total sannolikhet p(k) för en individuell molekyl i databasen att överensstämma slumpmässigt med k stycken av totalt n massor, där n massor avser antalet massor i massdata. 10 15 20 w m 12 p(k) = G(p,« Jr, n, ä) , där G är en funktion och c ' betecknar experimentella och datab assökningsbe gräns- ningar.
I en utfóringsform av uppfinníngen ges p(k) av: w- 2 { »i (1 »r (1 p k,,Z/f,.=k k1l'("1'k1) pl pl k2!'("2“k2) P2 P2 *_ flq 'kg f "n 'kr "kl" -k 1” 'Ü_p“) } q q q där q betecknar antalet massområden, n 1 betecknar antalet massor i massdata som är i området 1, ng betecknar antalet massor i massdata som är i området 2 etc, och k 1, med i=1,2,. . .q, betecknar antalet överensstämmelser i massområde i. Värdena på ki är alla kombinationer av värden som stämmer med randvillkoret 2a=a I en utfóringsform av uppfinníngen används en poäng relaterad till slumpmässig överensstämmelse i processen att rangordna molekyler i en databas.
I en utiöringsform av uppfinníngen används sannolikheten p(k) i processen för rangordning av databasmolekyler. En hel databas eller en del av en databas pro- cessas och organiseras fór att möjliggöra beräkning av p(k) för molekyler i databa- sen. k betecknar antalet överensstämmelser mellan massorna hos molekylbes- tåndsdelarna för varje undersökt databasmolekyl och massor imassdata. Moleky- lerna i databasen kan vara kända eller hypotetiska. Molekylen eller molekylerna som producerar massdata kan vara kända eller okända.
I en utfóringsform av uppfinníngen är rangordningen av molekylerna baserad på poängen S(p(k)), där S är en funktion.
I en utfóringsform av uppfinníngen S(p(k))-c-<1-zp>-«<¿p, k' 10 15 20 25 mr m 13 där c är en konstant eller en matematisk funktion. När c=1 kan S(p(k)) tolkas som sannolikheten att en molekyli databasen skulle ge minst k slumpmässiga överens- stämmelser med massdata.
I en utfóringsform av uppfinningen får den molekyl i databasen som ger det lägsta S@(k)) den högsta rangen. Molekylen som får det näst lägsta S(p(k)) får den näst högsta rangen osv. Identifieringen av en molekyl eller molekyler sker bland de molekyler som har högst rang. De högsta i rang kan vara endast den högst i rang, men det kan också vara fler än den som är högst i rang, t.ex de två högsta, de tre högsta, de fyra högsta, de fem högsta, de tio högsta eller de 100 högsta. Antalet ravngordnade molekyler som betraktas som identifieringsresultat kan också bestä- mas med hjälp av ett signífikanstest.
I en utfóringsform av uppfinningen tillhandahåller uppfinningen ett förfarande för att generera en frekvensfunktion for poäng för ett visst experimentellt tillstånd, där poängen relateraras till slumpmässig proteinidentífieríng.
En frekvensfiinktíon är vilken samling av observerade värden som helst för en studerad variabel och hur många gånger Varje värde har observerats. Frekvens- funktioner kan vara i form av tabeller av listor, ett stapeldiagram, ett histtogram, en frekvenspolygon eller en kontinuerlig kurva. Funktioner som härleds från frekvensfórdelningar kan vara kontinuerliga (sannolikhetstäthetsfunktion) eller diskreta (sannolikhetsmassfunktion). Kummulativa fórdelningar av varje sorts funktion kan också härledas.
I en utfóringsform är frekvensfunktionen genererad för en undergrupp med H medlemmar från en databas.
I en utföringsform är undergruppen utvald baserat på värden av ku.
I en utföringsform är undergruppen är fiekvensfunktionen genererad för molekyler som rangordnats efter sina antal överensstämmelser.
I en utfóringsform är frekvensfunktionen f(S), där S är en poäng. I en utfórings- form är S antalet slumpmässiga överensstämmelser.
I en utfóringsform är S =k och s17~2s9 14 k' H Iu-x H I f(S)= p(k)} -{2 p(k)} , där p(k) har den betydelse som angivits ovan. k=0 k=0 Fackmannen kommer att inse att uppfinningen har vidsträckt tillämpbarhet fór molekylidentifiering. Fastän illustrativa utfóringsformer av uppfinningen har beskrivits här, med hänvisning till bifogade ritningar, skall det förstås att uppfin- ningen inte är begränsad till exakt dessa utfóringsformer, och att andra ändringar och modifieringar kan göras av en fackman utan att göra avsteg från omfattningen och tankegången i denna uppfinning.

Claims (8)

10 15 20 25 30 51,7' 259 15 Patentkrav _
1. Förfarande fór att tilldela en identitet till en eller flera olika molekyler i ett prov genom jämförelse av karakteristika, erhållna under vissa förhållanden, fór nämnda prov med lagrade karakteristika fór individuella (”lagrade”) molekyler, vilket fórfarande kännetecknas av stegen: a) bestämning av antalet, k, överensstämmelser mellan lagrade karakteristika fór nämnda individuella molekyler och karakteristika observerade från provet; b) beräkning av sannolikheten, p(k), att en viss molekyl av nämnda individuel- la lagrade molekyler har karakteristika som överensstämmer slumpmässigt med karakteristika fór provet; c) tilldelning av en individuell poäng, S@(k)), for ett antal av nämnda lagrade molekyler baserat på antalet överensstämmelser bestämda i steg (a) och sannolikheten beräknad i steg (b); _ d) rangordning av varje enskild lagrad molekyl, som i steg (c) har tilldelats en individuell poäng, enligt denna poäng; samt e) tilldelning av en identitet till en eller flera molekyler, vars karakteristika erhölls under vissa förhållanden, baserat på rangordningen i steg (d).
2. Förfarande enligt patentkrav 1, vidare kännetecknat av att bestämningen av antalet överensstämmelser i steg (a) fór bestämningen av antalet överensstämmelser i patentkrav 1 är mellan karakteristika fór lagrade molekyler under antagandet att dessa molekyler har utsatts fór samma fórhållanden som molekylerna i provet.
3. Förfarande enligt patentkrav 1 eller 2, vidare kännetecknat av att nämn- da karakteristika är massor av beståndsdelarna av de lagrade molekylerna, vilka' massor grupperar sig i massfórdelningstoppar, samt att steg (b) fór beräkning av en sannolikhet i patentkrav 1 innefattar stegen: a) bestämning av massorna och antalet, ku, massor som kan genereras fór det särskilda förhållandet fór varje enskild molekyl bland de lagrade molekylerna; b) definition av ett totalt antal, q, områden, i, fór de massor som som beräknats i steg (a); 10- 15 20 16 c) bestämning av en andel, fi, av alla de massor beräknade i steg (a) som är inom ett område i definierat av steg (b); _k«__.¿(mi,Am), m -m- í+l x d) beräkning av en sannolikhet p! = f,.- där nämnaren år antalet massfórdelningstoppar i massområdet i definierat i steg (b) ovan och â(m¿, Am) är ett statistiskt mått på antalet beståndsdels- vald molekylbeståndsdelsmassa, vilket innebär att p,- 'är sannolikheten att hitta massor som kan hittas inom :Am från en slumpvis en molekylbeståndsdel, som härstammar från en viss lagrad molekyl, inom ett område :Am kring en slumpmässigt vald beståndsdelsmassa; e) “ bestämning av “sannolikheterna som beskrivits i steg (d) fór alla områden definierade i (b); f) bestämning av antalet, ni, av massor i massdata som faller inom var och en av de q massregionerna i definierade i steg (b); g) bestämning av sannolikheten Z {_ll!ínpfkl'(l_pfjrnfhllí.p /k¿.(1_p:)nrkz' Mikä, k! :-(n1 - kl) 1 1 kp-(n, -k,) 2 2 ' nq! Ik, l r 75-3, kql-lnq-kqi pq -pql } fór en viss individuell lagrad molekyl att överensstämma slumpmässigt med k stycken utav n massor, där n avser antalet massor i massdata.
4. Förfarande enligt något av patentkraven 1 till 3, kännetecknat av att nämnda karakteristika är massor av beståndsdelarna av de lagrade molekylerna, g vilka massor grupperar sig i massfórdelningstoppar, samt att steget (c) med tilldelning av en individuell poäng i patentkrav 1 innefattar steget att beräkna poängen enligt S = c - (1 - Z p(k')) , där c är en konstant eller en funktion eller k' en operator. 10_ 15 517 -259 17
5., Förfarande enligt något av patentkraven A1 till 4, kännetecknat av att nämnda molekyler är biologiska molekyler.
6. Förfarande enligt något av patentkraven 3 till 5, kännetecknat av att nämnda massor har erhållits med masspektrometri.
7. Förfarande för att bestämma en fiekvensfunktion, f(S), för slumpmässig molekylidentífiering, baserat på förfarandet att beräkna sannolikheten p(k) enligt patentkrav 1, vilket förfarande kännetecknas av stegen: a) definiering av en undergrupp, med H medlemmar, av de lagrade molekyler- na; samt b) beräkning av en frekvensfunktion enligt ' f(s)= p(k)} p(k)} , där s=k :_ k=0 k=0
8. Förfarande för att bestämma en frekvensfunktion, f(S), för slumpmässig molekylídentifiering, baserat på förfarandet att beräkna sannolikheten p(k) enligt patentkrav 3, vilket förfarande kännetecknas av stegen: c) definiering av en undergrupp, med H medlemmar, av de lagrade molekylerna, där medlemmarna av undergruppen väljs utifrån sina värden av ku ; samt d) beräkning av frekvensfunktionen enligt k, H k,_1 H f(S)={Z p} -{2 p} »lär S=k1 k=0 k=0
SE0002214A 2000-06-14 2000-06-14 System för molekylidentifiering SE517259C2 (sv)

Priority Applications (3)

Application Number Priority Date Filing Date Title
SE0002214A SE517259C2 (sv) 2000-06-14 2000-06-14 System för molekylidentifiering
AU2001264517A AU2001264517A1 (en) 2000-06-14 2001-06-12 System for molecule identification
PCT/SE2001/001322 WO2001096861A1 (en) 2000-06-14 2001-06-12 System for molecule identification

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE0002214A SE517259C2 (sv) 2000-06-14 2000-06-14 System för molekylidentifiering

Publications (3)

Publication Number Publication Date
SE0002214D0 SE0002214D0 (sv) 2000-06-14
SE0002214L SE0002214L (sv) 2001-12-15
SE517259C2 true SE517259C2 (sv) 2002-05-14

Family

ID=20280077

Family Applications (1)

Application Number Title Priority Date Filing Date
SE0002214A SE517259C2 (sv) 2000-06-14 2000-06-14 System för molekylidentifiering

Country Status (3)

Country Link
AU (1) AU2001264517A1 (sv)
SE (1) SE517259C2 (sv)
WO (1) WO2001096861A1 (sv)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2298181C (en) 2000-02-02 2006-09-19 Dayan Burke Goodnough Non-targeted complex sample analysis
JP3743717B2 (ja) * 2002-06-25 2006-02-08 株式会社日立製作所 質量分析データの解析方法および質量分析データの解析装置および質量分析データの解析プログラムならびにソリューション提供システム
WO2005031343A1 (en) * 2003-10-01 2005-04-07 Proteome Systems Intellectual Property Pty Ltd A method for determining the biological likelihood of candidate compositions or structures
SG182169A1 (en) 2005-09-12 2012-07-30 Phenomenome Discoveries Inc Method for the diagnosis of colorectal cancer and ovarian cancer by the measurement of vitamin e-related metabolites
US8478762B2 (en) 2009-05-01 2013-07-02 Microsoft Corporation Ranking system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6017693A (en) * 1994-03-14 2000-01-25 University Of Washington Identification of nucleotides, amino acids, or carbohydrates by mass spectrometry
JP2000048765A (ja) * 1998-07-24 2000-02-18 Jeol Ltd 飛行時間型質量分析計
EP1047107B1 (en) * 1999-04-06 2006-10-04 Micromass UK Limited Method of identifying peptides and protein by mass spectrometry
WO2000073787A1 (en) * 1999-05-27 2000-12-07 Rockefeller University An expert system for protein identification using mass spectrometric information combined with database searching

Also Published As

Publication number Publication date
SE0002214D0 (sv) 2000-06-14
AU2001264517A1 (en) 2001-12-24
SE0002214L (sv) 2001-12-15
WO2001096861A8 (en) 2002-08-01
WO2001096861A1 (en) 2001-12-20

Similar Documents

Publication Publication Date Title
US6393367B1 (en) Method for evaluating the quality of comparisons between experimental and theoretical mass data
CN109166604B (zh) 一种融合多数据特征预测关键蛋白质的计算方法
US6446010B1 (en) Method for assessing significance of protein identification
Lu et al. A suffix tree approach to the interpretation of tandem mass spectra: applications to peptides of non-specific digestion and post-translational modifications
US20020046002A1 (en) Method to evaluate the quality of database search results and the performance of database search algorithms
SE517259C2 (sv) System för molekylidentifiering
US8712695B2 (en) Method, system, and computer program product for scoring theoretical peptides
WO2004083233A2 (en) Peptide identification
Downard Protein phylogenetics with mass spectrometry. A comparison of methods
US20040044481A1 (en) Method for protein identification using mass spectrometry data
Yona et al. A unified sequence-structure classification of protein sequences: combining sequence and structure in a map of the protein space
Bachinsky et al. PROF_ PAT 1.3: Updated database of patterns used to detect local similarities
JP4651341B2 (ja) マススペクトル測定方法
Henneges et al. Ranking methods for the prediction of frequent top scoring peptides from proteomics data
US20020152033A1 (en) Method for evaluating the quality of database search results by means of expectation value
Hubbard Computational approaches to peptide identification via tandem MS
US7603240B2 (en) Peptide identification
Halligan et al. Peptide identification using peptide amino acid attribute vectors
Shi et al. Protein inference by assembling peptides identified from tandem mass spectra
Liu et al. PRIMA: peptide robust identification from MS/MS spectra
JP2009031128A (ja) 核酸の塩基配列及び塩基修飾を解析する装置、方法及びプログラム
EP1152349A1 (en) Method for aligning sequences
Feng Some probability and statistics problems in proteomics research
Allaga RNA-protein interaction prediction: String-based versus feature-based models
Wilkerson An Introduction to Proteomics Data Analysis

Legal Events

Date Code Title Description
NUG Patent has lapsed