WO2014128912A1 - データ処理装置及びデータ処理方法 - Google Patents

データ処理装置及びデータ処理方法 Download PDF

Info

Publication number
WO2014128912A1
WO2014128912A1 PCT/JP2013/054465 JP2013054465W WO2014128912A1 WO 2014128912 A1 WO2014128912 A1 WO 2014128912A1 JP 2013054465 W JP2013054465 W JP 2013054465W WO 2014128912 A1 WO2014128912 A1 WO 2014128912A1
Authority
WO
WIPO (PCT)
Prior art keywords
peak
mass spectrum
score
mass
data processing
Prior art date
Application number
PCT/JP2013/054465
Other languages
English (en)
French (fr)
Inventor
山田 洋平
Original Assignee
株式会社島津製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社島津製作所 filed Critical 株式会社島津製作所
Priority to CN201380073595.7A priority Critical patent/CN105008908B/zh
Priority to JP2015501182A priority patent/JP6004080B2/ja
Priority to PCT/JP2013/054465 priority patent/WO2014128912A1/ja
Priority to EP13875481.7A priority patent/EP2960647B1/en
Priority to US14/769,139 priority patent/US10535507B2/en
Publication of WO2014128912A1 publication Critical patent/WO2014128912A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions

Definitions

  • the present invention obtains a MS n mass spectrum of the unknown compound obtained by the mass spectrometer, a large number of a score indicating the similarity of the MS n mass spectrum of the known compounds, respectively, to identify unknown compounds based on their scores
  • the present invention relates to a data processing method and a data processing apparatus using the same.
  • MS 2 analysis In mass spectrometry using an ion trap mass spectrometer or the like, a technique called MS / MS analysis (MS 2 analysis) is known.
  • MS 2 analysis first, an ion having a target specific mass-to-charge ratio (m / z) is selected as a precursor ion (parent ion) from an unknown compound to be analyzed, and the selected precursor ion is set to CID ( Cleaved by Collision Induced Dissociation to produce cleaved ions. Since the cleavage mode depends on the chemical structure, the MS 2 mass spectrum (chemical structure information) of the unknown compound can be obtained by mass analysis of the fragment ions generated by the cleavage.
  • CID Cleaved by Collision Induced Dissociation
  • a pattern matching process using a database is performed (for example, Patent Document 1 and Non-Patent Document 1). reference).
  • the database includes a number of compound names and chemical structures (known compounds) and MS n mass spectra of the known compounds.
  • the MS n mass spectrum of the unknown compound is compared with the MS n mass spectrum of the unknown compound by comparing the MS n mass spectrum of the known compound with the MS n mass spectrum of the unknown compound. Scores indicating similarity are obtained using weighted inner products, peak appearance probabilities, and the like. As a result, the measurer identifies the unknown compound by arranging the known compounds in descending order of score.
  • the obtained MS n mass spectrum may be different. That is, in the MS n mass spectrum, the ion intensity I of the peak, the peak position (m / z), the presence or absence of the peak, and the like are likely to change. Therefore, in the pattern matching process as described above, the ionic strength I may change greatly, the peak position may shift, or the peak that should be, may not appear, resulting in a decrease in the score. and MS n mass spectrum, there may not evaluate the similarity correctly with MS n mass spectrum of a number of known compounds.
  • the present inventor has studied a search method for correctly evaluating the similarity between the MS n mass spectrum of an unknown compound and the MS n mass spectra of many known compounds.
  • the pattern matching process as described above, it is not considered that the ion intensity I of the peak, the peak position (m / z), the presence or absence of the peak, etc. in the MS n mass spectrum are easily changed, and the score is lowered. I understood it.
  • the MS n mass spectrum of the unknown compound in evaluating the similarity between the MS n mass spectrum of a number of known compounds, MS n ionic strength I and the position of the peak of the peak in the mass spectrum (m / z) And a search method that takes into account changes in the presence or absence of peaks.
  • the data processing apparatus of the present invention includes a database storage area that stores in advance MS n mass spectra of a number of known compounds, an acquisition unit that acquires MS n mass spectra of unknown compounds, and an MS n mass spectrum of unknown compounds.
  • MS n number of score indicating the similarity of the MS n mass spectrum of the known compounds a data processing apparatus and a score calculating unit that calculates each, each peak and known compounds in the MS n mass spectrum of the unknown compound
  • An intensity score calculator for classifying each peak in the mass spectrum into several stages of intensity scores according to the magnitude of the ion intensity; a neutral loss calculator for determining a neutral loss peak in the MS n mass spectrum of the unknown compound; the peak of the neutral loss during MS n mass spectrum of the known compounds
  • the score calculation unit integrates, for each peak, the peak intensity score in the MS n mass spectrum of the known compound, the peak intensity score in the MS n mass spectrum of the unknown compound, and the position score. The sum of the integrated values for all peaks is
  • the “MS n mass spectrum of an unknown compound” is obtained when MS n analysis of an unknown compound is performed, and the “MS n mass spectrum of a known compound” is the same condition ( Or obtained by MS n analysis of a known compound by an ionization method or cleavage method), or obtained by MS n analysis of a known compound under conditions different from the unknown compound, It may be calculated from the chemical structure of a known compound.
  • the ⁇ 1> peak ion intensity I is first processed as follows. Although the peak ion intensity I is likely to change, the peak with a large ion intensity I is considered to be a fragment ion peak that is easily obtained from the target compound. Therefore, for MS n mass spectra of unknown compounds, each peak is classified into several stages (for example, upper, middle, lower) according to the magnitude of ionic strength I, and also for MS n mass spectra of known compounds in the database. Each peak is classified into several stages (for example, upper, middle, lower) according to the magnitude of ionic strength I. Thereby, even if the ion intensity I is different, a similar peak is found.
  • the neutral loss calculation unit obtains the peak of the neutral loss from the position of the peak and the mass of the precursor ion for the MS n mass spectrum of the unknown compound. Thereby, even if the peak which should be in the MS n mass spectrum of an unknown compound does not appear, a peak can be matched.
  • the ion intensity I of the neutral loss peak added to the MS n mass spectrum is, for example, the same ion intensity I as the original peak.
  • the ⁇ 2> peak position (m / z) is processed as follows.
  • the position of the peak in the MS n mass spectrum of the unknown compound is somewhat deviated. Therefore, with reference to the peak position in the MS n mass spectrum of a known compound, the accuracy range of the peak position of the mass spectrometer (for example, -1.0 to 1.0 for the mass spectrometer and -0. 005 to 0.005 or a tandem quadrupole -0.5 to 0.5) is associated with a position score “1.0”, and the position score asymptotic to the position score “0.0” outside the accuracy range. By associating with each other, a similar peak is found even if the position of the peak is different.
  • the peak intensity score in the MS n mass spectrum of the known compound the peak intensity score in the MS n mass spectrum of the unknown compound, and the position score are integrated. Then, the sum of the integrated values for all peaks is calculated as a score.
  • the data processing apparatus of the present invention even if the ion intensity I of the peak, the position (m / z) of the peak, the presence or absence of the peak, etc. in the MS n mass spectrum of the unknown compound change, and MS n mass spectrum of the compound, it is possible to evaluate the similarity correctly with MS n mass spectrum of a number of known compounds.
  • the number of matched pairs in the mass-to-charge ratio of the peak in the MS n mass spectrum of the known compound and the mass-to-charge ratio of the peak in the MS n mass spectrum of the unknown compound And a peak score calculation unit for obtaining a peak score indicating the degree of coincidence based on the degree of coincidence obtained from the above, wherein the score calculation unit may add the peak score to the score.
  • the degree of coincidence of ⁇ 3> peak / neutral spare is processed as follows.
  • the degree of agreement based on the number of matched pairs of the mass-to-charge ratio of the peak in the MS n mass spectrum of the known compound and the mass-to-charge ratio of the peak (including the neutral loss peak) in the MS n mass spectrum of the unknown compound (For example, (number of matched peaks / number of peaks in MS n mass spectrum of known compound) ⁇ 100).
  • the intensity score calculation unit calculates each peak in the MS n mass spectrum of the unknown compound and each peak in the MS n mass spectrum of the known compound as the ionic strength or the ionic strength. You may make it classify
  • the intensity score calculation unit calculates each peak in the MS n mass spectrum of the unknown compound and each peak in the MS n mass spectrum of the known compound by using the magnitude of the ion intensity and the peak. You may make it classify
  • the peak uniqueness increases in proportion to the mass-to-charge ratio, but a peak with a large mass-to-charge ratio may have a low ionic strength.
  • the mass-to-charge ratio is M
  • MS n mass spectrum of the unknown compound can be evaluated for similarity correctly with MS n mass spectrum of a number of known compounds.
  • the intensity score calculation unit may remove a peak whose ion intensity is equal to or less than a threshold in the MS n mass spectrum of an unknown compound. According to the data processing apparatus of the present invention, it is possible to obtain a score focusing on only an appropriate peak, and to perform a highly reliable search.
  • the position score calculation unit uses the mass-to-charge ratio of the peak in the MS n mass spectrum of the known compound as a reference, and the position score that decreases as the distance from the reference increases. Each peak in the MS n mass spectrum may be obtained. According to the data processing apparatus of the present invention, for example, an appropriate distribution function that decreases with increasing distance from the standard, based on the mass-to-charge ratio of the peak in the MS n mass spectrum of the known compound, or the MS n mass of the known compound.
  • the position score is determined for each peak by using a step function with a position score of “0”, and a step function with a position score “0” outside the fixed range, or a combination thereof.
  • the mass-to-charge ratio of the peak in the MS n mass spectrum of the known known compound is not only a constant value, but also a variable value based on the existence probability, the binding force obtained from the molecular orbital calculation of the structural formula, etc. It is good.
  • the peak that is closest to the reference or that has the highest integrated value of the intensity score and the position score is good also as selecting.
  • a highly reliable search can be performed by using the function of the peak position. Further, when the peak position function is a linear distribution, the search can be simplified and efficiently performed.
  • the position score calculation unit may correct the mass-to-charge ratio of the peak in the MS n mass spectrum of the unknown compound using the mass of the adduct ion.
  • the peak position is shifted by one or more due to adduct ions (adducts such as —H, —OH, and —CO 2 ). Therefore, by associating peaks outside the accuracy range based on the adduct, similar peaks can be found even if the peak positions are shifted by one or more.
  • the peak score calculation unit may obtain a peak score that increases according to the number of matched pairs.
  • the degree of influence on the score can be changed according to the number of matched pairs, and it is possible to correctly search for a variant such as a metabolite of the same compound that matches many partial structures. it can.
  • the score calculation unit obtains the MS n + m mass spectrum of the unknown compound, many of the known compounds MS n + m Score MS n + m mass spectrum that shows similarity with mass spectrum respectively
  • the MS n + m mass spectrum score may be added to the MS n mass spectrum score.
  • the associated child and parent mass spectra can be reflected in the score, and a highly reliable search can be performed.
  • the data processing method of the present invention includes a database storage area that stores in advance MS n mass spectra of a number of known compounds, an acquisition unit that acquires MS n mass spectra of unknown compounds, and an MS n mass spectrum of unknown compounds.
  • a data processing method using a data processing device comprising a score calculation unit that obtains a score indicating similarity to the MS n mass spectrum of a number of known compounds, each peak in the MS n mass spectrum of an unknown compound
  • an intensity score calculation step for classifying each peak in the MS n mass spectrum of the known compound into several intensity scores according to the magnitude of the ionic strength, and obtaining a peak of neutral loss in the MS n mass spectrum of the unknown compound and neutral loss calculating step, in MS n mass spectrum of the known compounds
  • the number of matched pairs in the mass-to-charge ratio of the peak in the MS n mass spectrum of the known compound and the mass-to-charge ratio of the peak in the MS n mass spectrum of the unknown compound A peak score calculating step for obtaining a peak score indicating the degree of coincidence based on the degree of coincidence obtained from the above, and an adding step for adding the peak score to the score may be included.
  • FIG. 1 is a block diagram showing a schematic configuration of a mass spectrometer that is an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a schematic configuration of a mass spectrometer according to an embodiment of the present invention.
  • the liquid chromatograph mass spectrometer (LC / MS) 1 includes a liquid chromatograph apparatus (LC) 10, a mass spectrometer (MS) 20 capable of MS n analysis, and a computer (data processing apparatus) 30.
  • LC liquid chromatograph apparatus
  • MS mass spectrometer
  • computer data processing apparatus
  • the LC 10 includes a column oven 11, a column 12 provided in the column oven 11, and a sample injection unit 13 connected to the inlet end of the column 12. According to such an LC 10, the sample is pushed into the column 12 from the sample injection unit 13 by being pushed by the carrier gas. As a result, each component (unknown compound) contained in the sample is separated in the time axis direction while passing through the column 12 and reaches the outlet end of the column 12. The outlet end of the column 12 is connected to the MS 20.
  • the MS 20 includes an ion source 21 that ionizes an unknown compound, a mass separation unit 22 that can mass-separate the generated ions and perform MS n analysis, and a detector 23 that detects the mass-separated ions.
  • a sonic spray ion source, an ion spray, a matrix-assisted laser desorption ion source, or the like can be used.
  • the mass separation unit 22 for example, a triple quadrupole mass spectrometer or an ion trap mass spectrometer can be used.
  • An ion having an appropriate mass-to-charge ratio (m / z) is automatically selected as a precursor ion from ions derived from each sample component, or a peak having a mass-to-charge ratio (m / z) specified in advance is used as a precursor.
  • Mass separation and detection of fragment ions generated by cleaving the precursor ions are selected as ions.
  • MS 20 ions ionized by the ion source 21 are introduced into the mass separation unit 22.
  • the mass separation unit 22 mass-separates ions.
  • the computer 30 includes a CPU 31, a memory 32, an input device 33, and a display device 34.
  • the function processed by the CPU 31 will be described as a block.
  • An acquisition unit 31a that acquires MS n mass spectrum data of an unknown compound, an intensity score calculation unit 31b that calculates intensity scores I d and I q , and a position score S ( err), a neutral loss calculation unit 31e, a peak score calculation unit 31f that calculates a peak score S (N), and a score calculation unit 31d that calculates a score Scr.
  • Memory 32 and ionic strength storage area 32a for storing the ionic strength I, and the unknown compound data storage area 32b for storing the MS n mass spectrum of the unknown compound, MS n mass spectrum of a number of known compounds previously It has a database storage area 32c for storing, and a distribution function storage area 32d for storing in advance a distribution function for calculating the position score S (err).
  • MS n mass spectrum of the known compounds stored in the database storage area 32c is for actually known compound MS20 obtained upon analysis MS n, the number of known compounds to MS n analysis Is stored in the database storage area 32c. Then, MS n mass spectrum of the known compounds stored in the database storage area 32c are each peak is classified respectively in three stages by the magnitude of the ionic strength I d by the intensity score calculation unit 31b for ionic strength I d Specifically, the ionic strength I d classifies the peak is I 1 or more to the intensity of the higher score of "4", the ionic strength I d is the intensity score medium peaks is less than I 2 or I 1 ' 3 ”, and peaks whose ionic strength I d is less than I 2 are classified into lower intensity scores“ 2 ”.
  • the mass-to-charge ratio (m / z) of each peak is determined by the position score calculation unit 31c.
  • an intensity score of “4” and a mass-to-charge ratio (m i / z i ) are assigned for the i-th peak, and for the (i + 1) -th peak, The intensity score and the mass to charge ratio (m / z) are assigned to all the peaks so that the intensity score “2” and the mass to charge ratio (m (i + 1) / z (i + 1) ) are assigned.
  • the intensity score and the mass to charge ratio (m / z) are assigned to all the peaks.
  • FIG. 2 is a diagram showing an example of a distribution function stored in the distribution function storage area 32d.
  • the horizontal axis represents the difference err of the mass to charge ratio m / z, and the vertical axis represents the position score S (err).
  • the distribution function is associated with the position score “1” when the difference err is 0, and is lowered so as to approach the position score “0” as the difference err increases.
  • the position score calculation unit 31c calculates the mass-to-charge ratio (m / z) of the peak in the MS n mass spectrum of the known compound and the mass of the peak (including the neutral loss peak) in the MS n mass spectrum of the corresponding unknown compound. Based on the difference err with respect to the charge ratio (m / z), control is performed to obtain the position score S (err) indicating the error of the mass to charge ratio (m / z) for each peak. First, the mass-to-charge ratio (m / z) of each peak (including the peak of neutral loss) is determined for the MS n mass spectrum of the unknown compound stored in the unknown compound data storage area 32b.
  • MS n mass spectrum of the unknown compound and the MS n mass spectra of various known compounds will be compared one after another.
  • the MS n mass spectrum of the Xth known compound and the MS n mass spectrum of the unknown compound will be compared.
  • n when comparing the mass spectra X-th MS n peak (neutral loss mass to charge ratio of the i-th peak in mass spectrum (m / z) closest mass-to-charge ratio (m / z) of the known compound (Including the peak of).
  • the X-th peak of MS n i-th mass-to-charge ratio of peaks in the mass spectrum of the known compounds (m / z) closest mass-to-charge ratio (m / z), in MS n mass spectrum of the unknown compound Find the j-th peak of.
  • the position score S ij (err) is obtained by calculating the difference err with the distribution function shown in FIG.
  • the peak of the mass to charge ratio (m / z) closest to the mass to charge ratio (m / z) of the (i + 1) th peak in the MS n mass spectrum of the Xth known compound (including the peak of neutral loss) Find out.
  • MS n mass of the unknown compound Find the (j + n) th peak in the spectrum.
  • the mass-to-charge ratio (m / z) of the (i + 1) -th peak in the MS n mass spectrum of the X-th known compound and the mass-to-charge ratio of the (j + n) -th peak in the MS n mass spectrum of the unknown compound The position score S (i + 1) (j + n) (err) is obtained by calculating the difference err from (m / z) and substituting the difference err into the distribution function shown in FIG. In this way, the peak (including the neutral loss peak) in the MS n mass spectrum of the unknown compound corresponding to all the peaks in the MS n mass spectrum of the Xth known compound is found, and the position score S (err) is obtained.
  • the peak score calculation unit 31f performs control for obtaining the peak score S (N) based on the following formula (1).
  • S (N) (number of matched peaks / number of peaks in MS n mass spectrum of known compound) ⁇ 100 (1)
  • a peak score S (N) indicating the degree of coincidence obtained from the number of matched pairs is obtained.
  • the match refers to the peak of the MS n mass spectrum of the known compounds, in a MS n mass spectrum of the unknown compound, there are peaks of peak or neutral loss location score S (err) is not 0 That means.
  • the score calculation unit 31d performs control to calculate the score Scr based on the following formula (2).
  • Scr S ij (err) ⁇ I di ⁇ I qj + S (i + 1) (j + n) (err) ⁇ Id (i + 1) ⁇ I q (j + n) +... + S (N) (2)
  • I di is the intensity score of the i-th peak in the MS n mass spectrum of the known compound
  • I d (i + 1) is the (i + 1) -th in the MS n mass spectrum of the known compound.
  • the intensity score of the peak “I qj ” is the intensity score of the j-th peak in the MS n mass spectrum of the unknown compound, and “I q (j + n) ” is the MS n mass spectrum of the unknown compound. It is an intensity score of the (j + n) -th peak.
  • the peak intensity score I d in the MS n mass spectrum of the known compound the peak intensity score I q in the MS n mass spectrum of the unknown compound, and the position score S (err) are integrated.
  • a score Scr indicating the similarity between the unknown compound and the Xth known compound is calculated.
  • the MS n mass spectrum of the unknown compound will score Scr indicating the similarity between the MS n mass spectrum of a variety of known compounds is calculated.
  • FIG. 3 is a flowchart for explaining an example of the data processing method.
  • step S102 the mass-to-charge ratio (m / z) of each peak is obtained for the MS n mass spectrum of the unknown compound.
  • step S104 the peak of neutral loss in the MS n mass spectrum of the unknown compound is obtained (neutral loss calculation step).
  • step S108 the peak of the mass to charge ratio (m / z) closest to the mass to charge ratio (m / z) of the i th peak in the MS n mass spectrum of the known compound is found.
  • the mass-to-charge ratio (m / z) of the i-th peak in the MS n mass spectrum of the known compound and the mass-to-charge ratio (m / z) of the j-th peak in the MS n mass spectrum of the unknown compound By calculating the difference err and substituting the difference err into the distribution function shown in FIG. 2, the position score S ij (err) is obtained (position score calculation step).
  • Scr Scr + S ij (err) ⁇ I di ⁇ I qj .
  • step S116 arranging the known compounds in high score Scr order. And when the process of step S116 is complete
  • MS n mass spectrum of the unknown compound can be evaluated for similarity correctly with MS n mass spectrum of a number of known compounds.
  • a peak having an ionic strength I q , I d of I 1 or higher is classified into a higher intensity score “4”, and a peak having an ionic strength I q , I d of I 2 or higher and lower than I 1 is a medium strength.
  • a peak with an ionic strength I q , I d of less than I 2 is classified into a lower intensity score “2”, and the intensity of a peak with a mass-to-charge ratio of m 1 / z 1 or higher is classified as a score “3”.
  • the score “2” is added, and the intensity score “1” is added to the peak whose mass-to-charge ratio is less than m 1 / z 1 .
  • the position score calculator corrects the mass-to-charge ratio of the peak in the MS n mass spectrum of the unknown compound using the mass of the adduct ion. It is good also as a structure.
  • the score calculation unit is an MS n + m indicating the similarity between the MS n + m mass spectrum of an unknown compound and the MS n + m mass spectra of many known compounds. obtains a score of mass spectra, respectively, to the score of the MS n mass spectrum, it may be configured for adding the scores of the MS n + m mass spectrum.
  • the present invention obtains a MS n mass spectrum of the unknown compound obtained by the mass spectrometer, a large number of a score indicating the similarity of the MS n mass spectrum of the known compounds, respectively, to identify unknown compounds based on their scores It can be used for data processing methods.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

 多数の既知化合物のMSマススペクトルを予め記憶するデータベース記憶領域32cと、未知化合物のMSマススペクトルを取得する取得部31aと、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を示すスコアをそれぞれ求めるスコア算出部31dとを備えるデータ処理装置1であって、イオン強度の大きさにより数段階の強度スコアに分類する強度スコア算出部31bと、各ピークについて質量電荷比の誤差を示す位置スコアを求める位置スコア算出部31cとを備え、スコア算出部31dは、各ピークについて、既知化合物のMSマススペクトル中のピークの強度スコアと、未知化合物のMSマススペクトル中のピークの強度スコアと、位置スコアとを積算し、全ピークの積算値の総和をスコアとして算出することを特徴とする。

Description

データ処理装置及びデータ処理方法
 本発明は、質量分析装置によって得られた未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を示すスコアをそれぞれ求め、そのスコアに基づいて未知化合物を同定するデータ処理方法及びそれを用いたデータ処理装置に関する。
 イオントラップ型質量分析装置等を用いた質量分析においては、MS/MS分析(MS分析)という手法が知られている。一般的なMS分析では、まず分析対象の未知化合物から目的とする特定の質量電荷比(m/z)を有するイオンをプリカーサイオン(親イオン)として選別し、その選別したプリカーサイオンをCID(Collision Induced Dissociation:衝突誘起分解)によって開裂させ、開裂イオンを生成する。開裂様式は化学構造に依存するため、開裂によって生成したフラグメントイオンを質量分析することにより、未知化合物のMSマススペクトル(化学構造の情報)を取得することができる。
 近年、医薬品や農薬やタンパク質等の未知化合物を同定する場合には、未知化合物の分子量が大きくなり、化学構造も複雑になっている。そのため、未知化合物の種類によっては、一段階の開裂操作だけでは充分に小さな質量までイオンが開裂しない場合がある。そうした場合には、開裂操作を複数回繰り返し、生成したフラグメントイオンを質量分析するMS分析が行われている。
 このようなMS分析により得られたMSマススペクトルから未知化合物の化学構造を推定する解析処理として、データベースを用いたパターンマッチング処理が行われている(例えば、特許文献1や非特許文献1参照)。データベースには、多数の化合物名及び化学構造(既知化合物)と、その既知化合物のMSマススペクトルが含まれている。そして、パターンマッチング処理では、既知化合物のMSマススペクトルと、未知化合物のMSマススペクトルとを比較することにより、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を示すスコアを、重み付き内積やピークの出現確率等を用いてそれぞれ求めている。その結果、スコアが高い順番に既知化合物を配列することで、測定者は未知化合物を同定している。
特開2005-201835号公報
Stephen E. Stein, and Donald R. Scott "Optimization and Testing of Mas Spectral Library Search Algorithms for Compound Identification" 1994, American Society for Mass Spectrometry, 859-866.
 ところで、同一の化合物をMS分析した場合でも、得られたMSマススペクトルが異なることがある。すなわち、MSマススペクトルでは、ピークのイオン強度Iやピークの位置(m/z)やピークの有無等が変化しやすい。そのため、上述したようなパターンマッチング処理では、イオン強度Iが大きく変化したり、ピークの位置がずれたり、あるべきピークが現れなかったりすることがあり、スコアが低下し、その結果、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を正しく評価していないことがあった。
 本件発明者は、上記課題を解決するために、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を正しく評価する検索方法について検討を行った。上述したようなパターンマッチング処理では、MSマススペクトル中のピークのイオン強度Iやピークの位置(m/z)やピークの有無等が変化しやすいことが考慮されておらず、スコアが低下することがわかった。そこで、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を評価する際に、MSマススペクトル中のピークのイオン強度Iやピークの位置(m/z)やピークの有無等が変化することを考慮した検索方法を見出した。
 すなわち、本発明のデータ処理装置は、多数の既知化合物のMSマススペクトルを予め記憶するデータベース記憶領域と、未知化合物のMSマススペクトルを取得する取得部と、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を示すスコアをそれぞれ求めるスコア算出部とを備えるデータ処理装置であって、未知化合物のMSマススペクトル中の各ピーク及び既知化合物のMSマススペクトル中の各ピークを、イオン強度の大きさによって数段階の強度スコアにそれぞれ分類する強度スコア算出部と、未知化合物のMSマススペクトル中のニュートラルロスのピークを求めるニュートラルロス算出部と、既知化合物のMSマススペクトル中の前記ニュートラルロスのピークを含むピークの質量電荷比と、対応する未知化合物のMSマススペクトル中のピークの質量電荷比との差に基づいて、質量電荷比の誤差を示す位置スコアを各ピークについてそれぞれ求める位置スコア算出部とを備え、前記スコア算出部は、各ピークについて、既知化合物のMSマススペクトル中のピークの強度スコアと、未知化合物のMSマススペクトル中のピークの強度スコアと、位置スコアとを積算し、全ピークについての積算値の総和をスコアとして算出するようにしている。
 ここで、「未知化合物のMSマススペクトル」とは、未知化合物をMS分析した際に得られたものであり、「既知化合物のMSマススペクトル」とは、未知化合物と同様の条件(イオン化法や開裂方法等)で既知化合物をMS分析した際に得られたものであってもよく、また、未知化合物と異なる条件で既知化合物をMS分析した際に得られたものや、既知化合物の化学構造から計算されたものであってもよい。
 本発明のデータ処理装置によれば、まず、<1>ピークのイオン強度Iについては次のように処理する。ピークのイオン強度Iは変化しやすいが、大きなイオン強度Iのピークは、対象化合物から得られやすいフラグメントイオンのピークであると考えられる。そこで、未知化合物のMSマススペクトルについて、イオン強度Iの大きさによって数段階(例えば、上位、中位、下位)に各ピークをそれぞれ分類するとともに、データベースの既知化合物のMSマススペクトルについても、イオン強度Iの大きさによって数段階(例えば、上位、中位、下位)に各ピークをそれぞれ分類する。これにより、イオン強度Iが異なっても、類似したピークを見つけるようにする。
 また、ピークの有無は変化しやすいので、未知化合物のMSマススペクトルと既知化合物のMSマススペクトルとで同一の位置(質量電荷比)にピークが存在しなくても、互いにニュートラルロスの関係にあるピークが存在する場合がある。そこで、ニュートラルロス算出部は、未知化合物のMSマススペクトルについて、ピークの位置とプリカーサイオンの質量とからニュートラルロスのピークを求める。これにより、未知化合物のMSマススペクトル中であるべきピークが現れなくても、ピークを対応付けることができる。なお、MSマススペクトル中に追加するニュートラルロスのピークのイオン強度Iについては、例えば、元としたピークと同じイオン強度Iとする。
 次に、<2>ピークの位置(m/z)については次のように処理する。未知化合物のMSマススペクトル中のピークの位置はある程度のずれが生じる。そこで、既知化合物のMSマススペクトル中のピークの位置を基準とし、質量分析装置のピークの位置の精度範囲(例えば、質量分析装置で-1.0~1.0や、TOFで-0.005~0.005や、タンデム四重極で-0.5~0.5)に位置スコア「1.0」を対応付け、その精度範囲外で位置スコア「0.0」に漸近する位置スコアを対応付けることで、ピークの位置が異なっても、類似したピークを見つけるようにする。
 そして、上述したように、対応付けられた各ピークについて、既知化合物のMSマススペクトル中のピークの強度スコアと、未知化合物のMSマススペクトル中のピークの強度スコアと、位置スコアとを積算し、全ピークについての積算値の総和をスコアとして算出する。
 以上のように、本発明のデータ処理装置によれば、未知化合物のMSマススペクトル中のピークのイオン強度Iやピークの位置(m/z)やピークの有無等が変化しても、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を正しく評価することができる。
(その他の課題を解決するための手段及び効果)
 また、本発明のデータ処理装置においては、既知化合物のMSマススペクトル中のピークの質量電荷比と、未知化合物のMSマススペクトル中のピークの質量電荷比との内で、一致したペア数から求められた一致度に基づいて、一致度を示すピークスコアを求めるピークスコア算出部とを備え、前記スコア算出部は、前記スコアに前記ピークスコアを加算するようにしてもよい。
 本発明のデータ処理装置によれば、<3>ピーク・ニュートラルロスペアの一致度については次のように処理する。既知化合物のMSマススペクトル中のピークの質量電荷比と、未知化合物のMSマススペクトル中のピーク(ニュートラルロスのピークも含む)の質量電荷比との内で、一致したペア数から一致度を示すピークスコア(例えば、(一致したピーク数/既知化合物のMSマススペクトル中のピーク数)×100)を求める。
 また、本発明のデータ処理装置においては、前記強度スコア算出部は、未知化合物のMSマススペクトル中の各ピーク及び既知化合物のMSマススペクトル中の各ピークを、イオン強度又は当該イオン強度のlogの変換値の大きさによって3段階、もしくは数段階の強度スコアにそれぞれ分類するようにしてもよい。
 また、本発明のデータ処理装置においては、前記強度スコア算出部は、未知化合物のMSマススペクトル中の各ピーク及び既知化合物のMSマススペクトル中の各ピークを、イオン強度の大きさとピークの質量電荷比の大きさとによって数段階の強度スコアにそれぞれ分類するようにしてもよい。
 本発明のデータ処理装置によれば、MSマススペクトルでは、質量電荷比に比例してピークのユニーク度が大きくなるが、質量電荷比が大きなピークは、イオン強度が小さくなる場合があるため、イオン強度を質量電荷比に応じて重み付ける(例えばイオン強度をI、質量荷電比をMとして、あるピークの強度IをI=M×(I)1/2のように重み付ける)ことで、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を正しく評価することができる。
 また、本発明のデータ処理装置においては、前記強度スコア算出部は、未知化合物のMSマススペクトルにおいて、イオン強度の大きさが閾値以下であるピークを除去するようにしてもよい。
 本発明のデータ処理装置によれば、適切なピークだけに注目したスコアを得ることができ、信頼性の高い検索ができるようになる。
 また、本発明のデータ処理装置においては、前記位置スコア算出部は、既知化合物のMSマススペクトル中のピークの質量電荷比を基準とし、当該基準から離れるにしたがって低くなる位置スコアを、未知化合物のMSマススペクトル中の各ピークについてそれぞれ求めるようにしてもよい。
 本発明のデータ処理装置によれば、例えば、既知化合物のMSマススペクトル中のピークの質量電荷比を基準とし、その基準から離れるにしたがって低くなる適当な分布関数や、既知化合物のMSマススペクトル中のピークの質量電荷比を基準とし、適当な傾きで位置スコア「0」に減衰していく近似関数や、既知化合物のMSマススペクトル中のピークの質量電荷比を基準とし、一定範囲まである位置スコアとし、その一定範囲外は位置スコア「0」とするステップ関数や、これらの組み合わせにすることで、各ピークについて位置スコアをそれぞれ求める。なお、基準とする既知化合物のMSマススペクトル中のピークの質量電荷比も、一定値とするだけでなく、存在確率や、構造式の分子軌道計算から求められる結合力等に基づいた可変値としてもよい。また、分布関数や近似関数やステップ関数中に、既知化合物のMSマススペクトル中のピークが複数存在する場合には、最も基準に近いピークや、強度スコアと位置スコアとの積算値が高いピークを選択することとしてもよい。
 以上のように、本発明のデータ処理装置によれば、ピークの位置の関数を用いることで、信頼性の高い検索ができるようになる。また、ピークの位置の関数を直線的な分布にした場合には、簡素化され効率的に検索ができるようになる。
 また、本発明のデータ処理装置においては、前記位置スコア算出部は、未知化合物のMSマススペクトル中のピークの質量電荷比を、アダクトイオンの質量を用いて補正するようにしてもよい。
 本発明のデータ処理装置によれば、アダクトイオン(-H、-OH、-CO等の付加体)によってピークの位置が1以上ずれることも考えられる。そこで、精度範囲外のピークに対してもアダクトに基づいて対応付けることで、ピークの位置が1以上ずれても、類似したピークを見つけることができる。
 また、本発明のデータ処理装置においては、前記ピークスコア算出部は、一致したペア数にしたがって増加するピークスコアを求めるようにしてもよい。
 本発明のデータ処理装置によれば、一致したペア数にしたがってスコアへの影響度を変えることができ、多くの部分構造が一致する同一の化合物の代謝物等の変化体を正しく検索することができる。
 また、本発明のデータ処理装置においては、前記スコア算出部は、未知化合物のMSn+mマススペクトルと、多数の既知化合物のMSn+mマススペクトルとの類似性を示すMSn+mマススペクトルのスコアをそれぞれ求め、MSマススペクトルのスコアに、MSn+mマススペクトルのスコアを加算するようにしてもよい。
 本発明のデータ処理装置によれば、関連付けられた子や親のマススペクトルもスコアに反映でき、信頼性の高い検索ができるようになる。
 そして、本発明のデータ処理方法は、多数の既知化合物のMSマススペクトルを予め記憶するデータベース記憶領域と、未知化合物のMSマススペクトルを取得する取得部と、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を示すスコアをそれぞれ求めるスコア算出部とを備えるデータ処理装置を用いたデータ処理方法であって、未知化合物のMSマススペクトル中の各ピーク及び既知化合物のMSマススペクトル中の各ピークを、イオン強度の大きさによって数段階の強度スコアにそれぞれ分類する強度スコア算出ステップと、未知化合物のMSマススペクトル中のニュートラルロスのピークを求めるニュートラルロス算出ステップと、既知化合物のMSマススペクトル中の前記ニュートラルロスのピークを含むピークの質量電荷比と、対応する未知化合物のMSマススペクトル中のピークの質量電荷比との差に基づいて、質量電荷比の誤差を示す位置スコアを各ピークについてそれぞれ求める位置スコア算出ステップと、各ピークについて、既知化合物のMSマススペクトル中のピークの強度スコアと、未知化合物のMSマススペクトル中のピークの強度スコアと、位置スコアとを積算し、全ピークについての積算値の総和をスコアとして算出するスコア算出ステップとを含むようにしている。
 また、本発明のデータ処理方法においては、既知化合物のMSマススペクトル中のピークの質量電荷比と、未知化合物のMSマススペクトル中のピークの質量電荷比との内で、一致したペア数から求められた一致度に基づいて、一致度を示すピークスコアを求めるピークスコア算出ステップと、前記スコアに前記ピークスコアを加算する加算ステップとを含むようにしてもよい。
本発明の一実施形態である質量分析装置の概略構成を示すブロック図。 分布関数記憶領域に記憶された分布関数の一例を示す図。 データ処理方法の一例について説明するためのフローチャート。 データ処理方法の一例について説明するためのフローチャート。
 以下、本発明の実施形態について図面を用いて説明する。なお、本発明は、以下に説明するような実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々の態様が含まれる。
 図1は、本発明の一実施形態である質量分析装置の概略構成を示すブロック図である。
 液体クロマトグラフ質量分析装置(LC/MS)1は、液体クロマトグラフ装置(LC)10と、MS分析が可能な質量分析装置(MS)20と、コンピュータ(データ処理装置)30とを備える。
 なお、ここでは、LC/MS1で得られたマススペクトルを利用する場合を例にとるが、ガスクロマトグラフ質量分析装置(GC/MS)等の他のクロマトグラフ質量分析装置や、試料の直接導入を行う質量分析装置を利用する場合も同様である。
 LC10は、カラムオーブン11と、カラムオーブン11に内装されるカラム12と、カラム12の入口端に接続されるサンプル注入部13とを備える。
 このようなLC10によれば、試料は、キャリアガスに押されてサンプル注入部13からカラム12内に導入されることになる。これにより、試料に含まれる各成分(未知化合物)は、カラム12内を通過する間に時間軸方向に分離されて、カラム12の出口端に到達することになる。なお、カラム12の出口端はMS20に接続されている。
 MS20は、未知化合物をイオン化するイオン源21と、生成したイオンを質量分離しかつMS分析が可能な質量分離部22と、質量分離されたイオンを検出する検出器23とを備える。イオン源21には、エレクトロスプレイイオン源の他、ソニックスプレイイオン源や、イオンスプレイや、マトリックス支援レーザー脱離イオン源等が使用可能である。質量分離部22としては、例えば、三連四重極型の質量分析装置やイオントラップ型の質量分析装置等を用いることができる。なお、各試料成分由来のイオンから適当な質量電荷比(m/z)を有するイオンがプリカーサイオンとして自動的に選択されるか、事前に指定した質量荷電比(m/z)のピークをプリカーサイオンとして選定し、このプリカーサイオンを開裂させて発生したフラグメントイオンの質量分離・検出が行われる。
 このようなMS20によれば、イオン源21でイオン化されたイオンは、質量分離部22へ導入される。質量分離部22では、イオンを質量分離する。また、測定者の設定にしたがってMS分析(n=2,3,4,・・・)を順次行う。質量分離されたイオンは検出器23へ送られ、MSマススペクトル(n=2,3,4,・・・)として検出され、MSマススペクトル(n=2,3,4,・・・)のデータがコンピュータ30へ送られる。
 コンピュータ30は、CPU31とメモリ32と入力装置33と表示装置34とを備える。CPU31が処理する機能をブロック化して説明すると、未知化合物のMSマススペクトルのデータを取得する取得部31aと、強度スコアI,Iを算出する強度スコア算出部31bと、位置スコアS(err)を算出する位置スコア算出部31cと、ニュートラルロス算出部31eと、ピークスコアS(N)を算出するピークスコア算出部31fと、スコアScrを算出するスコア算出部31dとを有する。
 メモリ32は、イオン強度Iを蓄積するためのイオン強度記憶領域32aと、未知化合物のMSマススペクトルを記憶するための未知化合物データ記憶領域32bと、多数の既知化合物のMSマススペクトルを予め記憶するデータベース記憶領域32cと、位置スコアS(err)を算出するための分布関数を予め記憶する分布関数記憶領域32dと有する。
 ここで、データベース記憶領域32cに記憶された既知化合物のMSマススペクトルは、MS20で実際に既知化合物をMS分析した際に得られたものであり、多数の既知化合物をMS分析することにより、データベース記憶領域32cに記憶されている。
 そして、データベース記憶領域32cに記憶された既知化合物のMSマススペクトルは、イオン強度Iについては強度スコア算出部31bによりイオン強度Iの大きさによって3段階に各ピークがそれぞれ分類されており、具体的には、イオン強度IがI以上であるピークを上位の強度スコア「4」に分類し、イオン強度IがI以上I未満であるピークを中位の強度スコア「3」に分類し、イオン強度IがI未満であるピークを下位の強度スコア「2」に分類している。
 また、既知化合物のMSマススペクトルは、質量電荷比(m/z)については位置スコア算出部31cにより各ピークの質量電荷比(m/z)がそれぞれ求められている。
 これにより、例えば、一の既知化合物のMSマススペクトルでは、i番目のピークについては強度スコア「4」、質量電荷比(m/z)が割り当てられ、(i+1)番目のピークについては強度スコア「2」、質量電荷比(m(i+1)/z(i+1))が割り当てられるように、全てのピークについて強度スコアと質量電荷比(m/z)とが割り当てられている。そして、全ての既知化合物のMSマススペクトルについて、全てのピークについて強度スコアと質量電荷比(m/z)とが割り当てられている。
 また、図2は、分布関数記憶領域32dに記憶された分布関数の一例を示す図である。横軸は質量電荷比m/zの差errとなっており、縦軸は位置スコアS(err)となっている。分布関数は、差errが0であるときには位置スコア「1」を対応付け、差errが大きくなるにしたがって位置スコア「0」に近づくように低くなっている。
 取得部31aは、未知化合物をMS分析(n=2,3,4,・・・)することで、検出器23で取得されたイオン強度Iをメモリ32に蓄積させた後、イオン強度Iを縦軸に、m/zを横軸にとることにより、MSマススペクトル(n=2,3,4,・・・)を作成して未知化合物データ記憶領域32bに記憶させる制御を行う。
 強度スコア算出部31bは、未知化合物のMSマススペクトル(n=2,3,4,・・・)中の各ピークを、イオン強度Iの大きさによって3段階の強度スコアにそれぞれ分類する制御を行う。具体的には、イオン強度IがI以上であるピークを上位の強度スコア「4」に分類し、イオン強度IがI以上I未満であるピークを中位の強度スコア「3」に分類し、イオン強度IがI未満であるピークを下位の強度スコア「2」に分類する。
 ニュートラルロス算出部31eは、未知化合物のMSマススペクトル中のニュートラルロスのピークを求める制御を行う。例えば、各試料成分由来のイオンから適当な質量電荷比(m/z)を有するイオンがプリカーサイオンとして自動的に選択されるか、事前に指定した質量荷電比(m/z)のピークをプリカーサイオンとして選定し、得られた未知化合物のMSマススペクトルについて、ピークの質量電荷比(m/z)とプリカーサイオンの質量とからニュートラルロスを求める。これにより、未知化合物のMSマススペクトル(n=2,3,4,・・・)中にニュートラルロスのピークを含んだものが作成される。なお、MSマススペクトル中に追加するニュートラルロスのピークのイオン強度Iについては、例えば、元としたピークと同じイオン強度Iとする。
 位置スコア算出部31cは、既知化合物のMSマススペクトル中のピークの質量電荷比(m/z)と、対応する未知化合物のMSマススペクトル中のピーク(ニュートラルロスのピークも含む)の質量電荷比(m/z)との差errに基づいて、質量電荷比(m/z)の誤差を示す位置スコアS(err)を各ピークについてそれぞれ求める制御を行う。
 まず、未知化合物データ記憶領域32bに記憶された未知化合物のMSマススペクトルについて、各ピーク(ニュートラルロスのピークも含む)の質量電荷比(m/z)をそれぞれ求める。
 次に、未知化合物のMSマススペクトルと、様々な既知化合物のMSマススペクトルとを次々と比較していくことになるが、X番目の既知化合物のMSマススペクトルと、未知化合物のMSマススペクトルとを比較するときには、X番目の既知化合物のMSマススペクトル中のi番目のピークの質量電荷比(m/z)に最も近い質量電荷比(m/z)のピーク(ニュートラルロスのピークも含む)を見つけ出す。例えば、X番目の既知化合物のMSマススペクトル中のi番目のピークの質量電荷比(m/z)に最も近い質量電荷比(m/z)のピークとして、未知化合物のMSマススペクトル中のj番目のピークを見つけ出す。そして、X番目の既知化合物のMSマススペクトル中のi番目のピークの質量電荷比(m/z)と、未知化合物のMSマススペクトル中のj番目のピークの質量電荷比(m/z)との差errを算出し、差errを図2に示す分布関数に代入することで、位置スコアSij(err)を求める。
 さらに、X番目の既知化合物のMSマススペクトル中の(i+1)番目のピークの質量電荷比(m/z)に最も近い質量電荷比(m/z)のピーク(ニュートラルロスのピークも含む)を見つけ出す。例えば、X番目の既知化合物のMSマススペクトル中の(i+1)番目のピークの質量電荷比(m/z)に最も近い質量電荷比(m/z)のピークとして、未知化合物のMSマススペクトル中の(j+n)番目のピークを見つけ出す。そして、X番目の既知化合物のMSマススペクトル中の(i+1)番目のピークの質量電荷比(m/z)と、未知化合物のMSマススペクトル中の(j+n)番目のピークの質量電荷比(m/z)との差errを算出し、差errを図2に示す分布関数に代入することで、位置スコアS(i+1)(j+n)(err)を求める。
 このようにして、X番目の既知化合物のMSマススペクトル中の全ピークについて対応する未知化合物のMSマススペクトル中のピーク(ニュートラルロスのピークも含む)を見つけ出し、位置スコアS(err)を求める。
 ピークスコア算出部31fは、下記式(1)に基づいてピークスコアS(N)を求める制御を行う。
 S(N)=(一致したピーク数/既知化合物のMSマススペクトル中のピーク数)×100 ・・・(1)
 これにより、既知化合物のMSマススペクトル中のピークの質量電荷比(m/z)と、未知化合物のMSマススペクトル中のピーク(ニュートラルロスのピークも含む)の質量電荷比(m/z)との内で、一致したペア数から求められた一致度を示すピークスコアS(N)が求められる。例えば、X番目の既知化合物のMSマススペクトル中のピーク数が5個であり、一致したピーク数が3個であれば、一致度を示すピークスコア「60」となり、(X+1)番目の既知化合物のMSマススペクトル中のピーク数が10個であり、一致したピーク数が1個であれば、一致度を示すピークスコア「10」となる。
 なお、「一致した」とは、既知化合物のMSマススペクトルのピークに対して、未知化合物のMSマススペクトル中において、位置スコアS(err)が0でないピーク或いはニュートラルロスのピークが存在することをいう。
 スコア算出部31dは、下記式(2)に基づいてスコアScrを算出する制御を行う。
 Scr=Sij(err)×Idi×Iqj+S(i+1)(j+n)(err)×Id(i+1)×Iq(j+n)+・・・+S(N) ・・・(2)
 なお、「Idi」は、既知化合物のMSマススペクトル中のi番目のピークの強度スコアであり、「Id(i+1)」は、既知化合物のMSマススペクトル中の(i+1)番目のピークの強度スコアであり、「Iqj」は、未知化合物のMSマススペクトル中のj番目のピークの強度スコアであり、「Iq(j+n)」は、未知化合物のMSマススペクトル中の(j+n)番目のピークの強度スコアである。
 これにより、各ピークについて、既知化合物のMSマススペクトル中のピークの強度スコアIと、未知化合物のMSマススペクトル中のピークの強度スコアIと、位置スコアS(err)とを積算し、全ピークについての積算値の総和を算出し、その算出値にピークスコアS(N)を加算することで、未知化合物とX番目の既知化合物との類似性を示すスコアScrが算出される。このようにして、未知化合物のMSマススペクトルと、様々な既知化合物のMSマススペクトルとの類似性を示すスコアScrが算出されていく。
 ここで、液体クロマトグラフ質量分析装置(LC/MS)1を用いた未知化合物を同定するデータ処理方法について説明する。図3は、データ処理方法の一例について説明するためのフローチャートである。
 まず、ステップS101の処理において、未知化合物のMSマススペクトル(n=2,3,4,・・・)を作成する。
 次に、ステップS102の処理において、未知化合物のMSマススペクトルについて、各ピークの質量電荷比(m/z)をそれぞれ求める。
 次に、ステップS103の処理において、未知化合物のMSマススペクトル(n=2,3,4,・・・)中の各ピークを、イオン強度Iの大きさによって3段階の強度スコアにそれぞれ分類する(強度スコア算出ステップ)。
 次に、ステップS104の処理において、未知化合物のMSマススペクトル中のニュートラルロスのピークを求める(ニュートラルロス算出ステップ)。
 次に、ステップS105の処理において、既知化合物の順番を示す既知化合物順番パラメータX=1とする。
 次に、ステップS106の処理において、スコアScr=0とする。
 次に、ステップS107の処理において、既知化合物のMSマススペクトル中のピークの順番を示すピーク順番パラメータi=1とする。
 次に、ステップS108の処理において、既知化合物のMSマススペクトル中のi番目のピークの質量電荷比(m/z)に最も近い質量電荷比(m/z)のピークを見つけ出す。そして、既知化合物のMSマススペクトル中のi番目のピークの質量電荷比(m/z)と、未知化合物のMSマススペクトル中のj番目のピークの質量電荷比(m/z)との差errを算出し、差errを図2に示す分布関数に代入することで、位置スコアSij(err)を求める(位置スコア算出ステップ)。
 次に、ステップS109の処理において、Scr=Scr+Sij(err)×Idi×Iqjとする。
 次に、ステップS110の処理において、i=imax(既知化合物のMSマススペクトル中で最後の順番のピーク)であるか否かを判定する。i=imaxでないと判定したときには、ステップS111の処理において、i=i+1として、ステップS108の処理に戻る。
 一方、i=imaxであると判定したときには、ステップS112の処理において、式(1)に基づいてピークスコアS(N)を求める(ピークスコア算出ステップ)。
 次に、ステップS113の処理において、Scr=Scr+S(N)とする(スコア算出ステップ)。
 次に、ステップS114の処理において、X=Xmax(最後の順番の既知化合物)であるか否かを判定する。X=Xmaxでないと判定したときには、ステップS115の処理において、X=X+1として、ステップS106の処理に戻る。
 一方、X=Xmaxであると判定したときには、ステップS116の処理において、スコアScrが高い順番に既知化合物を配列する。
 そして、ステップS116の処理が終了したときには、本フローチャートを終了させる。
 以上のように、液体クロマトグラフ質量分析装置(LC/MS)1によれば、未知化合物のMSマススペクトル中のピークのイオン強度Iやピークの位置(m/z)やピークの有無等が変化しても、未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を正しく評価することができる。
<他の実施形態>
(1)上述した液体クロマトグラフ質量分析装置(LC/MS)1では、強度スコア算出部31bは、未知化合物のMSマススペクトル(n=2,3,4,・・)中の各ピークと既知化合物のMSマススペクトル(n=2,3,4,・・・)中の各ピークとを、イオン強度I,Iの大きさによって3段階の強度スコアにそれぞれ分類する構成を示したが、イオン強度I,Iのlogの変換値の大きさによって2段階や4段階の強度スコアにそれぞれ分類する構成としてもよい。さらに、強度スコア算出部は、未知化合物のMSマススペクトルにおいて、イオン強度Iの大きさが閾値以下であるピークを除去する構成としてもよい。
(2)上述した液体クロマトグラフ質量分析装置(LC/MS)1では、強度スコア算出部31bは、未知化合物のMSマススペクトル(n=2,3,4,・・・)中の各ピークと既知化合物のMSマススペクトル(n=2,3,4,・・・)中の各ピークとを、イオン強度I,Iの大きさによって3段階の強度スコアにそれぞれ分類する構成を示したが、イオン強度I,Iの大きさとピークの質量電荷比の大きさとによって数段階の強度スコアにそれぞれ分類する構成としてもよい。例えば、イオン強度I,IがI以上であるピークを上位の強度スコア「4」に分類し、イオン強度I,IがI以上I未満であるピークを中位の強度スコア「3」に分類し、イオン強度I,IがI未満であるピークを下位の強度スコア「2」に分類するとともに、質量電荷比がm/z以上であるピークに強度スコア「2」を加算し、質量電荷比がm/z未満であるピークに強度スコア「1」を加算する。
(3)上述した液体クロマトグラフ質量分析装置(LC/MS)1では、位置スコア算出部は、未知化合物のMSマススペクトル中のピークの質量電荷比を、アダクトイオンの質量を用いて補正する構成としてもよい。
(4)上述した液体クロマトグラフ質量分析装置(LC/MS)1では、式(1)に基づいてピークスコアS(N)を求める構成を示したが、一致したペア数にしたがって増加するピークスコアS(N)を求める構成としてもよい。例えば、既知化合物のMSマススペクトル中のピーク数の8割以上が一致した場合にはピークスコア「100」とし、既知化合物のMSマススペクトル中のピーク数の5割以上8割未満が一致した場合にはピークスコア「50」とし、既知化合物のMSマススペクトル中のピーク数の2割が一致した場合にはピークスコア「20」とする。
(5)上述した液体クロマトグラフ質量分析装置(LC/MS)1では、スコア算出部は、未知化合物のMSn+mマススペクトルと、多数の既知化合物のMSn+mマススペクトルとの類似性を示すMSn+mマススペクトルのスコアをそれぞれ求め、MSマススペクトルのスコアに、MSn+mマススペクトルのスコアを加算する構成としてもよい。
 本発明は、質量分析装置によって得られた未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を示すスコアをそれぞれ求め、そのスコアに基づいて未知化合物を同定するデータ処理方法等に利用することができる。
  1: 液体クロマトグラフ質量分析装置(データ処理装置)
31a: 取得部
31b: 強度スコア算出部
31c: 位置スコア算出部
31d: スコア算出部
32c: データベース記憶領域

Claims (11)

  1.  多数の既知化合物のMSマススペクトルを予め記憶するデータベース記憶領域と、
     未知化合物のMSマススペクトルを取得する取得部と、
     未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を示すスコアをそれぞれ求めるスコア算出部とを備えるデータ処理装置であって、
     未知化合物のMSマススペクトル中の各ピーク及び既知化合物のMSマススペクトル中の各ピークを、イオン強度の大きさによって数段階の強度スコアにそれぞれ分類する強度スコア算出部と、
     未知化合物のMSマススペクトル中のニュートラルロスのピークを求めるニュートラルロス算出部と、
     既知化合物のMSマススペクトル中の前記ニュートラルロスのピークを含むピークの質量電荷比と、対応する未知化合物のMSマススペクトル中のピークの質量電荷比との差に基づいて、質量電荷比の誤差を示す位置スコアを各ピークについてそれぞれ求める位置スコア算出部とを備え、
     前記スコア算出部は、各ピークについて、既知化合物のMSマススペクトル中のピークの強度スコアと、未知化合物のMSマススペクトル中のピークの強度スコアと、位置スコアとを積算し、全ピークについての積算値の総和をスコアとして算出することを特徴とするデータ処理装置。
  2.  既知化合物のMSマススペクトル中のピークの質量電荷比と、未知化合物のMSマススペクトル中のピークの質量電荷比との内で、一致したペア数から求められた一致度に基づいて、一致度を示すピークスコアを求めるピークスコア算出部とを備え、
     前記スコア算出部は、前記スコアに前記ピークスコアを加算することを特徴とする請求項1に記載のデータ処理装置。
  3.  前記強度スコア算出部は、未知化合物のMSマススペクトル中の各ピーク及び既知化合物のMSマススペクトル中の各ピークを、イオン強度又は当該イオン強度のlogの変換値の大きさによって3段階、もしくは数段階の強度スコアにそれぞれ分類することを特徴とする請求項1又は請求項2に記載のデータ処理装置。
  4.  前記強度スコア算出部は、未知化合物のMSマススペクトル中の各ピーク及び既知化合物のMSマススペクトル中の各ピークを、イオン強度の大きさとピークの質量電荷比の大きさとによって数段階の強度スコアにそれぞれ分類することを特徴とする請求項1又は請求項2に記載のデータ処理装置。
  5.  前記強度スコア算出部は、未知化合物のMSマススペクトルにおいて、イオン強度の大きさが閾値以下であるピークを除去することを特徴とする請求項1又は請求項2に記載のデータ処理装置。
  6.  前記位置スコア算出部は、既知化合物のMSマススペクトル中のピークの質量電荷比を基準とし、当該基準から離れるにしたがって低くなる位置スコアを、未知化合物のMSマススペクトル中の各ピークについてそれぞれ求めることを特徴とする請求項1又は請求項2に記載のデータ処理装置。
  7.  前記位置スコア算出部は、未知化合物のMSマススペクトル中のピークの質量電荷比を、アダクトイオンの質量を用いて補正することを特徴とする請求項1又は請求項2に記載のデータ処理装置。
  8.  前記ピークスコア算出部は、一致したペア数にしたがって増加するピークスコアを求めることを特徴とする請求項2に記載のデータ処理装置。
  9.  前記スコア算出部は、未知化合物のMSn+mマススペクトルと、多数の既知化合物のMSn+mマススペクトルとの類似性を示すMSn+mマススペクトルのスコアをそれぞれ求め、
     MSマススペクトルのスコアに、MSn+mマススペクトルのスコアを加算することを特徴とする請求項1又は請求項2に記載のデータ処理装置。
  10.  多数の既知化合物のMSマススペクトルを予め記憶するデータベース記憶領域と、
     未知化合物のMSマススペクトルを取得する取得部と、
     未知化合物のMSマススペクトルと、多数の既知化合物のMSマススペクトルとの類似性を示すスコアをそれぞれ求めるスコア算出部とを備えるデータ処理装置を用いたデータ処理方法であって、
     未知化合物のMSマススペクトル中の各ピーク及び既知化合物のMSマススペクトル中の各ピークを、イオン強度の大きさによって数段階の強度スコアにそれぞれ分類する強度スコア算出ステップと、
     未知化合物のMSマススペクトル中のニュートラルロスのピークを求めるニュートラルロス算出ステップと、
     既知化合物のMSマススペクトル中の前記ニュートラルロスのピークを含むピークの質量電荷比と、対応する未知化合物のMSマススペクトル中のピークの質量電荷比との差に基づいて、質量電荷比の誤差を示す位置スコアを各ピークについてそれぞれ求める位置スコア算出ステップと、
     各ピークについて、既知化合物のMSマススペクトル中のピークの強度スコアと、未知化合物のMSマススペクトル中のピークの強度スコアと、位置スコアとを積算し、全ピークについての積算値の総和をスコアとして算出するスコア算出ステップとを含むことを特徴とするデータ処理方法。
  11.  既知化合物のMSマススペクトル中のピークの質量電荷比と、未知化合物のMSマススペクトル中のピークの質量電荷比との内で、一致したペア数から求められた一致度に基づいて、一致度を示すピークスコアを求めるピークスコア算出ステップと、
     前記スコアに前記ピークスコアを加算する加算ステップとを含むことを特徴とする請求項10に記載のデータ処理方法。
PCT/JP2013/054465 2013-02-22 2013-02-22 データ処理装置及びデータ処理方法 WO2014128912A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201380073595.7A CN105008908B (zh) 2013-02-22 2013-02-22 数据处理装置以及数据处理方法
JP2015501182A JP6004080B2 (ja) 2013-02-22 2013-02-22 データ処理装置及びデータ処理方法
PCT/JP2013/054465 WO2014128912A1 (ja) 2013-02-22 2013-02-22 データ処理装置及びデータ処理方法
EP13875481.7A EP2960647B1 (en) 2013-02-22 2013-02-22 Data processing device and data processing method
US14/769,139 US10535507B2 (en) 2013-02-22 2013-02-22 Data processing device and data processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/054465 WO2014128912A1 (ja) 2013-02-22 2013-02-22 データ処理装置及びデータ処理方法

Publications (1)

Publication Number Publication Date
WO2014128912A1 true WO2014128912A1 (ja) 2014-08-28

Family

ID=51390740

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/054465 WO2014128912A1 (ja) 2013-02-22 2013-02-22 データ処理装置及びデータ処理方法

Country Status (5)

Country Link
US (1) US10535507B2 (ja)
EP (1) EP2960647B1 (ja)
JP (1) JP6004080B2 (ja)
CN (1) CN105008908B (ja)
WO (1) WO2014128912A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018037569A1 (ja) 2016-08-26 2018-03-01 株式会社島津製作所 イメージング質量分析データ処理装置及び方法
WO2018042605A1 (ja) 2016-09-01 2018-03-08 株式会社島津製作所 質量分析データ処理装置
WO2018134952A1 (ja) * 2017-01-19 2018-07-26 株式会社島津製作所 分析データ解析方法および分析データ解析装置
JP2018524578A (ja) * 2015-06-18 2018-08-30 ディーエイチ テクノロジーズ デベロップメント プライベート リミテッド 確率に基づくライブラリ検索アルゴリズム(prols)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017002226A1 (ja) * 2015-07-01 2017-01-05 株式会社島津製作所 データ処理装置
TWI770189B (zh) * 2017-07-21 2022-07-11 日商日立高新技術科學股份有限公司 質量分析裝置以及質量分析方法
US11994501B2 (en) * 2018-02-26 2024-05-28 Leco Corporation Method for ranking library hits in mass spectrometry
US12019057B2 (en) 2019-06-12 2024-06-25 Dh Technologies Development Pte. Ltd. Peak integration correction without parameter adjustment
CN112466412A (zh) * 2020-12-03 2021-03-09 北京计算机技术及应用研究所 一种基于质谱数据的化合物相似度检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090526A1 (ja) * 2003-03-31 2004-10-21 Medical Proteoscope Co., Ltd. 試料解析方法及び試料解析プログラム
JP2005201835A (ja) 2004-01-19 2005-07-28 Hitachi High-Technologies Corp 質量分析装置用データ処理装置
JP2007121134A (ja) * 2005-10-28 2007-05-17 Hitachi High-Technologies Corp タンデム質量分析システム
JP2011220773A (ja) * 2010-04-07 2011-11-04 Shimadzu Corp 質量分析方法及び質量分析装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59137854A (ja) * 1983-01-28 1984-08-08 Jeol Ltd マススペクトルライブラリ−のインバ−スサ−チ
US7409298B2 (en) * 2002-04-12 2008-08-05 Northeastern University Matched filtration with experimental noise determination for denoising, peak picking and quantitation in LC-MS
JP4025850B2 (ja) * 2004-03-19 2007-12-26 独立行政法人産業技術総合研究所 糖鎖構造同定方法及び同解析装置
JP4393270B2 (ja) * 2004-05-21 2010-01-06 株式会社日立ハイテクノロジーズ 質量分析装置および異性体分析方法
JP5273144B2 (ja) * 2008-06-04 2013-08-28 株式会社島津製作所 質量分析データ解析方法及び質量分析データ解析装置
JP4973628B2 (ja) * 2008-08-29 2012-07-11 株式会社島津製作所 クロマトグラフ質量分析データ解析方法及び装置
CN101975818B (zh) * 2010-04-29 2012-12-26 中国计量科学研究院 特征物质的检测***及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004090526A1 (ja) * 2003-03-31 2004-10-21 Medical Proteoscope Co., Ltd. 試料解析方法及び試料解析プログラム
JP2005201835A (ja) 2004-01-19 2005-07-28 Hitachi High-Technologies Corp 質量分析装置用データ処理装置
JP2007121134A (ja) * 2005-10-28 2007-05-17 Hitachi High-Technologies Corp タンデム質量分析システム
JP2011220773A (ja) * 2010-04-07 2011-11-04 Shimadzu Corp 質量分析方法及び質量分析装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STEPHEN E. STEIN; DONALD R. SCOTT: "Optimization and Testing of Mass Spectral Library Search Algorithms for Compound Identification", AMERICAN SOCIETY FOR MASS SPECTROMETRY, 1994, pages 859 - 866

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018524578A (ja) * 2015-06-18 2018-08-30 ディーエイチ テクノロジーズ デベロップメント プライベート リミテッド 確率に基づくライブラリ検索アルゴリズム(prols)
WO2018037569A1 (ja) 2016-08-26 2018-03-01 株式会社島津製作所 イメージング質量分析データ処理装置及び方法
US10950423B2 (en) 2016-08-26 2021-03-16 Shimadzu Corporation Imaging mass spectrometry data processing device and imaging mass spectrometry data processing method
WO2018042605A1 (ja) 2016-09-01 2018-03-08 株式会社島津製作所 質量分析データ処理装置
JPWO2018042605A1 (ja) * 2016-09-01 2019-02-28 株式会社島津製作所 質量分析データ処理装置
US11232935B2 (en) 2016-09-01 2022-01-25 Shimadzu Corporation Mass spectrometry data processing device
WO2018134952A1 (ja) * 2017-01-19 2018-07-26 株式会社島津製作所 分析データ解析方法および分析データ解析装置

Also Published As

Publication number Publication date
US10535507B2 (en) 2020-01-14
EP2960647A4 (en) 2016-10-19
JPWO2014128912A1 (ja) 2017-02-02
CN105008908B (zh) 2017-10-13
EP2960647B1 (en) 2019-04-03
JP6004080B2 (ja) 2016-10-05
CN105008908A (zh) 2015-10-28
EP2960647A1 (en) 2015-12-30
US20150380225A1 (en) 2015-12-31

Similar Documents

Publication Publication Date Title
JP6004080B2 (ja) データ処理装置及びデータ処理方法
JP6494588B2 (ja) 滞留時間の決定または確認のための窓処理質量分析データの使用
US8884218B2 (en) Method and systems for mass spectrometry for identification and structural analysis of unknown substance
EP1766394B1 (en) System and method for grouping precursor and fragment ions using selected ion chromatograms
US20140297201A1 (en) Computer-assisted structure identification
US10381207B2 (en) Data processing system for chromatographic mass spectrometry
JP2007287531A (ja) 質量分析データ解析方法
JP5810983B2 (ja) 質量分析を用いた化合物同定方法及び化合物同定システム
US20150076341A1 (en) Method Of Mass Spectrometry And A Mass Spectrometer
JP5510011B2 (ja) 質量分析方法及び質量分析装置
US20140249766A1 (en) Method and system for mass spectrometry data analysis
US10041915B2 (en) Mass spectrometry (MS) identification algorithm
JP6738816B2 (ja) 曲線減算を介する類似性に基づく質量分析の検出
US11094399B2 (en) Method, system and program for analyzing mass spectrometoric data
JP6027436B2 (ja) 質量分析データ解析方法
EP4078600B1 (en) Method and system for the identification of compounds in complex biological or environmental samples
JP4393206B2 (ja) 質量分析装置用データ処理装置
JP6295910B2 (ja) 質量分析データ処理装置
EP2936544B1 (en) Compound identification using multiple spectra at different collision energies
JP2018119897A (ja) 質量分析を用いた物質同定方法及び質量分析データ処理装置
JP2005055370A (ja) 液体クロマトグラフ質量分析データ解析装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13875481

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015501182

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2013875481

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14769139

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE