JP7440870B2 - 2つの変数により定まるデータの解析方法 - Google Patents

2つの変数により定まるデータの解析方法 Download PDF

Info

Publication number
JP7440870B2
JP7440870B2 JP2021009134A JP2021009134A JP7440870B2 JP 7440870 B2 JP7440870 B2 JP 7440870B2 JP 2021009134 A JP2021009134 A JP 2021009134A JP 2021009134 A JP2021009134 A JP 2021009134A JP 7440870 B2 JP7440870 B2 JP 7440870B2
Authority
JP
Japan
Prior art keywords
matrix
candidate
data
regularization
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021009134A
Other languages
English (en)
Other versions
JP2022113039A5 (ja
JP2022113039A (ja
Inventor
弘明 小澤
雄一郎 藤田
泰 石濱
和佳 吉井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Kyoto University
Original Assignee
Shimadzu Corp
Kyoto University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp, Kyoto University filed Critical Shimadzu Corp
Priority to JP2021009134A priority Critical patent/JP7440870B2/ja
Priority to CN202111214030.9A priority patent/CN114878735B/zh
Priority to US17/518,257 priority patent/US20220237261A1/en
Publication of JP2022113039A publication Critical patent/JP2022113039A/ja
Publication of JP2022113039A5 publication Critical patent/JP2022113039A5/ja
Application granted granted Critical
Publication of JP7440870B2 publication Critical patent/JP7440870B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01JMEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
    • G01J3/00Spectrometry; Spectrophotometry; Monochromators; Measuring colours
    • G01J3/28Investigating the spectrum
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01JMEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
    • G01J3/00Spectrometry; Spectrophotometry; Monochromators; Measuring colours
    • G01J3/28Investigating the spectrum
    • G01J3/45Interferometric spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/31Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry
    • G01N21/35Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light
    • G01N2021/3595Investigating relative effect of material at wavelengths characteristic of specific elements or molecules, e.g. atomic absorption spectrometry using infrared light using FTIR
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Description

本発明は、測定対象の成分に依存する第1の変数とその他の第2の変数という2つの変数により定まるデータを解析する方法に関する。例えば、クロマトグラフ質量分析装置で得られる保持時間毎の各m/z(質量電荷比)の検出強度のデータでは、m/z(質量電荷比)が第1の変数に該当し、保持時間が第2の変数に該当する。イメージング質量分析装置で得られる位置毎のm/z強度のデータでは、m/zが第1の変数に該当し、位置が第2の変数に該当する。イメージングFT-IR(フーリエ変換赤外分光光度計)で得られる位置毎の吸収スペクトルのデータでは、吸収波長が第1の変数に該当し、位置が第2の変数に該当する。
上記のように2つの変数により定まるデータは、第1の変数の値が互いに異なるN行のデータと、第2の変数の値が互いに異なるM列のデータから成るN行M列のデータ行列で表される。ここでN, Mはそれぞれ自然数である。例えば、液体クロマトグラフ質量分析装置(LC/MS)やガスクロマトグラフ質量分析装置(GC/MS)といったクロマトグラフ質量分析装置では、或る保持時間においてN種類のm/zにおける検出強度を示すN個のデータから成るマススペクトルが取得され、それらのデータがデータ行列中の或る1個の列におけるN個のデータとなる。そして、異なるM個の保持時間においてそれぞれマススペクトルが取得されることにより、M個の列においてそれぞれN個のデータが得られる。その結果、N行M列のデータ行列が得られる。
クロマトグラフ質量分析装置により測定される試料には1又は複数種類の成分が含まれている。なお、ここで試料に含まれている「成分」とは、クロマトグラムやマススペクトルに所定以上の高さ(又は大きさ)のピークを形成する有意な成分のことを言う。試料にK種類(Kは自然数)の成分が含まれているとすると、保持時間毎のマススペクトルやm/z毎のマスクロマトグラムは、それらK種類の成分からそれぞれ得られるマススペクトルやマスクロマトグラムを重ね合わせたものになる。そのように重ね合わされたマススペクトルを成分毎のK種類のマススペクトルに分離したり、重ね合わされたマスクロマトグラムを成分毎のK種類のクロマトグラムに分離することができれば、成分毎の情報を得ることができる。そのために、行列分解と呼ばれる手法を用いることができる(例えば特許文献1)。
行列分解では、前述したN行M列のデータ行列Xを、N行K列のスペクトル行列SとK行M列のプロファイル行列Pの積SPで表すことができるように、スペクトル行列S及びプロファイル行列Pを求める。ここでKは上述のように試料に含まれる成分の種類の数に相当するが、行列分解の手法においては「因子数」と呼ばれる。スペクトル行列Sの各列はK種類の成分毎のマススペクトルに対応し、プロファイル行列Pの各行はK種類の成分毎のクロマトグラムに対応する。
これらスペクトル行列S及びプロファイル行列Pは、通常、解析的に求めることはできない。そこで、コンピュータを用いて、複数のスペクトル行列S及びプロファイル行列Pの候補に対して、各スペクトル行列Sの候補及び各プロファイル行列Pの候補の積SPについてそれぞれ、行列要素毎に目的とするデータ行列Xで対応する行列要素との誤差を所定の関数 D(x|y)(「距離関数」または「ダイバージェンス」と呼ばれる)により定義したうえで、それら行列要素毎の誤差の総和を求め、その値が最小になるようにスペクトル行列S及びプロファイル行列Pを求める、という手法が用いられている。距離関数D(x|y)には(x-y)2で表されるユークリッド距離、xlog(x/y)-(x-y)で表される一般化KL(Kullback-Leibler)ダイバージェンス、(x/y)-log(x/y)-1で表されるIS(Itakura-Saito)ダイバージェンス、それらを一般化したβダイバージェンス
Figure 0007440870000001
等が用いられ、この関数の行列要素毎の総和 D(X|SP) = Σn,m D(Xnm|(SP)nm)がデータ行列Xと積SPの相違度を示すこととなる。ここで(SP)nmは積SPから成る行列の行列要素である。
一方で、確率分布のパラメータの推定問題では、最尤推定によってパラメータの推定値を得ることがよく行われている。すなわち、パラメータθ(θは複数の次元を持つベクトルであってもよい)をもつ確率分布において、データxに対するパラメータθの尤(もっと)もらしさを表す尤度関数 p(x|θ)が最大となるようにθを求める。ここで、尤度の最大化により得られるパラメータθの推定値と、負の対数尤度関数 -log p(x|θ) を最小化して得られるパラメータθの推定値は一致するため、より計算の行いやすい負の対数尤度の最小化がよく用いられる。
さて、行列分解を最尤推定問題として解釈する場合、上記の距離関数 D(X|SP) を最小化するように行列S, Pを求めることは、行列の各要素毎に距離関数と対応する確率分布と尤度関数p(Xnm|(SP)nm) を想定することと一致する。すなわち、確率分布として、(i)ガウス分布、(ii)ポアソン分布、(iii)指数分布、(iv)Tweedie分布、を挙げると、それぞれの負の対数尤度関数が、 (i)ユークリッド距離、(ii)一般化KLダイバージェンス、(iii)ISダイバージェンス、(iv)βダイバージェンス、に対応する(例えば非特許文献1)。なお、ここでは4つの例について確率分布と距離関数の対応関係を示したが、一般に、任意の確率分布について、その負の対数尤度関数を距離関数とすれば、同様の推定が可能となる。
また、スパースモデリングの分野では、パラメータの推定値がスパース(sparse:日本語で「まばらな」との意味)となる(行列では0である行列要素が多くなる)ように、解のスパース性を誘導する正則化項としてL1ノルム等を距離関数に加えた損失関数を定義し、その損失関数を最小化することで、不要なパラメータが0と推定されるようにするLASSO(Least Absolute Shrinkage and Selection Operator)等の手法が用いられる。
米国特許公開公報第2009/0121125号
吉井和佳 他3名、「NMF vs PLCA: 多重音生成過程のための無限因子モデルと無限混合モデル」、情報処理学会研究報告 MUS(音楽情報科学)、vol. 2016-MUS-112、No. 21、pp. 1-10、2016年8月1日
データ行列Xに対して行列分解を行う際には、因子数Kを定めなければならない。その際、試料に含まれる成分の種類の数が既知である場合にはその数を因子数Kとすればよいが、多くの場合にはそのような数は未知である。このように試料に含まれる成分の種類の数が未知であると、因子数Kを適切に定めることが困難であるため、データ行列Xに基づいてスペクトル行列S及びプロファイル行列Pを適切に求めることも難しい。また、スパースモデリングのように、解のスパース性を誘導する正則化項を損失関数に追加する場合でも、正則化パラメータの値を適切に決定することが難しい。
本発明が解決しようとする課題は、試料に含まれる成分の種類の数が未知であっても、該試料に対する測定により得られたデータ行列Xに基づいて、適切な、すなわち、該成分の数に近い因子数Kを有するスペクトル行列S及びプロファイル行列Pを求めることができるデータ解析方法を提供することである。
上記課題を解決するために成された本発明に係る2つの変数に依存するデータの解析方法は、分析装置から得られた、第1の変数の値が互いに異なるN行のデータと第2の変数の値が互いに異なるM列のデータから成るN行M列のデータ行列Xに基づいて、N行K列の第1行列SとK行M列の第2行列Pの積SPで該データ行列Xを近似するように、該第1行列S及び該第2行列Pを求める方法であって、
正則化パラメータの候補λr(rは1からrmaxまでの自然数)を複数個、及び解のスパース性を誘導する正則化関数R(S, P)を1個用意する正則化パラメータ・正則化関数準備工程と、
前記複数個の正則化パラメータの候補λrの各々について、前記データ行列Xと前記積SPの相違度を示す距離関数D(X|SP) と、正則化パラメータ候補λrと正則化関数R(S, P)の積λrR(S, P)との和である損失関数 L(S, P) =D(X|SP)+λrR(S, P)の値が最小となるように求められる行列Srt及び行列Prtを第1行列Sの候補Sr及び第2行列Pの候補Prとして決定するように最適化問題を解く行列候補決定工程と、
前記複数個の正則化パラメータの候補λrの各々について、前記データ行列Xの行列要素Xnm及びそれに対応する前記第1行列候補Srと前記第2行列候補Prの積SrPrの行列要素(SrPr)nmの組み合わせ毎に、前記距離関数D(Xnm|(SP)nm)に対応する確率分布Pnmを共通の確率分布 Pcommonへ変数変換する関数Fnmを用いて、共通の確率分布Pcommonへと変数変換された変換値ynm=Fnm(Xnm|(SrPr)nm)を求める確率分布変換工程と、
前記複数個の正則化パラメータの候補λrの各々について、前記変換値y nm と確率分布Pcommonの累積分布関数との適合度を求める適合度算出工程と、
前記複数個の正則化パラメータの候補λrのうち、前記適合度が最大値となるもの、又は前記適合度が所定の閾値以上であって前記第1行列候補Sr及び前記第2行列候補Prにおける前記λrの値が最大であるものについて決定した前記第1行列候補Sr及び前記第2行列候補Prを、第1行列S及び第2行列Pとして決定する行列決定工程と
なお、ここでは便宜上、第1行列には前記スペクトル行列と同じ記号「S」を付し、第2行列には前記プロファイル行列と同じ記号「P」を付したが、記号の通りに第1行列をスペクトル行列とし、第2行列をプロファイル行列としてもよいし、それとは反対に、第1行列をプロファイル行列とし、第2行列をスペクトル行列としてもよい。後者の場合、前述の定義とは異なり、スペクトル行列がK行M列の行列として、プロファイル行列がN行K列の行列として定義される。
この方法によれば、スパース性を誘導する正則化の効果により、試料に含まれる成分の種類の数が未知であっても不要な因子である列が全て0になった第1行列候補Sr、及び、行の値がすべて0になった第2行列候補Prを用意することができる。一方、正則化パラメータの値が小さすぎると、0以外の値をとるSの列数(すなわち推定した因子数K)が多くなりすぎ、オーバーフィット(過剰適合。複雑なモデルを用いることにより、不合理で誤ったモデルであってもデータとの一致度が高くなってしまうこと。「過学習」とも言う。)が生じる。一方で、正則化パラメータの値が大きすぎると、推定した因子数Kが少なくなりすぎ、データにうまく適合できないアンダーフィット(過小適合、過小学習)が生じる。
本発明では、行列候補決定工程において複数の正則化パラメータの候補λrについてそれぞれ1組ずつ決定した候補(Sr, Pr)から、確率分布変換工程から行列決定工程までの工程において理想分布との適合度(詳細は後述)を用いて絞り込みを行うことにより1組の第1行列S及び第2行列P(並びにそれらに対応する1つの因子数K)が得られる。これにより、過剰適合・過小適合が生じることが防止される。すなわち、因子数Kを実際の成分の数よりも多く設定してしまうことが防止され、適切な因子数Kを有する第1行列S及び第2行列Pを求めることができる。
解のスパース性を誘導する正則化関数として、一般に「L1ノルム」、「L1ノルムとL2ノルムの線形結合」、「ボリューム制約」と呼ばれるものが知られている。本発明における正則化関数R(S, P)において、L1ノルムとL2ノルムの線形結合はR(S, P)=α(|S|1+|P|1)+(1-α)(|S|2 2+|P|2 2)で表され(但し、|S|1i, ji, j、|P|1i, ji, j、|S|2=(Σi, ji, j 2)1/2、|P|2=(Σi, ji, j 2)1/2、αは0から1の間の定数)で表され、L1ノルムはα=1の場合に該当する。「ボリューム制約」は、Pの各列の総和が1以下になるようにの制約を加えたうえで、Sに対しては、トレースノルム(シャッテン1ノルム)、det|STS|、logdet|STS+δI|(但し、Iは単位行列、δは正則化関数を制御するハイパーパラメータ)のいずれかを適用したものである。
確率分布の累積分布関数(ここでは一般化した変数xを用いてf(x)と標記する)は、それが前提とするデータの確率分布を示す確率密度関数p(x)を用いて
Figure 0007440870000002
により求められる関数である。確率密度関数p(x)には、例えば、上述した(i)ガウス分布、(ii)ポアソン分布、(iii)指数分布、(iv)Tweedie分布、の各関数が挙げられる。ここで例示した4種の確率密度関数p(x)に対応する累積分布関数f(x)はそれぞれ、上述した(i)ユークリッド距離、(ii)一般化KLダイバージェンス、(iii)ISダイバージェンス、(iv)βダイバージェンスに、それぞれ対応している。
確率分布変換工程で求められる変換値ynm=Fnm(Xnm|(SrPr)nm)は、データの各行列要素Xnm及び積SrPrの各行列要素(SrPr)nmに対応する確率分布Pnm を、共通の確率分布Pcommonへと変数変換するように求められる。例えば、一般化KLダイバージェンスを距離関数としている場合、対応する確率分布Pnmはポアソン分布となる。この時、任意の確率変数は、累積分布関数による変数変換すると標準一様分布に従うこと(確率積分変換: Probability integral transform)を利用して、Fnmを累積分布関数とすることで、Pcommon を標準一様分布とすることができる。標準一様分布に変数変換された変換値ynmがなす経験分布関数は、行列分解の妥当性が高いほど、想定した確率分布Pcommonの累積分布関数との適合度(goodness of fit)が高くなる。そこで適合度算出工程では、複数個の正則化パラメータの候補λrのそれぞれについて、変換値ynmと確率分布Pcommonの累積分布関数との適合度を求める。ここで適合度は、コルモゴロフ-スミルノフ統計量等の既知の適合度を利用できる。また、2つ目の具体例として、データの行列要素Xnm毎のノイズの分散σnm 2が既知である場合に、確率分布Pcommonを標準正規分布とし、累積分布関数Fnm(Xnm|(SrPr)nm)を (Xnm - (SrPr)nm)/σnmとし、適合度として、変換値ynm が平均0であると想定した場合の不偏分散
Figure 0007440870000003
が1に近いかどうかを表す -|σy 2 - 1| を用いても良い。
このように適合度を求めたうえで、行列決定工程において、(i)適合度が最大値となるもの、又は(ii)適合度が所定の閾値以上であって正則化パラメータが最大のもののいずれかについて決定した第1行列候補Sr及び第2行列候補Prを、第1行列S及び第2行列Pとして決定する。ここで(ii)は、適合度が或る程度高い(所定の閾値以上である)範囲内で、できるだけ単純な(Kが小さい)モデルを用いた方が正確であると考えられることに基づいている。
本発明により、試料に含まれる成分の種類の数が未知であっても、該試料に対する測定により得られたデータ行列Xに基づいて、適切な、すなわち、該成分の数に近い因子数Kを有する、スペクトル行列(第1行列又は第2行列)及びプロファイル行列(第2行列又は第1行列)を求めることができる。
本発明の一実施形態に係るデータ解析方法が実行されるクロマトグラフ質量分析装置の一実施形態を示す概略構成図。 図1に示すクロマトグラフ質量分析装置の動作を示すフローチャート。 3次元データ、並びにマススペクトル及びクロマトグラムのデータの一例を用いて、データ行列、並びにスペクトル行列及びプロファイル行列を概念的に示す図。 図1に示すクロマトグラフ質量分析装置の動作の一部である、本実施形態のデータ解析方法の操作の詳細を示すフローチャート。 本実施形態のデータ解析方法で実行する行列分解の計算の例で用いたデータ行列を与える測定データをクロマトグラム及びマススペクトルで示す図。 データ行列を与える測定データを複数のマスクロマトグラムの重ね書きで示す図。 行列分解を実行する際に得られた、λrが小さ過ぎることにより正則化が不十分であるマススペクトル及びクロマトグラムの計算結果の例を示す図。 行列分解を実行する際に得られた、λrが大き過ぎることにより正則化が不十分であるマススペクトル及びクロマトグラムの計算結果の例を示す図。 最適なλrを用いた適切な正則化を伴う行列分解により得られた、マススペクトル及びクロマトグラムの計算結果の例を示す図。
図1~図9を用いて、本発明に係るデータ解析方法の一実施形態、及び該データ解析方法が実行されるクロマトグラフ質量分析装置を説明する。
(1) 本実施形態のデータ解析方法が実行されるクロマトグラフ質量分析装置の構成
図1に、本実施形態のデータ解析方法が実行される液体クロマトグラフ/イオントラップ飛行時間型質量分析装置(LC/IT-TOFMS)1の要部の構成を示す。このLC/IT-TOFMS1は、大別して、液体クロマトグラフ(LC)部10と、質量分析(MS)部20と、データ処理部40と、分析制御部50とを有する。
LC部10は、移動相容器11と、送液ポンプ12と、インジェクタ13と、カラム14とを有する。移動相容器11には移動相を貯留するものである。送液ポンプ12は移動相容器11内の移動相を吸引して一定流量でインジェクタ13へ送給するものである。インジェクタ13はオートサンプラを備え、予め用意された試料を自動的に選択し、所定のタイミングで所定料の試料を移動相中に注入するものである。インジェクタ13により移動相中に試料が注入されると、試料は移動相の流れに乗ってカラム14へ導入される。カラム14を通過する間に試料中の各種成分は分離され、時間的にずれてカラム14の出口から溶出し、MS部20に導入される。
MS部20は、大気圧雰囲気に維持されるイオン化室21と、ターボ分子ポンプ(図示せず)により真空排気され、高真空雰囲気に維持される分析室29とを有し、その間には、段階的に真空度が高くされた第1段中間真空室24及び第2段中間真空室27が配設されている。イオン化室21と第1段中間真空室24とは細径の脱溶媒管23を介して連通しており、第1段中間真空室24と第2段中間真空室27とは、円錐形状のスキマー26の頂部に穿設された小径のオリフィスを介して連通している。第1段中間真空室24内には第1イオンガイド25が、第2段中間真空室27内には第2イオンガイド28が、それぞれ配置されている。
イオン化室21にはイオン源としてのESIノズル22が配置されている。ESIノズル22は、LC部10から供給された試料成分を含む溶出液を、高圧電源(図示せず)から印加されている直流高電圧により帯電させた微小液滴としてイオン化室21内に噴霧するものである。この帯電液滴は大気由来のガス分子と衝突してさらに微細な液滴に粉砕され、速やかに乾燥して(脱溶媒化されて)試料分子が気化する。この試料分子はイオン蒸発反応を生じてイオン化される。発生したイオンを含む微小液滴は、イオン化室21と第1段中間真空室24の差圧によって脱溶媒管23内に引き込まれ、脱溶媒管23内を通る間に一層脱溶媒化が進行してイオンが発生する。なお、試料分子をイオン化する方法は、ここで述べたエレクトロスプレイイオン化法(ESI)には限られず、例えば大気圧化学イオン化法(APCI)や大気圧光イオン化法(APPI)を用いることができる。
脱溶媒管23を通過したイオンは、第1イオンガイド25及び第2イオンガイド28で収束されつつ第1段中間真空室24及び第2段中間真空室27を通過し、分析室29へ送られる。
分析室29内には、イオントラップ30、質量分離器としての飛行時間型質量分離器(TOF)31、及びイオン検出器33が設けられている。
イオントラップ30では、電源(図示せず)より各電極に印加される高周波電圧により形成される四重極電場によって、イオンが一旦捕捉・蓄積される。イオントラップ30の内部に蓄積された各種イオンは、所定のタイミングで一斉に運動エネルギーを付与され、イオントラップ30からTOF31に向けて放出される。
また、イオントラップ30は図示するように、例えばアルゴン等の衝突誘起解離(CID)ガスを供給できる構成となっており、イオントラップ30に蓄積したイオンをCIDにより開裂させてプロダクトイオンを生成させることができる。MS2分析を行う際には、まずイオントラップ30に各種イオンを蓄積した後に、それらイオンの中で特定のm/zを有するイオンのみをプリカーサイオンとして選択的に残すように電極に印加する電圧を制御し、それからCIDガスをイオントラップ30に導入してプリカーサイオンの開裂を促進させる。そうして生成されたプロダクトイオンが所定のタイミングで一斉にイオントラップ30からTOF31に向けて放出される。
TOF31は直流電源(図示せず)から直流電圧が印加されるリフレクトロン電極32を備え、これにより形成される直流電場の作用によってイオンが折り返され、イオン検出器33に到達する。一斉にイオントラップ30から出射されたイオンはm/zの小さいイオンほど速く飛行し、m/zに応じた時間差を以てイオン検出器33に到達する。イオン検出器33は到達したイオン数に応じた電流を検出信号として出力する。
イオン検出器33には、検出信号をデジタル値に変換するA/D変換器34が接続されている。A/D変換器34で変換された検出信号はデータ処理部40に入力される。
データ処理部40は、データ行列作成部41と、行列分解実行部42と、m/z検出部43と、保持時間検出部44と、MS2分析実行条件決定部45とを有する。行列分解実行部42はその内部に正則化パラメータ・正則化関数準備部421と、行列候補決定部422と、確率分布変換部423と、適合度算出部424と、行列決定部425とを有する。これら各部の詳細は後述する。また、データ処理部40は記憶部61に接続されている。
分析制御部50はLC/MS分析及びLC/MS2分析を実行するためにLC部10及びMS部20の各部の動作を制御するものであって、LC/MS分析実行部51及びLC/MS2分析実行部52とを有する。
これらデータ処理部40及び分析制御部50は、所定の制御/処理ソフトウエアを搭載したパーソナルコンピュータ(PC)により具現化される。また、記憶部61は当該PCが有するハードディスクやソリッドステートドライブ等の記憶装置により具現化される。当該PCはさらに、表示部(ディスプレイ)62、及びキーボード、マウス、タッチパネル等のデバイスから成る操作部63を有する。
(2) 本実施形態のデータ解析方法を含むLC/IT-TOFMS1の動作
次に、図2及び図3を用いて、本実施形態のデータ解析方法を含むLC/IT-TOFMS1の動作を説明する。併せて、データ処理部40が有する各構成要素の機能を説明する。
まず、操作者が操作部63を用いて所定の測定開始操作を行うと、LC/IT-TOFMS1は、LC/MS分析実行部51がLC/IT-TOFMS1の各部を制御することにより、以下のように目的試料に対するLC/MS分析を実行する(ステップ1)。これにより、インジェクタ13から移動相中に注入された目的試料がカラム14に送り込まれ、カラム14からの溶出液はMS部20に導入されて繰り返し質量分析される。MS部20のイオン検出器33から出力される検出信号は、A/D変換器34でデジタル値に変換された後に、データ処理部40のデータ行列作成部41に入力される。
データ行列作成部41では、イオントラップ30からの1回のイオン出射によって所定のm/z範囲内でm/z毎に得られるN個の信号を、N行M列のデータ行列X中の1に含まれるN個の行列要素の値として取得する。そして、時間差をもってなされるM回のイオン出射の各々において同様にデータを取得し、それらのデータに基づいて、下記のようなN行M列のデータ行列Xを作成する(ステップ2)。
Figure 0007440870000004
ここで、データ行列Xの各行列要素Xnm(nは1~Nのいずれか、mは1~Mのいずれか)は、m回目のイオン出射の際(保持時間に対応)に検出される、前記m/z範囲内でのn番目のm/zの強度を示す。データ行列Xの各行列要素Xnmは0又は正の値(非負値)を有する。
次に、行列分解実行部42は、後述(「(3)本実施形態のデータ解析方法(行列分解の操作)の詳細」)の方法により行列分解を実行し、データ行列XをN行K列のスペクトル行列SとK行M列のプロファイル行列(「クロマトグラム行列」ともいう)Pの積SPで近似するように、スペクトル行列S及びプロファイル行列Pを求める(ステップ3)。スペクトル行列Sは前記第1行列Sに相当し、プロファイル行列Pは前記第2行列Pに相当する。スペクトル行列S及びプロファイル行列Pはそれぞれ、以下のように表される。
Figure 0007440870000005
Figure 0007440870000006
ここでスペクトル行列Sの各行列要素snk(nは1~Nのいずれか、kは1~Kのいずれか)は、試料に含まれるK種の成分の1つ(k番目の成分とする)によるマススペクトルの各m/zにおける強度を示している。また、プロファイル行列Pの各行列要素pkmは、k番目の成分によるクロマトグラムの各保持時間における強度を示している。すなわち、上掲のスペクトル行列S中において破線で囲んだ行列要素は成分毎のマススペクトルを示し、プロファイル行列P中において破線で囲んだ行列要素は成分毎のクロマトグラムを示している。スペクトル行列Sの各行列要素snk及びプロファイル行列Pの各行列要素pkmはいずれも、0又は正の値(非負値)を有する。図3に、3次元データ71、並びにマススペクトル72及びクロマトグラム73のデータの一例を用いて、データ行列X、並びにスペクトル行列S及びプロファイル行列Pを概念的に図示する。
次に、m/z検出部43は、得られたスペクトル行列Sのk番目の列におけるマススペクトルから1又は複数個のピークを検出し、それらピークに対応するm/zを求める、という操作を各列(すなわちkが1~Kの範囲)で行う(ステップ4)。これらのピークに対応するm/zが、目的試料に含まれるk番目の成分に由来するプリカーサイオンのm/zの候補となる。また、保持時間検出部44は、得られたプロファイル行列Pのk番目の行におけるクロマトグラムから1又は複数個のピークを検出し、それらピークに対応する保持時間を求める、という操作を各行(すなわちkが1~Kの範囲)で行う(ステップ5)。これらのピークに対応する保持時間が目的試料に含まれるk番目の成分の保持時間の候補となる。
MS2分析実行条件決定部45は、これらステップ4で得られたスペクトル行列Sのk番目の列におけるm/zの候補と、ステップ5で得られたプロファイル行列Pのk番目の行における保持時間の候補より、kが1~Kの範囲内の各々において(すなわち目的試料に含まれる成分毎に)、プリカーサイオンのm/zの候補と保持時間の候補のペアから成るプリカーサイオンリストLを作成する(ステップ6)。
ここで、予め試料を含まないバックグラウンドのLC/MSのデータを取得している場合には、MS2分析実行条件決定部45は、当該バックグラウンドのデータに基づいて、プリカーサイオンリストLからバックグラウンドに由来するm/zの候補と保持時間の候補のペアを除外し、残りの候補のペアを新たなm/zの候補と保持時間の候補のペアとして選択する(ステップ7)操作を行ってもよい。あるいは、この操作の代わりにステップ7において、当該バックグラウンドのデータに基づいて、バックグラウンドの影響を受けていないm/z及び保持時間の範囲内にあるm/zの候補及び保持時間の候補のペアのみを、新たなm/zの候補と保持時間の候補のペアとして選択するようにしてもよい。また、これらステップ7の操作は省略してもよい。
MS2分析実行条件決定部45は、得られた(ステップ7を実行する場合にはバックグラウンドに由来するm/zの候補と保持時間の候補のペアを除外した後の)プリカーサイオンリストLに基づいて、前記試料に含まれる成分のプリカーサイオンの選別及び開裂を伴うMS2分析の実行条件(MS2分析メソッド)を決定する(ステップ8)。MS2分析では通常、このような分析メソッドは成分毎に既知であることから、そのような既知の分析メソッドを記憶部61に記憶させておいたうえで、プリカーサイオンリストLに含まれるm/zや保持時間の候補の情報に基づいて、MS2分析実行条件決定部45が記憶部61から分析メソッドを読み出すようにすればよい。
分析メソッドを決定する際に、1回のMS2分析のループタイム(サンプリング間隔)が所定値以下となるように、1つの試料に対するMS2分析の分析メソッドを複数に分割することができる。これにより、十分なサンプリングレートを確保することができ、定量の感度を高くすることができる。
また、分析メソッドを決定する際に、分析対象の成分毎に異なるコリジョンエネルギーを設定することができる。これにより、成分毎の適切なコリジョンエネルギーが既知である場合に、成分毎の分析をより適切に行うことができる。あるいは、分析対象の成分毎にそれぞれ複数のコリジョンエネルギーを設定してもよい。これにより、成分毎の適切なコリジョンエネルギーが不明である場合に、複数のコリジョンエネルギーで試行することにより最適な開裂条件を求めることができる。
こうして決定された分析メソッドに基づいて、LC/IT-TOFMS1は、LC/MS2分析実行部52がLC/IT-TOFMS1の各部を制御することにより、LC/MS2分析を実行する(ステップ9)。LC/MS2分析は、プリカーサイオンリストLに含まれる全ての保持時間において実行される。全ての保持時間におけるLC/MS2分析が完了したとき、LC/IT-TOFMS1の一連の動作が終了する。
(3)本実施形態のデータ解析方法(行列分解の操作)の詳細
次に、図4を用いて、本実施形態のデータ解析方法である、行列分解実行部42において実行される行列分解の操作(ステップ3)の詳細を、行列分解実行部42内の各部の機能と共に説明する。
まず、正則化パラメータ・正則化関数準備部421は、複数個(ここではb個とする。bは自然数。)の正則化パラメータの候補λrと1つの正則化関数R(S, P)を用意する(ステップ31、正則化パラメータ・正則化関数準備工程)。本実施形態では、正則化関数R(S, P)として、行列SのL1ノルムと行列PのL1ノルムの和であるR(S, P)=|S|1+|P|1を用いる。ここで行列のL1ノルムとは、該行列の全ての行列要素の和をいう。正則化パラメータの候補λrは、正の実数を複数個、適宜定める。
次に、行列候補決定部422は、b個の正則化パラメータの候補λrの各々について、損失関数L(S, P) = D(X|SP) + λrR(S, P) が最小となるように、Srt, Prtを求める。ここで距離関数D(X|SP)=Σn,mD(Xnm|(SP)nm)は、該データ行列の行列要素Xnm及びそれに対応する該SPの行列要素(SP)nm毎の距離の総和を示しており、データ行列Xと積SPの各行列要素の相違度を示す関数である。本実施形態では要素ごとの距離関数D(x|y)として一般化KLダイバージェンスDKL(x|y)=x log(x/y)-(x-y)を用いる。
さらに、行列候補決定部422は、以下の2つの方法のいずれかによって、正則化パラメータの候補λr毎にスペクトル行列候補(第1行列候補)Sr及びプロファイル行列候補(第2行列候補)Prと決定する(行列候補決定工程)。第1の方法では、仮候補の組(Srt, Prt)をそのままスペクトル行列候補Sr及びプロファイル行列候補Prと決定する(ステップ33)。
第2の方法では、ステップ33に代えて以下の操作を実行する。まず、Srt, Prtを初期値として、正則化項を含まない第2の損失関数 L2(S, P)= D(X|SP) を最小化するように行列Srt2及び行列Prt2を求める(ステップ33-1)。そして、これら行列Srt2及び行列Prt2をスペクトル行列候補Sr及びプロファイル行列候補Prと決定する(ステップ33-2)。
これら2つの方法のいずれかによってスペクトル行列S及びプロファイル行列Pの候補の組(Sr, Pr)を定めた後、確率分布変換部423は、b個の正則化パラメータの候補λrの各々について、距離関数D(Xnm|(SP)nm)に対応する確率分布の累積分布関数Fnmを用意する(ステップ34)。そして、b個の正則化パラメータの候補λrの各々について、データ行列Xの行列要素Xnm、及びそれに対応するスペクトル行列候補Srとプロファイル行列候補Prの積SrPrの行列要素(SrPr)nmの組み合わせ(Xnm, (SrPr)nm)毎に、それらの行列要素の値を累積分布関数Fnmに代入することにより、標準一様分布に従うことが期待される ynm=Fnm(Xnm|(SrPr)nm)を求める(ステップ35)。本実施形態で用いている損失関数である一般化KLダイバージェンスDKL(X|SP)=Xlog(X/SP)-(X-SP)に対応する累積分布関数F(X|SP)は、ポアソン分布の累積分布関数であることが知られている。
次に、適合度算出部424は、b個の正則化パラメータの候補λrの各々について確率分布変換部423で求めたynm=Fnm(Xnm|(SrPr)nm)の経験分布と、標準一様分布の累積分布関数との適合度を算出する(ステップ36、適合度算出工程)。適合度の算出には、コルモゴロフ-スミルノフ(Kolmogorov-Smirnov:KS)統計量、クラーメル-フォン ミーゼス(Cramer-von Mises)統計量、又はアンダーソン-ダーリング(Anderson-Darling)統計量と呼ばれる、統計学における既知の適合度計算手法を用いることができる。
次に、行列決定部425は、正則化パラメータの候補λr毎に算出された適合度の値を対比して、適合度が最大値となる正則化パラメータの候補λrに対応するスペクトル行列候補Sr及びプロファイル行列候補Prを、スペクトル行列S及びプロファイル行列Pとして決定する(ステップ37、行列決定工程)。なお、適合度が最大値となる正則化パラメータの候補λrの代わりに、適合度が所定の閾値以上である正則化パラメータの候補λrのうち、対応するスペクトル行列候補Sr及びプロファイル行列候補Prにおける正則化パラメータλrが最大であるものをスペクトル行列S及びプロファイル行列Pとして決定してもよい。以上により、行列分解の操作が完了する。
(4) 行列分解の計算の例
次に、図5の左図に示したクロマトグラムと右図に示したマススペクトルのデータを用いて、行列分解の計算を行った例を説明する。ここで、左図では、1回の測定で得られたクロマトグラムを、4種類の成分にそれぞれ起因する合計4つのピーク及びバックグラウンド(BG)という、合計5つに分離して示した。これら5つのクロマトグラムは、データ行列の各行にそれぞれ対応する。従って、この例では、実際の(実験で得られた)データにおけるKの値は5である。右図では、これら5つのクロマトグラムの各々について、対応するマススペクトルを示した。
図6に、実際の(実験で得られた)データにつき、m/zが異なるマスクロマトグラムを多数重ねて示す。この図は、データ行列Xの情報を示している。すなわち、1つのマスクロマトグラムにおける保持時間毎の強度の値の集合は、データ行列Xの1つの行における行列要素の値の集合に相当する。また、或る保持時間における多数のマスクロマトグラムの強度の値の集合は、データ行列Xの1つの列における行列要素の値の集合に相当する。
このようなデータ行列Xに対して、λrが3つの値(1、256、512)の場合についてそれぞれ、本実施形態の行列分解の方法によりスペクトル行列候補Sr及びプロファイル行列候補Prを決定し、適合度を求めた。
図7に、λr=1の場合について求めた、プロファイル行列候補Prの行列要素の各行をクロマトグラフとして示す(左図)と共に、スペクトル行列候補Srの行列要素の各列をマススペクトルとして示す(右図)。同様に、図8に、λr=512の場合について求めたクロマトグラフとマススペクトルを示し、図9に、λr=256の場合について求めたクロマトグラフとマススペクトルを示す。図7~図9には合わせてKS統計量の計算値を示す。KS統計量はKS検定により得られる数値であって、この数値が小さいほど適合度が高いことを意味している。
λr=1の場合(図7)には、KS統計量は0.0924である。また、求められたプロファイル行列候補Pr及びスペクトル行列候補SrにおけるKの値は7となり、実際の値(K=5)よりも大きい。これは、λrが小さ過ぎることにより正則化が不十分であることを意味している。実際、得られたクロマトグラフ及びマススペクトルは、一見して明らかに実際のデータ(図5)と一致していない。
λr=512の場合(図8)には、KS統計量は0.2652である。また、求められたプロファイル行列候補Pr及びスペクトル行列候補SrにおけるKの値は2となり、実際の値よりも小さい。これは、λrが大き過ぎることにより正則化の効果が強くなり過ぎたことを意味している。得られたクロマトグラフ及びマススペクトルは、一見して明らかに実際のデータ(図5)と一致していない。
それに対してλr=256の場合(図9)には、KS統計量は0.0164であって、3つの候補の中で最小となっている。すなわち、適合度は3つの候補の中で最大である。従って、3つの候補の中からλr=256の場合におけるプロファイル行列候補Pr及びスペクトル行列候補Srが、プロファイル行列P及びスペクトル行列Sとして得られる。得られたプロファイル行列P及びスペクトル行列SにおけるKの値は5となり、実際のデータと一致している。また、これらプロファイル行列P及びスペクトル行列Sから求められるクロマトグラフ及びマススペクトルは、実際のデータ(図5)に近いものとなっている。
ここでは3つの正則化パラメータの候補λrからそれぞれ得られたプロファイル行列候補Pr及びスペクトル行列候補Srによるクロマトグラフ及びマススペクトルを示したが、正則化パラメータの候補λrは3つには限られない。正則化パラメータの候補λrの数を多くするほど、より正確なプロファイル行列P及びスペクトル行列Sを求めることができる。
(5) その他
上記実施形態では、データ行列XをN行M列、スペクトル行列SをN行K列、プロファイル行列PをK行M列でそれぞれ規定したが、それらの代わりに、データ行列XをM行N列、スペクトル行列SをK行N列、プロファイル行列PをM行K列でそれぞれ規定してもよい。この場合にはプロファイル行列Pが前記第1行列に相当し、スペクトル行列Sが前記第2行列に相当する。また、積SPの代わりに積PS(ここでは、S及びPは第1行列及び第2行列の記号ではなく、この例におけるスペクトル行列及びプロファイル行列の記号である)を用いる。
クロマトグラフ質量分析装置の構成は上記のTOFMS1には限定されない。例えば、上記実施形態で用いたイオントラップ30の代わりに、四重極マスフィルタ等のマスフィルタとコリジョンセルを組み合わせたものを用い、上記実施形態で用いたTOF31の代わりに直交加速型のTOFを用いたクロマトグラフ質量分析装置に本発明を適用してもよい。また、TOFMS以外のクロマトグラフ質量分析装置に本発明を適用してもよい。
本発明はクロマトグラフ質量分析装置で得られるデータの他に、イメージング質量分析装置やイメージングFT-IR等で得られるデータにも適用することができる。イメージング質量分析装置では、第1の変数及び第2の変数のいずれか一方がm/zであって他方が位置を表す数値に該当する。イメージングFT-IRでは、第1の変数及び第2の変数のいずれか一方が吸収波長であって他方が位置を表す数値に該当する。
その他、本発明は上記実施形態には限定されず、種々の変形が可能であることは言うまでもない。
[態様]
上述した例示的な実施形態は、以下の態様の具体例であることが当業者により理解される。
(第1項)
第1項に係るデータ解析方法は、分析装置から得られた、第1の変数の値が互いに異なるN行のデータと第2の変数の値が互いに異なるM列のデータから成るN行M列のデータ行列Xに基づいて、N行K列の第1行列SとK行M列の第2行列Pの積SPで該データ行列Xを近似するように、該第1行列S及び該第2行列Pを求める方法であって、
正則化パラメータの候補λr(rは1からrmaxまでの自然数)を複数個、及び解のスパース性を誘導する正則化関数R(S, P)を1個用意する正則化パラメータ・正則化関数準備工程と、
前記複数個の正則化パラメータの候補λrの各々について、前記データ行列Xと前記積SPの相違度を示す距離関数D(X|SP) と、正則化パラメータ候補λrと正則化関数R(S, P)の積λrR(S, P)との和である損失関数 L(S, P) =D(X|SP)+λrR(S, P)の値が最小となるように求められる行列Srt及び行列Prtを第1行列Sの候補Sr及び第2行列Pの候補Prとして決定するように最適化問題を解く行列候補決定工程と、
前記複数個の正則化パラメータの候補λrの各々について、前記データ行列Xの行列要素Xnm及びそれに対応する前記第1行列候補Srと前記第2行列候補Prの積SrPrの行列要素(SrPr)nmの組み合わせ毎に、前記距離関数D(Xnm|(SP)nm)に対応する確率分布Pnmを共通の確率分布 Pcommonへ変数変換する関数Fnmを用いて、共通の確率分布Pcommonへと変数変換された値である変換値ynm=Fnm(Xnm|(SrPr)nm)を求める確率分布変換工程と、
前記複数個の正則化パラメータの候補λrの各々について、前記変換値ynmと確率分布Pcommonの累積分布関数との適合度を求める適合度算出工程と、
前記複数個の正則化パラメータの候補λrのうち、前記適合度が最大値となるもの、又は前記適合度が所定の閾値以上であって前記第1行列候補Sr及び前記第2行列候補Prにおける前記λrの値が最大であるものについて決定した前記第1行列候補Sr及び前記第2行列候補Prを、第1行列S及び第2行列Pとして決定する行列決定工程と
を有する。
第1項に係るデータ解析方法によれば、試料に含まれる成分の種類の数が未知であっても、該試料に対する測定により得られたデータ行列Xに基づいて、適切な、すなわち、該成分の数に近い因子数Kを有する第1行列S及び第2行列Pを求めることができる。
(第2項)
第2項に係るデータ解析方法は、第1項に係るデータ解析方法の前記行列候補決定工程において、前記行列Srt及び前記行列Prtを第1行列候補Sr及び第2行列候補Prと決定する代わりに、該行列Srt及び該行列Prtを初期値として、正則化項を含まない第2の損失関数 L2(S, P)= D(X|SP) を最小化するように行列Srt2及び行列Prt2を求め、該行列Srt2及び該行列Prt2を第1行列候補Sr及び第2行列候補Prと決定する。
第2項に係るデータ解析方法によれば、損失関数 L(S, P) =D(X|SP)+λrR(S, P)の値が最小となるように求めた行列Srt及び行列Prtを初期値として、さらに正則化項を含まない第2の最適化の判定を行うため、正則化による残差の偏りを補正し、より実際のデータに近い第1行列候補Sr及び第2行列候補Prを選択することができる。そのため、最終的に求める第1行列S及び第2行列Pの精度を高くすることができる。
(第3項)
第3項に係るデータ解析方法は、第1項又は第2項に係るデータ解析方法において、前記正則化関数R(S, P)が、L1ノルム、若しくはL1ノルムとL2ノルムの線形結合、又は、Pの各列の総和が1以下になるように解の制約を加えたうえでSに対してトレースノルム、det|STS|、logdet|STS+δI|(但し、Iは単位行列、δは正則化関数を制御するハイパーパラメータ)のいずれかを適用したものである。
(第4項)
第4項に係るデータ解析方法は、第1項~第3項のいずれか1項に係るデータ解析方法において、前記累積分布関数が、ガウス分布の累積分布関数、ポアソン分布の累積分布関数、指数分布の累積分布関数、Tweedie分布の累積分布関数のいずれかである。
(第5項)
第5項に係るデータ解析方法は、第1項~第4項のいずれか1項に係るデータ解析方法において、前記適合度がコルモゴロフ-スミルノフ検定、クラーメル-フォン ミーゼス検定、及びアンダーソン-ダーリング検定のうちのいずれかを用いて求められる。
(第6項)
第6項に係るデータ解析方法は、第1項~第4項のいずれか1項に係るデータ解析方法であって、前記行列要素Xnm毎のノイズの分散σnm 2が既知である場合において、前記確率分布Pcommonを標準正規分布とし、前記累積分布関数Fnm(Xnm|(SrPr)nm)を (Xnm - (SrPr)nm)/σnmとし、前記変換値ynm が平均0であると想定した場合の不偏分散
Figure 0007440870000007
を用いて表される-|σy 2 - 1|を前記適合度として用いる。
本発明では、第3項で挙げた種々の正則化関数R(S, P)及び第4項で挙げた種々の累積分布関数F(X|SP)を適宜用いることができる。また、適合度の算出には第5項又は第6項で挙げた、統計学の分野で知られている種々の方法を適宜用いることができる。
(第7項)
第7項に係るデータ解析方法は、第1項~第6項のいずれか1項に係るデータ解析方法において、前記分析装置がクロマトグラフ質量分析装置であり、前記第1の変数及び前記第2の変数のいずれか一方がm/zであって他方が保持時間である。
(第8項)
第8項に係るデータ解析方法は、第1項~第6項のいずれか1項に係るデータ解析方法において、前記分析装置がイメージング質量分析装置であり、前記第1の変数及び前記第2の変数のいずれか一方がm/zであって他方が位置を表す数値である。
(第9項)
第9項に係るデータ解析方法は、第1項~第6項のいずれか1項に係るデータ解析方法において、前記分析装置がイメージングフーリエ変換赤外分光光度計であり、前記第1の変数及び前記第2の変数のいずれか一方が吸収波長であって他方が位置を表す数値である。
本発明は、第7項~第9項に記載のように、クロマトグラフ質量分析装置、イメージング質量分析装置及びイメージングフーリエ変換赤外分光光度計で得られるデータの解析に好適に用いることができる。
1…液体クロマトグラフ/イオントラップ飛行時間型質量分析装置(LC/IT-TOFMS)
10…液体クロマトグラフ(LC)部
11…移動相容器
12…送液ポンプ
13…インジェクタ
14…カラム
20…質量分析(MS)部
21…イオン化室
22…ESIノズル
23…脱溶媒管
24…第1段中間真空室
25…第1イオンガイド
26…スキマー
27…第2段中間真空室
28…第2イオンガイド
29…分析室
30…イオントラップ
31…TOF
32…リフレクトロン電極
33…イオン検出器
34…A/D変換器
40…データ処理部
41…データ行列作成部
42…行列分解実行部
421…正則化パラメータ・正則化関数準備部
422…行列候補決定部
423…確率分布変換部
424…適合度算出部
425…行列決定部
43…m/z検出部
44…保持時間検出部
45…MS2分析実行条件決定部
50…分析制御部
51…LC/MS分析実行部
52…LC/MS2分析実行部
61…記憶部
62…表示部
63…操作部
71…3次元データ
72…マススペクトル
73…クロマトグラム

Claims (9)

  1. 分析装置から得られた、第1の変数の値が互いに異なるN行のデータと第2の変数の値が互いに異なるM列のデータから成るN行M列のデータ行列Xに基づいて、N行K列の第1行列SとK行M列の第2行列Pの積SPで該データ行列Xを近似するように、該第1行列S及び該第2行列Pを求める方法であって、
    正則化パラメータの候補λr(rは1からrmaxまでの自然数)を複数個、及び解のスパース性を誘導する正則化関数R(S, P)を1個用意する正則化パラメータ・正則化関数準備工程と、
    前記複数個の正則化パラメータの候補λrの各々について、前記データ行列Xと前記積SPの相違度を示す距離関数D(X|SP) と、正則化パラメータ候補λrと正則化関数R(S, P)の積λrR(S, P)との和である損失関数 L(S, P) =D(X|SP)+λrR(S, P)の値が最小となるように求められる行列Srt及び行列Prtを第1行列Sの候補Sr及び第2行列Pの候補Prとして決定するように最適化問題を解く行列候補決定工程と、
    前記複数個の正則化パラメータの候補λrの各々について、前記データ行列Xの行列要素Xnm及びそれに対応する前記第1行列候補Srと前記第2行列候補Prの積SrPrの行列要素(SrPr)nmの組み合わせ毎に、前記距離関数D(Xnm|(SP)nm)に対応する確率分布Pnmを共通の確率分布 Pcommonへ変数変換する関数Fnmを用いて、共通の確率分布Pcommonへと変数変換された値である変換値ynm=Fnm(Xnm|(SrPr)nm)を求める確率分布変換工程と、
    前記複数個の正則化パラメータの候補λrの各々について、前記変換値ynmと確率分布Pcommonの累積分布関数との適合度を求める適合度算出工程と、
    前記複数個の正則化パラメータの候補λrのうち、前記適合度が最大値となるもの、又は前記適合度が所定の閾値以上であって前記第1行列候補Sr及び前記第2行列候補Prにおける前記λrの値が最大であるものについて決定した前記第1行列候補Sr及び前記第2行列候補Prを、第1行列S及び第2行列Pとして決定する行列決定工程と
    を有するデータ解析方法。
  2. 前記行列候補決定工程において、前記行列Srt及び前記行列Prtを第1行列候補Sr及び第2行列候補Prと決定する代わりに、該行列Srt及び該行列Prtを初期値として、正則化項を含まない第2の損失関数 L2(S, P)= D(X|SP) を最小化するように行列Srt2及び行列Prt2を求め、該行列Srt2及び該行列Prt2を第1行列候補Sr及び第2行列候補Prと決定する、請求項1に記載のデータ解析方法。
  3. 前記正則化関数R(S, P)が、L1ノルム、若しくはL1ノルムとL2ノルムの線形結合、又は、Pの各列の総和が1以下になるように解の制約を加えたうえでSに対してトレースノルム、det|STS|、logdet|STS+δI|(但し、Iは単位行列、δは正則化関数を制御するハイパーパラメータ)のいずれかを適用したものである、請求項1又は2に記載のデータ解析方法。
  4. 前記累積分布関数が、ガウス分布を表す関数から求められる累積分布関数、ポアソン分布を表す関数から求められる累積分布関数、指数分布を表す関数から求められる累積分布関数、Tweedie分布を表す関数から求められる累積分布関数のいずれかである、請求項1~3のいずれか1項に記載のデータ解析方法。
  5. 前記適合度がコルモゴロフ-スミルノフ検定、クラーメル-フォン ミーゼス検定、及びアンダーソン-ダーリング検定のうちのいずれかを用いて求められる、請求項1~4のいずれか1項に記載のデータ解析方法。
  6. 前記行列要素Xnm毎のノイズの分散σnm 2が既知である場合において、前記確率分布Pcommonを標準正規分布とし、前記累積分布関数Fnm(Xnm|(SrPr)nm)を (Xnm - (SrPr)nm)/σnmとし、前記変換値ynm が平均0であると想定した場合の不偏分散
    Figure 0007440870000008
    を用いて表される-|σy 2 - 1|を前記適合度として用いる、請求項1~4のいずれか1項に記載のデータ解析方法。
  7. 前記分析装置がクロマトグラフ質量分析装置であり、前記第1の変数及び前記第2の変数のいずれか一方がm/zであって他方が保持時間である、請求項1~6のいずれか1項に記載のデータ解析方法。
  8. 前記分析装置がイメージング質量分析装置であり、前記第1の変数及び前記第2の変数のいずれか一方がm/zであって他方が位置を表す数値である、請求項1~6のいずれか1項に記載のデータ解析方法。
  9. 前記分析装置がイメージングフーリエ変換赤外分光光度計であり、前記第1の変数及び前記第2の変数のいずれか一方が吸収波長であって他方が位置を表す数値である、請求項1~6のいずれか1項に記載のデータ解析方法。
JP2021009134A 2021-01-22 2021-01-22 2つの変数により定まるデータの解析方法 Active JP7440870B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021009134A JP7440870B2 (ja) 2021-01-22 2021-01-22 2つの変数により定まるデータの解析方法
CN202111214030.9A CN114878735B (zh) 2021-01-22 2021-10-19 通过两个变量确定的数据的解析方法
US17/518,257 US20220237261A1 (en) 2021-01-22 2021-11-03 Method for analyzing data determined by two variables

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021009134A JP7440870B2 (ja) 2021-01-22 2021-01-22 2つの変数により定まるデータの解析方法

Publications (3)

Publication Number Publication Date
JP2022113039A JP2022113039A (ja) 2022-08-03
JP2022113039A5 JP2022113039A5 (ja) 2023-05-18
JP7440870B2 true JP7440870B2 (ja) 2024-02-29

Family

ID=82494800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021009134A Active JP7440870B2 (ja) 2021-01-22 2021-01-22 2つの変数により定まるデータの解析方法

Country Status (3)

Country Link
US (1) US20220237261A1 (ja)
JP (1) JP7440870B2 (ja)
CN (1) CN114878735B (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016057065A (ja) 2014-09-05 2016-04-21 株式会社分光科学研究所 分光定量方法、分光定量装置及びプログラム
JP2016130727A (ja) 2015-01-08 2016-07-21 パナソニックIpマネジメント株式会社 撮像装置
WO2017077618A1 (ja) 2015-11-05 2017-05-11 株式会社島津製作所 クロマトグラフ質量分析データ処理方法及び処理装置
JP2018004252A (ja) 2016-06-27 2018-01-11 株式会社テクノスルガ・ラボ かび毒の分析方法及びかび毒の分析装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2455136C (en) * 1992-02-12 2009-04-14 The Perkin Elmer Corporation Standardizing and calibrating a spectrometric instrument
US5644503A (en) * 1994-03-28 1997-07-01 Hitachi, Ltd. Methods and apparatuses for analyzing multichannel chromatogram
JP4686451B2 (ja) * 2003-04-28 2011-05-25 セルノ・バイオサイエンス・エルエルシー 多次元分析の計算方法およびシステム
EP1827657B1 (en) * 2004-10-28 2015-04-22 Cerno Bioscience LLC Qualitative and quantitative mass spectral analysis
CA2648038A1 (en) * 2006-04-05 2007-10-11 National Research Council Of Canada Blind extraction of pure component mass spectra from overlapping mass spectrometric peaks
JP5068228B2 (ja) * 2008-08-04 2012-11-07 日本電信電話株式会社 非負値行列分解の数値計算方法、非負値行列分解の数値計算装置、プログラムおよび記憶媒体
DE102017008885B4 (de) * 2017-09-22 2024-04-25 Bruker Daltonics GmbH & Co. KG Massenspektrometrisches Verfahren und MALDI-TOF-Massenspektrometer
JP2019133323A (ja) * 2018-01-30 2019-08-08 日本電信電話株式会社 分析装置、分析方法及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016057065A (ja) 2014-09-05 2016-04-21 株式会社分光科学研究所 分光定量方法、分光定量装置及びプログラム
JP2016130727A (ja) 2015-01-08 2016-07-21 パナソニックIpマネジメント株式会社 撮像装置
WO2017077618A1 (ja) 2015-11-05 2017-05-11 株式会社島津製作所 クロマトグラフ質量分析データ処理方法及び処理装置
JP2018004252A (ja) 2016-06-27 2018-01-11 株式会社テクノスルガ・ラボ かび毒の分析方法及びかび毒の分析装置

Also Published As

Publication number Publication date
CN114878735A (zh) 2022-08-09
CN114878735B (zh) 2024-01-23
US20220237261A1 (en) 2022-07-28
JP2022113039A (ja) 2022-08-03

Similar Documents

Publication Publication Date Title
US9576778B2 (en) Data processing for multiplexed spectrometry
US9514922B2 (en) Mass analysis data processing apparatus
EP2295958B1 (en) Mass analysis data analyzing method and mass analysis data analyzing apparatus
US10121644B2 (en) Mass spectrometer and mass spectrometry method
JP6176334B2 (ja) 質量分析方法、質量分析装置、及び質量分析データ処理プログラム
EP2741223A1 (en) Use of neutral loss mass to reconstruct MS-2 spectra in all-ions fragmentation
US11031226B2 (en) Mass spectrometer and mass spectrometry
JP6737396B2 (ja) 質量分析装置及びクロマトグラフ質量分析装置
EP2924712B1 (en) Method and apparatus for increased ion throughput in tandem mass spectrometers
JP6702501B2 (ja) タンデム型質量分析装置及び該装置用プログラム
US10613062B2 (en) Mass spectrometer
JP7440870B2 (ja) 2つの変数により定まるデータの解析方法
US10267765B2 (en) Wideband isolation directed by ion mobility separation for analyzing compounds
US9983180B2 (en) Mass spectrometry method, chromatograph mass spectrometer, and program for mass spectrometry
JP7460988B2 (ja) クロマトグラフ質量分析装置
US10739320B2 (en) Mass spectrometer
WO2019043650A1 (en) CALCULATION OF DYNAMIC BALANCING TIME TO IMPROVE DYNAMIC MS / MS RANGE
JP6521041B2 (ja) 質量分析データ処理装置及び質量分析データ処理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230509

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240207

R150 Certificate of patent or registration of utility model

Ref document number: 7440870

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150