CN103650100A

CN103650100A - 计算机辅助结构识别

Info

Publication number: CN103650100A
Application number: CN201280032300.7A
Authority: CN
Inventors: A·克诺尔; A·蒙赫; M·施图贝尔; P·巴斯比昔
Original assignee: Philip Morris Products SA
Current assignee: Philip Morris Products SA
Priority date: 2011-04-28
Filing date: 2012-04-30
Publication date: 2014-03-19
Also published as: EP2710621A1; US20140297201A1; WO2012146787A1

Abstract

本发明涉及一种用于在GC×GC（2维）质谱分析法中分析从样本中得到的质谱数据的方法，包括：（a）将分析物的质谱数据与数据库中已知结构的候选化合物的质谱数据进行比较；（b）基于质谱数据的相似性识别来自库的多个候选化合物；（c）对于每个候选化合物，利用基于多个分子描述符的定量模型预测至少一个分析性质的值；以及（d）基于在步骤（c）中预测的值以及对于分析物的分析性质的测量值计算对于每个候选化合物的匹配得分。

Description

计算机辅助结构识别

技术领域

本发明涉及一种用于根据从样本中得到的质谱和色谱数据识别化合物的自动的计算机辅助方法。具体而言，本发明涉及用于利用二维气相色谱-质谱分析法（GC×GC-MS）识别化合物的方法，以及用于使从该方法中得到的质谱和色谱数据进行自动说明的程序。

背景技术

质谱分析法为一种分析工具，其能够用于通过根据化学化合物的质荷比（m/z）检测电离的化合物和碎片来确定化学化合物及其碎片的分子量。分子离子通过由化学化合物诱导电荷的损失或增加而产生，例如经由电子发射、质子化或去质子化。碎片离子通过碰撞诱导解离或能量诱导解离产生。结果数据通常表示为谱，具有在x轴上为m/z比以及在y轴上为离子丰度的图。因此，该谱示出了在被分析的离子群中m/z值的分布。这种分布为给定化合物的特征。因此，如果样本为纯化合物或仅包含少许化合物，质谱分析法能够揭示出样本中化合物的识别。

复杂样本通常包含过多的化学化合物使得仅通过质谱分析法不能对其进行有意义地分析，这是由于不同化学化合物的电离可能造成具有相同m/z值的离子。样本包含的化学化合物越多，则越有可能从不同化合物产生相同m/z值的离子。因此，在质谱分析法之前复杂样本通常例如通过液相色谱法（LC）、气相色谱法（GC）或者毛细管电泳而在一定程度上被溶解。对于挥发性化合物的分析，气相色谱法和质谱分析法（GC-MS）的结合是有利的。一些电离方法在GC中是可行的，一种最为普遍的是电子碰撞（EI），其中通过利用由单纤维发射的电子轰击来电离分子。

在样本分离步骤（色谱分析法）期间，样本中的化学化合物基于其在样本分离***（色谱柱）中停留多长时间来进行分离。一旦化学化合物离开样本分离***，其进入质谱仪***中，并且如上所述地开始电离/离子分离/检测程序。对于每个化合物，化合物产生在质谱中的信号之前其保持在样本分离***中的时间为其结构的函数并且被称为保留时间（RT）。但是，保留时间还特定于所使用的仪器，并且特别是气相色谱仪中的色谱柱规格。

在没有对在其上首先测量RT的仪表的精确复制的情况下，随后测量的相同样本的RT可能不匹配在初始色谱分析法或计算机化方法文件（包括校准表和事件表）中规定的RT并且会导致误识别峰值。一种解决方案是利用保留指数（RI）或Kovats指数（KI）的“相对保留”方法，其规避了与由于仪器到仪器或色谱柱到色谱柱的变化导致的RT中的差异相关的问题。已知在现有技术中基于分子结构和相关特征预测Kovats指数（KI）的模型。基于这些因素预测KI的模型称为定量结构性质关系（QSPR）模型。例如，参见Mihaleva等人于2009年发表的Bioinformatics 6:787-794；Garjani-Nejad等人于2004年发表的Journal ofChromatography A,1028:287-295；Seeley和Seeley于2007年发表的Journal ofChromatoraphy A,1172:72-83。这种类型的程序将检测的峰值的实际保留时间转换为对多个参考化合物归一化的数字。这对于将保留时间与数据库和库进行比较以识别个体成分是特别有用的。这种库提供大量的已知化合物，并且通过GC-MS实验得到的数据和在库中的化合物之间的匹配能够帮助识别化合物。

为了提高GC-MS的分辨率，可以增加GC的“第二维度”，例如通过结合GC色谱柱与第二GC色谱柱（通常称为2DGC-MS或GC×GC-MS，并且在此与术语GC×GC-TOF或GC×GC-TOF-MS互换使用）。参见Venkatramani和Phillips于1993年9月发表的J.Microcolumn 5:511-516。感兴趣的峰值从第一色谱柱转移到第二色谱柱以进行进一步分离，然后被馈入质谱分析法***中。但是，实际上，GC×GC-MS依靠与化合物库的结构相关性以进行未知化合物的识别。最广泛用于结构识别的化合物库（例如NIST库）包含对于仅9%的具有质谱数据的化合物的保留指数信息。RI或KI数据的使用允许源自与库数据进行比较的结构分配得以改进。但是，为了达到未知化合物的识别中可接受的置信水平，分配必须由使用者说明并且通过质谱分析法与参考标准进行比较以确认提出的结构。这种方法具有许多的缺点，包括需要手动重复该程序，这是低效率的；Kovats指数库的大小受限；由于需要手动干预，因而缺少标准化；全部这些造成了在识别程序中置信水平的降低。

在识别化合物结构的传统方法中，通过气相色谱-电子碰撞离子化-质谱分析法（GC-EI-MS）产生的质谱数据与商用版的质谱数据库进行比较（图1）。利用该程序，识别仅具有较低的置信水平。为了提高置信水平，执行质谱库检索的手动验证和说明，并且将实验的保留时间或Kovats指数与数据库录入（例如，NIST保留指数库）进行比较。最后，对于化合物识别，需要利用参考标准进行确认。但是，由于这是十分耗资且耗时的事实，目前仅对于有限数目的化合物执行了该方法。

因此，对于用于说明GC-MS数据的改进的程序存在大量的需求，该程序将允许在结构识别中更高的自动化水平以及在结果中更高的置信水平。

发明内容

在第一方面中，提供了一种用于在二维气相色谱-质谱分析法（GC×GC-MS）中分析从样本中得到的质谱数据的方法，包括：

（a）将从包括分析物的样本中得到的质谱数据与库中已知结构的候选化合物的质谱数据进行比较；

（b）基于质谱数据的相似性识别来自库的多个候选化合物；

（c）对于每个候选化合物，利用基于多个分子描述符的定量模型预测至少一个分析性质的值；以及

（d）对于每个候选化合物，基于在步骤（c）中预测的值和对于分析物的分析性质的测量值计算匹配得分。

在该方法的各个实施方案中，在步骤（c）之中，分析性质得分源于候选化合物的分析性质的预测值和分析物的测量值。在步骤（d）中，对于分析物的分析性质的测量值可以是如通过在软件中的算法确定的谱相似值以查询数据库，例如通过NIST提供的那些。候选化合物的分析性质的预测值根据基于多个分子描述符的定量模型计算。因此，在一个实施方案中，步骤（c）的定量模型能够通过下面的步骤建立：

（i）提供已知结构的训练化合物的集合和已知结构的测试化合物的集合，并且选择性地提供已知结构的验证化合物的集合；

（ii）对于每个训练化合物、每个测试化合物以及每个验证化合物生成分析性质的测量值；

（iii）对于每个训练化合物，基于化学结构和性质计算分子描述符的集合；

（iv）通过利用基因算法从用于分析性质的定量模型中的分子描述符的集合中选择分子描述符的集合；

（v）利用选择的分子描述符的集合生成多个提出的定量模型；

（vi）通过对于每个测试化合物计算分析性质的预测值来估计每个提出的定量模型；

（vii）根据对于每个测试化合物的分析性质的测量值和预测值的均方根误差（RMSE）和/或平方相关（r²）选择定量模型；以及可选地

（viii）根据在对于每个验证化合物的分析性质的测量值和预测值的平方相关（r²）选择定量模型。

在各个实施方案中，在步骤（iv）中使用的基因算法优选地包括：

（p）在机器学习算法（例如但不限于多元线性回归、k-最近邻法或支持向量回归）中利用两个或多个分子描述符的结合生成多个候选方案；

（q）根据基于训练化合物的交叉验证平方相关（q²）的适应度函数为每个候选方案记分；

（r）通过重组和/或改变产生改进的交叉验证平方相关的候选方案来生成新的候选方案；以及

（s）有限次数地重复步骤（q）和（r），例如，生成10至50次。

通过不同的机器学习算法生成的候选方案能够通过比较来识别表现最佳的方案。

当GC×GC-MS分离***（例如色谱柱规格、温度曲线、流动相）或质谱分析***的特定设置改变时，至少执行一次对于一个或多个分析性质的定量模型的建立。在已经对于实验设置建立定量模型之后，每次分析由该特定设置生成的分析物的数据时没有必要执行同样的建立。

每个分析性质的函数（分析性质得分）优选作为二次函数计算，其中对于分析性质P，

y=1/(-((exp_p-(exp_p-(n1×SEP)))×exp_p-(exp)p+(n1×SEP)))))×((pre_p-(exp_p-(n1×SEP)))×(pre_p-(exp_p+(n1×SEP))))。

Exp_p=由实验得到的性质的测量值，pre_p=性质的预测值，以及SEP=标准误差或预测。如果预测的和由实验得到的测量值是相同的，则方程式=1。利用Microsoft Excel2003的STEXY函数，根据公式计算SEP：

\sqrt{\frac{1}{n - 2} [Σ {(y - \overset{&OverBar;}{y})}^{2} - \frac{{[Σ (x - \overset{&OverBar;}{x}) (y - \overset{&OverBar;}{y})]}^{2}}{Σ {(x - \overset{&OverBar;}{x})}^{2}}]}

其中x为样本的值，y为对于样本的x的预测值，以及n为样本的数目。

在该方法的步骤（d）中，从质谱数据库比较中得到的谱相似值能够用于生成数值，其中组合谱相似值和分析性质得分。该数值在此处被称为匹配得分，也被称为附图中的计算机辅助结构识别（CASI）得分。在优选的实施方案中，匹配得分利用双曲线方程进行计算。本发明的概念不同于用于当前可行方法中的那些，其中分析性质值被用作过滤器以选择或不选候选化合物。

可选地，对于与样本相关的每个查询，最高匹配得分和次高匹配得分能够通过将最高得分除以次高得分以生成判别函数来进行比较，其中在两个得分之间的差异越大，产生的判别函数越大。判别函数越大，能够分配给每个查询的置信得分越高。置信得分能够通过用最高匹配得分乘以判别函数值进行计算。

在该方法的优选实施方案中，步骤（c）包括对于每个候选化合物的多个分析性质的预测值。在一个实施方案中，匹配得分得自从质谱数据库比较中得到的谱相似性以及至少两个利用多个分子描述符获得的分析性质的函数。在另一个实施方案中，匹配得分得自从质谱数据库比较中得到的谱相似值以及分析性质得分，其中分析性质为通过利用多个分子描述符获得的相对的第二维度保留时间。

在本发明中有用的优选分析性质包括Kovats指数、沸点以及相对的第二维度保留时间（2D rel RT）。如果用于本发明的方法中的预测分析性质包括Kovats指数和2D rel RT，则Kovats指数和相对的2D保留时间优选利用不同的分子描述符进行计算。优选地，使用全部三个优选的分析性质。

化合物的Kovats指数利用包括多个系数的线性方程（每个系数乘以分子描述符的值）进行预测。该方程优选通过利用测试数据集合和基因算法得到以从多个可能的分子描述符中选择分子描述符，以及通过利用线性回归或k最近邻学习算法得到以将选择的分子描述符与待预测的值相关。

化合物的沸点能够基于实验确定的Kovats指数进行预测。候选化合物的沸点根据其个体化学结构，利用现有技术中已知的软件包进行计算，例如但不限于来自高级化学发展有限公司（ACD/Labs，多伦多，加拿大）的ACD/PhysChem。

在现有技术已知的方法中，第二维度保留时间为绝对的第二维度保留时间，并且不存在用于计算相对的2D保留时间的已知可行方法。对于开发相对模型的挑战在于定义对于所有第二维度峰值可访问的参考***。这个问题通过参考基于参考标准的集合的假设参考***得以解决，例如氘化正构烷烃。氘化或同位素标记的化合物能够用于参考***中，用于控制保留时间或内部基于标准的量化。虽然其他物质能够用作参考化合物，但是正构烷烃优选用作生成假设2D-RT参考***的一类物质，这是因为这类化合物不具有任何已知的与第二维分离***的色谱柱中的固定相的复杂相互作用。因此，该参考***调节***偏移（systemic shifts）（例如不同的色谱柱长度和气流），但是不调节分析物-固定相移，因为这些偏移是由于化合物的独特性质。因此关于调节完整的化合物空间的稳定性，调整***偏移是优选的方法。在本发明的一个实施方案中，GC×GC-MS的第一维度在非极性环境中分离，而第二维度在极性环境中分离。

根据本发明，化合物的相对的第二维度保留时间有利地计算为相对于假设参考标准（例如，正构烷烃）的保留时间，其保留时间得自基于一系列参考标准（例如，氘化正构烷烃）的回归函数。化合物的相对的第二维度保留时间如下进行计算：

其中2D-rel RT_comp为化合物的相对的第二维度保留时间；abs2D RT_comp为测量的化合物的绝对的第二维度保留时间；以及2D RT_假设参考为对于在参考标准化合物1和化合物2之间洗脱的每个化合物进行计算，例如其能够为氘化正构烷烃：

其中dA1和dA2为参考标准1和参考标准2（例如，氘化正构烷烃1和氘化正构烷烃2）；以及1DRT为各个分子的第一维度保留时间。

但是，在上述方法中，候选化合物的绝对的和相对的第二维度保留时间均不可用。为了将相对的第二维度保留时间用作分析性质，利用训练化合物、测试化合物和可选地利用验证化合物的集合建立定量模型。

在本发明的第二方面，提供一种用于在GC×GC-MS（2维气相色谱法联合质谱分析法）中计算化合物的相对的第二维度保留时间的方法，包括下列步骤：

（a）基于给出参考保留时间的范围的假设保留时间的氘化正构烷烃的函数定义参考***；

（b）将对于已知分子结构的多个训练化合物的绝对的第二维度保留时间的测量值转换到参考***中，以计算对于训练化合物的相对的第二维度保留时间；

（c）利用对于训练化合物的相对的第二维度保留时间以基于多个分子描述符生成相对的第二维度保留时间的定量结构性质关系模型；

（d）利用定量模型来预测化合物的相对的第二维度保留时间。

相对的第二维度保留时间的定量模型通过下列步骤建立：

（i）提供已知结构的训练化合物的集合和已知结构的测试化合物的集合，并且可选地提供已知结构的验证化合物的集合；

（ii）对于在特定实验设置中的每个训练化合物、每个测试化合物以及每个验证化合物生成绝对的第二维度保留时间的测量值，并且将这些值转换到参考***中以计算相对的第二维度保留时间；

（ii）对于每个训练化合物，基于化学结构和性质计算分子描述符的集合；

（iii）通过利用基因算法从用于相对的第二维度保留时间的定量模型中的分子描述符的集合中选择分子描述符的集合；

（iv）利用选择的分子描述符的集合生成多个提出的定量模型；

（v）通过对于每个测试化合物计算相对的第二维度保留时间的预测值来估计每个提出的定量模型；

（vi）根据对于每个测试化合物来自步骤（iv）的计算值和相对的第二维度保留时间的预测值上的均方根误差（RMSE）和/或平方相关（r²）选择定量模型；以及可选地

（vi）根据对于每个验证化合物的第二维度保留时间的计算值和预测值的平方相关（r²）选择定量模型。

优选地，在本发明的这个方面中使用的基因算法包括：

有利地，在本发明的第一方面中使用的相对的第二维度保留时间通过本发明的第二方面的方法进行预测。

可选地，基于由GC×GC-MS生成的色谱和质谱数据从本发明的计算机辅助方法中得到的结果能够通过利用从气相色谱-大气压化学电离-质谱分析法（GC-APCI-MS）中得到的精确的质量数据而进一步加强。由两种技术生成的数据能够通过利用基于附加的氘化脂肪酸甲酯的参考***的复制（duplicate）保留指数***进行匹配。

在第三方面，本发明提供用于确认测试化合物与在二维气相色谱质谱分析法的数据库中识别的候选化合物的匹配的方法。该方法包括通过气相色谱法通过大气压化学电离和飞行时间质谱法（GC-APCI-TOF-MS、GC-APCI-TOF、或GC-APCI-MS）的相同样本的分析，并且比较理论单一同位素质量与通过GC-APCI-TOF-MS测量的精确质量。用于确定的方法的先决条件是匹配两个不同的色谱***的保留指数。例如，来自基于氘化正构烷烃的GC×GC-TOF-MS分析的Kovats指数***能够与基于氘化脂肪酸甲酯（FAME）的另一个保留指数***匹配。使用基于氘化FAME的***是因为氘化正构烷烃无需通过GC-APCI-TOF-MS的离子源进行电离。

建立Kovats指数***通过：用于基于氘化正构烷烃的GC×GC-TOF-MS***的Kovats指数***的生成；利用GC-GC-TOF-MS***的氘化FAME的分析和FAME的Kovats指数的确定；利用GC-APCI-TOF-MS***的氘化FAME的分析和基于氘化FAME的用于GC-APCI-TOF-MS***的保留指数***的生成；以及通过利用GC×GC-TOF-MS***的氘化FAME的Kovats指数的基于氘化FAME的用于GC-APCI-TOF-MS***的保留指数***与基于正构烷烃的Kovats指数***的桥接。

因此，本发明提供的方法包括下述步骤：

（a）测量在GC×GC-TOF-MS中相对于参考化合物的第一集合的分析物的Kovats指数；

（b）测量在GC×GC-TOF-MS中相对于参考化合物的第一集合的参考化合物的第二集合的Kovats指数；

（c）测量在GC-APCI-TOF-MS中参考化合物的第二集合的绝对保留时间；以及

（d）利用在步骤（b）中测量的参考化合物的第二集合的Kovats指数以通过线性回归导出用于将在步骤（a）中测量的分析物的Kovats指数转换为在GC-APCI-TOF-MS中估计的分析物的绝对保留时间的函数。

对于分析物在参考化合物的第二集合的两个相邻的参考化合物之间进行检测的每个保留时间范围，步骤（d）的函数通过线性回归导得。该函数为：

在GC-APCI-TOF-MS中分析物RT=a（在GC×GC-TOF-MS中的分析物KI）+b

其中a为系数，以及b为对于特定时间范围的常量。

该方法进一步包括对于每个分析物比较分析物的分子量与各自候选化合物的分子量。

在一个实施方案中，该方法进一步包括：

（e）测量在GC-APCI-TOF-MS中分析物的绝对保留时间；

（f）利用在步骤（d）中计算的函数以将在步骤（e）中测量的绝对保留时间转换为对于分析物在GC-APCI-TOF-MS中计算的Kovats指数；以及

（g）比较在步骤（f）中计算的Kovats指数与从步骤（a）中测量的Kovats指数。

优选地，参考化合物的第一集合为氘化正构烷烃。优选地，参考化合物的第二集合为氘化脂肪酸甲酯。

附图说明

现在将参考所附附图对本发明的优选实施方案进行描述，其中：

图1示出了利用GC-MS的用于化合物结构识别的传统方法（是：不存在识别为中级置信的化合物；否：存在识别为中级置信的化合物）；

图2示出了利用包括使用GC-APCI-MS来确认结果的GC×GC-MS***的用于化合物结构识别的CASI方法；

图3示出了用于构建Kovats指数和相对的第二维度保留时间模型的程序；

图4显示了对于验证化合物的集合的Kovats指数的预测的和实验的相关值的相互关系；

图5显示了对于验证化合物的集合的从Kovats指数中预测的沸点（BP）和通过ACD/Labs PhysChem软件从化学结构中预测的BP之间的相互关系；

图6显示了对于GC×GC-MS***第二色谱柱保留时间模型的外部测试集合的预测保留时间和实验保留时间之间的相互关系；

图7显示了理论得分模块的贡献方程（例如，拟合KI……）；

图8显示了通过本发明的计算机***表示的对于糠醛的CASI结果；

图9显示了对于71个待识别的质谱的正确命中的位置（即，结构候选）；

图10显示了根据本发明的计算机***的实施方案；

图11为显示对于CASI和NIST检索的真/假正和真/假负率的列联表；

图12显示了CASI软件构架的优选实施方案；

图13显示了对于每个结构显示以识别默认选择的具有最高得分的结构候选的网站界面输出；以及

图14显示了网站界面输出，其中使用者能够改变选择。

图15显示了利用对于GC×GC-TOF的第二维度的相对保留时间模型的再现性（N=9）的结果。

图16显示了对于选择的相对2DRT的平方相关为0.855。在0截距处的平方相关符合为0.853的值。

图17显示了对于验证集合的正确命中的CASI得分的分布以及对于176个未知化合物的集合的默认选择的命中（最高CASI得分）的分布。

图18显示了对于验证集合的正确命中的NIST匹配因子的分布以及对于176个未知化合物的集合的具有最高NIST匹配因子的命中的分布。

具体实施方式

除非另外定义，本文使用的全部技术和科学术语具有本发明所属技术领域的一个普通技术人员的通常理解相同的含义。虽然在实际中或在本发明的测试中能够使用与本文所描述的相似或等同的任意方法、设备和材料，但是现在描述的是优选的方法、设备和材料。

在本说明书中引用的所用出版物（包括专利公开）表示本发明所属技术领域中普通技术人员的水平，并且通过引用将它们全部结合于此。

在本发明中提供了用于分析GC×GC-MS数据的高吞吐量计算机辅助***，其被称为计算机辅助结构识别（CASI）。CASI***使化合物结构的识别加快且标准化，同时保证了再现性，并且使得质谱至正确化合物的正确分配具有更高的置信度。CASI基于结构候选方案的产生，通过首先查询质谱数据库，随之通过利用得自于如图2中描述的色谱和结构数据的正交信息对匹配进行改进。

首先，在资料库（data library）或数据库中搜索质谱，目标是具有相似质谱的候选化合物。例如，国家标准和技术协会（NIST，盖瑟斯堡，马里兰州，美国）的算法MS搜索和NIST08或WILEY第九版。能够使用质谱数据库，其为每个候选结构产生相应的匹配因子。资料库的其他示例包括但不限于：NIST/EPA/NIHMass Spectral Library；Wiley Registry of Mass Spectral Data，第九版，F.W.McLafferty,Wiley；Mass Spectra of Volatile Compounds in Food，第二版；Central Institue ofNutrition Food Research，Wiley-VCH；Mass Spectral Library of Drugs,Poisons,Pesticides,Pollutants and their Metabolites2007,Hans H.；Pfleger Maurer,Karl；Weber,Armin A；Mass Spectra of Geochemicals,Petrochemicals and Biomarkers，第二版，J.W.De Leeuw；Mass Spectra of Organic Compounds,Alexander Yardov。Mass Spectraof Androgens,Estrogens,and other Steroids2010,M.K.Parr,G.Opfermann,W.

H.L.J.Makin。其次，已经研发了用于候选化合物的定量结构性质关系（QSPR）模型，其预测每个候选化合物的分析性质，以便提高在匹配和化合物识别中的置信度。通过利用这些模型预测两个分析性质，用于第一维度（1D）分离的Kovats指数和用于第二维度（2D）分离的相对保留时间。优选地，利用不同的分子描述符来计算Kovats指数和相对的2D RT。另外，第三分析性质，候选化合物和分析物的沸点。沸点得自于测量的分析物的1D RT并且被匹配以计算地预测候选化合物的沸点。沸点能够通过现有技术中已知的软件进行计算，例如ACD/PhysChem软件。最后，CASI***对于每个候选化合物组合NIST MS搜索的匹配结果和与在QSPR模型中预测的分析性质有关的参数以产生也被称为CASI得分的匹配得分（图2）。通过保证绝对得分值超过阈值来最小化假正识别。可选地，对于每个识别的化合物计算判别能力以测量分配的置信度。可选地，提出的化学结构通过GC-APCI-TOF进行确认。这些结构方案的理论单一同位素质量能够与通过GC-APCI-TOF-MS测量的准确质量进行比较。由两种技术GC×GC-TOF和GC-APCI-TOF-MS生成的保留指数数据能够通过利用氘化正构烷烃以及用于GC×GC-TOF的氘化脂肪酸甲酯（FAME）和仅用于GC-APCI-TOF-MS的氘化FAME的复制保留指数***进行匹配。对于GC×GC-TOF的情况，复制保留指数***用于将Kovats指数（正构烷烃）转化为FAME保留指数。为了在仪器之间进行比较，能够使用FAME保留指数***。

CASI***

图10为用于以GC×GC质谱分析法分析质谱数据的计算机***的框图。该***包括网站界面1000、匹配得分生成器引擎2100、访问结构候选数据库2210的结构候选搜索引擎2200、描述符选择和模型生成引擎2300以及描述符计算引擎2400。该***进一步包括访问名称-结构数据库3200的化学结构生成器3100。***的组件可以为在单个服务器上操作的软件应用程序或者可以分布在经由包括无线通信***的网站界面通信的多个计算***上。但是，在图10所示的实施方案中，匹配得分生成器引擎2100、结构候选搜索引擎2200、描述符选择和模型生成引擎2300以及描述符计算引擎2400为在匹配得分服务器2000上操作的相互关联的软件应用程序，结构候选数据库2210也储存在匹配得分服务器2000上。化学结构生成器3100和名称-结构数据库3200在第二服务器3000上操作，尽管它们也可以在匹配得分服务器2000上操作。

输入数据100经由网站界面1000输入。输入数据可以为JDX文件的形式，并且包括来自于样本的质谱，并且进一步包括对于分析性质（例如Kovats指数数据）的实验值以及2D保留时间数据。网站界面1000可以经由SOAP（简单对象访问协议）与匹配得分生成器引擎2100进行通信。

计算机***以两种模式操作，训练模式和分析模式。训练模式可以在任意时刻运行，但是在每次气相色谱-质谱仪实验设置改变时其必须以训练模式运行计算机***。在训练模式中，输入数据为对于已知化合物的集合的质谱仪数据和例如Kovats指数的分析性质的测量值。

对于每个已知化合物，以计算机可读形式的化学结构通过访问名称-结构数据库3200的化学结构生成器3100生成。化学结构生成器3100可以为Pipeline Pilot7.5.1软件，并且数据库3200可以是ACD数据库。

对于所有已知化合物，分子描述符通过描述符计算引擎2400进行计算，其可以为Dragon软件包。已知化合物被分为训练集合和测试集合。对于训练集合，描述符选择和模型生成引擎2300（其可以是RapidMiner软件）利用前向选择和如上所述的基因算法选择预测描述符的集合，以构建用于预测对于训练化合物结构的分析性质（例如Kovats指数或2D相对保留时间）的预测值的预测模型。预测模型利用测试集合进行验证（如上更具体地描述的），并且选择模型。

在分析模式中，输入数据100为来自于样本的质谱分析数据。结构候选搜索引擎2200通过比较来自于样本的质谱数据和在数据库2210中的质谱数据而在结构候选数据库2210中进行搜索，以基于质谱数据与数据库2210中数据的相似性生成大量的结构候选化合物。选择的候选化合物例如可以是前100个匹配。搜索引擎可以为NIST MS搜索算法，并且数据库2210可以是NIST 08和WILEY第九版质谱数据库。结构候选的列表对于使用者为可用的，以经由网站界面1000进行查阅。每个候选具有表示样本的质谱数据与对于候选的在数据库2210中的数据的相似度的匹配因子。对于每个结构候选，匹配因子通过结构候选搜索引擎2200生成，并且还可以经由网站界面1000向使用者显示。

对于每个结构候选，以计算机可读形式中的化学结构通过访问名称-结构数据库3200的化学结构生成器3100生成。化学结构生成器3100可以为Pipeline Pilot7.5.1软件，并且数据库3200可以是ACD数据库。

对于所有的结构候选，分子描述符通过描述符计算引擎2400进行计算，其可以为Dragon软件包。

通过描述符选择和模型生成引擎2300在训练模式中生成的模型之后用于预测对于候选结构的分析性质（例如Kovats指数或2D相对保留时间）。描述符选择和模型生成引擎2300为匹配得分生成器引擎2100提供模型，匹配得分生成器引擎2100基于模型计算一个或多个分析性质的预测值。预测值可以经由网站界面1000传达至使用者。

匹配得分生成器引擎2100基于由结构候选搜索引擎2200产生的匹配因子、通过由描述符选择和模型生成引擎2300提供的模型预测的分析性质的预测值以及包含在输入数据100中的样本的分析性质的测量值为每个候选化合物计算匹配得分。匹配得分生成器引擎2100可以根据上述方法计算CASI得分。匹配得分还可以经由网站界面1000传达至使用者。

网站界面1000可以以表格的形式向使用者显示结果，列出结构候选、由结构候选搜索引擎2200生成的匹配因子、由模型生成引擎2300生成的分析性质的预测值以及匹配得分。表格可以分类以通过结构候选的匹配得分将结构候选排名。

一旦在训练模式中通过描述符选择和模型生成引擎2300已经生成用于预测分析性质的模型，假设并没有改变实验设置，则不需要为输入数据的新集合（即，用于识别的新样本）以及结构候选的新集合再次生成模型。如果改变了实验设置，那么必须通过在训练模式中运行***来生成新的模型。因此，描述符选择和模型生成引擎2300为匹配得分生成器2100提供所选择的模型，在分析模式中，匹配得分生成器2100将模型应用于结构候选以生成对于分析性质的预测值。通过这种方法，在分析模式中，不需要访问描述符选择和模型生成引擎2300。对于新模型的生成，在训练模式中只需要访问描述符选择和模型生成引擎2300。因此描述符选择和模型生成引擎2300可以设置在单独的计算设备上，例如，仅在训练模式中访问的服务器。

图12中示出了软件架构的优选实施方案。

Oracle Application Express或者类似的软件能够用于网站界面1000的开发。例如，SOAP界面允许Oracle Application Express与匹配得分生成器引擎2100通信，其以Java开发并且在Tomcat中运行。RapidMiner可以用作描述符选择和模型生成引擎2300并且能够通过Java API集成。Java可以用来实现匹配得分生成器引擎2100，这主要是由于RapidMiner可以容易地集成在Java中。

结构候选搜索引擎2200包括用于搜索资料库（例如，通过命令行集成的NISTMS搜索）的软件。化学结构生成器3100可以为Pipeline Pilot并且其可以与Java API集成。其能够用于将命中的名称转换为结构（利用ACD/Labs名称-结构和与ChemBL的互联网连接），以使结构标准化，计算沸点（ACD/Labs PhysChem Batch）以及将数据从CASI移动至化学注册数据库。描述符计算引擎2400包括例如Dragon的软件包并且通过命令行集成。除了这些软件模块之外，标准Java API Log4J用于记录错误消息，Hibernate可以用于将对象映射至Oracle数据库，并且JUnit用于单元测试。

图13和图14示出了网站界面1000的输出。对于给定的分析，利用具有最佳得分的结构候选表示所有待识别的化合物（图13）。可以浏览结构候选并且可以改变选择（图14）。对于待识别化合物（查询，在本案例中1-戊烯，2,3-乙烷）列出每个结构候选（命中）以及预测性质。默认选择具有最佳得分的一个。使用者能够改变选择并且能够增加评论，该评论将随着选择的结构***到化学注册***中。

下面通过两个非限制性示例具体描述本发明的方法。两个示例使用不同数目的化合物用于训练、测试以及验证。应该理解，在下面的示例中得到的系数和相关联的分子描述符说明了该方法，并且部分取决于资料库、实验设置、化合物、在设置模型中所使用的化合物的数目。

示例1

用于预测分析性质的模型

在相同的原理下构建用于CASI的开发的全部QSPR模型。已知结构的化合物被随机地分为训练集合（在该示例中为90个化合物）和测试集合（在该示例中为35个化合物）。另外，在该示例中，35个不同的化合物被用作验证集合。非限制性地，50到500个化合物可以用于训练。可以选择在集合之间的化合物的不同分布用于模型的建立。表示为计算机可读格式的化学结构利用现有技术中已知的软件（在本案例中为Pipeline Pilot 8.0.1（Accelrys股份有限公司，圣地亚哥，加利佛尼亚，美国））进行准备。在准备期间，利用预定义的列表从化合物的结构中脱盐，保留最大的碎片，主要成分去质子化并且使酸质子化，使官能团的电荷标准化，增加氢，生成规范的互变异构体，并且生成2D坐标。然后移除复制结构。

用于所有化合物的分子描述符通过现有技术中已知的软件进行计算，在本案例中为Dragon（Talete科学研究实验室，米兰，意大利）。在Roberto Todeschini和Viviana Consonni，WILEY-VCH于2009在Series of Methods and Principles inMedicinal Chemistry-41卷（Eds.R.Mannhold,H.Kubinyi,H.Timmerman）的“Molecular Descriptors for Chemoinformatics”中可以找到分子描述符的全部描述。选择所有的二维分子描述符（对于在本示例中使用的软件版本为总共2489个）以进行计算。与其他不同描述符在大于等于0.97处相关的描述符是多余的且不被选择的，321个剩余描述符用于接下来的步骤。

为了构建预测模型，在RapidMiner 5（Rapid-I股份有限公司，多特蒙德，德国）中选择预测描述符的集合。也可以使用在现有技术中已知的其他类似的数据挖掘软件平台。已经尝试了利用前向选择和基因算法的一些分子描述符选择实验。前向选择的性能的是可以接受的，但是该方法具有陷入局部极小值的不便。类似于基因算法的随机方法通常性能更好。出于这个原因，基因算法用于选择分子描述符。

在本发明的***中的基因算法的实施使用轮盘法选择和双点交叉。被称为“染色体”的分子描述符的每个串包含预定数目的“基因”，并且每个基因为描述符编码。通常，我们选择2到15个描述符。基因不是二元的，但是包含相应的描述符在列表中的位置。这允许使用最小数目的描述符。适应度函数在RapidMiner程序的“选择属性”节点中设定描述符的子集，执行该函数并且得到训练集合的均方根误差作为适应得分。突变率设定为0.1，每次生成的染色体的数目设定为20至40（优选为30），并且生成的数目被设定为100至300（优选为200）。在每次生成中存活两个最佳的染色体。

在利用Rapidminer的示例性工作流程中，数据准备包括选择属性的子集的节点构成，利用Z变换进行归一化，将数据的分离设定为训练集合（75%）和测试集合（25%）。然后线性回归应用在训练集合上，将学习模型既应用在训练集合上也应用在测试集合上。另外在训练集合上执行留一法交叉验证。各种不同的学习算法用于构建用于KI和相对的第二维度保留时间的预测的模型。使用各种学习算法，例如但不限于k-最近邻法（k-NN）、多元线性回归（MLR）和支持向量回归（SVR）。对于每个学习算法，使用2至15个描述符来生成模型。在建模运行的最后，为每个待预测的值保留最佳模型。在图3中描述了这个程序。

Kovats指数（KI）模型

在预测KI的该示例中，基因算法（GA）与三种不同的学***均值作为预测值。通常，使用基于距离的加权平均值。使用k=2并且加权的贡献和欧氏距离作为测度。

多元线性回归为具有多个描述符的线性回归的延伸：

Y = b + Σ_{i = 1}^{n} a_{i} \times X_{i}

其中Y为待预测的值，b为恒定值，n为描述符的数目，X_i为描述符，以及a_i为系数。

支持向量机器（SVM）为由V.Vapnik提出的用于分类的学***面，所述训练集合分离两个类别的数据。具有线性核的ε支持向量回归用作在支持向量机（libsvm）中实现（Chih-Chung Chang和Chih-Jen Lin,LIBSVM:a library for supportvector machines,ACM Transactions on Intelligent Systems and Technology,2:27:1-27:27,2011）。在选择分子描述符的同时优化成本参数C。k-NN、MLR和SVR学习算法用在RapidMiner 5.0（RapidMiner 5.0，Rapid-I股份有限公司）中。

基因算法（GA）以Java开发以选择用于模型的描述符。GA中的每个基因为待用于模型的描述符编码，表示具有在1和n（描述符的数目；例如，下面的示例中为370）之间的值的整数，对应于其在描述符列表中的位置。在SVR的情况下，增加包含对于C参数的值的附加基因。以在染色体中不具有复制描述符的方式固定并控制染色体尺寸。使用轮盘法选择和双点交叉。突变率设定为0.1，每次生成的染色体的数目设定为30，并且生成的数目设定为200。在GA中，在每个生成中存活两个最佳染色体。得分函数执行RapidMiner协议。交叉验证平方相关（Q²）用作为对于k-NN和MLR的得分函数，并且均方根误差（RMSE）用于SVR。从而对于每种学习算法（k-NN、MLR和SVR），染色体尺寸固定在2和15之间（在SVR的情况下对于C参数加一）。基因算法被执行14次。在第一次执行时染色体的尺寸固定为2。每次执行时增加染色体的尺寸直到最后一次执行时达到15。在每次执行之后保留最佳方案。为了在对于给定的模型的十四个方案中选择最优数目的描述符，对于每个待构建的模型，我们选择在训练集合的r²和测试集合的r²之间的最佳折衷。所选模型的r²在验证集合上进行计算以确保稳定性。

结果显示在表1中：

表1利用多元线性回归、k-最近邻法和支持向量机器回归的对于KI的最佳模型的结果。Q2值利用MLR的留一法交叉验证和KNN的10折交叉验证得到，RMSE值通过SVR的5折交叉验证得到。以粗体显示的结果被选为最佳方案。

利用使用15个描述符的基因算法-线性模型得到最佳结果。在表2中显示了示例性描述符；可以使用这些或任意其他适合的描述符。利用该线性模型得到的结果非常优秀，具有在训练集合上r²=0.991，留一法在训练集合上q²=0.988，以及测试集合上r²=0.982。在外部测试集合上r²也非常优秀（r²=0.985，参见图4）。

表2用于选择的KI模型的描述符

在预测KI的另一个示例中，使用了利用12个描述符的基因算法—线性模型。在下面的表3中显示了示例性描述符。利用这个线性模型得到的结果产生训练集合r2=0.992，留一法q2=0.999，以及测试集合r2=0.983。

系数	描述符	描述
			2490.980	nSK	非氢原子的数目
-3470.745	nc	碳原子的数目
			-48.955	nR06	6元环的数目
-48.134	Q指数	二次性能指标
			-211.303	DELS	分子电性拓扑变化

-45.839	SRW09	9阶的自返回步行数
			-63.030	CIC3	互补信息内容（3阶的相邻对称）
+328.644	ATS1p	拓扑结构的Bronto-Moreau自相关-延迟1/通过原子极化加权
			+25.916	EEig15x	来自于通过边界程度加权的边界邻接矩阵的特征值15
-31.625	JGI6	6阶的平均拓扑电荷指数
			-59.809	B01[C-Si]	在拓扑距离1处的C-Si的存在/缺失
+1539.797	F01[C-C]	在拓扑距离1处的C-C的频率
			+1561.023	b	在多元线性回归方程中的常数

表3

沸点模型

在该示例中，在沸点（利用ACD/Labs ACD/PhysChem计算）和由Kovats指数值计算的沸点之间的相互关系为：训练集合r²=0.955，测试集合r²=0.910，以及验证集合r²=0.934（图5）。得到的方程为：

BP=0.1468×KI+47.402

在另一个示例中，在沸点（利用ACD/Labs ACD/PhysChem计算）和由Kovats指数值计算的沸点之间的相互关系为：训练集合r²=0.902，留一法q²=0.899，测试集合r²=0.891，以及验证集合r²=0.934（图3）。得到的方程为：

BP=0.1464×KI+47.2755

相对的第二维度保留时间模型

对于GC×GC-MS的相对的第二维度时间，使用如上所述的利用三个不同的学习算法的基因算法。结果显示在表4中：

表4利用多元线性回归、k-最近邻法和支持向量机器回归的2DRT的最佳模型的结果。Q2值利用对于MLR的留一法交叉验证和对于kNN的10折交叉验证得到，RMSE值通过对于SVR的5折交叉验证得到。以粗体显示的结果选为最佳方案。

通过利用基因算法和支持向量回归分析得到一个最佳模型。得到的结果为留一法q²=0.840，测试集合r²=0.827，以及验证集合r²=0.849。该模型没有KI模型准确。这可以通过以下事实进行说明：实验测量的第二维度保留时间（各自的2D相对RT）的变化大于对于KI的变化，并且此外结构和保留时间之间的关系非线性。但是，对于外部测试集合有r²=0.849，模型具有较好的准确性。在该示例中，模型使用如表5所示的8个描述符。

描述符	描述
		Wap	全路径Wiener指数
AMW	平均分子量
		X0Av	平均价连接性指数chi-0
nRCO	酮（脂肪族）的数目
		ZM2V	价顶点度的第二Zagreb指数
JGI3	3阶的平均拓扑电荷指数
		X0A	平均连接性指数chi-0
piPC10	10阶的分子多路径数

表5用于2D rel RT模型的描述符

在另一个示例中，其中第二维度的GC×GC-MS设置是极性的，通过利用基因算法和2最近邻分析得到一个最佳模型。产生的结果为留一法q2=0.899，测试集合r2=0.816，以及验证集合r2=0.811。该模型没有KI模型准确。这可以通过以下事实进行说明：实验测量的再现性较低，并且结构和保留时间之间的关系非线性。但是，对于外部测试集合有值r²=0.811，该模型具有较好的准确性。在该具体示例中，模型使用如表6所示的14个描述符。

描述符	描述
		AMW	平均分子量
MSD	均方距离指数（Balaban）
		BLI	Kier苯类指数
PW5	路径/步行5–Randic形状指数
		ICR	径向中央信息指数

piPC04	4阶的分子多路径数
		X0Av	平均价连接性指数chi-0
AAC	原子组成的平均信息指数
		ATS5m	拓扑结构的Broto-Moreau自相关-延迟5/通过原子量加权
GATS2v	Geary自相关-延迟2/通过原子范德华体积加权
		BEHe1	Burden矩阵的最高特征值n.1/通过原子桑德逊电负性加权
F06[Si-Si]	在拓扑距离6处的Si-Si的频率
		F09[C-O]	在拓扑距离9处的C-O的频率
F10[C-Si]	在拓扑距离10处的C-Si的频率

表6用于GC×GC-TOF第二体积相对保留时间模型的描述符

匹配得分的计算

对于每个候选化合物的得分利用双曲线方程根据给定分析物的每个候选化合物的谱相似性的值（在本示例中，为NIST MS搜索匹配因子）、预测的KI、GC×GC-TOF的预测的第二维度相对保留时间以及预测的沸点进行计算。一般原理取决于实验MS到库MS与从每个分析性质（KI、BP......）中得到的分析性质得分相乘的相似性。将分析性质得分（KIFIT、BPFIT……）归一化为从0（没有相似性）至1（完全匹配）。得分取决于通过如下类型的多项式因式分解的二次方程：

ax²+bx+c=a(x-α)(x-β)

使用KI作为分析性质中的一个的示例，方程的项为：

a = \frac{1}{- ({KI}_{Exp} - ({KI}_{Exp} - (n_{KI} \times {SEP}_{KI}))) \times ({KI}_{Exp} - ({KI}_{Exp} + (n_{KI} \times {SEP}_{KI})))}

(x-α)=(KI_Pre-(KI_Exp-(n_KI×SEP_KI)))

(x-β)=(KI_Pre-(KI_Exp+(n_KI×SEP_KI)))

完整的方程为：

{hyp}_{KI} = \frac{1}{- ({KI}_{Exp} - ({KI}_{Exp} - (n_{KI} \times {SEP}_{KI}))) \times ({KI}_{Exp} - ({KI}_{Exp} + (n_{KI} \times {SEP}_{KI})))} \times ({KI}_{Pre} - ({KI}_{Exp} - (n_{KI} \times {SEP}_{KI}))) \times ({KI}_{Pre} - ({KI}_{Exp} + (n_{KI} \times {SEP}_{KI})))

[如果hyp_KI<0则y=0]

其中：

hyp_KI：用于校正在CASI得分中的NIST匹配因子的值的双曲线方程。

KI_Pre：预测的Kovats指数

KI_Exp：测量的Kovats指数

n_KI：因子（用于曲线拟合）=例如，用于Kovats指数的n_KI

SEP_KI：预测的标准误差

曲线分析：

-最大：如果KI_Pre=KI_Exp,y=1

-零-交叉1：KI_Pre=KI_Exp-n_KI×SEP_KI

-零-交叉2：KI_Pre=KI_Exp+n_KI×SEP_KI

图7中显示了得出的双曲线方程的图表说明。在实验值和预测值之间的偏差越高（例如，KI），基于使用的曲线拟合函数的提出的概率越低。曲线的陡度越大，在拟合函数的概率上的参数偏差的贡献越大，其在整体CASI得分上的贡献越大。

用于结合三个分析性质得分和谱相似值来计算匹配得分的示例性公式如下所示：

CASI得分=NIST MF×hyp_KI×hyp_2DRT×hyp_BP

对于查询中的每个分析物，根据下降的CASI得分将候选化合物排名。根据上述方程式计算CASI得分。默认选择具有最高值的命中。

得分优化

在计算CASI得分时，三个分析性质得分中的每一个具有四个参数。但是，只有定义双曲线与X轴在何处相交的n_X是必须建立的。n_X影响双曲线的形状，并且之后影响在最终CASI得分中的每个分析性质得分的权重。

提供网格搜索程序以为n_KI、n_2DrelRT和n_BP建立最优值。通过利用1到50之间的整数值的每个可能组合为n_KI、n_2DrelRT和n_BP中的每一个生成一个方案的得分。因此，贡献函数的优化范围覆盖了与对于与x轴相交的预测的1至50折标准误差相乘的预测参数到测量参数的差值。方案的得分为对于训练集合和测试集合排序第一的正确命中的数目。选择具有最高数目的正确命中的方案。算法可以如下描述：

-对于在1...50中的n_KI

-对于在1...50中的n_2DRT

-对于在1...50中的n_BP

利用每次迭代的n_KI、n_2DrelRT和n_BP的值的组合计算对于在训练集合和测试集合中的化合物的CASI得分。

计数对于该迭代的正确命中的次数。

-选择具有最高数目的正确命中的方案的值。

选择的n_KI、n_2DrelRT和n_BP参数将在CASI配置的最终验证步骤中使用。

CASI得分的验证

为了验证本发明的方法的性能，使用已知其身份的71个分子的集合。在图9中显示出结果。这些分子中的一些存在于用于验证模型的验证集合中，但是它们中没有一个存在于训练集合和测试集合中。通过使用CASI***得到的结果显然比单独使用NIST匹配因子得到的结果更好：51个正确命中排名第一以及14个正确命中排名在第二位置上。使用NIST匹配因子，50个正确命中排名第一以及仅9个正确命中排名在第二位置上。在表7中，将利用CASI得分的正确结构的排名与利用NIST匹配因子的排名进行比较：

正确命中的位置	1	2	3	4	5	6	7	10	20
										CASI得分的频率	51	14	3	2	1
NIST匹配因子的频率	50	9	4	2	2	1	1	1	1

表7基于CASI得分的排名和基于NIST匹配因子的排名的正确命中位置的比较。在正确命中的排名方面CASI得分的表现比NIST匹配因子更好。

通过分析在列联表（图11）中显示的真/假正和真/假负的比率，相比于NIST MS搜索，对于CASI得分的假正结构分配的比率显著下降。因此，对于CASI得分每第9个结构分配为错误的分配，而对于NIST MS搜索每第3个结构分配为一个假值。

CASI得分的优点的说明性示例为三十一烷，其在NIST MF中排序在第20位，而在CASI得分中排序在第2位，这是由于KI的准确预测。图8中显示的另一个示例为糠醛，其清楚地显示出CASI得分给出比NIST匹配因子更好的判别能力。CASI得分以及NIST匹配因子将正确命中排名在第一位置上，但是CASI得分给出了高得多的判别能力。

这些结果清楚地显示出CASI***提高了置信度并且提高了在结构识别中的生产力。

从CASI***中得到的结果能够通过GC-APCI-TOF-MS的使用进行确认。包括分析物的样本与氘化正构烷烃和氘化脂肪酸甲酯结合，分为两个等分部分。一个部分通过GC×GC-TOF-MS进行分析，其中FAME和分析物的Kovats指数利用作为参考***的氘化正构烷烃来确定。另外的等分部分以GC-APCI-MS进行分析，其中FAME的绝对保留时间被确定。通过应用上述用于桥接保留指数***的方法，发现在两个***之间Kovats指数的偏差小于1%，并且发现对于GC-APCI-TOF-MS，质量偏差小于1mDa。

对利用通过GC-APCI-TOF-MS测量的准确质量来确认提出的结构的能力进行测试。该方法用于确认存在于香烟烟雾中的155种化合物的提出的结构。155种化合物中的120种在GC-APCI-TOF-MS中可电离。在保留时间指数窗口内检测到106种化合物，并且自动确认了85种化合物。

示例2

仪器和分析方法

数据生成

利用LECO GC×GC-TOF***Pegasus IV进行实验。在玻璃纤维过滤垫上采集的香烟烟雾利用有机溶液萃取并且利用若干氘化内部标准和保留时间标记化合物的混合物进行强化。紧接在利用二氯甲烷/水以及衍生的原料萃取物进行流体-流体分离之后，香烟烟雾萃取物通过将在冷柱头模式中的萃取物注入分析***中来利用BSTFA/TMCS进行分析。复合混合物的分离利用对于第一/第二维度色谱法的非极性/极性的分析色谱柱的结合在二维模式中进行。作为载气的氦保持为1.0ml/min的恒定流。对于第一维度使用具有0.25mm内直径和0.25μm薄膜厚度的30m的DB-5ms分析色谱柱，并且对于第二维度使用0.10mm内直径和0.1μm薄膜厚度的2.2m的DB-17ht。线性温度梯度对于第一维度以5°/min从30℃（2min）开始使用至320℃（15min），并且以5.2°/min从35℃（2min）开始使用至340℃（14.5min）。第二维度分离时间为6秒/调制并且数据采集率设定为200谱/秒。

数据处理

数据处理利用用于自动峰值搜索的ChromaTOF软件、谱的去卷积和峰值对准在非目标筛选设置中进行，产生了对准峰值表格。利用在化学组成中最大相关差量的中心（focus）对数据进行估计。这通过学生的t-测试的应用来完成，以便利用随着考虑到在丰度以及（半）定量确定的绝对丰度中的相对差异的排名程序的显著差异来过滤化合物。

软件通过网站界面可接入使用者。使用者输入待在多个JDX文档中进行分析的全部质谱、对于单个或两个保留色谱柱的保留值以及若干附加信息以描述实验。然后自动进行接下来的分析，每个查询质谱利用NIST MS搜索（NIST MS搜索程序v2.0f，国家标准和技术协会）针对商用质谱数据库进行搜索。之后产生潜在命中的名称列表，并且对于每个命中给出表示在查询质谱和命中质谱之间的相似度的匹配因子。命中的化学名称之后被转换为化学结构。对于每个命中，应用三个预测模型来计算对于第二色谱柱的预测Kovats指数、沸点和相对保留时间。这三个预测值与来自如前所述的NIST MS搜索的匹配因子结合以给出CASI得分。对于每个查询，命中通过渐减的CASI得分而有序。通过专用网络界面对使用者显示分析的结果。对于每个查询，默认选择具有最高CASI得分的命中的结构。但是，使用者能够选择另一个命中作为对于查询的正确结构。在没有候选化合物匹配的情况下，使用者能够选择对于查询不选择任何结构。在分析的最后，可选地，在利用参考标准确认之后，使用者可以选择将与查询质谱相关联的全部正确结构自动传送至化学注册***。

控制全部处理的自动化的软件平台的中央组件为在核心引擎中，并且其主要对应于业务层。核心引擎的功能以执行分析并且将来自存储之前的全部CASI分析的CASI数据库的分析结果移动至化学注册***。核心引擎以Java 6开发，并且其在Tomcat 6.0（Apache Tomcat 6.0，Apache软件基金会）中执行。应用程序的业务层使用NIST MS搜索2.0f命令行工具以在商用质谱数据库中进行搜索。Pipeline Pilot8.0程序利用Pipeline Pilot Java API调用。该程序利用来自化学注册***、ACD/名称-结构v12（ACD/名称-结构Batch v.12,ACD/Labs）软件和ChemSpider网络服务（ChemSpider，化学皇家学会）的化学名称和CAS数目根据提出的化学名称产生结构。化学结构之后被标准化：脱盐，质子化态被调节为标准形式并且产生规范的互变异构体。在处理的最后利用ACD/PhysChem batch v12计算沸点。利用通过命令行集成的Dragon计算化学描述符。利用RapidMiner 5.0建立预测模型。该软件具有集成许多学习算法以及基于工作流的图形界面的优点。

除了这些外部工具，标准的Java APIs Log4J用于记录错误消息，Hibernate用于将目标映射至Oracle数据库，并且JUnit用于单元测试。Oracle11gr2（Oracle数据库11g版本2，Oracle）用于存储分析数据。Oracle Application Express（OracleApplication Express 3.2，Oracle）用于网站界面的开发。其默认集成在Oracle11gr2中并且其使网站界面能够以高效的方式建立。

数据集合

用于CASI***的这个示例的开发的数据集合基于不同香烟烟雾样本的非目标比较的结果产生。利用GC×GC-TOF的非目标比较提供关于样本的化学组成和化学组成中的差别的全面图片。通过考虑在丰度以及（半）定量确定的绝对丰度中的相对差别估计最相关的差别。在本示例中使用的非目标筛选方法由两种分析方法组成，一种用于非极性化合物，而第二种用于在三甲硅烷基化之后的极性化合物的衍生物，以覆盖较宽的极性范围。得到的结果包括具有其关联的El-质谱的色谱分析峰值，表示在比较的样本之间最相关的差别。最终结果提供结构方案以及具有不可用结构方案的分子（被称为“未知”）。利用这个***，总共218个结构通过参考化合物确认，同时176个未知化合物的色谱分析以及质谱数据加入到数据集合。

用于2D相对RT的实验模型的性能通过估计对不同烟雾样本的比较的三个独立非目标筛选研究的合并数据集合的绝对与相对保留时间的再现性来进行测试。该估计的中心是利用作为性能标准的参考香烟的烟雾样本产生的，并且以三份法（triplicate）进行分析，均匀地分布在每个研究的每个测量系列中（N=9）。该估计以非目标方式利用全部发现的峰值进行，具有超过250的信噪比。无论其结构是否为推定识别，估计的化合物的数目总计为1219个，并且没有发生异常值校正。

数据集合的估计显示了相比于传统绝对RT数据的对于相对RT模型的再现性的增加，参见图15。

整个数据集的全部估计化合物的百分之九十的相对标准偏差通过利用2D相对RT***从对于2D绝对RT数据的4.3%增加到2.5%。

根据沸点的Kovats指数的预测

在本示例中，通过计算的沸点的校正和训练集合的化合物的实验Kovats指数得到的线性方程为：

BP=0.1549×KI+31.725

具有0.953的平方相关（在0截距处为0.938）。对于测试集合的化合物，在由该方程得到的沸点和通过ACD/Labs PhysChem计算的沸点之间的平方相关为0.867（在0截距处为0.867）。对于验证集合的化合物，平方相关为0.942（在0截距处为0.940）。

表8利用多元线性回归和k–最近邻法的KI的最佳模型的结果。利用对于MLR的留一法交叉验证和对于kNN的10折交叉验证得到Q²值。粗体显示的结果对应于选择的最佳方案。

预测模型结果

用于Kovats指数的预测模型利用结合MLR和kNN的基因算法生成。利用MLR得到最佳结果。具有七个描述符，验证集合上的平方相关r²为0.981，相对误差为5.18%，如表8所示。在0截距处的平方相关具有值0.980，其与经典平方相关非常一致（结果与图4中所示的那些结果相似）。描述符的贡献及其定义如表9所示。

表9描述符及其对选择的线性模型的贡献的列表

对于2D相对RT最佳结果利用应用12个描述符（参见表10）的支持向量机器得到。验证集合上的平方相关为0.855，而相对误差为6.76%。在0截距处的平方相关为0.854，其与经典平方相关十分相似（图16）。即使其不如KI模型那么精确，但是由于通过第二保留时间的相对值的校正，该模型的预测能力也是较好的。

即使应用加强的2D相对RT数据，预测模型也不如KI模型精确，这是由于第二维度分离在两个分离（第一维度以及第二维度分离）上均包括变异而预料到的。实际上，这些变异是因变量，由于在第一维度中的保留时间变化导致了随后第二维度分离的变化。

表10利用多元线性回归、k-最近邻法以及支持向量机器回归的对于2D相对RT的最佳模型的结果。Q²值利用对于MLR的留一法交叉验证和对于kNN的10折交叉验证得到，并且RMSE值通过对于SVT的5折交叉验证得到。

CASI***针对NIST***的验证

CASI正确为真命中排名的能力已被处于研究中。得分函数的优化利用对于全部可能方案的网格表在如上所述的训练集合和测试集合上进行。在训练集合和测试集合的所有化合物上计算对于三个参数的预测（Microsoft Excel的STEYX函数）的标准误差。得到的值为SEP_KI=82.57，SEP_2DRT=0.0771以及SEP_BP=23.05。产生了多于50000个方案。仅保留对于测试集合具有正确命中的最高数目的方案。对于测试集合的最佳结果为在全部40个查询上正确排序的35个命中（88%），并且得到93个方案。选择的方案以第二时间过滤以便仅保留对于训练集合具有最高数目的正确命中的那些方案。训练集合上的最佳得分为正确识别118个化合物中的94个（80%）。剩下了十一个方案。对于所有这些方案，zero_KI为11而zero_2DRT为10。zero_BP与等于36或以上的值不同。选择对于zero_BP（=36）具有最低值的方案以对于该参数保持最高选择性。对于所有十一个方案中较好的命中计算CASI得分。该值对于在验证集合的60个化合物中正确识别52个（87%）的所有方案是相同的。

如果仅使用NIST MS搜索匹配因子（MF）而不使用CASI得分，那么对于排名第一的验证集合的正确命中的数目将为45（75%）。全部CASI得分给出比NISTMF更好的结果，其具有更多数目的排序第一的正确命中以及更少的排序较低的命中。其显示出对于GC×GC的两个维度的保留时间的预测以及加强了对于我们的验证集合的质谱相似度的结果的与KI和预测BP的相关。

但是，一种化合物（乙酸异冰片酯（iso-bornyl acetate））利用CASI得分具有比利用NIST MF明显更差的排名：其提供了最高的NIST MF，但是其利用CASI得分排序在第27位，清楚地指明在我们的排名中的异常化合物。由于NIST MF对于该化合物为最高的，因此显然预测的保留时间和BP是较差排名的原因。这能够通过预测的误差分析（对于KI为19.3%，以及对于2D相对RT为24.3%）来确认。由于对于该模型全局相关较好，因此解释这些误差最可能的假设为乙酸异冰片酯在模型的应用域之外。通过分析验证集合的每个化合物与训练集合的每个化合物的相似度，显然的是化合物乙酸异冰片酯为具有与训练集合的任意化合物最低相似度的验证集合的化合物。对于结构相似度的估计，我们使用了Pipeline Pilot8、Extended Connectivity Fingerprints6（ECFP6；参见Basic Chemistry Guide ofChemistry collection of Pipeline Pilot）以及Tanimoto度量（metric）。乙酸异冰片酯的最相似化合物具有0.14的低相似度（2,3-丁二烯（2,3-butadione））。其确认了化合物乙酸异冰片酯醋酸盐与训练集合的化合物十分不同，因此十分难以预测。

另外，对得分结果上的模块KI、2D rel RT和BP中每一个的贡献进行估计。对于每个估计，仅优化考虑模块的参数。在表11中显示出结果。

表11利用CASI得分成分的不同组合的正确命中的数目。具有全部化合物的结果显示在第一行中。

利用在所有类型的估计数据集合上的全部三个模块KI、2D rel RT和BP得到最佳结果。为了减小丢失重要信息的概率，不能从全局方法中明显地排除一个模块，这是由于不同的化合物可能利用不同的组合而被正确地排名。

此外，对CASI根据未知判别真命中的能力进行了研究。通过其自身的排名不足以识别正确的结构。在参考谱数据库中不存在正确结构的情况下，通过CASI提出的结构可能是错误的。但是，错误的结构方案应该具有低得分，该低得分应该帮助使用者决定结构方案最可能是正确的还是错误的。因此CASI的通常的使用将结合得分阈值与排名。为了学习在正确和非正确的结构方案之间进行判别的能力，我们对于176个未知化合物（即，不可能发现对于这些化合物的正确结构，即使利用非自动化的分析）的集合将具有排名第一的命中得分的验证集合的正确命中的CASI得分（图）和NIST MF（图）概况进行比较。对于未知排名第一的命中全部对应于非正确结构。对于具有少量重叠的曲线的两个得分，我们可以看到在正确命中和未知之间的明显分离。

相比于NIST MF，CASI平台在正确识别和未知化合物之间判别的性能同时利用排名和分值阈值进行估计。我们使用验证集合和未知集合以用于估计，其导致总计236个分别具有质谱和与他们关联的色谱值的化合物。我们选择对于CASI为795的阈值以及对于NIST为825的阈值，其对应于在曲线相遇处的得分值（对于正确的或非正确的方案具有等同概率的得分值），参见图17和图18。结果显示在表12中。CASI得分造成了对于验证集合的60个化合物的46个正确命中（77%），然而NIST MF生成了40个正确命中（67%）。如果我们考虑在超出预定义阈值的错误结构方案上的结果，那么根据假命中判别错误的能力是更显著的，因此被提议为真识别（即，对于具有在阈值之上的得分的未知化合物的第一命中）。通过使用CASI得分，能够在57个超过阈值的方案中发现11个假正（19%），而利用NISTMF，能够在69个提议的真识别中发现29个假正（42%）。

表12利用60个谱的验证集合和包括176个未识别化合物（即，未知）的集合的排名在第一位置（利用NIST MF和CASI得分）的命中来评估用于结构识别的CASI和NIST的性能。真正为来自排名第一并且具有高于或等于预定义阈值的得分的验证集合的正确命中（对于CASI为795，并且对于NIST MF为825）。假正为来自具有高于预定阈值的得分的未知集合的命中。真负对应于来自具有低于阈值的得分的未知集合的命中。假负为来自具有低于阈值的得分的验证集合的正确命中以及来自未对应于正确结构的验证集合的命中。

Claims

1.一种用于在GC×GC（2维）质谱分析法中分析从样本得到的质谱数据的方法，包括：

（a）将分析物的质谱数据与库中的已知结构的候选化合物的质谱数据进行比较；

（b）基于质谱数据的相似度从库中识别来自所述库的多个候选化合物；

（c）对每个候选化合，利用基于多个分子描述符的定量模型物预测至少一个分析性质的值；以及

（d）基于在步骤（c）中预测的值以及对于所述分析物的分析性质的测量值计算对于每个候选化合物的匹配得分。

2.根据权利要求1所述的方法，其中步骤（c）包括对于每个候选化合物预测多个分析性质的值，其中预测的分析性质包括Kovats指数、沸点和相对的第二维度保留时间中的至少一个。

3.根据权利要求1或2所述的方法，其中所述分析物的所述相对的第二维度保留时间为所述化合物的绝对的第二维度保留时间和假设参考标准的第二维度保留时间的函数，其中所述假设参考标准的第二维度保留时间根据一系列参考标准的绝对的第一维度保留时间和绝对的第二维度保留时间上的线性回归进行计算。

4.根据前述权利要求中任一项所述的方法，其中所述匹配得分额外地取决于步骤（b）中的质谱数据的相似度。

5.根据权利要求1所述的方法，其中通过利用测试数据集合和基因算法来从多个可能的分子描述符中选择分子描述符，以及通过利用选自线性回归、支持向量回归或者k最近邻方法的机器学习算法来将选择的分子描述符与待预测的值进行相关，从而得到步骤（c）的所述定量模型。

6.根据权利要求1所述的方法，其中步骤（c）的所述定量模型为一种用于建立定量模型的方法的产品，其包括下面的步骤：

（i）提供已知结构的训练化合物的集合和已知结构的测试化合物的集合，以及选择性提供已知结构的验证化合物的集合；

（ii）对于每个训练化合物、每个测试化合物和每个验证化合物生成分析性质的测量值；

（iv）通过利用基因算法，从用于所述分析性质的定量模型的分子描述符的集合中选择分子描述符的集合；

（vi）通过对于每个测试化合物计算所述分析性质的预测值来估计每个提出的定量模型；

（vii）根据对于每个测试化合物在所述分析性质的测量值和预测值上的均方根误差（RMSE）和/或平方相关（r²）选择所述定量模型；以及选择性地

（viii）根据对于每个验证化合物在所述分析性质的测量值和预测值上的均方根误差（RMSE）和/或平方相关（r²）选择所述定量模型。

7.根据权利要求6所述的方法，其中利用（iii）的基因算法，包括

（p）利用选自多元线性回归、k-最近邻方法或支持向量回归的机器学习算法中的两个或多个分子描述符的结合生成多个候选方案；

（r）根据基于所述训练化合物的交叉验证平方相关（q²）的适应度函数为每个候选方案记分；

（s）通过重组和/或改变产生增加的交叉验证平方相关的所述候选方案来生成新的候选方案；以及

（t）有限次数的重复步骤（r）和（s）。

8.根据前述权利要求中任一项所述的方法，对于计算相对的第二维度保留时间，假设参考标准为假设氘化正构烷烃，并且参考标准的系列包括多个氘化正构烷烃。

9.根据前述权利要求中任一项所述的方法，进一步包括通过包括以下步骤的方法来验证候选结构：

（A）在GC×GC-TOF-MS中，测量相对于参考化合物的第一集合的分析物的Kovats指数；

（B）在GC×GC-TOF-MS中，测量相对于参考化合物的第一集合的参考化合物的第二集合的Kovats指数；

（C）在GC-APCI-TOF-MS中，测量参考化合物的第二集合的绝对保留时间；以及

（D）在GC-APCI-TOF-MS中，利用在步骤（b）中测量的参考化合物的第二集合的Kovats指数来通过线性回归得出用于将步骤（A）中测量的分析物的Kovats指数转换为估计的分析物的绝对保留时间的函数。

10.根据权利要求9所述的方法，进一步包括：

（E）在GC-APCI-TOF-MS中，测量分析物的绝对保留时间；

（F）对于所述分析物，在GC-APCI-TOF-MS中利用在步骤（D）中计算的函数，来将在步骤（E）中测量的绝对保留时间转换为分析物的计算的Kovats指数；以及

（G）将步骤（F）中计算的Kovats指数与来自步骤（A）的测量的Kovats指数进行比较。

11.根据权利要求9或10所述的方法，其中步骤（D）的函数通过对于每个保留时间范围的线性回归得出，此处分析物在参考化合物的第二集合的两个邻近参考化合物之间进行检测，其中所述函数为：

在GC-APCI-TOF-MS中的分析物RT=a（在GC×GC-TOF-MS中的分析物KI）+b，

其中a为系数，以及b为对于特定时间范围的常量。

12.根据权利要求9至11中任一项所述的方法，进一步包括将所述分析物的分子质量与对于每个分析物的各自候选化合物的分子质量进行比较。

13.根据权利要求9至12中任一项所述的方法，其中参考化合物的第一集合为氘化正构烷烃，以及参考化合物的第二集合为氘化脂肪酸甲酯。

14.一种对于分子结构在GC×GC-MS（联合质谱分析法的2维气相色谱分析法）中计算预测的相对的第二维度保留时间的方法，包括以下步骤：

（a）基于假设氘化正构烷烃的函数定义参考***；

（c）利用对于训练化合物的相对的第二维度保留时间来基于多个分子描述符生成相对的第二维度保留时间的定量模型；

（d）利用所述定量模型来预测所述分子结构的相对的第二维度保留时间。

15.一种计算机***，所述计算机***编程为执行权利要求1至14中任一项的方法，其选择性地连接至GC×GC（2维）质谱仪。