CN112750507B - 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法 - Google Patents

基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法 Download PDF

Info

Publication number
CN112750507B
CN112750507B CN202110054882.XA CN202110054882A CN112750507B CN 112750507 B CN112750507 B CN 112750507B CN 202110054882 A CN202110054882 A CN 202110054882A CN 112750507 B CN112750507 B CN 112750507B
Authority
CN
China
Prior art keywords
sample
model
nitrite
nitrate
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110054882.XA
Other languages
English (en)
Other versions
CN112750507A (zh
Inventor
熊莎
吴琼
张航
李勇刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110054882.XA priority Critical patent/CN112750507B/zh
Publication of CN112750507A publication Critical patent/CN112750507A/zh
Application granted granted Critical
Publication of CN112750507B publication Critical patent/CN112750507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Investigating Or Analyzing Non-Biological Materials By The Use Of Chemical Means (AREA)

Abstract

本发明属于光谱信号分析领域,具体涉及基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法。包括:获取一系列不同含氮量的硝酸盐和亚硝酸盐混合溶液样本机器光谱数据;根据最佳临界浓度对样本进行分类获得四类样本;将四类样本中每类对应的硝酸盐和亚硝酸盐的含氮量与所对应的光谱数据建立关系模型;并筛选具有高灵敏度和相关性的特征波长,建立回归子模型;获取待测样品的光谱数据,根据所述关系模型确定待测样品类别,并采用与待测样品类别对应的回归子模型进行分析预测,获得其硝酸盐和亚硝酸盐的浓度。本发明的方法实现了硝酸盐氮和亚硝酸盐氮的准确快速检测,且可保证低浓度下的检测灵敏度。

Description

基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含 量的方法
技术领域
本发明属于光谱信号分析领域,具体涉及基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法。
背景技术
目前市场上存在多种含氮化合物检测技术,其在检测原理、计算方法、操作工艺、应用领域等方面存在很大差异。国内外研究比较成熟的多组分浓度仪器分析方法主要有:电化学、毛细管电泳、离子色谱、生物传感和分光光度法。电化学测量技术在监测痕量待测物浓度方面不够完善,而且在实际样品中由于电极表面易受污染,容易导致检测结果不稳定。基于毛细管电泳的方法比较可靠,但需要大型仪器,且操作复杂,难以实现现场自动化监测。色谱法可同时分析多种离子成分浓度,安全性高,但设备需要经常维护,耗时且昂贵。生物传感器的方法需要解决操作的鲁棒性、选择性和标准化问题。紫外-可见、近红外、荧光等光谱技术是一种无损、通用、灵活的检测方法,具有进行在线监测所需要的所有特性,是目前比较经济可行、快速简便的一种方法。根据硝酸盐与亚硝酸盐的吸光特性,选择快速、简便的紫外-可见分光光度法作为基本检测方法。
检测硝酸盐与亚硝酸盐的传统分光光度法中常用到顺序分析:首先使用Griess试剂法分析样品中亚硝酸盐,再对另一份相同的样品进行还原(一般使用铜/镉柱),确保所有硝酸盐转化为亚硝酸盐后,再重复亚硝酸盐分析,即可通过差值计算硝酸盐浓度。这种方法对硝酸盐而言属于间接分析,耗时且非常依赖亚硝酸盐的检测准确度,其次Griess法涉及到有毒化学试剂,对身体有害且污染环境。有研究者提出可利用硝酸盐与亚硝酸盐两者的紫外吸收光谱对其进行直接测定,由于硝酸盐与亚硝酸盐的紫外吸收光谱在前半段形状相似,且吸收峰值波长非常接近,将近重叠,在实际操作中,很难从收集到的光谱中分离亚硝酸盐和硝酸盐的贡献,而现有的直接光谱法仍在使用传统的化学计量法处理光谱数据,面临着适用范围窄,检测精度不高的问题。近年来,紫外光谱和机器学***的机器学习方法。
发明内容
基于此,本发明针对上述的问题,提供了一种基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,该方法结合分类与回归算法,可以保证整个模型范围内对硝酸盐和亚硝酸盐的检测精度达到均衡,操作简便,成本低,可同时实现简单环境下的硝酸盐和亚硝酸盐的精确快速检测。
本发明提供了一种基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,具体包括:
S1:配置一系列不同含氮量的硝酸盐和亚硝酸盐混合溶液样本,并测定所述样本的光谱数据;
S2:以所述样本中硝酸盐和亚硝酸盐的含氮量构成二维平面,并获取最佳临界浓度,将所述二维平面划分为四个子区域,每个子区域内的样本为一类样本,获得四类样本;
S3:将所述四类样本中每类对应的硝酸盐和亚硝酸盐的含氮量与所对应的光谱数据建立关系模型,以实现样本的自动分类;
S4:将所述子区域内以及分类边界上的样本作为建模样本,筛选具有高灵敏度和相关性的特征波长,建立回归子模型;
S5:获取待测样品的光谱数据,根据所述关系模型确定待测样品类别,并采用与待测样品类别对应的回归子模型进行分析预测,获得待测样品的中硝酸盐和亚硝酸盐的浓度。
进一步的,所述步骤S3具体为:
将所述四类样本中每类对应的硝酸盐和亚硝酸盐的含氮量与所对应的光谱数据训练获得支持向量机分类模型、随机森林分类模型和逻辑回归模型。
进一步的,所述获得支持向量机分类模型具体包括:
所述支持向量分类模型的目标函数为:
s.t. yiTxi+b)≥1-ξi,ξi≥0,i=1,2,...,l
所述xi是样本向量,xj是样本分类标记,ω是一个矢量,其维数等于样本的特征维数,b是一个实数,n是样本总数,C是惩罚因子,ξi代表松弛变量;
选取高斯核函数作为支持向量机的核函数,其函数表达式如下:
式中xi,xj代表样本在低维空间的特征向量,σ是高斯核的带宽,即核参数。
进一步的,所述获得随机森林分类模型具体包括:
将所述样本进行抽样获得自助样本即并构建CART树,并从所述CART树的每个节点处抽取数个特征,计算每个特征的基尼指数,获得具有分类能力的分类特征;所述样本的基尼指数D计算方法为所述Ck为第K个类别的数量;
根据所述分类特征进行分类,获得节点完全***的树结构。
进一步的,所述获得逻辑回归模型具体包括:
所述逻辑回归模型为:
式中为权重,x为输入样本数据,y是样本为该分类器正类的概率;
模型的损失函数为:
式中,为权重,N为样本数,/>为该样本为正类的概率,yn为样本类别标签,0或1。
进一步的,所述步骤S4中采用稳定变量置换法选择特征波长,建立最优变量子集具体为:
采用蒙特卡罗抽样获得样本空间和变量空间的子数据集,在样本空间的子数据集中计算每个变量的稳定性,获得稳定性高的精英变量,稳定性Sj计算公式为:式中bij为第i个样本第j个变量的回归系数,/>为第j个变量的回归系数平均值,M为样本总数;
在所述变量空间的子数据集中进行变量置换分析,计算置换度,获取置换度高的重要变量,置换度PDj计算公式为:PDj=PCEj-SCEj,式中PCEj为用不含j变量的多个波长子集分别建立的模型的均方根误差均值,SCEj为用剩下的含j变量的多个波长子集分别建立的模型的均方根误差均值;
将所述精英变量和重要变量合并,并利用交叉验证方法获得最优变量子集。
进一步的,所述步骤S4中最终模型结构为:
其中,xi是样本向量,σ是高斯核的带宽,即核参数,[b α1 α2…αn]为常量,可由拉格朗日方法求解最小二乘支持向量机目标函数得到。
进一步的,所述步骤S5中的根据所述关系模型确定待测样品类别具体为:
分别采用支持向量机分类模型、随机森林分类模型和逻辑回归模型进行分类获得三种类别,选取三种类别中占多数的类别作为待测样品的类别。
进一步的,所述步骤S1和S5中测定光谱数据的条件为:
光谱扫描范围为190-400nm,光谱扫描间隔为1nm。
进一步的,所述步骤S2中最佳临界浓度为0.4mg N L-1
有益效果:
本发明通过预先配置一系列硝酸盐和亚硝酸盐的混合溶液,并测定其光谱数据,并利用上述数据通过分类和回归算法,建立了一种混合机器学习模型,通过上述学习模型,仅需要测定待测样品的光谱数据,即可对待测样品中的硝酸盐和亚硝酸盐含量精确快速检测,可以保证在整个建模范围内对硝酸盐和亚硝酸盐的检测精度达到均衡,提高对低浓度组分的预测精度,且操作简便,成本低。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法的流程图;
图2为本发明实施例提供的样本分类示意图;
图3为本发明实施例提供的待测样品含量分析的算法框架图;
图4为本发明实施例提供的单一模型和混合模型预测硝酸盐浓度的效果对比图;
图5为本发明实施例提供的单一模型和混合模型预测亚硝酸盐浓度的效果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明基于研究发现,将紫外光谱与机器学***的机器学习方法。
如图1所示,在一个实施例中,提出了基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法的流程图,具体包括以下步骤:
步骤S101,配置一系列不同含氮量的硝酸盐和亚硝酸盐混合溶液样本,并测定所述样本的光谱数据。
在本发明实施例中,首先制作硝酸盐氮及亚硝酸盐氮标准贮备溶液:称取已干燥的0.7221g硝酸钾或0.4928g亚硝酸钠溶于适量新鲜的去离子水中,移入1000ml容量瓶中,用去离子水稀释至标线,混匀备用。临用时再稀释为10mg N L-1的标准使用液。所有试剂均为分析级(国药化学试剂有限公司,中国)。分别配制亚硝酸盐氮浓度为0.1、0.2、0.3、0.4、0.8、1.2、1.6、2.0、2.5、3.0mg N L-1,硝酸盐氮浓度为0.1、0.2、0.3、0.4、0.8、1.2、1.6、2.0、2.5、3.0mg N L-1的混合溶液,一共100组混合样品。以去离子水作参比溶液进行背景扣除,在190-400nm波长范围内,间隔1nm测量各波长点的光谱数据。
步骤S102,以所述样本中硝酸盐和亚硝酸盐的含氮量构成二维平面,并获取最佳临界浓度,将所述二维平面划分为四个子区域,每个子区域内的样本为一类样本,获得四类样本。
如图2所示,本发明实施例提供了样本分类示意图,将硝酸盐和亚硝酸盐的浓度平面图划分为四个子区域分别建模,由于对低浓度下的分析物预测灵敏度不足,用于划分子区域的临界浓度被选择在较低的位置,分别选择临界浓度为0.3、0.4和0.8mg N L-1进行建模分析,结果如表1所示,当临界浓度为0.4mg N L-1时,整体模型具有较高的分类准确率和较低的平均相对误差;各子区域中硝酸盐与亚硝酸盐的含量各有不同的特征:区域1中硝酸盐和亚硝酸盐含量均较低;区域2中硝酸盐的含量远高于亚硝酸盐;区域3中硝酸盐的浓度远低于亚硝酸盐的浓度;区域4中硝酸盐和亚硝酸盐含量均较高。相较于单一全模型,每个子模型更适应各个子区域的样本特征,具有更高的预测精度。
表1不同临界浓度下的模型性能比较(mg N L-1)
步骤S103:将所述四类样本中每类对应的硝酸盐和亚硝酸盐的含氮量与所对应的光谱数据建立关系模型,以实现样本的自动分类;
在本发明实施例中,将所述四类样本中每类对应的硝酸盐和亚硝酸盐的含氮量与所对应的光谱数据训练获得支持向量机分类模型、随机森林分类模型和逻辑回归模型。
在本发明实施例中,使用LIBSVM-farutoUltimateVersion的MATLAB工具箱训练支持向量机分类模型,其目标函数为:
s.t. yiTxi+b)≥1-ξi,ξi≥0,i=1,2,...,l (1)
式中xi是样本向量,yi是样本分类标记,ω是一个矢量,其维数等于样本的特征维数,b是一个实数,l是样本总数,C是惩罚因子,ξi代表松弛变量;
选取高斯核函数作为支持向量机的核函数,其函数表达式如下:
式中xi,xj代表样本在低维空间的特征向量,σ是高斯核的带宽;
在利用SVM建模的过程中,首先对吸光度数据进行归一化预处理,将数据映射到0~1的范围内加快训练网络的收敛速度,然后使用主成分分析(PCA)降低输入层的数据维数,利用粒子群算法(PSO)对惩罚因子C和核参数σ这两个超参数进行了调优。
LIBSVM-farutoUltimateVersion工具箱中的SVC函数整合实现了上述功能,该函数如下:[predict_label,accuracy,bestc,bestg]=SVC(train_label,train_data,test_label,test_data,Method_option),其中Method_option是一个结构体,将其设置为:Method_option.scale=1,Method_option.pca=0,Method_option.type=2,即可建立SVM分类模型得到预测样本类别predict_label,并同时输出最佳的惩罚因子C和核参数g。
在本发明实施例中,使用RF_MexStandalone-v0.02的MATLAB工具箱训练随机森林分类模型,首先从原始训练样本中,应用bootstrap方法有放回地随机抽取k个新的自助样本集,并由此构建k棵CART树,每次未被抽到的样本组成了k个袋外数据;假设有n个特征,在每一棵树的每个节点处随机抽取m个特征,通过计算每个特征的基尼指数,选择一个最具有分类能力的特征进行节点***,其中对于给定的样本D,假设有K个类别,第K个类别的数量为CK,样本D的基尼指数的计算公式如下:
如果选取的属性为A,那么***后的数据集D的基尼指数计算公式如下:
式中k表示样本D被分为K个部分,数据集D***成为K个Dj数据集;
使用节点完全***的方式形成树结构,并且让每棵CART树最大限度地生长,最后让生成的每棵树对样本类别进行投票,按照少数服从多数的原则判定未知样本的最终分类结果。
在本发明实施例中,在MATLAB里编写程序实现逻辑回归,把线性回归模型的输出作为sigmoid函数的输入得到逻辑回归的数学表达模型,如下式:
式中为权重,x为输入样本数据,y是样本为该分类器正类的概率;
损失函数用来衡量模型的输出与真实输出的差别,在逻辑回归中损失函数的值等于样本为某一类别的总概率,公式如下:
式中,为权重,N为样本数,/>为该样本为正类的概率,yn为样本类别标签,0或1。
根据极大似然估计思想,需要求得最佳ω实现损失函数取得最大值,此时运用随机梯度下降法,先随机产生一个ω的初始值,然后通过如下公式不断迭代从而求得最佳ω:
式中,为/>初始值./>为/>新值;
将求的值代入逻辑回归的数学模型计算每个样本的类别概率得分,将概率得分最高的类别作为该样本的最终类别;这里还利用了onevsall思想对逻辑回归进行扩展实现多分类,假设数据有N个类别,使用逻辑回归对N类中的每个类别建立1个独立的二元分类器。对于分类器i,将label==i的样本设为正类,其余样本设为负类,以此类推。输入待预测样本数据,得到所有分类器判断其为对应正类的概率p,取p中最大的那个概率对应的样本类型作为最后预测类型。
根据支持向量机、随机森林和逻辑回归建立的分类模型分别对样本类别进行投票,将获得多数选票的类别(≥2)作为样本最终类别。
步骤S104,将所述子区域内以及分类边界上的样本作为建模样本,筛选具有高灵敏度和相关性的特征波长,建立回归子模型。
在本发明实施例中,由于分类器在区域边界出错的概率更大,每个子模型都囊括了分布在边界上的样本,以避免分类错误造成更大的预测误差,采用稳定变量置换法(SVP)选择特征波长,建立最优变量子集,并采用最小二乘向量机建立子回归模型,所述SVP是基于种内竞争和适者生存的进化原理,考虑变量的稳定性、置换度以及与模型性能相关的统计数据对变量进行评估,将RMSE均值最小、标准差值相对较低的变量子集视为最优变量;对于每个子区域,SVP分别选择了亚硝酸盐和硝酸盐的唯一变量子集。利用变量的专门子集建立的模型可以适应目标离子的特性,从而获得更好的性能。并在MATLAB中使用LSSVMlabv1_8_R2009b_R2011a工具箱建立最小二乘支持向量机模型,使用RBF核函数,同样使用网格搜索查找最佳正则化参数和核参数,获得每个子区域的子回归模型。
在本发明实施例中,使用稳定变量置换法(SVP)分别为各个子区域的硝酸盐与亚硝酸盐组分建立模型选择最优特征波长子集;先用蒙特卡罗抽样获得样本空间和变量空间的子数据集,在样本空间的子数据集中计算每个变量的稳定性并排序,将稳定性高的变量作为精英变量,其余为正常变量。稳定性Sj计算公式为:
式中bij为第i个样本第j个变量的回归系数,为第j个变量的回归系数平均值,M为样本总数。
然后在变量空间的子数据集中进行变量置换分析,计算每个变量的置换度并排序将置换度高的变量作为重要变量;置换度PDj计算公式为:
PDj=PCEj-SCEj (9)
式中PCEj为用不含j变量的多个波长子集分别建立的模型的均方根误差均值,SCEj为用剩下的含j变量的多个波长子集分别建立的模型的均方根误差均值。
将精英变量和重要变量合并到一个新的变量子集中,重复上述过程。N次迭代得到N个变量子集,最后利用交叉验证选择均方根误差均值最小、标准差值相对较低的变量子集作为最优子集。
使用LSSVMlabv1_8_R2009b_R2011a工具箱训练4个最小二乘支持向量机(LSSVM)回归子模型。LSSVM是损失函数为二次损失函数的SVM,其目标函数如下:
式中,xi是样本向量,yi是样本分类标记,ω是一个矢量,其维数等于样本的特征维数,b是一个实数,n是样本总数,C是惩罚因子,ξi代表松弛变量,为将样本空间映射到高维特征空间的非线性映射函数。
使用RBF核函数,如下:
此时LSSVM最终模型结构为:
式中模型参数[α1 α2 … αn]可使用拉格朗日方法求解LSSVM目标函数得到。
其中α=[α1,α2,…,αn]是拉格朗日乘子。
在LSSVMlabv1_8_R2009b_R2011a工具箱中,利用tunelssvm函数初始化模型参数即可建立LSSVM模型,并能输出利用网格搜索查找到的最佳的惩罚因子C和核参数g,其中C和g初始值被设为100和0.01,tunelssvm函数如下:model=tunelssvm(model_ori,optfun,costfun,costfun_args),将其输入参数设置为costfun=′crossvalidatelssvm′;costfun_args={10,′mse′};optfun=′gridsearch′;model_ori=initlssvm(trnX,trnY,′function estimation′,c,g,′RBF_kernel′),再利用trainlssvm函数建立回归模型,输出model结构体,将其作为simlssvm函数的重要输入量,即可输出对未知样本的预测值Y。
步骤S105,获取待测样品的光谱数据,根据所述关系模型确定待测样品类别,并采用与待测样品类别对应的回归子模型进行分析预测,获得待测样品的中硝酸盐和亚硝酸盐的浓度。
如图3所示,本发明实施例提供了待测样品含量分析的算法框架图,获取待测样品的的光谱数据,即光谱数据,再采用支持向量机(SVM)分类模型、随机森林分类(RF)模型和逻辑回归模型进行分类(LR)获得三种类别i、j、k,选取三种类别i、j、k中占多数的类别作为待测样品的类别,本发明采用三种分类器建立联合分类器对样品类别进行投票,使得预测类别与真实类别相匹配,三种分类模型投票不一致情况的类别,如表2所示,可知由于本发明中投票机制的存在,最终得到正确的分类结果。
表2三个基分类器投票不一致的类别确定
在本发明实施例中,当获得类别l后,使用稳定变量置换法选择对应类别区域的变量子集,并使用最小二乘支持向量建立回归模型,最后获得硝酸盐与亚硝酸盐的浓度预测值。
在本发明实施例中,采用留一交叉验证作为评价策略,利用平均相对误差(ARE)、最大相对误差(MRE)、预测均方根误差(RMSEP)和决定系数(R2)四个经典参数来评价所建立的模型的性能,本实例全部程序在MATLAB中完成。
如表3所示,对比本发明混合机器学习模型和采用单一机器学习模型对混合溶液浓度预测分析结果,其中单一机器学习模型先使用SVP选择特征波长,再用LSSVM建立模型。
表3.使用不同算法的检测结果
由表3可知,采用本发明混合机器学***均相对误差由6.25%降至1.64%,最大相对误差从39.96%降至5.01%,亚硝酸盐的平均相对误差由12.37%降至4.58%,最大相对误差从79.81%降至9.23%。如图4、5所示,分别为本发明实施例提供的单一模型和混合模型预测硝酸盐和亚硝酸盐浓度的效果对比图。虽然单一建模在分析物的浓度相对较高时预测的平均相对误差较小(<10%),但当分析物浓度低于0.4mg N L-1时,其预测误差大大增加;而本发明混合机器学***均相对误差始终控制在5%以下,性能更加稳定。
本发明实施例提供了一种同时结合分类和回归算法的混合机器学习模型,该模型可以解决单一模型预测硝酸盐和亚硝酸盐精度不均衡的问题。此外还使用支持向量机、随机森林和逻辑回归建立联合分类器优化了分类***。实验结果表明,与其他使用单一模型的直接光谱法相比,该方法显著降低了预测硝酸盐和亚硝酸盐浓度的最大相对误差,提高了对低浓度组分的预测精度。应当理解,本发明所述方法不单单适用于本实施例中配制的一定浓度比例的硝酸盐与亚硝酸盐混合溶液,还可以适用于以硝酸盐与亚硝酸盐为主要成分的任何浓度范围内的任何水样。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (8)

1.一种基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,其特征在于,具体包括:
S1:配置一系列不同含氮量的硝酸盐和亚硝酸盐混合溶液样本,并测定所述样本的光谱数据;
S2:以所述样本中硝酸盐和亚硝酸盐的含氮量构成二维平面,并获取最佳临界浓度,将所述二维平面划分为四个子区域,每个子区域内的样本为一类样本,获得四类样本;
S3:将所述四类样本中每类对应的硝酸盐和亚硝酸盐的含氮量与所对应的光谱数据建立关系模型;
S4:将所述子区域内以及分类边界上的样本作为建模样本,筛选具有高灵敏度和相关性的特征波长,建立回归子模型;以及
所述步骤S4中采用稳定变量置换法选择特征波长,建立最优变量子集具体为:
采用蒙特卡罗抽样获得样本空间和变量空间的子数据集,在样本空间的子数据集中计算每个变量的稳定性,获得稳定性高的精英变量,稳定性Sj计算公式为:式中bij为第i个样本第j个变量的回归系数,/>为第j个变量的回归系数平均值,M为样本总数;
在所述变量空间的子数据集中进行变量置换分析,计算置换度,获取置换度高的重要变量,置换度PDj计算公式为:PDj=PCEj-SCEj,式中PCEj为用不含j变量的多个波长子集分别建立的模型的均方根误差均值,SCEj为用剩下的含j变量的多个波长子集分别建立的模型的均方根误差均值;
将所述精英变量和重要变量合并,并利用交叉验证方法获得最优变量子集;
所述回归子模型为:
其中,xi是样本向量,σ是高斯核的带宽,即核参数,[b α1α2 … αn]为常量,可由拉格朗日方法求解最小二乘支持向量机目标函数得到;
S5:获取待测样品的光谱数据,根据所述关系模型确定待测样品类别,并采用与待测样品类别对应的回归子模型进行分析预测,获得待测样品中硝酸盐和亚硝酸盐的浓度。
2.根据权利要求1所述的基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,其特征在于,所述步骤S3具体为:
将所述四类样本中每类对应的硝酸盐和亚硝酸盐的含氮量与所对应的光谱数据训练获得支持向量机分类模型、随机森林分类模型和逻辑回归模型。
3.根据权利要求2所述的基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,其特征在于,所述获得支持向量机分类模型具体包括:
所述支持向量分类模型的目标函数为:
s.t.yiTxi+b)≥1-ξi,ξi≥0,i=1,2,...,l
所述xi是样本向量,yi是样本分类标记,ω是一个矢量,其维数等于样本的特征维数,b是一个实数,n是样本总数,C是惩罚因子,ξi代表松弛变量;
选取高斯核函数作为支持向量机的核函数,其函数表达式如下:
式中xi,xj代表样本在低维空间的特征向量,σ是高斯核的带宽,即核参数。
4.根据权利要求2所述的基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,其特征在于,所述获得随机森林分类模型具体包括:
将所述样本进行抽样获得自助样本即并构建CART树,并从所述CART树的每个节点处抽取数个特征,计算每个特征的基尼指数,获得具有分类能力的分类特征;所述样本的基尼指数D计算方法为所述Ck为第K个类别的数量;
根据所述分类特征进行分类,获得节点完全***的树结构。
5.根据权利要求2所述的基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,其特征在于,所述获得逻辑回归模型具体包括:
所述逻辑回归模型为:
式中为权重,x为输入样本数据,y是样本为分类器正类的概率;
模型的损失函数为:
式中,为权重,N为样本数,/>为该样本为正类的概率,yn为样本类别标签,0或1。
6.根据权利要求2所述的基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,其特征在于,所述步骤S5中的根据所述关系模型确定待测样品类别具体为:
分别采用支持向量机分类模型、随机森林分类模型和逻辑回归模型进行分类获得三种类别,选取三种类别中占多数的类别作为待测样品的类别。
7.根据权利要求1所述的基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法,其特征在于,所述步骤S1和S5中测定光谱数据的条件为:
光谱扫描范围为190-400nm,光谱扫描间隔为1nm。
8.根据权利要求1所述的基于混合机器学习模型同时检测水中硝酸盐和亚硝酸盐含量的方法,其特征在于,所述步骤S2中最佳临界浓度为0.4mg N L-1
CN202110054882.XA 2021-01-15 2021-01-15 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法 Active CN112750507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110054882.XA CN112750507B (zh) 2021-01-15 2021-01-15 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110054882.XA CN112750507B (zh) 2021-01-15 2021-01-15 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法

Publications (2)

Publication Number Publication Date
CN112750507A CN112750507A (zh) 2021-05-04
CN112750507B true CN112750507B (zh) 2023-12-22

Family

ID=75652155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110054882.XA Active CN112750507B (zh) 2021-01-15 2021-01-15 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法

Country Status (1)

Country Link
CN (1) CN112750507B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115950854B (zh) * 2022-12-02 2023-10-13 北京理工大学 一种硝酸-硝酸铵溶液中硝酸铵浓度预测方法
CN115901677B (zh) * 2022-12-02 2023-12-22 北京理工大学 具有更新机制的硝酸-硝酸铵溶液中硝酸铵浓度预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106153601A (zh) * 2016-10-08 2016-11-23 江南大学 一种基于表面增强拉曼光谱检测油脂痕量氧化的方法
CN107024445A (zh) * 2017-04-17 2017-08-08 中国科学院南京土壤研究所 蔬菜中硝酸盐的快速检测的建模方法和检测方法
CN109001080A (zh) * 2018-05-18 2018-12-14 内蒙古师范大学 一种镧酰基丙氨酸配合物的溶解度和聚集行为的研究方法
CN109187392A (zh) * 2018-09-26 2019-01-11 中南大学 一种基于分区建模的锌液痕量金属离子浓度预测方法
US10229370B1 (en) * 2017-08-29 2019-03-12 Massachusetts Mutual Life Insurance Company System and method for managing routing of customer calls to agents
CN110591075A (zh) * 2019-06-28 2019-12-20 四川大学华西医院 一种PEG-Peptide线性-树状给药***及其制备方法和用途

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106153601A (zh) * 2016-10-08 2016-11-23 江南大学 一种基于表面增强拉曼光谱检测油脂痕量氧化的方法
CN107024445A (zh) * 2017-04-17 2017-08-08 中国科学院南京土壤研究所 蔬菜中硝酸盐的快速检测的建模方法和检测方法
US10229370B1 (en) * 2017-08-29 2019-03-12 Massachusetts Mutual Life Insurance Company System and method for managing routing of customer calls to agents
CN109001080A (zh) * 2018-05-18 2018-12-14 内蒙古师范大学 一种镧酰基丙氨酸配合物的溶解度和聚集行为的研究方法
CN109187392A (zh) * 2018-09-26 2019-01-11 中南大学 一种基于分区建模的锌液痕量金属离子浓度预测方法
CN110591075A (zh) * 2019-06-28 2019-12-20 四川大学华西医院 一种PEG-Peptide线性-树状给药***及其制备方法和用途

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器学习的微量农药光谱预测模型;陈菁菁;《北京信息科技大学学报》;第35卷(第2期);第62-66页 *

Also Published As

Publication number Publication date
CN112750507A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
Khaledian et al. Selecting appropriate machine learning methods for digital soil mapping
Ramirez-Lopez et al. The spectrum-based learner: A new local approach for modeling soil vis–NIR spectra of complex datasets
CN111126575B (zh) 基于机器学习的气体传感器阵列混合气体检测方法及装置
CN112750507B (zh) 基于混合机器学习模型的同时检测水中硝酸盐和亚硝酸盐含量的方法
CN110726694A (zh) 光谱变量梯度集成遗传算法的特征波长选择方法和***
CN110018294B (zh) 土壤重金属检测值校正方法、装置和计算机存储介质
US11790410B2 (en) System and method for natural capital measurement
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
Zhang et al. Predicting soil moisture content over partially vegetation covered surfaces from hyperspectral data with deep learning
CN117010266A (zh) 一种基于XGBoost模型的膏体屈服应力预测方法及装置
El Malki et al. Machine learning for optimal electrode wettability in lithium ion batteries
Tsakiridis et al. Improving the predictions of soil properties from VNIR–SWIR spectra in an unlabeled region using semi-supervised and active learning
CN117078114B (zh) 引水工程影响下受水湖泊水质评价方法和***
Zhang et al. Prediction approach of larch wood density from visible–near-infrared spectroscopy based on parameter calibrating and transfer learning
CN114184599A (zh) 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置
CN114219157B (zh) 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法
Albinet et al. Prediction of exchangeable potassium in soil through mid-infrared spectroscopy and deep learning: From prediction to explainability
CN116186507A (zh) 一种特征子集的选取方法、装置及存储介质
Inik et al. Prediction of Soil Organic Matter with Deep Learning
CN116399836A (zh) 基于交替梯度下降算法的串扰荧光光谱分解方法
CN111062118B (zh) 一种基于神经网络预测分层的多层软测量建模***及方法
Thomas Incorporating auxiliary predictor variation in principal component regression models
He et al. An active learning representative subset selection method using net analyte signal
González-Vargas et al. Validation methods for population models of gene expression dynamics
Li et al. Driving factors of green climate fund leverage

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant