CN104063710B - 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法 - Google Patents

基于支持向量机模型的实测光谱曲线中异常光谱剔除方法 Download PDF

Info

Publication number
CN104063710B
CN104063710B CN201410264086.9A CN201410264086A CN104063710B CN 104063710 B CN104063710 B CN 104063710B CN 201410264086 A CN201410264086 A CN 201410264086A CN 104063710 B CN104063710 B CN 104063710B
Authority
CN
China
Prior art keywords
spectrum
sid
vector machine
supporting vector
scatter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410264086.9A
Other languages
English (en)
Other versions
CN104063710A (zh
Inventor
詹云军
苏余斌
黄解军
余晨
邓安鑫
朱捷缘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201410264086.9A priority Critical patent/CN104063710B/zh
Publication of CN104063710A publication Critical patent/CN104063710A/zh
Application granted granted Critical
Publication of CN104063710B publication Critical patent/CN104063710B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种基于支持向量机模型的实测光谱曲线中异常光谱的剔除方法,利用机器学习理论中支持向量机分类方法思想设置阈值剔除异常光谱,通过交叉验证方法自动参数寻优找出最佳模型参数进而对光谱数据进行分类,避免了人工设置阈值或不断调整阈值的主观性、低效率等问题,能规模化应用于大量光谱数据的处理,并且有效提高了精度和准确性。本发明选取的RBF核函数具有泛化能力强、收敛速度快的特点。本发明还增加了对惩罚系数C、RBF核函数中的间隔参数γ进行寻优的参数选取步骤,结合训练光谱建立SVM二分类算法模型也即支持向量机模型,更进一步的优化了最后异常光谱剔除的结果。

Description

基于支持向量机模型的实测光谱曲线中异常光谱剔除方法
技术领域
本发明涉及一种实测光谱曲线中异常光谱的剔除方法,具体涉及一种基于支持向量机分类方法原理设置阈值剔除异常光谱的方法。
背景技术
光谱分析技术在地质遥感、农林生态、土壤调查、污染监测、食品检测、计量化学等领域应用广泛,在测量过程中,由于仪器噪声、外界环境干扰、操作不当及其他偶发因素的影响,采集到的光谱数据中往往存在异常光谱,如果直接使用这些数据进行建模分析,势必会影响模型的准确性和稳定性。因此,有必要识别出异常光谱并将其剔除。
国内外许多专家学者对异常光谱识别做了相应的研究,陈斌等利用PCA结合马氏距离对光谱异常样品进行剔除;包鑫等利用马氏距离的平均值加两倍马氏距离的标准差作为阈值来剔除异常光谱;Patrick Wiegand等通过偏最小二乘法(PLS)建模,根据光谱数据与所建模型预测值残差大小来判断是否为异常光谱;淡图南等在PLS建模的基础上,采用留一步交叉检验法确定异常光谱数据;ZhiChao Liu等利用蒙特卡洛交叉验证建立一定数量的PLS模型后,按照预测误差平方和排序,并根据光谱在不同模型中出现频次来完成异常光谱的识别。综合国内外研究现状,异常光谱识别基本思想均为大量统计数据分析建模,人为设置阈值或者不断调整阈值后建立预测模型,以相关系数、均方差、平均相对误差等统计参数作为异常样品剔除模型的评价指标,得到不同阈值下的预测精度直至满足要求。上述处理方法存在着两个缺陷,一是运用马氏距离等常规相似性度量方法比较光谱间的差异,不能完全区分开光谱差异;二是人为设置阈值或不断调整阈值的方法,阈值设置依赖处理者的经验,主观性太大,且效率不高,难以应用于大量光谱数据的处理。为了克服上述问题,需要引入新的技术方法和思路。
发明内容:
本发明要解决的技术问题是提供一种基于支持向量机模型的实测光谱曲线中异常光谱的剔除方法,用核函数、惩罚系数和训练光谱建立支持向量机模型,从实测光谱曲线中剔除异常光谱。
为了解决上述技术问题,本发明的技术方案为:
基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,包括如下步骤:1)获取实测光谱数据,并对其进行预处理;2)依据经预处理的实测光谱数据,获取光谱的二维平面散点图;3)将位于二维平面散点图中上方离集群中心较远的离散点标记为总离散点,将二维平面散点图中下方除去了离散点之外的集群点标记为总集群点,总离散点和总集群点共同构成训练光谱;4)选取核函数和惩罚系数C,结合训练光谱建立SVM二分类算法模型;5)将二维平面散点图输入支持向量机模型,在高维空间得到最优分类超平面函数表达式,最优分类超平面函数表达式即为异常光谱阈值线;6)二维平面散点图位于异常光谱阈值线上方的光谱点即为异常光谱,剔除异常光谱。
较佳地,步骤1)预处理包括三个步骤11)去除水汽影响波段,12)采用多项式平滑滤波,滤除原始光谱中高频噪声,13)包络线去除。
较佳地,步骤2)中的二维平面散点图是通过以下方法得到的:计算经预处理的实测光谱数据与标准光谱集平均光谱之间的局部度量,包括欧氏距离ED和余弦角CA,并归一化到0-1之间;计算经预处理的实测光谱数据与标准光谱集平均光谱之间的整体度量,包括光谱信息散度SID,并归一化到0-1之间;光谱编号结合归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值,得到二维平面下的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图;二维平面散点图包括ED散点图和/或CA散点图和/或SID散点图和/或(ED×SID)/CA散点图。
较佳地,二维平面下的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图的建立方法为:以光谱编号为横轴,以归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值为纵轴建立二维平面的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图。
较佳地,步骤4)中的核函数为RBF核函数,K(mu,mv)为核函数,mu,mv表示光谱编号为u与v的光谱在二维平面散点图上光谱度量值;惩罚系数C和RBF核函数中的间隔参数γ均是人为指定的经验参数。
较佳地,还包括对训练光谱进行交叉验证,寻得惩罚系数C和核函数RBF中的间隔参数γ的最优取值的步骤,具体方法为:将训练光谱随机分为N个集合,对其中的N-1个集合进行训练,建立SVM二分类算法模型,得到一个决策函数,并用该决策函数对剩下的一个集合进行样本测试;将上述的过程重复N次,取N次过程中的测试错误的平均值作为误差,误差最小的模型中惩罚系数C和RBF核函数中间隔参数γ的取值即为最优取值。
较佳地,步骤5)是将(ED×SID)/CA二维平面散点图输入支持向量机模型,得到最优分类超平面函数表达式b*表示支持向量偏置,可以用任一个支持向量求得,或通过两类中任意一对支持向量取中值求得;mu,mv表示光谱编号为u与v的光谱在归一化(ED×SID)/CA散点图光谱度量值;ou表示光谱编号u输出不同分类点;支持向量机模型即为由惩罚系数C、代入间隔参数γ最优取值的RBF核函数和训练光谱共同构成的SVM二分类算法模型。
本发明利用机器学习理论中支持向量机分类方法思想设置阈值剔除异常光谱,通过交叉验证方法自动参数寻优找出最佳模型参数进而对光谱数据进行分类,避免了人工设置阈值或不断调整阈值的主观性、低效率等问题,能规模化应用于大量光谱数据的处理,并且有效提高了精度和准确性。通过对实测光谱数据进行预处理是为了增强波形结构,也是为了优化异常光谱剔除的结果。本发明选取的RBF核函数具有泛化能力强、收敛速度快的特点。本发明还增加了对惩罚系数C、RBF核函数中的间隔参数γ进行寻优的参数选取步骤,结合训练光谱建立SVM二分类算法模型也即支持向量机模型,更进一步的优化了最后异常光谱剔除的结果。
附图说明
图1为本发明实施例的流程图,
图2为本发明实施例的ED散点图,
图3为本发明实施例的CA散点图,
图4为本发明实施例的SID散点图,
图5为本发明实施例的(ED×SID)/CA散点图,
图6为本发明实施例的异常光谱阈值线图。
具体实施方式
下面结合附图和实施例对本发明作更进一步的说明。
如图1所示,一种基于支持向量机模型的实测光谱曲线中异常光谱的剔除方法,包括如下步骤:
步骤S1,预处理
获取实测光谱数据,并对其进行预处理,具体包括三个步骤:
11)去除水气影响波段,12)采用多项式平滑滤波,滤除原始光谱中高频噪声,13)包络线去除,包络线去除后将反射率归一化到0-1之间,光谱的吸收和反射特征反映在一致的光谱背景上,有效突出光谱曲线的吸收、反射和发射特征。
光谱数据预处理目的是去除噪声干扰、增强波形特征,为定量度量光谱差异提供更加可靠依据。
步骤S2,获取二维平面散点图
依据经预处理的实测光谱数据,得出光谱的二维平面散点图,具体方法如下:
计算经预处理的实测光谱数据与标准光谱集平均光谱之间的局部度量,包括欧氏距离ED和余弦角CA,并归一化到0-1之间;计算经预处理的实测光谱数据与标准光谱集平均光谱之间的整体度量,包括光谱信息散度SID,并归一化到0-1之间;计算方法如下:
实测光谱曲线X和Y都包含n个波段,即X=(x1,x2...xi...xn),Y=(y1,y2...yi...yn),
欧氏距离
余弦角
光谱信息散度
由于距离、角度度量分别是利用谱段间的距离、角度差异的加权值,导致谱段间差异易相互抵消,所以难以区分整体波形结构差异,从信息论的角度加入光谱信息散度SID定量表征波形整体相似性。
如图2至图4所示,以光谱编号为横轴,以归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值为纵轴建立二维平面的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图。
二维平面散点图包括ED散点图和/或CA散点图和/或SID散点图和/或(ED×SID)/CA散点图。
步骤S3,获取训练光谱
将二维平面下的ED散点图、CA散点图、SID散点图、(ED×SID)/CA散点图这四个二维平面散点图中上方离集群中心较远的离散点标记为总离散点,将二维平面散点图中下方除去了离散点之外的集群点标记为总集群点,总离散点和总集群点共同构成训练光谱;这样即由四个二维平面下的散点图获取得到了二维平面下的训练光谱。
步骤S4,建立支持向量机模型
选取核函数和惩罚系数C,结合训练光谱建立SVM二分类算法模型;
本实施例选取的核函数为RBF核函数,
K(mu,mv)即代表核函数,mu,mv表示光谱编号为u与v的光谱在归一化(ED×SID)/CA散点图上光谱度量值。
间隔参数γ系数为不敏感损失函数参数,γ越大,支持向量越少,γ值越小,支持向量越多;惩罚系数C值用以约束光谱错分情况,C过大或过小,泛化能力变差;
实践中惩罚系数C和RBF核函数中的间隔参数γ多为人为指定的经验参数,作为一种改进,本实施例还包括对训练光谱进行交叉验证,寻得惩罚系数C和核函数RBF中的间隔参数γ的最优取值的步骤。
通过对训练光谱进行交叉验证,自动寻优最佳支持向量机模型所需参数,具体方法为:将训练光谱随机分为N个集合,对其中的N-1个集合进行训练,建立SVM二分类算法模型,得到一个决策函数,并用该决策函数对剩下的一个集合进行样本测试;将上述的过程重复N次,取N次过程中的测试错误的平均值作为误差,误差最小的模型中惩罚系数C和RBF核函数中间隔参数γ的取值即为最优取值。
实践中还可以选取的核函数类型有线性核函数、多项式核函数、sigmoid核函数。本实施例选取的RBF核函数具有泛化能力强、收敛速度快的特点。
将自动寻优出的参数间隔参数γ代入RBF核函数、结合自动寻优的惩罚系数C和训练光谱建立支持向量机模型,训练输入的光谱即为支持向量。
步骤S5,确定异常光谱阈值线
如图6所示,将二维平面散点图输入支持向量机模型,在高维空间得到最优分类超平面函数表达式,最优分类超平面函数表达式即为异常光谱阈值线;
将(ED×SID)/CA二维平面散点图输入支持向量机模型,得到最优分类超平面函数表达式
b*表示支持向量偏置,如图6中实心黑点为支持向量,每个点看成在向量空间中,都可以表示成wx+b的形式,所以任意一个点的b都是已知的,此处支持向量偏置b*即为表达式wx+b中b的值,
还可以通过不同分类点(即离散点和集群点)中任意一对支持向量取中值求得;mu,mv表示光谱编号为u与v的光谱在归一化(ED×SID)/CA散点图光谱度量值;ou表示光谱编号u输出不同分类点。
支持向量机模型即为由惩罚系数C、代入间隔参数γ最优取值的RBF核函数和训练光谱共同构成的SVM二分类算法模型。
步骤S6,剔除异常光谱
二维平面散点图位于异常光谱阈值线上方的光谱点即为异常光谱,剔除异常光谱。
本发明利用机器学习理论中支持向量机分类方法思想设置阈值剔除异常光谱,通过交叉验证方法自动参数寻优找出最佳模型参数进而对光谱数据进行分类,避免了人工设置阈值或不断调整阈值的主观性、低效率等问题,能规模化应用于大量光谱数据的处理,并且有效提高了精度和准确性。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于,包括如下步骤:
1)获取实测光谱数据,并对其进行预处理;
2)依据经预处理的所述实测光谱数据,获取光谱的二维平面散点图,二维平面散点图是通过以下方法得到的:
计算经预处理的实测光谱数据与标准光谱集平均光谱之间的局部度量,包括欧氏距离ED和余弦角CA,并归一化到0-1之间;计算经预处理的实测光谱数据与标准光谱集平均光谱之间的整体度量,包括光谱信息散度SID,并归一化到0-1之间;
光谱编号结合归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值,得到二维平面下的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图;
所述二维平面散点图包括所述ED散点图和/或CA散点图和/或SID散点图和/或(ED×SID)/CA散点图;
3)将位于所述二维平面散点图中上方离集群中心较远的离散点标记为总离散点,将二维平面散点图中下方除去了离散点之外的集群点标记为总集群点,总离散点和总集群点共同构成训练光谱;
4)选取核函数和惩罚系数C,结合所述训练光谱建立支持向量机模型;
5)将所述二维平面散点图输入所述支持向量机模型,在高维空间得到最优分类超平面函数表达式,最优分类超平面函数表达式即为异常光谱阈值线;
6)所述二维平面散点图位于异常光谱阈值线上方的光谱点即为异常光谱,剔除所述异常光谱。
2.根据权利要求1所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:所述步骤1)预处理包括三个步骤11)去除水汽影响波段,12)采用多项式平滑滤波,滤除原始光谱中高频噪声,13)包络线去除。
3.根据权利要求1所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:所述二维平面下的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图的建立方法为:以光谱编号为横轴,以归一化后的欧氏距离ED、余弦角CA、光谱信息散度SID和表达式(ED×SID)/CA的值为纵轴建立二维平面的ED散点图、CA散点图、SID散点图和(ED×SID)/CA散点图。
4.根据权利要求1所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:所述步骤4)中的核函数为RBF核函数,K(mu,mv)为核函数,mu,mv表示光谱编号为u与v的光谱在二维平面散点图上光谱度量值;所述惩罚系数C和所述RBF核函数中的间隔参数γ均是人为指定的经验参数。
5.根据权利要求4所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:还包括对所述训练光谱进行交叉验证,寻得惩罚系数C和核函数RBF中的间隔参数γ的最优取值的步骤,具体方法为:将所述训练光谱随机分为N个集合,对其中的N-1个集合进行训练,建立SVM二分类算法模型,得到一个决策函数,并用该决策函数对剩下的一个集合进行样本测试;将上述的过程重复N次,取每次过程的测试错误的平均值作为所进行样本测试集合的平均误差,将N次测试所得的N个平均误差中值最小的模型的惩罚系数C和RBF核函数中间隔参数γ的取值作为所述最优取值。
6.根据权利要求1或5所述的基于支持向量机模型的实测光谱曲线中异常光谱剔除方法,其特征在于:所述步骤5)是将(ED×SID)/CA二维平面散点图输入所述支持向量机模型,得到最优分类超平面函数表达式b*表示支持向量偏置;mu,mv表示光谱编号为u与v的光谱在归一化(ED×SID)/CA散点图光谱度量值;ou表示光谱编号u输出不同分类点;所述支持向量机模型即为由惩罚系数C、代入间隔参数γ最优取值的RBF核函数和训练光谱共同构成的SVM二分类算法模型。
CN201410264086.9A 2014-06-13 2014-06-13 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法 Expired - Fee Related CN104063710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410264086.9A CN104063710B (zh) 2014-06-13 2014-06-13 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410264086.9A CN104063710B (zh) 2014-06-13 2014-06-13 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法

Publications (2)

Publication Number Publication Date
CN104063710A CN104063710A (zh) 2014-09-24
CN104063710B true CN104063710B (zh) 2017-08-11

Family

ID=51551412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410264086.9A Expired - Fee Related CN104063710B (zh) 2014-06-13 2014-06-13 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法

Country Status (1)

Country Link
CN (1) CN104063710B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106018515B (zh) * 2016-06-08 2019-01-15 北京科技大学 一种基于流形学习的电子舌信号特征提取方法
JP6782679B2 (ja) * 2016-12-06 2020-11-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理装置、情報処理方法及びプログラム
CN110579466B (zh) * 2018-06-11 2020-12-18 中国农业机械化科学研究院 一种激光诱导击穿光谱筛选方法
CN110897593A (zh) * 2019-10-24 2020-03-24 南京航空航天大学 一种基于光谱特征参数的***前病变诊断方法
CN110910021A (zh) * 2019-11-26 2020-03-24 上海华力集成电路制造有限公司 一种基于支持向量机监控在线缺陷的方法
CN111125629B (zh) * 2019-12-25 2023-04-07 温州大学 一种域自适应的pls回归模型建模方法
CN114951047B (zh) * 2022-05-26 2023-08-22 河海大学 基于光纤传感器的振动送料中通用型智能分选方法
CN117132504B (zh) * 2023-10-20 2024-01-30 武汉怡特环保科技有限公司 基于单光子光谱计数技术成像去除干扰的方法
CN117596487B (zh) * 2024-01-18 2024-04-26 深圳市城市公共安全技术研究院有限公司 相机扰动自矫正方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0506117A (pt) * 2005-10-14 2007-07-03 Fundacao Oswaldo Cruz método de diagnóstico baseado em padrões proteÈmicos e/ou genÈmicos por vetores de suporte aplicado a espectometria de massa
CN101713731B (zh) * 2009-11-09 2012-02-29 北京中医药大学 一种药物制剂包衣质量的鉴别方法

Also Published As

Publication number Publication date
CN104063710A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN104063710B (zh) 基于支持向量机模型的实测光谱曲线中异常光谱剔除方法
TWI739798B (zh) 一種建立資料識別模型的方法及裝置
Suárez et al. Artificial intelligence in agriculture
CN103235095B (zh) 注水肉检测方法和装置
CN105630743A (zh) 一种光谱波数的选择方法
Mishra et al. Identification of citrus greening (HLB) using a VIS-NIR spectroscopy technique
CN110907393B (zh) 植物盐碱胁迫程度检测方法及装置
CN109253985B (zh) 基于神经网络的近红外光谱识别古筝面板用木材等级的方法
CN110132938B (zh) 一种拉曼光谱法鉴别大米种类的特征数据提取方法
CN104359847B (zh) 获取代表典型水体类别的质心集的方法及装置
CN102982339A (zh) 一种高光谱特征变量选取的方法
CN104062008B (zh) 一种考虑整体度量的实测光谱曲线中异常光谱的剔除方法
Kristóf et al. Data reduction and univariate splitting—Do they together provide better corporate bankruptcy prediction?
Shah et al. Mango maturity classification instead of maturity index estimation: A new approach towards handheld NIR spectroscopy
CN108827909B (zh) 基于可见近红外光谱与多目标融合的土壤快速分类方法
Nturambirwe et al. Detecting bruise damage and level of severity in apples using a contactless nir spectrometer
Zhaoyong et al. Detection of moldy core in apples and its symptom types using transmittance spectroscopy
CN110779875A (zh) 一种基于高光谱技术检测冬小麦麦穗水分含量的方法
CN102521830B (zh) 一种受病害胁迫农作物冠层高光谱图像的波段优选方法
CN106841070A (zh) 一种白酒真伪鉴定方法及装置
Raihen et al. Prediction modeling using deep learning for the classification of grape-type dried fruits
Zheng et al. Improving the identification accuracy of sugar orange suffering from granulation through diameter correction and stepwise variable selection
CN104897608B (zh) 一种基于近红外光谱技术的乌龙茶品质鉴定方法
CN116242791A (zh) 融合光谱形态特征的苹果霉心病检测方法
CN112629659A (zh) 用于训练用于不同的光谱仪的管线的自动化模型训练装置和自动化模型训练方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170811