CN105005790A - 基于半监督学习的电子鼻室内毒气智能识别方法 - Google Patents
基于半监督学习的电子鼻室内毒气智能识别方法 Download PDFInfo
- Publication number
- CN105005790A CN105005790A CN201510391640.4A CN201510391640A CN105005790A CN 105005790 A CN105005790 A CN 105005790A CN 201510391640 A CN201510391640 A CN 201510391640A CN 105005790 A CN105005790 A CN 105005790A
- Authority
- CN
- China
- Prior art keywords
- classification device
- basic classification
- poison gas
- label
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于半监督学习的电子鼻室内毒气智能识别方法,采用已知标签的毒气样本数据集L的样本训练每一个基本分类器,在每次学习循环中每一个基本分类器轮流作为主分类器,通过主分类器对未知标签样本数据集U进行分类,并利用其余的基本分类器对样本数据集U中数据的标签进行预测,在投票表决结果中,如果数据集U中某一数据标签的投票数超过预先设置好的阈值时,则该样本数据连同它的标签将被用来与原始的数据集L一起重新训练分类器,最后再通过增加分类器的数目来判定***的识别率是否已经达到最优,这样训练后的分类器不仅具有更多的基本分类器规模,而且具有更强的从未知标签样本中学习气味模式的能力。
Description
技术领域
本发明涉及电子鼻信号处理中的分类识别技术,具体地说,是一种基于半监督学习的电子鼻室内毒气智能识别方法。
背景技术
目前,对于室内毒气检测,为了保证检测结果的正确性,所采用的电子鼻***在训练阶段需采用大量的学习样本,一般来说,使用有标签数据训练得到的电子鼻对毒气的分类正确率要高于基于无标签数据训练得到的电子鼻,但是无标签数据要比有标签数据更容易获取。
因此,有人提出了半监督学习技术,通过半监督学习技术可以帮助电子鼻不仅从训练样本中学习相关模式,也可从未知标签样本中学习相关知识,从而实现对某种气味模式的持续学习即直到识别率不再发生任何提高为止。
但是,已提出的半监督学习技术存在的不足:一是很大一部分半监督学习技术针对的是二分类问题,而室内毒气的种类远不止两类,因此无法满足应用需求;二是可进行多分类的半监督学习算法,其分类器规模又被限定,导致对测试样本的学习效果不佳,分类精度不高。
发明内容
针对现有技术的不足,本发明的目的是提供一种基于半监督学***。
为达到上述目的,本发明采用的技术方案如下:
一种基于半监督学习的电子鼻室内毒气智能识别方法,其关键在于按照以下步骤进行:
步骤1:获取已知标签的毒气样本数据集L与未知标签的毒气样本数据集U,预设基本分类器的数目M=3,当前训练次数为t;
步骤2:从已知标签的毒气样本数据集L中随机产生M个规模相等的子集Li来训练每个基本分类器ci,i=1~M;
步骤3:利用步骤2训练出的每个基本分类器对已知标签的毒气样本数据集L进行分类识别,得到每个分类器的初始识别率,利用简单投票法对所有分类器的判别结果进行整合,得到***初始识别率;
步骤4:设第i个基本分类器ci为主分类器,采用主分类器对未知标签的毒气样本数据集U中的数据进行分类,并采用其余的M-1个基本分类器对未知标签的毒气样本数据集U中数据的标签进行预测,得到预测错误率ei(t);
步骤5:当本次训练出的基本分类器的预测错误率ei(t)低于上一次预测错误率ei(t-1)时,如果未知标签的毒气样本数据集U中的数据被其余M-1个基本分类器投票的结果超过预设的阈值θ,则将该数据并入数据集Li(t)中;
步骤6:判断是否满足其中|Li(t)|表示本次训练数据集Li(t)的规模,|Li(t-1)|表示上一次训练数据集Li(t-1)的规模,ei(t)表示本次训练出的基本分类器ci的预测错误率,ei(t-1)表示上一次训练出的基本分类器ci的预测错误率;
如果满足,则利用步骤5所得的新的数据集Li(t)和原始的数据子集Li对基本分类器ci进行重新训练;
否则,从步骤5所得的新的数据集Li(t)中随机移除s个样本后再和原始的数据子集Li对基本分类器ci进行重新训练,其中: int()为取整函数;
步骤7:按照i=1~M依次对M个基本分类器进行步骤4至步骤6的操作,直至每个基本分类器的识别率不再发生变化;
步骤8:按照M=M+1增加基本分类器的数目,重复步骤2至步骤7的操作,直至***的识别率达到预期目标。
在实施过程中,所述基本分类器使用支持向量机或人工神经网络构建,当然也可以采用其他的分类识别算法构建基本分类器。
作为优选,步骤4中按照计算预测错误率,其中ni(t)表示在第t次训练时,未知标签的毒气样本数据集U中被其余M-1个基本分类器预测并获得标签的样本,ni'(t)表示未知标签的毒气样本数据集U中被其余M-1个基本分类器预测并获得正确标签的样本。
本发明中,采用已知标签的毒气样本数据集L的样本训练每一个基本分类器,在每次学习循环中每一个基本分类器轮流作为主分类器,通过主分类器对未知标签样本数据集U进行分类,并利用其余的基本分类器对样本数据集U中数据的标签进行预测,在投票表决结果中,如果数据集U中某一数据标签的投票数超过预先设置好的阈值时,则该样本数据连同它的标签将被用来与原始的数据集L一起重新训练分类器,最后再通过增加分类器的数目来判定***的识别率是否已经达到最优,这样训练后的分类器不仅具有更多的基本分类器规模,而且具有更强的从未知标签样本中学习气味模式的能力。
本发明的显著效果是:相较于现有分类识别算法,不仅提高了基本分类器规模,而且具有更强的从未知标签样本中学***。
具体实施方式
下面对本发明的具体实施方式以及工作原理作进一步详细说明。
一种基于半监督学习的电子鼻室内毒气智能识别方法,按照以下步骤进行:
步骤1:获取已知标签的毒气样本数据集L与未知标签的毒气样本数据集U,预设基本分类器的数目M=3,当前训练次数为t;
步骤2:从已知标签的毒气样本数据集L中随机产生M个规模相等的子集Li来训练每个基本分类器ci,i=1~M;
步骤3:利用步骤2训练出的每个基本分类器对已知标签的毒气样本数据集L进行分类识别,得到每个分类器的初始识别率,利用简单投票法对所有分类器的判别结果进行整合,得到***初始识别率;
步骤4:设第i个基本分类器ci为主分类器,采用主分类器对未知标签的毒气样本数据集U中的数据进行分类,并采用其余的M-1个基本分类器对未知标签的毒气样本数据集U中数据的标签进行预测,得到预测错误率ei(t);
步骤5:当本次训练出的基本分类器的预测错误率ei(t)低于上一次预测错误率ei(t-1)时,如果未知标签的毒气样本数据集U中的数据被其余M-1个基本分类器投票的结果超过预设的阈值θ,则将该数据并入数据集Li(t)中;
步骤6:判断是否满足其中|Li(t)|表示本次训练数据集Li(t)的规模,|Li(t-1)|表示上一次训练数据集Li(t-1)的规模,ei(t)表示本次训练出的基本分类器ci的预测错误率,ei(t-1)表示上一次训练出的基本分类器ci的预测错误率;
如果满足,则利用步骤5所得的新的数据集Li(t)和原始的数据子集Li对基本分类器ci进行重新训练;
否则,从步骤5所得的新的数据集Li(t)中随机移除s个样本后再和原始的数据子集Li对基本分类器ci进行重新训练,其中: int()为取整函数;
步骤7:按照i=1~M依次对M个基本分类器进行步骤4至步骤6的操作,直至每个基本分类器的识别率不再发生变化;
步骤8:按照M=M+1增加基本分类器的数目,重复步骤2至步骤7的操作,直至***的识别率达到预期目标。
在本实施例中,所述基本分类器使用支持向量机构建。
步骤4中按照计算预测错误率,其中ni(t)表示在第t次训练时,未知标签的毒气样本数据集U中被其余M-1个基本分类器预测并获得标签的样本,ni'(t)表示未知标签的毒气样本数据集U中被其余M-1个基本分类器预测并获得正确标签的样本。但是因为没有办法计算未知标签的样本集的分类正确率,并且只有数据集L是可用的(标签已知,可计算分类正确率),因此基于有标签样本与无标签样本符合同样的数据分布这样的假设前提,具体实施过程中,使用数据集L的识别率代替数据集U的识别率,对应的使用数据集L的预测错误率去代替数据集U的预测错误率。
为了进一步理解本发明的技术效果,下面分别采用本发明训练获得的最终分类器以及参考文献:Z-H.Zhou,Tri-training:exploiting unlabeleddata using three classifiers,Knowledge and Data Engineering,IEEETransactions on,17(2005)1529-1541.所提出的Tri-training算法训练获得的分类器对具有三类室内污染毒气(苯、甲苯、甲醛)进行分类识别,识别结果如表1所示。
表1 Tri-training和携带不同量基本分类器的本方案对应的测试集的识别率(%)
备注:
1、基本分类器使用支持向量机(仅是一个实例,并不局限于此,人工神经网络等均可);
2、此处的识别率均是测试集识别率,是完全独立于数据集L和U的,用于验证半监督学习对提升电子鼻进行毒气识别率正确率的有效性;
3、Classification accuracy(initial)在步骤3中获得,采用简单投票法将所有基本分类器的结果进行汇总;
4、Classification accuracy(final)在步骤8中获得,计算方式与Classification accuracy(initial)相同;
5、Impro=(final accuracy-initial accuracy)/initial accuracy。
从表1的对比结果可以看出,在一定情况下,雇佣更多的基本分类器意味着有更多的机会可以从未知标签的样本中学到知识,从而提高识别正确率;而从分别具有4个基本分类器、5个基本分类器和6个基本分类器的本发明方法的识别结果表明,当未知标签样本集确定后,该样本集能提供的知识就是有限的,再提高基本分类器的数量也并不能无限提高识别率,此时只有扩大未知样本集的规模,才能再进一步提高识别率。
综上所述,本发明在电子鼻信号识别过程中,通过结合现有半监督学习方法,同时通过不断扩展分类器数目来提高***的识别率,针对室内毒气检测而言,一定程度上增加了从未知标签样本学习知识的机会,能够有效实现室内毒气检测。
Claims (3)
1.一种基于半监督学习的电子鼻室内毒气智能识别方法,其特征在于按照以下步骤进行:
步骤1:获取已知标签的毒气样本数据集L与未知标签的毒气样本数据集U,预设基本分类器的数目M=3,当前训练次数为t;
步骤2:从已知标签的毒气样本数据集L中随机产生M个规模相等的子集Li来训练每个基本分类器ci,i=1~M;
步骤3:利用步骤2训练出的每个基本分类器对已知标签的毒气样本数据集L进行分类识别,得到每个分类器的初始识别率,利用简单投票法对所有分类器的判别结果进行整合,得到***初始识别率;
步骤4:设第i个基本分类器ci为主分类器,采用主分类器对未知标签的毒气样本数据集U中的数据进行分类,并采用其余的M-1个基本分类器对未知标签的毒气样本数据集U中数据的标签进行预测,得到预测错误率ei(t);
步骤5:当本次训练出的基本分类器的预测错误率ei(t)低于上一次预测错误率ei(t-1)时,如果未知标签的毒气样本数据集U中的数据被其余M-1个基本分类器投票的结果超过预设的阈值θ,则将该数据并入数据集Li(t)中;
步骤6:判断是否满足其中|Li(t)|表示本次训练数据集Li(t)的规模,|Li(t-1)|表示上一次训练数据集Li(t-1)的规模,ei(t)表示本次训练出的基本分类器ci的预测错误率,ei(t-1)表示上一次训练出的基本分类器ci的预测错误率;
如果满足,则利用步骤5所得的新的数据集Li(t)和原始的数据子集Li对基本分类器ci进行重新训练;
否则,从步骤5所得的新的数据集Li(t)中随机移除s个样本后再和原始的数据子集Li对基本分类器ci进行重新训练,其中: int()为取整函数;
步骤7:按照i=1~M依次对M个基本分类器进行步骤4至步骤6的操作,直至每个基本分类器的识别率不再发生变化;
步骤8:按照M=M+1增加基本分类器的数目,重复步骤2至步骤7的操作,直至***的识别率达到预期目标。
2.根据权利要求1所述的基于半监督学习的电子鼻室内毒气智能识别方法,其特征在于:所述基本分类器使用支持向量机或人工神经网络构建。
3.根据权利要求1所述的基于半监督学习的电子鼻室内毒气智能识别方法,其特征在于:步骤4中按照计算预测错误率,其中ni(t)表示在第t次训练时,未知标签的毒气样本数据集U中被其余M-1个基本分类器预测并获得标签的样本,ni'(t)表示未知标签的毒气样本数据集U中被其余M-1个基本分类器预测并获得正确标签的样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510391640.4A CN105005790B (zh) | 2015-07-06 | 2015-07-06 | 基于半监督学习的电子鼻室内毒气智能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510391640.4A CN105005790B (zh) | 2015-07-06 | 2015-07-06 | 基于半监督学习的电子鼻室内毒气智能识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105005790A true CN105005790A (zh) | 2015-10-28 |
CN105005790B CN105005790B (zh) | 2018-01-09 |
Family
ID=54378455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510391640.4A Expired - Fee Related CN105005790B (zh) | 2015-07-06 | 2015-07-06 | 基于半监督学习的电子鼻室内毒气智能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105005790B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388929A (zh) * | 2018-03-27 | 2018-08-10 | 四川大学 | 基于代价敏感和半监督分类的客户分类方法及装置 |
CN110222171A (zh) * | 2019-05-08 | 2019-09-10 | 新华三大数据技术有限公司 | 一种分类模型应用、分类模型训练方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070229237A1 (en) * | 2005-09-20 | 2007-10-04 | Lawrence Kates | Programmed wireless sensor system |
CN101135689A (zh) * | 2007-09-21 | 2008-03-05 | 华中科技大学 | 一种电子鼻开发平台 |
CN102866179A (zh) * | 2012-09-13 | 2013-01-09 | 重庆大学 | 基于人工智能学习机的电子鼻中非目标干扰气味的在线识别和抑制方法 |
CN103412003A (zh) * | 2013-08-21 | 2013-11-27 | 电子科技大学 | 基于半监督领域自适应的气体检测方法 |
-
2015
- 2015-07-06 CN CN201510391640.4A patent/CN105005790B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070229237A1 (en) * | 2005-09-20 | 2007-10-04 | Lawrence Kates | Programmed wireless sensor system |
CN101135689A (zh) * | 2007-09-21 | 2008-03-05 | 华中科技大学 | 一种电子鼻开发平台 |
CN102866179A (zh) * | 2012-09-13 | 2013-01-09 | 重庆大学 | 基于人工智能学习机的电子鼻中非目标干扰气味的在线识别和抑制方法 |
CN103412003A (zh) * | 2013-08-21 | 2013-11-27 | 电子科技大学 | 基于半监督领域自适应的气体检测方法 |
Non-Patent Citations (1)
Title |
---|
廖海洋 等: ""多点测量式毒气阵列检测***研究与光谱分析"", 《光电工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388929A (zh) * | 2018-03-27 | 2018-08-10 | 四川大学 | 基于代价敏感和半监督分类的客户分类方法及装置 |
CN110222171A (zh) * | 2019-05-08 | 2019-09-10 | 新华三大数据技术有限公司 | 一种分类模型应用、分类模型训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105005790B (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389180A (zh) | 一款基于深度学习的电力设备图像识别方法及巡查机器人 | |
CN111160401B (zh) | 一种基于均值漂移和XGBoost的异常用电判别方法 | |
CN102156871B (zh) | 基于类别相关的码本和分类器投票策略的图像分类方法 | |
CN105184312A (zh) | 一种基于深度学习的文字检测方法及装置 | |
CN110166484A (zh) | 一种基于LSTM-Attention网络的工业控制***入侵检测方法 | |
CN104978570B (zh) | 基于增量学习的行车视频中交通标志的检测和识别方法 | |
CN104680542A (zh) | 基于在线学习的遥感影像变化检测方法 | |
CN106022229A (zh) | 基于视频运动信息特征提取与自适应增强算法的误差反向传播网络的异常行为识别方法 | |
CN106203492A (zh) | 一种图像隐写分析的***及方法 | |
CN101504781A (zh) | 有价文件识别方法及装置 | |
CN111242161B (zh) | 一种基于智能学习的非侵入式非居民用户负荷辨识方法 | |
CN103903441A (zh) | 一种基于半监督学习的道路交通状态判别方法 | |
CN103218405A (zh) | 基于维数约简的集成迁移文本分类方法 | |
CN109031103A (zh) | 一种交流接触器性能退化与状态评估方法及*** | |
CN102360434B (zh) | 一种智能交通监控中车辆和行人的目标分类方法 | |
CN111126820A (zh) | 反窃电方法及*** | |
Liu et al. | Classification of power quality disturbance using segmented and modified S-transform and DCNN-MSVM hybrid model | |
Lun et al. | Skip-YOLO: Domestic garbage detection using deep learning method in complex multi-scenes | |
CN105005790A (zh) | 基于半监督学习的电子鼻室内毒气智能识别方法 | |
Yang et al. | Event detection, localization, and classification based on semi-supervised learning in power grids | |
CN104537392A (zh) | 一种基于判别性语义部件学习的对象检测方法 | |
CN105447511B (zh) | 一种基于Adaboost Haar-Like特征的SVM目标检测方法 | |
CN110610203A (zh) | 基于dwt和极限学习机的电能质量扰动分类方法 | |
CN103246897B (zh) | 一种基于AdaBoost的弱分类器内部结构调整方法 | |
Qiu et al. | Attack detection for spoofed synchrophasor measurements using segmentation network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180109 Termination date: 20180706 |