CN107563406A - 一种自主学习的图像精细分类方法 - Google Patents

一种自主学习的图像精细分类方法 Download PDF

Info

Publication number
CN107563406A
CN107563406A CN201710598711.7A CN201710598711A CN107563406A CN 107563406 A CN107563406 A CN 107563406A CN 201710598711 A CN201710598711 A CN 201710598711A CN 107563406 A CN107563406 A CN 107563406A
Authority
CN
China
Prior art keywords
network
data collection
data
label
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710598711.7A
Other languages
English (en)
Other versions
CN107563406B (zh
Inventor
宣琦
肖浩泉
傅晨波
方宾伟
王金宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201710598711.7A priority Critical patent/CN107563406B/zh
Publication of CN107563406A publication Critical patent/CN107563406A/zh
Application granted granted Critical
Publication of CN107563406B publication Critical patent/CN107563406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种自主学习的图像精细分类方法,包括以下步骤:1)人工采集对应需求标签的图像数据集,保存至强标签数据集,使用ImageNet数据集初始化卷积神经网络CNN参数;2)使用强标签数据集微调修正CNN;3)判断分类网络的优化趋势;4)判断网络分类精度是否达到了要求;5)利用网络爬虫从互联网爬取、人工采集与标签相关的图像数据和噪声数据保存至弱标签数据集;6)使用弱标签数据集调整滤波器的阈值;7)使用调整后的滤波器筛选数据保存至强标签数据集和噪声数据集;8)保存网络权重和滤波器参数。本发明训练得到的分类器的分类精度和鲁棒性都较高。

Description

一种自主学习的图像精细分类方法
技术领域
本发明涉及卷积神经网络(CNN),网络爬虫技术及图像分类技术,特别针对噪声数据的分类器训练技术,尤其是一种自主学习的图像精细分类方法。
背景技术
随着机器学习技术的应用越来越广泛尤其是深度学习技术的发展,依赖于深度学习的机器学习方法的设计变得越来越简单,而训练数据集的获取成为了限制机器学习最大的门槛。传统的机器学习所用的数据集都为人工采集,即便是用互联网爬取的数据,也需要人为的进行标注和筛选。
传统的机器学***移、倾斜具有不变性,提高了算法处理图像的鲁棒性。
图像识别是深度学习的一大受益者,如果有足够的准确标注的图像数据集,就能用深度学习的方法得到分类效果较好的图像分类器。而互联网上存在大量的弱标签的图像数据,已经存在可行的方法爬取这些图像数据。如果通过网络爬虫的手段爬取公开的图像数据,再通过计算机程序自动筛选标签正确的图像,就可以用较小的成本获取较大量所需的图像数据集,从而通过卷积神经网络训练出较高正确率的图像子类分类器。目前常见的网络图像数据源主要包含两种类型:
1、主流图像搜索引擎,如Baidu、Google、Bing、Yahoo等;
2、图像分享网站,如Picasa、Flickr、Instagram等。
当使用网络爬虫技术获取图像数据时,使用图像搜索引擎爬取的图像质量随显示的顺序大体呈现下降的趋势,使用图像分享网站爬取的图像质量尽管与图像搜索引擎相比与显示的顺序相关性较小,但随爬取的数量增加,质量也会有所下降。如果直接使用爬取的数据训练网络,就会出现网络分类器正确率先增后减的情况,最终得到的分类器难以满足需求。
发明内容
为了克服现有技术中传统的网络爬虫得到的图像数据存在数据噪声过大造成的训练分类器正确率低的情况,本发明提出了一种针对噪声数据集的自主学习的图像精细分类方法,本发明具体用到的深度学习方法为卷积神经网络(CNN),卷积神经网络算法直接使用图像作为输入,避免了传统识别算法中复杂的特征提取和数据重建过程,训练得到的分类器的分类精度和鲁棒性都较高。
本发明为解决上述技术问题所采用的技术方案如下:
一种自主学习的图像精细分类方法,包括以下步骤:
S1:人工采集对应需求标签的图像数据集,保存至强标签数据集,使用ImageNet数据集初始化卷积神经网络CNN参数;
S2:使用强标签数据集微调修正CNN;
S3:判断分类网络的优化趋势;
S4:判断网络分类精度是否达到了要求;
S5:利用网络爬虫从互联网爬取、人工采集与标签相关的图像数据和噪声数据保存至弱标签数据集;
S6:使用弱标签数据集调整滤波器的阈值。
S7:使用调整后的滤波器筛选数据保存至强标签数据集和噪声数据集。
S8:保存网络权重和滤波器参数。
进一步,所述步骤S1包含以下步骤:
S1.1:根据需求列出分类名单作为标签列表,按照标签列表从互联网抓取或使用相机人工采集相关的图片,每一类保留设定数量张准确的图片。
S1.2:使用ImageNet数据集训练卷积神经网络,主要为训练网络的卷积层参数。
优选的,所述步骤S2的处理过程为:使用强标签数据微调训练卷积神经网络,主要为调整网络的分类参数。
再进一步,所述步骤S3包括以下步骤:
S3.1:若迭代不足三次,则进入步骤S4;
S3.2:比较最近三次迭代中,末次是否是最优分类精度,是则认为网络还在优化阶段,否则认为网络参数已经停止收敛;
S3.2:若网络仍在优化阶段,则进入步骤S4;
S3.3:若网络参数停止收敛,则进入步骤S8。
所述步骤S4包括以下步骤:
S4.1:判断网络精度是否达到了预设的精度要求;
S4.2:若是,则进入步骤S8;
S4.3:若否,则进入步骤S5。
所述步骤S5包含以下步骤:
S5.1:使用爬虫技术从互联网爬取与标签相关的图像数据,包含但不局限于Baidu、Bing、Google、Yahoo、Instagram或Flickr;
S5.2:采用数码设备人工采集与标签对应的图像数据。
所述步骤S6包含以下步骤:
S6.1:统计分类网络对弱标签数据的分类结果,计算标类间相似度;
S6.2:根据类间相似度,计算使分类误差最小的分类阈值.
所述步骤S7包含以下步骤:
S7.1:使用当前的分类网络和调节后的滤波器筛选弱标签数据集;
S7.2:分类可信的数据归至强标签数据集,不可信的数据归至噪声数据集;
S7.3:随机挑选每类50张图片至弱标签数据集。
所述步骤S8包含以下步骤:
S8.1:将最新的网络参数初始化最终分类网络;
S8.2:停止学习。
本发明所述的方法具有如下的有益效果:
(1)本发明所述的方法通过卷积神经网络对噪声数据进行判断,适时终止学习,提高了机器学习的效率,降低了在数据筛选上消耗的时间。
(2)本发明所述的方法利用爬虫等方法获取到的数据训练卷积神经网络,能够不断增强卷积神经网络的鲁棒性,使最终的分类器有一个较优的性能。
(3)本发明所述的方法将卷积神经网络与图像分类结合,实现双向互惠,形成一个不断优化的可持续***,减少了整个项目投入的人力成本。
附图说明
图1为一种自主学习的图像精细分类方法的流程图;
图2为完整的分类器学习流程图;
图3为分类器分类损失值随迭代次数减小的变化曲线。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图图1~图3,一种自主学习的图像精细分类方法,包括以下步骤:
步骤1:随机获取初始图像数据和分类网络
根据需求列出分类名单作为标签列表,按照标签列表从互联网抓取或使用相机人工采集相关的图片,每一类保留设定数量张准确的图片,使用ImageNet数据集训练卷积神经网络,主要为训练网络的卷积层参数;
步骤2:强标签数据微调分类网络
使用强标签数据微调训练卷积神经网络,主要为调整网络的分类参数;
步骤3:判断分类网络的优化趋势
若迭代不足三次,则进入步骤4;比较最近三次迭代中,末次是否是最优分类精度,是则认为网络还在优化阶段,否则认为网络参数已经停止收敛;若网络仍在优化阶段,则进入步骤4;若网络参数停止收敛,则进入步骤8;
步骤4:判断网络分类精度是否达到了要求
判断网络精度是否达到了预设的精度要求,是则进入步骤8,若否,则进入步骤5;
步骤5:扩充弱标签数据集
使用爬虫技术从互联网爬取与标签相关的图像数据,包含但不局限于Baidu、Bing、Google、Yahoo、Instagram或Flickr;
采用相机、手机等数码设备人工采集与标签对应的图像数据;
步骤6:计算滤波器的参数
统计分类网络对弱标签数据的分类结果,计算标类间相似度;
根据类间相似度,计算使分类误差最小的分类阈值;
步骤7:筛选数据
使用当前的分类网络和调节后的滤波器筛选弱标签数据集;
分类可信的数据归至强标签数据集,不可信的数据归至噪声数据集;
随机挑选每类50张图片至弱标签数据集;
步骤8:结束学习过程
分类可信的数据归至强将最新的网络参数初始化最终分类网络;停止学习。
本实施例对互联网公开的图像数据进行数据爬取。以本实例研究对宠物图像精细分类器训练为例,介绍本发明,所述图像精细分类方法包括以下步骤:
步骤1:随机获取初始图像数据和分类网络:
参照图2,使用Oxford Pets数据集,每类使用100张图像作为初始训练数据保存至强标签数据集。使用ImageNet数据集训练AlexNet网络参数;
步骤2:强标签数据微调分类网络:
使用强标签数据集微调训练AlexNet网络,得到一个能够粗略识别宠物种类的图像分类器,对输入的图像输出该图像属于每一种类的概率,按概率从大到小排列子类名单;
步骤3:判断分类网络的优化趋势:
若迭代不足三次,则进入步骤4;比较最近三次迭代中,末次是否是最优分类精度,是则认为网络还在优化阶段,否则认为网络参数已经停止收敛;若网络仍在优化阶段,则进入步骤4;若网络参数停止收敛,则进入步骤8;
步骤4:判断网络分类精度是否达到了要求:
判断网络精度是否达到了预设的精度要求,若是则进入步骤8,若否,则进入步骤5;
步骤5:扩充弱标签数据集:
使用爬虫技术从Baidu、Bing、Google、Yahoo、Sogou爬取相关图像;
步骤6:计算滤波器的参数:
统计分类网络对弱标签数据的分类结果,计算标类间相似度;根据类间相似度,计算使分类误差最小的分类阈值;
步骤7:筛选数据:
使用当前的分类网络和调节后的滤波器筛选弱标签数据集,分类可信的数据归至强标签数据集,不可信的数据归至噪声数据集,从噪声数据集随机挑选每类50张图片至弱标签数据集;
步骤8:结束学习过程:
分类可信的数据归至强将最新的网络参数初始化最终分类网络并停止学习过程。
迭代过程中网络分类的损失值变化如图3。
如上所述为本发明在宠物图像分类的实施例介绍,本发明通过对图像分类器的迭代更新和网络爬取数据的自动筛选,由初始的少量数据量扩展成大量数据量,明显提高了图像分类器的分类精度,减少了大量人力和财力。对发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (9)

1.一种自主学习的图像精细分类方法,其特征在于:包括以下步骤:
S1:人工采集对应需求标签的图像数据集,保存至强标签数据集,使用ImageNet数据集初始化卷积神经网络CNN参数;
S2:使用强标签数据集微调修正CNN;
S3:判断分类网络的优化趋势;
S4:判断网络分类精度是否达到了要求;
S5:利用网络爬虫从互联网爬取、人工采集与标签相关的图像数据和噪声数据保存至弱标签数据集;
S6:使用弱标签数据集调整滤波器的阈值。
S7:使用调整后的滤波器筛选数据保存至强标签数据集和噪声数据集。
S8:保存网络权重和滤波器参数。
2.根据权利要求1所述的自主学习的图像精细分类方法,其特征在于:所述步骤S1包含以下步骤:
S1.1:根据需求列出分类名单作为标签列表,按照标签列表从互联网抓取或使用相机人工采集相关的图片,每一类保留设定数量张准确的图片。
S1.2:使用ImageNet数据集训练卷积神经网络,主要为训练网络的卷积层参数。
3.根据权利要求1或2所述的自主学习的图像精细分类方法,其特征在于:所述步骤S2的处理过程为:使用强标签数据微调训练卷积神经网络,主要为调整网络的分类参数。
4.根据权利要求1或2所述的自主学习的图像精细分类方法,其特征在于:所述步骤S3包括以下步骤:
S3.1:若迭代不足三次,则进入步骤S4;
S3.2:比较最近三次迭代中,末次是否是最优分类精度,是则认为网络还在优化阶段,否则认为网络参数已经停止收敛;
S3.2:若网络仍在优化阶段,则进入步骤S4;
S3.3:若网络参数停止收敛,则进入步骤S8。
5.根据权利要求1或2所述的自主学习的图像精细分类方法,其特征在于:所述步骤S4包括以下步骤:
S4.1:判断网络精度是否达到了预设的精度要求;
S4.2:若是,则进入步骤S8;
S4.3:若否,则进入步骤S5。
6.根据权利要求1或2所述的自主学习的图像精细分类方法,其特征在于:所述步骤S5包含以下步骤:
S5.1:使用爬虫技术从互联网爬取与标签相关的图像数据,包含但不局限于Baidu、Bing、Google、Yahoo、Instagram或Flickr;
S5.2:采用数码设备人工采集与标签对应的图像数据。
7.根据权利要求1或2所述的自主学习的图像精细分类方法,其特征在于:所述步骤S6包含以下步骤:
S6.1:统计分类网络对弱标签数据的分类结果,计算标类间相似度;
S6.2:根据类间相似度,计算使分类误差最小的分类阈值。
8.根据权利要求1所述的自主学习的图像精细分类方法,其特征在于:所述步骤S7包含以下步骤:
S7.1:使用当前的分类网络和调节后的滤波器筛选弱标签数据集;
S7.2:分类可信的数据归至强标签数据集,不可信的数据归至噪声数据集;
S7.3:随机挑选每类50张图片至弱标签数据集。
9.根据权利要求1或2所述的自主学习的图像精细分类方法,其特征在于:所述步骤S8包含以下步骤:
S8.1:将最新的网络参数初始化最终分类网络;
S8.2:停止学习。
CN201710598711.7A 2017-07-21 2017-07-21 一种自主学习的图像精细分类方法 Active CN107563406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710598711.7A CN107563406B (zh) 2017-07-21 2017-07-21 一种自主学习的图像精细分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710598711.7A CN107563406B (zh) 2017-07-21 2017-07-21 一种自主学习的图像精细分类方法

Publications (2)

Publication Number Publication Date
CN107563406A true CN107563406A (zh) 2018-01-09
CN107563406B CN107563406B (zh) 2021-01-01

Family

ID=60973839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710598711.7A Active CN107563406B (zh) 2017-07-21 2017-07-21 一种自主学习的图像精细分类方法

Country Status (1)

Country Link
CN (1) CN107563406B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416382A (zh) * 2018-03-01 2018-08-17 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN110211069A (zh) * 2019-06-03 2019-09-06 广东工业大学 一种图像去噪模型及训练方法、***、设备、计算机介质
CN110852983A (zh) * 2018-07-27 2020-02-28 三星电子株式会社 用于检测半导体装置中的缺陷的方法
CN111626102A (zh) * 2020-04-13 2020-09-04 上海交通大学 基于视频弱标记的双模态迭代去噪异常检测方法及终端
CN112541544A (zh) * 2020-12-09 2021-03-23 福州大学 一种基于深度学习的垃圾分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678344A (zh) * 2016-02-29 2016-06-15 浙江群力电气有限公司 一种电力仪表设备的智能分类方法
CN106529564A (zh) * 2016-09-26 2017-03-22 浙江工业大学 一种基于卷积神经网络的食物图像自动分类方法
US20170140253A1 (en) * 2015-11-12 2017-05-18 Xerox Corporation Multi-layer fusion in a convolutional neural network for image classification

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170140253A1 (en) * 2015-11-12 2017-05-18 Xerox Corporation Multi-layer fusion in a convolutional neural network for image classification
CN105678344A (zh) * 2016-02-29 2016-06-15 浙江群力电气有限公司 一种电力仪表设备的智能分类方法
CN106529564A (zh) * 2016-09-26 2017-03-22 浙江工业大学 一种基于卷积神经网络的食物图像自动分类方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416382A (zh) * 2018-03-01 2018-08-17 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN108416382B (zh) * 2018-03-01 2022-04-19 南开大学 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法
CN110852983A (zh) * 2018-07-27 2020-02-28 三星电子株式会社 用于检测半导体装置中的缺陷的方法
CN110852983B (zh) * 2018-07-27 2024-03-08 三星电子株式会社 用于检测半导体装置中的缺陷的方法
CN110211069A (zh) * 2019-06-03 2019-09-06 广东工业大学 一种图像去噪模型及训练方法、***、设备、计算机介质
CN111626102A (zh) * 2020-04-13 2020-09-04 上海交通大学 基于视频弱标记的双模态迭代去噪异常检测方法及终端
CN111626102B (zh) * 2020-04-13 2022-04-26 上海交通大学 基于视频弱标记的双模态迭代去噪异常检测方法及终端
CN112541544A (zh) * 2020-12-09 2021-03-23 福州大学 一种基于深度学习的垃圾分类方法
CN112541544B (zh) * 2020-12-09 2022-05-13 福州大学 一种基于深度学习的垃圾分类方法

Also Published As

Publication number Publication date
CN107563406B (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
CN107563406A (zh) 一种自主学习的图像精细分类方法
CN106529564B (zh) 一种基于卷积神经网络的食物图像自动分类方法
TWI537841B (zh) 圖像目標類別識別方法及裝置
CN110533097A (zh) 一种图像清晰度识别方法、装置、电子设备及存储介质
Malinverni et al. Hybrid object-based approach for land use/land cover mapping using high spatial resolution imagery
CN107958263A (zh) 一种半监督的图像分类器训练方法
CN110019896A (zh) 一种图像检索方法、装置及电子设备
CN106445939A (zh) 图像检索、获取图像信息及图像识别方法、装置及***
CN102208037B (zh) 基于高斯过程分类器协同训练算法的高光谱图像分类方法
Zhang et al. Development of a supervised software tool for automated determination of optimal segmentation parameters for ecognition
CN107508866A (zh) 减小移动设备端神经网络模型更新的传输消耗的方法
CN108710893B (zh) 一种基于特征融合的数字图像相机源模型分类方法
CN108805151B (zh) 一种基于深度相似性网络的图像分类方法
CN109784358B (zh) 一种融合人工特征和深度特征的无参考图像质量评价方法
CN109815357A (zh) 一种基于非线性降维及稀疏表示的遥感图像检索方法
CN110796135A (zh) 目标的定位方法及装置、计算机设备、计算机存储介质
CN106503047A (zh) 一种基于卷积神经网络的图像爬虫优化方法
CN107423771B (zh) 一种两时相遥感图像变化检测方法
Gu et al. No-reference image quality assessment with reinforcement recursive list-wise ranking
CN108596118B (zh) 一种基于人工蜂群算法的遥感影像分类方法及***
CN107193979B (zh) 一种同源图片检索的方法
Liao et al. Depthwise grouped convolution for object detection
CN110427870B (zh) 眼部图片识别方法、目标识别模型训练方法及装置
CN116188834B (zh) 基于自适应训练模型的全切片图像分类方法及装置
CN113838076A (zh) 目标图像中的对象轮廓的标注方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant