CN110188816A - 基于多流多尺度交叉双线性特征的图像细粒度识别方法 - Google Patents
基于多流多尺度交叉双线性特征的图像细粒度识别方法 Download PDFInfo
- Publication number
- CN110188816A CN110188816A CN201910450570.3A CN201910450570A CN110188816A CN 110188816 A CN110188816 A CN 110188816A CN 201910450570 A CN201910450570 A CN 201910450570A CN 110188816 A CN110188816 A CN 110188816A
- Authority
- CN
- China
- Prior art keywords
- feature
- bilinearity
- image
- fine granularity
- multithread
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于多流多尺度交叉双线性特征的图像细粒度识别方法。针对图像细粒度特征提取不充分、特征利用不充分的问题,该方法利用多流网络提取交叉双线性特征,此特征可以表征图像更加细腻的局部特征,解决了特征提取不充分的问题;使用图像随机混合增强和融合多尺度底层双线性特征的方法,解决了特征利用不充分的问题。经实验验证,本发明提出的基于多流网络融合多尺度交叉双线性特征的细粒度识别方法在CUB‑200‑2011公开数据集上的识别准确率比目前已有方法有显著的提高,分别达到了最优的细粒度识别准确率。
Description
技术领域
本发明涉及计算机视觉与人工智能、多媒体信号处理领域,特别是涉及基于多流多尺度交叉双线性特征的图像细粒度识别方法。
背景技术
随着城市随着深度卷积神经网络的不断发展,深度学***,而图像细粒度识别任务因其识别子类相对困难则拥有一个更广阔的发展空间和更有价值的应用空间要求。
图像的细粒度识别是相对于粗粒度识别而言,一般来说,图像的粗粒度识别是指完成具有较大差别类的识别,诸如人、椅子、车、猫等不同种类的分类;而细粒度识别的任务是要识别目标大类中的子类,比如加利福尼亚理工学院鸟类数据库(CUB-200-2011,Caltech-UCSD Birds-200-2011)数据集中的200种鸟类识别,斯坦福大学提出的汽车数据集(Stanford Cars)中196类汽车等。因此细粒度识别任务具有子类之间方差小,子类之内方差大的特点,这与图像粗粒度识别相比,细粒度图像子类容易混淆,可以区分的信息区域点少,子类之间相似特征多等,因此图像细粒度识别难度增大。
发明内容
针对图像目标子类的细粒度识别任务,本发明提供基于多流多尺度交叉双线性特征的图像细粒度识别方法,使用多流网络提取细粒度图像特征,计算交叉双线性特征,利用融合后交叉特征进行预测细粒度类别,为达此目的,本发明提供基于多流多尺度交叉双线性特征的图像细粒度识别方法,使用多流网络提取细粒度图像特征,计算交叉双线性特征,利用融合后交叉特征进行预测细粒度类别,该方法包括如下步骤:
(1)对输入图像进行数据增广;
(2)利用多流基础网络提取图像特征,计算交叉双线性特征和底层双线性特征;
(3)利用融合后的特征预测细粒度类别。
作为本发明进一步改进,所述步骤(1)中对图像进行增广,具体步骤为:
步骤2.1:使用离线旋转和在线旋转来增强数据,离线旋转是将数据集在[0,359]每隔10°进行旋转,在线旋转是对输入网络的图片随机进行一定角度旋转,除此外,还使用了亮度增强,随机裁剪方式进行数据增强;
步骤2.2:通过随机图像混合增强进行数据增广,设U(ε)为[0,1]上的随机概率分布,每一次随机采样ε~U(ε),对于两组训练样本x1和x2按照概率分布进行随机组合得到εx1+(1-ε)x2,其对应的标签为εh1+(1-ε)h2,这便完成了随机图像混合增强。
作为本发明进一步改进,所述步骤(2)中利用多流基础网络提取图像特征并计算交叉双线性特征:
步骤3.1:利用多流网络提取数据增广后图像的特征。将增广后的图片喂入K路卷积神经网络,这里的K路卷积神经网络Stream 1、Stream 2和Stream 3分别采用ResNet-34网络、ResNet-50网络和VGG-16网络,利用他们作为基础特征的提取网络,这样获得了细粒度图像的特征;
步骤3.2:计算多流网络的交叉双线性特征,分别提取Stream 1和Stream 2的双线性特征、Stream 1与Stream 3的双线性特征以及Stream 2与Stream 3的双线性特征,到这里便获得了K路卷积神经网络的交叉双线性特征,双线性特征的计算方法为:输入为两路卷积神经网络特征图,分别为A,B,将A进行转置然后与B相乘,将上述结果进行归一化操作,并进行L2正则化;
步骤3.3:计算底层的双线性特征,这里底层双线性特征是利用自身与自身进行二阶双线性池化所得,这里的底层选取分别为Stream 1的ResNet-5a层即第五个bottleneck块的第一层、Stream 2的ResNet-5a层即第五个bottleneck块的第一层以及Stream 3的Conv5_1层即第五个卷积块的第一层,将这些底层的双线性特征与高层的交叉双线性特征进行融合。
作为本发明进一步改进,所述步骤(3)中利用融合后的特征预测细粒度类别:
步骤4.1:将交叉双线性特征和底层双线性特征进行融合,这里采用两种特征融合方式——拼接方式和元素相加方式,最后,将融合的特征送入到全连接层进行分类,计算softmax向量,得到预测的结果;
其中损失函数为交叉熵损失函数来指导训练和学习过程;
式中,yi表示真实的类别标签,表示网络预测的类别标签信息。C是训练数据集上的类别总数。
至此,基于多流多尺度交叉双线性特征的图像细粒度识别方法便分析完毕。
本发明提出了一种基于多流多尺度交叉双线性特征的图像细粒度识别方法。针对图像细粒度特征提取不充分、特征利用不充分的问题,该方法利用多流网络提取交叉双线性特征,此特征可以表征图像更加细腻的局部特征,解决了特征提取不充分的问题;使用图像随机混合增强和融合多尺度底层双线性特征的方法,解决了特征利用不充分的问题。经实验验证,本发明提出的基于多流网络融合多尺度交叉双线性特征的细粒度识别方法在CUB-200-2011公开数据集上的识别准确率比目前已有方法有显著的提高,分别达到了最优的细粒度识别准确率。
附图说明
图1为本发明细粒度数据增广示意图。
图2为本发明基于多流多尺度交叉双线性特征的图像细粒度识别方法。
图3为本发明在CUB-200-2011测试数据集上准确率随训练轮数变化示意图
图4本发明在CUB-200-2011公开数据集上部分测试样本(左上角为本发明预测类别)。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提供基于多流多尺度交叉双线性特征的图像细粒度识别方法,使用多流网络提取细粒度图像特征,计算交叉双线性特征,利用融合后交叉特征进行预测细粒度类别。
下面以细粒度公开数据集为例,结合附图对本发明一种基于多流多尺度交叉双线性特征的图像细粒度识别方法具体实施方式作进一步详细说明。本发明使用多流网络提取细粒度图像特征,计算交叉双线性特征,利用融合后交叉特征进行预测细粒度类别。该方法包括如下步骤:
(1)先对输入图像进行数据增广。
步骤1.1:使用离线旋转和在线旋转来增强数据,离线旋转是将数据集在[0,359]每隔10°进行旋转,在线旋转是对输入网络的图片随机进行一定角度旋转,除此外,还使用了亮度增强,随机裁剪方式进行数据增强。
步骤1.2:通过随机图像混合增强进行数据增广,如图1所示,设U(ε)为[0,1]上的随机概率分布,每一次随机采样ε~U(ε),对于两组训练样本x1和x2按照概率分布进行随机组合得到εx1+(1-ε)x2,其对应的标签为εh1+(1-ε)h2,这便完成了随机图像混合增强。
(2)利用多流基础网络提取图像特征,计算交叉双线性特征和底层双线性特征。具体步骤为:
步骤2.1:利用多流网络提取数据增广后图像的特征。将增广后的图片喂入K路卷积神经网络,这里的K路卷积神经网络Stream 1、Stream 2和Stream 3分别采用ResNet-34网络、ResNet-50网络和VGG-16网络,利用他们作为基础特征的提取网络。如图2所示,这样获得了细粒度图像的特征。这里K取值为3。
步骤2.2:计算多流网络的交叉双线性特征。分别提取Stream 1和Stream 2的双线性特征、Stream 1与Stream 3的双线性特征以及Stream 2与Stream 3的双线性特征,到这里便获得了K路卷积神经网络的交叉双线性特征。双线性特征的计算方法为:输入为两路卷积神经网络特征图,分别为A,B,将A进行转置然后与B相乘。将上述结果进行归一化操作,并进行L2正则化。
步骤2.3:计算底层的双线性特征。这里底层双线性特征是利用自身与自身进行二阶双线性池化所得,这里的底层选取分别为Stream 1的ResNet-5a层(第五个bottleneck块的第一层)、Stream 2的ResNet-5a层(第五个bottleneck块的第一层)以及Stream 3的Conv5_1层(第五个卷积块的第一层)。将这些底层的双线性特征与高层的交叉双线性特征进行融合。
(3)利用融合后的特征预测细粒度类别。具体步骤为:
步骤3.1:将交叉双线性特征和底层双线性特征进行融合,这里采用两种特征融合方式——拼接方式和元素相加方式。最后,将融合的特征送入到全连接层进行分类,计算softmax向量,得到预测的结果。整体的算法流程图如算法2所示。
本发明的损失函数为交叉熵损失函数来指导训练和学习过程。
本发明所建立模型的实验平台如下:centos 7***,配置E5处理器,一块NVIDIATesla P100显卡。本发明训练过程采用联合交叉熵损失函数与排序一致性损失函数进行训练,优化器采用随机梯度下降优化器SGD,初始学习率设置为lr=0.01,batch_size=16,迭代100个epoch后,得到训练好的模型,并进行在加利福尼亚理工学院提出的数据集CUB200-2011数据集上进行测试。本发明中模型训练的超参数不限于如下参数
本发明在数据集上的测试曲线如图3所示,在数据集上的测试结果如说明书下表所示。
图4展示了CUB-200-2011数据集部分测试样本的预测结果情况,可以看出本发明较好的预测出了图像的细粒度类别。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (4)
1.基于多流多尺度交叉双线性特征的图像细粒度识别方法,其特征在于,使用多流网络提取细粒度图像特征,计算交叉双线性特征,利用融合后交叉特征进行预测细粒度类别,该方法包括如下步骤:
(1)对输入图像进行数据增广;
(2)利用多流基础网络提取图像特征,计算交叉双线性特征和底层双线性特征;
(3)利用融合后的特征预测细粒度类别。
2.根据权利要求1所述的基于多流多尺度交叉双线性特征的图像细粒度识别方法,其特征在于:所述步骤(1)中对图像进行增广,具体步骤为:
步骤2.1:使用离线旋转和在线旋转来增强数据,离线旋转是将数据集在[0,359]每隔10°进行旋转,在线旋转是对输入网络的图片随机进行一定角度旋转,除此外,还使用了亮度增强,随机裁剪方式进行数据增强;
步骤2.2:通过随机图像混合增强进行数据增广,设U(ε)为[0,1]上的随机概率分布,每一次随机采样ε~U(ε),对于两组训练样本x1和x2按照概率分布进行随机组合得到εx1+(1-ε)x2,其对应的标签为εh1+(1-ε)h2,这便完成了随机图像混合增强。
3.根据权利要求1所述的基于多流多尺度交叉双线性特征的图像细粒度识别方法,其特征在于:所述步骤(2)中利用多流基础网络提取图像特征并计算交叉双线性特征:
步骤3.1:利用多流网络提取数据增广后图像的特征,将增广后的图片喂入K路卷积神经网络,这里的K路卷积神经网络Stream1、Stream2和Stream3分别采用ResNet-34网络、ResNet-50网络和VGG-16网络,利用他们作为基础特征的提取网络,这样获得了细粒度图像的特征;
步骤3.2:计算多流网络的交叉双线性特征,分别提取Stream1和Stream2的双线性特征、Stream1与Stream3的双线性特征以及Stream2与Stream3的双线性特征,到这里便获得了K路卷积神经网络的交叉双线性特征,双线性特征的计算方法为:输入为两路卷积神经网络特征图,分别为A,B,将A进行转置然后与B相乘,将上述结果进行归一化操作,并进行L2正则化;
步骤3.3:计算底层的双线性特征,这里底层双线性特征是利用自身与自身进行二阶双线性池化所得,这里的底层选取分别为Stream1的ResNet-5a层即第五个bottleneck块的第一层、Stream2的ResNet-5a层即第五个bottleneck块的第一层以及Stream3的Conv5_1层即第五个卷积块的第一层,将这些底层的双线性特征与高层的交叉双线性特征进行融合。
4.根据权利要求1所述的基于多流多尺度交叉双线性特征的图像细粒度识别方法,其特征在于:所述步骤(3)中利用融合后的特征预测细粒度类别:
步骤4.1:将交叉双线性特征和底层双线性特征进行融合,这里采用两种特征融合方式——拼接方式和元素相加方式,最后,将融合的特征送入到全连接层进行分类,计算softmax向量,得到预测的结果;
其中损失函数为交叉熵损失函数来指导训练和学习过程;
式中,yi表示真实的类别标签,表示网络预测的类别标签信息,C是训练数据集上的类别总数;
至此,基于多流多尺度交叉双线性特征的图像细粒度识别方法便分析完毕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910450570.3A CN110188816B (zh) | 2019-05-28 | 2019-05-28 | 基于多流多尺度交叉双线性特征的图像细粒度识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910450570.3A CN110188816B (zh) | 2019-05-28 | 2019-05-28 | 基于多流多尺度交叉双线性特征的图像细粒度识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110188816A true CN110188816A (zh) | 2019-08-30 |
CN110188816B CN110188816B (zh) | 2023-05-02 |
Family
ID=67718218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910450570.3A Active CN110188816B (zh) | 2019-05-28 | 2019-05-28 | 基于多流多尺度交叉双线性特征的图像细粒度识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110188816B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110519485A (zh) * | 2019-09-09 | 2019-11-29 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111091585A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种目标跟踪方法、设备及存储介质 |
CN111325221A (zh) * | 2020-02-25 | 2020-06-23 | 青岛海洋科学与技术国家实验室发展中心 | 基于图像深度信息的图像特征提取方法 |
CN111401122A (zh) * | 2019-12-27 | 2020-07-10 | 航天信息股份有限公司 | 一种基于知识分类的复杂目标渐近识别方法及装置 |
CN111476144A (zh) * | 2020-04-02 | 2020-07-31 | 深圳力维智联技术有限公司 | 行人属性识别模型确定方法、装置及计算机可读存储介质 |
CN112418358A (zh) * | 2021-01-14 | 2021-02-26 | 苏州博宇鑫交通科技有限公司 | 一种强化深度融合网络的车辆多属性分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875674A (zh) * | 2018-06-29 | 2018-11-23 | 东南大学 | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 |
CN109685115A (zh) * | 2018-11-30 | 2019-04-26 | 西北大学 | 一种双线性特征融合的细粒度概念模型及学习方法 |
-
2019
- 2019-05-28 CN CN201910450570.3A patent/CN110188816B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875674A (zh) * | 2018-06-29 | 2018-11-23 | 东南大学 | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 |
CN109685115A (zh) * | 2018-11-30 | 2019-04-26 | 西北大学 | 一种双线性特征融合的细粒度概念模型及学习方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110519485A (zh) * | 2019-09-09 | 2019-11-29 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN110519485B (zh) * | 2019-09-09 | 2021-08-31 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN111401122A (zh) * | 2019-12-27 | 2020-07-10 | 航天信息股份有限公司 | 一种基于知识分类的复杂目标渐近识别方法及装置 |
CN111401122B (zh) * | 2019-12-27 | 2023-09-26 | 航天信息股份有限公司 | 一种基于知识分类的复杂目标渐近识别方法及装置 |
CN111325221A (zh) * | 2020-02-25 | 2020-06-23 | 青岛海洋科学与技术国家实验室发展中心 | 基于图像深度信息的图像特征提取方法 |
CN111325221B (zh) * | 2020-02-25 | 2023-06-23 | 青岛海洋科技中心 | 基于图像深度信息的图像特征提取方法 |
CN111091585A (zh) * | 2020-03-19 | 2020-05-01 | 腾讯科技(深圳)有限公司 | 一种目标跟踪方法、设备及存储介质 |
CN111091585B (zh) * | 2020-03-19 | 2020-07-17 | 腾讯科技(深圳)有限公司 | 一种目标跟踪方法、设备及存储介质 |
CN111476144A (zh) * | 2020-04-02 | 2020-07-31 | 深圳力维智联技术有限公司 | 行人属性识别模型确定方法、装置及计算机可读存储介质 |
CN111476144B (zh) * | 2020-04-02 | 2023-06-09 | 深圳力维智联技术有限公司 | 行人属性识别模型确定方法、装置及计算机可读存储介质 |
CN112418358A (zh) * | 2021-01-14 | 2021-02-26 | 苏州博宇鑫交通科技有限公司 | 一种强化深度融合网络的车辆多属性分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110188816B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188816A (zh) | 基于多流多尺度交叉双线性特征的图像细粒度识别方法 | |
CN106650806B (zh) | 一种用于行人检测的协同式深度网络模型方法 | |
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
CN109801256B (zh) | 一种基于感兴趣区域和全局特征的图像美学质量评估方法 | |
CN106446930B (zh) | 基于深层卷积神经网络的机器人工作场景识别方法 | |
CN110210550A (zh) | 基于集成学习策略的图像细粒度识别方法 | |
CN102306301B (zh) | 模拟初级视皮层脉冲神经元的动作识别*** | |
CN109598269A (zh) | 一种基于多分辨率输入与金字塔膨胀卷积的语义分割方法 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
Ming et al. | Simple triplet loss based on intra/inter-class metric learning for face verification | |
CN110163258A (zh) | 一种基于语义属性注意力重分配机制的零样本学习方法及*** | |
CN109460709A (zh) | 基于rgb和d信息融合的rtg视觉障碍物检测的方法 | |
CN105825235A (zh) | 一种基于多特征图深度学习的图像识别方法 | |
CN106682697A (zh) | 一种基于卷积神经网络的端到端物体检测方法 | |
CN110135502A (zh) | 一种基于强化学习策略的图像细粒度识别方法 | |
CN104537647A (zh) | 一种目标检测方法及装置 | |
CN110119726A (zh) | 一种基于YOLOv3模型的车辆品牌多角度识别方法 | |
Chen et al. | Action recognition with temporal scale-invariant deep learning framework | |
CN111985332B (zh) | 一种基于深度学习的改进损失函数的步态识别方法 | |
CN109766873A (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN103971106A (zh) | 多视角人脸图像性别识别方法及装置 | |
CN117011274A (zh) | 自动化玻璃瓶检测***及其方法 | |
Mukhopadhyay et al. | A hybrid lane detection model for wild road conditions | |
CN104200202B (zh) | 一种基于累加感知机的人体上半身检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |