CN110647897B - 一种基于多部分注意力机制的零样本图像分类识别方法 - Google Patents

一种基于多部分注意力机制的零样本图像分类识别方法 Download PDF

Info

Publication number
CN110647897B
CN110647897B CN201810673456.2A CN201810673456A CN110647897B CN 110647897 B CN110647897 B CN 110647897B CN 201810673456 A CN201810673456 A CN 201810673456A CN 110647897 B CN110647897 B CN 110647897B
Authority
CN
China
Prior art keywords
follows
training
semantic
attention mechanism
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810673456.2A
Other languages
English (en)
Other versions
CN110647897A (zh
Inventor
武继刚
魏杰
孟敏
王勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201810673456.2A priority Critical patent/CN110647897B/zh
Publication of CN110647897A publication Critical patent/CN110647897A/zh
Application granted granted Critical
Publication of CN110647897B publication Critical patent/CN110647897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多部分注意力机制的零样本图像分类识别方法,其特征在于,包括以下步骤:S1.训练多部分卷积探测器;S2.训练语义特征提取器;S3.获取训练集的图片,通过训练注意力探测器进行处理;S4.进行损失计算;S5.重复进行步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。本发明采用了语义分割的方式,先将整张图片进行语义分割出有效部位,筛掉不必要的冗余信息,然后再分别对多个部位进行特征提取;对于不同的部位,提出了将注意力机制作用于不同部位进行加权,使得每一个样本都有不同的加权方式,因此对于每一个样本,都会产生一些权值高的部位,这些部位能更好的把它和其他类别区分开。

Description

一种基于多部分注意力机制的零样本图像分类识别方法
技术领域
本发明涉及电力领域,更具体地,涉及一种基于多部分注意力机制的零样本图像分类识别方法。
背景技术
随着近几年大数据和大规模数据量学习的兴起,传统的图像识别技术逐渐无法满足新的图像识别需求,例如在测试过程中出现训练集中没有出现过的类别,这个问题在当前的海量数据中尤为突出,因为大规模数据量即大规模类别,并且一个类别下还存在多个子类。因此提高零样本下的图像分类问题具有重要的现实意义。为了提高训练不可见类别的识别率,人们提出了双线性模型,通过语义描述的辅助信息资源建立从可见类到不可见类的联系。在训练过程中,用具有语义信息的嵌入向量代替原类别标签,并将图像特征和语义特征映射到同一低维潜层空间,通过各种机器学习方法来完成图像的分类工作。这种方法减少了传统分类过程中训练好的分类器对原数据的过度依赖,实现了分类器的泛化性,完成了知识的迁移过程,最终提高了零样本学习过程的识别精度。
然而,目前的这种双线性映射都是直接建立在整张图片和语义描述之间。对于现实来说,整张图片除了需要识别的目标以外,还存在大量的与语义描述无关的信息,例如背景、其他目标主体与识别信息中无用的信息等,这些信息会对整个实验的特征提取乃至识别分类都有一定程度的干扰。其次,对于图片有效区域的不同位置,目前的算法都是统一进行处理的,但是从理论上来说,我们识别物体都会重点关注一些具有区别性的部分,这些区别性的部分能更好的将该类和其他类更好的区分开,尤其对于一些细粒度的分类来说,例如对于燕子,尾巴是识别该类的重点区域,因此该部分区域需要比其他区域有更高的关注度,从另一个方面来说,该区域的分类贡献值比其他区域更高。之前的分类过程都没有关注到这一问题,从而影响到后续的分类过程。
发明内容
本发明为克服上述现有技术所述的缺陷,提供一种基于多部分注意力机制的零样本图像分类识别方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于多部分注意力机制的零样本图像分类识别方法,包括以下步骤:
S1.获取图像,训练多部分卷积探测器;
S2.训练语义特征提取器;
S3.获取训练集的图片,通过训练注意力探测器进行处理;
S4.进行损失计算;
S5.重复进行所述步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。
进一步地,所述步骤S1的多部分卷积探测器具体包括以下步骤:
S101.通过选择性搜索算法从所述图像中得到候选框RoI;
S102.通过卷积网络从候选框RoI中得到图像特征,在卷积层conv5得到特征分布feature map;
S103.将所述步骤S101的候选框RoI映射至所述步骤S102得到的featuremap并裁剪出对应的patch,使用Ro1pooling layer将所述patch调整至固定尺寸;
S104.将patch通过两个全连接层得到特征,将特征分别通过新的全连接层进行处理,连接上各自对应的损失函数。
进一步地,所述步骤S2的具体过程如下:
使用大规模语料库作为语义的输入,通过神经网络算法提取出所有训练类和测试类的类别词向量,将。
进一步地,所述步骤S3的具体过程如下:
将训练集的图片代入所述步骤S1中的多部分探测器内,得到1张图片的多个探测部位的卷积特征,其函数如下式所示:
x1,x2,x3…xp=g(I)
其中,xp为第p部分的卷积特征;
将所述步骤S2的语义特征映射到和局部区域特征xp同样的维度,如下式所示,作为语义特征的隐藏层表示:
Figure BDA0001709137050000021
其中,S为语义隐藏层表示,
Figure BDA0001709137050000022
为ReLU激活函数;
将局部区域特征xp和语义做内积,得到对应区域加权的权值,如下式所示:
Figure BDA0001709137050000031
其中,a为对应于局部区域特征x的权值,每有一个局部区域x就有一个权值a;
为了便于对权值计算,将权值进行归一化,如下所示:
Figure BDA0001709137050000032
将最终归一化后的权值加权到对应的图像特征,得到最终的局部区域特征
Figure BDA0001709137050000033
如下所示:
Figure BDA0001709137050000034
进一步地,所述步骤S4的具体过程如下:
为了在分类过程中度量图像与语义表达的相似度,将语义通过两层全连接层映射到隐藏空间,如下所示:
ψ(zi)=f(W2f(W1zi))
为了得到更强的语义监督,使得训练过程更加可靠,先将映射后的语义矩阵与所述步骤S3得到的局部特征
Figure BDA0001709137050000035
进行矩阵相乘,然后与其对应的真实类别值进行欧氏距离度量差值,如下所示:
Figure BDA0001709137050000036
进一步地,所述步骤S5的具体过程如下:
对所述步骤S3和S4进行多次迭代计算,当算法的损失低于预设数值后,进行测试,所述测试重复步骤S3和S4的过程,选取最小距离c*的作为类别值,如下所示:
Figure BDA0001709137050000037
进一步地,所述步骤S104中的新的全连接层包括分类和回归,其中,分类所对应的是softmax函数,回归所对应的是smooth_L1_loss函数。
进一步地,所述语料库为Wikipedia,神经网络算法为Word2vector。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出的图像分类识别方法使用多个局部特征,减少了对其他背景信息的计算,专注于对局部位置的特征更有效的学习;
通过对局部区域加权的方式,使得不同的局部特征得到了不同的关注度,更加有利于将该类与其他类别区分开;
本发明针对目前的问题在步骤S4中提出了一个新型的损失函数;
通过在几个基准数据集上实现我们的算法,从结果上证明我们提出的方法的优越性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是基于多部分注意力机制的零样本图像分类识别方法流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
一种基于多部分注意力机制的零样本图像分类识别方法,其过程如图1所示,包括以下步骤:
S1.获取图像,训练多部分卷积探测器;
S2.训练语义特征提取器;
S3.获取训练集的图片,通过训练注意力探测器进行处理;
S4.进行损失计算;
S5.重复进行所述步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。
在本实施例中,所述步骤S1的多部分卷积探测器具体包括以下步骤:
S101.通过选择性搜索算法从所述图像中得到候选框RoI;
S102.通过卷积网络从候选框RoI中得到图像特征,在卷积层conv5得到特征分布feature map;
S103.将所述步骤S101的候选框RoI映射至所述步骤S102得到的featuremap并裁剪出对应的patch,使用Ro1pooling layer将所述patch调整至固定尺寸;
S104.将patch通过两个全连接层得到特征,将特征分别通过新的全连接层进行处理,连接上各自对应的损失函数。
在本实施例中,所述步骤S2的具体过程如下:
使用大规模语料库作为语义的输入,通过神经网络算法提取出所有训练类和测试类的类别词向量,将。
在本实施例中,所述步骤S3的具体过程如下:
将训练集的图片代入所述步骤S1中的多部分探测器内,得到1张图片的多个探测部位的卷积特征,其函数如下式所示:
x1,x2,x3…xp=g(I)
其中,xp为第p部分的卷积特征;
将所述步骤S2的语义特征映射到和局部区域特征xp同样的维度,如下式所示,作为语义特征的隐藏层表示:
Figure BDA0001709137050000051
其中,S为语义隐藏层表示,
Figure BDA0001709137050000052
为ReLU激活函数;
将局部区域特征xp和语义做内积,得到对应区域加权的权值,如下式所示:
Figure BDA0001709137050000053
其中,a为对应于局部区域特征x的权值,每有一个局部区域x就有一个权值a;
为了便于对权值计算,将权值进行归一化,如下所示:
Figure BDA0001709137050000054
将最终归一化后的权值加权到对应的图像特征,得到最终的局部区域特征
Figure BDA0001709137050000061
如下所示:
Figure BDA0001709137050000062
在本实施例中,所述步骤S4的具体过程如下:
将语义通过两层全连接层映射到隐藏空间,如下所示:
ψ(zi)=f(W2f(W1zi))
将映射后的语义矩阵与所述步骤S3得到的局部特征
Figure BDA0001709137050000063
进行矩阵相乘,
然后与其对应的真实类别值进行欧氏距离度量差值,如下所示:
Figure BDA0001709137050000064
在本实施例中,所述步骤S5的具体过程如下:
对所述步骤S3和S4进行多次迭代计算,当算法的损失低于预设数值后,进行测试,所述测试重复步骤S3和S4的过程,选取最小距离c*的作为类别值,如下所示:
Figure BDA0001709137050000065
在本实施例中,所述步骤S104中的新的全连接层包括分类和回归,其中,分类所对应的是softmax函数,回归所对应的是smooth_L1_loss函数。
在本实施例中,所述语料库为Wikipedia,神经网络算法为Word2vector。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于多部分注意力机制的零样本图像分类识别方法,其特征在于,包括以下步骤:
S1.获取图像,训练多部分卷积探测器;具体包括以下步骤:
S101.通过选择性搜索算法从所述图像中得到候选框RoI;
S102.通过卷积网络从候选框RoI中得到图像特征,在卷积层conv5得到特征分布feature map;
S103.将所述步骤S101的候选框RoI映射至所述步骤S102得到的feature map并裁剪出对应的patch,使用Ro1 pooling layer将所述patch调整至固定尺寸;
S104.将patch通过两个全连接层得到特征,将特征分别通过新的全连接层进行处理,连接上各自对应的损失函数;
S2.训练语义特征提取器;具体过程如下:
使用大规模语料库作为语义的输入,通过神经网络算法提取出所有训练类和测试类的类别词向量;
S3.获取训练集的图片,通过训练注意力探测器进行处理;具体过程如下:
将训练集的图片代入所述步骤S1中的多部分卷积探测器内,得到1张图片的多个探测部位的卷积特征,其函数如下式所示:
x1,x2,x3…xp=g(I)
其中,xp为第p部分的卷积特征;
将所述步骤S2的语义特征映射到和局部区域特征xp同样的维度,如下式所示,作为语义特征的隐藏层表示:
Figure FDA0004086750440000011
其中,S为语义隐藏层表示,
Figure FDA0004086750440000012
为ReLU激活函数;
将局部区域特征xp和语义做内积,得到对应区域加权的权值,如下式所示:
Figure FDA0004086750440000013
其中,a为对应于局部区域特征x的权值,每有一个局部区域x就有一个权值a;
为了便于对权值计算,将权值进行归一化,如下所示:
Figure FDA0004086750440000021
将最终归一化后的权值加权到对应的图像特征,得到最终的局部区域特征
Figure FDA0004086750440000022
如下所示:
Figure FDA0004086750440000023
S4.进行损失计算;
S5.重复进行所述步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。
2.根据权利要求1所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S4的具体过程如下:
将语义通过两层全连接层映射到隐藏空间,如下所示:
ψ(zi)=f(W2f(W1zi))
将映射后的语义矩阵与所述步骤S3得到的局部特征
Figure FDA0004086750440000026
进行矩阵相乘,然后与其对应的真实类别值进行欧氏距离度量差值,如下所示:
Figure FDA0004086750440000024
3.根据权利要求2所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S5的具体过程如下:
对所述步骤S3和S4进行多次迭代计算,当算法的损失低于预设数值后,进行测试,所述测试重复步骤S3和S4的过程,选取最小距离c*的作为类别值,如下所示:
Figure FDA0004086750440000025
4.根据权利要求1所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S104中的新的全连接层包括分类和回归,其中,分类所对应的是softmax函数,回归所对应的是smooth_L1_loss函数。
5.根据权利要求1所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述语料库为Wikipedia,神经网络算法为Word2vector。
CN201810673456.2A 2018-06-26 2018-06-26 一种基于多部分注意力机制的零样本图像分类识别方法 Active CN110647897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810673456.2A CN110647897B (zh) 2018-06-26 2018-06-26 一种基于多部分注意力机制的零样本图像分类识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810673456.2A CN110647897B (zh) 2018-06-26 2018-06-26 一种基于多部分注意力机制的零样本图像分类识别方法

Publications (2)

Publication Number Publication Date
CN110647897A CN110647897A (zh) 2020-01-03
CN110647897B true CN110647897B (zh) 2023-04-18

Family

ID=68988763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810673456.2A Active CN110647897B (zh) 2018-06-26 2018-06-26 一种基于多部分注意力机制的零样本图像分类识别方法

Country Status (1)

Country Link
CN (1) CN110647897B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010656B (zh) * 2021-03-18 2022-12-20 广东工业大学 一种基于多模态融合和结构性控制的视觉问答方法
CN113435531B (zh) * 2021-07-07 2022-06-21 中国人民解放军国防科技大学 零样本图像分类方法、***、电子设备及存储介质
CN113936141B (zh) * 2021-12-17 2022-02-22 深圳佑驾创新科技有限公司 图像语义分割方法及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000063647A2 (en) * 1999-04-16 2000-10-26 Universita' Degli Studi Di Firenze Method of detecting a watermark in digital images
CN102054178A (zh) * 2011-01-20 2011-05-11 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN105740879A (zh) * 2016-01-15 2016-07-06 天津大学 基于多模态判别分析的零样本图像分类方法
CN107480688A (zh) * 2017-06-20 2017-12-15 广东工业大学 基于零样本学习的细粒度图像识别方法
CN107563444A (zh) * 2017-09-05 2018-01-09 浙江大学 一种零样本图像分类方法及***
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法
CN108038409A (zh) * 2017-10-27 2018-05-15 江西高创保安服务技术有限公司 一种行人检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10303979B2 (en) * 2016-11-16 2019-05-28 Phenomic Ai Inc. System and method for classifying and segmenting microscopy images with deep multiple instance learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000063647A2 (en) * 1999-04-16 2000-10-26 Universita' Degli Studi Di Firenze Method of detecting a watermark in digital images
CN102054178A (zh) * 2011-01-20 2011-05-11 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN105740879A (zh) * 2016-01-15 2016-07-06 天津大学 基于多模态判别分析的零样本图像分类方法
CN107480688A (zh) * 2017-06-20 2017-12-15 广东工业大学 基于零样本学习的细粒度图像识别方法
CN107563444A (zh) * 2017-09-05 2018-01-09 浙江大学 一种零样本图像分类方法及***
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法
CN108038409A (zh) * 2017-10-27 2018-05-15 江西高创保安服务技术有限公司 一种行人检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于典型相关分析和距离度量学习的零样本学习;翼中 等;《天津大学学报(自然科学与工程技术版)》;20170831;第50卷(第8期);第813-820页 *

Also Published As

Publication number Publication date
CN110647897A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
Hafiz et al. A survey on instance segmentation: state of the art
Lu et al. Dense and sparse reconstruction error based saliency descriptor
CN111639544B (zh) 基于多分支跨连接卷积神经网络的表情识别方法
CN110909820B (zh) 基于自监督学习的图像分类方法及***
Tong et al. Salient object detection via bootstrap learning
CN110633604B (zh) 信息处理方法和信息处理装置
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
Li et al. Adaptive metric learning for saliency detection
Zhang et al. Road recognition from remote sensing imagery using incremental learning
CN110647897B (zh) 一种基于多部分注意力机制的零样本图像分类识别方法
CN109165658B (zh) 一种基于Faster-RCNN的强负样本水下目标检测方法
CN109801305B (zh) 基于深度胶囊网络的sar图像变化检测方法
CN114882521A (zh) 基于多分支网络的无监督行人重识别方法及装置
CN114783604A (zh) 一种乳腺癌前哨***转移的预测方法、***及存储介质
Huo et al. Semisupervised learning based on a novel iterative optimization model for saliency detection
CN117197904A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN111815582A (zh) 改进背景先验和前景先验的二维码区域检测方法
Naiemi et al. Scene text detection using enhanced extremal region and convolutional neural network
Wu et al. RGBD co-saliency detection via multiple kernel boosting and fusion
CN111582057B (zh) 一种基于局部感受野的人脸验证方法
CN105844299B (zh) 一种基于词袋模型的图像分类方法
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
Wang et al. Speed sign recognition in complex scenarios based on deep cascade networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant