CN111325237A - 一种基于注意力交互机制的图像识别方法 - Google Patents

一种基于注意力交互机制的图像识别方法 Download PDF

Info

Publication number
CN111325237A
CN111325237A CN202010070791.0A CN202010070791A CN111325237A CN 111325237 A CN111325237 A CN 111325237A CN 202010070791 A CN202010070791 A CN 202010070791A CN 111325237 A CN111325237 A CN 111325237A
Authority
CN
China
Prior art keywords
feature
image
features
gate
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010070791.0A
Other languages
English (en)
Other versions
CN111325237B (zh
Inventor
乔宇
庄培钦
王亚立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202010070791.0A priority Critical patent/CN111325237B/zh
Publication of CN111325237A publication Critical patent/CN111325237A/zh
Application granted granted Critical
Publication of CN111325237B publication Critical patent/CN111325237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于注意力交互机制的图像识别方法,利用预训练的图像识别模型获得待测图片的分类,其中图像识别模型的训练过程包括:对于N种图像类别的每一类,选择K张图片输入到卷积神经网络进行特征提取,获得多个图像特征;依据不同图像特征之间的相似度组建图像特征对;对于所组建的图像特征对通过共有特征学习提取出共有特征向量;基于共有特征向量计算图像特征对中各特征对应的门特征向量;将图像特征对中的各特征与门特征向量组合后的特征输入到分类器,并根据设置的损失函数进行优化,获得经训练的卷积神经网络和分类器。本发明能够提高图像识别的准确率,尤其适用于细粒度图像识别。

Description

一种基于注意力交互机制的图像识别方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于注意力交互机制的图像识别方法。
背景技术
近年来,基于深度学习的方法在计算机视觉领域取得了巨大的突破,尤其以图像识别任务为代表。但是在图像识别任务中,细粒度图像(子类别)识别任务所得的突破有限。与常规的通用物体识别任务相比,细粒度图像识别的难度主要体现在:1)数据集中类别划分极细,相邻的子类别中图像相似度大,仅存在细微的视觉上差异,且该视觉差异不容易被发现和区分;2)由于图像采集过程中的光线、视角、姿态等多种因素的影响,同一类别中的图像也差异巨大。由于细粒度图像具有类间差异小、类内差异大的特点,给识别任务带来了挑战。细粒度图像的识别需求常见于自然界中具有分类层次的生物物种识别任务中。
在现有技术中,对于细粒度图像识别的任务,通常源于以下三种主流思路:1)关键部件定位方法。由于细粒度图像任务中,相似类别的图像差异细微,不易辨别,因此有必要挑选图像中具有高辨别力的特征用于最终的分类。该类方法希望能够自动对图像中的若干关键部位进行定位,提取这些局部区域的图像特征。但是由于实验中往往只有较弱的监督信息(图像标签信息),因此该方法对关键部分定位的能力受限;2)高阶特征学习。由于细粒度任务中的图像内容复杂多样,常规的特征提取方法表达能力受限,因此该方法希望提升特征的表达能力,从而提升算法的能力;3)基于度量学习的方法。由于细粒度图像具有类间差异小、类内差异大的特点,基于度量学习的方法希望改善这种情况。但是由于这种方法仅能在特征空间改善样本的分布,缺乏发现样本间差异的能力,因此也不能较好地提升识别任务的性能。
因为细粒度图像识别任务中相似的图像间差异细微,现有方法针对细粒度图像中内容复杂的情况,采取了相应的措施。例如,通过构造高阶图像特征,增加特征的表达能力,提高特征的质量,从而提升识别任务的性能;又如,通过检测和分割的技术,在原始图像中寻找重要的局部区域,通过提取这些关键区域的图像特征。然而,现有方法都是建立在单张图像中,因此不能发现两张相似图像间的差异部分,从而无法真正高效、准确地找到具有高区分性的图像区域。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种基于注意力交互机制的图像识别方法,通过模拟人的认知过程,比较两张相似度高的图像,能够发现图像对之间的差异,从而准确地将图像进行区分。
根据本发明的第一方面,提供了一种构建基于注意力交互机制的图像识别模型的方法。该方法包括以下步骤:
对于N种图像类别中的每一类,选择K张图片输入到卷积神经网络进行特征提取,获得多个图像特征,其中,N、K是大于等于2的整数;
依据不同图像特征之间的相似度组建图像特征对;
对于所组建的图像特征对通过共有特征学习提取出共有特征向量;
基于所述共有特征向量计算图像特征对中各特征对应的门特征向量;
将所述图像特征对中的各特征与所述门特征向量组合后的特征输入到分类器,并根据设置的损失函数进行优化,获得经训练的卷积神经网络和经训练的分类器。
在一个实施例中,所述依据不同图像特征之间的相似度组建图像特征对包括:对于每一个图像特征x1,按照欧式距离计算其类内最近或类间最近的图像特征,记为x2,组成2×N×K组图像特征对。
在一个实施例中,所述提取共有特征向量包括:
将图像特征对x1和x2进行拼接,并将拼接后的特征分别送入多个全连接层,得到共有特征向量,表示为:
xm=fm([x1,x2])。
在一个实施例中,计算图像特征对中各特征对应的门特征向量包括:
将共有特征向量xm分别与图像特征对的特征点乘,并经过sigmoid函数进行归一化,得到对应的门特征向量,表示为:
gi=sigmoid(xm⊙xi),i∈{1,2}。
在一个实施例中,所述图像特征对中的各特征与所述门特征向量组合后的特征包括四种表达形式,分别为
Figure BDA0002377235770000031
Figure BDA0002377235770000032
Figure BDA0002377235770000033
Figure BDA0002377235770000034
Figure BDA0002377235770000035
其中
Figure BDA0002377235770000036
代表自己的图像特征与对应的门特征向量点乘得到的结果,
Figure BDA0002377235770000037
代表自己的图像特征与其他的门特征向量点乘得到的结果,g1,g2表示门特征向量。
在一个实施例中,所述损失函数设置为:
Figure BDA0002377235770000038
其中,yi反映真实的分类标签,
Figure BDA0002377235770000039
表示分类器输出的分类概率向量。
在一个实施例中,所述损失函数设置为:
Figure BDA00023772357700000310
其中
Figure BDA00023772357700000311
表示概率向量
Figure BDA00023772357700000312
中第ci类所对应的分数,∈表示阈值。
根据本发明的第二方面,提供一种基于注意力交互机制的图像识别方法。该方法包括以下步骤:
将单张图片送入本发明的经训练的卷积神经网络,抽取出对应的图像特征x*,将x*送入到所述经训练的分类器,得到最终的分类结果。
与现有技术相比,本发明的优点在于:能够解决现有相关技术建模时只考虑单张图片,而忽略去发现图像对间的差异,本发明通过比较图像对间的差异,从而发现单张图像中具有高区分性的特征。
附图说明
以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:
图1是根据本发明一个实施例的基于注意力交互机制的图像识别方法的流程图;
图2是根据本发明一个实施例的共有特征向量学习模块的示意图;
图3是根据本发明一个实施例的注意力交互机制的示意图;
图4是根据本发明一个实施例的基于注意力交互机制的图像识别***的示意图;
图5是根据本发明一个实施例的终端设备示意图;
图6是根据本发明一个实施例的应用实施例示意图。
具体实施方式
为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
在本文示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
本发明提供的基于注意力交互机制的图像识别方法,基于图像对,通过对比发现图像对中的特征差异,从而将两张图像正确地区分。简言之,该方法同时输入一对相似的图像,首先构造一个共有(相互)特征向量,该共有特征向量包含了图像对中的差异性语义特征;然后将每一个图像特征与该共有特征点乘和归一化,生成门特征向量用于寻找具有高特异性语义特征的通道;最后通过原始图像特征与门特征向量交互,用于提升分类器发现特征中细微差异的灵敏度。
具体地,参见图1所示,本发明实施例提供的图像识别方法包括以下步骤:
步骤S110,对于多种类别图片中的每一类别,随机选取多张图片。
在一个实施例中,采取以下采样策略对每一个批量的数据进行采样。首先在数据库中随机选取N个类别,对于每一个类别随机选取类别中K张图片,即在每个批量中选取N×K张图片进行输入。这种考虑每批量中图像类别并按照设定策略选取输入图片的方式,相比于常规的随机选取方式,有利于保证同一个批量中数据的多样性。
步骤S120,将选择的图片输入到卷积神经网络进行特征提取。
在本发明中,利用卷积神经网络进行图像特征提取,卷积神经网络中不同深度可以得到具有不同语义的特征。具体地,将上述选择的图片输入卷积神经网络,通过网络最后的全局池化操作(Global Average Pooling,GAP)可以得到图像特征x,x∈RD,其中D为特征的维度。例如,根据数据的复杂度和任务的特性,选择ResNet50网络或其它类型的卷积神经网络进行特征提取。
步骤S130,对于提取的每一图像特征,基于图像特征之间的相似程度选择图像特征对。
在一个实施例中,选择相似程度较大的图像特征组成图像特征对。例如,首先计算不同图像特征之间的欧式距离。对于每一个图像特征x1,按照欧式距离计算其类内最近或类间最近的图像特征,记为x2,组成2×N×K组图像特征对。在另外的实施例中,距离的度量形式也可替换为余弦距离等其他类型,并且类内和类间的距离度量可以替换成最远等。
在此步骤S130中,通过选择图像特征对,可以挑选出最为相似的图像对,从而能够提升图像识别难度,增加网络的鲁棒性。
步骤S140,从图像特征对中提取共有特征向量。
将上述图像特征通过共有特征向量学习得到其对应的共有特征向量xm,xm∈RD。将共有特征向量学习过程记为fm,则共有特征向量可表示为:
xm=fm([x1,x2]) (1)
公式(1)代表的操作是将特征对x1和x2进行拼接,将拼接后的特征例如送入多层全连接层,参见图2所示,以两层全连接层为例,特征映射的维度由2048变为512,512变为2048。在另外的实施例中,fm可以替换为双线性池化操作、点乘、点加等其他形式。
需说明的是,本发明对全连接层的数量以及特征映射的维度不作限制,本领域技术人员可根据训练精度、训练速度等要求进行设置。
步骤S150,基于共有特征向量计算图像特征对各特征对应的门特征向量。
将生成的共有特征向量与图像特征对中的向量分别进行点乘,并且用线性函数进行归一化。例如,非线性函数可采用sigmoid函数。最终生成门特征向量gi,gi∈RD,表示为:
gi=sigmoid(xm⊙xi),i∈{1,2} (2)
gi中的每一个元素大小在0至1之间,数值大表示该通道中的语义特征对于特征xi的分类有重要作用,具有高区分性。
在另外的实施例中,也可以选用tanh函数或其他的非线性函数进行归一化,本发明对此不作限制。
共有特征向量区别于常规操作,该向量的特征包含了图像对中对比性较强的特征,有利于后续作为一种上下文信息,指导发现图像中具有特异性的语义特征。
步骤S160,将图像特征对中各特征与门特征向量进行组合,获得自身图像特征与对应门特征向量的组合结果以及自身图像特征与其他门特征向量的组合结果。
将上述的原始图像特征(即图像特征对中的各特征)与门特征向量进行组合,得到四种表达形式的特征,参见图3所示,具体表示如下:
Figure BDA0002377235770000061
其中
Figure BDA0002377235770000062
代表自己的图像特征与对应的门特征向量点乘得到的结果,而
Figure BDA0002377235770000063
代表自己的图像特征与其他的门特征向量点乘得到的结果,其中
Figure BDA0002377235770000064
应该比
Figure BDA0002377235770000065
更具有区分性。
在此步骤中,通过注意力交互机制,可以丰富特征的多样性,增加图像特征的难度。
步骤S170,将组合结果输入到分类器进行优化,获得经训练的卷积神经网络和分类器。
将上述组合后的特征依次送入分类器中,可以得到对应的分类概率向量
Figure BDA0002377235770000066
Figure BDA0002377235770000067
其中C为类别数目,表示为:
Figure BDA0002377235770000068
其中,
Figure BDA0002377235770000069
是经过softmax函数归一化后的概率向量,W和b分别表示分类器的权重和偏置。在上述概率向量的基础上,通过引入对应的损失函数,通过损失函数引导整个网络(即包括用于进行特征提取的卷积神经网络和分类器)的优化过程。
在一个实施例中,优化过程首先采用交叉熵损失函数(Cross Entropy Loss),表示为:
Figure BDA00023772357700000610
其中,yi表示真实的分类标签,例如yi采用独热编码向量表示,仅在真实标签的维度为1,其它维度为0。
进一步地,考虑到不同特征向量的优先性不同,对应的分类结果有所差异,可引入分数排序损失函数(score ranking loss),具体表示为:
Figure BDA0002377235770000071
其中
Figure BDA0002377235770000072
表示概率向量
Figure BDA0002377235770000073
中第ci类所对应的分数,∈表示阈值。该分数排序损失函数希望概率向量
Figure BDA0002377235770000074
在第ci类上的分数能够比概率向量
Figure BDA0002377235770000075
在第ci类上的分数大,数值上至少超过阈值∈。阈值∈可根据分类精度等因素设置,本发明对此不进行限制。
通过增加分数排序损失函数,将细微特征差异对分类结果的影响考虑进去,可以增加分类器对细微图像差异的敏感度,从而增加分类的鲁棒性。
通过上述训练过程可获得优化的卷积神经网络参数和分类器参数,即经训练的图像识别模型。在实际应用中,对于待分类图片,可将单张图片送入经训练的卷积神经网络,抽取出对应的图像特征x*,将x*送入到经训练的分类器,得到最终的分类结果。
相应地,本发明还提供一种基于注意力机制的图像识别***,用于实现上述方法的一个方面或多个方面。例如,参见图4所示,该***包括:数据输入模块,用于按照预先设定的数据选择策略挑选图片,每个批量中选择若干类(N),从每类中选择若干张图片(K);图像对选择模块,用于得到前述N×K个图像特征后,计算图像特征两两之间的欧式距离,挑选与其图像特征欧式距离最小的类内、类间的特征组成特征对,可获得2×N×K图像特征对;共有特征向量学习模块,其用于对每一对特征对,通过全连接层的映射,得到该图像对的共有特征;门特征向量生成模块,用于将共有特征与特征对中的特征进行单独点乘和归一化,分别得到两个门特征向量,每一个门特征向量能够表示图像中具有高区分性语义特征所在的通道;注意力交互模块,对于每一对图像特征,得到两个原始特征以及两个对应的门特征向量,将上述的图像特征与门特征向量进行最后,并且采用残差结构进行连接,最后得到四种特征表达形式;分类器模块,用于将上述得到的四种特征分别送入分类器中分类。各模块可采用逻辑电路或处理器实现。
本发明可以用于多种图像识别场景,例如移动终端的图像识别场景。参见图5所示,移动终端包括数据采集模块、算法处理模块和用户界面显示模块,具体过程包括:通过手机终端采集待预测的图片,并进行简单的图像预处理;然后将图像送入算法识别模块中,通过预先训练好的卷积神经网络模型进行特征抽取,然后将提取的特征送入到分类器识别模块得到预测结果。进一步地,可将识别结果返回到手机终端,在显示界面显示所采集的图像以及该图像的识别结果。
本发明旨在通过在训练过程中同时输入相似的图像对,发现细粒度图像中具有高区分性的语义特征,最终提高识别任务的性能。本发明尤其适用于现实生活中细粒度图像的识别或用于通过物体识别任务、人脸识别和行人再识别、生物类别识别等任务。例如细粒度图像包括鸟类、花、轿车、具有分类层级的生物类别等。参见图6所示,具体流程包括:收集对应的数据集,并划分出训练集合;选择合理的超参数和策略,包括但不限于基础网络、批量大小、学习率、共有向量生成模块等,在上述超参数给定的情况下,利用本发明方案提出的策略对网络进行优化;将给定待测试图片送入网络,得到测试图片对应的预测标签,给出对应图片类别的名称。
经验证,本发明提出的基于注意力交互机制的图像识别方法可以有效地提高识别准确率,在众多数据库上相比于其他现有方法,图像识别准确率可提高1至2个百分点,对于细粒度图像效果尤其明显。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种构建基于注意力交互机制的图像识别模型的方法,包括以下步骤:
对于N种图像类别中的每一类,选择K张图片输入到卷积神经网络进行特征提取,获得多个图像特征,其中,N、K是大于等于2的整数;
依据不同图像特征之间的相似度组建图像特征对;
对于所组建的图像特征对通过共有特征学习提取出共有特征向量;
基于所述共有特征向量计算图像特征对中各特征对应的门特征向量;
将所述图像特征对中的各特征与所述门特征向量组合后的特征输入到分类器,并根据设置的损失函数进行优化,获得经训练的卷积神经网络和经训练的分类器。
2.根据权利要求1所述的方法,其特征在于,所述依据不同图像特征之间的相似度组建图像特征对包括:
对于每一个图像特征x1,按照欧式距离计算其类内最近或类间最近的图像特征,记为x2,组成2×N×K组图像特征对。
3.根据权利要求2所述的方法,其特征在于,所述提取共有特征向量包括:
将图像特征对x1和x2进行拼接,并将拼接后的特征分别送入多个全连接层,得到共有特征向量,表示为:
xm=fm([x1,2])。
4.根据权利要求3所述的方法,其特征在于,计算图像特征对中各特征对应的门特征向量包括:
将共有特征向量xm分别与图像特征对的特征点乘,并经过sigmoid函数进行归一化,得到对应的门特征向量,表示为:
gi=sigmoid(xmi),∈{1,2。
5.根据权利要求4所述的方法,其特征在于,所述图像特征对中的各特征与所述门特征向量组合后的特征包括四种表达形式,分别为
Figure FDA0002377235760000011
Figure FDA0002377235760000012
Figure FDA0002377235760000013
Figure FDA0002377235760000014
Figure FDA0002377235760000021
其中
Figure FDA0002377235760000022
代表自己的图像特征与对应的门特征向量点乘得到的结果,
Figure FDA0002377235760000023
代表自己的图像特征与其他的门特征向量点乘得到的结果,g1,g2表示门特征向量。
6.根据权利要求1所述的方法,其特征在于,所述损失函数设置为:
Figure FDA0002377235760000024
其中,yi表示真实的分类标签,
Figure FDA0002377235760000025
表示分类器输出的分类概率向量。
7.根据权利要求1所述的方法,其特征在于,所述损失函数表示为:
Figure FDA0002377235760000026
其中
Figure FDA0002377235760000027
表示概率向量
Figure FDA0002377235760000028
中第ci类所对应的分数,∈表示阈值。
8.一种基于注意力交互机制的图像识别方法,包括以下步骤:
将单张图片送入权利要求1所述的经训练的卷积神经网络,抽取出对应的图像特征x*,将x*送入到所述经训练的分类器,得到最终的分类结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种电子设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。
CN202010070791.0A 2020-01-21 2020-01-21 一种基于注意力交互机制的图像识别方法 Active CN111325237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010070791.0A CN111325237B (zh) 2020-01-21 2020-01-21 一种基于注意力交互机制的图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010070791.0A CN111325237B (zh) 2020-01-21 2020-01-21 一种基于注意力交互机制的图像识别方法

Publications (2)

Publication Number Publication Date
CN111325237A true CN111325237A (zh) 2020-06-23
CN111325237B CN111325237B (zh) 2024-01-05

Family

ID=71163304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010070791.0A Active CN111325237B (zh) 2020-01-21 2020-01-21 一种基于注意力交互机制的图像识别方法

Country Status (1)

Country Link
CN (1) CN111325237B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931859A (zh) * 2020-08-28 2020-11-13 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112487227A (zh) * 2020-11-27 2021-03-12 北京邮电大学 一种深度学习的细粒度图像分类方法及装置
CN115457308A (zh) * 2022-08-18 2022-12-09 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN116051948A (zh) * 2023-03-08 2023-05-02 中国海洋大学 基于注意力交互及反事实注意力的细粒度图像识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068463A1 (en) * 2016-09-02 2018-03-08 Artomatix Ltd. Systems and Methods for Providing Convolutional Neural Network Based Image Synthesis Using Stable and Controllable Parametric Models, a Multiscale Synthesis Framework and Novel Network Architectures
CN110119477A (zh) * 2019-05-14 2019-08-13 腾讯科技(深圳)有限公司 一种信息推送方法、装置和存储介质
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068463A1 (en) * 2016-09-02 2018-03-08 Artomatix Ltd. Systems and Methods for Providing Convolutional Neural Network Based Image Synthesis Using Stable and Controllable Parametric Models, a Multiscale Synthesis Framework and Novel Network Architectures
CN110119477A (zh) * 2019-05-14 2019-08-13 腾讯科技(深圳)有限公司 一种信息推送方法、装置和存储介质
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111931859A (zh) * 2020-08-28 2020-11-13 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN111931859B (zh) * 2020-08-28 2023-10-24 中国科学院深圳先进技术研究院 一种多标签图像识别方法和装置
CN112487227A (zh) * 2020-11-27 2021-03-12 北京邮电大学 一种深度学习的细粒度图像分类方法及装置
CN112487227B (zh) * 2020-11-27 2023-12-26 北京邮电大学 一种深度学习的细粒度图像分类方法及装置
CN115457308A (zh) * 2022-08-18 2022-12-09 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN115457308B (zh) * 2022-08-18 2024-03-12 苏州浪潮智能科技有限公司 细粒度图像识别方法、装置和计算机设备
CN116051948A (zh) * 2023-03-08 2023-05-02 中国海洋大学 基于注意力交互及反事实注意力的细粒度图像识别方法
CN116051948B (zh) * 2023-03-08 2023-06-23 中国海洋大学 基于注意力交互及反事实注意力的细粒度图像识别方法

Also Published As

Publication number Publication date
CN111325237B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
Zhou et al. Interpretable basis decomposition for visual explanation
Unnikrishnan et al. Toward objective evaluation of image segmentation algorithms
Kao et al. Visual aesthetic quality assessment with a regression model
CN111582409B (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
US7903883B2 (en) Local bi-gram model for object recognition
CN111325237A (zh) 一种基于注意力交互机制的图像识别方法
US20190019052A1 (en) Text Region Detection in Digital Images using Image Tag Filtering
Kim et al. Color–texture segmentation using unsupervised graph cuts
CN108334805B (zh) 检测文档阅读顺序的方法和装置
CA3066029A1 (en) Image feature acquisition
Guan et al. A unified probabilistic model for global and local unsupervised feature selection
US11803971B2 (en) Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes
US20220319233A1 (en) Expression recognition method and apparatus, electronic device, and storage medium
CN112085072A (zh) 基于时空特征信息的草图检索三维模型的跨模态检索方法
US20200218932A1 (en) Method and system for classification of data
CN113158777B (zh) 质量评分方法、质量评分模型的训练方法及相关装置
Zhang et al. Large-scale aerial image categorization using a multitask topological codebook
CN115482418B (zh) 基于伪负标签的半监督模型训练方法、***及应用
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
Zhang et al. Appearance-based loop closure detection via locality-driven accurate motion field learning
Buenaposada et al. Improving multi-class Boosting-based object detection
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Arya et al. Local triangular coded pattern: A texture descriptor for image classification
CN115204301A (zh) 视频文本匹配模型训练、视频文本匹配方法和装置
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant