CN113159039A - 图像识别方法及装置、电子设备和存储介质 - Google Patents

图像识别方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113159039A
CN113159039A CN202110179173.4A CN202110179173A CN113159039A CN 113159039 A CN113159039 A CN 113159039A CN 202110179173 A CN202110179173 A CN 202110179173A CN 113159039 A CN113159039 A CN 113159039A
Authority
CN
China
Prior art keywords
image
feature
category
representative
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110179173.4A
Other languages
English (en)
Inventor
颜鲲
蔡晓聪
侯军
周心池
周东展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202110179173.4A priority Critical patent/CN113159039A/zh
Publication of CN113159039A publication Critical patent/CN113159039A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种图像识别方法及装置、电子设备和存储介质。该方法包括:获得待识别图像;将待识别图像输入第一特征选择网络,得到待识别图像的第一代表性特征;第一代表性特征为与待识别图像所属的类别相关的局部图像特征;确定第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到待识别图像与预设类别中每个类别对应的相似度值;第二代表性特征为与样本图像所属的类别相关的局部图像特征;根据相似度值,从预设类别中识别出待识别图像所属的类别。通过本公开,能够提高图像识别的正确性。

Description

图像识别方法及装置、电子设备和存储介质
技术领域
本公开涉及图像处理技术,尤其涉及一种图像识别方法及装置、电子设备和存储介质。
背景技术
小样本学习旨在基于少量的训练图像就可以分类出新类别未见过的图像。当前基于度量学习的方法在小样本学习任务上取得了很大的突破。
相关技术中,度量学习方法的基本思想是学习数据点(如图像)之间的距离函数;主要分成了基于全局特征和基于局部特征两类方法。基于全局特征的方法由于融入了图像所有的背景因素,在少量样本的情况下,很难训练模型对这些干扰因素鲁棒。而基于局部特征的方法会更细粒度的选择主要描述物体的局部特征来进行分类,降低了背景因素的干扰。
但是相关技术中,采用局部特征的方法在最终对图像进行分类的时候,分类精确度不高,从而导致图像识别不准确。
发明内容
本公开实施例提供一种图像识别方法及装置、电子设备和存储介质,能够提高对图像分类的准确性,从而提高图像识别的正确性。
本公开实施例的技术方案是这样实现的:
本公开实施例提供一种图像识别方法,包括:获得待识别图像;将所述待识别图像输入第一特征选择网络,得到所述待识别图像的第一代表性特征;所述第一代表性特征为与所述待识别图像所属的类别相关的局部图像特征;确定所述第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到所述待识别图像与所述预设类别中每个类别对应的相似度值;所述第二代表性特征为与所述样本图像所属的类别相关的局部图像特征;根据所述相似度值,从所述预设类别中识别出所述待识别图像所属的类别。
本公开实施例提供一种图像识别装置,包括:获取模块,用于获得待识别图像;选择模块,用于将所述待识别图像输入第一特征选择模块,得到所述待识别图像的第一代表性特征;所述第一代表性特征为与所述待识别图像所属的类别相关的局部图像特征;确定模块,用于确定所述第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到所述待识别图像与所述预设类别中每个类别对应的相似度值;所述第二代表性特征为与所述样本图像所属的类别相关的局部图像特征;分类模块,用于根据所述相似度值,从所述预设类别中识别出所述待识别图像所属的类别
本公开实施例提供一种电子设备,包括:存储器,用于存储可执行计算机程序;处理器,用于执行所述存储器中存储的可执行计算机程序时,实现上述的图像识别方法。
本公开实施例提供一种计算机可读存储介质,存储有计算机程序,用于引起处理器执行时,实现上述的图像识别方法。
采用上述技术实施方案,由于根据与待识别图像所属的类别相关的局部图像特征,以及根据与样本图像所属的类别相关的局部图像特征,进行相似度的计算,并根据相似度值确定待识别图像所属的类别,所以,相比于使用待识别图像的所有局部图像特征进行分类而言,由于不需要考虑待识别图像中与待识别图像所属的类别不相关的背景特征,也不需要考虑样本图像中与样本图像所属的类别不相关的背景特征,所以减少了待识别图像和样本图像的背景特征对待识别图像进行分类时的干扰,从而提高了对待识别图像识别时的准确性;以及,减少了相似度计算时的计算量,从而也提高了对待识别图像识别时的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1A和图1B分别为本公开实施例提供的示例性的相关技术中基于全局特征和基于局部特征的方法的原理示意图;
图2为本公开实施例提供的图像识别方法的一个可选的流程示意图;
图3为本公开实施例提供的图像识别方法的一个可选的流程示意图;
图4为本公开实施例提供的示例性的训练第一分类网络,并通过训练后的分类网络得到待识别图像的代表性特征的示意图;
图5为本公开实施例提供的图像识别方法的一个可选的流程示意图;
图6为本公开实施例提供的图像识别方法的一个可选的流程示意图;
图7为本公开实施例提供的示例性的语义对齐的原理示意图;
图8为本公开实施例提供的图像识别方法的一个可选的流程示意图;
图9为本公开实施例提供的图像识别方法的一个可选的流程示意图;
图10为本公开实施例提供的示例性的获得每个类别的样本图像的第二代表性特征的示意图;
图11为本公开实施例提供的示例性的PSM模块与TAM模块之间的关系示意图;
图12为本公开实施例提供的示例性对待识别图像进行分类的方法示意图;
图13为本公开实施例提供的目标检测装置的结构示意图;
图14为本公开实施例提供的网络结构的结构示意图;
图15为本公开实施例提供的电子设备的结构示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,所描述的实施例不应视为对本公开的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
目前,基于度量学习的方法在小样本学习任务上取得了很大的突破。度量学习方法主要分成了基于全局特征和基于局部特征两类方法。图1为本公开实施例提供的示例性的相关技术中基于全局特征和基于局部特征的方法的原理示意图。如图1A所示,基于全局特征的方法,由于融入了图像所有的背景因素,在少量样本的情况下,很难训练模型对这些干扰因素鲁棒;如图1B所示,基于局部特征的方法会考虑所有的局部特征,尽管能降低背景特征的重要性,但是还是加入了背景因素的干扰,而背景因素对图像分类的干扰较大。所以,相关技术中基于全局特征的方法和基于局部特征的方法对于图像分类的准确度均不高。
本公开实施例提供一种图像识别方法及装置、电子设备和存储介质,能够提高图像识别的正确性。
在一种可能的实现方式中,所述方法可以由图像识别装置,以及终端设备或服务器等电子设备执行。终端设备可以为摄像设备、用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行所述方法。
图2是本公开实施例提供的图像识别方法的一个可选的流程示意图,将结合图2示出的步骤进行说明。
S101、获得待识别图像。
在本公开的实施例中,图像识别装置可以通过接收其他装置,例如,摄像装置发送的未携带标签的图像而获得待识别图像。在本公开的另一些实施例中,图像识别装置也可以通过自身的摄像装置进行图像的实时采集,而获得待识别图像,例如,待识别图像可以是猫的图像等。本公开实施例对如何获得待识别图像的方法不作具体限定。
S102、将待识别图像输入第一特征选择网络,得到待识别图像的第一代表性特征;第一代表性特征为与待识别图像所属的类别相关的局部图像特征。
在本公开的实施例中,图像识别装置可以将待识别图像输入到第一特征选择网络中,所述第一特征选择网络能够得到待识别图像的全部局部图像特征,以及能从待识别图像的全部局部图像特征中选择出与待识别图像所属的类别相关的局部图像特征,作为待识别图像的第一代表性特征。例如,图像识别装置可以将一张猫的图像输入到第一特征选择网络中,由第一特征选择网络输出该图像的所有局部图像特征中能够影响该图像的分类的局部图像特征。
在本公开的一些实施例中,图像识别装置可以一次输入一张待识别图像;在本公开的另一些实施例中,为提高识别效率,图像识别装置也可以一次输入多张待识别图像,本公开实施例对此不作限定。
在一些实施例中,第一特征选择网络可以是由预先训练好的图像分割网络和分类器组成的网络。
S103、确定第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到待识别图像与预设类别中每个类别对应的相似度值;第二代表性特征为与样本图像所属的类别相关的局部图像特征。
图像识别装置中可以预先存储预设类别中每个类别的样本图像(带标签的图像)的第二代表性特征,并且该预设类别中包括了待识别图像所属的类别,每个类别的样本图像的第二代表性特征为与该类别的样本图像所属的类别相关的局部图像特征。图像识别装置可以计算得到待识别图像的第一代表性特征与预设类别中每个类别的样本图像的每个第二代表性特征之间的相似度,对应获得与预设类别中每个类别对应的相似度值。本公开的实施例中,图像识别装置可以计算第一代表性特征与每个类别的样本图像的每个第二代表性特征之间的余弦相似度,获得与预设类别中每个类别对应的余弦相似度值。例如,图像识别装置可以预先存储五个类别(例如,“狗”、“七星瓢虫”、“狮子”、“猫”和“鸟”)中每个类别的样本图像的图像特征,并可以分别计算待识别图像(例如,鸟的图像)的第一代表性特征与“狗”、“七星瓢虫”、“狮子”、“猫”和“鸟”这五个类别的样本图像的第二代表性特征之间的余弦相似度,从而得到与这五个类别一一对应的五个余弦相似度值。
需要说明的是,在本公开实施例中,“每个类别”表示单数概念,代表了一个类别。
在本公开的一些实施例中,样本图像可以是从支持集(support set)中选出的图像,待识别图像可以是从查询集(query set)中选出的图像。在本公开的实施例中,预设类别可以为五个类别,且每个类别的样本图像中可以包括一张样本图像,也可以包括五张样本图像,本公开实施例对此不作限定。
S104、根据相似度值,从预设类别中识别出待识别图像所属的类别。
图像识别装置在得到与预设类别中每个类别对应的相似度值后,可以从中选取数值最大的相似度值,并将数值最大的相似度值所对应的类别,作为识别出的待识别图像所属的类别。例如,继续以上述的举例进行说明,经过计算与预设类别中每个类别对应的相似度,得到与“狗”、“七星瓢虫”、“狮子”、“猫”和“鸟”这五类一一对应的五个余弦相似度值,若与“鸟”对应的余弦相似度值的数值最高,则可以将“鸟”作为识别出的待识别图像的类别。
在本公开的一些实施例中,每个类别的样本图像还具有第二非代表性特征;每个类别的样本图像的第二非代表性特征可以是每个类别的每张样本图像中,与该每张样本图像所属的类别相关性较低的局部图像特征(即每个类别的每张样本图像中,除了代表性特征之外,剩余的局部图像特征),例如背景图像特征。
在本公开的一些实施例中,上述S102中的第一特征选择网络包括:第一特征提取网络和第一分类网络。第一特征提取网络可以是基于卷积神经网络 (ConvolutionalNeural Networks,CNN)的特征提取器,例如,可以是残差网络ResNet-18;第一分类网络可以是二分类器。第一分类网络可以是根据预设类别中每个类别的样本图像的第二代表性特征和第二非代表性特征训练获得。
示例性的,图3是本公开实施例提供的图像识别方法的一个可选的流程示意图,如图3所示,在图2中的S102之前,可以执行S201-S202,且S102可以通过S1021-S1022实现,以下将根据图3进行说明。
S201、将每个类别的样本图像的第二代表性特征确定为正样本,将每个类别的样本图像的第二非代表性特征确定为负样本。
S202、根据正样本和负样本对第一分类网络进行训练,得到训练后的第一分类网络。
图像识别装置可以将第二代表性特征和第二非代表性特征分别作为正、负样本,采用梯度下降算法对第一分类网络训练预设次数msub1,从而得到训练好的网络参数,并采用训练好的网络参数对第一分类网络进行初始化。
在本公开的一些实施例中,对第一分类网络的训练次数msub1的取值可以是 5。在本公开的另一些实施例中,对第一分类网络的训练次数msub1也可以是其他值,本公开对此不作具体限定。
S1021、将待识别图像输入第一特征提取网络,得到待识别图像的第一局部图像特征。
这里,第一特征提取网络可以用于将图像嵌入到潜在的空间中,每个图像都将是一个H×W×C的3D视觉特征,每个图像的3D视觉特征可以表示为公式 (1):
Figure BDA0002940945920000071
其中,fθ(.)表示第一特征提取网络,X表示图像,θ是第一特征提取网络对应的可学习参数的集合,H和W表示待识别图像的尺寸,C表示待识别图像的通道数量。所以,每张图像均会有H×W个1×1×C的局部图像特征(针对一张待识别图像,对应的第一局部图像特征则为H×W个1×1×C的局部图像特征)。因此,对于一张图像而言,通过第一特征提取网络,可以获得A个C通道的局部图像特征,其中,A=H×W,一张图像的所有局部图像特征则可以表示为公式(2):
fθ(X)=[x1,x2,...,xA] (2)
其中,xi表示一个局部图像特征。
S1022、将第一局部图像特征输入训练后的第一分类网络,得到待识别图像的第一代表性特征。
图像识别装置在采用训练好的网络参数对第一分类网络进行初始化后,可以将待识别图像的第一局部图像特征输入到完成初始化的第一分类网络中,以通过完成初始化的第一分类网络,对待识别图像的第一局部图像特征中的代表性特征和非代表性特征进行分类,并得到从第一分类网络输出的第一局部图像特征中的代表性特征,并将该代表性特征作为第一代表性特征。
这里,将一张待识别图像的H×W个1×1×C的局部图像特征输入二分类器中,通过二分类器对H×W个1×1×C的局部图像特征进行分类,从而根据分类结果,得到待识别图像的第一代表性特征。
在本公开的一些实施例中,将一个待识别图像的所有局部图像特征输入训练后的第一分类网络之后,第一分类网络可以为每个局部图像特征xa生成一个分数值score(xa),其中,a的取值为1~A中的任意值,A表示该待识别图像的局部图像特征的数量。图像识别装置根据该待识别图像的所有局部图像特征所各自对应的分数值,从中选出分数值大于或等于预设分数阈值的局部图像特征,作为该待识别图像的第一代表性特征。这里,该预设分数阈值可以根据训练获得,或者也可以预先设定,本公开实施例对此不作具体限定。
图4是本公开实施例提供的示例性的训练第一分类网络,并通过训练后的分类网络得到待识别图像的代表性特征的示意图。如图4所示,任务适应模块(task adaptionmodule,TAM)中包括了第一特征提取网络(图4所示的CNN) 和第一分类网络,可以利用所有类别的样本图像的第二代表性特征(前景特征) 和第二非代表性特征(背景特征),即图4中所示的支持集中的局部图像特征,采用梯度下降算法,对第一分类网络训练预设次数,得到第一分类网络训练后的网络参数,并采用训练后的网络参数对第一分类网络进行参数初始化,完成初始化后,将类别为“狗”的待识别图像(查询图像)输入到CNN中得到该待识别图像的所有局部图像特征,并将得到的该待识别图像的所有局部图像特征输入至第一分类网络中,由第一分类网络输出该待识别图像的代表性特征。
本公开的一些实施例中,第一代表性特征的数量至少为一个,第二代表性特征的数量至少为一个。相应地,图5是本公开实施例提供的图像识别方法的一个可选的流程示意图,将结合图5示出的步骤进行说明,如图5所示,上述 S103可以通过S301-S302实现:
S301、确定目标第一代表性特征与每个类别的目标第二代表性特征之间的相似度,得到第一相似度值;目标第一代表性特征为至少一个第一代表性特征中的任意一个;目标第二代表性特征为至少一个第二代表性特征中的任意一个。
S302、将第一相似度值,确定为待识别图像与预设类别中每个类别对应的所述相似度值。
这里,目标第一代表性特征可以是待识别图像的至少一个第一代表性特征中,任意的一个第一代表性特征,相应的,目标第二代表性特征可以是每个类别的至少一个第二代表性特征中,任意的一个第二代表性特征。
这里,对于预设类别中每个类别的样本图像,图像识别装置可以计算目标第一代表性特征,与该样本图像的目标第二代表性特征之间的余弦相似度值,从而得到目标第一代表性特征与目标第二代表性特征之间的一个余弦相似度值,并将得到的该余弦相似度值,作为待识别图像与预设类别中每个类别所对应的相似度值。例如,图像识别装置可以计算待识别图像的目标第一代表性特征,与类别“狗”的样本图像的目标第二代表性特征之间的一个余弦相似度值,并将得到的该余弦相似度值,作为待识别图像与类别“狗”所对应的相似度值。采用此方法,由于待比较的可代表性特征的数量较少,所以,可以提高对待识别图像的识别的效率。
本公开的另一些实施例中,第一代表性特征的数量为至少一个,第二代表性特征的数量为至少一个。相应地,图6是本公开实施例提供的图像识别方法的一个可选的流程示意图,将结合图6示出的步骤进行说明,如图6所示,上述S103可以通过S401-S403实现:
S401、确定每个第一代表性特征与每个类别的所有第二代表性特征之间的相似度,分别得到至少一个第二相似度值。
S402、基于至少一个第二相似度值中数值最大的前预设数量的第二相似度值,得到每个第一代表性特征与每个类别的所有第二代表性特征的子相似度值。
S403、基于所有第一代表性特征的子相似度值的总和,确定待识别图像与预设类别中每个类别对应的所述相似度值。
为清楚起见,以下采用X和Y分别表示第一代表性特征与第二代表性特征的数量,即,一张待识别图像存在X个第一代表性特征,预设类别中的每个类别存在Y个第二代表性特征,X、Y均为大于1的整数;基于此数量,以下对上述S401-S403进行解释;可以理解的是,此举例仅为示例性说明,并不用于对本公开的限制。
在S401中,确定X个第一代表性特征中每个第一代表性特征,与每个类别的Y个第二代表性特征之间的相似度,得到与X个第一代表性特征中每个第一代表性特征对应的Y个第二相似度值。示例性的,图像识别装置可以用函数φ(.)计算X个第一代表性特征中每个第一代表性特征
Figure BDA0002940945920000101
与Y个第二代表性特征中每个第二代表性特征
Figure BDA0002940945920000102
之间的余弦相似度值
Figure BDA0002940945920000103
其中,c为1到 X中的任意整数,b为1到Y中的任意整数,从而,得到与X个第一代表性特征中每个第一代表性特征所对应的Y个余弦相似度值。
在S402中,基于Y个第二相似度值中数值最大的前Z个第二相似度值,得到X个第一代表性特征中每个第一代表性特征,与每个类别的Y个第二代表性特征之间的子相似度值,Z为大于1且小于Y的整数。也就是说,在得到与 X个第一代表性特征中每个第一代表性特征所对应的Y个余弦相似度值之后,图像识别装置可以从每个第一代表性特征所对应的Y个余弦相似度值中,选取余弦相似度值最大的前Z个余弦相似度值,并将前Z个余弦相似度值的总和,作为对应的一个第一代表性特征的子相似度值。这里,Z的数值可以根据Y的数值而任意设定,本公开实施例对Z的数值不作具体限定。例如,对于X个第一代表性特征中的第一个第一代表性特征,当计算出该第一代表性特征与一个类别(例如,“狗”)的样本图像的5个第二代表性特征之间的5个余弦相似度值后,可以将这5个余弦相似度值中前3个数值最大的余弦相似度值的总和,作为该第一代表性特征与类别“狗”的所有第二代表性特征(上述的5个第二代表性特征)之间的子相似度值。
在本公开的一些实施例中,上述的S402可以实施为:确定至少一个相似度值中数值最大的前预设数量的相似度值的总和,得到相似度总值;将相似度总值与至少一个相似度值所对应的第一代表性特征的一个分数值之间的乘积,作为每个第一代表性特征与每个类别的所有第二代表性特征的子相似度值。继续采用上述举例,则S402可以理解为,确定Y个第二相似度值中数值最大的前Z 个第二相似度值的总和,得到相似度总值;将相似度总值与Y个第二相似度值所对应的第一代表性特征的一个分数值之间的乘积,作为该第一代表性特征与每个类别的所有第二代表性特征的子相似度值。也就是说,在得到与X个第一代表性特征中每个第一代表性特征所对应的Y个第二相似度值中,数值最大的前Z个第二相似度值后,图像识别装置可以根据公式(3)计算X个第一代表性特征中每个第一代表性特征与每个类别的所有第二代表性特征的子相似度值:
Figure BDA0002940945920000111
其中,d为1到Z中的任意整数,
Figure BDA0002940945920000112
表示X个第一代表性特征中每个第一代表性特征
Figure BDA0002940945920000121
的分数值,
Figure BDA0002940945920000122
表示Y个第二相似度值中数值最大的前 Z个第二相似度值中的每一个第二相似度值。
这里,由于X个第一代表性特征中每个第一代表性特征,与Y个第二代表性特征中的每个第二代表性特征之间进行比较的方法的效果不是最优的,所以,采用了k-nearest算法来实现语义对齐,通过k-nearest算法实现语义对齐可以实现为:对于X个第一代表性特征中每个第一代表性特征,从Y个第二代表性特征中找到k个(k=Z)邻居,计算X个第一代表性特征中每个第一代表性特征与这k个邻居中每个邻居之间的第二相似度,得到k个第二相似度值,并将这 k个第二相似度值的总和作为与X个第一代表性特征中,每个第一代表性特征对应的子相似度值。图7是本公开实施例提供的示例性的语义对齐的原理示意图。如图7所示,e和f中分别标出了不同图像中的不同代表性特征,如图7 所示,若代表性特征1直接与代表性特征4之间进行比较,则得到的相似度值仅为“0.49”,因为代表性特征1与代表性特征4的语义不同,所以,可以采用k-nearest算法从代表性特征2、代表性特征3和代表性特征4中找到k个邻居(例如,在图3中k=2):代表性特征2和代表性特征3;将代表性特征1 与代表性特征2之间的相似度,以及,将代表性特征1与代表性特征3之间的相似度的总和,作为代表性特征1与代表性特征2、代表性特征3和代表性特征4的子相似度值。
在S403中,图像识别装置在获得X个第一代表性特征中,每个第一代表性特征与每个类别的Y个第二代表性特征的子相似度值之后,可以获得与X个第一代表性特征的数量相同的X个子相似度值,从而可以将获得的X个子相似度值的总和,作为X个第一代表性特征所属的待识别图像,与该每个类别之间的相似度值。例如,当一个待识别图像有2个第一代表性特征,预设类别有五个类别,且五个类别中每一个类别有3个第二代表性特征时,在获得2个第一代表性特征中,每个第一代表性特征与每一个类别的3个第二代表性特征的子相似度值之后,便可以获得与2个第一代表性特征的数量相同的2个子相似度值,从而可以将获得的2个子相似度值之间的总和,作为该待识别图像与该类别之间的相似度值,从而,对于一张待识别图像,可以获得与这五个类别一一对应的五个相似度值,以用于后续根据获得的这个五个相似度值,对该待识别图像进行分类。
在本公开的一些实施例中,具体可以采用公式(4)计算出待识别图像与预设类别中每个类别对应的相似度值:
Figure BDA0002940945920000131
在本公开的一些实施例中,第二代表性特征和第二非代表性特征可以通过特定方法得到;示例性的,图8是本公开实施例提供的图像识别方法的一个可选的流程示意图,在图3中的S201之前,还可以包括S501-S503:
S501、将预设类别中每个类别的样本图像输入第二特征选择网络,得到每个类别的样本图像的第二局部图像特征,以及每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数。
图像识别装置可以将每个类别的样本图像输入到能够得到每个类别的样本图像的全部局部图像特征(第二局部图像特征),以及能得到每个类别的样本图像的全部局部图像特征的特征参数的第二特征选择网络,从而得到每个类别的样本图像的第二局部图像特征,及第二局部图像特征中每个局部图像特征对应的特征参数。
S502、基于每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数,确定第二局部图像特征中每个局部图像特征的损失变化值。
图像识别装置可以在获得每个类别的样本图像的第二局部图像特征中,每个局部图像特征的特征参数后,根据每个局部图像特征的特征参数来确定每个局部图像特征的损失变化值。
在一些实施例中,特征参数包括:训练因子和梯度值;相应地,上述的S502 可以通过S5021实现:
S5021、基于每个类别的样本图像的第二局部图像特征中,每个局部图像特征所对应的训练因子和梯度值之间的乘积,得到第二局部图像特征中每个局部图像特征所对应的损失变化值。
这里,可以根据对分类损失的影响,预先定义用于计算局部图像特征的损失变化值(用于衡量局部图像特征的重要程度)的函数,如公式(5):
g(ρ)=|ΔLΩ|=|LΩ(ρ)-LΩ(0)| (5)
其中,L表示分类损失值,Ω表示除ρ之外的所有样本图像和其他参数, g(ρ)表示每个局部图像特征的损失变化值。
这里,可以通过泰勒公式将公式(5)改写为公式(6):
Figure BDA0002940945920000141
其中,LΩ(0)是ρ的函数,LΩ(0)可以表示为公式(7):
Figure BDA0002940945920000142
基于公式(7),可以将上述公式(5)继续改写为公式(8):
Figure BDA0002940945920000143
其中,
Figure BDA0002940945920000144
表示每个局部图像特征的梯度值。
在本公开的一些实施例中,图像识别装置可以根据公式(8),计算第二局部图像特征中,每个局部图像特征所对应的训练因子和梯度值之间的乘积,得到第二局部图像特征中每个局部图像特征所对应的损失变化值。
S503、基于第二局部图像特征中每个局部图像特征的损失变化值,从每个类别的样本图像的第二局部图像特征中,选择出第二代表性特征和第二非代表性特征。
在一些实施例中,图像识别装置可以设定预设条件,在获得第二局部图像特征中每个局部图像特征的损失变化值后,可以基于第二局部图像特征中每个局部图像特征的损失变化值,从第二局部图像特征中,选择出损失变化值满足预设条件的局部图像特征;将损失变化值满足预设条件的局部图像特征,确定为第二代表性特征,将第二局部图像特征中剩余的局部图像特征确定为第二非代表性特征。
在本公开的一些实施例中,预设类别中每个类别的样本图像包括:至少一张样本图像;预设类别中每个类别的第二局部图像特征包括:至少一张样本图像中每张样本图像的局部图像特征;预设类别中每个类别的第二局部图像特征中,每个局部图像特征所对应的特征参数包括:每张样本图像中每个局部图像特征所对应的训练因子ρi和梯度值
Figure RE-GDA0003073386180000151
其中,i为0~M中的任一整数;相应地,上述的S503可以通过S21-S25实现:
S21、根据每张样本图像中每个局部图像特征所对应的特征参数,确定每张样本图像中每个局部图像特征的损失变化值,并根据损失变换值从每张样本图像的局部图像特征中,选择出满足预设条件的局部图像特征。
对于每一类别的样本图像,图像识别装置可以根据该类别的每张样本图像中每个局部图像特征所对应的ρi
Figure BDA0002940945920000153
计算每一张样本图像的每个局部特征的损失变化值,根据损失变化值从每张样本图像的H×W个1×1×C的局部图像特征中,选择出满足预设条件的局部图像特征。
S22、将从每张样本图像的局部图像特征中,选择出的满足预设条件的局部图像特征,确定为每张样本图像的第三代表性特征。
S23、将每张样本图像的局部图像特征中剩余的局部图像特征,确定为每张样本图像的第三非代表性特征。
对于每一类别的样本图像,图像识别装置在选择出该类别中每张样本图像的H×W个1×1×C的局部图像特征中,满足预设条件的局部特征图像之后,可以将选出的局部图像特征作为该张样本图像的第三代表性特征,并将H×W个 1×1×C的局部图像特征中剩余的局部图像特征,作为该张样本图像的第三非代表性特征;例如,图像识别装置从一张样本图像I的H×W个1×1×C的局部图像特征中,选择出满足预设条件的局部图像特征之后,可以将选出的局部图像特征作为该张样本图像I的第三代表性特征,将剩余的局部图像特征作为该张样本图像I的第三非代表性特征。
S24、将至少一张样本图像中所有样本图像的第三代表性特征,确定为所述第二代表性特征。
S25、将至少一张样本图像中所有样本图像的第三非代表性特征,确定为所述第二非代表性特征。
图像识别装置在获得每个类别的每张样本图像的第三代表性特征之后,可以将属于同一类别的所有样本图像的第三代表性特征,全部作为该类别的样本图像的第二代表性特征,并将属于同一类别的所有样本图像的第三非代表性特征全部作为该类别的样本图像的第二非代表性特征。
根据上述可知,在本公开的一些实施例中,在计算出第二局部图像特征中每个局部图像特征的损失变化值之后,图像识别装置可以以每一类别中的每张样本图像的所有局部图像特征为范围,对该类别中的每张样本图像的全部局部图像特征对应的损失变化值进行排序,根据排序结果,从中选择出损失变化值最高(即重要程度最高)的前n个局部图像特征。这里,可以将选择出的每一类别中的每张样本图像的损失变化值最高的前n个局部图像特征,作为对应的一张样本图像的代表性特征,在找出每一类别中所有样本图像中的第三代表性特征之后,可以将每一类别中所有样本图像中的第三代表性特征全部作为从第二局部图像特征中选择出的对应类别的样本图像的第二代表性特征,并将每一类别中所有样本图像中的剩余局部图像特征,全部作为从第二局部图像特征中选择出的对应类别的样本图像的第二非代表性特征。例如,在一个类别的样本图像有五张样本图像的情况下,对于该类别,可以找出五张样本图像中每张样本图像的第三代表性特征,并将五张样本图像的所有第三代表性特征作为该类别的样本图像的第二代表性特征,将五张样本图像的所有剩余的局部图像特征 (第三非代表性特征)作为该类别的样本图像的第二非代表性特征。
在本申请的一些实施例中,第二特征选择网络包括:第二特征提取网络和第二分类网络。在一些实施例中,第二特征提取网络可以是预先训练好的;同样地,第二特征提取网络可以是深度神经网络,例如,可以是残差网络 ResNet-18;而第二分类网络则可以是五分类器。
相应地,上述S501可以通过S5011-S5012实现:
S5011、将每个类别的样本图像输入第二特征提取网络,得到每个类别的样本图像的第二局部图像特征。
图像识别装置可以将每个类别的样本图像输入第二特征提取网络,通过第二特征提取网络,得到每个类别的每张样本图像的H×W个1×1×C的局部图像特征,并将每个类别中所有样本图像的H×W个1×1×C的局部图像特征作为每个类别的样本图像的第二局部图像特征(即每个类别的第二局部图像特征)。
在本公开的一些实施例中,图像识别装置可以一次输入一张样本图像;在本公开的另一些实施例中,为提高识别效率,图像识别装置也可以一次输入多张样本图像,本公开实施例对此不作限定。
S5012、采用预设类别中各个类别的样本图像的第二局部图像特征,对第二分类网络训练预设次数,得到训练所获得的每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数。
图像识别装置可以采用预设类别中各个类别的样本图像的第二局部图像特征,对第二分类网络分别进行训练,从而可以得到在训练第二分类网络的过程中,以及训练结束后所获得的每个局部图像特征所对应的训练因子和梯度值。
在本公开的一些实施例中,第二局部图像特征中每个局部图像特征对应一个预设的初始训练因子。图9是本公开实施例提供的图像识别方法的一个可选的流程示意图,上述的S5012可以通过S601-S602实现,以下将根据图9进行说明:
S601、将预设类别中各个类别的样本图像的第二局部图像特征中每个局部图像特征,以及每个局部图像特征所对应的预设的初始训练因子,输入第二分类网络,对第二分类网络训练预设次数,得到训练所获得的每个类别的样本图像的第二局部图像特征中,每个局部图像特征所对应的更新后的训练因子,以及与更新后的训练因子对应的梯度值。
S602、将每个类别的样本图像的第二局部图像特征中,每个局部图像特征所对应的更新后的训练因子,以及与更新后的训练因子对应的梯度值,确定为训练所获得的每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数。
图像识别装置可以在得到预设类别中各个类别的样本图像的第二局部图像特征之后,为预设类别中各个类别的样本图像的第二局部图像特征中的每个局部图像特征预设一个初始训练因子ρ,其中,ρ∈[0,1];并将预设类别中各个类别的样本图像的第二局部图像特征,及其对应的初始训练因子ρ输入第二分类网络中,采用梯度下降算法对第二分类网络训练预设次数(M次),一方面可以使第二分类网络的分类准确性更高,另一方面,在每次训练结束后,可以得到第二局部图像特征中每个局部图像特征所对应的一个更新后的训练因子ρi和ρi所对应的梯度值
Figure BDA0002940945920000181
从而在M次训练结束后,对于第二局部图像特征中的每个局部图像特征,获得M个ρi和与M个ρi一一对应的M个梯度值
Figure BDA0002940945920000182
在本申请的一些实施例中,对于第二局部图像特征中的一个局部图像特征,图像识别装置可以将与该局部图像特征对应的M个ρi和与M个ρi一一对应的 M个梯度值
Figure BDA0002940945920000183
作为训练所获得的该局部图像特征的特征参数。在另一些实施例中,对于该局部图像特征,图像识别装置可以将与该局部图像特征对应的M个ρi和与M个ρi一一对应的M个梯度值
Figure BDA0002940945920000184
中,全部作为训练所获得的该局部图像特征的特征参数。
在本公开的一些实施例中,M的取值可以是5,从而可以使第二分类网络更加有效;在本公开的另一些实施例中,M的取值也可以是其他数值,只要可以使第二分类网络有效即可,本公开实施例对此不作限定。
在本公开的一些实施例中,上述的S502还可以通过S31-S32实现:
S31、确定每个类别的样本图像的第二局部图像特征中,每个局部图像特征所对应的每次训练所获得的更新后的训练因子和与更新后的训练因子对应的梯度值之间的乘积,得到M个单次损失变化值。
S32、将M个单次损失变化值的总和,确定为第二局部图像特征中每个局部图像特征所对应的损失变化值。
这里,为了提高对代表性局部图像特征的选择的准确性,每个局部图像特征的损失变化值可以通过公式(9)计算获得,公式(9)如下:
Figure BDA0002940945920000191
其中,msub2表示对第二分类网络的训练次数(上述的M次)。
根据公式(9),对于第二局部图像特征中的每一个局部图像特征,图像识别装置可以计算出该局部图像特征的M次训练所对应的M个单次损失变化值,将M个单次损失变化值的总和,作为该局部图像特征最终的损失变化值。
这里,由于对一个局部图像特征而言,使用M次中某次的训练因子和对应的梯度值计算获得该某次对应的单次损失变化值,并将该某次对应的单次损失变化值作为该局部图像特征最终的损失变化值的情况下,得到的损失变化值可能会存在偶然性(例如,较大或较小),可能不能正确代表该局部图像特征的重要程度,因此,对于一个局部图像特征而言,可以使用M个单次损失变化值来共同确定该局部图像特征的重要程度,如此,可以提高评判该局部图像特征是否重要时,参考信息的全面性,从而提高选择第二可代表性特征时的正确性。
以下通过图示对从预设类别的每个类别的样本图像中,获得第二代表性特征的方法进行简要说明。示例性的,图10是本公开实施例提供的示例性的获得每个类别的样本图像的第二代表性特征的示意图。如图10所示,预设类别包括每个类别的样本图像(支持集)包括:“狗”、“七星瓢虫”、“狮子”、“猫”和“鸟”这五类,每类包括一张样本图像,经过包括了第二特征提取网络(图 10中未示出)和第二分类网络的原型选择模块(prototypeselection module,PSM) 后,得到了“狗”、“七星瓢虫”、“狮子”、“猫”和“鸟”这五个类别中每个类别的样本图像的所有局部图像特征中的代表性特征;其中,在PSM模块中,会根据这五个类别的样本图像通过梯度下降算法,对第二分类网络训练预设次数(上述的M次)。
在本申请的一些实施例中,图4中的TAM模块与图10中的PSM模块之间具有关联。图11是本公开实施例提供的示例性的PSM模块与TAM模块之间的关系示意图。如图11所示,给定一个任务,例如,对“狗”、“七星瓢虫”、“狮子”、“猫”和“鸟”这五个类别进行分类。在PSM模块中,会在每个类别的样本图像的监督信息(标签)下根据损失值的引导,获得每个样本图像的代表性特征,根据得到的五个类别中每个类别的代表性特征(支持集的代表性特征),对TAM中的第一分类网络(图4中未示出)进行训练,与样本图像属于相同类别的五个类别中的任意类别的待识别图像(查询集),经过包含了经过训练后的第一分类网络的TAM模块后,便可得到每个类别的待识别图像的代表性特征。
以下将结合图示简单介绍采用本申请中的方法,对待识别图像进行分类时的简要流程。图12是本公开实施例提供的示例性地对待识别图像进行分类的方法示意图。如图12所示,五个类别中每个样本图像(支持集)经过CNN后得到每个类别的样本图像的所有局部图像特征,每个类别的样本图像的所有局部图像特征经过PSM模块后,得到每个类别的样本图像的代表性特征和非代表性特征(非代表性特征未在图12中体现,每个类别的样本图像的所有局部图像特征中除代表性特征之外的局部图像特征即为非代表性特征),采用经过PSM模块得到的每个类别的样本图像的代表性特征和非代表性特征,对TAM中的第一分类网络(图12未示出)进行训练,得到训练后的第一分类网络。当获得待识别图像(查询图像)时,待识别图像先经过CNN,得到待识别图像的所有局部图像特征,之后,待识别图像的所有局部图像特征经过TAM后,得到该待识别图像的代表性特征,最后,通过对待识别图像的代表性特征和五个类别的样本图像的代表性特征之间进行相似度计算和语义对齐,获得待识别图像与五个类别中各个类别对应的相似度值,例如,“0.2”、“0.6”、“0.3”、“0.4”和“0.9”,并从中选择最高的相似度值“0.9”所对应的类别,作为识别出的待识别图像所属的类别,如“鸟”。
本公开还提供一种图像识别装置,图13是本公开实施例提供的图像识别装置的结构示意图;如图13所示,图像识别装置1包括:获取模块11,用于获得待识别图像;选择模块12,用于将所述待识别图像输入第一特征选择模块,得到所述待识别图像的第一代表性特征;所述第一代表性特征为与所述待识别图像所属的类别相关的局部图像特征;确定模块13,用于确定所述第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到所述待识别图像与所述预设类别中每个类别对应的相似度值;所述第二代表性特征为与所述样本图像所属的类别相关的局部图像特征;分类模块14,用于根据所述相似度值,从所述预设类别中识别出所述待识别图像所属的类别。
在本公开的一些实施例中,所述第一代表性特征为至少一个,所述第二代表性特征为至少一个;确定模块13,还用于确定目标第一代表性特征与每个类别的目标第二代表性特征之间的相似度,得到第一相似度值;所述目标第一代表性特征为所述至少一个第一代表性特征中的任意一个;所述目标第二代表性特征为所述至少一个第二代表性特征中的任意一个;将所述第一相似度值,确定为所述待识别图像与所述预设类别中每个类别对应的所述相似度值。
在本公开的一些实施例中,所述第一代表性特征至少为一个,所述第二代表性特征至少为一个;确定模块13,还用于确定每个第一代表性特征与每个类别的所有第二代表性特征之间的相似度,分别得到至少一个第二相似度值;基于所述至少一个第二相似度值中数值最大的前预设数量的第二相似度值,得到所述每个第一代表性特征与每个类别的所有第二代表性特征的子相似度值;基于所有第一代表性特征的所述子相似度值的总和,确定所述待识别图像与所述预设类别中每个类别对应的所述相似度值。
在本公开的一些实施例中,所述每个类别的样本图像的还具有第二非代表性特征;选择模块12,还用于在所述将所述第一局部图像特征输入所述第一分类网络,得到所述待识别图像的第一代表性特征之前,将所述每个类别的样本图像的所述第二代表性特征确定为正样本,将所述每个类别的样本图像的所述第一非代表性特征确定为负样本;根据所述正样本和所述负样本对所述第一分类网络进行训练,得到训练后的第一分类网络;所述第一特征选择网络包括:第一特征提取网络和第一分类网络;选择模块12,还用于,将所述待识别图像输入所述第一特征提取网络,得到所述待识别图像的第一局部图像特征;将所述第一局部图像特征输入所述训练后的第一分类网络,得到所述待识别图像的所述第一代表性特征。
在本公开的一些实施例中,选择模块12,还用于在所述将所述每个类别的样本图像的所述第二代表性特征确定为正样本,将所述每个类别的样本图像的所述第二非代表性特征确定为负样本之前,将所述预设类别中每个类别的样本图像输入第二特征选择网络,得到所述每个类别的样本图像的第二局部图像特征,以及所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数;基于所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数,确定所述第二局部图像特征中每个局部图像特征的损失变化值;基于所述第二局部图像特征中每个局部图像特征的损失变化值,从所述每个类别的样本图像的第二局部图像特征中,选择出所述第二代表性特征和所述第二非代表性特征。
在本公开的一些实施例中,选择模块12,还用于基于所述第二局部图像特征中每个局部图像特征的损失变化值,从所述第二局部图像特征中,选择出所述损失变化值满足预设条件的局部图像特征;将所述损失变化值满足预设条件的局部图像特征,确定为所述第二代表性特征,将所述第二局部图像特征中剩余的局部图像特征确定为所述第二非代表性特征。
在本公开的一些实施例中,所述第二特征选择网络包括:第二特征提取网络和第二分类网络;选择模块12,还用于将所述每个类别的样本图像输入所述第二特征提取网络,得到所述每个类别的样本图像的所述第二局部图像特征;采用所述预设类别中各个类别的样本图像的所述第二局部图像特征,对所述第二分类网络训练预设次数,得到训练所获得的所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数。
在本公开的一些实施例中,所述特征参数包括:训练因子和梯度值;确定模块13,还用于基于所述每个类别的样本图像的第二局部图像特征中每个局部图像特征所对应的所述训练因子和所述梯度值之间的乘积,得到所述第二局部图像特征中每个局部图像特征所对应的损失变化值。
在本公开的一些实施例中,所述第二局部图像特征中每个局部图像特征对应一个预设的初始训练因子;选择模块12,还用于将所述预设类别中各个类别的样本图像的第二局部图像特征中每个局部图像特征,以及所述每个局部图像特征所对应的预设的初始训练因子,输入所述第二分类网络,对所述第二分类网络训练预设次数,得到训练所获得的所述每个类别的样本图像的第二局部图像特征中每个局部图像特征所对应的更新后的训练因子,以及与所述更新后的训练因子对应的梯度值;将所述每个类别的样本图像的第二局部图像特征中每个局部图像特征所对应的更新后的训练因子,以及与所述更新后的训练因子对应的梯度值,确定为所述训练所获得的所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数。
在本公开的一些实施例中,所述预设次数为M,M为大于0的整数;所述第二局部图像特征中每个局部图像特征所对应的所述更新后的训练因子,以及与所述更新后的训练因子对应的所述梯度值,包括:M次训练中,所述第二局部图像特征中每个局部图像特征所对应的每次训练所获得的更新后的训练因子,以及与所述更新后的训练因子对应的梯度值;选择模块12,还用于确定所述每个类别的样本图像的第二局部图像特征中每个局部图像特征所对应的每次训练所获得的所述更新后的训练因子和与所述更新后的训练因子对应的所述梯度值之间的乘积,得到M个单次损失变化值;将所述M个单次损失变化值的总和,确定为所述第二局部图像特征中每个局部图像特征所对应的损失变化值。
在本公开的一些实施例中,所述选择模块12,还用于将所述第一局部图像特征输入所述训练后的第一分类网络,得到所述第一局部图像特征中每个局部图像特征所对应的分数值;根据所述第一局部图像特征中每个局部图像特征所对应的分数值,从所述第一局部图像特征中选择出分数值大于或等于预设分数阈值的局部图像特征;将所述分数值大于或等于预设分数阈值的局部图像特征,作为所述待识别图像的所述第一代表性特征。
在本公开的一些实施例中,每个代表性特征对应一个分数值;确定模块13,还用于确定所述至少一个相似度值中数值最大的前预设数量的相似度值的总和,得到相似度总值;将所述相似度总值与所述至少一个相似度值所对应的第一代表性特征的所述一个分数值之间的乘积,作为所述每个第一代表性特征与每个类别的所有第二代表性特征的所述子相似度值。
在本公开的一些实施例中,分类模块14,还用于将所述相似度值中最大的值所对应的类别,确定为所述待识别图像所属的类别。
本公开实施例还提供一种网络结构,图14为本公开实施例提供的网络结构的结构示意图;如图14所示,网络结构包括:特征提取网络10、第一分类网络20和第二分类网络30,其中,所述特征提取网络10的输出分别与所述第一分类网络20和所述第二分类网络30的输入连接;所述特征提取网络10,用于将输入的待识别图像进行分割,输出所述待识别图像的第一局部图像特征,并将所述第一局部图像特征输入所述第一分类网络;以及,将输入的预设类别中每个类别的样本图像进行分割,输出所述预设类别中每个类别的样本图像的第二局部图像特征,并将所述第二局部图像特征输入所述第二分类网络;所述第一分类网络20,用于从所述第一局部图像特征中,选择与所述待识别图像所属的类别相关的第一代表性特征,以用于对所述待识别图像进行分类;所述第二分类网络30,用于根据输入的所述预设类别中每个类别的样本图像的所述第二局部图像特征,得到所述第二局部图像特征的特征参数,以用于从所述每个类别的样本图像的所述第二局部图像特征中,选择出所述每个类别的样本图像的第二代表性特征和第二非代表性特征,以根据所述第二代表性特征和所述第二非代表性特征对所述第一分类网络20进行训练,以及,以根据所述第二代表性特征对所述待识别图像进行分类;所述第二代表性特征为与所述每个类别的样本图像所属的类别相关的局部图像特征,所述第二非代表性特征为与所述每个类别的样本图像所属的类别不相关的局部图像特征。
本公开实施例还提供一种电子设备,图15为本公开实施例提供的电子设备的结构示意图,如图15所示,电子设备2包括:存储器21和处理器22,其中,存储器21和处理器22通过通信总线23连接;存储器21,用于存储可执行计算机程序;处理器22,用于执行存储器21中存储的可执行计算机程序时,实现本公开实施例提供的图像识别方法。
本公开实施例提供一种计算机可读存储介质,存储有计算机程序,用于引起处理器22执行时,实现本公开实施例提供的图像识别方法。
在本公开的一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、 EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在本公开的一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言 (HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,采用本技术实现方案,由于根据与待识别图像所属的类别相关的局部图像特征,以及根据与样本图像所属的类别相关的局部图像特征,进行相似度的计算,并根据相似度值确定待识别图像所属的类别,所以,相比于使用待识别图像的所有局部图像特征进行分类而言,由于不需要考虑待识别图像中与待识别图像所属的类别不相关的背景特征,也不需要考虑样本图像中与样本图像所属的类别不相关的背景特征,所以减少了待识别图像和样本图像的背景特征对待识别图像进行分类时的干扰,从而提高了对待识别图像识别时的准确性;以及,减少了相似度计算时的计算量,从而也提高了对待识别图像识别时的效率。
采用本技术实现方案,由于会在测试中,根据样本图像的不同自动的调整参数来适应当前的任务,所以对于任务更加有针对性,对图像识别的正确率更高。
采用本技术实现方案,由于挖掘了图像的代表性的局部特征,显式的去掉了主要描述背景的局部图像特征,从而实现了对图像更加精确的分类。
以上所述,仅为本公开的实施例而已,并非用于限定本公开的保护范围。凡在本公开的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本公开的保护范围之内。

Claims (15)

1.一种图像识别方法,其特征在于,包括:
获得待识别图像;
将所述待识别图像输入第一特征选择网络,得到所述待识别图像的第一代表性特征;所述第一代表性特征为与所述待识别图像所属的类别相关的局部图像特征;
确定所述第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到所述待识别图像与所述预设类别中每个类别对应的相似度值;所述第二代表性特征为与所述样本图像所属的类别相关的局部图像特征;
根据所述相似度值,从所述预设类别中识别出所述待识别图像所属的类别。
2.根据权利要求1所述的图像识别方法,其特征在于,所述第一代表性特征至少为一个,所述第二代表性特征至少为一个;所述确定所述第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到所述待识别图像与所述预设类别中每个类别对应的相似度值,包括:
确定目标第一代表性特征与每个类别的目标第二代表性特征之间的相似度,得到第一相似度值;所述目标第一代表性特征为所述至少一个第一代表性特征中的任意一个;所述目标第二代表性特征为所述至少一个第二代表性特征中的任意一个;
将所述第一相似度值,确定为所述待识别图像与所述预设类别中每个类别对应的所述相似度值。
3.根据权利要求1所述的图像识别方法,其特征在于,所述第一代表性特征至少为一个,所述第二代表性特征至少为一个;所述确定所述第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到所述待识别图像与所述预设类别中每个类别对应的相似度值,包括:
确定每个第一代表性特征与每个类别的所有第二代表性特征之间的相似度,分别得到至少一个第二相似度值;
基于所述至少一个第二相似度值中数值最大的前预设数量的第二相似度值,得到所述每个第一代表性特征与每个类别的所有第二代表性特征的子相似度值;
基于所有第一代表性特征的所述子相似度值的总和,确定所述待识别图像与所述预设类别中每个类别对应的所述相似度值。
4.根据权利要求1所述的图像识别方法,其特征在于,所述第一特征选择网络包括:第一特征提取网络和第一分类网络;所述每个类别的样本图像还具有第二非代表性特征;在所述将所述待识别图像输入第一特征选择网络,得到所述待识别图像的第一代表性特征之前,所述方法还包括:
将所述每个类别的样本图像的所述第二代表性特征确定为正样本,将所述每个类别的样本图像的所述第二非代表性特征确定为负样本;
根据所述正样本和所述负样本对所述第一分类网络进行训练,得到训练后的第一分类网络;
所述将所述待识别图像输入第一特征选择网络,得到所述待识别图像的第一代表性特征,包括:
将所述待识别图像输入所述第一特征提取网络,得到所述待识别图像的第一局部图像特征;
将所述第一局部图像特征输入所述训练后的第一分类网络,得到所述待识别图像的所述第一代表性特征。
5.根据权利要求4所述的图像识别方法,其特征在于,在所述将所述每个类别的样本图像的所述第二代表性特征确定为正样本,将所述每个类别的样本图像的所述第二非代表性特征确定为负样本之前,所述方法还包括:
将所述预设类别中每个类别的样本图像输入第二特征选择网络,得到所述每个类别的样本图像的第二局部图像特征,以及所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数;
基于所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数,确定所述第二局部图像特征中每个局部图像特征的损失变化值;
基于所述第二局部图像特征中每个局部图像特征的损失变化值,从所述每个类别的样本图像的第二局部图像特征中,选择出所述第二代表性特征和所述第二非代表性特征。
6.根据权利要求4所述的图像识别方法,其特征在于,所述第二特征选择网络包括:第二特征提取网络和第二分类网络;所述将所述预设类别中每个类别的样本图像输入第二特征选择网络,得到所述每个类别的样本图像的第二局部图像特征,以及所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数,包括:
将所述每个类别的样本图像输入所述第二特征提取网络,得到所述每个类别的样本图像的所述第二局部图像特征;
采用所述预设类别中各个类别的样本图像的所述第二局部图像特征,对所述第二分类网络训练预设次数,得到训练所获得的所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数。
7.根据权利要求4至6任一项所述的图像识别方法,其特征在于,所述特征参数包括:训练因子和梯度值;所述基于所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数,确定所述第二局部图像特征中每个局部图像特征的损失变化值,包括:
基于所述每个类别的样本图像的第二局部图像特征中每个局部图像特征所对应的所述训练因子和所述梯度值之间的乘积,得到所述第二局部图像特征中每个局部图像特征所对应的损失变化值。
8.根据权利要求6所述的图像识别方法,其特征在于,所述第二局部图像特征中每个局部图像特征对应一个预设的初始训练因子;
所述采用所述预设类别中各个类别的样本图像的所述第二局部图像特征,对所述第二分类网络训练预设次数,得到训练所获得的所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数,包括:
将所述预设类别中各个类别的样本图像的第二局部图像特征中每个局部图像特征,以及所述每个局部图像特征所对应的预设的初始训练因子,输入所述第二分类网络,对所述第二分类网络训练预设次数,得到训练所获得的所述每个类别的样本图像的第二局部图像特征中每个局部图像特征所对应的更新后的训练因子,以及与所述更新后的训练因子对应的梯度值;
将所述每个类别的样本图像的第二局部图像特征中每个局部图像特征所对应的更新后的训练因子,以及与所述更新后的训练因子对应的梯度值,确定为所述训练所获得的所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数。
9.根据权利要求8所述的图像识别方法,其特征在于,所述预设次数为M,M为大于0的整数;所述第二局部图像特征中每个局部图像特征所对应的所述更新后的训练因子,以及与所述更新后的训练因子对应的所述梯度值,包括:M次训练中,所述第二局部图像特征中每个局部图像特征所对应的每次训练所获得的更新后的训练因子,以及与所述更新后的训练因子对应的梯度值;
所述基于所述每个类别的样本图像的第二局部图像特征中每个局部图像特征的特征参数,确定所述第二局部图像特征中每个局部图像特征的损失变化值,包括:
确定所述每个类别的样本图像的第二局部图像特征中每个局部图像特征所对应的每次训练所获得的所述更新后的训练因子和与所述更新后的训练因子对应的所述梯度值之间的乘积,得到M个单次损失变化值;
将所述M个单次损失变化值的总和,确定为所述第二局部图像特征中每个局部图像特征所对应的损失变化值。
10.根据权利要求3所述的图像识别方法,其特征在于,所述将所述第一局部图像特征输入所述训练后的第一分类网络,得到所述待识别图像的所述第一代表性特征,包括:
将所述第一局部图像特征输入所述训练后的第一分类网络,得到所述第一局部图像特征中每个局部图像特征所对应的分数值;
根据所述第一局部图像特征中每个局部图像特征所对应的分数值,从所述第一局部图像特征中选择出分数值大于或等于预设分数阈值的局部图像特征;
将所述分数值大于或等于预设分数阈值的局部图像特征,作为所述待识别图像的所述第一代表性特征。
11.根据权利要求2所述的图像识别方法,其特征在于,每个第一代表性特征对应一个分数值;
所述基于所述至少一个相似度值中数值最大的前预设数量的相似度值,得到所述每个第一代表性特征与每个类别的所有第二代表性特征的子相似度值,包括:
确定所述至少一个相似度值中数值最大的前预设数量的相似度值的总和,得到相似度总值;
将所述相似度总值与所述至少一个相似度值所对应的第一代表性特征的所述一个分数值之间的乘积,作为所述每个第一代表性特征与每个类别的所有第二代表性特征的所述子相似度值。
12.根据权利要求1-11中任一项所述的图像识别方法,其特征在于,所述根据所述相似度值,从所述预设类别中识别出所述待识别图像所属的类别,包括:
将所述相似度值中最大的值所对应的类别,确定为所述待识别图像所属的类别。
13.一种图像识别装置,其特征在于,包括:
获取模块,用于获得待识别图像;
选择模块,用于将所述待识别图像输入第一特征选择模块,得到所述待识别图像的第一代表性特征;所述第一代表性特征为与所述待识别图像所属的类别相关的局部图像特征;
确定模块,用于确定所述第一代表性特征与预设类别中每个类别的样本图像的第二代表性特征之间的相似度,得到所述待识别图像与所述预设类别中每个类别对应的相似度值;所述第二代表性特征为与所述样本图像所属的类别相关的局部图像特征;
分类模块,用于根据所述相似度值,从所述预设类别中识别出所述待识别图像所属的类别。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行计算机程序;
处理器,用于执行所述存储器中存储的可执行计算机程序时,实现权利要求1至12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有计算机程序,用于引起处理器执行时,实现权利要求1至12中任一项所述的方法。
CN202110179173.4A 2021-02-09 2021-02-09 图像识别方法及装置、电子设备和存储介质 Pending CN113159039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110179173.4A CN113159039A (zh) 2021-02-09 2021-02-09 图像识别方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110179173.4A CN113159039A (zh) 2021-02-09 2021-02-09 图像识别方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113159039A true CN113159039A (zh) 2021-07-23

Family

ID=76882978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110179173.4A Pending CN113159039A (zh) 2021-02-09 2021-02-09 图像识别方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113159039A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777059A (zh) * 2009-12-16 2010-07-14 中国科学院自动化研究所 一种提取地标性场景摘要的方法
US20110317923A1 (en) * 2009-03-04 2011-12-29 Olympus Corporation Method of compiling image database, image database compilation program, image retrieval method
CN108596277A (zh) * 2018-05-10 2018-09-28 腾讯科技(深圳)有限公司 一种车辆身份识别方法、装置和存储介质
CN110263673A (zh) * 2019-05-31 2019-09-20 合肥工业大学 面部表情识别方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110317923A1 (en) * 2009-03-04 2011-12-29 Olympus Corporation Method of compiling image database, image database compilation program, image retrieval method
CN101777059A (zh) * 2009-12-16 2010-07-14 中国科学院自动化研究所 一种提取地标性场景摘要的方法
CN108596277A (zh) * 2018-05-10 2018-09-28 腾讯科技(深圳)有限公司 一种车辆身份识别方法、装置和存储介质
CN110263673A (zh) * 2019-05-31 2019-09-20 合肥工业大学 面部表情识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
EP3718057B1 (en) Neural architecture search using a performance prediction neural network
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
KR102114564B1 (ko) 학습 시스템, 학습 장치, 학습 방법, 학습 프로그램, 교사 데이터 작성 장치, 교사 데이터 작성 방법, 교사 데이터 작성 프로그램, 단말 장치 및 임계치 변경 장치
CN108416384B (zh) 一种图像标签标注方法、***、设备及可读存储介质
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN108304876B (zh) 分类模型训练方法、装置及分类方法及装置
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
JP2010165348A (ja) アノテーション付けを行う方法およびそのためのコンピュータプログラム
CN112182383A (zh) 第二岗位的推荐方法、装置以及计算机设备
CN108717519B (zh) 一种文本分类方法及装置
CN115658955B (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索***
CN111125408A (zh) 基于特征提取的搜索方法、装置、计算机设备和存储介质
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN114741581A (zh) 一种图像分类方法、装置、计算机设备及介质
CN113486173A (zh) 文本标注神经网络模型及其标注方法
CN116127060A (zh) 一种基于提示词的文本分类方法及***
CN114511083A (zh) 一种模型的训练方法、装置、存储介质及电子装置
CN113434722B (zh) 图像分类方法、装置、设备及计算机可读存储介质
CN113822128A (zh) 交通要素识别方法、装置、设备及计算机可读存储介质
CN117725220A (zh) 文档表征和文档检索的方法、服务器及存储介质
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN113159039A (zh) 图像识别方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723