CN111488777A - 对象识别方法、对象识别装置和电子设备 - Google Patents

对象识别方法、对象识别装置和电子设备 Download PDF

Info

Publication number
CN111488777A
CN111488777A CN201910447858.5A CN201910447858A CN111488777A CN 111488777 A CN111488777 A CN 111488777A CN 201910447858 A CN201910447858 A CN 201910447858A CN 111488777 A CN111488777 A CN 111488777A
Authority
CN
China
Prior art keywords
feature map
normalized
neural network
final
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910447858.5A
Other languages
English (en)
Inventor
汪成
宋俍辰
张骞
王国利
黄畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Publication of CN111488777A publication Critical patent/CN111488777A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种对象识别方法、对象识别装置和电子设备。该对象识别方法包括:将输入图像通过第一神经网络获得第一特征图,以及通过第二神经网络获得第二特征图;将所述第二特征图通过第三神经网络进行下采样获得第一下采样特征图;将所述第二特征图和所述第一下采样特征图进行尺度归一化以获得第一归一化特征图和第二归一化特征图;基于所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图;以及,基于所述最终特征图识别所述输入图像中的目标物。这样,可以更好地捕捉图像的高层语义特征,从而提高对象识别的有效性。

Description

对象识别方法、对象识别装置和电子设备
技术领域
本申请涉及深度学习技术领域,且更为具体地,涉及一种对象识别方法、对象识别装置和电子设备。
背景技术
目前,在计算机视觉、自动驾驶、视频目标追踪等领域中,均涉及图像中预定对象的识别。例如,ReID(Re-identification)***就是用于从不同的图像中识别出预定目标物。
其中,行人再识别指的是从来源于非交叠的多个摄像机视场的行人图像库或视频流中识别出目标行人。不同于单摄像头下普通的行人跟踪,行人再识别可以在不同的背景环境以及多摄像头设置下实现对特定行人的长期跟踪与监视,因此在监控领域有着非常大的应用前景。此外,在新零售领域,行人再识别技术可以用来做行人的轨迹分析,对于零售商店分析数据有着极为重要的作用。此外,还存在从图像中识别出其它目标物,比如车辆、建筑物、道路标志等的需要。
因此,期望从图像中有效地识别出预定目标物的对象识别方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种对象识别方法、对象识别装置和电子设备,其通过对输入图像的特征图进行下采样来获得用于识别目标物的最终特征图,可以更好地捕捉图像的高层语义特征,从而提高对象识别的有效性。
根据本申请的一方面,提供了一种对象识别方法,包括:将输入图像通过第一神经网络获得第一特征图,以及将所述第一特征图通过第二神经网络获得第二特征图;将所述第二特征图通过第三神经网络进行下采样获得第一下采样特征图;将所述第二特征图和所述第一下采样特征图进行尺度归一化以获得第一归一化特征图和第二归一化特征图;基于所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图;以及,基于所述最终特征图识别所述输入图像中的目标物。
根据本申请的另一方面,提供了一种对象识别装置,包括:特征图获得单元,用于将输入图像通过第一神经网络获得第一特征图,以及将所述第一特征图通过第二神经网络获得第二特征图;第一下采样单元,用于将所述第二特征图通过第三神经网络进行下采样获得第一下采样特征图;第一归一化单元,用于将所述第二特征图和所述第一下采样特征图进行尺度归一化以获得第一归一化特征图和第二归一化特征图;特征图确定单元,用于基于所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图;以及,目标识别单元,用于基于所述最终特征图识别所述输入图像中的目标物
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的对象识别方法。
根据本申请的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的对象识别方法。
本申请提供的对象识别方法、对象识别装置和电子设备,其通过对输入图像的特征图进行下采样,并基于下采样的特征图来获得用于识别目标物的最终特征图,使得最终特征图包含通过下采样获得的特征,可以更好地捕捉图像的高层语义特征,从而提高对象识别的有效性。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1图示了根据本申请实施例的对象识别方法的流程图。
图2图示了根据本申请实施例的网络结构的第一示例的示意图。
图3图示了根据本申请实施例的确定最终特征图的过程的示例的流程图。
图4图示了根据本申请实施例的网络结构的第二示例的示意图。
图5图示了根据本申请实施例的网络结构的第三示例的示意图。
图6图示了根据本申请实施例的切分特征图的过程的示例的流程图。
图7图示了根据本申请实施例的特征图处理过程的示意图。
图8图示了根据本申请实施例的识别目标物的过程的示例的流程图。
图9图示了根据本申请实施例的神经网络的训练过程的流程图。
图10图示了根据本申请实施例的损失函数的计算过程的示例的流程图。
图11图示了根据本申请实施例的对象识别装置的第一示例的框图。
图12图示了根据本申请实施例的第一特征图确定单元的第一示例的框图。
图13图示了根据本申请实施例的对象识别装置的第二示例的框图。
图14图示了根据本申请实施例的对象识别装置的第三示例的框图。
图15图示了根据本申请实施例的第一特征图确定单元的第二示例的框图。
图16图示了根据本申请实施例的目标识别单元的框图。
图17图示了根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,为了在诸如行人再识别等任务中对于对象进行识别,需要将采集到的多个摄像头下的行人数据作为训练集,训练一个深度神经网络,以此获得一个深度特征提取器。
由于摄像头视角以及检测器的原因,不同的图片中,对象在图片中所处位置差异很大,如部分图片中对象处在下半部分,部分图片中对象处在上半部分。因此,导致图片中对象没有被对齐,神经网络无法有效地提取对象特征来进行对象识别。
针对上述技术问题,本申请的基本构思是设计一种多尺度多切片的神经网络,通过对输入图像的特征图进行下采样来更好地捕捉图像的高层语义特征,并对于下采样后的特征图与原特征图进行归一化后组合以获得用于目标物识别的最终特征图。
具体地,本申请提供的对象识别方法、对象识别装置和电子设备首先将输入图像通过第一神经网络获得第一特征图,以及将所述第一特征图通过第二神经网络获得第二特征图,再将所述第二特征图通过第三神经网络进行下采样获得第一下采样特征图,然后将所述第二特征图和所述第一下采样特征图进行尺度归一化以获得第一归一化特征图和第二归一化特征图,再基于所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图,最后基于所述最终特征图识别所述输入图像中的目标物。
因此,本申请提供的对象识别方法、对象识别装置和电子设备通过对输入图像的特征图进行下采样,可以从不同尺度学习输入图像的部分级别特征,从而获得特征图中包含的不突出但具有鉴别性的细节。
并且,本申请提供的对象识别方法、对象识别装置和电子设备基于下采样的特征图来获得用于识别目标物的最终特征图,使得最终特征图包含通过下采样获得的细节特征,可以更好地捕捉图像的高层语义特征,从而提高对象识别的有效性。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的对象识别方法的流程图。
如图1所示,根据本申请实施例的对象识别方法包括以下步骤。
步骤S110,将输入图像通过第一神经网络获得第一特征图,以及将所述第一特征图通过第二神经网络获得第二特征图。这里,在所述输入图像中包含待识别的目标物,例如行人、车辆和其它标志物等。
参考图2,图2图示了根据本申请实施例的网络结构的第一示例的示意图。如图2所示,输入图像IN通过第一神经网络N1获得第一特征图F1,且第一特征图F1进一步通过第二神经网络N2获得第二特征图F2。在本申请实施例中,所述第一神经网络N1和所述第二神经网络N2可以是单独的神经网络,也可以是另一整体的大神经网络的一部分,例如,第一神经网络N1可以是ResNet 50神经网络的第1层,且第二神经网络N2是该ResNet 50神经网络的第2-4层。
步骤S120,将所述第二特征图通过第三神经网络进行下采样获得第一下采样特征图。继续参考图2,第二特征图F2通过第三神经网络N3进行下采样,从而获得第一下采样特征图FD1。类似地,在本申请实施例中,所述第三神经网络N3可以是与所述第一神经网络N1和所述第二神经网络N2独立的神经网络,也可以是另一整体的大神经网络的一部分。例如,所述第三神经网络N3可以是上述ResNet 50神经网络的第5-9层。
步骤S130,将所述第二特征图和所述第一下采样特征图进行尺度归一化以获得第一归一化特征图和第二归一化特征图。这里,由于所述第一下采样特征图是通过对所述第二特征图进行下采样而获得的,两者的尺度并不相同。例如,如图2所示的第二特征图F2的尺度为N×256×96×32,且第一下采样特征图FD1的尺度为N×512×48×16。这里,N表示输入图像的数目,也可称为批次大小,256×96×32则分别代表通道数、图像的高度和宽度。
在本申请实施例中,尺度归一化主要是将通道数归一化,因此,通过尺度归一化模块SN,对第二特征图F2和第一下采样特征图FD1进行尺度归一化而得到第一归一化特征图FS1和第二归一化特征图FS2。其中,所述第一归一化特征图FS1的尺度为N×512×96×32,且第二归一化特征图FS2的尺度为N×512×48×16。
步骤S140,基于所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图。也就是,由于所述第二归一化特征图通过对输入图像的特征图的下采样而包含了输入图像的不突出但是有鉴别性的细节特征,基于所述第一归一化特征图和所述第二归一化特征图确定的所述最终特征图也将包含这些有利于图像识别的细节特征。
步骤S150,基于所述最终特征图识别所述输入图像中的目标物。
如上所述,通过利用所述最终特征图中包含的不突出但是有鉴别性的细节特征,可以提高所述输入图像中的目标物的识别准确性。
图3图示了根据本申请实施例的确定最终特征图的过程的示例的流程图。
如图3所示,在如图1所示的实施例的基础上,所述步骤S140包含以下步骤。
步骤S1401,基于所述第二归一化特征图进行上采样以获得第一上采样特征图。参考图2,所述第一归一化特征图FS1的尺度为N×512×96×32,且第二归一化特征图FS2的尺度为N×512×48×16,通过对所述第二归一化特征图FS2通过上采样模块US进行上采样,例如,双线性上采样,可以获得第一上采样特征图FU1。例如,所述第一上采样特征图FU1的尺度为N×512×96×32。
步骤S1402,结合所述第一归一化特征图和所述第一上采样特征图,确定所述最终特征图。通过上采样,所述第一归一化特征图FS1与所述第一上采样特征图FU1的尺度相同,可以通过例如加法器将所述第一归一化特征图FS1与所述第一上采样特征图FU1结合,以确定所述最终特征图F。
这样,通过上采样来结合图像的细节信息,可以进一步提高图像识别的准确率。
图4图示了根据本申请实施例的网络结构的第二示例的示意图。如图4所示,在如图2所示的第一示例的基础上,所述第一下采样特征图FD1通过第四神经网络N4进行进一步的下采样,以获得第二下采样特征图FD2。
与上述第一神经网络N1、第二神经网络N2和第三神经网络N3类似,第四神经网络N4可以是完全独立的神经网络,也可以是另一整体的大神经网络的一部分。例如,所述第四神经网络N4可以是上述ResNet 50神经网络的第10-19层。
接下来,所述第二下采样特征图FD2通过尺度归一化模块SN进行尺度归一化,以获得与所述第一归一化特征图FS1和第二归一化特征图FS2具有相同尺度的第三归一化特征图FS3。具体地,如图4所示,所述第一下采样特征图FD1的尺度为N×512×48×16,下采样之后获得的所述第二下采样特征图FD2的尺度为N×1024×24×8。再经过尺度归一化之后,同样主要是通道数的归一化,获得尺度为N×512×24×8的所述第三归一化特征图FS3。
然后,基于所述第二归一化特征图FS2和所述第三归一化特征图FS3获得第一上采样特征图FU1。这样,由于所述输入图像的最终特征图进一步包括进行了第二次下采样而获得的第二下采样特征图FD2的细节特征,使得所述输入图像的最终特征图所包含的细节特征更丰富,增加了目标物的识别的准确性。
继续参考图4,与之前参考图2描述的获得最终特征图的过程类似,也通过结合特征图的方式获得所述第一上采样特征图FU1。具体地,首先基于所述第三归一化特征图FS3通过上采样模块US进行上采样,比如双线性上采样,以获得第二上采样特征图FU2,例如,所述归一化特征图FS3的尺度为N×512×24×8,通过上采样后获得的所述第二上采样特征图FU2的尺度为N×512×48×16。然后,将尺度为N×512×48×16的所述第二归一化特征图FS2与尺度为N×512×48×16的所述第二上采样特征图FU2结合,再如上所述地,通过上采样模块US进行上采样以获得所述第一上采样特征图FU1。
类似地,因为通过上采样来结合了图像的进一步的细节信息,可以提高图像识别的准确率。
图5图示了根据本申请实施例的网络结构的第三示例的示意图。如图5所示,在如图4所示的第二示例的基础上,所述第二下采样特征图FD2通过第五神经网络N5进行进一步的下采样,以获得第三下采样特征图FD3。
与上述第一神经网络N1、第二神经网络N2、第三神经网络N3和第四神经网络N4类似,第五神经网络N5可以是完全独立的神经网络,也可以是另一整体的大神经网络的一部分。例如,所述第四神经网络N5可以是上述ResNet 50神经网络的第20-50层。
接下来,所述第三下采样特征图FD3通过尺度归一化模块SN进行尺度归一化,以获得与所述第一归一化特征图FS1、第二归一化特征图FS2和第三归一化特征图FS3具有相同尺度的第四归一化特征图FS4。具体地,如图5所示,所述第二下采样特征图FD2的尺度为N×512×24×8,下采样之后获得的所述第三下采样特征图FD3的尺度为N×2048×12×4。再经过尺度归一化之后,同样主要是通道数的归一化,获得尺度为N×512×12×4的所述第四归一化特征图FS4。
然后,基于所述第三归一化特征图FS3和所述第四归一化特征图FS4获得第二上采样特征图FU2。这样,由于所述输入图像的最终特征图进一步包括进行了第三次下采样而获得的第三下采样特征图FD3的细节特征,使得所述输入图像的最终特征图所包含的细节特征更丰富,增加了目标物的识别的准确性。
继续参考图5,与之前参考图4描述的获得第一上采样特征图FU1的过程类似,也通过结合特征图的方式获得所述第二上采样特征图FU2。具体地,首先基于所述第四归一化特征图FS4通过上采样模块US进行上采样,比如双线性上采样,以获得第三上采样特征图FU3,例如,所述归一化特征图FS4的尺度为N×512×12×4,通过上采样后获得的所述第三上采样特征图FU3的尺度为N×512×24×8。然后,将尺度为N×512×24×8的所述第三归一化特征图FS3与尺度为N×512×24×8的所述第三上采样特征图FU3结合,再如上所述地,通过上采样模块US进行上采样以获得所述第二上采样特征图FU2。
类似地,因为通过上采样来结合了图像的进一步的细节信息,可以提高图像识别的准确率。
图6图示了根据本申请实施例的切分特征图的过程的示例的流程图。
如图6所示,在如图3所示的实施例的基础上,步骤S1402进一步包含以下步骤。
步骤S14021,结合所述第一归一化特征图和所述第一上采样特征图以获得结合特征图。参考图7,图7图示了根据本申请实施例的特征图处理过程的示意图。如图7所示,对于如上所述获得所述第一归一化特征图FS1和所述第一上采样特征图FU1,通过例如加法器的方式进行结合,以获得结合特征图FC。
步骤S14022,将所述结合特征图按照预设方向进行平均切分,得到预设数量的部分特征图。例如,如图7所示,将所述结合特征图FC在水平方向进行三等分,以获得三个部分特征图FC1、FC2和FC3。这里,在本申请实施例中,所述预设方向也可以是除水平方向以外的其它方向,例如垂直方向,且平均切分的数目也可以是其它数目,例如进行六等分,等等。
步骤S14023,基于所述预设数量的部分特征图,确定最终特征图。这样,通过对所述输入图像的特征图进行平均切分,可以使得所获得的最终特征图包含输入图像的局部细节,从而增加图像识别的准确率。
在一个示例中,可以首先对所述预设数量的部分特征图进行全局平均池化,然后再将池化后的所述预设数量的部分特征图串联以获得所述最终特征图。因此,在本申请实施例中,通过以多切片的方式获得最终特征图,可以更好地利用输入图像中的局部特征。
进一步地,在将池化后的所述预设数量的部分特征图串联以获得所述最终特征图时,可以首先将池化后的所述预设数量的部分特征图串联以获得串联特征图,再将所述串联特征图与所述结合特征图结合以获得所述最终特征图。这样,所述最终特征图中不仅包含通过对所述输入图像的特征图进行平均切分所获得的局部特征,而且包含未切分的结合特征图中的全局特征,从而可以通过局部特征结合全局特征的方式来提高识别的准确性。
图8图示了根据本申请实施例的识别目标物的过程的示例的流程图。
如图8所示,在如图1所示的实施例的基础上,所述步骤S150进一步包括以下步骤。
步骤S1501,确定所述最终特征图中的所述目标物对应的目标特征图和参考物对应的参考特征图。也就是,在实际识别过程中,可以使用参考图像和其它所有待识别的图像,例如参考行人图像和行人库内的所有图像作为输入,经过如上所述的神经网络处理后提取出图像的特征图。
步骤S1502,计算所述目标特征图与所述参考特征图之间的距离。这里,所述目标特征图与所述参考特征图之间的距离可以是欧式距离,也可以是余弦距离等。
步骤S1503,基于所述距离进行所述目标特征图对于所述参考特征图的相似性度量。也就是,如果所述目标特征图与所述参考特征图之间的距离短,则认为所述目标物与所述参考物的相似性高,而如果所述目标特征图与所述参考特征图之间的距离长,则认为所述目标物与所述参考物的相似性低。
步骤S1504,基于所述相似性度量识别所述输入图像中的目标物。也就是,如果所述目标物与所述参考物的相似度高,则可以将所述目标物识别为与所述参考物相同,例如,识别所述目标物是需要从行人图片库中检索的行人。
图9图示了根据本申请实施例的神经网络的训练过程的流程图。
这里,根据本申请实施例的神经网络的训练过程用于对如上所述的神经网络进行训练。对于如图2所示的第一示例,是对第一神经网络N1、第二神经网络N2和第三神经网络N3进行训练。对于如图4所示的第二示例,是对第一神经网络N1、第二神经网络N2、第三神经网络N3和第四神经网络N4进行训练。而对于如图5所示的第三示例,是对第一神经网络N1、第二神经网络N2、第三神经网络N3、第四神经网络N4和第五神经网络N5进行训练.
下面将以如图5所示的第三示例说明神经网络的训练过程,如图9所示,根据本申请实施例的神经网络的训练过程包括以下步骤。
步骤S210,将训练图像输入所述第一神经网络、第二神经网络、第三神经网络、第四神经网络和第五神经网络以获得训练特征图。参考图5,将训练图像输入所述第一神经网络,并通过第二神经网络获得训练图像的特征图,再通过第三神经网络、第四神经网络和第五神经网络进行下采样,并经归一化确定最终的训练特征图。当然,这里本领域技术人员可以理解,所述最终的训练特征图也可以是如上所述经过平均切分之后或者进一步结合全局特征的特征图。
步骤S220,将训练特征图进行归一化并输入对其权重进行归一化的分类层。也就是,在该步骤中包括三个部分,第一部分是对上述步骤S210获得的训练特征图进行归一化,第二部分是对用于图像识别的分类层进行归一化,第三部分是将归一化后的特征图输入权重归一化的分类层。这里,所述分类层例如可以是全连接层。
步骤S230,基于所述分类层的输出通过softmax函数计算第一损失函数值。也就是,通过softmax函数计算所述分类层的输出对应的第一损失函数值。
步骤S240,基于所述第一损失函数值训练所述第一神经网络、第二神经网络、第三神经网络、第四神经网络和第五神经网络。基于所述第一损失函数值,可以通过例如反向传播的方式来更新如上所述的第一神经网络N1到第五神经网络N5。
这样,通过以如上所述的方式训练第一神经网络到第五神经网络,可以使得神经网络能够利用输入图像中的特征来学习图像中的模式,从而有效地识别输入图像中的目标物。
图10图示了根据本申请实施例的损失函数的计算过程的示例的流程图。
如图10所示,在如图9所示的实施例的基础上,步骤S230包括如下步骤。
步骤S2301,对所述分类层的输出通过softmax函数计算第二损失函数值。也就是,按照传统方式,对所述分类层的输出直接使用softmax函数来计算第二损失函数值。
这里,传统深度神经网络训练时用到的softmax分类损失函数的计算方式为:
Figure BDA0002074193940000111
其中
Figure BDA0002074193940000112
是第i个图像的特征,d是特征维度;
Figure BDA0002074193940000113
Wj是分类层参数矩阵
Figure BDA0002074193940000114
的第j列,bj是分类层第j类的偏移。在本申请实施例中,如上所述,对于最终确定的特征图xi和分类层的参数矩阵Wj都进行了归一化,以使得‖xi2=1以及||Wj||2=1,从而使得
Figure BDA0002074193940000115
Figure BDA0002074193940000116
这样,最后得到的第二损失函数值为:
Figure BDA0002074193940000117
在本申请实施例中,s例如设置为15。
步骤S2302,对所述分类层的参数矩阵计算互斥性正则损失函数值。也就是,对于上述分类层参数矩阵W,计算‖WT12作为正则损失。
步骤S2303,将所述第二损失函数值与所述互斥性正则损失函数值与加权系数的乘积之和计算为所述第一损失函数值。也就是,所述第一损失函数值计算为L=Lnorm+λ‖WT12。这里,λ是一个可以调节的参数,例如,在本申请实施例中设置为1×10-6
这里,互斥性正则用于强化矩阵的列向量之间的无关性,也就是稀疏性,从而使得特征向量的每个元素是无关的且代表目标物的特定属性,这样可以提高分类层的泛化能力,
所以,通过如上所述的损失函数的计算过程及相应的神经网络的训练过程,可以提高神经网络识别目标物的泛化能力,扩大应用范围。
示例性装置
图11图示了根据本申请实施例的对象识别装置的第一示例的框图。
如图11所示,根据本申请实施例的对象识别装置300的第一示例的包括:特征图获得单元301,用于将输入图像通过第一神经网络获得第一特征图,以及将所述第一特征图通过第二神经网络获得第二特征图;第一下采样单元302,用于将所述特征图获得单元301所获得的所述第二特征图通过第三神经网络进行下采样获得第一下采样特征图;第一归一化单元303,用于将所述特征图获得单元301所获得的所述第二特征图和所述第一下采样单元302所获得的所述第一下采样特征图进行尺度归一化以获得第一归一化特征图和第二归一化特征图;第一特征图确定单元304,用于基于所述第一归一化单元303所获得的所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图;以及,目标识别单元305,用于基于所述第一特征图确定单元304所确定的所述最终特征图识别所述输入图像中的目标物。
图12图示了根据本申请实施例的第一特征图确定单元的第一示例的框图。
如图12所示,在如图11所示的实施例的基础上,所述第一特征图确定单元304包括:
第一上采样子单元3041,用于基于所述第一归一化单元304所获得的所述第二归一化特征图进行上采样以获得第一上采样特征图;以及,第一结合子单元3042,用于结合所述第一归一化单元303所获得的所述第一归一化特征图和所述第一上采样子单元3041所获得的所述第一上采样特征图,确定所述最终特征图。
图13图示了根据本申请实施例的对象识别装置的第二示例的框图。
如图13所示,在如图11所示的实施例的基础上,所述对象识别装置300的第二示例除包含如图10所示的所有单元以外,进一步包括:第二下采样单元306,用于将所述第一下采样单元302所获得的所述第一下采样特征图通过第四神经网络进行下采样获得第二下采样特征图;第二归一化单元307,用于将所述第二下采样单元306所获得的所述第二下采样特征图进行所述尺度归一化以获得第三归一化特征图;以及,第二特征图确定单元308,用于基于所述第一归一化单元303所获得的第二归一化特征图和所述第二归一化单元307所获得的所述第三归一化特征图以获得所述第一上采样特征图。
在一个示例中,所述第二特征图确定单元308包括:第二上采样子单元,用于基于所述第二归一化单元307所获得的所述第三归一化特征图进行上采样以获得第二上采样特征图;以及,第二结合子单元,用于结合所述第一归一化单元303所获得的所述第二归一化特征图和所述第二上采样子单元所获得的所述第二上采样特征图并进行上采样以获得所述第一上采样特征图。
图14图示了根据本申请实施例的对象识别装置的第三示例的框图。
如图14所示,在如图13所示的实施例的基础上,所述对象识别装置300的第三示例除包含如图10和图12所示的所有单元以外,进一步包括:第三下采样单元309,用于将所述第二下采样单元306所获得的所述第二下采样特征图通过第五神经网络进行下采样获得第三下采样特征图;第三归一化单元310,用于将所述第三下采样单元309所获得的所述第三下采样特征图进行所述尺度归一化以获得第四第三归一化特征图;以及,第三特征图确定单元311,用于基于所述第二归一化单元307所获得的所述第三归一化特征图和所述第三归一化单元310所获得的所述第四归一化特征图以获得所述第二上采样特征图。
在一个示例中,所述第三特征图确定单元311包括:第三上采样子单元,用于基于所述第三归一化单元310所获得的所述第四归一化特征图进行上采样以获得第三上采样特征图;以及,第三结合子单元,用于结合所述第二归一化单元307所获得的所述第三归一化特征图和所述第三上采样子单元所获得的所述第三上采样特征图并进行上采样以获得所述第二上采样特征图。
图15图示了根据本申请实施例的第一特征图确定单元的第二示例的框图。
如图15所示,在如图12所示的实施例的基础上,所述第一结合子单元3042包括:特征图结合模块30421,用于结合所述第一归一化单元303所获得的第一归一化特征图和所述第一上采样子单元3041所获得的所述第一上采样特征图以获得结合特征图;特征图切分模块30422,用于将所述特征图结合子单元30421所获得的所述结合特征图按照预设方向进行平均切分,得到预设数量的部分特征图;以及特征图确定模块30423,用于基于所述特征图切分模块30422所获得的所述预设数量的部分特征图,确定最终特征图。
在一个示例中,所述特征图确定模块30423用于:对所述预设数量的部分特征图进行全局平均池化;以及,将池化后的所述预设数量的部分特征图串联以获得所述最终特征图。
在一个示例中,所述特征图确定模块30423进一步用于:将池化后的所述预设数量的部分特征图串联以获得串联特征图,以及,将所述串联特征图与所述结合特征图结合以获得所述最终特征图。
图16图示了根据本申请实施例的目标识别单元的框图。
如图16所示,在如图11所示的实施例的基础上,所述目标识别单元305包括:参考确定子单元3051,用于确定所述第一特征图确定单元304所确定的所述最终特征图中的所述目标物对应的目标特征图和参考物对应的参考特征图;距离计算子单元3052,用于计算所述参考确定子单元3051所确定的所述目标特征图与所述参考特征图之间的距离;相似度度量子单元3053,用于基于所述距离计算子单元3052计算的所述距离进行所述目标特征图对于所述参考特征图的相似性度量;以及,目标识别子单元3054,用于基于所述相似度度量子单元3053所进行的所述相似性度量识别所述输入图像中的目标物。
这里,本领域技术人员可以理解,上述对象识别装置300中的各个单元和模块的具体功能和操作已经在上面参考图1到图10的对象识别方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的对象识别装置300可以实现在各种终端设备中,例如用于安防的摄像头,或者车载自动驾驶***等。在一个示例中,根据本申请实施例的对象识别装置300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该对象识别装置300可以是该终端设备的操作***中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该对象识别装置300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该对象识别装置300与该终端设备也可以是分立的设备,并且该对象识别装置300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图17来描述根据本申请实施例的电子设备。
图17图示了根据本申请实施例的电子设备的框图。
如图17所示,电子设备10包括一个或多个处理器11和存储器12。
处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的对象识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入图像的特征图、下采样或者上采样后的特征图等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线***和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括输入图像中的目标物的识别结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图17中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对象识别方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对象识别方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (12)

1.一种对象识别方法,包括:
将输入图像通过第一神经网络获得第一特征图,以及将所述第一特征图通过第二神经网络获得第二特征图;
将所述第二特征图通过第三神经网络进行下采样获得第一下采样特征图;
将所述第二特征图和所述第一下采样特征图进行尺度归一化以获得第一归一化特征图和第二归一化特征图;
基于所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图;以及
基于所述最终特征图识别所述输入图像中的目标物。
2.如权利要求1所述的对象识别方法,其中,基于所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图包括:
基于所述第二归一化特征图进行上采样以获得第一上采样特征图;以及
结合所述第一归一化特征图和所述第一上采样特征图,确定所述最终特征图。
3.如权利要求2所述的对象识别方法,进一步包括:
将所述第一下采样特征图通过第四神经网络进行下采样获得第二下采样特征图;
将所述第二下采样特征图进行所述尺度归一化以获得第三归一化特征图;以及
基于所述第二归一化特征图和所述第三归一化特征图以获得所述第一上采样特征图。
4.如权利要求3所述的对象识别方法,其中,基于所述第二归一化特征图和所述第三归一化特征图以获得所述第一上采样特征图包括:
基于所述第三归一化特征图进行上采样以获得第二上采样特征图;以及
结合所述第二归一化特征图和所述第二上采样特征图并进行上采样以获得所述第一上采样特征图。
5.如权利要求4所述的对象识别方法,进一步包括:
将所述第二下采样特征图通过第五神经网络进行下采样获得第三下采样特征图;
将所述第三下采样特征图进行所述尺度归一化以获得第四归一化特征图;以及
基于所述第三归一化特征图和所述第四归一化特征图以获得所述第二上采样特征图。
6.如权利要求5所述的对象识别方法,其中,基于所述第三归一化特征图和所述第四归一化特征图以获得所述第二上采样特征图包括:
基于所述第四归一化特征图进行上采样以获得第三上采样特征图;以及
结合所述第三归一化特征图和所述第三上采样特征图并进行上采样以获得所述第二上采样特征图。
7.如权利要求2所述的对象识别方法,其中,结合所述第一归一化特征图和所述第一上采样特征图,确定所述最终特征图包括:
结合所述第一归一化特征图和所述第一上采样特征图以获得结合特征图;
将所述结合特征图按照预设方向进行平均切分,得到预设数量的部分特征图;
基于所述预设数量的部分特征图,确定最终特征图。
8.如权利要求7所述的对象识别方法,其中,基于所述预设数量的部分特征图,确定最终特征图包括:
对所述预设数量的部分特征图进行全局平均池化;以及
将池化后的所述预设数量的部分特征图串联以获得所述最终特征图。
9.如权利要求8所述的对象识别方法,其中,将池化后的所述预设数量的部分特征图串联以获得所述最终特征图包括:
将池化后的所述预设数量的部分特征图串联以获得串联特征图;
将所述串联特征图与所述结合特征图结合以获得所述最终特征图。
10.如权利要求1所述的对象识别方法,其中,基于所述最终特征图识别所述输入图像中的目标物包括:
确定所述最终特征图中的所述目标物对应的目标特征图和参考物对应的参考特征图;
计算所述目标特征图与所述参考特征图之间的距离;
基于所述距离进行所述目标特征图对于所述参考特征图的相似性度量;以及
基于所述相似性度量识别所述输入图像中的目标物。
11.一种对象识别装置,包括:
特征图获得单元,用于将输入图像通过第一神经网络获得第一特征图,以及将所述第一特征图通过第二神经网络获得第二特征图;
第一下采样单元,用于将所述特征图获得单元所获得的所述第二特征图通过第三神经网络进行下采样获得第一下采样特征图;
第一归一化单元,用于将所述特征图获得单元所获得的所述第二特征图和所述第一下采样单元所获得的所述第一下采样特征图进行尺度归一化以获得第一归一化特征图和第二归一化特征图;
特征图确定单元,用于基于所述第一归一化单元所获得的所述第一归一化特征图和所述第二归一化特征图,确定所述输入图像的最终特征图;以及
目标识别单元,用于基于所述特征图确定单元所确定的所述最终特征图识别所述输入图像中的目标物。
12.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-10中任一项所述对象识别方法。
CN201910447858.5A 2019-01-28 2019-05-27 对象识别方法、对象识别装置和电子设备 Pending CN111488777A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019100775629 2019-01-28
CN201910077562 2019-01-28

Publications (1)

Publication Number Publication Date
CN111488777A true CN111488777A (zh) 2020-08-04

Family

ID=71794159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910447858.5A Pending CN111488777A (zh) 2019-01-28 2019-05-27 对象识别方法、对象识别装置和电子设备

Country Status (1)

Country Link
CN (1) CN111488777A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800995A (zh) * 2021-02-04 2021-05-14 广州甄好数码科技有限公司 使用多尺度特征加权的智能颗粒大小检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145908A (zh) * 2017-05-08 2017-09-08 江南大学 一种基于r‑fcn的小目标检测方法
CN108447062A (zh) * 2018-02-01 2018-08-24 浙江大学 一种基于多尺度混合分割模型的病理切片非常规细胞的分割方法
CN108764164A (zh) * 2018-05-30 2018-11-06 华中科技大学 一种基于可变形卷积网络的人脸检测方法及***
CN108764063A (zh) * 2018-05-07 2018-11-06 华中科技大学 一种基于特征金字塔的遥感影像时敏目标识别***及方法
CN109086672A (zh) * 2018-07-05 2018-12-25 襄阳矩子智能科技有限公司 一种基于强化学习自适应分块的行人再识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145908A (zh) * 2017-05-08 2017-09-08 江南大学 一种基于r‑fcn的小目标检测方法
CN108447062A (zh) * 2018-02-01 2018-08-24 浙江大学 一种基于多尺度混合分割模型的病理切片非常规细胞的分割方法
CN108764063A (zh) * 2018-05-07 2018-11-06 华中科技大学 一种基于特征金字塔的遥感影像时敏目标识别***及方法
CN108764164A (zh) * 2018-05-30 2018-11-06 华中科技大学 一种基于可变形卷积网络的人脸检测方法及***
CN109086672A (zh) * 2018-07-05 2018-12-25 襄阳矩子智能科技有限公司 一种基于强化学习自适应分块的行人再识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KUN YUAN等: ""SafeNet: Scale-normalization and Anchor-based Feature Extraction Network for Person Re-identification"", 《PROCEEDINGS OF THE TWENTY-SEVENTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
YIFAN SUN等: ""Beyond Part Models:Person Retrieval with Refined Part Pooling"", 《PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》 *
罗浩等: ""基于深度学习的行人重识别研究进展"", 《自动化学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800995A (zh) * 2021-02-04 2021-05-14 广州甄好数码科技有限公司 使用多尺度特征加权的智能颗粒大小检测方法

Similar Documents

Publication Publication Date Title
CN109271878B (zh) 图像识别方法、图像识别装置和电子设备
TWI684922B (zh) 基於圖像的車輛定損方法、裝置、電子設備及系統
Dong et al. A non-target structural displacement measurement method using advanced feature matching strategy
CN111104867B (zh) 基于部件分割的识别模型训练、车辆重识别方法及装置
WO2019001481A1 (zh) 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
KR20170122836A (ko) 이미지로부터 상가 발견
US20120301014A1 (en) Learning to rank local interest points
WO2021217924A1 (zh) 交通卡口车辆类型的识别方法、装置、设备及存储介质
Liang et al. Vehicle counting system using deep learning and multi-object tracking methods
JP5936561B2 (ja) 画像における外観及びコンテキストに基づく物体分類
CN110717458B (zh) 人脸识别方法及识别装置
CN111127516A (zh) 无搜索框的目标检测和跟踪方法及***
CN113343981A (zh) 一种视觉特征增强的字符识别方法、装置和设备
Yang et al. Increaco: incrementally learned automatic check-out with photorealistic exemplar augmentation
CN111914841B (zh) 一种ct图像处理方法和装置
CN111488777A (zh) 对象识别方法、对象识别装置和电子设备
US9262443B2 (en) Classifying materials using texture
CN112241963A (zh) 基于车载视频的车道线识别方法、***和电子设备
Taş et al. Camera-based wildfire smoke detection for foggy environments
CN111027434A (zh) 一种行人识别模型的训练方法、装置及电子设备
CN112241967B (zh) 目标跟踪方法、装置、介质和设备
Holliday et al. Scale-invariant localization using quasi-semantic object landmarks
CN111325194A (zh) 一种文字识别方法、装置及设备、存储介质
CN117274243B (zh) 一种轻量化气象灾害检测方法
EP4125054A1 (en) Image segmentation method and device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804

RJ01 Rejection of invention patent application after publication