CN110135406A

CN110135406A - 图像识别方法、装置、计算机设备和存储介质

Info

Publication number: CN110135406A
Application number: CN201910612549.9A
Authority: CN
Inventors: 李栋
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-08-16
Anticipated expiration: 2039-07-09
Also published as: CN110135406B

Abstract

本申请涉及一种图像识别方法、装置、计算机设备和存储介质，所述方法包括：通过计算机设备获取待处理图像；采用预设的识别模型对所述待处理图像进行特征提取，得到识别向量；所述识别模型为采用注意力机制，且采用密集损失函数进行训练所得到的模型，所述识别向量用于表征所述待处理图像的多个局部特征；对所述识别向量进行图像识别，得到识别结果。采用该方法极大的提高了对存在遮挡或者大角度拍摄等情况的图像识别的准确性。

Description

图像识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像识别方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的快速发展，人工智能技术已经广泛的应用于人们的生活和工作中，其中，尤其对于图像的识别和处理已经有了不可替代的地位。

以人脸图像识别为例，计算机设备可以采用传统的神经网络模型，对人脸图像进行识别，从而得到人脸图像的全脸特征。

然而，传统的神经网络模型是针对人脸图像的全脸特征进行识别，当人脸存在局部遮挡，或者大角度进行拍摄的时候，可能存在识别结果不准确的情况。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高图像识别准确度的图像识别方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种图像识别方法，所述方法包括：

获取待处理图像；

采用预设的识别模型对所述待处理图像进行特征提取，得到识别向量；所述识别模型为采用注意力机制，且采用密集损失函数进行训练所得到的模型，所述识别向量用于表征所述待处理图像的多个局部特征；

对所述识别向量进行图像识别，得到识别结果。

在其中一个实施例中，所述识别模型包括基础特征提取网络、局部特征划分单元和注意力单元；所述采用预设的识别模型对所述待处理图像进行识别，得到识别向量，包括：

采用所述基础特征提取网络对所述待处理图像进行特征提取，得到综合特征图；

采用所述局部特征划分单元对所述综合特征图进行处理，得到多个局部特征图；

采用所述注意力单元对所述综合特征图和所述多个局部特征图进行处理，并通过全连接层输出所述识别向量。

在其中一个实施例中，所述采用所述注意力单元对所述综合特征图和所述多个局部特征图进行处理，并通过全连接层输出所述识别向量，包括：

采用所述注意力单元对所述综合特征图进行处理，得到注意力图；

将多个所述局部特征图和所述注意力图进行融合处理，通过全连接层输出所述识别向量。

在其中一个实施例中，所述将多个所述局部特征图和所述注意力图进行融合处理，通过全连接层输出所述识别向量，包括：

将每个所述局部特征图分别与所述注意力图相乘，得到每个所述局部特征图对应的加权特征向量；

将多个所述加权特征向量串联，并通过所述全连接层输出所述识别向量。

在其中一个实施例中，所述采用预设的识别模型对所述待处理图像进行识别，得到识别向量之前，包括：

将多个训练图像输入预设的初始识别模型，得到多个局部训练特征图和训练注意力图；

使用所述训练注意力图对所述多个局部训练特征图进行加权处理，得到加权局部训练特征图；

根据每个所述加权局部训练特征图，和对应的每个所述训练图像的标注信息之间的密集损失函数，对所述初始识别模型进行训练，得到所述识别模型；所述密集损失函数中包括多个分类损失函数，每个所述分类损失函数对应图像不同的局部区域。

将多个训练图像输入预设的初始识别模型，得到多个局部训练特征图、训练注意力图和初始识别向量；

根据每个所述加权局部训练特征图，和对应的每个所述训练图像的标注信息之间的密集损失函数，以及根据所述初始识别向量和所述训练图像的标注信息之间的损失函数，对所述初始识别模型进行训练，得到所述识别模型；所述密集损失函数中包括多个分类损失函数，每个所述分类损失函数对应图像不同的局部区域；所述初始识别向量为所述多个加权局部训练特征图进行融合处理所输出的向量。

在其中一个实施例中，所述注意力图的长度和宽度相同。

第二方面，本申请实施例提供一种图像识别装置，所述装置包括：

获取模块，用于获取待处理图像；

识别模块，用于采用预设的识别模型对所述待处理图像进行特征提取，得到识别向量；所述识别模型为采用注意力机制，且采用密集损失函数进行训练所得到的模型，所述识别向量用于表征所述待处理图像的多个局部特征；

分类模块，用于对所述识别向量进行图像识别，得到识别结果。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待处理图像；

对所述识别向量进行图像识别，得到识别结果。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待处理图像；

对所述识别向量进行图像识别，得到识别结果。

上述图像识别方法、装置、计算机设备和存储介质，通过计算机设备获取待处理图像，并采用预设的识别模型对待处理图像进行特征提取，得到识别向量，之后计算机设备再对识别向量进行图像识别，得到识别结果。由于识别模型为采用注意力机制，且采用密集损失函数进行训练所得到的模型，因此识别模型能够将上述待处理图像的多个局部区域分别进行重点和精确地特征提取，并通过注意力机制对每个局部特征的识别结果配置相应的权重，从而得到表征待处理图像的多个局部特征的识别向量，最后通过对识别向量进行图像识别得到识别结果，进而弱化了遮挡区域在识别结果中的影响，避免了由于局部图像不完整所导致的识别结果不准确的情况。采用该方法，极大地提高了对存在局部遮挡或者大角度拍摄等情况下的图像识别的准确性。另外，由于上述识别模型是经过密集损失函数训练所得到的模型，即为采用多个损失函数分别对待处理图像的多个不同区域对应的网络参数进行训练得到的，因此针对待处理图像的各局部区域的特征提取更精确，进而使得识别模型输出的识别向量的准确度大大提高，识别结果的准确性也大大提高。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例提供的图像识别方法的流程示意图；

图3为另一个实施例提供的图像识别方法的流程示意图；

图4为又一个实施例提供的图像识别方法的流程示意图；

图5为又一个实施例提供的图像识别方法的流程示意图；

图5a为一个实施例提供的识别模型的网络结构图；

图6为又一个实施例提供的图像识别方法的流程示意图；

图7为一个实施例提供的图像识别装置的结构示意图；

图8为另一个实施例提供的图像识别装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像识别方法，可以适用于图1所示的计算机设备。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、数据库、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储下述实施例中的识别模型，有关识别模型的具体描述参见下述实施例中的具体描述。该计算机设备的网络接口可以用于与外部的其他设备通过网络连接通信。可选的，该计算机设备可以是服务器，可以是台式机，可以是个人数字助理，还可以是其他的终端设备，例如平板电脑、手机等等，还可以是云端或者远程服务器，本申请实施例对计算机设备的具体形式并不做限定。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。当然，输入装置和显示屏也可以不属于计算机设备的一部分，可以是计算机设备的外接设备。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

需要说明的是，下述方法实施例的执行主体可以分别是图像识别装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述计算机设备的部分或者全部。下述方法实施例以执行主体为计算机设备为例进行说明。

图2为一个实施例提供的图像识别方法的流程示意图。本实施例涉及的是计算机设备采用识别模型对待处理图像进行分类的具体过程。如图2所示，所述方法包括：

S10、获取待处理图像。

具体的，计算机设备获取待处理图像，可以是读取自身存储设备上存储的的待处理图像；也可以是接收其他设备发送的待处理图像；还可以是对原始图像进行预处理之后得到的图像。可选地，上述预处理可以是对图像进行上采样、下采样、剪裁、归一化等处理。可选地，作为一个具体的处理方式，上述预处理还可以是对原始图像采用空间变换网络对其进行仿射变换，从而实现对原始图像的几何纠正，得到待处理图像。计算机设备可以对该特征图像进行各种变形操作，该变形操作包括但不限于图形拉伸和图形压缩等。可选地，该待处理图像可以包括人脸图像、人体图像、动物图像，还可以包括其他物体的图像，对此本实施例也不限定。

S20、采用预设的识别模型对所述待处理图像进行特征提取，得到识别向量；所述识别模型为采用注意力机制，且采用密集损失函数进行训练所得到的模型，所述识别向量用于表征所述待处理图像的多个局部特征。

具体的，计算机设备将上述待处理图像输入至预设的识别模型中。需要说明的是，该识别模型为采用注意力机制，并且经过密集损失函数训练所得到的模型。因此，在计算机设备通过识别模型对待处理图像进行特征提取的过程中，能够针对待处理图像的每个局部区域分别进行特征提取，然后将每个局部区域对应的提取结果采用注意力机制配置相应的权重，进而得到表征待处理图像的多个局部特征的识别向量。由于该识别模型是经过密集损失函数训练所得到的模型，该密集损失函数中包括多个损失函数，每个损失函数均对应一个局部区域，因此通过这多个损失函数这样的密集损失函数，能够分别对待处理图像的多个不同的局部区域所对应的网络参数进行训练得到的模型，因此针对多个局部区域识别结果更精确。

S30、对所述识别向量进行图像识别，得到识别结果。

具体的，计算机设备可以将上述识别向量输入分类器，该分类器对输入的识别向量进行分类，如将识别向量除以一个分类向量，得到识别向量的每个可能的类别的概率，并根据概率最大的类别得到待处理图像的识别结果。可选地，该分类器可以为二分类或者多分类的分类器，对此本实施例不做限定。

本实施例中，计算机设备获取待处理图像，并采用预设的识别模型对待处理图像进行特征提取，得到识别向量，之后计算机设备再对识别向量进行图像识别，得到识别结果。由于识别模型为采用注意力机制，且采用密集损失函数进行训练所得到的模型，因此识别模型能够将上述待处理图像的多个局部区域分别进行重点和精确地特征提取，并通过注意力机制对每个局部特征的识别结果配置相应的权重，从而得到表征待处理图像的多个局部特征的识别向量，最后通过对识别向量进行图像识别得到识别结果，进而弱化了遮挡区域在识别结果中的影响，避免了由于局部图像不完整所导致的识别结果不准确的情况。采用该方法，极大地提高了对存在局部遮挡或者大角度拍摄等情况下的图像识别的准确性。另外，由于上述识别模型是经过密集损失函数训练所得到的模型，即为采用多个损失函数分别对待处理图像的多个不同区域对应的网络参数进行训练得到的，因此针对待处理图像的各局部区域的特征提取更精确，进而使得识别模型输出的识别向量的准确度大大提高，识别结果的准确性也大大提高。

在上述实施例基础上，可选地，所述识别模型包括基础特征提取网络、局部特征划分单元和注意力单元（Attention Unit）；上述S20的一种可能的实现方式可以如图3所示，包括：

S21、采用所述基础特征提取网络对所述待处理图像进行特征提取，得到综合特征图。

具体的，上述识别模型包括基础特征提取网络。该基础特征提取网络可以为一个多层卷积神经网络（Convolutional Neural Network，简称CNN），层数可以为三层、四层、五层或者其他层数。具体的，计算机设备可以将上述待处理图像输入基础特征提取网络，该基础特征提取网络对上述待处理图像逐层进行特征提取，从而得到综合特征图。上述基础特征提取网络最后一层的网络形状可以标识为（n，h，w），其中，n为通道数，h为高度， w为宽度，因此得到的综合特征图的尺寸也可以为（n，h，w），其中，n为通道数，h为高度，w为宽度。

S22、采用所述局部特征划分单元对所述综合特征图进行处理，得到多个局部特征图。

具体的，局部特征划分单元设置在基础特征提取网络之后，计算机设备采用多个局部特征划分单元，将上述基础特征提取网络输出的综合特征图进行处理，例如首先进行划分再采用多个局部特征划分单元进行局部特征提取，从而得到多个局部特征图。其中，每个局部特征划分单元能够对上述综合特征图的一个局部区域进行特征提取，上述多个局部特征划分单元能够实现综合特征图各个局部区域的特征提取。可选地，当采用局部特征划分单元对综合特征图进行划分的时候，可以是均匀划分也可以是不均匀划分，本实施例对此不做限定。当对综合特征图采用不均匀划分的时候，可以采用ROIpooling技术对不均匀划分的局部特征图进行特征提取，以得到相同形状的局部特征图。当计算机设备对综合特征图进行均匀划分的时候，例如可以按照九宫格的形式进行均匀划分，每个局部特征图的大小一致，避免了对大小不一致的局部特征图的处理流程，因此提高了图像处理的效率。

S23、采用所述注意力单元对所述综合特征图和所述多个局部特征图进行处理，并通过全连接层（fully connected，简称FC）输出所述识别向量。

具体的，计算机设备可以采用注意力单元，根据上述综合特征图得到综合特征图的每个局部区域的权重，然后根据每个局部特征图所在的局部区域配置对应的权重，实现了将上述多个局部特征图的进行加权，最后计算机设备将这加权之后的局部特征图进行融合处理，从而输出识别向量，该识别向量融合了待处理图像中不同局部区域的局部特征图局部特征。当待处理图像中存在局部区域不完整的情况时，例如局部遮挡或者大角度拍摄导致局部图像不完整，计算机设备就能够采用注意力单元，对综合特征图中不遮挡的局部区域进行特征加权，使得综合特征图中遮挡部分的权重下降，进而弱化了遮挡区域在识别向量中所占的比重，因此避免了由于局部存在遮挡导致的识别不准确的情况。

可选地，本步骤S23的一种可能的实现方式可以包括：采用所述注意力单元对所述综合特征图进行处理，得到注意力图；对多个所述局部特征图和所述注意力图进行融合处理，通过全连接层输出所述识别向量。具体的，计算机设备可以采用注意力单元对上述综合特征图进行处理，从而输出注意力图（attention map），该注意力图为携带不同局部区域的权重信息的特征图。可选地，上述注意力单元为经过深度学习得到的具有局部区域权重的神经网络，且包括至少一个卷积层。上述注意力图的尺寸与注意力单元的最后一层网络的尺寸相同。其中，注意力单元的最后一层网络的长度和宽度可以相同，也可以不同，当长度和宽度相同的时候，注意力单元输出的注意力图的长度和宽度也相同，此时计算机设备能够对例如人脸图像这类接近正方形的原始图像的处理更为便捷，因此识别结果更准确。例如，当注意力单元的最后一层网络的尺寸为3X3的时候，可以在保证处理结果准确的情况下，使得计算量小，从而更好地兼顾了处理结果的准确性和计算量。之后，计算机设备将上述每个局部特征图分别与注意力图进行融合处理，从而得到多个加权特征向量，再通过全连接层将这多个加权特征向量合并，输出上述识别向量。其中，对局部特征图和注意力图进行融合处理，可以是将二者相乘，从而将注意力图中的权重信息带入，或者是将二者的特征进行叠加，从而将注意力图中的权重信息带入，然后通过全连接层输出识别向量。本实现方式中，计算机设备采用注意力单元对综合特征图进行处理，得到注意力图，然后对多个局部特征图和注意力图进行融合处理，并通过全连接层输出识别向量，能够实现对没有发生遮挡的局部特征图进行特征加权，使得综合特征图中遮挡部分的权重下降，因此弱化了遮挡区域在识别向量中所占的比重，避免了由于局部存在遮挡导致的识别不准确的情况，进而使得输出的识别向量的准确度大大提高，因此识别结果的准确度大大提高。

可选地，上述实现方式中，“对多个所述局部特征图和所述注意力图进行融合处理，通过全连接层输出所述识别向量”的一种可能的实现方式还可以如图4所示，包括：

S231、将每个所述局部特征图分别与所述注意力图相乘，得到每个所述局部特征图对应的加权特征向量。

S232、将多个所述加权特征向量串联，并通过所述全连接层输出所述识别向量。

具体的，计算机设备将每个局部特征图分别与注意力图相乘，得到每个局部特征图对应的加权特征向量，实现了每个局部特征图的加权。然后，计算机设备将这多个加权特征向量进行串联，并输入全连接层，通过该全连接层输出识别向量。

上述图4所示的实现方式中，计算机设备通过将每个局部特征图分别与注意力图相乘，得到每个局部特征图对应的加权特征向量，并将多个加权特征向量串联起来，采用全连接层输出能够表征待处理图像的多个局部特征的识别向量。因此在待处理图像中存在局部区域不完整的情况下，计算机设备通过对其他不遮挡的局部区域的进行特征加权，使得被遮挡的局部区域的权重下降，进而弱化了遮挡区域在识别结果中的影响，因此避免了由于局部图像不完整所导致的识别不准确的情况，其极大的提高了对存在遮挡或者大角度拍摄等情况的图像识别的准确性。另外，由于上述识别模型是经过密集损失函数训练所得到的模型，即其为采用多个损失函数分别对识别模型中的多个不同局部区域所对应的网络参数进行训练得到的，因此其针对待处理图像的各局部区域的识别结果更精确，进而使得在对待处理图像的局部区域进行加权并融合输出的识别向量中，权重大的局部区域由于其识别更精确，因此能够使得融合输出的识别向量更加准确，进而使得识别结果的准确度更高。

上述图3所示的实施例中，计算机设备采用基础特征提取网络对待处理图像进行特征提取，得到综合特征图，然后分别采用多个局部特征划分单元对综合特征图进行处理，得到多个局部特征图，从而实现了对待处理图像的局部特征进行特征提取，然后采用注意力单元对综合特征图进行处理，得到注意力图。之后计算机设备将多个局部特征图和注意力图进行融合处理，并通过全连接层输出识别向量。采用该方法，计算机设备能够对待处理图像的不同的局部特征分别进行识别处理，并采用注意力图对不同的局部特征进行加权，因此输出的识别向量能够表征待处理图像的多个局部特征以及对应的权重。在待处理图像中存在局部区域不完整的情况下，通过对其他不遮挡的局部区域的进行特征加权，使得遮挡的部分权重下降，进而弱化了遮挡区域在识别结果中的影响，因此避免了由于局部图像不完整所导致的识别不准确的情况，极大的提高了对不完整的图像识别的准确性。

可选地，在上述各个实施例的基础上，步骤S20步骤之前，还可以包括计算机设备采用训练图像对初始识别模型进行训练，得到识别模型的具体过程。该过程的可能的实现方式可以如下述图5或者图6所示。

可选地，图5所示的方法可以包括：

S41、将多个训练图像输入预设的初始识别模型，得到多个局部训练特征图和训练注意力图。

S42、使用所述训练注意力图对所述多个局部训练特征图进行加权处理，得到加权局部训练特征图。

S43、根据每个所述加权局部训练特征图，和对应的每个所述训练图像的标注信息之间的密集损失函数，对所述初始识别模型进行训练，得到所述识别模型；所述密集损失函数中包括多个分类损失函数，每个所述分类损失函数对应图像不同的局部区域。

需要说明的是，该初始识别模型的网络结构可以与上述任一实施例所述的识别模型的网络结构一致，且初始识别模型中的网络参数为预先设定的初始参数，可能与识别模型的网络参数不同。其中，上述训练图像为具有标注信息的图像。可选地，当训练图像为人脸图像的时候，上述标注信息是人脸图像的ID，可以表征人脸图像对应的身份信息。具体的，计算机设备将多个训练图像输入上述初始识别模型，该初始识别模型能够对每个训练图像的不同局部区域进行特征提取，并输出多个局部训练特征图；可选地，该初始识别模型还可以输出训练注意力图。之后，计算机设备采用注意力图对上述多个局部训练特征图进行加权处理，例如将注意力图与多个局部训练特征图相乘，得到加权局部训练特征图，最后计算机设备计算每个加权局部训练特征图与其对应的训练图像的标注信息之间的密集损失函数，并根据密集损失函数的值，结合注意力机制对初始识别模型中每个局部特征对应的网络参数进行反馈训练，直至密集损失函数满足要求，然后根据密集损失函数满足要求的网络参数更新初始识别模型，从而得到训练好的识别模型。其中，上述密集损失函数可以包括多个分类损失函数，每个分类损失函数均对应上述训练图像的一个局部区域。如图5a所示，图5a为一个实施例提供的识别模型的网络结构图。图5a中所示出的结构，例如基础特征提取网络的层数和其他网络的尺寸仅为一种示例，其并不对本申请实施例造成限定。图5a中，以基础特征提取网络的最后一层网络的长度和高度均为3为例，其对应的局部特征划分单元数量为9个，这9个局部特征划分单元输出的密集损失函数包括9个分类损失函数，为L_1-L_9，其所能得到的加权局部训练特征图为f1-f9。可选地，这9个加权局部训练特征图可以通过全连接层输出一个训练识别向量。

上述图5所示的实施例中，计算机设备将多个训练图像输入预设的初始识别模型，得到多个局部训练特征图和训练注意力图,然后使用训练注意力图对多个局部训练特征图进行加权处理，得到加权局部训练特征图；之后，计算机设备根据每个加权局部训练特征图，和对应的每个训练图像的标注信息之间的密集损失函数，对初始识别模型进行训练，得到识别模型。由于密集损失函数中包括多个分类损失函数，每个分类损失函数对应图像不同的局部区域，因此可以实现针对每个局部区域的特征进行识别的能力，因而该识别模型针对特征图的局部特征的识别更准确。另外，由于训练过程中结合了注意力机制，采用了训练注意力图对每个局部训练特征图进行加权，因此识别模型能够使得权重大的局部区域的特征识别更精确，进而使得识别结果更加准确。

可选地，图6所示的方法可以包括：

S51、将多个训练图像输入预设的初始识别模型，得到多个局部训练特征图、训练注意力图和初始识别向量。

具体的，本步骤中得到多个局部训练特征图和训练注意力图的详细描述可以参见上述S41中的描述。本步骤中，将多个训练图像输入初始识别模型，该初始识别模型还可以通过全连接层输出初始识别向量。

S52、使用所述训练注意力图对所述多个局部训练特征图进行加权处理，得到加权局部训练特征图。

具体的，本步骤的具体描述可以参见上述S42中的描述，此处不再赘述。

S53、根据每个所述加权局部训练特征图，和对应的每个所述训练图像的标注信息之间的密集损失函数，以及根据所述初始识别向量和所述训练图像的标注信息之间的损失函数，对所述初始识别模型进行训练，得到所述识别模型；所述密集损失函数中包括多个分类损失函数，每个所述分类损失函数对应图像不同的局部区域；所述初始识别向量为所述多个加权局部训练特征图进行融合处理所输出的向量。

具体的，计算机设备根据每个训练图像的标注信息，与局部训练特征图之间的密集损失函数对初始识别模型进行训练的同时，还可以采用注意力图对局部训练特征图进行加权得到多个加权局部训练特征图，并对这多个加权局部训练特征图进行融合，输出初始识别向量，因此计算机设备还可以根据初始识别向量和训练图像的标注信息之间的损失函数，对初始识别模型进行训练，从而更新整个初始识别模型的网络参数，得到训练好的识别模型。本实施例中关于密集损失函数的具体描述可以参见图5实施例中的描述。继续参见图5a所示，初始识别向量和训练图像的标注信息之间的损失函数可以用L_A表示。

上述图6所示的实施例中，计算机设备将多个训练图像输入预设的初始识别模型，得到多个局部训练特征图、训练注意力图和初始识别向量,计算机设备还可以使用训练注意力图对所述多个局部训练特征图进行加权处理，得到加权局部训练特征图，然后根据每个加权局部训练特征图和对应的标注信息之间的密集损失损失函数，以及初始识别向量和对应的标注信息之间的损失函数对初始识别模型进行训练，从而得到识别模型。本实施例中，由于加权局部训练特征图和对应的标注信息之间的密集损失函数包括多个分类损失函数，每个损失函数对应训练图像不同局部区域，因此计算机设备能够对初始识别模型中对应不同区域的网络参数分别进行训练，在针对图像的各局部区域的识别能力进行训练的同时，并将还可以结合初始识别向量和对应的标注信息之间的损失函数进行训练，从而更新整个识别模型的网络参数，进一步提高了对待处理图像的识别结果的准确性。本实施例中由于训练过程中采用了训练注意力图对局部训练特征图进行了加权处理，因此识别模型在对待处理图像的局部区域进行加权并输出的识别向量中，使得权重大的局部区域的图像识别更精确，进而使得输出的识别向量更加准确，识别结果的准确性进一步提高。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种图像识别装置，所述装置包括：

获取模块100，用于获取待处理图像；

识别模块200，用于采用预设的识别模型对所述待处理图像进行特征提取，得到识别向量；所述识别模型为采用注意力机制，且采用密集损失函数进行训练所得到的模型，所述识别向量用于表征所述待处理图像的多个局部特征；

分类模块300，用于对所述识别向量进行图像识别，得到识别结果。

在一个实施例中，所述识别模型包括基础特征提取网络、局部特征划分单元和注意力单元；识别模块200，具体用于采用所述基础特征提取网络对所述待处理图像进行特征提取，得到综合特征图；采用所述局部特征划分单元对所述综合特征图进行处理，得到多个局部特征图；采用所述注意力单元对所述综合特征图和所述多个局部特征图进行处理，并通过全连接层输出所述识别向量。

在一个实施例中，识别模块200，具体用于采用所述注意力单元对所述综合特征图进行处理，得到注意力图；将多个所述局部特征图和所述注意力图进行融合处理，通过全连接层输出所述识别向量。

在一个实施例中，识别模块200，具体用于将每个所述局部特征图分别与所述注意力图相乘，得到每个所述局部特征图对应的加权特征向量；将多个所述加权特征向量串联，并通过所述全连接层输出所述识别向量。

在一个实施例中，所述装置还可以如图8所示，包括：训练模块400，用于将多个训练图像输入预设的初始识别模型，得到多个局部训练特征图和训练注意力图；使用所述训练注意力图对所述多个局部训练特征图进行加权处理，得到加权局部训练特征图；根据每个所述加权局部训练特征图，和对应的每个所述训练图像的标注信息之间的密集损失函数，对所述初始识别模型进行训练，得到所述识别模型；所述密集损失函数中包括多个分类损失函数，每个所述分类损失函数对应图像不同的局部区域。

在一个实施例中，训练模块400，还可以用于将多个训练图像输入预设的初始识别模型，得到多个局部训练特征图、训练注意力图和初始识别向量；

在一个实施例中，所述注意力图的长度和宽度相同。

关于图像识别装置具体限定，可以分别参见上文中对于图像识别方法的限定，在此不再赘述。上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待处理图像；

对所述识别向量进行图像识别，得到识别结果。

在一个实施例中，所述识别模型包括基础特征提取网络、局部特征划分单元和注意力单元；处理器执行计算机程序时还实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在一个实施例中，所述注意力图的长度和宽度相同。

应当清楚的是，本申请实施例中处理器执行计算机程序的过程，与上述方法中各个步骤的执行过程一致，具体可参见上文中的描述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待处理图像；

对所述识别向量进行图像识别，得到识别结果。

在一个实施例中，所述识别模型包括基础特征提取网络、局部特征划分单元和注意力单元；计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，所述注意力图的长度和宽度相同。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待处理图像；

对所述识别向量进行图像识别，得到识别结果。

2.根据权利要求1所述的方法，其特征在于，所述识别模型包括基础特征提取网络、局部特征划分单元和注意力单元；所述采用预设的识别模型对所述待处理图像进行识别，得到识别向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述采用所述注意力单元对所述综合特征图和所述多个局部特征图进行处理，并通过全连接层输出所述识别向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述将多个所述局部特征图和所述注意力图进行融合处理，通过全连接层输出所述识别向量，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述采用预设的识别模型对所述待处理图像进行识别，得到识别向量之前，包括：

6.根据权利要求1至4任一项所述的方法，其特征在于，所述采用预设的识别模型对所述待处理图像进行识别，得到识别向量之前，包括：

7.根据权利要求2至4任一项所述的方法，其特征在于，所述注意力图的长度和宽度相同。

8.一种图像识别装置，其特征在于，所述装置包括：

获取模块，用于获取待处理图像；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。