CN112733652A

CN112733652A - 图像目标识别方法、装置、计算机设备及可读存储介质

Info

Publication number: CN112733652A
Application number: CN202011616379.0A
Authority: CN
Inventors: 吴晓东
Original assignee: Shenzhen Saiante Technology Service Co Ltd
Current assignee: Shenzhen Saiante Technology Service Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30
Anticipated expiration: 2040-12-31
Also published as: CN112733652B

Abstract

本发明涉及人工智能技术领域，公开了一种图像目标识别方法、装置、计算机设备及可读存储介质，包括：获取目标物体的图像；对所述图像进行卷积运算得到反映所述图像内容的目标特征；通过预生成的锚框在所述目标特征上生成候选框，识别覆盖所述目标物体的候选框并将其设为目标框；根据所述目标框识别所述目标物体的类别。本发明还涉及区块链技术，信息可存储于区块链节点中。本发明通过识别图像中能够反映所述目标物体的目标框，并根据所述目标框对目标物体的类别进行识别判断，极大的提高了车辆在不同状况的日照环境和拍摄角度所生成的图像的目标物体识别准确度。

Description

图像目标识别方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种图像目标识别方法、装置、计算机设备及可读存储介质。

背景技术

随着车辆违规行为的不断增加，对违规车辆的身份进行快速认证，是城市交通管理中非常重要的任务。车辆品牌作为车辆的一个重要属性，对它的自动识别成为车辆身份认证中不可或缺的环节之一。因此，通常采用神经网络识别车辆的车辆品牌，以在保证识别准确度的同时，提高车辆品牌的识别效率。

但是，发明人意识到，这种方法通常在日照环境及拍摄角度较好的情况下有较高的识别准确度，一旦遇到在雾霾、雨天、夜间等日照环境较差的情况，或拍摄角度为车侧面等较差角度下，当前的神经网络模型的往往难以对车辆的车辆品牌进行准确识别。

发明内容

本发明的目的是提供一种图像目标识别方法、装置、计算机设备及可读存储介质，用于解决现有技术存在的神经网络模型难以对日照环境或拍摄角度较差情况下的图像中，车辆的车辆品牌进行准确识别的问题。

为实现上述目的，本发明提供一种图像目标识别方法，包括：

获取目标物体的图像；

对所述图像进行卷积运算得到反映所述图像内容的目标特征；

通过预生成的锚框在所述目标特征上生成候选框，识别覆盖所述目标物体的候选框并将其设为目标框；

根据所述目标框识别所述目标物体的类别。

上述方案中，所述通过预生成的锚框在所述目标特征上生成候选框之前，所述方法还包括：

增强所述目标特征中的有效特征，抑制所述目标物体特征中的无效特征；

所述增强所述目标特征中的有效特征，抑制所述目标物体特征中的无效特征的步骤，包括：

获取目标特征，对所述目标特征进行分块形成区块特征；

通过注意力机制对所述区块特征，增强区块特征中的有效特征并抑制所述区块特征中的无效特征得到注意区块特征；

对所述拼接所述注意区块特征，获得增强有效特征且抑制无效特征的目标特征。

上述方案中，所述通过注意力机制对所述区块特征，增强区块特征中的有效特征并抑制所述区块特征中的无效特征得到注意区块特征的步骤，包括：

对所述区块特征进行全局最大池化，以识别所述区块特征中的初级有效特征；

对所述初级有效特征中的有效特征进行全连接运算，获得所述初级有效特征中的注意力特征；

将所述区块特征与所述注意力特征相乘得到注意区块特征。

上述方案中，所述全局最大池化是基于区块特征的全局上下文关系，由全局最大池化层的输入层获取所述区块特征中的特征值，提取所述输入层中最大的特征值，并将其保留在全局最大池化层的中间层，再提取所述中间层中最大的特征值并将其保留在所述全局最大池化层的输出层的过程。

上述方案中，通过以下步骤生成所述锚框：

获取具有训练目标的训练图像，所述训练图像中标记有所述训练目标的训练尺寸；

将所述训练图像的训练尺寸制成坐标在预置的平面直角坐标系上形成簇点，汇总预置数量的所述簇点形成簇集合；

调用预置的聚类模型运算所述簇集合中的核心点，提取所述核心点的坐标并将所述坐标作为高度和宽度以获得锚框。

上述方案中，所述识别覆盖所述目标物体的候选框并将其设为目标框的步骤，包括：

对所述初级卷积特征进行分类运算，以保留属于所述目标物体的候选框并删除不属于所述目标物体的候选框，得到分类矩阵；

对所述初级卷积特征进行回归运算，以调整所述初级卷积特征中候选框的中心点坐标及尺寸，得到坐标矩阵；

根据所述分类矩阵和所述坐标矩阵，筛选出被判定为覆盖所述目标物体的概率最高的候选框并将其设为前景框，删除与所述前景框的重叠程度超过预置重叠阈值的候选框。

将所述前景框在所述目标特征上执行切割操作，以在所述目标特征上形成目标框。

上述方案中，所述根据所述目标框识别所述目标物体的类别之前，所述方法还包括：

调整所述目标特征中的目标框的尺寸和形状，使各所述目标框的尺寸和形状一致；

所述根据所述目标框识别所述目标物体的类别之后，所述方法还包括：

将所述目标物体的类别上传至区块链中。

为实现上述目的，本发明还提供一种图像目标识别装置，包括：

输入模块，用于获取目标物体的图像；

卷积模块，用于对所述图像进行卷积运算得到反映所述图像内容的目标特征；

定位模块，用于通过预生成的锚框在所述目标特征上生成候选框，识别覆盖所述目标物体的候选框并将其设为目标框；

识别模块，用于根据所述目标框识别所述目标物体的类别。

为实现上述目的，本发明还提供一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述计算机设备的处理器执行所述计算机程序时实现上述图像目标识别方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述可读存储介质存储的所述计算机程序被处理器执行时实现上述图像目标识别方法的步骤。

本发明提供的图像目标识别方法、装置、计算机设备及可读存储介质，通过对所述图像进行卷积运算得到反映所述图像内容的目标特征，以实现将图像进行数字化处理得到反映图片内容的特征信息，以便于识别出图片中的目标物体；通过预生成的锚框在所述目标特征上生成候选框，识别覆盖所述目标物体的目标框，根据所述目标框识别所述目标物体的类别。

实现通过识别图像中能够反映所述目标物体的目标框，并根据所述目标框对目标物体的类别进行识别判断，极大的提高了车辆在不同状况的日照环境和拍摄角度所生成的图像的目标物体识别准确度。

附图说明

图1为本发明图像目标识别方法实施例一的流程图；

图2为本发明图像目标识别方法实施例二中图像目标识别方法的环境应用示意图；

图3是本发明图像目标识别方法实施例二中图像目标识别方法的具体方法流程图；

图4为本发明图像目标识别装置实施例三的程序模块示意图；

图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的图像目标识别方法、装置、计算机设备及可读存储介质，适用于人工智能的图像检测技术领域，为提供一种基于输入模块、卷积模块、定位模块、识别模块的图像目标识别方法。本发明通过对获取的图像进行卷积运算得到反映所述图像内容的目标特征，通过预生成的锚框在所述目标特征上生成候选框，识别覆盖所述目标物体的候选框并将其设为目标框，根据所述目标框识别所述目标物体的类别。

实施例一：

请参阅图1，本实施例的一种图像目标识别方法，包括：

S101：获取目标物体的图像。

S103：对所述图像进行卷积运算得到反映所述图像内容的目标特征。

S105：通过预生成的锚框在所述目标特征上生成候选框，识别覆盖所述目标物体的候选框并将其设为目标框。

S107：根据所述目标框识别所述目标物体的类别。

在示例性的实施例中，从拍摄设备中获取对所述目标物体所拍摄的图像，或接收客户端发送的具有目标物体的图像，示例性地，所述目标物体是汽车，则从摄像头中获取拍摄所述汽车的图片以作为所述图像。

通过调用预置的ResNeSt网络模型对所述图像进行卷积运算，得到反映所述图像内容的目标特征Feature Map1，其中，所述ResNeSt网络模型的卷积核对所述图像进行卷积运算得到原始特征Feature Map1，以实现将图像进行数字化处理得到反映图片内容的特征信息，以便于识别出图片中的目标物体。

调用Faster R-CNN神经网络的RPN层通过预置的锚框在所述目标特征上生成候选框，调用RPN层的softmax函数识别所述目标特征中覆盖所述目标物体的候选框，并通过边框回归算法调整所述候选框的位置得到目标框，将所述目标特征中所述目标框覆盖的特征值设为目标框。示例性地，所述RPN层(region proposal networks)，用于生成候选框，并利用softmax判断候选框是前景还是背景，从中选取前景候选框(因为物体一般在前景中)，并利用边框回归算法(bounding box regression)调整候选框的位置，从而得到目标框，称为proposals。

通常的，Faster R-CNN神经网络的锚框(anchor box)是默认设置的或者人工直接设置的，然而，这种设置因未考量到各种场景下的目标物体的拍摄图像，而如果锚框的尺寸与图像中目标物体之间尺寸差异较大，则会影响所述神经网络的检测效果。因此，本申请通过聚类算法预生成所述锚框，使所述锚框与图像中目标物体之间尺寸差异降低至预置的可控范围之内，进而通过所述锚框在所述目标特征上生成候选框，能够更好的覆盖图像中的目标物体，提高神经网络的检测效果。

通过调用Faster R-CNN神经网络的全连接层与softmax函数，对所述目标框中的特征值进行运算，因此，通过对覆盖目标物体的目标框进行精准识别，实现了提高识别目标物体的类别的技术效果。

综上，本申请通过识别图像中能够反映所述目标物体的目标框，并根据所述目标框对目标物体的类别进行识别判断，极大的提高了车辆在不同状况的日照环境和拍摄角度所生成的图像的目标物体识别准确度。

实施例二：

本实施例为上述实施例一的一种具体应用场景，通过本实施例，能够更加清楚、具体地阐述本发明所提供的方法。

下面，以在运行有图像目标识别方法的服务器中，对图像中覆盖目标物体的目标框进行识别，并根据所述目标框识别所述目标物体的类别为例，来对本实施例提供的方法进行具体说明。需要说明的是，本实施例只是示例性的，并不限制本发明实施例所保护的范围。

图2示意性示出了根据本申请实施例二的图像目标识别方法的环境应用示意图。

在示例性的实施例中，图像目标识别方法所在的服务器2通过网络分别连接拍摄设备3和客户端4；所述服务器2可以通过一个或多个网络提供服务，网络可以包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或等等。网络可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，它们的组合和/或类似物。网络可以包括无线链路，例如蜂窝链路，卫星链路，Wi-Fi链路和/或类似物；所述拍摄设备3可为安防监控设备、摄像头等拍摄装置；客户端4可为智能手机、平板电脑、笔记本电脑、台式电脑等计算机设备。

图3是本发明一个实施例提供的一种图像目标识别方法的具体方法流程图，该方法具体包括步骤S201至S207。

S201：获取目标物体的图像。

本步骤中，从拍摄设备中获取对所述目标物体所拍摄的图像，或接收客户端发送的具有目标物体的图像，示例性地，所述目标物体是汽车，则从摄像头中获取拍摄所述汽车的图片以作为所述图像。

S202：将所述图像调整为预置的尺寸。

为保证后续的模型能够顺利的对图像进行处理，本步骤通过将原始输入图像Image在保证宽高比的情况下Resize成预设的新尺寸。

S203：对所述图像进行卷积运算得到反映所述图像内容的目标特征。

为将图像进行数字化处理得到反映图片内容的特征信息，以便于识别出图片中的目标物体，本步骤通过调用预置的ResNeSt网络模型对所述图像进行卷积运算，得到反映所述图像内容的目标特征Feature Map1，其中，所述ResNeSt网络模型的卷积核对所述图像进行卷积运算得到原始特征Feature Map1。

需要说明的是，ResNeSt网络模型是faster R-CNN神经网络的卷积层，该卷积层只需对图像进行一次提取即可获得所述目标特征Feature Map1，极大的减少了卷积运算时间。

S204：增强所述目标特征中的有效特征，抑制所述目标物体特征中的无效特征。

由于图像中通常不仅包含有目标物体，可能还包含有背景和其他物体，因此，为提高识别出图像中的目标物体的成功率，本步骤通过区块注意力(block-attention)机制增强所述目标特征中反映所述目标物体的有效特征，并抑制所述目标特征中反映非所述目标物体的无效特征。

其中，所述区块注意力机制是从特征中学习或者提取出权重分布，再拿这个权重分布施加在原来的特征之上，改变原有特征的分布，增强有效特征抑制无效的特征或者是噪音，进而将经过增强有效特征且抑制无效特征的目标特征设为Feature Map2。

示例性地，假设所述目标物体是汽车，那么一个拍摄有汽车的图像中还可能会有人、背景、道路河流等物体，因此，通过所述注意力机制提取所述图像中反映目标特征中反映汽车的有效特征，并抑制反映非汽车(如：人、背景、道路河流等物体)的无效特征。进一步地，还可将所述目标物体设为品牌标识，那么，可将粘贴或镶嵌在车辆车身部分的品牌标识作为所述有效信息。

于实施例中，所述区块注意力(Block-Attention)机制包括：

Input模块，用于获取目标特征Feature Map1；

Block模块，用于对所述目标特征进行分块；

Attention_n模块，用于增强所述目标特征中的有效特征，抑制所述目标物体特征中的无效特征。所述Attention_n模块包括Global MaxPooling(全局最大池化层)、FCL(全连接层，其中具有Leaky Relu激活函数)、FCS(全连接层，其中具有Sigmoid激活函数)、Multiply(用于两个矩阵元素相乘的计算模块)、Output(用于输出目标特征FeatureMap2)。

在一个优选的实施例中，所述增强所述目标特征中的有效特征，抑制所述目标物体特征中的无效特征的步骤，包括：

S41：获取目标特征，对所述目标特征进行分块形成区块特征；

示例性地，假设n取2，输入矩阵Input(即图1中的特征图矩阵FMap)大小为4*60*40*512(4表示batch_size)，则首先执行Block操作后将其分成了2块(即区块特征Block_1、区块特征Block_2，大小均为4*60*40*(512/2)＝4*60*40*256)。

S42：通过注意力机制对所述区块特征，增强区块特征中的有效特征并抑制所述区块特征中的无效特征得到注意区块特征。

示例性地，将所述区块特征Block_1、区块特征Block_2分别执行Attention注意力机制得到相应新的注意区块特征Block_1’、注意区块特征Block_2’(大小不变，均为4*60*40*256)。

进一步地，所述通过注意力机制对所述区块特征，增强区块特征中的有效特征并抑制所述区块特征中的无效特征得到注意区块特征的步骤，包括：

S42-1：对所述区块特征进行全局最大池化，以识别所述区块特征中的初级有效特征；

为识别区块特征中的有效特征，并降低无效特征的影响，本步骤通过全局最大池化(Global max pooling)层，对所述区块特征进行全局最大池化；所述全局最大池化是基于区块特征的全局上下文关系，由全局最大池化层的输入层获取所述区块特征中的特征值，提取所述输入层中最大的特征值，并将其保留在全局最大池化层的中间层，再提取所述中间层中最大的特征值并将其保留在所述全局最大池化层的输出层的过程；通过对所述区块特征进行所述全局最大池化得到的初步有效特征，其反映了描述目标物体的特征纹理，即可能反应目标物体的有效特征，减少无用信息的影响。例如，调用Attention_n模块的Global MaxPooling(全局最大池化层)，对所述区块特征进行全局最大池化操作后得到的初级有效特征大小为4*256。

S42-2：对所述初级有效特征中的有效特征进行全连接运算，获得所述初级有效特征中的注意力特征。

本步骤中，调用Attention_n模块的FCL，对所述初级有效特征进行全连接运算，得到中间有效特征，其大小为4*256；调用Attention_n模块的FCS再次对所述中间有效特征进行全连接运算，得到注意力特征，其大小仍为4*256。得到的注意力特征反映了所述区块特征中的有效特征。其中，所述全连接运算是对所述初级有效特征进行分类，以提取所述初级有效特征中的所述有效特征的深度学习算法。

S42-3：将所述区块特征与所述注意力特征相乘得到注意区块特征。

本步骤中，假设所述区块特征是区块特征Block_1，调用Attention_n模块的Multiply，使所述区块特征Block_1和注意力矩阵相乘，得到注意区块特征Block_1’，其大小为4*60*40*256，并通过Output输出。其中，将所述区块特征与所述注意力特征相乘，以提高所述有效特征的特征值并保持所述无效特征的特征值，以实现抑制所述无效特征。

S43：对所述拼接所述注意区块特征，获得增强有效特征且抑制无效特征的目标特征。

示例性地，将所述注意区块特征Block_1’和所述注意区块特征Block_2’进行Concat(拼接)操作得到输出矩阵大小为4*60*40*(256+256)＝4*60*40*512，最后在进行Conv(1*1卷积)操作得到最后的输出矩阵Output(即，目标特征Feature Map2，大小与目标特征Feature Map1相同，为4*60*40*512)。

S205：通过预生成的锚框在所述目标特征上生成候选框，识别覆盖所述目标物体的候选框并将其设为目标框。

本步骤中，通过调用Faster R-CNN神经网络的RPN层通过预置的锚框在所述目标特征上生成候选框，调用RPN层的softmax函数识别所述目标特征中覆盖所述目标物体的候选框，并通过边框回归算法调整所述候选框的位置得到目标框，将所述目标特征中所述目标框覆盖的特征值设为目标框。示例性地，所述RPN层(region proposal networks)，用于生成候选框，并利用softmax判断候选框是前景还是背景，从中选取前景候选框(因为物体一般在前景中)，并利用边框回归算法(bounding box regression)调整候选框的位置，从而得到目标框，称为proposals。

通常的，Faster R-CNN神经网络的锚框(anchor box)是默认设置的或者人工直接设置的，然而，这种设置因未考量到各种场景下的目标物体的拍摄图像，而如果锚框的尺寸与图像中目标物体之间尺寸差异较大，则会影响所述神经网络的检测效果。

因此，本申请通过聚类算法预生成所述锚框，使所述锚框与图像中目标物体之间尺寸差异降低至预置的可控范围之内，进而通过所述锚框在所述目标特征上生成候选框，能够更好的覆盖图像中的目标物体，提高神经网络的检测效果。

在一个优选的实施例中，通过以下步骤生成所述锚框：

S5-01：获取具有训练目标的训练图像，所述训练图像中标记有所述训练目标的训练尺寸。

本步骤中，所述训练尺寸为覆盖所述训练目标的框的最小尺寸，所述训练尺寸包括高度和宽度，例如：训练目标是汽车，训练尺寸则是覆盖训练图像中汽车的框的最小尺寸。

S5-02：将所述训练图像的训练尺寸制成坐标在预置的平面直角坐标系上形成簇点，汇总预置数量的所述簇点形成簇集合。

S5-03：调用预置的聚类模型运算所述簇集合中的核心点，提取所述核心点的坐标并将所述坐标作为高度和宽度以获得锚框。

本步骤中，采用DBSCAN聚类算法作为所述聚类模型，所述聚类模型通过将密度达到预置的密度阈值的簇点设为核心点，所述密度是指邻域内点的个数不少于minPts，所述邻域是指以所述簇点为圆点并以预置距离ε为半径的范围，所述minPts是预置的密度阈值。具体地，通过将所述簇集合中任一簇点设为目标簇点，通过距离公式计算所述簇点与所述簇集合中其他簇点之间的簇点距离，判断所述簇点距离是否小于所述距离ε，若是，则判定所述其他簇点处于所述目标簇点的邻域范围内；若否，则判定所述其他簇点不处于所述目标簇点的邻域范围内。

需要说明的是，所述簇集合里面可以有一个或者多个核心点。如果只有一个核心点，则簇里其他的非核心点样本都在这个核心点的∈-邻域里；如果有多个核心点，则簇里的任意一个核心点的∈-邻域中一定有一个其他的核心点，否则这两个核心点无法密度可达。这些核心点的∈-邻域里所有的样本的集合组成的一个聚类簇。

示例性地，假设簇集合中具有9个核心点，其坐标分别是：(18，17)、(26，25)、(42，27)、(49，40)、(67，66)、(86，39)、(119，80)、(182，155)、(323，281)，这9个坐标表示的是生成的锚框9种高度和宽度。

进一步地，如果使用所述聚类算法中的簇点距离公式计算簇点与簇点之间的距离，将会导致簇点对应的训练尺寸更大的时候，更加脱离于其他簇点，这样将无法获得能够适应于极端尺寸情况下的锚框，导致获得的锚框在覆盖目标物体时仍具有很大的误差，因此，为消除训练尺寸的大小对所述误差的影响，本申请通过将所述距离公式设为T＝1-IOU，其中，T为簇集合中目标簇点与其他簇点之间的簇点距离，IOU＝I/U，I表示两个簇点所对应的训练尺寸的交集面积，U表示两个簇点所对应的训练尺寸的并集面积。将所述距离∈的值域设为0～1。

于本实施例中，RPN层包括，Input模块、CM模块(其为3*3卷积，并使用Mish激活函数)、CS模块(其为1*1卷积，并使用Sigmoid激活函数)、Conv模块(其为1*1卷积)、NMS模块(其用于非极大值抑制)、Cut模块(其用于利用NMS筛选后得到的候选框的坐标在输入特征图Input上进行切割)、Output模块(其用于输出目标框，即：proposals)。

在一个优选的实施例中，所述通过预生成的锚框在所述目标特征上生成候选框的步骤，包括：

S5-11：获取目标特征，对所述目标特征进行卷积运算形成具有候选框的初级卷积特征。

本步骤中，假设将获取的目标特征设为输入矩阵Input，其大小为60*40*512，执行CM模块对所述输入矩阵3x3卷积后得到的初级卷积矩阵大小仍为60*40*512，但所述初级卷积特征的每个点融合了周围3x3的空间信息，即：对每个目标特征feature map上的一个点，生成k个候选框anchor(k默认为9)。

S5-12：根据所述锚框设置所述初级卷积特征中候选框的尺寸。

本步骤中，所述候选框anchor分为前景和背景两类，所述候选框anchor有[x,y,w,h]四个坐标偏移量，x,y表示中心点坐标，w和h表示宽度和高度。这样，对于目标特征feature map上的每个点，就得到了k个大小形状各不相同的选区region。

在一个优选的实施例中，所述识别覆盖所述目标物体的候选框并将其设为目标框的步骤，包括：

S5-21：对所述初级卷积特征进行分类运算，以保留属于所述目标物体的候选框并删除不属于所述目标物体的候选框，得到分类矩阵。

本步骤中，通过RPN层的cls(分类分支)调用CS模块对所述初级卷积特征进行前景和背景的二分类运算(如：60*40*(9*2)＝60*40*18，其中，9表示的是anchor box个数、2表示的是前景和背景二分类)，由于目标物体是在图像的前景中的，故，通过调用RPN层中的softmax函数对各候选框的进行判断，以识别出属于前景的候选框并删除属于背景的候选框；由于大部分的候选框anchors都是属于背景，故这一步可以筛选掉很多无用的候选框anchor，得到分类矩阵，从而减少全连接层的计算量。

S5-22：对所述初级卷积特征进行回归运算，以调整所述初级卷积特征中候选框的中心点坐标及尺寸，得到坐标矩阵。

本步骤中，通过RPN层的reg(回归分支)调用Conv模块，对所述初级卷积特征进行候选框的中心点坐标及所述候选框尺寸的运算(如：60*40*(9*4)＝60*40*36，其中9表示的是anchor box个数、4表示的是每个候选框anchor box的坐标，即候选框anchor box的中心点坐标x,y以及候选框anchor box的宽高w,h)，得到坐标矩阵(60*40*36)。

所述Conv模块用于确定候选框的位置，也就是候选框anchors的[x,y,w,h]坐标值，其中，x,y反映了所述候选框中心点的横纵坐标，w反映了所述候选框的宽度，h反映了所述候选框的高度，由于所述初级卷积特征中的候选框大概覆盖了目标图像中的目标物体，但是并不精准，因此通过所述Conv模块调整所述候选框的中心点坐标和尺寸，使其能够精准覆盖所述目标物体，上述过程通过边框回归算法(bounding box regression)实现。

示例性地，假设初始卷积特征的候选框1的坐标为[x,y,w,h],而能够完全覆盖目标物体的候选框2坐标为[Gx,Gy,Gw,Gh],通过所述边框回归算法先做平移，使得候选框1的中心点坐标(x,y)与候选框2的中心点坐标(Gx,Gy,)接近，然后进行缩放，使候选框1的宽度和高度(w,h)与所述候选框2的宽度和高度(Gw,Gh])接近。

S5-23：根据所述分类矩阵和所述坐标矩阵，筛选出被判定为覆盖所述目标物体的概率最高的候选框并将其设为前景框，删除与所述前景框的重叠程度超过预置重叠阈值的候选框。

本步骤中，通过所述分类矩阵识别出目标图像中覆盖目标物体的候选框，其中，所述分类矩阵中的元素值反映了所述候选框覆盖所述目标物体的概率，所述概率是通过所述RPN层的softmax函数对候选框的为前景的概率值，和为背景的概率值；通过所述坐标矩阵得到所述覆盖所述目标物体的候选框的位置(中心点坐标)和尺寸(宽度和高度)，调用执行NMS模块根据所述分类矩阵和所述坐标矩阵，根据所述候选框的所述概率对所述候选框进行排序，保留概率最高的候选框并将其设为前景框，删除与所述前景框的重叠程度超过预置重叠阈值的候选框，通过公式IOU＝I/U，获取所述前景框与其他候选框之间的重叠程度，其中，IOU表示前景框与其他候选框之间的重叠程度，I表示前景框与其他候选框之间的交集面积，U表示前景框与其他候选框之间的并集面积。

所述重叠阈值的值域为(0,1)，其可根据需要设置，例如：0.5。

具体地，所述筛选出被判定为覆盖所述目标物体的概率最高的候选框并将其设为前景框，删除与所述前景框的重叠程度超过预置重叠阈值的候选框，包括以下步骤：

m1.得到候选框anchors和及其坐标矩阵[x y w h]；

m2.按照候选框anchors为前景的不同概率，从大到小排序，选取前pre_nms_topN个anchors，比如前300个

m3.剔除概率值非常小的anchors

m4.通过NMS非极大值抑制，从anchors中找出置信度较高的。这个主要是为了解决选取交叠问题。首先计算每一个选区面积，然后根据他们在softmax中的score(也就是是否为前景的概率)进行排序，将score最大的选区放入队列中。接下来，计算其余选区与当前最大score选区的IOU(IOU为两box交集面积除以两box并集面积，它衡量了两个box之间重叠程度)。去除IOU大于设定重叠阈值的选区，以解决了选区重叠问题。

m5.选取前post_nms_topN个结果作为最终选区proposal进行输出，比如300个。

本步骤通过NMS模块实现对初级卷积特征中目标物体的定位。

S5-24：将所述前景框在所述目标特征上执行切割操作，以在所述目标特征上形成目标框，实现识别覆盖所述目标物体的候选框并将其设为目标框的技术效果。

本步骤中，将筛选后的n个前景框在输入特征图FMap’上执行Cut(切割)操作得到最终的输出矩阵Output(即所述目标框)。

示例性地，假设输入矩阵Input的大小为60*40*512，经过NMS筛选出的300个前景框中的一个前景框的坐标为(9,15,20,30)),则Cut操作表示在输入矩阵Input(即目标特征Feature Map1或目标特征Feature Map2)上的(9,15)位置处切割出宽高为(20,30)的目标框(即目标框，大小为20*30*512)。类似地，最后可以得到300个不同大小的目标框。

S206：调整所述目标特征中的目标框的尺寸和形状，使各所述目标框的尺寸和形状一致。

由于全连接计算只能对确定的shape进行运算，得到的目标框的尺寸和形状可能是不同的，如此一来，将无法进行识别所述目标物体的类型的全连接，因此，为保证获得的目标框能够顺利的被全连接层进行运算，本步骤通过调用fast R-CNN的ROI Pooling层调整所述目标特征中的目标框的形状和尺寸，使各所述目标框的形状及尺寸相同。

于本实施例中，ROI pooling中，如果目标输出为MxN，则在水平和竖直方向上，将输入的目标框划分为MxN份，每一份取最大值，从而得到MxN的输出特征图。RoIPooling操作将所述目标特征中的目标框统一固定为7*7大小(即将300个M*N*512大小的目标框统一成1个300*7*7*512的目标框)；

RoIPooling举个例子：假设Input(即CBox)共有300个候选框(拿其中一个候选框来举例，假设这个候选框的大小为20*30*512)，首先执行Block操作将该矩阵(20*30*512)划分成7*7固定大小的块并进行取整，每块大小为(20/7)*(30/7)＝2.86*4.29＝2*4，然后对每块执行MaxPooling操作(即只保留2*4＝8个像素点中值最大的那个像素点)得到最终的输出矩阵(大小为7*7*512)，这是一个候选框经过RoIPooling操作后得到的最终输出矩阵。由于总共有300个，所以最终的输出矩阵Output大小为300*7*7*512。

S207：根据所述目标框识别所述目标物体的类别。

本步骤中，通过调用Faster R-CNN神经网络的全连接层与softmax函数，对所述目标框中的特征值进行运算，因此，通过对覆盖目标物体的目标框进行精准识别，实现了提高识别目标物体的类别的技术效果。

于本实施例中，所述全连接层包括：

两层FCR(即：子全连接层，其中具有Relu激活函数)，用于识别具有反映目标物体的类别的特征值的目标框。

FC(全连接回归分支)，用于对目标框的进行边框回归，其解决了识别目标框位置的问题；

FCS(全连接分类分值，其中具有Softmax激活函数)，用于识别目标框中的特征值对应的目标物体的所属类别。具体的，通过将所述目标框中的特征值与预存的车辆品牌的对比值(例如：奥迪、宝马、大众、比亚迪等常见200种车品牌)进行比对，将比对差异低于预置差异阈值，或损失值小于预置损失阈值的对比值所对应的车辆品牌，设为所述类别，例如：所述车辆品牌为奥迪。需要说明的是，所述特征值和对比值可为车辆的形状和尺寸，也可为所述车辆的品牌标识。

优选的，所述根据所述目标框识别所述目标物体的类别之后，所述方法还包括：

将所述目标物体的类别上传至区块链中。

需要说明的是，基于目标物体的类别得到对应的摘要信息，具体来说，摘要信息由目标物体的类别进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息，以便查证目标物体的类别是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

实施例三：

请参阅图4，本实施例的一种图像目标识别装置1，包括：

输入模块11，用于获取目标物体的图像；

卷积模块13，用于对所述图像进行卷积运算得到反映所述图像内容的目标特征；

定位模块15，用于通过预生成的锚框在所述目标特征上生成候选框，识别覆盖所述目标物体的候选框并将其设为目标框；

识别模块17，用于根据所述目标框识别所述目标物体的类别。

可选的，所述图像目标识别装置1还包括：

图像调整模块12，用于将所述图像调整为预置的尺寸。

可选的，所述图像目标识别装置1还包括：

注意力模块14，用于增强所述目标特征中的有效特征，抑制所述目标物体特征中的无效特征。

可选的，所述图像目标识别装置1还包括：

目标框调整模块16，用于调整所述目标特征中的目标框的尺寸和形状，使各所述目标框的尺寸和形状一致。

本技术方案应用于人工智能的图像检测领域，通过神经网络对图像进行卷积运算得到反映图像内容的目标特征，通过预生成的锚框在目标特征上生成候选框，识别覆盖目标物体的候选框并将其设为目标框，根据目标框识别目标物体的类别，以对所述目标物体进行图像分类。

实施例四：

为实现上述目的，本发明还提供一种计算机设备5，实施例三的图像目标识别装置1的组成部分可分散于不同的计算机设备中，计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过***总线相互通信连接的存储器51、处理器52，如图5所示。需要指出的是，图5仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器51可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器51也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备的操作***和各类应用软件，例如实施例三的图像目标识别装置的程序代码等。此外，存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器52在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中，处理器52用于运行存储器51中存储的程序代码或者处理数据，例如运行图像目标识别装置，以实现实施例一和实施例二的图像目标识别方法。

实施例五：

为实现上述目的，本发明还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储图像目标识别装置，被处理器52执行时实现实施例一和实施例二的图像目标识别方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图像目标识别方法，其特征在于，包括：

获取目标物体的图像；

根据所述目标框识别所述目标物体的类别。

2.根据权利要求1所述的图像目标识别方法，其特征在于，所述通过预生成的锚框在所述目标特征上生成候选框之前，所述方法还包括：

获取目标特征，对所述目标特征进行分块形成区块特征；

3.根据权利要求2所述的图像目标识别方法，其特征在于，所述通过注意力机制对所述区块特征，增强区块特征中的有效特征并抑制所述区块特征中的无效特征得到注意区块特征的步骤，包括：

将所述区块特征与所述注意力特征相乘得到注意区块特征。

4.根据权利要求3所述的图像目标识别方法，其特征在于，所述全局最大池化是基于区块特征的全局上下文关系，由全局最大池化层的输入层获取所述区块特征中的特征值，提取所述输入层中最大的特征值，并将其保留在全局最大池化层的中间层，再提取所述中间层中最大的特征值并将其保留在所述全局最大池化层的输出层的过程。

5.根据权利要求1所述的图像目标识别方法，其特征在于，通过以下步骤生成所述锚框：

6.根据权利要求1所述的图像目标识别方法，其特征在于，所述识别覆盖所述目标物体的候选框并将其设为目标框的步骤，包括：

根据所述分类矩阵和所述坐标矩阵，筛选出被判定为覆盖所述目标物体的概率最高的候选框并将其设为前景框，删除与所述前景框的重叠程度超过预置重叠阈值的候选框；

7.根据权利要求1所述的图像目标识别方法，其特征在于，所述根据所述目标框识别所述目标物体的类别之前，所述方法还包括：

将所述目标物体的类别上传至区块链中。

8.一种图像目标识别装置，其特征在于，包括：

输入模块，用于获取目标物体的图像；

识别模块，用于根据所述目标框识别所述目标物体的类别。

9.一种计算机设备，其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机设备的处理器执行所述计算机程序时实现权利要求1至7任一项所述图像目标识别方法的步骤。

10.一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，其特征在于，所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述图像目标识别方法的步骤。