CN113052159B

CN113052159B - 一种图像识别方法、装置、设备及计算机存储介质

Info

Publication number: CN113052159B
Application number: CN202110400954.1A
Authority: CN
Inventors: 林东青; 马军; 陈涛
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Shanxi Co Ltd
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2024-06-07
Anticipated expiration: 2041-04-14
Also published as: CN113052159A

Abstract

本申请实施例提供一种图像识别方法、装置、设备及计算机存储介质，涉及图像检测领域，用以提高图像识别的准确率。所述方法包括：获取待识别图像，待识别图像中有至少一个待识别对象；将待识别图像输入至预先训练的图像识别模型中的第一网络，确定待识别图像的文本特征；将待识别图像输入至图像识别模型中的第二网络，确定至少一个待识别对象的池化特征图和空间关系特征；对待识别图像的文本特征、至少一个待识别对象的池化特征图和空间关系特征进行特征融合，确定与待识别图像对应的共享特征图像；将共享特征图像输入至图像识别模型中的第三网络，确定待识别图像的识别信息，识别信息包括每一待识别对象的类别信息和位置信息。

Description

一种图像识别方法、装置、设备及计算机存储介质

技术领域

本申请属于图像检测领域，尤其涉及一种图像识别方法、装置、设备及计算机存储介质。

背景技术

在图像中识别目标对象是计算机视觉领域的重要研究方向之一，在公共安全、道路交通、视频监控等领域均有着重要的作用。现有技术中，可以利用图像中的目标对象的空间关系特征，对上述目标对象进行识别；也可以通过对神经网络中的图像特征权重进行合理匹配，以提高上述神经网络对目标对象的识别精度。

但现有技术中，由于图像所包含场景的复杂多样性和图像中待检测目标位置的不确定性，无法适应更多场景，进而导致无法提高图像识别的准确率。

发明内容

本申请实施例提供一种图像识别方法、装置、设备及计算机存储介质，用以提高图像识别的准确率。

第一方面，本申请实施例提供一种图像识别方法，方法包括：

获取待识别图像，待识别图像中有至少一个待识别对象；

将待识别图像输入至预先训练的图像识别模型中的第一网络，确定待识别图像的文本特征；

将待识别图像输入至图像识别模型中的第二网络，确定至少一个待识别对象的池化特征图和空间关系特征；

对待识别图像的文本特征、至少一个待识别对象的池化特征图和空间关系特征进行特征融合，确定与待识别图像对应的共享特征图像；

将共享特征图像输入至图像识别模型中的第三网络，确定待识别图像的识别信息，识别信息包括每一待识别对象的类别信息和位置信息。

第二方面，本申请实施例提供一种图像识别装置，装置包括：

第一获取模块，用于获取待识别图像，待识别图像中有至少一个待识别对象；

第一确定模块，用于将待识别图像输入至预先训练的图像识别模型中的第一网络，确定待识别图像的文本特征；

第二确定模块，用于将待识别图像输入至图像识别模型中的第二网络，确定至少一个待识别对象的池化特征图和空间关系特征；

融合模块，用于对待识别图像的文本特征、至少一个待识别对象的池化特征图和空间关系特征进行特征融合，确定与待识别图像对应的共享特征图像；

识别模块，用于将共享特征图像输入至图像识别模型中的第三网络，确定待识别图像的识别信息，识别信息包括每一待识别对象的类别信息和位置信息。

第三方面，本申请实施例提供了一种图像识别设备，设备包括：

处理器，以及存储有计算机程序指令的存储器；处理器读取并执行计算机程序指令，以实现如本申请实施例第一方面所提供的图像识别方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如本申请实施例第一方面所提供的图像识别方法。

本申请实施例提供的图像识别方法，提取待检测图像的文本特征、以及上述待检测图像中至少一个第一目标对象的池化特征图和空间关系特征，并将上述三个特征进行特征融合，将融合后的共享特征图，输入至图像识别模型中的第三网络，确定待识别图像的识别信息，识别信息包括每一待识别对象的类别信息和位置信息。相比于现有技术，通过特征融合实现图像信息的互补，在避免冗余噪声的同时，弥补了图像特征信息在细节和场景上的不足，同时文本特征的提取，能够反应图像在不同场景下的差异与共性，进而能够适用于更多复杂场景，并提高图像识别的准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像识别模型的训练方法的流程示意图；

图2是本申请实施例提供的一种多模态特征融合模块的结构示意图；

图3是本申请实施例提供的一种图像识别方法的流程示意图；

图4是本申请实施例提供的一种图像识别装置的流程示意图；

图5是本申请实施例提供的一种图像识别设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图像识别算法是计算机视觉领域的重要研究方向之一，在公共安全、道路交通、视频监控等领域均有着重要的作用。近年来，基于深度学习的图像识别算法的发展，图像识别在准确率方面不断提高。

现有技术中，通过以下两种方式来进行图像识别：

一、基于视觉显著性的多视角图像目标检测方法

针对前景目标未被遮挡的场景，计算多个视角图像的显著性图，利用视角之间的空间关系，将两侧视角的显著性图投影到中间目标视角，并将投影显著性图和中间视角的显著性图相融合得到融合显著性图。被前景物体遮挡的区域在投影时不能真实映射到目标视角，投影显著性图中前景目标周围会产生投影空洞，在融合显著性图中将该投影空洞区域视为背景区域。利用多视角投影空洞划分图像区域，投影空洞和图像边缘之间的区域以及不同前景物体的投影空洞之间的区域均视为背景区域。在融合显著性图中，将以上得到的背景区域的显著性值置为零，并二值化后便可得到边缘清晰、无背景干扰的目标物体。

二、复杂背景下的小目标检测算法

借鉴特征金字塔算法的思想，将Conv4-3层的特征与Conv7、Conv3-3层的特征进行融合，同时增加融合后特征图每个位置对应的默认框数量。在网络结构中增加裁剪-权重分配网络(SENet)，对每层的特征通道进行权重分配，提升有用的特征权重并抑制无效的特征权重。同时为了增强网络的泛化能力，对训练数据集进行一系列增强处理。

上述两种算法都是图像中对目标对象进行检测识别的常用技术，然而由于图像所包含场景的复杂多样性和图像中待检测目标位置的不确定性，常规的目标检测方法在不同的应用场景中具有较差的鲁棒性。上述基于视觉显著性的多视角图像目标检测方法，只考虑了图像中待检测目标的空间关系特征，但未充分利用图像中的多种特征信息进行信息补充以提升最终图像识别的准确率。复杂背景下的小目标检测算法，未考虑复杂背景中的上下文信息和待检测目标的空间关系，应用范围较窄，主要是针对图像中的小目标的检测识别准确率进行改进，忽略了算法在更多复杂场景中的应用。

基于此，本申请实施例提供一种图像识别方法，通过特征融合实现图像信息的互补，在避免冗余噪声的同时，弥补了图像特征信息在细节和场景上的不足，同时文本特征的提取，能够反应图像在不同场景下的差异与共性，进而能够适用于更多复杂场景，并提高图像识别的准确率。

需要说明的是，本申请实施例提供的图像识别方法中，需要利用预先训练好的图像识别模型对图像进行识别，因此，在利用图像识别模型进行图像识别之前，需要先训练好图像识别模型。因此，下面首先结合附图描述本申请实施例提供的图像识别模型的训练方法的具体实施方式。

如图1所示，本申请实施例提供一种图像识别模型的训练方法，首先获取样本图像，对在样本图像中所提取的池化特征图、文本特征和空间关系特征等信息进行融合，以形成信息更丰富的共享特征图，对预设的图像识别模型通过分类和回归检测算法进行迭代训练，直到满足训练停止条件。上述方法，可以通过以下步骤来实现：

一、获取多张待标注图像。

在一些实施例中，可以通过车载摄像头获取多张待标注图像或者对获取到的视频进行抽帧处理得到多张待标注图像。

二、对上述多张待标注图像进行人工标注，需要标注的内容为目标对象的标签识别信息，标签识别信息包括目标识别对象的分类信息和位置信息，其中位置信息为包围目标对象边界框的坐标值。

在一些实施例中，车载摄像头拍摄的图像主要以道路交通为主要场景，因此对待标注图像的标注对象可以包括行人、骑手、自行车、摩托车、汽车、卡车、公交车、火车、交通标志和交通灯等目标对象，标注结果为目标对象的类别和包围该目标对象边界框的坐标值；同时，对每张待标注图像从时间、地点、天气三个角度做文本注释。

具体地，对于每张待标注图像，从时间角度注释，可选值包括白天、黄昏/黎明、夜晚；从地点角度注释，可选值包括高速公路、城市街道、住宅、停车场、加油站、隧道；从天气角度注释，可选值包括雪、多云、晴、阴、雨、雾。

三、将上述经过人工标注的图像及其每一图像对应的标注信息整合成训练样本集，训练样本集中包括多个样本图像组。

需要说明的是，由于图像识别模型需要进行多次迭代训练，以调整其损失函数值，至损失函数值满足训练停止条件，得到训练后的图像识别模型，而每次迭代训练中，若只输入一张样本图像，样本量太少不利于图像识别模型的训练调整，因此将训练样本集分为多个样本图像组，每一样本图像组中包含多张样本图像，进行利用训练样本集中的多个样本图像组对图像识别模型进行迭代训练。

四、利用训练样本集中的样本图像组训练图像识别模型，直至满足训练停止条件，得到训练后的图像识别模型。具体可以有以下步骤：

4.1、利用预设图像识别模型中的第二网络提取样本图像中可识别对象的样本池化特征图和样本空间关系特征。

在一些实施例中，预设图像识别模型中的第二网络可以为快速区域卷积神经网络FasterRCNN网络，本申请对此不做限定。

具体地，获取样本图像中可识别对象的样本池化特征图和样本空间关系特征，可以通过以下步骤实现：

4.1.1、将训练集中的样本图像统一调整到1000×600像素的固定大小，得到调整大小后的样本图像。

4.1.2、将调整大小后的样本图像组输入深度残差网络ResNet、区域生成网络RPN以及快速区域卷积神经网络提取图像特征，得到池化特征图。

1)首先将调整大小后的样本图像输入7×7×64的卷积层conv1，然后依次经过卷积层conv2_x、conv3_x、conv4_x、conv5_x和一个全连接层fc提取样本图像的原始特征图；

2)将ResNet网络结构中conv4_x输出的原始特征图，输入到区域提取网络RPN中，从中挑选出预测结果中得分最高的前300个锚框(anchor)和与之对应的候选框；

3)比照conv4_x输出的原特征图，将300候选框的位置映射图输入到快速区域卷积神经网络中的感兴趣区域池化层ROIPooling，得到可识别对象的固定大小的池化特征图。

4.1.3、利用300个anchor和与之对应的候选框的坐标，计算候选框之间的交并比(Intersection over union，IOU)，并通过下述公式1计算可识别对象间的空间关系特征，

F_r＝f(w,h,area,d_x,d_y,IOU) 公式1

其中，_w和h代表候选框的宽和高，_area表示候选框面积，d_x和d_y是两候选框几何中心的横向、纵向距离，IOU是指候选框之间的交并比，f(·)表示激活函数，F_r表示预测到的可识别对象之间的空间关系特征。

4.2、将样本图像输入至预设图像识别模型中的第一网络，根据样本图像的上下文信息，确定至少一个文本向量，拼接上述至少一个文本向量，确定样本图像对应的样本文本特征F_t。

需要说明的是，图像识别模型中的第一网络可以是Word2vec、Glove或BERT等预训练模型；根据样本图像的上下文信息所确定的文本向量，可以是将描述样本图像的时间、地点和天气的文本注释信息转换的词向量，本申请对此均不做限定。

4.3、如图2所示，构建多模态特征融合模块，将根据样本图像上下文信息所提取出的样本文本特征、以及基于图像识别模型的第二网络确定的样本空间关系特征和样本池化特征图互补融合得到样本共享特征图像。其融合计算方法，可以通过公式2和公式3实现：

F_v＝ReLu(F_roi,F_r) 公式2

F_out＝F_v*F_t 公式3

其中，F_roi表示经过池化层ROIPooling后输出的固定尺寸特征图，F_v表示原始特征图，F_out表示样本文本特征、样本空间关系特征和样本池化特征图融合以后得到的样本共享特征图像。

4.4、将样本共享特征图像输入至预设图像识别模型中的第三网络，确定每一可识别对象的参考识别信息，参考识别信息包括可识别对象的分类信息和参考位置信息。

4.5、对每一可识别对象的参考位置信息进行非极大值抑制处理，过滤不符合预设要求的参考位置信息，确定每一样本图像的预测识别信息，预测识别信息包括所有可识别对象的分类信息和预测位置信息。

在一些实施例中，对每一类可识别对象的参考位置信息，分别进行非极大值抑制处理(Non Maximum Suppression，NMS)，NMS获取按照分数排列的预测列表并对已排序的预测列表进行迭代，丢弃那些IOU值大于预定义阈值的预测结果，此处设置阈值为0.7，过滤掉重叠度较大的候选框，将抑制后的位置信息，确定为预测位置信息。

4.6、计算预测识别信息和标注识别信息之间的损失值，按照公式4所示的目标损失函数优化图像识别模型，利用梯度下降算法反向更新网络参数，得到更新后的图像识别模型，直到损失函数值小于预设值，停止优化训练，确定训练后的图像识别模型。

其中，i表示anchor的索引，p_i表示第i个anchor预测为目标的概率，表示第i个anchor是否为样本的真实样本标签的概率，λ是表示权重的参数，/>表示两个类别(目标和非目标)的对数损失，/>表示分类损失，t＝{t_x,t_y,t_w,t_h}表示anchor在RPN训练阶段(rois在FastRCNN阶段)预测的偏移量，/>表示anchor在RPN训练阶段(rois在Fast RCNN阶段)相对于真实标签的实际偏移量，/>表示回归损失。

需要说明，为了提高图像识别模型的准确度，该图像识别模型还可以在实际应用中不断地利用新的训练样本进行训练，以不断更新图像识别模型，提高图像识别模型的准确度，进而提高图像识别的准确率。

以上为本申请实施例提供的图像识别模型训练方法的具体实施方式，经上述训练得到的图像识别模型可应用于如下实施例提供的图像识别方法中。

下面结合附图3详细描述本申请提供的图像识别方法的具体实现方式。

如图3所示，本申请实施例提供一种图像识别方法，所述方法包括：

S301，获取待识别图像，待识别图像中有至少一个待识别对象。

在一些实施例中，待识别对象可以通过车载摄像头来获取，或者对预先获取到的视频进行抽帧处理，确定待识别图像。

以道路交通场景为例，上述待识别图像中的待识别对象可以是行人、骑手、自行车、摩托车、汽车、卡车、公交车、火车、交通标志和交通灯等。

S302，将待识别图像输入至预先训练的图像识别模型中的第一网络，确定待识别图像的文本特征。

在一些实施例中，将上述待识别图像输入至预先训练的图像识别模型中的第一网络，根据待识别图像的上下文信息，确定至少一个文本向量；拼接上述至少一个文本向量，确定待识别图像的文本特征。

需要说明的是，上述文本向量是基于第一网络，根据待识别图像的上下文信息，将描述样本图像的时间、地点和天气的文本注释信息转换确定的词向量，因此，通过拼接多个文本向量确定的文本特征，可以表征待识别图像的环境信息，进而反映待识别图像在不同场景下的差异与共性，以增强待识别对象的辨识度。

S303，将待识别图像输入至图像识别模型中的第二网络，确定至少一个待识别对象的池化特征图和空间关系特征。

需要说明的是，在对待识别对象进行识别时，由于待识别图像中存在大量冗余信息，因此需要对图像进行卷积处理，在通过卷积处理确定图像特征后，可以用所提取到的图像特征去训练图像识别模型，但是这样计算成本比较高，因此需要对图像进行池化处理，以对图像特征降维，减小计算量和参数个数，同时防止过拟合，提高模型的容错性。

另一方面，空间关系是指从图像中分割出来的多个目标对象之间的相对空间位置和相对方向关系，这些关系也可以分为连接关系、交叠/重叠关系和包含/包容关系。因此，空间关系特征的提取，可以增强对图像内容的区分能力。

在一些实施例中，确定待识别对象中至少一个待识别对象的池化特征图和空间关系特征，可以通过以下步骤：

1、调整样本图像组中每一样本图像的分辨率为预设分辨率，确定调整后的样本图像组。

此步骤中，可以将训练集中的样本图像统一调整到1000×600像素的固定大小。

2、将调整后的样本图像组输入至深度残差网络，确定原始图像集，原始图像集中的图像与调整后的样本图像组中的图像一一对应。

具体地，可以将调整大小后的样本图像输入7×7×64的卷积层conv1，然后依次经过卷积层conv2_x、conv3_x、conv4_x、conv5_x和一个全连接层fc提取样本图像的原始特征图。

3、将原始图像集输入至区域提取网络，确定N个锚框及与每一锚框对应的位置坐标，其中，锚框为区域提取网络预测的包围可识别对象的边界框，N为大于1的整数；基于所述N个锚框的置信度，在N个锚框中，提取所述置信度大于预设置信度阈值的M个锚框，其中，M为小于N的正整数。

作为一个示例，可以将ResNet网络结构中conv4_x输出的原始特征图，输入到区域提取网络RPN中，确定多个锚框和与之对应的候选框，基于每一锚框的置信度，从中挑选出置信度较高的300个锚框和与之对应的候选框。

4、将M个锚框的映射区域图像输入至区域卷积神经网络的感兴趣区域池化层，调整M个锚框的映射区域图像的分辨率，确定分辨率相同的M个样本池化特征图，其中，每一可识别对象对应至少一个锚框。

此步骤中，可以按照conv4_x输出的原特征图，将300候选框的位置映射图输入到快速区域卷积神经网络中的感兴趣区域池化层，得到可识别对象的固定大小的池化特征图。

S304，对待识别图像的文本特征、至少一个待识别对象的池化特征图和空间关系特征进行特征融合，确定与待识别图像对应的共享特征图像。

上述S202及S203中，分别对待识别图像的文本特征、至少一个待识别对象的池化特征图和空间关系特征进行了提取，虽然空间关系特征对图像或者图像中目标对象的旋转、反转、尺寸变化的识别更加敏感、且池化特征图可以减少图像识别中计算量，但在实际应用中，仅仅利用空间关系特征和/或池化特征是不够的，不能有效准确的表达场景信息，因此，需要对待识别图像的文本特征、至少一个待识别对象的池化特征图和空间关系特征进行特征融合，充分利用图像中的多种特征信息进行信息补充，以反映图像在不同场景下的差异与共性，在避免冗余噪声的同时，弥补了图像特征信息在细节和场景上的不足。

S305，将共享特征图像输入至图像识别模型中的第三网络，确定待识别图像的识别信息，识别信息包括每一待识别对象的类别信息和位置信息。

本申请实施例提供的图像识别方法，通过图像识别模型确定待识别图像的文本特征、至少一个待识别对象的池化特征图和空间关系特征。将多种特征信息互补融合，增强了图像中待识别对象的辨识度，从而优化最终的图像识别性能，适用于更多复杂场景，并提高图像识别的准确率。

为了验证上述实施例中提供的图像识别方法相比于现有技术中的图像识别方法，能够提高图像识别的准确度，本申请实施例还提供一种图像识别的测试方法，对本申请图像识别方法中所应用的图像识别模型进行测试。具体地，可以包括以下步骤：

一、将样本图像输入训练好的图像识别模型进行测试。

具体地，按照公式5和公式6计算所有类别目标对象的平均检测精度，输出各预测框的分类和预测精度：

其中，N表示待检测目标类别数，AP表示平均精度，mAP表示所有类别的平均精度均值。

二、根据上述AP和mAP计算公式得出检测结果，比较现有技术中利用Faster RCNN网络算法和利用本申请实施例提供的图像识别模型的图像识别算法的优劣，得出结论：

将本申请实施例提供的图像识别方法用于经典的图像识别网络中，对图像识别效果有显著改进，即使在图像的背景差异较大的情况下，图像中目标对象的识别精度仍维持在较稳定的水平且相较于原有的算法有更佳的识别效果。

具体的，以一个施例具体对本申请实施例提供的图像识别模型的测试方法，通过以下仿真实验做进一步说明。

本申请提供的仿真实验中所采用的现有技术为更快速的区域卷积神经网络Faster RCNN；图像识别模型选用ResNet101结构提取图像特征，设置初始学习率为0.005，学习率衰减系数为0.1，epoch设为15，默认优化器选择SGD。

1、仿真条件：本申请仿真的硬件环境是：Intel Core i7-7700@

3.60GHz,8G内存；软件环境：ubuntu 16.04，python3.7，pycharm2019。

2、仿真内容与结果分析：

首先将样本图像集作为输入，在传统的Faster RCNN算法基础上引入基于上下文信息进行文本特征提取、空间关系特征提取和池化特征图获取，然后将上述三种特征融合检测方法的基本思路，借助此方法训练图像识别模型，将测试样本集输入至训练好的改进模型，以AP指标评估各类别的平均精度和所有类别的平均精度。

本申请基于BDD100k公开驾驶数据集进行实验，仿真实验结果如表1所示，表中显示了经典的FasterRCNN算法和基于上下文信息的多模态特征融合检测方法在相同数据集上测试的对比结果。

表1图像识别方法的性能对比

从表1的实验结果可以看出，与经典的Faster RCNN算法在测试数据集上的检测精度相比，本申请实施例提供的图像识别方法在不同场景的任务中在其中五个类别目标的平均检测精度上提升近4.3％。多次实验证明：多模态特征融合技术利用信息间的互补性增强了输入特征的表示性，能够有效改善目标检测算法的性能，在不同图像识别场景中的大部分类别中的平均精度明显提升。由于在现实生活场景中，图像/视频数据获取难度高且经常出现缺失，此时并不适用传统的基于图像和视频的目标检测方法，而本申请实施例提供的图像识别方法能够增强信息间的互补性，对不同场景中的检测任务有着重要意义。

基于上述图像识别方法的相同发明构思，本申请实施例还提供一种图像识别装置。

如图4所示，本申请实施例提供一种图像识别装置，可以包括：

第一获取模块401，用于获取待识别图像，待识别图像中有至少一个待识别对象；

第一确定模块402，用于将待识别图像输入至预先训练的图像识别模型中的第一网络，确定待识别图像的文本特征；

第二确定模块403，用于将待识别图像输入至图像识别模型中的第二网络，确定至少一个待识别对象的池化特征图和空间关系特征；

融合模块404，用于对待识别图像的文本特征、至少一个待识别对象的池化特征图和空间关系特征进行特征融合，确定与待识别图像对应的共享特征图像；

识别模块405，用于将共享特征图像输入至图像识别模型中的第三网络，确定待识别图像的识别信息，识别信息包括每一待识别对象的类别信息和位置信息。

在一些实施例中，装置还可以包括：

第二获取模块，用于获取训练样本集，训练样本集中包括多个样本图像组，每一样本图像组包括样本图像及其对应的标签图像，标签图像中标注有目标识别对象的标签识别信息以及样本图像的场景信息，标签识别信息包括目标识别对象的类别信息和位置信息；

训练模块，用于利用训练样本集中的样本图像组训练预设的图像识别模型，直至满足训练停止条件，得到训练后的图像识别模型。

在一些实施例中，训练模块具体可以用于：

对每个样本图像组，分别执行以下步骤：

将样本图像组输入至预设图像识别模型中的第一网络，确定与每一样本图像对应的样本文本特征；

将样本图像组输入至预设图像识别模型中的第二网络，确定每一可识别对象的样本池化特征图和样本空间关系特征；

根据与每一样本图像对应的样本文本特征、每一可识别对象的样本池化特征图和样本空间关系特征，对每一样本图像进行特征融合，确定与每一样本图像对应的样本共享特征图像；

将样本共享特征图像输入至预设图像识别模型中的第三网络，确定每一可识别对象的参考识别信息，参考识别信息包括可识别对象的分类信息和参考位置信息；

对每一可识别对象的参考位置信息进行非极大值抑制处理，过滤不符合预设要求的参考位置信息，确定每一样本图像的预测识别信息，预测识别信息包括所有可识别对象的分类信息和预测位置信息；

根据目标样本图像的预测识别信息和目标样本图像上所有目标识别对象的标签识别信息，确定预设图像识别模型的损失函数值，目标样本图像是样本图像组中的任一个；

在损失函数值不满足训练停止条件的情况下，调整图像识别模型的模型参数，并利用样本图像组训练参数调整后的图像识别模型，直至损失函数值满足训练停止条件，得到训练后的图像识别模型。

在一些实施例中，训练模块具体可以用于：

对每一样本图像，分别执行以下步骤：

将样本图像输入至预设图像识别模型中的第一网络，根据样本图像的上下文信息，确定至少一个文本向量；

拼接至少一个文本向量，确定与样本图像对应的样本文本特征。

在一些实施例中，预设图像识别模型中的第二网络至少包括深度残差网络、区域提取网络和区域卷积神经网络，

训练模块具体可以用于：

调整样本图像组中每一样本图像的分辨率为预设分辨率，确定调整后的样本图像组；

将调整后的样本图像组输入至深度残差网络，确定原始图像集，原始图像集中的图像与调整后的样本图像组中的图像一一对应；

将原始图像集输入至区域提取网络，确定N个锚框及与每一锚框对应的位置坐标，其中，锚框为区域提取网络预测的包围可识别对象的边界框，N为大于1的整数；

基于N个锚框的置信度，在N个锚框中，提取置信度大于预设置信度阈值的M个锚框，其中，M为小于N的正整数；

将M个锚框的映射区域图像输入至区域卷积神经网络的感兴趣区域池化层，调整M个锚框的映射区域图像的分辨率，确定分辨率相同的M个样本池化特征图，其中，每一可识别对象对应至少一个锚框；

根据每一可识别对象对应的至少一个锚框之间的交并比和相对位置，确定每一可识别对象的样本空间关系特征。

在一些实施例中，训练模块具体可以用于：

基于每一可识别对象的分类信息，将所有可识别对象分为多组，确定多组不同类别的可识别对象的参考位置信息；

对每一类可识别对象的参考位置信息，进行过滤处理；

根据过滤之后的可识别对象的参考位置信息和过滤之后的可识别对象的分类信息，确定每一样本图像的预测识别信息。

在一些实施例中，训练模块具体可以用于：

依次计算目标框与其他参考框之间的交并比，目标框为多个参考框中的任一个，参考框是参考位置信息中所确定的包围可识别对象的边界框；

将交并比大于预设交并比阈值的参考框过滤，直到任意两个参考框之间的交并比均小于预设交并比阈值；

将过滤之后的参考框确定为可识别对象的预测位置信息。

根据本申请实施例提供的图像识别装置的其他细节与以上结合图1描述的根据本申请实施例的图像识别方法类似，在此不再赘述。

图5示出了本申请实施例提供的图像识别的硬件结构示意图。

结合图1、图4描述的根据本申请实施例提供的图像识别方法和装置可以由图像识别设备来实现。图5是示出根据发明实施例的图像识别设备的硬件结构500示意图。

在图像识别设备中可以包括处理器501以及存储有计算机程序指令的存储器502。

具体地，上述处理器501可以包括中央处理器(Central Processing Unit，CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个实例中，存储器502可以包括可移除或不可移除(或固定)的介质，或者存储器502是非易失性固态存储器。存储器502可在综合网关容灾设备的内部或外部。

在一个实例中，存储器502可以是只读存储器(Read Only Memory，ROM)。在一个实例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器501通过读取并执行存储器502中存储的计算机程序指令，以实现图3所示实施例中的方法/步骤S301至S305，并达到图3所示实例执行其方法/步骤达到的相应技术效果，为简洁描述在此不再赘述。

在一个示例中，图像识别设备还可包括通信接口503和总线510。其中，如图5所示，处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。

通信接口503，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线510包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，EISA)总线、前端总线(Front Side Bus，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(Industry Standard Architecture，ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线510可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

本申请实施例提供的图像识别设备，通过特征融合实现图像信息的互补，在避免冗余噪声的同时，弥补了图像特征信息在细节和场景上的不足，充分利用图像中的多种特征信息进行信息补充，同时文本特征的提取，能够反应图像在不同场景下的差异与共性，进而能够适用于更多复杂场景，并提高图像识别的准确率。

另外，结合上述实施例中的图像识别方法，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种图像识别方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或***。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本公开的实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取待识别图像，所述待识别图像中有至少一个待识别对象；

将所述待识别图像输入至预先训练的图像识别模型中的第一网络，确定所述待识别图像的文本特征；

将所述待识别图像输入至所述图像识别模型中的第二网络，确定所述至少一个待识别对象的池化特征图和空间关系特征；

对所述待识别图像的文本特征、所述至少一个待识别对象的池化特征图和空间关系特征进行特征融合，确定与所述待识别图像对应的共享特征图像；

将所述共享特征图像输入至所述图像识别模型中的第三网络，确定所述待识别图像的识别信息，所述识别信息包括每一所述待识别对象的类别信息和位置信息；

将所述待识别图像输入至所述图像识别模型中的第二网络，确定所述至少一个待识别对象的池化特征图和空间关系特征，包括：

将所述调整后的样本图像组输入至所述深度残差网络，确定原始图像集，所述原始图像集中的图像与所述调整后的样本图像组中的图像一一对应；

将所述原始图像集输入至所述区域提取网络，确定N个锚框及与每一所述锚框对应的位置坐标，其中，所述锚框为所述区域提取网络预测的包围可识别对象的边界框，所述N为大于1的整数；

基于所述N个锚框的置信度，在所述N个锚框中，提取所述置信度大于预设置信度阈值的M个锚框，其中，M为小于N的正整数；

将所述M个锚框的映射区域图像输入至所述区域卷积神经网络的感兴趣区域池化层，调整所述M个锚框的映射区域图像的分辨率，确定分辨率相同的M个样本池化特征图，其中，每一可识别对象对应至少一个所述锚框。

2.根据权利要求1所述的方法，其特征在于，在所述获取待识别图像之前，所述方法还包括：

获取训练样本集，所述训练样本集中包括多个样本图像组，每一样本图像组包括样本图像及其对应的标签图像，所述标签图像中标注有目标识别对象的标签识别信息以及所述样本图像的场景信息，所述标签识别信息包括所述目标识别对象的类别信息和位置信息；

利用所述训练样本集中的样本图像组训练预设的图像识别模型，直至满足训练停止条件，得到训练后的图像识别模型。

3.根据权利要求2所述的方法，其特征在于，所述利用所述训练样本集中的样本图像组训练所述图像识别模型，直至满足训练停止条件，得到训练后的图像识别模型，具体包括：

对每个所述样本图像组，分别执行以下步骤：

将所述样本图像组输入至预设图像识别模型中的第一网络，确定与每一所述样本图像对应的样本文本特征；

将所述样本图像组输入至预设图像识别模型中的第二网络，确定每一可识别对象的样本池化特征图和样本空间关系特征；

根据所述与每一所述样本图像对应的样本文本特征、所述每一可识别对象的样本池化特征图和样本空间关系特征，对每一所述样本图像进行特征融合，确定与每一所述样本图像对应的样本共享特征图像；

将所述样本共享特征图像输入至预设图像识别模型中的第三网络，确定所述每一可识别对象的参考识别信息，所述参考识别信息包括所述可识别对象的分类信息和参考位置信息；

对所述每一可识别对象的参考位置信息进行非极大值抑制处理，过滤不符合预设要求的参考位置信息，确定每一所述样本图像的预测识别信息，所述预测识别信息包括所有可识别对象的分类信息和预测位置信息；

根据目标样本图像的预测识别信息和所述目标样本图像上所有目标识别对象的所述标签识别信息，确定所述预设图像识别模型的损失函数值，所述目标样本图像是所述样本图像组中的任一个；

在所述损失函数值不满足训练停止条件的情况下，调整所述图像识别模型的模型参数，并利用所述样本图像组训练参数调整后的图像识别模型，直至所述损失函数值满足所述训练停止条件，得到训练后的图像识别模型。

4.根据权利要求3所述的方法，其特征在于，所述将所述样本图像组输入至预设图像识别模型中的第一网络，确定与每一所述样本图像对应的样本文本特征，包括：

对每一所述样本图像，分别执行以下步骤：

将所述样本图像输入至所述预设图像识别模型中的第一网络，根据所述样本图像的上下文信息，确定至少一个文本向量；

拼接所述至少一个文本向量，确定与所述样本图像对应的样本文本特征。

5.根据权利要求3所述的方法，其特征在于，所述预设图像识别模型中的第二网络至少包括深度残差网络、区域提取网络和区域卷积神经网络，

将所述样本图像组输入至预设图像识别模型中的第二网络，确定每一可识别对象的样本池化特征图和样本空间关系特征，包括：

调整所述样本图像组中每一样本图像的分辨率为预设分辨率，确定调整后的样本图像组；

将所述原始图像集输入至所述区域提取网络，确定N个锚框及与每一所述锚框对应的位置坐标，其中，所述锚框为所述区域提取网络预测的包围所述可识别对象的边界框，所述N为大于1的整数；

基于所述N个锚框的置信度，在所述N个锚框中，提取所述置信度大于预设置信度阈值的M个锚框，其中，所述M为小于N的正整数；

将所述M个锚框的映射区域图像输入至所述区域卷积神经网络的感兴趣区域池化层，调整所述M个锚框的映射区域图像的分辨率，确定分辨率相同的M个样本池化特征图，其中，每一可识别对象对应至少一个锚框；

根据所述每一可识别对象对应的至少一个锚框之间的交并比和相对位置，确定所述每一可识别对象的样本空间关系特征。

6.根据权利要求3所述的方法，其特征在于，所述对所述每一可识别对象的参考位置信息进行非极大值抑制处理，过滤不符合预设要求的参考位置信息，确定每一所述样本图像的预测识别信息，包括：

基于所述每一可识别对象的分类信息，将所有可识别对象分为多组，确定多组不同类别的可识别对象的参考位置信息；

对每一类可识别对象的参考位置信息，进行过滤处理；

根据过滤之后的可识别对象的参考位置信息和所述过滤之后的可识别对象的分类信息，确定每一所述样本图像的预测识别信息。

7.根据权利要求6所述的方法，其特征在于，所述对每一类可识别对象的参考位置信息，进行过滤处理，包括：

依次计算目标框与其他参考框之间的交并比，所述目标框为多个参考框中的任一个，所述参考框是所述参考位置信息中所确定的包围所述可识别对象的边界框；

将所述交并比大于预设交并比阈值的参考框过滤，直到任意两个参考框之间的交并比均小于所述预设交并比阈值；

将过滤之后的参考框确定为可识别对象的预测位置信息。

8.一种图像识别装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别图像，所述待识别图像中有至少一个待识别对象；

第一确定模块，用于将所述待识别图像输入至预先训练的图像识别模型中的第一网络，确定所述待识别图像的文本特征；

第二确定模块，用于将所述待识别图像输入至所述图像识别模型中的第二网络，确定所述至少一个待识别对象的池化特征图和空间关系特征；

融合模块，用于对所述待识别图像的文本特征、所述至少一个待识别对象的池化特征图和空间关系特征进行特征融合，确定与所述待识别图像对应的共享特征图像；

识别模块，用于将所述共享特征图像输入至所述图像识别模型中的第三网络，确定所述待识别图像的识别信息，所述识别信息包括每一所述待识别对象的类别信息和位置信息；

第二确定模块包括：

第一调整单元，用于调整样本图像组中每一样本图像的分辨率为预设分辨率，确定调整后的样本图像组；

第一确定单元，用于将所述调整后的样本图像组输入至所述深度残差网络，确定原始图像集，所述原始图像集中的图像与所述调整后的样本图像组中的图像一一对应；

第二确定单元，用于将所述原始图像集输入至所述区域提取网络，确定N个锚框及与每一所述锚框对应的位置坐标，其中，所述锚框为所述区域提取网络预测的包围可识别对象的边界框，所述N为大于1的整数；

提取单元，用于基于所述N个锚框的置信度，在所述N个锚框中，提取所述置信度大于预设置信度阈值的M个锚框，其中，M为小于N的正整数；

第二调整单元，用于将所述M个锚框的映射区域图像输入至所述区域卷积神经网络的感兴趣区域池化层，调整所述M个锚框的映射区域图像的分辨率，确定分辨率相同的M个样本池化特征图，其中，每一可识别对象对应至少一个所述锚框。

9.一种图像识别设备，其特征在于，所述设备包括：处理器，以及存储有计算机程序指令的存储器；所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-7任意一项所述的图像识别方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的图像识别方法。