CN114004963B

CN114004963B - 目标类别识别方法、装置及可读存储介质

Info

Publication number: CN114004963B
Application number: CN202111652406.4A
Authority: CN
Inventors: 艾国; 杨作兴; 房汝明; 向志宏
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-03-29
Anticipated expiration: 2041-12-31
Also published as: CN114004963A

Abstract

本发明实施例提出目标类别识别方法、装置及可读存储介质。方法包括：对待识别图像进行特征提取，得到第一特征向量；在第一特征向量中查找到各前景和背景区域对应的各第一子特征向量；对各第一子特征向量进行第一插值处理，得到各第二子特征向量；根据各第二子特征向量进行目标检测，得到各目标区域；在第一特征向量中找到各目标区域对应的各第一子特征向量，将各第一子特征向量拼接成第三特征向量；对第一特征向量进行自适应全局平均池化处理，得到第四特征向量；将第四特征向量与第三特征向量进行叠加，得到第五特征向量；根据第五特征向量进行目标类别识别，得到图像中包含的目标类别。本发明实施例更加细化了目标类别识别的粒度。

Description

目标类别识别方法、装置及可读存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及目标类别识别方法、装置及可读存储介质和计算机程序产品。

背景技术

在很多场景中，由于种种目的，需要对目标进行分类。而对于形态和纹理相近的不同目标类别，一般的图像分类方法难以区分。例如：在地下管道建设场景中，近些年来，我国的城市化进程发展迅猛，随着数以亿计的人口涌入城市，地下管道承担的压力进一步加剧，地下管道建设作为城市建设过程中一项非常重要的基础任务，影响着城市正常运行的稳定性，及时检修管网***，是保证城市基础设施建设稳定性的重要保障。

目前，针对地下管道缺陷检测采用最多的是先通过机器人下井拍摄视频数据，再将获取的海量信息通过人力筛选确定发生缺陷的管道段，生成缺陷类型报告后，再由工人根据报告缺陷类型进行检修。但是人力判断管道缺陷类型有两个方面的缺点，第一：能够筛选管道缺陷类型的人必须具备一定专业知识，这会限制可投入使用的人力数量；第二：人力在工作过程中会产生周期性疲倦，从而导致降低工作效率。上述两个缺陷的叠加导致城市管道检修工作很难及时进行。

目前存在使用神经网络对简单的排水管道破损类别（沉积、裂缝和树根等）分类，由于他们未能有选择地捕获对缺陷类别区分有用地信息，因此难以推广至更多的管道缺陷类别识别之中。

为了能够识别出更多的管道缺陷类别，现有的另一方案在深度卷积神经网络：VGG（Visual Geometry Group，计算机视觉组）16的基础上，在每一个卷积模块中***CBAM（Convolutional Block Attention Module，卷积块注意力机制）分别计算通道和空间级别的注意力矩阵再用其和原始特征相乘，以此达到使网络管道具有判别力特征的目的，从而将之前管道缺陷分类只能识别三类缺陷推广到了识别变形、腐蚀、结垢、错口、沉积、渗漏以及破裂等七类的程度。这种方法虽然相对于之前的方法相对更具普适性，但是仍然存在几点缺陷：

1）根据我国住房城乡***关于发布的行业标准《城镇排水管道检测与评估技术规程》中介绍，地下排水管道缺陷类型共有17种（暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏以及破裂）。该方法只能识别其中七种最为常见的缺陷类型使得其无法被广泛推广，另一方面也无法达到降低人力投入的目的。因为即便该方法能在这七种缺陷中达到极高识别准确率，但是无法保证剩余10种缺陷是否被认定为正常，而这其他的十类缺陷在排水管道维修中也不可忽视。因此，必须安排人力对模型检测后的数据去做二次筛查。

2）虽然通道和空间级别的注意力机制，能够达到促使神经网络提取样本表达的重要特征，以达到区分类间混淆度大的缺陷类别的目的。但是神经网络的强大拟合能力来自于其成千上万个神经元，在每一个卷积层中***通道和空间级别注意力机制的计算将会大大加剧模型的计算成本。

3）CBAM本质上是一种自注意力机制，即在当前先验基础上自主选择抑制或增强某些特征信息。但是图像分类的标注信息在特征选择时候能提供的先验信息有限，当需要识别更多而复杂的管道缺陷类别时，CBAM机制难以关注到真正有区分力的特征。

此外，学术界对细粒度图像分类任务提供了很多有意义的探索借鉴，这些方法都是基于先检测后分类的方式区分类间混淆度大的类别。即先检测出图像中具有区分粒度的子区域位置，再基于这些区域特征去做精细分类。但是这种先检测后分类的细粒度分类方法不适用于普适性的管道缺陷分类方法建模，因为管道缺陷的一个主要性质是缺陷分布面广但是缺陷区域实际面积占比低（比如管道壁的裂缝和树根等）；此外，只基于局部可区分区域的特征分类不利于区分类间距离较远的类别。

发明内容

本发明实施例提出目标类别识别方法、装置及可读存储介质和计算机程序产品，以细化目标类别识别的类别粒度，并提高目标类别识别的识别精度。

本发明实施例的技术方案是这样实现的：

一种目标类别识别方法，该方法包括：

对待识别图像进行特征提取，得到第一特征向量；

根据第一特征向量检测所述图像中的各个前景区域和各个背景区域；

根据各个前景区域和各个背景区域在所述图像中的对应区域，在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量；

分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理，得到第一固定大小的各第二子特征向量；

根据所述各第二子特征向量进行目标检测，得到所述图像中的各目标区域；

根据所述各目标区域在所述图像中的对应区域，在第一特征向量中查找到各目标区域对应的各第一子特征向量，将所有目标区域对应的各第一子特征向量拼接成第三特征向量；

对第一特征向量进行自适应全局平均池化处理，得到第四特征向量；其中，第四特征向量的维度与第三特征向量相同；

将第四特征向量与第三特征向量进行叠加，得到第五特征向量；

根据第五特征向量进行目标类别识别，得到所述图像中包含的目标类别。

所述对待识别图像进行特征提取，得到第一特征向量，包括：

将待识别图像输入到神经网络的骨干网络进行特征提取；

根据第一特征向量检测所述图像中的各个前景区域和各个背景区域，包括：

将第一特征向量输入到所述神经网络的区域建议网络中来检测所述图像中的各个前景区域和各个背景区域；

所述根据所述各第二子特征向量进行目标检测，包括：

将所述各第二子特征向量输入到所述神经网络的目标检测网络进行目标检测；

所述根据第五特征向量进行目标分类识别，包括：

将第五特征向量输入到所述神经网络的目标分类网络进行目标类别识别。

所述神经网络的骨干网络、区域建议网络、目标检测网络和目标分类网络通过如下训练过程得到：

采集训练图像集，在每帧训练图像中标注各个标注目标区域和对应的标注目标类别；

从训练图像集中依次取出一帧训练图像输入到所述神经网络的骨干网络进行特征提取，得到输入的训练图像的第一特征向量；

将第一特征向量输入到所述神经网络的区域建议网络，以检测出输入的训练图像中的各个前景区域和各个背景区域；

根据各个前景区域和各个背景区域在输入的训练图像中的对应区域，在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量；

将所述各第二子特征向量输入到所述神经网络的目标检测网络，得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别；

根据所述目标检测网络得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各个标注目标区域和对应的标注目标类别，采用预设的第一损失函数进行计算，得到第一预测偏差；

根据各检测目标区域在输入的训练图像中的对应区域，在第一特征向量中查找到各检测目标区域对应的各第一子特征向量，将所有检测目标区域对应的各第一子特征向量拼接成第三特征向量；

将第五特征向量输入到所述神经网络的目标分类网络，得到输入的训练图像中包含的各检测目标类别；

根据所述目标分类网络得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别，采用预设的第二损失函数进行计算，得到第二预测偏差；

对第一预测偏差和第二预测偏差进行加权求和，根据该加权和调整所述神经网络的参数；

当所述神经网络收敛时，将此时的神经网络作为最终使用的神经网络。

所述将所有目标区域对应的各第一子特征向量拼接成第三特征向量之后，将第四特征向量与第三特征向量进行叠加之前，进一步包括：

对第三特征向量进行自注意力机制增强处理，得到第三特征向量中每个特征值的自注意力系数，将第三特征向量中的每个特征值分别与其自注意力系数相乘，得到第三特征向量的自注意力机制增强特征向量；

所述将第四特征向量与第三特征向量进行叠加，包括：

将第四特征向量与第三特征向量的自注意力机制增强特征向量进行叠加。

所述在每帧训练图像中标注各个标注目标区域和对应的标注目标类别，进一步包括：

在每帧训练图像中标注各个标注目标的轮廓；

所述在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量之后、所述对第一预测偏差和第二预测偏差进行加权求和之前，进一步包括：

分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第二插值处理，得到第二固定大小的各第六子特征向量；

将所述各第六子特征向量输入到所述神经网络的语义分割网络，得到输入的训练图像中的各检测目标的轮廓和检测目标类别；

根据所述语义分割网络得到的输入的训练图像中的各检测目标的轮廓和检测目标类别与在输入的训练图像中标注的各标注目标的轮廓和标注目标类别，采用预设的第三损失函数进行计算，得到第三预测偏差；

所述对第一预测偏差和第二预测偏差进行加权求和，包括：

对第一预测偏差、第二预测偏差和第三预测偏差进行加权求和。

所述待识别图像为管道图像，所述目标类别为管道缺陷类别。

所述管道缺陷类别包括如下之一或任意组合：暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、破裂。

一种目标类别识别装置，该装置包括：

特征提取模块，用于对待识别图像进行特征提取，得到第一特征向量；

区域建议模块，用于根据第一特征向量检测待识别图像中的各个前景区域和各个背景区域；

感兴趣区域对齐模块，用于根据各个前景区域和各个背景区域在待识别图像中的对应区域，在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量，分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理，得到第一固定大小的各第二子特征向量；根据目标检测模块检测出的各目标区域在图像中的对应区域，在第一特征向量中查找到各目标区域对应的各第一子特征向量，将所有目标区域对应的各第一子特征向量拼接成第三特征向量；

目标检测模块，用于根据各第二子特征向量进行目标检测，得到待识别图像中的各目标区域；

自适应全局平均池化处理模块，用于对第一特征向量进行自适应全局平均池化处理，得到第四特征向量；其中，第四特征向量的维度与第三特征向量相同；

特征融合模块，用于将第四特征向量与第三特征向量进行叠加，得到第五特征向量；

类别识别模块，用于根据第五特征向量进行目标类别识别，得到待识别图像中包含的目标类别。

一种目标类别识别神经网络训练装置，该装置包括：

图像采集模块，用于采集训练图像集，在每帧训练图像中标注各个标注目标区域和对应的标注目标类别；

特征提取模块，用于从训练图像集中依次取出一帧训练图像输入到神经网络的骨干网络进行特征提取，得到输入的训练图像的第一特征向量；

区域建议模块，用于将第一特征向量输入到所述神经网络的区域建议网络，以检测出输入的训练图像中的各个前景区域和各个背景区域；

感兴趣区域对齐模块，用于根据各个前景区域和各个背景区域在输入的训练图像中的对应区域，在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量，分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理，得到第一固定大小的各第二子特征向量；根据目标检测模块得到的各目标区域在输入的训练图像中的对应区域，在第一特征向量中查找到各目标区域对应的各第一子特征向量，将所有目标区域对应的各第一子特征向量拼接成第三特征向量；

目标检测模块，用于将所述各第二子特征向量输入到所述神经网络的目标检测网络，得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别；

类别识别模块，用于将第五特征向量输入到所述神经网络的目标分类网络，得到输入的训练图像中包含的各检测目标类别；

调整模块，用于根据目标检测模块得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各标注目标区域和对应的标注目标类别，采用预设的第一损失函数进行计算，得到第一预测偏差；根据类别识别模块得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别，采用预设的第二损失函数进行计算，得到第二预测偏差；对第一预测偏差和第二预测偏差进行加权求和，根据该加权和调整所述神经网络的参数；当所述神经网络收敛时，将此时的神经网络作为最终使用的神经网络。

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的目标类别识别方法的步骤。

本发明实施例中，通过将图像中的各目标区域对应的局部特征（第三特征向量）和从图像中提取的全局特征（第四特征向量）叠加融合后，进行目标类别识别，从而实现了：既能区分类间混淆度大的类别，又能区分类间距离大的类别，从而细化了目标类别识别的类别范围，并提高了目标类别识别的识别精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的目标类别识别方法流程图；

图2为本发明另一实施例提供的目标类别识别方法流程图；

图3为本发明实施例提供的对用于进行目标类别识别的神经网络进行训练的方法流程图；

图4为采集的一原始训练图像：管道图像的示意图；

图5为对图4中的缺陷进行标注的示意图；

图6为本发明实施例提供的目标类别识别装置的结构示意图；

图7为本发明实施例提供的目标类别识别神经网络训练装置的结构示意图；

图8为本发明实施例提供的一种电子设备的示例性结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明一实施例提供的目标类别识别方法流程图，其具体步骤如下：

步骤101：对待识别图像进行特征提取，得到第一特征向量。

步骤102：根据第一特征向量检测该图像中的各个前景区域和各个背景区域。

其中，一个前景区域对应目标所在的一个连通区域，剩余的每个连通区域分别对应一个背景区域。例如：若待识别图像为管道图像，待识别的目标类别为管道缺陷的类别，则管道图像中缺陷所在的每个连通区域分别为一个前景区域。

步骤103：根据各个前景区域和各个背景区域在该图像中的对应区域，在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量。

第一特征向量中的每个特征值分别对应待识别图像的一个区域，即每个特征值分别用于描述待识别图像中的一个区域。因此，对于每个前景区域或背景区域来说，根据其在待识别图像中的位置，就可在第一特征向量中查找到其对应的那部分特征值，由于该部分特征值实际上属于第一特征向量的子特征向量，从而将该部分特征值称为其对应的第一子特征向量。

步骤104：分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理，得到第一固定大小的各第二子特征向量。

步骤105：根据该各第二子特征向量进行目标检测，得到该图像中的各目标区域。

步骤106：根据该各目标区域在该图像中的对应区域，在第一特征向量中查找到各目标区域对应的各第一子特征向量，将所有目标区域对应的各第一子特征向量拼接成第三特征向量。

对于每个目标区域，根据该目标区域在待识别图像中的位置，就可在第一特征向量中查找到该目标区域对应的那部分特征值，该部分特征值称为该目标区域对应的第一子特征向量。

步骤107：对第一特征向量进行自适应全局平均池化处理，得到第四特征向量；其中，第四特征向量的维度与第三特征向量相同。

步骤108：将第四特征向量与第三特征向量进行叠加，得到第五特征向量。

步骤109：根据第五特征向量进行目标分类识别，得到该图像中包含的目标类别。

上述实施例中，通过将图像中的各目标区域对应的局部特征（第三特征向量）和从图像中提取的全局特征（第四特征向量）叠加融合后，进行目标类别识别，从而实现了：既能区分类间混淆度大的类别，又能区分类间距离大的类别，从而细化了目标类别识别的类别范围，并提高了目标类别识别的识别精度。

一可选实施例中，步骤101、102、105和109可通过神经网络实现，该神经网络主要由骨干网络、区域建议网络（Regions Proposal Networks，RPN）、目标检测网络和目标分类网络。

图2为本发明另一实施例提供的目标类别识别方法流程图，其具体步骤如下：

步骤201：将待识别图像输入到神经网络的骨干网络进行特征提取，得到第一特征向量。

骨干网络可采用ResNet50结构。

步骤202：将第一特征向量输入到该神经网络的区域建议网络（RPN）中来检测该图像中的各个前景区域和各个背景区域。

步骤203：根据各个前景区域和各个背景区域在该图像中的对应区域，在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量。

步骤204：分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理，得到第一固定大小的各第二子特征向量。

步骤205：将各第二子特征向量输入到神经网络的目标检测网络进行目标检测，得到该图像中的各目标区域。

步骤206：根据该各目标区域在该图像中的对应区域，在第一特征向量中查找到各目标区域对应的各第一子特征向量，将所有目标区域对应的各第一子特征向量拼接成第三特征向量。

步骤207：对第一特征向量进行自适应全局平均池化处理，得到第四特征向量；其中，第四特征向量的维度与第三特征向量相同。

步骤208：将第四特征向量与第三特征向量进行叠加，得到第五特征向量。

步骤209：将第五特征向量输入到该神经网络的目标分类网络进行目标分类识别，得到该图像中包含的目标类别。

一可选实施例中，步骤106之后、步骤108之前，或者步骤206之后、步骤208之前，进一步包括：对第三特征向量进行自注意力机制增强处理，得到第三特征向量中每个特征值的自注意力系数，将第三特征向量中的每个特征值分别与其自注意力系数相乘，得到第三特征向量的自注意力机制增强特征向量；

其中，步骤108或步骤208中，将第四特征向量与第三特征向量进行叠加，包括：将第四特征向量与第三特征向量的自注意力机制增强特征向量进行叠加。

其中，每个特征值的自注意力系数的取值范围为【0，1】，自注意力机制增强处理为已有算法，在此不作赘述。

上述实施例中，通过计算第三特征向量中每个特征值的自注意力系数，可以对图像中的目标区域对应的特征值进行增强，从而提高最终的目标类别识别的准确度。

图3为本发明实施例提供的对用于进行目标类别识别的神经网络进行训练的方法流程图，其具体步骤如下：

步骤301：采集训练图像集，在每帧训练图像中标注各个目标区域及对应的目标类别。

为了与后续步骤306中的检测目标区域进行区分，将本步骤301中标注的各个目标区域称为标注目标区域；为了与后续步骤306和311中的检测目标类别进行区分，将本步骤301中标注的目标类别称为标注目标类别。

这里，标注目标区域通常采用一个矩形框表示，本质上是标注目标区域的位置，通常采用矩形框的左上顶点或中心点描述目标区域的位置。

例如：当要识别管道缺陷类别时，采集管道图像，形成训练图像集。

图4为采集的一原始训练图像：管道图像的示意图，其中的灰色圆环为缺陷（这里要识别的是管道缺陷类别）。

图5为对图4中的缺陷进行标注的示意图，其中，虚线矩形框为缺陷框（即包含一缺陷的最小矩形框），本质上标注的是缺陷的位置。

图5中的黑色圆环为缺陷对应区域的mask（掩膜）（即由缺陷上的各个像素点构成的最小连通区域），根据该mask可得知缺陷的轮廓，则标注该mask即标注了缺陷的轮廓。

步骤302：从训练图像集中依次取出一帧训练图像输入到神经网络的骨干网络进行特征提取，得到输入的训练图像的第一特征向量。

步骤303：将第一特征向量输入到神经网络的区域建议网络（RPN），以检测出输入的训练图像中的各个前景区域和各个背景区域。

每个前景区域和背景区域用一个矩形框表示。

步骤304：根据各个前景区域和各个背景区域在输入的训练图像中的对应区域，在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量。

第一特征向量中的每个特征值分别对应输入的训练图像中的一个区域（该区域由多个像素点组成），根据各个前景框或背景框在训练图像中位于哪个区域（即前景框或背景框对应的矩形能够映射到的训练图像的区域），就可以在第一特征向量中找到对应的子特征向量。

步骤305：分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理，得到第一固定大小的各第二子特征向量。

第一插值处理可以是双向线性插值处理，具体采用哪种插值算法，本实施例不作限定。

第一固定大小可根据需要设定，本实施例对此不作限制，例如设定为7*7。

步骤306：将各第二子特征向量输入到神经网络的目标检测网络，得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别。

检测目标区域即，神经网络的目标检测网络在输入的训练图像中检测到的目标区域。

这里的检测目标区域采用检测目标框表示，即包含检测到的目标的最小矩形框，通常采用矩形框的左上顶点或中心点描述检测目标区域的位置。

步骤307：根据各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各个标注目标区域和标注目标类别，采用预设的第一损失函数进行计算，得到第一预测偏差。

这里，由于目标检测网络针对每个目标输出了两个参数：检测目标区域（检测目标框）和检测目标类别，因此分别对这两个参数进行损失函数计算，这两个参数采用的损失函数可以相同，也可以不同，例如：对检测目标区域采用smooth_l1_loss（平滑L1损失）函数，对检测目标类别采用cross entropy（交叉熵）函数，最后将检测目标区域对应的预测偏差和检测目标类别对应的预测偏差相加，得到第一预测偏差。

步骤308：根据各检测目标区域在输入的训练图像中的对应区域，在第一特征向量中查找到各检测目标区域对应的各第一子特征向量，将所有检测目标区域对应的各第一子特征向量拼接成第三特征向量。

步骤309：对第一特征向量进行自适应全局平均池化处理，得到第四特征向量；其中，第四特征向量的维度与第三特征向量相同。

自适应全局平均池化处理为已有成熟算法，在此不作赘述。

步骤310：将第四特征向量与第三特征向量进行叠加，得到第五特征向量。

步骤311：将第五特征向量输入到神经网络的目标分类网络，得到输入的训练图像中包含的检测目标类别。

步骤312：根据目标分类网络得到的检测目标类别与在输入的训练图像中标注的各个标注目标类别，采用预设的第二损失函数进行计算，得到第二预测偏差。

第二损失函数可采用cross entropy函数。

步骤313：对第一预测偏差和第二预测偏差进行加权求和，根据该加权和调整所述神经网络的参数。

例如：可根据该加权和采用SGD（Stochastic Gradient Descent，随机梯度下降）算法调整所述神经网络的参数。

步骤314：当神经网络收敛时，将此时的神经网络作为最终使用的神经网络。

一可选实施例中，步骤308之后、步骤310之前，进一步包括：对第三特征向量进行自注意力机制增强处理，得到第三特征向量中每个特征值的自注意力系数，将第三特征向量中的每个特征值分别与其自注意力系数相乘，得到第三特征向量的自注意力机制增强特征向量；

且，步骤310中，将第四特征向量与第三特征向量进行叠加，包括：

一可选实施例中，在步骤301中，进一步在每帧训练图像中标注各标注目标的轮廓和类别，且，在步骤308中的“在第一特征向量中查找到各检测目标区域对应的各第一子特征向量”之后、步骤313中的“对第一预测偏差和第二预测偏差进行加权求和”之前，进一步包括：

分别对各第一子特征向量进行第二插值处理，得到第二固定大小的各第六子特征向量；将各第六子特征向量输入到神经网络的语义分割网络，得到输入的训练图像中的各检测目标的轮廓和类别；根据语义分割网络得到的输入的训练图像中的各检测目标的轮廓和类别与在输入的训练图像中标注的各标注目标的轮廓和类别，采用预设的第三损失函数进行计算，得到第三预测偏差；这里，第三损失函数可以是cross entropy函数。第二插值处理可以是双向线性插值处理，具体采用哪种插值算法，本实施例不作限定。第二固定大小可根据需要设定，本实施例对此不作限制，例如设定为13*13。其中，标注目标的轮廓为目标的真实轮廓。

且，步骤313中，对第一预测偏差和第二预测偏差进行加权求和，包括：对第一预测偏差、第二预测偏差和第三预测偏差进行加权求和。

上述实施例中，通过增加语义分割网络，使得神经网络预测的特征更加偏好目标位置信息，能够起到准确抑制背景信息增强目标信息的作用，为后续过程提供精确的先验信息。

在实际应用中，可将采集的部分图像放入验证图像集，当神经网络收敛时，采用验证图像集对收敛的神经网络进行验证，若验证效果未达到要求，则通过改变神经网络中的各个子网络的结构等，对神经网络重新进行训练，直到验证效果达到要求。通常，验证图像集的大小是训练图像集的1/4。

本发明实施例中的待识别图像可为管道图像，对应的目标类别为管道缺陷类别。

本发明实施例中的管道缺陷类别可包括如下之一或任意组合：暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、破裂。当然，本发明实施例中的管道缺陷类别不限于此，对于其他的管道缺陷或者类似于管道的缺陷分类都覆盖在本权利要求的保护范围之内。

图6为本发明实施例提供的目标类别识别装置的结构示意图，该装置主要包括：特征提取模块61、区域建议模块62、感兴趣区域对齐模块63、目标检测模块64、自适应全局平均池化处理模块65、特征融合模块66和类别识别模块67，其中：

特征提取模块61，用于对待识别图像进行特征提取，得到第一特征向量。

区域建议模块62，用于根据特征提取模块61得到的第一特征向量检测待识别图像中的各个前景区域和各个背景区域。

感兴趣区域对齐模块63，用于根据区域建议模块62检测出的图像中的各个前景区域和各个背景区域在待识别图像中的对应区域，在特征提取模块61得到的第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量；分别对各第一子特征向量进行第一插值处理，得到第一固定大小的各第二子特征向量。根据目标检测模块64检测出的各目标区域在图像中的对应区域，在特征提取模块61得到的第一特征向量中查找到各目标区域对应的各第一子特征向量，将所有目标区域对应的各第一子特征向量拼接成第三特征向量。

目标检测模块64，用于根据感兴趣区域对齐模块63得到的各第二子特征向量进行目标检测，得到待识别图像中的各目标区域。

自适应全局平均池化处理模块65，用于对特征提取模块61得到的第一特征向量进行自适应全局平均池化处理，得到第四特征向量；其中，第四特征向量的维度与第三特征向量相同。

特征融合模块66，用于将自适应全局平均池化处理模块65得到的第四特征向量与感兴趣区域对齐模块63得到的第三特征向量进行叠加，得到第五特征向量。

类别识别模块67，用于根据特征融合模块66得到的第五特征向量进行目标类别识别，得到待识别图像中包含的目标类别。

图7为本发明实施例提供的目标类别识别神经网络训练装置的结构示意图，该装置主要包括：图像采集模块71、特征提取模块72、区域建议模块73、感兴趣区域对齐模块74、目标检测模块75、自适应全局平均池化处理模块76、特征融合模块77、类别识别模块78和调整模块79，其中：

图像采集模块71，用于采集训练图像集，在每帧训练图像中标注各个标注目标区域和对应的标注目标类别。

特征提取模块72，用于从训练图像集中依次取出一帧训练图像输入到神经网络的骨干网络进行特征提取，得到输入的训练图像的第一特征向量。

区域建议模块73，用于将第一特征向量输入到神经网络的区域建议网络，以检测出输入的训练图像中的各个前景区域和各个背景区域。

感兴趣区域对齐模块74，用于根据各个前景区域和各个背景区域在输入的训练图像中的对应区域，在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量，分别对各个前景区域和各个背景区域对应的各第一子特征向量进行第一插值处理，得到第一固定大小的各第二子特征向量；根据目标检测模块75得到的各目标区域在输入的训练图像中的对应区域，在第一特征向量中查找到各目标区域对应的各第一子特征向量，将所有目标区域对应的各第一子特征向量拼接成第三特征向量。

目标检测模块75，用于将各第二子特征向量输入到神经网络的目标检测网络，得到输入的训练图像中的各检测目标区域及各检测目标区域的检测目标类别。

自适应全局平均池化处理模块76，用于对第一特征向量进行自适应全局平均池化处理，得到第四特征向量；其中，第四特征向量的维度与第三特征向量相同。

特征融合模块77，用于将第四特征向量与第三特征向量进行叠加，得到第五特征向量。

类别识别模块78，用于将第五特征向量输入到神经网络的目标分类网络，得到输入的训练图像中包含的各检测目标类别。

调整模块79，用于根据目标检测模块75得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各标注目标区域和对应的标注目标类别，采用预设的第一损失函数进行计算，得到第一预测偏差；根据类别识别模块78得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别，采用预设的第二损失函数进行计算，得到第二预测偏差；对第一预测偏差和第二预测偏差进行加权求和，根据该加权和调整神经网络的参数；当神经网络收敛时，将此时的神经网络作为最终使用的神经网络。

本发明实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上任一实施例所述的目标类别识别方法的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述目标类别识别方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例各设备/装置/***所包含的，也可以是单独存在，而未装配入该设备/装置/***中。其中，在计算机可读存储介质中存储指令，其存储的指令在由处理器执行时可执行如上目标类别识别方法中的步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

如图8所示，本发明实施例还提供一种电子设备。如图8所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器81、一个或一个以上计算机可读存储介质的存储器82以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器82的程序时，可以实现上述目标类别识别方法。

具体的，实际应用中，该电子设备还可以包括电源83、输入输出单元84等部件。本领域技术人员可以理解，图8中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器81是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器82内的软件程序和/或模块，以及调用存储在存储器82内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器82可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器81通过运行存储在存储器82的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器82可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器82可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器82还可以包括存储器控制器，以提供处理器81对存储器82的访问。

该电子设备还包括给各个部件供电的电源83，可以通过电源管理***与处理器81逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源83还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入输出单元84，该输入单元输出84可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出84还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种目标类别识别神经网络训练方法，其特征在于，该方法包括：

当所述神经网络收敛时，将此时的神经网络作为最终使用的神经网络；

在每帧训练图像中标注各个标注目标的轮廓；

所述对第一预测偏差和第二预测偏差进行加权求和，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所有检测目标区域对应的各第一子特征向量拼接成第三特征向量之后，将第四特征向量与第三特征向量进行叠加之前，进一步包括：

所述将第四特征向量与第三特征向量进行叠加，包括：

3.根据权利要求1所述的方法，其特征在于，所述训练图像为管道图像，所述目标类别为管道缺陷类别。

4.根据权利要求3所述的方法，其特征在于，所述管道缺陷类别包括如下之一或任意组合：暗接、变形、错接、残墙、穿入、腐蚀、浮渣、结垢、起伏、树根、脱节、脱落、障碍物、错口、沉积、渗漏、破裂。

5.一种目标类别识别神经网络训练装置，其特征在于，该装置包括：

调整模块，用于根据目标检测模块得到的各检测目标区域及各检测目标区域的检测目标类别与在输入的训练图像中标注的各标注目标区域和对应的标注目标类别，采用预设的第一损失函数进行计算，得到第一预测偏差；根据类别识别模块得到的输入的训练图像中包含的各检测目标类别与在输入的训练图像中标注的各标注目标区域的标注目标类别，采用预设的第二损失函数进行计算，得到第二预测偏差；对第一预测偏差和第二预测偏差进行加权求和，根据该加权和调整所述神经网络的参数；当所述神经网络收敛时，将此时的神经网络作为最终使用的神经网络；

所述图像采集模块在每帧训练图像中标注各个标注目标区域和对应的标注目标类别，进一步包括：在每帧训练图像中标注各个标注目标的轮廓；

所述感兴趣区域对齐模块在第一特征向量中查找到各个前景区域和各个背景区域对应的各第一子特征向量之后，进一步包括：分别对所述各个前景区域和各个背景区域对应的各第一子特征向量进行第二插值处理，得到第二固定大小的各第六子特征向量；将所述各第六子特征向量输入到所述神经网络的语义分割网络，得到输入的训练图像中的各检测目标的轮廓和检测目标类别；

且，所述调整模块进一步包括：根据所述语义分割网络得到的输入的训练图像中的各检测目标的轮廓和检测目标类别与在输入的训练图像中标注的各标注目标的轮廓和标注目标类别，采用预设的第三损失函数进行计算，得到第三预测偏差；

所述调整模块对第一预测偏差和第二预测偏差进行加权求和，包括：对第一预测偏差、第二预测偏差和第三预测偏差进行加权求和。

6.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至4中任一项所述的目标类别识别神经网络训练方法的步骤。