CN112434715B

CN112434715B - 基于人工智能的目标识别方法、装置及存储介质

Info

Publication number: CN112434715B
Application number: CN202011435671.2A
Authority: CN
Inventors: 李星宇; 岳大威; 王宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-07-22
Anticipated expiration: 2040-12-10
Also published as: CN112434715A

Abstract

本发明公开了基于人工智能的目标识别方法、装置及存储介质，上述方法包括获取待识别图像；提取该待识别图像的综合局部位置信息和全局上下文信息，得到该待识别图像对应的特征图组；基于该特征图组进行目标提取，得到目标提取结果，该目标提取结果中的每个目标对应包括四个角点，并且以该四个角点确定的四边形提取框框选该目标；根据该目标提取结果，输出目标识别结果。本发明可以精准回归四个角点，基于回归得到的四个角点，可以唯一确定一个四边形检测框，该四边形检测框相较于相关技术中的矩形检测框可以更为贴合图像中目标的外部轮廓，从而降低噪声，提升目标识别的精准度。

Description

基于人工智能的目标识别方法、装置及存储介质

技术领域

本公开涉及人工智能领域，尤其涉及基于人工智能的目标识别方法、装置及存储介质。

背景技术

相关技术中的目标检测通常只能回归出目标的两个角点，通过两个角点唯一确定的矩形检测框框选目标，并目标检测的结果。但是，在实际进行图像采集时，由于拍摄角度导致拍摄目标的透视变换，矩形检测框并不能够很好的贴合目标检测的结果，容易包含冗余或噪声，导致了目标检测结果的精度有限。

发明内容

为了提升目标检测的精度，本公开实施例提供基于人工智能的目标识别方法、装置及存储介质。

一方面，本公开提供了一种基于人工智能的目标识别方法，所述方法包括：

获取待识别图像；

提取所述待识别图像的综合局部位置信息和全局上下文信息，得到所述待识别图像对应的特征图组；

基于所述特征图组进行目标提取，得到目标提取结果，所述目标提取结果中的每个目标对应包括四个角点，并且以所述四个角点确定的四边形提取框框选所述目标；

根据所述目标提取结果，输出目标识别结果。

另一方面，本公开提供一种基于人工智能的目标识别装置，所述装置包括：

待识别图像获取模块，用于获取待识别图像；

特征提取模块，用于提取所述待识别图像的综合局部位置信息和全局上下文信息，得到所述待识别图像对应的特征图组；

目标提取模块，用于基于所述特征图组进行目标提取，得到目标提取结果，所述目标提取结果中的每个目标对应包括四个角点，并且以所述四个角点确定的四边形提取框框选所述目标；

目标识别模块，用于根据所述目标提取结果，输出目标识别结果。

另一方面，本公开提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种基于人工智能的目标识别方法。

另一方面，本公开提供了一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种基于人工智能的目标识别方法。

本公开提供了基于人工智能的目标识别方法、装置及存储介质。本公开可以精准回归四个角点，基于回归得到的四个角点，可以唯一确定一个四边形检测框，该四边形检测框相较于相关技术中的矩形检测框可以更为贴合图像中目标的外部轮廓，从而降低噪声，提升目标识别的精准度。

附图说明

为了更清楚地说明本公开实施例或相关技术中的技术方案和优点，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本公开提供相关技术中店招识别结果的示意图；

图2是本公开提供的一种基于人工智能的目标识别方法的流程示意图；

图3是本公开实施例的店招识别场景中图像示意图；

图4是本公开提供的Hourglass网络的结构示意图；

图5是本公开提供的了Hourglass网络单元的示意图；

图6是本公开提供的根据上述目标提取结果，输出目标识别结果的流程图；

图7是本公开提供的根据上述目标提取结果，输出目标识别结果的另一流程图；

图8是本公开提供的对上述嵌套结构进行处理，得到处理结果的流程图；

图9是本公开提供的嵌套结构的一种示意图；

图10是本公开提供的嵌套结构的另一种示意图；

图11是本公开提供的训练神经网络的方法流程图；

图12是本公开提供的获取训练样本集的流程图；

图13是本公开提供的根据上述训练样本集训练目标提取网络流程图；

图14是本公开提供的一种基于人工智能的目标识别装置框图；

图15是本公开提供的一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本公开实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本公开实施例，并不用于限定本公开实施例。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。为了便于理解本公开实施例上述的技术方案及其产生的技术效果，本公开实施例首先对于相关专业名词进行解释：

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

深度学习：是机器学习(ML,Machine Learning)领域中一个新的研究方向，是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

目标检测：也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个***的一项重要能力。

CenterNet：是一种基于中心点来回归目标其他属性(诸如尺寸、方向、姿态等)的目标检测深度学习模型。

Hourglass：一种使用多尺度特征获取全局上下文信息的卷积神经网络。其网络结构形似沙漏状，重复使用“至上而下”到“至下而上”的结构提取综合局部位置信息和全局上下文信息。Hourglass被广泛应用于人体姿态估计，人体姿态估计首先确定身体重要关键点在图像中的精确像素位置，然后通过对人的姿势和肢体关节的分析完成行动识别。Hourglass应用于人体姿态估计时，可以协助该人体姿态估计模型回归得到17个关键点，并且这17个关键点位于人体内部。

店招：即商店(铺)招牌，是POI(Point of Interest，兴趣点)的一种，且绝大多数POI都属于店招这一类别。

目标识别是人工智能领域一个重点的研究方向，通过目标识别自动提取图像中的目标，可以节省人力，降低成本，因此具有较为广阔的应用前景也得到了长足的发展。但是，相关技术中的目标识别还存在噪声较高，精度有限的问题。以店招场景中基于人工智能进行目标识别为例，请参考图1，其示出了相关技术中店招识别结果的示意图。由图1可以示出，对于矩形的店招由于拍摄角度的影响，体现在图像中是斜四边形的目标。相关技术得到的检测框是矩形形状(请参考图1中的粗线框)，无法贴合斜四边形的目标的外边界，对于这种斜四边形的目标，如果使用矩形的检测框框选产生了较为明显的噪声。

可见，相关技术中通过回归两个角点而确定的矩形检测框引入了噪声从而降低了目标识别的精准度，本公开提出一种基于人工智能的目标识别方法，该基于人工智能的目标识别方法可以精准回归四个角点，基于回归得到的四个角点，可以唯一确定一个四边形检测框，该四边形检测框相较于相关技术中的矩形检测框可以更为贴合图像中目标的外部轮廓，从而降低噪声，提升目标识别的精准度。

以下介绍本公开的一种基于人工智能的目标识别方法，图2示出了本公开实施例提供的一种基于人工智能的目标识别方法的流程示意图，本公开提供了如实施例或流程图上述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的***或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。上述方法可以包括：

S101.获取待识别图像。

在一些可能的实施方式中，可以通过电子设备获取待识别图像。或者，电子设备可以从其他设备处获取待识别图像，例如，电子设备可以从摄像设备、监控设备等设备处获取待识别图像。在一些实现方式中，上述待识别图像可以是视频中的一个图像帧。

本公开实施例中待识别图像可以为二维图像，具体地，上述待识别图像可以是RGB三通道彩色图(R：Red(红色)，G：Green(绿色)，B：Blue(蓝色))、灰度图，也可以是包括深度信息的RGBD四通道彩色图。本公开实施例不限定待识别图像的颜色制式。

S102.提取上述待识别图像的综合局部位置信息和全局上下文信息，得到上述待识别图像对应的特征图组。

相关技术中由于特征提取能力所限通常基于中心点可以回归得到两个角点，从而得到可以用于框选目标的矩形提取框，本公开中为了得到更为精准的目标提取结果，达到基于目标的中心点可以回归得到四个角点的目的，对图像的综合局部位置信息以及全局上下文信息均进行提取，以便于在全局上下文信息的指导下得到更为精确目标提取结果。

本公开中综合局部位置信息可以用于对物体进行提取，在图像中确定物体的轮廓；所述全局上下文信息可以用于表达物体的环境信息。比如，可以根据综合局部位置信息在图像中提取物体，如果该物***于店铺上，则该物体大概率是店招；如果该物***于车上，则该物体大概率是车牌。店铺和车就可以作为一种全局上下文信息，如果目标识别旨在提取店招，则可以根据这种全局上下文信息排除车牌。本公开实施例中通过对综合局部位置信息和全局上下文信息均进行提取，可以便于在目标提取环节过滤噪声，提升目标提取的准确度。如图3所示，其示出了店招识别场景中图像示意图。由图3可知，图3中出现了广告、横幅、安全标志等各种干扰，都可能被误识别为店招，通过结合这种全局上下文信息过滤，可以将“广告”、“横幅”、“安全标志”等噪声过滤，提升店招的识别准确度。

在一个实施例中，可以基于Hourglass网络提取上述待识别图像的综合局部位置信息和全局上下文信息。相关技术中，Hourglass网络多用于在人体姿态估计中进行特征提取，人体姿态估计中特征点数量较多，通常为17个，并且均位于目标内部，而本公开中目标识别的特征点(四个角点)较少，位于目标边缘，这与人体姿态估计中的特征点明显不同，但是Hourglass具有可以提取上述图像的综合局部位置信息和全局上下文信息的优势，本公开在目标提取环节需要依赖丰富的全局上下文信息配合综合局部位置信息确定目标的四个角点，故将常应用于人体姿态识别的Hourglass网络转用于本公开中进行待识别图像的特征提取。

请参考图4，其示出了Hourglass网络的结构示意图，该结构是一种可扩展结构，每个Hourglass网络单元形似两个对顶的沙漏，通过将Hourglass网络单元端对端连接，可以形成具有多个Hourglass网络单元的特征提取网络。通过重复使用“至上而下”到“至下而上”的Hourglass网络单元提取综合局部位置信息和全局上下文信息。请参考图5，其示出了Hourglass网络单元的示意图，该网络单元的由递归的残差模块作为骨干模块。

S103.基于上述特征图组进行目标提取，得到目标提取结果，上述目标提取结果中的每个目标对应包括四个角点，并且以上述四个角点确定的四边形提取框框选上述目标。

本公开中待识别图像对应的目标提取结果中可以包括0个目标，一个目标或多个目标。对于任意一个目标，其都包括四个角点，并且唯一被基于上述四个角点确定的四边形提取框框选。

本公开可以首先预测出目标的中心点，进而基于目标中心点来回归四个角点，从而得到目标提取结果，本公开可以基于神经网路预测出目标的中心点，进而基于目标中心点来回归四个角点，从而得到目标提取结果，本公开不限定神经网络的具体结构。

S104.根据上述目标提取结果，输出目标识别结果。

在一个可行的实施例中，目标识别结果可以包括四边形提取框，也可以同时包括根据四边形提取框的两个距离最远的角点确定的矩形提取框。

在一个实施例中，可以对目标提取结果进行过滤，通过降低重复框选同一个目标的概率降低目标识别结果中的冗余，请参考图6，其示出了根据上述目标提取结果，输出目标识别结果的流程图，包括：

S1041.计算上述目标提取结果中各个四边形提取框的重叠度。

本公开中任意两个四边形提取框的重叠度可以通过上述任意两个四边形提取框的交集与上述任意两个四边形提取框的并集的比值来表征。

S1043.根据上述重叠度对上述目标提取结果进行过滤，得到过滤结果。

S1045.根据上述过滤结果，输出上述目标识别结果。

具体地，本公开中可以在上述目标提取结果中的各个四边形提取框中确定目的提取框，该目的提取框的置信度大于其他四边形提取框的置信度；分别计算除该目的提取框之外的各个四边形提取框与目的提取框之间的重叠度；若第一提取框与目的提取框的重叠度大于预设的重叠度阈值，则将第一候选框删除；若第一提取框与目的提取框的重叠度小于或者等于上述重叠度阈值，则保留第一提取框；其中，第一提取框是除目的提取框之外的任一个四边形提取框；对剩余的四边形候选框重复上述操作，得到过滤结果。本公开并不限定重叠度阈值的具体数值，可以根据实际需要进行确定。

在一个实施例中，还可以对目标提取结果中的嵌套结构进行处理，上述嵌套结构包括外层的第一提取框，和位于上述第一提取框内部的至少一个第二提取框；上述第一提取框和上述第二提取框均为四边形提取框，通过对嵌套结构进行处理，可以简化嵌套结构，进一步降低目标识别结果中的冗余。

请参考图7，其示出了根据上述目标提取结果，输出目标识别结果的另一流程图，包括：

S1042.若上述目标提取结果中包括至少一个嵌套结构，则对上述嵌套结构进行处理，得到处理结果；上述嵌套结构包括外层的第一提取框，和位于上述第一提取框内部的至少一个第二提取框；上述第一提取框和上述第二提取框均为四边形提取框。

S1044.根据上述处理结果，输出上述目标识别结果。

具体地，如图8所示，其示出了对上述嵌套结构进行处理，得到处理结果的流程图，包括：

S10421.对上述嵌套结构的外层进行提取，得到第一提取框；

S10422.对上述嵌套结构的内层进行提取，得到至少一个第二提取框；

S10423.若上述第二提取框数量等于1，则得到上述第二提取框与第一提取框的交集，若上述交集与上述第二提取框的比值大于预设第一阈值，则删除目标提取框，上述目标提取框为上述第二提取框与上述第一提取框中置信度较小的提取框。

请参考图9，其示出了嵌套结构的一种示意图，图9中外层框为一个第一提取框，内层框是一个第二提取框，该第二提取框与该第一提取框的交集比上面积小的提取框(第二提取框)，得到的结果大于预设的第一阈值，则删除置信度较小的提取框。本公开中的目标提取结果中，各个目标有其对应的置信度，该置信度表征目标归类的可信程度。比如，若本公开用于识别店招，则置信度表征目标为店招的可信度。图9中若第二提取框若置信度较小，则被删除，留下第一提取框，若第一提取框若置信度较小，则被删除，留下第二提取框。

S10424.若各个相邻的第二提取框的重叠度小于预设第二阈值，并且各个第二提取框的并集与上述第一提取框的比值大于预设第三阈值，则删除上述第一提取框，得到上述处理结果。

请参考图10，其示出了嵌套结构的另一种示意图，图10中外层框为一个第一提取框，内层框是三个第二提取框。三个第二提取框覆盖了第一提取框中大部分的位置，如果这三个第二提取框覆盖面积与第一提取框覆盖面积比值大于预设第三阈值，则删除该第一提取框。

本公开并不限定第一阈值、第二阈值和第三阈值的具体数值，可以根据实际需要进行设定。

本公开中可以先对目标提取结果进行过滤，然后对过滤后的目标提取结果进行嵌套结构的处理，也可以向对目标提取结果进行嵌套结构处理，然后对进行嵌套结构处理后的目标提取结果进行过滤，最终得到经过过滤以及嵌套结构处理的目标识别结果。

本公开示出的一种基于人工智能的目标识别方法，通过将常用于人体姿态估计中进行特征提取的思路转用于进行目标识别的特征提取，可以得到包含综合局部位置信息和全局上下文信息的特征图组，基于提取到的特征图组，可以回归出目标的四个角点，从而使得输出的目标识别结果中的四边形提取框更加贴合目标，降低了四边形提取框的噪声，更精准地得到了识别结果，也提高了目标识别的召回率和准确率。

请参考表1，其示出了本公开实施例与相关技术中的目标识别算法应用于店招识别的性能对比表。

表1

模型	准确率	召回率	F1值
				Faster-RCNN	0.68	0.79	0.73
YOLOv3	0.7	0.73	0.71
				CornerNet	0.79	0.84	0.81
本公开实施例	0.84	0.87	0.85

其中，Faster-RCNN，YOLOv3，CornerNet为相关技术中可以用于进行目标识别的算法，本公开中可以通过借鉴人体姿态识别技术的特征提取算法提取到待识别图像的综合局部位置信息和全局上下文信息，并且融合CenterNet的回归思想，回归得到目标的四个角点，显著提升在店招场景中的目标识别准确率和召回率。本公开也可以应用于其它目标的识别，本公开对其使用场景没有限定。

如上述实施例上述，本公开实施例提供的基于人工智能的目标识别方法可以利用神经网络实现，上述神经网络为目标提取网络，包括依次连接的特征提取网络和目标预测网络，其中，上述特征提取网络用于提取上述待识别图像的综合局部位置信息和全局上下文信息，得到上述待识别图像对应的特征图组；上述目标预测网络用于基于上述特征图组进行目标提取，得到目标提取结果，上述目标提取结果中的每个目标对应包括四个角点，并且以上述四个角点确定的四边形提取框框选上述目标。

下面对训练神经网络的过程进行说明。

请参考图11，其示出训练神经网络的方法，上述方法包括：

S10.获取训练样本集，对于上述训练样本集中的每个样本图像，上述样本图像中的每个标注目标均包括四个标注角点。

在一个实施例中，为了提升训练效果，增强神经网络的泛化能力，可以通过对样本图像进行图像增强的方式提升训练样本集中样本图像的数量。如图12所示，上述获取训练样本集，包括：

S11.获取第一样本集，对于上述第一样本集中的每个第一样本图像，上述第一样本图像中的每个标注目标均包括四个标注角点。

S12.对上述第一样本集中的至少一个第一样本图像进行图像增强，得到上述第一样本图像对应的至少一个第二样本图像。

本公开中图像增强包括但不限于随机缩放、随机裁剪、颜色扰动等任意一种及其组合。在一个可行的实施方式中，可以随机缩放时，可以在预设的缩放数列中随机选择一个数据作为缩放尺度，对第一样本图像进行缩放，得到对应的第二样本图像。示例性的，该缩放数列可以为[0.6,0.7,0.8,0.8,0.9,1.0,1.1,1.2,1.3,1.4]，本公开不限定缩放数列的具体数据。

S13.根据上述第一样本图像集，以及各个第一样本图像对应的各个第二样本图像，生成上述训练样本集。

S20.根据上述训练样本集训练目标提取网络，直至上述目标提取网络产生的损失小于损失阈值；上述目标提取网络包括依次连接的特征提取网络和目标预测网络。

在一个可行的实施例中，可以通过图像增强得到包含16000张样本图像的训练样本集，基于该训练样本集进行目标提取网络的训练，设定该目标提取网络的分别率为512*512，初始学习率为0.00005，并且学习率在[90，120]下降10倍。上述具体的训练参数可以根据实际训练情况进行确定，本公开不对其进行限定。对于训练好的目标提取网络也可以进行验证和测试，示例性的，可以使用400张图像进行验证和测试。

基于步骤S20计算上述目标提取网络产生的损失，在该损失小于损失阈值的情况下，可以表示对上述目标提取网络的训练达到要求，可以进行应用，在该损失大于或者等于损失阈值的情况下，可以反馈调节上述目标提取网络中特征提取网络和/或目标预测网络的参数，如卷积参数等，直至得到的损失小于损失阈值。其中损失阈值可以为根据需求设定的值，如可以为0.1，但不作为本公开的具体限定。

在一个实施例中，如图13所示，上述根据上述训练样本集训练目标提取网络，包括：

S21.将样本图像输入上述特征提取网络，得到上述样本图像对应的特征图组。

S22.将上述特征图组输入上述目标预测网络，得到第一热力图组，上述第一热力图组包括每个目标的中心点热力图，以及上述每个目标对应的四个角点的热力图。

S23.根据上述样本图像得到第二热力图组，上述第二热力图组包括每个标注目标的中心点热力图，以及上述每个标注目标的四个角点的热力图。

S24.根据上述第一热力图组和上述第二热力图组，计算损失值。

在一个实施例中，上述根据上述第一热力图组和上述第二热力图组，计算损失值，包括：

S241.根据上述第一热力图组和上述第二热力图组分别计算第一损失、第二损失、第三损失、第四损失、第五损失和第六损失；

S242.根据上述第一损失、第二损失、第三损失、第四损失、第五损失和第六损失，确定上述损失值；

其中，上述第一损失用于描述中心点的热力图损失，上述第二损失用于描述角点的热力图损失，上述第三损失用于描述四边形提取框的形状损失，上述第四损失用于描述由于图像增强产生的中心点偏移损失，上述第五损失用于描述由于图像增强产生的角点偏移损失，上述第六损失用于描述角点配对损失。

具体地，上述第一损失通过第一热力图组中的中心点热力图和第二热力图组中的对应的中心点热力图确定；

上述第二损失通过第一热力图组中的四个角点的热力图和第二热力图组中对应的的四个角点的热力图确定；

上述第三损失通过第一热力图组中的四个角点的热力图和第二热力图组中对应的的四个角点的热力图确定；

第四损失用于描述由于图像增强导致的中心点偏移产生的损失。示例性的，若图像增强之前的初始样本图像中目标中心点为(5,5)，图像增强后得到的样本图像的中心点应当为(2.5,2.5)，但是由于像素都是整数，因此，中心点变位为(2,2)，从而产生了中心点偏移。基于同样道理，第五损失描述由于图像增强导致的角点偏移产生的损失。若上述样本图像不是通过图像增强得到，则第四损失和第五损失可以为0，本公开引入第四损失和第五损失，旨在对于由于图像增强导致的识别结果中引入的误差进行修正。

第六损失通过第一热力图组中的角点热力图和第二热力图组中的角点热力图确定，描述角点配对产生的损失。若第一热力图组中的角点缺失产生了配对失败，则相应的，产生角点配对损失。

本公开损失值可以由第一损失、第二损失、第三损失、第四损失、第五损失和第六损失加权求和得到，权值可以根据实际需要进行确定，本公开不进行特殊限定。

S25.若上述损失值大于等于上述损失阈值，则反馈调节上述目标提取网络的参数。

本公开实施例还公开了一种基于人工智能的目标识别装置，如图14所示，上述装置包括：

待识别图像获取模块10，用于获取待识别图像；

特征提取模块20，用于提取上述待识别图像的综合局部位置信息和全局上下文信息，得到上述待识别图像对应的特征图组；

目标提取模块30，用于基于上述特征图组进行目标提取，得到目标提取结果，上述目标提取结果中的每个目标对应包括四个角点，并且以上述四个角点确定的四边形提取框框选上述目标；

目标识别模块40，用于根据上述目标提取结果，输出目标识别结果。

具体地，本公开实施例公开一种基于人工智能的目标识别装置与上述对应的方法实施例均基于相同发明构思。详情请参见方法实施例，在此不再赘述。

本公开实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一种基于人工智能的目标识别方法。

本公开实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质可以存储有多条指令。上述指令可以适于由处理器加载并执行本公开实施例上述的一种基于人工智能的目标识别方法。

进一步地，图15示出了一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图，上述设备可以参与构成或包含本公开实施例所提供的装置或***。如图15所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图15所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图15中所示更多或者更少的组件，或者具有与图15所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本公开实施例中上述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种基于人工智能的目标识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

需要说明的是：上述本公开实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上上述仅为本公开的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的目标识别方法，其特征在于，所述方法包括：

获取待识别图像；

若所述目标提取结果中包括至少一个嵌套结构，对所述嵌套结构的外层进行提取，得到第一提取框；以及，对所述嵌套结构的内层进行提取，得到至少一个第二提取框，所述第一提取框和所述第二提取框均为四边形提取框；

若所述第二提取框数量等于1，则得到所述第二提取框与第一提取框的交集，若所述交集与所述第二提取框的比值大于预设第一阈值，则删除目标提取框，得到处理结果，所述目标提取框为所述第二提取框与所述第一提取框中置信度较小的提取框；

若所述第二提取框数量大于1，则若各个相邻的第二提取框的重叠度小于预设第二阈值，并且各个第二提取框的并集与所述第一提取框的比值大于预设第三阈值，则删除所述第一提取框，得到所述处理结果；

根据所述处理结果，输出目标识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述特征图组进行目标提取，得到目标提取结果之后，所述方法还包括：

计算所述目标提取结果中各个四边形提取框的重叠度；

根据所述重叠度对所述目标提取结果进行过滤，得到过滤结果；

根据所述过滤结果，输出所述目标识别结果。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取训练样本集，对于所述训练样本集中的每个样本图像，所述样本图像中的每个标注目标均包括四个标注角点；

根据所述训练样本集训练目标提取网络，直至所述目标提取网络产生的损失小于损失阈值；所述目标提取网络包括依次连接的特征提取网络和目标预测网络；

其中，所述特征提取网络用于提取所述待识别图像的综合局部位置信息和全局上下文信息，得到所述待识别图像对应的特征图组；所述目标预测网络用于基于所述特征图组进行目标提取，得到目标提取结果，所述目标提取结果中的每个目标对应包括四个角点，并且以所述四个角点确定的四边形提取框框选所述目标。

4.根据权利要求3所述的方法，其特征在于，所述获取训练样本集，包括：

获取第一样本集，对于所述第一样本集中的每个第一样本图像，所述第一样本图像中的每个标注目标均包括四个标注角点；

对所述第一样本集中的至少一个第一样本图像进行图像增强，得到所述第一样本图像对应的至少一个第二样本图像；

根据所述第一样本图像集，以及各个第一样本图像对应的各个第二样本图像，生成所述训练样本集。

5.根据权利要求4所述的方法，其特征在于，所述根据所述训练样本集训练目标提取网络，包括：

将样本图像输入所述特征提取网络，得到所述样本图像对应的特征图组；

将所述特征图组输入所述目标预测网络，得到第一热力图组，所述第一热力图组包括每个目标的中心点热力图，以及所述每个目标对应的四个角点的热力图；

根据所述样本图像得到第二热力图组，所述第二热力图组包括每个标注目标的中心点热力图，以及所述每个标注目标的四个角点的热力图；

根据所述第一热力图组和所述第二热力图组，计算损失值；

若所述损失值大于等于所述损失阈值，则反馈调节所述目标提取网络的参数。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一热力图组和所述第二热力图组，计算损失值，包括；

根据所述第一热力图组和所述第二热力图组分别计算第一损失、第二损失、第三损失、第四损失、第五损失和第六损失；

根据所述第一损失、第二损失、第三损失、第四损失、第五损失和第六损失，确定所述损失值；

其中，所述第一损失用于描述中心点的热力图损失，所述第二损失用于描述角点的热力图损失，所述第三损失用于描述四边形提取框的形状损失，所述第四损失用于描述由于图像增强产生的中心点偏移损失，所述第五损失用于描述由于图像增强产生的角点偏移损失，所述第六损失用于描述角点配对损失。

7.一种基于人工智能的目标识别装置，其特征在于，所述装置包括：

待识别图像获取模块，用于获取待识别图像；

目标识别模块，用于若所述目标提取结果中包括至少一个嵌套结构，对所述嵌套结构的外层进行提取，得到第一提取框；以及，对所述嵌套结构的内层进行提取，得到至少一个第二提取框，所述第一提取框和所述第二提取框均为四边形提取框；若所述第二提取框数量等于1，则得到所述第二提取框与第一提取框的交集，若所述交集与所述第二提取框的比值大于预设第一阈值，则删除目标提取框，得到处理结果，所述目标提取框为所述第二提取框与所述第一提取框中置信度较小的提取框；若所述第二提取框数量大于1，则若各个相邻的第二提取框的重叠度小于预设第二阈值，并且各个第二提取框的并集与所述第一提取框的比值大于预设第三阈值，则删除所述第一提取框，得到所述处理结果；根据所述处理结果，输出目标识别结果。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1至6中任一项所述的一种基于人工智能的目标识别方法。

9.一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述指令实现如权利要求1至6中任一项所述的一种基于人工智能的目标识别方法。