CN115861400A

CN115861400A - 目标对象检测方法、训练方法、装置以及电子设备

Info

Publication number: CN115861400A
Application number: CN202310113169.7A
Authority: CN
Inventors: 邹智康; 叶晓青
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-03-28
Anticipated expiration: 2043-02-15
Also published as: CN115861400B

Abstract

本申请提供了目标对象检测方法、训练方法、装置以及电子设备，涉及计算机视觉、图像处理、深度学习等人工智能技术领域，可应用于自动驾驶、智慧城市等场景。具体实现方案为：对待检测图像中的目标对象进行深度信息预测，得到目标对象的关键点的初始关键点深度，以及与初始关键点深度对应的深度信息置信度；根据深度信息置信度和初始关键点深度，确定目标对象的目标预测深度；以及根据目标预测深度，检测待检测图像中的目标对象。

Description

目标对象检测方法、训练方法、装置以及电子设备

技术领域

本申请涉及计算机视觉、图像处理、深度学习等人工智能技术领域，可应用于自动驾驶、智慧城市等场景。

背景技术

在自动驾驶、智能交通等应用场景中，可以通过对待检测的空间进行图像采集，并根据采集到的图像对空间中的车辆、交通标识牌等目标对象进行检测，进而可以根据针对目标对象的检测结果来实现车辆自动驾驶、异常交通情况识别等智能化功能。

发明内容

本申请提供了一种目标对象检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本申请的一方面，提供了一种目标对象检测方法，包括：对待检测图像中的目标对象进行深度信息预测，得到所述目标对象的关键点的初始关键点深度，以及与所述初始关键点深度对应的深度信息置信度；根据所述深度信息置信度和所述初始关键点深度，确定所述目标对象的目标预测深度；以及根据所述目标预测深度，检测所述待检测图像中的目标对象。

根据本申请的另一方面，提供了一种深度学习模型的训练方法，包括：将待检测的样本图像输入至初始深度学习模型，输出所述样本图像中，样本目标对象的样本关键点的样本初始关键点深度，以及与所述样本初始关键点深度对应的样本深度信息置信度；根据所述样本初始关键点深度和所述样本目标对象的样本二维属性，确定所述样本目标对象的预测三维检测框；利用与所述样本目标对象对应的标签三维检测框、所述预测三维检测框和所述样本深度信息置信度，训练所述初始深度学习模型，得到训练后的深度学习模型。

根据本申请的另一方面，提供了一种目标对象检测装置，包括：预测模块，用于对待检测图像中的目标对象进行深度信息预测，得到所述目标对象的关键点的初始关键点深度，以及与所述初始关键点深度对应的深度信息置信度；目标预测深度确定模块，用于根据所述深度信息置信度和所述初始关键点深度，确定所述目标对象的目标预测深度；以及检测模块，用于根据所述目标预测深度，检测所述待检测图像中的目标对象。

根据本申请的另一方面，提供了一种深度学习模型的训练装置，包括：样本图像处理模块，用于将待检测的样本图像输入至初始深度学习模型，输出所述样本图像中，样本目标对象的样本关键点的样本初始关键点深度，以及与所述样本初始关键点深度对应的样本深度信息置信度；预测三维检测框确定模块，用于根据所述样本初始关键点深度和所述样本目标对象的样本二维属性，确定所述样本目标对象的预测三维检测框；训练模块，用于利用与所述样本目标对象对应的标签三维检测框、所述预测三维检测框和所述样本深度信息置信度，训练所述初始深度学习模型，得到训练后的深度学习模型。

根据本申请的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。

图1示意性示出了根据本申请实施例的可以应用目标对象检测方法及装置的示例性***架构。

图2示意性示出了根据本申请实施例的目标对象检测方法的流程图。

图3示意性示出了根据本申请实施例的对待检测图像中的目标对象进行深度信息预测的流程图。

图4示意性示出了根据本申请另一实施例的目标对象检测方法的流程图。

图5示意性示出了根据本申请实施例的根据目标对象中心点热力图的中心点，确定目标对象的多个关键点的应用场景图。

图6示意性示出了根据本申请实施例的根据目标对象检测方法的应用场景图。

图7示意性示出了根据本申请实施例的深度学习模型的训练方法的流程图。

图8示意性示出了根据本申请实施例的目标对象检测装置的框图。

图9示意性示出了根据本申请实施例的深度学习模型的训练装置的框图。

图10示意性示出了根据本申请实施例的适于实现目标对象检测方法或者深度学习模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本申请的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。相应地，在对所涉及的用户个人信息的获取之前，均已向用户告知所需获取的信息的用途，并获取到用户的授权后获取所涉及的信息。

本申请提供了目标对象检测方法、深度学习模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本申请的实施例，目标对象检测方法包括：对待检测图像中的目标对象进行深度信息预测，得到目标对象的关键点的初始关键点深度，以及与初始关键点深度对应的深度信息置信度；根据深度信息置信度和初始关键点深度，确定目标对象的目标预测深度；以及根据目标预测深度，检测待检测图像中的目标对象。

根据本申请的实施例，通过对待检测图像进行检测，可以得到目标对象的关键点的初始关键点深度和深度信息置信度，并进一步根据深度信息置信度和初始关键点深度来确定表征目标对象的深度位置的目标预测深度，因此可以提升针对待检测图像中目标对象的深度信息的检测精度，进而根据目标预测深度来检测待检测图像中的目标对象，可以至少实现提升目标对象检测精度的技术效果。

需要注意的是，图1所示仅为可以应用本申请实施例的***架构的示例，以帮助本领域技术人员理解本申请的技术内容，但并不意味着本申请实施例不可以用于其他设备、***、环境或场景。例如，在另一实施例中，可以应用内容处理方法及装置的示例性***架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本申请实施例提供的内容处理方法及装置。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、车辆103、网络104和服务器105。网络104用以在终端设备101、102、车辆103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102通过网络104与服务器105交互，以接收或发送消息等，或者用户可以操作车辆103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、车辆103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等（仅为示例）。

终端设备101、102、车辆103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

需要说明的是，车辆103上可以安装有用于采集待检测图像的图像采集装置，或者车辆可以还可以通过蓝牙、无线网络等无线通信链路获取到待检测的图像。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、车辆103所浏览的内容提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

需要说明的是，本申请实施例所提供的目标对象检测方法一般可以由终端设备101、102或车辆103执行。相应地，本申请实施例所提供的目标对象检测装置也可以设置于终端设备101、102或车辆103中。

或者，本申请实施例所提供的目标对象检测方法一般也可以由服务器105执行。相应地，本申请实施例所提供的目标对象检测装置一般可以设置于服务器105中。本申请实施例所提供的目标对象检测方法也可以由不同于服务器105且能够与终端设备101、102、车辆103和/或服务器105通信的服务器或服务器集群执行。相应地，本申请实施例所提供的目标对象检测装置也可以设置于不同于服务器105且能够与终端设备101、102、车辆103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、车辆、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、车辆、网络和服务器。

如图2所示，该方法包括操作S210~S230。

在操作S210，对待检测图像中的目标对象进行深度信息预测，得到目标对象的关键点的初始关键点深度，以及与初始关键点深度对应的深度信息置信度。

在操作S220，根据深度信息置信度和初始关键点深度，确定目标对象的目标预测深度。

在操作S230，根据目标预测深度，检测待检测图像中的目标对象。

根据本申请的实施例，待检测图像可以包括通过摄像机等图像采集装置针对待检测空间进行图像采集后得到的，例如可以通过单目摄像机对待检测空间进行图像采集，采集到待检测图像。待检测图像中的目标对象可以包括待检测空间中的车辆、交通标识牌等任意类型的目标对象。

需要说明的是，待检测图像中的目标对象的数量可以是1个，也可以是多个，本申请的实施例对待检测图像中目标对象的数量不做限定。

根据本申请的实施例，目标对象的关键点可以包括在待检测空间中目标对象上的任意类型的点，例如表征目标对象的二维检测框的边缘上的点或者二维检测框内的任意一点。相应地，关键点的数量可以是一个或多个，本申请的实施例对关键点的类型和/或关键点的数量不做限定，本领域技术人员可以根据实际需求进行选择，只要能够表征目标对象即可。

根据本申请的实施例，初始关键点深度可以包括关键点与采集到待检测图像的图像采集装置之间的距离，但不仅限于此，还可以包括安装有图像采集装置的车辆等目标对象检测设备与关键点之间的距离，本申请的实施例对初始关键点深度信息的具体类型不做限定，只有能够满足表征关键点与图像采集装置之间的位置关系即可。

根据本申请的实施例，深度信息置信度可以表征相对应的初始关键点深度，对于预测目标对象的深度位置的贡献程度，从而使根据深度信息置信度和初始关键点深度确定的目标预测深度，可以相应地提升针对目标对象的深度信息的预测精度。

根据本申请的实施例，根据目标预测深度，检测待检测图像中的目标对象可以是根据目标预测深度检测目标对象在待检测空间中的位置，或者还可以根据目标预测深度以及其他表征目标对象的属性信息来检测到目标的分类、移动速度等检测结果，本申请的实施例对检测目标对象的具体检测方式不做限定，只要应用目标预测深度即可。

根据本申请的实施例，通过对待检测图像进行检测，可以得到目标对象的关键点的初始关键点深度和深度信息置信度，并进一步根据深度信息置信度和初始关键点深度来确定表征目标对象的深度位置的目标预测深度，可以至少部分克服相关技术中利用目标对象中心点深度作为目标对象的深度信息造成的深度信息准确率较低的技术问题，提升针对待检测图像中目标对象的深度信息的检测精度，进而根据目标预测深度来检测待检测图像中的目标对象，可以至少实现提升目标对象检测精度的技术效果。

在本申请的任意实施例中，待检测图像可以是通过各种公开、合法合规的方式获取，例如可以在获取相关机构或用户授权后，对于授权信息相对应的待检测空间进行图像采集后得到的图像，或者是由具有相关图像采集权限、图像分析权限的机构或用户来执行本申请实施例中的目标对象检测方法。

下面参考图3~图6，结合具体实施例对图2所示的方法做进一步说明。

根据本申请的实施例，目标对象的关键点包括多个。

如图3所示，操作S210中，对待检测图像中的目标对象进行深度信息预测可以包括操作S310~S320。

在操作S310，将待检测图像输入至目标对象检测模型的语义特征提取层，输出图像语义特征，其中，目标对象检测模型还包括关键点深度预测层和置信度预测层。

在操作S320，将图像语义特征分别输入至关键点深度预测层和置信度预测层，输出目标对象的多个关键点各自对应的初始关键点深度，以及多个初始关键点深度各自对应的深度信息置信度。

根据本申请的实施例，语义特征提取层可以包括基于神经网络算法构建得到的神经网络层，例如可以基于深层融合（DLA，Deep Layer Aggregation）算法构建得到语义特征提取层，但不仅限于此，还可以基于残差网络（ResNet，Residual Networks）算法构建得到语义特征提取层，本申请的实施例对构建语义特征提取层的具体算法类型不做限定，本领域技术人员根据实际需求进行选择，只要能够满足提取待检测图像的语义特征即可。

根据本申请的实施例，可以基于目标检测算法中的骨干（Backbone）网络层构建语义特征提取层，以提取待检测图像中高维度的图像语义特征，进而提升后续输出的初始关键点深度和/或深度信息置信度的准确性。

根据本申请的实施例，图像语义特征可以包括检测点热力图，可以通过对检测点热力图中的检测点设置监督标识的方式来确定对应的多个关键点。

需要说明的是，本申请的实施例对确定多个关键点的具体方式不做限定，例如可以根据人工设置监督标识的方式来确定多个关键点，本领域技术人员可以根据实际需求选择确定多个关键点的具体方式。

根据本申请的实施例，关键点深度预测层可以基于相关技术中的深度检测头（Depth Head）来构建得到，例如可以基于全连接层（Fully connected layers）来构建关键点深度预测层，本申请的实施例对构建关键点深度预测层的具体算法类型不做限定，本领域技术人员可以根据实际需求进行选择。

根据本申请的实施例，置信度预测层可以基于相关技术中的神经网络算法构建得到，置信度预测层输出的深度信息置信度可以与相对应的初始关键点深度具有关联关系，从而便于后续根据相关联的初始关键点深度和深度信息置信度来确定目标预测深度。

例如，在关键点数量为3个的情况下，可以基于如下公式（1）来确定目标预测深度。

D=d₁·u₁+ d₂·u₂+ d₃·u₃；（1）

公式（1）中， D可以表示目标预测深度，d₁、d₂、d₃分别表示关键点G1、G2、G3各自的初始关键点深度，u₁、u₂、u₃分别表示初始关键点深度d₁、d₂、d₃各自对应的深度信息置信度。

根据本申请的实施例，通过将深度信息置信度作为相对应的初始关键点深度的权重参数，并通过将深度置信度信息与初始关键点深度相乘来确定该关键点对应的目标关键点深度，可以使目标关键点深度表征该关键点对于输出目标预测深度的贡献程度（置信程度），从而基于多个目标关键点深度确定目标对象的目标预测深度。相对于相关技术中基于中心点的深度信息来进行目标对象检测的相关检测方法，可以减少目标预测深度与目标对象的真实深度之间的误差，提升针对目标对象的深度信息的检测准确性，实现提升后续针对目标对象进行检测的检测精度的技术效果。

需要说明的是，本申请的实施例提供的目标对象检测模型可以是经过相关训练方法训练后得到的，本申请的实施例对训练目标对象检测模型的具体训练方法不做限定，例如可以基于梯度下降算法来训练目标对象检测模型，但不仅限于此，还可以基于其他训练方法训练得到目标对象检测模型，本申请的实施例对具体的训练方法不做限定，本领域技术人员可以根据实际需求进行选择。

需要说明的是，在本申请的实施例中目标对象检测模型不是针对某一特定用户的检测模型，并不用于检测出某一特定用户的个人信息。目标对象检测模型的检测可以是在经用户授权后执行的，或者还可以是经过具有相关检测权限的机构或用户确认或授权后进行目标对象检测，其检测过程符合相关法律法规。

如图4所示，该目标对象检测方法还可以包括操作S410~S420。

在操作S410，根据图像语义特征，确定目标对象的二维属性，其中，目标对象的二维属性包括目标对象中心点热力图。

在操作S420，根据目标对象中心点热力图中与目标对象对应的中心点，确定目标对象的多个关键点。

根据本申请的实施例，目标对象中心点热力图（heatmap）可以包括用于表征目标对象的多个点，例如可以包含具有不同颜色的像素点。像素点各自的颜色可以表征像素点对应的检测深度，多个像素点中可以包含有检测到的目标对象的中心点，即目标对象中心点热力图的中心点。可以通过中心点从目标对象中心点热力图中筛选出其他的关键点，从而得到包含有中心点的多个关键点。例如，可以将目标对象中心点热力图中，与中心点距离较近的一个或多个像素点确定为关键点。

应该理解的是，得到的多个关键点还可以包括多个关键点各自的位置信息，例如关键点的坐标，相应地可以通过中心点的位置信息来确定对应的其他关键点。

根据本申请的实施例，通过根据中心点从目标对象中心点热力图中确定目标对象的多个关键点，可以使多个关键点具有与目标对象中心点相似的属性，通过上述目标对象检测方法得到的多个关键点各自的初始关键点深度和深度信息置信度，可以从多个维度来表征目标对象的深度位置。相对于仅通过中心点的深度来表征目标对象的深度位置，本申请实施例可以综合考虑多个关键点各自的初始关键点深度和深度信息置信度，来修正中心点检测错误或者中心点的深度检测不准确造成的误差，从而进一步提升针对二维待检测图像中的目标对象的深度检测准确率，实现提升目标对象检测精度的技术效果。

需要说明的是，可以由目标对象检测模型所包含的属性检测头（也称检测分支）处理图像语义特征后输出目标对象中心点热力图，或者还可以通过目标对象检测模型之外的其他检测模型来处理图像语义特征，来得到目标对象中心点热力图，本申请的实施例对处理图像语义特征的具体方式不做限定，本领域技术人员可以根据实际需求进行选择，只要能够至少得到目标对象中心点热力图即可。

根据本申请的实施例，目标对象的二维属性还包括以下至少一项：

类别属性、朝向角属性、尺寸属性。

根据本申请的实施例，类别属性可以包括针对待检测图像中目标对象的分类结果，例如可以包括车辆、交通标识牌等分类结果。

根据本申请的实施例，尺寸属性可以用于表征目标对象在待检测图像中的尺寸，例如可以包括表征目标对象对应的检测框的长、宽等尺寸信息。

根据本申请的实施例，操作S420中，根据目标对象中心点热力图中与目标对象对应的中心点，确定目标对象的多个关键点可以包括如下操作。

根据中心点和静态筛选阈值，从目标对象中心点热力图中筛选出与中心点对应的邻近关键点；以及将邻近关键点和中心点确定为目标对象的多个关键点。

根据本申请的实施例，邻近关键点可以是目标对象中心点热力图中，与中心点的属性邻近的像素点，例如像素颜色与中心点的像素颜色邻近的像素点，静态筛选阈值可以是预先设定的筛选阈值，通过静态筛选阈值来筛选出邻近关键点，可以提升针对邻近关键点的筛选速度，进而实现提升目标对象检测的整体效率。

根据本申请的实施例，可以基于中心点与目标对象中心点热力图中其他像素点的色差值来确定静态筛选阈值，或者还可以通过其他方式来确定静态筛选阈值，本申请的实施例对静态筛选阈值的具体设定方式不做限定，只要能够筛选出于中心点属性邻近的关键点即可。

根据本申请的实施例，静态筛选阈值包括以下至少一项：

静态距离筛选阈值、静态关键点数量筛选阈值。

根据本申请的实施例，通过设定静态距离筛选阈值，可以将目标对象中心点热力图中，与中心点相距静态距离筛选阈值范围内的像素点确定为邻近关键点，从而实现筛选出与中心点的位置相近的关键点，至少部分克服由于中心点的深度位置检测错误产生的目标对象检测精度较低的技术问题。

根据本申请的实施例，静态关键点数量筛选阈值可以表征邻近关键点的数量，通过静态关键点数量筛选阈值从中心点开始搜索邻近关键点，直至邻近关键点的数量到达静态关键点数量筛选阈值，从而可以通过设定静态关键点数量筛选阈值的数量限定关键点的数量，至少部分克服确定的关键点数量较多造成的目标对象检测效率较低的技术问题。

根据本申请的实施例，还可以结合静态距离筛选阈值和静态关键点数量筛选阈值确定静态筛选阈值，即在中心点相距静态距离筛选阈值的范围内，筛选出与静态关键点数量筛选阈值相匹配的数量的多个关键点，从而进一步提升筛选得到关键点的效率，提升后续目标对象的检测效率。

如图5所示，该应用场景中可以包括目标对象中心点热力图500，该目标对象中心点热力图500可以包含有与目标对象对应的中心点510，可以通过静态距离筛选阈值和静态关键点数量筛选阈值，从中心点510相邻的像素点确定邻近关键点521、522、523、524、525、526、527和528。从而可以快速且准确地筛选出与中心点510邻近的其他关键点，进而可以确定与目标对象对应的多个关键点可以包括中心点510，以及邻近关键点521、522、523、524、525、526、527和528。

根据本申请的实施例，还可以将目标对象中心点热力图中，与中心点邻接的像素点确定为邻近关键点，从而进一步加快确定关键点的速度，提升后续目标对象检测的检测效率。

根据目标对象的二维属性，确定与目标对象对应的动态筛选阈值；以及根据中心点和动态筛选阈值，确定目标对象的多个关键点。

根据本申请的实施例，动态筛选阈值可以包括动态距离筛选阈值、动态关键点数量筛选阈值中的任意一项或多项。动态筛选阈值可以是与二维属性相对应的筛选阈值，动态筛选阈值可以根据目标对象的二维属性的不同属性信息或属性值动态地发生改变，以确定与目标对象相适配的动态筛选阈值，提升针对邻近关键点的筛选准确性。

例如，在二维属性为尺寸属性的情况下，可以根据尺寸属性所表征的尺寸大小，确定相适配的动态数量筛选阈值。即可以在尺寸属性所表征的检测框面积较小的情况下，确定动态数量筛选阈值所表征的数量较多，在尺寸属性所表征的检测框面积较大的情况下，确定动态数量筛选阈值所表征的数量较少。由此至少可以针对待检测图像中远景的目标对象确定数量较多的关键点，针对待检测图像中前景的目标对象确定数量较少的关键点，以保证目标对象的深度检测准确性的同时，提升检测效率以及针对不同深度位置的目标对象进行检测的自适应能力，同时改善目标对象检测的效率与准确性。

根据本申请的实施例，可以根据目标对象的尺寸属性、分类属性等任意一项或多项二维属性来确定动态筛选阈值，只要能够满足实际需求即可。

根据本申请的实施例，操作S230中，根据目标预测深度，检测待检测图像中的目标对象以包括如下操作。

根据目标预测深度检测待检测图像中的目标对象，得到表征目标对象的三维检测框。

如图6所示，该应用场景600中，可以将采集到的待检测图像610输入至目标对象检测模型620中，该待检测图像610可以包含有目标对象，即车辆611。

目标对象检测模型620可以包括语义特征提取层621、关键点深度预测层6221、置信度预测层6222、二维检测框预测层6223、分类预测层6224、目标预测深度输出层623和三维检测框输出层624。

语义特征提取层621可以基于残差网络（ResNet）算法构建得到，用于提取待检测图像610中的图像语义特征。提取到的图像语义特征可以分别输入至关键点深度预测层6221、置信度预测层6222、二维检测框预测层6223和分类预测层6224。通过对于车辆611对应的目标对象中心点热力图中的中心点，以及与中心点邻接的邻近关键点添加监督信号，可以实现对包含有中心点的8个关键点进行关键点深度预测和置信度预测，即可以使关键点深度预测层6221输出8个关键点各自的初始关键点深度d₁、d₂…至d₈，置信度预测层6222输出8个关键点各自的深度信息置信度u₁、u₂…至u₈。

初始关键点深度d₁、d₂…至d₈，以及深度信息置信度u₁、u₂…至u₈可以输入至目标预测深度输出层623，目标预测深度输出层623可以基于如下公式（2）计算得到与目标对象（车辆611）对应的目标预测深度。

；（2）

公式（2）中，d_i表示关键点各自的初始关键点深度，u_i表示与初始关键点深度d_i相对应的深度信息置信度，D表示与目标对象对应的目标预测深度。

相应地，二维检测框预测层6223可以输出表征目标对象检测框的二维属性，例如可以输出二维检测框的长、宽等尺寸属性，二维检测框的位置属性，以及朝向角属性等。分类预测层6224可以输出目标对象的分类属性为车辆类别。

将二维检测框预测层6223输出的尺寸属性、朝向角属性，分类预测层6224输出的分类属性，以及目标预测深度输入至三维检测框输出层624，可以得到表征目标对象的三维检测框630，从而实现对待检测图像610中的目标对象的检测，

根据本申请的实施例，相对于仅通过识别到待检测图像中，目标对象的中心点的深度来检测到与目标对象对应的三维检测框，通过确定包含有中心点的多个关键点，并根据多个关键点各自的初始关键点深度和深度信息置信度来生成目标预测深度，可以使目标预测深度更接近目标对象的真实深度，可以至少部分避免针对中心点的位置预测错误导致目标对象的深度信息检测错误，或者由于针对中心点的深度预测错误造成的检测精度较低的技术问题。进而根据目标预测深度生成的三维检测框，能够更加精准地表征目标对象在待检测空间中的位置、尺寸、形状等三维属性信息，进而实现提升对待检测图像的检测精度的技术效果。

根据本申请的实施例，在待检测图像由安装有图像采集装置的工业机器人进行图像采集后得到的应用场景中，操作S230中，根据目标预测深度，检测待检测图像中的目标对象，还可以包括根据目标预测深度确定待检测图像中目标对象与工业机器人的操作部件之间的距离，从而便于工业机器人根据目标预测深度准确地控制操作部件对目标对象执行操作，提升操作的精度。

需要说明的是，本申请的实施例提供的目标对象检测方法还可以应用于自动辅助驾驶应用场景等多种应用场景中，例如安装有图像采集装置的车辆，可以根据上述实施例提供的目标对象检测方法来处理图像采集装置采集到的待检测图像，对车辆周围空间中的交通标识牌、其他车辆等目标对象进行检测，并根据检测结果来控制车辆行驶。

如图7所示，该训练方法包括操作S710~S730。

在操作S710，将待检测的样本图像输入至初始深度学习模型，输出样本图像中，样本目标对象的样本关键点的样本初始关键点深度，以及与样本初始关键点深度对应的样本深度信息置信度。

在操作S720，根据样本初始关键点深度和样本目标对象的样本二维属性，确定样本目标对象的预测三维检测框。

在操作S730，利用与样本目标对象对应的标签三维检测框、预测三维检测框和样本深度信息置信度，训练初始深度学习模型，得到训练后的深度学习模型。

根据本申请的实施例，样本图像中可以包含有车辆，但不仅限于此，还可以包括交通标识牌、或者其他目标对象。

根据本申请的实施例，初始深度学习模型可以包括设置有初始参数的算法模型，但不仅限于此，还可以包括经过参数预调整后的算法模型。

需要说明的是，样本图像中的样本目标对象的数量可以是1个，也可以是多个，本申请的实施例对样本图像中样本目标对象的数量不做限定。

根据本申请的实施例，样本目标对象的样本关键点可以包括在待检测空间中样本目标对象上的任意类型的点，例如表征样本目标对象的二维检测框的边缘上的点或者二维检测框内的任意一点。相应地，样本关键点的数量可以是一个或多个，本申请的实施例对样本关键点的类型和/或关键点的数量不做限定，本领域技术人员可以根据实际需求进行选择，只要能够表征样本目标对象即可。

根据本申请的实施例，样本初始关键点深度可以包括样本关键点与采集到样本图像的图像采集装置之间的距离，但不仅限于此，还可以包括安装有图像采集装置的车辆等样本目标对象检测设备与样本关键点之间的距离，本申请的实施例对样本初始关键点深度信息的具体类型不做限定，只有能够满足表征样本关键点与图像采集装置之间的位置关系即可。

根据本申请的实施例，样本深度信息置信度可以表征相对应的样本初始关键点深度，对于预测样本目标对象的深度位置的贡献程度。

根据本申请的实施例，根据目标预测深度，检测待检测图像中的目标对象可以是根据目标预测深度检测目标对象在待检测空间中的位置，或者还可以根据目标预测深度以及其他表征目标对象的属性信息来检测到目标的分类、移动速度等检测检测结果，本申请的实施例对检测目标对象的具体检测方式不做限定，只要应用目标预测深度即可。

根据本申请的实施例，利用样本初始关键点深度和样本目标对象的样本二维属性确定预测三维检测框，并利用标签三维检测框、预测三维检测框和样本深度信息置信度训练得到目标对象检测模型，可以提升目标对象检测模型针对初始关键点深度和深度置信度的预测准确性，进而减少后续得到目标预测深度与目标对象的真实深度之间的误差。

根据本申请的实施例，可以基于训练后的深度学习模型执行上文描述的目标对象检测方法。例如，可以基于训练后的深度学习模型处理待检测图像，以实现检测待检测图像中的目标对象，生成表征目标对象的三维检测框。或者还可以基于训练后的深度学习模型处理待检测图像后，生成图像采集装置与目标对象之间的深度信息等检测信息。

在本申请的任意实施例中，样本图像可以是通过各种公开、合法合规的方式获取，例如可以在获取相关机构或用户授权后，对于授权信息相对应的样本空间进行图像采集后得到的图像，或者是由具有相关图像采集权限、图像分析权限的机构或用户来执行本申请实施例中的深度学习模型的训练方法。

根据本申请的实施例，操作S730中，利用与样本目标对象对应的标签三维检测框、预测三维检测框和样本深度信息置信度，训练初始深度学习模型可以包括如下操作。

确定标签三维检测框和预测三维检测框之间的样本重叠度信息；将样本重叠度信息，以及与样本初始关键点深度对应的样本深度信息置信度输入至损失函数，输出损失值；根据损失值调整初始深度学习模型的参数，直至损失函数收敛；以及将损失函数收敛的情况下对应的初始深度学习模型确定为训练后的深度学习模型。

根据本申请的实施例，样本重叠度信息可以是能够表征预测三维检测框与标签三维检测框之间的重叠程度的数值或参数等信息。例如可以通过计算预测三维检测框与标签三维检测框之间的交并比（IOU，Intersection over Union）来确定样本重叠度信息。但不局限于此，还可以通过概括交并比（GIOU，Generalized Intersection over Union）、距离交并比（DIOU（Distance Intersection over Union）等其他计算方式来得到样本重叠度信息，只要能够满足表征预测三维检测框与标签三维检测框之间的重叠程度即可。

根据本申请的实施例，样本目标对象的样本关键点包括多个。

操作S710中，将待检测的样本图像输入至初始深度学习模型，输出样本初始关键点深度和样本深度信息置信度可以包括如下操作。

将待检测的样本图像输入至初始深度学习模型的初始语义特征提取层，输出样本图像语义特征，其中，初始深度学习模型还包括初始关键点深度预测层和初始置信度预测层；将样本图像语义特征分别输入至初始关键点深度预测层和初始置信度预测层，输出样本目标对象的多个样本关键点各自对应的样本初始关键点深度，以及多个样本初始关键点深度各自对应的样本深度信息置信度。

根据本申请的实施例，上述深度学习模型的训练方法还可以包括如下操作。

根据样本图像语义特征，确定样本目标对象的样本二维属性，其中，样本目标对象的样本二维属性包括样本目标对象中心点热力图；以及根据样本目标对象中心点热力图中与样本目标对象对应的样本中心点，确定样本目标对象的多个样本关键点。

根据本申请的实施例，根据样本目标对象中心点热力图中与样本目标对象对应的样本中心点，确定样本目标对象的多个样本关键点可以包括如下操作。

根据样本中心点和静态筛选阈值，从样本目标对象中心点热力图中筛选出与样本中心点对应的样本邻近关键点；以及将样本邻近关键点和样本中心点确定为样本目标对象的多个样本关键点。

根据本申请的实施例，静态筛选阈值包括以下至少一项：

静态距离筛选阈值、静态关键点数量筛选阈值。

根据本申请的实施例，样本目标对象的样本二维属性还包括以下至少一项：

样本类别属性、样本朝向角属性、样本尺寸属性。

根据样本目标对象的样本二维属性，确定与样本目标对象对应的动态筛选阈值；以及根据样本中心点和动态筛选阈值，确定样本目标对象的多个样本关键点。

如图8所示，目标对象检测装置800包括预测模块810、目标预测深度确定模块820和检测模块830。

预测模块810，用于对待检测图像中的目标对象进行深度信息预测，得到目标对象的关键点的初始关键点深度，以及与初始关键点深度对应的深度信息置信度。

目标预测深度确定模块820，用于根据深度信息置信度和初始关键点深度，确定目标对象的目标预测深度。

检测模块830，用于根据目标预测深度，检测待检测图像中的目标对象。

根据本申请的实施例，目标对象的关键点包括多个。

其中，预测模块包括：语义特征提取单元和预测单元。

语义特征提取单元，用于将待检测图像输入至目标对象检测模型的语义特征提取层，输出图像语义特征，其中，目标对象检测模型还包括关键点深度预测层和置信度预测层。

预测单元，用于将图像语义特征分别输入至关键点深度预测层和置信度预测层，输出目标对象的多个关键点各自对应的初始关键点深度，以及多个初始关键点深度各自对应的深度信息置信度。

根据本申请的实施例，目标对象检测装置还包括：二维属性确定模块和关键点确定模块。

二维属性确定模块，用于根据图像语义特征，确定目标对象的二维属性，其中，目标对象的二维属性包括目标对象中心点热力图。

关键点确定模块，用于根据目标对象中心点热力图中与目标对象对应的中心点，确定目标对象的多个关键点。

根据本申请的实施例，关键点确定模块包括：邻近关键点筛选单元和第一关键点确定单元。

邻近关键点筛选单元，用于根据中心点和静态筛选阈值，从目标对象中心点热力图中筛选出与中心点对应的邻近关键点。

第一关键点确定单元，用于将邻近关键点和中心点确定为目标对象的多个关键点。

根据本申请的实施例，静态筛选阈值包括以下至少一项：

静态距离筛选阈值、静态关键点数量筛选阈值。

类别属性、朝向角属性、尺寸属性。

根据本申请的实施例，关键点确定模块包括：动态筛选阈值确定单元和第二关键点确定单元。

动态筛选阈值确定单元，用于根据目标对象的二维属性，确定与目标对象对应的动态筛选阈值。

第二关键点确定单元，用于根据中心点和动态筛选阈值，确定目标对象的多个关键点。

根据本申请的实施例，检测模块包括检测单元。

检测单元，用于根据目标预测深度检测待检测图像中的目标对象，得到表征目标对象的三维检测框。

如图9所示，深度学习模型的训练装置900包括样本图像处理模块910、预测三维检测框确定模块920和训练模块930。

样本图像处理模块910，用于将待检测的样本图像输入至初始深度学习模型，输出样本图像中，样本目标对象的样本关键点的样本初始关键点深度，以及与样本初始关键点深度对应的样本深度信息置信度。

预测三维检测框确定模块920，用于根据样本初始关键点深度和样本目标对象的样本二维属性，确定样本目标对象的预测三维检测框。

训练模块930，用于利用与样本目标对象对应的标签三维检测框、预测三维检测框和样本深度信息置信度，训练初始深度学习模型，得到训练后的深度学习模型。

根据本申请的实施例，训练模块包括：样本重叠度信息确定单元、损失值确定单元、参数调整单元和深度学习模型确定单元。

样本重叠度信息确定单元，用于确定标签三维检测框和预测三维检测框之间的样本重叠度信息。

损失值确定单元，用于将样本重叠度信息，以及与样本初始关键点深度对应的样本深度信息置信度输入至损失函数，输出损失值。

参数调整单元，用于根据损失值调整初始深度学习模型的参数，直至损失函数收敛。

深度学习模型确定单元，用于将损失函数收敛的情况下对应的初始深度学习模型确定为训练后的深度学习模型。

样本图像处理模块可以包括：样本语义特征提取单元和样本预测单元。

样本语义特征提取单元，用于将待检测的样本图像输入至初始深度学习模型的初始语义特征提取层，输出样本图像语义特征，其中，初始深度学习模型还包括初始关键点深度预测层和初始置信度预测层。

样本预测单元，用于将样本图像语义特征分别输入至初始关键点深度预测层和初始置信度预测层，输出样本目标对象的多个样本关键点各自对应的样本初始关键点深度，以及多个样本初始关键点深度各自对应的样本深度信息置信度。

根据本申请的实施例，上述深度学习模型的训练装置还可以包括：样本二维属性确定模块和样本关键点确定模块。

样本二维属性确定模块，用于根据样本图像语义特征，确定样本目标对象的样本二维属性，其中，样本目标对象的样本二维属性包括样本目标对象中心点热力图。

样本关键点确定模块，用于根据样本目标对象中心点热力图中与样本目标对象对应的样本中心点，确定样本目标对象的多个样本关键点。

根据本申请的实施例，样本关键点确定模块可以包括：样本邻近关键点筛选单元和第一样本关键点确定单元。

样本邻近关键点筛选单元，用于根据样本中心点和静态筛选阈值，从样本目标对象中心点热力图中筛选出与样本中心点对应的样本邻近关键点。

第一样本关键点确定单元，用于将样本邻近关键点和样本中心点确定为样本目标对象的多个样本关键点。

根据本申请的实施例，静态筛选阈值包括以下至少一项：

静态距离筛选阈值、静态关键点数量筛选阈值。

样本类别属性、样本朝向角属性、样本尺寸属性。

根据本申请的实施例，样本关键点确定模块可以包括：动态筛选阈值确定单元和第二样本关键点确定单元。

动态筛选阈值确定单元，用于根据样本目标对象的样本二维属性，确定与样本目标对象对应的动态筛选阈值。

第二样本关键点确定单元，用于根据样本中心点和动态筛选阈值，确定样本目标对象的多个样本关键点。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本申请的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本申请的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本申请的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图10示出了可以用来实施本申请的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器（ROM）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（RAM）1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如目标对象检测方法或者深度学习模型的训练方法。例如，在一些实施例中，目标对象检测方法或者深度学习模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的目标对象检测方法或者深度学习模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行目标对象检测方法或者深度学习模型的训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上***的***（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种目标对象检测方法，包括：

对待检测图像中的目标对象进行深度信息预测，得到所述目标对象的关键点的初始关键点深度，以及与所述初始关键点深度对应的深度信息置信度；

根据所述深度信息置信度和所述初始关键点深度，确定所述目标对象的目标预测深度；以及

根据所述目标预测深度，检测所述待检测图像中的目标对象。

2.根据权利要求1所述的方法，其中，所述目标对象的关键点包括多个；

其中，对所述待检测图像中的目标对象进行深度信息预测包括：

将所述待检测图像输入至目标对象检测模型的语义特征提取层，输出图像语义特征，其中，所述目标对象检测模型还包括关键点深度预测层和置信度预测层；

将所述图像语义特征分别输入至所述关键点深度预测层和所述置信度预测层，输出所述目标对象的多个所述关键点各自对应的初始关键点深度，以及多个所述初始关键点深度各自对应的深度信息置信度。

3.根据权利要求2所述的方法，还包括：

根据所述图像语义特征，确定所述目标对象的二维属性，其中，所述目标对象的二维属性包括目标对象中心点热力图；以及

根据所述目标对象中心点热力图的中心点，确定所述目标对象的多个所述关键点。

4.根据权利要求3所述的方法，其中，根据所述目标对象中心点热力图中与所述目标对象对应的中心点，确定所述目标对象的多个所述关键点包括：

根据所述中心点和静态筛选阈值，从所述目标对象中心点热力图中筛选出与所述中心点对应的邻近关键点；以及

将所述邻近关键点和所述中心点确定为所述目标对象的多个所述关键点。

5.根据权利要求4所述的方法，其中，所述静态筛选阈值包括以下至少一项：

静态距离筛选阈值、静态关键点数量筛选阈值。

6.根据权利要求3所述的方法，其中，所述目标对象的二维属性还包括以下至少一项：

类别属性、朝向角属性、尺寸属性。

7.根据权利要求6所述的方法，其中，根据所述目标对象中心点热力图中与所述目标对象对应的中心点，确定所述目标对象的多个所述关键点包括：

根据所述目标对象的二维属性，确定与所述目标对象对应的动态筛选阈值；以及

根据所述中心点和所述动态筛选阈值，确定所述目标对象的多个所述关键点。

8.根据权利要求1所述的方法，其中，根据所述目标预测深度，检测所述待检测图像中的目标对象包括：

根据所述目标预测深度检测所述待检测图像中的目标对象，得到表征所述目标对象的三维检测框。

9.一种深度学习模型的训练方法，包括：

将待检测的样本图像输入至初始深度学习模型，输出所述样本图像中，样本目标对象的样本关键点的样本初始关键点深度，以及与所述样本初始关键点深度对应的样本深度信息置信度；

根据所述样本初始关键点深度和所述样本目标对象的样本二维属性，确定所述样本目标对象的预测三维检测框；

利用与所述样本目标对象对应的标签三维检测框、所述预测三维检测框和所述样本深度信息置信度，训练所述初始深度学习模型，得到训练后的所述深度学习模型。

10.根据权利要求9所述的训练方法，其中，利用与所述样本目标对象对应的标签三维检测框、所述预测三维检测框和所述样本深度信息置信度，训练所述初始深度学习模型包括：

确定所述标签三维检测框和所述预测三维检测框之间的样本重叠度信息；

将所述样本重叠度信息，以及与所述样本初始关键点深度对应的样本深度信息置信度输入至损失函数，输出损失值；

根据所述损失值调整所述初始深度学习模型的参数，直至所述损失函数收敛；以及

将所述损失函数收敛的情况下对应的初始深度学习模型确定为训练后的深度学习模型。

11.一种目标对象检测装置，包括：

预测模块，用于对待检测图像中的目标对象进行深度信息预测，得到所述目标对象的关键点的初始关键点深度，以及与所述初始关键点深度对应的深度信息置信度；

目标预测深度确定模块，用于根据所述深度信息置信度和所述初始关键点深度，确定所述目标对象的目标预测深度；以及

检测模块，用于根据所述目标预测深度，检测所述待检测图像中的目标对象。

12.根据权利要求11所述的装置，其中，所述目标对象的关键点包括多个；

其中，所述预测模块包括：

语义特征提取单元，用于将所述待检测图像输入至目标对象检测模型的语义特征提取层，输出图像语义特征，其中，所述目标对象检测模型还包括关键点深度预测层和置信度预测层；

预测单元，用于将所述图像语义特征分别输入至所述关键点深度预测层和所述置信度预测层，输出所述目标对象的多个所述关键点各自对应的初始关键点深度，以及多个所述初始关键点深度各自对应的深度信息置信度。

13.根据权利要求12所述的装置，还包括：

二维属性确定模块，用于根据所述图像语义特征，确定所述目标对象的二维属性，其中，所述目标对象的二维属性包括目标对象中心点热力图；以及

关键点确定模块，用于根据所述目标对象中心点热力图中与所述目标对象对应的中心点，确定所述目标对象的多个所述关键点。

14.根据权利要求13所述的装置，其中，所述关键点确定模块包括：

邻近关键点筛选单元，用于根据所述中心点和静态筛选阈值，从所述目标对象中心点热力图中筛选出与所述中心点对应的邻近关键点；以及

第一关键点确定单元，用于将所述邻近关键点和所述中心点确定为所述目标对象的多个所述关键点。

15.根据权利要求14所述的装置，其中，所述静态筛选阈值包括以下至少一项：

静态距离筛选阈值、静态关键点数量筛选阈值。

16.根据权利要求13所述的装置，其中，所述目标对象的二维属性还包括以下至少一项：

类别属性、朝向角属性、尺寸属性。

17.根据权利要求16所述的装置，其中，所述关键点确定模块包括：

动态筛选阈值确定单元，用于根据所述目标对象的二维属性，确定与所述目标对象对应的动态筛选阈值；以及

第二关键点确定单元，用于根据所述中心点和所述动态筛选阈值，确定所述目标对象的多个所述关键点。

18.根据权利要求11所述的装置，其中，所述检测模块包括：

检测单元，用于根据所述目标预测深度检测所述待检测图像中的目标对象，得到表征所述目标对象的三维检测框。

19.一种深度学习模型的训练装置，包括：

样本图像处理模块，用于将待检测的样本图像输入至初始深度学习模型，输出所述样本图像中，样本目标对象的样本关键点的样本初始关键点深度，以及与所述样本初始关键点深度对应的样本深度信息置信度；

预测三维检测框确定模块，用于根据所述样本初始关键点深度和所述样本目标对象的样本二维属性，确定所述样本目标对象的预测三维检测框；

训练模块，用于利用与所述样本目标对象对应的标签三维检测框、所述预测三维检测框和所述样本深度信息置信度，训练所述初始深度学习模型，得到训练后的深度学习模型。

20.根据权利要求19所述的训练装置，所述训练模块包括：

样本重叠度信息确定单元，用于确定所述标签三维检测框和所述预测三维检测框之间的样本重叠度信息；

损失值确定单元，用于将所述样本重叠度信息，以及与所述样本初始关键点深度对应的样本深度信息置信度输入至损失函数，输出损失值；

参数调整单元，用于根据所述损失值调整所述初始深度学习模型的参数，直至所述损失函数收敛；以及

深度学习模型确定单元，用于将所述损失函数收敛的情况下对应的初始深度学习模型确定为训练后的所述深度学习模型。

21. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法。