CN111899277B

CN111899277B - 运动目标检测方法及装置、存储介质、电子装置

Info

Publication number: CN111899277B
Application number: CN202010659290.6A
Authority: CN
Inventors: 张凯; 卢维; 任宇鹏
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2024-07-12
Anticipated expiration: 2040-07-09
Also published as: CN111899277A

Abstract

本发明提供了一种运动目标检测方法及装置、存储介质、电子装置，其中，所述方法包括：根据传感器中的雷达数据确定运动目标的帧间运动估计结果；根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧；根据所述相机图像数据获取所述t0时刻的图像的目标分割结果；根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果。通过本发明，解决了移动平台下的运动目标感知的问题，进而达到了目标检测的感知精度高和鲁棒性好的的效果。

Description

运动目标检测方法及装置、存储介质、电子装置

技术领域

本发明涉及移动平台下的运动目标感知领域，具体而言，涉及一种运动目标检测方法及装置、存储介质、电子装置。

背景技术

机器人同时定位，地图构建与实时的动态场景感知是机器人对自身状态、环境状态和目标状态的同时估计，从而能够使机器人具备对外界环境和自身状态的实时认知能力，具有广泛的应用前景。

通过前景、背景检测识别技术已经能够较好的处理固定摄像头，静态视角下的场景感知。但是针对移动平台，比如机器人的运动目标感知技术，还较为缺陷。

针对相关技术中移动平台下的运动目标感知的问题，目前尚未存在有效的解决方案。

发明内容

本发明实施例提供了一种运动目标检测方法及装置、存储介质、电子装置，以至少解决相关技术中移动平台下的运动目标感知的问题。

根据本发明的一个实施例，提供了一种运动目标检测方法，包括：根据传感器中的雷达数据确定运动目标的帧间运动估计结果；根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧；根据所述相机图像数据获取所述t0时刻的图像的目标分割结果；根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果。

根据本发明的另一个实施例，提供了一种运动目标检测装置，包括：确定模块，用于根据传感器中的雷达数据确定运动目标的帧间运动估计结果；第一获取模块，用于根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧；第二获取模块，用于根据所述相机图像数据获取所述t0时刻的图像的目标分割结果；确定模块，用于根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，由于根据传感器中的雷达数据确定运动目标的帧间运动估计结果，然后根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图和根据所述相机图像数据获取所述t0时刻的图像的目标分割结果。从而根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果。因此，可以解决移动平台下的运动目标感知的问题，达到目标检测的感知精度高和鲁棒性好的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种运动目标检测方法的移动终端的硬件结构框图；

图2是根据本发明实施例的运动目标检测方法的流程图；

图3是根据本发明实施例的运动目标检测置的结构框图；

图4是根据本发明实施例运动目标检测方法的流程示意图示意图；

图5是根据本发明可选实施例的运动目标感知决策流程示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种运动目标检测方法的移动终端的硬件结构框图。如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的运动目标检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述移动终端的运动目标检测方法，图2是根据本发明实施例的运动目标检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，根据传感器中的雷达数据确定运动目标的帧间运动估计结果；

步骤S204，根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧；

步骤S206，根据所述相机图像数据获取所述t0时刻的图像的目标分割结果；

步骤S208，根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果。

通过上述步骤，由于根据传感器中的雷达数据确定运动目标的帧间运动估计结果，然后根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图和根据所述相机图像数据获取所述t0时刻的图像的目标分割结果。从而根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果。因此，可以解决移动平台下的运动目标感知的问题，达到目标检测的感知精度高和鲁棒性好的效果。

在上述步骤S202中的多传感器中至少包括了激光雷达以及双目相机。通过所述传感器中的雷达数据确定出所述运动目标的帧间运动估计结果。

需要注意的是，运动目标在前后帧之间的运动估计结果可以通过视觉、激光或者移动平台的底层里程计结果等获取都可以。相比较而言，激光数据较为准确，故在所述步骤中选择激光雷达数据确定帧间运动估计结果。

在上述步骤S204中根据所述传感器中的相机图像获取前后帧的深度图。具体而言，获取t0时刻双目相机的左图I⁰与双目相机的右图R⁰对应的深度图D⁰，t1时刻双目相机的左图I¹与双目相机的右图R¹深度图D¹。

在上述步骤S206中根据所述相机图像数据确定在t0时刻的图像的目标分割结果。具体而言，获取t0时刻图像I⁰的实例目标分割结果。

在上述步骤S208中根据上述步骤中的所述帧间运动估计结果和所述深度图以及所述目标分割结果。具体而言，基于前后帧的激光雷达点云数据获取一个初始的帧间运动结果，然后结合语义标签结果与几何约束计算残差，再根据经验阈值过滤残差结果，最后经过后处理获取最终的运动目标分割结果。

作为本发明的可选实施例，根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果包括：根据预设损失函数和预设指向函数确定经过相机运动后对应图像的残差值，其中，所述预设损失函数中包括：所述相机的位姿参数、所述t0时刻和所述t1时刻的图像的深度图；所述预设指向函数中包括：所述图像的目标分割结果，所述目标分割结果包括：所述图像中像素点的语义类别；根据所述残差值和所述目标分割结果确定运动目标的分割结果。即通过设损失函数和预设指向函数确定经过相机运动后对应图像的残差值，然后根据所述残差值和所述目标分割结果确定运动目标的分割结果。在所述预设指向函数中包含了基于图像中像素点的语义类别的目标分割结果。在所述预设损失函数中包含了所述相机的位姿参数、所述t0时刻和所述t1时刻的图像的深度图的几何关系限定。

具体实施时，经过相机运动后对应图像的残差值根据预设损失函数和预设指向函数进行确定。通过引入语义属性关联的指示函数，不仅能有效抑制数据预处理的计算偏差造成的静态背景几何残差值的影响，还能提高运动目标的检出率。同时在残差项的定义中采用三维几何位置对齐偏差进行的感知决策，准确性高。

作为本发明的可选实施例，所述预设损失函数按照如下步骤建立：根据t0时刻的图像的深度图和相机的反向投影函数确定参考像素点的第一相关参数项，其中，所述反向投影函数中包括所述相机的位姿参数为三维运动参数，所述参考像素点包括t0时刻的图像的一个像素点；根据t1时刻的图像的深度图和相机的反向投影函数确定对应像素点的第二参数项，其中，所述对应像素点包括根据已知运动对应到t1时刻的图像上的对应像素位置坐标；根据所述第一参数项和所述第二参数项建立所述预设损失函数。

具体实施时，根据所述第一参数项和所述第二参数项之间的差值建立所述预设损失函数。其中，所述参考像素点包括t0时刻的图像的一个像素点，所述对应像素点包括根据已知运动对应到t1时刻的图像上的对应像素位置坐标。

作为本发明的可选实施例，所述预设指向函数按照如下步骤建立：确定所述图像中的像素点的语义类别；根据所述语义类别确定该语义类别对应的运动概率值；在所述像素点的语义类别属于第一场景的情况下，所述运动概率值小于1，其中，所述第一场景包括：所述像素点为确定背景目标的语义类别；在所述像素点的语义类别属于第二场景的情况下，所述运动概率值等于1，其中，所述第二场景包括：所述像素点为运动或者静止的语义类别；在所述像素点的语义类别属于第三场景的情况下，所述运动概率值大于1，其中，所述第三场景包括：所述像素点为确定运动状态的语义类别；根据所述运动概率值建立语义属性关联的指向函数。

具体实施时，所述指向函数基于像素点p的语义属性进行运动概念的经验分配，假设上述语义分割包含的语义类别有N种，则首先获取对应的像素点p的语义类别则对应类别的经验运动概率值α_p(i)＝s_i,i＝1,2,...,N,s_i∈[0,2]。

作为本发明的可选实施例，所述根据所述残差值和所述目标分割结果确定运动目标的分割结果包括：筛选所述残差值得到残渣值大于和小于预设阈值的像素点；添加所述残渣值大于预设阈值的像素点到待遍历队列中；将所述待遍历队列中的元素至目标运动分割结果集并从第一元素开始遍历所述待遍历队列中的元素；遍历所述第一元素的联通域中的元素，在存在第二元素满足预设门限值的情况下，将所述第二元素添加至所述待遍历队列，其中，所述预设门限值包括：对不同类别的语义标记元素设置的不同阈值；在完成遍历后将所述第一元素从所述待遍历队列中删除；重复上述遍历过程，直到所述待遍历队列中的所述第一元素为空时停止，得到所述运动目标的分割结果。

具体实施时，根据所述目标分割结果和上述步骤中计算得到的残差值结果，进行后处理。首先基于残差值结果进行阈值筛选，具体为画出残差值的直方图分布，总结经验选取合适的阈值，假设为δ_r，即残差值小于δ_r的像素点标记为0，否则标记为1。然后再结合语义分割结果的区域生长过程优化运动目标区域分割结果。

当遍历所述第一元素的联通域中的元素，存在第二元素满足预设门限值的情况下，遍历第一元素的联通域中的每一个元素，对于每一个n∈N(p)元素进行判断，如果存在如下条件：||D⁰(p)-D⁰(n)||＜θ_i·D⁰(p)，则添加第一元素到队列中。其中，所述θ_i中即对于不同类别的语义标记元素设置了不同的θ阈值，具体为对于语义类别上的静态背景目标θ阈值更大，而动态运动目标θ阈值更小。

作为本发明的可选实施例，所述根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧包括：将所述相机图像数据输入预设第一机器学习模型，分别获取所述t0时刻左图与右图对应的第一深度图以及所述t1时刻左图与右图对应的第二深度图，其中，所述预设第一机器学习模型是用于将相机图像数据中的双目图像的视差结果转化为深度值的网络模型；所述根据所述相机图像数据获取所述t0时刻的图像的目标分割结果包括：将所述相机图像数据输入预设第二机器学习模型，获取所述t0时刻的图像的目标分割结果，其中，所述第二机器学习模型是用于语义分割的网络模型。

具体实施时，视差网络采用一种分层金字塔的立体匹配网络PSM-Net分别获取t0时刻左图I⁰与右图R⁰对应的深度图D⁰，t1时刻左图I¹与右图R¹深度图D¹。采用Mask R-CNN作为分割网络获取t0时刻图像I⁰的实例目标分割结果，记为

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种运动目标检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的运动目标检测装置的结构框图，如图2所示，该装置包括

确定模块30，用于根据传感器中的雷达数据确定运动目标的帧间运动估计结果；

第一获取模块32，用于根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧；

第二获取模块34，用于根据所述相机图像数据获取所述t0时刻的图像的目标分割结果；

确定模块36，用于根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果。

在所述确定模块30中的多传感器中至少包括了激光雷达以及双目相机。通过所述传感器中的雷达数据确定出所述运动目标的帧间运动估计结果。

在所述第一获取模块32中根据所述传感器中的相机图像获取前后帧的深度图。具体而言，获取t0时刻双目相机的左图I⁰与双目相机的右图R⁰对应的深度图D⁰，t1时刻双目相机的左图I¹与双目相机的右图R¹深度图D¹。

在所述第二获取模块34中根据所述相机图像数据确定在t0时刻的图像的目标分割结果。具体而言，获取t0时刻图像I⁰的实例目标分割结果。

在所述确定模块36中根据上述模块中的所述帧间运动估计结果和所述深度图以及所述目标分割结果。具体而言，基于前后帧的激光雷达点云数据获取一个初始的帧间运动结果，然后结合语义标签结果与几何约束计算残差，再根据经验阈值过滤残差结果，最后经过后处理获取最终的运动目标分割结果。

作为本发明的可选实施例，所述确定模块36，还用于根据预设损失函数和预设指向函数确定经过相机运动后对应图像的残差值，其中，所述预设损失函数中包括：所述相机的位姿参数、所述t0时刻和所述t1时刻的图像的深度图；所述预设指向函数中包括：所述图像的目标分割结果，所述目标分割结果包括：所述图像中像素点的语义类别；根据所述残差值和所述目标分割结果确定运动目标的分割结果。具体实施时，经过相机运动后对应图像的残差值根据预设损失函数和预设指向函数进行确定。通过引入语义属性关联的指示函数，不仅能有效抑制数据预处理的计算偏差造成的静态背景几何残差值的影响，还能提高运动目标的检出率。同时在残差项的定义中采用三维几何位置对齐偏差进行的感知决策，准确性高。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

为了更好的理解上述运动目标检测方法流程，以下结合优选实施例对上述技术方案进行解释说明，但不用于限定本发明实施例的技术方案。

本发明优选实施例中基于深度融合的多传感器数据进行移动平台的运动目标感知，其中点云数据用来计算初始运动估计，双目图像数据计算深度信息以及语义类别。同时结合语义属性引导的空间几何残差项进行感知决策，感知精度高、鲁棒性好。此外，还提出融合语义属性与深度突变判断的后处理优化过程，获取精确的运动目标分割结果，甚至支持直接获取部分运动目标的语义类别。

如图4所示，是本发明实施例中运动目标检测方法的流程示意图，如图5所示，是本发明实施例中运动目标感知决策流程示意图。

步骤S400，进行处理多传感器融合数据获取。完成激光雷达与双目相机之间的时序对齐以及外参标定。假设双目相机左相机与激光雷达之间的外参为T_CamLidar以及双目左相机的内参为K。假设获取双目相机前后帧图像数据分别为t0时刻左图I⁰、右图R⁰、激光雷达数据L⁰，t1时刻左图I¹、右图R¹以及激光雷达数据L¹。

步骤S402，数据预处理。具体地，深度估计的预处理步骤：

采用深度学习技术能够基于深度网络获取双目图像较为致密、稳定的视差结果，再通过双目相机标定结果可将视差结果转换成相机坐标系下的深度值。比如，差网络采用一种分层金字塔的立体匹配网络PSM-Net分别获取t0时刻左图I⁰与右图R⁰对应的深度图D⁰，t1时刻左图I¹与右图R¹深度图D¹。

具体地，实例语义目标分割的预处理步骤包括：

语义分割结果也可以采用深度网络方法，例如采用Mask R-CNN作为分割网络获取t0时刻图像I⁰的实例目标分割结果，记为

步骤S404，动态目标感知决策。首先基于前后帧的激光点云数据获取一个初始的帧间运动结果T_lidar，然后结合语义标签结果与几何约束计算残差，再根据经验阈值过滤残差结果，最后经过后处理获取最终的运动目标分割结果。

具体实施时，包括：步骤S4041帧间运动估计。

前后帧之间的运动估计结果可以通过视觉、激光或者移动平台的底层里程计结果等获取都可以。相比较而言，激光数据较为准确。以激光数据为例的帧间运动ξ的估计过程。

假设上述获取的两帧激光雷达点云集合L⁰与L¹：其中L⁰由m个三维坐标点组成，其中L¹由n个三维坐标点组成，假设待求解的前后帧的初始运动为T_lidar，T_lidar＝[R,t]^T，则可以构建优化目标函数如下：

首先求解两组点云的质心位置，然后计算每个点的去质心坐标，然后用去质心之后的坐标替代上式中的对应点坐标，最后可通过SVD分解或非线性优化迭代等方法获取最终解T_lidar。

通过上述的标定结果T_CamLidar可将激光雷达坐标系下运动转换到双目相机坐标系下。

步骤S4042，残差计算。基于上述的融合数据预处理结果以及初始的帧间运动估计结果，计算相机运动ξ对应图像的残差值E_res，t0时刻参考图像I⁰上的任一像素点p：p＝[u,v]^T，经过相机运动ξ后的残差值的定义如下：

这里函数D(p)定义为p点对应的深度值，D⁰(p)与D¹(p′)分别对应t0时刻与t1时刻的深度图像。其中ρ(x)采用Charbonnier损失函数，具体ρ(x)＝(x²+ε²)^α，指定设置α＝0.45、ε＝10^-5。

则定义为相机的反向投影函数，假设为针孔相机模型下，则：

可知，这里K包含的f_x、f_y、cx、cy即为相机的内参，可基于前述的相机标定获取。

表示一个相机的位姿为三维运动T＝SE(3)，可知一个小的刚体运动可以被写作李代数ξ∈se3表示，对应的刚体变化矩阵可以通过指数映射转换T′∈SE(3)。p表示参考图像I⁰上的一个像素点，p′就代表了根据已知运动对应到I¹上的对应像素位置坐标，则刚体运动ξ下的反向深度投影可以表示如下：

α_p作为一个指向函数，基于像素点p的语义属性进行运动概念的经验分配，假设上述语义分割包含的语义类别有N种，则首先获取对应的像素点p的语义类别则对应类别的经验运动概率值α_p(i)＝s_i,i＝1,2,...,N,s_i∈[0,2]。假设当p为确定背景目标，例如路面，路灯，灯杆等，对应的α_p值应该小于1，比如α_p＝0.5；而当p为可能运动的目标，目标也可能静止的语义类别时，例如汽车，可能在道路上行驶，也能在路面停车，对应的α_p＝1；当p为确定运动状态的语义类别时，比如行人、动物，这类非刚体的语义类别的目标很难保持绝对的静止状态，对应的α_p值应该大于1，比如α_p＝1.1。因此本提案通过引入语义属性关联的指示函数，不仅能有效抑制数据预处理的计算偏差造成的静态背景几何残差值的影响，还能极大地提高运动目标的检出率。

考虑到运动目标的本身属性，运动会导致目标的被观察视角、光照明暗等发生迅速改变，在上述步骤中提出的残差项定义采用更鲁棒的三维几何位置对齐偏差以及更高级的语义属性约束能极大提高运动目标的感知的准确性和鲁棒性。

步骤S4043，后处理。基于实例分割结果和上述的残差值结果，进行后处理。首先基于残差值结果进行阈值筛选，具体为画出残差值的直方图分布，总结经验选取合适的阈值，假设为δ_r，即残差值小于δ_r的像素点标记为0，否则标记为1。

但是考虑到实际上基于阈值分割的结果并不非常理想，会存在离散噪点区域以及目标内部区域不完整的的情况。因为本提案提出进一步的处理方法，结合语义分割结果的区域生长过程优化运动目标区域分割结果。

区域生长具体过程为：(1)添加所有上述阈值分割过程中标记为1的像素点到待遍历队列M中，假设记录运动目标分割mask结果集合为M_Res。(2)添加M中的所有元素到M_Res，开始遍历队列M中的所有元素，假设首先从M中的任一元素P开始，元素P的8联通域记为N(p)。(3)遍历N(p)中的每一个元素，对于每一个n∈N(p)元素进行判断，如果存在如下条件：||D⁰(p)-D⁰(n)||＜θ_i·D⁰(p)，则添加元素n到队列M中，完成的遍历后，则从队列M中删去元素p。(4)重复以上的过程，一直到队列M中元素为空时停止。(5)最终获取运动目标的最优分割结果M_Res，其中，所述θ_i中即对于不同类别的语义标记元素设置了不同的θ阈值，具体为对于语义类别上的静态背景目标θ阈值更大，而动态运动目标θ阈值更小，具体值可根据经验获取。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，根据传感器中的雷达数据确定运动目标的帧间运动估计结果；

S2，根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧；

S3，根据所述相机图像数据获取所述t0时刻的图像的目标分割结果；

S4，根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果。

可选地，存储介质还被设置为存储用于执行以下步骤的计算机程序：

S1，根据预设损失函数和预设指向函数确定经过相机运动后对应图像的残差值，其中，所述预设损失函数中包括：所述相机的位姿参数、所述t0时刻和所述t1时刻的图像的深度图；所述预设指向函数中包括：所述图像的目标分割结果，所述目标分割结果包括：所述图像中像素点的语义类别；

S2，根据所述残差值和所述目标分割结果确定运动目标的分割结果。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种运动目标检测方法，其特征在于，包括：

根据传感器中的雷达数据确定运动目标的帧间运动估计结果；

根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧；

根据所述相机图像数据获取所述t0时刻的图像的目标分割结果；

根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果；

其中，根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果包括：根据预设损失函数和预设指向函数确定经过相机运动后对应图像的残差值，其中，所述预设损失函数中包括：所述相机的位姿参数、所述t0时刻和所述t1时刻的图像的深度图；所述预设指向函数中包括：所述图像的目标分割结果，所述目标分割结果包括：所述图像中像素点的语义类别；根据所述残差值和所述目标分割结果确定运动目标的分割结果。

2.根据权利要求1所述的方法，其特征在于，所述预设损失函数按照如下步骤建立：

根据t0时刻的图像的深度图和相机的反向投影函数确定参考像素点的第一参数项，其中，所述反向投影函数中包括所述相机的位姿参数为三维运动参数，所述参考像素点包括t0时刻的图像的一个像素点；

根据t1时刻的图像的深度图和相机的反向投影函数确定对应像素点的第二参数项，其中，所述对应像素点包括根据已知运动对应到t1时刻的图像上的对应像素位置坐标；

根据所述第一参数项和所述第二参数项建立所述预设损失函数。

3.根据权利要求1所述的方法，其特征在于，所述预设指向函数按照如下步骤建立：

确定所述图像中的像素点的语义类别；

根据所述语义类别确定该语义类别对应的运动概率值；

在所述像素点的语义类别属于第一场景的情况下，所述运动概率值小于1，其中，所述第一场景包括：所述像素点为确定背景目标的语义类别；

在所述像素点的语义类别属于第二场景的情况下，所述运动概率值等于1，其中，所述第二场景包括：所述像素点为运动或者静止的语义类别；

在所述像素点的语义类别属于第三场景的情况下，所述运动概率值大于1，其中，所述第三场景包括：所述像素点为确定运动状态的语义类别；

根据所述运动概率值建立语义属性关联的指向函数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述残差值和所述目标分割结果确定运动目标的分割结果包括：

筛选所述残差值得到残渣值大于和小于预设阈值的像素点；

添加所述残渣值大于预设阈值的像素点到待遍历队列中；

将所述待遍历队列中的元素至目标运动分割结果集并从第一元素开始遍历所述待遍历队列中的元素；

遍历所述第一元素的联通域中的元素，在存在第二元素满足预设门限值的情况下，将所述第二元素添加至所述待遍历队列，其中，所述预设门限值包括：对不同类别的语义标记元素设置的不同阈值；

在完成遍历后将所述第一元素从所述待遍历队列中删除；

重复上述遍历过程，直到所述待遍历队列中的所述第一元素为空时停止，得到所述运动目标的分割结果。

5.根据权利要求1所述的方法，其特征在于，

所述根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧包括：

将所述相机图像数据输入预设第一机器学习模型，分别获取所述t0时刻左图与右图对应的第一深度图以及所述t1时刻左图与右图对应的第二深度图，其中，所述预设第一机器学习模型是用于将相机图像数据中的双目图像的视差结果转化为深度值的网络模型；

所述根据所述相机图像数据获取所述t0时刻的图像的目标分割结果包括：

将所述相机图像数据输入预设第二机器学习模型，获取所述t0时刻的图像的目标分割结果，其中，所述第二机器学习模型是用于语义分割的网络模型。

6.一种运动目标检测装置，其特征在于，包括：

确定模块，用于根据传感器中的雷达数据确定运动目标的帧间运动估计结果；

第一获取模块，用于根据传感器中的相机图像数据获取t0时刻和t1时刻的图像的深度图，其中，所述t0时刻与所述t1时刻为两个相邻的前后帧；

第二获取模块，用于根据所述相机图像数据获取所述t0时刻的图像的目标分割结果；

确定模块，用于根据所述帧间运动估计结果和所述深度图以及所述目标分割结果，确定运动目标的分割结果；

其中，所述确定模块，还用于根据预设损失函数和预设指向函数确定经过相机运动后对应图像的残差值，其中，所述预设损失函数中包括：所述相机的位姿参数、所述t0时刻和所述t1时刻的图像的深度图；所述预设指向函数中包括：所述图像的目标分割结果，所述目标分割结果包括：所述图像中像素点的语义类别；根据所述残差值和所述目标分割结果确定运动目标的分割结果。

7.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。

8.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。