CN116503803A

CN116503803A - 障碍物检测方法、装置、电子设备以及存储介质

Info

Publication number: CN116503803A
Application number: CN202310475787.6A
Authority: CN
Inventors: 罗欢; 马连洋; 张硕; 钱永强
Original assignee: Shanghai Mooe Robot Technology Co ltd
Current assignee: Shanghai Mooe Robot Technology Co ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-28

Abstract

本发明公开了一种障碍物检测方法、装置、电子设备以及存储介质。所述方法包括：确定对目标检测区域的第一检测图像与第二检测图像，所述第一检测图像与第二检测图像的采集时间相同，所述第一检测图像被配置为具有三颜色通道分量的图像，所述第二检测图像被配置为深度图；识别第一检测图像中参考像素点，所述参考像素点为目标检测区域中目标障碍物对应的像素点；依据所述参考像素点与所述第二检测图像，生成所述目标障碍物对应的三维点云数据；基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿。本方案解决了无法对行驶过程中周围的低矮障碍物进行有效检测的问题，实现对场景低矮障碍物的有效识别，提高自主移动机器人的避障精度。

Description

障碍物检测方法、装置、电子设备以及存储介质

技术领域

本发明涉及自动图像检测识别技术领域，尤其涉及一种障碍物检测方法、装置、电子设备以及存储介质。

背景技术

单线激光雷达具有测量速度快、成本低、使用寿命长等优点在机器人避障领域中得到广泛使用。基于单线激光雷达进行机器人避障的时候，依赖于单线激光雷达的安装位置，低于激光雷达安装位置区域视为避障盲区，即机器人对低于单线激光雷达安装位置的低矮障碍物无法有效感知，比如说物流和仓储场景中常见的无人搬运车的叉臂和地牛的叉臂以及地锁等常见低矮障碍物，导致发生碰撞的事件时有发生，这对机器人的行驶安全造成较大的隐患。

发明内容

本发明提供了一种障碍物检测方法、装置、电子设备以及存储介质，以解决无法对行驶过程中周围的低矮障碍物进行有效检测的问题。

根据本发明的一方面，提供了一种障碍物检测方法，所述方法包括：

确定对目标检测区域的第一检测图像与第二检测图像，所述第一检测图像与第二检测图像的采集时间相同，所述第一检测图像被配置为具有三颜色通道分量的图像，所述第二检测图像被配置为深度图；

识别第一检测图像中参考像素点，所述参考像素点为目标检测区域中目标障碍物对应的像素点；

依据所述参考像素点与所述第二检测图像，生成所述目标障碍物对应的三维点云数据；

基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿。

根据本发明的另一方面，提供了一种障碍物检测装置，所述装置包括：

图像确定模块，用于确定对目标检测区域的第一检测图像与第二检测图像，所述第一检测图像与第二检测图像的采集时间相同，所述第一检测图像被配置为具有三颜色通道分量的图像，所述第二检测图像被配置为深度图；

图像识别模块，用于识别第一检测图像中参考像素点，所述参考像素点为目标检测区域中目标障碍物对应的像素点；

点云生成模块，用于依据所述参考像素点与所述第二检测图像，生成所述目标障碍物对应的三维点云数据；

障碍检测模块，用于基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的障碍物检测方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的障碍物检测方法。

本发明实施例的技术方案，对目标检测区域进行图像采集得到具有三颜色通道分量的第一检测图像与深度图形式的第二检测图像，通过第一检测图像能识别目标检测区域中存在的目标障碍物对应的像素点，尤其是低矮障碍物所涉及的像素点，为了更好确定障碍物位姿，结合第一检测图像与第二检测图像是针对相同目标检测区域进行探测的思路，利用第二检测图像中的深度信息与目标障碍物对应的参考像素点，可以构建第一检测图像中每个参考像素点对应的三维点云坐标，利用目标障碍物对应的参考像素点对应三维点云坐标构成的三维点云数据可以对目标障碍物的位姿进行确定，实现对场景中的障碍物尤其是低矮障碍物进行准确识别，提高了自主移动机器人的感知避障精度，提升了机器人运行的安全性。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的一种障碍物检测方法的流程图；

图2是根据本发明实施例提供的另一种障碍物检测方法的流程图

图3是根据本发明实施例所适用的目标检测模型的架构图；

图4是根据本发明实施例三提供的一种障碍物检测装置的结构示意图；

图5是实现本发明实施例的障碍物检测方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。应当进一步理解，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。再者，本文中使用的术语“或”、“和/或”、“包括以下至少一个”等可被解释为包括性的，或意味着任一个或任何组合。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

应当理解，尽管在本文可能采用术语第一、第二、第三等来描述各种参数或模块，但这些参数或模块不应限于这些术语。这些术语仅用来将同一类型的参数或模块彼此区分开。例如，在不脱离本文范围的情况下，第一参数也可以被称为第二参数，类似地，第二参数也可以被称为第一参数。取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应该理解，虽然本申请实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他顺序执行。而且，图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请的权利范围。

图1为本发明实施例提供了一种障碍物检测方法的流程图，本实施例可适用于自主移动的设备在行驶过程中进行避障检测的情况，尤其是在行驶过程中实现对低矮障碍物进行有效检测的情形。该方法可以由障碍物检测装置来执行，该装置可以采用硬件和/或软件的形式实现，该装置可配置于任何具有网络通信功能的电子设备中。如图1所示，本申请的障碍物检测方法可包括以下过程：

S110、确定对目标检测区域的第一检测图像与第二检测图像，第一检测图像与第二检测图像的采集时间相同，第一检测图像被配置为具有三颜色通道分量的图像，第二检测图像被配置为深度图。

在使用激光雷达进行避障时，依赖单线激光雷达的安装位置，低于单线激光雷达安装位置视为避障盲区，即基于单线激光的机器人对于低矮的障碍物无法有效感知。

现有技术中通常增加辅助传感器对场景中低矮部分进行检测，比如安装超声波传感器或者深度相机。但有些低矮障碍物会因为超声波的回波信息不足，导致超声波无法的情况，而且超声波传感器无法检测障碍物的方位信息，不利于机器人的安全避障；而如果使用深度相机，那么深度相机安装位置较低时，较远处的障碍物无法有效检测，不利于机器人的提前规划；对于安装位置较高的深度相机，部分低矮障碍物往往会因为噪声被误检测为地面而无法准确识别。

为此，本申请方案针对目标检测区域进行图像采集时，同时采集了两种不同格式的检测图像，分别包括被配置为具有三颜色通道分量的第一检测图像以及被配置为深度图格式的第二检测图像。其中，第一检测图像可以为采用RGB色彩模式进行图像表征的RGB图像，第二检测图像可以是包含与场景对象的表面到视点的距离有关信息的深度图。

在一种可选但非限定的实现方式中，确定目标检测区域的第一检测图像与第二检测图像，可包括以下步骤A1-A2：

步骤A1、通过深度相机采集目标设备的目标检测区域的RGB图像与深度图，目标检测区域为目标设备主体部分周围的预设距离范围区域。

步骤A2、将同一采集时间对目标检测区域采集的RGB图像与深度图，分别确定为第一检测图像与第二检测图像。

在目标设备的上方预设位置处设置深度相机，同时深度相机被配置为沿朝向目标设备所处地面的方向进行图像采集，通过深度相机可以采集目标设备主体部分周围的预设距离范围区域内的RGB图像与深度图。以目标设备为自主移动的目标车辆为例，利用位于目标车辆上方设置的深度相机可以获取目标车辆车身周围环境的RGB图像与深度图。

可选地，之所以选择将深度相机设置在目标设备的上方，让其沿朝向目标设备所处地面的方向进行图像采集，能更好的通过第一检测图像得到其中像素点在图像坐标系或像素坐标系下的横纵坐标，即可以得到像素点对应场景对象在地面上的位置分布；以及，通过第二检测图像得到其中包括的像素点在相机坐标系下的竖轴坐标，即可以得到像素点对应场景对象相对地面的高度。可选地，预先对深度相机采集RGB图像与深度图时的操作进行标定，以使深度图中存在与RGB图像中像素点一一对应的像素点。

从深度相机采集的RGB图像与深度图中筛选出针对相同时间针对目标检测区域进行图像采集得到的RGB图像与深度图，直接将筛选出的RGB图像与深度图作为行驶过程中在目标设备主体部分周围的预设距离范围区域的第一检测图像与第二检测图像。

S120、识别第一检测图像中参考像素点，参考像素点为目标检测区域中目标障碍物对应的像素点。

在采集得到第一检测图像后，可以对第一检测图像中的像素点进行识别分析，依据识别分析结果检测第一检测图像包括的像素点中是否存在障碍物对应的像素点。在检测到存在障碍物对应像素点的情况下，可以将检测到的障碍物对应的像素点作为在第一检测图像中包括的对应目标检测区域中目标障碍物对应的参考像素点以及识别的参考像素点对应目标障碍物的障碍物类别。其中，目标障碍物可以包括物流和仓储场景无人搬运车叉臂、地牛的叉臂以及地锁等常见低矮障碍物。

S130、依据参考像素点与第二检测图像，生成目标障碍物对应的三维点云数据。

通过第一检测图像可以获知第一检测图像中参考像素点在图像坐标系或像素坐标系下的横纵坐标，即可以得到像素点对应场景对象在地面上的位置分布。通过第二检测图像可以得到在第二检测图像中与参考像素点存在一一对应关系的像素点在相机坐标系下的竖轴坐标，即可以得到像素点对应场景对象相对地面的高度。

基于参考像素点的横纵坐标位置与第二检测图像中与参考像素点存在一一对应关系的像素点的竖轴位置，就可以获得第二检测图像中与参考像素点存在一一对应关系的像素点的三维坐标。由于第一检测图像与第二检测图像是由深度相机针对同一个目标检测区域在相同时间采集得到，因此第二检测图像中与参考像素点存在一一对应关系的像素点就是目标检测区域中目标障碍物对应的像素点，进而就可以按照第二检测图像中与参考像素点存在一一对应关系的像素点的三维坐标组成目标障碍物对应的三维点云数据。

在一种可选但非限定的实现方式中，依据参考像素点与第二检测图像，生成目标障碍物对应的三维点云数据，可包括以下步骤B1-B3：

步骤B1、从第二检测图像中确定与参考像素点匹配的目标像素点以及目标像素点在相机坐标系的竖轴坐标，目标像素点与参考像素点表征相同的目标障碍物。

步骤B2、依据参考像素点在图像坐标系的横纵轴坐标与目标像素点在相机坐标系的竖轴坐标，确定目标像素点的三维坐标。

第一检测图像中提供了像素坐标系下第一检测图像中像素点的横纵轴坐标位置，第二检测图像中提供了相机坐标系下第二检测图像中像素点的竖轴坐标位置。第一检测图像中的参考像素点与第二检测图像中的目标像素点表征相同的目标障碍物。

为此，第一检测图像中的参考像素点在像素坐标系下的横纵轴坐标可以为第二检测图像中的目标像素点在像素坐标系下的横纵轴坐标，利用第二检测图像中的目标像素点在像素坐标系下的横纵轴坐标和深度相机的内参可以计算出目标像素点在相机坐标系下的坐标，这样既可以得到目标像素点在相机坐标系下的三维坐标。目标像素点在相机坐标系下的三维坐标可以经过转换得到目标像素点在世界坐标系下的三维坐标。

步骤B3、基于目标像素点的三维坐标，生成目标障碍物对应的三维点云数据。

S140、基于目标障碍物对应的三维点云数据，确定目标障碍物的位姿。

目标障碍物对应的三维点云数据中包括目标障碍物表面大量的密集的点的三维坐标，基于目标障碍物表面大量的密集点的三维坐标可以构建目标障碍物的轮廓以及轮廓上关键点位置，基于目标障碍物的轮廓以及轮廓上关键点位置可以确定目标障碍物所处的位置与姿态。

本发明实施例的技术方案，对目标检测区域进行图像采集得到具有三颜色通道分量的第一检测图像与深度图形式的第二检测图像，通过第一检测图像能识别目标检测区域中存在的目标障碍物对应的像素点，尤其是低矮障碍物所涉及的像素点，为了更好确定障碍物位姿，结合第一检测图像与第二检测图像是针对相同目标检测区域进行探测的思路，利用第二检测图像中的深度信息与目标障碍物对应的参考像素点，可以构建第一检测图像中每个参考像素点对应的三维点云坐标，利用目标障碍物对应的参考像素点对应三维点云坐标构成的三维点云数据可以对目标障碍物的位姿进行确定，实现对场景中的障碍物尤其是低矮障碍物进行识别，提高了自主移动机器人的感知避障精度，提升了机器人运行的安全性。

图2为本发明实施例提供了另一种障碍物检测方法的流程图，本实施例的技术方案在上述实施例的基础上对前述实施例中的识别第一检测图像中参考像素点的过程进一步优化，本实施例可与上述一个或多个实施例中各个可选方案结合。如图2所示，本申请实施例的障碍物检测方法可以包括以下过程：

S210、确定对目标检测区域的第一检测图像与第二检测图像，第一检测图像与第二检测图像的采集时间相同，第一检测图像被配置为具有三颜色通道分量的图像，第二检测图像被配置为深度图。

S220、通过目标障碍物检测模型从第一检测图像中分割出参考图像区域以及确定参考图像区域内目标障碍物的类别，参考图像区域为用于表征目标检测区域中目标障碍物的像素区域，障碍物检测模型为用于对图像执行语义分割任务的卷积神经网络模型。

目标障碍物检测模型通过执行语义分割任务可以对第一检测图像中像素点进行语义推理，从第一检测图像中分割出目标障碍物所涉及的像素区域，以及输出目标障碍物所涉及的像素区域对应的障碍物类别。

在一种可选但非限定的实现方式中，目标障碍物检测模型基于预设样本图像与预设样本图像关联的预标注标签控制待训练障碍物检测模型对预设样本图像执行语义分割训练任务得到，语义分割训练任务用于从预设样本图像中分割出用于表征障碍物的像素区域，预标注标签包括通过多媒体数据标注工具标注的预设样本图像中障碍物对应的像素区域。

可预先对物流和工业仓储场景中各种类型的障碍物(可包括但不限于自主移动机器人、托盘、料箱等，当然还可包括无人搬运车叉臂、地牛的叉臂以及地锁等常见低矮障碍物)进行RGB图像数据的采集，将采集的包括有障碍物的图像作为预设样本图像。

可通过配置使用多媒体数据标注工具LabelStudio对预设样本图像进行数据标注，具体可根据预设样本图像中障碍物位置对预设样本图像中的像素点进行语义分割并进行标注，标记预设样本图像中障碍物所包含的像素区域并输出预标注标签文件，将标注完成的预设样本图像划分为训练样图数据和验证样本数据。

在得到预设样本图像与预设样本图像关联的预标注标签后，可以控制待训练障碍物检测模型对预设样本图像执行语义分割训练任务预测得到预设样本图像中障碍物涉及的像素区域。将预测的障碍物涉及的像素区域与预标注标签指示的障碍物涉及的像素区域进行损失计算，利用计算的损失对待训练障碍物检测模型的参数进行更新，经过多次更新得到满足要求的目标障碍物检测模型。

在一种可选但非限定的实现方式中，通过目标障碍物检测模型从第一检测图像中分割出参考图像区域，可以包括以下步骤C1-C3：

步骤C1、通过目标障碍物检测模型中特征提取单元，从第一检测图像中提取至少两个尺度的图像特征。

参见图3，目标障碍物检测模型中可以包括基于PaddlePaddle深度学习框架下的语义分割模型，语义分割模型可以包括基于MobileSeg语义分割卷积神经网络，该语义分割卷积神经网络可以包含有输入单元、特征提取单元和分割预测单元至少三个部分。

参见图3，目标障碍物检测模型中输入单元可以针对于第一检测图像执行各种数据增强手段，包括对第一检测图像采用随机缩放、随机旋转、随机翻转和随机亮度对比度变化策略进行处理，以使得在特征提取是能有更多类型的图像进行特征提取。

步骤C2、采用特征金字塔将所述至少两个尺度的图像特征进行融合得到融合特征。

参见图3，目标障碍物检测模型中的特征提取单元不仅可以基于轻量化的MobileNetV3的基础架构进行构建得到，而且对于特征提取单元提取的不同尺度的图像特征可以采用特征金字塔的FPN来融合，通过对各个尺度的图像特征的融合提高特征提取单元的特征提取能力。

可选地，特征提取单元可以包括至少两个深度可分离卷积，至少两个深度可分离卷积用于对第一检测图像进行不同尺度的下采样得到不同尺度的图像特征；分割预测单元采用至少一个卷积层进行构建。

参见图3，特征提取单元的主干部分可以由多个由深度可分离卷积组成的模块，多个由深度可分离卷积组成的模块可以对第一检测图像进行不同尺度的下采样，在缩小尺度的同时获得更高维度的图像特征信息。为了应对不同尺度大小的分割目标，本案融合了多个尺度的图像特征，融合的过程是将深层的特征进行上采样放大，可以有两次融合的过程，1/16的图特征和1/8的图像特征进行融合，融合之前和之后都需要对特征进行1x1卷积优化，压缩通道和提炼有效信息，然后融合的结果会和更大的1/4特征进行融合，最终通过1x1卷积获得语义分割的结果。

步骤C3、将融合特征输入目标障碍物检测模型中分割预测单元，通过分割预测单元从第一检测图像中分割出参考图像区域。

目标障碍物检测模型中的分割预测单元(图3中暂未示出)可使用简单的几层1x1和3x3卷积来输出预测结果，在训练生成目标障碍物检测模型时采用的损失函数可以为交叉熵损失函数L，交叉熵损失函数L的计算公式如下：式中，N表示分割类别的个数，p表示预测结果，y为真实的预标注标签。

在一种可选但非限定的实现方式中，目标障碍物检测模型被配置为预设模型格式，预设模型格式为通过模型转换工具转换得到的与预设深度学习模型推理加速引擎匹配的模型格式，目标障碍物检测模型被加载于预设深度学习模型推理加速引擎进行使用。

为了能够在CPU上运行训练好的目标障碍物检测模型，采用OpenVINO作为使用目标障碍物检测模型进行推理的引擎；将训练好的目标障碍物检测模型，通过模型转换工具转换为OpenVINO的模型格式。采用上述方式后通过测试结果表面在CPU上可以达到70FPS的推理速度,可以高效的部署在CPU计算平台上，不依赖于很高算力资源。

在一种可选但非限定的实现方式中，特征提取单元基于轻量化的MobileNetV3的基础架构进行构建，特征提取单元中被配置为在通道维度增加注意力机制，特征提取单元采用了hard-swish激活函数。

为了能够在CPU上实时运行目标障碍物检测模型，可以选择轻量化的MobileNetV3作为基础架构。MobileNetV3架构引入新颖的架构改进，如SE注意力机制和hard-swish激活函数，提高了模型的准确性和效率。其中，SE注意力机制是一种通道注意力机制，目的是让模型能够自适应地调整每个通道的重要性，它使用了一个全局平均池化层和两个全连接层，生成了一个通道权重向量，然后用这个向量乘以原始特征图。Hard-swish激活函数是基于swish的激活函数，用一个分段线性函数代替了计算量较大的sigmoid函数2，公式是：h-swish(x)＝x*ReLU6(x+3)/6，Hard-swish激活函数可以提高模型的准确性和效率。

S230、将分割出的参考图像区域对应的像素点确定为参考像素点，参考像素点为目标检测区域中目标障碍物对应的像素点。

S240、依据参考像素点与第二检测图像，生成目标障碍物对应的三维点云数据。

可选地，根据语义分割得到的参考像素点，通过第一检测图像中参考像素和点云之间的映射关系获得分割参考像素点的点云数据。第一检测图像中的参考像素点与第二检测图像中与参考像素点匹配的目标像素点表征相同的目标障碍物，因此参考像素点的点云数据就是第二检测图像中与参考像素点匹配的目标像素点的点云数据。RGB图像中像素点和深度图中像素点对应点云存在映射关系：d(x,y)＝point_cloud(x+y*width)，因此从RGB图像分割的参考像素点可以直接根据RGB图像中像素点和深度图中像素点对应点云存在映射关系获得对应的点云簇即可得到所表征的目标障碍物的三维点云数据。

S250、基于目标障碍物对应的三维点云数据，确定目标障碍物的位姿。

在一种可选但非限定的实现方式中，基于目标障碍物对应的三维点云数据，确定目标障碍物的位姿，可以包括以下步骤D1-D2：

步骤D1、采用预设过滤方式对目标障碍物对应的三维点云数据进行过滤，预设过滤方式包括半径滤波、体素滤波以及基于滑窗内最大距离过滤。

步骤D2、在对三维点云数据进行过滤后，基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿。

由于受传感器的波动以及障碍检测模型的精度影响，三维点云数据中会存在一定的噪声，所以三维点云数据的过滤至关重要，本申请可采用半径滤波的方法，过滤掉目标障碍物对应的三维点云数据中与障碍物无关的杂点，半径滤波是一种去除点云离群点的方法。通过预先构建指定半径的球体，移除给定球体中几乎没有邻居的点，具体需要以下两个参数：邻域球内的最少点数和邻域半径的大小。

由于受到深度相机的精度影响，三维点云数据中点云簇可能会有波动变化。针对于波动变化，可以采用体素滤波进行消除。体素滤波是一种点云处理方法，目的是减少点云的数量，同时保持点云的几何结构。它通过将点云划分为多个体素(立方体)，然后用每个体素内的点的平均值或中心值代替原来的点，这样可以降低计算量和内存占用，提高处理效率。

三维点云数据中点云簇可能会存在点云拖尾问题，在一种可选示例是采用了基于滑窗内最大距离过滤的方法来去除拖尾的点，根据每个点与其左右相邻点的距离，如果两个距离值均大于设定的距离阀值，判断该点是拖尾点。另一种点云拖尾去除的示例是根据每个反射点与其前后相邻反射点之间的连线，以及该点和深度相机之间的连线，计算两个夹角，并根据夹角之和与π的差值来判断该点是否为拖尾点。如果差值大于或等于预设阈值，则说明该点为拖尾点，应该去除。

在一种可选但非限定的实现方式中，基于目标障碍物对应的三维点云数据，确定目标障碍物的位姿，可以包括以下步骤E1-E3：

步骤E1、根据目标障碍物对应的三维点云数据的横纵坐标位置，生成三维点云在横纵轴平面上的外接凸包多边形。

步骤E2、依据三维点云在横纵轴平面上的外接凸包多边形生成三维点云在横纵轴平面上的最小外接矩形。

步骤E3、依据三维点云在横纵轴平面上的最小外接矩形以及三维点云的纵轴高度，确定目标障碍物的位姿。

对于分割出目标障碍物对应的三维点云数据，经过过滤后获得有效的点云簇，将点云坐标变换为世界坐标系后，根据三维点云数据的X和Y坐标系生成点云的外接凸包多边形，接着根据外接凸包多边形生成最小接矩形，最后三维点云数据的竖轴高度大小可以认为是外接矩形的高度，最终计算得到障碍物的位姿信息。

可选地，过滤后的点云可以通过计算出点云的三维的外接包围框，为了能够计算出障碍物的速度和方向需要对于三维外接包围框进行跟踪，可以采用基于SORT的多目标跟踪算法来对目标进行跟踪。

本发明实施例的技术方案，对目标检测区域进行图像采集得到具有三颜色通道分量的第一检测图像与深度图形式的第二检测图像，为了实现灵活的扩充各种的障碍物识别过程，通过增加标注数据训练的障碍物检测模型从第一检测图像中识别目标检测区域存在的目标障碍物的像素点，尤其是低矮障碍物所涉及的像素点，为了更好确定障碍物位姿，结合第一检测图像与第二检测图像是针对相同目标检测区域进行探测的思路，利用第二检测图像中的深度信息与目标障碍物对应的参考像素点，可以构建第一检测图像中每个参考像素点对应的三维点云坐标，利用目标障碍物对应的参考像素点对应三维点云坐标构成的三维点云数据可以对目标障碍物的位姿进行确定，实现对场景中的障碍物尤其是低矮障碍物进行识别，提高了自主移动机器人的感知避障精度，提升了机器人运行的安全性。

图4为本发明实施例提供了一种障碍物检测装置的结构示意图，本实施例可适用于自主移动的设备在行驶过程中进行避障检测的情况，尤其是在行驶过程中实现对低矮障碍物进行有效检测的情形。该装置可以采用硬件和/或软件的形式实现，该装置可配置于任何具有网络通信功能的电子设备中。如图4所示，本申请的障碍物检测装置可包括：

图像确定模块410，用于确定对目标检测区域的第一检测图像与第二检测图像，所述第一检测图像与第二检测图像的采集时间相同，所述第一检测图像被配置为具有三颜色通道分量的图像，所述第二检测图像被配置为深度图；

图像识别模块420，用于识别第一检测图像中参考像素点，所述参考像素点为目标检测区域中目标障碍物对应的像素点；

点云生成模块430，用于依据所述参考像素点与所述第二检测图像，生成所述目标障碍物对应的三维点云数据；

障碍检测模块440，用于基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿。

在上述实施例的基础上，可选地，所述确定对目标检测区域的第一检测图像与第二检测图像，包括：

通过深度相机采集目标设备的目标检测区域的RGB图像与深度图，所述目标检测区域为目标设备主体部分周围的预设距离范围区域；

将同一采集时间对目标检测区域采集的RGB图像与深度图，分别确定为所述第一检测图像与所述第二检测图像。

在上述实施例的基础上，可选地，所述识别第一检测图像中参考像素点，包括：

通过目标障碍物检测模型从第一检测图像中分割出参考图像区域以及确定所述参考图像区域内目标障碍物的类别，所述参考图像区域为用于表征目标检测区域中目标障碍物的像素区域，所述障碍物检测模型为用于对图像执行语义分割任务的卷积神经网络模型；

将分割出的参考图像区域对应的像素点确定为所述参考像素点。

在上述实施例的基础上，可选地，所述目标障碍物检测模型基于预设样本图像与预设样本图像关联的预标注标签控制待训练障碍物检测模型对预设样本图像执行语义分割训练任务得到，所述语义分割训练任务用于从预设样本图像中分割出用于表征障碍物的像素区域，所述预标注标签包括通过多媒体数据标注工具标注的预设样本图像中障碍物对应的像素区域。

在上述实施例的基础上，可选地，所述通过目标障碍物检测模型从第一检测图像中分割出参考图像区域，包括：

通过目标障碍物检测模型中特征提取单元，从所述第一检测图像中提取至少两个尺度的图像特征；

采用特征金字塔将所述至少两个尺度的图像特征进行融合得到融合特征；

将所述融合特征输入目标障碍物检测模型中分割预测单元，通过所述分割预测单元从第一检测图像中分割出参考图像区域。

在上述实施例的基础上，可选地，所述特征提取单元包括至少两个深度可分离卷积，所述至少两个深度可分离卷积用于对所述第一检测图像进行不同尺度的下采样得到不同尺度的图像特征；所述分割预测单元采用至少一个卷积层进行构建。

在上述实施例的基础上，可选地，所述目标障碍物检测模型被配置为预设模型格式，所述预设模型格式为通过模型转换工具转换得到的与预设深度学习模型推理加速引擎匹配的模型格式，所述目标障碍物检测模型被加载于预设深度学习模型推理加速引擎进行使用。

在上述实施例的基础上，可选地，所述特征提取单元基于轻量化的MobileNetV3的基础架构进行构建，所述特征提取单元中被配置为在通道维度增加注意力机制，所述特征提取单元采用了hard-swish激活函数。

在上述实施例的基础上，可选地，所述依据所述参考像素点与所述第二检测图像，生成所述目标障碍物对应的三维点云数据，包括：

从所述第二检测图像中确定与所述参考像素点匹配的目标像素点以及所述目标像素点在相机坐标系的竖轴坐标，所述目标像素点与所述参考像素点表征相同的目标障碍物；

依据所述参考像素点在图像坐标系的横纵轴坐标与所述目标像素点在相机坐标系的竖轴坐标，确定所述目标像素点的三维坐标；

基于所述目标像素点的三维坐标，生成所述目标障碍物对应的三维点云数据。

在上述实施例的基础上，可选地，所述基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿，包括：

采用预设过滤方式对所述目标障碍物对应的三维点云数据进行过滤，所述预设过滤方式包括半径滤波、体素滤波以及基于滑窗内最大距离过滤；

在对所述三维点云数据进行过滤后，基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿。

根据所述目标障碍物对应的三维点云数据的横纵坐标位置，生成三维点云在横纵轴平面上的外接凸包多边形；

依据三维点云在横纵轴平面上的外接凸包多边形生成所述三维点云在横纵轴平面上的最小外接矩形；

依据所述三维点云在横纵轴平面上的最小外接矩形以及所述三维点云的纵轴高度，确定所述目标障碍物的位姿。

本发明实施例中所提供的障碍物检测装置可执行上述本发明任意实施例中所提供的障碍物检测方法，具备执行该障碍物检测方法相应的功能和有益效果，详细过程参见前述实施例中障碍物检测方法的相关操作。

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如障碍物检测方法。

在一些实施例中，障碍物检测方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的障碍物检测方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行障碍物检测方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种障碍物检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述识别第一检测图像中参考像素点，包括：

将分割出的参考图像区域对应的像素点确定为所述参考像素点；

其中，所述目标障碍物检测模型基于预设样本图像与预设样本图像关联的预标注标签控制待训练障碍物检测模型对预设样本图像执行语义分割训练任务得到，所述语义分割训练任务用于从预设样本图像中分割出用于表征障碍物的像素区域，所述预标注标签包括通过多媒体数据标注工具标注的预设样本图像中障碍物对应的像素区域。

3.根据权利要求2所述的方法，其特征在于，所述通过目标障碍物检测模型从第一检测图像中分割出参考图像区域，包括：

4.根据权利要求3所述的方法，其特征在于，所述特征提取单元包括至少两个深度可分离卷积，所述至少两个深度可分离卷积用于对所述第一检测图像进行不同尺度的下采样得到不同尺度的图像特征；所述分割预测单元采用至少一个卷积层进行构建；所述特征提取单元基于轻量化的MobileNetV3的基础架构进行构建，所述特征提取单元中被配置为在通道维度增加注意力机制，所述特征提取单元采用了hard-swish激活函数。

5.根据权利要求3所述的方法，其特征在于，所述目标障碍物检测模型被配置为预设模型格式，所述预设模型格式为通过模型转换工具转换得到的与预设深度学习模型推理加速引擎匹配的模型格式，所述目标障碍物检测模型被加载于预设深度学习模型推理加速引擎进行使用。

6.根据权利要求1所述的方法，其特征在于，所述依据所述参考像素点与所述第二检测图像，生成所述目标障碍物对应的三维点云数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿，包括：

在对所述三维点云数据进行过滤后，基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿；其中，所述基于所述目标障碍物对应的三维点云数据，确定所述目标障碍物的位姿，包括：根据所述目标障碍物对应的三维点云数据的横纵坐标位置，生成三维点云在横纵轴平面上的外接凸包多边形；依据三维点云在横纵轴平面上的外接凸包多边形生成所述三维点云在横纵轴平面上的最小外接矩形；依据所述三维点云在横纵轴平面上的最小外接矩形以及所述三维点云的纵轴高度，确定所述目标障碍物的位姿。

8.一种障碍物检测装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的障碍物检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的障碍物检测方法。