CN106920250B

CN106920250B - 基于rgb-d视频的机器人目标识别与定位方法及***

Info

Publication number: CN106920250B
Application number: CN201710078328.9A
Authority: CN
Inventors: 陶文兵; 李坤乾
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2019-08-13
Anticipated expiration: 2037-02-14
Also published as: CN106920250A

Abstract

本发明公开了一种基于RGB‑D视频的机器人目标识别与定位方法及***，通过目标候选提取、识别、基于时序一致性的置信度估计、目标分割优化、位置估计等步骤，在场景中确定目标类别并获取准确的空间位置定位。本发明中利用场景深度信息，增强了识别与定位算法的空间层次感知能力，通过采用基于关键帧的长短时时空一致性约束，在提高视频处理效率的同时，保证了长时序目标识别与定位任务中目标的同一性与关联性。在定位过程中，通过在平面空间中精确分割目标以及在深度信息空间评价同一目标的位置一致性，实现了在多信息模态中的协同目标定位。计算量小，实时性好，识别与定位精度高，可被应用于基于在线视觉信息解析理解技术的机器人任务。

Description

基于RGB-D视频的机器人目标识别与定位方法及***

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于RGB-D视频的机器人目标识别与定位方法及***。

背景技术

近年来，随着机器人技术的快速发展，面向机器人任务的机器视觉技术也得到了研究者的广泛关注。其中，目标的识别与精确定位是机器人视觉问题的重要一环，是执行后续任务的前提条件。

现有的目标识别方法一般包括提取待识别目标信息作为识别依据和与待识别场景的匹配两个步骤。传统的待识别目标的表达一般包括几何形状、目标外观、提取局部特征等方法，这类方法往往存在通用性差、稳定性不足、目标抽象化能力差等不足。以上目标表达的缺陷也给后续的匹配过程带来了难以克服的困难。

获取待识别目标的表达后，目标匹配是指将获得该目标表达与待识别场景特征进行比较，以识别目标。总体上讲，现有的方法包括基于区域匹配和特征匹配的两类方法。基于区域的匹配是指提取图像局部子区域的信息进行比对，其计算量与待匹配的子区域个数成正比；基于特征的方法对图像中的典型特征进行匹配，其匹配准确率与特征表达有效性密切相关。以上两类方法对候选区域的获取以及特征表达提出了较高的要求，但由于二维平面图像信息和设计特征的局限性，在面向机器人的复杂环境识别任务中往往效果较差。

目标定位广泛存在于工业生产生活中，如户外运动中的GPS、军事雷达监控、舰艇声纳设备等等，此类设备定位准确、作业距离范围很广，但价格高昂。基于视觉的定位***是近年来新的研究热点。根据视觉传感器的不同，大致可分为基于单目视觉传感器、双目及深度传感器、全景视觉传感器的定位方法。单目视觉传感器价格低、结构简单、易于标定，但定位精度往往较差；全景视觉传感器可获得完整的场景信息，定位精度较高，但计算量大、实时性较差、设备复杂昂贵；基于双目视觉的深度估计或深度信息采集设备对场景距离感知能力较强，且***较为简单，实时性易于实现，近年来受到的关注也越来越多。但这一领域的研究仍处于起步阶段，目前仍缺乏高效的、可实时处理RGB-Depth视频的目标定位方法。

由于对于深度信息感知能力具有较高的需求，因此现有的机器人***大多采集RGB-Depth视频作为视觉信息来源，深度信息为场景的立体感知、复杂目标的层次性划分、定位提供了丰富的信息。然而，由于机器人工作场景的复杂性、计算复杂度较高、运算量较大，目前尚未有***、快速便捷的RGB-Depth视频目标识别与精确定位方法。因此，研究基于RGB-Depth视频的室内机器人目标识别与精确定位算法不仅有很强的研究价值，而且具有非常广阔的应用前景。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于RGB-D视频的机器人目标识别与定位方法及***，通过处理机器人第一视角获取的RGB-Depth视频，实现实时的、准确的目标识别，以及目标在机器人工作环境中的精准定位，从而辅助目标抓取等复杂机器人任务。由此解决目前缺乏高效的、可实时处理RGB-Depth视频的目标定位方法的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于RGB-D视频的机器人目标识别与定位方法，包括：

(1)获取待识别定位目标所在场景的RGB-D视频帧序列；

(2)提取所述RGB-D视频帧序列中的关键视频帧，并对所述关键视频帧提取目标候选区域，根据各关键视频帧对应的深度信息对所述目标候选区域进行过滤筛选；

(3)基于深度网络对过滤筛选后的目标候选区域进行识别，通过长时序时空关联约束及多帧识别一致性估计，对目标识别结果进行置信度排序；

(4)对过滤筛选后的目标候选区域进行局部快速分割，根据目标识别结果的置信度及各关键视频帧的时序间隔关系，从所述关键视频帧中选取主要关键视频帧，并对分割区域进行前后相邻帧扩展及协同优化；

(5)在场景中确定关键特征点作为定位参照点，进而估计相机视角及相机运动估计值，通过对主要关键视频帧识别分割结果进行目标特征一致性约束和目标位置一致性约束，估计待识别定位目标的协同置信度并进行空间精确定位。

优选地，所述步骤(2)具体包括：

(2.1)以间隔采样或关键帧选取方法，确定用于识别待识别定位目标的关键视频帧；

(2.2)采用基于似物性先验的置信度排序方法获取所述关键视频帧中的目标候选区域组成目标候选区域集合，利用各关键视频帧对应的深度信息，获取各目标候选区域的内部及其邻域内的层次属性，对所述目标候选区域集合进行优化筛选、再排序。

优选地，所述步骤(3)具体包括：

(3.1)将经过步骤(2)筛选后的目标候选区域送入已训练好的目标识别深度网络，获取各筛选后的目标候选区域对应的关键视频帧的目标识别预测结果及各目标识别预测结果的第一置信度；

(3.2)根据长时序的时空关联约束，对关键视频帧的目标识别预测结果进行特征一致性评价，评价各目标识别预测结果的第二置信度，将由所述第一置信度与所述第二置信度得到的累积置信度进行排序，进一步过滤掉累积置信度低于预设置信度阈值的目标候选区域。

优选地，所述步骤(4)具体包括：

(4.1)对于步骤(3.2)获得的目标候选区域及其扩展邻域，进行快速的目标分割操作，获得目标的初始分割，确定目标边界；

(4.2)以短时时空一致性为约束，基于步骤(3.2)中的累积置信度排序结果，从所述关键视频帧中筛选出主要关键视频帧；

(4.3)以长时时空一致性为约束，基于步骤(4.1)的初始分割，对待识别定位目标进行外观建模，对主要关键视频帧及其相邻帧进行三维图形构建，并设计最大后验概率-马尔科夫随机场能量函数，通过图割算法对初始分割进行优化，对单帧的目标分割结果在关键视频帧前后相邻帧中进行分割扩展及优化。

优选地，所述步骤(5)具体包括：

(5.1)对于步骤(4.2)获得的主要关键视频帧，根据各主要关键视频帧之间的相邻及视野重合关系，提取多组同名点点对作为定位参照点；

(5.2)依据视野重合的主要关键视频帧估计相机视角变化，进而通过几何关系，利用定位参照点点对的深度信息估计相机的运动信息；

(5.3)根据主要关键视频帧中待识别定位目标的测量深度信息、相机视角以及相机的运动信息，评价主要关键视频帧中待识别定位目标的空间位置一致性；

(5.4)根据步骤(4.3)的结果，评价待识别定位目标二维分割区域的特征一致性；

(5.5)通过综合评价待识别定位目标二维分割区域的特征一致性以及空间位置一致性，确定待识别定位目标的空间位置。

按照本发明的另一方面，提供了一种基于RGB-D视频的机器人目标识别与定位***，包括：

获取模块，用于获取待识别定位目标所在场景的RGB-D视频帧序列；

过滤筛选模块，用于提取所述RGB-D视频帧序列中的关键视频帧，并对所述关键视频帧提取目标候选区域，根据各关键视频帧对应的深度信息对所述目标候选区域进行过滤筛选；

置信度排序模块，用于基于深度网络对过滤筛选后的目标候选区域进行识别，通过长时序时空关联约束及多帧识别一致性估计，对目标识别结果进行置信度排序；

优化模块，用于对过滤筛选后的目标候选区域进行局部快速分割，根据目标识别结果的置信度及各关键视频帧的时序间隔关系，从所述关键视频帧中选取主要关键视频帧，并对分割区域进行前后相邻帧扩展及协同优化；其中，优化模块具体通过以下步骤实现：

对目标候选区域及其扩展邻域进行快速的目标分割操作，获得目标的初始分割，确定目标边界；

以短时时空一致性为约束，基于累积置信度排序结果，从关键视频帧中筛选出主要关键视频帧；

以长时时空一致性为约束，基于初始分割，对待识别定位目标进行外观建模，对主要关键视频帧及其相邻帧进行三维图形构建，并设计最大后验概率-马尔科夫随机场能量函数，通过图割算法对初始分割进行优化，对单帧的目标分割结果在关键视频帧前后相邻帧中进行分割扩展及优化；

定位模块，用于在场景中确定关键特征点作为定位参照点，进而估计相机视角及相机运动估计值，通过对主要关键视频帧识别分割结果进行目标特征一致性约束和目标位置一致性约束，估计待识别定位目标的协同置信度并进行空间精确定位。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，主要有以下的技术优点：本发明中利用场景深度信息，增强了识别与定位算法的空间层次感知能力，通过采用基于关键帧的长短时时空一致性约束，在提高视频处理效率的同时，保证了长时序目标识别与定位任务中目标的同一性与关联性。在定位过程中，通过在平面空间中精确分割目标以及在深度信息空间评价同一目标的位置一致性，实现了在多信息模态中的协同目标定位。计算量小，实时性好，识别与定位精度高，可被应用于基于在线视觉信息解析理解技术的机器人任务。

附图说明

图1为本发明实施例方法的总体流程示意图；

图2为本发明实施例中目标识别的流程示意图；

图3为本发明实施例中目标精准定位的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明公开的方法涉及关键帧筛选、基于深度网络的目标识别、分割、标记帧间传递、基于一致性约束的位置估计及协同优化等技术，可直接用于以RGB-D视频是视觉信息输入的机器人***中，辅助机器人完成目标识别及目标精准定位任务。

如图1所示为本发明实施例方法的总体流程示意图。从图1可以看出，本方法包含目标识别与目标精确定位两大步骤，目标识别是目标精准定位的前提条件。其具体实施方式如下：

(1)获取待识别定位目标所在场景的RGB-D视频帧序列；

优选地，在本发明的一个实施方式中，可以通过Kinect等深度视觉传感器采集待识别定位目标所在场景的RGB-D视频序列；还可以通过双目成像设备采集RGB像对，并通过计算视差估计场景深度信息作为depth通道信息，从而合成RGB-D视频作为输入。

(2)提取RGB-D视频帧序列中的关键视频帧，并对关键视频帧提取目标候选区域，根据各关键视频帧对应的深度信息对目标候选区域进行过滤筛选；

(4)对过滤筛选后的目标候选区域进行局部快速分割，根据目标识别结果的置信度及各关键视频帧的时序间隔关系，从关键视频帧中选取主要关键视频帧，并对分割区域进行前后相邻帧扩展及协同优化；

优选地，在本发明的一个实施例中，上述步骤(1)具体包括：

(1.1)用Kinect采集待识别定位目标所在场景的RGB-D视频序列，并用邻域采样平滑方式填充深度图像空洞，根据Kinect参数对其进行修正并转换为实际深度信息，与RGB数据作为输入；

(1.2)当使用双目设备采集像对时，依次通过相机标定、立体匹配(像对特征提取、同一物理结构对应点提取、计算视差)步骤，最后通过投影模型估计深度作为视频中depth通道的输入。

优选地，在本发明的一个实施例中，上述步骤(2)具体包括：

其中，步骤(2.1)具体包括：利用快速尺度不变特征变换(Scale-invariantfeature transform，SIFT)点匹配方法获取相邻帧的场景重叠率，从而估计当前拍摄的场景变化率，对于拍摄场景切换较快的视频帧，提高采样频率，对于拍摄场景切换较慢的视频帧，降低采样频率。此外，当实际应用需求对算法效率要求较高时，可直接采用间隔采样方法替代本步骤。

其中，基于似物性先验的置信度排序方法可以是BING算法或Edge box算法。如图2所示，再利用对应帧的深度信息，获取目标候选区域内部及其邻域内的层次属性，根据高置信度的候选框内部应深度信息平滑、框内外边界处深度信息梯度较大的原则，对目标候选区域集合进行优化筛选、再排序。

优选地，在本发明的一个实施例中，上述步骤(3)具体包括：

(3.1)如图2所示，将经过步骤(2)筛选后的目标候选区域送入已训练好的目标识别深度网络，获取各筛选后的目标候选区域对应的关键视频帧的目标识别预测结果及各目标识别预测结果的第一置信度；

其中，已训练好的目标识别深度网络可以是例如SPP-Net、R-CNN、Fast-R-CNN等深度识别网络，也可以由其他深度识别网络替代。

(3.2)根据长时序的时空关联约束，对关键视频帧的目标识别预测结果进行特征一致性评价，评价各目标识别预测结果的第二置信度，将由第一置信度与第二置信度得到的累积置信度进行排序，进一步过滤掉累积置信度低于预设置信度阈值的目标候选区域。

可选地，在本发明的一个实施例中，可以通过对算法施加识别指令，获取对待识别定位目标的检测识别结果，并通过过滤低置信度识别结果提升算法效率。

可选地，在本发明的一个实施例中，上述步骤(4)具体包括：

(4.1)如图3所示，对于步骤(3.2)获得的目标候选区域及其扩展邻域，进行快速的目标分割操作，获得目标的初始分割，确定目标边界；

其中，作为一种可选的实施方式，可以使用基于RGB-D信息的GrabCut分割算法进行快速的目标分割操作，获得目标的初始分割，从而在当前视频帧中获得目标的二维定位结果。

(4.2)为了进一步提高视频目标定位的效率，如图3所示，以短时时空一致性为约束，基于步骤(3.2)中的累积置信度排序结果，以单帧识别置信度高、相邻帧时空一致性强为准则，从关键视频帧中筛选出主要关键视频帧；

(4.3)以长时时空一致性为约束，基于步骤(4.1)的初始分割，对待识别定位目标进行外观建模，对主要关键视频帧及其相邻帧进行三维图形构建，并设计最大后验概率-马尔科夫随机场能量函数，通过图割算法对初始分割进行优化，对单帧的目标分割结果在关键视频帧前后相邻帧中进行分割扩展，从而实现基于长-短时时空一致性的二维目标分割定位优化。

可选地，在本发明的一个实施例中，上述步骤(5)具体包括：

(5.1)如图3所示，对于步骤(4.2)获得的主要关键视频帧，根据各主要关键视频帧之间的相邻及视野重合关系，提取多组同名点点对作为定位参照点；

其中，相机的运动信息包括相机移动距离及移动轨迹。

(5.3)如图3所示，根据主要关键视频帧中待识别定位目标的测量深度信息、相机视角以及相机的运动信息，评价主要关键视频帧中待识别定位目标的空间位置一致性；

(5.4)根据步骤(4.3)的结果，评价待识别定位目标二维分割区域的特征一致性，一般采用基于区域的深度网络提取区域深度特征用于特征距离度量及特征一致性评价；

在本发明的一个实施例中，公开了一种基于RGB-D视频的机器人目标识别与定位***，该***包括：

优化模块，用于对过滤筛选后的目标候选区域进行局部快速分割，根据目标识别结果的置信度及各关键视频帧的时序间隔关系，从所述关键视频帧中选取主要关键视频帧，并对分割区域进行前后相邻帧扩展及协同优化；

其中，各模块的具体实施方式可以参照方法实施例的描述，本发明实施例将不做复述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于RGB-D视频的机器人目标识别与定位方法，其特征在于，包括：

(1)获取待识别定位目标所在场景的RGB-D视频帧序列；

(3.2)根据长时序的时空关联约束，对关键视频帧的目标识别预测结果进行特征一致性评价，评价各目标识别预测结果的第二置信度，将由所述第一置信度与所述第二置信度得到的累积置信度进行排序，进一步过滤掉累积置信度低于预设置信度阈值的目标候选区域；

(4.3)以长时时空一致性为约束，基于步骤(4.1)的初始分割，对待识别定位目标进行外观建模，对主要关键视频帧及其相邻帧进行三维图形构建，并设计最大后验概率-马尔科夫随机场能量函数，通过图割算法对初始分割进行优化，对单帧的目标分割结果在关键视频帧前后相邻帧中进行分割扩展及优化；

2.根据权利要求1所述的方法，其特征在于，所述步骤(2)具体包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤(5)具体包括：

4.一种基于RGB-D视频的机器人目标识别与定位***，其特征在于，包括：

优化模块，用于对过滤筛选后的目标候选区域进行局部快速分割，根据目标识别结果的置信度及各关键视频帧的时序间隔关系，从所述关键视频帧中选取主要关键视频帧，并对分割区域进行前后相邻帧扩展及协同优化；其中，所述优化模块通过对目标候选区域及其扩展邻域进行快速的目标分割操作，获得目标的初始分割，确定目标边界；以短时时空一致性为约束，基于累积置信度排序结果，从所述关键视频帧中筛选出主要关键视频帧；以长时时空一致性为约束，基于初始分割，对待识别定位目标进行外观建模，对主要关键视频帧及其相邻帧进行三维图形构建，并设计最大后验概率-马尔科夫随机场能量函数，通过图割算法对初始分割进行优化，对单帧的目标分割结果在关键视频帧前后相邻帧中进行分割扩展及优化；