CN107301377B

CN107301377B - 一种基于深度相机的人脸与行人感知***

Info

Publication number: CN107301377B
Application number: CN201710385953.8A
Authority: CN
Inventors: 李玺; 岳亚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2020-08-18
Anticipated expiration: 2037-05-26
Also published as: CN107301377A

Abstract

本发明公开了一种基于深度相机的人脸与行人感知***，应用于包括移动机器人、智能监控等场景。本***至少分为三个模块，其中硬件层模块：用于接入多种异构相机；驱动层模块：用于通过ROS***，统一各种相机驱动接口；应用层模块：包括基于Dlib训练器与RGB‑D信息的人脸/人头检测器、基于多模态深度学习模型的行人检测器以及基于多机***的长时间跨区域的行人***。本***针对相机个数可分为单深度相机***与多深度相机***，前者的感知应用包括人脸检测与识别，行人检测与跟踪；后者克服单深度相机***覆盖面小的缺点，组成相机网络，实现对行人的跨区域长时间的跟踪。

Description

一种基于深度相机的人脸与行人感知***

技术领域

本发明属于计算机视觉领域，特别地涉及一种应用于视频监控场景或者部署于移动机器人的人脸与行人感知***。

背景技术

目标检测问题是计算机视觉***的主要研究基础与热点。目标检测作为计算机视觉的基础任务，是学术界和工业界的研究热点。其中，关于人的感知更是具有广泛的应用意义，尤其是在智能安防、无人驾驶和移动机器人等行业。在这些行业的解决方案中很多使用深度相机进行人的感知，以达到快速准确以及三维定位的目的。在一些商业化及开源代码中，一般只针对单一设备或特定场景，并且难以根据用户需求进行二次开发或功能扩展与删减。基于以上原因，本发明提出基于深度相机，易于扩展且方便开发的人脸与行人感知***。

当前在学术界与工业界出现很多人脸与行人的感知***。例如卡内基梅隆大学的OpenFace***，具有准确的人脸检测与识别功能。然而更多的是工业界研发的一些***，例如智能安防***，无人驾驶***和机器人***。在当前商用化的产品中，一般有两种形式：1.提供服务。即提供API或软件支持，2.以硬件商品形式。各种智能硬件公司提供完整的硬件及软件服务。

商业化的产品不允许开发者对其源码进行开发，不能满足开发者根据自己的需求进行开发应用。网络上也有很多开源的目标检测源码，但是这些源码基本只针对某一个任务或单一的相机，也没有进行模块化，难以对其重利用。本发明旨在设计一个开放式的开发平台，可使用多种信息获取设备，并集成实用有效的算法，不仅可使用低功耗的嵌入式芯片，用于移动平台。亦可组织形成摄像机网络，对目标完成完整的跟踪与定位。

发明内容

为实现上述目的，本发明的技术方案为：

基于深度相机的人脸与行人感知***，包括以下模块：

硬件层模块：用于接入多种异构相机；

驱动层模块：用于通过ROS***，统一各种相机驱动接口；

应用层模块：包括基于Dlib训练器与RGB-D信息的人脸/人头检测器、基于多模态深度学习模型的行人检测器以及基于多机***的长时间跨区域的行人***。

作为优选，所述的异构相机包括普通的RGB相机和深度相机。

作为优选，统一各种相机驱动接口时，将各种相机的数据转统一为OpenCV格式的Mat类型。

作为优选，所述的人脸/人头检测器，使用Dlib训练器融合RGB-D双通道的进行训练模型，在决策层进行包围框融合，并且加入直方图过滤的方法得到最终人脸/人头结果。

作为优选，所述基于多模态深度学习模型的行人检测器使用faster R-CNN框架，在决策层进行多模态融合实现行人检测，其中深度图像与彩色图像分别由RPN产生候选区域，通过融合彩色图像、深度图像的候选框，去除互相无交集的候选框；再以彩色图像的候选框为基准，对应的深度图像的候选框选取为彩色图像的候选框，然后合并彩色图与深度图的深度特征送入分类器；

作为优选，所述的基于多机***的长时间跨区域的行人***具体如下：

将各个单机组建为网络，使用标定和时间同步协议使得各个单机***同步，将各个单机的检测结果放入检测结果池，基于行人跟踪算法对这些结果进行行人的跟踪，行人跟踪算法通过如下步骤实现：

首先，定义检测框的特征H：

H＝[1…B]×[1…B]×[1…B]

其中，B是直方图bins个数，总共3个通道；使用皮尔逊系数度量前后帧的距离d(H_i,H_j)，H_i,H_j分别表示编号为i，j的直方图。

然后，计算前后帧包围框面积交叠比IoU：

A、B分别为前后帧包围框的面积；

最后，计算前后帧包围框相似度为

f(i,j)＝d(H_i,H_j)+λIoU

其中：λ表示调节系数，控制直方图相似度与交叠比的权重；

若相似度度量值f(i,j)大于阈值，则认为包围框i与包围框j为同一个跟踪目标；若相似度度量值f(i,j)不大于于阈值，则使用扩展卡尔曼滤波器进行预测跟踪。

作为优选，还包括可视化层模块，用于3D可视化工具对获得的感知结果进行显示。

本发明是易于开发，易于扩展，方便部署的计算机视觉应用框架及可应用于监控场景的***，相比于现有的***，具有以下有益效果：

首先，本发明能够兼容异构的相机，包括普通RGB相机，多种深度相机。

其次，本发明的框架易于开发与扩展，以插件的形式进行功能的增加、删减与开发，新功能的开发使得开发者不必关系底层的实现，直接使用标准的接口进行二次开发。

最后，本发明将单机组建成网络，加入行人跟踪算法模块，实现行人的长时间跨区域的跟踪。

本发明的应用于基础的计算机视觉***框架，在视频监控分析中可以方便进行应用的扩展，具有良好的应用价值。例如，在视频监控中，本发明的***可以准确定位行人的位置与跟踪行人的轨迹，另外，可以以插件形式更换算法应用，达到易于开发的目的。

附图说明

图1为本发明的基于深度相机人脸与行人感知***的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参考图1，基于深度相机人脸与行人感知***包括以下模块：硬件层模块、驱动层模块、应用层模块和可视化层模块。层间，层内的功能单元相互独立，接口格式统一，易于调用，方便功能单元以插件形式扩展与删减。下面对各模块的功能进行详细描述

1.硬件层模块S1：用于接入多种异构相机，包括普通的RGB相机，以及一些深度相机，例如PrimeSense系列产品，Kinect v2等。

2.驱动层模块S2：使用ROS***，统一各种相机驱动接口，使用格式转换模块接收来自各个相机的数据，经过该模块转换为统一的OpenCV格式，彩色为3通道的unchar类型，深度为1通道的float类型，以OpenCV的Mat格式供各个模块中的其他应用使用。

3.应用层模块S3：本模块中包括三个应用，分别为基于Dlib训练器与RGB-D信息的人脸/人头检测器、基于多模态深度学习模型的行人检测器以及基于多机***的长时间跨区域的行人***。应用层内的某个单元可以方便被其他单元调用，例如检测单元可为跟踪单元服务。下面对这三个应用的实现方式进行详细说明。

第一个应用，对于Dlib训练器与RGB-D信息的人脸(头)检测器，本发明使用Dlib训练器融合RGB-D双通道的进行训练模型，在决策层进行包围框融合，并且加入直方图过滤的方法得到最终人脸/人头结果。具体来说：基于Dlib训练器，融合RGB-D双通道(RGB通道与Depth通道)的检测结果，其中加入深度通道的过滤层。定义深度通道检测候选框的颜色直方图为H＝[1…B]，B为直方图bins的个数。B设置为64。如果某个bins中的占比大于0.6(阈值)则认为包含有头部。

第二个应用，对于多模态深度学习模型行人检测器：本发明使用faster R-CNN框架，在决策层进行多模态融合实现高效的行人检测。深度图像与彩色图像分别由RPN产生候选区域，通过融合彩色图像、深度图像的候选框，去除互相无交集的候选框，这样可以忽略一部分不包含目标的候选框。再以彩色图像的候选框为基准，对应的深度图像的候选框选取为彩色图像的候选框，然后合并彩色图与深度图的深度特征送入分类器，实现行人检测。

第三个应用，基于多机***的长时间跨区域的行人***具体如下：

将各个单机组建为网络，使用标定和时间同步协议使得各个单机***同步，将各个单机的检测结果放入检测结果池，利用行人***对这些结果进行行人的跟踪。使用的***中的算法为检测跟踪互反馈与扩展卡尔曼滤波器的结合，算法具体通过如下步骤实现：

首先，定义检测框的特征H：

H＝[1…B]×[1…B]×[1…B]

然后，计算前后帧包围框面积交叠比IoU：

A、B分别为前后帧包围框的面积；

最后，计算前后帧包围框相似度为

f(i,j)＝d(H_i,H_j)+λIoU

若相似度度量值f(i,j)大于阈值，则认为包围框i与包围框j为同一个跟踪目标，跟踪成功；若相似度度量值f(i,j)不大于于阈值，表明跟踪失败，则使用扩展卡尔曼滤波器进行预测跟踪。

4.可视化层模块S4，使用机器人操作***的3D可视化工具，能够以多种显示方式查看结果。

上述实施例中，本发明的针对单个设备能够方便部署，易于扩展与开发。以插件的形式进行功能的增减。使用基于Dlib训练器与RGB-D信息的人脸(头)检测器与基于fasterR-CNN框架的多模态神经网络模型的行人检测器。在此基础上，使用多个单机设备进行组网，使用上述的***实现行人的长时间跨区域跟踪。本***针对相机个数可分为单深度相机***与多深度相机***，前者的感知应用包括人脸检测与识别，行人检测与跟踪；后者克服单深度相机***覆盖面小的缺点，组成相机网络，实现对行人的跨区域长时间的跟踪。

本发明的感知方法，基于RGB-D信息与深度学习技术，感知框架基于ROS***。从而得到易于开发，易于扩展，方便部署的人脸与行人感知***。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度相机的人脸与行人感知***，其特征在于，包括以下模块：

硬件层模块：用于接入多种异构相机；

驱动层模块：用于通过ROS***，统一各种相机驱动接口；

应用层模块：包括基于Dlib训练器与RGB-D信息的人脸/人头检测器、基于多模态深度学习模型的行人检测器以及基于多机***的长时间跨区域的行人***；

所述的基于多机***的长时间跨区域的行人***具体如下：

首先，定义检测框的特征H：

H＝[1...B]×[1...B]×[1...B]

其中，B是直方图bins个数，总共3个通道；使用皮尔逊系数度量前后帧的距离d(H_i，H_j)，H_i，H_j分别表示编号为i，j的直方图；

然后，计算前后帧包围框面积交叠比IoU：

A、B分别为前后帧包围框的面积；

最后，计算前后帧包围框相似度为

f(i，j)＝d(H_i，H_j)+λIoU

若相似度度量值F(i，j)大于阈值，则认为包围框i与包围框j为同一个跟踪目标；若相似度度量值F(i，j)不大于于阈值，则使用扩展卡尔曼滤波器进行预测跟踪。

2.如权利要求1所述的基于深度相机的人脸与行人感知***，其特征在于，所述的异构相机包括普通的RGB相机和深度相机。

3.如权利要求1所述的基于深度相机的人脸与行人感知***，其特征在于，统一各种相机驱动接口时，将各种相机的数据转统一为OpenCV格式的Mat类型。

4.如权利要求1所述的基于深度相机的人脸与行人感知***，其特征在于，所述的人脸/人头检测器，使用Dlib训练器融合RGB-D双通道的进行训练模型，在决策层进行包围框融合，并且加入直方图过滤的方法得到最终人脸/人头结果。

5.如权利要求1所述的基于深度相机的人脸与行人感知***，其特征在于，所述基于多模态深度学习模型的行人检测器使用faster R-CNN框架，在决策层进行多模态融合实现行人检测，其中深度图像与彩色图像分别由RPN产生候选区域，通过融合彩色图像、深度图像的候选框，去除互相无交集的候选框；再以彩色图像的候选框为基准，对应的深度图像的候选框选取为彩色图像的候选框，然后合并彩色图与深度图的深度特征送入分类器。

6.如权利要求1所述的基于深度相机的人脸与行人感知***，其特征在于，还包括可视化层模块，用于3D可视化工具对获得的感知结果进行显示。