CN107301377B - 一种基于深度相机的人脸与行人感知*** - Google Patents

一种基于深度相机的人脸与行人感知*** Download PDF

Info

Publication number
CN107301377B
CN107301377B CN201710385953.8A CN201710385953A CN107301377B CN 107301377 B CN107301377 B CN 107301377B CN 201710385953 A CN201710385953 A CN 201710385953A CN 107301377 B CN107301377 B CN 107301377B
Authority
CN
China
Prior art keywords
pedestrian
depth
frame
face
depth camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710385953.8A
Other languages
English (en)
Other versions
CN107301377A (zh
Inventor
李玺
岳亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710385953.8A priority Critical patent/CN107301377B/zh
Publication of CN107301377A publication Critical patent/CN107301377A/zh
Application granted granted Critical
Publication of CN107301377B publication Critical patent/CN107301377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度相机的人脸与行人感知***,应用于包括移动机器人、智能监控等场景。本***至少分为三个模块,其中硬件层模块:用于接入多种异构相机;驱动层模块:用于通过ROS***,统一各种相机驱动接口;应用层模块:包括基于Dlib训练器与RGB‑D信息的人脸/人头检测器、基于多模态深度学习模型的行人检测器以及基于多机***的长时间跨区域的行人***。本***针对相机个数可分为单深度相机***与多深度相机***,前者的感知应用包括人脸检测与识别,行人检测与跟踪;后者克服单深度相机***覆盖面小的缺点,组成相机网络,实现对行人的跨区域长时间的跟踪。

Description

一种基于深度相机的人脸与行人感知***
技术领域
本发明属于计算机视觉领域,特别地涉及一种应用于视频监控场景或者部署于移动机器人的人脸与行人感知***。
背景技术
目标检测问题是计算机视觉***的主要研究基础与热点。目标检测作为计算机视觉的基础任务,是学术界和工业界的研究热点。其中,关于人的感知更是具有广泛的应用意义,尤其是在智能安防、无人驾驶和移动机器人等行业。在这些行业的解决方案中很多使用深度相机进行人的感知,以达到快速准确以及三维定位的目的。在一些商业化及开源代码中,一般只针对单一设备或特定场景,并且难以根据用户需求进行二次开发或功能扩展与删减。基于以上原因,本发明提出基于深度相机,易于扩展且方便开发的人脸与行人感知***。
当前在学术界与工业界出现很多人脸与行人的感知***。例如卡内基梅隆大学的OpenFace***,具有准确的人脸检测与识别功能。然而更多的是工业界研发的一些***,例如智能安防***,无人驾驶***和机器人***。在当前商用化的产品中,一般有两种形式:1.提供服务。即提供API或软件支持,2.以硬件商品形式。各种智能硬件公司提供完整的硬件及软件服务。
商业化的产品不允许开发者对其源码进行开发,不能满足开发者根据自己的需求进行开发应用。网络上也有很多开源的目标检测源码,但是这些源码基本只针对某一个任务或单一的相机,也没有进行模块化,难以对其重利用。本发明旨在设计一个开放式的开发平台,可使用多种信息获取设备,并集成实用有效的算法,不仅可使用低功耗的嵌入式芯片,用于移动平台。亦可组织形成摄像机网络,对目标完成完整的跟踪与定位。
发明内容
为实现上述目的,本发明的技术方案为:
基于深度相机的人脸与行人感知***,包括以下模块:
硬件层模块:用于接入多种异构相机;
驱动层模块:用于通过ROS***,统一各种相机驱动接口;
应用层模块:包括基于Dlib训练器与RGB-D信息的人脸/人头检测器、基于多模态深度学习模型的行人检测器以及基于多机***的长时间跨区域的行人***。
作为优选,所述的异构相机包括普通的RGB相机和深度相机。
作为优选,统一各种相机驱动接口时,将各种相机的数据转统一为OpenCV格式的Mat类型。
作为优选,所述的人脸/人头检测器,使用Dlib训练器融合RGB-D双通道的进行训练模型,在决策层进行包围框融合,并且加入直方图过滤的方法得到最终人脸/人头结果。
作为优选,所述基于多模态深度学习模型的行人检测器使用faster R-CNN框架,在决策层进行多模态融合实现行人检测,其中深度图像与彩色图像分别由RPN产生候选区域,通过融合彩色图像、深度图像的候选框,去除互相无交集的候选框;再以彩色图像的候选框为基准,对应的深度图像的候选框选取为彩色图像的候选框,然后合并彩色图与深度图的深度特征送入分类器;
作为优选,所述的基于多机***的长时间跨区域的行人***具体如下:
将各个单机组建为网络,使用标定和时间同步协议使得各个单机***同步,将各个单机的检测结果放入检测结果池,基于行人跟踪算法对这些结果进行行人的跟踪,行人跟踪算法通过如下步骤实现:
首先,定义检测框的特征H:
H=[1…B]×[1…B]×[1…B]
其中,B是直方图bins个数,总共3个通道;使用皮尔逊系数度量前后帧的距离d(Hi,Hj),Hi,Hj分别表示编号为i,j的直方图。
然后,计算前后帧包围框面积交叠比IoU:
Figure BDA0001306371140000031
A、B分别为前后帧包围框的面积;
最后,计算前后帧包围框相似度为
f(i,j)=d(Hi,Hj)+λIoU
其中:λ表示调节系数,控制直方图相似度与交叠比的权重;
若相似度度量值f(i,j)大于阈值,则认为包围框i与包围框j为同一个跟踪目标;若相似度度量值f(i,j)不大于于阈值,则使用扩展卡尔曼滤波器进行预测跟踪。
作为优选,还包括可视化层模块,用于3D可视化工具对获得的感知结果进行显示。
本发明是易于开发,易于扩展,方便部署的计算机视觉应用框架及可应用于监控场景的***,相比于现有的***,具有以下有益效果:
首先,本发明能够兼容异构的相机,包括普通RGB相机,多种深度相机。
其次,本发明的框架易于开发与扩展,以插件的形式进行功能的增加、删减与开发,新功能的开发使得开发者不必关系底层的实现,直接使用标准的接口进行二次开发。
最后,本发明将单机组建成网络,加入行人跟踪算法模块,实现行人的长时间跨区域的跟踪。
本发明的应用于基础的计算机视觉***框架,在视频监控分析中可以方便进行应用的扩展,具有良好的应用价值。例如,在视频监控中,本发明的***可以准确定位行人的位置与跟踪行人的轨迹,另外,可以以插件形式更换算法应用,达到易于开发的目的。
附图说明
图1为本发明的基于深度相机人脸与行人感知***的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,基于深度相机人脸与行人感知***包括以下模块:硬件层模块、驱动层模块、应用层模块和可视化层模块。层间,层内的功能单元相互独立,接口格式统一,易于调用,方便功能单元以插件形式扩展与删减。下面对各模块的功能进行详细描述
1.硬件层模块S1:用于接入多种异构相机,包括普通的RGB相机,以及一些深度相机,例如PrimeSense系列产品,Kinect v2等。
2.驱动层模块S2:使用ROS***,统一各种相机驱动接口,使用格式转换模块接收来自各个相机的数据,经过该模块转换为统一的OpenCV格式,彩色为3通道的unchar类型,深度为1通道的float类型,以OpenCV的Mat格式供各个模块中的其他应用使用。
3.应用层模块S3:本模块中包括三个应用,分别为基于Dlib训练器与RGB-D信息的人脸/人头检测器、基于多模态深度学习模型的行人检测器以及基于多机***的长时间跨区域的行人***。应用层内的某个单元可以方便被其他单元调用,例如检测单元可为跟踪单元服务。下面对这三个应用的实现方式进行详细说明。
第一个应用,对于Dlib训练器与RGB-D信息的人脸(头)检测器,本发明使用Dlib训练器融合RGB-D双通道的进行训练模型,在决策层进行包围框融合,并且加入直方图过滤的方法得到最终人脸/人头结果。具体来说:基于Dlib训练器,融合RGB-D双通道(RGB通道与Depth通道)的检测结果,其中加入深度通道的过滤层。定义深度通道检测候选框的颜色直方图为H=[1…B],B为直方图bins的个数。B设置为64。如果某个bins中的占比大于0.6(阈值)则认为包含有头部。
第二个应用,对于多模态深度学习模型行人检测器:本发明使用faster R-CNN框架,在决策层进行多模态融合实现高效的行人检测。深度图像与彩色图像分别由RPN产生候选区域,通过融合彩色图像、深度图像的候选框,去除互相无交集的候选框,这样可以忽略一部分不包含目标的候选框。再以彩色图像的候选框为基准,对应的深度图像的候选框选取为彩色图像的候选框,然后合并彩色图与深度图的深度特征送入分类器,实现行人检测。
第三个应用,基于多机***的长时间跨区域的行人***具体如下:
将各个单机组建为网络,使用标定和时间同步协议使得各个单机***同步,将各个单机的检测结果放入检测结果池,利用行人***对这些结果进行行人的跟踪。使用的***中的算法为检测跟踪互反馈与扩展卡尔曼滤波器的结合,算法具体通过如下步骤实现:
首先,定义检测框的特征H:
H=[1…B]×[1…B]×[1…B]
其中,B是直方图bins个数,总共3个通道;使用皮尔逊系数度量前后帧的距离d(Hi,Hj),Hi,Hj分别表示编号为i,j的直方图。
然后,计算前后帧包围框面积交叠比IoU:
Figure BDA0001306371140000051
A、B分别为前后帧包围框的面积;
最后,计算前后帧包围框相似度为
f(i,j)=d(Hi,Hj)+λIoU
其中:λ表示调节系数,控制直方图相似度与交叠比的权重;
若相似度度量值f(i,j)大于阈值,则认为包围框i与包围框j为同一个跟踪目标,跟踪成功;若相似度度量值f(i,j)不大于于阈值,表明跟踪失败,则使用扩展卡尔曼滤波器进行预测跟踪。
4.可视化层模块S4,使用机器人操作***的3D可视化工具,能够以多种显示方式查看结果。
上述实施例中,本发明的针对单个设备能够方便部署,易于扩展与开发。以插件的形式进行功能的增减。使用基于Dlib训练器与RGB-D信息的人脸(头)检测器与基于fasterR-CNN框架的多模态神经网络模型的行人检测器。在此基础上,使用多个单机设备进行组网,使用上述的***实现行人的长时间跨区域跟踪。本***针对相机个数可分为单深度相机***与多深度相机***,前者的感知应用包括人脸检测与识别,行人检测与跟踪;后者克服单深度相机***覆盖面小的缺点,组成相机网络,实现对行人的跨区域长时间的跟踪。
本发明的感知方法,基于RGB-D信息与深度学习技术,感知框架基于ROS***。从而得到易于开发,易于扩展,方便部署的人脸与行人感知***。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度相机的人脸与行人感知***,其特征在于,包括以下模块:
硬件层模块:用于接入多种异构相机;
驱动层模块:用于通过ROS***,统一各种相机驱动接口;
应用层模块:包括基于Dlib训练器与RGB-D信息的人脸/人头检测器、基于多模态深度学习模型的行人检测器以及基于多机***的长时间跨区域的行人***;
所述的基于多机***的长时间跨区域的行人***具体如下:
将各个单机组建为网络,使用标定和时间同步协议使得各个单机***同步,将各个单机的检测结果放入检测结果池,基于行人跟踪算法对这些结果进行行人的跟踪,行人跟踪算法通过如下步骤实现:
首先,定义检测框的特征H:
H=[1...B]×[1...B]×[1...B]
其中,B是直方图bins个数,总共3个通道;使用皮尔逊系数度量前后帧的距离d(Hi,Hj),Hi,Hj分别表示编号为i,j的直方图;
然后,计算前后帧包围框面积交叠比IoU:
Figure FDA0002458378370000011
A、B分别为前后帧包围框的面积;
最后,计算前后帧包围框相似度为
f(i,j)=d(Hi,Hj)+λIoU
其中:λ表示调节系数,控制直方图相似度与交叠比的权重;
若相似度度量值F(i,j)大于阈值,则认为包围框i与包围框j为同一个跟踪目标;若相似度度量值F(i,j)不大于于阈值,则使用扩展卡尔曼滤波器进行预测跟踪。
2.如权利要求1所述的基于深度相机的人脸与行人感知***,其特征在于,所述的异构相机包括普通的RGB相机和深度相机。
3.如权利要求1所述的基于深度相机的人脸与行人感知***,其特征在于,统一各种相机驱动接口时,将各种相机的数据转统一为OpenCV格式的Mat类型。
4.如权利要求1所述的基于深度相机的人脸与行人感知***,其特征在于,所述的人脸/人头检测器,使用Dlib训练器融合RGB-D双通道的进行训练模型,在决策层进行包围框融合,并且加入直方图过滤的方法得到最终人脸/人头结果。
5.如权利要求1所述的基于深度相机的人脸与行人感知***,其特征在于,所述基于多模态深度学习模型的行人检测器使用faster R-CNN框架,在决策层进行多模态融合实现行人检测,其中深度图像与彩色图像分别由RPN产生候选区域,通过融合彩色图像、深度图像的候选框,去除互相无交集的候选框;再以彩色图像的候选框为基准,对应的深度图像的候选框选取为彩色图像的候选框,然后合并彩色图与深度图的深度特征送入分类器。
6.如权利要求1所述的基于深度相机的人脸与行人感知***,其特征在于,还包括可视化层模块,用于3D可视化工具对获得的感知结果进行显示。
CN201710385953.8A 2017-05-26 2017-05-26 一种基于深度相机的人脸与行人感知*** Active CN107301377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710385953.8A CN107301377B (zh) 2017-05-26 2017-05-26 一种基于深度相机的人脸与行人感知***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710385953.8A CN107301377B (zh) 2017-05-26 2017-05-26 一种基于深度相机的人脸与行人感知***

Publications (2)

Publication Number Publication Date
CN107301377A CN107301377A (zh) 2017-10-27
CN107301377B true CN107301377B (zh) 2020-08-18

Family

ID=60137563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710385953.8A Active CN107301377B (zh) 2017-05-26 2017-05-26 一种基于深度相机的人脸与行人感知***

Country Status (1)

Country Link
CN (1) CN107301377B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255182B (zh) * 2018-01-30 2021-05-11 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN108564057B (zh) * 2018-04-25 2022-05-13 浙江传媒学院 一种基于opencv的人物相似度***的建立方法
CN109241871A (zh) * 2018-08-16 2019-01-18 北京此时此地信息科技有限公司 一种基于视频数据的公共区域人流跟踪方法
WO2020037553A1 (zh) * 2018-08-22 2020-02-27 深圳市大疆创新科技有限公司 图像处理方法及装置、移动设备
CN109784145B (zh) * 2018-12-05 2021-03-16 北京华捷艾米科技有限公司 基于深度图的目标检测方法及存储介质
CN110210474B (zh) 2019-04-30 2021-06-01 北京市商汤科技开发有限公司 目标检测方法及装置、设备及存储介质
CN110472516A (zh) * 2019-07-23 2019-11-19 腾讯科技(深圳)有限公司 一种人物图像识别***的构建方法、装置、设备及***
CN112861576A (zh) * 2019-11-27 2021-05-28 顺丰科技有限公司 员工形象检测方法、装置、计算机设备和存储介质
CN111444850B (zh) * 2020-03-27 2023-11-14 北京爱笔科技有限公司 一种图片检测的方法和相关装置
CN112449093A (zh) * 2020-11-05 2021-03-05 北京德火科技有限责任公司 一种三维全景视频融合监控平台
CN113313688B (zh) * 2021-05-28 2022-08-05 武汉乾峯智能科技有限公司 一种含能材料药桶识别方法、***、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426645A (zh) * 2011-08-30 2012-04-25 北京航空航天大学 一种多视角多状态的步态识别方法
CN106600640A (zh) * 2016-12-12 2017-04-26 杭州视氪科技有限公司 一种基于rgb‑d相机的人脸识别辅助眼镜

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136831B (zh) * 2013-02-19 2016-09-07 江苏开拓信息与***有限公司 一种小区多设备联动抓拍监控***及方法
CN104217214B (zh) * 2014-08-21 2017-09-19 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb‑d人物行为识别方法
CN104598878A (zh) * 2015-01-07 2015-05-06 深圳市唯特视科技有限公司 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法
JP2017054241A (ja) * 2015-09-08 2017-03-16 株式会社東芝 表示制御装置、方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426645A (zh) * 2011-08-30 2012-04-25 北京航空航天大学 一种多视角多状态的步态识别方法
CN106600640A (zh) * 2016-12-12 2017-04-26 杭州视氪科技有限公司 一种基于rgb‑d相机的人脸识别辅助眼镜

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
试论人脸识别技术在侦查破案中的运用与完善;肖军;《北京警察学院学报》;20160731;第92-96页 *

Also Published As

Publication number Publication date
CN107301377A (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN107301377B (zh) 一种基于深度相机的人脸与行人感知***
Bauer et al. Enhancing perception for the visually impaired with deep learning techniques and low-cost wearable sensors
US11978243B2 (en) System and method using augmented reality for efficient collection of training data for machine learning
US20210279503A1 (en) Image processing method, apparatus, and device, and storage medium
CN102854983B (zh) 一种基于手势识别的人机交互方法
JP5070213B2 (ja) ネットワーク基盤知能型サービスロボットのビジョン処理装置及びその処理方法並びにこれを用いたシステム
CN108388882B (zh) 基于全局-局部rgb-d多模态的手势识别方法
CN112025729B (zh) 基于ros的多功能智能医疗服务机器人***
JPWO2020179065A1 (ja) 画像処理装置、画像処理方法及びプログラム
CN110264495A (zh) 一种目标跟踪方法及装置
JP2019149142A (ja) 対象物標識のためのシステムおよび方法
CN113093726A (zh) 一种基于Yolo_v4算法的目标检测与跟踪方法
CN110728756B (zh) 一种基于增强现实的远程指导的方法与设备
WO2024087962A1 (zh) 车厢姿态识别***、方法、电子设备及存储介质
US20230168689A1 (en) Systems and methods for preserving data and human confidentiality during feature identification by robotic devices
CN113378605B (zh) 多源信息融合方法及装置、电子设备和存储介质
CN115311512A (zh) 数据标注方法、装置、设备及存储介质
CN105225248A (zh) 识别物体的运动方向的方法和设备
Kaur et al. Scene perception system for visually impaired based on object detection and classification using multimodal deep convolutional neural network
KR20230086457A (ko) 화재 감지 시스템의 구축을 위한 전차 장치 및 그 방법
CN113126120A (zh) 数据标注方法、装置、设备、存储介质以及计算机程序产品
KR102299902B1 (ko) 증강현실을 제공하기 위한 장치 및 이를 위한 방법
Argyros et al. Three-dimensional tracking of multiple skin-colored regions by a moving stereoscopic system
WO2021179125A1 (zh) 监控***、监控方法、移动平台和远程设备
CN114648572A (zh) 虚拟定位方法及装置、虚拟定位***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant