CN113065397A

CN113065397A - 行人检测方法及装置

Info

Publication number: CN113065397A
Application number: CN202110231224.3A
Authority: CN
Inventors: 尹延涛; 刘江; 黄银君; 冀怀远; 荆伟
Original assignee: Nanjing Suning Software Technology Co ltd
Current assignee: Nanjing Suning Software Technology Co ltd
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2021-07-02
Anticipated expiration: 2041-03-02
Also published as: CN113065397B; CA3150597A1

Abstract

本发明公开一种行人检测方法及装置，涉及图像识别技术领域，通过多个深度摄像头利用特定视角采集监控场景内的行人数据，有效解决了单摄像头斜拍带来的遮挡信息缺失问题，提高了行人检测数据的准确性。该方法包括：根据每个深度摄像头拍摄的第一深度图像，构建与每个深度摄像头对应的背景蒙版，背景蒙版包括地面蒙版和标记物蒙版；基于每个深度摄像头连续拍摄的多帧第二深度图像中的像素点，以及与每个深度摄像头对应背景蒙版中的像素点，分别对各深度摄像头对应的背景蒙版进行更新；通过比对全场景俯视深度图与全场景俯视深度背景图中的像素点，以及比对全场景俯视彩色图与全场景俯视彩色背景图中的像素点，识别行人检测结果。

Description

行人检测方法及装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种行人检测方法及装置。

背景技术

在人工智能蓬勃发展的时代，各种新的事物如雨后春笋一样发展起来，无人超市、无人商店等新事物纷纷涌现。随着智能零售的时代潮流，将线下零售和人工智能相结合，提供一种和线上购物一样流畅的全新购物方式成为新的研究方向。通过在一个封闭场景利用全覆盖式拍摄进入场景内的每一个顾客的行为轨迹，实时提供商品推荐和结算等服务，真正意义上做到即拿即走的无感知购物体验。

目前为数不多的行人检测方案都是针对较为开阔的场景中基于斜向下拍摄的，优点在于拍摄投影面积较大，便于获取更多的特征信息，但是随之而来的遮挡问题也不可避免。在例如无人店、无人超市这样复杂场景中，遮挡带来的性能影响可能导致整体***无法正常运行从而影响出店结算，影响购物体验。

发明内容

本发明的目的在于提供一种行人检测方法及装置，通过多个深度摄像头利用特定视角采集监控场景内的行人数据，有效解决了单摄像头斜拍带来的遮挡信息缺失问题，提高了行人检测数据的准确性。

为了实现上述目的，本发明的第一方面提供一种行人检测方法，包括：

根据每个深度摄像头拍摄的第一深度图像，构建与每个深度摄像头对应的背景蒙版，所述背景蒙版包括地面蒙版和标记物蒙版；

基于每个深度摄像头连续拍摄的多帧第二深度图像中的像素点，以及与每个深度摄像头对应背景蒙版中的像素点，分别对各深度摄像头对应的所述背景蒙版进行更新；

将各深度摄像头对应所述背景蒙版中的像素点经坐标转换融合后，得到全场景俯视深度背景图和全场景俯视彩色背景图；

将所述全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将所述全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图；

通过识别各深度摄像实时获取的第三深度图像中包含人体像素的前景区域，将前景区域中的像素点更新入对应深度摄像头的俯视深度背景图和俯视彩色背景图中，以更新每个深度摄像头的俯视深度图和俯视彩色图；

融合各深度摄像头的所述俯视深度图形成全场景俯视深度图，以及融合各深度摄像头的所述俯视彩色图形成全场景俯视彩色图；

通过比对所述全场景俯视深度图与所述全场景俯视深度背景图中的像素点，以及比对所述全场景俯视彩色图与所述全场景俯视彩色背景图中的像素点，识别行人检测结果。

优选地，根据每个深度摄像头拍摄的第一深度图像，构建与每个深度摄像头对应的背景蒙版的方法包括：

从每个深度摄像头拍摄的第一深度图像中框选出地面区域构建地面拟合公式，以及框选出至少一个标记物区域构建与标记物区域一一对应的标记物拟合公式；

根据地面拟合公式构建与每个深度摄像头对应的所述地面蒙版，以及根据标记物拟合公式构建与每个深度摄像头对应的所述标记物蒙版；

将所述地面蒙版和所述标记物蒙版融合形成与每个深度摄像头对应的所述背景蒙版。

优选地，基于深度摄像头连续拍摄的多帧第二深度图像中的像素点，以及与深度摄像头对应背景蒙版中的像素点，对所述背景蒙版进行更新的方法包括：

将同一深度摄像头拍摄的第m帧第二深度图像与第m+1帧第二深度图像中各对应位置像素点的深度值进行大小值比对，m的初始值为1；

识别深度值发生变化的像素点，将第m+1帧第二深度图像中对应位置像素点的深度值更新为比对结果中的小值，令m＝m+1，重新对第m帧第二深度图像与第m+1帧第二深度图像中各对应位置像素点的深度值进行比对，直至得到最后一帧第二深度图像中各位置像素点及其对应的深度值；

将最后一帧第二深度图像中各位置像素点及其对应的深度值与所述背景蒙版中各位置像素点及其对应的深度值进行大小值比对；

识别深度值发生变化的像素点，将所述背景蒙版中对应位置像素点的深度值更新为比对结果中的小值。

优选地，将各深度摄像头对应所述背景蒙版中的像素点经坐标转换融合后，得到全场景俯视深度背景图和全场景俯视彩色背景图的方法包括：

构建全场景俯视深度背景空白模板图和全场景俯视彩色背景空白模板图，所述全场景俯视深度背景空白模板图中的各位置像素点的深度值为零，所述全场景俯视彩色背景空白模板图中的各位置像素点的颜色值为零；

将各深度摄像头对应所述背景蒙版中的像素点融合统一后形成全场景背景蒙版，经像素坐标统一转换为世界坐标，再由世界坐标统一转换为俯视图坐标；

依次遍历全场景背景蒙版中的像素点，并将每个像素点的深度值与全场景俯视深度背景空白模板图中对应位置像素点的深度值进行大小值比对，将全场景背景蒙版中大值的像素点替换给全场景俯视深度背景空白模板中对应位置处的像素点，得到全场景俯视深度背景图；

基于全场景俯视深度背景蒙版中发生替换的像素点，将其像素点颜色值替换给全场景俯视彩色背景空白模板图中对应位置处的像素点，得到全场景俯视彩色背景图。

较佳地，将所述全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将所述全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图的方法包括：

基于每个深度摄像头对应的所述背景蒙版像素点的俯视图坐标，将所述全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将所述全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图。

进一步地，通过识别深度摄像实时获取的第三深度图像中包含人体像素的前景区域，将前景区域中的像素点更新入对应深度摄像头的俯视深度背景图和俯视彩色背景图的方法包括：

将深度摄像实时获取的第三深度图像中的像素点与对应的单个俯视深度背景图像素点的深度值进行大小值比对；

采用帧差法识别所述第三深度图像中深度值为小值的像素点，汇总得到包含人体像素的前景区域；

将前景区域中的像素点与单个俯视深度背景图的像素点一一对应匹配关联，将单个俯视深度背景图中像素点的深度值替换为与之对应前景区域中的像素点的深度值；

识别单个俯视深度背景图中发生替换的像素点，将前景区域中像素点的颜色值替换给单个俯视彩色背景图中对应的像素点。

进一步地，融合各深度摄像头的所述俯视深度图形成全场景俯视深度图，以及融合各深度摄像头的所述俯视彩色图形成全场景俯视彩色图的方法包括：

遍历每个深度摄像头对应俯视深度图中的像素点，将全场景俯视深度背景图中对应位置处像素点的深度值进行替换，得到全场景俯视深度图；

识别全场景俯视深度图中发生替换的像素点，将全场景俯视彩色背景图中对应位置处像素点的颜色值进行替换，得到全场景俯视彩色图。

优选地，通过比对所述全场景俯视深度图与所述全场景俯视深度背景图中的像素点，以及比对所述全场景俯视彩色图与所述全场景俯视彩色背景图中的像素点，识别行人检测结果的方法包括：

比对所述全场景俯视深度图与所述全场景俯视深度背景图中深度值发生变化的像素点，基于像素点的密集区域面积及各像素点的深度值识别出头部体积和/或身体体积；

基于头部体积和/或身体体积的大小，识别行人检测结果。

与现有技术相比，本发明提供的行人检测方法具有以下有益效果：

本发明提供的行人检测方法，实际应用时可将其划分为算法准备阶段、算法初始化阶段和算法检测应用阶段，其中，算法准备阶段也即每个深度摄像头的背景蒙版生成阶段，其具体过程为：首先获取通过每个深度摄像头俯拍当前检测场景的第一深度图像，并在第一深度图像中框选出地面区域和至少一个标记物区域，构建出与每个深度摄像头对应的地面拟合公式及对应的标记物拟合公式，然后将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景中与各深度摄像头对应的背景蒙版。算法初始化阶段也即背景蒙版更新阶段，其具体过程为：根据获取的连续多帧第二深度图像中像素点的深度值以及对应背景蒙版中像素点的深度值，对各深度摄像头对应的背景蒙版进行背景更新，然后将各背景蒙版中像素点经坐标转换融合后，得到当前场景下的全场景俯视深度背景图和全场景俯视彩色背景图，之后再将全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图，接着基于每个深度摄像实时获取的第三深度图像中包含人体像素的前景区域，将前景区域中的像素点更新入对应深度摄像头的俯视深度背景图和俯视彩色背景图中，以更新每个深度摄像头的俯视深度图和俯视彩色图，最终融合各深度摄像头的俯视深度图形成全场景俯视深度图，以及融合各深度摄像头的俯视彩色图形成全场景俯视彩色图。算法检测应用阶段为人体区域检测阶段，其对应的具体过程为：通过比对全场景俯视深度图与全场景俯视深度背景图中的像素点，以及比对全场景俯视彩色图与全场景俯视彩色背景图中的像素点，综合识别处行人检测结果。

可见，本发明使用特定视角，如俯拍方式获取深度图像并建立的背景蒙版，解决了斜拍带来遮挡导致信息缺失的问题，提升了行人检测的适用场景，另外，使用深度相机相比较于普通相机来说增加了图像的信息维度，可获取到包括人体身高和头部三维空间坐标的数据，提高了行人检测数据的准确性。通过多个深度摄像头的分布式布置，能够适用于存在大量遮挡的复杂监控场景，采用深度图与彩色图双维度的判断条件，能够进一步提升行人检测数据的准确性。

本发明的第二方面提供一种行人检测装置，应用于上述技术方案所述的行人检测方法中，所述装置包括：

蒙版构建单元，用于根据每个深度摄像头拍摄的第一深度图像，构建与每个深度摄像头对应的背景蒙版，所述背景蒙版包括地面蒙版和标记物蒙版；

蒙版更新单元，用于基于每个深度摄像头连续拍摄的多帧第二深度图像中的像素点，以及与每个深度摄像头对应背景蒙版中的像素点，分别对各深度摄像头对应的所述背景蒙版进行更新；

蒙版融合单元，用于将各深度摄像头对应所述背景蒙版中的像素点经坐标转换融合后，得到全场景俯视深度背景图和全场景俯视彩色背景图；

背景拆分单元，用于将所述全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将所述全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图；

前景识别单元，用于通过识别各深度摄像实时获取的第三深度图像中包含人体像素的前景区域，将前景区域中的像素点更新入对应深度摄像头的俯视深度背景图和俯视彩色背景图中，以更新每个深度摄像头的俯视深度图和俯视彩色图；

全场景融合单元，用于融合各深度摄像头的所述俯视深度图形成全场景俯视深度图，以及融合各深度摄像头的所述俯视彩色图形成全场景俯视彩色图；

行人检测单元，用于通过比对所述全场景俯视深度图与所述全场景俯视深度背景图中的像素点，以及比对所述全场景俯视彩色图与所述全场景俯视彩色背景图中的像素点，识别行人检测结果。

与现有技术相比，本发明提供的行人检测装置的有益效果与上述技术方案提供的行人检测方法的有益效果相同，在此不做赘述。

本发明的第三方面提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述行人检测方法的步骤。

与现有技术相比，本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的行人检测方法的有益效果相同，在此不做赘述。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例一中行人检测方法的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，均属于本发明保护的范围。

实施例一

请参阅图1，本实施例提供一种行人检测方法，包括：

根据每个深度摄像头拍摄的第一深度图像，构建与每个深度摄像头对应的背景蒙版，背景蒙版包括地面蒙版和标记物蒙版；基于每个深度摄像头连续拍摄的多帧第二深度图像中的像素点，以及与每个深度摄像头对应背景蒙版中的像素点，分别对各深度摄像头对应的背景蒙版进行更新；将各深度摄像头对应背景蒙版中的像素点经坐标转换融合后，得到全场景俯视深度背景图和全场景俯视彩色背景图；将全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图；通过识别各深度摄像实时获取的第三深度图像中包含人体像素的前景区域，将前景区域中的像素点更新入对应深度摄像头的俯视深度背景图和俯视彩色背景图中，以更新每个深度摄像头的俯视深度图和俯视彩色图；融合各深度摄像头的俯视深度图形成全场景俯视深度图，以及融合各深度摄像头的俯视彩色图形成全场景俯视彩色图；通过比对全场景俯视深度图与全场景俯视深度背景图中的像素点，以及比对全场景俯视彩色图与全场景俯视彩色背景图中的像素点，识别行人检测结果。

本实施例提供的行人检测方法，实际应用时可将其划分为算法准备阶段、算法初始化阶段和算法检测应用阶段，其中，算法准备阶段也即每个深度摄像头的背景蒙版生成阶段，其具体过程为：首先获取通过每个深度摄像头俯拍当前检测场景的第一深度图像，并在第一深度图像中框选出地面区域和至少一个标记物区域，构建出与每个深度摄像头对应的地面拟合公式及对应的标记物拟合公式，然后将由地面拟合公式建立的地面蒙版以及各标记物拟合公式建立的标记物蒙版融合，得到当前场景中与各深度摄像头对应的背景蒙版。算法初始化阶段也即背景蒙版更新阶段，其具体过程为：根据获取的连续多帧第二深度图像中像素点的深度值以及对应背景蒙版中像素点的深度值，对各深度摄像头对应的背景蒙版进行背景更新，然后将各背景蒙版中像素点经坐标转换融合后，得到当前场景下的全场景俯视深度背景图和全场景俯视彩色背景图，之后再将全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图，接着基于每个深度摄像实时获取的第三深度图像中包含人体像素的前景区域，将前景区域中的像素点更新入对应深度摄像头的俯视深度背景图和俯视彩色背景图中，以更新每个深度摄像头的俯视深度图和俯视彩色图，最终融合各深度摄像头的俯视深度图形成全场景俯视深度图，以及融合各深度摄像头的俯视彩色图形成全场景俯视彩色图。算法检测应用阶段为人体区域检测阶段，其对应的具体过程为：通过比对全场景俯视深度图与全场景俯视深度背景图中的像素点，以及比对全场景俯视彩色图与全场景俯视彩色背景图中的像素点，综合识别处行人检测结果。

可见，本实施例使用特定视角，如俯拍方式获取深度图像并建立的背景蒙版，解决了斜拍带来遮挡导致信息缺失的问题，提升了行人检测的适用场景，另外，使用深度相机相比较于普通相机来说增加了图像的信息维度，可获取到包括人体身高和头部三维空间坐标的数据，提高了行人检测数据的准确性。通过多个深度摄像头的分布式布置，能够适用于存在大量遮挡的复杂监控场景，采用深度图与彩色图双维度的判断条件，能够进一步提升行人检测数据的准确性。

需要说明的是，上述实施例中的第一深度图像、第二深度图像和第三深度图像的区别仅在于用途不同，其中，第一深度图像是为构建地面拟合公式和构建地面拟合公式所使用，第二深度图像是为更新背景蒙版所使用，第三深度图像是用于获取人体检测数据的实时检测图像。例如，将通过深度摄像头俯拍监控区域得到的第1帧深度图像作为第一深度图像，将第2帧-第100帧深度图像作为第二深度图像，在背景蒙版更新完成后，将深度摄像头俯拍监控区域得到的实时图像作为第三深度图像。

上述实施例中，根据每个深度摄像头拍摄的第一深度图像，构建与每个深度摄像头对应的背景蒙版的方法包括：

从每个深度摄像头拍摄的第一深度图像中框选出地面区域构建地面拟合公式，以及框选出至少一个标记物区域构建与标记物区域一一对应的标记物拟合公式；根据地面拟合公式构建与每个深度摄像头对应的地面蒙版，以及根据标记物拟合公式构建与每个深度摄像头对应的标记物蒙版；将地面蒙版和标记物蒙版融合形成与每个深度摄像头对应的背景蒙版。

具体实施时，现以其中一个深度摄像头拍摄的第一深度图像构建背景蒙版为例进行说明。基于第一深度图像中框选的地面区域构建地面拟合公式的方法包括：

S11，统计与地面区域对应的数据集合，所述数据集合包括多个像素点坐标及对应的深度值；

S12，从地面区域中随机选择n个像素点组建地面初始数据集，n≥3且n为整数；

S13，基于当前选择的n个像素点构建初始地面拟合公式，遍历初始数据集中未被选择的像素像点，将其依次代入初始地面拟合公式计算对应像素点的地面拟合值；

S14，将小于第一阈值的地面拟合值筛选出来，生成第i轮的有效地面拟合值集合，i的初始值为1；

S15，当第i轮的有效地面拟合值集合对应的像素点数量与地面区域中像素点总数量的比值大于第二阈值，则将第i轮有效地面拟合值集合中的全部地面拟合值累加；

S16，当第i轮中全部地面拟合值的累加结果小于第三阈值，则将第i轮对应的初始地面拟合公式定义为地面拟合公式，当第i轮对应的全部地面拟合值累加结果大于第三阈值，令i＝i+1，并在i未达到阈值轮数时返回步骤S12，否则执行步骤S17；

S17，将所有轮中全部地面拟合值累加结果最小值对应的初始地面拟合公式定义为地面拟合公式。

基于标记物区域构建对应的标记物拟合公式的方法包括：

S21，统计与标记物区域一一对应的数据集合，所述数据集合中包括多个像素点；

S22，从标记物区域中随机选择n个图像点组建标记物初始数据集，n≥3且n为整数；

S23，基于当前选择的n个像素点构建初始标记物拟合公式，遍历初始数据集中未被选择的像素点，将其依次代入初始标记物拟合公式计算对应像素点的标记物拟合值；

S24，将小于第一阈值的标记物拟合值筛选出来，生成第i轮的有效标记物拟合值集合，i的初始值为1；

S25，当第i轮的有效标记物拟合值集合对应的像素点数量与标记物区域中像素点总数量的比值大于第二阈值，则将第i轮有效标记物拟合值集合中的全部标记物拟合值累加；

S26，当第i轮中全部标记物拟合值的累加结果小于第三阈值，则将第i轮对应的初始标记物拟合公式定义为标记物拟合公式，当第i轮对应的全部标记物拟合值累加结果大于第三阈值，令i＝i+1，并在i未达到阈值轮数时返回步骤S22，否则执行步骤S27；

S27，将所有轮中全部标记物拟合值累加结果最小值对应的初始标记物拟合公式定义为标记物拟合公式。

下文以标记物拟合公式为例进行说明：首先通过程序设定的交互模式框选出地面区域，筛选出仅包含地面图像点的数据集合，然后随机选择3个像素点组建地面初始数据集，采用平面公式拟合初始地面拟合公式，a_ix+b_iy+c_iz+d_i＝0，其中，i表示深度摄像头的编号，若全场景仅使用1台深度摄像头，则i的取值为1，也即仅针对这一台深度摄像头拍摄的第一深度图像构建地面拟合公式，若全场景使用了w台深度摄像头，则i取值分别遍历1至w，也即需要针仅对这k台深度摄像头拍摄的第一深度图像一一构建出对应的地面拟合公式。

在初始地面拟合公式构建完成后，遍历初始数据集中未被选择的像素点(除了已选择的3个像素点)，将每个像素点对应的世界坐标值(x、y、z)依次代入初始地面拟合公式(|ax_i+by_i+cz_i+d_i|)计算出遍历的像素点对应的地面拟合值error_current，将小于第一阈值e的地面拟合值筛选出来，组成与本轮初始地面拟合公式对应的有效地面拟合值集合，在本轮有效地面拟合值集合中对应的像素点数量与地面区域中像素点总数量的比值大于第二阈值d时，则将本轮有效地面拟合值集合中的全部地面拟合值累加得到结果error_sum，并在本轮中error_sum＜error_best时，error_best为第三阈值，则基于本轮初始地面拟合公式中的a、b、c、d的值构建出地面拟合公式，而在本轮中error_sum≥error_best时，需重复上述步骤进入下一轮，也即重新选择3个图像点组建地面初始数据集，构建出初始地面拟合公式并得到本轮中的全部地面拟合值累加结果，直至将所有轮中全部地面拟合值累加结果最小值对应的初始地面拟合公式定义为地面拟合公式。

通过上述过程，可有效避免一些异常点的干扰，求得的地面拟合公式更加贴合地面，另外，由于地面拟合公式中a、b、c、d的值是采用随机一致性算法求得的，因此得到的地面拟合公式可作为第一深度图像中地面区域的最优模型，有效的滤除了异常点的影响，防止建立的地面方程偏离地面。

同理，标记物拟合公式的构建过程与地面拟合公式的构建过程逻辑一致，本实施例在此不做赘述，但需要强调的是，由于标记物区域通常不止一个，故需针对多个标记物区域一一对应的标记物拟合公式。

上述实施例中，将地面蒙版和标记物蒙版融合形成与每个深度摄像头对应背景蒙版的方法包括：

基于地面拟合公式构建地面方程，以及基于标记物拟合公式构建标记物方程；遍历第一深度图像中的像素点，分别代入地面方程和标记物方程得到该像素点的地面距离和标记物距离；筛选出地面距离小于地面阈值的像素点填充为地面蒙版，以及筛选出标记物距离小于标记物阈值的像素点填充为标记物蒙版；将地面蒙版和全部的标记物蒙版融合，得到当前场景下深度摄像头对应的背景蒙版。

具体实施时，利用通用方程

分别计算地面方程和标记物方程，当分子|ax_i+by_i+cz_i+d_i|为地面拟合公式，且分母a、b、c为地面拟合公式中的值时，则该方程表示地面方程，当分子|ax_i+by_i+cz_i+d_i|为标记物拟合公式，且分母a、b、c为标记物拟合公式中的值时，则该方程表示标记物方程。在地面方程和标记物方程构建完成后，通过遍历第一深度图像中的全部像素点，并分别代入地面方程和标记物方程得到该像素点的地面距离和标记物距离，筛选出地面距离小于地面阈值的像素点填充为地面蒙版，以及筛选出标记物距离小于标记物阈值的像素点填充为标记物蒙版。

示例性地，地面阈值和标记物阈值均设置为10cm，也即地面10cm以内的区域定义为地面蒙版，将标记物10cm以的区域内定义为标记物蒙版，最终将地面蒙版和全部的标记物蒙版区域定义为当前场景的背景蒙版。通过背景蒙版的建立，有效的滤除了标记物区域和地面区域上的噪声，并且解决了深度摄像头拍摄这些区域产生的噪声导致算法性能下降的问题。例如，标记物为货架。

上述实施例中，基于深度摄像头连续拍摄的多帧第二深度图像中的像素点，以及与深度摄像头对应背景蒙版中的像素点，对背景蒙版进行更新的方法包括：

将同一深度摄像头拍摄的第m帧第二深度图像与第m+1帧第二深度图像中各对应位置像素点的深度值进行大小值比对，m的初始值为1；识别深度值发生变化的像素点，将第m+1帧第二深度图像中对应位置像素点的深度值更新为比对结果中的小值，令m＝m+1，重新对第m帧第二深度图像与第m+1帧第二深度图像中各对应位置像素点的深度值进行比对，直至得到最后一帧第二深度图像中各位置像素点及其对应的深度值；将最后一帧第二深度图像中各位置像素点及其对应的深度值与背景蒙版中各位置像素点及其对应的深度值进行大小值比对；识别深度值发生变化的像素点，将背景蒙版中对应位置像素点的深度值更新为比对结果中的小值。

具体实施时，首先对每个深度摄像头的内参和外参进行标定，用来对图像进行二维坐标到三维坐标的转换，以便通过实际的物理意义进行相关计算。然后利用每个深度摄像头连续拍摄100帧第二深度图像，针对每个深度摄像头拍摄的100帧第二深度图像对背景蒙版进行背景更新。更新过程为：通过对100帧第二深度图像中各相同位置像素点(row，col)的深度值进行比较，从100帧第二深度图像中筛选出每个相同位置像素点(row，col)对应深度值的最小值，使得输出的第100帧第二深度图像中各位置像素点(row，col)对应的深度值均为上述100帧第二深度图像中的最小值，这样设置的目的在于：由于深度摄像头采用的是俯拍方案，因此当第二深度图像中出现过往物体(如行人穿过)时，相应位置像素点的深度值会变大，通过取100帧第二深度图像中相同位置像素点对应深度值的最小值，可以有效避免第二深度图像偶然出现过往物体造成的影响，避免了背景蒙版中出现过往物体的像素点。然后使用第100帧第二深度图像中各位置像素点及其对应的深度值与背景蒙版中各位置像素点及其对应的深度值进行大小值比对，识别深度值发生变化的像素点，将背景蒙版中对应位置像素点的深度值更新为比对结果中的小值，以确保更新后背景蒙版的准确性。

上述实施例中，将各深度摄像头对应背景蒙版中的像素点经坐标转换融合后，得到全场景俯视深度背景图和全场景俯视彩色背景图的方法包括：

构建全场景俯视深度背景空白模板图和全场景俯视彩色背景空白模板图，全场景俯视深度背景空白模板图中的各位置像素点的深度值为零，全场景俯视彩色背景空白模板图中的各位置像素点的颜色值为零；将各深度摄像头对应背景蒙版中的像素点融合统一后形成全场景背景蒙版，经像素坐标统一转换为世界坐标，再由世界坐标统一转换为俯视图坐标；依次遍历全场景背景蒙版中的像素点，并将每个像素点的深度值与全场景俯视深度背景空白模板图中对应位置像素点的深度值进行大小值比对，将全场景背景蒙版中大值的像素点替换给全场景俯视深度背景空白模板中对应位置处的像素点，得到全场景俯视深度背景图；基于全场景俯视深度背景蒙版中发生替换的像素点，将其像素点颜色值替换给全场景俯视彩色背景空白模板图中对应位置处的像素点，得到全场景俯视彩色背景图。

具体实施时，构建的全场景俯视深度背景空白模板图中各位置像素点的深度值为零，也即back_depth(row,col)＝0，构建的全场景俯视彩色背景空白模板图中的各位置像素点的颜色值为零，也即back_color(row,col)＝[0,0,0]，接着对各深度摄像头对应背景蒙版中的像素点进行融合，也即将多个深度摄像头对应背景蒙版中的像素点使用同一个像素坐标***一表示形成全场景背景蒙版，然后再将全场景背景蒙版中的各像素点经像素坐标统一转换为世界坐标，接着再由世界坐标统一转换为当前监控场景下的俯视图坐标，上述坐标转换过程为本领域技术人员所熟知的，本实施例在此不做赘述。接下来，采用像素点比对公式current_depth(row,col)>back_depth(row,col)，将全场景背景蒙版中的每个像素点[current_depth(row,col)]的深度值与全场景俯视深度背景空白模板图中对应位置像素点[back_depth(row,col)]的深度值进行大小值比对，采用全场景俯视深度背景图公式back_depth(row,col)＝current_depth(row,col)，将全场景背景蒙版中大值的像素点替换给全场景俯视深度背景空白模板中对应位置处的像素点，得到全场景俯视深度背景图，采用全场景俯视彩色背景图公式back_color(row,col)＝current_color(row,col)，将全场景俯视深度背景蒙版中发生替换像素点的颜色值替换给全场景俯视彩色背景空白模板图中对应位置处的像素点，得到全场景俯视彩色背景图。

可以理解是，current_depth(row,col)表示全场景背景蒙版中像素点的深度值，back_depth(row,col)表示全场景俯视深度背景空白模板图中像素点的深度值，公式back_depth(row,col)＝current_depth(row,col)表示将全场景背景蒙版中某一坐标位置像素点的深度值，赋值给全场景俯视彩色背景空白模板图中相应位置的像素点，也即对全场景俯视深度背景空白模板中对应位置处的像素点进行替换，同理，current_color(row,col)表示全场景背景蒙版中像素点的颜色值，back_color(row,col)表示全场景俯视彩色背景空白模板图中像素点的颜色值，公式back_color(row,col)＝current_color(row,col)表示将全场景背景蒙版中某一坐标位置像素点的颜色值，赋值给全场景俯视彩色背景空白模板图中相应位置的像素点。直至各像素点遍历完毕形成全场景俯视深度背景图和全场景俯视彩色背景图。

上述实施例中，将全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图的方法包括：

基于每个深度摄像头对应的背景蒙版像素点的俯视图坐标，将全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图。

具体实施时，sensor_depth[k]表示第k个深度摄像头对应的单个俯视深度背景图，back_depth表示全场景俯视深度背景图，采用公式ensor_depth[k](row,col)＝back_depth(row,col)将全场景俯视深度背景图拆分为与第k个深度摄像头对应的单个俯视深度背景图，其中，back_depth(row,col)表示全场景俯视深度背景图中某一坐标像素点的深度值，sensor_depth[k](row,col)表示第k个深度摄像头对应单个俯视深度背景图中某一坐标位置像素点的深度值，公式sensor_depth[k](row,col)＝back_depth(row,col)表示将全场景背景蒙版中某一坐标位置像素点的深度值赋值给第k个深度摄像头对应的单个俯视深度背景图中相应位置像素点；同理，sensor_color[k]表示第k个深度摄像头对应的单个俯视彩色背景图，back_color表示全场景俯视彩色背景图，采用公式sensor_color[k](row,col)＝back_color(row,col)将全场景俯视彩色背景图拆分为与第k个深度摄像头对应的单个俯视彩色背景图。

上述实施例中，通过识别深度摄像实时获取的第三深度图像中包含人体像素的前景区域，将前景区域中的像素点更新入对应深度摄像头的俯视深度背景图和俯视彩色背景图的方法包括：

将深度摄像实时获取的第三深度图像中的像素点与对应的单个俯视深度背景图像素点的深度值进行大小值比对；采用帧差法识别第三深度图像中深度值为小值的像素点，汇总得到包含人体像素的前景区域；将前景区域中的像素点与单个俯视深度背景图的像素点一一对应匹配关联，将单个俯视深度背景图中像素点的深度值替换为与之对应前景区域中的像素点的深度值；识别单个俯视深度背景图中发生替换的像素点，将前景区域中像素点的颜色值替换给单个俯视彩色背景图中对应的像素点。可见，通过类似帧差法，可有效滤除实时获取的第三深度图像中的噪声，提升前景区域识别的准确性。

具体实施时，为了减少像素点的数量可采用体素滤波的方法对像素点进行过滤，减少像素点的数量，提升计算速度。示例性地，设置体素大小为vox_size＝(0.1,0.1,0.1)，采用稀疏离群点移除的方法，基于相邻像素点的距离和标准差倍数过滤掉部分像素点，有效减少离群噪点的影响。

上述实施例中，融合各深度摄像头的俯视深度图形成全场景俯视深度图，以及融合各深度摄像头的俯视彩色图形成全场景俯视彩色图的方法包括：

遍历每个深度摄像头对应俯视深度图中的像素点，将全场景俯视深度背景图中对应位置处像素点的深度值进行替换，得到全场景俯视深度图；识别全场景俯视深度图中发生替换的像素点，将全场景俯视彩色背景图中对应位置处像素点的颜色值进行替换，得到全场景俯视彩色图。

上述实施例中，通过比对全场景俯视深度图与全场景俯视深度背景图中的像素点，以及比对全场景俯视彩色图与全场景俯视彩色背景图中的像素点，识别行人检测结果的方法包括：

比对全场景俯视深度图与全场景俯视深度背景图中深度值发生变化的像素点，基于像素点的密集区域面积及各像素点的深度值识别出头部体积和/或身体体积；基于头部体积和/或身体体积的大小，识别行人检测结果。

具体实施时，考虑到检测结果可能存在误捡的情况，可根据实际的物理特征进行滤除，通过将全场景俯视深度图转换到实际世界坐标中，在前景区域中结合人体检测框计算出人身体的物理体积，人头部的物理体积等，如基于像素点的坐标计算出人身体和人头部的边界长宽，在结合深度值计算得到人身体的物理体积以及人头部的物理体积。

若满足：V_body_max>V_body>V_body_min，则满足人身体的体积要求；

若满足：V_head_max>V_head>V_head_min，则满足人头部的体积要求。

其中，V_body表示检测出的人身体物理体积，V_head表示检测出的人头部物理体积，V_body_max和V_body_min表示预设的人身体物理体积识别的上下限，V_head_max和V_head_min表示预设的人头部物理体积识别的上下限。若在全场景俯视深度图仅检测出人身体未检测出人头部，则开启人头寻找模式，通过算法自动在全场景俯视深度图中寻找人头框。通过人头框寻找功能，可有效召回全场景俯视深度图中缺失的人头框，提高算法的稳定性。

具体实施时，通过帧差法识别出全场景俯视深度图中前景区域的边界像素点，即通过bird_depth_map_mask_roi表示人体ROI的前景区域，采用公式bird_depth_map_mask_roi＝bird_depth_map_mask[row_min:row_max,col_min:col_max]识别前景区域的边界像素点，其中row_min和row_max表示像素点在x轴的上下限，col_min:col_max表示像素点在y轴的上下限。而为了加速计算，可通过计算积分图形累加的方式，也即通过将多个像素点的深度值累加，直至处于阈值范围时标定出人头框的位置。接着，继续在人头框中寻找头点，也即将头点圈在人头框中遍历移动，基于头点圈中前景像素点与圈中全部像素点的比值大小，寻找人头框中的头点区域。通过上述头点搜索机制，可以有效滤除噪点的影响，防止噪点引发头点的不稳定，进而对身高以及后续跟踪造成异常影响。

接下来，还可基于头点区域中头部区域像素点深度值的均值，采用公式

计算人体身高，以及二维或者三维的头点坐标。

综上，本实施例具有如下创新点：

1、通过将多个深度摄像头的分布式布置，能够适用于存在大量遮挡的复杂监控场景，通过特定视角将深度摄像头小部分重叠，能够最大化利用摄像头的视角覆盖面，结合融合规则得到整个监控场景的全场景俯视深度图；

2、使用RGBD深度摄像头增加了信息维度，通过深度信息融合得到特定视角的全场景俯视深度图，通过彩色信息融合得到特定视角的全场景俯视彩色图。通过全场景俯视彩色图可有效进行行人检测，结合深度信息可对检测结果进行二次校验，并得到身高等信息；

3、采用前景和背景分别融合的融合方式，可减少无关背景的融合，有效提高整体融合时间，进而提升算法性能；

4、使用精简的算法逻辑，如通过人头框寻找功能可避免因缺少头框导致的后续行人无法跟踪的情形，提高了算法鲁棒性；

5、上述实施例方案将前景检测分开进行，最后再通过融合模块合成整个场景的全场景俯视图，可有效减少计算资源浪费，提升运算速度。

实施例二

本实施例提供一种行人检测装置，包括：

与现有技术相比，本发明实施例提供的行人检测装置的有益效果与上述实施例一提供的行人检测方法的有益效果相同，在此不做赘述。

实施例三

本实施例提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述行人检测方法的步骤。

与现有技术相比，本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的行人检测方法的有益效果相同，在此不做赘述。

本领域普通技术人员可以理解，实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，上述程序可以存储于计算机可读取存储介质中，该程序在执行时，包括上述实施例方法的各步骤，而的存储介质可以是：ROM/RAM、磁碟、光盘、存储卡等。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种行人检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据每个深度摄像头拍摄的第一深度图像，构建与每个深度摄像头对应的背景蒙版的方法包括：

3.根据权利要求1所述的方法，其特征在于，基于深度摄像头连续拍摄的多帧第二深度图像中的像素点，以及与深度摄像头对应背景蒙版中的像素点，对所述背景蒙版进行更新的方法包括：

4.根据权利要求1所述的方法，其特征在于，将各深度摄像头对应所述背景蒙版中的像素点经坐标转换融合后，得到全场景俯视深度背景图和全场景俯视彩色背景图的方法包括：

5.根据权利要求4所述的方法，其特征在于，将所述全场景俯视深度背景图拆分为与每个深度摄像头对应的单个俯视深度背景图，以及将所述全场景俯视彩色背景图拆分为与每个深度摄像头对应的单个俯视彩色背景图的方法包括：

6.根据权利要求5所述的方法，其特征在于，通过识别深度摄像实时获取的第三深度图像中包含人体像素的前景区域，将前景区域中的像素点更新入对应深度摄像头的俯视深度背景图和俯视彩色背景图的方法包括：

7.根据权利要求6所述的方法，其特征在于，融合各深度摄像头的所述俯视深度图形成全场景俯视深度图，以及融合各深度摄像头的所述俯视彩色图形成全场景俯视彩色图的方法包括：

8.根据权利要求7所述的方法，其特征在于，通过比对所述全场景俯视深度图与所述全场景俯视深度背景图中的像素点，以及比对所述全场景俯视彩色图与所述全场景俯视彩色背景图中的像素点，识别行人检测结果的方法包括：

基于头部体积和/或身体体积的大小，识别行人检测结果。

9.一种行人检测装置，其特征在于，包括：

10.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，计算机程序被处理器运行时执行上述权利要求1至8任一项所述方法的步骤。