CN105138979A

CN105138979A - 基于立体视觉的运动人体头部检测方法

Info

Publication number: CN105138979A
Application number: CN201510512540.2A
Authority: CN
Inventors: 孙爱娟; 顾国华; 周玉蛟
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2015-08-19
Filing date: 2015-08-19
Publication date: 2015-12-09

Abstract

本发明提供一种基于立体视觉的运动人体头部检测方法，包括以下步骤：硬件平台的搭建：将两个标定好的同一型号的摄像机同一高度一左一右平行放置在待拍摄目标场景的正上方；通过基于窗口的立体匹配算法计算双目立体图像对之间的视差；采用基于视差的三角运算来获得摄像机到目标场景的距离，从而获得目标场景的原始深度图像；对原始深度图像根据人体头部目标的灰度和几何特征，进行头部目标分割，达到人体头部识别的目的。

Description

基于立体视觉的运动人体头部检测方法

技术领域

本发明涉及运动目标的检测和跟踪技术，特别一种基于立体视觉的运动人体头部目标检测方法。

背景技术

随着计算机存储、运算等方面性能的快速提高，人们逐步将计算机运用于场景重构、目标识别、人机互动等复杂功能，这不仅开拓了计算机应用领域的规模和研究方向，而且促进了相关学科的快速发展。作为当今活跃的研究领域，计算机视觉的实质就是利用摄像机代替人眼，利用电脑代替人的大脑，对目标进行识别跟踪，并做出相应的图形分析处理，生成适合仪器检测或者人眼观察的图像。

运动人体目标识别是对视频中人体进行跟踪锁定以及理解和描述人体行为的前提。基于二维图像处理的人体目标识别技术是一项比较新的技术，近年来也取得了较大的进展。但是由于基于二维图像处理的人体目标识别技术技术处理的是可见光图像，因此对光照的要求比较高，从而识别精度与速度都非常容易受到光照的影响。

发明内容

本发明的目的在于提供一种基于立体视觉的运动人体头部检测方法，包括以下步骤：

步骤S101，硬件平台的搭建：将两个标定好的同一型号的摄像机同一高度一左一右平行放置在待拍摄目标场景的正上方；

步骤S102，通过基于窗口的立体匹配算法计算双目立体图像对之间的视差；

步骤S103，采用基于视差的三角运算来获得摄像机到目标场景的距离，从而获得目标场景的原始深度图像；

步骤S104，对原始深度图像根据人体头部目标的灰度和几何特征，进行头部目标分割，达到人体头部识别的目的。

采用上述方法，所述立体匹配算法包括：

步骤S1021，两部摄像机拍摄背景图像；

步骤S1022，每一摄像机拍摄的图像与背景图像做差，得到两幅前景图象；

步骤S1023，以其中一幅前景图象为基准，选取基准前景图像中的特征点，以该特征点为中心建立m*m大小的窗口；

步骤S1024，在另一幅前景图像上建立m*m大小的窗口，并以像素点为单位滑动窗口，计算两个窗口内的灰度在给定的视差上的差值；

步骤S1025，灰度差值和最小的时候的视差则作为该像素点的视差。

采用上述方法，所述体头部识别的方法包括：

步骤S1041，对深度图像作直方图统计，选取局部最大值所在的区域作为目标区域；

步骤S1042，选取分割图像的阈值，对目标区域，区域中不低于阈值的像素点构成疑似头部区域，低于阈值的像素点构成非头部区域；

步骤S1043，根据头部的平均灰度值在目标区域中最大，采用平均灰度和灰度方差滤除部分非目标区域；

步骤S1044，对滤除后剩余的疑似头部区域，根据头部的几何特征确定人体头部。

本发明与现有技术相比，具有以下优点：(1)采用基于立体视觉的方法，通过立体视觉技术生成目标场景的深度图像，显示目标人体的三维信息，突破了二维图像受光照影响的局限性；(2)同时本发明采用的是自上而下的拍摄方式，因此即使在人群拥挤的情况下，头部和头部之间还有一定的空隙，可以有效的避免人流的遮挡、重叠等现象造成的识别误差。

下面结合说明书附图对本发明做进一步描述。

附图说明

图1是本发明的方法流程图。

图2是本发明两部摄像机最优位置布置图。

图3是立体匹配算法过程示意图。

具体实施方式

结合图1，一种基于立体视觉的运动人体头部检测方法，包括以下步骤：

步骤S101中所述的标定包括对摄像机的内参数矩阵和外参数矩阵进行标定，实现方法如下：

步骤S1011，利用matlab的标定工具箱对两个实验用的MTV-1881EX-3摄像机进行标定。对每一幅图像得到一个映射矩阵H，原理如公式(1)：

s [\begin{matrix} u \\ v \\ 1 \end{matrix}] = K [\begin{matrix} r_{1} & r_{2} & r_{3} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 0 \\ 1 \end{matrix}] = K [\begin{matrix} r_{1} & r_{2} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 1 \end{matrix}] - - - (1)

假设标定的模板平面在Z＝0的世界坐标系平面上，其中s表示未知尺度因子，[uv1]^T表示模板平面上的点投影到图像平面上的齐次坐标，K示摄像机内参矩阵，[r₁r₂r₃]表示摄像机坐标系相对于世界坐标系的旋转矩阵，t表示摄像机坐标系相对于世界坐标系的平移向量，[XY1]^T表示模板上点的齐次坐标。整理(1)式，可以得到一个3*3的单应性矩阵H，

H＝[h₁,h₂,h₃]＝λK[r₁,r₂,t](2)

其中λ表示整理出来的系数，根据(2)式，可以得到：

\begin{matrix} r_{1} = \frac{1}{λ} K^{- 1} h_{1} & r_{2} = \frac{1}{λ} K^{- 1} h_{2} \end{matrix} - - - (3)

其中旋转矩阵的性质：r₁ ^Tr₂＝0，并且||r₁||＝||r₂||＝1

由公式(2)、(3)以及旋转矩阵的性质，可以得到摄像机内参数A的两个基本约束：

h₁ ^TK^-TK^-1h₂＝0(4)

h₁ ^TK^-TK^-1h₁＝h₂ ^TK^-TK^-1h₂(5)

根据(4)、(5)可以计算得到K，再由K和映射矩阵H计算每幅图像对于平面模板的外参数矩阵R和平移向量t：

r₁＝λA^-1h₁(6)

r₂＝λA^-1h₂(7)

r₃＝r₁r₂(8)

t＝λA^-1h₃(9)

步骤S1012，将标定好的两个摄像机放置在所需拍摄场景的上方，高度一致，左右各放置一个，根据视场的高度调节左右摄像机之间的距离，在拍摄的图像尽可能清晰的条件下，扩大视场的范围。本实验经过实验论证，摄像机架设高度为2.5米，摄像机之间的距离为0.8米(如图2所述)。

结合图3，在步骤S102中，所述立体匹配算法包括：

步骤S1021，两部摄像机拍摄背景图像；

步骤S1023，以其中一幅前景图象为基准，选取基准前景图像中的特征点，以该特征点为中心建立m*m大小的窗口，例如5*5像素；

步骤S1024，在另一幅前景图像上建立m*m大小的窗口，并以像素点为单位滑动窗口，根据式(10)计算两个窗口内的灰度在给定的视差上的差值

Σ_{p = - \frac{m}{2}}^{\frac{m}{2}} Σ_{q = - \frac{m}{2}}^{\frac{m}{2}} | I_{r i g h t} [x + p] [y + q] - I_{l e f t} [x + p + d] [y + q] | - - - (10)

其中，m表示窗口的尺寸大小，以像素为单位。I_left、I_right分别表示左右图像像素灰度值，p,q表示窗口移动的距离，d表示设定的视差值。

步骤5，灰度差值和最小的时候的视差则作为该像素点的视差，即当计算得式(10)的最小值时候的d即为视差。

在步骤S103中，已知摄像机的焦距为f，两个摄像机之间的距离为B，根据公式(11)，计算场景的深度信息Z

Z = f \cdot \frac{d}{d - B} - - - (11)

由图像的深度信息构成的目标场景图像称之为场景的深度图像。

在步骤S104中，所述体头部识别的方法包括：

步骤S1042，选取分割图像的阈值(阈值范围为[25,30])，对目标区域，区域中不低于阈值的像素点构成疑似头部区域，低于阈值的像素点构成非头部区域；根据统计结果可知，目标区域像素大量堆积于头部和肩部。以灰度级t为阈值分割头部和肩部区域，区域中高于t灰度级的像素点构成头部区域，低于灰度级t的像素点构成非头部区域。那么非头部区域和头部区域的熵的计算公式为：

H_{B} = - \underset{i}{Σ} (\frac{p_{i}}{p_{t}}) \lg (\frac{p_{i}}{p_{t}})

H_{O} = - \underset{i}{Σ} [p_{i} / (1 - p_{t})] \lg [p_{i} / (1 - p_{t})]

H_{t} = - \underset{i}{Σ} p_{i} {lgp}_{i}

H_{L} = - \underset{i}{Σ} p_{i} {lgp}_{i}

其中，p_i表示图象中灰度值为i的像素所占的比例，t为分割图像的阈值，H_B表示图像中非头部区域的的一元灰度熵，H_o表示图像中头部区域的一元灰度熵，为两个熵函数之和，当取得最大时，灰度级t作为分割图像的阈值。

步骤S1043，根据头部的平均灰度值在目标区域中最大，采用平均灰度和灰度方差滤除部分非目标区域。通过不断仿真，可知，在本实验的视场条件下，头部总像元的宽高比w/h的范围是[0.65,1.5]，其中，w表示头部总像元的宽度，h表示头部总像元的高度。具体为：选取阈值[0.65,1.5]，对疑似头部区域，若其灰度方差大于设定的阈值，那么将该疑似头部区域滤除，当疑似头部区域的列数比行数(宽高比)的值落入[0.65,1.5]中，该区域为人体头部区域。

\overset{&OverBar;}{g} = \frac{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} f (i, j)}{M * N}

var = \frac{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} {(f (i, j) - \overset{&OverBar;}{g})}^{2}}{M * N}

其中，M、N表示疑似头部区域的行、列数，f(i,j)表示灰度特征二元组(i,j)出现的频数。表示大小为M*N的疑似头部区域的灰度平均值，var表示灰度方差。

Claims

1.一种基于立体视觉的运动人体头部检测方法，其特征在于，包括：

硬件平台的搭建：将两个标定好的同一型号的摄像机同一高度一左一右平行放置在待拍摄目标场景的正上方；

通过基于窗口的立体匹配算法计算双目立体图像对之间的视差；

采用基于视差的三角运算来获得摄像机到目标场景的距离，从而获得目标场景的原始深度图像；

对原始深度图像根据人体头部目标的灰度和几何特征，进行头部目标分割，达到人体头部识别的目的。

2.根据权利要求1所述的基于立体视觉的运动人体头部检测方法，其特征在于，所述标定包括对摄像机的内参数矩阵和外参数矩阵进行标定。

3.根据权利要求1所述的基于立体视觉的运动人体头部检测方法，其特征在于，所述立体匹配算法包括：

步骤1，两部摄像机拍摄背景图像；

步骤2，每一摄像机拍摄的图像与背景图像做差，得到两幅前景图象；

步骤3，以其中一幅前景图象为基准，选取基准前景图像中的特征点，以该特征点为中心建立m*m大小的窗口；

步骤4，在另一幅前景图像上建立m*m大小的窗口，并以像素点为单位滑动窗口，计算两个窗口内的灰度在给定的视差上的差值；

步骤5，灰度差值和最小的时候的视差则作为该像素点的视差。

4.根据权利要求1所述的基于立体视觉的运动人体头部检测方法，其特征在于，所述体头部识别的方法包括：

对深度图像作直方图统计，选取局部最大值所在的区域作为目标区域；

选取分割图像的阈值，对目标区域，区域中不低于阈值的像素点构成疑似头部区域，低于阈值的像素点构成非头部区域；

根据头部的平均灰度值在目标区域中最大，采用平均灰度和灰度方差滤除部分非目标区域；

对滤除后剩余的疑似头部区域，根据头部的几何特征确定人体头部。

5.根据权利要求4所述的基于立体视觉的运动人体头部检测方法，其特征在于，所述分割图像的阈值通过下式获得：

H_{B} = - \underset{i}{Σ} (\frac{p_{i}}{p_{t}}) \lg (\frac{p_{i}}{p_{t}})

H_{O} = - \underset{i}{Σ} [p_{i} / (1 - p_{t})] \lg [p_{i} / (1 - p_{t})]

H_{t} = - \underset{i}{Σ} p_{i} {lgp}_{i}

H_{L} = - \underset{i}{Σ} p_{i} {lgp}_{i}

6.根据权利要求4所述的基于立体视觉的运动人体头部检测方法，其特征在于，所述滤除部分非目标区域具体为：选取阈值，对疑似头部区域，若其灰度方差大于设定的阈值，那么将该疑似头部区域滤除

\overset{&OverBar;}{g} = \frac{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} f (i, j)}{M * N}

var = \frac{Σ_{i = 0}^{M - 1} Σ_{j = 0}^{N - 1} {(f (i, j) - \overset{&OverBar;}{g})}^{2}}{M * N}

7.根据权利要求4所述的基于立体视觉的运动人体头部检测方法，其特征在于，当疑似头部区域的列数比行数的值落入[0.65,1.5]中，该区域为人体头部区域。

8.根据权利要求1所述的基于立体视觉的运动人体头部检测方法，其特征在于，摄像机架设高度为2.5米，摄像机之间的距离为0.8米。