CN104217206A

CN104217206A - 基于高清视频的实时上座率统计方法

Info

Publication number: CN104217206A
Application number: CN201310215445.7A
Authority: CN
Inventors: 鲁帅; 冯瑞; 施柄根
Original assignee: FREATIVE Ltd
Current assignee: FREATIVE Ltd
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2014-12-17

Abstract

本发明公开了一种基于高清视频的实时上座率统计方法，该方法包括分类模型训练阶段和坐席状态判别阶段，在模型训练阶段，利用大量以标注坐席状态的图像为训练样本，对每张图像提取梯度方向直方图特征，然后再将其特征通过核变换到高维空间建立线性分类器；而在坐席状态判别阶段，采用已标定的场景座位坐标分割输入的图像，对每个子图像提取梯度方向直方图特征，利用已建立的高维空间线性分类器模型判别子图像特征，从而判定该坐席是否被人占用，最后，统计输入图像中的所有子图像的判别结果，获取该场景下当前的上座率。本发明不借助其它传感器，安装快捷，维护方便，不受光线变化的影响，能容忍室内光照环境的变化。

Description

基于高清视频的实时上座率统计方法

技术领域

本发明属于数字图像处理及模式识别技术领域，具体涉及一种基于高清视频的实时上座率统计方法。

背景技术

众所周知，在诸如大型会场、大型礼堂、电影院、阶梯教室等场所，存在人员分布密集、座位数目多等特点，这给相应的座次管理工作带来障碍，单凭监控人员进行人工监控已不现实，必须使用计算机软件进行辅助工作。传统的座椅状态检测方法是通过在椅子上安装一个传感器，利用压力进行检测[1]。虽然这种传感器不需要外部供电，且为非接触式感应等具有一些优点，但是仍然存在明显不足：（1）应用场所通常座位数目众多，通常都拥有上千个位置，如果每个坐席都安装该传感器将是巨大的工作；（2）虽然传感器单个的稳定性非常好，但随着数目剧增，则出现传感器坏掉的概率将增高，必将带来繁杂的维护；（3）。因为需要在椅子上安装传感器，但对于阶梯教室等简单椅子场所，传感器的安装将会受限。基于上述考虑，本发明提出了基于高清视频的处理方法，能有效地规避上述问题。

对象分类是计算机视觉中一个重要的研究领域，它是指计算机按照人的思维能够进行人类对特定对象的分类活动[2][3]。其应用极其广泛，快速而准确的对象分类技术是现代信息处理技术中的重要组成部分。由于信息量近年来急剧增长，我们也迫切的需要有合适的对象分类技术能够让人们从大量的信息中寻找出自己所需要的信息，图像检索就属于这个类别。此外，对象分类技术还广泛用于公安以及交通监管等***。人脸分类能够使计算机做到在实时的情况下快速检测出场景中的人脸，并对其实施跟踪。人脸的识别***则可以用于公安、边防、以及数据库的快速查找等诸多领域。而人体的检测与识别则可以用于各种需要的安全控制场合进行实时的监控需要[4]。此外，车辆的检测与识别能够在交通监管部门发挥重要的作用，对车牌的检测以及识别是智能交通管理***中的重要组成部分。综上，对象分类技术是计算机视觉的重要组成部分。

本发明主要解决图像和视频中坐席是否被人占据的问题，我们将其对单个坐席的判别当作一个二类的对象分类问题，及坐席为空或被有人就坐。在机器学习的框架中，将整个过程分为两个部分：离线样本训练部分和在线图像检测部分。本发明所使用的样本特征为2005年Dalal[5]提出的梯度方向直方图（Histograms of Oriented Gradients,HOG）。然而该类特征很早就被应用在机器视觉领域中，它得到比较成熟应用的标志是Lowe提出的应用于图像匹配的SIFT（Scale Invariant Feature Transform）[7]特征的出现。Lowe利用局部梯度方向直方图描述图像块，根据此方法进行匹配具有尺度不变性的特征，较为相似的特征如形状上下文（Shape Context）[8]特征和边缘方向直方图（Edge Orientation Histograms,EOH）[9]特征等。Dalal提出的HOG与Lowe的SIFT描述方法之间的区别在于后者是基于关键点检测，是一种稀疏的描述方法，而HOG是将图像均匀地分为相邻的小单元（Cell），然后在所有的小块内统计梯度方向直方图，用这些直方图来描述图像，是一种非稀疏的描述方法。

本发明所使用的分类器是支持向量机（Support Vector Machine，SVM），是一种建立在VC维理论和结构风险最小原理基础上的统计学习方法。它根据有限的样本信息在模型的复杂性（即对特定训练样本的学习清度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折中，以期望获得最好的泛化能力。SVM目前在学术界和工业界均享有赞誉，已经被认为是效果最好的分类算法之一，同时也得到广泛的应用。

发明内容

本发明的目的在于提供一种基于高清视频的实时上座率统计方法，以高清监控图像和已标定的坐席位置为输入，利用图像特征提取和模式分类技术，进行每个坐席状态判别，从而完成整个场景中上座率的实时统计。

为实现上述目的，本发明的技术方案如下：一种基于高清视频的实时上座率统计方法，其特征在于该方法包括分类模型训练阶段和坐席状态判别阶段，在模型训练阶段，利用大量以标注坐席状态的图像为训练样本，对每张图像提取梯度方向直方图特征，然后再将其特征通过核变换到高维空间建立线性分类器；而在坐席状态判别阶段，采用已标定的场景座位坐标分割输入的图像，对每个子图像提取梯度方向直方图特征，利用已建立的高维空间线性分类器模型判别子图像特征，从而判定该坐席是否被人占用，最后，统计输入图像中的所有子图像的判别结果，获取该场景下当前的上座率。

本发明的分类模型训练阶段的具体步骤依次是：

步骤1.将已标注的大量输入图像从彩色空间转换到灰度空间，图像记为χ，该图像的坐席状态记为y∈{-1,1}，其中-1表示坐席无人，1表示坐席有人，于是大量已标注的图像可以记为((χ₁,y₁),(χ₂,y₂),...,(χ_n,y_n))；

步骤2.提取图像χ的梯度方向直方图特征，将图像χ按梯度方向均匀划分为若干个区间，计算每个区间的局部梯度方向直方图，所有区域的直方图拼成了最终的特征向量x；采用文章[5]中的方法，对图像进行梯度计算、向量标准化和向量组合，最终形成如图2所示的特征向量，其中每个片段表示着对应区域的直方图。

步骤3.利用支持向量机（SVM）分类器训练特征向量。该分类器将特征向量近似投影到高维空间，利用高维空间的线性可分性计算出最优分界面。最终将分界面的参数记录下来，表示采用该样本集训练的分类器模型。这里的训练指的就是后文中利用libSVM工具[10]对所有正负样本进行线性核的模型训练。

本发明的坐席状态判别阶段的具体步骤依次是：

步骤1.将输入单张待检测图像从彩色空间转换到灰度空间，图像记为I。

步骤2.利用已经标定的场景中坐席位置切割图像。便于描述，我们假定使用矩形(l_i,t_i,w_i,h_i)代表图像中的座椅，其中l、t、w、h分别代表矩形的左上点的横、纵坐标和宽高，i∈[1,N]，N是场景中座椅的总数。于是，切割后形成的子图像可定义为：

χ_i＝I(t_i:t_i+h_i-1,l_i:l_i+w_i-1)

步骤3.提取子图像χ的梯度方向直方图特征，这里的提取方式跟训练部分的一样，同样得到具有相同维度的特征向量x。

步骤4.利用训练部分保存的分类器模型对上一步获得的特征向量分类。如果训练方法采用了线性核，则分界面模型[6]可表示为

w^Tx+b

所以，对子图像的检测结果可表示为

y_{i} = \{\begin{matrix} 1 & w^{T} x_{i} + b > 0 \\ - 1 & w^{T} x_{i} + b \leq 0 \end{matrix}

其中1表示该子图像中有人就坐，-1表示该坐席是空的。

步骤5.统计所有子图像的检测结果，计算该场景中所有坐席的上座率：

Δ = \frac{1}{N} Σ_{i = 1}^{N} \frac{1 + y_{i}}{2}

本发明的主要特点有：

（1）不借助其它传感器，安装快捷，维护方便。因为本发明仅利用高清摄像头的图像信息，不需要给每个坐席安装其它传感器，所以在设备安装上非常便捷，同时也降低了安装与维护方面的成本；

（2）不受光线变化的影响，能容忍室内光照环境的变化。本发明所采用的特征是一种基于梯度的直方图特征，而梯度特征本身对光照是不敏感的，及分类特征具备很强的光照稳定性。

（3）具备普适性，能使用各种类型的高清摄像头图像为输入，并不局限于彩色图像。根据一些特殊场景如电影院，由于没有灯照可见光摄像头无法正常拍摄，需要使用红外相机。因为在本发明中，所有的输入图像都有预处理——将彩色图像转换成灰度图。这样之后的操作都是在单通道图像上进行，所以本发明完全能在其它形式的摄像头上使用。

（4）具有很强的鲁棒性，能避免将坐席上异物（如衣服、帽子、阴影）识别为人的情况。因为本发明采用机器学习的框架，将异物的情况当作负样本放入训练，使得训练模型能非常准确地判别出这种情况是没有人占据坐席。

附图说明

图1是本发明的流程图

图2是梯度方向直方图（HOG）特征的示意图

具体实施方式

为了使本发明的目的、技术方案及优点更加明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1给出了基于高清视频的实时上座率统计方法的流程图。在样本训练阶段，考虑到收集的训练样本的图像大小不一致，可以先规范化到50×40像素。其中，正负样本总数大于2000个，且比例为1:1时，最后训练的模型将更加优秀。接下来的具体步骤是：

1、首先将图像样本灰度化，假定输入图像为RGB三通道的色彩图像，转换公式为：

H＝0.2999*R+0.587*G+0.144*B (1)

其中R、G、B分别表示对应每个像素点的通道强度值，H是转换后灰度空间对应的强度值。

2、计算图像的梯度，公式为：

G_x(x,y)＝H(x+1,y)-H(x-1,y) (2)

G_y(x,y)＝H(x,y+1)-H(x,y-1) (3)

这里，H(x,y)表示图像在像素点(x,y)处的灰度值，G_x(x,y)、G_y(x,y)分别表示图像中像素点(x,y)处水平方向和垂直方向梯度。

3、计算局部梯度方向直方图。像素点(x,y)的梯度大小定义为：

G (x, y) = \sqrt{G_{x} {(x, y)}^{2} + G_{y} {(x, y)}^{2}} - - - (4)

梯度方向为：

θ (x, y) = \tan^{- 1} \frac{G_{y} (x, y)}{G_{x} (x, y)} - - - (5)

把[-π/2,π/2]的梯度方向均匀划分为K个区间（bin_k），这里K表示对角度的离散值，

一般取9。各个像素点在分量区间上的幅值为

V_{k} (x, y) = \{\begin{matrix} G (x, y) & θ (x, y) &Element; {bin}_{k} \\ 0 & θ (x, y) &NotElement; {bin}_{k} \end{matrix} 1 \leq k \leq K - - - (6)

于是单元Ω的梯度方向直方图为

H_{k} = Σ_{(x, y) &Element; Ω}^{Ω} V_{k} (x, y) 1 \leq k \leq K - - - (7)

这里的单元是图像划分成m×n的网格，其中m为纵向网格的个数，n为横向网格的个数，一般m,n∈[4,7]。于是每个单元Ω的向量为υ＝[Η₁ Η₂ ... Η_K]。

4、对局部梯度方向直方图进行对比度标准化，克服光线变化的影响。我们将区域向量，拼成一个2×2×K维的向量v_i,j＝[υ_i,jυ_i,j+1υ_i+1,jυ_i+1,j+1]，其中i∈[1,m-1]，j∈[1,n-1]。然后对向量v使用L2-norm进行标准化：

v &LeftArrow; \frac{v}{\sqrt{{| | v | |}_{2}^{2} + ϵ^{2}}} - - - (8)

其中v表示标准化前的特征向量，||v||₂表示向量v的第2范式，为了防止除数为0，将ε设定为一个很小的常量10^-5。

5、串联所有局部梯度方向直方图，形成最终特征向量x，其维度为(m-1)×(n-1)×36，图2是特征的示意图。

6、利用libSVM工具[10]对所有正负样本进行线性核的模型训练，模型结果可以表示为：

y＝w^Tx+b (9)

其中x是指子图形的向量特征，y指的是检测结果，w表示分界面的法向量，b为该超平面的截距。

在实时图像的坐席判别阶段，需要事先人工标定座椅在图像中的坐标，记为(l_i,t_i,w_i,h_i)其中l、t、w、h分别代表矩形的左上点的横、纵坐标和宽高，i∈[1,N]，N是场景中座椅的总数。接下来的具体步骤是：

1、同训练阶段的步骤1，将待检测图像转换到灰度空间。

2、利用已经标定的场景中坐席位置切割图像，公式为：

χ_i＝I(t_i:t_i+h_i-1,l_i:l_i+w_i-1) (10)

3、接下来的特征提取与训练阶段的步骤2-5相同。

4、利用训练部分保存的分类器模型对上一步获得的特征向量分类。对子图像的检测可表示为

y_{i} = \{\begin{matrix} 1 & w^{T} x_{i} + b > 0 \\ - 1 & w^{T} x_{i} + b \leq 0 \end{matrix} - - - (11)

其中1表示该子图像中有人就坐，-1表示该坐席是空的。

5、统计所有子图像的检测结果，计算该场景中所有坐席的上座率：

Δ = \frac{1}{N} Σ_{i = 1}^{N} \frac{1 + y_{i}}{2} - - - (12)

参考文献

[1]伊薇斯·德科斯特.座位占用检测器,200480033712.8.

[2]Rafael C.Gonzalez and Richard E.Woods.Digital Image Processing,Second Edition.2007.8.

[3]Richard Szeliski.Computer Vision:Algorithms and Applications.2010.

[4]Piotr D.,et al.Pedestrian Detection:An Evaluation of the State of the Art.In IEEE Trans.OnPAMI,Vol.34,No.4,pp.743-761,2012.

[5]N.Dalal,B.Triggs.Histograms of oriented gradients for human detection.In IEEEInternational Conference on Computer Vision,volume1,pages886-893,2005.

[6]S.Theodoridis and K.Koutroumbas.Pattern Recognition,Fourth Edition,2009.

[7]D.Lowe.Object recognition from local scale-invariant features.International Journal ofComputer Vision60(2),91-110,2004.

[8]Belongie S,Malik J.Matching Shapes.In IEEE International Conference on Computer Vision,2001.

[9]Levi K,Weiss Y.Learning object detection from a small number of examples:the importanceof good feature.In IEEE International Conference on Computer Vision,2004.

[10]libSVM,http://www.csie.ntu.edu.tw/～cjlin/libsvm/.

Claims

1.一种基于高清视频的实时上座率统计方法，其特征在于该方法包括分类模型训练阶段和坐席状态判别阶段，在模型训练阶段，利用大量以标注坐席状态的图像为训练样本，对每张图像提取梯度方向直方图特征，然后再将其特征通过核变换到高维空间建立线性分类器；而在坐席状态判别阶段，采用已标定的场景座位坐标分割输入的图像，对每个子图像提取梯度方向直方图特征，利用已建立的高维空间线性分类器模型判别子图像特征，从而判定该坐席是否被人占用，最后，统计输入图像中的所有子图像的判别结果，获取该场景下当前的上座率。

2.根据权利要求1所述的统计方法，其特征在于分类模型训练阶段的具体步骤依次是：

步骤2.提取图像χ的梯度方向直方图特征，将图像χ按梯度方向均匀划分为若干个区间，计算每个区间的局部梯度方向直方图，所有区域的直方图拼成了最终的特征向量x；

步骤3.利用支持向量机分类器训练特征向量，该分类器将特征向量投影到高维空间，利用高维空间的线性分性计算出最优分界面，最终将分界面的参数记录下来，表示采用该群样本训练的分类器模型。

3.根据权利要求1所述的统计方法，其特征在于坐席状态判别阶段的具体步骤为：

步骤1.将输入单张待检测图像从彩色空间转换到灰度空间，图像记为I；

步骤2.利用已经标定的场景中坐席位置切割图像，假定使用矩形(l_i,t_i,w_i,h_i)代表图像中的座椅，其中l、t、w、h分别代表矩形的左上点的横、纵坐标和宽高，i∈[1,N]，N是场景中座椅的总数，切割后形成的子图像可定义为：

χ_i＝I(t_i:t_i+h_i-1,l_i:l_i+w_i-1)；

步骤3.提取子图像χ的梯度方向直方图特征，得到具有相同维度的特征向量x；

步骤4.利用训练部分保存的分类器模型对上一步获得的特征向量分类，分界面模型表示为

w^Tx+b

对子图像的检测可表示为

y_{i} = \{\begin{matrix} 1 & w^{T} x_{i} + b > 0 \\ - 1 & w^{T} x_{i} + b \leq 0 \end{matrix}

其中1表示该子图像中有人就坐，-1表示该坐席是空的。

Δ = \frac{1}{N} Σ_{i = 1}^{N} \frac{1 + y_{i}}{2} .