CN104517127A

CN104517127A - 一种基于Bag-of-features模型的自学习行人计数方法及装置

Info

Publication number: CN104517127A
Application number: CN201310449781.8A
Authority: CN
Inventors: 黄磊; 李静雯
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2015-04-15

Abstract

本发明涉及一种基于Bag-of-features模型的自学习行人计数方法，该计数方法包括：建立预先采集的视频图像样本的Bag-of-features模型，采用支持向量机作为分类器训练获得初始状态下的基于Bag-of-features模型的行人分类器；提取符合支持向量机基本分类条件的当前视频图像的前景区域，并对当前视频图像的搜索窗口进行区域划分，根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本；根据提取的高置信度样本实时更新Bag-of-features模型的参数，进而更新基于Bag-of-features模型的行人分类器，通过所述行人分类器实现行人计数。本发明能够自动提取视频中的高置信度行人和非行人样本，进行实时调整Bag-of-features模型参数，提高***对多场景的适应能力和计数准确性。

Description

一种基于Bag-of-features模型的自学习行人计数方法及装置

技术领域

本发明涉及数字图像处理、计算机视觉、模式识别领域，特别是涉及一种基于Bag-of-features模型的自学习行人计数方法和装置。

背景技术

基于视频的行人计数***能够智能分析图像，得到摄像机视野范围内的行人数目，在公共场所有很大的应用价值。随着计算机视觉计数的飞速发展，该领域的研究和产品化受到广泛关注。

基于行人检测跟踪的行人计数算法是一种主流的方法。该方法首先通过背景建模、帧差法等方法分割出前景区域，检测行人目标，并进一步跟踪检出区域，实现行人计数。例如，Zhao等人（Xi Zhao,E.Delleandrea,Liming Chen.A PeopleCounting System based on Face Detection and Tracking in a Video.Proc of6th IEEE InternationalConference on Advanced Video and Signal Based Surveillance.Genoa,Italy,2009:67-72）和Zu等人（Keju Zu,Fuqiang Liu,and Zhipeng Li.Counting pedestrian in crowded subway scene.IEEE2nd International Congress on In Image and Signal Processing,2009）采用检测跟踪行人头部的方法，Li等人（M.Li,Z.Zhang,K.Huang,and T.Tan.Estimating the number of peoplein crowded scenes by MID based foreground segmentation and head-shoulder detection.Proc of19th IEEE International Conference on Pattern Recognition.Tampa,Florida,USA,2008:1–4）采用头肩检测的方法来实现行人计数。Wen等人（Wusheng Wen,Mengfen Ho,andChunglin Huang.People tracking and counting for applications in video surveillance system.International Conference on In Audio,Language and Image Processing,2008）先采用模板匹配的方法检测前景中的行人区域，并进一步采用霍夫变换的方法最终确定行人头部轮廓。Rittscher等人（Jens Rittscher,Peter H Tu,and Nils Krahnstoever.Simultaneousestimation of segmentation and shape.IEEE Computer Society Conference on In Computer Visionand Pattern Recognition,pages486–493,2005）利用行人轮廓的先验知识分割前景图像，得到行人个体并计数，该类方法假设行人个体是互不遮挡的，适用于行人密度较低的场景。

现有及上述的基于行人检测的人数计数算法在行人检测环节大都采用离线训练的分类器，通过人工收集大量样本训练分类器以实现行人检测。然而在实际应用中，视频监控***将面临复杂多样的应用场景，场景中的行人样本和背景差异很大，离线采集训练不仅耽误时间更重要的是影响了***的实际应用价值。

发明内容

鉴于以上问题，本发明提供了一种基于视觉词袋模型Bag-of-features模型的在线自适应学习的行人计数方法，通过在线自动采集高置信度样本，实时更新Bag-of-feature模型参数，使***在Bag-of-features模型上具备自适应学习功能，有效提高了***对不同场景的适应能力，减少人工干预，增加应用价值。

本发明的目的通过以下技术方案来实现：

一种基于Bag-of-features模型的自学习行人计数方法包括：

建立预先采集的视频图像样本的Bag-of-features模型，采用支持向量机作为分类器训练获得初始状态下的基于Bag-of-features模型的行人分类器；

提取符合支持向量机基本分类条件的当前视频图像的前景区域，并对当前视频图像的搜索窗口进行区域划分，根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本；

根据提取的高置信度样本实时更新Bag-of-features模型的参数，进而更新基于Bag-of-features模型的行人分类器，通过所述行人分类器实现行人计数。

进一步，所述建立视频图像样本的Bag-of-features模型包括如下步骤：

提取预先采集的视频图像中的正样本和负样本中的感兴趣特征点，对感兴趣特征点进行特征描述；其中，所述正样本为行人样本，所述负样本为非行人样本；

采用聚类方法将进行特征描述的感兴趣特征点划分成不同的类别，将每一个类别作为一个视觉词条，所有的类别构成Bag-of-features模型的视觉词典库；

将正样本和负样本分别划分成n个区域，将每个区域以及正样本和负样本作为整体区域内的特征点与视觉词条进行样本映射，获得每个特征点的直方图，形成视频图像样本的Bag-of-features模型；其中，n不小于正整数4。

进一步，所述提取符合支持向量机基本分类条件的当前视频图像的前景运动区域包括：

采用混合高斯背景建模方法提取当前视频图像的背景区域，将所述背景区域与当前图像帧进行比较，提取当前视频图像的前景区域；

所述根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本包括，当所述搜索窗口内的前景像素点的数目与搜索窗口内所有像素点的数目之比不小于设定阈值时，将所述搜索窗口提取为高置信度正样本；当所述搜索窗口内的前景像素点的数目与搜索窗口内所有像素点的数目之比小于设定阈值时，将所述搜索窗口提取为高置信度负样本。

进一步，所述对当前视频图像的搜索窗口进行区域划分包括：

将搜索窗口沿横向平均分为3个横向子区域，沿纵向平均分为2个纵向子区域；

所述根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本包括，

统计各个横向子区域和纵向子区域内的特征点的数目；

当各个横向子区域之间的特征点的数目差异和各个纵向子区域之间的特征点的数目差异不大于设定阈值时，将所述搜索窗口提取为高置信度正样本；

当各个横向子区域之间的特征点的数目差异和各个纵向子区域之间的特征点的数目差异小于设定阈值时，将所述搜索窗口提取为高置信度负样本。

进一步，所述根据提取的高置信度样本对Bag-of-features模型的各项参数进行实时更新包括：

提取所述高置信度正样本和所述高置信度负样本中的感兴趣特征点，对感兴趣特征点进行特征描述，将每个感兴趣特征点根据欧氏距离映射到距离最近的m个视觉词条；其中，m小于视觉词条的总数目；

根据每个视觉词条所映射的感兴趣特征点的数目，对所有视觉词条进行降序排序；

在降序排序后的视觉词条中选择包含正样本数目最多的N⁺个在支持向量机分类器中权重为正的视觉词条和包含负样本数目最多的N^-个在支持向量机分类器中权重为负的视觉词条；

将待更新的词条进行维度加和并加权方式，对已选择的N⁺个视觉词条和N^-个视觉词条进行更新。

进一步，所述提取预先采集的视频图像中的正样本和负样本中的感兴趣特征点包括：

提取正样本和负样本中的边缘信息，通过对边缘信息的下采样获得正样本和负样本中的感兴趣特征点。

进一步，所述对感兴趣特征点进行特征描述包括：

选择以关键点为中心的16ⅹ16区域，计算每个区域中每个特征点的梯度值，将16ⅹ16区域中所有特征点的梯度值用一个中心在该区域中央且标准差为1.5倍的区域宽度的高斯函数加权；所述关键点为感兴趣特征点

将所述16ⅹ16区域分为16个4×4的小区域，在每个小区域中统计所有特征点的梯度直方图，将直方图分为8个方向，形成128维特征向量；其中，在统计所有特征点的梯度直方图时，将所有大于设定阈值的梯度直方图均设置为该设定阈值；

将所述特征向量归一化完成对感兴趣特征点的特征描述。

进一步，所述获得每个特征点的直方图包括：

所述样本映射为将正样本和负样本中的每个特征点用视觉词典库中的视觉词条近似代替，通过统计视觉词典库中每个视觉词条在样本图像中出现的次数得到相应直方图特征；或者，所述样本映射为将正样本和负样本中的每个特征点根据欧式距离映射到距离最近的m个视觉词条，通过统计视觉词典库中每个视觉词条在样本图像中出现的次数得到相应直方图特征；其中，m小于视觉词条的总数目。

本发明还提供一种基于Bag-of-features模型的自学习行人计数装置，该计数装置包括：Bag-of-features模型及行人分类器建立模块，用于建立预先采集的视频图像样本的Bag-of-features模型，采用支持向量机作为分类器训练获得初始状态下的基于Bag-of-features模型的行人分类器；高置信度样本提取模块，用于提取符合支持向量机基本分类条件的当前视频图像的前景区域，并对当前视频图像的搜索窗口进行区域划分，根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本；更新模块，用于根据提取的高置信度样本实时更新Bag-of-features模型的参数，进而更新基于Bag-of-features模型的行人分类器，通过所述行人分类器实现行人计数。

本发明的优点在于：

本发明能够自动提取视频中的高置信度行人和非行人样本，以此获取该场景内行人和背景特点,并根据提取的高置信度样本实时更新Bag-of-features模型的参数，实现了在使用多摄像头的大场景环境下对行人数量的准确统计。

附图说明

图1为本发明第一实施例提供的行人计数方法流程图；

图2为本发明第一实施例提供的建立Bag-of-features模型的方法流程图；

图3为本发明第一实施例提供的连接图像边缘点的示意图；

图4为本发明第一实施例提供的样本映射的硬投票示意图；

图5为本发明第一实施例提供的样本映射的软投票示意图；

图6为本发明第一实施例提供的提取高置信度样本的方法流程图；

图7为本发明第一实施例提供的搜索窗口进行区域划分的示意图；

图8为本发明第一实施例提供的基于Bag-Of-Features模型参数更新的方法流程图；

图9为本发明第二实施例提供的行人计数装置图。

具体实施方式

本发明实现基于Bag-of-features模型的在线自适应学习的区域行人计数方法。首先预先采集训练样本，包括正负样本（正样本为行人样本，负样本为非行人样本，非必须为当前场景），提取正负样本中的感兴趣特征点，采用SIFT特征（Scale-invariant feature transform）的描述方法描述该感兴趣特征点。对训练样本采用K-means聚类方法将进行特征描述的感兴趣特征点划分成不同的类别得到视觉词条（codebook），并生成特征最终得到初始的Bag-of-features模型。在实时运行阶段，当针对特定场景进行区域行人计数时，该方法能够实时采集当前场景下的高置信度正负样本，并实时更新Bag-of-features模型的各项参数，从而提高***对特定场景的自适应能力。

图1所示为本发明行人计数方法流程图，该方法包括：

建立预先采集的视频图像样本的Bag-of-features模型，采用支持向量机作为分类器训练获得初始状态下的基于Bag-of-features模型的行人分类器；所述初始状态是针对某一应用场景时，***刚开始运行的状态。

图2为本发明建立Bag-of-features模型的方法流程图。如图2所示，建立视频图像样本的Bag-of-features模型包括如下步骤：

步骤一：提取感兴趣特征点并进行特征点描述；具体为：提取预先采集的视频图像中的正样本和负样本中的感兴趣特征点，对感兴趣特征点进行特征描述；其中，所述正样本为行人样本，所述负样本为非行人样本。

1）步骤一包括提取训练样本的感兴趣特征点，采用如下方法：

为了获得足够的感兴趣特征点，先预先采集训练样本，包括正负样本（行人样本和非行人样本），首先提取样本边缘信息，对边缘信息下采样得到感兴趣特征点。下采样的采样频率与对感兴趣特征点数目的需求相关。此处的下采样指对每一帧视频图像中的像素点间隔提取，取采样频率为6个像素间隔。

本发明采用Canny算子进行边缘检测以提取样本边缘信息。Canny算子采用的是先平滑然后求导数的方法，具体包括如下步骤：

（a）采用Canny算子用高斯函数对样本图像进行图像平滑，并去除图像噪声。

高斯函数用公式（1）表示：

G (x, y) = \frac{1}{2 π σ^{2}} \exp (- \frac{x^{2} + y^{2}}{2 σ^{2}}) - - - (1)

图像卷积公式如下：

I_{G} (x, y) = G (x, y) &CircleTimes; I (x, y) - - - (2)

其中，x,y是像素点位置，G（x，y）是高斯核函数，I(x,y)是原始图像，I_G(x,y)是卷积后的图像，σ是尺度参数，σ越小，则表示平滑的区域越小。

（b）获取样本图像中像素点的边缘强度

该步骤中，对步骤（a）图像平滑去噪处理后得到的图像上所有像素点求取像素点的梯度，再分别求取每个像素点梯度的幅值和方向，得到像素点的全局梯度，根据全局梯度求取像素点的边缘强度。

Canny算子用一阶偏导的有限差分来计算样本图像中像素点的梯度（E_x(x,y)，E_y(x,y)）的幅值和方向，计算公式如公式（3a）-公式（3d）所示：

E_{x} (x, y) = \frac{&PartialD; G}{&PartialD; x} f (x, y) - - - (3 a)

E_{y} (x, y) = \frac{&PartialD; G}{&PartialD; y} f (x, y) - - - (3 b)

A (x, y) = \sqrt{E_{x} {(x, y)}^{2} + E_{y} {(x, y)}^{2}} - - - (3 c)

θ = Arc \tan (\frac{E_{x} (x, y)}{E_{y} (x, y)}) - - - (3 d)

其中，（x,y）是像素点位置，E_x(x,y)表示像素点x方向的梯度幅值，E_y(x,y)表示像素点y方向的梯度幅值，f(x,y)表示像素点的灰度值，A(x,y)是点(x,y)处的边缘强度，θ是样本图像中像素点(x,y)处的法向矢量。

（c）对局部梯度幅值进行非极大值抑制获得非极大值抑制图像。

步骤（b）得到的全局梯度只是像素点的梯度方向和幅度，不是二值图，因此不足以准确确定像素点的边缘。为确定边缘，必须保留局部梯度幅值最大的像素点，通过抑制非极大值，滤除局部噪声点，进而确定边缘点。局部梯度最大的像素点为一个特征点周围的八个像素点中梯度幅值最大的像素点。

该步骤中，对局部梯度幅值进行非极大值抑制的方法为：比较每个局部梯度最大的像素点邻域的中心像素点的梯度幅值与沿着该像素点的梯度线的两个相邻像素点的梯度幅值，如果中心像素点的梯度幅值均小于或等于沿梯度线的两个相邻像素点的梯度幅值，则令中心像素点的梯度幅值为0，得到该中心像素点的边缘信息，最终获得非极大值抑制图像。局部梯度最大的像素点的邻域可以进行任意选择，梯度线根据公式（3d）得到的法向向量确定。

（d）采用双阈值算法检测图像边缘点，并对检测得到的边缘点进行连接。

采用双阈值算法检测边缘点，，设定高阈值和低阈值两个阈值，将边缘强度与高阈值和低阈值进行比较，边缘强度大于高阈值的一定是边缘点，小于低阈值的一定是非边缘点，该边缘强度也即是上述公式（3a）至公式（3c）中计算得到的幅值；如果边缘强度在低阈值和高阈值之间，则将该像素的邻接像素点的边缘强度与高阈值进行比较，如果邻接像素点的边缘强度大于高阈值，该邻接像素点就是边缘点，否则，它就不是边缘点，此处阈值可根据需要设定。

连接检测得到的各边缘点以形成图像边缘，本发明采用双阈值算法连接边缘，具体方法为：双阈值算法对非极大值抑制图像作用两个阈值τ₁和τ₂，且τ₁≈0.4τ₂，从而可以得到两个阈值边缘图像G₁(x,y)和G₂(x,y)，其中G₁(x,y)为设定的低阈值边缘图像，G₂(x,y)为设定的高阈值边缘图像，τ₁和τ₂分别为检测边缘点时使用的低阈值和高阈值。由于图像G₂(x,y)的阈值较高，去除大部分噪音，但同时也损失了有用的边缘信息。而图像G₁(x,y)的阈值较低，保留了较多的信息，因此本步骤以图像G₂(x,y)为基础，以图像G₁(x,y)为补充来连接图像的边缘，即把边缘连接成轮廓，当遇到轮廓的端点时，也即邻域内只有一个点为边缘点，在图G₁(x,y)的8邻点位置寻找可以连接到轮廓上的边缘，通过不断地在图G₁(x,y)中收集边缘，直到将图G₂(x,y)连接起来为止，如图3所示。

2）步骤一还包括对感兴趣特征点进行特征描述，具体方法如下：

在获取足够的感兴趣边缘点之后，需要对这些特征点进行描述。本发明采用SIFT描述子描述特征点。

首先，选择以关键点为中心的16×16区域，计算出16×16个区域中每个区域的每一个特征点的梯度值，然后将每个区域中所有感兴趣特征点的梯度值用一个中心在该区域中央且标准差为1.5倍的区域宽度的高斯函数加权，即标准差等于16的1.5倍。本实施例中，将提取的感兴趣特征点作为关键点。

其次，将16×16区域中的每个区域分为4×4的小区域，形成16个4×4的小区域。在每个小区域中统计所有感兴趣特征点的梯度直方图，将梯度直方图分为8个方向，因此形成4×4×8=128维特征向量。

最后，为了减少光照变化产生的影响，需要将特征向量归一化，即完成了特征点的描述。

对于上述特征点描述方法，由于非线性的光照变化会使某些像素的梯度值产生较大变化，但是对梯度方向没有影响，因此，在统计梯度直方图时将所有大于某个阈值（通常为0.2）的梯度值都设置为这个阈值，就可以降低非线性的光照的影响。

步骤二：生成Bag-of-features模型的视觉词典库：采用聚类方法将进行特征描述的感兴趣特征点划分成不同的类别，将每一个类别作为一个视觉词条，

所有的类别构成Bag-of-features模型的视觉词典库。

步骤一已经得到训练样本的特征描述，为了找到这些特征之间的区别和联系，需要采用聚类算法将这些特征分成不同的类别，将每一个类别作为一个“视觉词条”（Codebook），所有的类别即构成了Bag-of-feature模型的“视觉词典库”。本发明采用常用的K-mean聚类算法得到词典库，K-Means算法是一种基于样本间相似性度量的间接聚类方法。

步骤三：利用视觉词典库量化图像特征，进而建立Bag-of-features模型；具体方法：将正样本和负样本分别划分成n个区域，将每个区域以及正样本和负样本作为整体区域内的特征点与视觉词条进行样本映射，获得每个特征点的直方图，形成视频图像样本的Bag-of-features模型；其中，n不小于正整数4。

在这一步骤中，需要利用步骤二得到的视觉词典中的词条表示行人目标。在每一个样本中提取多个特征点，这些特征点都可以用视觉词典库中的视觉词条近似代替，即为样本映射。通过统计视觉词典中每个单词在样本图像中出现的次数并归一化可以得到相应直方图特征。而这个维数等于词条个数的直方图特征也将用于最终的样本模型训练。

对于样本映射，传统的方法是找到与样本中的每一个特征向量距离最近的视觉词条，即将正样本和负样本中的每个特征点用视觉词典库中的视觉词条近似代替，这种直接的一一映射方法称为硬投票Hard Voting，如图4所示。然而，有些特征点可能与大于一个的词条距离都十分相近，这说明该特征点可能同时具备这些距离相近词条的特征，直接的一一映射可能会损失部分特征信息，导致映射结果过于绝对化和强制性。因此，本发明实施例采用非一一映射的方法，将训练样本中的每个特征点依据欧氏距离映射到最近的m个视觉词条，这称为软投票Soft Voting，如图5所示。

本发明实施例应用的软投票方法中，采用欧氏距离计算与训练样本中每一个特征向量距离最近的视觉词条，该最近的距离为最佳匹配距离，采用欧几里德距离公式表示：

d (x, y) = \sqrt{Σ_{i = 1}^{d} {(x_{i} - y_{i})}^{2}} - - - (4)

其中，{x_i,i=1,...,d}为样本特征，k-mean聚类之后得到的每一个词条高斯模型均值为{y_i,i=1,...,d}，d是特征维数。

公式4计算的值d（x，y）最小的m个词条，即为训练样本中的特征依据欧式距离映射到最近的m个视觉词条。对于m的选择可以人工直接指定，也可以指定欧氏距离小于某一范围的词条个数作为m的值。

通常情况下，Bag-Of-Features模型直接采用样本中所有的特征映射生成特征后产生的全局特征送入分类器训练模型。然而，这种特征生成方式失去了行人样本的空间信息。而行人目标的各个部分具备特征明显的位置分布信息，因此，本发明应用空间分布这一有用信息提高行人描述的准确性，具体方法为：

将正样本和负样本分别划分成n个区域，将每个区域以及正样本和负样本作为整体区域内的特征点与视觉词条进行样本映射，获得每个特征点的直方图，并联合成统一特征，形成视频图像样本的Bag-of-features模型；其中，n不小于正整数4。具体地，将训练样本分为四个部分（在训练样本宽和高的二分之一处二分），分别将训练样本整体以及四个部分的特征点通过样本映射生成各自的直方图，并联合成统一特征，生成视觉词典，即建立了视频图像样本的Bag-of-features模型。训练样本可以为正样本，也可以为负样本。

在建立视频图像样本的Bag-of-features模型后，需要基Bag-of-features模型建立行人分类器。基于Bag-of-features模型的行人分类器生成，是指在训练初始条件下，需要预先大量采集正样本和负样本，这些样本可以随机选取，行人检测数据库以及大量的互联网图片等可以提供充足的训练样本，这些样本不必像常用的无自学习功能的行人计数***一样必须到特定的监控现场人工采集。选取正样本（行人）数目大于等于10000，负样本（非行人）数目为正样本数目的5-10倍，样本图片大小归一化到32×80像素。在样本归一化并提取特征之后，本发明采用支持向量机（Support Vector Machine，SVM）作为分类器，训练得到初始状态下的基于Bag-of-features模型的行人分类器。支持向量机是基于线性划分的分类器。其原理是通过“核函数”将低维空间中的点映射到高维空间中，使它们线性可分，再通过线性划分的原理来判断分类边界。SVM算法的提出是从最优化问题的角度来考虑，以训练误差作为优化问题的约束条件，以置信范围值最小化作为优化目标，即SVM是一种基于结构风险最小化准则的学习方法最小化。

在建立Bag-of-features模型后，本发明通过在线自适应学习，提取当前视频图像的高置信度样本，并根据提取的高置信度样本实时更新Bag-of-features模型的参数，实现行人计数。

在先自适应学习包括提取当前视频图像的高置信度样本。本发明提取的高置信度样本需要满足三个条件，分别是SVM分类的基本分类条件、前景分类条件以及边缘分类条件。高置信度样本首先需要满足SVM分类的基本分类条件，高置信度样本包括高置信度正样本和高置信度负样本。基本分类条件为SVM分类器输出的分类置信度（分值）大于设定阈值，通常为0时判定为正样本，反之为负样本。

图6为本发明第一实施例提供的提取高置信度样本的方法流程图。如图6所示，提取高置信度样本的方法包含如下步骤：

步骤一：根据前景分类条件，提取符合支持向量机基本分类条件的当前视频图像的前景区域。

视频场景中行人通常处于行走状态，因此前景图像中，属于行人样本的搜索窗口中会包含前景区域；而非行人样本（树木、道路等）的搜索窗口中前景区域比例很小甚至为零。因此，本发明设定的前景分类条件为：搜索窗口内前景像素点数目与搜索窗口内像素点的数目之比大于设定阈值（一般为0.5）的搜索窗口属于高置信度行人样本。具体地，当搜索窗口内的前景像素点的数目与搜索窗口内所有像素点的数目之比不小于一设定阈值时，将所述搜索窗口提取为高置信度正样本；当所述搜索窗口内的前景像素点的数目与搜索窗口内所有像素点的数目之比小于设定阈值时，将所述搜索窗口提取为高置信度负样本。

在该步骤中，提取当前视频图像的前景区域的方法包括：采用高斯混合背景建模得到当前视频图像的背景区域，将所述背景区域与当前图像帧进行比较，提取当前视频图像的前景区域。如公式（5）所示，得到当前帧前景区域以获得行人的运动信息。

I_{fore} (x, y) = \{\begin{matrix} 1 & | I (x, y) - I_{back} (x, y) | &GreaterEqual; th \\ 0 & | I (x, y) - I_{back} (x, y) | < th \end{matrix} - - - (5)

其中，I_fore(x,y)为图像中(x,y)位置前景图像的像素值，1表示该点为前景像素，0表示该点为背景像素，I(x,y)为图像中(x,y)位置当前帧图像的像素值，I_back(x,y)为图像中(x,y)位置背景图像的像素值，th为设定阈值，此处设定阈值实际可调，优选的为0.5。

步骤二：对当前视频图像的搜索窗口进行区域划分，获取搜索窗口内的特征点，根据边缘分类条件，确定搜索窗口是否属于行人。

如图7所示，将当前视频图像的搜索窗口进行区域划分包括：将搜索窗口横向平均分为3个部分，纵向平均分为2个部分。视频图像区域划分后如下：

H₁=H

W₁=W

H₂=H₃=H₄=H/3

W₂=W₃=W₄=W

W₅=W₆=W/2

H和W是当前视频图像的高和宽，H_j和W_j是分割后第j部分的高和宽，j=1，…6。

由于行人多为直立状态，特征点分布均匀，如图7所示，对样本高度三等分得到的3个部分的特征点数目差异不大，宽度二等分的2个部分的差异也不大；而非行人区域特征点往往分布不均。因此，本发明设定边缘分类条件为：统计各区域特征点的数目，并设定阈值以确定该搜索窗口是否属于行人。具体地，统计划分区域后形成的各个横向子区域和纵向子区域内的特征点的数目；当各个横向子区域之间的特征点的数目差异和各个纵向子区域之间的特征点的数目差异不大于设定阈值时，将所述搜索窗口提取为高置信度正样本；当各个横向子区域之间的特征点的数目差异和各个纵向子区域之间的特征点的数目差异小于设定阈值时，将所述搜索窗口提取为高置信度负样本。

步骤三，根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本。

搜索窗口同时满足SVM分类的基本分类条件、前景分类条件以及边缘分类条件时，该训练样本为高置信度正样本或高置信度负样本。

在先自适应学习还包括根据提取的高置信度样本对Bag-Of-Features模型的各项参数进行实时更新。图8为对基于Bag-Of-Features模型参数进行更新的方法流程图。该方法包括以下步骤：

分配步骤：提取所述高置信度正样本和所述高置信度负样本中的感兴趣特征点，对感兴趣特征点进行特征描述，将每个感兴趣特征点根据欧氏距离映射到距离最近的m个视觉词条；其中，m小于视觉词条的总数目。此处进行特征映射的方法与本发明前文所述相同，在此不再赘述。

排序步骤：根据每个视觉词条所映射的感兴趣特征点的数目，对所有视觉词条进行降序排序。

选择步骤：在降序排序后的视觉词条中选择包含正样本最多的N⁺个在支持向量机分类器中权重为正的视觉词条和包含负样本最多的N^-个在支持向量机分类器中权重为负的视觉词条。

更新步骤：将待更新的词条进行维度加和并加权方式，对已选择的N⁺个视觉词条和N^-个视觉词条进行更新。

在BOF模型参数更新过程中，本发明实施例只更新已选择的N⁺+N^-个词条。视觉词条的更新方法为：首先将映射到该视觉词条下的特征点的每一维度加和并乘以投票系数a即加权，接着将该一轮更新前的视觉词条通过1-a加权，两者加和得到更新后的新的视觉词条。如公式（6）和（7）所示：

C_{new}^{+} (i) = \frac{β}{Σ_{n^{+} = 0}^{N_{i} - 1} α_{n^{+}}} Σ_{n^{+} = 0}^{N_{i} - 1} α_{n^{+}} {f_{i}}^{+} (n^{+}) + (1 - β) C_{old}^{+} (i)

i∈(1,...,K),ω(i)>0,0≤ω≤1

C_{new}^{-} (j) = \frac{β}{Σ_{n^{-} = 0}^{N_{j} - 1} α_{n^{-}}} Σ_{n^{-} = 0}^{N_{j} - 1} α_{n^{-}} {f_{i}}^{-} (n^{-}) + (1 - β) C_{old}^{-} (j)

j∈(1,...,K),ω(j)>0,0≤ω≤1

（7）

其中，C_new(包括Cnew⁺、C new^-)代表词条的新的聚类中心，C_old是该词条的原有聚类中心。N_i是分配到该词条的样本数目，α是投票系数。f_i ⁺(n⁺)是分配到该词条的第n^th个正样本特征点。ω(i)是SVM分类器中第ith个词条的权重。同时，引入学习率β用来调整新加入的样本数据在学习过程中所占的权重。

通过本发明上述的方法，能提高BOF模型的适应能力，同时提高对行人检测的准确率。

本发明第二实施例提供一种行人计数装置，如图9所示。该行人计数装置包括：

Bag-of-features模型及行人分类器建立模块，用于建立预先采集的视频图像样本的Bag-of-features模型，采用支持向量机作为分类器训练获得初始状态下的基于Bag-of-features模型的行人分类器；高置信度样本提取模块，用于提取符合支持向量机基本分类条件的当前视频图像的前景区域，并对当前视频图像的搜索窗口进行区域划分，根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本；更新模块，用于根据提取的高置信度样本实时更新Bag-of-features模型的参数，进而更新基于Bag-of-features模型的行人分类器，通过所述行人分类器实现行人计数。

本发明第一实施例提供的行人计数方法可以应用于上述各个模块的具体运行。

应当理解，以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于Bag-of-features模型的自学习行人计数方法，其特征在于，该计数方法包括：

2.根据权利要求1所述的一种基于Bag-of-features模型的自学习行人计数方法，其特征在于，所述建立视频图像样本的Bag-of-features模型包括如下步骤：

3.根据权利要求1或2所述的一种基于Bag-of-features模型的自学习行人计数方法，其特征在于，所述提取符合支持向量机基本分类条件的当前视频图像的前景区域包括：

4.根据权利要求3所述的一种基于Bag-of-features模型的自学习行人计数方法，其特征在于，所述对当前视频图像的搜索窗口进行区域划分包括：

统计各个横向子区域和纵向子区域内的特征点的数目；

5.根据权利要求4所述的一种基于Bag-of-features模型的自学习行人计数方法，其特征在于，所述根据提取的高置信度样本对Bag-of-features模型的参数进行实时更新包括：

6.根据权利要求2所述的一种基于Bag-of-features模型的自学习行人计数方法，其特征在于，所述提取预先采集的视频图像中的正样本和负样本中的感兴趣特征点包括：提取正样本和负样本中的边缘信息，通过对边缘信息的下采样获得正样本和负样本中的感兴趣特征点。

7.根据权利要求6所述的一种基于Bag-of-features模型的自学习行人计数方法，其特征在于，所述对感兴趣特征点进行特征描述包括：

选择以关键点为中心的16×16区域，计算每个区域中每个特征点的梯度值，将每个区域中所有特征点的梯度值用一个中心在该区域中央且标准差为1.5倍的区域宽度的高斯函数加权；其中，所述关键点为感兴趣特征点；

将所述16×16区域分为16个4×4的小区域，在每个小区域中统计所有特征点的梯度直方图，将梯度直方图分为8个方向，形成128维特征向量；其中，在统计所有特征点的梯度直方图时，将所有大于设定阈值的梯度直方图均设置为该设定阈值；

将所述特征向量归一化完成对感兴趣特征点的特征描述。

8.所述根据权利要求7所述的一种基于Bag-of-features模型的自学习行人计数方法，其特征在于，所述获得每个特征点的直方图包括：所述样本映射为将正样本和负样本中的每个特征点用视觉词典库中的视觉词条近似代替，通过统计视觉词典库中每个视觉词条在样本图像中被映射的次数得到相应直方图特征；或者，所述样本映射为将正样本和负样本中的每个特征点根据欧式距离映射到距离最近的m个视觉词条，通过统计视觉词典库中每个视觉词条在样本图像中被映射的次数得到相应直方图特征；其中，m小于视觉词条的总数目。

9.一种基于Bag-of-features模型的自学习行人计数装置，其特征在于，所述计数装置包括：

Bag-of-features模型及行人分类器建立模块，用于建立预先采集的视频图像样本的Bag-of-features模型，采用支持向量机作为分类器训练获得初始状态下的基于Bag-of-features模型的行人分类器；

高置信度样本提取模块，用于提取符合支持向量机基本分类条件的当前视频图像的前景区域，并对当前视频图像的搜索窗口进行区域划分，根据所述前景区域和所述搜索窗口内的特征点提取当前视频图像的高置信度样本；

更新模块，用于根据提取的高置信度样本实时更新Bag-of-features模型的参数，进而更新基于Bag-of-features模型的行人分类器，通过所述行人分类器实现行人计数。