CN108921830A

CN108921830A - 一种基于图像检索的人数统计方法

Info

Publication number: CN108921830A
Application number: CN201810639977.6A
Authority: CN
Inventors: 吕学强; 张鑫; 高五峰
Original assignee: CHINA FILM SCIENCE AND TECHNOLOGY INST; Beijing Information Science and Technology University
Current assignee: CHINA FILM SCIENCE AND TECHNOLOGY INST; Beijing Information Science and Technology University
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2018-11-30

Abstract

本发明涉及一种基于图像检索的人数统计方法，包括：将原图像分成多个具有相同透视效果的不同尺度子图像块；改进空间金字塔池化网络模型，使用训练数据训练改进的空间金字塔池化网络模型；使用改进的空间金字塔池化网络提取不同尺寸图像的特征；计算待测图像与已知图像间的距离，寻找距离最近的图像，获取其标签，得到待测子图像块的人数；将待测图像所分割的不同子图像块人数累加。本发明提供的基于图像检索的人数统计方法，对传统的空间金字塔池化网络模型进行了改进，采用改进的空间金字塔池化网络模型，避免了在图像尺寸归一化时造成的特征损失，人数识别准确率高，可以很好地满足实际应用的需要。

Description

一种基于图像检索的人数统计方法

技术领域

本发明涉及一种基于图像检索的人数统计方法。

背景技术

监控视频中的人群自动计数有着重要的研究价值和社会应用前景，利用人工智能获取场景的人数信息不仅可以为公共区域的安全防护进行指导，还可以节省大量的人力物力。目前摄像机透视效果、图像背景、人群密度分布不均等问题制约着人群计数研究的发展和应用，因此人数统计算法的研究与探索有着极其重要的价值。

近年来，随着计算机视觉技术的发展，大量的人数检测算法被各大专家、学者提出。这些算法根据检测对象的不同大致可分为直接法和间接法，直接法的检测对象一般为个体，如人体的形状信息、头部信息、头肩信息、运动信息等，在人群密集时，由于个体间的遮挡，这类方法往往不能取得很好的效果，需借助粘连人体分割技术解决人体遮挡问题，而复杂场景下的粘连人体的分割技术目前还并不成熟，能够提供给直接检测法的支持有限。间接法的检测对象多为群体，如人群的纹理特征、像素特征、角点特征等，间接法通过分析群体特征，建立群体人数与群体特征之间的对应关系，近年，又有学者根据间接法检测图像尺度的不同将间接法分为了全局间接法和局部间接法，全局间接法将视频中的每一帧作为计数单位，检测全局的图像特征，局部间接法将原图像进行分块，在分块时考虑摄像机透视的影响，将原图像分为多个具有相同透视效果的子图像块，检测子图的图像特征，建立与人数间的对应关系，最后累加子图像块的统计结果得到总人数；然而，间接法受到特征的表达能力、人群遮挡等因素的严重制约。采用以上方法进行人数统计，得到的结果人数识别准确率太低，不能很好地满足实际应用的需要。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种可避免出现上述技术缺陷的基于图像检索的人数统计方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种基于图像检索的人数统计方法，包括以下步骤：

步骤1)将原图像分成多个具有相同透视效果的不同尺度子图像块；

步骤2)改进空间金字塔池化网络模型，使用训练数据训练改进的空间金字塔池化网络模型；

步骤3)使用改进的空间金字塔池化网络提取不同尺寸图像的特征；

步骤4)计算待测图像与已知图像间的距离，寻找距离最近的图像，获取其标签，得到待测子图像块的人数；

步骤5)将待测图像所分割的不同子图像块人数累加。

进一步地，在所述步骤2)中，对空间金字塔池化网络模型进行改进的步骤包括：保留原有的窗口设置方式，改变原有的步长大小设置策略，使得a’与a的值最接近，从而使得该层所产生的特征损失降低到最小；

其中，在原空间金字塔池化网络模型中，上层输出维度的大小为a*a，要得到的池化结果大小为n*n；

步长strides的选择策略公式为：

a’的定义为a＝window+strides×(n-1)，window代表移动窗口。

进一步地，当a’＞a时，用a’-a层0对原特征向量进行边界填充；当a’＜a时，舍弃原特征向量末尾的a-a’行、a-a’列特征。

进一步地，对原特征向量进行边界填充时，如需要填充位数为偶数时，则将待填充的a’-a层0均匀分布在原特征向量前后；如需要填充位数为奇数时，采用前少后多原则填充，填充原则公式为：

pad_后＝a′-a-pad_前。

进一步地，将图像经过多层卷积池化操作所提取出的高层图像特征，经过全连接层进行特征降维，提取图像在该层输出的特征。

进一步地，在步骤4)中，使用欧式距离函数计算待测图像与已知图像间的距离，欧式距离函数的定义公式为：

其中，d为两向量间的欧式距离，a、b分别为两待求特征向量，T为求矩阵转置。

本发明提供的基于图像检索的人数统计方法，对传统的空间金字塔池化网络模型进行了改进，采用改进的空间金字塔池化网络模型，避免了在图像尺寸归一化时造成的特征损失，同时对传统的空间金字塔池化网络模型进行了分析，针对在空间金字塔池化层造成的图像特征损失进行了改进，利用本发明在类似电影院、课堂等人员位置比较固定的场景进行人数识别的准确率可以达到98％以上，且对稀疏人群和密集人群的人数识别准确率都很高，对课堂、会议出勤率、影院票房统计等都有很大的帮助，人数识别准确率高，可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图；

图2为影院中观影状态下的观众席的场景照片；

图3为对图2进行图像分块后的图；

图4为现有技术的空间金字塔池化网络模型图；

图5为边界填充方法示意图；

图6为边界舍弃方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于图像检索的人数统计方法，包括以下步骤：

步骤4)使用距离函数计算待测图像与已知图像间的距离，寻找距离最近的图像，获取其标签，得到待测子图像块的人数；

步骤5)将待测图像所分割的不同子图像块人数累加，即得到待测图像人数。

如图2所示为影院中观影状态下的观众席的场景照片，要统计具体场景为影院中观影状态下的人数，可将座椅当作天然参照物进行场景区域分块。在实际场景中座椅大小都为一样大，但经过摄像机成像之后，形成了明显的近大远小的现象。因此只需要取水平位置相同，相同数量的座椅作为子图像块，就可以在图像分割过程中良好地解决摄像机透视的影响。对图2中的人数进行处理的过程如下所述。

取空间中的2*2区域作为子图像块，将原来的图像分割成20个子图像块，图像分块结果如图3所示。由于本实施例所研究内容为观影状态下的人数统计，因此只研究标注序号的20个区域，忽略其他零散区域。这样一来，1-20这20个区域都为包含4张座椅大小的区域，解决了由于摄像机透视带来的影响。

目前对人群人数表达较好的特征有像素特征、角点特征等，但是良好的特征提取较为依赖图像的前景分割。本实施例所研究图像为红外图像，红外图像信噪比低且容易产生光晕，对周围环境的明暗变化比较敏感，因此在前景提取时要想达到比较好的效果需要进行一系列的预处理来减小干扰，因此，本实施例借助卷积神经网络，通过多层卷积-池化操作，在不依赖前景提取的情况下，提取到图像的高层特征，高层特征相比于底层特征判别能力和鲁棒性更强。

传统的卷积神经网络由于全连接层只能接受固定尺寸的输入导致模型只能接受固定尺寸的输入图像。一般只能通过尺度归一化的方法来处理不同尺度的输入图像，然而这种方法会导致图像信息的损失，为解决这一问题，空间金字塔池化(Spatial pyramidpooling，SPP)方法被提出，SPP使得不同尺寸的图像在通过池化层之后都可以转化为固定大小的特征向量。使用了空间金字塔池化层的卷积神经网络通常被称为空间金字塔池化网络，网络模型如图4所示。

其中，空间金字塔池化层对卷积之后的特征向量进行不同尺度的池化操作，将每次池化操作得到的特征值进行组合之后形成一个固定长度的特征向量，如图4中spatialpyramid pooling layer所示，利用不同大小的刻度，从左到右依次将原图像分为了16、4、1个子特征图，再分别对每个子特征图进行传统的池化操作即可得到每个子特征图的池化结果，依次序进行拼接得到池化操作过后的特征向量，这样一来，无论卷积操作之后得到的特征向量是多大的，在经过空间金字塔卷积之后都能得到一组定长特征向量，图4中特征向量在经过空间金字塔池化之后得到一个21(16+4+1)维特征向量。

空间金字塔池化网络虽然解决了输入图像尺度不一致问题，但是在具体进行池化操作时，由于空间金字塔池化层的复杂性，移动窗口大小，步长，层内池化方式选择都有可能会导致特征值损失。

传统的卷积神经网络池化尺寸多为2*2，在2*2的小区域内无论采用何种方式进行激活值选取所损失的特征都是有限的，但是当进行空间金字塔多尺度池化时，如果池化区域过大无论是最大值池化方法还是均值池化方法都无法很好的描述这个大区域的特征，因此本实施例在进行空间金字塔池化操作时限制进入空间金字塔池化层输入特征向量的维度不宜太大，并采用特征组合的策略，分别采用最大值池化和均值池化两种池化方式分别对池化域进行激活值选取得到两组特征向量，对得到的特征向量进行横向拼接从而进行特征组合，联合表示该层输出的图像特征来减小特征损失。

传统的空间金字塔池化方法中，假设上层输出维度的大小为a*a，需要得到n*n大小的池化结果，通常将移动窗口window大小设为步长strides为和分别为向上取整和向下取整操作。这样的设置在某种情况下同样会造成较大的特征损失，假设上层输出维度为59*59，需要得到10*10大小的池化结果，则按照传统做法，移动窗口大小设为6*6，步长为5*5，这样一来，只需要移动到第21行和第21列就可以获得所需要的10*10大小的池化结果，后9行和后9列的特征没有被计算在内，由此会带来较大的特征损失。要想将这种情况引发的特征损失降低到最小，窗口与步长的设计原则是使得a’的值与a的值最接近，a’的定义如公式(1)所示。因此，本发明保留原有的窗口设置方式，改变原有的步长大小设置策略，使得a’与a的值最接近，从而使得该层所产生的特征损失降低到最小。步长strides的选择策略如公式(2)所示。

a′＝window+strides×(n-1)(1)；

a’与a大小不一致，就需要对上层输出特征的边界进行处理。当a’＞a时，用a’-a层0对原特征向量进行边界填充，使得a的行列数与a’的行列数相等，如图5所示，如需要填充位数为偶数时，将待填充的a’-a层0均匀分布在原特征向量前后，如需要填充位数为奇数时，采用前少后多原则填充，填充原则如公式(3)、公式(4)所示。当a’＜a时，舍弃原特征向量末尾的a-a’行、a-a’列特征，同样使得a的行列数与a’的行列数相等，如图6所示。

pad_后＝a′-a-pad_前 (4)；

图5、图6所示为13维的特征向量，在窗口大小为6，移动步长为5的情况下，分别采用不同的边界处理策略示意图。

改进后的空间金字塔池化网络模型的详细结构如表1所示。

表1

其中，[47*60-69*130]的含义为输入维度大小从47*60到69*130不等，的含义为对w/1做向上取整操作，模型中的空间金字塔池化层采用的刻度分别为1、5、10，将原图像分为了1、25、100个子特征图，在每个子特征图内，分别利用最大值池化方法与均值池化方法得到两个采样激活值，这样一来输入的特征向量在经过这一层之后得到一个252维的输出向量。使用大量标注好的训练数据训练改进的空间金字塔池化网络，使模型达到最优。改进后的网络减小了在池化时的特征损失，解决了图像尺寸归一化时引发的特征损失。

将图像经过多层卷积池化操作所提取出的高层图像特征，经过全连接层进行特征降维，提取图像在该层输出的特征，本实施例中为84维图像特征。

使用欧式距离比较两串特征向量之间的相似性，欧氏距离定义如公式(5)所示。距离小的，相似性大。根据其相似度大小进行排序，取相似度最高的图片所对应的标签即为待检图片人数。

本实施例提出的人群计数模型是一个端到端的***，该模型直接以图像帧作为输入，经过图像分块之后，不同子图像块通过空间金字塔池化网络模型检索各自得到与之相似度最高的一张图像，图像所对应的标签即为各子图人数，最后累加每个子图的人数作为该帧图像的输出。该模型在训练时，将训练数据1-20号子图像块按照序号整合成20个不同的输入流，训练时依次进行，通过用前一种尺度的图像训练好的模型作为下一种尺度训练模型的预训练模型的方式共享训练参数，这种方法弥补了各尺度图像块训练数据不足的问题，同时加快了模型拟合的速度。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图像检索的人数统计方法，其特征在于，包括以下步骤：

步骤5)将待测图像所分割的不同子图像块人数累加。

2.根据权利要求1所述的人数统计方法，其特征在于，在所述步骤2)中，对空间金字塔池化网络模型进行改进的步骤包括：保留原有的窗口设置方式，改变原有的步长大小设置策略，使得a’与a的值最接近，从而使得该层所产生的特征损失降低到最小；

步长strides的选择策略公式为：

a’的定义为a′＝window+strides×(n-1)，window代表移动窗口。

3.根据权利要求1-2所述的人数统计方法，其特征在于，当a’＞a时，用a’-a层0对原特征向量进行边界填充；当a’＜a时，舍弃原特征向量末尾的a-a’行、a-a’列特征。

4.根据权利要求1-3所述的人数统计方法，其特征在于，对原特征向量进行边界填充时，如需要填充位数为偶数时，则将待填充的a’-a层0均匀分布在原特征向量前后；如需要填充位数为奇数时，采用前少后多原则填充，填充原则公式为：

pad_后＝a′-a-pad_前。

5.根据权利要求1-4所述的人数统计方法，其特征在于，将图像经过多层卷积池化操作所提取出的高层图像特征，经过全连接层进行特征降维，提取图像在该层输出的特征。

6.根据权利要求1-5所述的人数统计方法，其特征在于，在步骤4)中，使用欧式距离函数计算待测图像与已知图像间的距离，欧式距离函数的定义公式为：