CN111401163B

CN111401163B - 基于多尺度注意力感知卷积网络的目标数量统计方法

Info

Publication number: CN111401163B
Application number: CN202010149434.3A
Authority: CN
Inventors: 成锋娜; 姜胜芹; 周宏平; 茹煜; 张玉言
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2022-04-15
Anticipated expiration: 2040-03-04
Also published as: CN111401163A

Abstract

本发明公开了基于多尺度注意力感知卷积网络的目标数量统计方法，包括图片特征提取层、多尺度感知模块、有监督的注意力感知模块以及密度回归模块，图片的输入是3通道的图片，采用传统二维卷积网络提取图片的特征，而后将特征输入到多尺度感知模块以感知图片中尺度的变化，然后将利用有监督的注意力感知模块对感兴趣的目标提取鲁棒的特征，最后经密度回归模块输出密度估计图。本发明涉及了鲁棒的目标数量统计网络，在智能林业、智能农业、智能安防和智能交通等领域有着及其重要的应用价值。

Description

基于多尺度注意力感知卷积网络的目标数量统计方法

技术领域

本发明涉及图像处理和模式识别技术领域，尤其涉及基于多尺度注意力感知卷积网络的目标数量统计方法。

背景技术

随着技术的进步和发展，当前的工业生产和日常生活对于智能处理的要求越来越高。目标数量统计作为对兴趣目标在不同场景中描述，便于人们做出分析和管理。例如，对果园的果实进行密度统计便于管理人员对区域内的果实进行分析；人群的聚集在很多场所如商场、广场、地铁等已经屡见不鲜，由此而产生的安全问题也随之而来，那么人数的统计可便于管理人员对当前场景的人流量进行分析，可帮助他们做出正确的引导等措施。因此，该任务对于工业生产、公共安全以及管理等都具有重要的意义。

事实上，目标数量统计要比传统的目标检测要复杂的多，因为，该任务面对的场景要复杂的多，如很多场景中兴趣目标的密度很大，由此而造成严重的拥挤和遮挡现象，使得我们仅可观测到目标部分内容；另外由于视角的因素，目标从近及远有较大的尺度变化，且远处目标的纹理很模糊等等，这些因素使得目标数量计数变得很困难。

发明内容

为了解决上述问题，本发明设计了基于多尺度注意力感知卷积网络的目标数量统计方法，该方法采用多任务的深度学习框架，使用多尺度感知模块学习图片中目标的尺度变化，使用有监督的注意力感知模块学习像素级别的感兴趣区域，最后获得密度估计图。

为了实现上述目的，本发明采用了如下技术方案：

基于多尺度注意力感知卷积网络的目标数量统计方法，包括以下步骤：

步骤1：制作训练和测试样本集合；将每个图片的目标标注生成真实标签，其具体包括：

步骤101：首先将给定的数据集分为训练集合和测试集合；设数据集合总共有N个图片和与之对应的目标标注，记数据集合中的图片Image_Set＝{I₁,I₂,...,I_N}和与之对应的目标标注Label_Set＝{l₁,l₂,...,l_N}；将前M个图片和它对应的目标标注设为训练集合，记训练图片为Train_Set＝{I₁,I₂,...,I_M}与之对应的标注Ltrain_Set＝{l₁,l₂,...,l_M}；同时将后N-M个图片和它对应的目标标注设为测试集合；记测试图片为Test_Set＝{I_M+1,I_M+2,...,I_N}与之对应的标注Ltest_Set＝{l_M+1,l_M+2,...,l_N}；

步骤102：将步骤101中第κ个图片I_κ转换成高斯密度图den_κ(x)，可通过下述的公式进行计算：

其中

表示给定图片的坐标，x_i表示标注的目标位置；

表示高斯核，其中上述目标位置x_i在本公式中是均值向量和σ²是方差项；如果x不在x_i的领域范围内，令

此时第κ个图片的标签l_κ变换为den_κ(x)；

步骤103：依次对步骤101中的第1张图片直至第N个图片执行步骤102的操作，将图片的标注转换成高斯密度图；从而将训练的标注Ltrain_Set映射为训练真实标签

将测试的标注Ltest_Set映射为测试真实标签

步骤2：对每个图片和它对应的真实标签进行尺寸调整，其具体包括：

步骤201：将图片的尺寸调整为8的整数倍；记第κ个图片I_κ的尺寸大小为(x_κ,y_κ)；图片通过插值的方式将尺寸大小调整为8的整数倍，记图片I_κ调整后的尺寸大小

调整的计算公式为

和

其中％表示整除操作；

步骤202：将与图片对应的高斯密度图也进行尺度调整；第κ个图片I_κ对应的真实标签den_κ(x)的尺寸大小为(x_κ,y_κ)，通过步骤201中的调整计算公式后得到调整后真实标签

的大小

为了使得目标数量保持不变，对调整后的真实标签进行如下操作：

步骤203：对步骤202中第κ个图片I_κ调整后真实标签

进行二值化，生成掩码标签Binary_κ(x)，计算公式如下：

其中

表示将

中每个像素与实数θ做比较，如果像素点的值大于θ，那么Binary_κ(x)在该像素点的值记为1，否则记为0；

步骤204：依次对步骤103中的第1张图片直至第N个图片的真实标签执行步骤202和步骤203的操作；

步骤3：建立目标数量统计的卷积网络模型；卷积网络模型是基于预训练VGG Net卷积网络的前10层去提取图片的特征，多列不同尺度的感知模块提取图片的尺度变化特征，从像素级的视角关注图片中的感兴趣区，最后通过反卷积层学习后输出密度估计图；

尺寸为

的图像经过前10层VGG Net的卷积网络后，输出的尺寸为

的特征图，其中

该特征图经过多尺度掩码感知回馈网络模块和密度回归模块后，输出

的密度估计图；网络的具体的模型给出如下：

卷积层1：使用64个3×3的卷积核去卷积输入为

的图像，经过ReLU激活函数后得到

的特征；

卷积层2：使用64个3×3的卷积核去卷积卷积层1的输出，经过ReLU激活函数和2×2的最大值池化层后得到

的特征；

卷积层3：使用128个3×3的卷积核去卷积卷积层2的输出，经过ReLU激活函数后得到

的特征；

卷积层4：使用128个3×3的卷积核去卷积卷积层3的输出，经过ReLU激活函数和2×2的最大值池化层后得到

的特征；

卷积层5：使用256个3×3的卷积核去卷积卷积层4的输出，经过ReLU激活函数后得到

的特征；

卷积层6：使用256个3×3的卷积核去卷积卷积层5的输出，经过ReLU激活函数后得到

的特征；

卷积层7：使用256个3×3的卷积核去卷积卷积层6的输出，经过ReLU激活函数层和2×2的最大值池化层后得到

的特征；

卷积层8：使用512个3×3的卷积核去卷积卷积层7的输出，经过ReLU激活函数后得到

的特征；

卷积层9：使用512个3×3的卷积核去卷积卷积层8的输出，经过ReLU激活函数后得到

的特征；

卷积层10：使用512个3×3的卷积核去卷积卷积层9的输出，经过ReLU激活函数后得到

的特征；

卷积层11：使用256个3×3的卷积核去卷积卷积层10的输出，经过ReLU激活函数后得到

的特征；

卷积层12：使用128个3×3的卷积核去卷积卷积层11的输出，经过ReLU激活函数后得到

的特征；

卷积层13：使用64个3×3的卷积核去卷积卷积层12的输出，经过ReLU激活函数后得到

的特征；

卷积14.1：使用64个1×1的卷积核去卷积卷积层13的输出，经过ReLU激活函数后得到

的特征；

卷积14.2：使用64个3×3的空洞卷积核，卷积空洞率为2，去卷积卷积层13的输出，经过ReLU激活函数后得到

的特征；

卷积14.3：使用64个3×3的空洞卷积核，卷积空洞率为3，去卷积卷积层13的输出，经过ReLU激活函数后得到

的特征；

卷积层15：将卷积层14.1，卷积层14.2和卷积层14.3的输出延通道级联在一起；得到

的特征；

卷积层16：使用64个3×3的卷积核去卷积卷积层15的输出，经过ReLU激活函数后得到

的特征；

卷积层17：使用64个3×3的卷积核去反卷积卷积层16的输出，经过ReLU激活函数后得到

的特征；

卷积层18：使用64个3×3的卷积核去反卷积卷积层17的输出，经过ReLU激活函数后得到

的特征；

卷积层19.1：使用64个3×3的卷积核去反卷积卷积层18的输出，经过ReLU激活函数后得到

的特征；

卷积层19.2：使用64个3×3的卷积核去反卷积卷积层19.1的输出，经过ReLU激活函数后得到

的特征；

卷积层20.1：使用64个3×3的卷积核去卷积卷积层19.1的输出，经过ReLU激活函数后得到

的特征；

卷积层20.2：使用1个1×1的卷积核去卷积卷积层20.1的输出，经过Sigmoid激活函数后得到

的掩膜估计；

卷积层20.3:使用64个1×1的卷积核去卷积卷积层20.2的输出，经过ReLU激活函数后得到

的特征；

卷积层21:将卷积层20.3的输出点乘以卷积层19.2的输出，得到

的输出；

卷积层22:使用64个3×3的卷积核去卷积卷积层21的输出，经过ReLU激活函数后得到

的特征；

卷积层23:使用1个1×1的卷积核去卷积卷积层22的输出，经过ReLU激活函数后得到

的特征；

步骤4：将步骤2获得训练样本输入到步骤3建立的卷积网络模型中，通过Adam优化策略对网络进行参数学习，具体包含如下的步骤：

步骤401：网络采取多任务的方式对网络参数进行训练，设置网络的初始学习率为l；

步骤402：网络参数主要包括三个部分：一是步骤3中卷积层1到卷积层19.1的参数Φ₁；二是卷积层20.1到卷积层20.2的参数Φ₂以及剩余的参数Φ₃；记步骤3中卷积层20.2的输出为Out_bin，其可表示为：

Out_bin＝f(Φ₁,Φ₂)

其中f(·)为一系列的卷积操作

同时记步骤4中卷积层23的输出为Out_den

Out_den＝f(Φ₁,Φ₂,Φ₃)

两个输出都是在给定的监督信号下对网络进行学习，其损失函数记为：

其中

是均方差损失函数，

是二值交叉熵损失函数；α,β是超参数；

步骤5：测试卷积网络模型；网络经步骤4训练完成后，保留网络的卷积层的参数；将测试图片通过步骤1和步骤2操作后输入网络中，将步骤3中卷积层20.2的输出Out_bin求和，记为当前图片的目标数量统计。

相比于现有技术，本发明的有益效果在于：

1、本发明使用一个轻量化的多尺度学习模块，分别使用1×1、3×3(空洞率为2)和3×3(空洞率为3)的二维卷积学习三种不同的尺度特征。

2、本发明使用了一个有监督的注意力机制进一步学习多尺度的特征，从而减少噪声的影响，得到更加鲁棒的特征。

附图说明

图1为人群拥挤的示例图片和与之对应的真实标签；

图2为本发明中卷积网络模型框架图；

图3为卷积网络的建立及训练的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1-3，基于多尺度注意力感知卷积网络的目标数量统计方法，包括以下步骤：

其中

表示给定图片的坐标，x_i表示标注的目标位置；

此时第κ个图片的标签l_κ变换为den_κ(x)；

将测试的标注Ltest_Set映射为测试真实标签

调整的计算公式为

和

其中％表示整除操作；

的大小

步骤203：对步骤202中第κ个图片I_κ调整后真实标签

进行二值化，生成掩码标签Binary_κ(x)，计算公式如下：

其中

表示将

尺寸为

的图像经过前10层VGG Net的卷积网络后，输出的尺寸为

的特征图，其中

的密度估计图；网络的具体的模型给出如下：

卷积层1：使用64个3×3的卷积核去卷积输入为

的图像，经过ReLU激活函数后得到

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的掩膜估计；

的特征；

卷积层21:将卷积层20.3的输出点乘以卷积层19.2的输出，得到

的输出；

的特征；

的特征；

Out_bin＝f(Φ₁,Φ₂)

其中f(·)为一系列的卷积操作

同时记步骤4中卷积层23的输出为Out_den

Out_den＝f(Φ₁,Φ₂,Φ₃)

其中

是均方差损失函数，

是二值交叉熵损失函数；α,β是超参数；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于多尺度注意力感知卷积网络的目标数量统计方法，其特征在于，包括以下步骤：

其中

表示给定图片的坐标，x_i表示标注的目标位置；

此时第κ个图片的标签l_κ变换为den_κ(x)；

将测试的标注Ltest_Set映射为测试真实标签

调整的计算公式为

和

其中％表示整除操作；

的大小

步骤203：对步骤202中第κ个图片I_κ调整后真实标签

进行二值化，生成掩码标签Binary_κ(x)，计算公式如下：

其中

表示将

尺寸为

的图像经过前10层VGG Net的卷积网络后，输出的尺寸为

的特征图，其中

的密度估计图；网络的具体的模型给出如下：

卷积层1：使用64个3×3的卷积核去卷积输入为

的图像，经过ReLU激活函数后得到

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的特征；

的掩膜估计；

的特征；

卷积层21:将卷积层20.3的输出点乘以卷积层19.2的输出，得到

的输出；

的特征；

的特征；

Out_bin＝f(Φ₁,Φ₂)

其中f(·)为一系列的卷积操作

同时记步骤4中卷积层23的输出为Out_den

Out_den＝f(Φ₁,Φ₂,Φ₃)

其中

是均方差损失函数，

是二值交叉熵损失函数；α,β是超参数；