CN116311083B

CN116311083B - 一种人群计数模型训练方法及***

Info

Publication number: CN116311083B
Application number: CN202310564780.1A
Authority: CN
Inventors: 余鹰
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-09-05
Anticipated expiration: 2043-05-19
Also published as: CN116311083A

Abstract

本发明提供一种人群计数模型训练方法及***，方法包括：获取人群场景图像，并对人群场景图像的人群位置进行标注，构建训练集，并生成每一训练图像对应的标签密度图；将训练集当中的训练图像输入到特征提取模块当中进行特征提取，得到不同阶层的特征图；将特征图输入到特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图；将聚合特征图输入到多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图；根据预测密度图和对应的标签密度图计算模型损失，并根据模型损失采用反向传播算法对网络参数进行更新迭代。本发明能够有效地解决人群计数场景中人群分布不均匀问题和目标尺度变化问题。

Description

一种人群计数模型训练方法及***

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种人群计数模型训练方法及***。

背景技术

人群计数是计算机视觉领域一项热点任务，其旨在估计视频或图像中人群的数量、密度和分布。目前大多通过训练人群计数模型来实现自动人群计数，其主要思路为，先收集大量的人群图像并对人群图像进行标记，从而制作训练集，然后通过制作的训练集对神经网络进行训练，从而训练得到人群计数模型，之后在应用时，将拍摄的人群图像输入该人群计数模型当中，就可以直接输出人群计数结果。

现有技术当中，目前一般采用传统Transformer网络来训练人群计数模型，然而Transformer网络的结构和感受野相对固化，在遇到人群分布不均、目标尺度剧烈变化等特殊场景时，会严重影响人群计数结果，导致结果输出可靠性较差。而人群分布不均、目标尺度剧烈变化的情况在人群计数工作中司空见惯。

发明内容

基于此，本发明的目的是提供一种人群计数模型训练方法及***，以解决现有技术当中的至少一个技术问题。

根据本发明实施例的一种人群计数模型训练方法，所述人群计数模型基于改进的Transformer网络训练得到，所述改进的Transformer网络包括特征提取模块、特征聚合模块以及多尺度感知模块，所述方法包括：

获取人群场景图像，并对所述人群场景图像的人群位置进行标注，构建人群计数模型训练用的训练集，并生成所述训练集当中的每一训练图像对应的标签密度图；

将所述训练集当中的训练图像输入到所述特征提取模块当中进行特征提取，得到不同阶层的特征图；

将特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图；

将所述聚合特征图输入到所述多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图；

根据所述预测密度图和对应的训练图像的标签密度图计算模型损失，并根据计算得到的模型损失采用反向传播算法对所述改进的Transformer网络的参数进行更新迭代，从而训练得到所述人群计数模型。

另外，根据本发明上述实施例的一种人群计数模型训练方法，还可以具有如下附加的技术特征：

进一步地，所述特征提取模块包括多层特征提取单元，各层所述特征提取单元之间的分辨率大小不同，将所述训练集当中的训练图像输入到所述特征提取模块当中进行特征提取，得到不同阶层的特征图的步骤包括：

将所述训练集当中的训练图像依次输入每一层所述特征提取单元当中进行特征提取，得到每层所述特征提取单元提取的特征图，从而得到所述不同阶层的特征图；

则，将特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图的步骤包括：

将预设数量个且由排序在后的特征提取单元提取的特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图。

进一步地，所述特征提取模块包括四层特征提取单元，四层特征提取单元的分辨率大小从前往后依次为1/4、1/8、1/16和1/32；

其中，将分辨率大小为1/8、1/16和1/32的特征提取单元提取的特征图输入到所述特征聚合模块当中。

进一步地，所述特征聚合模块的表达式为：

x ^FAM=F _s2 +Conv ₃(up(F _s3+Conv ₃((up(F _s4) ) ) )

式中，F _s2、F _s3和F _s4分别代表分辨率大小为1/8、1/16和1/32的特征提取单元提取的特征图，Conv ₃表示3×3卷积操作，up()表示两倍上采样，x ^FAM表示聚合特征图。

进一步地，所述多尺度感知模块包括相互并联的一条第一多尺度感知支路和多条第二多尺度感知支路，所述第一多尺度感知支路和各所述第二多尺度感知支路之间采用不同的卷积策略，将所述聚合特征图输入到所述多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图的步骤包括：

将所述聚合特征图分别输入到所述第一多尺度感知支路和每条所述第二多尺度感知支路进行卷积处理；

将所有所述第二多尺度感知支路对所述聚合特征图进行卷积处理后的结果进行拼接，再将拼接结果与所述第一多尺度感知支路对所述聚合特征图进行卷积处理后的结果相加，得到多尺度特征图；

采用预设降维算法对所述多尺度特征图进行降维处理，得到所述预测密度图。

进一步地，所述第一多尺度感知支路采用单普通卷积策略，所述第二多尺度感知支路采用普通卷积和空洞卷积串联策略，并且各所述第二多尺度感知支路之间的普通卷积的卷积核大小以及空洞卷积的空洞率不同；

其中，所述聚合特征图输入到所述第一多尺度感知支路时执行单普通卷积处理，所述聚合特征图输入到所述第一多尺度感知支路时依次执行普通卷积和空洞卷积处理。

进一步地，所述第二多尺度感知支路的数量为三条，其对应的普通卷积的卷积核大小分别为1x1、3 x3和5 x5，所述第一多尺度感知支路采用的单普通卷积的卷积核大小为3 x3；

其中，所述预设降维算法为：

=Conv ₃(Conv ₃(x ^MSAM) )

式中，表示预测密度图，x ^MSAM表示多尺度特征图，Conv ₃表示3×3卷积操作。

进一步地，所述模型损失的计算公式为：

；

其中，；

；

式中，D代表标签密度图，表示预测密度图，‖D‖表示向量化的标签密度图，‖/>‖表示向量化的预测密度图，/>表示计数损失，/>表示向量的L1范式，λ₁和λ₂为权重系数，表示最优传输损失，/>表示总变化损失，C表示传输成本矩阵，/>表示D中像素点i到/>中像素点j的传输成本矩阵，T表示传输矩阵，T _{i, j}表示D中像素点i到/>中像素点j的传输矩阵，U是传输过程中所有可能路径的集合。

进一步地，所述生成所述训练集当中的每一训练图像对应的标签密度图的步骤包括：

根据预设转换公式将所述训练集当中的每一训练图像转换为对应的标签密度图；

其中，所述预设转换公式为：

；

式中，D代表标签密度图，x代表训练图像中的每个像素点坐标，x _i代表训练图像当中的第i个人头中心点坐标，G _σ代表高斯核函数，m代表第m个人，M代表训练图像中包含的人数，δ(x-x _i)表示脉冲函数。

根据本发明实施例的一种人群计数模型训练***，所述人群计数模型基于改进的Transformer网络训练得到，所述改进的Transformer网络包括特征提取模块、特征聚合模块以及多尺度感知模块，所述***包括：

训练集制作模块，用于获取人群场景图像，并对所述人群场景图像的人群位置进行标注，构建人群计数模型训练用的训练集，并生成所述训练集当中的每一训练图像对应的标签密度图；

模型训练模块，用于将所述训练集当中的训练图像输入到所述特征提取模块当中进行特征提取，得到不同阶层的特征图；将特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图；将所述聚合特征图输入到所述多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图；根据所述预测密度图和对应的训练图像的标签密度图计算模型损失，并根据计算得到的模型损失采用反向传播算法对所述改进的Transformer网络的参数进行更新迭代，从而训练得到所述人群计数模型。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的人群计数模型训练方法。

本发明还提出一种人群计数模型训练设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的人群计数模型训练方法。

本发明的有益效果为：通过提出改进的Transformer网络来训练人群计数模型，具体是新提出了特征聚合模块以及多尺度感知模块，该特征聚合模块能够聚合不同网络深度的特征图，以充分利用网络深层的语义信息和网络浅层的细节信息，帮助网络更加精确地定位人群区域，提升网络的表征能力，以更好地解决人群分布不均匀问题。同时该多尺度感知模块能够增强网络的多尺度感知能力，在面对目标尺度剧烈变化时可以取得更好的感知效果，从而能够有效地解决人群计数场景中人群分布不均匀问题和目标尺度变化问题。

附图说明

图1为本发明实施例一当中的人群计数模型训练方法的流程图；

图2为本发明实施例当中提供的改进的Transformer网络结构示意图；

图3为本发明实施例当中提供的特征聚合模块的结构示意图；

图4为本发明实施例当中提供的多尺度感知模块的结构示意图；

图5为本发明实施例三当中的人群计数模型训练***的结构框图。

以下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明实施例一当中的人群计数模型训练方法，所述人群计数模型训练方法可通过软件和/或硬件来实现，所述人群计数模型基于改进的Transformer网络训练得到，请查阅图2，所示为本发明实施例提供的改进的Transformer网络结构，包括特征提取模块、特征聚合模块以及多尺度感知模块，所述方法包括步骤S01-步骤S05。

步骤S01，获取人群场景图像，并对所述人群场景图像的人群位置进行标注，构建人群计数模型训练用的训练集，并生成所述训练集当中的每一训练图像对应的标签密度图。

在具体实施时，可以收集大量的人群场景图像，并对每张人群场景图像的人群位置进行标注，例如具体可以标注人头部位置，从而构建大量的样本图像，然后将所有的样本图像按照预设比例（如8:2）划分训练集和测试集，其中训练集用于后续的人群计数模型的训练，测试集用于对训练得到的人群计数模型进行测试。

其中，生成所述训练集当中的每一训练图像对应的标签密度图的步骤具体可以包括：

其中，所述预设转换公式为：

；

式中，D代表标签密度图，x代表训练图像中的每个像素点坐标，x _i代表训练图像当中的第i个人头中心点坐标，G _σ代表高斯核函数，m代表第m个人，M代表训练图像中包含的人数，δ(x-x _i)表示脉冲函数。其中标签密度图主要用于与后续网络预测的预测密度图进行损失比对，从而指导网络训练。

步骤S02，将所述训练集当中的训练图像输入到所述特征提取模块当中进行特征提取，得到不同阶层的特征图。

其中，特征提取模块具体为能够抽取不同阶层特征的层级结构，使得再将训练图像输入到特征提取模块当中之后，利用特征提取模块当中的层级结构能够抽取出训练图像不同阶层的图像特征，得到不同阶层的特征图。本步骤提取不同阶层的特征图是服务于后续的特征聚合模块，以利于特征聚合模块对不同阶层的特征图进行聚合，以充分利用网络深层的语义信息和网络浅层的细节信息。具体地，所述特征提取模块包括多层特征提取单元，各层所述特征提取单元之间的分辨率大小不同，将所述训练集当中的训练图像输入到所述特征提取模块当中进行特征提取，得到不同阶层的特征图的步骤包括：

将所述训练集当中的训练图像依次输入每一层所述特征提取单元当中进行特征提取，得到每层所述特征提取单元提取的特征图，从而得到所述不同阶层的特征图。

在本实施例当中，如图2所示，特征提取模块具体为Swin Transformer特征提取网络，特征提取模块具体包括四层特征提取单元，四层特征提取单元的分辨率大小从前往后依次为1/4、1/8、1/16和1/32；

其中，将分辨率大小为1/8、1/16和1/32的特征提取单元提取的特征图输入到所述特征聚合模块当中。也即，本发明采用Swin Transformer作为Transformer特征提取网络，Swin Transformer可生成4个不同阶段的特征图，其分辨率大小分别为原图的1/4，1/8，1/16和1/32，本实施例优选保留了后三个阶段的结果，该过程可用公式表示如下：

F _s1=ST _stage1(x);

F _s2=ST _stage2(x);

F _s3=ST _stage3(x);

F _s4=ST _stage4(x);

其中，x代表训练图像中的每个像素点坐标，ST _stagej()表示Swin Transformer在第j阶段得到的特征图，j∈(1,2,3,4) 。本实施例具体将F _s2、F _s3和F _s4，也即Swin Transformer后三个阶段的结果输入到后面的特征聚合模块当中。

步骤S03，将特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图。

其中，本发明实施例为了有效应对人群分布不均匀的问题，在Swin Transformer特征提取网络的后面增设特征聚合模块。特征聚合模块的目的是聚合网络深层的语义信息和网络浅层的细节信息，帮助网络更加精确地定位人群，以更好地应对人群分布不均匀的问题。具体地，将特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图的步骤具体包括：

将预设数量个且由排序在后的特征提取单元提取的特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图，也即将F _s2、F _s3和F _s4输入到特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图。由上一阶段可知，F _s2处于网络的浅层阶段，包含了较多的边缘纹理等细节信息，F _s3和F _s4处于网络深层阶段，其分辨率较小且主要包含了深层语义信息，而网络深层的特征图无法直接通过上采样来恢复细节信息，因此本发明设计了特征聚合模块来逐步聚合网络的深层特征和浅层特征。

具体地，在本实施例当中，特征聚合模块的网络结构如图3所示，特征聚合过程可以通过以下公式来进行描述，也即特征聚合模块的表达式为：

x ^FAM=F _s2 +Conv ₃(up(F _s3+Conv ₃((up(F _s4) ) ) )

式中，F _s2、F _s3和F _s4分别代表分辨率大小为1/8、1/16和1/32的特征提取单元提取的特征图，Conv ₃表示3×3卷积操作，up()表示两倍上采样，x ^FAM表示聚合特征图。通过聚合三个不同阶段的特征图，网络获取了更加丰富的语义信息和细节信息，表征能力得到了提升，可以更好地解决人群分布不均匀问题。

步骤S04，将所述聚合特征图输入到所述多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图。

其中，应当理解的，受拍摄视角、遮挡、人群流动等因素影响，图像当中的人群目标（如人头特征）存在多尺度变化问题。本发明实施例在特征聚合模块的后面进一步增设多尺度感知模块，多尺度感知模块具体是为了更好地应对目标尺度变化问题，增强网络的多尺度感知能力。在具体实施时，优选采用对人头部位进行标记的手段来制作训练集，则多尺度感知模块具体能够更好地应对人头尺度变化问题，增强网络对人头部位的多尺度感知能力。

具体地，在本实施例当中，多尺度感知模块的网络结构如图4所示，包括相互并联的一条第一多尺度感知支路和三条第二多尺度感知支路，第一多尺度感知支路和各第二多尺度感知支路之间采用不同的卷积策略，将所述聚合特征图输入到所述多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图的步骤具体包括：

具体地，第一多尺度感知支路采用单普通卷积策略，第二多尺度感知支路采用普通卷积和空洞卷积串联策略，并且各第二多尺度感知支路之间的普通卷积的卷积核大小以及空洞卷积的空洞率不同，具体地，三条第二多尺度感知支路的普通卷积的卷积核大小分别为1x1、3 x3和5 x5，第一多尺度感知支路采用的单普通卷积的卷积核大小为3 x3；其中，聚合特征图输入到第一多尺度感知支路时执行单普通卷积处理，聚合特征图输入到第一多尺度感知支路时依次执行普通卷积和空洞卷积处理。

也即，本发明采用了一种高效的基于多支路并联的多尺度感知模块方案，该方案其中的三个支路M ₁,M ₂,M ₃则分别使用了不同卷积核大小和不同空洞率（Dilated rate）的串联策略，另外的一个支路M ₀则使用了单个3×3卷积核的策略，具体处理时将M ₁,M ₂,M ₃三者得到的结果X ₁,X ₂,X ₃进行拼接，再将拼接后得到的结果与M ₀支路得到的结果X ₀相加，最终得到了多尺度特征x ^MSAM，整个过程公式化为：

其中,Conv _k表示卷积核大小为k的普通卷积（也称标准卷积），k∈(1, 3,5)，Dconv _p表示卷积核大小为3、空洞率为p的空洞卷积，p∈(1, 3,5)，concat()表示通道拼接操作。经过上述步骤，网络的多尺度感知能力得到了显著增强，在面对人头尺度剧烈变化时可以取得更好的效果。

此外，其中，所述预设降维算法为：

=Conv ₃(Conv ₃(x ^MSAM) )

式中，表示预测密度图，x ^MSAM表示多尺度特征图，Conv ₃表示3×3卷积操作。也即，在得到多尺度特征图x ^MSAM后，还需要采用两个卷积层进行降维并回归得到最终的预测密度图/>。

步骤S05，根据所述预测密度图和对应的训练图像的标签密度图计算模型损失，并根据计算得到的模型损失采用反向传播算法对所述改进的Transformer网络的参数进行更新迭代，从而训练得到所述人群计数模型。

在本实施例当中，具体采用改进的OT损失函数（最优传输损失函数）来计算模型损失，改进的OT损失由三个损失函数加权组合而成，具体而言，其由计数损失、最优传输损失和总变化损失加权组合而成，整个损失函数可表示为：

所述模型损失的计算公式为：

；

其中，；

；

式中，D代表标签密度图，表示预测密度图，‖D‖表示向量化的标签密度图，‖/>‖表示向量化的预测密度图，/>表示计数损失，/>表示向量的L1范式，λ₁和λ₂为权重系数，/>表示最优传输损失，/>表示总变化损失，C表示传输成本矩阵，表示D中像素点i到/>中像素点j的传输成本矩阵，T表示传输矩阵，T _{i, j}表示D中像素点i到/>中像素点j的传输矩阵，U是传输过程中所有可能路径的集合。

也即，本实施例还针对本发明提出的改进的Transformer网络对传统OT损失函数进行改进设计，提出更加适合该改进的Transformer网络的全新损失函数，该全新损失函数综合考虑计数损失、最优传输损失和总变化损失，使得模型训练过程更加稳定，并且能够有效避免模型陷入局部收敛的问题，使得模型训练结果更加可靠性。

综上，本发明上述实施例当中的人群计数模型训练方法，通过提出改进的Transformer网络来训练人群计数模型，具体是新提出了特征聚合模块以及多尺度感知模块，该特征聚合模块能够聚合不同网络深度的特征图，以充分利用网络深层的语义信息和网络浅层的细节信息，帮助网络更加精确地定位人群区域，提升网络的表征能力，以更好地解决人群分布不均匀问题。同时该多尺度感知模块能够增强网络的多尺度感知能力，在面对目标尺度剧烈变化时可以取得更好的感知效果，从而能够有效地解决人群计数场景中人群分布不均匀问题和目标尺度变化问题。

实施例二

本发明实施例二同样提出一种人群计数模型训练方法，所述人群计数模型训练方法可通过软件和/或硬件来实现，本实施例当中的人群计数模型训练方法与实施例一当中的人群计数模型训练方法的不同之处在于：

在获取人群场景图像，并对所述人群场景图像的人群位置进行标注，构建人群计数模型训练用的训练集的步骤之后，还包括：

将训练集当中的训练图像进行同比例缩放，使得训练图像的短边长度不小于256、且长边长度不大于2048，之后再对训练图像进行随机水平翻转、镜像及灰度处理，以对训练图像进行数据增强，提高后续模型训练用的样本丰富性，提高模型可靠性以及训练效率。

实施例三

本发明另一方面还提供一种人群计数模型训练***，请查阅图5，所示为本发明实施例三当中的人群计数模型训练***，所述人群计数模型基于改进的Transformer网络训练得到，所述改进的Transformer网络包括特征提取模块、特征聚合模块以及多尺度感知模块，所述人群计数模型训练***包括：

训练集制作模块11，用于获取人群场景图像，并对所述人群场景图像的人群位置进行标注，构建人群计数模型训练用的训练集，并生成所述训练集当中的每一训练图像对应的标签密度图；

模型训练模块12，用于将所述训练集当中的训练图像输入到所述特征提取模块当中进行特征提取，得到不同阶层的特征图；将特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图；将所述聚合特征图输入到所述多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图；根据所述预测密度图和对应的训练图像的标签密度图计算模型损失，并根据计算得到的模型损失采用反向传播算法对所述改进的Transformer网络的参数进行更新迭代，从而训练得到所述人群计数模型。

进一步地，在本发明一些可选实施例当中，所述特征提取模块包括多层特征提取单元，各层所述特征提取单元之间的分辨率大小不同，所述模型训练模块12还用于将所述训练集当中的训练图像依次输入每一层所述特征提取单元当中进行特征提取，得到每层所述特征提取单元提取的特征图，从而得到所述不同阶层的特征图；将预设数量个且由排序在后的特征提取单元提取的特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图。

进一步地，在本发明一些可选实施例当中，所述特征提取模块包括四层特征提取单元，四层特征提取单元的分辨率大小从前往后依次为1/4、1/8、1/16和1/32；其中，将分辨率大小为1/8、1/16和1/32的特征提取单元提取的特征图输入到所述特征聚合模块当中。

进一步地，在本发明一些可选实施例当中，所述特征聚合模块的表达式为：

x ^FAM=F _s2 +Conv ₃(up(F _s3+Conv ₃((up(F _s4) ) ) )

进一步地，在本发明一些可选实施例当中，所述多尺度感知模块包括相互并联的一条第一多尺度感知支路和多条第二多尺度感知支路，所述第一多尺度感知支路和各所述第二多尺度感知支路之间采用不同的卷积策略，所述模型训练模块12还用于将所述聚合特征图分别输入到所述第一多尺度感知支路和每条所述第二多尺度感知支路进行卷积处理；将所有所述第二多尺度感知支路对所述聚合特征图进行卷积处理后的结果进行拼接，再将拼接结果与所述第一多尺度感知支路对所述聚合特征图进行卷积处理后的结果相加，得到多尺度特征图；采用预设降维算法对所述多尺度特征图进行降维处理，得到所述预测密度图。

进一步地，在本发明一些可选实施例当中，所述第一多尺度感知支路采用单普通卷积策略，所述第二多尺度感知支路采用普通卷积和空洞卷积串联策略，并且各所述第二多尺度感知支路之间的普通卷积的卷积核大小以及空洞卷积的空洞率不同；其中，所述聚合特征图输入到所述第一多尺度感知支路时执行单普通卷积处理，所述聚合特征图输入到所述第一多尺度感知支路时依次执行普通卷积和空洞卷积处理。

进一步地，在本发明一些可选实施例当中，所述第二多尺度感知支路的数量为三条，其对应的普通卷积的卷积核大小分别为1x1、3 x3和5 x5，所述第一多尺度感知支路采用的单普通卷积的卷积核大小为3 x3；

其中，所述预设降维算法为：

=Conv ₃(Conv ₃(x ^MSAM) )

进一步地，在本发明一些可选实施例当中，所述模型损失的计算公式为：

；

其中，；

；

进一步地，在本发明一些可选实施例当中，所述训练集当中的每一训练图像对应的标签密度图的步骤包括：

其中，所述预设转换公式为：

；

上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

本发明还提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的人群计数模型训练方法。

本发明还提出一种人群计数模型训练设备，包括处理器、存储器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的人群计数模型训练方法。

其中，人群计数模型训练设备具体可以是电脑、服务器、摄像装置等等。处理器在一些实施例中可以是中央处理器（Central Processing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器中存储的程序代码或处理数据，例如执行访问限制程序等。

其中，存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器在一些实施例中可以是人群计数模型训练设备的内部存储单元，例如该人群计数模型训练设备的硬盘。存储器在另一些实施例中也可以是人群计数模型训练设备的外部存储装置，例如人群计数模型训练设备上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器还可以既包括人群计数模型训练设备的内部存储单元也包括外部存储装置。存储器不仅可以用于存储安装于人群计数模型训练设备的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种人群计数模型训练方法，其特征在于，所述人群计数模型基于改进的Transformer网络训练得到，所述改进的Transformer网络包括特征提取模块、特征聚合模块以及多尺度感知模块，所述方法包括：

根据所述预测密度图和对应的训练图像的标签密度图计算模型损失，并根据计算得到的模型损失采用反向传播算法对所述改进的Transformer网络的参数进行更新迭代，从而训练得到所述人群计数模型；

其中，所述特征提取模块包括多层特征提取单元，各层所述特征提取单元之间的分辨率大小不同，将所述训练集当中的训练图像输入到所述特征提取模块当中进行特征提取，得到不同阶层的特征图的步骤包括：

将预设数量个且由排序在后的特征提取单元提取的特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图；

其中，所述多尺度感知模块包括相互并联的一条第一多尺度感知支路和多条第二多尺度感知支路，所述第一多尺度感知支路和各所述第二多尺度感知支路之间采用不同的卷积策略，将所述聚合特征图输入到所述多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图的步骤包括：

2.根据权利要求1所述的人群计数模型训练方法，其特征在于，所述特征提取模块包括四层特征提取单元，四层特征提取单元的分辨率大小从前往后依次为1/4、1/8、1/16和1/32；

3.根据权利要求2所述的人群计数模型训练方法，其特征在于，所述特征聚合模块的表达式为：

x ^FAM=F _s2 +Conv ₃(up(F _s3+ Conv ₃((up(F _s4) ) ) )

4.根据权利要求1所述的人群计数模型训练方法，其特征在于，所述第一多尺度感知支路采用单普通卷积策略，所述第二多尺度感知支路采用普通卷积和空洞卷积串联策略，并且各所述第二多尺度感知支路之间的普通卷积的卷积核大小以及空洞卷积的空洞率不同；

5.根据权利要求4所述的人群计数模型训练方法，其特征在于，所述第二多尺度感知支路的数量为三条，其对应的普通卷积的卷积核大小分别为1x1、3 x3和5 x5，所述第一多尺度感知支路采用的单普通卷积的卷积核大小为3 x3；

其中，所述预设降维算法为：

= Conv ₃(Conv ₃(x ^MSAM ) )

6.根据权利要求1所述的人群计数模型训练方法，其特征在于，所述模型损失的计算公式为：

；

其中，；

；

7.根据权利要求1所述的人群计数模型训练方法，其特征在于，所述生成所述训练集当中的每一训练图像对应的标签密度图的步骤包括：

其中，所述预设转换公式为：

；

8.一种人群计数模型训练***，其特征在于，所述人群计数模型基于改进的Transformer网络训练得到，所述改进的Transformer网络包括特征提取模块、特征聚合模块以及多尺度感知模块，所述***包括：

模型训练模块，用于将所述训练集当中的训练图像输入到所述特征提取模块当中进行特征提取，得到不同阶层的特征图；将特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图；将所述聚合特征图输入到所述多尺度感知模块当中进行目标区域的多尺度感知，得到预测密度图；根据所述预测密度图和对应的训练图像的标签密度图计算模型损失，并根据计算得到的模型损失采用反向传播算法对所述改进的Transformer网络的参数进行更新迭代，从而训练得到所述人群计数模型；

其中，所述特征提取模块包括多层特征提取单元，各层所述特征提取单元之间的分辨率大小不同，所述模型训练模块还用于将所述训练集当中的训练图像依次输入每一层所述特征提取单元当中进行特征提取，得到每层所述特征提取单元提取的特征图，从而得到所述不同阶层的特征图；将预设数量个且由排序在后的特征提取单元提取的特征图输入到所述特征聚合模块当中进行网络深层的语义信息和网络浅层的细节信息的聚合，得到聚合特征图；

其中，所述多尺度感知模块包括相互并联的一条第一多尺度感知支路和多条第二多尺度感知支路，所述第一多尺度感知支路和各所述第二多尺度感知支路之间采用不同的卷积策略，所述模型训练模块还用于将所述聚合特征图分别输入到所述第一多尺度感知支路和每条所述第二多尺度感知支路进行卷积处理；将所有所述第二多尺度感知支路对所述聚合特征图进行卷积处理后的结果进行拼接，再将拼接结果与所述第一多尺度感知支路对所述聚合特征图进行卷积处理后的结果相加，得到多尺度特征图；采用预设降维算法对所述多尺度特征图进行降维处理，得到所述预测密度图。