CN117292324A - 一种人群密度估计方法及*** - Google Patents

一种人群密度估计方法及*** Download PDF

Info

Publication number
CN117292324A
CN117292324A CN202311311387.8A CN202311311387A CN117292324A CN 117292324 A CN117292324 A CN 117292324A CN 202311311387 A CN202311311387 A CN 202311311387A CN 117292324 A CN117292324 A CN 117292324A
Authority
CN
China
Prior art keywords
representing
crowd
density
positioning
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311311387.8A
Other languages
English (en)
Inventor
李威
代昌松
吴晓
胡辛
何廷全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202311311387.8A priority Critical patent/CN117292324A/zh
Publication of CN117292324A publication Critical patent/CN117292324A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,公开了一种人群密度估计方法及***,该方法,采用改进的邻近时空感知网络对包括人群的图像进行人群信息分析;其中,人群信息分析包括人群计数和/或人群定位。本发明解决了解决现有技术中人群密度估计存在的准确度较低等问题。

Description

一种人群密度估计方法及***
技术领域
本发明涉及计算机视觉技术领域,具体是一种人群密度估计方法及***。
背景技术
随着城市人口的日益壮大,公共区域的人流量剧增,人群的监控和管理面临着极大的挑战与压力。基于无人机航拍视角的人群密度估计和人群定位的方法,能够帮助有关部门更好地检测各个场所的人群密度,从而有效避免挤压、***件的发生。
基于图像的人群密度估计和人群定位的方法中:
LCOI方法采用MSEA距离函数,通过正则化风险二次损失函数的最小化,来进行密度估计。但是该方法并没有采用深度学习的方式进行人群计数推算。Multi-column CNN方法,采用多组神经网络进行图像中人物特征的检测,每组神经网络分别检测不同大小的人头特征,该方法在实际的检测中会极大地受到检测环境的限制。
在神经网络的卷积层中,不同位置和不同特征之间的图像结构具有不同的统计特性,使用相同的卷积核可能无法充分捕捉到这些特征,因此Switch-CNN采用卷积核组,每个卷积核组包含多个卷积核,并且都有自己的权重参数。在模型训练的过程中,通过一个注意力机制来学习选择使用哪个卷积核,从而进行不同密集程度场景下的人群密度评估。但是该方法在处理同一张图不同区域之间的关联性并不强。
SANet引入尺度聚合机制来改进传统的人群计数方法,旨在解决在不同尺度下计数精度和计算效率之间的权衡问题。但是该方法使用多个网络处理不同尺度的特征,并且不同场景的数据集对尺度的选择也不同,因此该方法无法灵活的选择一个合适的尺度进行模型训练和推理。
HGNN中,利用图神经网络处理人群密集区域中的空间关系,并结合卷积神经网络来捕捉人群的视觉特征。该方法在如何确定节点之间的边界和权重,以及如何处理部分遮挡等问题,需要在实际应用中进行合理的设计和调整。
ConvLSTM-nt,用于视频中人群计数的时空建模方法。该方法通过考虑视频中的时序信息和空间关系,旨在提高人群计数任务的准确性。该方法的主要思想是将视频序列中的每一帧视为一个时间步长,利用时空建模技术来捕捉人群的时序和空间特征。但是在人群计数的任务中,视频中的不同帧可能具有不同数量的人群。这可能导致数据样本不平衡问题。
邻近时空感知网络(STNNet)中,尽管实现了多尺度的检测和多任务的学习,但其采用基于CNN的神经网络,对输入图像的特征提取能力还有待提高。其直接采用MSE进行密度损失函数的计算,忽视了样本分布的问题。
综上所述,在已有的方法中,主要存在以下问题:①无法将同一张图像中不同局部区域的信息相互关联,这对神经网络学习更丰富的目标信息和背景信息至关重要;②神经网络受到限制,无法通过单个神经网络实现多尺度的目标检测;③数据样本分布不均衡导致网络的泛化性较差;④基于CNN的神经网络的性能受到限制。此外,通过无人机进行航拍的图像多数为1K或者2K分辨率的图像,而诸如VGG、ResNet等由CNN搭建的Backbone,要求输入图像为224*224或512*512,若直接将高分辨率的图像进行缩小,会造成大量信息的丢失。
发明内容
为克服现有技术的不足,本发明提供了一种人群密度估计方法及***,解决现有技术中人群密度估计存在的准确度较低等问题。
本发明解决上述问题所采用的技术方案是:
一种人群密度估计方法,采用改进的邻近时空感知网络对包括人群的图像进行人群信息分析;其中,人群信息分析包括人群计数和/或人群定位。
作为一种优选的技术方案,包括以下步骤:
S1,网络模型构建:构建改进的邻近时空感知网络;其中,改进的邻近时空感知网络模型包括骨干网络、颈部、密度图输出头和定位图输出头;
S2,损失函数设置:设置改进的邻近时空感知网络模型的密度损失函数用于人群密度检测,和/或,设置改进的邻近时空感知网络模型的定位损失函数用于人群定位;
S3,人群信息分析:训练改进的邻近时空感知网络模型,采用密度评估指标分析人群密度检测,和/或,采用定位评估指标分析人群定位。
作为一种优选的技术方案,步骤S1中,采用SwinTransformer模型作为改进的邻近时空感知网络模型的骨干网络。
作为一种优选的技术方案,步骤S1中,采用瓶颈复合多尺度先验模块替换原邻近时空感知网络模型FPN结构中的卷积层,以替换后的FPN结构作为改进的邻近时空感知网络模型的颈部。
作为一种优选的技术方案,步骤S2中,密度损失函数为:
其中,表示最优运输损失,/>表示未归一化的真实密度图函数值,/>表示未归一化的预测密度图函数值,|·|1表示对一维特征图的求和,/>表示沃斯特斯坦距离函数,α*表示真实值分布矩阵,β*表示预测值分布矩阵,<·>表示成本矩阵函数,<·>用于衡量两者之间的差值,P和Q表示两个不同的分布,/>表示分布P和分布Q之间的沃斯特斯坦距离,π表示传输计划或矩阵,π指定了从P的每个元素到Q的每个元素应该移动的质量,πi,j表示传输计划的元素,表示从P的第i个元素到Q的第j个元素应该移动的质量,ci,j表示从P的第i个元素到Q的第j个元素的质量成本,minπ表示对传输计划的最小化操作。
作为一种优选的技术方案,步骤S2中,引入总可变损失后的密度损失函数公式为:
其中,表示总可变损失,fTV(·)表示L1范数损失函数,L1Loss表示L1范数损失,i表示当前变量的索引值,n表示总变量数,yi表示第i个真实值,xi表示第i个输入值,f(xi)表示第i个预测值。
作为一种优选的技术方案,步骤S2中,定位损失函数为:
其中,表示定位损失函数,/>表示预测点位置标签,/>表示真实点位置标签,表示预测点偏移量,/>表示真实点偏移量,l表示特征图的层编号,L表示特征图的总层数,i表示横坐标的索引,Vl表示特征图的宽度,j表示纵坐标的索引,Hl表示特征图的高度,表示对预测点和真实点在第l层中(i,j)位置的标签值求分类损失,Sk(i,j,l)表示第l层中(i,j)位置的预测概率值,/>表示对预测点和真实点在第l层中(i,j)位置的偏移量求得的回归损失,/>表示预测点在分类子图第1层中(i,j)位置的标签值,/>表示真实点在分类子图第l层中(i,j)位置的标签值,/>表示预测点在回归子图第l层中(i,j)位置的偏移量,/>表示真实点在回归子图第l层中(i,j)位置的偏移量。
作为一种优选的技术方案,步骤S3中,密度评估指标采用平均绝对误差进行计算,公式为:
其中,MAE表示预测值与真实值之间的平均误差,i表示视频的编号,j表示帧的编号,M表示视频的总数,Ni表示在第i个视频中帧数,Zi,j表示第i个视频第j帧图像中真实人群数量,表示第i个视频第j帧图像中预测人群数量。
作为一种优选的技术方案,步骤S3中,定位评估指标采用如下方法:使用贪婪算法计算不同阈值下每个预测点与每个真实点之间的位置关系。
一种人群密度估计***,用于实现所述的一种人群密度估计方法,包括依次连接的以下模块:
网络模型构建模块:用以,构建改进的邻近时空感知网络;其中,改进的邻近时空感知网络模型包括骨干网络、颈部、密度图输出头和定位图输出头;
损失函数设置模块:用以,设置改进的邻近时空感知网络模型的密度损失函数用于人群密度检测,和/或,设置改进的邻近时空感知网络模型的定位损失函数用于人群定位;
人群信息分析模块:用以,训练改进的邻近时空感知网络模型,采用密度评估指标分析人群密度检测,和/或,采用定位评估指标分析人群定位。
本发明相比于现有技术,具有以下有益效果:
(1)相较于邻近时空感知网络(STNNet)采用VGG作为骨干网络,本发明采用SwinTransformer作为骨干网络,能够更加高效地进行图像特征提取,并能将图像各个局部区域的信息相互关联;
(2)本发明在空间金字塔的特征融合过程中,添加了瓶颈符合多尺度先验模块(BottleNeckCSP),能够实现跨阶段的信息交互,同时降低维度并提升模型对图像的特征的学习能力;
(3)本发明采用最优传输损失(Optimal Transport Loss)和总变量损失(TotalVariable Loss)进行密度损失计算,相较于邻近时空感知网络(STNNet)模型只采用均方根误差(MSE)的密度损失计算,本发明能够更好地衡量真实密度图与预测密度图之间分布的关系,同时总变量损失(Total Variable Loss)能够更好地帮助模型进行反向传播。
附图说明
图1为改进的邻近时空感知网络(STNNet)模型的结构示意图;
图2为图1的局部放大图之一;
图3为图1的局部放大图之二;
图4为图1的局部放大图之三;
图5为DroneCrowd数据集场景下模型预测结果的密度热力图;
图6为DroneCrowd数据集场景下模型预测结果的定位热力图;
图7为DroneCrowd数据集场景下模型预测的定位结果图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图7所示,本申请提供一种无人机航拍视角下人群密度估计的算法,同时提供相应的数据处理方法和模型训练方法,方案如下:
1、基于无人机航拍高像素图像的数据加载方法:解决CNN模型无法对高像素图像进行充分特征提取和特征学习的问题。
2、基于邻近时空感知网络(STNNet)改进的网络模型,能够实现更加高效的特征提取能力、跨阶段信息融合能力和多尺度目标推理能力,使其在检测高像素无人机航拍图像时,表现出更优的性能,详细如下:
(1)将邻近时空感知网络(STNNet)的VGG骨干网络修改为基于SwinTransformer的骨干网络,该方式解决①CNN特征提取能力受限的问题;②不同区域信息交互的问题;③高像素图像造成CNN参数量过大的问题。
(2)基于邻近时空感知网络(STNNet)模型的颈部,引入瓶颈符合多尺度先验模块(BottleNeckCSP)模块,该模块帮助网络模型实现特征的降维和增强以及特征图的初步跨阶段信息传递。
(3)改进邻近时空感知网络(STNNet)的图像金字塔部分,帮助网络模型更好地进行多尺度信息融合,实现对多尺度目标的检测任务。
3、基于邻近时空感知网络(STNNet)的模型优化方式,引入最优传输损失(OptimalTransport Loss)和总变量损失(Total Variable Loss),促进网络学习和参数迭代,解决了邻近时空感知网络方法忽视的样本分布问题。
本发明提供了一种基于SwinTransformer为骨干网络的多尺度残差处理及多尺度特征融合的多任务网络模型,专为无人机航拍场景下的人群密度检测和人群定位而设计。该网络模型具备多项功能,包括实现图像之间的时空信息交互、多尺度人群检测、人群密度推理以及人群定位信息的推理。通过这一多任务网络模型,在无人机航拍应用中可以同时高效处理人群密度检测和人群定位任务,为城市管理和公共安全领域提供有力支持。
本发明基于邻近时空感知网络(STNNet)模型进行改进,并使用无人机航拍图像丰富的DroneCrowd数据集进行评估。主要目标在于增强模型的特征提取能力,实现对图像特征的融合,以及加强不同感受野的信息交互,同时提升多尺度目标检测和人群计数与定位的能力。通过这些改进,我们希望在处理无人机航拍图像中的人群目标时,能够更准确地推理出不同尺度目标的位置和数量信息。因此,本发明的优化旨在使神经网络模型在复杂场景下表现更出色,特别是在涉及到无人机航拍图像的多尺度人群检测与定位任务上。
图1展示了改进的邻近时空感知网络(STNNet)模型的结构,主要包含四个部分:由SwinTransformer构成的骨干网络、进行特征融合的网络颈部部分、密度检测头、定位检测头。
图1中,Patch Partition表示特征图切割模块,这一步是将输入的(H,W,3)的图片分成(4,4)的小块,分块后的图片大小为(H/4,W/4);
Linear Embedding表示线性嵌入模块,将输入特征图划分为多个块,然后对每个块进行线性变换以产生高维特征表示;这种方式有助于模型捕捉不同尺度和级别的图像特征,从而提高了模型的性能;
Patch Merging表示图像块信息整合模块,并实现特征图的降维;
Density_map表示模型输出的密度图,用于人群密度检测;
Classification_map表示分类子图,用于实现人物和背景的分类;
Regression_map表示回归子图,记录人物位置预测的偏移。
图5展示了DroneCrowd数据集场景下模型预测结果的密度热力图,网络模型预测的人群区域,即为聚焦的区域。
图6展示了DroneCrowd数据集场景下模型预测结果的定位热力图,网络模型预测的人群区域,即为聚焦区域。
图7展示了DroneCrowd数据集场景下模型预测的定位结果。其中实心原点表示真实人群点,空心圆圈表示网络预测的图像中每个人的位置信息。
一、网络模型的构建:
网络模型的输入尺寸为[B,3,512,512],其中B表示batch-size(每一批次传入网络模型的样本数量),网络模型由四个部分构成:骨干网络,颈部,密度图输出头,定位图输出头。
1、构建骨干网络:无人机航拍图像像素大、信息丰富、被检测目标尺度层次不齐,因此需要性能优异的网络结构来进行基础特征的提取。在邻近时空感知网络(STNNet)结构中,其骨干网络采用VGG-16模型的阶段2、阶段3、阶段4作为三个尺度的基础特征图,但是诸如VGG这样传统卷积神经网络模型,其参数相较于transformer模型更少,对图像特征提取的能力欠缺,本发明将采用transformer结构替代常规卷积神经网络;另一方面,在处理高像素输入图像时,transformer结构的计算量将成平方级增加。为了同时应对这两个问题,本发明采用SwinTransformer模型对输入的图像进行特征提取,它包含以下几个优点:①SwinTransformer是基于transformer的先进模型,相较于卷积神经网络的骨干网络,它在处理图像时能够更好地捕捉全局上下文信息,并提取更准确的特征;②SwinTransformer使用自注意力模块(self-attention)够有效地建立长程依赖关系,这对处理大尺度图像和捕捉图像中远距离关系非常重要。相比之下,传统卷积神经网络受到感受野的限制,导致处理大图像时性能有所下降;③SwinTransformer采用窗口式注意力机制,它能够在处理图像时保持计算和内存效率;④SwinTransformer采用滑动窗口机制,能够有效地将局部信息和全局信息进行交互,提高模型的学习能力。
在这个过程中,我们主要依赖于其中的多头自注意力结构(multi-head self-attention)和滑动窗口机制(shifted-window)。其中,自注意力模块帮助模型捕捉像素或区域之间的关联性,并自动学习图像中不同区域之间的重要性和关联程度,从而提升对图像的理解能力;滑动窗口帮助模型能够学习到跨窗口的信息。自注意力的计算公式如下:
公式中,Q表示查询矩阵,K表示键矩阵,V表示值矩阵。Q、K、V分别为上一层网络输出的特征图与线性变阵矩阵WQ、WK、WV做点乘求出的可供迭代学***方根,其中d表示Q、K矩阵的列数;softmax表示交叉熵。
由于SwinTransformer为层级式网络结构,因此在本发明中,将SwinTransformer的Stage1、Stange2和Stange3(阶段1、阶段2、和阶段3)的模型推理结果进行输出。当网络模型的输入为[B,3,512,512]的图像时,得到三个不同尺度的特征图,形状分别为[B,192,128,128],[B,384,64,64],[B,768,32,32]。随后对三个特征图进行反卷积和上采样操作,将其形状转变为[B,192,256,256],[B,384,128,128],[B,768,64,64],最终得到三张基础特征图f1,f2和f3。
2、构建模型颈部:本发明通过在邻近时空感知网络(STNNet)模型的颈部部分引入瓶颈复合多尺度先验模块(BottleNeckCSP),实现对不同尺度特征图的信息交互能力的提升,从而增强了模型对不同尺度目标的检测能力。为了验证该模块的有效性,采用了DroneCrowd数据集,该数据集包含无人机航拍图像,其中人群目标的尺度参差不齐。通过引入瓶颈复合多尺度先验模块(BottleNeckCSP),模型能够处理图像特征更加丰富的多尺度目标,包括大目标和小目标的检测,有效提高了检测性能。因此,通过融入无人机航拍图像和图像特征丰富的DroneCrowd数据集,并结合瓶颈复合多尺度先验模块(BottleNeckCSP),本发明成功增强了网络模型在不同尺度目标检测方面的能力。
首先,将提取到的f1,f2,f3输入瓶颈复合多尺度先验模块(BottleNeckCSP),其中的大量残差(Residual)结构帮助实现特征的降维和增强以及特征图的初步跨阶段信息传递,并得到新的特征图f1、f2、f3。当输入残差结构的特征图为x时,其结构可以由以下公式表示:
x1=x
x2=fcnn(x)
Output=factivation(x1+x2)
公式中,x表示输入特征图,x1表示与x相同的特征图,fcnn表示由多个卷积层构成的模块,x2表示将x输入卷积模块后的输出特征图,factivation表示激活函数(如:ReLu,Sigmoid,LekyReLu等等),Output表示Residual结构输出特征图。
在瓶颈复合多尺度先验模块(BottleNeckCSP)中,输入特征图的尺寸与输出特征图的尺寸以及通道数完全相同。随后将f1、f2、f3输入到FPN结构的图像空间金字塔进行特征融合。尺度最小的f3特征图,进行卷积层和上采样层变换为与f2同样的尺度,并与f2进行通道融合得到g2。将得到的g2再次通过卷积层、ReLu层和瓶颈复合多尺度先验模块(BottleNeckCSP)进行特征学习并得到新的g2。新的g2通过上采样层转换为与f1同样的尺度并与f1进行通道融合,最后得到特征图g1。对g1再次通过卷积层、ReLu层和瓶颈复合多尺度先验模块(BottleNeckCSP)进行特征学习并得到新的g1。经过上述一系列操作之后,Neck层输出三个尺度的特征图g1,g2,f3,他们的形状分别为[B,192,256,256],[B,384,128,128],[B,768,64,64]。
3、密度图输出头:该模块对颈部结构输出的特征图g1,g2,f3进行处理,输出三个尺度的单通道密度图,其形状分别为[B,1,256,256],[B,1,128,128],[B,1,64,64]。
4、定位图输出头:在定位输出头中包含两个分支:分类分支、回归分支。在两个分支中都进行同样的特征图处理:首先将颈部输出的特征图g1,g2,f3分别经过输出通道数为2的卷积层得到三张特征图,其形状为[B,2,256,256],[B,2,128,128],[B,2,64,64],并分别进行上采样处理后尺度转变为[B,2,256,256]。最后进行通道融合和卷积处理,输出尺度为[B,2,256,256]的分类特征图和回归特征图,分别记作分类子图(classification-map)和回归子图(regression-map)。在分类特征图的第0维通道,表征检测目标的类别特征,第1维通道表征背景的类别特征。在回归特征图的第0维度通道表征坐标点中x的位置偏移量,第1维通道表征坐标点中y的位置偏移量。
二、损失函数:
(1)密度损失函数:
在邻近时空感知网络(STNNet)中,不同输入图像会产生不同的输出密度图,但可能得出相同的人群计数结果。现有的方法是通过对网络输出的密度图求和得到预测的人群数量,再与真实结果计算均方根误差(MSE)损失。然而,这种方法忽视了每张图像中人群的位置分布信息。为了解决这个问题,本发明采用了DM-Count方法中的密度估计损失函数,该函数由两部分组成:最优传输损失(0ptimal Transport Loss)和总变量损失(TotalVariable Loss)。通过引入这些损失函数,我们能够更好地利用密度图中的位置信息,从而进一步优化人群数量的预测结果。
其中最优传输损失用于衡量两个概率分布之间的损失,它基于最优运输理论,旨在度量将一个分布变换为另一个分布所需的最小成本。在本发明中,两个分布分别为网络预测的密度图和真实坐标点生成的密度图。采用最优传输损失,使网络在迭代过程中产生有效的梯度,并且可以用于匹配预测密度图和真实密度图之间的差异。其公式如下:
公式中,和/>都是未归一化的真实密度图和预测密度图函数值,它们除以各自的总量来将它们转化为概率密度函数。
表示Wassersteindistance(沃斯特斯坦距离),该函数用于衡量两个概率分布之间差异的损失函数。
由于仅仅采用最优传输损失,只在密集场景取得显著的效果,在人群稀疏的场景效果较差,因此引入总变量损失增加模型训练过程中的稳定性,其公式如下:
公式中,和/>都是未归一化的真实密度图和预测密度图函数值;fTV表示绝对误差损失(L1 Loss),用于衡量真实密度图与预测密度图的绝对误差。
(2)定位损失函数:
定位损失函数包含两个部分:分类损失和回归损失。在本发明中,每个预测点都会与真实标注的点进行匹配,如果预测点在真实点的邻近范围内,则将其标记为正样本,并在预测掩码图中将其标记为1,其余的点则被预测为背景,被标记为0。定位损失公式如下:
其中和/>是预测点和真实点在第l层中(i,j)位置的标签值;和/>是预测点和真实点在第l层中(i,j)位置的偏移量。最后使用对数似然损失计算/>使均方根误差(MSE)计算/>并且,/>只针对正向的预测点进行计算。
三、评估指标:
(1)密度评估指标:
密度估计评估指标,采用平均绝对误差(MAF)进行计算。其公式如下:
公式中,yi表示预测值,xi表示真实值。MAE则表示预测值与真实值之间的平均误差。在密度图的预测任务中,神经网络输出的单通道密度图,对每个像素点值的求和即为当前的预测人数。本发明会对一系列的视频帧进行预测和评估,则本发明中的MAE计算公式如下:
公式中,M表示视频帧的总数,Ni表示在第i个视频中帧数,Zi,j分别表示第i个视频第j帧图像中真实人群数量和预测人群数量。
(2)定位评估指标:
人群定位的最终目标,就是为了在每张图像中预测出所有人的定位信息。通过网络模型预测出的分类子图(classification-map),对其进行非极大值抑制(NMS)处理,得到预测的点的坐标和预测点的置信度。此处的NMS与目标检测算法中采用的NMS略有差异。目标检测算法中的NMS将会对每个检测框进行过滤处理,保证每个目标对应到一个预测框的输出;而此处的NMS则是基于像素点的过滤操作,最终将会对每个预测点输出一个定位坐标。由于输出的分类图是双通道的特征图,而第0个通道表示人的类别信息,此处将会对分类图的第0维通道进行NMS过滤。具体的做法则在分类子图(classification-map)第0维通道中,求出每个8*8区域的峰值点的位置信息以及峰值点的值,该值则表示置信度。
其次,使用贪婪算法计算不同阈值下,每个预测点与每个真实点之间的位置关系。将得到的预测点与真实点之间相互关联,该评估指标记作L-AP,平均评估结果记作L-mAP。本发明计算L-AP时,选定了三个具有代表性的阈值[10,15,20],最终的结果记作L-AP@10、L-AP@15、L-AP@20。最后并计算出L-mAP,其表示为由25个阈值计算出L-AP值的平均值,这25个阈值分别为(1,2,3,…25pixels)。
四、性能对比:
本发明使用DroneCrowd数据集进行模型的训练和测试,该数据集包含24000张无人机航拍图像用于训练,以及9600张图像用于测试。通过这个数据集,我们确保本发明提供的网络模型在处理无人机航拍图像时有足够的训练和评估数据,从而提高模型在这一特定领域的性能表现。值得一提的是,邻近时空感知网络(STNNet)是首个基于DroneCrowd数据集进行人群密度估计和定位的网络模型。因此,在验证本发明的所有评估指标时,我们都以邻近时空感知网络(STNNet)在DroneCrowd数据集上的评估结果为基准进行对比。
(1)平均绝对误差(MAE)结果的对比:
当网络模型只包含密度检测头时,基于MAE指标,所有场景的密度评估结果相较于邻近时空感知网络(STNNet),提升了3.23;大目标场景提升7.73,小目标场景降低0.02,阴天场景提升5.11,晴天场景提升6.63,夜间场景降低10.31,拥挤场景提升8.21,稀疏场景提升0.07。
当网络模型同时包含密度检测头和定位检测头时,所有场景的密度评估指标相较于邻近时空感知网络(STNNet),提升了5.62;大目标场景提升6.05,小目标场景提升5.29,阴天场景提升6.92,晴天场景提升5.32,夜间场景提升2.62,拥挤场景提升7.69,稀疏场景提升4.51。
(2)L-AP结果的对比:
定位评估指标相较于邻近时空感知网络(STNNet),当网络模型只包含密度检测头时,L-mAP提升了1.8,L-AP@10提升3.37,L-AP@15降低0.95,L-AP@20提升0.64;当网络模型同时包含密度检测头和定位检测头时,L-mAP提升了9.62,L-AP@10提升11.23,L-AP@15提升12.94,L-AP@20提升13.09。
通过本发明提出的网络模型与STNNet模型在DroneCrowd数据集的对比结果,反映了本发明的先进性和可行性。
分析原因,本发明主要有以下几个方面的优势:
(1)相较于邻近时空感知网络(STNNet)采用VGG作为骨干网络,本发明采用SwinTransformer作为骨干网络,能够更加高效地进行图像特征提取,并能将图像各个局部区域的信息相互关联;
(2)本发明在空间金字塔的特征融合过程中,添加了瓶颈复合多尺度先验模块(BottleNeckCSP),能够实现跨阶段的信息交互,同时降低维度并提升模型对图像的特征的学习能力;
(3)本发明采用OT Loss和TV Loss进行密度损失计算,相较于邻近时空感知网络(STNNet)模型只采用MSE的密度损失计算,本发明能够更好地衡量真实密度图与预测密度图之间分布的关系,同时TV Loss能够更好地帮助模型进行反向传播。
实施例2
如图1至图7所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
本发明涉及计算机视觉技术领域,提供了一种创新的方法,用于解决无人机航拍图像中的人群密度估计和定位的难题。传统方法在复杂场景和变化光照条件下存在限制,需要更高效和准确的解决方案。本发明旨在改进邻近时空感知网络(STNNet)模型,改进后的网络模型包含骨干网络、颈部、密度检测头、定位检测头四个部分。本发明的关键创新点包括以下几个方面:
(1)采用SwinTransformer作为骨干网络,代替了原来的VGG骨干网络,以解决卷积神经网络在感受野和特征提取方面的限制。
(2)引入瓶颈复合多尺度先验模块(BottleNeckCSP),取代了传统网络中的普通卷积操作,帮助网络模型实现特征的降维和增强以及特征图的初步跨阶段信息传递。
(3)采用最优传输损失(Optimal Transport Loss)和总变量损失(TotalVariation Loss)作为密度估计的损失函数,解决了传统的均方根误差损失(MSE Loss)在忽视样本分布方面的问题,并提高了网络模型处理人群稀疏场景的稳定性。
通过改进后的网络模型,在DroneCrowd数据集上进行了实验证明,本方法实现了更出色的效果和更高的准确性。
综上所述,本发明提供了一种基于SwinTransformer为骨干网络的多尺度残差处理及多尺度特征融合的多任务网络模型,专为无人机航拍场景下的人群密度检测和人群定位而设计。该网络模型具备多项功能,包括实现图像之间的时空信息交互、多尺度人群检测、人群密度推理以及人群定位信息的推理。通过这一多任务网络模型,在无人机航拍应用中可以同时高效处理人群密度检测和人群定位任务,为城市管理和公共安全领域提供有力支持。
一、数据加载方式:
1、标注数据预处理:
本发明基于DroneCrowd数据集进行模型的训练、验证和测试。DroneCrowd数据集中,每张图像的像素为1920*1080,其中的人群位置则通过标注每个人头部的中心点坐标来表示。基于已标注的人物坐标信息,需要创建真实点的回归图和密度图。
①真实回归图创建:
本发明使用每张图的真实点坐标(x,y)作为基础,并为每个坐标点创建了一系列偏移量。对于每个点坐标(x,y),本发明共生成了12个相对偏移点,分别为:
(x-5,y),(x一3,y),(x-1,y),(x+1,y),(x+3,y),(x+5,y),(x,y-5),(x,y-3),(x,y-1),(x,y+1),(x,y+3),(x,y+5),其他坐标点的值则设为(0,0)。基于原图尺寸创建出的回归图,对这些点的值和坐标进行等比例缩放,分别生成了原图大小1/2、1/4、1/8的单通道回归图,它们的形状分别为(960,540),(480,270),(240,135)。
②真实密度图创建:
对于真实密度图的创建,本发明根据每张图中人群真实坐标点,将其进行等比例缩放为原坐标尺寸的1/2、1/4、1/8,并创建原图1/2、1/4、1/8大小的全0的单通道图,其形状分别为(960,540),(480,270),(240,135)。根据对应缩放尺寸的坐标和全0单通道图,将坐标点处的值修改1,而其他位置的值则为0。
最后,本发明将生成的三个尺度的回归图和密度图分别缩放为(512,512),(256,256),(128,128)的形状。
2、数据增强:
在模型训练过程中,本发明采用两种数据增强的方式,以丰富原数据集并提升模型的鲁棒性。每次进行模型迭代时,随机选择其中一种方式作为本次迭代的数据增强方式,以下是两种方式的详细描述:
①随机裁剪与缩放:在这种数据增强方式下,每次模型迭代开始时,本发明会随机裁剪出原图大小的1/4部分,即(960,540)的区域,并将其缩放为(512,512)的形状,作为神经网络模型的输入。同时,为了保持数据的一致性,本发明会按照相同的比例和位置在回归图和密度图中进行裁剪,以确保输入数据与原始图像区域的对应关系。
②分割与随机选择:在这种数据增强方式下,本发明将原图以及对应的回归图和密度图划分为2*2的四个部分,每个部分的原尺寸为(960,540)。在每次模型迭代中,本发明会随机选择其中的一个部分,并将其缩放为(512,512)的尺寸作为网络模型的输入。通过这种方式,模型可以学习不同图像区域的特征和细节,增强模型对不同场景和人群密度分布的适应能力。
通过采用这两种数据增强方式,本发明能够为模型提供更多样化、丰富的训练数据。每次模型迭代都会随机选择其中一种方式,使得模型能够在不同数据变换下进行训练,提高了模型对各种场景的泛化能力和鲁棒性。这样,模型能够更好地应对各种尺度、位置和人群密度的图像,提高了模型在实际应用中的性能。
二、模型训练:
1、获取DroneCrowd数据集,并获取每张图像对应的标签,并创建每张图像对应的真实密度图、真实回归图。
2、按照本发明提供的数据加载方法进行数据集及其标签的处理和加载。在模型训练的过程中,选取DroneCrowd数据集中的24000张训练集传入网络进行训练。
3、通过模型的输出结果,根据本发明提出的密度损失和定位损失,进行损失值的计算,并进行参数的反向传播和梯度下降,反复迭代模型的所有参数。
4、模型每次迭代的过程中都会对测试集进行测试。当模型在测试集中出现过拟合情况即可停止模型的训练,并选取在测试集中表现最好的模型作为最终的模型结果。
此外,模型训练过程中,采用带动量的随机梯度下降算法(Adam)作为模型的优化策略,学习率为1e,权重衰减为1e;同时采用余弦退火调整模型训练过程中的学习率,余弦退火的重启周期设置为50;模型训练周期为60;模型训练采用RTX Guadro 6000显卡,每张显卡的batch-size设置为4。
三、结果测试:
基于DroneCrowd数据集,每次输入网络模型的图像均为原图像的1/4的区域。因此在测试中,将原图像裁剪为2*2的四部分,并将每个部分依次输入到模型进行结果的预测,每张图像的预测结果,即为四个部分结果的累加。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (10)

1.一种人群密度估计方法,其特征在于,采用改进的邻近时空感知网络对包括人群的图像进行人群信息分析;其中,人群信息分析包括人群密度检测和/或人群定位。
2.根据权利要求1所述的一种人群密度估计方法,其特征在于,包括以下步骤:
S1,网络模型构建:构建改进的邻近时空感知网络;其中,改进的邻近时空感知网络模型包括骨干网络、颈部、密度图输出头和定位图输出头;
S2,损失函数设置:设置改进的邻近时空感知网络模型的密度损失函数用于人群密度检测,和/或,设置改进的邻近时空感知网络模型的定位损失函数用于人群定位;
S3,人群信息分析:训练改进的邻近时空感知网络模型,采用密度评估指标分析人群密度检测,和/或,采用定位评估指标分析人群定位。
3.根据权利要求2所述的一种人群密度估计方法,其特征在于,步骤S1中,采用SwinTransformer模型作为改进的邻近时空感知网络模型的骨干网络。
4.根据权利要求3所述的一种人群密度估计方法,其特征在于,步骤S1中,采用瓶颈复合多尺度先验模块替换原邻近时空感知网络模型FPN结构中的卷积层,以替换后的FPN结构作为改进的邻近时空感知网络模型的颈部。
5.根据权利要求2所述的一种人群密度估计方法,其特征在于,步骤S2中,密度损失函数为:
其中,表示最优运输损失,/>表示未归一化的真实密度图函数值,/>表示未归一化的预测密度图函数值,|·|1表示对一维特征图的求和,/>表示沃斯特斯坦距离函数,α*表示真实值分布矩阵,β*表示预测值分布矩阵,<·>表示成本矩阵函数,<·>用于衡量两者之间的差值,P和Q表示两个不同的分布,/>表示分布P和分布Q之间的沃斯特斯坦距离,π表示传输计划或矩阵,π指定了从P的每个元素到Q的每个元素应该移动的质量,πi,j表示传输计划的元素,表示从P的第i个元素到Q的第j个元素应该移动的质量,ci,j表示从P的第i个元素到Q的第j个元素的质量成本,minπ表示对传输计划的最小化操作。
6.根据权利要求2所述的一种人群密度估计方法,其特征在于,步骤S2中,引入总可变损失后的密度损失函数公式为:
其中,表示总可变损失,fTV(·)表示L1范数损失函数,L1Loss表示L1范数损失,i表示当前变量的索引值,n表示总变量数,yi表示第i个真实值,xi表示第i个输入值,f(xi)表示第i个预测值。
7.根据权利要求2所述的一种人群密度估计方法,其特征在于,步骤S2中,定位损失函数为:
其中,表示定位损失函数,/>表示预测点位置标签,/>表示真实点位置标签,/>表示预测点偏移量,/>表示真实点偏移量,l表示特征图的层编号,L表示特征图的总层数,i表示横坐标的索引,Wl表示特征图的宽度,j表示纵坐标的索引,Hl表示特征图的高度,表示对预测点和真实点在第l层中(i,j)位置的标签值求分类损失,Sk(i,j,l)表示第l层中(i,j)位置的预测概率值,/>表示对预测点和真实点在第l层中(i,j)位置的偏移量求得的回归损失,/>表示预测点在分类子图第l层中(i,j)位置的标签值,/>表示真实点在分类子图第l层中(i,j)位置的标签值,/>表示预测点在回归子图第l层中(i,j)位置的偏移量,/>表示真实点在回归子图第l层中(i,j)位置的偏移量。
8.根据权利要求2所述的一种人群密度估计方法,其特征在于,步骤S3中,密度评估指标采用平均绝对误差进行计算,公式为:
其中,MAE表示预测值与真实值之间的平均误差,i表示视频的编号,j表示帧的编号,M表示视频的总数,Ni表示在第i个视频中帧数,Zi,j表示第i个视频第j帧图像中真实人群数量,表示第i个视频第j帧图像中预测人群数量。
9.根据权利要求2所述的一种人群密度估计方法,其特征在于,步骤S3中,定位评估指标采用如下方法:使用贪婪算法计算不同阈值下每个预测点与每个真实点之间的位置关系。
10.一种人群密度估计***,其特征在于,用于实现权利要求1至9任一项所述的一种人群密度估计方法,包括依次连接的以下模块:
网络模型构建模块:用以,构建改进的邻近时空感知网络;其中,改进的邻近时空感知网络模型包括骨干网络、颈部、密度图输出头和定位图输出头;
损失函数设置模块:用以,设置改进的邻近时空感知网络模型的密度损失函数用于人群密度检测,和/或,设置改进的邻近时空感知网络模型的定位损失函数用于人群定位;
人群信息分析模块:用以,训练改进的邻近时空感知网络模型,采用密度评估指标分析人群密度检测,和/或,采用定位评估指标分析人群定位。
CN202311311387.8A 2023-10-10 2023-10-10 一种人群密度估计方法及*** Pending CN117292324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311311387.8A CN117292324A (zh) 2023-10-10 2023-10-10 一种人群密度估计方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311311387.8A CN117292324A (zh) 2023-10-10 2023-10-10 一种人群密度估计方法及***

Publications (1)

Publication Number Publication Date
CN117292324A true CN117292324A (zh) 2023-12-26

Family

ID=89256956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311311387.8A Pending CN117292324A (zh) 2023-10-10 2023-10-10 一种人群密度估计方法及***

Country Status (1)

Country Link
CN (1) CN117292324A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710869A (zh) * 2024-02-05 2024-03-15 沈阳二一三电子科技有限公司 一种基于深度信息的人流统计方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710869A (zh) * 2024-02-05 2024-03-15 沈阳二一三电子科技有限公司 一种基于深度信息的人流统计方法

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN109241913B (zh) 结合显著性检测和深度学习的船只检测方法及***
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN108764085B (zh) 基于生成对抗网络的人群计数方法
CN112801018B (zh) 一种跨场景目标自动识别与追踪方法及应用
CN113139489B (zh) 基于背景提取和多尺度融合网络的人群计数方法及***
CN106780639B (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN114120361B (zh) 一种基于编解码结构的人群计数定位方法
CN114627502A (zh) 一种基于改进YOLOv5的目标识别检测方法
CN117292324A (zh) 一种人群密度估计方法及***
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN111798490B (zh) 一种视频sar车辆目标检测方法
CN113706481A (zh) ***质量检测方法、装置、计算机设备和存储介质
CN117830788B (zh) 一种多源信息融合的图像目标检测方法
CN115527133A (zh) 一种基于目标密度信息的高分图像背景优化方法
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN113971783A (zh) 一种基于yolov5算法的管制刀具检测模型
CN113989718A (zh) 面向雷达信号热图的人体目标检测方法
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN117218545A (zh) 基于LBP特征与改进Yolov5的雷达图像检测方法
CN112270289A (zh) 一种基于图卷积注意力网络的智能监测方法
CN112232236A (zh) 行人流量的监测方法、***、计算机设备和存储介质
CN115953736A (zh) 一种基于视频监控与深度神经网络的人群密度估计方法
CN116403237A (zh) 一种基于关联信息与注意力机制的遮挡行人重识别方法
CN115527105A (zh) 一种基于多尺度特征学习的水下目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination