CN115019211A - 面向无人机航拍图像的分割引导注意力群体计数方法 - Google Patents

面向无人机航拍图像的分割引导注意力群体计数方法 Download PDF

Info

Publication number
CN115019211A
CN115019211A CN202210740932.4A CN202210740932A CN115019211A CN 115019211 A CN115019211 A CN 115019211A CN 202210740932 A CN202210740932 A CN 202210740932A CN 115019211 A CN115019211 A CN 115019211A
Authority
CN
China
Prior art keywords
convolution
branch
features
channels
input features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210740932.4A
Other languages
English (en)
Inventor
范哲意
宋梓豪
吴迪
朱艺璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202210740932.4A priority Critical patent/CN115019211A/zh
Publication of CN115019211A publication Critical patent/CN115019211A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种面向无人机航拍图像的分割引导注意力群体计数方法,所述方法包括:获取包括训练集和测试集在内的图像集;对训练集中的图像进行预处理;将经过预处理的图像输入网络,训练网络,直至网络拟合,训练后的网络输出图像的密度图和分割图,所述网络包括卷积块,Inception级联模块、上采样器、浅层分割引导注意力模块、深层分割引导注意力模块以及第一和第二加法器;以及根据网络输出的密度图,将密度图的像素值求和得到图像中的群体计数。

Description

面向无人机航拍图像的分割引导注意力群体计数方法
技术领域
本发明涉及一种图像处理技术,更具体地,涉及一种面向无人机航拍图像的分割引导注意力群体计数方法。
背景技术
随着城镇化进程的推进以及智慧城市的建设,城市中人口快速增长,大规模的群体活动也越来越多。当人群密度过高时,容易引起人群拥挤,甚至发***事件,引发严重的安全事故。近年来,随着无人机市场的不断扩大和日渐普及,利用无人机从空中完成对人群行为的分析与预测逐渐成为安防的重要手段之一。该技术利用从视频帧图像中提取的特征来预估当前场景人数。
传统的人群密度估计算法可以被分为三类:检测法,回归法和基于密度估计的方法。基于检测的方法通常采用滑动窗口来遍历整幅图像,逐步使用滑动窗口检测窗口中的人群,将所有窗口的检测结果相加得到计数结果。但当人群有较严重的遮挡或背景复杂时,基于检测的人群计数算法无法得到准确的结果。基于回归的方法不逐个检测和定位每个个体,而是通过映射人工设计的特征和最终计数结果的关系来完成计数。由于基于回归的方法只给出了最终计数结果,并不能准确反映人群在场景中的分布,空间信息的忽视导致了其不足以支撑实际应用。基于密度估计的方法则通过学习特征与密度图之间的映射关系实现计数,但由于提取的特征不充分以及映射关系复杂多样,使得最终效果欠佳。
随着深度学习的飞速发展,卷积神经网络凭借其对图像特征的出色学习能力,已被广泛应用于图像分类,目标检测等计算机视觉领域,也在群体计数表现出独特优势。
虽然深度学习给人群计数带来很大发展,但仍然存在一些尚未解决的问题,例如复杂背景对人群的遮挡干扰。由于近大远小的视觉特性,无人机在空中拍摄图片时,同一场景下相邻的人会发生互相遮挡,甚至会被其他建筑或物品遮挡,造成最终计数结果不准确,影响最终效果。人群附近的背景像素噪声也会干扰模型提取特征,导致发生误判,影响计数准确性。
因此,需要一种高效且准确的群体计数方法。
发明内容
本发明是为了解决上述问题而提出的,其目的在于提供一种面向无人机航拍图像的分割引导注意力群体计数方法。
为了达到上述发明目的,根据本发明的一方面,提供一种面向无人机航拍图像的分割引导注意力群体计数方法,所述方法包括:获取包括训练集和测试集在内的图像集;对训练集中的图像进行预处理;将预处理后的图像输入网络,训练网络,直至网络拟合,训练后的网络输出图像的密度图和分割图,所述网络包括卷积块,Inception级联模块、上采样器、浅层分割引导注意力模块、深层分割引导注意力模块以及第一和第二加法器;以及根据网络输出的密度图,将密度图的像素值求和得到图像中的群体计数。
训练网络的步骤包括:
卷积块将预处理后的图像处理为特征F1,F1的通道数为768;
将特征F1分别输入Inception级联模块和浅层分割引导注意力模块,分别得到特征F2,S1和D1,特征F2的通道数为2048,S1的通道数为1,特征D1的通道数为1;
通过上采样器对得到的特征F2进行上采样,上采样后的特征的尺寸变为特征F2的两倍,然后将上采样后的特征F2输入深层分割引导注意力模块,分别得到特征S2和D2,特征S2和特征D2的通道数分别为1和1;
通过第一加法器将得到的特征S1和S2加权求和,最终得到与输入图像尺寸相同的预测分割图;
通过第二加法器将得到的特征D1和D2加权求和,最终得到与输入图像尺寸相同的预测密度图;
通过调整特征S1和S2以及特征D1和D2的权重以使最小化损失函数,直至网络拟合,
损失函数为:
Figure BDA0003717956450000021
Figure BDA0003717956450000022
表示密度图损失,如式(2),
Figure BDA0003717956450000023
其中
Figure BDA0003717956450000031
表示生成的第i张输入图像Xi对应的预测密度图,θ表示整个网络可训练的参数,Di表示图像Xi的真值密度图,N是训练样本数,
Figure BDA0003717956450000032
表示分割图损失,如式(3),
Figure BDA0003717956450000033
Figure BDA0003717956450000034
其中
Figure BDA0003717956450000035
表示生成的第i张输入图像Xi对应的预测分割图,Wi表示真值分割图,Hi(j,k)构成交叉熵损失矩阵H,(j,k)是预测分割图里的每个点的坐标,⊙表示逐元素乘法。
卷积块包括5个卷积层、第一至第三InceptionA、InceptionB以及第一至第四InceptionC。
5个卷积层分别是:
Conv:3×3,32;
Conv:3×3,32;
Conv:3×3,64;
Conv:3×3,80;
Conv:3×3,192;
其中,Conv为卷积,3×3,32表示卷积核大小为3×3,输出特征的通道数为32;3×3,64表示卷积核大小为3×3,输出特征的通道数为64,3×3,80表示卷积核大小为3×3,输出特征的通道数为80,3×3,192表示卷积核大小为3×3,输出特征的通道数为192;
InceptionA:将输入特征复制4份,将其分别送入4条分支,从左到右,分支A1对输入特征进行1×1卷积;分支A2对输入特征先进行1×1卷积再进行5×5卷积;分支A3对输入特征首先进行1×1卷积,再进行两次3×3卷积;分支A4对输入特征先进行池化操作再进行1×1卷积,最后将4个分支的所有输出按照通道联接,作为最终输出特征,其通道数为288;
InceptionB:将输入特征复制3份,将其分别送入3条分支,从左到右,分支B1对输入特征进行3×3卷积;分支B2对输入特征首先进行1×1卷积,再进行两次3×3卷积;分支B3对输入特征进行池化操作,最后将3个分支的所有输出按照通道联接,作为最终输出特征,其通道数为768;
InceptionC:将输入特征复制4份,将其分别送入4条分支,从左到右,分支C1对输入特征进行1×1卷积;分支C2对输入先进行1×1卷积再进行深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成;分支C3对输入特征首先进行1×1卷积,再进行两次深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成;分支C4对输入特征进行池化操作再进行1×1卷积;最后将4个分支的所有输出按照通道联接,作为最终输出特征,其通道数为768。
Inception级联模块包括InceptionD以及InceptionE,
InceptionD:将输入特征复制3份,将其分别送入3条分支,从左到右,分支D1对输入特征先进行1×1卷积,再进行3×3卷积;分支D2对输入特征首先进行1×1卷积,再进行深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成,最后进行3×3卷积;分支D3对输入特征进行池化操作,最后将3个分支的所有输出按照通道联接,作为最终输出特征,其通道数为1280;
InceptionE:将输入特征复制4份,将其分别送入4条分支,从左到右,分支E1对输入特征先进行1×1和3×3卷积,然后经过两个并行的卷积,分别为1×3和3×1卷积;分支E2对输入特征先进行1×1卷积再经过两个并行的卷积,分别为1×3和3×1卷积;分支E3对输入特征首先进行池化操作然后进行1×1卷积;分支E4对输入特征进行1×1卷积;最后将4个分支的所有输出按照通道联接,作为最终输出特征F2,其通道数为2048。
浅层分割引导注意力模块包括注意力分支和人群计数分支,
注意力分支包括:
卷积层Conv:1×1,1,Conv为卷积,1×1,1表示卷积核大小为1×1,输出特征的通道数为1;
Sigmoid函数;
人群计数分支包括:
InceptionC,输出特征的通道数为2048;
乘法器,逐像素相乘;
卷积层Conv:1×1,1。
深层分割引导注意力模块同样包括注意力分支和人群计数分支。
对训练集中的图像进行预处理包括:限制图像的高和宽,使其能够被8整除,以及将对训练集中的图像进行随机翻转操作之后的图像加入训练集,使得训练集的图像数量增加。
根据本发明的另一方面,提供一种在计算机存储介质上编码的计算机程序产品,包括指令,当指令由一个或多个计算机执行时,将使一个或多个计算机执行上述方法。
附图说明
图1示出根据本公开的实施例的面向无人机航拍图像的分割引导注意力群体计数方法的流程图;
图2示出根据本公开的实施例的网络结构图;
图3示出InceptionA~E结构图;
图4示出根据本公开的实施例的浅层分割引导注意力模块的示意图;
图5示出根据本公开的实施例的深层分割引导注意力模块的示意图;以及
图6中示出根据本公开方法获得的4幅图像的测试结果。
具体实施方式
下面,参照附图,对本公开的实施例进行说明。在附图中,对于相同或对应的结构要素使用相同的附图标记。此外,在以下实施例的说明中,可以省略对相同或对应的结构要素的重复描述。但是,即使省略对结构要素的描述,也不意味着那些结构要素并不包括在某实施例中。
虽然在本说明书中图示的流程图中对过程步骤、方法步骤及算法等按顺序进行了说明,但这些过程、方法及算法可被设置为以任意适合的顺序进行操作。换言之,在本公开的多种实施例中说明的过程、方法步及算法的步骤无需按本公开中描述的顺序执行。
此外,即使部分步骤被说明为非同时执行,但在其他实施例中这些部分步骤也可以同时执行。此外,通过附图描述的过程的示例并不表示例示出的过程排除对它的其他变化和修改,并且不表示例示出的过程或其步骤中的任一项在本公开的多种实施例中的一个以上的实施例中必不可少的,不表示例示出的过程是优选的。
图1示出根据本公开的实施例的面向无人机航拍图像的分割引导注意力群体计数方法的流程图。
在步骤S101,获取数据集,在获取数据集步骤中,首先下载公开数据集,公开数据集中包括已分好的训练集和测试集,训练集和测试集互相独立,且均为公开数据集的子集。
然后,在步骤S102,对训练集中的图像进行预处理。通过对训练集中的图像进行预处理,能够使图像数据更好的适应于本公开的网络,并在一定程度上降低算法的计算成本。
在对图像进行预处理步骤中,首先限制图像的高和宽,使其能够被8整除。这样能够保证图像进入本公开的网络中用于进行降采样操作的层(Maxpool层)之后的输出的正确性。然后从每个图像中减去整个数据集的平均图像并归一化,以保证每个像素值都落在[0,1]中。
为了扩展训练集中的图像数量,需要对训练集中的图像进行随机翻转操作。将对训练集中的图像进行随机翻转操作之后的图像加入训练集,使得训练集的图像数量增加。
在步骤S102对训练集中的图像进行预处理之后,进入步骤S103,选取训练集中的一批图像,将选取的图像输入网络,对网络进行训练直至网络拟合。
本方法采用图像裁剪的训练方式,将训练集的图像Xi随机裁剪成8个128×128大小的像素块,使得网络输入更加多样化,有助于缓解过拟合问题。
将经过剪裁的图像Xi输入图2所示的网络。具体地,参照图2的网络结构图对训练网络的处理进行描述。如图2所示,整个网络主要包括:卷积块,Inception级联模块、上采样器、浅层分割引导注意力模块、深层分割引导注意力模块以及2个加法器。
8个128×128大小的像素块首先输入卷积块,因为训练集中的图像是RGB图像,所以输入的通道数为3。图像通过卷积块得到特征F1,F1的通道数为768。
卷积块包括5个卷积层、第一至第三InceptionA、InceptionB以及第一至第四InceptionC。
5个卷积层分别是:
Conv:3×3,32;
Conv:3×3,32;
Conv:3×3,64;
Conv:3×3,80;
Conv:3×3,192;
其中,在Conv:3×3,32中,Conv为卷积,3×3,32表示卷积核大小为3×3,输出特征的通道数为32;在Conv:3×3,64中,Conv为卷积,3×3,64表示卷积核大小为3×3,输出特征的通道数为64;在Conv:3×3,80中,Conv为卷积,3×3,80表示卷积核大小为3×3,输出特征的通道数为80;在Conv:3×3,192中,Conv为卷积,3×3,192表示卷积核大小为3×3,输出特征的通道数为192。
InceptionA、InceptionB和InceptionC的结构如图3所示。InceptionA的输出特征图通道数为288;InceptionB的输出特征图通道数为768;InceptionC的输出特征图通道数为768。
InceptionA:将输入特征复制4份,将其分别送入4条分支,从左到右,分支A1对输入特征进行1×1卷积;分支A2对输入特征先进行1×1卷积再进行5×5卷积;分支A3对输入特征首先进行1×1卷积,再进行两次3×3卷积;分支A4对输入特征先进行池化操作再进行1×1卷积,最后将4个分支的所有输出按照通道联接,作为最终输出特征,其通道数为288。
InceptionB:将输入特征复制3份,将其分别送入3条分支,从左到右,分支B1对输入特征进行3×3卷积;分支B2对输入特征首先进行1×1卷积,再进行两次3×3卷积;分支B3对输入特征进行池化操作,最后将3个分支的所有输出按照通道联接,作为最终输出特征,其通道数为768。
第一至第四InceptionC结构相同,在图3中共同表示为InceptionC。
InceptionC:将输入特征复制4份,将其分别送入4条分支,从左到右,分支C1对输入特征进行1×1卷积;分支C2对输入先进行1×1卷积再进行深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成;分支C3对输入特征首先进行1×1卷积,再进行两次深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成;分支C4对输入特征进行池化操作再进行1×1卷积;最后将4个分支的所有输出按照通道联接,作为最终输出特征,其通道数为768。
将通过卷积块得到的特征F1分别输入Inception级联模块和浅层分割引导注意力模块,分别得到特征F2,S1和D1,特征F2的通道数为2048,特征S1的通道数为1,特征D1的通道数为1。
Inception级联模块包括InceptionD以及InceptionE。InceptionD的输出特征图通道数为1280;InceptionE的输出特征通道数为2048。
InceptionD:将输入特征复制3份,将其分别送入3条分支,从左到右,分支D1对输入特征先进行1×1卷积,再进行3×3卷积;分支D2对输入特征首先进行1×1卷积,再进行深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成,最后进行3×3卷积;分支D3对输入特征进行池化操,最后将3个分支的所有输出按照通道联接,作为最终输出特征,其通道数为1280。
InceptionE:将输入特征复制4份,将其分别送入4条分支,从左到右,分支E1对输入特征先进行1×1和3×3卷积,然后经过两个并行的卷积,分别为1×3和3×1卷积;分支E2对输入特征先进行1×1卷积再经过两个并行的卷积,分别为1×3和3×1卷积;分支E3对输入特征首先进行池化操作然后进行1×1卷积;分支E4对输入特征进行1×1卷积;最后将4个分支的所有输出按照通道联接,作为最终输出特征F2,其通道数为2048。
特征F1通过Inception级联模块的处理之后得到特征F2,F2的通道数为2048。
另一侧,通过卷积块得到的特征F1输入浅层分割引导注意力模块。
浅层分割引导注意力模块如图4所示,浅层分割引导注意力模块包括注意力分支和人群计数分支。
注意力分支包括:
卷积层Conv:1×1,1,在Conv:1×1,1中,Conv为卷积,1×1,1表示卷积核大小为1×1,输出特征的通道数为1;
Sigmoid函数;
人群计数分支包括:
InceptionC,输出特征的通道数为2048;
乘法器,逐像素相乘;
卷积层Conv:1×1,1,在Conv:1×1,1中,Conv为卷积,1×1,1表示卷积核大小为1×1,输出特征的通道数为1。
在浅层分割引导注意力模块中,利用分割真值图来监督注意力分支中注意力图的学习,利用密度真值图来监督人群计数分支中密度估计图的学习。常规的注意力机制计算复杂度高且需要有3个输入,为了提高运算效率的同时满足分割任务的动态预测特性,本算法只利用1个输入特征,生成预测分割图,受真值分割图监督更新。
浅层分割引导注意力模块的处理如下:
特征F1被输入到注意力分支,特征F1的通道数为768,通过卷积核(Conv:1×1,1),再经过Sigmoid函数,输出特征S1,特征S1的值都在0到1之间,通道数为1;
特征F1也被输入到人群计数分支,特征F1的通道数为768,通过InceptionC得到特征V1,特征V1的通道数为2048,将得到的特征V1与注意力分支输出的特征S1逐像素相乘,得到特征M1,特征M1的通道数为2048,将M1通过卷积核(Conv:1×1,1)得到特征D1,通道数为1,尺寸与F1相同。
将得到的特征F2进行上采样,上采样后的特征的尺寸变为特征F2的两倍,然后将上采样后的特征F2输入深层分割引导注意力模块,分别得到特征S2和D2,特征S2和特征D2的通道数分别为1和1。
深层分割引导注意力模块如图5所示,深层分割引导注意力模块与浅层分割引导注意力模块结构相同,区别仅在于在网络中所处位置不同。深层分割引导注意力模块同样包括注意力分支和人群计数分支。
注意力分支包括:
卷积层Conv:1×1,1,在Conv:1×1,1中,Conv为卷积,1×1,1表示卷积核大小为1×1,输出特征的通道数为1;
Sigmoid函数;
人群计数分支包括:
InceptionC,输出特征的通道数为2048;
乘法器,逐像素相乘;
卷积层Conv:1×1,1,在Conv:1×1,1中,Conv为卷积,1×1,1表示卷积核大小为1×1,输出特征的通道数为1。
同样,在深层分割引导注意力模块中,利用分割真值图来监督注意力分支中注意力图的学习,利用密度真值图来监督人群计数分支中密度估计图的学习。常规的注意力机制计算复杂度高且需要有3个输入,为了提高运算效率的同时满足分割任务的动态预测特性,本算法只利用1个输入特征生成预测分割图,受真值分割图监督更新。
深层分割引导注意力模块的处理如下:
特征F2被输入到注意力分支,将作为输入,特征F2的通道数为2048,通过卷积核(Conv:1×1,1),再经过Sigmoid函数,输出特征S2,特征S2的值都在0到1之间,通道数为1;
特征F2被输入到人群计数分支,特征F2的通道数为2048,将其通过InceptionC得到特征V2,特征V2的通道数为2048,将得到的特征V2与注意力分支的输出S2逐像素相乘,得到特征M2,特征M2的通道数为2048,将M2通过卷积核(Conv:1×1,1)得到特征D2,通道数为1,尺寸与F2相同。
将得到的特征S1和S2加权求和,最终得到与输入图像尺寸相同的预测分割图,其中特征S1和S2的权重由网络学习而来,下面将详细描述。
将得到的特征D1和D2加权求和,最终得到与输入图像尺寸相同的预测密度图,其中特征D1和D2的权重由网络学习而来,下面将详细描述。
在训练过程中,损失函数由两部分组成:密度图损失和分割图损失,如式(1),通过最小化损失函数将网络参数调至最优。
Figure BDA0003717956450000101
将欧式距离作为密度图损失函数,
Figure BDA0003717956450000102
表示密度图损失,如式(2),
Figure BDA0003717956450000103
其中
Figure BDA0003717956450000104
表示生成的第i张输入图像Xi对应的预测密度图,θ表示整个网络可训练的参数,Di表示图像Xi的真值密度图,N是训练样本数,即每次训练时使用的图像数量。Di和N是可以从训练集中获得的数据。
将交叉熵损失作为分割图损失函数,
Figure BDA0003717956450000105
表示分割图损失,如式(3),
Figure BDA0003717956450000106
Figure BDA0003717956450000107
其中
Figure BDA0003717956450000108
表示生成的第i张输入图像Xi对应的预测分割图,Wi表示真值分割图,Hi(j,k)构成交叉熵损失矩阵H,(j,k)是分割图里的每个点的坐标。⊙表示逐元素乘法。
利用点状标注生成真值密度图和真值分割图,具体来说,真值密度图以各个人头所在坐标为中心,绘制标准差为4,核大小为15×15的二维高斯分布,真值分割图则以各个人头坐标为中心,绘制25×25大小的矩形区域,矩形区域内值全为1。
通过将密度图损失最小化得到特征D1和D2的权重,将分割图损失最小化得到特征S1和S2的权重。
在权重确定之后,网络已经完成训练。
在步骤S104,根据图像通过已经完成训练的网络输出的密度图,将输入图像中所有像素的密度值求和,可以得到图像中的群体计数。
在完成网络训练之后,可以将测试集的图像输入网络进行测试,获得预测密度图,预测分割图和人群数量。
在测试集输入多分支分割引导注意力网络获得群体计数结果时,根据生成的密度图,将密度图的像素值求和得到图像中的人数,并对生成文件进行命名,“数据集名称-图片索引号_pred_预估人数.png”,如“SHHA-50_pred_1000.596640625.png”。而所生成的预测分割图可用来辅助判断预测结果的准确性。
通过本公开的网络对测试集中的图像进行测试的结果如图6所示。图6中示出了4幅图像的测试结果,第一列是输入的图像,第二列是实际人数,第三列是使用本公开的方法预估的人数。可以看出,通过本公开的网络进行群体计数的准确性很高。
本公开提出了多支路分割引导注意力模块,提高了网络对于多尺度特征的学习能力;在网络的深浅层次各增加一条注意力支路,利用前景分割增强了网络对于人群区域的关注。
在不增加额外标注成本的前提下为多任务学习的群体计数和前景分割提供监督信息,将欧氏距离损失和交叉熵损失融合作为网络的损失函数,提高了点状标注的利用率,多任务互相促进,提高了网络性能。
本公开的实施例可以被写为计算机程序,并且可以在使用计算机可读记录介质执行程序的通用数字计算机中实现。
在这种状态下,介质可以连续地存储可以由计算机执行的程序,或者可以临时地存储用于执行或下载的程序。此外,介质可以是在组合了单个或多个硬件的各种记录设备或存储设备,不限于直接接入计算机***的介质,并且可以以分布方式存在于网络。介质的示例包括被配置为存储程序指令的磁存储介质(诸如软盘或硬盘)、光学记录介质(诸如CD-ROM或DVD)、磁光介质(诸如软盘)以及Rom、RAM、闪存等。此外,其他介质的示例可以包括:用于分发应用程序的应用程序商店,用于提供或分发其他各种软件的站点,以及在服务器处管理的记录介质或存储介质。
尽管已经参考使用特定术语的优选实施例来具体示出和描述了本公开,但是应当仅以描述性的意义考虑实施例和术语,而不是出于限制的目的。因此,本领域普通技术人员将理解,在不脱离由所附权利要求限定的本公开的精神和范围的情况下,可以在形式和细节上进行各种改变。

Claims (8)

1.一种面向无人机航拍图像的分割引导注意力群体计数方法,所述方法包括:
获取包括训练集和测试集在内的图像集;
对训练集中的图像进行预处理;
将预处理后的图像输入网络,训练网络,直至网络拟合,训练后的网络输出图像的密度图和分割图,所述网络包括卷积块,Inception级联模块、上采样器、浅层分割引导注意力模块、深层分割引导注意力模块以及第一加法器和第二加法器;以及
根据网络输出的密度图,将密度图的像素值求和得到图像中的群体计数。
2.根据权利要求1所述的方法,其特征在于,训练网络的步骤包括:
卷积块将预处理后的图像处理为特征F1,F1的通道数为768;
将特征F1分别输入Inception级联模块和浅层分割引导注意力模块,分别得到特征F2,S1和D1,特征F2的通道数为2048,S1的通道数为1,特征D1的通道数为1;
通过上采样器对得到的特征F2进行上采样,上采样后的特征的尺寸变为特征F2的两倍,然后将上采样后的特征F2输入深层分割引导注意力模块,分别得到特征S2和D2,特征S2和特征D2的通道数分别为1和1;
通过第一加法器将得到的特征S1和S2加权求和,最终得到与输入图像尺寸相同的预测分割图;
通过第二加法器将得到的特征D1和D2加权求和,最终得到与输入图像尺寸相同的预测密度图;
通过调整特征S1和S2以及特征D1和D2的权重以使最小化损失函数,直至网络拟合,
损失函数为:
Figure FDA0003717956440000011
Figure FDA0003717956440000012
表示密度图损失,如式(2),
Figure FDA0003717956440000013
其中
Figure FDA0003717956440000014
表示生成的第i张输入图像Xi对应的预测密度图,θ表示整个网络可训练的参数,Di表示图像Xi的真值密度图,N是训练样本数,
Figure FDA0003717956440000015
表示分割图损失,如式(3),
Figure FDA0003717956440000021
Figure FDA0003717956440000022
其中
Figure FDA0003717956440000023
表示生成的第i张输入图像Xi对应的预测分割图,Wi表示真值分割图,Hi(j,k)构成交叉熵损失矩阵H,(j,k)是预测分割图里的每个点的坐标,⊙表示逐元素乘法。
3.根据权利要求2所述的方法,其特征在于,卷积块包括5个卷积层、第一InceptionA至第三InceptionA、InceptionB以及第一InceptionC至第四InceptionC。
5个卷积层分别是:
Conv:3×3,32;
Conv:3×3,32;
Conv:3×3,64;
Conv:3×3,80;
Conv:3×3,192;
其中,Conv为卷积,3×3,32表示卷积核大小为3×3,输出特征的通道数为32;3×3,64表示卷积核大小为3×3,输出特征的通道数为64,3×3,80表示卷积核大小为3×3,输出特征的通道数为80,3×3,192表示卷积核大小为3×3,输出特征的通道数为192;
InceptionA:将输入特征复制4份,将其分别送入4条分支,从左到右,分支A1对输入特征进行1×1卷积;分支A2对输入特征先进行1×1卷积再进行5×5卷积;分支A3对输入特征首先进行1×1卷积,再进行两次3×3卷积;分支A4对输入特征先进行池化操作再进行1×1卷积,最后将4个分支的所有输出按照通道联接,作为最终输出特征,其通道数为288;
InceptionB:将输入特征复制3份,将其分别送入3条分支,从左到右,分支B1对输入特征进行3×3卷积;分支B2对输入特征首先进行1×1卷积,再进行两次3×3卷积;分支B3对输入特征进行池化操作,最后将3个分支的所有输出按照通道联接,作为最终输出特征,其通道数为768;
InceptionC:将输入特征复制4份,将其分别送入4条分支,从左到右,分支C1对输入特征进行1×1卷积;分支C2对输入先进行1×1卷积再进行深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成;分支C3对输入特征首先进行1×1卷积,再进行两次深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成;分支C4对输入特征进行池化操作再进行1×1卷积;最后将4个分支的所有输出按照通道联接,作为最终输出特征,其通道数为768。
4.根据权利要求3所述的方法,其特征在于,Inception级联模块包括InceptionD以及InceptionE,
InceptionD:将输入特征复制3份,将其分别送入3条分支,从左到右,分支D1对输入特征先进行1×1卷积,再进行3×3卷积;分支D2对输入特征首先进行1×1卷积,再进行深度可分离卷积,其中深度可分离卷积由1×7和7×1卷积组成,最后进行3×3卷积;分支D3对输入特征进行池化操作,最后将3个分支的所有输出按照通道联接,作为最终输出特征,其通道数为1280;
InceptionE:将输入特征复制4份,将其分别送入4条分支,从左到右,分支E1对输入特征先进行1×1和3×3卷积,然后经过两个并行的卷积,分别为1×3和3×1卷积;分支E2对输入特征先进行1×1卷积再经过两个并行的卷积,分别为1×3和3×1卷积;分支E3对输入特征首先进行池化操作然后进行1×1卷积;分支E4对输入特征进行1×1卷积;最后将4个分支的所有输出按照通道联接,作为最终输出特征F2,其通道数为2048。
5.根据权利要求4所述的方法,其特征在于,浅层分割引导注意力模块包括注意力分支和人群计数分支,
注意力分支包括:
卷积层Conv:1×1,1,Conv为卷积,1×1,1表示卷积核大小为1×1,输出特征的通道数为1;
Sigmoid函数;
人群计数分支包括:
InceptionC,输出特征的通道数为2048;
乘法器,逐像素相乘;
卷积层Conv:1×1,1。
6.根据权利要求5所述的方法,其特征在于,深层分割引导注意力模块同样包括注意力分支和人群计数分支。
7.根据权利要求1所述的方法,其特征在于,对训练集中的图像进行预处理包括:限制图像的高和宽,使其能够被8整除,以及将对训练集中的图像进行随机翻转操作之后的图像加入训练集,使得训练集的图像数量增加。
8.一种在计算机存储介质上编码的计算机程序产品,包括指令,当指令由一个或多个计算机执行时,将使一个或多个计算机执行权利要求1-7中的任一项所述的方法。
CN202210740932.4A 2022-06-28 2022-06-28 面向无人机航拍图像的分割引导注意力群体计数方法 Pending CN115019211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210740932.4A CN115019211A (zh) 2022-06-28 2022-06-28 面向无人机航拍图像的分割引导注意力群体计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210740932.4A CN115019211A (zh) 2022-06-28 2022-06-28 面向无人机航拍图像的分割引导注意力群体计数方法

Publications (1)

Publication Number Publication Date
CN115019211A true CN115019211A (zh) 2022-09-06

Family

ID=83077022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210740932.4A Pending CN115019211A (zh) 2022-06-28 2022-06-28 面向无人机航拍图像的分割引导注意力群体计数方法

Country Status (1)

Country Link
CN (1) CN115019211A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020169043A1 (zh) * 2019-02-21 2020-08-27 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN112668537A (zh) * 2021-01-06 2021-04-16 北京理工大学 一种基于多尺度跳跃连接的群体计数方法
CN113283356A (zh) * 2021-05-31 2021-08-20 上海应用技术大学 多级注意力尺度感知人群计数方法
CN113536925A (zh) * 2021-06-15 2021-10-22 杭州电子科技大学 一种基于引导注意力机制的人群计数方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020169043A1 (zh) * 2019-02-21 2020-08-27 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
CN112668537A (zh) * 2021-01-06 2021-04-16 北京理工大学 一种基于多尺度跳跃连接的群体计数方法
CN113283356A (zh) * 2021-05-31 2021-08-20 上海应用技术大学 多级注意力尺度感知人群计数方法
CN113536925A (zh) * 2021-06-15 2021-10-22 杭州电子科技大学 一种基于引导注意力机制的人群计数方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
严芳芳 等: "多通道融合分组卷积神经网络的人群计数算法", 小型微型计算机***, no. 10, 15 October 2020 (2020-10-15) *

Similar Documents

Publication Publication Date Title
CN107967451B (zh) 一种对静止图像进行人群计数的方法
CN111242208B (zh) 一种点云分类方法、分割方法及相关设备
CN108257158B (zh) 一种基于循环神经网络的目标预测与跟踪方法
CN111968150B (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
CN111126258A (zh) 图像识别方法及相关装置
CN112489081B (zh) 一种视觉目标跟踪方法及装置
CN111523447B (zh) 车辆跟踪方法、装置、电子设备及存储介质
CN104268594A (zh) 一种视频异常事件检测方法及装置
CN111311611B (zh) 一种实时三维大场景多对象实例分割的方法
US11420623B2 (en) Systems for determining object importance in on-road driving scenarios and methods thereof
US11804043B2 (en) Detecting objects in a video using attention models
CN110599443A (zh) 一种使用双向长短期记忆网络的视觉显著性检测方法
CN113674288A (zh) 一种非小细胞肺癌数字病理图像组织自动分割方法
CN114898403A (zh) 一种基于Attention-JDE网络的行人多目标跟踪方法
CN115375737B (zh) 基于自适应时间与序列化时空特征的目标跟踪方法与***
Hu et al. Parallel spatial-temporal convolutional neural networks for anomaly detection and location in crowded scenes
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
CN118251698A (zh) 面向稀疏数据的鲁棒nerf模型新颖视图合成
Yao et al. Dt-3dresnet-lstm: An architecture for temporal activity recognition in videos
CN112560907A (zh) 基于混合域注意力的有限像素红外无人机目标检测方法
CN116953702A (zh) 基于演绎范式的旋转目标检测方法及装置
CN115019211A (zh) 面向无人机航拍图像的分割引导注意力群体计数方法
CN114882252B (zh) 半监督遥感影像变化检测方法、装置和计算机设备
CN116386042A (zh) 一种基于三维池化空间注意力机制的点云语义分割模型
Cai et al. Realtime single-stage instance segmentation network based on anchors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination