CN111401163B - 基于多尺度注意力感知卷积网络的目标数量统计方法 - Google Patents

基于多尺度注意力感知卷积网络的目标数量统计方法 Download PDF

Info

Publication number
CN111401163B
CN111401163B CN202010149434.3A CN202010149434A CN111401163B CN 111401163 B CN111401163 B CN 111401163B CN 202010149434 A CN202010149434 A CN 202010149434A CN 111401163 B CN111401163 B CN 111401163B
Authority
CN
China
Prior art keywords
convolution
layer
features
output
activation function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010149434.3A
Other languages
English (en)
Other versions
CN111401163A (zh
Inventor
成锋娜
姜胜芹
周宏平
茹煜
张玉言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Forestry University
Original Assignee
Nanjing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Forestry University filed Critical Nanjing Forestry University
Priority to CN202010149434.3A priority Critical patent/CN111401163B/zh
Publication of CN111401163A publication Critical patent/CN111401163A/zh
Application granted granted Critical
Publication of CN111401163B publication Critical patent/CN111401163B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4023Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多尺度注意力感知卷积网络的目标数量统计方法,包括图片特征提取层、多尺度感知模块、有监督的注意力感知模块以及密度回归模块,图片的输入是3通道的图片,采用传统二维卷积网络提取图片的特征,而后将特征输入到多尺度感知模块以感知图片中尺度的变化,然后将利用有监督的注意力感知模块对感兴趣的目标提取鲁棒的特征,最后经密度回归模块输出密度估计图。本发明涉及了鲁棒的目标数量统计网络,在智能林业、智能农业、智能安防和智能交通等领域有着及其重要的应用价值。

Description

基于多尺度注意力感知卷积网络的目标数量统计方法
技术领域
本发明涉及图像处理和模式识别技术领域,尤其涉及基于多尺度注意力感知卷积网络的目标数量统计方法。
背景技术
随着技术的进步和发展,当前的工业生产和日常生活对于智能处理的要求越来越高。目标数量统计作为对兴趣目标在不同场景中描述,便于人们做出分析和管理。例如,对果园的果实进行密度统计便于管理人员对区域内的果实进行分析;人群的聚集在很多场所如商场、广场、地铁等已经屡见不鲜,由此而产生的安全问题也随之而来,那么人数的统计可便于管理人员对当前场景的人流量进行分析,可帮助他们做出正确的引导等措施。因此,该任务对于工业生产、公共安全以及管理等都具有重要的意义。
事实上,目标数量统计要比传统的目标检测要复杂的多,因为,该任务面对的场景要复杂的多,如很多场景中兴趣目标的密度很大,由此而造成严重的拥挤和遮挡现象,使得我们仅可观测到目标部分内容;另外由于视角的因素,目标从近及远有较大的尺度变化,且远处目标的纹理很模糊等等,这些因素使得目标数量计数变得很困难。
发明内容
为了解决上述问题,本发明设计了基于多尺度注意力感知卷积网络的目标数量统计方法,该方法采用多任务的深度学习框架,使用多尺度感知模块学习图片中目标的尺度变化,使用有监督的注意力感知模块学习像素级别的感兴趣区域,最后获得密度估计图。
为了实现上述目的,本发明采用了如下技术方案:
基于多尺度注意力感知卷积网络的目标数量统计方法,包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:首先将给定的数据集分为训练集合和测试集合;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Image_Set={I1,I2,...,IN}和与之对应的目标标注Label_Set={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Train_Set={I1,I2,...,IM}与之对应的标注Ltrain_Set={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Test_Set={IM+1,IM+2,...,IN}与之对应的标注Ltest_Set={lM+1,lM+2,...,lN};
步骤102:将步骤101中第κ个图片Iκ转换成高斯密度图denκ(x),可通过下述的公式进行计算:
Figure GDA0003505556050000021
其中
Figure GDA0003505556050000022
表示给定图片的坐标,xi表示标注的目标位置;
Figure GDA0003505556050000023
表示高斯核,其中上述目标位置xi在本公式中是均值向量和σ2是方差项;如果x不在xi的领域范围内,令
Figure GDA0003505556050000024
此时第κ个图片的标签lκ变换为denκ(x);
步骤103:依次对步骤101中的第1张图片直至第N个图片执行步骤102的操作,将图片的标注转换成高斯密度图;从而将训练的标注Ltrain_Set映射为训练真实标签
Figure GDA0003505556050000031
Figure GDA0003505556050000032
将测试的标注Ltest_Set映射为测试真实标签
Figure GDA0003505556050000033
步骤2:对每个图片和它对应的真实标签进行尺寸调整,其具体包括:
步骤201:将图片的尺寸调整为8的整数倍;记第κ个图片Iκ的尺寸大小为(xκ,yκ);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Iκ调整后的尺寸大小
Figure GDA0003505556050000034
调整的计算公式为
Figure GDA0003505556050000035
Figure GDA0003505556050000036
其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第κ个图片Iκ对应的真实标签denκ(x)的尺寸大小为(xκ,yκ),通过步骤201中的调整计算公式后得到调整后真实标签
Figure GDA0003505556050000037
的大小
Figure GDA0003505556050000038
为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
Figure GDA0003505556050000039
步骤203:对步骤202中第κ个图片Iκ调整后真实标签
Figure GDA00035055560500000310
进行二值化,生成掩码标签Binaryκ(x),计算公式如下:
Figure GDA00035055560500000311
其中
Figure GDA00035055560500000312
表示将
Figure GDA00035055560500000313
中每个像素与实数θ做比较,如果像素点的值大于θ,那么Binaryκ(x)在该像素点的值记为1,否则记为0;
步骤204:依次对步骤103中的第1张图片直至第N个图片的真实标签执行步骤202和步骤203的操作;
步骤3:建立目标数量统计的卷积网络模型;卷积网络模型是基于预训练VGG Net卷积网络的前10层去提取图片的特征,多列不同尺度的感知模块提取图片的尺度变化特征,从像素级的视角关注图片中的感兴趣区,最后通过反卷积层学习后输出密度估计图;
尺寸为
Figure GDA0003505556050000041
的图像经过前10层VGG Net的卷积网络后,输出的尺寸为
Figure GDA0003505556050000042
的特征图,其中
Figure GDA0003505556050000043
该特征图经过多尺度掩码感知回馈网络模块和密度回归模块后,输出
Figure GDA0003505556050000044
的密度估计图;网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为
Figure GDA0003505556050000045
的图像,经过ReLU激活函数后得到
Figure GDA0003505556050000046
的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure GDA0003505556050000047
的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000048
的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure GDA0003505556050000049
的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到
Figure GDA00035055560500000410
的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000051
的特征;
卷积层7:使用256个3×3的卷积核去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到
Figure GDA0003505556050000052
的特征;
卷积层8:使用512个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000053
的特征;
卷积层9:使用512个3×3的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000054
的特征;
卷积层10:使用512个3×3的卷积核去卷积卷积层9的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000055
的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000056
的特征;
卷积层12:使用128个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000057
的特征;
卷积层13:使用64个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000058
的特征;
卷积14.1:使用64个1×1的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000059
的特征;
卷积14.2:使用64个3×3的空洞卷积核,卷积空洞率为2,去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure GDA00035055560500000510
的特征;
卷积14.3:使用64个3×3的空洞卷积核,卷积空洞率为3,去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000061
的特征;
卷积层15:将卷积层14.1,卷积层14.2和卷积层14.3的输出延通道级联在一起;得到
Figure GDA0003505556050000062
的特征;
卷积层16:使用64个3×3的卷积核去卷积卷积层15的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000063
的特征;
卷积层17:使用64个3×3的卷积核去反卷积卷积层16的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000064
的特征;
卷积层18:使用64个3×3的卷积核去反卷积卷积层17的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000065
的特征;
卷积层19.1:使用64个3×3的卷积核去反卷积卷积层18的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000066
的特征;
卷积层19.2:使用64个3×3的卷积核去反卷积卷积层19.1的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000067
的特征;
卷积层20.1:使用64个3×3的卷积核去卷积卷积层19.1的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000068
的特征;
卷积层20.2:使用1个1×1的卷积核去卷积卷积层20.1的输出,经过Sigmoid激活函数后得到
Figure GDA0003505556050000069
的掩膜估计;
卷积层20.3:使用64个1×1的卷积核去卷积卷积层20.2的输出,经过ReLU激活函数后得到
Figure GDA00035055560500000610
的特征;
卷积层21:将卷积层20.3的输出点乘以卷积层19.2的输出,得到
Figure GDA00035055560500000611
的输出;
卷积层22:使用64个3×3的卷积核去卷积卷积层21的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000071
的特征;
卷积层23:使用1个1×1的卷积核去卷积卷积层22的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000072
的特征;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:网络参数主要包括三个部分:一是步骤3中卷积层1到卷积层19.1的参数Φ1;二是卷积层20.1到卷积层20.2的参数Φ2以及剩余的参数Φ3;记步骤3中卷积层20.2的输出为Out_bin,其可表示为:
Out_bin=f(Φ12)
其中f(·)为一系列的卷积操作
同时记步骤4中卷积层23的输出为Out_den
Out_den=f(Φ123)
两个输出都是在给定的监督信号下对网络进行学习,其损失函数记为:
Figure GDA0003505556050000073
其中
Figure GDA0003505556050000074
是均方差损失函数,
Figure GDA0003505556050000075
是二值交叉熵损失函数;α,β是超参数;
步骤5:测试卷积网络模型;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层20.2的输出Out_bin求和,记为当前图片的目标数量统计。
相比于现有技术,本发明的有益效果在于:
1、本发明使用一个轻量化的多尺度学习模块,分别使用1×1、3×3(空洞率为2)和3×3(空洞率为3)的二维卷积学习三种不同的尺度特征。
2、本发明使用了一个有监督的注意力机制进一步学习多尺度的特征,从而减少噪声的影响,得到更加鲁棒的特征。
附图说明
图1为人群拥挤的示例图片和与之对应的真实标签;
图2为本发明中卷积网络模型框架图;
图3为卷积网络的建立及训练的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,基于多尺度注意力感知卷积网络的目标数量统计方法,包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:首先将给定的数据集分为训练集合和测试集合;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Image_Set={I1,I2,...,IN}和与之对应的目标标注Label_Set={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Train_Set={I1,I2,...,IM}与之对应的标注Ltrain_Set={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Test_Set={IM+1,IM+2,...,IN}与之对应的标注Ltest_Set={lM+1,lM+2,...,lN};
步骤102:将步骤101中第κ个图片Iκ转换成高斯密度图denκ(x),可通过下述的公式进行计算:
Figure GDA0003505556050000091
其中
Figure GDA0003505556050000092
表示给定图片的坐标,xi表示标注的目标位置;
Figure GDA0003505556050000093
表示高斯核,其中上述目标位置xi在本公式中是均值向量和σ2是方差项;如果x不在xi的领域范围内,令
Figure GDA0003505556050000094
此时第κ个图片的标签lκ变换为denκ(x);
步骤103:依次对步骤101中的第1张图片直至第N个图片执行步骤102的操作,将图片的标注转换成高斯密度图;从而将训练的标注Ltrain_Set映射为训练真实标签
Figure GDA0003505556050000095
Figure GDA0003505556050000096
将测试的标注Ltest_Set映射为测试真实标签
Figure GDA0003505556050000097
步骤2:对每个图片和它对应的真实标签进行尺寸调整,其具体包括:
步骤201:将图片的尺寸调整为8的整数倍;记第κ个图片Iκ的尺寸大小为(xκ,yκ);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Iκ调整后的尺寸大小
Figure GDA0003505556050000101
调整的计算公式为
Figure GDA0003505556050000102
Figure GDA0003505556050000103
其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第κ个图片Iκ对应的真实标签denκ(x)的尺寸大小为(xκ,yκ),通过步骤201中的调整计算公式后得到调整后真实标签
Figure GDA0003505556050000104
的大小
Figure GDA0003505556050000105
为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
Figure GDA0003505556050000106
步骤203:对步骤202中第κ个图片Iκ调整后真实标签
Figure GDA0003505556050000107
进行二值化,生成掩码标签Binaryκ(x),计算公式如下:
Figure GDA0003505556050000108
其中
Figure GDA0003505556050000109
表示将
Figure GDA00035055560500001010
中每个像素与实数θ做比较,如果像素点的值大于θ,那么Binaryκ(x)在该像素点的值记为1,否则记为0;
步骤204:依次对步骤103中的第1张图片直至第N个图片的真实标签执行步骤202和步骤203的操作;
步骤3:建立目标数量统计的卷积网络模型;卷积网络模型是基于预训练VGG Net卷积网络的前10层去提取图片的特征,多列不同尺度的感知模块提取图片的尺度变化特征,从像素级的视角关注图片中的感兴趣区,最后通过反卷积层学习后输出密度估计图;
尺寸为
Figure GDA0003505556050000111
的图像经过前10层VGG Net的卷积网络后,输出的尺寸为
Figure GDA0003505556050000112
的特征图,其中
Figure GDA0003505556050000113
该特征图经过多尺度掩码感知回馈网络模块和密度回归模块后,输出
Figure GDA0003505556050000114
的密度估计图;网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为
Figure GDA0003505556050000115
的图像,经过ReLU激活函数后得到
Figure GDA0003505556050000116
的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure GDA0003505556050000117
的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000118
的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure GDA0003505556050000119
的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到
Figure GDA00035055560500001110
的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到
Figure GDA00035055560500001111
的特征;
卷积层7:使用256个3×3的卷积核去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到
Figure GDA00035055560500001112
的特征;
卷积层8:使用512个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000121
的特征;
卷积层9:使用512个3×3的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000122
的特征;
卷积层10:使用512个3×3的卷积核去卷积卷积层9的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000123
的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000124
的特征;
卷积层12:使用128个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000125
的特征;
卷积层13:使用64个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000126
的特征;
卷积14.1:使用64个1×1的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000127
的特征;
卷积14.2:使用64个3×3的空洞卷积核,卷积空洞率为2,去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000128
的特征;
卷积14.3:使用64个3×3的空洞卷积核,卷积空洞率为3,去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000129
的特征;
卷积层15:将卷积层14.1,卷积层14.2和卷积层14.3的输出延通道级联在一起;得到
Figure GDA00035055560500001210
的特征;
卷积层16:使用64个3×3的卷积核去卷积卷积层15的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000131
的特征;
卷积层17:使用64个3×3的卷积核去反卷积卷积层16的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000132
的特征;
卷积层18:使用64个3×3的卷积核去反卷积卷积层17的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000133
的特征;
卷积层19.1:使用64个3×3的卷积核去反卷积卷积层18的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000134
的特征;
卷积层19.2:使用64个3×3的卷积核去反卷积卷积层19.1的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000135
的特征;
卷积层20.1:使用64个3×3的卷积核去卷积卷积层19.1的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000136
的特征;
卷积层20.2:使用1个1×1的卷积核去卷积卷积层20.1的输出,经过Sigmoid激活函数后得到
Figure GDA0003505556050000137
的掩膜估计;
卷积层20.3:使用64个1×1的卷积核去卷积卷积层20.2的输出,经过ReLU激活函数后得到
Figure GDA0003505556050000138
的特征;
卷积层21:将卷积层20.3的输出点乘以卷积层19.2的输出,得到
Figure GDA0003505556050000139
的输出;
卷积层22:使用64个3×3的卷积核去卷积卷积层21的输出,经过ReLU激活函数后得到
Figure GDA00035055560500001310
的特征;
卷积层23:使用1个1×1的卷积核去卷积卷积层22的输出,经过ReLU激活函数后得到
Figure GDA00035055560500001311
的特征;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:网络参数主要包括三个部分:一是步骤3中卷积层1到卷积层19.1的参数Φ1;二是卷积层20.1到卷积层20.2的参数Φ2以及剩余的参数Φ3;记步骤3中卷积层20.2的输出为Out_bin,其可表示为:
Out_bin=f(Φ12)
其中f(·)为一系列的卷积操作
同时记步骤4中卷积层23的输出为Out_den
Out_den=f(Φ123)
两个输出都是在给定的监督信号下对网络进行学习,其损失函数记为:
Figure GDA0003505556050000141
其中
Figure GDA0003505556050000142
是均方差损失函数,
Figure GDA0003505556050000143
是二值交叉熵损失函数;α,β是超参数;
步骤5:测试卷积网络模型;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层20.2的输出Out_bin求和,记为当前图片的目标数量统计。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (1)

1.基于多尺度注意力感知卷积网络的目标数量统计方法,其特征在于,包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:首先将给定的数据集分为训练集合和测试集合;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Image_Set={I1,I2,...,IN}和与之对应的目标标注Label_Set={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Train_Set={I1,I2,...,IM}与之对应的标注Ltrain_Set={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Test_Set={IM+1,IM+2,...,IN}与之对应的标注Ltest_Set={lM+1,lM+2,...,lN};
步骤102:将步骤101中第κ个图片Iκ转换成高斯密度图denκ(x),可通过下述的公式进行计算:
Figure FDA0003505556040000011
其中
Figure FDA0003505556040000012
表示给定图片的坐标,xi表示标注的目标位置;
Figure FDA0003505556040000013
表示高斯核,其中上述目标位置xi在本公式中是均值向量和σ2是方差项;如果x不在xi的领域范围内,令
Figure FDA0003505556040000014
此时第κ个图片的标签lκ变换为denκ(x);
步骤103:依次对步骤101中的第1张图片直至第N个图片执行步骤102的操作,将图片的标注转换成高斯密度图;从而将训练的标注Ltrain_Set映射为训练真实标签
Figure FDA0003505556040000015
Figure FDA0003505556040000021
将测试的标注Ltest_Set映射为测试真实标签
Figure FDA0003505556040000022
Figure FDA0003505556040000023
步骤2:对每个图片和它对应的真实标签进行尺寸调整,其具体包括:
步骤201:将图片的尺寸调整为8的整数倍;记第κ个图片Iκ的尺寸大小为(xκ,yκ);图片通过插值的方式将尺寸大小调整为8的整数倍,记图片Iκ调整后的尺寸大小
Figure FDA0003505556040000024
调整的计算公式为
Figure FDA0003505556040000025
Figure FDA0003505556040000026
其中%表示整除操作;
步骤202:将与图片对应的高斯密度图也进行尺度调整;第κ个图片Iκ对应的真实标签denκ(x)的尺寸大小为(xκ,yκ),通过步骤201中的调整计算公式后得到调整后真实标签
Figure FDA0003505556040000027
的大小
Figure FDA0003505556040000028
为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
Figure FDA0003505556040000029
步骤203:对步骤202中第κ个图片Iκ调整后真实标签
Figure FDA00035055560400000210
进行二值化,生成掩码标签Binaryκ(x),计算公式如下:
Figure FDA00035055560400000211
其中
Figure FDA00035055560400000212
表示将
Figure FDA00035055560400000213
中每个像素与实数θ做比较,如果像素点的值大于θ,那么Binaryκ(x)在该像素点的值记为1,否则记为0;
步骤204:依次对步骤103中的第1张图片直至第N个图片的真实标签执行步骤202和步骤203的操作;
步骤3:建立目标数量统计的卷积网络模型;卷积网络模型是基于预训练VGG Net卷积网络的前10层去提取图片的特征,多列不同尺度的感知模块提取图片的尺度变化特征,从像素级的视角关注图片中的感兴趣区,最后通过反卷积层学习后输出密度估计图;
尺寸为
Figure FDA0003505556040000031
的图像经过前10层VGG Net的卷积网络后,输出的尺寸为
Figure FDA0003505556040000032
的特征图,其中
Figure FDA0003505556040000033
该特征图经过多尺度掩码感知回馈网络模块和密度回归模块后,输出
Figure FDA0003505556040000034
的密度估计图;网络的具体的模型给出如下:
卷积层1:使用64个3×3的卷积核去卷积输入为
Figure FDA0003505556040000035
的图像,经过ReLU激活函数后得到
Figure FDA0003505556040000036
的特征;
卷积层2:使用64个3×3的卷积核去卷积卷积层1的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure FDA0003505556040000037
的特征;
卷积层3:使用128个3×3的卷积核去卷积卷积层2的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000038
的特征;
卷积层4:使用128个3×3的卷积核去卷积卷积层3的输出,经过ReLU激活函数和2×2的最大值池化层后得到
Figure FDA0003505556040000039
的特征;
卷积层5:使用256个3×3的卷积核去卷积卷积层4的输出,经过ReLU激活函数后得到
Figure FDA00035055560400000310
的特征;
卷积层6:使用256个3×3的卷积核去卷积卷积层5的输出,经过ReLU激活函数后得到
Figure FDA00035055560400000311
的特征;
卷积层7:使用256个3×3的卷积核去卷积卷积层6的输出,经过ReLU激活函数层和2×2的最大值池化层后得到
Figure FDA00035055560400000312
的特征;
卷积层8:使用512个3×3的卷积核去卷积卷积层7的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000041
的特征;
卷积层9:使用512个3×3的卷积核去卷积卷积层8的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000042
的特征;
卷积层10:使用512个3×3的卷积核去卷积卷积层9的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000043
的特征;
卷积层11:使用256个3×3的卷积核去卷积卷积层10的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000044
的特征;
卷积层12:使用128个3×3的卷积核去卷积卷积层11的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000045
的特征;
卷积层13:使用64个3×3的卷积核去卷积卷积层12的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000046
的特征;
卷积14.1:使用64个1×1的卷积核去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000047
的特征;
卷积14.2:使用64个3×3的空洞卷积核,卷积空洞率为2,去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000048
的特征;
卷积14.3:使用64个3×3的空洞卷积核,卷积空洞率为3,去卷积卷积层13的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000049
的特征;
卷积层15:将卷积层14.1,卷积层14.2和卷积层14.3的输出延通道级联在一起;得到
Figure FDA0003505556040000051
的特征;
卷积层16:使用64个3×3的卷积核去卷积卷积层15的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000052
的特征;
卷积层17:使用64个3×3的卷积核去反卷积卷积层16的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000053
的特征;
卷积层18:使用64个3×3的卷积核去反卷积卷积层17的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000054
的特征;
卷积层19.1:使用64个3×3的卷积核去反卷积卷积层18的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000055
的特征;
卷积层19.2:使用64个3×3的卷积核去反卷积卷积层19.1的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000056
的特征;
卷积层20.1:使用64个3×3的卷积核去卷积卷积层19.1的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000057
的特征;
卷积层20.2:使用1个1×1的卷积核去卷积卷积层20.1的输出,经过Sigmoid激活函数后得到
Figure FDA0003505556040000058
的掩膜估计;
卷积层20.3:使用64个1×1的卷积核去卷积卷积层20.2的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000059
的特征;
卷积层21:将卷积层20.3的输出点乘以卷积层19.2的输出,得到
Figure FDA00035055560400000510
的输出;
卷积层22:使用64个3×3的卷积核去卷积卷积层21的输出,经过ReLU激活函数后得到
Figure FDA00035055560400000511
的特征;
卷积层23:使用1个1×1的卷积核去卷积卷积层22的输出,经过ReLU激活函数后得到
Figure FDA0003505556040000061
的特征;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:网络参数主要包括三个部分:一是步骤3中卷积层1到卷积层19.1的参数Φ1;二是卷积层20.1到卷积层20.2的参数Φ2以及剩余的参数Φ3;记步骤3中卷积层20.2的输出为Out_bin,其可表示为:
Out_bin=f(Φ12)
其中f(·)为一系列的卷积操作
同时记步骤4中卷积层23的输出为Out_den
Out_den=f(Φ123)
两个输出都是在给定的监督信号下对网络进行学习,其损失函数记为:
Figure FDA0003505556040000062
其中
Figure FDA0003505556040000063
是均方差损失函数,
Figure FDA0003505556040000064
是二值交叉熵损失函数;α,β是超参数;
步骤5:测试卷积网络模型;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层20.2的输出Out_bin求和,记为当前图片的目标数量统计。
CN202010149434.3A 2020-03-04 2020-03-04 基于多尺度注意力感知卷积网络的目标数量统计方法 Expired - Fee Related CN111401163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010149434.3A CN111401163B (zh) 2020-03-04 2020-03-04 基于多尺度注意力感知卷积网络的目标数量统计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010149434.3A CN111401163B (zh) 2020-03-04 2020-03-04 基于多尺度注意力感知卷积网络的目标数量统计方法

Publications (2)

Publication Number Publication Date
CN111401163A CN111401163A (zh) 2020-07-10
CN111401163B true CN111401163B (zh) 2022-04-15

Family

ID=71430552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010149434.3A Expired - Fee Related CN111401163B (zh) 2020-03-04 2020-03-04 基于多尺度注意力感知卷积网络的目标数量统计方法

Country Status (1)

Country Link
CN (1) CN111401163B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200089B (zh) * 2020-10-12 2021-09-14 西南交通大学 一种基于车辆计数感知注意力的稠密车辆检测方法
CN113313091B (zh) * 2021-07-29 2021-11-02 山东建筑大学 仓储物流下的基于多重注意力和拓扑约束的密度估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709438A (zh) * 2016-12-14 2017-05-24 贵州电网有限责任公司电力调度控制中心 一种基于视频会议的人数统计方法
CN110263849A (zh) * 2019-06-19 2019-09-20 合肥工业大学 一种基于多尺度注意力机制的人群密度估计方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830205B (zh) * 2018-06-04 2019-06-14 江南大学 基于改进全卷积网络的多尺度感知行人检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709438A (zh) * 2016-12-14 2017-05-24 贵州电网有限责任公司电力调度控制中心 一种基于视频会议的人数统计方法
CN110263849A (zh) * 2019-06-19 2019-09-20 合肥工业大学 一种基于多尺度注意力机制的人群密度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的狭小空间内的人群拥挤度分析;张菁 等;《https://doi.org/10.19678/j.issn.1000-3428.0055701》;20191014;第1-8页 *

Also Published As

Publication number Publication date
CN111401163A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111986099B (zh) 基于融合残差修正的卷积神经网络的耕地监测方法及***
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN111401163B (zh) 基于多尺度注意力感知卷积网络的目标数量统计方法
CN113298023B (zh) 一种基于深度学习及图像技术的昆虫动态行为识别方法
Lacewell et al. Optimization of image fusion using genetic algorithms and discrete wavelet transform
CN113657326A (zh) 一种基于多尺度融合模块和特征增强的杂草检测方法
CN109034258A (zh) 基于特定物体像素梯度图的弱监督目标检测方法
CN109815973A (zh) 一种适用于鱼类细粒度识别的深度学习方法
Wang et al. Using an improved YOLOv4 deep learning network for accurate detection of whitefly and thrips on sticky trap images
Janneh et al. Multi-level feature re-weighted fusion for the semantic segmentation of crops and weeds
Zhang et al. Deep learning based rapid diagnosis system for identifying tomato nutrition disorders
Shen et al. Identifying veraison process of colored wine grapes in field conditions combining deep learning and image analysis
Huang et al. A survey of deep learning-based object detection methods in crop counting
CN110705698A (zh) 尺度自适应感知的目标计数深度网络设计方法
CN116778223A (zh) 一种基于零标注的多类别目标域数据集标注方法及***
Hammouch et al. A two-stage deep convolutional generative adversarial network-based data augmentation scheme for agriculture image regression tasks
Xu et al. Cucumber flower detection based on YOLOv5s-SE7 within greenhouse environments
CN114596562A (zh) 一种稻田杂草识别方法
CN111640092B (zh) 基于多任务协同特征重建目标计数网络的方法
Rozilan et al. Efficacy of deep learning algorithm in classifying chilli plant growth stages
CN111144368A (zh) 基于长短时记忆神经网络的学生行为检测方法
Tantiborirak et al. Development of a Tomato Fruit Anomalies Detector for a Small Greenhouse Drone Application
Yacharam et al. Semantic Segmentation of Diseases in Mushrooms using Enhanced Random Forest
Coviello et al. In-field grape berries counting for yield estimation using dilated CNNS
CN112070784B (zh) 一种基于上下文增强网络的感知边缘检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220415

CF01 Termination of patent right due to non-payment of annual fee