CN111401163B - 基于多尺度注意力感知卷积网络的目标数量统计方法 - Google Patents
基于多尺度注意力感知卷积网络的目标数量统计方法 Download PDFInfo
- Publication number
- CN111401163B CN111401163B CN202010149434.3A CN202010149434A CN111401163B CN 111401163 B CN111401163 B CN 111401163B CN 202010149434 A CN202010149434 A CN 202010149434A CN 111401163 B CN111401163 B CN 111401163B
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- features
- output
- activation function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007619 statistical method Methods 0.000 title claims abstract description 7
- 230000004913 activation Effects 0.000 claims description 78
- 238000012360 testing method Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 239000011800 void material Substances 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000000034 method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract description 8
- 238000000605 extraction Methods 0.000 abstract 1
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4023—Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30242—Counting objects in image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多尺度注意力感知卷积网络的目标数量统计方法,包括图片特征提取层、多尺度感知模块、有监督的注意力感知模块以及密度回归模块,图片的输入是3通道的图片,采用传统二维卷积网络提取图片的特征,而后将特征输入到多尺度感知模块以感知图片中尺度的变化,然后将利用有监督的注意力感知模块对感兴趣的目标提取鲁棒的特征,最后经密度回归模块输出密度估计图。本发明涉及了鲁棒的目标数量统计网络,在智能林业、智能农业、智能安防和智能交通等领域有着及其重要的应用价值。
Description
技术领域
本发明涉及图像处理和模式识别技术领域,尤其涉及基于多尺度注意力感知卷积网络的目标数量统计方法。
背景技术
随着技术的进步和发展,当前的工业生产和日常生活对于智能处理的要求越来越高。目标数量统计作为对兴趣目标在不同场景中描述,便于人们做出分析和管理。例如,对果园的果实进行密度统计便于管理人员对区域内的果实进行分析;人群的聚集在很多场所如商场、广场、地铁等已经屡见不鲜,由此而产生的安全问题也随之而来,那么人数的统计可便于管理人员对当前场景的人流量进行分析,可帮助他们做出正确的引导等措施。因此,该任务对于工业生产、公共安全以及管理等都具有重要的意义。
事实上,目标数量统计要比传统的目标检测要复杂的多,因为,该任务面对的场景要复杂的多,如很多场景中兴趣目标的密度很大,由此而造成严重的拥挤和遮挡现象,使得我们仅可观测到目标部分内容;另外由于视角的因素,目标从近及远有较大的尺度变化,且远处目标的纹理很模糊等等,这些因素使得目标数量计数变得很困难。
发明内容
为了解决上述问题,本发明设计了基于多尺度注意力感知卷积网络的目标数量统计方法,该方法采用多任务的深度学习框架,使用多尺度感知模块学习图片中目标的尺度变化,使用有监督的注意力感知模块学习像素级别的感兴趣区域,最后获得密度估计图。
为了实现上述目的,本发明采用了如下技术方案:
基于多尺度注意力感知卷积网络的目标数量统计方法,包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:首先将给定的数据集分为训练集合和测试集合;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Image_Set={I1,I2,...,IN}和与之对应的目标标注Label_Set={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Train_Set={I1,I2,...,IM}与之对应的标注Ltrain_Set={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Test_Set={IM+1,IM+2,...,IN}与之对应的标注Ltest_Set={lM+1,lM+2,...,lN};
步骤102:将步骤101中第κ个图片Iκ转换成高斯密度图denκ(x),可通过下述的公式进行计算:
步骤103:依次对步骤101中的第1张图片直至第N个图片执行步骤102的操作,将图片的标注转换成高斯密度图;从而将训练的标注Ltrain_Set映射为训练真实标签 将测试的标注Ltest_Set映射为测试真实标签
步骤2:对每个图片和它对应的真实标签进行尺寸调整,其具体包括:
步骤202:将与图片对应的高斯密度图也进行尺度调整;第κ个图片Iκ对应的真实标签denκ(x)的尺寸大小为(xκ,yκ),通过步骤201中的调整计算公式后得到调整后真实标签的大小为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
步骤204:依次对步骤103中的第1张图片直至第N个图片的真实标签执行步骤202和步骤203的操作;
步骤3:建立目标数量统计的卷积网络模型;卷积网络模型是基于预训练VGG Net卷积网络的前10层去提取图片的特征,多列不同尺度的感知模块提取图片的尺度变化特征,从像素级的视角关注图片中的感兴趣区,最后通过反卷积层学习后输出密度估计图;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:网络参数主要包括三个部分:一是步骤3中卷积层1到卷积层19.1的参数Φ1;二是卷积层20.1到卷积层20.2的参数Φ2以及剩余的参数Φ3;记步骤3中卷积层20.2的输出为Out_bin,其可表示为:
Out_bin=f(Φ1,Φ2)
其中f(·)为一系列的卷积操作
同时记步骤4中卷积层23的输出为Out_den
Out_den=f(Φ1,Φ2,Φ3)
两个输出都是在给定的监督信号下对网络进行学习,其损失函数记为:
步骤5:测试卷积网络模型;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层20.2的输出Out_bin求和,记为当前图片的目标数量统计。
相比于现有技术,本发明的有益效果在于:
1、本发明使用一个轻量化的多尺度学习模块,分别使用1×1、3×3(空洞率为2)和3×3(空洞率为3)的二维卷积学习三种不同的尺度特征。
2、本发明使用了一个有监督的注意力机制进一步学习多尺度的特征,从而减少噪声的影响,得到更加鲁棒的特征。
附图说明
图1为人群拥挤的示例图片和与之对应的真实标签;
图2为本发明中卷积网络模型框架图;
图3为卷积网络的建立及训练的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1-3,基于多尺度注意力感知卷积网络的目标数量统计方法,包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:首先将给定的数据集分为训练集合和测试集合;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Image_Set={I1,I2,...,IN}和与之对应的目标标注Label_Set={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Train_Set={I1,I2,...,IM}与之对应的标注Ltrain_Set={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Test_Set={IM+1,IM+2,...,IN}与之对应的标注Ltest_Set={lM+1,lM+2,...,lN};
步骤102:将步骤101中第κ个图片Iκ转换成高斯密度图denκ(x),可通过下述的公式进行计算:
步骤103:依次对步骤101中的第1张图片直至第N个图片执行步骤102的操作,将图片的标注转换成高斯密度图;从而将训练的标注Ltrain_Set映射为训练真实标签 将测试的标注Ltest_Set映射为测试真实标签
步骤2:对每个图片和它对应的真实标签进行尺寸调整,其具体包括:
步骤202:将与图片对应的高斯密度图也进行尺度调整;第κ个图片Iκ对应的真实标签denκ(x)的尺寸大小为(xκ,yκ),通过步骤201中的调整计算公式后得到调整后真实标签的大小为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
步骤204:依次对步骤103中的第1张图片直至第N个图片的真实标签执行步骤202和步骤203的操作;
步骤3:建立目标数量统计的卷积网络模型;卷积网络模型是基于预训练VGG Net卷积网络的前10层去提取图片的特征,多列不同尺度的感知模块提取图片的尺度变化特征,从像素级的视角关注图片中的感兴趣区,最后通过反卷积层学习后输出密度估计图;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:网络参数主要包括三个部分:一是步骤3中卷积层1到卷积层19.1的参数Φ1;二是卷积层20.1到卷积层20.2的参数Φ2以及剩余的参数Φ3;记步骤3中卷积层20.2的输出为Out_bin,其可表示为:
Out_bin=f(Φ1,Φ2)
其中f(·)为一系列的卷积操作
同时记步骤4中卷积层23的输出为Out_den
Out_den=f(Φ1,Φ2,Φ3)
两个输出都是在给定的监督信号下对网络进行学习,其损失函数记为:
步骤5:测试卷积网络模型;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层20.2的输出Out_bin求和,记为当前图片的目标数量统计。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (1)
1.基于多尺度注意力感知卷积网络的目标数量统计方法,其特征在于,包括以下步骤:
步骤1:制作训练和测试样本集合;将每个图片的目标标注生成真实标签,其具体包括:
步骤101:首先将给定的数据集分为训练集合和测试集合;设数据集合总共有N个图片和与之对应的目标标注,记数据集合中的图片Image_Set={I1,I2,...,IN}和与之对应的目标标注Label_Set={l1,l2,...,lN};将前M个图片和它对应的目标标注设为训练集合,记训练图片为Train_Set={I1,I2,...,IM}与之对应的标注Ltrain_Set={l1,l2,...,lM};同时将后N-M个图片和它对应的目标标注设为测试集合;记测试图片为Test_Set={IM+1,IM+2,...,IN}与之对应的标注Ltest_Set={lM+1,lM+2,...,lN};
步骤102:将步骤101中第κ个图片Iκ转换成高斯密度图denκ(x),可通过下述的公式进行计算:
步骤103:依次对步骤101中的第1张图片直至第N个图片执行步骤102的操作,将图片的标注转换成高斯密度图;从而将训练的标注Ltrain_Set映射为训练真实标签 将测试的标注Ltest_Set映射为测试真实标签
步骤2:对每个图片和它对应的真实标签进行尺寸调整,其具体包括:
步骤202:将与图片对应的高斯密度图也进行尺度调整;第κ个图片Iκ对应的真实标签denκ(x)的尺寸大小为(xκ,yκ),通过步骤201中的调整计算公式后得到调整后真实标签的大小为了使得目标数量保持不变,对调整后的真实标签进行如下操作:
步骤204:依次对步骤103中的第1张图片直至第N个图片的真实标签执行步骤202和步骤203的操作;
步骤3:建立目标数量统计的卷积网络模型;卷积网络模型是基于预训练VGG Net卷积网络的前10层去提取图片的特征,多列不同尺度的感知模块提取图片的尺度变化特征,从像素级的视角关注图片中的感兴趣区,最后通过反卷积层学习后输出密度估计图;
步骤4:将步骤2获得训练样本输入到步骤3建立的卷积网络模型中,通过Adam优化策略对网络进行参数学习,具体包含如下的步骤:
步骤401:网络采取多任务的方式对网络参数进行训练,设置网络的初始学习率为l;
步骤402:网络参数主要包括三个部分:一是步骤3中卷积层1到卷积层19.1的参数Φ1;二是卷积层20.1到卷积层20.2的参数Φ2以及剩余的参数Φ3;记步骤3中卷积层20.2的输出为Out_bin,其可表示为:
Out_bin=f(Φ1,Φ2)
其中f(·)为一系列的卷积操作
同时记步骤4中卷积层23的输出为Out_den
Out_den=f(Φ1,Φ2,Φ3)
两个输出都是在给定的监督信号下对网络进行学习,其损失函数记为:
步骤5:测试卷积网络模型;网络经步骤4训练完成后,保留网络的卷积层的参数;将测试图片通过步骤1和步骤2操作后输入网络中,将步骤3中卷积层20.2的输出Out_bin求和,记为当前图片的目标数量统计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010149434.3A CN111401163B (zh) | 2020-03-04 | 2020-03-04 | 基于多尺度注意力感知卷积网络的目标数量统计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010149434.3A CN111401163B (zh) | 2020-03-04 | 2020-03-04 | 基于多尺度注意力感知卷积网络的目标数量统计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401163A CN111401163A (zh) | 2020-07-10 |
CN111401163B true CN111401163B (zh) | 2022-04-15 |
Family
ID=71430552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010149434.3A Expired - Fee Related CN111401163B (zh) | 2020-03-04 | 2020-03-04 | 基于多尺度注意力感知卷积网络的目标数量统计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401163B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200089B (zh) * | 2020-10-12 | 2021-09-14 | 西南交通大学 | 一种基于车辆计数感知注意力的稠密车辆检测方法 |
CN113313091B (zh) * | 2021-07-29 | 2021-11-02 | 山东建筑大学 | 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709438A (zh) * | 2016-12-14 | 2017-05-24 | 贵州电网有限责任公司电力调度控制中心 | 一种基于视频会议的人数统计方法 |
CN110263849A (zh) * | 2019-06-19 | 2019-09-20 | 合肥工业大学 | 一种基于多尺度注意力机制的人群密度估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830205B (zh) * | 2018-06-04 | 2019-06-14 | 江南大学 | 基于改进全卷积网络的多尺度感知行人检测方法 |
-
2020
- 2020-03-04 CN CN202010149434.3A patent/CN111401163B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106709438A (zh) * | 2016-12-14 | 2017-05-24 | 贵州电网有限责任公司电力调度控制中心 | 一种基于视频会议的人数统计方法 |
CN110263849A (zh) * | 2019-06-19 | 2019-09-20 | 合肥工业大学 | 一种基于多尺度注意力机制的人群密度估计方法 |
Non-Patent Citations (1)
Title |
---|
基于注意力机制的狭小空间内的人群拥挤度分析;张菁 等;《https://doi.org/10.19678/j.issn.1000-3428.0055701》;20191014;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111401163A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111986099B (zh) | 基于融合残差修正的卷积神经网络的耕地监测方法及*** | |
CN105160310A (zh) | 基于3d卷积神经网络的人体行为识别方法 | |
CN111401163B (zh) | 基于多尺度注意力感知卷积网络的目标数量统计方法 | |
CN113298023B (zh) | 一种基于深度学习及图像技术的昆虫动态行为识别方法 | |
Lacewell et al. | Optimization of image fusion using genetic algorithms and discrete wavelet transform | |
CN113657326A (zh) | 一种基于多尺度融合模块和特征增强的杂草检测方法 | |
CN109034258A (zh) | 基于特定物体像素梯度图的弱监督目标检测方法 | |
CN109815973A (zh) | 一种适用于鱼类细粒度识别的深度学习方法 | |
Wang et al. | Using an improved YOLOv4 deep learning network for accurate detection of whitefly and thrips on sticky trap images | |
Janneh et al. | Multi-level feature re-weighted fusion for the semantic segmentation of crops and weeds | |
Zhang et al. | Deep learning based rapid diagnosis system for identifying tomato nutrition disorders | |
Shen et al. | Identifying veraison process of colored wine grapes in field conditions combining deep learning and image analysis | |
Huang et al. | A survey of deep learning-based object detection methods in crop counting | |
CN110705698A (zh) | 尺度自适应感知的目标计数深度网络设计方法 | |
CN116778223A (zh) | 一种基于零标注的多类别目标域数据集标注方法及*** | |
Hammouch et al. | A two-stage deep convolutional generative adversarial network-based data augmentation scheme for agriculture image regression tasks | |
Xu et al. | Cucumber flower detection based on YOLOv5s-SE7 within greenhouse environments | |
CN114596562A (zh) | 一种稻田杂草识别方法 | |
CN111640092B (zh) | 基于多任务协同特征重建目标计数网络的方法 | |
Rozilan et al. | Efficacy of deep learning algorithm in classifying chilli plant growth stages | |
CN111144368A (zh) | 基于长短时记忆神经网络的学生行为检测方法 | |
Tantiborirak et al. | Development of a Tomato Fruit Anomalies Detector for a Small Greenhouse Drone Application | |
Yacharam et al. | Semantic Segmentation of Diseases in Mushrooms using Enhanced Random Forest | |
Coviello et al. | In-field grape berries counting for yield estimation using dilated CNNS | |
CN112070784B (zh) | 一种基于上下文增强网络的感知边缘检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220415 |
|
CF01 | Termination of patent right due to non-payment of annual fee |