CN113313091B - 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 - Google Patents

仓储物流下的基于多重注意力和拓扑约束的密度估计方法 Download PDF

Info

Publication number
CN113313091B
CN113313091B CN202110860327.6A CN202110860327A CN113313091B CN 113313091 B CN113313091 B CN 113313091B CN 202110860327 A CN202110860327 A CN 202110860327A CN 113313091 B CN113313091 B CN 113313091B
Authority
CN
China
Prior art keywords
feature map
module
convolution
attention
conv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110860327.6A
Other languages
English (en)
Other versions
CN113313091A (zh
Inventor
聂秀山
孟令灿
王春涛
陶鹏
袭肖明
刘兴波
尹义龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong New Beiyang Information Technology Co Ltd
Shandong Jianzhu University
Original Assignee
Shandong New Beiyang Information Technology Co Ltd
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong New Beiyang Information Technology Co Ltd, Shandong Jianzhu University filed Critical Shandong New Beiyang Information Technology Co Ltd
Priority to CN202110860327.6A priority Critical patent/CN113313091B/zh
Publication of CN113313091A publication Critical patent/CN113313091A/zh
Application granted granted Critical
Publication of CN113313091B publication Critical patent/CN113313091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06MCOUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
    • G06M1/00Design features of general application
    • G06M1/27Design features of general application for representing the result of count in the form of electric signals, e.g. by sensing markings on the counter drum
    • G06M1/272Design features of general application for representing the result of count in the form of electric signals, e.g. by sensing markings on the counter drum using photoelectric means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Image Analysis (AREA)

Abstract

一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法,模型中的多重注意力模块可以对目标物体和背景进行区分,让模型更关注目标物体区域。模型中的细节增强模块提取利用小尺寸卷积核提取细节特征,利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体,目标物体自身的空间约束关系,解决同一目标物体多次预测,同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失,进一步降低了模型估计目标物体数量的准确性。

Description

仓储物流下的基于多重注意力和拓扑约束的密度估计方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法。
背景技术
近年来,随着社会的不断发展,科技变化也日新月异。随着物联网电子设备以及通信设备的不断发展,各项人工智能技术也让人们的生活变得更加便捷与美好。从智能手机的更新换代到智能家居的兴起,从辅助驾驶的逐渐落地到实现无人驾驶的研究热潮,再到大量出现的无人超市与逐渐兴起的无人派送。随着计算机软硬件的不断发展特别是GPU的发展,再加上大数据技术的不断推进,深度学习引领着人工智能与计算机视觉领域进入了发展黄金期。而目标密度估计也正是计算机视觉领域的一项重要研究内容。目标密度估计实际上就是估计指定目标在图像或视频中的密度分布情况,统计目标数量。
目标密度估计***可以应用到社会生产与生活中方方面面。例如,超市中货架商品计数,智慧仓储中的货物计件,物流运输的钢管、原木等目标的数量统计。由于它应用的广泛性,目标密度估计已经成为了计算机视觉领域的一个热门研究方向。
早期,自动化***发展还不够成熟,应用也不够广泛,目标的统计分析工作基本上完全是由人工完成。一方面,人如果长时间处于高度集中的工作中,人的眼睛和大脑会产生疲劳感,容易精力不集中,那么在工作过程中就会不可避免的出现错误,最后会影响结果统计的精确性,另一方面,人工操作会使统计分析结果带有很强的主观判断,最后会影响到分析结果的客观性。因此,不论是在哪一个应用领域,如果人工操作存在的问题不能得到妥善解决,都会有可能导致严重的经济损失。
后来出现了基于光阻法和电阻法的物体计数器。其工作原理是当物体进入到敏感区之后,它会隔断计数器的光路,因此改变了光电接收器上接收到的光电强度,计数器将变化了的光电信息转换成电压脉冲信号,以此来达到对目标计数的目的。由于光电管响应具有滞后性,往往多个物体目标物体已经通过敏感区,仪器才开始响应。对于复杂重叠的目标物体,光电管计数方式容易出现漏记的情况。另外光电管的灵敏度很容易衰减,需要经常更换,增加了计数成本。
随着图像技术的发展,结合图像处理的目标计数方式成为研究的热点。由于物体目标之间相互靠的太近时,会出现粘连和重叠的现象,形成多种形态的组合结构,要完成对物体目标的特征提取与分析,就需要将该区域分割成具有清晰轮廓的单个物体。近年来,国内外学者根据不同的目标对象开展了各种相应的分割算法的研究,大体上可以分为基于形态学的分割算法、基于边缘轮廓的分割算法和其他分割算法。
早期的图像技术需要人为的设计特征模式,用于提取图像中目标的特征。这种传统手工特征需要根据数据的特点精心设计,虽然是在众多的视觉神经理论依据下,但是难免有人为的想当然的成分。设计的特征模式往往依赖于数据库,也就是说设计的特征只对某些数据库表现好,而对其它的数据库效果并不能保证就好。或者当数据来源发生变化,比如对RGB数据设计的特征换成Kinect深度图像,这些特征点就不一定适应了,因此又得重新设计。基于目标检测或者分割的方法虽然可以精确的标出目标物体的位置,但却不能描述目标物体的空间分布情况,从而弱化了其在实际场景中的应用范围。而且计数性能也会随着局部目标物体数量的增加而急剧下降。
2012年, 由于AlexNet在被誉为计算机视觉中的奥林匹克竞赛的 ImageNet中获得了巨大的成功。所以很多研究人员逐渐将研究领域转到了深度学习,基于卷积神经网络进行目标检测的相关方法不断的提出,卷积神经网络在目标计数领域掀起了一波波热潮。
发明内容
本发明为了克服以上技术的不足,提供了一种计数准确度高、可以解决目标物体之间遮挡导致无法识别的仓储物流下的基于多重注意力和拓扑约束的密度估计方法。
本发明克服其技术问题所采用的技术方案是:
一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法,包括如下步骤:
(a)计算机获取计数目标物体的原始图像,对原始图像进行预处理,用于模型的训练和测试;
(b)构建密度估计模型并对模型进行初始化,将训练样本输入密度估计模型中,通过最小化损失函数优化密度估计模型;
(c)固定优化后的密度估计模型,并将密度估计模型部署至服务器;
(d)图像采集设备采集图像输入密度估计模型,得到图像中物体的个数。
进一步的,步骤(a)中预处理的方法为:采用labeling标注工具标注计数目标物体的原始图片,标注方式为在目标物体的类圆形状的几何中使用一个像素点标注位置,将标注后的每幅图像生成一个记录标注像素点位置的npy文件。
进一步的,步骤(b)包括如下步骤:
(b-1)构建Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层、批归一化层和激活层,通过VGG-16网络架构预训练Conv-5、Conv-4、Conv-3和Conv-1,2中的10层卷积层的权重参数,Conv-5卷积组的输出分别连接RMBB-1模块和MLA-1模块,Conv-4卷积组的输出分别连接RMBB-2模块和MLA-2模块,Conv-3卷积组的输出分别连接RMBB-3模块和MLA-3模块,将RMBB-1模块与MLA-1模块的输出进行相乘操作后进行双线性插值操作,将RMBB-2模块与MLA-2模块的输出进行相乘操作后与上采样结果相加并连接上采样操作和
Figure 502303DEST_PATH_IMAGE001
卷积,将RMBB-3模块与MLA-3模块的输出进行相乘操作后与
Figure 249679DEST_PATH_IMAGE001
卷积做加法运算后连接上采样操作和
Figure 663343DEST_PATH_IMAGE001
卷积,
Figure 546985DEST_PATH_IMAGE001
卷积后与Conv-1,2输出相加,将相加结果连接上采样操作和
Figure 237336DEST_PATH_IMAGE001
卷积,完成密度估计模型的构建,密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化,MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块;
(b-2)将训练样本中的目标图像输入到密度估计模型中,图像依次经过Conv-5、Conv-4、Conv-3和Conv-1,2卷积组提取目标初级特征,分别得到初级特征图
Figure 206429DEST_PATH_IMAGE002
Figure 220522DEST_PATH_IMAGE003
Figure 443824DEST_PATH_IMAGE004
Figure 88432DEST_PATH_IMAGE005
(b-3)初级特征图
Figure 341559DEST_PATH_IMAGE002
经过RMBB-1模块得到细节增强特征图
Figure 847757DEST_PATH_IMAGE006
,将初级特征图
Figure 705992DEST_PATH_IMAGE002
输入MLA-1模块,在空间维度上对初级特征图
Figure 255922DEST_PATH_IMAGE002
分别进行最大值池化操作和均值池化操作,得到特征图
Figure 934028DEST_PATH_IMAGE007
和特征图
Figure 40655DEST_PATH_IMAGE008
,将特征图
Figure 753396DEST_PATH_IMAGE007
和特征图
Figure 739807DEST_PATH_IMAGE008
经过共享的卷积提取通道上的注意力信息,分别得到
Figure 653012DEST_PATH_IMAGE009
Figure 281439DEST_PATH_IMAGE010
,将
Figure 848687DEST_PATH_IMAGE009
Figure 756731DEST_PATH_IMAGE010
相加后经过sigmoid激活得到注意力权重
Figure 206167DEST_PATH_IMAGE011
,将
Figure 107127DEST_PATH_IMAGE011
与初级特征图
Figure 279613DEST_PATH_IMAGE002
相乘得到经过通道维度注意力优化的特征图
Figure 607827DEST_PATH_IMAGE012
,将特征图
Figure 544559DEST_PATH_IMAGE012
在通道上分别求最大值和均值,得到
Figure 734363DEST_PATH_IMAGE013
Figure 10623DEST_PATH_IMAGE014
,将
Figure 306475DEST_PATH_IMAGE013
Figure 705006DEST_PATH_IMAGE014
在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure 947768DEST_PATH_IMAGE015
,将空间注意力权重
Figure 344115DEST_PATH_IMAGE015
经过sigmoid激活之后与特征图
Figure 14130DEST_PATH_IMAGE012
相乘,得到经过时空维度注意力优化的特征图
Figure 410608DEST_PATH_IMAGE016
(b-4)将细节增强特征图
Figure 191482DEST_PATH_IMAGE006
与特征图
Figure 707914DEST_PATH_IMAGE016
相乘得到特征图
Figure 299564DEST_PATH_IMAGE017
,对特征图
Figure 432605DEST_PATH_IMAGE017
进行双线性插值操作,得到与初级特征图
Figure 751590DEST_PATH_IMAGE003
维度相同的特征图
Figure 873261DEST_PATH_IMAGE018
(b-5)初级特征图
Figure 885080DEST_PATH_IMAGE003
经过RMBB-2模块得到细节增强特征图
Figure 770996DEST_PATH_IMAGE019
,将初级特征图
Figure 641476DEST_PATH_IMAGE003
输入MLA-2模块,在空间维度上对初级特征图
Figure 866921DEST_PATH_IMAGE003
分别进行最大值池化操作和均值池化操作,得到特征图
Figure 580799DEST_PATH_IMAGE020
和特征图
Figure 642427DEST_PATH_IMAGE021
,将特征图
Figure 365532DEST_PATH_IMAGE020
和特征图
Figure 711063DEST_PATH_IMAGE021
经过共享的卷积提取通道上的注意力信息,分别得到
Figure 549837DEST_PATH_IMAGE022
Figure 348029DEST_PATH_IMAGE023
,将
Figure 874825DEST_PATH_IMAGE022
Figure 825595DEST_PATH_IMAGE023
相加后经过sigmoid激活之后得到注意力权重
Figure 84538DEST_PATH_IMAGE024
,将
Figure 370025DEST_PATH_IMAGE024
与初级特征图
Figure 903775DEST_PATH_IMAGE003
相乘得到经过通道维度注意力优化的特征图
Figure 502859DEST_PATH_IMAGE025
,将特征图
Figure 198283DEST_PATH_IMAGE025
在通道上分别求最大值和均值,得到
Figure 705487DEST_PATH_IMAGE026
Figure 528081DEST_PATH_IMAGE027
,将
Figure 233869DEST_PATH_IMAGE026
Figure 365773DEST_PATH_IMAGE027
在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure 111006DEST_PATH_IMAGE028
,将空间注意力权重
Figure 720979DEST_PATH_IMAGE028
经过sigmoid激活之后与特征图
Figure 484536DEST_PATH_IMAGE025
相乘,得到经过时空维度注意力优化的特征图
Figure 334811DEST_PATH_IMAGE029
(b-6)将细节增强特征图
Figure 816608DEST_PATH_IMAGE019
与特征图
Figure 964693DEST_PATH_IMAGE029
相乘得到特征图
Figure 848335DEST_PATH_IMAGE030
,将特征图
Figure 866582DEST_PATH_IMAGE030
与特征图
Figure 835675DEST_PATH_IMAGE018
相加,对相加结果进行上采样操作,使用卷积核大小为
Figure 53030DEST_PATH_IMAGE001
的卷积进行通道维度上降维,使其维度从512维降到256维,得到输出特征图
Figure 541911DEST_PATH_IMAGE031
(b-7)初级特征图
Figure 920940DEST_PATH_IMAGE004
经过RMBB-3模块得到细节增强特征图
Figure 377329DEST_PATH_IMAGE032
,将初级特征图
Figure 680265DEST_PATH_IMAGE004
输入MLA-3模块,在空间维度上对初级特征图
Figure 538500DEST_PATH_IMAGE004
分别进行最大值池化操作和均值池化操作,得到特征图
Figure 88430DEST_PATH_IMAGE033
和特征图
Figure 766536DEST_PATH_IMAGE034
,将特征图
Figure 873163DEST_PATH_IMAGE033
和特征图
Figure 585905DEST_PATH_IMAGE034
经过共享的卷积提取通道上的注意力信息,分别得到
Figure 306736DEST_PATH_IMAGE035
Figure 219941DEST_PATH_IMAGE036
,将
Figure 113947DEST_PATH_IMAGE035
Figure 946774DEST_PATH_IMAGE036
相加后经过sigmoid激活之后得到注意力权重
Figure 854818DEST_PATH_IMAGE037
,将
Figure 241937DEST_PATH_IMAGE037
与初级特征图
Figure 939635DEST_PATH_IMAGE004
相乘得到经过通道维度注意力优化的特征图
Figure 377701DEST_PATH_IMAGE038
,将特征图
Figure 705914DEST_PATH_IMAGE038
在通道上分别求最大值和均值,得到
Figure 845908DEST_PATH_IMAGE039
Figure 19401DEST_PATH_IMAGE040
,将
Figure 108710DEST_PATH_IMAGE039
Figure 607825DEST_PATH_IMAGE040
在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure 235115DEST_PATH_IMAGE041
,将空间注意力权重
Figure 960101DEST_PATH_IMAGE041
经过sigmoid激活之后与特征图
Figure 356448DEST_PATH_IMAGE038
相乘,得到经过时空维度注意力优化的特征图
Figure 823201DEST_PATH_IMAGE042
(b-8)将细节增强特征图
Figure 422941DEST_PATH_IMAGE032
与特征图
Figure 469394DEST_PATH_IMAGE042
相乘得到特征图
Figure 516985DEST_PATH_IMAGE043
,对特征图
Figure 108634DEST_PATH_IMAGE043
与特征图
Figure 444938DEST_PATH_IMAGE031
相加,对相加结果进行上采样操作,使用卷积核大小为
Figure 29503DEST_PATH_IMAGE001
的卷积进行通道维度上降维,使其维度从256维降到128维,得到输出特征图
Figure 947911DEST_PATH_IMAGE044
(b-9)将初级特征图
Figure 959730DEST_PATH_IMAGE005
与特征图
Figure 783329DEST_PATH_IMAGE044
相加,得到特征图
Figure 906006DEST_PATH_IMAGE045
,对特征图
Figure 675991DEST_PATH_IMAGE045
进行上采样操作还原输入图像的分辨率,上采样后经过一层卷积,输出模型计算的密度似然图
Figure 858711DEST_PATH_IMAGE046
(b-10)通过公式
Figure 169607DEST_PATH_IMAGE047
计算得到拓扑持久损失
Figure 643444DEST_PATH_IMAGE048
,式中
Figure 723396DEST_PATH_IMAGE049
为第
Figure 77017DEST_PATH_IMAGE050
个显著点,
Figure 422679DEST_PATH_IMAGE051
Figure 152737DEST_PATH_IMAGE050
个显著点对应的鞍点,
Figure 87195DEST_PATH_IMAGE052
为密度似然图
Figure 362450DEST_PATH_IMAGE046
中点的值,
Figure 444675DEST_PATH_IMAGE053
为图像中标记目标物体的数量,
Figure 712846DEST_PATH_IMAGE054
Figure 249613DEST_PATH_IMAGE053
个显著点的集合,
Figure 210616DEST_PATH_IMAGE055
为密度似然图
Figure 780137DEST_PATH_IMAGE046
Figure 337152DEST_PATH_IMAGE053
个显著点以外的点的集合;
(b-11)通过公式
Figure 511781DEST_PATH_IMAGE056
计算得到多层次计算损失
Figure 112527DEST_PATH_IMAGE057
,式中
Figure 372607DEST_PATH_IMAGE058
Figure 530050DEST_PATH_IMAGE059
为模型训练时的批大小,
Figure 372235DEST_PATH_IMAGE060
Figure 675040DEST_PATH_IMAGE061
尺度下输入图像的真值图,
Figure 891258DEST_PATH_IMAGE062
为相乘操作,
Figure 304922DEST_PATH_IMAGE063
为L2范数;
(b-12)通过公式
Figure 569042DEST_PATH_IMAGE064
计算不同尺度下多重注意力监督下的损失
Figure 777169DEST_PATH_IMAGE065
Figure 746262DEST_PATH_IMAGE066
Figure 245508DEST_PATH_IMAGE067
Figure 983657DEST_PATH_IMAGE068
Figure 175735DEST_PATH_IMAGE069
分别调整到与
Figure 366545DEST_PATH_IMAGE070
相同尺寸时的值,
Figure 918749DEST_PATH_IMAGE071
Figure 262137DEST_PATH_IMAGE072
为注意力图的阈值参数,
Figure 812067DEST_PATH_IMAGE072
的取值为1e-5,
Figure 755752DEST_PATH_IMAGE073
为真值密度图
Figure 859450DEST_PATH_IMAGE074
中的一点,
Figure 306611DEST_PATH_IMAGE075
为真值图中一点的值;
(b-13)通过公式
Figure 27443DEST_PATH_IMAGE076
计算模型损失
Figure 5894DEST_PATH_IMAGE077
,式中
Figure 103163DEST_PATH_IMAGE078
Figure 670411DEST_PATH_IMAGE079
Figure 562143DEST_PATH_IMAGE080
均为常数,利用模型损失
Figure 762312DEST_PATH_IMAGE077
对密度估计模型进行迭代优化,得到优化后的密度估计模型。
进一步的,步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成,每个多分支模块后面使用ReLu激活函数激活,每个多分支模块由多尺寸小卷积核堆叠而成,每个多分支模块通过一层
Figure 663272DEST_PATH_IMAGE001
的卷积层卷积,第一个多分支模块经过
Figure 85026DEST_PATH_IMAGE001
的卷积层卷积后连接
Figure 960709DEST_PATH_IMAGE081
空洞率为1的卷积层,第二个多分支模块经过
Figure 100703DEST_PATH_IMAGE001
的卷积层卷积后依次连接
Figure 539775DEST_PATH_IMAGE082
的卷积层和
Figure 829417DEST_PATH_IMAGE081
空洞率为3的卷积层,第三个多分支模块经过
Figure 328532DEST_PATH_IMAGE001
的卷积层卷积后依次连接
Figure 752560DEST_PATH_IMAGE082
的卷积层、
Figure 746055DEST_PATH_IMAGE083
的卷积层和
Figure 142401DEST_PATH_IMAGE081
空洞率为3的卷积层,第四个多分支模块经过
Figure 546838DEST_PATH_IMAGE001
的卷积层卷积后依次连接
Figure 661424DEST_PATH_IMAGE081
的卷积层和
Figure 989769DEST_PATH_IMAGE081
空洞率为5的卷积层,将第一多分支模块的结果、第二多分支模块的结果、第三多分支模块的结果和第四多分支模块的结果在通道维度拼接,拼接后使用
Figure 506200DEST_PATH_IMAGE001
的卷积降维,将结果与第五多分支模块经过
Figure 81538DEST_PATH_IMAGE001
的卷积层卷积后的结果相加,将相加结果经过ReLu激活输出。
优选的,步骤(b-13)中在模型初始训练时
Figure 434153DEST_PATH_IMAGE078
设置为0,经过30到50次迭代优化后再引入
Figure 18718DEST_PATH_IMAGE078
Figure 186395DEST_PATH_IMAGE079
设置为1,
Figure 946016DEST_PATH_IMAGE080
设置为0.001。
进一步的,步骤(d)中将图像采集设备采集图像输入步骤(b)中的密度估计模型,得到步骤(b-9)中输出模型计算的密度似然图
Figure 769615DEST_PATH_IMAGE046
,对密度似然图
Figure 892292DEST_PATH_IMAGE046
积分得到图像中目标物体的个数。
本发明的有益效果是:采用深度神经网络来挖掘图像更深、更为抽象的特征,模型更加精确。采用基于密度图回归的技术方法,在提高计数精度的同时可以估计目标物体的分布情况。以密度图作为回归目标,无需检测整个目标物体,可以解决目标物体之间遮挡导致目标物体形态变化,无法识别的问题。模型估计的密度图除了可以统计出目标物体数量之外,也可反映出目标物体的分布情况。计数更加灵活,只需要对密度图上和图像中需要统计的对应区域积分就可以得到相应区域的目标物体数量。模型中的多重注意力模块可以对目标物体和背景进行区分,让模型更关注目标物体区域。模型中的细节增强模块利用小尺寸卷积核提取细节特征,利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体,目标物体自身的空间约束关系,解决同一目标物体多次预测,同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失,进一步提高了模型估计目标物体数量的准确性。
附图说明
图1为本发明的方法流程图;
图2为本发明的模型结构图;
图3为本发明的残差多分支结构图;
图4为本发明的多分支结构图;
图5为本发明的待计数的目标图像;
图6为本发明的labeling标注工具进行点标注的图像;
图7为本发明的将RMBB-1特征图输出为密度图;
图8为本发明的MLA-1注意力图可视化后的图像;
图9为本发明的模型输出密度似然图。
具体实施方式
下面结合附图1至附图4对本发明做进一步说明。
一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法,包括如下步骤:
(a)计算机获取计数目标物体的原始图像,对原始图像进行预处理,用于模型的训练和测试。
(b)构建密度估计模型并对模型进行初始化,将训练样本输入密度估计模型中,通过最小化损失函数优化密度估计模型。
(c)固定优化后的密度估计模型,并将密度估计模型部署至服务器。
(d)图像采集设备采集图像输入密度估计模型,得到图像中物体的个数。
采集设备可以是手机,其更简单,易部署。甚至可以直接利用广泛部署的监控摄像头采集的视频计数,而不需要额外增加采集设备。而且可以应用到更大的计数场景。采用深度神经网络来挖掘图像更深、更为抽象的特征,模型更加精确。采用基于密度图回归的技术方法,在提高计数精度的同时可以估计目标物体的分布情况。以密度图作为回归目标,无需检测整个目标物体,可以解决目标物体之间遮挡导致目标物体形态变化,无法识别的问题。模型估计的密度图除了可以统计出目标物体数量之外,也可反映出目标物体的分布情况。计数更加灵活,只需要对密度图上和图像中需要统计的对应区域积分就可以得到相应区域的目标物体数量。图像的低层具有丰富轮廓、边缘、颜色、纹理等特征,高层的特征具有丰富的语义信息,所以本发明将底层特征和高层特征融合使用增强特征的表征能力。模型中的多重注意力模块可以对目标物体和背景进行区分,让模型更关注目标物体区域。模型中的细节增强模块利用小尺寸卷积核提取细节特征,利用多分支多尺寸卷积核提取多尺度特征。通过堆叠卷积核和使用空洞卷积增大感受野。从而提高了模型的计数精确度。利用拓扑约束损失可以使模型学习目标物体与附近目标物体,目标物体自身的空间约束关系,解决同一目标物体多次预测,同一位置多个预测目标物体的语义问题。同时拓扑约束损失加入目标物体计数损失,进一步提高了模型估计目标物体数量的准确性。
进一步的,步骤(a)中预处理的方法为:采用labeling标注工具标注计数目标物体的原始图片,标注方式为在目标物体的类圆形状的几何中使用一个像素点标注位置,将标注后的每幅图像生成一个记录标注像素点位置的npy文件。
进一步的,步骤(b)包括如下步骤:
(b-1)构建Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层、批归一化层和激活层,通过VGG-16网络架构预训练Conv-5、Conv-4、Conv-3和Conv-1,2中的10层卷积层的权重参数,Conv-5卷积组的输出分别连接RMBB-1模块和MLA-1模块,Conv-4卷积组的输出分别连接RMBB-2模块和MLA-2模块,Conv-3卷积组的输出分别连接RMBB-3模块和MLA-3模块,将RMBB-1模块与MLA-1模块的输出进行相乘操作后进行双线性插值操作,将RMBB-2模块与MLA-2模块的输出进行相乘操作后与上采样结果相加并连接上采样操作和
Figure 117737DEST_PATH_IMAGE001
卷积,将RMBB-3模块与MLA-3模块的输出进行相乘操作后与
Figure 847927DEST_PATH_IMAGE001
卷积做加法运算后连接上采样操作和
Figure 424402DEST_PATH_IMAGE001
卷积,
Figure 350769DEST_PATH_IMAGE001
卷积后与Conv-1,2输出相加,将相加结果连接上采样操作和
Figure 181453DEST_PATH_IMAGE001
卷积,完成密度估计模型的构建,密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化,MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块。
(b-2)将训练样本中的目标图像输入到密度估计模型中,图像依次经过Conv-5、Conv-4、Conv-3和Conv-1,2卷积组提取目标初级特征,分别得到初级特征图
Figure 535074DEST_PATH_IMAGE002
Figure 333266DEST_PATH_IMAGE003
Figure 610795DEST_PATH_IMAGE004
Figure 545253DEST_PATH_IMAGE005
(b-3) 初级特征图
Figure 69775DEST_PATH_IMAGE002
经过RMBB-1模块得到细节增强特征图
Figure 355263DEST_PATH_IMAGE006
,将初级特征图
Figure 371236DEST_PATH_IMAGE002
输入MLA-1模块,在空间维度上对初级特征图
Figure 222517DEST_PATH_IMAGE002
分别进行最大值池化操作和均值池化操作,得到特征图
Figure 183520DEST_PATH_IMAGE007
和特征图
Figure 441457DEST_PATH_IMAGE008
,将特征图
Figure 247739DEST_PATH_IMAGE007
和特征图
Figure 422368DEST_PATH_IMAGE008
经过共享的卷积提取通道上的注意力信息,分别得到
Figure 836163DEST_PATH_IMAGE009
Figure 96243DEST_PATH_IMAGE010
,将
Figure 706216DEST_PATH_IMAGE009
Figure 469773DEST_PATH_IMAGE010
相加后经过sigmoid激活得到注意力权重
Figure 257731DEST_PATH_IMAGE011
,将
Figure 801845DEST_PATH_IMAGE011
与初级特征图
Figure 215509DEST_PATH_IMAGE002
相乘得到经过通道维度注意力优化的特征图
Figure 846954DEST_PATH_IMAGE012
,将特征图
Figure 320661DEST_PATH_IMAGE012
在通道上分别求最大值和均值,得到
Figure 24175DEST_PATH_IMAGE013
Figure 975950DEST_PATH_IMAGE014
,将
Figure 527148DEST_PATH_IMAGE013
Figure 640598DEST_PATH_IMAGE014
在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure 175615DEST_PATH_IMAGE015
,将空间注意力权重
Figure 931082DEST_PATH_IMAGE015
经过sigmoid激活之后与特征图
Figure 789316DEST_PATH_IMAGE012
相乘,得到经过时空维度注意力优化的特征图
Figure 89979DEST_PATH_IMAGE016
(b-4)将细节增强特征图
Figure 33664DEST_PATH_IMAGE006
与特征图
Figure 327242DEST_PATH_IMAGE016
相乘得到特征图
Figure 584524DEST_PATH_IMAGE017
,对特征图
Figure 570934DEST_PATH_IMAGE017
进行双线性插值操作,得到与初级特征图
Figure 1916DEST_PATH_IMAGE003
维度相同的特征图
Figure 833605DEST_PATH_IMAGE018
(b-5)初级特征图
Figure 151585DEST_PATH_IMAGE003
经过RMBB-2模块得到细节增强特征图
Figure 308897DEST_PATH_IMAGE019
,将初级特征图
Figure 23912DEST_PATH_IMAGE003
输入MLA-2模块,在空间维度上对初级特征图
Figure 410025DEST_PATH_IMAGE003
分别进行最大值池化操作和均值池化操作,得到特征图
Figure 97359DEST_PATH_IMAGE020
和特征图
Figure 425572DEST_PATH_IMAGE021
,将特征图
Figure 299987DEST_PATH_IMAGE020
和特征图
Figure 755370DEST_PATH_IMAGE021
经过共享的卷积提取通道上的注意力信息,分别得到
Figure 93948DEST_PATH_IMAGE022
Figure 593062DEST_PATH_IMAGE023
,将
Figure 702576DEST_PATH_IMAGE022
Figure 679759DEST_PATH_IMAGE023
相加后经过sigmoid激活之后得到注意力权重
Figure 341685DEST_PATH_IMAGE024
,将
Figure 559171DEST_PATH_IMAGE024
与初级特征图
Figure 673757DEST_PATH_IMAGE003
相乘得到经过通道维度注意力优化的特征图
Figure 189052DEST_PATH_IMAGE025
,将特征图
Figure 705484DEST_PATH_IMAGE025
在通道上分别求最大值和均值,得到
Figure 297134DEST_PATH_IMAGE026
Figure 695754DEST_PATH_IMAGE027
,将
Figure 280319DEST_PATH_IMAGE026
Figure 136411DEST_PATH_IMAGE027
在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure 148229DEST_PATH_IMAGE028
,将空间注意力权重
Figure 768566DEST_PATH_IMAGE028
经过sigmoid激活之后与特征图
Figure 662483DEST_PATH_IMAGE025
相乘,得到经过时空维度注意力优化的特征图
Figure 887928DEST_PATH_IMAGE029
(b-6)将细节增强特征图
Figure 70648DEST_PATH_IMAGE019
与特征图
Figure 647123DEST_PATH_IMAGE029
相乘得到特征图
Figure 120960DEST_PATH_IMAGE030
,将特征图
Figure 200912DEST_PATH_IMAGE030
与特征图
Figure 820112DEST_PATH_IMAGE018
相加,对相加结果进行上采样操作,使用卷积核大小为
Figure 103457DEST_PATH_IMAGE001
的卷积进行通道维度上降维,使其维度从512维降到256维,得到输出特征图
Figure 567936DEST_PATH_IMAGE031
(b-7)初级特征图
Figure 564711DEST_PATH_IMAGE004
经过RMBB-3模块得到细节增强特征图
Figure 105545DEST_PATH_IMAGE032
,将初级特征图
Figure 125454DEST_PATH_IMAGE004
输入MLA-3模块,在空间维度上对初级特征图
Figure 393624DEST_PATH_IMAGE004
分别进行最大值池化操作和均值池化操作,得到特征图
Figure 448168DEST_PATH_IMAGE033
和特征图
Figure 891394DEST_PATH_IMAGE034
,将特征图
Figure 460916DEST_PATH_IMAGE033
和特征图
Figure 532777DEST_PATH_IMAGE034
经过共享的卷积提取通道上的注意力信息,分别得到
Figure 926980DEST_PATH_IMAGE035
Figure 58884DEST_PATH_IMAGE036
,将
Figure 850123DEST_PATH_IMAGE035
Figure 476407DEST_PATH_IMAGE036
相加后经过sigmoid激活之后得到注意力权重
Figure 239964DEST_PATH_IMAGE037
,将
Figure 73928DEST_PATH_IMAGE037
与初级特征图
Figure 572036DEST_PATH_IMAGE004
相乘得到经过通道维度注意力优化的特征图
Figure 985700DEST_PATH_IMAGE038
,将特征图
Figure 869343DEST_PATH_IMAGE038
在通道上分别求最大值和均值,得到
Figure 811891DEST_PATH_IMAGE039
Figure 528786DEST_PATH_IMAGE040
,将
Figure 746141DEST_PATH_IMAGE039
Figure 281028DEST_PATH_IMAGE040
在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure 676368DEST_PATH_IMAGE041
,将空间注意力权重
Figure 867178DEST_PATH_IMAGE041
经过sigmoid激活之后与特征图
Figure 622644DEST_PATH_IMAGE038
相乘,得到经过时空维度注意力优化的特征图
Figure 28349DEST_PATH_IMAGE042
(b-8)注意力的目的是预测每个像素点的属于前景的概率,模型通过学习会更加关注目标物体区域。在训练过程中,通过计算不同尺度下的多重注意力监督下的损失,提高定位精度,降低模型学习难度。
这可以看作具有两类的语义分割问题。将细节增强特征图
Figure 843858DEST_PATH_IMAGE032
与特征图
Figure 521964DEST_PATH_IMAGE042
相乘得到特征图
Figure 815542DEST_PATH_IMAGE043
,对特征图
Figure 279016DEST_PATH_IMAGE043
与特征图
Figure 62164DEST_PATH_IMAGE031
相加,对相加结果进行上采样操作,使用卷积核大小为
Figure 493146DEST_PATH_IMAGE001
的卷积进行通道维度上降维,使其维度从256维降到128维,得到输出特征图
Figure 72638DEST_PATH_IMAGE044
(b-9)将初级特征图
Figure 639886DEST_PATH_IMAGE005
与特征图
Figure 797197DEST_PATH_IMAGE044
相加,得到融合图像的底层特征,即特征图
Figure 997366DEST_PATH_IMAGE045
,例如,边缘、颜色、纹理和形状特征。对特征图
Figure 898326DEST_PATH_IMAGE045
进行上采样操作还原输入图像的分辨率,上采样后经过一层卷积,输出模型计算的密度似然图
Figure 585659DEST_PATH_IMAGE046
(b-10)通过公式
Figure 648293DEST_PATH_IMAGE047
计算得到拓扑持久损失
Figure 335757DEST_PATH_IMAGE048
,最大化前
Figure 774829DEST_PATH_IMAGE053
个点的显著性,并且最小化其余点的显著性。式中
Figure 51089DEST_PATH_IMAGE049
为第
Figure 300936DEST_PATH_IMAGE050
个显著点,
Figure 928227DEST_PATH_IMAGE051
Figure 967727DEST_PATH_IMAGE050
个显著点对应的鞍点,
Figure 377455DEST_PATH_IMAGE049
Figure 47471DEST_PATH_IMAGE051
均是通过归并树算法在密度似然图
Figure 896478DEST_PATH_IMAGE046
中搜索得到的,
Figure 677352DEST_PATH_IMAGE052
为密度似然图
Figure 944517DEST_PATH_IMAGE046
中点的值,
Figure 582172DEST_PATH_IMAGE053
为图像中标记目标物体的数量,
Figure 918475DEST_PATH_IMAGE054
Figure 253772DEST_PATH_IMAGE053
个显著点的集合,
Figure 359132DEST_PATH_IMAGE055
为密度似然图
Figure 167688DEST_PATH_IMAGE046
Figure 7599DEST_PATH_IMAGE053
个显著点以外的点的集合。最小化
Figure 864697DEST_PATH_IMAGE048
算是就是相当于最大化前
Figure 355721DEST_PATH_IMAGE053
个点的显著性,并且最小化其余点的显著性,这样就可以使得不同显著点之间形成清晰的边界。
(b-11)通过公式
Figure 538440DEST_PATH_IMAGE056
计算得到多层次计算损失
Figure 393876DEST_PATH_IMAGE057
,式中
Figure 320244DEST_PATH_IMAGE058
Figure 665775DEST_PATH_IMAGE084
即对应网络中得到的特征图
Figure 301287DEST_PATH_IMAGE085
Figure 630637DEST_PATH_IMAGE086
Figure 845849DEST_PATH_IMAGE087
Figure 45886DEST_PATH_IMAGE088
Figure 367146DEST_PATH_IMAGE059
为模型训练时的批大小,
Figure 137787DEST_PATH_IMAGE060
Figure 671536DEST_PATH_IMAGE061
尺度下输入图像的真值图,
Figure 522818DEST_PATH_IMAGE062
为相乘操作,
Figure 700465DEST_PATH_IMAGE063
为L2范数。
(b-12)注意力图的损失的目的是预测每个像素的属于前景的概率,给前景更多的关注。在训练过程中,通过计算不同尺度下的多重注意力监督下的损失,提高定位精度,降低模型学习难度。这可以看作具有两类的语义分割问题。通过公式
Figure 473249DEST_PATH_IMAGE064
计算不同尺度下多重注意力监督下的损失
Figure 341847DEST_PATH_IMAGE065
Figure 1630DEST_PATH_IMAGE066
Figure 133534DEST_PATH_IMAGE067
Figure 862456DEST_PATH_IMAGE068
Figure 738008DEST_PATH_IMAGE069
分别调整到与
Figure 252297DEST_PATH_IMAGE070
相同尺寸时的值,
Figure 351840DEST_PATH_IMAGE071
Figure 568058DEST_PATH_IMAGE072
为注意力图的阈值参数,
Figure 732454DEST_PATH_IMAGE072
的取值为1e-5,
Figure 616096DEST_PATH_IMAGE073
为真值密度图
Figure 886541DEST_PATH_IMAGE074
中的一点,
Figure 603436DEST_PATH_IMAGE075
为真值图中一点的值。
(b-13)通过公式
Figure 820791DEST_PATH_IMAGE076
计算模型损失
Figure 293361DEST_PATH_IMAGE077
,式中
Figure 937969DEST_PATH_IMAGE078
Figure 145090DEST_PATH_IMAGE079
Figure 697294DEST_PATH_IMAGE080
均为常数,利用模型损失
Figure 555529DEST_PATH_IMAGE077
对密度估计模型进行迭代优化,得到优化后的密度估计模型。
进一步的,细节增强模块使用的是残差多分支模块(Residual Multi-BrachBlock, RMBB),具体的步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成,每个多分支模块后面使用ReLu激活函数激活,每个多分支模块由多尺寸小卷积核堆叠而成,每个多分支模块通过一层
Figure 856191DEST_PATH_IMAGE001
的卷积层卷积,第一个多分支模块经过
Figure 534297DEST_PATH_IMAGE001
的卷积层卷积后连接
Figure 93455DEST_PATH_IMAGE081
空洞率为1的卷积层,第二个多分支模块经过
Figure 353666DEST_PATH_IMAGE001
的卷积层卷积后依次连接
Figure 340076DEST_PATH_IMAGE082
的卷积层和
Figure 505478DEST_PATH_IMAGE081
空洞率为3的卷积层,第三个多分支模块经过
Figure 337168DEST_PATH_IMAGE001
的卷积层卷积后依次连接
Figure 941235DEST_PATH_IMAGE082
的卷积层、
Figure 895285DEST_PATH_IMAGE083
的卷积层和
Figure 547983DEST_PATH_IMAGE081
空洞率为3的卷积层,第四个多分支模块经过
Figure 199675DEST_PATH_IMAGE001
的卷积层卷积后依次连接
Figure 621429DEST_PATH_IMAGE081
的卷积层和
Figure 949643DEST_PATH_IMAGE081
空洞率为5的卷积层,将第一多分支模块的结果、第二多分支模块的结果、第三多分支模块的结果和第四多分支模块的结果在通道维度拼接,拼接后使用
Figure 89637DEST_PATH_IMAGE001
的卷积降维,将结果与第五多分支模块经过
Figure 76179DEST_PATH_IMAGE001
的卷积层卷积后的结果相加,将相加结果经过ReLu激活输出。
优选的,步骤(b-13)中在模型初始训练时
Figure 618018DEST_PATH_IMAGE078
设置为0,经过30到50次迭代优化后再引入
Figure 851554DEST_PATH_IMAGE078
Figure 229576DEST_PATH_IMAGE079
设置为1,
Figure 472339DEST_PATH_IMAGE080
设置为0.001。根据不同的应用场景
Figure 665423DEST_PATH_IMAGE078
的取值是不同的,一般情况下,
Figure 83241DEST_PATH_IMAGE078
的取值范围是大于等于0小于等于10,若是场景中目标物体十分密集,则模型训练难以收敛,需要增大
Figure 197828DEST_PATH_IMAGE078
的取值,同理,若是场景中目标物体不是很密集,则需要减小
Figure 978702DEST_PATH_IMAGE078
的取值。
进一步的,步骤(d)中将图像采集设备采集图像输入步骤(b)中的密度估计模型,得到步骤(b-9)中输出模型计算的密度似然图
Figure 229555DEST_PATH_IMAGE046
,对密度似然图
Figure 821204DEST_PATH_IMAGE046
积分得到图像中目标物体的个数。
下面通过附图5所示的以矿泉水瓶为计数目标的照片对本发明进行举例说明,附图5是超市货架上拍摄的一幅商品图像,附图6是将附图5通过labeling标注工具标注之后的结果,其中白色像素点标记了计数目标的类圆形状的几何中心点。附图7是模型中RMBB-1输出的特征图按照密度图的计算方式可视化的结果。可以很明显的看出,模型对目标物体的预测基本符合。但是多数目标物体边界模糊,还需要融合多尺度信息和细节信息对特征进行优化,降低模型边界预测误差。附图8是MLA-1注意力图可视化后的图像,这里将MLA模块的注意力权重以掩膜的方式,在原始图像上可视化。从图中可以很清晰的看出,对于目标物体和背景来说,模型对包含目标物体区域有较高的关注度。这也足以证明模型中的多重注意力能够引导模型对目标和背景进行有效区分。最后如附图9所示,将模型最后计算得到密度似然图进行可视化。可以很明显的看出,每个计数目标的预测区域都非常集中。模型预测目标之间拥有非常清晰的边界线,预测结果中几乎不存在目标相互重叠的现象,这可以极大的降低计数误差。从以上的结果中也证明了本发明的有效性和创新性。得到密度似然图后,通过公式
Figure 219825DEST_PATH_IMAGE089
积分得到图像中目标物体的个数
Figure 538810DEST_PATH_IMAGE090
,式中
Figure 457219DEST_PATH_IMAGE091
为密度似然图中第
Figure 469037DEST_PATH_IMAGE092
个点,
Figure 292637DEST_PATH_IMAGE093
为密度似然图中点
Figure 697205DEST_PATH_IMAGE091
的值,
Figure 922650DEST_PATH_IMAGE094
Figure 649910DEST_PATH_IMAGE095
为密度似然图的像素点集合。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种仓储物流下的基于多重注意力和拓扑约束的密度估计方法,其特征在于,包括如下步骤:
(a)计算机获取计数目标物体的原始图像,对原始图像进行预处理,用于模型的训练和测试;
(b)构建密度估计模型并对模型进行初始化,将训练样本输入密度估计模型中,通过最小化损失函数优化密度估计模型;
(c)固定优化后的密度估计模型,并将密度估计模型部署至服务器;
(d)图像采集设备采集图像输入密度估计模型,得到图像中物体的个数;
步骤(b)包括如下步骤:
(b-1)构建Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层、批归一化层和激活层,通过VGG-16网络架构预训练Conv-5、Conv-4、Conv-3和Conv-1,2中的10层卷积层的权重参数,Conv-5卷积组的输出分别连接RMBB-1模块和MLA-1模块,Conv-4卷积组的输出分别连接RMBB-2模块和MLA-2模块,Conv-3卷积组的输出分别连接RMBB-3模块和MLA-3模块,将RMBB-1模块与MLA-1模块的输出进行相乘操作后进行双线性插值操作,将RMBB-2模块与MLA-2模块的输出进行相乘操作后与上采样结果相加并连接上采样操作和1×1卷积,将RMBB-3模块与MLA-3模块的输出进行相乘操作后与1×1卷积做加法运算后连接上采样操作和1×1卷积,1×1卷积后与Conv-1,2输出相加,将相加结果连接上采样操作和1×1卷积,完成密度估计模型的构建,密度估计模型中除了Conv-5、Conv-4、Conv-3和Conv-1,2的卷积层之外的其它网络参数采用随机初始化的方式进行参数初始化,MLA-1模块、MLA-2模块和MLA-3模块均为多重注意力模块;
(b-2)将训练样本中的目标图像输入到密度估计模型中,图像依次经过Conv-5、Conv-4、Conv-3和Conv-1,2卷积组提取目标初级特征,分别得到初级特征图f4、f3、f2和f1
(b-3)初级特征图f4经过RMBB-1模块得到细节增强特征图rf4,将初级特征图f4输入MLA-1模块,在空间维度上对初级特征图f4分别进行最大值池化操作和均值池化操作,得到特征图
Figure FDA0003258310250000011
和特征图
Figure FDA0003258310250000012
将特征图
Figure FDA0003258310250000013
和特征图
Figure FDA0003258310250000014
经过共享的卷积提取通道上的注意力信息,分别得到
Figure FDA0003258310250000015
Figure FDA0003258310250000016
Figure FDA0003258310250000017
Figure FDA0003258310250000018
相加后经过sigmoid激活得到注意力权重Fc 1,将Fc 1与初级特征图f4相乘得到经过通道维度注意力优化的特征图F′c1,将特征图F′c1在通道上分别求最大值和均值,得到F′max1和F′avg1,将F′max1和F′avg1在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure FDA0003258310250000019
将空间注意力权重
Figure FDA00032583102500000110
经过sigmoid激活之后与特征图F′c1相乘,得到经过时空维度注意力优化的特征图AF′4
(b-4)将细节增强特征图rf4与特征图AF′4相乘得到特征图F′4,对特征图F′4进行双线性插值操作,得到与初级特征图f3维度相同的特征图F4 out
(b-5)初级特征图f3经过RMBB-2模块得到细节增强特征图rf3,将初级特征图f3输入MLA-2模块,在空间维度上对初级特征图f3分别进行最大值池化操作和均值池化操作,得到特征图
Figure FDA0003258310250000021
和特征图
Figure FDA0003258310250000022
将特征图
Figure FDA0003258310250000023
和特征图
Figure FDA0003258310250000024
经过共享的卷积提取通道上的注意力信息,分别得到
Figure FDA0003258310250000025
Figure FDA0003258310250000026
Figure FDA0003258310250000027
Figure FDA0003258310250000028
相加后经过sigmoid激活之后得到注意力权重Fc 2,将Fc 2与初级特征图f3相乘得到经过通道维度注意力优化的特征图F′c2,将特征图F′c2在通道上分别求最大值和均值,得到F′max2和F′avg2,将F′max2和F′avg2在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure FDA0003258310250000029
将空间注意力权重
Figure FDA00032583102500000210
经过sigmoid激活之后与特征图F′c2相乘,得到经过时空维度注意力优化的特征图AF′3
(b-6)将细节增强特征图rf3与特征图AF′3相乘得到特征图F′3,将特征图F′3与特征图F4 out相加,对相加结果进行上采样操作,使用卷积核大小为1×1的卷积进行通道维度上降维,使其维度从512维降到256维,得到输出特征图F3 out
(b-7)初级特征图f2经过RMBB-3模块得到细节增强特征图rf2,将初级特征图f2输入MLA-3模块,在空间维度上对初级特征图f2分别进行最大值池化操作和均值池化操作,得到特征图
Figure FDA00032583102500000211
和特征图
Figure FDA00032583102500000212
将特征图
Figure FDA00032583102500000213
和特征图
Figure FDA00032583102500000214
经过共享的卷积提取通道上的注意力信息,分别得到
Figure FDA00032583102500000215
Figure FDA00032583102500000216
Figure FDA00032583102500000217
Figure FDA00032583102500000218
相加后经过sigmoid激活之后得到注意力权重Fc 3,将Fc 3与初级特征图f2相乘得到经过通道维度注意力优化的特征图F′c3,将特征图F′c3在通道上分别求最大值和均值,得到F′max3和F′avg3,将F′max3和F′avg3在通道维度上拼接,拼接后经过卷积层降维得到通道为1的空间注意力权重
Figure FDA00032583102500000219
将空间注意力权重
Figure FDA00032583102500000220
经过sigmoid激活之后与特征图F′c3相乘,得到经过时空维度注意力优化的特征图AF′2
(b-8)将细节增强特征图rf2与特征图AF′2相乘得到特征图F′2,对特征图F′2与特征图F3 out相加,对相加结果进行上采样操作,使用卷积核大小为1×1的卷积进行通道维度上降维,使其维度从256维降到128维,得到输出特征图F2 out
(b-9)将初级特征图f1与特征图F2 out相加,得到特征图F1′,对特征图F1′进行上采样操作还原输入图像的分辨率,上采样后经过一层卷积,输出模型计算的密度似然图f;
(b-10)通过公式
Figure FDA0003258310250000031
计算得到拓扑持久损失
Figure FDA0003258310250000032
式中mi为第i个显著点,Si第i个显著点对应的鞍点,f(·)为密度似然图f中点的值,c为图像中标记目标物体的数量,Mc为c个显著点的集合,
Figure FDA0003258310250000033
为密度似然图f中c个显著点以外的点的集合;
(b-11)通过公式
Figure FDA0003258310250000034
计算得到多层次计算损失
Figure FDA0003258310250000035
式中M∈{1,2,3,4},N为模型训练时的批大小,Fj gt为j尺度下输入图像的真值图,⊙为相乘操作,||·||2为L2范数;
(b-12)通过公式
Figure FDA0003258310250000036
计算不同尺度下多重注意力监督下的损失
Figure FDA0003258310250000037
Q={4,3,2},i∈{4,3,2},Ai gt为Agt分别调整到与Ai p相同尺寸时的值,
Figure FDA0003258310250000038
t为注意力图的阈值参数,t的取值为1e-5,xi为真值密度图Fgt中的一点,Fgt(·)为真值图中一点的值;
(b-13)通过公式
Figure FDA0003258310250000039
计算模型损失
Figure FDA00032583102500000310
式中λpres、λ1及λ2均为常数,利用模型损失
Figure FDA00032583102500000311
对密度估计模型进行迭代优化,得到优化后的密度估计模型;
步骤(b-1)中的RMBB-1模块、RMBB-2模块和RMBB-3模块均由五个多分支模块以残差的方式连接而成,每个多分支模块后面使用ReLu激活函数激活,每个多分支模块由多尺寸小卷积核堆叠而成,每个多分支模块通过一层1×1的卷积层卷积,第一个多分支模块经过1×1的卷积层卷积后连接3×3空洞率为1的卷积层,第二个多分支模块经过1×1的卷积层卷积后依次连接1×3的卷积层和3×3空洞率为3的卷积层,第三个多分支模块经过1×1的卷积层卷积后依次连接1×3的卷积层、3×1的卷积层和3×3空洞率为3的卷积层,第四个多分支模块经过1×1的卷积层卷积后依次连接3×3的卷积层和3×3空洞率为5的卷积层,将第一多分支模块的结果、第二多分支模块的结果、第三多分支模块的结果和第四多分支模块的结果在通道维度拼接,拼接后使用11的卷积降维,将结果与第五多分支模块经过11的卷积层卷积后的结果相加,将相加结果经过ReLu激活输出。
2.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法,其特征在于,步骤(a)中预处理的方法为:采用labeling标注工具标注计数目标物体的原始图片,标注方式为在目标物体的类圆形状的几何中使用一个像素点标注位置,将标注后的每幅图像生成一个记录标注像素点位置的npy文件。
3.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法,其特征在于:步骤(b-13)中在模型初始训练时λpres设置为0,经过30到50次迭代优化后再引入λpres,λ1设置为1,λ2设置为0.001。
4.根据权利要求1所述的仓储物流下的基于多重注意力和拓扑约束的密度估计方法,其特征在于:步骤(d)中将图像采集设备采集图像输入步骤(b)中的密度估计模型,得到步骤(b-9)中输出模型计算的密度似然图f,对密度似然图f积分得到图像中目标物体的个数。
CN202110860327.6A 2021-07-29 2021-07-29 仓储物流下的基于多重注意力和拓扑约束的密度估计方法 Active CN113313091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110860327.6A CN113313091B (zh) 2021-07-29 2021-07-29 仓储物流下的基于多重注意力和拓扑约束的密度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110860327.6A CN113313091B (zh) 2021-07-29 2021-07-29 仓储物流下的基于多重注意力和拓扑约束的密度估计方法

Publications (2)

Publication Number Publication Date
CN113313091A CN113313091A (zh) 2021-08-27
CN113313091B true CN113313091B (zh) 2021-11-02

Family

ID=77381968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110860327.6A Active CN113313091B (zh) 2021-07-29 2021-07-29 仓储物流下的基于多重注意力和拓扑约束的密度估计方法

Country Status (1)

Country Link
CN (1) CN113313091B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401163A (zh) * 2020-03-04 2020-07-10 南京林业大学 基于多尺度注意力感知卷积网络的目标数量统计方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN110188685B (zh) * 2019-05-30 2021-01-05 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及***
CN111860162B (zh) * 2020-06-17 2023-10-31 上海交通大学 一种视频人群计数***及方法
CN112464893A (zh) * 2020-12-10 2021-03-09 山东建筑大学 一种复杂环境下的拥挤度分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401163A (zh) * 2020-03-04 2020-07-10 南京林业大学 基于多尺度注意力感知卷积网络的目标数量统计方法

Also Published As

Publication number Publication date
CN113313091A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
Jia et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot
CN110956185B (zh) 一种图像显著目标的检测方法
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数***及方法
CN104462494B (zh) 一种基于无监督特征学习的遥感图像检索方法及***
CN110942471B (zh) 一种基于时空约束的长时目标跟踪方法
Derpanis et al. Classification of traffic video based on a spatiotemporal orientation analysis
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN110991257B (zh) 基于特征融合与svm的极化sar溢油检测方法
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN110633727A (zh) 基于选择性搜索的深度神经网络舰船目标细粒度识别方法
CN113129336A (zh) 一种端到端多车辆跟踪方法、***及计算机可读介质
Fan et al. A novel sonar target detection and classification algorithm
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及***
CN111814696A (zh) 一种基于改进YOLOv3的视频船舶目标检测方法
CN116580322A (zh) 一种地面背景下无人机红外小目标检测方法
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
Hu et al. Automatic detection of pecan fruits based on Faster RCNN with FPN in orchard
Kajabad et al. YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg
CN117079095A (zh) 基于深度学习的高空抛物检测方法、***、介质和设备
CN113313091B (zh) 仓储物流下的基于多重注意力和拓扑约束的密度估计方法
CN114037737B (zh) 一种基于神经网络的近岸海底鱼类检测及跟踪统计方法
CN116030511A (zh) 一种基于ToF的三维人脸识别方法
CN111914110A (zh) 一种基于深度激活显著区域的实例检索方法
CN117392392B (zh) 一种割胶线识别与生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 250101 1000, Feng Ming Road, Lingang Development Zone, Licheng District, Ji'nan, Shandong

Applicant after: SHANDONG JIANZHU University

Applicant after: SHANDONG NEW BEIYANG INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 264203 No. 126, Kunlun Road, Weihai City, Shandong Province (Science and Technology Park)

Applicant before: SHANDONG NEW BEIYANG INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: SHANDONG JIANZHU University

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant