CN113902903A - 一种基于下采样的双注意力多尺度融合方法 - Google Patents
一种基于下采样的双注意力多尺度融合方法 Download PDFInfo
- Publication number
- CN113902903A CN113902903A CN202111166829.5A CN202111166829A CN113902903A CN 113902903 A CN113902903 A CN 113902903A CN 202111166829 A CN202111166829 A CN 202111166829A CN 113902903 A CN113902903 A CN 113902903A
- Authority
- CN
- China
- Prior art keywords
- scale
- image
- feature
- downsampling
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 62
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 12
- 238000001514 detection method Methods 0.000 claims abstract description 62
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000008859 change Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000003860 storage Methods 0.000 claims abstract description 3
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000000926 separation method Methods 0.000 abstract description 6
- 235000013399 edible fruits Nutrition 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012271 agricultural production Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mining & Mineral Resources (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Agronomy & Crop Science (AREA)
- Animal Husbandry (AREA)
- Marine Sciences & Fisheries (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于下采样的双注意力多尺度融合方法,包括:采集图像并获取图像的训练数据;将图像的训练数据进行训练并采用基于特征图大小变化的下采样方法提取图像的特征;下采样方法包括:根据下采样倍数的不同而自动切换下采样方式;将提取的图像的特征通过深浅层特征融合模型获得多尺度特征图,使用基于多尺度融合的双注意力算法进行多尺度特征融合,获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支;对每一个检测分支分别构建一个预测分支来检测不同尺度下的图像。还公开了对应的***、电子设备以及计算机可读存储介质,加强特征表达能力,大幅提高检测和分离的准确性、速度以及不同大小物体的检测精度。
Description
技术领域
本发明涉及计算机视觉和图像处理领域,具体涉及一种基于下采样的双注意力多尺度融合方法。
背景技术
近年来随着计算机视觉领域的飞速发展以及智慧农业建设概念、智慧物流等概念的相继提出,基于计算机视觉的物体分离检测技术作为智慧农业建设和智慧物流建设的一项尤为重要的技术,在水果品质检测、成熟度识别、产量预测和自动采摘、包裹的识别和分离,分拣等方面有着广泛的应用。如果能够将该技术应用在果园机器人、物流机器人中,可以大大提升农业生产效率,进一步加快智慧农业、智慧物流领域的建设和发展。由于机器人所搭载的运算设备算力较低,而物体检测决定了机器人后续所要执行的分离操作,因此选用合适的物体检测算法成为了机器人实际应用的关键问题。
高精度的要求对于机器人的工作效率问题充满挑战,现有的机器人普遍无法满足对于集中小目标高精度的检测要求。在实际检测过程中,由于目标的尺寸普遍偏小,而现有模型的层数较低网络结构相对简单,能够提取到的目标有效特征也比较少,检测小目标时效果不佳,导致检测的精度相对较低,无法做到物体的有效分离,不适合用于复杂场景中的密集小目标的检测。而如何满足多场景下在移动端或者固定端计算设备进行精准的物体检测并基于此进行物体分离的需求,是关键所在。
因此需要针对物体尺寸过小难以有效提取特征的问题,提高小目标物体的特征提取能力和提取特征的后处理能力,对智能化农业和物流等生产管理具有重要意义。
发明内容
为了解决现有技术中存在的问题,本发明提供了一种基于下采样的双注意力多尺度融合方法,可以达到集中小目标高精度检测的目的。实验表明,本发明提出的基于下采样的双注意力多尺度融合方法能够大幅度提高检测精度,并且特别是针对集中的小目标检测方面表现更为优异。
本发明一方面提供一种基于下采样的双注意力多尺度融合方法,包括:
S10,采集图像并获取所述图像的训练数据;
S20,对所述图像的训练数据进行训练并采用基于特征图大小变化的下采样方法提取所述图像的特征;所述基于特征图大小变化的下采样方法包括:根据下采样倍数的不同自动切换下采样方式;
S30,将提取的所述图像的特征通过深浅层特征融合模型获得多尺度特征图,基于所述多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合,获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支;
S40,对每一个检测分支分别构建一个预测分支来检测不同尺度下的所述图像。
优选的,所述S10包括:对所述图像进行预处理获得训练数据;其中所述对所述图像进行预处理获得训练数据包括:
保存并制作所述图像的数据集;
在所述图像的数据集中读取训练所需的第一数据集Data=[(I1,i1),(I2,i2),......,(In,in)];
使用数据增强方法将所述第一数据集中的部分或所有所述图像按批次进行缩放、镜像和旋转,从而对于每一张所述图像形成缩放图像、镜像图像和旋转图像,并将所述物体的图像、缩放图像、镜像图像和旋转图像四幅图像合并为一张图像作为训练数据,以提高样本复杂度;
重复上述过程获得全部训练数据,所述全部训练数据为经过各种预处理的图像。
优选的,所述对所述图像的训练数据进行训练并采用基于特征图大小变化的下采样方法提取所述图像的特征包括:
在网络中交替进行基于特征图尺度变化的下采样运算以及嵌套式跨阶段轻量化卷积运算,通过所述基于特征图尺度变化的下采样运算获得所述物体的不同尺度的图像,所述基于特征图尺度变化的下采样运算包括设定特殊步长的卷积下采样运算、最大池化运算、平均池化运算,所述基于特征图尺度变化的下采样运算根据不同尺度特征图的不同特点选择不同的运算方式以实现下采样的功能;通过所述嵌套式跨阶段轻量化卷积运算提取所述不同尺度下所述物体的有效特征;以下采样后经过轻量化卷积运算作为子循环,往复所述子循环,保证检测精度的同时使得网络参数量和计算量尽可能小。
所述S20包括:
S201:进行基于特征图尺度变化的下采样运算,将经过所述预处理得到的图像进行一次下采样获得下采样图像,所述下采样图像作为所述嵌套式跨阶段轻量化卷积运算的输入;
S202:进行嵌套式阶段轻量化卷积运算。
优选的,所述S201包括:
S2011:读取当前输入的经过所述预处理得到的图像的下采样倍数;
S2012:判断此时经过所述预处理得到的图像的下采样倍数是否小于等于预定倍数w,若是则进行S2013;若否则进行S2014;
S2013:对下采样倍数较低的输入图像使用基于跨尺度融合功能的下采样运算进行下采样;
S2014:对下采样倍数较高的输入图像使用基于最大池化运算的下采样运算进行下采样;
S2015:每进行一次S2013或S2014的下采样操作,都将结果xk-1输出到S202中进行特征提取。
优选的,所述S202包括:读取各种不同尺度的图像xk-1,并将其按照特征图维度平均分为m个第一通道M1,M2,M3…Mm分别进行处理,将一个或多个所述第一通道利用嵌套的方式进行一次卷积运算后再次按照特征图维度平均分为n个第二通道N1,N2,N3…Nn;将一个或多个所述第二通道进行几次卷积运算后通过过渡层进行维度整合,再与其他所述第二通道进行合并之后,再次通过过渡层进行维度整合,最后与所述第一通道合并获得合并后的特征图,并将所述合并后的特征图作为下一次实施所述基于特征图尺度变化的下采样的输入,如果此时所述合并后的特征图的下采样倍数大于或等于下采样倍数阈值,则将该步骤中提取到的不同尺度下的特征信息进行特征融合。
优选的,所述将提取的所述图像的特征通过深浅层特征融合模型获得多尺度特征图,基于所述多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合,获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支包括:读取卷积运算后提取的所有不同尺度下的特征信息,并按照三个检测尺度的不同分为三组,其中下采样倍数为最低的特征图分为一组G1;下采样倍数为介于最低和最高之间的特征图分为一组G2;下采样倍数为最高的特征图分为一组G3,每一组平均下采样倍数较低的特征图大尺度特征图,平均下采样倍数较高的为小尺度特征图,剩余一个为等尺度特征图;将所述大尺度特征图进行下采样,将所述小尺度特征图进行上采样,然后进行特征融合,输入到通道注意力机制中增强两种尺度下的通道间的特征表达,然后与另一条支路中从通道注意力机制中输出的等尺度特征图一起输入到空间注意力机制中,最后将三组不同尺度的特征融合结果作为S40的输入。
优选的,所述对每一个检测分支分别构建一个预测分支来检测不同尺度下的所述图像包括:基于多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支框出所述图像中的物体所在区域,然后消除冗余的检测框,获得物体的位置和尺寸信息作为检测结果。
本发明的第二方面提供一种基于下采样的双注意力多尺度融合***,包括:
基于特征图尺度变化的下采样子模块(10),卷积结构图像特征提取子模块(20),多尺度特征图读取模块(30),通道注意力子模块(40)以及空间注意力融合子模块(50);其中,
所述基于特征图尺度变化的下采样子模块(10)包含多种下采样运算,根据不同尺度特征图的不同特点选择不同的运算方式以实现下采样的功能;将每次从所述基于特征图尺度变化的下采样子模块输出的图像输入到所述卷积结构图像特征提取子模块(20)中进行所述图像的特征信息的提取;将不同尺度下的所述图像的特征信息输出到所述多尺度特征图读取模块(30);
所述多尺度特征图读取模块(30)用于从所述卷积结构图像特征提取子模块(20)读取经过卷积运算后提取的不同尺度下的特征信息,将所述不同尺度下的特征信息输入到所述通道注意力子模块(40)中以增强通道间的特征表达,提高多通道特征图的不同维度之间的关联性并进行尺度归一化,然后将尺度归一化后的特征输入到所述空间注意力融合子模块(50)中进行特征融合;所述空间注意力融合子模块(50)使用空间注意力机制增强堆叠密集的小目标特征的表达以提高不同尺寸的目标的检测能力。
本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
本发明提供的方法,具有如下有益效果:
(1)本发明提出的下采样机制有益效果:针对现有轻量化网络模型的网络层数过少,特征表示能力不足,导致精度普遍不高的问题,采用一种基于特征图大小变化的下采样机制,取代了主流方法中使用的单一下采样策略,可以充分利用不同尺度的特征图的特点,轻量化模型的检测精度得到了进一步提高。
(2)本发明提出的双注意力多尺度融合模型有益效果:针对现实场景中多个物体大小差异明显的问题,提出了一种深度浅层融合模型,通过双注意机制的多尺度融合进行特征融合,加强了特征表达能力,大幅提高了不同大小物体的检测精度。
附图说明
图1为本发明优选实施例的基于下采样的双注意力多尺度融合方法流程图;
图2为本发明优选实施例的下采样方法流程图;
图3为本发明优选实施例的基于特征图尺度变化的下采样运算流程图;
图4为本发明优选实施例的基于下采样的双注意力多尺度融合***架构图;
图5为本发明优选实施例的电子设备实施例的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
参见图1,本优选实施例提供了一种基于下采样的双注意力多尺度融合方法,包括:
S10,采集图像并获取图像的训练数据;
S20,将图像的训练数据输入例如轻量化网络或者其他网络架构中进行训练并采用基于特征图大小变化的下采样方法提取图像的特征;基于特征图大小变化的下采样方法包括:根据下采样倍数的不同而自动切换下采样方式;
S30,将提取的图像的特征通过深浅层特征融合模型获得多尺度特征图,基于多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合,获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支;
S40,对每一个检测分支分别构建一个预测分支来检测不同尺度下的图像。
作为优选的实施方式,采集图像包括由一个或以上的可见光摄像装置分别采集不同场景中不同视野范围内的图像,采集后将图像保存并进行数据集标注;在数据集标注时将图像导出,按照目标的最大外接矩形框的形状进行数据集标注。在本实施例中,所述可见光摄像装置的数目为一个。当然,在其他实施例中,可见光摄像装置的数目还可以为两个、三个或多个,其数量区别并不影响本发明设计目的的实现。
作为优选的实施方式,S10包括:对图像进行预处理获得训练数据;其中对图像进行预处理获得训练数据包括:
保存并制作图像的数据集;
对图像的数据集中读取训练所需的第一数据集Data=[(I1,i1),(I2,i2),......,(In,in)];
使用数据增强方法将第一数据集中的部分或所有图像按批次进行缩放、镜像和旋转,从而对于每一张图像形成缩放图像、镜像图像和旋转图像,并将物体的图像、缩放图像、镜像图像和旋转图像四幅图像合并为一张图像,提高样本复杂度;
重复上述过程获得全部训练数据,全部训练数据为经过各种预处理的图像。
作为优选的实施方式,将图像的训练数据进行训练并采用基于特征图大小变化的下采样方法提取图像的特征包括:
在网络中交替进行基于特征图尺度变化的下采样运算以及嵌套式跨阶段轻量化卷积运算,通过基于特征图尺度变化的下采样运算获得物体的不同尺度的图像,基于特征图尺度变化的下采样运算包括设定特殊步长的卷积下采样运算、最大池化运算、平均池化运算,基于特征图尺度变化的下采样运算根据不同尺度特征图的不同特点选择不同的运算方式以实现下采样的功能;通过嵌套式跨阶段轻量化卷积运算提取不同尺度下物体的有效特征;以下采样后经过轻量化卷积运算作为子循环,往复子循环,保证检测精度的同时使得网络参数量和计算量尽可能小。
参见图2,作为优选的实施方式,S20包括:
S201:进行基于特征图尺度变化的下采样运算,将经过预处理得到的图像进行一次下采样获得下采样图像,下采样图像作为嵌套式跨阶段轻量化卷积运算的输入;
S202:进行嵌套式阶段轻量化卷积运算,包括:读取各种不同尺度的图像xk-1,并将其按照特征图维度平均分为m个第一通道M1,M2,M3…Mm分别进行处理,将一个或多个第一通道利用嵌套的方式进行一次卷积运算后再次按照特征图维度平均分为n个第二通道N1,N2,N3…Nn;将一个或多个第二通道进行几次卷积运算后通过过渡层进行维度整合,再与其他第二通道进行合并之后,再次通过过渡层进行维度整合,最后与第一通道合并获得合并后的特征图,并将合并后的特征图作为下一次实施基于特征图尺度变化的下采样的输入,如果此时合并后的特征图的下采样倍数大于或等于下采样倍数阈值,则将该步骤中提取到的不同尺度下的特征信息进行特征融合。
本实施例中,进行嵌套式阶段轻量化卷积运算,包括:从基于特征图尺度变化的下采样子模块中读取各种不同尺度的图像xk-1,并将其按照特征图维度平均分为两个通道分别进行处理,可以表示为xk-1=[x′k-1,x″k-1],其中x′k-1为一通道特征图,x″k-1为二通道特征图;为了进一步减少计算量并有效提取目标特征,将x″k-1利用嵌套的方式进行一次卷积运算后再次按照特征图维度平均分为两个通道,可以表示为x″k-1=[y′k-1,y″k-1],其中y′k-1为三通道特征图,y″k-1为四通道特征图;将y″k-1进行几次卷积后通过过渡层进行维度整合,再与y′k-1进行合并之后再次通过过渡层进行维度整合,最后与x′k-1合并输出到基于特征图尺度变化的下采样子模块中,如果此时特征图的下采样倍数已经小于32,则将该步骤中提取到的不同尺度下的特征信息进行特征融合。
参见图3,作为优选的实施方式,S201包括:
S2011:读取当前输入的经过所述预处理得到的图像的下采样倍数;
S2012:判断此时经过所述预处理得到的图像的下采样倍数是否小于等于预定倍数w,若是则进行S2013;若否则进行S2014;
S2013:对下采样倍数较低的输入图像使用基于跨尺度融合功能的下采样运算进行下采样;
S2014:对下采样倍数较高的输入图像使用基于最大池化运算的下采样运算进行下采样;
S2015:每进行一次S2013或S2014的下采样操作,都将结果xk-1输出到S202中进行特征提取。
作为优选的实施方式,将提取的图像的特征通过深浅层特征融合模型获得多尺度特征图,基于多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合,获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支包括:读取卷积运算后提取的所有不同尺度下的特征信息,并按照三个检测尺度的不同分为三组,其中下采样倍数为最低的特征图分为一组G1;下采样倍数为介于最低和最高之间的特征图分为一组G2;下采样倍数为最高的特征图分为一组G3,每一组平均下采样倍数较低的特征图为大尺度特征图,平均下采样倍数较高的特征图为小尺度特征图,剩余一个特征图为等尺度特征图;将大尺度特征图进行下采样,将小尺度特征图进行上采样,然后进行特征融合,输入到通道注意力机制中增强两种尺度下的通道间的特征表达,然后与另一条支路中从通道注意力机制中输出的等尺度特征图一起输入到空间注意力机制中,最后将三组不同尺度的特征融合结果作为S40的输入。
本实施例中,从轻量化网络或其他网络架构读取卷积运算后提取的所有不同尺度下的特征信息,并按照三个检测尺度的不同分为三组,其中下采样倍数为2倍、4倍和8倍的特征图分为一组G1;下采样倍数为4倍、8倍和16倍的特征图分为一组G2;下采样倍数为8倍、16倍和32倍的特征图分为一组G3,每一组中下采样倍数较低的特征图被命名为大尺度特征图,下采样倍数较高的被命名为小尺度特征图,剩余一个被命名为等尺度特征图;本实施例将大尺度特征图进行下采样,将小尺度特征图进行上采样,然后进行特征融合,输入到通道注意力机制中增强两种尺度下的通道间的特征表达,然后与另一条支路中从通道注意力机制中输出的等尺度特征图一起输入到空间注意力机制中,增强不同空间分布上堆叠密集的目标特征的空间相关性,进一步提高特征融合网络的特征表达能力。
作为优选的实施方式,对每一个检测分支分别构建一个预测分支来检测不同尺度下的图像包括:基于多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支框出图像中的物体所在区域,然后消除冗余的检测框,获得物体的位置和尺寸信息作为检测结果。
具体实施例一:
应用场景:物流领域。
在物流领域,将包裹分类流水线的包裹按照其在传送带上的位置和自身的尺寸信息进行归类运输,包括:以一定的高度差并且以对单件物体能够在整个视野尺寸覆盖的规则架设多台2D相机;获取多台2D相机分别采集的多幅图像,对采集后的多幅图像输入到轻量化主干网络中进行处理,处理过程使用了本实施例的基于下采样的双注意力多尺度融合方法,利用包裹的特征信息将有高度差的两相机间的物流包裹关联匹配;对不同高度相机中对同一包裹成像大小利用相机成像原理计算物体的实际空间尺寸,并输出准确的物***置信息。
具体实施例二:
应用场景:水果分类
实现果实检测网络模型,对于不同种类、成熟度以及果径的水果进行区分,图像处理过程使用了本实施例的基于下采样的双注意力多尺度融合方法,硬件设备使用GEFORCEGTX 1080Ti型号GPU,Intel i7 8th型号CPU的计算机完成整体算法的训练部分训练出一个成熟的模型,并且该模型部署在便携性强、性能表现良好的移动端和固定端计算设备中,分别为NVIDIA Jetson Xavier NX,NVIDIA Jetson TX2和NVIDIA Jetson NANO。
如图4所示,本实施例还提供一种基于下采样的双注意力多尺度融合***,包括:
基于特征图尺度变化的下采样子模块10,卷积结构图像特征提取子模块20,多尺度特征图读取模块30,通道注意力子模块40以及空间注意力融合子模块50;其中,
基于特征图尺度变化的下采样子模块10包含多种下采样运算,根据不同尺度特征图的不同特点选择不同的运算方式以实现下采样的功能;将每次从基于特征图尺度变化的下采样子模块输出的图像输入到卷积结构图像特征提取子模块20中进行图像的特征信息的提取;将不同尺度下的图像的特征信息输出到多尺度特征图读取模块30;
多尺度特征图读取模块30用于从卷积结构图像特征提取子模块20读取经过卷积运算后提取的不同尺度下的特征信息,将所述不同尺度下的特征信息输入到所述通道注意力子模块40中以增强通道间的特征表达,提高多通道特征图的不同维度之间的关联性并进行尺度归一化,然后将尺度归一化后的特征输入到所述空间注意力融合子模块50中进行特征融合;所述空间注意力融合子模块50使用空间注意力机制增强堆叠密集的小目标特征的表达以提高不同尺寸的目标的检测能力。
本实施例还提供了一种存储器,存储有多条指令,指令用于实现如实施例的方法。
如图5所示,本发明还提供了一种电子设备,包括处理器301和与处理器301连接的存储器302,存储器302存储有多条指令,指令可被处理器加载并执行,以使处理器能够执行如实施例的方法。
本实施例的方法可以延伸到所有需要进行密集小目标高效检测的物体检测网络模型应用的智能领域。该算法主要由两个部分组成,主干网络采用速度快精度高的Light-CSPNet,并提出了一种基于特征图大小变化的下采样机制弥补传统单一下采样方法无法考虑不同尺度特征图特点的问题;而检测分支部分针对智能领域的物体图像尺寸普遍过小的问题,设计了多尺度融合的特征提取分支,并用多尺度融合的双注意力机制增强特征的表达能力,进一步提高物体检测的精度。非常适用于部署在计算能力较差的移动端和固定端计算设备上。此外,本实施例中提出的各种组件可以灵活地增加或删除,进一步提高检测精度或检测速度。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于下采样的双注意力多尺度融合方法,其特征在于,包括:
S10,采集图像并获取所述图像的训练数据;
S20,对所述图像的训练数据进行训练并采用基于特征图大小变化的下采样方法提取所述图像的特征;所述基于特征图大小变化的下采样方法包括:根据下采样倍数的不同自动切换下采样方式;
S30,将提取的所述图像的特征通过深浅层特征融合模型获得多尺度特征图,基于所述多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合,获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支;
S40,对每一个检测分支分别构建一个预测分支来检测不同尺度下的所述图像。
2.根据权利要求1所述的一种基于下采样的双注意力多尺度融合方法,其特征在于,所述S10包括:对所述图像进行预处理获得训练数据;其中所述对所述图像进行预处理获得训练数据包括:
保存并制作所述图像的数据集;
在所述图像的数据集中读取训练所需的第一数据集Data=[(I1,i1),(I2,i2),......,(In,in)];
使用数据增强方法将所述第一数据集中的部分或所有所述图像按批次进行缩放、镜像和旋转,对每一张所述图像形成缩放图像、镜像图像和旋转图像,将所述物体的图像、缩放图像、镜像图像和旋转图像四幅图像合并为一张图像作为训练数据,以提高样本复杂度;
重复上述过程获得全部训练数据,所述全部训练数据为经过各种预处理的图像。
3.根据权利要求2所述的一种基于下采样的双注意力多尺度融合方法,其特征在于,所述对所述图像的训练数据进行训练并采用基于特征图大小变化的下采样方法提取所述图像的特征包括:
在网络中交替进行基于特征图尺度变化的下采样运算以及嵌套式跨阶段轻量化卷积运算,通过所述基于特征图尺度变化的下采样运算获得所述物体的不同尺度的图像,所述基于特征图尺度变化的下采样运算包括设定特殊步长的卷积下采样运算、最大池化运算、平均池化运算,所述基于特征图尺度变化的下采样运算根据不同尺度特征图的不同特点选择不同的运算方式以实现下采样的功能;通过所述嵌套式跨阶段轻量化卷积运算提取所述不同尺度下所述物体的有效特征;以下采样后经过轻量化卷积运算作为子循环,往复所述子循环,保证检测精度的同时使得网络参数量和计算量尽可能小;
其中所述S20包括:
S201:进行基于特征图尺度变化的下采样运算,将经过所述预处理得到的图像进行一次下采样获得下采样图像,所述下采样图像作为所述嵌套式跨阶段轻量化卷积运算的输入;
S202:进行嵌套式阶段轻量化卷积运算。
4.根据权利要求3所述的一种基于下采样的双注意力多尺度融合方法,其特征在于,所述S201包括:
S2011:读取当前输入的经过所述预处理得到的图像的下采样倍数;
S2012:判断此时经过所述预处理得到的图像的下采样倍数是否小于等于预定倍数w,若是则进行S2013;若否则进行S2014;
S2013:对下采样倍数较低的输入图像使用基于跨尺度融合功能的下采样运算进行下采样;
S2014:对下采样倍数较高的输入图像使用基于最大池化运算的下采样运算进行下采样;
S2015:每进行一次S2013或S2014的下采样操作,都将结果xk-1输出到S202中进行特征提取。
5.根据权利要求4所述的一种基于下采样的双注意力多尺度融合方法,其特征在于,所述S202包括:读取各种不同尺度的图像xk-1,并将其按照特征图维度平均分为m个第一通道M1,M2,M3…Mm分别进行处理,将一个或多个所述第一通道利用嵌套的方式进行一次卷积运算后再次按照特征图维度平均分为n个第二通道N1,N2,N3…Nn;将一个或多个所述第二通道进行几次卷积运算后通过过渡层进行维度整合,再与其他所述第二通道进行合并之后,再次通过过渡层进行维度整合,最后与所述第一通道合并获得合并后的特征图,并将所述合并后的特征图作为下一次实施所述基于特征图尺度变化的下采样的输入,如果此时所述合并后的特征图的下采样倍数大于或等于下采样倍数阈值,则将该步骤中提取到的不同尺度下的特征信息进行特征融合。
6.根据权利要求1所述的一种基于下采样的双注意力多尺度融合方法,其特征在于,所述将提取的所述图像的特征通过深浅层特征融合模型获得多尺度特征图,基于所述多尺度特征图使用基于多尺度融合的双注意力算法进行多尺度特征融合,获得多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支包括:读取卷积运算后提取的所有不同尺度下的特征信息,并按照三个检测尺度的不同分为三组,其中下采样倍数为最低的特征图分为一组G1;下采样倍数为介于最低和最高之间的特征图分为一组G2;下采样倍数为最高的特征图分为一组G3,每一组平均下采样倍数较低的特征图为大尺度特征图,平均下采样倍数较高的特征图为小尺度特征图,剩余一个特征图为等尺度特征图;将所述大尺度特征图进行下采样,将所述小尺度特征图进行上采样,然后进行特征融合,输入到通道注意力机制中增强两种尺度下的通道间的特征表达,然后与从通道注意力机制中输出的等尺度特征图一起输入到空间注意力机制中,最后将三组不同尺度的特征融合结果作为S40的输入。
7.根据权利要求1所述的一种基于下采样的双注意力多尺度融合方法,其特征在于,所述对每一个检测分支分别构建一个预测分支来检测不同尺度下的所述图像包括:基于多个不同深层小尺度检测分支和多个不同浅层大尺度检测分支框出所述图像中的物体所在区域,然后消除冗余的检测框,获得物体的位置和尺寸信息作为检测结果。
8.一种基于下采样的双注意力多尺度融合***,其特征在于包括:
基于特征图尺度变化的下采样子模块(10),卷积结构图像特征提取子模块(20),多尺度特征图读取模块(30),通道注意力子模块(40)以及空间注意力融合子模块(50);其中,
所述基于特征图尺度变化的下采样子模块(10)包含多种下采样运算,根据不同尺度特征图的不同特点选择不同的运算方式以实现下采样的功能;将每次从所述基于特征图尺度变化的下采样子模块输出的图像输入到所述卷积结构图像特征提取子模块(20)中进行所述图像的特征信息的提取;将不同尺度下的所述图像的特征信息输出到所述多尺度特征图读取模块(30);
所述多尺度特征图读取模块(30)用于从所述卷积结构图像特征提取子模块(20)读取经过卷积运算后提取的不同尺度下的特征信息,将所述不同尺度下的特征信息输入到所述通道注意力子模块(40)中以增强通道间的特征表达,提高多通道特征图的不同维度之间的关联性并进行尺度归一化,然后将尺度归一化后的特征输入到所述空间注意力融合子模块(50)中进行特征融合;所述空间注意力融合子模块(50)使用空间注意力机制增强堆叠密集的小目标特征的表达以提高不同尺寸的目标的检测能力。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1-7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111166829.5A CN113902903A (zh) | 2021-09-30 | 2021-09-30 | 一种基于下采样的双注意力多尺度融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111166829.5A CN113902903A (zh) | 2021-09-30 | 2021-09-30 | 一种基于下采样的双注意力多尺度融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113902903A true CN113902903A (zh) | 2022-01-07 |
Family
ID=79190143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111166829.5A Pending CN113902903A (zh) | 2021-09-30 | 2021-09-30 | 一种基于下采样的双注意力多尺度融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113902903A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115754107A (zh) * | 2022-11-08 | 2023-03-07 | 福建省龙德新能源有限公司 | 用于六氟磷酸锂制备的自动化采样分析***及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956094A (zh) * | 2019-11-09 | 2020-04-03 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
US20200250462A1 (en) * | 2018-11-16 | 2020-08-06 | Beijing Sensetime Technology Development Co., Ltd. | Key point detection method and apparatus, and storage medium |
CN112183203A (zh) * | 2020-08-26 | 2021-01-05 | 北京工业大学 | 一种基于多尺度像素特征融合的实时交通标志检测方法 |
CN112215755A (zh) * | 2020-10-28 | 2021-01-12 | 南京信息工程大学 | 一种基于反投影注意力网络的图像超分辨率重建方法 |
CN113076926A (zh) * | 2021-04-25 | 2021-07-06 | 华南理工大学 | 一种带语义引导的多尺度目标检测方法及*** |
CN113379709A (zh) * | 2021-06-16 | 2021-09-10 | 浙江工业大学 | 一种基于稀疏多尺度体素特征融合的三维目标检测方法 |
-
2021
- 2021-09-30 CN CN202111166829.5A patent/CN113902903A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200250462A1 (en) * | 2018-11-16 | 2020-08-06 | Beijing Sensetime Technology Development Co., Ltd. | Key point detection method and apparatus, and storage medium |
CN110956094A (zh) * | 2019-11-09 | 2020-04-03 | 北京工业大学 | 一种基于非对称双流网络的rgb-d多模态融合人员检测方法 |
CN112183203A (zh) * | 2020-08-26 | 2021-01-05 | 北京工业大学 | 一种基于多尺度像素特征融合的实时交通标志检测方法 |
CN112215755A (zh) * | 2020-10-28 | 2021-01-12 | 南京信息工程大学 | 一种基于反投影注意力网络的图像超分辨率重建方法 |
CN113076926A (zh) * | 2021-04-25 | 2021-07-06 | 华南理工大学 | 一种带语义引导的多尺度目标检测方法及*** |
CN113379709A (zh) * | 2021-06-16 | 2021-09-10 | 浙江工业大学 | 一种基于稀疏多尺度体素特征融合的三维目标检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115754107A (zh) * | 2022-11-08 | 2023-03-07 | 福建省龙德新能源有限公司 | 用于六氟磷酸锂制备的自动化采样分析***及其方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN113902901B (zh) | 一种基于轻量化检测的物体分离方法与*** | |
CN110610210B (zh) | 一种多目标检测方法 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测*** | |
CN108830185B (zh) | 基于多任务联合学习的行为识别及定位方法 | |
CN114943697A (zh) | 一种基于轻量化改进yolo的番茄成熟度检测方法 | |
CN113223027A (zh) | 基于PolarMask的未成熟柿子分割方法及*** | |
CN108363962B (zh) | 一种基于多层次特征深度学习的人脸检测方法及*** | |
CN116310997A (zh) | 一种基于深度学习的海上小目标检测方法 | |
Peng et al. | Litchi detection in the field using an improved YOLOv3 model | |
CN113902903A (zh) | 一种基于下采样的双注意力多尺度融合方法 | |
CN114550148A (zh) | 基于深度学习的严重遮挡商品的识别检测计数方法与*** | |
CN111488839B (zh) | 一种目标检测方法和目标检测*** | |
CN117132910A (zh) | 一种用于无人机的车辆检测方法、装置及存储介质 | |
CN113902904B (zh) | 一种轻量化网络架构*** | |
CN117079125A (zh) | 一种基于改进型YOLOv5的猕猴桃授粉花朵识别方法 | |
CN116740337A (zh) | 一种红花采摘点识别定位方法及采摘*** | |
CN116843971A (zh) | 一种基于自注意力机制的萱草病害目标检测方法及*** | |
CN115995017A (zh) | 一种果实识别与定位方法、装置及介质 | |
Yu et al. | ASE-UNet: An Orange Fruit Segmentation Model in an Agricultural Environment Based on Deep Learning | |
Zhao et al. | FCOS-LSC: A novel model for green fruit detection in a complex orchard environment | |
CN113887425B (zh) | 一种面向低算力运算装置的轻量化物体检测方法与*** | |
CN106326846B (zh) | 无人机图像的林木植株并行提取方法 | |
CN113033263A (zh) | 一种人脸图像年龄特征识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |