CN115272648B - 用于小目标检测的多层级感受野扩展方法与*** - Google Patents

用于小目标检测的多层级感受野扩展方法与*** Download PDF

Info

Publication number
CN115272648B
CN115272648B CN202211209625.XA CN202211209625A CN115272648B CN 115272648 B CN115272648 B CN 115272648B CN 202211209625 A CN202211209625 A CN 202211209625A CN 115272648 B CN115272648 B CN 115272648B
Authority
CN
China
Prior art keywords
layer
feature
receptive field
features
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211209625.XA
Other languages
English (en)
Other versions
CN115272648A (zh
Inventor
阙越
甘梦晗
刘志伟
张月园
熊汉卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Minglong Electronic Technology Co ltd
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202211209625.XA priority Critical patent/CN115272648B/zh
Publication of CN115272648A publication Critical patent/CN115272648A/zh
Application granted granted Critical
Publication of CN115272648B publication Critical patent/CN115272648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种用于小目标检测的多层级感受野扩展方法与***,引入Swin Transformer作为模型的主干网络,利用其层次性、局部性与平移不变性对小目标进行特征提取;根据主干网络各阶段输出特征的不同,设计了多级感受野扩展网络,进一步处理主干网络的输出特征,以避免小目标信息丢失问题;此外,所提出的感受野放大模块能有效地扩展感受野。根据任务需求,灵活调整各层感受野放大模块的结构,以匹配不同尺度目标所需感受野,并获取丰富的上下文信息;另一方面,所提出的GIOU loss与BIOU loss的联合损失用于增强目标的定位性能;经对比试验验证,本发明在小目标检测方面有很好的表现。

Description

用于小目标检测的多层级感受野扩展方法与***
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种用于小目标检测的多层级感受野扩展方法与***。
背景技术
目标检测是计算机视觉领域的重要研究方向,也是其它高层次视觉任务的基础。虽然使用深度学习方法的目标检测算法有了飞速的发展,但小目标检测仍是目标检测中的难点。对于自动驾驶领域,精准快速检测出影响交通的小目标可以保证驾驶人出行安全;对于工业自动化领域,准确定位并识别出材料上的小缺陷可保证工业生产效率;对于卫星遥感领域,小目标检测可助于遏制非法渔船及非法转运货物等问题。因此,开发出用于小目标检测的多层级感受野放大网络,具有广泛应用价值和学术研究价值。
在目标检测领域,最具权威性的COCO数据集中使用的是绝对尺寸定义,规定小于或等于32×32像素的目标为小目标,此标准被广泛使用。在COCO数据集上,小目标检测精度通常不如普通目标检测精度,因此小目标检测比普通目标更具有挑战性。具体的,小目标检测任务主要面临四个挑战:首先,小物体特征难以提取,由于缺乏视觉信息,很难从低分辨率的小物体中提取判别特征信息;其次,由于下采样,小物体的特征可能会聚合成一个点,甚至会在深层特征层上消失;再次,感受野不匹配,大感受野适合大物体检测,小感受野有利于小物体检测;最后,小物体需要较高的定位精度,边界框的偏移极大地影响了小目标检测,小物体很难准确定位,可能会出现漏检的情况。
基于此,有必要提出一种用于小目标检测的多层级感受野扩展方法与***,以解决上述技术问题。
发明内容
为此,本发明的实施例提出一种用于小目标检测的多层级感受野扩展方法与***,以解决上述技术问题。
本发明提出一种用于小目标检测的多层级感受野扩展方法,其中,所述方法包括如下步骤:
步骤一、对COCO数据集中的输入图像进行小目标检测适用的预处理;
步骤二、引入Swin Transformer作为主干网络,利用Swin Transformer的分层结构对所述输入图像进行特征提取,以得到多层特征,其中每层特征对应有一特征层;
步骤三、构建多层级感受野特征融合网络,通过多层级感受野特征融合网络中的感受野特征放大模块匹配Swin Transformer中各特征层的所需感受野并补充浅层预测特征,其中,进行匹配后,每个特征层对应有多个感受野特征放大模块;
步骤四、将GIOU loss与BIOU loss的线性组合作为边界框回归损失,根据对应的边界框回归损失函数以加强目标定位效果;
步骤五、将输入图像中的不同尺度目标分配在具有不同感受野的特征层上,利用检测模型中的浅层预测特征层获得对小目标进行定位与识别,以得到小目标的定位识别结果。
本发明提出一种用于小目标检测的多层级感受野扩展方法,引入SwinTransformer作为模型的主干网络,利用其层次性、局部性与平移不变性对小目标进行特征提取;根据主干网络各阶段输出特征的不同,设计了多级感受野扩展网络,进一步处理主干网络的输出特征,以避免小目标信息丢失问题;此外,所提出的感受野放大模块能有效地扩展感受野。根据任务需求,灵活调整各层感受野放大模块的结构,以匹配不同尺度目标所需感受野,并获取丰富的上下文信息;另一方面,所提出的GIOU loss 与 BIOU loss的联合损失用于增强目标的定位性能;经对比试验验证,本发明在小目标检测方面有很好的表现。
所述用于小目标检测的多层级感受野扩展方法,其中,在所述步骤一中,所述预处理包括如下步骤:
设计数据增强策略,其中所述数据增强策略为:将输入图像的图像尺寸进行缩放,使用多尺度训练以增强样本尺度多样性;
对COCO数据集中的输入图像采用随机水平翻转作数据增广,以增强模型的泛化能力。
所述用于小目标检测的多层级感受野扩展方法,其中,Swin Transformer对应有四层结构,对应提取出四个不同尺度与不同深度的提取特征
Figure 815197DEST_PATH_IMAGE001
,其中
Figure 329355DEST_PATH_IMAGE002
,经
Figure 193405DEST_PATH_IMAGE003
卷积调整通道数后得到特征
Figure 211040DEST_PATH_IMAGE004
,其中,
Figure 767923DEST_PATH_IMAGE002
多层级感受野特征融合网络用于输出四个不同尺度的输出特征
Figure 503798DEST_PATH_IMAGE005
,其中
Figure 968277DEST_PATH_IMAGE006
多层级感受野特征融合网络中四个特征层上的感受野特征放大模块表示为
Figure 840419DEST_PATH_IMAGE007
,其中,
Figure 568203DEST_PATH_IMAGE006
对应关系如下:
Figure 292839DEST_PATH_IMAGE008
Figure 498692DEST_PATH_IMAGE009
Figure 225340DEST_PATH_IMAGE010
Figure 124026DEST_PATH_IMAGE011
其中,
Figure 365651DEST_PATH_IMAGE012
分别表示第2层输出特征、第3层输出特征、第4层输出特征以及第5层输出特征,
Figure 578458DEST_PATH_IMAGE013
分别表示第2层特征、第3层特征、第4层特征以及第5层特征,
Figure 487508DEST_PATH_IMAGE014
分别表示第2个特征层、第3个特征层、第4个特征层以及第5个特征层上的感受野特征放大模块,
Figure 291516DEST_PATH_IMAGE015
表示单个特征层中感受野特征放大模块的个数,
Figure 223700DEST_PATH_IMAGE016
表示采用两倍的邻近取样插值法上采样。
所述用于小目标检测的多层级感受野扩展方法,其中,感受野特征放大模块包括多个基础单元,在第4个特征层中,作为主干网络的Swin Transformer的第4层特征
Figure 269891DEST_PATH_IMAGE017
经感受野特征放大模块的第1个基础单元
Figure 236710DEST_PATH_IMAGE018
得到第一基础单元输出特征
Figure 211619DEST_PATH_IMAGE019
,再通过第2个基础单元
Figure 896679DEST_PATH_IMAGE020
得到第二基础单元输出特征
Figure 44763DEST_PATH_IMAGE021
,最后经第3个基础单元
Figure 866089DEST_PATH_IMAGE022
,通过残差连接融合主干网络的第4层特征
Figure 277478DEST_PATH_IMAGE017
得到第4层特征的第三基础单元输出特征
Figure 918675DEST_PATH_IMAGE023
对应的表达式为:
Figure 808134DEST_PATH_IMAGE024
Figure 239291DEST_PATH_IMAGE025
Figure 556003DEST_PATH_IMAGE026
其中,第三基础单元输出特征
Figure 746813DEST_PATH_IMAGE023
为第4个特征层的第一个感受野特征放大模块的输出特征。
所述用于小目标检测的多层级感受野扩展方法,其中,第一基础单元输出特征
Figure 439962DEST_PATH_IMAGE019
的计算公式表示为:
Figure 235880DEST_PATH_IMAGE027
其中,
Figure 723493DEST_PATH_IMAGE028
表示
Figure 604862DEST_PATH_IMAGE003
卷积,
Figure 836123DEST_PATH_IMAGE029
表示卷积核为
Figure 486547DEST_PATH_IMAGE030
的空洞卷积,
Figure 207378DEST_PATH_IMAGE031
表示空洞卷积的扩展率,
Figure 74578DEST_PATH_IMAGE032
表示批归一化,
Figure 109530DEST_PATH_IMAGE033
表示激活函数,
Figure 348881DEST_PATH_IMAGE034
表示包含批归一化和激活函数的
Figure 443876DEST_PATH_IMAGE035
卷积,
Figure 299837DEST_PATH_IMAGE036
表示包含批归一化和激活函数的
Figure 669638DEST_PATH_IMAGE037
空洞卷积。
所述用于小目标检测的多层级感受野扩展方法,其中,所述边界框回归损失函数表示为:
Figure 294655DEST_PATH_IMAGE038
其中,
Figure 560551DEST_PATH_IMAGE039
表示边界框回归损失函数,
Figure 638228DEST_PATH_IMAGE040
表示GIOU loss损失函数,
Figure 516448DEST_PATH_IMAGE041
表示BIOU loss损失函数,
Figure 995971DEST_PATH_IMAGE042
表示预测边界框,
Figure 432768DEST_PATH_IMAGE043
表示标注框,
Figure 794480DEST_PATH_IMAGE044
表示边界框的位置,
Figure 709346DEST_PATH_IMAGE045
Figure 308955DEST_PATH_IMAGE046
表示边界框中心点的坐标,
Figure 916654DEST_PATH_IMAGE047
分别表示边界框的宽与高,
Figure 703344DEST_PATH_IMAGE048
表示预测边界框与标注框的最小包围框面积,
Figure 421901DEST_PATH_IMAGE049
表示Smooth L1损失,
Figure 374551DEST_PATH_IMAGE050
表示重合度计算。
所述用于小目标检测的多层级感受野扩展方法,其中,在所述步骤五中,在进行识别任务中,使用Focal loss 函数解决正负样本不平衡问题,对应的Focal loss函数表示为:
Figure 153152DEST_PATH_IMAGE051
其中,
Figure 489455DEST_PATH_IMAGE052
表示Focal loss函数,
Figure 11703DEST_PATH_IMAGE053
表示预测分数,
Figure 320325DEST_PATH_IMAGE054
表示真实标签,
Figure 269826DEST_PATH_IMAGE055
表示平衡正负样本数,
Figure 765530DEST_PATH_IMAGE056
表示调节因子。
所述用于小目标检测的多层级感受野扩展方法,其中,在所述步骤五中,检测模型进行定位与识别对应的总损失函数表示为:
Figure 91469DEST_PATH_IMAGE057
其中,
Figure 254597DEST_PATH_IMAGE058
表示检测模型进行定位与识别对应的总损失函数,
Figure 876464DEST_PATH_IMAGE059
均表示超参数。
本发明还提出一种用于小目标检测的多层级感受野扩展***,其中,所述***包括:
预处理模块,用于:
对COCO数据集中的输入图像进行小目标检测适用的预处理;
特征提取模块,用于:
引入Swin Transformer作为主干网络,利用Swin Transformer的分层结构对所述输入图像进行特征提取,以得到多层特征,其中每层特征对应有一特征层;
网络构建模块,用于:
构建多层级感受野特征融合网络,通过多层级感受野特征融合网络中的感受野特征放大模块匹配Swin Transformer中各特征层的所需感受野并补充浅层预测特征,其中,进行匹配后,每个特征层对应有多个感受野特征放大模块;
损失确定模块,用于:
将GIOU loss与BIOU loss的线性组合作为边界框回归损失,根据对应的边界框回归损失函数以加强目标定位效果;
结果输出模块,用于:
将输入图像中的不同尺度目标分配在具有不同感受野的特征层上,利用检测模型中的浅层预测特征层获得对小目标进行定位与识别,以得到小目标的定位识别结果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明提出的用于小目标检测的多层级感受野扩展方法的流程图;
图2为本发明提出的用于小目标检测的多层级感受野扩展***的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提出一种用于小目标检测的多层级感受野扩展方法,其中,所述方法包括如下步骤:
S101、对COCO数据集中的输入图像进行小目标检测适用的预处理。
具体的,COCO数据集中的大部分图像来源于生活,具有复杂的背景。数据集中共有80个类别,每张图像平均包含3.5个类别和7.7个实例。在COCO数据集中,将面积小于32×32的目标定义为小目标,小物体的百分比是41%。
在步骤S101中,预处理包括如下步骤:
S1011、设计数据增强策略,其中所述数据增强策略为:将输入图像的图像尺寸进行缩放,使用多尺度训练以增强样本尺度多样性。
在本步骤中,缩放后的图像尺寸为(480,1333)。
S1012、对COCO数据集中的输入图像采用随机水平翻转作数据增广,以增强模型的泛化能力。
S102、引入Swin Transformer作为主干网络,利用Swin Transformer的分层结构对所述输入图像进行特征提取,以得到多层特征,其中每层特征对应有一特征层。
在步骤S102中,Swin Transformer对应有四层结构,多层级感受野特征融合网络用于输出四个不同尺度的输出特征
Figure 390622DEST_PATH_IMAGE005
,其中
Figure 254673DEST_PATH_IMAGE006
,多层级感受野特征融合网络中四个特征层上的感受野特征放大模块表示为
Figure 69045DEST_PATH_IMAGE007
,其中
Figure 625929DEST_PATH_IMAGE006
首先,输入预处理后的图像,对应提取出四个不同尺度与不同深度的提取特征
Figure 96224DEST_PATH_IMAGE001
,其中,
Figure 498387DEST_PATH_IMAGE002
,经
Figure 636107DEST_PATH_IMAGE003
卷积调整通道数后得到特征
Figure 363892DEST_PATH_IMAGE004
,其中
Figure 118221DEST_PATH_IMAGE006
然后,第5层特征
Figure 88189DEST_PATH_IMAGE060
经过n个第5层感受野特征放大模块得到第5层输出特征
Figure 80416DEST_PATH_IMAGE061
,公式表达为
Figure 447943DEST_PATH_IMAGE062
接着,第5层输出特征
Figure 158410DEST_PATH_IMAGE061
再通过两倍的邻近取样插值法上采样得到特征
Figure 167954DEST_PATH_IMAGE063
,与第4层经过n个第4层感受野特征放大模块得到的特征相融合,得到第4层输出特征
Figure 811425DEST_PATH_IMAGE064
,公式表达为
Figure 881013DEST_PATH_IMAGE065
。同理,将
Figure 813196DEST_PATH_IMAGE064
上采样与第3层特征
Figure 360852DEST_PATH_IMAGE066
融合得到第3层输出特征
Figure 829136DEST_PATH_IMAGE067
,再以相同的操作得到第2层输出特征
Figure 804046DEST_PATH_IMAGE068
具体的,对应关系如下:
Figure 489105DEST_PATH_IMAGE069
Figure 637189DEST_PATH_IMAGE009
Figure 458515DEST_PATH_IMAGE010
Figure 338746DEST_PATH_IMAGE011
其中,
Figure 245522DEST_PATH_IMAGE012
分别表示第2层输出特征、第3层输出特征、第4层输出特征以及第5层输出特征,
Figure 400560DEST_PATH_IMAGE013
分别表示第2层特征、第3层特征、第4层特征以及第5层特征,
Figure 873130DEST_PATH_IMAGE014
分别表示第2个特征层、第3个特征层、第4个特征层以及第5个特征层上的感受野特征放大模块,
Figure 455421DEST_PATH_IMAGE015
表示单个特征层中感受野特征放大模块的个数,
Figure 348028DEST_PATH_IMAGE016
表示采用两倍的邻近取样插值法上采样。
S103、构建多层级感受野特征融合网络,通过多层级感受野特征融合网络中的感受野特征放大模块匹配Swin Transformer中各特征层的所需感受野并补充浅层预测特征,其中,进行匹配后,每个特征层对应有多个感受野特征放大模块。
在本发明中,感受野特征放大模块包括多个基础单元,以第4个特征层为例,在第4个特征层中,作为主干网络的Swin Transformer的第4层特征
Figure 41178DEST_PATH_IMAGE017
经感受野特征放大模块的第1个基础单元
Figure 571516DEST_PATH_IMAGE070
得到第一基础单元输出特征
Figure 324709DEST_PATH_IMAGE019
,再通过第2个基础单元
Figure 940498DEST_PATH_IMAGE020
得到第二基础单元输出特征
Figure 234076DEST_PATH_IMAGE021
,最后经第3个基础单元
Figure 884500DEST_PATH_IMAGE022
,通过残差连接融合主干网络的第4层特征
Figure 808594DEST_PATH_IMAGE017
得到第4层特征的第三基础单元输出特征
Figure 911679DEST_PATH_IMAGE023
对应的表达式为:
Figure 459815DEST_PATH_IMAGE024
Figure 964745DEST_PATH_IMAGE025
Figure 59740DEST_PATH_IMAGE026
其中,第三基础单元输出特征
Figure 446859DEST_PATH_IMAGE023
为第4个特征层的第一个感受野特征放大模块的输出特征。
作为补充说明的,第4个特征层上的其它感受野特征放大模块均以前一个感受野特征放大模块的输出为输入特征,并进行上述相同的操作。在第4个特征层上的感受野特征放大模块具有3个基础单元,在第5、3、2层特征上的感受野放大模块分别具有4、3、1个基础单元,并且操作均与第4个特征层相同。
进一步的,第一基础单元输出特征
Figure 285502DEST_PATH_IMAGE019
的计算公式表示为:
Figure 910519DEST_PATH_IMAGE071
其中,
Figure 910836DEST_PATH_IMAGE028
表示
Figure 988513DEST_PATH_IMAGE035
卷积,
Figure 365268DEST_PATH_IMAGE029
表示卷积核为
Figure 343326DEST_PATH_IMAGE030
的空洞卷积,
Figure 576861DEST_PATH_IMAGE031
表示空洞卷积的扩展率,
Figure 141835DEST_PATH_IMAGE032
表示批归一化,
Figure 322280DEST_PATH_IMAGE033
表示激活函数,
Figure 656310DEST_PATH_IMAGE034
表示包含批归一化和激活函数的
Figure 264008DEST_PATH_IMAGE035
卷积,
Figure 50699DEST_PATH_IMAGE036
表示包含批归一化和激活函数的
Figure 831573DEST_PATH_IMAGE037
空洞卷积。
作为补充说明的是,每一基础单元的扩展率都是精心设计的。为了避免使用数据的不连续性而出现的棋盘效应,导致细节信息丢失的问题,在不同特征层上为基础单元设置不同扩展率以充分利用信息并匹配不同尺度目标所需感受野。对于第5个特征层,基础单元的扩展率分别设为1、3、9、9;对于第4个特征层设置为1、3、9;第3个特征层设置为1、2、3;第2个特征层设置为1。
S104、将GIOU loss与BIOU loss的线性组合作为边界框回归损失,根据对应的边界框回归损失函数以加强目标定位效果。
在步骤S104中,边界框回归损失函数表示为:
Figure 285688DEST_PATH_IMAGE038
其中,
Figure 64288DEST_PATH_IMAGE039
表示边界框回归损失函数,
Figure 839740DEST_PATH_IMAGE072
表示GIOU loss损失函数,
Figure 96409DEST_PATH_IMAGE041
表示BIOU loss损失函数,
Figure 405030DEST_PATH_IMAGE073
表示预测边界框,
Figure 354532DEST_PATH_IMAGE043
表示标注框,
Figure 178131DEST_PATH_IMAGE044
表示边界框的位置,
Figure 238491DEST_PATH_IMAGE045
Figure 667198DEST_PATH_IMAGE046
表示边界框中心点的坐标,
Figure 522022DEST_PATH_IMAGE047
分别表示边界框的宽与高,
Figure 770601DEST_PATH_IMAGE048
表示预测边界框与标注框的最小包围框面积,
Figure 133187DEST_PATH_IMAGE049
表示Smooth L1损失,
Figure 213138DEST_PATH_IMAGE050
表示重合度计算。
S105、将输入图像中的不同尺度目标分配在具有不同感受野的特征层上,利用检测模型中的浅层预测特征层获得对小目标进行定位与识别,以得到小目标的定位识别结果。
在步骤S105中,在进行识别任务中,使用Focal loss 函数解决正负样本不平衡问题,对应的Focal loss函数表示为:
Figure 504442DEST_PATH_IMAGE051
其中,
Figure 240317DEST_PATH_IMAGE052
表示Focal loss函数,
Figure 908059DEST_PATH_IMAGE053
表示预测分数,
Figure 780200DEST_PATH_IMAGE054
表示真实标签,
Figure 242405DEST_PATH_IMAGE055
表示平衡正负样本数,
Figure 262314DEST_PATH_IMAGE056
表示调节因子。
此外,检测模型进行定位与识别对应的总损失函数表示为:
Figure 733746DEST_PATH_IMAGE057
其中,
Figure 725973DEST_PATH_IMAGE058
表示检测模型进行定位与识别对应的总损失函数,
Figure 594965DEST_PATH_IMAGE059
均表示超参数。
具体的,在完成模型训练后,输入测试集样本,得到输出的平均精度AP(IOU阈值0.50-0.95)、AP50(IOU阈值0.50)、AP75(IOU阈值0.75)、APS(IOU阈值0.50-0.95及小于32×32像素的目标),用于评估模型性能。
本发明提出一种用于小目标检测的多层级感受野扩展方法,引入SwinTransformer作为模型的主干网络,利用其层次性、局部性与平移不变性对小目标进行特征提取;根据主干网络各阶段输出特征的不同,设计了多级感受野扩展网络,进一步处理主干网络的输出特征,以避免小目标信息丢失问题;此外,所提出的感受野放大模块能有效地扩展感受野。根据任务需求,灵活调整各层感受野放大模块的结构,以匹配不同尺度目标所需感受野,并获取丰富的上下文信息;另一方面,所提出的GIOU loss 与 BIOU loss的联合损失用于增强目标的定位性能;经对比试验验证,本发明在小目标检测方面有很好的表现。
请参阅图2,本发明还提出一种用于小目标检测的多层级感受野扩展***,其中,所述***包括:
预处理模块,用于:
对COCO数据集中的输入图像进行小目标检测适用的预处理;
特征提取模块,用于:
引入Swin Transformer作为主干网络,利用Swin Transformer的分层结构对所述输入图像进行特征提取,以得到多层特征,其中每层特征对应有一特征层;
网络构建模块,用于:
构建多层级感受野特征融合网络,通过多层级感受野特征融合网络中的感受野特征放大模块匹配Swin Transformer中各特征层的所需感受野并补充浅层预测特征,其中,进行匹配后,每个特征层对应有多个感受野特征放大模块;
损失确定模块,用于:
将GIOU loss与BIOU loss的线性组合作为边界框回归损失,根据对应的边界框回归损失函数以加强目标定位效果;
结果输出模块,用于:
将输入图像中的不同尺度目标分配在具有不同感受野的特征层上,利用检测模型中的浅层预测特征层获得对小目标进行定位与识别,以得到小目标的定位识别结果。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (2)

1.一种用于小目标检测的多层级感受野扩展方法,其特征在于,所述方法包括如下步骤:
步骤一、对COCO数据集中的输入图像进行小目标检测适用的预处理;
步骤二、引入Swin Transformer作为主干网络,利用Swin Transformer的分层结构对所述输入图像进行特征提取,以得到多层特征,其中每层特征对应有一特征层;
步骤三、构建多层级感受野特征融合网络,通过多层级感受野特征融合网络中的感受野特征放大模块匹配Swin Transformer中各特征层的所需感受野并补充浅层预测特征,其中,进行匹配后,每个特征层对应有多个感受野特征放大模块;
步骤四、将GIOU loss与BIOU loss的线性组合作为边界框回归损失,根据对应的边界框回归损失函数以加强目标定位效果;
步骤五、将输入图像中的不同尺度目标分配在具有不同感受野的特征层上,利用检测模型中的浅层预测特征层获得对小目标进行定位与识别,以得到小目标的定位识别结果;
在所述步骤一中,所述预处理包括如下步骤:
设计数据增强策略,其中所述数据增强策略为:将输入图像的图像尺寸进行缩放,使用多尺度训练以增强样本尺度多样性;
对COCO数据集中的输入图像采用随机水平翻转作数据增广,以增强模型的泛化能力;
Swin Transformer对应有四层结构,对应提取出四个不同尺度与不同深度的提取特征
Figure 939823DEST_PATH_IMAGE001
,其中,
Figure 271578DEST_PATH_IMAGE002
,经
Figure 27044DEST_PATH_IMAGE003
卷积调整通道数后得到特征
Figure 760645DEST_PATH_IMAGE004
,其中,
Figure 576154DEST_PATH_IMAGE002
多层级感受野特征融合网络用于输出四个不同尺度的输出特征
Figure 395206DEST_PATH_IMAGE005
,其中,
Figure 688784DEST_PATH_IMAGE006
多层级感受野特征融合网络中四个特征层上的感受野特征放大模块表示为
Figure 276891DEST_PATH_IMAGE007
,其中,
Figure 528881DEST_PATH_IMAGE006
对应关系如下:
Figure 835229DEST_PATH_IMAGE008
Figure 932498DEST_PATH_IMAGE009
Figure 372182DEST_PATH_IMAGE010
Figure 529493DEST_PATH_IMAGE011
其中,
Figure 323137DEST_PATH_IMAGE012
分别表示第2层输出特征、第3层输出特征、第4层输出特征以及第5层输出特征,
Figure 958518DEST_PATH_IMAGE013
分别表示第2层特征、第3层特征、第4层特征以及第5层特征,
Figure 521217DEST_PATH_IMAGE014
分别表示第2个特征层、第3个特征层、第4个特征层以及第5个特征层上的感受野特征放大模块,
Figure 849430DEST_PATH_IMAGE015
表示单个特征层中感受野特征放大模块的个数,
Figure 864791DEST_PATH_IMAGE016
表示采用两倍的邻近取样插值法上采样;
感受野特征放大模块包括多个基础单元,在第4个特征层中,作为主干网络的SwinTransformer的第4层特征
Figure 772704DEST_PATH_IMAGE017
经感受野特征放大模块的第1个基础单元
Figure 314544DEST_PATH_IMAGE018
得到第一基础单元输出特征
Figure 689025DEST_PATH_IMAGE019
,再通过第2个基础单元
Figure 316315DEST_PATH_IMAGE020
得到第二基础单元输出特征
Figure 168864DEST_PATH_IMAGE021
,最后经第3个基础单元
Figure 830790DEST_PATH_IMAGE022
,通过残差连接融合主干网络的第4层特征
Figure 376172DEST_PATH_IMAGE017
得到第4层特征的第三基础单元输出特征
Figure 756338DEST_PATH_IMAGE023
对应的表达式为:
Figure 412578DEST_PATH_IMAGE024
Figure 929010DEST_PATH_IMAGE025
Figure 243880DEST_PATH_IMAGE026
其中,第三基础单元输出特征
Figure 783446DEST_PATH_IMAGE023
为第4个特征层的第一个感受野特征放大模块的输出特征;
第一基础单元输出特征
Figure 305694DEST_PATH_IMAGE019
的计算公式表示为:
Figure 411054DEST_PATH_IMAGE027
其中,
Figure 360555DEST_PATH_IMAGE028
表示
Figure 121838DEST_PATH_IMAGE029
卷积,
Figure 447777DEST_PATH_IMAGE030
表示卷积核为
Figure 610905DEST_PATH_IMAGE031
的空洞卷积,
Figure 731308DEST_PATH_IMAGE032
表示空洞卷积的扩展率,
Figure 979886DEST_PATH_IMAGE033
表示批归一化,
Figure 843937DEST_PATH_IMAGE034
表示激活函数,
Figure 861572DEST_PATH_IMAGE035
表示包含批归一化和激活函数的
Figure 418455DEST_PATH_IMAGE029
卷积,
Figure 154330DEST_PATH_IMAGE036
表示包含批归一化和激活函数的
Figure 353230DEST_PATH_IMAGE031
空洞卷积;
所述边界框回归损失函数表示为:
Figure 490950DEST_PATH_IMAGE037
其中,
Figure 218735DEST_PATH_IMAGE038
表示边界框回归损失函数,
Figure 176327DEST_PATH_IMAGE039
表示GIOU loss损失函数,
Figure 644830DEST_PATH_IMAGE040
表示BIOU loss损失函数,
Figure 637056DEST_PATH_IMAGE041
表示预测边界框,
Figure 270163DEST_PATH_IMAGE042
表示标注框,
Figure 715051DEST_PATH_IMAGE043
表示边界框的位置,
Figure 724595DEST_PATH_IMAGE044
Figure 571328DEST_PATH_IMAGE045
表示边界框中心点的坐标,
Figure 640916DEST_PATH_IMAGE046
分别表示边界框的宽与高,
Figure 573099DEST_PATH_IMAGE047
表示预测边界框与标注框的最小包围框面积,
Figure 386335DEST_PATH_IMAGE048
表示Smooth L1损失,
Figure 353154DEST_PATH_IMAGE049
表示重合度计算;
在所述步骤五中,在进行识别任务中,使用Focal loss 函数解决正负样本不平衡问题,对应的Focal loss函数表示为:
Figure 124801DEST_PATH_IMAGE050
其中,
Figure 809860DEST_PATH_IMAGE051
表示Focal loss函数,
Figure 161207DEST_PATH_IMAGE052
表示预测分数,
Figure 982532DEST_PATH_IMAGE053
表示真实标签,
Figure 128343DEST_PATH_IMAGE054
表示平衡正负样本数,
Figure 769540DEST_PATH_IMAGE055
表示调节因子;
在所述步骤五中,检测模型进行定位与识别对应的总损失函数表示为:
Figure 924577DEST_PATH_IMAGE056
其中,
Figure 597480DEST_PATH_IMAGE057
表示检测模型进行定位与识别对应的总损失函数,
Figure 179771DEST_PATH_IMAGE058
均表示超参数。
2.一种用于小目标检测的多层级感受野扩展***,其特征在于,所述***应用如上述权利要求1所述的一种用于小目标检测的多层级感受野扩展方法,所述***包括:
预处理模块,用于:
对COCO数据集中的输入图像进行小目标检测适用的预处理;
特征提取模块,用于:
引入Swin Transformer作为主干网络,利用Swin Transformer的分层结构对所述输入图像进行特征提取,以得到多层特征,其中每层特征对应有一特征层;
网络构建模块,用于:
构建多层级感受野特征融合网络,通过多层级感受野特征融合网络中的感受野特征放大模块匹配Swin Transformer中各特征层的所需感受野并补充浅层预测特征,其中,进行匹配后,每个特征层对应有多个感受野特征放大模块;
损失确定模块,用于:
将GIOU loss与BIOU loss的线性组合作为边界框回归损失,根据对应的边界框回归损失函数以加强目标定位效果;
结果输出模块,用于:
将输入图像中的不同尺度目标分配在具有不同感受野的特征层上,利用检测模型中的浅层预测特征层获得对小目标进行定位与识别,以得到小目标的定位识别结果。
CN202211209625.XA 2022-09-30 2022-09-30 用于小目标检测的多层级感受野扩展方法与*** Active CN115272648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211209625.XA CN115272648B (zh) 2022-09-30 2022-09-30 用于小目标检测的多层级感受野扩展方法与***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211209625.XA CN115272648B (zh) 2022-09-30 2022-09-30 用于小目标检测的多层级感受野扩展方法与***

Publications (2)

Publication Number Publication Date
CN115272648A CN115272648A (zh) 2022-11-01
CN115272648B true CN115272648B (zh) 2022-12-20

Family

ID=83757963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211209625.XA Active CN115272648B (zh) 2022-09-30 2022-09-30 用于小目标检测的多层级感受野扩展方法与***

Country Status (1)

Country Link
CN (1) CN115272648B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN110321923A (zh) * 2019-05-10 2019-10-11 上海大学 不同尺度感受野特征层融合的目标检测方法、***及介质
CN111767792A (zh) * 2020-05-22 2020-10-13 上海大学 一种基于教室场景的多人关键点检测网络和方法
CN212062695U (zh) * 2020-07-06 2020-12-01 华东交通大学 一种基于正交布局的多频段mimo天线
WO2021185379A1 (zh) * 2020-03-20 2021-09-23 长沙智能驾驶研究院有限公司 密集目标检测方法及***
CN114998696A (zh) * 2022-05-26 2022-09-02 燕山大学 基于特征增强与多层级融合的YOLOv3目标检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11188794B2 (en) * 2017-08-10 2021-11-30 Intel Corporation Convolutional neural network framework using reverse connections and objectness priors for object detection
CN111695430B (zh) * 2020-05-18 2023-06-30 电子科技大学 一种基于特征融合和视觉感受野网络的多尺度人脸检测方法
CN111967538B (zh) * 2020-09-25 2024-03-15 北京康夫子健康技术有限公司 应用于小目标检测的特征融合方法、装置、设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288075A (zh) * 2018-02-02 2018-07-17 沈阳工业大学 一种改进ssd的轻量化小目标检测方法
CN110321923A (zh) * 2019-05-10 2019-10-11 上海大学 不同尺度感受野特征层融合的目标检测方法、***及介质
WO2021185379A1 (zh) * 2020-03-20 2021-09-23 长沙智能驾驶研究院有限公司 密集目标检测方法及***
CN111767792A (zh) * 2020-05-22 2020-10-13 上海大学 一种基于教室场景的多人关键点检测网络和方法
CN212062695U (zh) * 2020-07-06 2020-12-01 华东交通大学 一种基于正交布局的多频段mimo天线
CN114998696A (zh) * 2022-05-26 2022-09-02 燕山大学 基于特征增强与多层级融合的YOLOv3目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Two Dimensional Frequency-angle Domain Interpolation Method for Electromagnetic Scattering Analysis of Precipitation Particles;Jiaqi Chen等;《IEEE》;20161110;全文 *
基于改进Faster R-CNN图像小目标检测;王凯等;《电视技术》;20191025(第20期);全文 *
基于有效感受野的目标检测算法;杨建秀;《山西大同大学学报(自然科学版)》;20200818(第04期);全文 *

Also Published As

Publication number Publication date
CN115272648A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN108647585B (zh) 一种基于多尺度循环注意力网络的交通标识符检测方法
Haurum et al. A survey on image-based automation of CCTV and SSET sewer inspections
Xue et al. A fast detection method via region‐based fully convolutional neural networks for shield tunnel lining defects
CN112884064B (zh) 一种基于神经网络的目标检测与识别方法
Xing et al. A convolutional neural network-based method for workpiece surface defect detection
Xu et al. Scale-aware feature pyramid architecture for marine object detection
CN110852316A (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN113591719B (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN110009622B (zh) 一种显示面板外观缺陷检测网络及其缺陷检测方法
CN115294103B (zh) 一种基于语义分割的实时工业表面缺陷检测方法
CN115439442A (zh) 基于共性和差异的工业品表面缺陷检测与定位方法及***
CN113255555A (zh) 中国交通标志牌识别方法、***、处理设备及存储介质
Choi et al. Deep learning based defect inspection using the intersection over minimum between search and abnormal regions
Liang et al. Car detection and classification using cascade model
Yasmin et al. Small obstacles detection on roads scenes using semantic segmentation for the safe navigation of autonomous vehicles
Kwon et al. Context and scale-aware YOLO for welding defect detection
Dong et al. Intelligent pixel-level pavement marking detection using 2D laser pavement images
CN115272648B (zh) 用于小目标检测的多层级感受野扩展方法与***
CN116912872A (zh) 图纸识别方法、装置、设备及可读存储介质
Das et al. Object Detection on Scene Images: A Novel Approach
Ghahremani et al. Toward robust multitype and orientation detection of vessels in maritime surveillance
CN112330683B (zh) 一种基于多尺度卷积特征融合的划线车位分割方法
Anand et al. WA net: Leveraging Atrous and Deformable Convolutions for Efficient Text Detection
CN117975087A (zh) 一种基于ECA-ConvNext铸件缺陷识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240116

Address after: 230000 B-1015, wo Yuan Garden, 81 Ganquan Road, Shushan District, Hefei, Anhui.

Patentee after: HEFEI MINGLONG ELECTRONIC TECHNOLOGY Co.,Ltd.

Address before: No. 808, Shuanggang East Street, Nanchang Economic and Technological Development Zone, Jiangxi Province

Patentee before: East China Jiaotong University