CN111967538B - 应用于小目标检测的特征融合方法、装置、设备以及存储介质 - Google Patents

应用于小目标检测的特征融合方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN111967538B
CN111967538B CN202011021013.9A CN202011021013A CN111967538B CN 111967538 B CN111967538 B CN 111967538B CN 202011021013 A CN202011021013 A CN 202011021013A CN 111967538 B CN111967538 B CN 111967538B
Authority
CN
China
Prior art keywords
feature
layer
input
layers
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011021013.9A
Other languages
English (en)
Other versions
CN111967538A (zh
Inventor
武秉泓
杨叶辉
许言午
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Confucius Health Technology Co ltd
Original Assignee
Beijing Confucius Health Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Confucius Health Technology Co ltd filed Critical Beijing Confucius Health Technology Co ltd
Priority to CN202011021013.9A priority Critical patent/CN111967538B/zh
Publication of CN111967538A publication Critical patent/CN111967538A/zh
Priority to US17/213,896 priority patent/US11735315B2/en
Application granted granted Critical
Publication of CN111967538B publication Critical patent/CN111967538B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了应用于小目标检测的特征融合方法、装置、设备以及存储介质,涉及计算机视觉技术领域,可应用于医疗影像分析。该应用于小目标检测的特征融合方法的一具体实施方式包括:获取Backbone网络中多个卷积层输出的特征图;对所述特征图进行卷积运算,得到多个特征层的输入特征图,其中,所述多个特征层表征所述输入特征图的多个分辨率;对每个特征层的所述输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图,由于没有引入额外的卷积层进行特征融合,因此可以在不额外增加参数的情况下增强小目标检测性能,在具有计算资源约束的情况下提升小目标的检测能力。

Description

应用于小目标检测的特征融合方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,具体涉及计算机视觉技术领域,可应用于医疗影像分析,尤其涉及应用于小目标检测的特征融合方法、装置、设备以及存储介质。
背景技术
智能眼底筛查***是指在无专业眼科医生经验指示或引导的前提下,***自主地根据受检者的眼底照片信息、辅助参考其相关身体状况(如血压、血糖等)而作出的符合医生诊断结果的智能诊断***。
智能眼底筛查***可以采用本地终端自主决策的方式,即直接将待筛查的照片在本地的智能终端上进行诊断决策。这种诊断方式不依赖于网络环境可直接反馈诊断结果,但可能对智能诊断***的复杂度以及有限算力下的实时性产生了巨大的考验。眼底疾病的早期筛查(如糖尿病视网膜病变1级)往往依赖于微小目标的检测(微血管瘤、出血斑),所以如何在资源受限的情况下尽量提高细小目标的检出精度,具有十分重要的意义。
发明内容
为了解决上述背景技术部分提到的一个或多个技术问题,本申请实施例提供了应用于小目标检测的特征融合方法、装置、设备以及存储介质。
第一方面,本申请实施例提供了应用于小目标检测的特征融合方法,包括:获取Backbone网络中多个卷积层输出的特征图;对所述特征图进行卷积运算,得到多个特征层的输入特征图,其中,所述多个特征层表征所述输入特征图的多个分辨率;对每个特征层的所述输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图,其中,所述进行密集链接特征金字塔特征融合包括:对第i个特征层的输入特征图以及低于第i个特征层对应分辨率的其它特征层的输入特征图进行采样,其中,i为正整数;将采样后的其它特征层的输入特征图缩放至与第i个特征层的输入特征图同一尺寸大小;将缩放后的其它特征层的输入特征图与第i个特征层的输入特征图逐个叠加,并将叠加后的最终结果作为第i个特征层的输出特征图。
第二方面,本申请实施例提供了应用于小目标检测的特征融合装置,包括:获取模块,被配置为获取Backbone网络中多个卷积层输出的特征图;维度压缩模块,被配置为对所述特征图进行卷积运算,得到多个特征层的输入特征图,其中,所述多个特征层表征所述输入特征图的多个分辨率;密集链接特征金字塔特征融合模块,被配置为对每个特征层的所述输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图,其中,所述进行密集链接特征金字塔特征融合包括:对第i个特征层的输入特征图以及低于第i个特征层对应分辨率的其它特征层的输入特征图进行采样,其中,i为正整数;将采样后的其它特征层的输入特征图缩放至与第i个特征层的输入特征图同一尺寸大小;将缩放后的其它特征层的输入特征图与第i个特征层的输入特征图逐个叠加,并将叠加后的最终结果作为第i个特征层的输出特征图。
第三方面,本申请实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述第一方面中任一项的方法。
本申请实施例提供的应用于小目标检测的特征融合方法、装置、设备以及存储介质,首先获取Backbone网络中多个卷积层输出的特征图;之后对所述特征图进行卷积运算,得到多个特征层的输入特征图,其中,所述多个特征层表征所述输入特征图的多个分辨率;最后对每个特征层的所述输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图,由于没有引入额外的卷积层进行特征融合,因此可以在不额外增加参数的情况下增强小目标检测性能,在具有计算资源约束的情况下提升小目标的检测能力。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的应用于小目标检测的特征融合方法的一个实施例的流程示意图;
图3是根据本申请实施例的密集链接特征金字塔的一个应用实施例;
图4是根据本申请的应用于小目标检测的特征融合方法的另一个实施例的流程图;
图5是本申请的应用于小目标检测的特征融合装置的一个实施例的结构示意图;
图6是用来实现本申请实施例的应用于小目标检测的特征融合方法的电子设备的框图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的应用于小目标检测的特征融合方法或应用于小目标检测的特征融合装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括存储设备101、网络102、以及计算机103。网络102用以在存储设备101和计算机103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
存储设备101可以通过网络102与计算机103交互。存储设备101中可以提供眼底图片,包括但不限于数据库、用户终端等等。
存储设备101也可以在离线的状态下(例如断开网络102)与计算机103进行交互,例如将存储设备101中的数据传给计算机103。示例性地,存储设备101可以是移动硬盘、移动磁盘、U盘等。
计算机103可以提供各种服务,例如计算机103可以对从存储设备101获取到的眼底图片进行小目标检测,生成处理结果(例如对眼底图片的每个特征层的输入特征图进行密集链接特征金字塔特征融合)。
需要说明的是,本申请实施例所提供的应用于小目标检测的特征融合方法一般由计算机103执行,相应地,应用于小目标检测的特征融合装置一般设置于计算机103中。
应该理解,图1中的存储设备、网络和计算机的数目仅仅是示意性的。根据实现需要,可以具有任意数目的存储设备、网络和服务器。
继续参考图2,示出了根据本申请的应用于小目标检测的特征融合方法的一个实施例的流程200。该应用于小目标检测的特征融合方法,包括以下步骤:
步骤201,获取Backbone网络中多个卷积层输出的特征图。
在本实施例中,应用于小目标检测的特征融合方法的执行主体(例如图1所示的计算机103)可以获取Backbone网络中多个卷积层输出的特征图。在计算机视觉技术领域,Backbone网络指的是深度学习中的基础网络结构,包括但不限于AlexNet、ResNet、DenseNet、EfficientNet等等。图像进入神经网络模型后,首先进入Backbone网络进行特征的提取,得到图像的特征图(Featuremap)。
在本实施例的一些可选的实施方式中,从Backbone网络中抽取最后N个卷积层的特征图,并将其作为所述卷积层输出的特征图,其中,N为正整数。例如,可以Resnet网络中抽取最后3个卷积层C3、C4、C5的特征图作为卷积层输出的特征图。Backbone网络中的最后N个卷积层包含图像更多的细微特征信息,将其作为卷积层的输出特征有助于提高对图像中小目标的检测能力。
步骤202,对特征图进行卷积运算,得到多个特征层的输入特征图。
在本实施例中,上述执行主体可以基于特征图,利用卷积,得到多个特征层的输入特征图。其中,多个特征层表征输入特征图的多个分辨率。通过对卷积层输出的特征图进行卷积计算,可以改变特征图的通道数,进而对特征图的维度进行压缩。示例性地,将ResNet网络中的第三卷积层C3、第四卷积层C4、第五卷积层C5输出的特征图作为输入,通过1x1的卷积输出三个特征层的输入特征图P3_in、P4_in、P5_in。通过1x1的卷积可以将ResNet网络中卷积层的特征图的通道数从512、1024、2048统一至255。
在本实施例中,上述多个特征层可以是特征金字塔(Feature Pyramid Networks,FPN)或双向特征金字塔(Bi-directional Feature Pyramid Networks,BiFPN)中的高层特征层至低层特征层中的多个特征层。其中,高层特征图(high level feature maps)和低层特征图(low level feature maps)反应图像的不同层次的信息。高层特征图是具有较低分辨率的特征图,低层特征图是具有较高分辨率的特征图。具体地,可以将高层特征图至低层特征图中的多个特征图所为上述多个特征层的输入特征图。
在本实施例的一些可选的实现方式中,为了获得更大感受野的特征,可以对已经获得的高层特征图继续使用卷积计算。其包括如下步骤:通过对卷积层输出的特征图使用卷积计算,得到与卷积层对应的N个特征层的输入特征图;通过对表征最低分辨率的特征层的输入特征图使用卷积计算,得到第N+1个特征层的输入特征图;通过对第N+1个特征层的输入特征图使用卷积计算,得到第N+2个特征层的输入特征图。
示例性地,将ResNet网络中的第三卷积层C3、第四卷积层C4、第五卷积层C5输出的特征图作为输入,通过1x1的卷积输出三个特征层的输入特征图P3_in、P4_in、P5_in,之后在最小特征图P5_in(最低分辨率的特征图)上继续使用卷积得到第4个特征层的输入特征图P6_in,再之后在输入特征图P6_in上继续使用卷积得到第5个特征层的输入特征图P7_in
步骤203,对每个特征层的输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图。
在本实施例中,上述执行主体可以对每个特征层的输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图。特征融合是实现特征重用的重要方式,在目标检测模型的结构设计中,如何将多尺度的信息进行整合是提升检测性能的关键。FPN采用的是自上而下的连接,通过将低分辨率特征进行上采样、并累加到高分辨率特征图上实现特征融合,但是采用FPN融合方式,其融合层的特征仅与相邻层关联,因此存在最低层特征并不能直接获取顶层特征的问题,进而影响检测精度。PANet在FPN的基础上进一步深化,通过添加额外的卷积层,将高分辨率融合后的特征再次向低分辨率进行融合。BiFPN则是通过级联多个FPN,并在多个级联模块中加入跳层连接,从而实现特征融合。PANet和BiFPN均以额外添加卷积层的方式进行多尺度特征融合,所以参数量比FPN产生明显的增长,在不依赖网络环境的条件下会对本地的智能设备产生极大的负担。
本申请实施例提出一种新型的特征融合方式——密集链接特征金字塔(DenselyConnection Feature Pyramid Network,DCFPN)。具体的融合方式如下:对第i个特征层的输入特征图以及低于第i个特征层对应分辨率的其它特征层的输入特征图进行采样,其中,i为正整数;将采样后的其它特征层的输入特征图缩放至与第i个特征层的输入特征图同一尺寸大小;将缩放后的其它特征层的输入特征图与第i个特征层的输入特征图逐个叠加,并将叠加后的最终结果作为第i个特征层的输出特征图。
为了方便对DCFPN这种特征融合方式的理解,图3示出了根据本申请实施例的DCFPN的一个应用实施例。
如图3所示,示例性地,一共有5个特征层,按照从低层特征层到高层特征层的顺序,依次分别是第3特征层、第4特征层、第5特征层、第6特征层、第7特征层。第3特征层的输入特征图P3_in具有最高的分辨率,第7特征层的输入特征图P7_in具有最低的分辨率。对于第3特征层,其输出特征图P3_out通过如下方式获得:
对第3特征层的输入特征图P3_in以及第7特征层、第6特征层、第5特征层、第4特征层的输入特征图P7_in、P6_in、P5_in、P4_in进行采用;将采样后的输入特征图P7_in、P6_in、P5_in、P4_in缩放至与第3特征层的输入特征图P3_in同一尺寸大小;将缩放后的输入特征图P7_in、P6_in、P5_in、P4_in逐个叠加到输入特征图P3_in,作为最终第3特征层的输出特征图P3_out
与现有技术相比,本申请实施例在不额外增加参数的情况下增强小目标检测性能,在具有计算资源约束的情况下提升检测模型对于细小目标的检出率,从而提升眼底智能诊断***的早期筛查的成功率。
进一步参考图4,其示出了根据本申请的应用于小目标检测的特征融合方法的另一个实施例的流程图400。
如图4所示,该方法中的步骤401、步骤402、步骤403与图2中步骤201-203的具体处理及带来的技术效果一样,在此不再赘述。
如图4所示,该方法还包括:
步骤404,对每个特征层的输出特征图使用卷积计算,得到每个特征层的最终特征。
在本实施例中,上述执行主体可以对每个特征层的输出特征图使用卷积计算,得到每个特征层的最终特征。示例性地,可以将每个特征层的输出特征图输入至FPN或BiFPN中的“3x3卷积”模块,进而对每个特征层的输出特征图进行3x3卷积操作,并将经3x3卷积后的结果作为每个特征层的最终特征。
步骤405,将每个特征层的最终特征传给区域选择网络做目标检测。
在本实施例中,上述执行主体可以将每个特征层的最终特征传给区域选择网络做目标检测。区域选择网络(Regional Proposal Network,RPN)是一个窗口大小固定的滑动窗口(anchor)检测器,用于生成候选区域(proposals)。具体地,可以采用Faster R-CNN中的RPN部分。
为了验证本申请实施例的有效性,以下是基于通用检测数据集COCO对FPN和DCFPN进行了效果对比,其中,AP(Average Precision,检测框级平均准确率)指标如下:
neck AP AP50 AP75 APS APM APL
RetinaNet-r50 FPN 0.363 0.553 0.386 0.193 0.400 0.488
RetinaNet-r50 DCFPN 0.370 0.556 0.386 0.200 0.402 0.478
本实验以RetinaNet(Backbone:ResNet 50)为baseline,分别比较使用FPN的RetinaNet和使用DCFPN的RetinaNet进行训练,并在COCO验证集上的进行性能验证。综合表格数据分析可得,通过特征重用机制,本发明所提出的DCFPN可以在无额外参数量引入的基础上对检测器的性能起到提升。此外,根据APS、APM和APL三个指标来看,由于DCFPN的APS与APM优于FPN,其对应指标所代表的是小目标和中等目标子集情况下检测器的相应指标。因此,模型性能的整体提升的增益主要源自于小目标指标上的提升。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种应用于小目标检测的特征融合装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的应用于小目标检测的特征融合装置500可以包括:获取模块501、维度压缩模块502、密集链接特征金字塔特征融合模块503。其中,获取模块501,被配置为获取Backbone网络中多个卷积层输出的特征图;维度压缩模块502,被配置为对所述特征图进行卷积运算,得到多个特征层的输入特征图,其中,所述多个特征层表征所述输入特征图的多个分辨率;密集链接特征金字塔特征融合模块503,被配置为对每个特征层的所述输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图,其中,所述进行密集链接特征金字塔特征融合包括:对第i个特征层的输入特征图以及低于第i个特征层对应分辨率的其它特征层的输入特征图进行采样,其中,i为正整数;将采样后的其它特征层的输入特征图缩放至与第i个特征层的输入特征图同一尺寸大小;将缩放后的其它特征层的输入特征图与第i个特征层的输入特征图逐个叠加,并将叠加后的最终结果作为第i个特征层的输出特征图。
在本实施例中,应用于小目标检测的特征融合装置500中:获取模块501、维度压缩模块502、密集链接特征金字塔特征融合模块503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,所述获取模块进一步被配置成:从Backbone网络中抽取最后N个卷积层的特征图,并将其作为所述卷积层输出的特征图,其中,N为正整数。
在本实施例的一些可选的实现方式中,所述维度压缩模块进一步被配置成:通过对所述卷积层输出的特征图使用卷积计算,得到与所述卷积层对应的N个特征层的输入特征图;通过对表征最低分辨率的特征层的输入特征图使用卷积计算,得到第N+1个特征层的输入特征图;通过对第N+1个特征层的输入特征图使用卷积计算,得到第N+2个特征层的输入特征图。
在本实施例的一些可选的实现方式中,所述装置还包括:卷积模块,被配置为对所述每个特征层的输出特征图使用卷积计算,得到每个特征层的最终特征;目标检测模块,将所述每个特征层的最终特征传给区域选择网络做目标检测。
如图6所示,是根据本申请实施例应用于小目标检测的特征融合方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器***)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的应用于小目标检测的特征融合方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的应用于小目标检测的特征融合方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的应用于小目标检测的特征融合方法对应的程序指令/模块(例如,附图5所示的获取模块501、维度压缩模块502、DCFPN特征融合模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的应用于小目标检测的特征融合方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据应用于小目标检测的特征融合方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至应用于小目标检测的特征融合方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
应用于小目标检测的特征融合方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与应用于小目标检测的特征融合方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。其中,计算机程序产品中包括计算机程序,计算机程序在被处理器执行时实现上述实施例200、400中的方法。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请的技术方案,首先获取Backbone网络中多个卷积层输出的特征图;之后对所述特征图进行卷积运算,得到多个特征层的输入特征图,其中,所述多个特征层表征所述输入特征图的多个分辨率;最后对每个特征层的所述输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图,由于没有引入额外的卷积层进行特征融合,因此可以在不额外增加参数的情况下增强小目标检测性能,在具有计算资源约束的情况下提升小目标的检测能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (12)

1.一种应用于小目标检测的特征融合方法,包括:
获取Backbone网络中多个卷积层输出的特征图,其中,所述特征图为图像的特征图;
对所述特征图进行卷积运算,得到多个特征层的输入特征图,其中,所述多个特征层表征所述输入特征图的多个分辨率;
对每个特征层的所述输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图,其中,所述进行密集链接特征金字塔特征融合包括:
对第i个特征层的输入特征图以及低于第i个特征层对应分辨率的其它特征层的输入特征图进行采样,其中,i为正整数;
将采样后的其它特征层的输入特征图缩放至与第i个特征层的输入特征图同一尺寸大小;
将缩放后的其它特征层的输入特征图与第i个特征层的输入特征图逐个叠加,并将叠加后的最终结果作为第i个特征层的输出特征图。
2.根据权利要求1所述的方法,所述获取Backbone网络中多个卷积层输出的特征图包括:
从Backbone网络中抽取最后N个卷积层的特征图,并将其作为所述卷积层输出的特征图,其中,N为正整数。
3.根据权利要求2所述的方法,所述对所述特征图进行卷积运算,得到多个特征层的输入特征图包括:
通过对所述卷积层输出的特征图使用卷积计算,得到与所述卷积层对应的N个特征层的输入特征图;
通过对表征最低分辨率的特征层的输入特征图使用卷积计算,得到第N+1个特征层的输入特征图;
通过对第N+1个特征层的输入特征图使用卷积计算,得到第N+2个特征层的输入特征图。
4.根据权利要求1所述的方法,所述方法还包括:
对所述每个特征层的输出特征图使用卷积计算,得到每个特征层的最终特征;
将所述每个特征层的最终特征传给区域选择网络做目标检测。
5.根据权利要求1-4任一项所述的方法,所述Backbone网络包括ResNet、DenseNet、EfficientNet中的至少一种。
6.一种应用于小目标检测的特征融合装置,其特征在于,所述装置包括:
获取模块,被配置为获取Backbone网络中多个卷积层输出的特征图,其中,所述特征图为图像的特征图;
维度压缩模块,被配置为对所述特征图进行卷积,得到多个特征层的输入特征图,其中,所述多个特征层表征所述输入特征图的多个分辨率;
密集链接特征金字塔特征融合模块,被配置为对每个特征层的所述输入特征图进行密集链接特征金字塔特征融合,得到该特征层的输出特征图,其中,所述进行密集链接特征金字塔特征融合包括:
对第i个特征层的输入特征图以及低于第i个特征层对应分辨率的其它特征层的输入特征图进行采样,其中,i为正整数;
将采样后的其它特征层的输入特征图缩放至与第i个特征层的输入特征图同一尺寸大小;
将缩放后的其它特征层的输入特征图与第i个特征层的输入特征图逐个叠加,并将叠加后的最终结果作为第i个特征层的输出特征图。
7.根据权利要求6所述的装置,其中,所述获取模块进一步被配置成:
从Backbone网络中抽取最后N个卷积层的特征图,并将其作为所述卷积层输出的特征图,其中,N为正整数。
8.根据权利要求6所述的装置,其中,所述维度压缩模块进一步被配置成:
通过对所述卷积层输出的特征图使用卷积计算,得到与所述卷积层对应的N个特征层的输入特征图;
通过对表征最低分辨率的特征层的输入特征图使用卷积计算,得到第N+1个特征层的输入特征图;
通过对第N+1个特征层的输入特征图使用卷积计算,得到第N+2个特征层的输入特征图。
9.根据权利要求6所述的装置,所述装置还包括:
卷积模块,被配置为对所述每个特征层的输出特征图使用卷积计算,得到每个特征层的最终特征;
目标检测模块,将所述每个特征层的最终特征传给区域选择网络做目标检测。
10.根据权利要求6-9任一项所述的装置,所述Backbone网络包括ResNet、DenseNet、EfficientNet中的至少一种。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
CN202011021013.9A 2020-09-25 2020-09-25 应用于小目标检测的特征融合方法、装置、设备以及存储介质 Active CN111967538B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011021013.9A CN111967538B (zh) 2020-09-25 2020-09-25 应用于小目标检测的特征融合方法、装置、设备以及存储介质
US17/213,896 US11735315B2 (en) 2020-09-25 2021-03-26 Method, apparatus, and device for fusing features applied to small target detection, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011021013.9A CN111967538B (zh) 2020-09-25 2020-09-25 应用于小目标检测的特征融合方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111967538A CN111967538A (zh) 2020-11-20
CN111967538B true CN111967538B (zh) 2024-03-15

Family

ID=73387071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011021013.9A Active CN111967538B (zh) 2020-09-25 2020-09-25 应用于小目标检测的特征融合方法、装置、设备以及存储介质

Country Status (2)

Country Link
US (1) US11735315B2 (zh)
CN (1) CN111967538B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797881B (zh) * 2019-07-30 2024-06-28 华为技术有限公司 图像分类方法及装置
CN112528782B (zh) * 2020-11-30 2024-02-23 北京农业信息技术研究中心 水下鱼类目标检测方法及装置
CN112991267A (zh) * 2021-02-08 2021-06-18 上海工程技术大学 一种基于改进的efficientNet-RCNN的带钢表面缺陷检测方法
CN113159063B (zh) * 2021-03-30 2022-11-18 电子科技大学 一种基于改进的RetinaNet小目标检测方法
CN113609906B (zh) * 2021-06-30 2024-06-21 南京信息工程大学 一种面向文献的表格信息抽取方法
CN113780193A (zh) * 2021-09-15 2021-12-10 易采天成(郑州)信息技术有限公司 基于rcnn的牛群目标检测方法及设备
CN114511515B (zh) * 2022-01-17 2022-08-12 山东高速路桥国际工程有限公司 一种基于BoltCorrDetNet网络的螺栓腐蚀检测***和检测方法
CN115082688B (zh) * 2022-06-02 2024-07-05 艾迪恩(山东)科技有限公司 一种基于目标检测的多尺度特征融合方法
CN114743023B (zh) * 2022-06-14 2022-08-26 安徽大学 一种基于RetinaNet模型的麦蜘蛛图像检测方法
CN115424230B (zh) * 2022-09-23 2023-06-06 哈尔滨市科佳通用机电股份有限公司 一种车门滑轮脱出轨道故障检测方法、存储介质及设备
CN115272648B (zh) * 2022-09-30 2022-12-20 华东交通大学 用于小目标检测的多层级感受野扩展方法与***
CN115909001A (zh) * 2023-03-09 2023-04-04 和普威视光电股份有限公司 一种融合密集嵌套跳跃连接的目标检测方法及***
CN117351356B (zh) * 2023-10-20 2024-05-24 三亚中国农业科学院国家南繁研究院 一种无人机视角下田间作物及其近缘种病害检测方法
CN117496132A (zh) * 2023-12-29 2024-02-02 数据空间研究院 一种面向小尺度目标检测的尺度感知检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109711241A (zh) * 2018-10-30 2019-05-03 百度在线网络技术(北京)有限公司 物体检测方法、装置与电子设备
CN109753866A (zh) * 2017-11-03 2019-05-14 西门子保健有限责任公司 机器学习中具有密集特征金字塔网络架构的医学图像对象检测
CN109815868A (zh) * 2019-01-15 2019-05-28 腾讯科技(深圳)有限公司 一种图像目标检测方法、装置及存储介质
CN111461217A (zh) * 2020-03-31 2020-07-28 华南理工大学 一种基于特征融合和上采样的航拍图像小目标检测方法
CN111524135A (zh) * 2020-05-11 2020-08-11 安徽继远软件有限公司 基于图像增强的输电线路细小金具缺陷检测方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3112265C (en) * 2018-09-19 2022-11-15 Avigilon Coporation Method and system for performing object detection using a convolutional neural network
CN109389078B (zh) * 2018-09-30 2022-06-21 京东方科技集团股份有限公司 图像分割方法、相应的装置及电子设备
CN109993707B (zh) * 2019-03-01 2023-05-12 华为技术有限公司 图像去噪方法和装置
CN110110617B (zh) * 2019-04-22 2021-04-20 腾讯科技(深圳)有限公司 医学影像分割方法、装置、电子设备和存储介质
CN110866908B (zh) * 2019-11-12 2021-03-26 腾讯科技(深圳)有限公司 图像处理方法、装置、服务器及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753866A (zh) * 2017-11-03 2019-05-14 西门子保健有限责任公司 机器学习中具有密集特征金字塔网络架构的医学图像对象检测
CN109711241A (zh) * 2018-10-30 2019-05-03 百度在线网络技术(北京)有限公司 物体检测方法、装置与电子设备
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法
CN109815868A (zh) * 2019-01-15 2019-05-28 腾讯科技(深圳)有限公司 一种图像目标检测方法、装置及存储介质
CN111461217A (zh) * 2020-03-31 2020-07-28 华南理工大学 一种基于特征融合和上采样的航拍图像小目标检测方法
CN111524135A (zh) * 2020-05-11 2020-08-11 安徽继远软件有限公司 基于图像增强的输电线路细小金具缺陷检测方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任坤,黄泷,范春奇,高学金.基于多尺度像素特征融合的实时小交通标志检测算法.《信号处理》.2020,第1457-1463页. *
欧阳乐诚 ; 王华力 ; .地面小目标快速检测算法研究.信号处理.2019,(12),第1952-1958页. *

Also Published As

Publication number Publication date
US20210224581A1 (en) 2021-07-22
CN111967538A (zh) 2020-11-20
US11735315B2 (en) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111967538B (zh) 应用于小目标检测的特征融合方法、装置、设备以及存储介质
EP3869403A2 (en) Image recognition method, apparatus, electronic device, storage medium and program product
US20210406586A1 (en) Image classification method and apparatus, and style transfer model training method and apparatus
CN111582375B (zh) 数据增强策略搜索方法、装置、设备以及存储介质
CN112149634B (zh) 图像生成器的训练方法、装置、设备以及存储介质
CN111582454B (zh) 生成神经网络模型的方法和装置
CN111582477B (zh) 神经网络模型的训练方法和装置
CN112149829B (zh) 确定网络模型剪枝策略的方法、装置、设备以及存储介质
CN112150462B (zh) 确定目标锚点的方法、装置、设备以及存储介质
CN112270711B (zh) 模型训练以及姿态预测方法、装置、设备以及存储介质
EP3893153A2 (en) Method and apparatus for training cross-modal face recognition model, device and storage medium
CN111582452B (zh) 生成神经网络模型的方法和装置
CN111695519B (zh) 关键点定位方法、装置、设备以及存储介质
EP3901908A1 (en) Method and apparatus for tracking target, device, medium and computer program product
CN112241716B (zh) 训练样本的生成方法和装置
CN112116525B (zh) 换脸识别方法、装置、设备和计算机可读存储介质
CN111695516B (zh) 热力图的生成方法、装置及设备
CN111523467B (zh) 人脸跟踪方法和装置
CN111275121B (zh) 一种医学影像处理方法、装置和电子设备
JP7242812B2 (ja) 画像認識方法、装置及び電子機器
CN111680597A (zh) 人脸识别模型处理方法、装置、设备和存储介质
CN112102174B (zh) 眼底图像处理方法、装置、设备以及存储介质
CN112150463B (zh) 用于确定黄斑中心凹位置的方法及装置
CN112085103B (zh) 基于历史行为的数据增强方法、装置、设备以及存储介质
CN112508964B (zh) 图像分割方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210419

Address after: 100000 Room 220, 2nd Floor, Building 4, No. 1, Shangdi East Road, Haidian District, Beijing

Applicant after: Beijing Confucius Health Technology Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer 2

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant