CN109977997B - 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 - Google Patents

基于卷积神经网络快速鲁棒的图像目标检测与分割方法 Download PDF

Info

Publication number
CN109977997B
CN109977997B CN201910113339.5A CN201910113339A CN109977997B CN 109977997 B CN109977997 B CN 109977997B CN 201910113339 A CN201910113339 A CN 201910113339A CN 109977997 B CN109977997 B CN 109977997B
Authority
CN
China
Prior art keywords
bounding box
image
feature map
target detection
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910113339.5A
Other languages
English (en)
Other versions
CN109977997A (zh
Inventor
王坤峰
王飞跃
张慧
田永林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Academy Of Intelligent Industries
Institute of Automation of Chinese Academy of Science
Original Assignee
Qingdao Academy Of Intelligent Industries
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Academy Of Intelligent Industries, Institute of Automation of Chinese Academy of Science filed Critical Qingdao Academy Of Intelligent Industries
Priority to CN201910113339.5A priority Critical patent/CN109977997B/zh
Publication of CN109977997A publication Critical patent/CN109977997A/zh
Application granted granted Critical
Publication of CN109977997B publication Critical patent/CN109977997B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉领域,具体涉及了一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法,旨在解决图像目标检测与分割精度低、效率差的问题。本发明方法包括:采用深层卷积神经网络将获取的待处理图像生成多尺度特征图组;进行迭代反馈融合,获得融合特征图组;基于融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置;根据前景概率、条件类别概率计算包围框属于各个类别的后验概率并调整包围框;依据包围框在待处理图像上的位置,进行待处理图像的目标检测与分割。本发明方法具有较强的特征表达能力,可以克服复杂环境下目标存在的巨大差异性,具有较高的处理速度,并准确得到检测与分割结果。

Description

基于卷积神经网络快速鲁棒的图像目标检测与分割方法
技术领域
本发明属于计算机视觉领域,具体涉及了一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法。
背景技术
目标检测与分割是计算机视觉中一个非常重要的研究问题。随着电子成像技术的持续发展,各式各样的摄像机在社会管理、工业生产和人民生活中被广泛使用,每时每刻都在产生海量的图像数据。通过图像分析处理,获取感兴趣的高层信息,实现对物理世界的智能感知与理解,具有巨大的应用价值。目标对象的信息通常属于图像处理中的感兴趣信息。在许多情况下,我们希望及时准确地检测、分割图像中存在的感兴趣目标,然后把获得的信息应用到智能监控、环境感知等一系列现实任务中。因此,目标检测与分割研究受到了学术界和产业界的高度重视。
目标检测需要对目标进行适当的表示,从形状的角度可以将目标表示为边框、斑块、显著点、部件集合等形状。边框是一种简单粗略的形状表示,由于边框内既含有目标像素,又含有背景或其他目标的像素,容易干扰特征提取,影响目标检测的性能。与边框相比,用斑块来表示目标形状,能够在图像中精确地分割每个目标的像素,使目标与背景及其他目标的像素严格区分开,从而避免干扰特征提取,有利于实现更精确的目标视觉检测任务。
目前基于深度神经网络的目标检测方法主要分为两类:基于区域建议的两阶段方法和基于无区域建议的单阶段方法。基于区域建议的目标检测方法利用图像中的纹理、边缘、颜色等信息预先找出图中目标可能出现的位置,可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率,但是候选区域生成阶段仍然会导致不能实时进行目标检测;基于无区域建议的目标检测研究,主要采用回归的思想,直接基于整幅图像来预测包围边框的位置及所属类型,大大提高了效率,能够达到实时的效果。
现有技术存在以下问题:基于区域建议的两阶段方法精度高但是实时性差,基于无区域建议的方法拥有更快的速度,但是精度稍低;现有的仅用最后一层特征图来产生候选包围框的特征表示方法很难覆盖环境的复杂性和目标存在的巨大差异性;在单帧图像中,目标检测算法的精度和计算效率还有待提高。
发明内容
为了解决现有技术中的上述问题,即图像目标检测与分割精度低、效率差的问题,本发明的第一方面,提供了一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法,包括:
步骤S10,采用深层卷积神经网络获取待处理图像的多尺度特征图组;所述多尺度特征图组包括高层多尺度特征图组、低层多尺度特征图组;
步骤S20,对所述多尺度特征图组进行迭代反馈融合,获得融合特征图组;
步骤S30,基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置;
步骤S40,依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割。
在一些优选的实施例中,步骤S20中“对所述多尺度特征图组进行迭代反馈融合,获得融合特征图组”,其方法为:
对所述高层多尺度特征图顺次进行卷积、标准化、激活操作,与相应的低层多尺度特征图在特征通道维度上进行融合,获得多尺度融合特征图。
在一些优选的实施例中,步骤S30中“基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置”,其步骤为:
步骤S31,计算所述多尺度融合特征图组中包围框的尺寸大小:
sj=2j×smin,j∈[0,3]
其中,Sj为第j个包围框,smin为预设包围框的最小尺度;
步骤S32,计算包围框的宽度
Figure BDA0001968955780000031
和高度
Figure BDA0001968955780000032
Figure BDA0001968955780000033
Figure BDA0001968955780000034
其中,rm为长宽比参考盒;
步骤S33,计算所述包围框的中心点坐标以及包围框的宽度和高度:
Figure BDA0001968955780000035
Figure BDA0001968955780000036
Figure BDA0001968955780000037
Figure BDA0001968955780000041
Figure BDA0001968955780000042
Figure BDA0001968955780000043
Figure BDA0001968955780000044
Figure BDA0001968955780000045
其中,
Figure BDA0001968955780000046
分别为预测包围框相对于参考包围框的坐标参数;
Figure BDA0001968955780000047
分别为真实包围框相对于参考包围框的坐标参数;x、y、w、h分别为预测包围框中心的坐标和它的宽度、高度;xa、ya、wa、ha分别为参考包围框中心的坐标和它的宽度、高度;x*、y*、w*、h*分别为真实包围框中心的坐标和它的宽度、高度。
在一些优选的实施例中,步骤S40“依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割”之前还设置有包围框位置调整的步骤,其步骤为:
步骤B10,计算包围框的前景分类损失和条件分类损失;
步骤B20,依据所述前景分类损失和条件分类损失的计算结果,计算所述包围框的位置损失;
步骤B30,根据计算得到的前景分类损失、条件分类损失、包围框的位置损失,计算包围框属于各个类别的后验概率,得到包围框的位置调整量;
步骤B40,依据所述包围框的位置调整量调整包围框的位置。
在一些优选的实施例中,所述前景分类损失和条件分类损失,其计算方式为:
前景分类损失
Figure BDA0001968955780000048
Figure BDA0001968955780000049
其中,pi(object)是包围框i是否含有目标的预测置信度;
Figure BDA0001968955780000051
是包围框i对应的真实框的标签,正样本
Figure BDA0001968955780000052
为1,负样本
Figure BDA0001968955780000053
为0;
条件类别分类损失
Figure BDA0001968955780000054
Figure BDA0001968955780000055
其中,
Figure BDA0001968955780000056
为包含目标的条件类别概率分布;N为物体类别数;
Figure BDA0001968955780000057
是包围框i对应的真实框的标签,正样本
Figure BDA0001968955780000058
为1,负样本
Figure BDA0001968955780000059
为0;i为包围框的序号。
在一些优选的实施例中,所述包围框的位置损失,其计算方式为:
包围框位置损失lloc(gj,g'j):
Figure BDA00019689557800000510
其中,gj为预测的包围框坐标,g'j为真实的包围框坐标。
在一些优选的实施例中,步骤B30中“包围框属于各个类别的后验概率”,其计算方式为:
Figure BDA00019689557800000511
Figure BDA00019689557800000512
其中,L为图像目标检测与分割的总损失,lmask为目标分割损失,
Figure BDA00019689557800000513
为一个特征层上对应的检测损失,Nbb为参与梯度更新的包围框的总个数,Nloc为参与梯度更新的包围框中正样本的个数。
本发明的另一方面,提出了一种基于卷积神经网络快速鲁棒的图像目标检测与分割***,包括输入模块、特征提取模块、反馈融合模块、目标检测模块、位置调整模块、目标分割模块、输出模块;
所述输入模块,配置为获取待处理的图像并输入;
所述特征提取模块,配置为采用深层卷积神经网络获取待处理图像的多尺度特征图组;
所述反馈融合模块,配置为对所述多尺度特征图组进行迭代反馈融合,获得融合特征图组;
所述目标检测模块,配置为基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置;
所述位置调整模块,配置为计算包围框属于各个类别的后验概率并调整包围框的位置;
所述目标检测分割模块,配置为依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割;
所述输出模块,配置为将获取的目标检测与分割结果输出。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。
本发明的有益效果:
(1)本发明方法具有较强的特征表达能力,可以克服复杂环境下目标存在的巨大差异性,具有较高的处理速度,并准确得到检测与分割结果。
(2)本发明方法将输入图像通过卷积神经网络得到不同尺度的特征表示,对多尺度特征进行迭代反馈并融合,能够获取更鲁棒的特征表示。
(3)本发明方法利用一系列卷积层、池化层和反卷积层来构建目标分割模块,同时微调包围框的位置,可以获得更精细的目标检测与分割结果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法的流程示意图;
图2是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的输入图像的不同特征示例图;
图3是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的输入图像语义信息更加丰富的特征示例图;
图4是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的迭代反馈融合模块示意图;
图5是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的多个特征层上预测检测框的坐标、前景概率和条件类别概率分数示例图;
图6是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的分割模块特征可视化示例图;
图7是本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法一种实施例的目标检测与分割结果示例图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法,包括:
步骤S10,采用深层卷积神经网络获取待处理图像的多尺度特征图组;所述多尺度特征图组包括高层多尺度特征图组、低层多尺度特征图组;
步骤S20,对所述多尺度特征图组进行迭代反馈融合,获得融合特征图组;
步骤S30,基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置;
步骤S40,依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割。
为了更清晰地对本发明基于卷积神经网络快速鲁棒的图像目标检测与分割方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于卷积神经网络快速鲁棒的图像目标检测与分割方法,包括步骤S10-步骤S40,各步骤详细描述如下:
步骤S10,采用深层卷积神经网络获取待处理图像的多尺度特征图组;所述多尺度特征图组包括高层多尺度特征图组、低层多尺度特征图组。
本发明优选的实施例可以选取深层卷积神经网络中的ResNet网络或者VGGNet网络获取待处理图像的特征表示图,不同特征图的分辨率相对于输入图像的缩小倍数分别是4,8,16,32,64,如图2所示为本发明实施例的输入图像的不同特征图。
步骤S20,对所述多尺度特征图组进行迭代反馈融合,获得融合特征图组。
浅层的特征具有更高的空间分辨率,包含更多细粒度信息,但是相比于深层特征,然而这些层缺少丰富的语义信息,因此这些特征层在对具有巨大差异的目标进行特征提取比较受限,尤其是对于检测***中的小目标和遮挡目标,随着卷积层的不断加深,这些困难目标在高层特征图上丢失了大量信息,但是在低层的特征图上又缺乏丰富的语义信息,大大影响了检测***的性能。
本发明对高层多尺度特征图顺次进行卷积、标准化、激活操作,与相应的低层多尺度特征图在特征通道维度上进行融合,获得多尺度融合特征图,多尺度融合特征图的语义信息更加丰富。如图3所示,为本发明一种实施例的输入图像语义信息更加丰富的特征示例图。实施例中可以采取不同的方法来实现上述操作,例如:
方法一,将特征层Li经过卷积操作得到输出特征层Mi
计算输出特征层Mi,将维度为(Hi×Wi×li)的特征图Fi L转化为维度为(Hi×Wi×fi)的特征图Fi M,如式(1)所示:
Mi=LiΘC′i 式(1)
其中,Θ表示多维度卷积滤波器操作。
方法二,将高层特征经过上采样操作后产生一个反馈上下文的特征Fi D,使得该反馈上下文特征与上一层的低层特征图进行匹配,得到输出特征层Di,将维度为
Figure BDA0001968955780000091
的特征图
Figure BDA0001968955780000092
转化为维度为(Hi×Wi×fi)的特征图Fi D。如图4所示,为本发明一种实施例的迭代反馈融合模块示意图。
步骤S30,基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置。
为了适应不同大小物体的尺度变化,不同于其他方法,将图像转换成不同的尺度,将这些图像独立的通过卷积神经网络处理,再将这些不同尺度的图像结果进行综合,本发明方法采用多层特征层回归检测框的架构,如图5所示,为本发明一种实施例的多个特征层上预测检测框的坐标、前景概率和条件类别概率分数示例图,经过步骤S20处理后,得到的融合特征图组分别是B2、B3、B4、B5、B6,在此五个不同尺度的特征图上预测包围框的坐标、前景概率和条件类别概率分数。不同特征图的感受野大小不同,特征图中特定的位置来负责图像中特定的区域以及物体特定的尺寸。
步骤S31,计算所述多尺度融合特征图组中包围框的尺寸大小,如式(2)所示:
sj=2j×smin,j∈[0,3] 式(2)
其中,Sj为第j个包围框,smin为预设的包围框的最小尺度。
步骤S32,计算包围框的宽度
Figure BDA0001968955780000101
和高度
Figure BDA0001968955780000102
如式(3)和式(4)所示:
Figure BDA0001968955780000103
Figure BDA0001968955780000104
其中,rm为长宽比参考盒。
本发明实施例中,包围框的最小尺度smin可以为32像素,参考盒
Figure BDA0001968955780000105
步骤S33,计算所述包围框的中心点坐标以及包围框的宽度和高度,如式(5)至式(12)所示:
Figure BDA0001968955780000111
Figure BDA0001968955780000112
Figure BDA0001968955780000113
Figure BDA0001968955780000114
Figure BDA0001968955780000115
Figure BDA0001968955780000116
Figure BDA0001968955780000117
Figure BDA0001968955780000118
其中,
Figure BDA0001968955780000119
分别为预测包围框相对于参考包围框的坐标参数;
Figure BDA00019689557800001110
分别为真实包围框相对于参考包围框的坐标参数;x、y、w、h分别为预测包围框中心的坐标和它的宽度、高度;xa、ya、wa、ha分别为参考包围框中心的坐标和它的宽度、高度;x*、y*、w*、h*分别为真实包围框中心的坐标和它的宽度、高度。
此计算过程为从参考盒到一个附近的真实框的包围框回归方式,相对于基于感兴趣区域的方法,本发明方法通过一种不同的方式来获取检测边框的回归位置。为了解决复杂环境下目标尺度变化差异大的问题,让其学习多个检测包围框的回归量,每个回归量对应一个尺度和一个长宽比。因此,可以通过固定的大小特征,预测到不同大小的检测包围框。
步骤S40,依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割。
利用一系列卷积层、池化层和反卷积层来构建目标分割模块,完成图像目标分割。如图6所示,为本发明一种实施例的分割模块特征可视化示例图。对于每一个目标检测包围框,从多尺度的反馈融合特征图上提取包围框特征,然后把在每个特征层上提取到的相同尺度的区域块表示在特征通道上直接堆叠,堆叠后的特征经过一系列卷积和反卷积操作得到最终的目标分割结果。其中,提取包围框特征的具体步骤是:首先遍历每一个包围框,将包围框分割成固定数量的单元块,然后在每个单元块中采用双线性插值的方法计算出坐标为浮点数的像素点上的图像数值,最后在每个单元块中进行最大池化操作。
对于每个类别,目标分割结果是一个二进制像素级别的分割图,具有(N+1)M2维度,其中N表示物体类别个数(不包含背景),M2表示每个类别二进制分割图的分辨率。
如图7所示,为本发明一种实施例的目标检测与分割结果示例图。图中第一列为输入图像,图中第二列为“真实”标签信息,图中第三列为输入大小为512×512像素时对应的检测与分割结果图,图中第四列为输入大小为1024×1024像素时对应的检测与分割结果图。
步骤S40“依据所述包围框在待处理图像上的位置,完成待处理图像的目标检测与分割”之前还设置有包围框位置调整的步骤,其步骤为:
步骤B10,计算包围框的前景分类损失和条件分类损失。
前景分类损失
Figure BDA0001968955780000121
如式(13)所示:
Figure BDA0001968955780000122
其中,pi(object)是包围框i是否含有目标的预测置信度;
Figure BDA0001968955780000123
是包围框i对应的真实框的标签,正样本
Figure BDA0001968955780000124
为1,负样本
Figure BDA0001968955780000125
为0。
条件类别分类损失
Figure BDA0001968955780000126
如式(14)所示:
Figure BDA0001968955780000127
其中,
Figure BDA0001968955780000131
为包含目标的条件类别概率分布;N为物体类别数;
Figure BDA0001968955780000132
是包围框i对应的真实框的标签,正样本
Figure BDA0001968955780000133
为1,负样本
Figure BDA0001968955780000134
为0;i为包围框的序号。
步骤B20,依据所述前景分类损失和条件分类损失的计算结果,计算所述包围框的位置损失。
包围框位置损失lloc(gj,g'j)如式(15)所示:
Figure BDA0001968955780000135
其中,gj为预测的包围框坐标,g'j为真实的包围框坐标。
步骤B30,根据计算得到的前景分类损失、条件分类损失、包围框的位置损失,计算包围框属于各个类别的后验概率,得到包围框的位置调整量。
包围框属于各个类别的后验概率如式(16)和式(17)所示:
Figure BDA0001968955780000136
Figure BDA0001968955780000137
其中,L为图像目标检测与分割的总损失,lmask为目标分割损失,
Figure BDA0001968955780000138
为一个特征层上对应的检测损失,Nbb为参与梯度更新的包围框的总个数,Nloc为参与梯度更新的包围框中正样本的个数。
步骤B40,依据所述包围框的位置调整量调整包围框的位置。
本发明第二实施例的基于卷积神经网络快速鲁棒的图像目标检测与分割***,包括输入模块、特征提取模块、反馈融合模块、目标检测模块、位置调整模块、目标分割模块、输出模块;
所述输入模块,配置为获取待处理的图像并输入;
所述特征提取模块,配置为采用深层卷积神经网络获取待处理图像的多尺度特征图组;
所述反馈融合模块,配置为对所述多尺度特征图组进行迭代反馈融合,获得融合特征图组;
所述目标检测模块,配置为基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置;
所述位置调整模块,配置为计算包围框属于各个类别的后验概率并调整包围框的位置;
所述目标检测分割模块,配置为依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割;
所述输出模块,配置为将获取的目标检测与分割结果输出。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于卷积神经网络快速鲁棒的图像目标检测与分割***,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于卷积神经网络快速鲁棒的图像目标检测与分割方法,其特征在于,包括:
步骤S10,采用深层卷积神经网络获取待处理图像的多尺度特征图组;所述多尺度特征图组包括高层多尺度特征图组、低层多尺度特征图组;
步骤S20,对所述多尺度特征图组顺次进行卷积、标准化、激活操作,与相应的低层多尺度特征图在特征通道维度上进行融合,获得融合特征图组;
步骤S30,基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置;
步骤S40,依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割。
2.根据权利要求1所述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法,其特征在于,步骤S30中“基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置”,其步骤为:
步骤S31,计算所述多尺度融合特征图组中包围框的尺寸大小:
sj=2j×smin,j∈[0,3]
其中,Sj为第j个包围框,smin为预设的包围框的最小尺度;
步骤S32,计算包围框Sj的宽度
Figure FDA0002747505910000011
和高度
Figure FDA0002747505910000012
Figure FDA0002747505910000013
Figure FDA0002747505910000014
其中,rm为参考包围框的长宽比;
步骤S33,计算所述包围框的中心点坐标以及包围框的宽度和高度:
Figure FDA0002747505910000021
Figure FDA0002747505910000022
Figure FDA0002747505910000023
Figure FDA0002747505910000024
Figure FDA0002747505910000025
Figure FDA0002747505910000026
Figure FDA0002747505910000027
Figure FDA0002747505910000028
其中,
Figure FDA0002747505910000029
分别为预测包围框相对于参考包围框的坐标参数;
Figure FDA00027475059100000210
分别为真实包围框相对于参考包围框的坐标参数;x、y、w、h分别为预测包围框中心的坐标和它的宽度、高度;xa、ya、wa、ha分别为参考包围框中心的坐标和它的宽度、高度;x*、y*、w*、h*分别为真实包围框中心的坐标和它的宽度、高度。
3.根据权利要求1所述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法,其特征在于,步骤S40“依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割”之前还设置有包围框位置调整的步骤,其步骤为:
步骤B10,计算包围框的前景分类损失和条件分类损失;
步骤B20,依据所述前景分类损失和条件分类损失的计算结果,计算所述包围框的位置损失;
步骤B30,根据计算得到的前景分类损失、条件分类损失、包围框的位置损失,计算包围框属于各个类别的后验概率,得到包围框的位置调整量;
步骤B40,依据所述包围框的位置调整量调整包围框的位置。
4.根据权利要求3所述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法,其特征在于,所述前景分类损失和条件分类损失,其计算方式为:
前景分类损失
Figure FDA0002747505910000031
Figure FDA0002747505910000032
其中,pi(object)是包围框i是否含有目标的预测置信度;
Figure FDA0002747505910000033
是包围框i对应的真实框的标签,正样本
Figure FDA0002747505910000034
为1,负样本
Figure FDA0002747505910000035
为0;
条件类别分类损失
Figure FDA0002747505910000036
Figure FDA0002747505910000037
其中,
Figure FDA0002747505910000038
为包含目标的条件类别概率分布;N为物体类别数;
Figure FDA0002747505910000039
是包围框i对应的真实框的标签,正样本
Figure FDA00027475059100000310
为1,负样本
Figure FDA00027475059100000311
为0;i为包围框的序号。
5.根据权利要求4所述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法,其特征在于,所述包围框的位置损失,其计算方式为:
包围框位置损失lloc(gj,g'j):
Figure FDA00027475059100000312
其中,gj为预测的包围框坐标,g'j为真实的包围框坐标。
6.根据权利要求5所述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法,其特征在于,步骤B30中“包围框属于各个类别的后验概率”,其计算方式为:
Figure FDA0002747505910000041
Figure FDA0002747505910000042
其中,L为图像目标检测与分割的总损失,lmask为目标分割损失,
Figure FDA0002747505910000043
为一个特征层上对应的检测损失,Nbb为参与梯度更新的包围框的总个数,Nloc为参与梯度更新的包围框中正样本的个数。
7.一种基于卷积神经网络快速鲁棒的图像目标检测与分割***,其特征在于,包括输入模块、特征提取模块、反馈融合模块、目标检测模块、位置调整模块、目标分割模块、输出模块;
所述输入模块,配置为获取待处理的图像并输入;
所述特征提取模块,配置为采用深层卷积神经网络获取待处理图像的多尺度特征图组;
所述反馈融合模块,配置为对所述多尺度特征图组顺次进行卷积、标准化、激活操作,与相应的低层多尺度特征图在特征通道维度上进行融合,获得融合特征图组;
所述目标检测模块,配置为基于所述融合特征图组中各特征之间的互补关系,获取多个包围框以及包围框在待处理图像上的位置;
所述位置调整模块,配置为计算包围框属于各个类别的后验概率并调整包围框的位置;
所述目标检测分割模块,配置为依据所述包围框在待处理图像上的位置,进行待处理图像的目标检测与分割;
所述输出模块,配置为将获取的目标检测与分割结果输出。
8.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-6任一项所述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。
9.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-6任一项所述的基于卷积神经网络快速鲁棒的图像目标检测与分割方法。
CN201910113339.5A 2019-02-13 2019-02-13 基于卷积神经网络快速鲁棒的图像目标检测与分割方法 Expired - Fee Related CN109977997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910113339.5A CN109977997B (zh) 2019-02-13 2019-02-13 基于卷积神经网络快速鲁棒的图像目标检测与分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910113339.5A CN109977997B (zh) 2019-02-13 2019-02-13 基于卷积神经网络快速鲁棒的图像目标检测与分割方法

Publications (2)

Publication Number Publication Date
CN109977997A CN109977997A (zh) 2019-07-05
CN109977997B true CN109977997B (zh) 2021-02-02

Family

ID=67076963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910113339.5A Expired - Fee Related CN109977997B (zh) 2019-02-13 2019-02-13 基于卷积神经网络快速鲁棒的图像目标检测与分割方法

Country Status (1)

Country Link
CN (1) CN109977997B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796649B (zh) * 2019-10-29 2022-08-30 北京市商汤科技开发有限公司 目标检测方法及装置、电子设备和存储介质
CN111079623A (zh) * 2019-12-09 2020-04-28 成都睿沿科技有限公司 一种目标检测方法、装置及存储介质
CN113496139B (zh) * 2020-03-18 2024-02-13 北京京东乾石科技有限公司 从图像中检测目标和训练目标检测模型的方法和设备
CN111524106B (zh) * 2020-04-13 2021-05-28 推想医疗科技股份有限公司 颅骨骨折检测和模型训练方法、装置、设备和存储介质
CN112016512A (zh) * 2020-09-08 2020-12-01 重庆市地理信息和遥感应用中心 基于反馈式多尺度训练的遥感图像小目标检测方法
CN112184635A (zh) * 2020-09-10 2021-01-05 上海商汤智能科技有限公司 目标检测方法、装置、存储介质及设备
CN112215853A (zh) * 2020-10-12 2021-01-12 北京字节跳动网络技术有限公司 图像分割方法、装置、电子设备和计算机可读介质
CN112766244B (zh) * 2021-04-07 2021-06-08 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN113689430B (zh) * 2021-10-26 2022-02-15 紫东信息科技(苏州)有限公司 肠镜检查状态监测的图像处理方法与装置
CN114918944A (zh) * 2022-06-02 2022-08-19 哈尔滨理工大学 基于卷积神经网络融合的家庭服务机器人抓取检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109190458A (zh) * 2018-07-20 2019-01-11 华南理工大学 一种基于深度学习的小人头检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106097353B (zh) * 2016-06-15 2018-06-22 北京市商汤科技开发有限公司 基于多层次局部区域融合的物体分割方法及装置、计算设备
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
CN106897732B (zh) * 2017-01-06 2019-10-08 华中科技大学 一种基于连接文字段的自然图片中多方向文本检测方法
US10467493B2 (en) * 2017-07-14 2019-11-05 Google Llc Object detection using neural network systems
CN108564097B (zh) * 2017-12-05 2020-09-22 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
CN108596101B (zh) * 2018-04-25 2021-07-27 上海交通大学 一种基于卷积神经网络的遥感图像多目标检测方法
CN108710868B (zh) * 2018-06-05 2020-09-04 中国石油大学(华东) 一种基于复杂场景下的人体关键点检测***及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109190458A (zh) * 2018-07-20 2019-01-11 华南理工大学 一种基于深度学习的小人头检测方法

Also Published As

Publication number Publication date
CN109977997A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977997B (zh) 基于卷积神经网络快速鲁棒的图像目标检测与分割方法
CN108288088B (zh) 一种基于端到端全卷积神经网络的场景文本检测方法
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
CN108830285B (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
CN111080693A (zh) 一种基于YOLOv3的机器人自主分类抓取方法
CN111062885B (zh) 基于多阶段迁移学习的标志检测模型训练及标志检测方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN109711416B (zh) 目标识别方法、装置、计算机设备和存储介质
CN108305260B (zh) 一种图像中角点的检测方法、装置及设备
CN107067405B (zh) 基于尺度优选的遥感影像分割方法
CN108986152B (zh) 一种基于差分图像的异物检测方法及装置
CN114627052A (zh) 一种基于深度学习的红外图像漏气漏液检测方法及***
CN111860439A (zh) 一种无人机巡检图像缺陷检测方法、***及设备
Shahab et al. How salient is scene text?
CN108764244B (zh) 基于卷积神经网络和条件随机场的潜在目标区域检测方法
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN112364865B (zh) 一种复杂场景中运动小目标的检测方法
CN110310305B (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN111627050A (zh) 一种目标跟踪模型的训练方法和装置
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN113298809B (zh) 基于深度学习和超像素分割的复材超声图像缺陷检测方法
CN111259808A (zh) 一种基于改进ssd算法的交通标识的检测识别方法
CN115019181B (zh) 遥感图像旋转目标检测方法、电子设备及存储介质
Zhuang et al. Instance segmentation based 6D pose estimation of industrial objects using point clouds for robotic bin-picking
CN115147745A (zh) 一种基于城市无人机图像的小目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210202

Termination date: 20220213

CF01 Termination of patent right due to non-payment of annual fee