CN113313077A - 基于多策略和交叉特征融合的显著物体检测方法 - Google Patents

基于多策略和交叉特征融合的显著物体检测方法 Download PDF

Info

Publication number
CN113313077A
CN113313077A CN202110743443.XA CN202110743443A CN113313077A CN 113313077 A CN113313077 A CN 113313077A CN 202110743443 A CN202110743443 A CN 202110743443A CN 113313077 A CN113313077 A CN 113313077A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
strategy
fusion
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110743443.XA
Other languages
English (en)
Inventor
周武杰
孙帆
强芳芳
许彩娥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202110743443.XA priority Critical patent/CN113313077A/zh
Publication of CN113313077A publication Critical patent/CN113313077A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多策略融合的显著性物体检测方法,涉及深度学习领域。其在训练阶段,构建卷积神经网络,其隐层包括10个神经网络卷积块、5个多策略融合块、4个交叉特征融合块;使用原始的RGB彩色图和Depth深度图输入到卷积神经网络中进行训练,得到对应的显著体检测图;再通过计算原始的预测图与对应真实的显著体标签图(Ground Truth)的损失函数值,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待检测的显著体的RGB彩色图和对应的Depth深度图一起输入到卷积神经网络分类训练模型中,得到预测显著体检测图像;优点是提高了RGB‑D显著体检测效率和准确度。

Description

基于多策略和交叉特征融合的显著物体检测方法
技术领域
本发明涉及深度学习领域,更具体的说是涉及一种基于多策略和交叉特征融合的显著物体检测方法。
背景技术
显著目标检测(SOD)作为一种强大的预处理工具,在众多的计算机视觉任务中扮演着重要的角色,从自然图像中识别吸引注意对象的人类视觉注意机制。它有很多应用,如自动驾驶,机器人导航、视觉跟踪、图像检索、美学评估和内容感知图像编辑。受到进步的鼓舞在知觉心理学中,早期的模型使用启发式先验和手工制作的特征,如对比距离变换。然而,在复杂的场景下,它们的检测性能严重受限。近期研究已经证明了深度学习技术,特别是卷积神经网络(Convolutional Neural Networks,CNNs)尤为突出擅长从图像区域中提取语义特征来理解视觉概念,并取得了显著的效果。
采用深度学习的语义分割方法,直接进行像素级别端到端(end-to-end)的语义分割,其只需要将训练集中的图像输入进模型框架中训练,得到权重与模型,即可在测试集进行预测。卷积神经网络的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征。目前,基于深度学习语义分割的方法分为两种,第一种是编码-译码架构。编码过程通过池化层逐渐减少位置信息、抽取抽象特征;译码过程逐渐恢复位置信息。一般译码与编码间有直接的连接。第二种架构是带孔卷积(dilated convolutions),抛弃了池化层,通过带孔卷积的方式扩大感知域,较小值的带孔卷积感知域较小,学习到一些部分具体的特征;较大值的带孔卷积层具有较大的感知域,能够学习到更加抽象的特征,这些抽象的特征对物体的大小、位置和方向等鲁棒性更好。
现有的显著体检测方法大多采用深度学习的方法,利用卷积层与池化层相结合的模型较多,然而,当目标相似时,图像显著性检测可能会产生不满意的结果具有复杂背景的外观。深度信息能否为识别显著性提供重要的补充线索复杂场景中的物体。随着成像技术的飞速发展设备,深度图的获取变得更加方便,促进了对RGB-D显著性检测的研究。此外,深度映射包含许多有用的属性,例如凸体的形状、轮廓和几何空间信息对象,可以被认为是RGB-D显著性的相关线索。
发明内容
有鉴于此,本发明提供了一种基于多策略和交叉特征融合的显著物体检测方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于多策略和交叉特征融合的显著物体检测方法,包括以下步骤:
选取多幅数据集的RGB彩色图,Depth深度图和Ground Truth标签图,构成训练集;
构建卷积神经网络,所述卷积神经网络采用自顶向下的高级特征监督低级特征融合的方式;
将所述训练集输入到所述卷积神经网络,对所述卷积神经网络训练;
多次训练,得到卷积神经网络模型。
优选的,所述卷积神经网络引入深度优化模块提高图像质量,将多策略融合模块得到的特征图经交叉融合模块的交叉融合,捕获联合特征。
优选的,所述深度优化模块的结构如下:
第一个最大池化层,第一个卷积块,第一个激活层,第二个卷积块和第二个激活层依次连接后与所述第一个最大池化层做像素相乘后输入到第二个最大池化层,所述第二个最大池化层后依次连接有第三个卷积块和第三个激活层,所述第三个激活层的输出与所述第二个最大池化层做像素相乘后输入到第三个最大池化层,所述第三个最大池化层的输出与所述第一个最大池化层的输出做像素相加作为最终输出。
优选的,所述多策略融合模块对深度特征和RGB特征分别做像素相减,像素相加,像素相乘操作,并在通道维度上取平均值和最大值;将像素相减,像素相加,像素相乘操作以及通道维度上的平均值和最大值做像素相加作为第一输出;上一层融合特征经上采样后与所述第一输出做像素相加作为最终输出。
优选的,交叉融合模块的结构如下:
第二输入
Figure BDA0003142110230000031
经特征提取与第一输入
Figure BDA0003142110230000032
做像素相加得到的结果记为
Figure BDA0003142110230000033
Figure BDA0003142110230000034
经第一卷积块的输出与
Figure BDA0003142110230000035
做像素相加得到M,M与M做像素相加,像素相加的结果作为与M做像素相乘的输入,像素相乘的结果作为与M做像素相减的输入,像素相减的结果作为与M做通道叠加的输入,通道叠加的输出经过第二卷积块后作为最终输出。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多策略和交叉特征融合的显著物体检测方法,具有以下有益效果:
1)本发明方法构建卷积神经网络,使用训练集中的RGB-D图像输入到卷积神经网络中进行训练,得到卷积神经网络分类训练模型;再将待进行显著性检测的图像输入到卷积神经网络分类训练模型中,预测得到RGB图像对应的预测显著性图像,由于本发明方法在构建卷积神经网络时将深层的特征用来加强低层的特征融合,采用了各层特征监督,因此能够比较准确地定位显著性物体,从而有效地提高了显著体检测的精确度。
2)本发明方法采用交叉特征融合模块,将多策略融合模块的到的特征图进行交叉融合,捕获联合特征,为单模态特征提供补充信息。
3)本发明方法采用深度优化模块,消除深度信息的噪音对于网络的影响,使得到的深度信息更好的表达的显著体的位置信息。
4)本发明方法采用双向协作架构,采用自顶向下的监督,自底向上的解码,将全局特征细化到区域特征,用于最终预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明方法的总体实现框图;
图2为本发明交叉融合模块结构图;
图3为本发明深度优化模块结构图;
图4为本发明多策略融合模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于多策略融合和多监督的显著性物体检测的方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取Q幅NJU2K和NLPR数据集的RGB彩色图,Depth深度图,Ground Truth标签图,并构成训练集,将训练集中的第q幅原始的显著检测图像记为{Iq(i,j)},将训练集中与{Iq(i,j)}对应的真实标签图像记为
Figure BDA0003142110230000051
然后采用现有的独热编码技术(one-hot)将训练集中的每幅原始的显著性图像对应的真实显著性检测图像处理成1幅独热编码图像,将
Figure BDA0003142110230000052
处理成的1幅独热编码图像构成的集合记为
Figure BDA0003142110230000053
其中,道路场景图像为RGB彩色图像,Q为正整数,Q≥200,如取Q=2185,q为正整数,1≤q≤Q,1≤i≤W,1≤j≤H,W表示{Iq(i,j)}的宽度,H表示{Iq(i,j)}的高度,如取W=224、H=224,Iq(i,j)表示{Iq(i,j)}中坐标位置为(i,j)的像素点的像素值,
Figure BDA0003142110230000054
表示
Figure BDA0003142110230000055
中坐标位置为(i,j)的像素点的像素值;在此,直接选用显著性检测图像数据库NJU2K和NLPR训练集中的2185幅图像。
步骤1_2:构建卷积神经网络:卷积神经网络分为编码(Encode)和解码(Decode)两个部分,分别对应图像的特征提取(Feature Extract),特征融合(Feature Fusion)。其中图2为交叉融合模块结构图,图3为深度优化模块结构图,图4为多策略融合模块结构图。
输入由RGB(三通道)和Depth(单通道)两种不同模态作为联合输入,因此网络输入分为双流,分别对RGB和Depth进行编码。由于深度信息(Depth)包含图像的区域之间的空间信息,因此在显著体检测中起着很重要的作用,但深度图质量通常都很低,可能引入特征噪声和冗余到网络,我们引入深度优化模块(Depth-Optimize Model)。主干网络采用ResNet-50。RGB和Depth编码分别由5个卷积块构成。其中第1个卷积块,第2个卷积块,第3卷积块定义为低级特征,第4卷积块,第5卷积块定义为高级特征,同样深度流中第6卷积块,第7卷积块,第8卷积块定义为低级特征,第9卷积块和第10卷积块定义为高级特征。在两个编码主干流之间还有5个多策略融合模块(Muti-Strage Fusion),用高级特征来监督低级特征融合,采用自顶向下的方式。每个MSF通过上采样(Upsample)都有一个监督输出,在训练时作为监督损失。通过第一个MSF模块,分别和第2个多策略融合模块,第3个多策略融合模块,第4个多策略融合模块,第5个多策略融合模块的输出进行交叉特征融合(CFF)。其中两个编码流的输入图像的宽度都为W、高度都为H。
对于RGB彩色图像训练层、Depth单通道图像预训练层,采用的是Imagenet上预训练过的ResNet50,共五个输出。RGB彩色图像预训练层的第一个输出层尺寸为W/2、高度为H/2,共有64幅特征图,记为R1;RGB彩色图像预训练层的第二个输出层尺寸为W/4、高度为H/4,共有256幅特征图,记为R2;RGB彩色图像预训练层的第三个输出层尺寸为W/8、高度为H/8,共有512幅特征图,记为R3;RGB彩色图像预训练层的第四个输出层尺寸为W/16、高度为H/16,共有1024幅特征图,记为R4;左视图彩色图像预训练层的第五个输出层尺寸为W/32、高度为H/32,共有1024幅特征图,记为R5;与RGB彩色图像预训练层结构相同,Depth深度图像预训练层也有五个输出,记为D1,D2,D3,D4,D5,结构分别与R1,R2,R3,R4,R5相同。
对于第5个卷积块,第6个卷积块,第7个卷积块,第8个卷积块,第9个卷积块,第10个卷积块,每个卷积块分别通过上一层的卷积块的输出到深度优化模块DOM1,DOM2,DOM3,DOM4,DOM5的输出作为输入,得到D2,D3,D4,D5。
深度优化模块DOM的输入Di(Ci×Hi×Wi)(i=1,2,3,4,5),Ci表示通道数,Hi,Wi分别代表图像的长和宽。首先进行通道注意力(Channel Attention),其中主分支依次由第一个最大池化层,输出深度图的尺寸大小为1×1。第一个卷积块,卷积核大小1×1,步长为1,通道数为Ci/16,第一个激活层(Relu),第二个卷积块,卷积核大小1×1,步长为1,通道数为Ci,第二个激活层(Sigmoid),之后主分支与捷径分支进行像素相乘得到
Figure BDA0003142110230000061
接着进行空间注意力(Spatial Attention),其中主分支依次由第一个最大化层(Maximize),第三个卷积块,卷积核大小为7×7,步长为1,填充(Padding)为3,第三个激活层为Sigmoid,然后将通道注意力得到的
Figure BDA0003142110230000071
与空间注意力输出相乘,得到
Figure BDA0003142110230000072
最后将原始输入Di
Figure BDA0003142110230000073
进行Add操作,作为下一个卷积块的输入。
步骤1_3:对于第五个多策略融合模块,将第五个卷积模块(RGB彩色特征R5)和第5个深度优化模块(Depth深度特征D5)的输出作为输入,分别进行像素相减,像素相加,像素相乘,通道取最大值和通道取平均值,得到Q1,Q2,Q3,Q4,Q5,然后分别将Qi(i=1,2,3,4,5)相加,作为下一层多策略融合模块输入的融合特征,对于第4多策略融合模块,第3多策略融合模块,第2多策略融合模块,第1个多策略融合模块,分别将第4个卷积块,第3个卷积块,第2个卷积块,第1个卷积块(R4,R3,R2,R1)和第4深度优化模块,第3深度优化模块,第2深度优化模块,第1个深度优化模块(D4,D3,D2,D1)和前一层的多策略融合特征模块的融合特征作为输入。将Di(i=1,2,3,4)和Ri(i=1,2,3,4),分别进行像素相减,像素相加,像素相乘,通道取最大值和通道取平均值,得到Q1,Q2,Q3,Q4,Q5,然后将上一层的多策略融合模块的融合特征进行2倍上采样,得到Fi(i=1,2,3,4)最后将Q1,Q2,Q3,Q4,Q5与Fi相加,作为下一层多策略融合模块输入的融合特征。
对于第4个交叉融合模块,第3个交叉融合模块,第2个交叉融合模块,第1个交叉融合模块的输入,分别由第一个多策略融合模块的输出
Figure BDA0003142110230000074
和第5,4,3,2个多策略融合模块的输出构成。首先将第i(i=2,3,4,5)个多策略融合输出进行2i-1倍上采样,特征提取块,卷积层的卷积核大小为3×3,步长为1,填充为1,输出通道为64,然后进行标准化(BatchNorm),最后进行激活(Rectified Linear Unit,ReLU),得到
Figure BDA0003142110230000075
Figure BDA0003142110230000076
Figure BDA0003142110230000077
相加得到的结果
Figure BDA0003142110230000078
进行第一个卷积,卷积核大小为3×3,步长为1,填充为1,得到
Figure BDA0003142110230000079
然后将
Figure BDA00031421102300000710
Figure BDA00031421102300000711
相加,然后分别与自身相加,相乘,相减并将得到的特征作为下一步的操作对象,最后得到的结果与自身进行Concat。第二个卷积块,卷积核大小为1,步长为1,输出为64通道。
步骤1_4:将训练集中的每幅原始的RGB彩色图像和Depth深度图像通过随机裁剪,旋转,色彩加强,翻转等方式进行数据增强之后作为初始输入图像,批次大小为4。输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的显著性图像与原始大小相等的预测图,此外,为了辅助训练,在训练时将5个多策略融合模块的输出
Figure BDA0003142110230000081
大小依次为W/2*H/2,W/4*H/4,W/8*H/8,W/16*H/16,W/32*H/32通过上采样2i倍,得到大小为H*W的特征和模型最后的输出Mout一起监督训练,将
Figure BDA0003142110230000082
Mout与MGT(真实值)之间的损失函数记为LOSS(Mpre,MGT),LOSS采用二进制交叉熵损失函数(Binary CrossEntropy Loss),最后对6个损失求和作为最终损失值。
步骤1_5:重复执行步骤1_4共N次,直到神经网络在训练集上收敛,在训练期间还取了800幅原始的RGB彩色图像和Depth深度图像作为验证集并共得到N个损失函数值;然后从N个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,N>1,在本实施例中取N=300。
所述的测试阶段过程的具体步骤为:
步骤2_1:取500幅原始的RGB彩色图像和Depth深度图像的NJU2K数据集和300幅原始的RGB彩色图像和Depth深度图像的NLPR数据集作为测试集。令
Figure BDA0003142110230000083
表示待检测的显著性图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0003142110230000084
的宽度,H'表示
Figure BDA0003142110230000085
的高度,
Figure BDA0003142110230000086
表示
Figure BDA0003142110230000087
中坐标位置为(i,j)的像素点的像素值。测试时没有进行数据增强。
步骤2_2:将
Figure BDA0003142110230000091
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA0003142110230000092
对应的预测语义分割图像,记为
Figure BDA0003142110230000093
其中,
Figure BDA0003142110230000094
表示
Figure BDA0003142110230000095
中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学***均绝对误差(Mean Absolute Error,MAE)、F1分数(F1 Score,F1)、结构测量(Structure measure,S-measure)、增强定位测量(Enhanced alignment measure,E-measure)来评价显著性检测图像的检测性能,如表1所列。从表1所列的数据可知,按本发明方法得到的显著性物体图像结果是较好的,表明利用本发明方法来获取各类场景的显著性物体图像是可行且有效的。
表1利用本发明方法在测试集上的评测结果
ours S↑ adpE↑ adpF↑ MaxF↑ MAE↓
NJU2K 0.912 0.932 0.915 0.917 0.032
NLPR 0.920 0.958 0.904 0.912 0.022
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种基于多策略和交叉特征融合的显著物体检测方法,其特征在于,包括以下步骤:
选取多幅数据集的RGB彩色图,Depth深度图和GroundTruth标签图,构成训练集;
构建卷积神经网络,所述卷积神经网络采用自顶向下的高级特征监督低级特征融合的方式;
将所述训练集输入到所述卷积神经网络,对所述卷积神经网络训练;
多次训练,得到卷积神经网络模型。
2.根据权利要求1所述的一种基于多策略和交叉特征融合的显著物体检测方法,其特征在于,所述卷积神经网络引入深度优化模块提高图像质量,将多策略融合模块得到的特征图经交叉融合模块的交叉融合,捕获联合特征。
3.根据权利要求2所述的一种基于多策略和交叉特征融合的显著物体检测方法,其特征在于,所述深度优化模块的结构如下:
第一个最大池化层,第一个卷积块,第一个激活层,第二个卷积块和第二个激活层依次连接后与所述第一个最大池化层做像素相乘后输入到第二个最大池化层,所述第二个最大池化层后依次连接有第三个卷积块和第三个激活层,所述第三个激活层的输出与所述第二个最大池化层做像素相乘后输入到第三个最大池化层,所述第三个最大池化层的输出与所述第一个最大池化层的输出做像素相加作为最终输出。
4.根据权利要求2所述的一种基于多策略和交叉特征融合的显著物体检测方法,其特征在于,所述多策略融合模块对深度特征和RGB特征分别做像素相减,像素相加,像素相乘操作,并在通道维度上取平均值和最大值;将像素相减,像素相加,像素相乘操作以及通道维度上的平均值和最大值做像素相加作为第一输出;上一层融合特征经上采样后与所述第一输出做像素相加作为最终输出。
5.根据权利要求2所述的一种基于多策略和交叉特征融合的显著物体检测方法,其特征在于,所述交叉融合模块的结构如下:
第二输入
Figure FDA0003142110220000021
经特征提取与第一输入
Figure FDA0003142110220000022
做像素相加得到的结果记为
Figure FDA0003142110220000023
Figure FDA0003142110220000024
经第一卷积块的输出与
Figure FDA0003142110220000025
做像素相加得到M,M与M做像素相加,像素相加的结果作为与M做像素相乘的输入,像素相乘的结果作为与M做像素相减的输入,像素相减的结果作为与M做通道叠加的输入,通道叠加的输出经过第二卷积块后作为最终输出。
CN202110743443.XA 2021-06-30 2021-06-30 基于多策略和交叉特征融合的显著物体检测方法 Withdrawn CN113313077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110743443.XA CN113313077A (zh) 2021-06-30 2021-06-30 基于多策略和交叉特征融合的显著物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110743443.XA CN113313077A (zh) 2021-06-30 2021-06-30 基于多策略和交叉特征融合的显著物体检测方法

Publications (1)

Publication Number Publication Date
CN113313077A true CN113313077A (zh) 2021-08-27

Family

ID=77381578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110743443.XA Withdrawn CN113313077A (zh) 2021-06-30 2021-06-30 基于多策略和交叉特征融合的显著物体检测方法

Country Status (1)

Country Link
CN (1) CN113313077A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN115796244A (zh) * 2022-12-20 2023-03-14 广东石油化工学院 一种超非线性输入输出***基于cff的参数辨识方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法
CN111242181A (zh) * 2020-01-03 2020-06-05 大连民族大学 基于图像语义和细节的rgb-d显著性物体检测器
CN112149662A (zh) * 2020-08-21 2020-12-29 浙江科技学院 一种基于扩张卷积块的多模态融合显著性检测方法
CN112529862A (zh) * 2020-12-07 2021-03-19 浙江科技学院 一种交互循环特征重塑的显著性图像检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法
CN111242181A (zh) * 2020-01-03 2020-06-05 大连民族大学 基于图像语义和细节的rgb-d显著性物体检测器
CN112149662A (zh) * 2020-08-21 2020-12-29 浙江科技学院 一种基于扩张卷积块的多模态融合显著性检测方法
CN112529862A (zh) * 2020-12-07 2021-03-19 浙江科技学院 一种交互循环特征重塑的显著性图像检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SANGHYUN WOO等: "CBAM: Convolutional Block Attention Module", 《计算机视觉-ECCV2018》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN115796244A (zh) * 2022-12-20 2023-03-14 广东石油化工学院 一种超非线性输入输出***基于cff的参数辨识方法
CN115796244B (zh) * 2022-12-20 2023-07-21 广东石油化工学院 一种超非线性输入输出***基于cff的参数辨识方法

Similar Documents

Publication Publication Date Title
US20210390700A1 (en) Referring image segmentation
CN111723732B (zh) 一种光学遥感图像变化检测方法、存储介质及计算设备
CN110889449A (zh) 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法
CN113850825A (zh) 基于上下文信息和多尺度特征融合的遥感图像道路分割方法
CN107871014A (zh) 一种基于深度融合哈希的大数据跨模态检索方法及***
CN112966684A (zh) 一种注意力机制下的协同学习文字识别方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN112418212B (zh) 一种基于EIoU改进的YOLOv3算法
CN113780149A (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN113313077A (zh) 基于多策略和交叉特征融合的显著物体检测方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN111915618B (zh) 基于峰值响应增强的实例分割算法、计算设备
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN116994140A (zh) 基于遥感影像的耕地提取方法、装置、设备和介质
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN113487600B (zh) 一种特征增强尺度自适应感知船舶检测方法
CN113269224A (zh) 一种场景图像分类方法、***及存储介质
CN112529862A (zh) 一种交互循环特征重塑的显著性图像检测方法
Chen et al. MSF-Net: A multiscale supervised fusion network for building change detection in high-resolution remote sensing images
CN116310339A (zh) 基于矩阵分解增强全局特征的遥感图像分割方法
CN114332288A (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210827

WW01 Invention patent application withdrawn after publication