CN110619638A - 一种基于卷积块注意模块的多模态融合显著性检测方法 - Google Patents

一种基于卷积块注意模块的多模态融合显著性检测方法 Download PDF

Info

Publication number
CN110619638A
CN110619638A CN201910777223.1A CN201910777223A CN110619638A CN 110619638 A CN110619638 A CN 110619638A CN 201910777223 A CN201910777223 A CN 201910777223A CN 110619638 A CN110619638 A CN 110619638A
Authority
CN
China
Prior art keywords
layer
convolution
output
block
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910777223.1A
Other languages
English (en)
Inventor
周武杰
刘文宇
雷景生
钱亚冠
王海江
何成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Science and Technology ZUST
Original Assignee
Zhejiang University of Science and Technology ZUST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Science and Technology ZUST filed Critical Zhejiang University of Science and Technology ZUST
Priority to CN201910777223.1A priority Critical patent/CN110619638A/zh
Publication of CN110619638A publication Critical patent/CN110619638A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于卷积注意模块的多模态融合的显著性检测方法。本发明在训练阶段,构建卷积神经网络;使用原始图像的左视点图和深度图输入到卷积神经网络中进行训练,得到相应的显著性检测图;再通过计算模型生成的显著性检测图构成的集合与对应的真实人眼注视图构成的集合之间的损失函数,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将选定数据集中的立体图像输入到训练好的卷积神经网络模型中,得到显著性检测的图像。本发明应用了新颖的模块优化图像特征的提取,进行多尺度、多方式的特征融合,最终提高了视觉显著性检测的检测效率和检测准确度。

Description

一种基于卷积块注意模块的多模态融合显著性检测方法
技术领域
本发明涉及一种深度学习的视觉显著性检测方法,尤其是涉及一种基于卷积块注意模块的多模态融合显著性检测方法。
背景技术
识别视野中的明显刺激是人类的一种重要的注意力机制,即在自由观看时,我们的眼睛会倾向于注意场景中在视觉刺激方面有独特的变化的区域,比如:明亮的颜色、特殊的纹理或者是更复杂的语义方面,这种机制引导我们的眼睛注视到场景中突出的信息、丰富的区域。对于人类视觉的这种机制,最早是神经科学家们展开的研究,其应用最广泛的是在医学治疗领域的影像检查,医学影像检查是进行后续有效诊疗的基础。近年来,计算机视觉也对此展开了研究,并且在计算机视觉领域,称此研究为显著性检测。显著性检测在计算机视觉应用领域取得了巨大的成功,例如:场景分类、视觉跟踪、目标重定向、语义分割等。早期的显著性检测方法采用手工特征,即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。随着显著性研究的深入,我们发现这些手工特征已经不足以很好的捕获图像中的特征,因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此,采用深度学习的方法能更好的提取图像特征,以达到更好的显著性检测效果。
采用深度学习的方法进行显著性检测,不仅能弥补手工特征难以提取到图像中的对象特征及其周围环境的高级语义的不足,而且深度神经网络能够以分层的方式从数据中自动学习复杂的模式,这使得它们能适应具有不同数据模式的广泛性问题。人类的视觉***注意力机制分为自底向上和自顶向下两种,自底向上的因素完全来自于视觉场景,它们负责将注意力自动地部署到场景中的识别区域,这种注意力属于自动的、反射的、刺激的,例如:开车时在路上无意间发现一个红色的停车标志;而自顶向下则是由主体的先验知识、期望和当前任务等内部因素驱动的,使其具有情境性和高度主观性,它利用工作记忆中可用的信息,将注意力偏向当前行为目标重要的场景区域,例如:饥饿的动物在在寻找伪装的猎物时所表现出来的选择性注意力。
现有的显著性检测方法大多数已经采用深度学习的方法,利用卷积层与池化层相结合的方法提取图像特征,但是单纯的使用卷积操作与池化操作获得的图像特征不具有代表性,尤其是进行池化操作会丢失图像的特征信息,从而会导致得到的显著性预测图效果较差,预测的准确度低。
发明内容
为了解决背景技术中的问题,本发明提供了一种基于卷积块注意模块的多模态融合显著性检测方法,其检测效率高,且检测准确度高。
本发明采用的技术方案如下:
本发明包括以下步骤:
步骤1-1:选取N幅原始立体图像,将原始立体图像的左视点图、深度图和真实人眼注释图构成训练集;
步骤1-2:构建卷积神经网络;
步骤1-3:将训练集中原始立体图像的左视点图(即RGB图)和深度图作为输入,输入到卷积神经网络中进行训练,训练过程中,每次迭代训练处理得到每幅原始立体图像的显著性检测图;计算每幅显著性检测图与训练集中对应的真实人眼注释图之间的损失函数值;
步骤1-4:不断迭代训练重复共M次,共得到N×M个损失函数值,然后从 N×M个损失函数值中找出值最小的损失函数值,接着将最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,从而完成卷积神经网络的训练,得到卷积神经网络分类训练模型;
步骤1-5:利用训练后获得的卷积神经网络分类训练模型对待测立体图像进行预测处理,将待测立体图像的左视点图和深度图输入卷积神经网络分类训练模型,输出获得对应的显著性检测图像,实现图像的显著性检测。
所述步骤1-2中,卷积神经网络包括输入层、隐层和总输出层;输入层包括 RGB图输入层和深度图输入层;隐层包括前处理模块、特征融合模块,前处理模块包括深度图前处理模块和RGB图前处理模块;深度图输入层和RGB图输入层分别输入深度图前处理模块和RGB图前处理模块;
深度图前处理模块和RGB图前处理模块均包括五个神经网络块、两个卷积块注意CBAM模块和一个金字塔式带空卷积PDC模块,第一个神经网络块依次经第二个神经网络块、第三个神经网络块、第四个神经网络块输出至第五个神经网络块,第一个卷积块注意模块的输入为第三个神经网络块输出,第二个卷积块注意模块的输入为第四个神经网络块的输出,金字塔式带空卷积模块的输入为第五个神经网络块的输出;
特征融合模块包括三个卷积块、一个卷积层、四个反卷积层和一个反卷积块,三个卷积块分别为第一个卷积块、第二个卷积块和第三个卷积块,四个反卷积层分别为第一个反卷积层、第二个反卷积层、第三个反卷积层和第四个反卷积层;
深度图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与深度图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合 Z1,深度图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与深度图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合 Z2,深度图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与深度图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合 Z3
RGB图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与RGB 图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Y1, RGB图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与RGB 图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Y2, RGB图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与RGB图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Y3
特征图集合Z1与特征图集合Y1以通道数叠的方式融合后经第一个卷积层输出,特征图集合Z2与特征图集合Y2以通道数叠的方式融合后经第一个反卷积层输出,特征图集合Z3与特征图集合Y3以通道数叠的方式融合后经第一个反卷积块输出,第一个卷积层的输出、第一个反卷积层的输出和第一个反卷积块的输出以通道数叠的方式融合后输入第二个反卷积层,第二个反卷积层经第三个反卷积层输出至第四个反卷积层;
总输出层包括三个输出层和三个过渡用卷积层,三个输出层分别为第一个输出层、第二个输出层和第三个输出层,三个过渡用卷积层分别为第一个过渡用卷积层、第二个过渡用卷积层和第三个过渡用卷积层;第二个反卷积层经第一个过渡用卷积层输出至第一个输出层,第三个反卷积层经第二个过渡用卷积层输出至第二个输出层,第四个反卷积层经第三个过渡用卷积层输出至第三个输出层。
三个输出层分别输出不同尺度的三个显著性检测图像,用于模型训练时的多尺度监督;第三个输出层输出的显著性检测图像作为模型的最终输出结果。
所述金字塔式带空卷积模块包括三个分支,第一个分支由依次连接的第二十卷积层和第二十一卷积层组成,第二个分支由依次连接的第二十二卷积层和第二十三卷积层组成,第三个分支由依次连接的第二十四和第二十五卷积层组成;第五个神经网络块的输出分别输入三个分支,三个分支的输出以通道数叠的方式融合后输入第二个卷积块;
所述卷积块注意模块主要由依次连接的第十三卷积层、第十三激活层、第四卷积块、第五卷积块和第六卷积块组成,第四卷积块主要由依次连接的第十四卷积层、第十四激活层、第十五卷积层和第十五激活层组成,第五卷积块主要由依次连接的第十六卷积层、第十六激活层、第十七卷积层和第十七激活层组成,第六卷积块主要由第十八卷积层、第十八激活层、第十九卷积层、第十九激活层组成;每个卷积层的卷积核大小均为3x3,步长为1,补零参数的值为 1;每个激活层的激活方式均为线性整流函数。
RGB图输入层的输入为立体图像的左视点图,RGB图输入层输出左视点图的R通道分量、G通道分量和B通道分量;深度图输入层的输入为立体图像的深度图,深度图经过深度图输入层的HHA编码方式处理后具有与RGB图一样的三通道,即经过深度图输入层后深度图被处理成三个分量。
本发明的有益效果:
1)本发明方法构建卷积神经网络,采用多模态特征的特殊融合方式以及深度信息的细化处理,能够准确的检测图像中的显著性区域,使检测精度显著提高。
2)本发明方法采用了CBAM(卷积块注意模块)来处理不同层次的模态特征,该模块以特征图为输入,能够对其输入的特征图进行自适应特征细化以捕获更多的特征信息,从而提高最终的视觉显著性检测精度。
3)本发明方法采用了PDC(金字塔式带空卷积)模块来进行有效的特征提取,它是由一组具有采样率的并行带空卷积层叠加而成,利用多尺度信息的同时,也保留了空间细节,使显著性检测效率得到提升。
4)本发明采用了多尺度监督的方法,以多个输出的方式监督模型的训练,使得模型在训练过程中自主调整训练,以达到更好的训练结果,提高检测效率和精度。
附图说明
图1为本发明的总体实现框图;
图2为本发明的金字塔式带空卷积PDC模块结构图
图3a为同一场景的第1幅原始的立体图像对应的真实人眼注视;
图3b为利用本发明方法对图3a的原始的立体图像进行检测得到的显著性检测图像;
图4a为同一场景的第2幅原始的立体图像对应的真实人眼注视;
图4b为利用本发明方法对图3a的原始的立体图像进行检测得到的显著性检测图像;
图5a为同一场景的第3幅原始的立体图像对应的真实人眼注视;
图5b为利用本发明方法对图5a的原始的立体图像进行检测得到的显著性检测图像;
图6a为同一场景的第4幅原始的立体图像对应的真实人眼注视;
图6b为利用本发明方法对图6a的原始的立体图像进行检测得到的显著性检测图像。
具体实施方式
以下结合附图和实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积块注意模块的多模态融合的显著性检测方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始立体图像的左视点图、深度图像和对应的真实人眼注释图构成训练集,将训练集中的第k幅原始立体图像的左视点图记为原始立体图像的深度图像记为对应的真实人眼注视图记为{Gk(x,y)};由于原始立体图像的左视点图即RGB彩色图具有三通道,而深度图像只有一个通道,因此采用现有的独热编码技术 (HHA)将训练集中的深度图像处理成与RGB图一样具有三通道,将处理成三通道的图像构成的集合记为Jk;其中,N为正整数,N≥200,如取N=600,k为正整数, 1≤k≤N,1≤x≤W,1≤y≤H,W表示原始立体图像的宽度,H表示原始立体图像的高度,如取W=256、H=256,Rk(x,y)表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Gk(x,y)表示{Gk(x,y)}中坐标位置为(x,y)的像素点的像素值;本实验中的数据集直接选用的是由新加坡国立大学提供的视觉显著性检测数据集NUS中的600幅图像和由交通大学(台湾地区)提供的视觉显著性检测数据集NCTU中的475幅图像。
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;
输入层包括RGB图输入层和深度图输入层;隐层包括前处理模块、特征融合模块,前处理模块包括深度图前处理模块和RGB图前处理模块;深度图输入层和RGB图输入层分别输入深度图前处理模块和RGB图前处理模块;
对于输入层,RGB图输入层的输入为原始立体图像的RGB图,RGB图输入层输出RGB图的R通道分量、G通道分量和B通道分量;深度图输入层的输入为立体图像的深度图,深度图经过深度图输入层的HHA编码方式处理后具有与RGB图一样的三通道,即经过深度图输入层后深度图被处理成三个分量,且输入的原始立体图像的宽度为W、高度为H。输入层的输出量是隐层的输入量;
深度图前处理模块和RGB图前处理模块均包括五个神经网络块、两个卷积块注意模块和一个金字塔式带空卷积模块,第一个神经网络块依次经第二个神经网络块、第三个神经网络块、第四个神经网络块输出至第五个神经网络块,第一个卷积块注意模块的输入为第三个神经网络块输出,第二个卷积块注意模块的输入为第四个神经网络块的输出,金字塔式带空卷积模块的输入为第五个神经网络块的输出;
第1个神经网络块由第一卷积层、第一激活层、第二卷积层、第二激活层、第一最大池化层依次连接组成;第1个神经网络块的输入是三通道的原始图像,经过第1个神经网络块的处理输出64幅特征图,将64幅特征图构成的集合记为P1;第一卷积层和第二卷积层的卷积核大小(kernel_size)均为3×3、卷积核的个数(filters)均为64、补零参数(padding)的值均为1,第一激活层和第二激活层的激活方式均为“Relu”,第一最大池化层的池化尺寸(pool_size)为2,步长(srtide)为2,并且P1中的每幅特征图的宽度为高度为第 2个神经网络块由第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层依次连接组成;第2个神经网络块的输入是P1中的64幅特征图,经第2个神经网络块处理后输出128幅特征图,将128幅特征图构成的集合记为P2;同样的,第三卷积层和第四卷积层的卷积核大小均为3×3、卷积核个数均为128、补零参数(padding)的值均为1,第三激活层和第四激活层的激活方式均为“Relu”,第二最大池化层的池化尺寸为2,步长(srtide)为2, P2中的每幅特征图的宽度为高度为第3个神经网络块由第五卷积层、第五激活层、第六卷积层、第六激活层、第七卷积层、第七激活层、第三最大池化层依次连接组成;第3 个神经网络块的输入是P2中的128幅特征图,经第3个神经网络块的处理后输出256幅特征图,将256幅特征图构成的集合记为P3;并且,第五卷积层、第六卷积层和第七卷积层的卷积核大小均为3×3、卷积核个数均为256、补零参数(padding)的值均为1,第五激活层、第六激活层和第七激活层的激活方式均为“Relu”,第三最大池化层的池化尺寸为大小为2,步长(srtide)为2,P3中的每幅特征图的宽度为高度为第4个神经网络块由第八卷积层、第八激活层、第九卷积层、第九激活层、第十卷积层、第十激活层、第四最大池化层依次连接组成;第4个神经网络块的输入是P3中的256幅特征图,经第4个神经网络块处理后输出512幅特征图,将512幅特征图构成的集合记为P4;第八卷积层、第九卷积层、第十卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数(padding)的值均为1,第八激活层、第九卷积层、第十激活层的激活方式均为“Relu”,第四最大池化层的池化尺寸为2,步长(srtide)为2,P4中的每幅特征图的宽度为高度为第5个神经网络块由第十一卷积层、第十一激活层、第十二卷积层、第十二激活层、第十三卷积层、第十三激活层、第五最大池化层依次连接组成;第5个神经网络块的输入是P4中的512幅特征图,经第5个神经网络块处理后输出512幅特征图,将512幅特征图构成的集合记为P5;并且,第十一卷积层、第十二卷积层和第十三卷积层的卷积核大小均为3×3、卷积核个数均为512、补零参数(padding)的值均为1,第十一激活层、第十二激活层、第十三激活层的激活方式均为“Relu”,第五最大池化层的池化尺寸为2,步长(srtide)为2,P5中的每幅特征图的宽度为高度为这里RGB图和深度图采用了相同的处理步骤,深度图处理后对应的得到5个特征集合,分别将它们记为D1、D2、D3、D4、D5
对于CBAM(Convolutional Block Attention Module,即卷积块注意模块),主要由第十三卷积层、第十三激活层、第四卷积块、第五卷积块、第六卷积块依次连接组成;其中,第四卷积块由第十四卷积层、第十四激活层、第十五卷积层、第十五激活层依次连接组成;第五卷积块由第十六卷积层、第十六激活层、第十七卷积层、第十七激活层依次连接组成;第六卷积块由第十八卷积层、第十八激活层、第十九卷积层、第十九激活层依次连接组成;第十三卷积层、第十四卷积层、第十六卷积层和第十九卷积层是一个卷积核大小(kernel_size) 为1x1的卷积,其步长(stride)为1;第十五卷积层、第十八卷积层是一个卷积核大小 (kernel_size)为3x3的卷积,其步长(stride)为1,补零参数(padding)的值为1;第十七卷积层是一个带空卷积,其卷积核大小(kernel_size)为3x3,步长(stride)为1,补零参数 (padding)的值为2,卷积膨胀率(dilation)为2;卷积块注意模块(CBAM)中的激活层的激活方式均为“Relu”;该模块的输入是第3个神经网络块的输出P3中的256幅特征图或者第4个神经网络块的输出P4中的512幅特征图;P3经CBAM处理后输出240幅特征图,将这240幅特征图构成的集合记为Q1,P4经CBAM处理后输出480幅特征图,将这480幅特征图构成的集合记为Q2,这里对RGB图和深度图均是同样的处理方式,深度图经CBAM 处理后对应的得到两个集合,分别记为O1、O2;CBAM不改变输入的特征图的尺寸大小,即Q1中的特征图分辨率与P3中的特征图的分辨率一样,均为Q2中的特征图的分辨率与P4中的特征图分辨率一样,均为它只是针对特征图进行卷积操作,为提取更多的图像空间信息。
对于PDC(Pyramid Dilated Convolution,即金字塔式带空卷积)模块,如图2所示包括三个分支,第一个分支由依次连接的第二十卷积层和第二十一卷积层组成,第二个分支由依次连接的第二十二卷积层和第二十三卷积层组成,第三个分支由依次连接的第二十四和第二十五卷积层组成;第五个神经网络块的输出分别输入三个分支,三个分支的输出以通道数叠的方式融合后输入第二个卷积块;其中第二十卷积层、第二十二卷积层和第二十四卷积层是三个带空卷积,其卷积核大小(kernel_size)均为3x3,步长(stride)均为1,膨胀率(dilation) 分别为2、6、12,补零参数(padding)对应的分别为2、6、12;第二十一卷积层、第二十三卷积层和第二十五卷积层均是卷积核大小(kernel_size)为1x1的卷积,其步长(stride) 均为1;PDC模块中的激活层的激活方式均为“Relu”;该模块的输入是第5个神经网络块的输出P5中的512幅特征图,P5经PDC模块处理后输出384幅特征图,将这384幅特征图的集合记为Q3;这里对RGB图和深度图的处理方式相同,深度图经PDC模块处理后得到相应的特征图集合记为O3;PDC模块也不改变输入的特征图的尺寸大小,即Q3中的特征图分辨率与P5中的特征图分辨率大小一样,均为它只是针对特征图进行卷积操作,为提取更多的图像特征信息。
特征融合模块包括三个卷积块、一个卷积层、四个反卷积层和一个反卷积块,三个卷积块分别为第一个卷积块、第二个卷积块和第三个卷积块,四个反卷积层分别为第一个反卷积层、第二个反卷积层、第三个反卷积层和第四个反卷积层;
深度图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与深度图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Z1,深度图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与深度图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Z2,深度图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与深度图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Z3;RGB图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与RGB图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Y1,RGB图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与RGB图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Y2,RGB图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与RGB图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Y3;特征图集合Z1与特征图集合Y1以通道数叠的方式融合后经第一个卷积层输出,特征图集合Z2与特征图集合Y2以通道数叠的方式融合后经第一个反卷积层输出,特征图集合Z3与特征图集合Y3以通道数叠的方式融合后经第一个反卷积块输出,第一个卷积层的输出、第一个反卷积层的输出和第一个反卷积块的输出以通道数叠的方式融合后输入第二个反卷积层,第二个反卷积层经第三个反卷积层输出至第四个反卷积层;
对于特征融合模块的融合部分,集合P3中的特征图与集合Q4中的特征图以乘的形式融合,融合后得到256的幅特征图集合,记为Z1,集合P4中的特征图与集合Q5中的特征图以乘的形式融合,融合后得到512幅特征图的集合,记为Z2;集合P5中的特征图与集合Q6中的特征图以乘的形式融合,融合然后得到512幅特征图的集合,记为Z3;同样的,集合D3中的特征图与集合O4中的特征图以乘的形式融合,融合后得到256的幅特征图集合,记为Y1,集合D4中的特征图与集合O5中的特征图以乘的形式融合,融合后得到512幅特征图的集合,记为Y2;集合D5中的特征图与集合O6中的特征图以乘的形式融合,融合然后得到512幅特征图的集合,记为Y3;然后将集合Z1与集合Y1以通道数叠的方式融合,其融合后的512幅特征图的集合记为X1;同理将集合Z2和集合Y2、集合Z3和集合Y3融合,融合后的集合分别记为 X2、X3
对于第1卷积块,主要由第二十六卷积层、第二十六激活层、第二十七卷积层、第二十七激活层依次连接组成;第二十六卷积层是卷积核大小(kernel_size)为3x3的卷积,其步长 (stride)为1,补零参数(padding)的值为1;第二十七卷积层是一个带空卷积,其卷积核大小(kernel_size)为3x3,步长(stride)为1,膨胀率(dilation)为2,补零参数(padding) 的值为1;第二十六激活层和第二十七激活层的激活方式均为“Relu”;第1个卷积块的输入是集合Q1中的240幅特征图,经第1个卷积块处理后输出256幅特征图,将这256幅特征图构成的集合记为Q4;这里对RGB图和深度图采用的是相同的处理步骤,深度图经第1个卷积块的处理后得到的特征图集合记为O4
对于第2卷积块,主要由第二十八卷积层、第二十八激活层、第二十九卷积层、第二十九激活层依次连接组成;第二十八卷积层的卷积核大小(kernel_size)为3x3,步长(stride) 为1,补零参数(padding)的值为1;第二十九卷积层是一个带空卷积,其卷积核大小 (kernel_size)为3x3,步长(stride)为1,膨胀率(dilation)为2,补零参数(padding)的值为1;第二十八激活层和第二十九激活层的激活方式均为“Relu”;第2个卷积块的输入是集合Q3中的480幅特征图,经第2个卷积块处理后输出512幅特征图,将这512幅特征图的集合记为Q5;这里对RGB图和深度图采用的是相同的处理步骤,深度图经第2个卷积块的处理后得到的特征图集合记为O5
对于第3卷积块,它是由第三十卷积层、第三十激活层、第三十一卷积层、第三十一激活层依次连接组成;第三十卷积层的卷积核大小(kernel_size)为3x3,步长(stride)为1,补零参数(padding)的值为1;第三十一卷积层是一个带空卷积,其卷积核大小(kernel_size) 为3x3,步长(stride)为1,膨胀率(dilation)为2,补零参数(padding)的值为1;第三十激活层和第三十一激活层的激活方式均为“Relu”;第3个卷积块的输入是集合Q2中的384幅特征图,经第3个卷积块的处理后输出512幅特征图,将这512幅特征图的集合记为Q6;这里对RGB图和深度图采用的是相同的处理步骤,深度图经第3个卷积块的处理后得到的特征图集合记为O6
对于第1个卷积层,它是由第三十二卷积层、第三十二激活层依次连接组成的;第三十二卷积层的卷积核大小(kernel_size)为3x3的卷积,其步长(stride)为1,补零参数(padding) 的值为1;第三十二激活层的激活方式为“Relu”;第1个卷积层的输入是集合X1中的512 幅特征图,经第1个卷积层处理后输出256幅特征图,将这256幅特征图的集合记为X4
对于第1个反卷积层,它是由第三十三卷积层、第三十三激活层依次连接组成的;第三十三卷积层的卷积核大小(kernel_size)为4x4的反卷积,其步长(stride)为2,补零参数 (padding)的值为1;第三十三激活层的激活方式为“Relu”;经第1个反卷积层处理后输出512幅特征图,将这512幅特征图的集合记为X5,反卷积操作改变图像的尺度大小,故X5中的特征图尺寸大小变为
对于第1个反卷积块,它是由第三十四卷积层、第三十四激活层、第三十五卷积层、第三十五激活层依次连接组成;第三十四卷积层和第三十五卷积层的卷积核大小(kernel_size) 均为4x4,其步长(stride)均为2,补零参数(padding)的值均为1;第三十四激活层和第三十五激活层的激活方式均为“Relu”;经第1个反卷积块处理后输出256幅特征图,将这256幅特征图的集合记为X6,X6中的特征图的尺寸大小变为
再将集合X4、X5、X6中的特征图以通道数叠的方式融合,融合后得到1024幅特征图,将这1024幅特征图的集合记为X7
对于第2个反卷积层,它是由第三十六卷积层、第三十六激活层依次连接组成;第三十六卷积层的卷积核大小(kernel_size)为4x4,其步长(stride)为2,补零参数(padding)的值为1;第三十六激活层的激活方式为“Relu”;第2个反卷积层的输入是集合X7中的1024 幅特征图,经第2个反卷积层处理后得到512幅特征图,将这512幅特征图的集合记为X8,此时图像的尺寸大小变为
对于第3个反卷积层,它是由第三十七卷积层、第三十七激活层依次连接组成;第三十七卷积层的卷积核大小(kernel_size)为4x4,其步长(stride)为2,补零参数(padding)的值为1;第三十七激活层的激活方式为“Relu”;第3个反卷积层的输入是集合X8中的512 幅特征图,经第3个反卷积层处理后得到256幅特征图,将这256幅特征图的集合记为X9,此时图像的尺寸大小变为
对于第4个反卷积层,它是由第三十八卷积层、第三十八激活层依次连接组成;第三十八卷积层的卷积核大小(kernel_size)为4x4,其步长(stride)为2,补零参数(padding)的值为1;第三十八激活层的激活方式为“Relu”;第4个反卷积层的输入是集合X9中的256 幅特征图,经第4个反卷积层处理后得到256幅特征图,将这256幅特征图的集合记为X10,此时图像的尺寸大小变为W×H。
总输出层包括三个输出层和三个过渡用卷积层;第二个反卷积层经第一个过渡用卷积层输出至第一个输出层,第三个反卷积层经第二个过渡用卷积层输出至第二个输出层,第四个反卷积层经第三个过渡用卷积层输出至第三个输出层。第1个过渡用卷积层、第2个过渡用卷积层和第3个过渡用卷积层卷积核大小(kernel_size)均为3x3,步长(stride)均为1,补零参数(padding)的值均为1,激活方式均为“Relu”;第1个过渡用卷积层的输入是第2 个反卷积层输出X8,第2个过渡用卷积层的输入是第3个反卷积层的输出X9,第3个过渡用卷积层的输入是第4个反卷积层的输出X10;经这三个过渡用卷积层的处理后输出的特征图集合分别记为I1、I2、I3,它们又分别作为第1个输出层、第2个输出层、第3个输出层的输入,然后分别输出不同尺度的三个显著性检测图像,用于训练模型时的多尺度监督;其中,第3个输出层的输出结果也是最终的显著性检测图像。
步骤1_3:将训练集中的原始立体图像的RGB图和深度图作为输入,输入到卷积神经网络中进行训练,得到原始立体图像对应的显著性检测图,将训练完成得到的显著性检测图构成的集合记为
步骤1_4:计算训练得到的显著性检测图构成的集合与对应的真实人眼注视图像构成的集合之间的损失函数值,将之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4M次,得到卷积神经网络分类训练模型,并共得到N×M个损失函数值;然后从N×M个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和Bbest;其中,M>1,在本实验中取值M=500。
所述测试阶段过程的具体步骤为:
步骤2_1:令表示待显著性检测的立体图像(RGB图+深度图);其中,1≤x'≤W', 1≤y'≤H',W'表示的宽度,H'表示的高度,S(x',y')表示中坐标位置为(x',y')的像素点的像素值。
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到卷积神经网络训练模型中,并利用Wbest和Bbest进行预测,得到对应的显著性检测图像,记为其中,表示中坐标位置为(x',y')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库PyTorch1.1.0搭建基于卷积块注意模块的多模态融合卷积神经网络架构。采用数据集NUS和NCTU来分析利用本发明方法检测得到的显著性图像(分别取600和475幅立体图像)的检测效果。在本实验中,利用评估显著性检测方法的4个常用客观参量作为评价指标:线性相关系数(Linear Correlation Coefficient,CC)、Kullback-Leibler 散度系数(Kullback-Leibler Divergence,KLDiv)、AUC参数(the AeraUnder the receiver operating characteristics Curve,AUC)、标准化扫描路径显著性(Normalized Scanpath Saliency, NSS)来评价显著性检测图像的检测性能。
利用本发明方法对两个数据集NUS和NCTU中的每幅立体图像进行检测,得到每幅立体图像对应的显著性检测图像,反映本发明方法的显著性检测效果的线性相关系数CC、Kullback-Leibler散度系数KLDiv、AUC参数、标准化扫描路径显著性NSS如表1所列。从表1所列的数据可知,按本发明方法得到的显著性检测图像的检测结果是较好的。
表1 利用本发明方法在测试集上的评测结果
图3a给出了NUS数据集中同一场景的第1幅原始立体图像对应的人眼注视图像;图3b 给出了利用本发明方法对图3a所示的原始立体图像进行检测所得到的显著性检测图像;图 4a给出了NUS数据集中同一场景的第2幅原始立体图像对应的人眼注视图像;图4b给出了利用本发明方法对图4a所示的原始立体图像进行检测所得到的显著性检测图像;图5a给出了NCTU数据集中同一场景的第3幅原始立体图像对应的人眼注视图像;图5b给出了利用本发明方法对图5a所示的原始立体图像进行检测所得到的显著性检测图像;图6a给出了NCTU数据集中同一场景的第4幅原始立体图像对应的人眼注视图像;图6b给出了利用本发明方法对图5a所示的原始立体图像进行检测得到的显著性检测图像。对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,对比图6a和图6b,可以看出利用本发明方法得到的显著性检测图像的分割精度较高。

Claims (6)

1.一种基于卷积块注意模块的多模态融合显著性检测方法,其特征在于,包括以下步骤:
步骤1-1:选取N幅原始立体图像,将原始立体图像的左视点图、深度图和真实人眼注释图构成训练集;
步骤1-2:构建卷积神经网络模型;
步骤1-3:将训练集中原始立体图像的左视点图和深度图作为输入,输入到卷积神经网络模型中进行训练,训练过程中,每次迭代训练处理得到每幅原始立体图像的显著性检测图;计算每幅显著性检测图与训练集中对应的真实人眼注释图之间的损失函数值;
步骤1-4:不断迭代训练重复共M次,共得到N×M个损失函数值,然后从N×M个损失函数值中找出值最小的损失函数值,接着将最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络模型的最优权值矢量和最优偏置项,从而完成卷积神经网络模型的训练;
步骤1-5:将待测立体图像的左视点图和深度图输入步骤1-4训练后的卷积神经网络模型进行预测处理,输出获得对应的显著性检测图像,实现图像的显著性检测。
2.根据权利要求1所述的一种基于卷积块注意模块的多模态融合显著性检测方法,其特征在于:所述步骤1-2中,卷积神经网络包括输入层、隐层和总输出层;输入层包括RGB图输入层和深度图输入层;隐层包括前处理模块、特征融合模块,前处理模块包括深度图前处理模块和RGB图前处理模块;深度图输入层和RGB图输入层分别输入深度图前处理模块和RGB图前处理模块;
深度图前处理模块和RGB图前处理模块均包括五个神经网络块、两个卷积块注意CBAM模块和一个金字塔式带空卷积PDC模块,第一个神经网络块依次经第二个神经网络块、第三个神经网络块、第四个神经网络块输出至第五个神经网络块,第一个卷积块注意模块的输入为第三个神经网络块输出,第二个卷积块注意模块的输入为第四个神经网络块的输出,金字塔式带空卷积模块的输入为第五个神经网络块的输出;
特征融合模块包括三个卷积块、一个卷积层、四个反卷积层和一个反卷积块,三个卷积块分别为第一个卷积块、第二个卷积块和第三个卷积块,四个反卷积层分别为第一个反卷积层、第二个反卷积层、第三个反卷积层和第四个反卷积层;
深度图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与深度图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Z1,深度图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与深度图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Z2,深度图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与深度图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Z3
RGB图前处理模块中第一个卷积块注意模块经第一个卷积块的输出与RGB图前处理模块中第三个神经网络块的输出以乘的形式融合后输出特征图集合Y1,RGB图前处理模块中的金字塔式带空卷积模块经第二个卷积块的输出与RGB图前处理模块中第四个神经网络块的输出以乘的形式融合后输出特征图集合Y2,RGB图前处理模块中第二个卷积块注意模块经第三个卷积块的输出与RGB图前处理模块中第五个神经网络块的输出以乘的形式融合后输出特征图集合Y3
特征图集合Z1与特征图集合Y1以通道数叠的方式融合后经第一个卷积层输出,特征图集合Z2与特征图集合Y2以通道数叠的方式融合后经第一个反卷积层输出,特征图集合Z3与特征图集合Y3以通道数叠的方式融合后经第一个反卷积块输出,第一个卷积层的输出、第一个反卷积层的输出和第一个反卷积块的输出以通道数叠的方式融合后输入第二个反卷积层,第二个反卷积层经第三个反卷积层输出至第四个反卷积层;
总输出层包括三个输出层和三个过渡用卷积层,三个输出层分别为第一个输出层、第二个输出层和第三个输出层,三个过渡用卷积层分别为第一个过渡用卷积层、第二个过渡用卷积层和第三个过渡用卷积层;第二个反卷积层经第一个过渡用卷积层输出至第一个输出层,第三个反卷积层经第二个过渡用卷积层输出至第二个输出层,第四个反卷积层经第三个过渡用卷积层输出至第三个输出层。
3.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法,其特征在于:三个输出层分别输出不同尺度的三个显著性检测图像,用于模型训练时的多尺度监督;第三个输出层输出的显著性检测图像作为模型的最终输出结果。
4.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法,其特征在于:所述金字塔式带空卷积模块包括三个分支,第一个分支由依次连接的第二十卷积层和第二十一卷积层组成,第二个分支由依次连接的第二十二卷积层和第二十三卷积层组成,第三个分支由依次连接的第二十四和第二十五卷积层组成;第五个神经网络块的输出分别输入三个分支,三个分支的输出以通道数叠的方式融合后输入第二个卷积块。
5.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法,其特征在于:所述卷积块注意模块主要由依次连接的第十三卷积层、第十三激活层、第四卷积块、第五卷积块和第六卷积块组成,第四卷积块主要由依次连接的第十四卷积层、第十四激活层、第十五卷积层和第十五激活层组成,第五卷积块主要由依次连接的第十六卷积层、第十六激活层、第十七卷积层和第十七激活层组成,第六卷积块主要由第十八卷积层、第十八激活层、第十九卷积层、第十九激活层组成;每个卷积层的卷积核大小均为3x3,步长为1,补零参数的值为1;每个激活层的激活方式均为线性整流函数。
6.根据权利要求2所述的一种基于卷积块注意模块的多模态融合显著性检测方法,其特征在于:RGB图输入层的输入为立体图像的左视点图,RGB图输入层输出左视点图的R通道分量、G通道分量和B通道分量;深度图输入层的输入为立体图像的深度图,深度图经过深度图输入层的HHA编码方式处理后具有与RGB图一样的三通道,即经过深度图输入层后深度图被处理成三个分量。
CN201910777223.1A 2019-08-22 2019-08-22 一种基于卷积块注意模块的多模态融合显著性检测方法 Withdrawn CN110619638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910777223.1A CN110619638A (zh) 2019-08-22 2019-08-22 一种基于卷积块注意模块的多模态融合显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910777223.1A CN110619638A (zh) 2019-08-22 2019-08-22 一种基于卷积块注意模块的多模态融合显著性检测方法

Publications (1)

Publication Number Publication Date
CN110619638A true CN110619638A (zh) 2019-12-27

Family

ID=68922458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910777223.1A Withdrawn CN110619638A (zh) 2019-08-22 2019-08-22 一种基于卷积块注意模块的多模态融合显著性检测方法

Country Status (1)

Country Link
CN (1) CN110619638A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275076A (zh) * 2020-01-13 2020-06-12 南京理工大学 基于特征选择和特征融合的图像显著性检测方法
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN111709317A (zh) * 2020-05-28 2020-09-25 西安理工大学 一种基于显著性模型下多尺度特征的行人重识别方法
CN111738324A (zh) * 2020-06-12 2020-10-02 汕头大学 一种基于分频卷积的多频率和多尺度融合的自动化裂缝检测方法
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及***
CN113177921A (zh) * 2021-04-30 2021-07-27 佛山市南海区广工大数控装备协同创新研究院 一种基于神经网络的磁瓦表面缺陷检测方法
CN113313077A (zh) * 2021-06-30 2021-08-27 浙江科技学院 基于多策略和交叉特征融合的显著物体检测方法
CN114387467A (zh) * 2021-12-09 2022-04-22 哈工大(张家口)工业技术研究院 一种基于多模块卷积特征融合的医学图像分类方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275076A (zh) * 2020-01-13 2020-06-12 南京理工大学 基于特征选择和特征融合的图像显著性检测方法
CN111275076B (zh) * 2020-01-13 2022-10-21 南京理工大学 基于特征选择和特征融合的图像显著性检测方法
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111582316A (zh) * 2020-04-10 2020-08-25 天津大学 一种rgb-d显著性目标检测方法
CN111582316B (zh) * 2020-04-10 2022-06-28 天津大学 一种rgb-d显著性目标检测方法
CN111709317A (zh) * 2020-05-28 2020-09-25 西安理工大学 一种基于显著性模型下多尺度特征的行人重识别方法
CN111709317B (zh) * 2020-05-28 2023-08-04 深圳市旭景数字技术有限公司 一种基于显著性模型下多尺度特征的行人重识别方法
CN111738324B (zh) * 2020-06-12 2023-08-22 汕头大学 一种基于分频卷积的多频率和多尺度融合的自动化裂缝检测方法
CN111738324A (zh) * 2020-06-12 2020-10-02 汕头大学 一种基于分频卷积的多频率和多尺度融合的自动化裂缝检测方法
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及***
CN111768375B (zh) * 2020-06-24 2022-07-26 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及***
CN113177921A (zh) * 2021-04-30 2021-07-27 佛山市南海区广工大数控装备协同创新研究院 一种基于神经网络的磁瓦表面缺陷检测方法
CN113313077A (zh) * 2021-06-30 2021-08-27 浙江科技学院 基于多策略和交叉特征融合的显著物体检测方法
CN114387467A (zh) * 2021-12-09 2022-04-22 哈工大(张家口)工业技术研究院 一种基于多模块卷积特征融合的医学图像分类方法
CN114387467B (zh) * 2021-12-09 2022-07-29 哈工大(张家口)工业技术研究院 一种基于多模块卷积特征融合的医学图像分类方法
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法

Similar Documents

Publication Publication Date Title
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN112750140B (zh) 基于信息挖掘的伪装目标图像分割方法
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN112270249A (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN109960742B (zh) 局部信息的搜索方法及装置
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN109271990A (zh) 一种针对rgb-d图像的语义分割方法及装置
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN111768375B (zh) 一种基于cwam的非对称gm多模态融合显著性检测方法及***
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN111754396A (zh) 脸部图像处理方法、装置、计算机设备和存储介质
CN112489119B (zh) 一种增强可靠性的单目视觉定位方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN113468996A (zh) 一种基于边缘细化的伪装物体检测方法
CN113449691A (zh) 一种基于非局部注意力机制的人形识别***及方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN115294356A (zh) 一种基于广域感受野空间注意力的目标检测方法
CN116403062A (zh) 一种点云目标检测方法、***、设备及介质
CN116246184A (zh) 一种应用于无人机航拍图像的罂粟智能识别方法及***
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法
CN116182894A (zh) 一种单目视觉里程计方法、装置、***及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20191227