CN111563418A - 一种基于注意力机制的非对称多模态融合显著性检测方法 - Google Patents

一种基于注意力机制的非对称多模态融合显著性检测方法 Download PDF

Info

Publication number
CN111563418A
CN111563418A CN202010291052.4A CN202010291052A CN111563418A CN 111563418 A CN111563418 A CN 111563418A CN 202010291052 A CN202010291052 A CN 202010291052A CN 111563418 A CN111563418 A CN 111563418A
Authority
CN
China
Prior art keywords
layer
output
neural network
block
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010291052.4A
Other languages
English (en)
Inventor
周武杰
张欣悦
雷景生
靳婷
史文彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010291052.4A priority Critical patent/CN111563418A/zh
Publication of CN111563418A publication Critical patent/CN111563418A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的非对称多模态融合显著性检测方法。输入原始立体图像的RGB图和深度图进卷积神经网络中进行训练,得到相应的显著性检测图;再通过计算模型生成的显著性检测图构成的集合与对应的真实人眼注视图构成的集合之间的损失函数,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;将选定数据集中的立体图像输入到训练好的卷积神经网络模型中,得到显著性检测的图像。本发明采用非对称的编码结构充分提取RGB和深度图特征,加入内部感知模块后有效利用RGB丰富的图像信息,加入通道和空间注意力机制,增强了显著性区域和显著性特征的表达,提高了视觉显著性检测的检测准确度。

Description

一种基于注意力机制的非对称多模态融合显著性检测方法
技术领域
本发明涉及一种深度学习的视觉显著性检测方法,尤其是涉及一种基于注意力机制的非对称多模态融合显著性检测方法。
背景技术
在图像中寻找感兴趣的对象时,人可以自动捕获对象及其上下文之间的语义信息,对显著对象给予高度的关注,并选择性地抑制不重要的因素。这种精确的视觉注意机制已经在各种生物逻辑模型中得到了解释。显著性检测的目的是自动检测图像中最具信息和吸引力的部分。在许多图像应用,例如图像质量评估、语义分割、图像识别等,确定显著目标不仅可以降低计算成本,还可以提高显著性模型的性能。早期的显著性检测方法采用手工特征,即主要针对图像颜色、纹理、对比度等进行先验式模拟近似人眼注视的显著性。随着显著性研究的深入,发现这些手工特征已经不足以很好的捕获图像中的特征,因为这种手工特征未能提取到图像中的对象特征和其周围环境的高级语义。因此,采用深度学习的方法能更好的提取图像特征,以达到更好的显著性检测效果。现有的显著性检测方法大多数已经采用深度学习的方法,利用卷积层与池化层相结合的方法提取图像特征,但是单纯的使用卷积操作与池化操作获得的图像特征不具有代表性,尤其是进行池化操作会丢失图像的特征信息,从而会导致得到的显著性预测图效果较差,预测的准确度低。
发明内容
为了解决背景技术中存在的问题,本发明所要解决的技术问题是提供一种基于注意力机制的非对称多模态融合显著性检测方法,其检测准确度高。
本发明解决上述技术问题所采用的技术方案为:一种基于注意力机制的非对称多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段为:在构建卷积神经网络时,输入层的输入端输入原始立体图像的RGB图和对应的深度图,输入原始立体图像的RGB图(即RGB彩色图)和深度图进卷积神经网络中进行训练,得到相应的显著性检测图;再通过计算模型生成的显著性检测图构成的集合与对应的真实人眼注视图构成的集合之间的损失函数,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;将选定数据集中的立体图像输入到训练好的卷积神经网络模型中,得到显著性检测的图像。
所述的训练阶段过程的具体步骤为:
步骤1.1):采集选取带有目标物体的n幅原始立体图像(RGB图)的RGB图、深度图并和标注获得的真实人眼注释图构成训练集,并采用HHA方法将训练集中的深度图
Figure BDA0002450396710000021
均处理为与原始立体图像一样具有三通道的集合Hi
所述的原始立体图像具体为针对静态物体的图像识别,例如为道路上监控摄像头中的车辆/行人检测。
训练集中,第i幅(1≤i≤n)原始立体图像的RGB图记为
Figure BDA0002450396710000022
原始立体图像所对应的深度图记为
Figure BDA0002450396710000023
原始立体图像和深度图所对应的真实人眼注视图记为{Gi(x,y)},其中(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,H表示原始立体图像的高度,则1≤x≤W,1≤y≤H。
步骤1.2):构建的卷积神经网络;
步骤1.3):将训练集中的原始立体图像的RGB图和深度图作为输入,输入到所构建的卷积神经网络中进行训练,得到原始立体图像对应的显著性检测图,将训练完成得到的显著性检测图构成的集合记为
Figure BDA0002450396710000024
步骤1.4):计算训练得到的显著性检测图构成的集合
Figure BDA0002450396710000025
与对应的真实人眼注视图像{Gi(x,y)}构成的集合之间的损失函数值记为
Figure BDA0002450396710000026
步骤1.5):不断重复执行步骤1.3)和步骤1.4)迭代进行m次,得到卷积神经网络分类训练模型,并共得到n×m个损失函数值,然后从n×m个损失函数值中找出值最小的损失函数值,接着将最小的损失函数值对应的卷积神经网络的权值矢量和偏置项保留,作为训练后的卷积神经网络的最优权值矢量WBest和最优偏置项BBest
所述的测试阶段过程的具体步骤为:
步骤2.1):将目标物体待检测的RGB图和深度图的组合
Figure BDA0002450396710000027
的R通道分量、G通道分量和B通道分量输入训练后的卷积神经网络中,并利用的最优权值矢量WBest和最优偏置项BBest进行预测,得到
Figure BDA0002450396710000028
对应的显著性检测图像
Figure BDA0002450396710000029
其中
Figure BDA00024503967100000210
表示
Figure BDA00024503967100000211
中坐标位置为(x′,y′)的像素点的像素值。
A(x′,y′)表示
Figure BDA00024503967100000212
中坐标位置为(x′,y′)的像素点的像素值,用W′表示
Figure BDA0002450396710000031
的宽度,H′表示
Figure BDA0002450396710000032
的高度,则1≤x′≤W′,1≤y′≤H′。
如图1所示,所述的步骤1.2)中的卷积神经网络包括输入层和隐层,隐层输出即为卷积神经网络的输出:
所述的输入层的输入端输入原始立体图像的RGB图和深度图,输入层的输出端输出原始立体图像的RGB图的R通道分量、G通道分量和B通道分量以及深度图的编码图,输入层的输出量是隐层的输入量;其中,深度图在输入层中经过HHA编码方式处理后与RGB图一样具有三通道形成深度图的编码图,即经过输入层后也是被处理成三个分量,且原始立体图像的RGB图和深度图的宽度相同均为W、高度相同均为H;
所述隐层的组成部分:十个神经网络块、通道注意力模块(Channel AttentionModule、CAM)、内部感知模块(IPM)、空间力注意模块SAM和四个解码块;具体是为第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块、通道注意力模块(Channel Attention Module、CAM)、内部感知模块(IPM)、空间力注意模块SAM、第1个解码块、第2个解码块、第3个解码块、第4个解码块;
对于深度图的处理:
第1个神经网络块由第一卷积层、第一激活层、第二卷积层、第二激活层和第一最大池化层依次连接组成,输入为输入层输出的深度图的编码图,输出是经过处理后的64幅特征图构成第一深度特征图集合D1,每幅图的宽度为
Figure BDA0002450396710000033
高度为
Figure BDA0002450396710000034
第2个神经网络块由第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成,输入为第1个神经网络块输出的64幅特征图,输出128幅特征图构成第二深度特征图集合D2,每幅图的宽度为
Figure BDA0002450396710000035
高度为
Figure BDA0002450396710000036
第3个神经网络块的输入是第2个神经网络块输出的128幅特征图,输出为256幅特征图构成第三深度特征图集合D3,每幅图的宽度为
Figure BDA0002450396710000037
高度为
Figure BDA0002450396710000038
第4个神经网络块的输入是第3个神经网络块输出的256幅特征图,输出为512幅特征图构成第四深度特征图集合D4,每幅图的宽度为
Figure BDA0002450396710000039
高度为
Figure BDA00024503967100000310
第5个神经网络块的输入是第4个神经网络块输出的512幅特征图,输出为512幅特征图构成第五深度特征图集合D5,每幅图的宽度为
Figure BDA00024503967100000311
高度为
Figure BDA00024503967100000312
由此深度图分别经第1个神经网络块到第5个神经网络块处理得到五个深度特征图集合,五个深度特征图集合分别为D1、D2、D3、D4、D5
对于RGB图的处理:
第6个神经网络块由第十一卷积层、第一归一层、第十一激活层和第六最大池化层组成,输入是三通道原始RGB图,输出是经过处理后的64幅特征图构成第一RGB特征图集合R1,每幅图的宽度为
Figure BDA0002450396710000041
高度为
Figure BDA0002450396710000042
第7个神经网络块的输入是第6个神经网络块输出的64幅特征图,输出是256幅特征图构成第二RGB特征图集合D2,每幅图的宽度为
Figure BDA0002450396710000043
高度为
Figure BDA0002450396710000044
第7个神经网络块由连续三个卷积块组成;每一个卷积块是由连续四层卷积层连接构成,第四层卷积层输入为第三层卷积层的输出以及前一个卷积块的输出(或第6个神经网络块的第六最大池化层输出的64幅特征图),经相加后输出为256幅特征图;
第8个神经网络块由连续四个卷积块组成,输入为第7个神经网络块输出的256幅特征图,输出为512幅特征图构成第三RGB特征图集合R3,每幅图的宽度为
Figure BDA0002450396710000045
高度为
Figure BDA0002450396710000046
第9个神经网络块由连续六个卷积块组成,输入为第8个神经网络块输出的512幅特征图,输出为1024幅特征图构成第四RGB特征图集合R4,每幅图的宽度为
Figure BDA0002450396710000047
高度为
Figure BDA0002450396710000048
第10个神经网络块由连续三个卷积块组成,输入为第9个神经网络块输出的1024幅特征图,输出为2048幅特征图构成第五RGB特征图集合R5,每幅图的宽度为
Figure BDA0002450396710000049
高度为
Figure BDA00024503967100000410
由此RGB图分别经第6个神经网络块到第10个神经网络块处理得到五个RGB特征图集合,五个RGB特征图集合分别为R1、R2、R3、R4、R5
然后,第一深度特征图集合D1和第一RGB特征图集合R1均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出128幅特征图,作为第一特征图集a;第二深度特征图集合D2和第二RGB特征图集合R2均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出384幅特征图,作为第二特征图集b;第三深度特征图集合D3和第三RGB特征图集合R3均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出768幅特征图,作为第三特征图集c;第四深度特征图集合D4和第四RGB特征图集合R4均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出1536幅特征图,作为第四特征图集d;
通道数叠操作具体是指在特征图尺寸相同的条件下,采用通道数相加的方式将输出的RGB或深度图的特征图进行合并。
第五RGB特征图集合R5经过内部感知模块IPM处理后获得感知特征图集F,感知特征图集F和第五深度特征图集合D5一起共同输入到空间注意力模块SAM,空间注意力模块SAM的输出和第四特征图集d一起经通道数叠后输入到第1个解码块,第1个解码块的输出和第三特征图集c一起经通道数叠后输入到第2个解码块,第2个解码块的输出和第二特征图集b一起经通道数叠后输入到第3个解码块,第3个解码块的输出和第一特征图集a一起经通道数叠后输入到第4个解码块,第4个解码块输出作为隐层的输出,即为最终显著性预测图。
所述的通道注意力模块CAM,具体为:输入为特征图集合Xi,Xi∈(D1,D2,D3,D4,R1,R2,R3,R4),首先经过调整矩阵形状操作(reshape)后,获得第一调整图RE(Xi);接着将第一调整图RE(Xi)进行矩阵转置操作(transpose),获得第二调整图RET(Xi);再将第二调整图RET(Xi)和第一调整图RE(Xi)进行矩阵相乘,得到第三调整图M(Xi),再经过softmax函数处理,得到注意特征图S(Xi);然后将第三调整图RE(Xi)和注意特征图S(Xi)进行矩阵相乘,后再调整矩阵形状得到第四调整图SR(Xi);最后将第四调整图SR(Xi)乘上范围参数α后和输入的特征图集合Xi进行相加操作,最终输出得到第五调整图O(Xi),作为通道注意力模块CAM的输出。
如图2所示,所述的内部感知模块IPM的输入为RGB图第5个神经网络块输出的第五RGB特征图集合R5,输出为1024幅特征图作为感知特征图集F;内部感知模块IPM包括第1个扩张卷积块、第2个扩张卷积块、第3个扩张卷积块、第4个扩张卷积块和第一上采样层,第1个扩张卷积块和第2个扩张卷积块依次顺序连接,第1个扩张卷积块的输出输入到第2个扩张卷积块,第1个扩张卷积块的输出和第2个扩张卷积块的输出通道数叠后再和第1个扩张卷积块的输出再次通道数叠后输入到第3个扩张卷积块;第3个扩张卷积块的输出和第3个扩张卷积块的输入经通道数叠后再和第3个扩张卷积块的输出再次通道数叠后输入到第四个扩张卷积块,第四个扩张卷积块的输出直接输入到第一上采样层,第一上采样层输出作为内部感知模块IPM的输出。
具体为:
第1个扩张卷积块由第十二卷积层、第二归一层和第十二激活层依次连接组成,输入为RGB图第5个神经网络块输出的第五RGB特征图集合R5,输出为1024幅特征图形成第一扩张特征图集合F1
第2个扩张卷积块由第十三卷积层、第三归一层和第十三激活层依次连接组成,输入为第一扩张特征图集合F1,输出为512幅特征图形成第二扩张特征图集合F2;将第一扩张特征图集合F1和第二扩张特征图集合F2进行通道数叠得到1536幅特征图作为第三扩张特征图集合F3,再第三扩张特征图集合F3和第一扩张特征图集合F1进行通道数叠得到2560幅特征图作为第四扩张特征图集合F4
第3个扩张卷积块由第十四卷积层、第四归一层和第十四激活层依次连接组成,输入为F第四扩张特征图集合F4,输出为1024幅特征图作为第五扩张特征图集合F5
将第五扩张特征图集合F5和第四扩张特征图集合F4进行通道数叠得到3584幅特征图作为第六扩张特征图集合F6,再将第六扩张特征图集合F6和第五扩张特征图集合F5进行通道数叠得到4608幅特征图形成第七扩张特征图集合F7
第4个扩张卷积块由第十五卷积层、第五归一层和第十五激活层依次连接组成,输入为第七扩张特征图集合F7,输出为2048幅特征图作为第八扩张特征图集合F8
第一上采样层的输入为第八扩张特征图集合F8,输出为1024幅特征图,每幅图的宽度为
Figure BDA0002450396710000061
高度为
Figure BDA0002450396710000062
如图3所示,所述的空间注意力模块SAM主要由第十六卷积层、第六归一层和第十六激活层和第二上采样层组成,第十六卷积层输入为深度图的第5个神经网络块输出的第五深度特征图集合D5,输出依次经第六归一层和第十六激活层后输入到第二上采样层,第二上采样层的输出和感知特征图集F一起进行矩阵相乘后输入softmax激活函数,softmax激活函数的输出再和感知特征图集F一起进行矩阵相乘后再乘以范围参数β获得特征图集S4,特征图集S4最后和深度图的第5个神经网络块输出的第五深度特征图集合D5一起相加操作输出注意力特征图集S5,作为空间注意力模块SAM的输出。
对于第1个解码块、主要由第一融合层、第十七卷积层、第七归一层、第十七激活层、第十八卷积层、第八归一层、第十八激活层、第三上采样层依次连接组成;对于第2个解码块、主要由第二融合层、第十九卷积层、第九归一层、第十九激活层、第二十卷积层、第十归一层、第二十激活层、第四上采样层依次连接组成;对于第3个解码块、主要由第三融合层、第二十一卷积层、第十一归一层、第二十一激活层、第二十二卷积层、第十二归一层、第二十二激活层、第五上采样层依次连接组成;对于第4解码块、主要由第四融合层、第二十三卷积层、第十三归一层、第二十三激活层、第二十四卷积层、第十四归一层、第二十四激活层、第二十五卷积层、第十五归一层、第二十五激活层、第六上采样层依次连接组成。
本发明优点是采用非对称的编码结构充分提取RGB和深度图特征,加入内部感知模块后有效利用RGB丰富的图像信息,加入通道和空间注意力机制,增强了显著性区域和显著性特征的表达,最后在解码阶段进行多尺度多层级的特征融合,提高了视觉显著性检测的检测准确度。
与现有技术相比,本发明的优点在于:
本发明方法在构建卷积神经网络的时候,采用非对称的编码结构,将深度图作为RGB图的补充信息,使用不同的主干网络分别提取RGB信息和深度信息,能够充分提取原始立体图像和深度图信息,得到多层次特征图;
本发明方法采用了IPM(Interior Perception Module,即内部感知模块),该模块以RGB编码网络的输出为输入,能够对输入的特征图进行自适应特征细化,以捕捉更充分的RGB特征信息,从而提高最终的视觉显著性检测精度;
本发明方法采用了SAM(Spatial Attention Module,即空间注意力模块),该模块以深度图编码结构的输出为输入,能够有效结合多尺度的深度信息和细化后的RGB信息,保留了特征的空间细节,增强了显著区域的表达,提高了显著检测的精度。
附图说明
图1为本发明方法的总体实现框图;
图2为本发明方法的内部感知模块(IPM)实现图;
图3为本发明方法的空间注意力机制模块(SAM)实现图;
图4(a)为同一场景的第1幅原始立体图像对应的真实人眼注视图;
图4(b)为利用本发明方法对图4(a)所示的原始立体图像进行检测后得到的显著性检测图;
图5(a)为同一场景的第2幅原始立体图像对应的真实人眼注视图;
图5(b)为利用本发明方法对图5(a)所示的原始立体图像进行检测后得到的显著性检测图;
图6(a)为同一场景的第3幅原始立体图像对应的真实人眼注视图;
图6(b)为利用本发明方法对图6(a)所示的原始立体图像进行检测后得到的显著性检测图;
图7(a)为同一场景的第4幅原始立体图像对应的真实人眼注视图;
图7(b)为利用本发明方法对图7(a)所示的原始立体图像进行检测后得到的显著性检测图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明实施例的过程如图1所示,其包括训练阶段和测试阶段两个过程:
所述的训练阶段过程的具体步骤为:
步骤①_1:选取n幅原始立体图像的RGB图、深度图和对应的真实人眼注释图构成训练集,n∈{N+|n≥200},将训练集中的第i幅(n≤i≤n)原始立体图像的RGB图记为
Figure BDA0002450396710000081
原始立体图像所对应的深度图记为
Figure BDA0002450396710000082
原始立体图像和深度图所对应的真实人眼注视图记为{Gi(x,y)},其中(x,y)代表像素点的坐标位置,用W表示原始立体图像的宽度,H表示原始立体图像的高度,则1≤x≤W,1≤y≤H;并采用现有的HHA方法(Horizontal disparity,height above ground,and the angle the pixel’s localsurface normal makes with the inferred gravity direction,即独热编码技术)将训练集中的深度图
Figure BDA0002450396710000083
处理为与原始立体图像(RGB图)一样具有三通道的集合Hi;本实验中的数据集选用视觉显著性检测数据集NUS中的420幅图像和NCTU中的332幅图像作为训练集,60幅NUS图像和48幅NCTU图像作为验证集,剩下95幅NUS图像和120幅NCTU图像作为测试集;
步骤①_2:构建的卷积神经网络,包括输入层、隐层和输出层;
输入层的输入端输入原始立体图像的RGB图和对应的深度图,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出量是隐层的输入量;其中,深度图经过HHA编码方式处理后与RGB图一样具有三通道,即经过输入层后也是被处理成三个分量,且输入的原始立体图像的宽度为W、高度为H;
隐层的组成部分:第1个神经网络块,第2个神经网络块,第3个神经网络块,第4个神经网络块,第5个神经网络块,第6个神经网络块,第7个神经网络块,第8个神经网络块,第9个神经网络块,第10个神经网络块,CAM(Channel Attention Module,即通道注意力模块),内部感知模块IPM,空间力注意模块SAM,第1个解码块,第2个解码块,第3个解码块,第4个解码块;
其中,对于深度图的处理,第1个神经网络块的输入是用HHA编码后的三通道图像,输出是经过处理后的64幅特征图,每幅图的宽度为
Figure BDA0002450396710000084
高度为
Figure BDA0002450396710000085
第1个神经网络块由第一卷积层,第一激活层,第二卷积层,第二激活层和第一最大池化层组成;第一卷积层和第二卷积层的卷积核设置为64×3×3,即个数(filters)为64,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,第一激活层和第二激活层的激活方式为“ReLU函数”,第一最大池化层的池化尺寸(pool_size)为2,步长(stride)为2;
第2个神经网络块由第三卷积层,第三激活层,第四卷积层,第四激活层,第二最大池化层组成;输入为第1个神经网络块输出的64幅特征图,输出128幅特征图,每幅图的宽度为
Figure BDA0002450396710000091
高度为
Figure BDA0002450396710000092
第三卷积层和第四卷积层卷积核个数(filters)为128,卷积核尺寸(kernel_size)为3×3,补零参数(padding)的值为1,第三激活层和第四激活层的激活方式为“ReLU函数”,第二最大池化层的池化尺寸(pool_size)为2,步长(stride)为2;
第3个神经网络块的输入是第2个神经网络块输出的128幅特征图,输出为256幅特征图,每幅图的宽度为
Figure BDA0002450396710000093
高度为
Figure BDA0002450396710000094
第五卷积层和第六卷积层卷积核个数(filters)为256,卷积核尺寸(kernel_size)为3×3,补零参数(padding)的值为1,第五激活层和第六激活层的激活方式为“ReLU函数”,第三最大池化层的池化尺寸(pool_size)为2,步长(stride)为2;
第4个神经网络块的输入是第3个神经网络块输出的256幅特征图,输出为512幅特征图,每幅图的宽度为
Figure BDA0002450396710000095
高度为
Figure BDA0002450396710000096
第七卷积层和第八卷积层卷积核个数(filters)为512,卷积核尺寸(kernel_size)为3×3,补零参数(padding)的值为1,第七激活层和第八激活层的激活方式为“ReLU函数”,第四最大池化层的池化尺寸(pool_size)为2,步长(stride)为2;
第5个神经网络块的输入是第4个神经网络块输出的512幅特征图,输出为512幅特征图,每幅图的宽度为
Figure BDA0002450396710000097
高度为
Figure BDA0002450396710000098
第九卷积层和第十卷积层卷积核个数(filters)为512,卷积核尺寸(kernel_size)为3×3,补零参数(padding)的值为1,第九激活层和第十激活层的激活方式为“ReLU函数”,第五最大池化层的池化尺寸(pool_size)为2,步长(stride)为2;将深度图处理得到的5个特征图集合分别记为D1,D2,D3,D4,D5
对于RGB图的处理,其中的第6个神经网络块的输入是三通道原始RGB图,输出是经过处理后的64幅特征图,每幅图的宽度为
Figure BDA0002450396710000101
高度为
Figure BDA0002450396710000102
第6个神经网络块由第十一卷积层,第一归一层,第十一激活层,第六最大池化层组成;第十一卷积层的卷积核个数(filters)为64,尺寸(kernel_size)为7×7,补零参数(padding)的值为3,步长(stride)为2;第一归一层使用的归一算法是“Batch Normalization”;第十一激活层的激活方式为“ReLU函数”,第六最大池化层卷积核尺寸(kernel_size)为3×3,步长(stride)为2,补零参数(padding)的值为1;
第7个神经网络块的输入是第6个神经网络块输出的64幅特征图,输出是256幅特征图,每幅图的宽度为
Figure BDA0002450396710000103
高度为
Figure BDA0002450396710000104
第7个神经网络块由3个卷积块组成,每一个卷积块包括4层卷积层,第一个卷积层输入为第1个神经网络块输出的64幅特征图,输出为处理后的64幅特征图,卷积核个数(filters)为64,尺寸(kernel_size)为1×1,步长(stride)为1;第二个卷积层输入为第一个卷积层输出的64幅特征图,输出为处理后的64幅特征图,卷积核个数(filters)为64,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1;第三个卷积层输入为第二个卷积层输出的64幅特征图,输出为处理后的256幅特征图,卷积核个数(filters)为256,尺寸(kernel_size)为1×1,步长(stride)为1;第四个卷积层输入为前一个卷积块(或第一最大池化层)输出的64幅特征图,输出为256幅特征图,卷积核个数(filters)为256,尺寸(kernel_size)为1×1,步长(stride)为1;
第8个神经网络块由4个卷积块组成,输入为第7个神经网络块输出的256幅特征图,输出为512幅特征图,每幅图的宽度为
Figure BDA0002450396710000111
高度为
Figure BDA0002450396710000112
每一个卷积块包含4层卷积层,第一个卷积层输入为第2个神经网络块输出的256幅特征图,输出为处理后的128幅特征图,卷积核个数(filters)为128,尺寸(kernel_size)为1×1,步长(stride)为1;第二个卷积层输入为第一个卷积层输出的128幅特征图,输出为处理后的128幅特征图,卷积核个数(filters)为128,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1;第三个卷积层输入为第二个卷积层输出的128幅特征图,输出为处理后的512幅特征图,卷积核个数(filters)为512,尺寸(kernel_size)为1×1,步长(stride)为1;第四个卷积层输入为前一个卷积块(或第2个神经网络块)输出的512幅特征图,输出为处理后的512幅特征图,卷积核个数(filters)为512,尺寸(kernel_size)为1×1,步长(stride)为2;
第9个神经网络块由6个卷积块组成,输入为第8个神经网络块输出的512幅特征图,输出为1024幅特征图,每幅图的宽度为
Figure BDA0002450396710000113
高度为
Figure BDA0002450396710000114
每一个卷积块包含4层卷积层,第一个卷积层输入为第3个神经网络块输出的512幅特征图,输出为处理后的256幅特征图,卷积核个数(filters)为256,尺寸(kernel_size)为1×1,步长(stride)为1;第二个卷积层输入为第一个卷积层输出的256幅特征图,输出为处理后的256幅特征图,卷积核个数(filters)为256,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1;第三个卷积层输入为第二个卷积层输出的256幅特征图,输出为处理后的1024幅特征图,卷积核个数(filters)为1024,尺寸(kernel_size)为1×1,步长(stride)为1;第四个卷积层输入为前一个卷积块(或第3个神经网络块)输出的512幅特征图,输出为处理后的1024幅特征图,卷积核个数(filters)为1024,尺寸(kernel_size)为1×1,步长(stride)为2;
第10个神经网络块由3个卷积块组成,输入为第9个神经网络块输出的1024幅特征图,输出为2048幅特征图,每幅图的宽度为
Figure BDA0002450396710000121
高度为
Figure BDA0002450396710000122
每一个卷积块包含4层卷积层,第一个卷积层输入为第4个神经网络块输出的1024幅特征图,输出为处理后的512幅特征图,卷积核个数(filters)为512,尺寸(kernel_size)为1×1,步长(stride)为1;第二个卷积层输入为第一个卷积层输出的512幅特征图,输出为处理后的512幅特征图,卷积核个数(filters)为512,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1;第三个卷积层输入为第二个卷积层输出的512幅特征图,输出为处理后的2048幅特征图,卷积核个数(filters)为2048,尺寸(kernel_size)为1×1,步长(stride)为1;第四个卷积层输入为前一个卷积块(或第4个神经网络块)输出的1024幅特征图,输出为处理后的2048幅特征图,卷积核个数(filters)为2048,尺寸(kernel_size)为1×1,步长(stride)为2;将RGB图处理得到的5个特征图集合分别记为R1,R2,R3,R4,R5
对于通道注意力模块CAM,输入为Xi,Xi∈(D1,D2,D3,D4,R1,R2,R3,R4),
Figure BDA0002450396710000123
即通道为C,图高H,图宽W,经过调整矩阵形状操作(reshape)后,记为RE(Xi),
Figure BDA0002450396710000124
再将RE(Xi)进行矩阵转置操作(transpose),记为RET(Xi);将RET(Xi)和RE(Xi)进行矩阵相乘,得到M(Xi),此后经过softmax函数处理,得到注意特征图S(Xi),
Figure BDA0002450396710000125
将RE(Xi)和S(Xi)进行矩阵相乘,后再调整矩阵形状(reshape),得到SR(Xi),
Figure BDA0002450396710000126
Figure BDA0002450396710000127
将SR(Xi)乘上范围参数α,α是神经网络逐渐从0开始学习得到的,Xi和α×SR(Xi)进行相加操作,得到最终的输出O(Xi),
Figure BDA0002450396710000128
本阶段的融合方式是:D1经过CAM后,输出经过处理后的64幅特征图D1’,同理,D2,D3,D4经过CAM后,分别输出经过处理后特征图集D2’,D3’,D4’,分别包含128,256,512幅特征图;R1经过CAM后,输出经过处理后的64幅特征图R1’,同理,R2,R3,R4经过CAM后,分别输出经过处理后特征图集R2’,R3’,R4’,分别包含256,512,1024幅特征图;此后将D1’和R1’进行通道数叠,输出128幅特征图,记为特征图集a,同理,D2’和R2’进行通道数叠,输出384幅特征图,记为特征图集b,D3’和R3’进行通道数叠,输出768幅特征图,记为特征图集c,D4’和R4’进行通道数叠,输出1536幅特征图,记为特征图集d;
对于内部感知模块IPM,它由第1个扩张卷积块,第2个扩张卷积块,第3个扩张卷积块,第4个扩张卷积块和第一上采样层组成;IPM的输入为RGB图第5个神经网络块输出的2048幅特征图,输出为1024幅特征图记为,记为F;第1个扩张卷积块由第十二卷积层,第二归一层和第十二激活层组成;第十二卷积层输入为RGB图第5个神经网络块输出的2048幅特征图,输出为1024幅特征图,特征图集合记为F1,卷积核个数(filters)为1024,扩张率(dilation)为2,尺寸(kernel_size)为3×3,补零参数(padding)的值为2,步长(stride)为1,第二归一层使用的归一算法是“Batch Normalization”,第十二激活层的激活方式为“ReLU函数”;第2个扩张卷积块由第十三卷积层,第三归一层和第十三激活层组成;第十三卷积层输入为第1个扩张卷积块输出的1024幅特征图,输出为512幅特征图,卷积核个数(filters)为512,扩张率(dilation)为2,尺寸(kernel_size)为3×3,补零参数(padding)的值为2,步长(stride)为1,第三归一层使用的归一算法是“Batch Normalization”,第十三激活层的激活方式为“ReLU函数”,特征图集合记为F2;此阶段的融合:将F1和F2进行通道数叠,得到1536幅特征图,记为F3,F3和F1进行通道数叠,得到2560幅特征图,记为F4
第3个扩张卷积块由第十四卷积层,第四归一层和第十四激活层组成;第十四卷积层输入为F4包含的2560幅特征图,输出为1024幅特征图,卷积核个数(filters)为1024,扩张率(dilation)为2,尺寸(kernel_size)为3×3,补零参数(padding)的值为2,步长(stride)为1,第四归一层使用的归一算法是“Batch Normalization”,第十四激活层的激活方式为“ReLU函数”特征图集合记为F5;此阶段的融合:将F5和F4进行通道数叠,得到3584幅特征图,记为F6;将F6和F5进行通道数叠,得到4608幅特征图,记为F7
第4个扩张卷积块由第十五卷积层,第五归一层和第十五激活层组成;第十五卷积层输入为F4包含的4608幅特征图,输出为2048幅特征图,记为F8,卷积核个数(filters)为2048,扩张率(dilation)为2,尺寸(kernel_size)为3×3,补零参数(padding)的值为2,步长(stride)为1,第五归一层使用的归一算法是“Batch Normalization”,第十五激活层的激活方式为“ReLU函数”;
第一上采样层的输入为第4个扩张卷积块输出的2048幅特征图,指定倍数(scale_factor)设置为2,输出为1024幅特征图,每幅图的宽度为
Figure BDA0002450396710000141
高度为
Figure BDA0002450396710000142
对于空间注意力模块SAM,由第十六卷积层,第六归一层和第十六激活层和第二上采样层组成,第十六卷积层输入为深度图的第5个神经网络块输出的512幅特征图集D5,输出为1024幅特征图,卷积核个数(filters)为1024,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第六归一层使用的归一算法是“BatchNormalization”,第十六激活层的激活方式为“ReLU函数”,将特征图集记为S1;第二上采样层指定倍数(scale_factor)设置为2,输入为S1,输出为512幅特征图,记为S2,每幅图的宽度为
Figure BDA0002450396710000143
高度为
Figure BDA0002450396710000151
将S2和IPM的输出F进行矩阵相乘后送入softmax函数,得到S3;将S3和F进行矩阵相乘,再乘上β,β是神经网络逐渐从0开始学习得到的,得到S4,最后将S2和S4进行相加操作,得到最终SAM的输出S5
对于第1个解码块,由第一融合层,第十七卷积层,第七归一层,第十七激活层,第十八卷积层,第八归一层,第十八激活层,第三上采样层组成;第一融合层将D4’和R4’进行通道数叠输出的1536幅特征图集d和SAM的输出S4进行通道数叠,输出2560幅特征图,记为J1;第十七卷积层输入J1,输出为1024幅特征图,卷积核个数(filters)为1024,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第七归一层使用的归一算法是“Batch Normalization”,第十七激活层的激活方式为“ReLU函数”,将特征图集记为J2;第十八卷积层输入J2,输出为512幅特征图,卷积核个数(filters)为512,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第八归一层使用的归一算法是“Batch Normalization”,第十八激活层的激活方式为“ReLU函数”,将特征图集记为J3;第三上采样层指定倍数(scale_factor)设置为2,输入为J3,输出为512幅特征图,图片尺寸为每幅图的宽度为
Figure BDA0002450396710000152
高度为
Figure BDA0002450396710000153
对于第2个解码块,由第二融合层,第十九卷积层,第九归一层,第十九激活层,第二十卷积层,第十归一层,第二十激活层,第四上采样层组成;第二融合层将D3’和R3’进行通道数叠输出的768幅特征图集c和J2进行通道数叠,输出1280幅特征图,记为J4;第十九卷积层输入J4,输出为512幅特征图,卷积核个数(filters)为512,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第九归一层使用的归一算法是“BatchNormalization”,第十九激活层的激活方式为“ReLU函数”,将特征图集记为J5;第二十卷积层输入J5,输出为256幅特征图,卷积核个数(filters)为256,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第十归一层使用的归一算法是“BatchNormalization”,第二十激活层的激活方式为“ReLU函数”,将特征图集记为J6;第四上采样层指定倍数(scale_factor)设置为2,输入为J6,输出为256幅特征图,每幅图的宽度为
Figure BDA0002450396710000161
高度为
Figure BDA0002450396710000162
对于第3个解码块,由第三融合层,第二十一卷积层,第十一归一层,第二十一激活层,第二十二卷积层,第十二归一层,第二十二激活层,第五上采样层组成;第三融合层将D2’和R2’进行通道数叠输出的384幅特征图集b和J6进行通道数叠,输出640幅特征图,记为J7;第二十一卷积层输入J7,输出为256幅特征图,卷积核个数(filters)为256,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第十一归一层使用的归一算法是“Batch Normalization”,第二十一激活层的激活方式为“ReLU函数”,将特征图集记为J8;第二十二卷积层输入J9,输出为128幅特征图,卷积核个数(filters)为128,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第十二归一层使用的归一算法是“Batch Normalization”,第二十二激活层的激活方式为“ReLU函数”,将特征图集记为J9;第五上采样层指定倍数(scale_factor)设置为2,输入为J9,输出为128幅特征图,图片尺寸为每幅图的宽度为
Figure BDA0002450396710000163
高度为
Figure BDA0002450396710000164
对于第4解码块,由第四融合层,第二十三卷积层,第十三归一层,第二十三激活层,第二十四卷积层,第十四归一层,第二十四激活层,第二十五卷积层,第十五归一层,第二十五激活层,第六上采样层组成;第四融合层将D1’和R1’进行通道数叠输出的128幅特征图集a和J9进行通道数叠,输出256幅特征图,记为J10;第二十三卷积层输入J10,输出为128幅特征图,卷积核个数(filters)为128,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第十三归一层使用的归一算法是“Batch Normalization”,第二十三激活层的激活方式为“ReLU函数”,将特征图集记为J11;第二十四卷积层输入J11,输出为64幅特征图,卷积核个数(filters)为64,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第十四归一层使用的归一算法是“Batch Normalization”,第二十四激活层的激活方式为“ReLU函数”,将特征图集记为J12;第二十五卷积层输入J12,输出为1幅特征图,卷积核个数(filters)为1,尺寸(kernel_size)为3×3,补零参数(padding)的值为1,步长(stride)为1,第十五归一层使用的归一算法是“BatchNormalization”,第二十五激活层的激活方式为“ReLU函数”,将特征图集记为J13;第六上采样层指定倍数(scale_factor)设置为2,输入为J14,输出为1幅特征图,图片尺寸为W×H;J14即为最终的显著性预测图;
步骤①_3:将训练集中的原始立体图像的RGB图和深度图作为输入,输入到所构建的卷积神经网络中进行训练,得到原始立体图像对应的显著性检测图,将训练完成得到的显著性检测图构成的集合记为
Figure BDA0002450396710000171
步骤①_4:计算训练得到的显著性检测图构成的集合
Figure BDA0002450396710000172
与对应的真实人眼注视图像{Gi(x,y)}构成的集合之间的损失函数值记为
Figure BDA0002450396710000173
步骤①_5:重复执行步骤①_3和步骤①_4m次,得到卷积神经网络分类训练模型,并共得到n×m个损失函数值;然后从n×m个损失函数值中找出值最小的损失函数值;接着将最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为WBest和BBest;其中,m>1,本实验中取m为50;
所述的测试阶段过程的具体步骤为:
步骤②_1:令
Figure BDA0002450396710000174
表示待检测的显著性立体RGB图及对应的深度图;A(x′,y′)表示
Figure BDA0002450396710000175
中坐标位置为(x′,y′)的像素点的像素值,用W′表示
Figure BDA0002450396710000176
的宽度,H′表示
Figure BDA0002450396710000177
的高度,则1≤x′≤W′,1≤y′≤H′;
步骤②_2:将
Figure BDA0002450396710000178
的R通道分量,G通道分量和B通道分量输入所构建的卷积神经网络训练模型中,并利用WBest和BBest进行预测,得到
Figure BDA0002450396710000181
对应的显著性检测图像,记为
Figure BDA0002450396710000182
其中
Figure BDA0002450396710000183
表示
Figure BDA0002450396710000184
中坐标位置为(x′,y′)的像素点的像素值;
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库PyTorch1.1.0搭建基于注意力机制的非对称多模态融合显著性检测方法的卷积神经网络架构。采用数据集NUS和NCTU来分析利用本发明方法检测得到的显著性图像(分别取600和475幅立体图像)的检测效果。在本实验中,利用评估显著性检测方法的4个常用客观参量作为评价指标:线性相关系数(Linear CorrelationCoefficient,缩写为CC)、Kullback-Leibler散度系数(Kullback-Leibler Divergence,缩写为KLDiv)、AUC参数(the Aera Under the receiver operating characteristicsCurve,缩写为AUC)、标准化扫描路径显著性(Normalized Scanpath Saliency,缩写为NSS)来评价显著性检测图像的检测性能。
利用本发明方法对两个数据集NUS和NCTU中的每幅立体图像进行检测,得到每幅立体图像对应的显著性检测图像,反映本发明方法的显著性检测效果的线性相关系数CC、Kullback-Leibler散度系数KLDiv、AUC参数、标准化扫描路径显著性NSS如表1所列。
表1利用本发明方法得到的评测结果
Figure BDA0002450396710000185
从表1所列的数据可知,按本发明方法得到的显著性检测图像的检测结果是较好的。表明客观评价结果与人眼主观感知的结果较为一致,足以说明本发明方法的可行性和有效性。图4(a)给出了NCTU数据集中同一场景的第1幅原始立体图像对应的人眼注视图像;图4(b)给出了利用本发明方法对图4(a)所示的原始立体图像进行检测所得到的显著性检测图像;图5(a)给出了NCTU数据集中同一场景的第2幅原始立体图像对应的人眼注视图像;图5(b)给出了利用本发明方法对图5(a)所示的原始立体图像进行检测所得到的显著性检测图像;图6(a)给出了NUS数据集中同一场景的第3幅原始立体图像对应的人眼注视图像;图6(b)给出了利用本发明方法对图6(a)所示的原始立体图像进行检测所得到的显著性检测图像;图7(a)给出了NUS数据集中同一场景的第4幅原始立体图像对应的人眼注视图像;图7(b)给出了利用本发明方法对图7(a)所示的原始立体图像进行检测得到的显著性检测图像。
对比图4(a)和图4(b),对比图5(a)和图5(b),对比图6(a)和图6(b),对比图7(a)和图7(b),可以看出利用本发明方法得到的显著性检测图像的预测度精度提高,明显取得了突出显著的技术效果。

Claims (5)

1.一种基于注意力机制的非对称多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1.1):采集选取带有目标物体的n幅原始立体图像的RGB图、深度图并和标注获得的真实人眼注释图构成训练集,并采用HHA方法将训练集中的深度图
Figure FDA0002450396700000011
均处理为与原始立体图像一样具有三通道的集合Hi
步骤1.2):构建的卷积神经网络;
步骤1.3):将训练集中的原始立体图像的RGB图和深度图作为输入,输入到所构建的卷积神经网络中进行训练,得到原始立体图像对应的显著性检测图,将训练完成得到的显著性检测图构成的集合记为
Figure FDA0002450396700000012
步骤1.4):计算训练得到的显著性检测图构成的集合
Figure FDA0002450396700000013
与对应的真实人眼注视图像{Gi(x,y)}构成的集合之间的损失函数值记为
Figure FDA0002450396700000014
步骤1.5):不断重复执行步骤1.3)和步骤1.4)迭代进行m次,得到卷积神经网络分类训练模型,并共得到n×m个损失函数值,然后从n×m个损失函数值中找出值最小的损失函数值,接着将最小的损失函数值对应的卷积神经网络的权值矢量和偏置项保留,作为训练后的卷积神经网络的最优权值矢量WBest和最优偏置项BBest
所述的测试阶段过程的具体步骤为:
步骤2.1):将目标物体待检测的RGB图和深度图的组合
Figure FDA0002450396700000015
的R通道分量、G通道分量和B通道分量输入训练后的卷积神经网络中,并利用的最优权值矢量WBest和最优偏置项BBest进行预测,得到
Figure FDA0002450396700000016
对应的显著性检测图像
Figure FDA0002450396700000017
其中
Figure FDA0002450396700000018
表示
Figure FDA0002450396700000019
中坐标位置为(x′,y′)的像素点的像素值。
2.根据权利要求1所述的一种基于注意力机制的非对称多模态融合显著性检测方法,其特征在于:
所述的步骤1.2)中的卷积神经网络包括输入层和隐层,隐层输出即为卷积神经网络的输出:
所述的输入层的输入端输入原始立体图像的RGB图和深度图,输入层的输出端输出原始立体图像的RGB图的R通道分量、G通道分量和B通道分量以及深度图的编码图,输入层的输出量是隐层的输入量;其中,深度图在输入层中经过HHA编码方式处理后与RGB图一样具有三通道形成深度图的编码图,且原始立体图像的RGB图和深度图的宽度相同均为W、高度相同均为H;
所述隐层的组成部分:十个神经网络块、通道注意力模块、内部感知模块、空间力注意模块SAM和四个解码块;
对于深度图的处理:
第1个神经网络块由第一卷积层、第一激活层、第二卷积层、第二激活层和第一最大池化层依次连接组成,输入为输入层输出的深度图的编码图,输出是经过处理后的64幅特征图构成第一深度特征图集合D1,每幅图的宽度为
Figure FDA0002450396700000021
高度为
Figure FDA0002450396700000022
第2个神经网络块由第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成,输入为第1个神经网络块输出的64幅特征图,输出128幅特征图构成第二深度特征图集合D2,每幅图的宽度为
Figure FDA0002450396700000023
高度为
Figure FDA0002450396700000024
第3个神经网络块的输入是第2个神经网络块输出的128幅特征图,输出为256幅特征图构成第三深度特征图集合D3,每幅图的宽度为
Figure FDA0002450396700000025
高度为
Figure FDA0002450396700000026
第4个神经网络块的输入是第3个神经网络块输出的256幅特征图,输出为512幅特征图构成第四深度特征图集合D4,每幅图的宽度为
Figure FDA0002450396700000027
高度为
Figure FDA0002450396700000028
第5个神经网络块的输入是第4个神经网络块输出的512幅特征图,输出为512幅特征图构成第五深度特征图集合D5,每幅图的宽度为
Figure FDA0002450396700000029
高度为
Figure FDA00024503967000000210
由此深度图分别经第1个神经网络块到第5个神经网络块处理得到五个深度特征图集合,五个深度特征图集合分别为D1、D2、D3、D4、D5
对于RGB图的处理:
第6个神经网络块由第十一卷积层、第一归一层、第十一激活层和第六最大池化层组成,输入是三通道原始RGB图,输出是经过处理后的64幅特征图构成第一RGB特征图集合R1,每幅图的宽度为
Figure FDA00024503967000000211
高度为
Figure FDA00024503967000000212
第7个神经网络块的输入是第6个神经网络块输出的64幅特征图,输出是256幅特征图构成第二RGB特征图集合D2,每幅图的宽度为
Figure FDA00024503967000000213
高度为
Figure FDA00024503967000000214
第7个神经网络块由连续三个卷积块组成;每一个卷积块是由连续四层卷积层连接构成,第四层卷积层输入为第三层卷积层的输出以及前一个卷积块的输出,经相加后输出为256幅特征图;
第8个神经网络块由连续四个卷积块组成,输入为第7个神经网络块输出的256幅特征图,输出为512幅特征图构成第三RGB特征图集合R3,每幅图的宽度为
Figure FDA0002450396700000031
高度为
Figure FDA0002450396700000032
第9个神经网络块由连续六个卷积块组成,输入为第8个神经网络块输出的512幅特征图,输出为1024幅特征图构成第四RGB特征图集合R4,每幅图的宽度为
Figure FDA0002450396700000033
高度为
Figure FDA0002450396700000034
第10个神经网络块由连续三个卷积块组成,输入为第9个神经网络块输出的1024幅特征图,输出为2048幅特征图构成第五RGB特征图集合R5,每幅图的宽度为
Figure FDA0002450396700000035
高度为
Figure FDA0002450396700000036
由此RGB图分别经第6个神经网络块到第10个神经网络块处理得到五个RGB特征图集合,五个RGB特征图集合分别为R1、R2、R3、R4、R5
然后,第一深度特征图集合D1和第一RGB特征图集合R1均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出128幅特征图,作为第一特征图集a;第二深度特征图集合D2和第二RGB特征图集合R2均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出384幅特征图,作为第二特征图集b;第三深度特征图集合D3和第三RGB特征图集合R3均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出768幅特征图,作为第三特征图集c;第四深度特征图集合D4和第四RGB特征图集合R4均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出1536幅特征图,作为第四特征图集d;
第五RGB特征图集合R5经过内部感知模块IPM处理后获得感知特征图集F,感知特征图集F和第五深度特征图集合D5一起共同输入到空间注意力模块SAM,空间注意力模块SAM的输出和第四特征图集d一起经通道数叠后输入到第1个解码块,第1个解码块的输出和第三特征图集c一起经通道数叠后输入到第2个解码块,第2个解码块的输出和第二特征图集b一起经通道数叠后输入到第3个解码块,第3个解码块的输出和第一特征图集a一起经通道数叠后输入到第4个解码块,第4个解码块输出作为隐层的输出,即为最终显著性预测图。
3.根据权利要求2所述的一种基于注意力机制的非对称多模态融合显著性检测方法,其特征在于:
所述的通道注意力模块CAM,具体为:输入为特征图集合Xi,Xi∈(D1,D2,D3,D4,R1,R2,R3,R4),首先经过调整矩阵形状操作(reshape)后,获得第一调整图RE(Xi);接着将第一调整图RE(Xi)进行矩阵转置操作(transpose),获得第二调整图RET(Xi);再将第二调整图RET(Xi)和第一调整图RE(Xi)进行矩阵相乘,得到第三调整图M(Xi),再经过softmax函数处理,得到注意特征图S(Xi);然后将第三调整图RE(Xi)和注意特征图S(Xi)进行矩阵相乘,后再调整矩阵形状得到第四调整图SR(Xi);最后将第四调整图SR(Xi)乘上范围参数α后和输入的特征图集合Xi进行相加操作,最终输出得到第五调整图O(Xi),作为通道注意力模块CAM的输出;
所述的内部感知模块IPM的输入为RGB图第5个神经网络块输出的第五RGB特征图集合R5,输出为1024幅特征图作为感知特征图集F;内部感知模块IPM包括第1个扩张卷积块、第2个扩张卷积块、第3个扩张卷积块、第4个扩张卷积块和第一上采样层,第1个扩张卷积块的输出输入到第2个扩张卷积块,第1个扩张卷积块的输出和第2个扩张卷积块的输出通道数叠后再和第1个扩张卷积块的输出再次通道数叠后输入到第3个扩张卷积块;第3个扩张卷积块的输出和第3个扩张卷积块的输入经通道数叠后再和第3个扩张卷积块的输出再次通道数叠后输入到第四个扩张卷积块,第四个扩张卷积块的输出直接输入到第一上采样层,第一上采样层输出作为内部感知模块IPM的输出。
4.根据权利要求2所述的一种基于注意力机制的非对称多模态融合显著性检测方法,其特征在于:所述的空间注意力模块SAM主要由第十六卷积层、第六归一层和第十六激活层和第二上采样层组成,第十六卷积层输入为深度图的第5个神经网络块输出的第五深度特征图集合D5,输出依次经第六归一层和第十六激活层后输入到第二上采样层,第二上采样层的输出和感知特征图集F一起进行矩阵相乘后输入softmax激活函数,softmax激活函数的输出再和感知特征图集F一起进行矩阵相乘后再乘以范围参数β获得特征图集S4,特征图集S4最后和深度图的第5个神经网络块输出的第五深度特征图集合D5一起相加操作输出注意力特征图集S5,作为空间注意力模块SAM的输出。
5.根据权利要求2所述的一种基于注意力机制的非对称多模态融合显著性检测方法,其特征在于:对于第1个解码块、主要由第一融合层、第十七卷积层、第七归一层、第十七激活层、第十八卷积层、第八归一层、第十八激活层、第三上采样层依次连接组成;对于第2个解码块、主要由第二融合层、第十九卷积层、第九归一层、第十九激活层、第二十卷积层、第十归一层、第二十激活层、第四上采样层依次连接组成;对于第3个解码块、主要由第三融合层、第二十一卷积层、第十一归一层、第二十一激活层、第二十二卷积层、第十二归一层、第二十二激活层、第五上采样层依次连接组成;对于第4解码块、主要由第四融合层、第二十三卷积层、第十三归一层、第二十三激活层、第二十四卷积层、第十四归一层、第二十四激活层、第二十五卷积层、第十五归一层、第二十五激活层、第六上采样层依次连接组成。
CN202010291052.4A 2020-04-14 2020-04-14 一种基于注意力机制的非对称多模态融合显著性检测方法 Withdrawn CN111563418A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010291052.4A CN111563418A (zh) 2020-04-14 2020-04-14 一种基于注意力机制的非对称多模态融合显著性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010291052.4A CN111563418A (zh) 2020-04-14 2020-04-14 一种基于注意力机制的非对称多模态融合显著性检测方法

Publications (1)

Publication Number Publication Date
CN111563418A true CN111563418A (zh) 2020-08-21

Family

ID=72067830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010291052.4A Withdrawn CN111563418A (zh) 2020-04-14 2020-04-14 一种基于注意力机制的非对称多模态融合显著性检测方法

Country Status (1)

Country Link
CN (1) CN111563418A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及***
CN112465746A (zh) * 2020-11-02 2021-03-09 新疆天维无损检测有限公司 一种射线底片中小缺陷检测方法
CN112509046A (zh) * 2020-12-10 2021-03-16 电子科技大学 一种弱监督的卷积神经网络图像目标定位方法
CN112597996A (zh) * 2020-12-28 2021-04-02 山西云时代研发创新中心有限公司 基于任务驱动的自然场景中交通标志显著性检测方法
CN112837262A (zh) * 2020-12-04 2021-05-25 国网宁夏电力有限公司检修公司 一种刀闸开合状态的检测方法、介质及***
CN112861733A (zh) * 2021-02-08 2021-05-28 电子科技大学 一种基于时空双编码的夜间交通视频显著性检测方法
CN113033630A (zh) * 2021-03-09 2021-06-25 太原科技大学 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法
CN113222003A (zh) * 2021-05-08 2021-08-06 北方工业大学 一种基于rgb-d的室内场景逐像素语义分类器构造方法及***
CN113283435A (zh) * 2021-05-14 2021-08-20 陕西科技大学 一种基于多尺度注意力融合的遥感图像语义分割方法
CN113657534A (zh) * 2021-08-24 2021-11-16 北京经纬恒润科技股份有限公司 一种基于注意力机制的分类方法及装置
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN115222629A (zh) * 2022-08-08 2022-10-21 西南交通大学 基于云厚度估计与深度学习的单幅遥感影像云去除方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768375B (zh) * 2020-06-24 2022-07-26 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及***
CN111768375A (zh) * 2020-06-24 2020-10-13 海南大学 一种基于cwam的非对称gm多模态融合显著性检测方法及***
CN112465746A (zh) * 2020-11-02 2021-03-09 新疆天维无损检测有限公司 一种射线底片中小缺陷检测方法
CN112465746B (zh) * 2020-11-02 2024-03-05 新疆天维无损检测有限公司 一种射线底片中小缺陷检测方法
CN112837262A (zh) * 2020-12-04 2021-05-25 国网宁夏电力有限公司检修公司 一种刀闸开合状态的检测方法、介质及***
CN112509046A (zh) * 2020-12-10 2021-03-16 电子科技大学 一种弱监督的卷积神经网络图像目标定位方法
CN112597996A (zh) * 2020-12-28 2021-04-02 山西云时代研发创新中心有限公司 基于任务驱动的自然场景中交通标志显著性检测方法
CN112597996B (zh) * 2020-12-28 2024-03-29 山西云时代研发创新中心有限公司 基于任务驱动的自然场景中交通标志显著性检测方法
CN112861733B (zh) * 2021-02-08 2022-09-02 电子科技大学 一种基于时空双编码的夜间交通视频显著性检测方法
CN112861733A (zh) * 2021-02-08 2021-05-28 电子科技大学 一种基于时空双编码的夜间交通视频显著性检测方法
CN113033630A (zh) * 2021-03-09 2021-06-25 太原科技大学 一种基于双非局部注意力模型的红外与可见光图像深度学习融合方法
CN113222003A (zh) * 2021-05-08 2021-08-06 北方工业大学 一种基于rgb-d的室内场景逐像素语义分类器构造方法及***
CN113222003B (zh) * 2021-05-08 2023-08-01 北方工业大学 一种基于rgb-d的室内场景逐像素语义分类器构造方法及***
CN113283435A (zh) * 2021-05-14 2021-08-20 陕西科技大学 一种基于多尺度注意力融合的遥感图像语义分割方法
CN113283435B (zh) * 2021-05-14 2023-08-22 陕西科技大学 一种基于多尺度注意力融合的遥感图像语义分割方法
CN113657534A (zh) * 2021-08-24 2021-11-16 北京经纬恒润科技股份有限公司 一种基于注意力机制的分类方法及装置
CN114445442A (zh) * 2022-01-28 2022-05-06 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN114445442B (zh) * 2022-01-28 2022-12-02 杭州电子科技大学 基于非对称交叉融合的多光谱图像语义分割方法
CN115222629A (zh) * 2022-08-08 2022-10-21 西南交通大学 基于云厚度估计与深度学习的单幅遥感影像云去除方法

Similar Documents

Publication Publication Date Title
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN110555434B (zh) 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN111080629B (zh) 一种图像拼接篡改的检测方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN107944442B (zh) 基于改进卷积神经网络的对象检测装置及方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN106462771A (zh) 一种3d图像的显著性检测方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN110210492B (zh) 一种基于深度学习的立体图像视觉显著性检测方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN113449727A (zh) 一种基于深度神经网络的伪装目标检测识别方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111768375B (zh) 一种基于cwam的非对称gm多模态融合显著性检测方法及***
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN113610905B (zh) 基于子图像匹配的深度学习遥感图像配准方法及应用
CN113449691A (zh) 一种基于非局部注意力机制的人形识别***及方法
CN115588190A (zh) 一种成熟果实识别和采摘点定位方法及装置
CN114463492A (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN116883679B (zh) 基于深度学习的地物目标提取方法和装置
CN111539434B (zh) 基于相似度的红外弱小目标检测方法
CN117495718A (zh) 一种多尺度自适应的遥感图像去雾方法
CN107909565A (zh) 基于卷积神经网络的立体图像舒适度评价方法
CN116091793A (zh) 一种基于光流融合的光场显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200821