CN111783862A - 多注意力导向神经网络的立体显著性物体检测技术 - Google Patents

多注意力导向神经网络的立体显著性物体检测技术 Download PDF

Info

Publication number
CN111783862A
CN111783862A CN202010573881.1A CN202010573881A CN111783862A CN 111783862 A CN111783862 A CN 111783862A CN 202010573881 A CN202010573881 A CN 202010573881A CN 111783862 A CN111783862 A CN 111783862A
Authority
CN
China
Prior art keywords
layer
map
block
type
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010573881.1A
Other languages
English (en)
Inventor
周武杰
陈昱臻
雷景生
强芳芳
王海江
何成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010573881.1A priority Critical patent/CN111783862A/zh
Publication of CN111783862A publication Critical patent/CN111783862A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多注意力导向神经网络的立体显著性物体检测技术。通过两个输入的方式构建双流的神经网络,并且利用RGB和视差图两个信息共同生成注意力掩码图;这种掩码图包含了两个模态的信息,使其相互补充,更有利于避开视差图本身的原理性问题;在提升程序运行速度的同时又可以快速的确定物体的位置信息;其次使用下采样编码,再上采样进行译码,逐步的恢复图像在细节位置的像素,从而提高最终的准确率,从而使得结果更接近真实的人类观察物体的情况。解决了视差图距离最近的物体是非显著性物体时,像素仍然是最高的这一原理性问题所带来的负面影响。

Description

多注意力导向神经网络的立体显著性物体检测技术
技术领域
本发明涉及一种基于双目视觉的立体图像处理技术,尤其是涉及一种多注意力导向神经网络的立体显著性物体检测技术。
背景技术
人类观察物体是有先后顺序的,将人们优先观察的物体称为显著性物体,后观察的物体称为非显著性物体。而模拟人类这一观察习惯的算法技术就是显著性物体检测技术。近年来这一技术在物体分类,区域建议,跟踪等方向有着大量的应用,技术也随之不断的发展,出现了利用深度学习和立体显著性物体检测技术。虽然利用深度图和视差图的立体显著性物体检测技术已经有了很好的表现,但仍然面临着许多问题。
由于深度图和视差图只是单纯的记录物体的距离,势必会出现距离最近,像素最高(在深度图中为最低)的物体是非显著性物体的情况。我们研究发现,这样的深度图原理性错误会极大的影响算法的鲁棒性从而导致误判。因而如何去除这一负面影响是进一步提高算法效果的一个很好思路。本发明采用了一种多注意力导向神经网络,利用RGB和深度图两种模态的信息生成多注意力掩码图,共同对神经网络进行相关引导,从而避免此类问题的出现。
发明内容
为了解决背景技术中的问题,本发明提供了一种多注意力导向神经网络的立体显著物体检测方法,以达到快速检测和精确检测一个精细的物体的目的。
本发明的技术方案包括以下步骤:
步骤1)选取K幅原始RGB图像以及原始RGB图像对应的视差图和真实分割图,并构成训练集;
步骤2)构建多注意力导向神经网络;
步骤3)将训练集中的每幅原始RGB图以及对应的视差图输入到多注意力导向神经网络中进行训练,从输出层输出得到显著性预测分割图,计算显著性预测分割图和对应的真实分割图之间的损失函数值,损失函数值采用二值交叉熵获得;
步骤4)重复执行步骤3)共V次,共得到K×V个损失函数值,然后从K×V个损失函数值中找出值最小的损失函数值作为模型参数,从而完成多注意力导向神经网络的训练;
步骤5)将待显著分割的RGB图像以及对应的视差图输入训练好的多注意力导向神经网络中,输出获得对应的预测分割图像,完成立体显著性物体检测。
所述步骤2)中,多注意力导向神经网络包括输入层、隐层和输出层,输入层包括RGB图输入层和视差图输入层,隐层包括视差图特征提取模块、RGB图特征提取模块、多注意力掩码生成模块和预测模块。
RGB图特征提取模块包括二型残差网络模块和四个卷积块;二型残差网络模块主要由依次连接的二型残差第一层、二型残差第二层、二型残差第三层、二型残差第四层组成,二型残差第一层、二型残差第二层、二型残差第三层、二型残差第四层的输出分别输入第四个卷积块、第三个卷积块、第二个卷积块、第一个卷积块,二型残差第一层接收RGB图输入层的输出。
视差图特征提取模块包括改进的谷歌神经网络和第五个卷积块,视差图输入层的输出经改进的谷歌神经网络输入第五个卷积块。
多注意力掩码生成模块包括三个采样块、两个叠加层和一个点和层,第一个上采样块接收第一个卷积块的输出,第一个叠加层接收第一个上采样块的输出和第二个卷积块的输出,第二个上采样块接收第一个叠加层的输入,第二个叠加层接收第二个上采样块的输出和第三个卷积块的输出,第三个上采样块接收第二个叠加层的输出;第一个点和层接收第五个卷积块和第三个上采样块的输入。
预测模块包括第一个点乘层、第三个叠加层和第四个上采样块,第一个点乘层接收第四个卷积块和第一个点和层的输入,第三个叠加层接收第四个卷积块和第一个点乘层的输入,第四个上采样块接收第三个叠加层的输入。
第四个上采样块经输出层输出。
所述二型残差网络模块采用修改后的Res2Net模型,修改后的Res2Net模型删除了原Res2Net模型中第一个最大池化层且删除了最后所有的全连接层和平均池化层;
以下采样作为分界点将修改后的Res2Net模型分成二型残差第一层、二型残差第二层、二型残差第三层和二型残差第四层;修改后的Res2Net模型中:第一次下采样操作之前的所有层作为二型残差第一层,第一次下采样操作到第二次下采样操作之间的所有层作为二型残差网络第二层,第二次下采样操作到第三次下采样操作之间的所有层作为二型残差网络第三层,第三次下采样操作到第四次下采样操作之间的所有层作为二型残差网络第四层。
改进的谷歌神经网络仅保留了原谷歌神经网络中茎干Stem部分以及茎干部分下面连接的五个Inception-resnet-A模块。
五个卷积块均由卷积层、局部归一化层、激活层组成;四个上采样块均采用双线性插值的方式进行上采样,四个上采样块均由卷积层、局部归一化层、激活层组成。
第一个、第二个和第三个叠加层用于将输入的特征图以叠加的方式进行融合;第五个卷积块输出的为深度掩码图,第三个上采样块输出的为彩色掩码图,第一个点和层用于将彩色掩码图中的像素值和对应的深度掩码图中的像素值相加得到多注意力掩码图;第四个卷积块输出的为彩色特征图,第一个点和层输出多注意力掩码图,第一个点乘层用于将彩色特征图的像素值和对应的多注意力掩码图的像素值相乘后得到的特征图输入第三个叠加层。
所述RGB图输入层的输入端接收RGB图,视差图输入层的输入端接收RGB图对应的视差图;输出层输出显著性预测分割图。
本发明的有益效果是:
(1)本发明方法采用非对称的双流神经网络。由于深度图通道少,包含信息少,过大的网络很容易引起过拟合,同时过多参数会使得训练变得更慢。因此本发明提出的非对称形态的网络能很好的避免过拟合,使算法的复杂度降低。
(2)本发明方法采用基于二型残差网络(res2net)来提取彩色图的特征,这一网络相较于目前的其他流行网络,特征提取能力强,鲁棒性好。而深度图部分则采用第四版谷歌网络(Inception-v4-resnet2),并对其进行了改进。这个网络效果良好,运行效率高,改进后还具有参数少的特点。
(3)本发明用两条神经网络分别生成彩色图注意力掩码图和深度图注意力掩码图,利用这两种注意力掩码互相补充来引导神经网络做出最后的判断,最终大大改善了由于深度图原理性错误引起的误判。
附图说明
图1为本发明方法的总体实现框图;
图2a为场景一的彩色图;
图2b为场景一的视差图;
图2c为场景一的标签图;
图2d为利用本发明方法对图2a及其对应的图2b进行预测所得到的显著性预测结果。
图3a为场景二的彩色图;
图3b为场景二的视差图;
图3c为场景二的标签图;
图3d为利用本发明方法对图3a及其对应的图3b进行预测所得到的显著性预测结果。
图4a为场景三的彩色图;
图4b为场景三的视差图;
图4c为场景三的标签图;
图4d为利用本发明方法对图4a及其对应的图4b进行预测所得到的显著性预测结果。
图5为本发明方法在NJU2000数据库上测试的ROC曲线。
图6为本发明方法在NJU2000数据库上测试的PR曲线。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细说明。
本发明提出的一种多注意力导向神经网络的立体显著性物体检测技术,其包括训练阶段和测试阶段两个过程,所述的训练阶段过程的具体步骤为:
步骤1_1:选择NJU2000公开数据集,并将其分为训练集和测试集;然后将数据库中的所有图像采用双线性插值的方法缩放为224×224大小;随机打乱后将其中的百分之八十作为训练集,
Figure BDA0002550333660000041
表示第k幅彩色图,彩色图如图2a、图3a和图4a所示;
Figure BDA0002550333660000042
则表示与其对应的视差图,视差图如图2b、图3b和图4b所示;
Figure BDA0002550333660000043
表示与其对应的标签图;其中,k为正整数,1≤k≤K,K表示数据库中包含的彩色图总幅数,同时也是数据库中包含的视差图及其分割标签图的幅数,K≥1588。
Figure BDA0002550333660000044
表示彩色图中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002550333660000045
表示视差图中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002550333660000046
表示标签图中坐标位置为(x,y)的像素点的像素值;
Nk(xl,ym)表示图像坐标(xl,ym)的像素点的像素值;
步骤1_2:构建多注意力导向神经网络:多注意力导向神经网络主要由三个部分组成,第一部分是由二型残差网络模块、第一个卷积块、第二个卷积块、第三个卷积块和第四个卷积块组成的彩色图特征提取部分。第二部分是由改进的谷歌神经网络和第五个卷积块组成的深度图提取部分。第三部分是由第一个上采样块、第一个叠加层C1、第二个上采样块、第二个叠加层C2、第三个上采样块和第一个点和层A1组成的多注意力掩码生成部分。第四部分是由第一个点乘层和第三个叠加层以及第四个上采样块组成的预测生成部分。
对于二型残差网络,我们采用了目前流行的Res2Net的结构并使用了原网络的预训练参数。不同的是我们删除了该网络的第一个最大池化层,并将和这一层并列的卷积层的步长改为1,padding改为same,这样可以防止过高的下采样。此外,由于任务类型的差异我们还删除了最后所有的全连接层和平均池化层。其余的部分均根据作者的原有网络进行设置。
我们将二型残差网络(Res2Net)分成了4个部分,以下采样作为每个部分的分界点将网络分成二型残差网络第一层、第二层、第三层和第四层。其中第一次下采样操作之前的所有层为二型残差第一层,特征图缩小为原图的一半,并将这些缩小后的特征作为输出,传递给第四个卷积块。第一次下采样操作到第二次下采样操作之间的所有层为二型残差第二层,特征图缩小为原图的四分之一,并将这些缩小后的特征作为输出,传递给第三个卷积块。第二次下采样操作到第三次下采样操作之间的所有层为二型残差第三层,特征图缩小为原图的八分之一,并将这些缩小后的特征作为输出,传递给第二个卷积块。第三次下采样操作到第四次下采样操作之间的所有层为二型残差第四层,特征图缩小为原图的十六分之一,并将这些缩小后的特征作为输出,传递给第一个卷积块。由此我们可以得到二型残差网络的四个输出。
在每一次下采样之后的结果都作为一个特征输出给对应的卷积块,这使得我们的二型残差网络可以输出四个大小、通道都不同的低级、中级和高级特征,二型残差第一层输出高级特征,二型残差第二层和二型残差第三层输出中级特征,二型残差第四层输出低级特征。
a)首先网络要进行RGB图的特征提取,彩色图特征提取模块包含的神经网络块如下:
对于第一个卷积块,是用于削减从二型残差第四层输出特征的通道数量,其由卷积层、局部归一化层、激活层组成;输入端接收的是二型残差网络第四层输出的2048张16×16的特征图,我们设置该卷积层的卷积核大小为3×3、卷积核个数为256,卷积层的padding参数为1,激活函数为“Relu”,我们记该卷积层输出的结果为RES4
对于第二个卷积块,是用于削减从二型残差网络第三层输出特征的通道数量,其由卷积层、局部归一化层、激活层组成;输入端接收的是二型残差网络第三层输出的1024张32×32的特征图,我们设置该卷积层的卷积核大小为3×3、卷积核个数为128,卷积层的padding参数为1,激活函数为“Relu”,我们记该卷积层输出的结果为RES3
对于第三个卷积块,是用于削减从二型残差网络第二层输出特征的通道数量,其由卷积层、局部归一化层、激活层组成;输入端接收的是二型残差网络第二层输出的64张64×64的特征图,我们设置该卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的padding参数为1,激活函数为“Relu”,我们记该卷积层输出的结果为RES2
对于第四个卷积块,是用于削减从二型残差网络第一层输出特征的通道数量,其由卷积层、局部归一化层、激活层组成;输入端接收的是二型残差网络第一层输出的32张128×128的特征图,我们设置该卷积层的卷积核大小为3×3、卷积核个数为32,卷积层的padding参数为1,激活函数为“Relu”,我们记该卷积层输出的结果为RES1
b)第二部分是由改进的谷歌神经网络和第五个卷积块组成的深度图特征提取模块,其包含的神经网络块如下:
对于改进的谷歌神经网络,我们只取了该网络原文中叙述的Stem(茎干)部分,以及茎干部分下面连接的5个Inception-resnet-A模块。其余所有参数我们均按照谷歌网络第四版(Inception-v4-resnet2)原文中作者的设置来进行。
对于第五个卷积块,是用于削减从改进的谷歌神经网络输出特征的通道数量,其由卷积层、局部归一化层、激活层组成;输入端接收的是二型残差网络第一层输出的64张64×64的特征图,我们设置该卷积层的卷积核大小为3×3、卷积核个数为64,卷积层的padding参数为1,激活函数为“Relu”,我们记该卷积层输出的结果为Goo1
c)接下来是由第一个上采样块、第一个叠加层C1、第二个上采样块、第二个叠加层C2、第三个上采样块和第一个点和层A1组成的多注意力掩码生成部分。
对于第一个上采样块,其作用是将原有的特征图按一定比例放大。我们采用的是双线性插值的方式来进行上采样。本层输入端接收的是第一个卷积块的输出,放大参数为两倍,之后采用一个128个核,核大小为3×3,padding为1的卷积操作,输出的是128张32×32的特征;
对于第一个叠加层C1,其作用是将特征图按顺序连接在一起,组合成为一个整体。本层输入端接收的是第二个卷积块的输出和第一个上采样层的输出,输出的是256张32×32的特征;
对于第二个上采样块,其作用是将原有的特征图按一定比例放大。我们采用的是双线性插值的方式来进行上采样。本层输入端接收的是第一个叠加层的输出,放大参数为两倍,之后采用一个64个核,核大小为3×3,padding为1的卷积操作,输出的是64张64×64的特征;
对于第二个叠加层C2,其作用是将输入的特征图按顺序连接在一起,组合成为一个整体。本层输入端接收的是第三个卷积块的输出和第二个上采样层的输出,输出的是128张64×64的特征;
对于第三个上采样块,其作用是将原有的特征图按一定比例放大。我们采用的是双线性插值的方式来进行上采样。本层输入端接收的是第二个叠加层的输出,放大参数为两倍,之后采用一个32个核,核大小为3×3,padding为1的卷积操作,输出的是32张128×128的特征;
对于第一个点和层A1,其作用是将对应的特征图中对应的像素值一一相加。这里我们有32张彩色的掩码图和32张深度掩码图,则最后会得到32张两者一一对应像素相加的多注意力掩码图。本层输入端接收的是第五个卷积块和第三个上采样块的结果。之后采用一个1个核,核大小为3×3,padding为1的卷积操作,输出的是1张128×128的特征;
d)最后一部分是由第一个点乘层和第三个叠加层以及第四个上采样块组成的预测生成部分。
对于第一个点乘层M1,其作用是将对应的特征图中对应的像素值一一的相乘。本层输入端接收的是第四个卷积块和第一个点和层的结果。这里我们有32张多注意力掩码图和32张彩色图,则最后会得到32张两者一一对应像素相加的特征图,其大小为128×128;
对于第三个叠加层C3,其作用是将特征图按顺序连接在一起,组合成为一个整体。本层输入端接收的是第一个点乘层M1的输出和第四个卷积块的输出,输出的是64张64×64的特征;
对于第四个上采样块,其所用是生成最终的预测结果图,其由卷积层、局部归一化层、激活层组成;输入端接收的是第三个叠加层C3输出的特征图,我们设置该卷积层的卷积核大小为3×3、卷积核个数为1,卷积层的padding参数为1,激活函数为“Relu”;在完成卷积之后,再将这个结果进行一次上采样来得到最终的预测结果。
步骤1_3:将训练集中的所有标签图记为
Figure BDA0002550333660000071
以用于训练边界感知网络部分的参数。同时将训练集中的所有彩色图和视差图一一对应作为输入图像输入到多尺度卷积神经网络中进行训练。此时会得到显著性预测图
Figure BDA0002550333660000072
其中k表示第k个训练样本。标签图为人工标注的物体分割图。
步骤1_4:计算训练集中每一对彩色图和视差图通过神经网络模型所得到的显著性预测图和真实的人工标注的物体分割图的Loss值,将
Figure BDA0002550333660000073
Figure BDA0002550333660000074
进行损失函数的计算得到Loss值。
所述的步骤1_4中,
Figure BDA0002550333660000075
采用二值交叉熵获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次。由此得到神经网络模型。同时得到K×V个损失函数值;然后使用这些损失函数值进行反向传播,梯度更新。从而调整出最优的模型参数Wop
所述的测试阶段过程的具体步骤为:
步骤2_1:记{X(i,j)}表示待进行显著分割的图像;其中,1≤i≤W,1≤j≤H,W表示{X(i,j)}的宽度,H表示{X(i,j)}的高度,X(i,j)表示{X(i,j)}中坐标位置为(i,j)的像素点的像素值;
步骤2_2:将{X(i,j)}的R通道分量、G通道分量和B通道分量输入到训练好的模型的二型残差第一层中,并将其对应的视差图输入到改进的谷歌神经网络块中,并利用预先训练好的Wop进行预测,得到{X(i,j)}对应的显著性预测图,记为{XPre(i,j)};其中XPre(i,j),表示{XPre(i,j)}中坐标位置为(i,j)的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习库torch1.2.0搭建多注意力导向神经网络架构。采用显著分割数据库NJU2000测试集来分析利用本发明方法预测得到的显著性图像(取397幅道路场景图像)的分割效果如何。利用评估语义分割方法的3个常用客观参量作为评价指标,即PR曲线和ROC曲线以及AUC、meanF、maxF、MAE来评价模型的分割性能。
利用本发明方法对显著分割图像数据库NJU2000测试集中的每个像素是物体的可能性进行预测,从而得到每幅图像对应的显著性物体分割图像。然后利用上述四个评价指标进行测试。得到从图5、图6以及AUC等评价指标的结果。可以看到,按本发明方法得到的分割结果是较好的,表明利用本发明方法来预测显著性并分割物体是可行且有效的。
AUC=0.964,MeanF=0.837,MaxF=0.863,MAE=0.067
对比图2c、2d;图3c、3d;图4c、4d,可以看出利用本发明方法得到的显著性物体分割图像的分割精度较高。

Claims (7)

1.一种多注意力导向神经网络的立体显著性物体检测技术,其特征在于,包括以下步骤:
步骤1)选取K幅原始RGB图像以及原始RGB图像对应的视差图和真实分割图,并构成训练集;
步骤2)构建多注意力导向神经网络;
步骤3)将训练集中的每幅原始RGB图以及对应的视差图输入到多注意力导向神经网络中进行训练,从输出层输出得到显著性预测分割图,计算显著性预测分割图和对应的真实分割图之间的损失函数值,损失函数值采用二值交叉熵获得;
步骤4)重复执行步骤3)共V次,共得到K×V个损失函数值,然后从K×V个损失函数值中找出值最小的损失函数值作为模型参数,从而完成多注意力导向神经网络的训练;
步骤5)将待显著分割的RGB图像以及对应的视差图输入训练好的多注意力导向神经网络中,输出获得对应的预测分割图像,完成立体显著性物体检测。
2.根据权利要求1所述的一种多注意力导向神经网络的立体显著性物体检测技术,其特征在于,所述步骤2)中,多注意力导向神经网络包括输入层、隐层和输出层,输入层包括RGB图输入层和视差图输入层,隐层包括视差图特征提取模块、RGB图特征提取模块、多注意力掩码生成模块和预测模块;
RGB图特征提取模块包括二型残差网络模块和四个卷积块;二型残差网络模块主要由依次连接的二型残差第一层、二型残差第二层、二型残差第三层、二型残差第四层组成,二型残差第一层、二型残差第二层、二型残差第三层、二型残差第四层的输出分别输入第四个卷积块、第三个卷积块、第二个卷积块、第一个卷积块,二型残差第一层接收RGB图输入层的输出;
视差图特征提取模块包括改进的谷歌神经网络和第五个卷积块,视差图输入层的输出经改进的谷歌神经网络输入第五个卷积块;
多注意力掩码生成模块包括三个采样块、两个叠加层和一个点和层,第一个上采样块接收第一个卷积块的输出,第一个叠加层接收第一个上采样块的输出和第二个卷积块的输出,第二个上采样块接收第一个叠加层的输入,第二个叠加层接收第二个上采样块的输出和第三个卷积块的输出,第三个上采样块接收第二个叠加层的输出;第一个点和层接收第五个卷积块和第三个上采样块的输入;
预测模块包括第一个点乘层、第三个叠加层和第四个上采样块,第一个点乘层接收第四个卷积块和第一个点和层的输入,第三个叠加层接收第四个卷积块和第一个点乘层的输入,第四个上采样块接收第三个叠加层的输入;
第四个上采样块经输出层输出。
3.根据权利要求2所述的一种多注意力导向神经网络的立体显著性物体检测技术,其特征在于,所述二型残差网络模块采用修改后的Res2Net模型,修改后的Res2Net模型删除了原Res2Net模型中第一个最大池化层且删除了最后所有的全连接层和平均池化层;
以下采样作为分界点将修改后的Res2Net模型分成二型残差第一层、二型残差第二层、二型残差第三层和二型残差第四层;修改后的Res2Net模型中:第一次下采样操作之前的所有层作为二型残差第一层,第一次下采样操作到第二次下采样操作之间的所有层作为二型残差网络第二层,第二次下采样操作到第三次下采样操作之间的所有层作为二型残差网络第三层,第三次下采样操作到第四次下采样操作之间的所有层作为二型残差网络第四层。
4.根据权利要求2所述的一种多注意力导向神经网络的立体显著性物体检测技术,其特征在于,改进的谷歌神经网络仅保留了原谷歌神经网络中茎干Stem部分以及茎干部分下面连接的五个Inception-resnet-A模块。
5.根据权利要求2所述的一种多注意力导向神经网络的立体显著性物体检测技术,其特征在于,五个卷积块均由卷积层、局部归一化层、激活层组成;四个上采样块均采用双线性插值的方式进行上采样。
6.根据权利要求2所述的一种多注意力导向神经网络的立体显著性物体检测技术,其特征在于,第一个、第二个和第三个叠加层用于将输入的特征图以叠加的方式进行融合;第五个卷积块输出的为深度掩码图,第三个上采样块输出的为彩色掩码图,第一个点和层用于将彩色掩码图中的像素值和对应的深度掩码图中的像素值相加得到多注意力掩码图;第四个卷积块输出的为彩色特征图,第一个点和层输出多注意力掩码图,第一个点乘层用于将彩色特征图的像素值和对应的多注意力掩码图的像素值相乘后得到的特征图输入第三个叠加层。
7.根据权利要求2所述的一种多注意力导向神经网络的立体显著性物体检测技术,其特征在于,所述RGB图输入层的输入端接收RGB图,视差图输入层的输入端接收RGB图对应的视差图;输出层输出显著性预测分割图。
CN202010573881.1A 2020-06-22 2020-06-22 多注意力导向神经网络的立体显著性物体检测技术 Pending CN111783862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010573881.1A CN111783862A (zh) 2020-06-22 2020-06-22 多注意力导向神经网络的立体显著性物体检测技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010573881.1A CN111783862A (zh) 2020-06-22 2020-06-22 多注意力导向神经网络的立体显著性物体检测技术

Publications (1)

Publication Number Publication Date
CN111783862A true CN111783862A (zh) 2020-10-16

Family

ID=72756110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010573881.1A Pending CN111783862A (zh) 2020-06-22 2020-06-22 多注意力导向神经网络的立体显著性物体检测技术

Country Status (1)

Country Link
CN (1) CN111783862A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496228A (zh) * 2021-07-30 2021-10-12 大连海事大学 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN115661482A (zh) * 2022-11-11 2023-01-31 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法
CN116467946A (zh) * 2023-04-21 2023-07-21 南京信息工程大学 一种基于深度学习的模式预报产品降尺度方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496228A (zh) * 2021-07-30 2021-10-12 大连海事大学 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN113496228B (zh) * 2021-07-30 2024-03-26 大连海事大学 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN115661482A (zh) * 2022-11-11 2023-01-31 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法
CN115661482B (zh) * 2022-11-11 2023-07-14 东北石油大学三亚海洋油气研究院 一种基于联合注意力的rgb-t显著目标检测方法
CN116467946A (zh) * 2023-04-21 2023-07-21 南京信息工程大学 一种基于深度学习的模式预报产品降尺度方法
CN116467946B (zh) * 2023-04-21 2023-10-27 南京信息工程大学 一种基于深度学习的模式预报产品降尺度方法

Similar Documents

Publication Publication Date Title
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN109410261B (zh) 基于金字塔池化模块的单目图像深度估计方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN110175986B (zh) 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN111783862A (zh) 多注意力导向神经网络的立体显著性物体检测技术
CN110992270A (zh) 基于注意力的多尺度残差注意网络图像超分辨率重建方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111340814A (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN111046917B (zh) 基于深度神经网络的对象性增强目标检测方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN110570402B (zh) 基于边界感知神经网络的双目显著物体检测方法
CN112861729A (zh) 一种基于伪深度图引导的实时深度补全方法
CN109447897B (zh) 一种真实场景图像合成方法及***
CN110909615B (zh) 基于多尺度输入混合感知神经网络的目标检测方法
CN111242181B (zh) 基于图像语义和细节的rgb-d显著性物体检测器
CN111062432B (zh) 一种语义上多模态图像生成的方法
CN114926734B (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN116542991A (zh) 一种用于裂缝图像分割的网络架构及其训练方法和分割方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
WO2022213395A1 (zh) 轻量化的目标检测方法、设备、存储介质
CN111539434B (zh) 基于相似度的红外弱小目标检测方法
CN117576402A (zh) 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法
CN115984949B (zh) 一种带有注意力机制的低质量人脸图像识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination