CN110782458B - 一种非对称编码网络的物体图像3d语义预测分割方法 - Google Patents
一种非对称编码网络的物体图像3d语义预测分割方法 Download PDFInfo
- Publication number
- CN110782458B CN110782458B CN201911012594.7A CN201911012594A CN110782458B CN 110782458 B CN110782458 B CN 110782458B CN 201911012594 A CN201911012594 A CN 201911012594A CN 110782458 B CN110782458 B CN 110782458B
- Authority
- CN
- China
- Prior art keywords
- layer
- input
- network
- output
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 230000004927 fusion Effects 0.000 claims description 78
- 238000000605 extraction Methods 0.000 claims description 52
- 238000010606 normalization Methods 0.000 claims description 37
- 238000011176 pooling Methods 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 25
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 13
- 238000000638 solvent extraction Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种非对称编码网络的物体图像3D语义预测分割方法。选取RGB图像、深度图和对应的语义标签构成构成训练集,构建非对称编码网络的卷积神经网络,包括两个输入层、隐层和三个输出层,将训练集输入到卷积神经网络中进行训练,得到训练集中的每幅RGB图像对应的预测分割图像,计算训练集中的每幅RGB图像对应的预测分割图像与对应的真实深度图像之间的损失函数值,不断训练取值最小的损失函数值对应的权值矢量和偏置项;待预测的RGB图像和深度图像输入到训练好的深度可分卷积神经网络训练模型中,得到预测分割图像。本发明构建了非对称编码网络的网络结构,实现了物体图像3D语义预测分割,且分割结果精度高。
Description
技术领域
本发明涉及一种语义分割技术,尤其是涉及一种非对称编码网络的物体图像3D语义预测分割方法。
背景技术
经济的腾飞促使了技术的蓬勃发展,人工智能响应着时代的需求应运而生,并不断改善着人们的生活质量。人工智能的各项技术也得到了越来越多人们的关注,计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视,3D语义分割技术是基本的计算机视觉任务之一,它在视觉场景理解中显得越发的重要。
室内3D语义分割的目的是预测输入图像中每个像素的类别标签。它是计算机视觉的一个基本任务,可以作为许多实际应用的一部分,如自动驾驶、视频监控和虚拟现实。
深度学习和端到端训练框架被提出来之前,语义分割主要依靠传统方法提取的手工特征来生成最终分割结果。但是手工特征的精度很低使得该项技术没有得实质的进展,从而导致传统方法在语义分割的领域一直没有取得令人满意的结果。深度学习和端到端训练框架被提出后,立即在计算机视觉任务中的应用取得了巨大的成功。对于语义分割而言,深度学习给予了很大的帮助,其庞大数据量的训练方式和自主学习能力使得语义分割的分割结果精度不断地得到提升,从而实现其在实际需求中的应用与推广。
发明内容
为了解决背景技术中存在的问题,本发明提出了一种非对称编码网络的物体图像3D语义预测分割方法。
本发明所采用的技术方案是:
步骤1_1:选取I幅原始的RGB图像及其对应的深度图,结合各幅原始的RGB图像对应的语义标签一起构成构成训练集,将训练集中的第i幅原始的RGB图像记为{Li RGB(p,q)},将训练集中与{Li RGB(p,q)}对应的深度图像记为RGB图像对应的语义标签记为其中,I为正整数,I≥700,如取I=795,i为正整数,1≤i≤I,1≤p≤W,1≤q≤H,W表示{Li RGB(p,q)}、和的宽度,H表示{Li RGB(p,q)}、和的高度,W和H均能被2整除,Li RGB(p,q)表示{Li RGB(p,q)}中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值;
所述的语义标签为图中物体的检测框和物体类别的标签。所述的物体通常为图像中不同类别的物体,例如可以为室内图像中的床、椅子、桌子等物体,但不限于此。
本发明的3D语义是指引入深度图后的语义分割。
步骤1_2:构建卷积神经网络:
卷积神经网络包括两个输入层、隐层和三个输出层,两个输入层连接到隐层的输入端,隐层的输出端连接三个输出层;
步骤1_3:将训练集中每幅RGB图像及其对应的深度图像,分别作为两个输入层的原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅RGB图像对应的预测分割图像,将RGB图像{Li RGB(p,q)}对应的预测分割图像记为其中,表示中坐标位置为(p,q)的像素点的像素值;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为最优权值矢量和最优偏置项并替换训练好的深度可分卷积神经网络训练模型中的权值矢量和偏置项,对应记为最优权值矢量Wbest和最优偏置项bbest;其中V>1,在本实施例中取V=2000;
步骤1_6:针对待预测的RGB图像{LRGB(p',q')}及其对应的深度图像{Ldepth(p',q')},其中,1≤p'≤W',1≤q'≤H',W'表示{LRGB(p',q')}和{Ldepth(p',q')}的宽度,H'表示{LRGB(p',q')}和{Ldepth(p',q')}的高度,LRGB(p',q')和Ldepth(p',q')分别表示{LRGB(p',q')}和{Ldepth(p',q')}中坐标位置为(p',q')的像素点的像素值,将待预测的RGB图像{LRGB(p',q')}及其对应的深度图像{Ldepth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中,并利用最优权值矢量Wbest和最优偏置项bbest进行预测,得到待预测的RGB图像{LRGB(p',q')}对应的预测分割图像{Lpredction(p',q')},其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值,从而实现语义预测分割。
所述的隐层包括8个卷积层、1个带孔(膨胀)卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、去除其中第5个最大池化层及其后面网络结构的VGG16网络和去除最后的平均池化层和全连接层后的ResNet34网络;即VGG16网络中第5个最大池化层及其后面网络删去,不采用;ResNet34网络位于网络最后的平均池化层和全连接层删去,不采用。具体实施的带孔(膨胀)卷积层的膨胀比为2。
VGG16网络内部包括依次连接的第零VGG16特征提取块layerd0、第一VGG16特征提取块layerd1、第二VGG16特征提取块layerd2、第三VGG16特征提取块layerd3、第四VGG16特征提取块layerd4;
ResNet34网络内部包括依次连接的卷积层、规范化层、激活层、最大池化层、第一ResNet34特征提取块layer1、第1个第二ResNet34特征提取块layer2、第1个第三ResNet34特征提取块layer3和第1个第四ResNet34特征提取块layer4。
深度图像和RGB图像{Li RGB(p,q)}分别作为两个输入层分别输入到VGG16网络和ResNet34网络,深度图像输入到VGG16网络的第零VGG16特征提取块layerd0,RGB图像{Li RGB(p,q)}输入到ResNet34网络的卷积层;VGG16网络的第一VGG16特征提取块layerd1和ResNet34网络的第一ResNet34特征提取块layer1的输出共同输入到第1个串联融合层,从第1个串联融合层的输出依次经过第1个卷积层、第1个规范化层、第1个激活层和第2个第二ResNet34特征提取块layer2后连接输入到第2个串联融合层。
VGG16网络的第二VGG16特征提取块layerd2和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出共同输入到第2个串联融合层,从第2个串联融合层的输出依次经过第2个卷积层、第2个规范化层、第2个激活层和第2个第三ResNet34特征提取块layer3后连接输入到第3个串联融合层。
VGG16网络的第三VGG16特征提取块layerd3和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出共同输入到第3个串联融合层,从第3个串联融合层的输出依次经过第3个卷积层、第3个规范化层、第3个激活层和第2个第四ResNet34特征提取块layer4后连接输入到第4个串联融合层;
VGG16网络的第四VGG16特征提取块layerd4和ResNet34网络的第1个第四ResNet34特征提取块layer4的输出共同输入到第4个串联融合层,从第4个串联融合层的输出依次经过第4个卷积层、第4个规范化层、第4个激活层、ASPP网络块和第1个双线性上采样层后连接输入到第1个元素求和融合层。
第2个第二ResNet34特征提取块layer2和ResNet34网络的第二ResNet34特征提取块layer2结构相同,即各个第二ResNet34特征提取块layer2结构相同;同理,各个第三ResNet34特征提取块layer3结构相同,各个第四ResNet34特征提取块layer4结构相同。
VGG16网络的第三VGG16特征提取块layerd3的输出经第1个自注意网络块后和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出一起共同输入到第1个元素求和融合层,从第1个元素求和融合层的输出依次经过第2个双线性上采样层、第5个卷积层、第5个规范化层、第5个激活层后连接输入到第2个元素求和融合层,同时第1个元素求和融合层的输出经第5个卷积层连接到第1个输出层。
VGG16网络的第二VGG16特征提取块layerd2的输出经第2个自注意网络块后和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出一起共同输入到第2个元素求和融合层,从第2个元素求和融合层的输出依次经过第3个双线性上采样层、第1个带孔(膨胀)卷积层、第6个规范化层、第6个激活层、第8个卷积层后连接输入到第3个输出层,同时第2个元素求和融合层的输出经第7个卷积层连接到第2个输出层。
第1个输出层、第2个输出层、第3个输出层分别输出尺寸为RGB图像十六分之一的预测分割图像、尺寸为RGB图像八分之一的预测分割图像和尺寸与RGB图像相同的预测分割图像。
所述的ASPP网络块由3个卷积层、3个带孔(膨胀)卷积层、1个自适应平均池化层、1个双线性上采样层、1个融合层组成;自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接后和3个带孔(膨胀)卷积层并联,并联后的各个输出端连接到融合层,融合层输出连接到第3个卷积层;第4个激活层的输出作为ASPP网络块的输入分别输入到3个带孔(膨胀)卷积层和由自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接构成的局部网络结构中,3个带孔(膨胀)卷积层和由自适应平均池化层、卷积层、双线性上采样层依次连接构成的局部网络结构的输出端均连接到融合层,融合层经第3个卷积层输出作为ASPP网络块的输出,输出到第1个双线性上采样层;
带孔(膨胀)卷积层具体为设置了膨胀比的常规卷积层,是通过设置膨胀比来扩大卷积层感受野的操作,自适应平均池化层是通过全局池化来获得一个权重值的操作,双线性上采样层是使用双线性插值的方法来成倍扩大特征图尺寸。
所述的自注意网络块主要包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层和1个激活层;之前网络结构的输出作为自注意网络块的输入,输入到自适应平均池化层和逐元素求积融合层,自适应平均池化层的输出经Sigmoid层后也输入到逐元素求积融合层,逐元素求积融合层输出依次经卷积层、规范化层、激活层后输出作为自注意网络块的输出。
逐元素求积融合层是每个对应元素求积的处理操作。
将两个或三个连续的卷积层加一个最大池化层的结构作为一个网络块,并作为VGG16网络中的一个VGG16特征提取块,如图1中从layerd0到layerd4的五个网络块。并且VGG16网络中,使用一个卷积核大小为1×1、输入通道为1、输出通道为64的卷积层代替原始VGG16中的第一个卷积层,即替换掉第零VGG16特征提取块layerd0中的第一个卷积层。
对于2个输入层,第1个输入层是RGB图像输入层,其输入端接收一幅原始RGB输入图像;第2个输入层是深度图像输入层,其输入端接收一幅原始RGB图像对应的深度图像,2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层。
本发明在训练阶段,本发明搭建的基于RGB图和深度图的双输入卷积神经网络模型的RGB图像输入流使用ResNet34网络对RGB图像进行特征提取获得语义信息,同时深度图像输入流使用VGG16网络对深度图进行特征提取作为RGB图像输入流的辅助信息,使用交叉模态精馏流来集成和细化ResNet34网络中的语义信息和VGG16网络中的辅助信息,以提取更准确的特征信息。最后将三流输出特征信息融合在一起,并利用卷积层和ASPP网络块对融合特征进行优化。利用三个双向上采样层将优化后的特征图的空间分辨率恢复到原始RGB图像的大小。第二个和第三个双线性上采样层在前面都有一个元素求和融合层,以便分别将来自前一层的特征与来自Resnet 34网络中layer2和layer3的输出特征,以及来自VGG16网络中layerd2和layerd3的输出特征相融合。
VGG16网络较浅,VGG16网络的中间特征中可能存在更多的错误信息,如果特征被直接融合,整个神经网络的结果精度反而会降低。本发明使用了一个简单的自注意模块滤除VGG16网络中间特征中的误差信息,然后使用自注意模块的输出特征进行融合以起到积极的辅助作用。接着通过计算训练集中的RGB图像对应的预测分割图像与对应的语义标签图像之间的损失函数值,得到基于RGB图和深度图的双输入卷积神经网络训练模型及最优权值矢量;再将待测试的RGB图像及其对应的深度图像输入到卷积神经网络训练模型中,并利用最优权值矢量,预测得到对应的预测分割图像。
本发明提出的方法具体实施在NYU Depth V2数据集上实现了最先进的语义分割结果。
与现有技术相比,本发明的优点在于:
本发明提出了一种非对称输入流和跨模态精馏流的图像语义分割方法,本发明采用多监督方法进行网络训练,是利用简单高效的自注意模块来优化特征信息,实现了含有实体物体的图像中的物体预测和分割,对物体图像的分割结果精度高。
附图说明
图1为本发明方法的总体实现框图。
图2为自注意网络块的结构框图。
图3为ASPP网络块的结果框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的语义分割方法,其总体实现框图如图1所示,其包括以下步骤:
步骤1_1:选取I幅原始的RGB图像及其对应的深度图,结合每幅原始的RGB图像对应的语义标签一起构成构成训练集,将训练集中的第i幅原始的RGB图像记为{Li RGB(p,q)},将训练集中与{Li RGB(p,q)}对应的深度图像记为对应的语义标签记为其中,I为正整数,I≥700,如取I=795,i为正整数,1≤i≤I,1≤p≤W,1≤q≤H,W表示{Li RGB(p,q)}、和的宽度,H表示{Li RGB(p,q)}、和的高度,W和H均能被2整除,Li RGB(p,q)表示{Li RGB(p,q)}中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值,表示中坐标位置为(p,q)的像素点的像素值。
步骤1_2:构建卷积神经网络:卷积神经网络包括2个输入层、隐层和3个输出层;隐层包括8个卷积层、1个带孔(膨胀)卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、排除第5个最大池化层后面结构的VGG16网络、不使用最后的平均池化层和全连接层的ResNet34网络。带孔(膨胀)卷积层的膨胀比为2。ASPP网络块由3个卷积层、3个带孔(膨胀)卷积层、1个自适应平均池化层、1个双线性上采样层、1个串联融合层组成。自注意网络块主要包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层、1个激活层。将VGG16中两个或三个连续卷积层加一个最大池化层的结构作为一个网络块,如图1中从layerd0到layerd4的五个网络块,并且使用一个卷积核大小为1×1,输入通道为1,输出通道为64的卷积层代替原始VGG16中的第一个卷积层,即替换掉layerd0中的第一个卷积层。
对于2个输入层,第1个输入层是RGB图像输入层,其输入端接收一幅原始RGB输入图像;第2个输入层是深度图像输入层,其输入端接收一幅原始RGB图像对应的深度图像,2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层;其中,要求2个输入层的输入端接收的原始图像及其深度图像的宽度为W、高度为H。
对于隐层,除了第5个卷积层和第1个带孔卷积层的卷积核大小为3×3外,其他所有卷积层的卷积核大小都为1×1,并且所有的卷积步长都为1,注意,此处提及的卷积层不包含网络块、ResNet34网络和VGG16网络中的卷积层。第1个卷积层的输入通道为192,输出通道为64;第2个卷积层的输入通道为512,输出通道为128;第3个卷积层的输入通道为1024,输出通道为256;第4个卷积层的输入通道为1536,输出通道为512;第5个卷积层的输入通道为256,输出通道为128;第6个卷积层的输入通道为256,输出通道为40;第7个卷积层的输入通道为128,输出通道为40;第8个卷积层的输入通道为64,输出通道为40;第1个带孔卷积层的输入通道为128,输出通道为64。6个规范化层的参数均采用默认值。6个激活层的激活函数均采用ReLu。2个自注意网络块的卷积层的卷积核大小均为1×1,卷积步长都为1,规范化层的参数均采用默认值,激活层的激活函数均采用ReLu,第1个自注意网络块中卷积层的输入通道为512,输出通道为256,第2个自注意网络块中卷积层的输入通道为256,输出通道为128,自注意网络块的内部结构如图2所示。ASPP网络块中3个卷积层的卷积核大小均为1×1,卷积步长都为1;3个带孔卷积层的卷积核大小均为3×3,卷积步长都为1,膨胀比分别为6,12,18。除了第3个卷积层的输入通道为2569,输出通道为256外,其余2个卷积层和3个带孔卷积层的输入通道均为512,输出通道均为256。3个双线性上采样层的上采样因子分别为:2,2,8,ASPP网络块的内部结构如图3所示。对于ResNet34网络和VGG16网络,除了替换掉VGG16中第1个卷积层外其他结构和参数未做任何改变。
对于隐层,ResNet34网络的输入端接收RGB图像输入层的输出端输出的输入RGB图像,ResNet34网络中卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为G0,其中,G0中的每幅特征图的宽度为高度为ResNet34网络中规范化层的输入端接收G0中的所有特征图,规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P0,其中,P0中的每幅特征图的宽度为高度为ResNet34网络中激活层的输入端接收P0中的所有特征图,激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A0,其中,A0中的每幅特征图的宽度为高度为ResNet34网络中最大池化层的输入端接收A0中的所有特征图,最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为M0,其中,M0中的每幅特征图的宽度为高度为ResNet34网络中layer1的输入端接收M0中的所有特征图,layer1的输出端输出64幅特征图,将输出的所有特征图构成的集合记为G1,其中,G1中的每幅特征图的宽度为高度为ResNet34网络中第1个layer2的输入端接收G1中的所有特征图,第1个layer2的输出端输出128幅特征图,将输出的所有特征图构成的集合记为G2,其中,G2中的每幅特征图的宽度为高度为ResNet34网络中第1个layer3的输入端接收G2中的所有特征图,第1个layer3的输出端输出256幅特征图,将输出的所有特征图构成的集合记为G3,其中,G3中的每幅特征图的宽度为高度为ResNet34网络中第1个layer4的输入端接收G3中的所有特征图,第1个layer4的输出端输出512幅特征图,将输出的所有特征图构成的集合记为G4,其中,G4中的每幅特征图的宽度为高度为VGG16网络的输入端接收深度图像输入层的输出端输出的输入深度图像,VGG16网络中layerd0的输出端输出64幅特征图,将输出的所有特征图构成的集合记为D0,其中,D0中的每幅特征图的宽度为高度为VGG16网络中layerd1的输入端接收D0中的所有特征图,layerd1的输出端输出128幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为高度为VGG16网络中layerd2的输入端接收D1中的所有特征图,layerd1的输出端输出256幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为高度为VGG16网络中layerd3的输入端接收D2中的所有特征图,layerd1的输出端输出512幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为高度为VGG16网络中layerd4的输入端接收D3中的所有特征图,layerd1的输出端输出512幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为高度为第1个串联融合层的输入端接收G1中的所有特征图和D1中的所有特征图,串联融合层的输出端输出192幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第1个卷积层的输入端接收C1中的所有特征图,第1个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1,其中,Y1中的每幅特征图的宽度为高度为第1个规范化层的输入端接收Y1中的所有特征图,规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为高度为第1个激活层的输入端接收P1中的所有特征图,激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为高度为ResNet34网络中第2个layer2的输入端接收A1中的所有特征图,第2个layer2的输出端输出128幅特征图,将输出的所有特征图构成的集合记为G′2,其中,G'2中的每幅特征图的宽度为高度为第2个串联融合层的输入端接收G2中的所有特征图、G'2中的所有特征图和D2中的所有特征图,串联融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为高度为第2个卷积层的输入端接收C2中的所有特征图,第2个卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Y2,其中,Y2中的每幅特征图的宽度为高度为第2个规范化层的输入端接收Y2中的所有特征图,规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为高度为第2个激活层的输入端接收P2中的所有特征图,激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为高度为ResNet34网络中第2个layer3的输入端接收A2中的所有特征图,第2个layer3的输出端输出256幅特征图,将输出的所有特征图构成的集合记为G'3,其中,G3'中的每幅特征图的宽度为高度为第3个串联融合层的输入端接收G3中的所有特征图、G'3中的所有特征图和D3中的所有特征图,串联融合层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为高度为第3个卷积层的输入端接收C3中的所有特征图,第3个卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为Y3,其中,Y3中的每幅特征图的宽度为高度为第3个规范化层的输入端接收Y3中的所有特征图,规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为高度为第3个激活层的输入端接收P3中的所有特征图,激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为高度为ResNet34网络中第2个layer4的输入端接收A3中的所有特征图,第2个layer4的输出端输出512幅特征图,将输出的所有特征图构成的集合记为G'4,其中,G'4中的每幅特征图的宽度为高度为第4个串联融合层的输入端接收G'4中的所有特征图、G4中的所有特征图和D4中的所有特征图,串联融合层的输出端输出1536幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为高度为第4个卷积层的输入端接收C4中的所有特征图,第4个卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y4,其中,Y4中的每幅特征图的宽度为高度为第4个规范化层的输入端接收Y4中的所有特征图,规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为高度为第4个激活层的输入端接收P4中的所有特征图,激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为A4,其中,A4中的每幅特征图的宽度为高度为ASPP的输入端接收A4中的所有特征图,ASPP的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S,其中,S中的每幅特征图的宽度为高度为第1个双线性上采样层的输入端接收S中的所有特征图,第1个双线性上采样层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为U1,其中,U1中的每幅特征图的宽度为高度为第1个自注意网络块的输入端接收D3中的所有特征图,第1个自注意网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为D′3,其中,D′3中的每幅特征图的宽度为高度为第1个元素求和融合层的输入端接收G3中的所有特征图、D′3中的所有特征图和U1中的所有特征图,第1个元素求和融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为高度为第2个双线性上采样层的输入端接收T1中的所有特征图,第2个双线性上采样层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为U2,其中,U2中的每幅特征图的宽度为高度为第5个卷积层的输入端接收U2中的所有特征图,第5个卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Y5,其中,Y5中的每幅特征图的宽度为高度为第5个规范化层的输入端接收Y5中的所有特征图,规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为高度为第5个激活层的输入端接收P5中的所有特征图,激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A5,其中,A5中的每幅特征图的宽度为高度为第2个自注意网络块的输入端接收D2中的所有特征图,第2个自注意网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为D'2,其中,D'2中的每幅特征图的宽度为高度为第2个元素求和融合层的输入端接收G2中的所有特征图、D'2中的所有特征图和A5中的所有特征图,第2个元素求和融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为高度为第3个双线性上采样层的输入端接收T2中的所有特征图,第3个双线性上采样层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为U3,其中,U3中的每幅特征图的宽度为W、高度为H;第1个带孔卷积层的输入端接收U3中的所有特征图,第1个带孔卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y6,其中,Y6中的每幅特征图的宽度为W、高度为H;第6个规范化层的输入端接收Y6中的所有特征图,规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为W、高度为H;第6个激活层的输入端接收P6中的所有特征图,激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A6,其中,A6中的每幅特征图的宽度为W、高度为H。
对于3个输出层,第6个卷积层的输入端接收T1中的所有特征图,第6个卷积层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为Y6,其中,Y6中的每幅特征图的宽度为高度为第1个输出层的输入端接收Y6中的特征图,输出层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为O1,其中,O1中的每幅特征图的宽度为高度为第7个卷积层的输入端接收T2中的所有特征图,第7个卷积层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为Y7,其中,Y7中的每幅特征图的宽度为高度为第2个输出层的输入端接收Y7中的特征图,输出层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为O2,其中,O2中的每幅特征图的宽度为高度为第8个卷积层的输入端接收A6中的所有特征图,第8个卷积层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为Y8,其中,Y8中的每幅特征图的宽度为W、高度为H;第3个输出层的输入端接收Y8中的特征图,输出层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为O3,其中,O3中的每幅特征图的宽度为W、高度为H。
步骤1_3:将训练集中每幅RGB图像及其对应的深度图像作为两个原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅RGB图像对应的预测分割图像,将{Li RGB(p,q)}对应的预测分割图像记为其中,表示中坐标位置为(p,q)的像素点的像素值。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=2000。
实施例的测试阶段过程的具体步骤为:
步骤2_1:令{LRGB(p',q')}和{Ldepth(p',q')}表示待预测的RGB图像及其对应的深度图像;其中,1≤p'≤W',1≤q'≤H',W'表示{LRGB(p',q')}和{Ldepth(p',q')}的宽度,H'表示{LRGB(p',q')}和{Ldepth(p',q')}的高度,LRGB(p',q')和Ldepth(p',q')分别表示{LRGB(p',q')}和{Ldepth(p',q')}中坐标位置为(p',q')的像素点的像素值。
步骤2_2:将{LRGB(p',q')}和{Ldepth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{LRGB(p',q')}对应的预测分割图像,记为{Lpredction(p',q')};其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
在此,本发明方法中构成训练集的RGB图像和其对应的深度图像以及用于测试的RGB图像和其对应的深度图像均来自NYU Depth v2数据集。将测试数据集中的每幅RGB图像和其对应的深度图像输入到训练好的卷积神经网络模型中,再载入训练阶段得到的最优权重Wbest,获得对应的预测分割图像。
在此,主要应用像素精度(pixel-acc)、平均精度(mean-acc)和平均交集(mean-iou)这三个关于像素精度和区域相交的性能指标来做评价。这三个指标的数值越高说明预测分割图像的精度越高。反映本发明方法的评价性能优劣指标的结果如表1所列。
表1利用本发明方法得到的预测分割图像与语义标签图像之间的对比评价指标
pixel-acc | mean-acc | mean-IoU |
73.5 | 59.6 | 46.1 |
从表1所列的数据可知,按本发明方法获得的预测分割图像与语义标签图像之间的差别很小,这说明了本发明方法的预测分割结果的精度很高,体现了本发明方法的可行性和有效性。
Claims (5)
1.一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于包括以下步骤:
步骤1_1:选取I幅原始的RGB图像及其对应的深度图,结合各幅原始的RGB图像对应的语义标签一起构成训练集,将训练集中的第i幅原始的RGB图像记为{Li RGB(p,q)},将训练集中与{Li RGB(p,q)}对应的深度图像记为RGB图像对应的语义标签记为
步骤1_2:构建卷积神经网络:卷积神经网络包括两个输入层、隐层和三个输出层,两个输入层连接到隐层的输入端,隐层的输出端连接三个输出层;
步骤1_3:将训练集中每幅RGB图像及其对应的深度图像,分别作为两个输入层的原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅RGB图像对应的预测分割图像,将RGB图像{Li RGB(p,q)}对应的预测分割图像记为其中,表示中坐标位置为(p,q)的像素点的像素值;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到I×V个损失函数值;然后从I×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为最优权值矢量和最优偏置项并替换训练好的深度可分卷积神经网络训练模型中的权值矢量和偏置项,对应记为最优权值矢量Wbest和最优偏置项bbest;
步骤1_6:针对待预测的RGB图像{LRGB(p',q')}及其对应的深度图像{Ldepth(p',q')},将待预测的RGB图像{LRGB(p',q')}及其对应的深度图像{Ldepth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中,并利用最优权值矢量Wbest和最优偏置项bbest进行预测,得到待预测的RGB图像{LRGB(p',q')}对应的预测分割图像{Lpredction(p',q')},从而实现语义预测分割;
所述的隐层包括8个卷积层、1个带孔卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、去除其中第5个最大池化层及其后面网络结构的VGG16网络和去除最后的平均池化层和全连接层后的ResNet34网络;深度图像和RGB图像分别作为两个输入层分别输入到VGG16网络和ResNet34网络,深度图像输入到VGG16网络的第零VGG16特征提取块layerd0,RGB图像{Li RGB(p,q)}输入到ResNet34网络的卷积层,VGG16网络的第一VGG16特征提取块layerd1和ResNet34网络的第一ResNet34特征提取块layer1的输出共同输入到第1个串联融合层,从第1个串联融合层的输出依次经过第1个卷积层、第1个规范化层、第1个激活层和第2个第二ResNet34特征提取块layer2后连接输入到第2个串联融合层;VGG16网络的第二VGG16特征提取块layerd2和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出共同输入到第2个串联融合层,从第2个串联融合层的输出依次经过第2个卷积层、第2个规范化层、第2个激活层和第2个第三ResNet34特征提取块layer3后连接输入到第3个串联融合层;VGG16网络的第三VGG16特征提取块layerd3和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出共同输入到第3个串联融合层,从第3个串联融合层的输出依次经过第3个卷积层、第3个规范化层、第3个激活层和第2个第四ResNet34特征提取块layer4后连接输入到第4个串联融合层;VGG16网络的第四VGG16特征提取块layerd4和ResNet34网络的第1个第四ResNet34特征提取块layer4的输出共同输入到第4个串联融合层,从第4个串联融合层的输出依次经过第4个卷积层、第4个规范化层、第4个激活层、ASPP网络块和第1个双线性上采样层后连接输入到第1个元素求和融合层;VGG16网络的第三VGG16特征提取块layerd3的输出经第1个自注意网络块后和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出一起共同输入到第1个元素求和融合层,从第1个元素求和融合层的输出依次经过第2个双线性上采样层、第5个卷积层、第5个规范化层、第5个激活层后连接输入到第2个元素求和融合层,同时第1个元素求和融合层的输出经第6个卷积层连接到第1个输出层;VGG16网络的第二VGG16特征提取块layerd2的输出经第2个自注意网络块后和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出一起共同输入到第2个元素求和融合层,从第2个元素求和融合层的输出依次经过第3个双线性上采样层、第1个带孔卷积层、第6个规范化层、第6个激活层、第8个卷积层后连接输入到第3个输出层,同时第2个元素求和融合层的输出经第7个卷积层连接到第2个输出层。
2.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于:所述的ASPP网络块由3个卷积层、3个带孔卷积层、1个自适应平均池化层、1个双线性上采样层、1个融合层组成;自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接后和3个带孔卷积层并联,并联后的各个输出端连接到融合层,融合层输出连接到第3个卷积层;第4个激活层的输出作为ASPP网络块的输入分别输入到3个带孔卷积层和由自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接构成的局部网络结构中,3个带孔卷积层和由自适应平均池化层、卷积层、双线性上采样层依次连接构成的局部网络结构的输出端均连接到融合层,融合层经第3个卷积层输出作为ASPP网络块的输出,输出到第1个双线性上采样层。
3.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于:所述的自注意网络块包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层和1个激活层;之前网络结构的输出作为自注意网络块的输入,输入到自适应平均池化层和逐元素求积融合层,自适应平均池化层的输出经Sigmoid层后也输入到逐元素求积融合层,逐元素求积融合层输出依次经卷积层、规范化层、激活层后输出作为自注意网络块的输出。
4.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于:将两个或三个连续的卷积层加一个最大池化层的结构作为一个网络块,并作为VGG16网络中的一个VGG16特征提取块,并且VGG16网络中,使用一个卷积核大小为1×1、输入通道为1、输出通道为64的卷积层代替原始VGG16中的第一个卷积层,即替换掉第零VGG16特征提取块layerd0中的第一个卷积层。
5.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于:对于2个输入层,第1个输入层是RGB图像输入层,其输入端接收一幅原始RGB输入图像;第2个输入层是深度图像输入层,其输入端接收一幅原始RGB图像对应的深度图像,2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911012594.7A CN110782458B (zh) | 2019-10-23 | 2019-10-23 | 一种非对称编码网络的物体图像3d语义预测分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911012594.7A CN110782458B (zh) | 2019-10-23 | 2019-10-23 | 一种非对称编码网络的物体图像3d语义预测分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110782458A CN110782458A (zh) | 2020-02-11 |
CN110782458B true CN110782458B (zh) | 2022-05-31 |
Family
ID=69386684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911012594.7A Active CN110782458B (zh) | 2019-10-23 | 2019-10-23 | 一种非对称编码网络的物体图像3d语义预测分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110782458B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428602B (zh) * | 2020-03-18 | 2024-07-05 | 浙江科技学院 | 卷积神经网络边缘辅助增强的双目显著性图像检测方法 |
CN112308000B (zh) * | 2020-11-06 | 2023-03-07 | 安徽清新互联信息科技有限公司 | 一种基于时空信息的高空抛物检测方法 |
CN113033572B (zh) * | 2021-04-23 | 2024-04-05 | 上海海事大学 | 一种基于usv的障碍物分割网络及其生成方法 |
CN114723951B (zh) * | 2022-06-08 | 2022-11-04 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508639A (zh) * | 2018-10-12 | 2019-03-22 | 浙江科技学院 | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 |
CN109635642A (zh) * | 2018-11-01 | 2019-04-16 | 浙江科技学院 | 一种基于残差网络和扩张卷积的道路场景分割方法 |
CN109635662A (zh) * | 2018-11-14 | 2019-04-16 | 浙江科技学院 | 一种基于卷积神经网络的道路场景语义分割方法 |
CN109829926A (zh) * | 2019-01-30 | 2019-05-31 | 杭州鸿泉物联网技术股份有限公司 | 道路场景语义分割方法及装置 |
CN110059728A (zh) * | 2019-03-26 | 2019-07-26 | 浙江科技学院 | 基于注意力模型的rgb-d图像视觉显著性检测方法 |
CN110175986A (zh) * | 2019-04-23 | 2019-08-27 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN110263813A (zh) * | 2019-05-27 | 2019-09-20 | 浙江科技学院 | 一种基于残差网络和深度信息融合的显著性检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403430B (zh) * | 2017-06-15 | 2020-08-07 | 中山大学 | 一种rgbd图像语义分割方法 |
CN108664974A (zh) * | 2018-04-03 | 2018-10-16 | 华南理工大学 | 一种基于rgbd图像与全残差网络的语义分割方法 |
-
2019
- 2019-10-23 CN CN201911012594.7A patent/CN110782458B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508639A (zh) * | 2018-10-12 | 2019-03-22 | 浙江科技学院 | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 |
CN109635642A (zh) * | 2018-11-01 | 2019-04-16 | 浙江科技学院 | 一种基于残差网络和扩张卷积的道路场景分割方法 |
CN109635662A (zh) * | 2018-11-14 | 2019-04-16 | 浙江科技学院 | 一种基于卷积神经网络的道路场景语义分割方法 |
CN109829926A (zh) * | 2019-01-30 | 2019-05-31 | 杭州鸿泉物联网技术股份有限公司 | 道路场景语义分割方法及装置 |
CN110059728A (zh) * | 2019-03-26 | 2019-07-26 | 浙江科技学院 | 基于注意力模型的rgb-d图像视觉显著性检测方法 |
CN110175986A (zh) * | 2019-04-23 | 2019-08-27 | 浙江科技学院 | 一种基于卷积神经网络的立体图像视觉显著性检测方法 |
CN110263813A (zh) * | 2019-05-27 | 2019-09-20 | 浙江科技学院 | 一种基于残差网络和深度信息融合的显著性检测方法 |
Non-Patent Citations (1)
Title |
---|
Three-Stream Attention-Aware Network for RGB-D Salient Object Detection;Hao Chen et al.;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20190630;第28卷(第6期);第2825-2835页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110782458A (zh) | 2020-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782458B (zh) | 一种非对称编码网络的物体图像3d语义预测分割方法 | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN110728682B (zh) | 一种基于残差金字塔池化神经网络的语义分割方法 | |
CN110263813B (zh) | 一种基于残差网络和深度信息融合的显著性检测方法 | |
CN111462013B (zh) | 一种基于结构化残差学习的单图去雨方法 | |
CN109635662B (zh) | 一种基于卷积神经网络的道路场景语义分割方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN111179167A (zh) | 一种基于多阶段注意力增强网络的图像超分辨方法 | |
Zhao et al. | JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN111401436A (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN115345866B (zh) | 一种遥感影像中建筑物提取方法、电子设备及存储介质 | |
CN116797787B (zh) | 基于跨模态融合与图神经网络的遥感影像语义分割方法 | |
CN113192073A (zh) | 基于交叉融合网络的服装语义分割方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN117237559B (zh) | 面向数字孪生城市的三维模型数据智能分析方法及*** | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
CN112257509A (zh) | 基于联合信息编码的立体图像单流视觉显著性检测方法 | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN109508639B (zh) | 基于多尺度带孔卷积神经网络的道路场景语义分割方法 | |
Yu et al. | A review of single image super-resolution reconstruction based on deep learning | |
CN110633706A (zh) | 一种基于金字塔网络的语义分割方法 | |
CN113362322A (zh) | 一种判别辅助和多模态加权融合的显著物体检测方法 | |
CN112508121A (zh) | 一种工业机器人感知外界的方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |