CN111798436A - 基于注意力膨胀卷积特征融合的显著物体检测方法 - Google Patents

基于注意力膨胀卷积特征融合的显著物体检测方法 Download PDF

Info

Publication number
CN111798436A
CN111798436A CN202010654187.2A CN202010654187A CN111798436A CN 111798436 A CN111798436 A CN 111798436A CN 202010654187 A CN202010654187 A CN 202010654187A CN 111798436 A CN111798436 A CN 111798436A
Authority
CN
China
Prior art keywords
convolution
layer
output
input
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010654187.2A
Other languages
English (en)
Inventor
周武杰
郭沁玲
雷景生
强芳芳
王海江
何成
杨胜英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010654187.2A priority Critical patent/CN111798436A/zh
Publication of CN111798436A publication Critical patent/CN111798436A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力膨胀卷积特征融合的显著物体检测方法,具体步骤如下:选取训练数据集并进行预处理;构建端到端的卷积神经网络分类模型;对构建好的所述卷积神经网络分类模型进行训练,得到对应的显著性检测图;计算卷积神经网络分类模型的损失函数值;进一步得到最小损失函数值分类模型的权重和偏置数值;得到最终的卷积神经网络分类模型;输入测试数据集到最终的卷积神经网络分类模型中,得到预测结果。本发明提供了一种基于注意力膨胀卷积特征融合的显著物体检测方法,输入为RGB彩色图和深度图,采用高层次、低层次多尺度特征充分融合,提取准确的边缘图来对区域图进行边界加强,使最后生成的图片更加准确清晰。

Description

基于注意力膨胀卷积特征融合的显著物体检测方法
技术领域
本发明涉及图像检测技术领域,更具体的说是涉及一种基于注意力膨胀 卷积特征融合的显著物体检测方法。
背景技术
随着图像处理、机器学习和计算机视觉的快速发展,图像的显著性检测 在这种趋势中已成为了越来越受关注的研究领域,显著物体检测(SOD)旨 在估计图像或视频的视觉显著区域,并经常作为许多下游视觉任务的预处理 步骤。在过去的几十年中,已经开发了数百种传统的方法来解决突出对象检 测的任务,并作为一种预处理程序广泛应用于其他计算机视觉任务中。近年 来,卷积神经网络(CNNs)在视觉特征表示中表现出了强大的特征提取能力。 这些模型采用编码解码结构,结构简单,计算效率高。编码器通常由预先训 练的分类模型(例如ResNet和VGG),可以提取不同语义层次和分辨率的多个 特征。在解码器中,将提取的特征组合起来生成显著图。
然而,在准确的SOD方面仍然存在两大挑战。第一,不同层次的特征具 有不同的分布特征。高层次特征具有丰富的语义信息,但缺乏准确的位置信 息。低层次特征有丰富的细节,但充满背景噪声;为了生成更好的显著性地 图,如何将多层次特征恰当的结合起来。第二,以往的工作已经证明融合边 缘特征有利于生成更精确的分割图,但可能面临边缘特征不准确的问题,以 及边缘信息尚未在现有的边缘感知框架中得到充分利用,如何利用多模态多 尺度信息提取准确的边缘以及生成显著性分割图像更具有挑战性。
因此,如何提供一种将高、低层次多尺度特征充分融合,用于提取准确 的边缘以及生成显著性分割图像的显著物体检测方法是本领域技术人员亟需 解决的问题。
发明内容
有鉴于此,本发明提供了一种基于注意力膨胀卷积特征融合的显著物体 检测方法,输入为RGB彩色图和深度图,采用高层次、低层次多尺度特征充 分融合,提取准确的边缘图来对区域图进行边界加强,使最后生成的图片更 加准确清晰。
为了实现上述目的,本发明提供如下技术方案:
一种基于注意力膨胀卷积特征融合的显著物体检测方法,具体步骤如下:
步骤一:选取训练数据集,对所述训练数据集进行预处理;
步骤二:构建端到端的卷积神经网络分类模型;所述卷积神经网络分类 模型将高层次特征和低层次特征利用充分,使用注意力机制结构和注意力膨 胀卷积结构进行融合特征,并利用边缘辅助完善显著性图;
步骤三:将训练数据集中的原始立体图像的RGB图和深度图作为输入, 输入到构建好的所述卷积神经网络分类模型进行训练,得到对应的显著性检 测图;
步骤四:计算卷积神经网络分类模型的损失函数值;
步骤五:重复执行步骤三和步骤四,进一步得到最小损失函数值分类模 型的权重和偏置数值;
步骤六:得到最终的卷积神经网络分类模型;
步骤七:输入测试数据集到最终的卷积神经网络分类模型中,得到预测 结果。
优选的,在上述的一种基于注意力膨胀卷积特征融合的显著物体检测方 法中,所述注意力机制结构包括两个分支;其中第一输入在第一分支依次经 过平均池化,第一卷积层和第二卷积层,得到第一输出;第一输入在第二分 支依次经过最大池化,第三卷积层和第四卷积层,得到第二输出;将所述第 一输出和所述第二输出像素相加,得到第三输出;将所述第一输入和所述第 三输出像素相乘,作为下一阶段的输入,记为第二输入;所述第二输入在第 一个分支经过第二平均池化,得到第四输出;所述第二输入在第二个分支经 过第二最大池化,得到第五输出,将所述第四输出和所述第五输出通道叠加, 经过第五卷积层,第四激活层,得到第五输出;将所述第五输出和所述第二 输入像素相乘,结果与第一输入像素相加,得到最终输出。
优选的,在上述的一种基于注意力膨胀卷积特征融合的显著物体检测方 法中,所述注意力膨胀卷积结构中,第一输入经过第一卷积层和第二卷积层, 分为三个分支,第二输入、第三输入和第四输入作为输入;所述第一输入经 过第三卷积层,第四卷积层,经过所述注意力机制结构,得到第一输出;所 述第二输入经过第五卷积层,第六卷积层,经过所述注意力机制结构,得到 第二输出;所述第三输入经过第七卷积层,第八卷积层,经过所述注意力机 制结构,得到第三输出;将所述第一输出、第二输出、第三输出通道叠加, 经过第九卷积层,得到最终输出。
优选的,在上述的一种基于注意力膨胀卷积特征融合的显著物体检测方 法中,所述步骤一中,具体步骤如下:选取N对原始3D图像,其中,一对 原始3D图像包括一张RGB图片和一张深度图;再选取对应的标签图构成原 始训练集,对所述训练数据集进行预处理,转换输入图片的高度、宽度。
优选的,在上述的一种基于注意力膨胀卷积特征融合的显著物体检测方 法中,所述步骤七中,具体步骤如下:
输入待测的3D图像成对数据图片;
将待测的3D图像成对数据图片的R通道分量、G通道分量和B通道分 量输入到卷积神经网络训练模型中,并使用训练阶段得到的权重和偏置数值 进行测试,得到对应的显著性检测图像。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基 于注意力膨胀卷积特征融合的显著物体检测方法,输入为RGB彩色图和深度 图,采用高层次、低层次多尺度特征充分融合,提取准确的边缘图来对区域 图进行边界加强,使最后生成的图片更加准确清晰,经过实验本方法在显著 性检测两个数据集上都有很好的表现。
与现有技术相比,本发明的优点在于:
1)本发明方法构建一个双流的端到端卷积神经网络,每个卷积块取提取 了不同等级的特征。
2)本发明方法构建了一个注意力膨胀卷积结构,在通道发生改变时能得 到充分有效的特征信息。
3)本发明方法充分利用高级特征与低级特征得到边缘图与区域图,并采 用了边缘辅助,使边缘信息和区域图进行融合,提升显著性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明方法的总体实现框图;
图2为本发明的注意力机制结构;
图3为本发明的注意力膨胀卷积结构;
图4a为本发明的有五个输入的特征叠加块;
图4b为本发明的有四个输入的特征叠加块;
图4c为本发明的有三个输入的特征叠加块;
图4d为本发明的有两个输入的特征叠加块;
图4e为本发明的边缘聚合块;
图5为本发明的多尺度特征聚合块;
图6a为NJU2K测试集随机挑选一个标签图片;
图6b为利用本发明方法对应6a卷积神经网络模型生成的显著性图;
图6c为NJU2K测试集随机挑选一个标签图片;
图6d为利用本发明方法对应6c卷积神经网络模型生成的显著性图;
图7a为NLPR测试集随机挑选一个标签图片;
图7b为利用本发明方法对应7a卷积神经网络模型生成的显著性图;
图7c为NLPR测试集随机挑选一个标签图片;
图7d为利用本发明方法对应7c卷积神经网络模型生成的显著性图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出的一种基于注意力膨胀卷积与多尺度特征融合的显著物体检 测方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程, 所述的训练阶段过程的具体步骤为:
首先定义两种结构:第一种是注意力机制结构(图2):假设输入为xm输 入通道数为nm,xm分为两个分支作为输入,第一个分支首先经过一个平均池 化(average-pooling),一个1×1卷积,卷积核(filters)个数为nm/4,补零参 数为0,步长为1,一个激活层,激活方式为“Relu”,和一个1×1卷积,卷积 核(filters)个数为nm,补零参数为0,步长为1,得到输出y1m;第二个分支 经过一个最大池化(max-pooling),一个1×1卷积,卷积核(filters)个数为nm/4, 补零参数为0,步长为1,一个激活层,激活方式为“Relu”,和一个1×1卷积, 卷积核(filters)个数为nm,补零参数为0,步长为1,得到输出y2m;将两个 输出y1m和y2m像素相加,经过一个激活层,激活方式为“Softmax”,得到输 出ym。将xm和ym像素相乘,作为下一阶段的输入,记为zm。zm分为两个分支 作为输入,第一个分支经过一个平均池化(average-pooling),得到输出z1m; 第二个分支经过一个最大池化(max-pooling),得到输出z2m,将两个输出z1m和z2m通道叠加,经过一个7×7卷积,卷积核(filters)个数为1,补零参数为 3,步长为1,一个激活层,激活方式为“Softmax”,得到输出fm;将fm和zm像素相乘,结果与xm像素相加,经过一个激活层,激活方式为“Relu”得到 最终输出,通道数与尺寸和输入时一样,不发生改变。
第二种是在第一种的基础上定义的注意力膨胀卷积结构(图3):假设输 入为xm输入通道数为nm,输出通道数为pm,xm首先经过一个3×3卷积,卷积 核个数pm/4,补零参数为0,步长为1,一个激活层,激活方式为“Relu”和 一个1×1卷积,卷积核个数pm/4,补零参数为0,步长为1,一个激活层,激 活方式为“Relu”。接着分为三个分支x1m,x2m,x3m作为输入。x1m经过一 个1×1卷积,卷积核个数pm/8,补零参数为0,步长为1,一个激活层,激活 方式为“Relu”,一个3×3卷积,卷积核个数pm/8,膨胀率(diliation rate)为 1,补零参数为0,步长为1,一个激活层,激活方式为“Relu”,然后经过上 诉注意力机制结构,得到输出y1m;x2m经过一个1×1卷积,卷积核个数pm/8, 补零参数为0,步长为1,一个激活层,激活方式为“Relu”,一个3×3卷积, 卷积核个数pm/8,膨胀率为2,补零参数为0,步长为1,一个激活层,激活 方式为“Relu”,然后经过上诉注意力机制结构,得到输出y2m;x3m经过一 个1×1卷积,卷积核个数pm/8,补零参数为0,步长为1,一个激活层,激活 方式为“Relu”,一个3×3卷积,卷积核个数pm/8,膨胀率为4,补零参数为 0,步长为1,一个激活层,激活方式为“Relu”,然后经过上诉注意力机制 结构,得到输出y3m。将y1m,y2m,y3m通道叠加,经过一个1×1卷积,卷积核 个数pm,补零参数为0,步长为1,一个激活层,激活方式为“Relu”得到输 出。与输入相比只有通道数由nm变成pm,尺寸不改变。
步骤1-1:选取N对原始3D图像,一对原始3D图像包括一张RGB图片 其中第k幅记为
Figure BDA0002573916920000061
和一张深度图其中第k幅记为
Figure BDA0002573916920000062
再选取对 应的标签图其中第k幅记为{Gk(x,y)}构成原始训练集,其中,N为正整数, N≥200,如取N=600,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,再对输入 图片进行预处理,图片变换为W×H,W是预处理之后的图片的宽度,H是 预处理之后图片的高度,在本发明中W、H均为224,Rk(x,y)表示
Figure BDA0002573916920000063
中 坐标位置为(x,y)的像素点的像素值,
Figure BDA0002573916920000064
表示
Figure BDA0002573916920000065
中坐标位置为 (x,y)的像素点的像素值,Gk(x,y)表示{Gk(x,y)}中坐标位置为(x,y)的像素点的像 素值,本实验选定数据集为NJU2K和NLPR,均为知名公开数据集。NJU2K 拥有2000对图片包括1600对训练图片和400张测试图片,NLPR拥有1000 张图片分别是800对训练图片,200对测试图片。
步骤1-2:构建端到端的卷积神经网络:卷积神经网络包括输入层、隐层 和输出层,隐藏层依次是RGB图网络的第一个神经网络块、第二个神经网络 块、第三个神经网络块、第四个神经网络块、第五个神经网络块、第一个过 渡卷积块、第二个过渡卷积块、第三个过渡卷积块、第四个过渡卷积块,深 度图网络的第六个神经网络块、第七个神经网络块、第八个神经网络块、第 九个神经网络块、第十个神经网络块、第五个过渡卷积块、第六个过渡卷积 块、第七个过渡卷积块、第八个过渡卷积块、第一个边缘聚合块、第一个特 征聚合模块、第二个边缘聚合块、第二个特征聚合模块、第三个边缘聚合块、 第三个特征聚合模块、一个多尺度特征聚合块和一个输出层。
对于输入层,分为RGB网络和深度网络,RGB网络为输入层1,输入图 片经过预处理为H×W大小,通道为3通道,分别为R通道,G通道,B通 道,深度网络为输入层2,输入图片经过预处理为H×W,通道为1通道,经 过简单通道处理之后变为三通道。
对于RGB图网络:基础网络包括第一个神经网络块、第二个神经网络块、 第三个神经网络块、第四神经网络块、第五个神经网络块,第一个过渡卷积 块、第二个过渡卷积块、第三个过渡卷积块、第四个过渡卷积块,第一个神 经网络块是由第一卷积层(Convolution,Conv),第一激活层,激活方式 (Activation,Act)为“Relu”,第一池化层(Maxpooling,Pool)组成,经 过第一个神经网络块输出64张特征图,卷积层卷积核(kernel_size)大小为7 ×7、卷积核(filters)个数为64、步长(stride)为2,补零参数(padding) 的值为3。池化层的卷积核大小为3×3、步长为2,补零参数为1,将64张 特征图的集合记为S1,特征图宽度为W/4,高度为H/4,以下未介绍的步长 都为1,未介绍的补零参数为0,未介绍的池化均为最大池化。
对于第二个神经网络块,第二个神经网络块由三个卷积块组成,第一卷 积块由第二卷积层,第三卷积层,第四卷积层,第一跳连下采样卷积层,第 二激活层,激活方式为“Relu”,第二卷积层卷积核大小为1×1、卷积核个 数为64,第三卷积层卷积核大小为3×3、卷积核个数为64、补零参数为1, 第四卷积层卷积核大小为1×1、卷积核个数为256,第一跳连下采样卷积层 卷积核大小为1×1、卷积核个数为256,第二卷积块由第五卷积层,第六卷积层,第七卷积层,第三个激活层,激活方式为“Relu”,第五卷积层卷积核 大小为1×1、卷积核个数为64,第六卷积层卷积核大小为3×3、卷积核个数 为64、补零参数为1,第七卷积层卷积核大小为1×1、卷积核个数为256, 第三卷积块由第八个卷积层,第九卷积层,第十卷积层,第四激活层,激活 方式为“Relu”,第八卷积层卷积核大小为1×1、卷积核个数为64,第九卷 积层卷积核大小为3×3、卷积核个数为64、补零参数为1,第十个卷积层卷 积核大小为1×1、卷积核个数为256,将256张特征图的集合记为S2,特征 图宽度为W/4,高度为H/4。
对于第三个神经网络块,第三个神经网络块由四个卷积块组成,第四卷 积块有第十一卷积层,第十二卷积层,第十三卷积层,第二跳连下采样卷积 层,第五激活层,激活方式为“Relu”第十一卷积层卷积核大小为1×1、卷 积核个数为128,第十二卷积层卷积核大小为3×3、卷积核个数为128、步长 为2、补零参数为1,第十三卷积层卷积核大小为1×1,卷积核个数为512, 第二跳连下采样卷积层卷积核大小为1×1、卷积核个数为512。第五卷积块 由第十四卷积层,第十五卷积层,第十六卷积层,第六激活层,激活方式为 “Relu”第十四卷积层卷积核大小为1×1、卷积核个数为128,第十五卷积层 卷积核大小为3×3、卷积核个数为128、补零参数为1,第十六卷积层卷积核 大小为1×1,卷积核个数为512。第六卷积块由由第十七卷积层,第十八卷 积层,第十九卷积层,第七激活层,激活方式为“Relu”第十七卷积层卷积核 大小为1×1、卷积核个数为128,第十八卷积层卷积核大小为3×3、卷积核个数为128、补零参数为1,第十九卷积层卷积核大小为1×1,卷积核数为 512。第七卷积块由第二十卷积层,第二十一卷积层,第二十二卷积层,第八 激活层,激活方式为“Relu“,第二十卷积层卷积核大小为1×1、卷积核个 数为128,第二十一卷积层卷积核大小为3×3、卷积核个数为128、补零参数 为1,第二十二卷积层卷积核大小为1×1,卷积核个数为512。,将512张特 征图的集合记为S3,特征图宽度为W/8,高度为H/8。
对于第四个神经网络块,第四个神经网络块由六个卷积块组成,第八卷 积块由第二十三卷积层,第二十四卷积层,第二十五卷积层,第三跳连下采 样卷积层,第九激活层,激活方式为“Relu”,第二十三卷积层卷积核大小为 1×1、卷积核个数为256,第二十四卷积层卷积核大小为3×3、卷积核个数 为256、步长为2、补零参数为1,第二十五卷积层卷积核大小为1×1,卷积 核个数为1024,第三跳连下采样卷积层卷积核大小为1×1、卷积核个数为 1024、步长为2。第九个卷积块由由第二十六卷积层,第二十七卷积层,第二 十八卷积层,第十个激活层,激活方式为“Relu”第二十六卷积层卷积核大小 为1×1、卷积核个数为256,第二十七卷积层卷积核大小为3×3、卷积核个 数为256、补零参数为1,第二十八卷积层卷积核大小为1×1,卷积核个数为 1024。第十个卷积块由由第二十九卷积层,第三十卷积层,第三十一卷积层, 第十一激活层,激活方式为“Relu”第二十九卷积层卷积核大小为1×1、卷积 核个数为256,第三十卷积层卷积核大小为3×3、卷积核个数为256、补零参 数为1,第三十一卷积层卷积核大小为1×1,卷积核个数为1024。第十一个 卷积块由第三十二卷积层,第三十三卷积层,第三十四个卷积层,第十二个 激活层,激活方式为“Relu”组成。第三十二卷积层卷积核大小为1×1、卷积 核个数为256,第三十三卷积层卷积核大小为3×3、卷积核个数为256、补零 参数为1,第三十四卷积层卷积核大小为1×1,卷积核个数为1024,第十二 个卷积块由由第三十五卷积层,第三十六卷积层,第三十七卷积层,第十三 激活层,激活方式为“Relu”,第三十五卷积层卷积核大小为1×1、卷积核个 数为256,第三十六卷积层卷积核大小为3×3、卷积核个数为256、补零参数 为1,第三十七卷积层卷积核大小为1×1,卷积核个数为1024,第十三个卷 积块由第三十八卷积层,第三十九卷积层,第四十卷积层,第十四激活层, 激活方式为“Relu”第三十八卷积层卷积核大小为1×1、卷积核个数为256,第 三十九卷积层卷积核大小为3×3、卷积核个数为256、补零参数为1,第四十 卷积层卷积核大小为1×1,卷积核个数为1024,将512张特征图的集合记为 S4,特征图宽度为W/16,高度为H/16。
对于第五个神经网络块,第五个神经网络块由三个卷积块组成,第十四 卷积块由第四十卷积层,第四十一卷积层,第四十二卷积层,第四跳连下采 样卷积层,第十五激活层,激活方式为“Relu”,第四十卷积层卷积核大小为1 ×1、卷积核个数为512,第四十一卷积层卷积核大小为3×3、卷积核个数为 512、步长为2、补零参数为1,第四十二卷积层卷积核大小为1×1、卷积核 个数为2048,第四跳连下采样卷积层卷积核大小为1×1、卷积核个数为2048、 步长为2,第十五卷积块由第四十三卷积层,第四十四卷积层,第四十五卷积层,第十六激活层,激活方式为“Relu”,第四十三卷积层卷积核大小为1×1、 卷积核数为512,第四十四卷积层卷积核大小为3×3、卷积核个数为512、补 零参数为1,第四十五卷积层卷积核大小为1×1、卷积核个数为2048,第十 六卷积块由第四十六卷积层,第四十七卷积层,第四十八卷积层,第十七激 活层,激活方式为“Relu”,第四十六卷积层卷积核大小为1×1、卷积核个数 为512,第四十七卷积层卷积核大小为3×3、卷积核个数为512、补零参数为 1,第四十八卷积层卷积核大小为1×1、卷积核个数为2048,将2048张特征 图的集合记为S5,特征图宽度为W/32,高度为H/32。
对于第一个过渡卷积块,第一个过渡卷积块由第四十九卷积层,第五十 卷积层,第五十一卷积层组成,第四十九卷积层卷积核大小为1×1、卷积核 个数为32,第五十卷积层卷积核大小为3×3、卷积核个数为32、补零参数为1,第五十一卷积层卷积核大小为3×3、卷积核个数为32、补零参数为1。将 32张特征图的集合记为T1,特征图宽度为W/4,高度为H/4。
对于第二个过渡卷积块,第二个过渡卷积块由第五十二卷积层,第五十 三卷积层,第五十四卷积层组成,第五十二卷积层卷积核大小为1×1、卷积 核个数为32,第五十三卷积层卷积核大小为3×3、卷积核个数为32、补零参 数为1,第五十四卷积层卷积核大小为3×3、卷积核个数为32、补零参数为 1。将32张特征图的集合记为T2,特征图宽度为W/8,高度为H/8。
对于第三个过渡卷积块,第三个过渡卷积块由第五十三卷积层,第五十 四卷积层,第五十五卷积层组成,第五十三卷积层卷积核大小为1×1、卷积 核个数为32,第五十四卷积层卷积核大小为3×3、卷积核个数为32、补零参 数为1,第五十五卷积层卷积核大小为3×3、卷积核个数为32、补零参数为 1。将32张特征图的集合记为T3,特征图宽度为W/16,高度为H/16。
对于第四个过渡卷积块,第四个过渡卷积块由第五十六卷积层,第五十 七卷积层,第五十八卷积层组成,第五十六卷积层卷积核大小为1×1、卷积 核个数为32,第五十七卷积层卷积核大小为3×3、卷积核个数为32、补零参 数为1,第五十一八积层卷积核大小为3×3、卷积核个数为32、补零参数为 1。将32张特征图的集合记为T4,特征图宽度为W/32,高度为H/32。
对于深度图网络:基础网络包括第六个神经网络块、第七个神经网络块、 第八个神经网络块、第九神经网络块、第十个神经网络块,第五个过渡卷积 块、第六个过渡卷积块、第七个过渡卷积块、第八个过渡卷积块,第六个神 经网络块是由第五十七卷积层,第十八激活层,激活方式为“Relu”,第二池 化层组成,经过第六个神经网络块输出64张特征图,卷积层卷积核大小为7 ×7、卷积核个数为64、步长为2,补零参数为3。池化层的卷积核大小为3 ×3、步长为2,补零参数为1,将64张特征图的集合记为D1,特征图宽度 为W/4,高度为H/4。
对于第七个神经网络块,第七个神经网络块由第十七卷积块、第十八卷 积块、第十九卷积块三个卷积块组成,第十七卷积块由第五十八卷积层,第 五十九卷积层,第六十卷积层,第五跳连下采样卷积层,第十九激活层,激 活方式为“Relu”组成,第五十八卷积层卷积核大小为1×1、卷积核个数为 64,第五十九卷积层卷积核大小为3×3、卷积核个数为64、补零参数为1, 第六十卷积层卷积核大小为1×1、卷积核个数为256,第五跳连下采样卷积 层卷积核大小为1×1、卷积核个数为256,第十八卷积块由第六十一卷积层, 第六十二卷积层,第六十三卷积层,第二十激活层,激活方式为“Relu”组成, 第六十一卷积层卷积核大小为1×1、卷积核个数为64,第六十二卷积层卷积 核大小为3×3、卷积核个数为64、补零参数为1,第六十三卷积层卷积核大 小为1×1、卷积核个数为256,第十九卷积块由第六十四个卷积层,第六十 五卷积层,第六十六卷积层,第二十一激活层,激活方式为“Relu”,第六十 四卷积层卷积核大小为1×1、卷积核个数为64,第六十五卷积层卷积核大小 为3×3、卷积核个数为64、补零参数为1,第六十六个卷积层卷积核大小为 1×1、卷积核个数为256,将256张特征图的集合记为D2,特征图宽度为 W/4,高度为H/4。
对于第八个神经网络块,第八个神经网络块由第二十卷积块、第二十一 卷积块、第二十二卷积块、第二十三卷积块四个卷积块组成,第二十卷积块 由第六十七卷积层,第六十八卷积层,第六十九卷积层,第六跳连下采样卷 积层,第二十二激活层,激活方式为“Relu”组成,第六十七卷积层卷积核大 小为1×1、卷积核个数为128,第六十八卷积层卷积核大小为3×3、卷积核 个数为128、步长为2、补零参数为1,第六十九卷积层卷积核大小为1×1, 卷积核个数为512,第六跳连下采样卷积层卷积核大小为1×1、卷积核个数 为512。第二十一卷积块由第七十卷积层,第七十一卷积层,第七十二卷积层, 第二十三激活层,激活方式为“Relu”组成。第七十卷积层卷积核大小为1× 1、卷积核个数为128,第七十一卷积层卷积核大小为3×3、卷积核个数为128、 补零参数为1,第七十二卷积层卷积核大小为1×1,卷积核个数为512。第二 十二卷积块由由第七十三卷积层,第七十四卷积层,第七十五卷积层,第二 十四激活层,激活方式为“Relu”组成。第七十三卷积层卷积核大小为1×1、 卷积核个数为128,第七十四卷积层卷积核大小为3×3、卷积核个数为128、 补零参数为1,第七十五卷积层卷积核大小为1×1,卷积核数为512。第二十 三卷积块由第七十六卷积层,第七十七卷积层,第七十八卷积层,第二十五 激活层,激活方式为“Relu“,第七十六卷积层卷积核大小为1×1、卷积核 个数为128,第七十七卷积层卷积核大小为3×3、卷积核个数为128、补零参 数为1,第七十八卷积层卷积核大小为1×1,卷积核个数为512。,将512张 特征图的集合记为D3,特征图宽度为W/8,高度为H/8。
对于第九个神经网络块,第九个神经网络块由第二十四卷积块、第二十 五卷积块、第二十六卷积块、第二十七卷积块、第二十八卷积块、第二十九 卷积块六个卷积块组成,第二十四卷积块由第七十九卷积层,第八十卷积层, 第八十一卷积层,第七跳连下采样卷积层,第二十六激活层,激活方式为“Relu, 第七十九卷积层卷积核大小为1×1、卷积核个数为256,第八十卷积层卷积 核大小为3×3、卷积核个数为256、步长为2、补零参数为1,第八十一卷积 层卷积核大小为1×1,卷积核个数为1024,第七跳连下采样卷积层卷积核大小为1×1、卷积核个数为1024、步长为2。第二十五个卷积块由由第八十二 卷积层,第八十三卷积层,第八十四卷积层,第二十七激活层,激活方式为 “Relu”第八十二卷积层卷积核大小为1×1、卷积核个数为256,第八十三卷 积层卷积核大小为3×3、卷积核个数为256、补零参数为1,第八十四卷积层 卷积核大小为1×1,卷积核个数为1024。第二十六个卷积块由由第八十五卷 积层,第八十六卷积层,第八十七卷积层,第二十八激活层,激活方式为“Relu” 组成。第八十五卷积层卷积核大小为1×1、卷积核个数为256,第八十六卷 积层卷积核大小为3×3、卷积核个数为256、补零参数为1,第八十七卷积层 卷积核大小为1×1,卷积核个数为1024。第二十六个卷积块由第八十八卷积 层,第八十九卷积层,第九十个卷积层,第二十九个激活层,激活方式为“Relu” 组成。第八十八卷积层卷积核大小为1×1、卷积核个数为256,第八十九卷 积层卷积核大小为3×3、卷积核个数为256、补零参数为1,第九十卷积层卷 积核大小为1×1,卷积核个数为1024,第二十七个卷积块由由第九十一卷积层,第九十二卷积层,第九十三卷积层,第三十激活层,激活方式为“Relu” 组成。第九十一卷积层卷积核大小为1×1、卷积核个数为256,第九十二卷 积层卷积核大小为3×3、卷积核个数为256、补零参数为1,第九十三积层卷 积核大小为1×1,卷积核个数为1024,第二十八个卷积块由第九十四卷积层, 第九十五卷积层,第九十六卷积层,第三十一激活层,激活方式为“Relu”组 成。第九十四卷积层卷积核大小为1×1、卷积核个数为256,第九十五卷积层卷积核大小为3×3、卷积核个数为256、补零参数为1,第九十六卷积层卷 积核大小为1×1,卷积核个数为1024,将512张特征图的集合记为D4,特 征图宽度为W/16,高度为H/16。
对于第十个神经网络块,第十个神经网络块由第三十卷积块、第三十一 卷积块、第三十二卷积块三个卷积块组成,第三十卷积块由第九十七卷积层, 第九十八卷积层,第九十九卷积层,第八跳连下采样卷积层,第三十二激活 层,激活方式为“Relu”组成。第九十七卷积层卷积核大小为1×1、卷积核 个数为512,第九十八卷积层卷积核大小为3×3、卷积核个数为512、步长为 2、补零参数为1,第九十九卷积层卷积核大小为1×1、卷积核个数为2048, 第八跳连下采样卷积层卷积核大小为1×1、卷积核个数为2048、步长为2, 第三十一卷积块由第一百卷积层,第一百零一卷积层,第一百零二卷积层, 第三十三激活层,激活方式为“Relu”,第一百卷积层卷积核大小为1×1、 卷积核数为512,第一百零一卷积层卷积核大小为3×3、卷积核个数为512、 补零参数为1,第一百零二卷积层卷积核大小为1×1、卷积核个数为2048, 第三十二卷积块由第一百零三卷积层,第一百零四卷积层,第一百零五卷积 层,第三十四激活层,激活方式为“Relu”组成。第一百零三卷积层卷积核大 小为1×1、卷积核个数为512,第一百零四卷积层卷积核大小为3×3、卷积 核个数为512、补零参数为1,第一百零五卷积层卷积核大小为1×1、卷积核 个数为2048,将2048张特征图的集合记为D5,特征图宽度为W/32,高度为 H/32。
对于第五个过渡卷积块,第五个过渡卷积块由第一百零六卷积层,第一 百零七卷积层,第一百零八卷积层组成,第一百零六卷积层卷积核大小为1 ×1、卷积核个数为32,第一百零七卷积层卷积核大小为3×3、卷积核个数 为32、补零参数为1,第一百零八卷积层卷积核大小为3×3、卷积核个数为 32、补零参数为1。将32张特征图的集合记为e1,特征图宽度为W/4,高度 为H/4。
对于第六个过渡卷积块,第六个过渡卷积块由第一百零九卷积层,第一 百一十卷积层,第一百一十一卷积层组成,第一百零九卷积层卷积核大小为1 ×1、卷积核个数为32,第一百一十卷积层卷积核大小为3×3、卷积核个数 为32、补零参数为1,第一百一十一卷积层卷积核大小为3×3、卷积核个数 为32、补零参数为1。将32张特征图的集合记为e2,特征图宽度为W/8,高 度为H/8。
对于第七个过渡卷积块,第七个过渡卷积块由第一百一十二卷积层,第 一百一十三卷积层,第一百一十四卷积层组成,第一百一十二积层卷积核大 小为1×1、卷积核个数为32,第一百一十三卷积层卷积核大小为3×3、卷积 核个数为32、补零参数为1,第一百一十四卷积层卷积核大小为3×3、卷积 核个数为32、补零参数为1。将32张特征图的集合记为e3,特征图宽度为 W/16,高度为H/16。
对于第八个过渡卷积块,第八个过渡卷积块由第一百一十五卷积层,第 一百一十六卷积层,第一百一十七卷积层组成,第一百一十五卷积层卷积核 大小为1×1、卷积核个数为32,第一百一十六卷积层卷积核大小为3×3、卷 积核个数为32、补零参数为1,第一百一十七卷积层卷积核大小为3×3、卷 积核个数为32、补零参数为1。将32张特征图的集合记为e4,特征图宽度为 W/32,高度为H/32。
对于第一个特征聚合块,第一个特征聚合块由四个特征叠加块组成,第 一个特征叠加块如图4a所示,输入包括第一个深度输入(e1)、第二个深度 输入(e2)、第三个深度输入(e3)、第四个深度输入(e4)、第一个彩色输 入(T1)。第二个深度输入经过第一上采样层,放大倍数(scale factor)为2, 插值方法为双线性差值(bilinear),和第一百一十八卷积层,卷积核大小为1 ×1、卷积核个数为32,第三个深度输入经过第二上采样层,放大倍数(scale factor)为4,插值方法为双线性差值(bilinear),和第一百一十九卷积层,卷 积核大小为1×1、卷积核个数为32,第四个深度输入经过第二上采样层,放 大倍数(scalefactor)为8,插值方法为双线性差值(bilinear),和第一百二十 卷积层,卷积核大小为1×1、卷积核个数为32,这五个输入经过通道叠加, 注意力膨胀卷积块(如图3所示),再和第一个彩色输入像素相加,得到输 出。将32张聚合特征图的集合记为F1,特征图宽度为W/4,高度为H/4。第 二个特征叠加块如图4b所示,输入包括第二个深度输入(e2)、第三个深度 输入(e3)、第四个深度输入(e4)、第二个彩色输入(T2)。第三个深度 输入经过第三上采样层,放大倍数(scale factor)为2,插值方法为双线性差值 (bilinear),和第一百二十一卷积层,卷积核大小为1×1、卷积核个数为32, 第四个深度输入经过第四上采样层,放大倍数(scale factor)为4,插值方法为 双线性差值(bilinear),和第一百二十二卷积层,卷积核大小为1×1、卷积 核个数为32,这四个输入经过通道叠加,经过注意力膨胀卷积,再和第二个 彩色输入像素相加,得到输出。将32张聚合特征图的集合记为F2,特征图宽 度为W/8,高度为H/8。第三个特征叠加块如图4c所示,输入包括第三个深 度输入(e3)、第四个深度输入(e4)、第三个彩色输入(T3)。第四个深 度输入经过第五上采样层,放大倍数(scalefactor)为2,插值方法为双线性差 值(bilinear),和第一百二十三卷积层,卷积核大小为1×1、卷积核个数为 32,这三个输入经过通道叠加,经过注意力膨胀卷积,再和第三个彩色输入 像素相加,得到输出。将32张聚合特征图的集合记为F3,特征图宽度为W/16, 高度为H/16。第四个特征叠加块如图4d所示,输入包括第四个深度输入(e4)、 第四个彩色输入(T4)。这两个输入经过通道叠加,经过注意力膨胀卷积, 再和第四个彩色输入像素相加,得到输出。将32张聚合特征图的集合记为F4, 特征图宽度为W/32,高度为H/32。因此经过第一个特征聚合块后,得到四个 输出:F1,特征图宽度为W/4,高度为H/4;F2,特征图宽度为W/8,高度为 H/8;F3,特征图宽度为W/16,高度为H/16;F4,特征图宽度为W/32,高度 为H/32。
对于第一个边缘聚合块,第一个边缘聚合块如图4e所示,包括五个输入: 第一个深度输入(e1)、第二个深度输入(e2)、第三个深度输入(e3)、第 四个深度输入(e4)、第一个彩色输入(T1)。第二个深度输入经过第六上 采样层,放大倍数(scale factor)为2,插值方法为双线性差值(bilinear),和 第一百二十四卷积层,卷积核大小为1×1、卷积核个数为32,第三个深度输 入经过第七上采样层,放大倍数(scale factor)为4,插值方法为双线性差值 (bilinear),和第一百二十五卷积层,卷积核大小为1×1、卷积核个数为32, 第四个深度输入经过第八上采样层,放大倍数(scale factor)为8,插值方法为 双线性差值(bilinear),和第一百二十六卷积层,卷积核大小为1×1、卷积 核个数为32,这五个输入经过像素相乘,第一百二十七卷积层,卷积核大小 为3×3、卷积核个数为32,补零参数为1,和第一百二十八卷积层,卷积核 大小为3×3、卷积核个数为32,补零参数为1,再和第一个彩色输入像素相 加,得到输出。将32张边缘聚合特征图的集合记为E1,特征图宽度为W/4, 高度为H/4。
第一个边缘聚合特征图E1和第一个特征聚合块的第一个输出F1通道相 加,然后经过第一百二十九卷积层,卷积核大小为3×3、卷积核个数为32, 补零参数为1,和第一百三十卷积层,卷积核大小为3×3、卷积核个数为32, 补零参数为1,再和F1像素相加,得到交流输出1。第一个边缘聚合特征图 E1经过第一插值层,放大倍数(scale factor)为1/2,插值方法为双线性差值 (bilinear),和第一个特征聚合块的第二个输出F2通道相加,然后经过第一 百三十一卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为1,和 第一百三十二卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为1, 再和F2像素相加,得到交流输出2。第一个边缘聚合特征图E1经过第二插 值层,放大倍数(scale factor)为1/4,插值方法为双线性差值(bilinear),和 第一个特征聚合块的第三个输出F3通道相加,然后经过第一百三十三卷积层, 卷积核大小为3×3、卷积核个数为32,补零参数为1,和第一百三十四卷积 层,卷积核大小为3×3、卷积核个数为32,补零参数为1,再和F3像素相加, 得到交流输出3。第一个边缘聚合特征图E1经过第三插值层,放大倍数(scale factor)为1/8,插值方法为双线性差值(bilinear),和第一个特征聚合块的第 四个输出F4通道相加,然后经过第一百三十五卷积层,卷积核大小为3×3、 卷积核个数为32,补零参数为1,和第一百三十六卷积层,卷积核大小为3 ×3、卷积核个数为32,补零参数为1,再和F4像素相加,得到交流输出4。
对于第二个特征聚合块,第二个特征聚合块由第五特征叠加块、第六特 征叠加块、第七特征叠加块、第八特征叠加块四个特征叠加块组成,第五特 征叠加块如图4b所示,输入包括交流输出1、交流输出2、交流输出3和交 流输出4。交流输出2经过第九上采样层,放大倍数(scale factor)为2,插值 方法为双线性差值(bilinear),和第一百三十七卷积层,卷积核大小为1×1、 卷积核个数为32,交流输出3经过第十上采样层,放大倍数(scalefactor)为 4,插值方法为双线性差值(bilinear),和第一百三十八卷积层,卷积核大小 为1×1、卷积核个数为32,交流输出4经过第十一上采样层,放大倍数(scale factor)为8,插值方法为双线性差值(bilinear),和第一百三十九卷积层,卷 积核大小为1×1、卷积核个数为32,这四个输入经过通道叠加,经过注意力 膨胀卷积,再和交流输出1像素相加,得到输出。将32张聚合特征图的集合 记为F5,特征图宽度为W/4,高度为H/4。第六特征叠加块如图4c所示,输 入包括交流输出2、交流输出3和交流输出4。交流输出3经过第十一上采样层,放大倍数(scale factor)为2,插值方法为双线性差值(bilinear),和第一 百四十卷积层,卷积核大小为1×1、卷积核个数为32,交流输出4经过第十 二上采样层,放大倍数(scale factor)为4,插值方法为双线性差值(bilinear), 和第一百四十一卷积层,卷积核大小为1×1、卷积核个数为32,这三个输入 经过通道叠加,经过注意力膨胀卷积,再和交流输出2像素相加,得到输出。 将32张聚合特征图的集合记为F6,特征图宽度为W/8,高度为H/8。第七特 征叠加块如图4d所示,输入包括交流输出3和交流输出4。交流输出4经过 第十三上采样层,放大倍数(scale factor)为2,插值方法为双线性差值 (bilinear),和第一百四十二卷积层,卷积核大小为1×1、卷积核个数为32, 这两个输入经过通道叠加,经过注意力膨胀卷积,再和交流输出3像素相加, 得到输出。将32张聚合特征图的集合记为F7,特征图宽度为W/16,高度为 H/16。第八特征叠加块如图4d所示,输入为两次交流输出4。这两个输入经 过通道叠加,经过注意力膨胀卷积,再和交流输出4像素相加,得到输出。 将32张聚合特征图的集合记为F8,特征图宽度为W/32,高度为H/32。因此 经过第二个特征聚合块后,得到四个输出:F5,特征图宽度为W/4,高度为 H/4;F6,特征图宽度为W/8,高度为H/8;F7,特征图宽度为W/16,高度为 H/16;F8,特征图宽度为W/32,高度为H/32。
对于第二个边缘聚合块,第二个边缘聚合块如图4e所示,包括五个输入: 交流输出1、交流输出2、交流输出3、交流输出4和第一个边缘聚合输出(E1)。 交流输出2经过第十四上采样层,放大倍数(scale factor)为2,插值方法为双 线性差值(bilinear),和第一百四十三卷积层,卷积核大小为1×1、卷积核 个数为32,交流输出3经过第十五上采样层,放大倍数(scale factor)为4, 插值方法为双线性差值(bilinear),和第一百四十四卷积层,卷积核大小为1 ×1、卷积核个数为32,交流输出4经过第十六上采样层,放大倍数(scalefactor) 为8,插值方法为双线性差值(bilinear),和第一百四十五卷积层,卷积核大 小为1×1、卷积核个数为32,这五个输入经过像素相乘,第一百四十六卷积 层,卷积核大小为3×3、卷积核个数为32,补零参数为1,和第一百四十七 卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为1,再和第一个 边缘聚合输出像素相加,得到输出。将32张边缘聚合特征图的集合记为E2, 特征图宽度为W/4,高度为H/4。
第二个边缘聚合特征图E2和第二个特征聚合块的第一个输出F5通道相 加,然后经过第一百四十八卷积层,卷积核大小为3×3、卷积核个数为32, 补零参数为1,和第一百四十九卷积层,卷积核大小为3×3、卷积核个数为 32,补零参数为1,再和F5像素相加,得到交流输出5。第二个边缘聚合特 征图E2经过第四插值层,放大倍数(scale factor)为1/2,插值方法为双线性 差值(bilinear),和第二个特征聚合块的第二个输出F6通道相加,然后经过 第一百五十卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为1, 和第一百五十一卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为 1,再和F6像素相加,得到交流输出6。第二个边缘聚合特征图E2经过第五 插值层,放大倍数(scale factor)为1/4,插值方法为双线性差值(bilinear), 和第二个特征聚合块的第三个输出F7通道相加,然后经过第一百五十二卷积 层,卷积核大小为3×3、卷积核个数为32,补零参数为1,和第一百五十三 卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为1,再和F7像素 相加,得到交流输出7。第二个边缘聚合特征图E2经过第六插值层,放大倍 数(scale factor)为1/8,插值方法为双线性差值(bilinear),和第二个特征聚 合块的第四个输出F8通道相加,然后经过第一百五十四卷积层,卷积核大小 为3×3、卷积核个数为32,补零参数为1,和第一百五十五卷积层,卷积核 大小为3×3、卷积核个数为32,补零参数为1,再和F8像素相加,得到交流 输出8。
对于第三个特征聚合块,第三个特征聚合块由第九特征叠加块、第十特 征叠加块、第十一特征叠加块、第十二特征叠加块四个特征叠加块组成,第 九特征叠加块如图4b所示,输入包括交流输出5、交流输出6、交流输出7 和交流输出8。交流输出6经过第十七上采样层,放大倍数(scale factor)为2, 插值方法为双线性差值(bilinear),和第一百五十六卷积层,卷积核大小为1 ×1、卷积核个数为32,交流输出7经过第十八上采样层,放大倍数(scale factor) 为4,插值方法为双线性差值(bilinear),和第一百五十七卷积层,卷积核大 小为1×1、卷积核个数为32,交流输出8经过第十九上采样层,放大倍数(scalefactor)为8,插值方法为双线性差值(bilinear),和第一百五十八卷积层,卷 积核大小为1×1、卷积核个数为32,这四个输入经过通道叠加,经过注意力 膨胀卷积,再和交流输出6像素相加,得到输出。将32张聚合特征图的集合 记为F9,特征图宽度为W/4,高度为H/4。第十特征叠加块如图4c所示,输 入包括交流输出6、交流输出7和交流输出8。交流输出7经过第二十上采样 层,放大倍数(scale factor)为2,插值方法为双线性差值(bilinear),和第一百五十九卷积层,卷积核大小为1×1、卷积核个数为32,交流输出8经过第 二十一上采样层,放大倍数(scale factor)为4,插值方法为双线性差值 (bilinear),和第一百六十卷积层,卷积核大小为1×1、卷积核个数为32, 这三个输入经过通道叠加,经过注意力膨胀卷积,再和交流输出6像素相加, 得到输出。将32张聚合特征图的集合记为F10,特征图宽度为W/8,高度为 H/8。第十一特征叠加块如图4d所示,输入包括交流输出7和交流输出8。交 流输出8经过第二十二上采样层,放大倍数(scale factor)为2,插值方法为双 线性差值(bilinear),和第一百六十一卷积层,卷积核大小为1×1、卷积核 个数为32,这两个输入经过通道叠加,经过注意力膨胀卷积,再和交流输出 7像素相加,得到输出。将32张聚合特征图的集合记为F11,特征图宽度为 W/16,高度为H/16。第十二特征叠加块如图4d所示,输入为两次交流输出8。 这两个输入经过通道叠加,经过注意力膨胀卷积,再和交流输出8像素相加, 得到输出。将32张聚合特征图的集合记为F12,特征图宽度为W/32,高度为 H/32。因此经过第二个特征聚合块后,得到四个输出:F9,特征图宽度为W/4, 高度为H/4;F10,特征图宽度为W/8,高度为H/8;F11,特征图宽度为W/16, 高度为H/16;F12,特征图宽度为W/32,高度为H/32。
对于第三个边缘聚合块,第三个边缘聚合块如图4e所示,包括五个输入: 交流输出5、交流输出6、交流输出7、交流输出8和第二个边缘聚合输出(E2)。 交流输出6经过第二十一上采样层,放大倍数(scale factor)为2,插值方法为 双线性差值(bilinear),和第一百六十二卷积层,卷积核大小为1×1、卷积 核个数为32,交流输出7经过第二十二上采样层,放大倍数(scale factor)为 4,插值方法为双线性差值(bilinear),和第一百六十三卷积层,卷积核大小 为1×1、卷积核个数为32,交流输出8经过第二十三上采样层,放大倍数(scale factor)为8,插值方法为双线性差值(bilinear),和第一百六十四卷积层,卷 积核大小为1×1、卷积核个数为32,这五个输入经过像素相乘,第一百六十 五卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为1,和第一百 六十六卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为1,再和 第二个边缘聚合输出像素相加,得到输出。将32张边缘聚合特征图的集合记 为E3,特征图宽度为W/4,高度为H/4。
第三个边缘聚合特征图E3和第三个特征聚合块的第一个输出F9通道相 加,然后经过第一百六十七卷积层,卷积核大小为3×3、卷积核个数为32, 补零参数为1,和第一百六十八卷积层,卷积核大小为3×3、卷积核个数为 32,补零参数为1,再和F9像素相加,得到交流输出9。第三个边缘聚合特 征图E3经过第七插值层,放大倍数(scale factor)为1/2,插值方法为双线性 差值(bilinear),和第三个特征聚合块的第二个输出F10通道相加,然后经 过第一百六十九卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为 1,和第一百七十卷积层,卷积核大小为3×3、卷积核个数为32,补零参数 为1,再和F10像素相加,得到交流输出10。第三个边缘聚合特征图E3经过 第八插值层,放大倍数(scale factor)为1/4,插值方法为双线性差值(bilinear), 和第三个特征聚合块的第三个输出F11通道相加,然后经过第一百七十一卷 积层,卷积核大小为3×3、卷积核个数为32,补零参数为1,和第一百七十 二卷积层,卷积核大小为3×3、卷积核个数为32,补零参数为1,再和F11 像素相加,得到交流输出11。第三个边缘聚合特征图E3经过第九插值层,放 大倍数(scalefactor)为1/8,插值方法为双线性差值(bilinear),和第三个特 征聚合块的第四个输出F12通道相加,然后经过第一百七十三卷积层,卷积 核大小为3×3、卷积核个数为32,补零参数为1,和第一百七十四卷积层, 卷积核大小为3×3、卷积核个数为32,补零参数为1,再和F12像素相加, 得到交流输出12。
对于多尺度特征聚合块,多尺度特征聚合块(如图5所示)包括四个输 入:交流输出9、交流输出10、交流输出11、交流输出12。交流输出12经 过第二十四上采样层,放大倍数(scale factor)为2,插值方法为双线性差值 (bilinear),和交流输出11通道叠加,经过第一百七十五卷积层,卷积核大 小为3×3、卷积核个数为64,补零参数为1,和第一百七十六卷积层,卷积 核大小为1×1、卷积核个数为32,再和交流输出11像素相加,经过第二十 五上采样层,放大倍数(scale factor)为2,插值方法为双线性差值(bilinear), 和交流输出10通道叠加,经过第一百七十七卷积层,卷积核大小为3×3、卷 积核个数为64,补零参数为1,和第一百七十八卷积层,卷积核大小为1×1、 卷积核个数为32,再和交流输出10像素相加,经过第二十六上采样层,放大 倍数(scale factor)为2,插值方法为双线性差值(bilinear),和交流输出9通 道叠加,经过第一百七十九卷积层,卷积核大小为3×3、卷积核个数为64, 补零参数为1,和第一百八十卷积层,卷积核大小为1×1、卷积核个数为32,再和交流输出9像素相加,经过第一百八十一卷积层,卷积核大小为3×3、 卷积核个数为32,补零参数为1,和第一百八十二卷积层,卷积核大小为1 ×1、卷积核个数为1,得到输出层。再经过第二十七上采样层,放大倍数(scale factor)为4,插值方法为双线性差值(bilinear)输出一幅宽度为W,高度为H 的特征图,为最终预测结果。由于本网络结构把任务细分的很具体,高低特 征利用充分,使用带注意力膨胀卷积的通道变换机制融合特征,使用边缘辅 助让显著性图更完善,实验证明此网络结果很好。
步骤1_3:将训练集中的原始立体图像的RGB图和深度图作为输入,输 入到上一个步骤构建好的卷积神经网络二分类模型进行训练,得到对应的显 著性检测图,记为
Figure BDA0002573916920000211
步骤1_4:计算卷积神经网络分类模型的损失函数值,将预测到第i个显 著性图记为
Figure BDA0002573916920000212
将原始训练集的第i个标签标签图记为
Figure BDA0002573916920000213
Figure BDA0002573916920000214
Figure BDA0002573916920000215
之 间的损失函数值记为
Figure BDA0002573916920000216
步骤1_5:重复执行步骤1_3和步骤1_4M次,在本发明中取值M=800, 得到卷积神经网络分类训练模型,一轮训练总共会得到N×M个损失函数值, 用总损失函数值与训练集图片对数相除得到本轮训练损失函数值,找到最小 的损失函数值,得到最小损失函数值分类模型的权重和偏置数值,对应记为 Wbest和Bbest;。
所述测试阶段过程的具体步骤为:
步骤2_1:用
Figure BDA0002573916920000217
来表示待测的3D图像成对数据图片;其中,1≤x′≤W′, 1≤y′≤H′,W'表示
Figure BDA0002573916920000218
的宽度,H'表示
Figure BDA0002573916920000219
的高度,S(x′,y′)表示
Figure BDA00025739169200002110
中坐标位置为(x′,y′)的像素点的像素值。
步骤2_2:将
Figure BDA0002573916920000221
的R通道分量、G通道分量和B通道分量输入到卷 积神经网络训练模型中,并使用训练阶段得到的Wbest和Bbest进行测试,得到对 应的显著性检测图像,记为
Figure BDA0002573916920000222
其中,
Figure BDA0002573916920000223
表示
Figure BDA0002573916920000224
中坐标 位置为(x′,y′)的像素点的像素值。
所述的步骤1_4中,用二分类交叉熵求出
Figure BDA0002573916920000225
利用pytorch库python语言编写代码对此方法进行实验,实验设备为英特 尔i5-7500处理器,NVIDIA TITAN XP-12GB显卡下使用cuda加速。为保证 实验的严谨性,实验采用数据集NJU2K和NLPR分别进行测试,NJU2K拥 有2000对图片包括1600对训练图片和400张测试图片,NLPR拥有1000张 图片分别是800对训练图片,200对测试图片。在本实验中,利用评估显著性 检测方法的4个常用客观参量作为评价指标:S↑(Structure-measure:A NewWay to Evaluate Foreground Maps),adpE↑度量值,度量值,MAE↓平均绝对 误差(MeanAbsolute Error)来评价显著性检测图像的检测性能,其中adpF↑度 量值通过计算精准率和召回率求出用来评价检测方法好坏的重要指标。
最后通过本方法生成的显著性图像通过和标签对比,分别用S↑,adpE↑, adpF↑,MAE↓来作为评价指标评价此方法好坏,两个数据集的评价指标如 表1,由表1可见本方法在两个数据集上的表现是优秀的。
表1本方法在两个数据上的评测结果
Figure BDA0002573916920000226
图6a为NJU2K测试集随机挑选一个标签图片;图6b为利用本发明方法 对应6a卷积神经网络模型生成的显著性图;图6c为NJU2K测试集随机挑选 一个标签图片;图6d为利用本发明方法对应6c卷积神经网络模型生成的显 著性图;图7a为NLPR测试集随机挑选一个标签图片;图7b为利用本发明 方法对应7a卷积神经网络模型生成的显著性图;图7c为NLPR测试集随机 挑选一个标签图片;图7d为利用本发明方法对应7c卷积神经网络模型生成 的显著性图,根据表1的数据以及附图图6b、6c、7b、7c的图片可以看出本 发明的显著分割精度较高,分割物体清楚明了。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。 对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述 的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种基于注意力膨胀卷积特征融合的显著物体检测方法,其特征在于,具体步骤如下:
步骤一:选取训练数据集,对所述训练数据集进行预处理;
步骤二:构建端到端的卷积神经网络分类模型;所述卷积神经网络分类模型将高层次特征和低层次特征利用充分,使用注意力机制结构和注意力膨胀卷积结构进行融合特征,并利用边缘辅助完善显著性图;
步骤三:将训练数据集中的原始立体图像的RGB图和深度图作为输入,输入到构建好的所述卷积神经网络分类模型进行训练,得到对应的显著性检测图;
步骤四:计算卷积神经网络分类模型的损失函数值;
步骤五:重复执行步骤三和步骤四,进一步得到最小损失函数值分类模型的权重和偏置数值;
步骤六:得到最终的卷积神经网络分类模型;
步骤七:输入测试数据集到最终的卷积神经网络分类模型中,得到预测结果。
2.根据权利要求1所述的一种基于注意力膨胀卷积特征融合的显著物体检测方法,其特征在于,所述注意力机制结构包括两个分支;其中第一输入在第一分支依次经过平均池化,第一卷积层和第二卷积层,得到第一输出;第一输入在第二分支依次经过最大池化,第三卷积层和第四卷积层,得到第二输出;将所述第一输出和所述第二输出像素相加,得到第三输出;将所述第一输入和所述第三输出像素相乘,作为下一阶段的输入,记为第二输入;所述第二输入在第一个分支经过第二平均池化,得到第四输出;所述第二输入在第二个分支经过第二最大池化,得到第五输出,将所述第四输出和所述第五输出通道叠加,经过第五卷积层,第四激活层,得到第五输出;将所述第五输出和所述第二输入像素相乘,结果与第一输入像素相加,得到最终输出。
3.根据权利要求2所述的一种基于注意力膨胀卷积特征融合的显著物体检测方法,其特征在于,所述注意力膨胀卷积结构中,第一输入经过第一卷积层和第二卷积层,分为三个分支,第二输入、第三输入和第四输入作为输入;所述第一输入经过第三卷积层,第四卷积层,经过所述注意力机制结构,得到第一输出;所述第二输入经过第五卷积层,第六卷积层,经过所述注意力机制结构,得到第二输出;所述第三输入经过第七卷积层,第八卷积层,经过所述注意力机制结构,得到第三输出;将所述第一输出、第二输出、第三输出通道叠加,经过第九卷积层,得到最终输出。
4.根据权利要求1所述的一种基于注意力膨胀卷积特征融合的显著物体检测方法,其特征在于,所述步骤一中,具体步骤如下:选取N对原始3D图像,其中,一对原始3D图像包括一张RGB图片和一张深度图;再选取对应的标签图构成原始训练集,对所述训练数据集进行预处理,转换输入图片的高度、宽度。
5.根据权利要求1所述的一种基于注意力膨胀卷积特征融合的显著物体检测方法,其特征在于,所述步骤七中,具体步骤如下:
输入待测的3D图像成对数据图片;
将待测的3D图像成对数据图片的R通道分量、G通道分量和B通道分量输入到卷积神经网络训练模型中,并使用训练阶段得到的权重和偏置数值进行测试,得到对应的显著性检测图像。
CN202010654187.2A 2020-07-07 2020-07-07 基于注意力膨胀卷积特征融合的显著物体检测方法 Pending CN111798436A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010654187.2A CN111798436A (zh) 2020-07-07 2020-07-07 基于注意力膨胀卷积特征融合的显著物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010654187.2A CN111798436A (zh) 2020-07-07 2020-07-07 基于注意力膨胀卷积特征融合的显著物体检测方法

Publications (1)

Publication Number Publication Date
CN111798436A true CN111798436A (zh) 2020-10-20

Family

ID=72809670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010654187.2A Pending CN111798436A (zh) 2020-07-07 2020-07-07 基于注意力膨胀卷积特征融合的显著物体检测方法

Country Status (1)

Country Link
CN (1) CN111798436A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348870A (zh) * 2020-11-06 2021-02-09 大连理工大学 一种基于残差融合的显著性目标检测方法
CN113326809A (zh) * 2021-06-30 2021-08-31 重庆大学 基于三通道神经网络的离线签名鉴定方法及***
CN113837223A (zh) * 2021-08-24 2021-12-24 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348870A (zh) * 2020-11-06 2021-02-09 大连理工大学 一种基于残差融合的显著性目标检测方法
CN113326809A (zh) * 2021-06-30 2021-08-31 重庆大学 基于三通道神经网络的离线签名鉴定方法及***
CN113837223A (zh) * 2021-08-24 2021-12-24 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN113837223B (zh) * 2021-08-24 2023-06-09 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质

Similar Documents

Publication Publication Date Title
CN111798436A (zh) 基于注意力膨胀卷积特征融合的显著物体检测方法
He et al. Towards fast and accurate real-world depth super-resolution: Benchmark dataset and baseline
CN110782462A (zh) 一种基于双流特征融合的语义分割方法
CN110992238B (zh) 一种基于双通道网络的数字图像篡改盲检测方法
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN111428602B (zh) 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN109447897B (zh) 一种真实场景图像合成方法及***
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN108711182A (zh) 渲染处理方法、装置及移动终端设备
CN111709947B (zh) 一种双流沟通和全局信息引导的显著物体图像检测方法
CN112132739B (zh) 3d重建以及人脸姿态归一化方法、装置、存储介质及设备
CN112070753A (zh) 多尺度信息增强双目卷积神经网络显著性图像检测方法
CN111860138A (zh) 基于全融合网络的三维点云语义分割方法及***
CN112257509A (zh) 基于联合信息编码的立体图像单流视觉显著性检测方法
CN111445432A (zh) 一种基于信息融合卷积神经网络的图像显著性检测方法
CN114373073A (zh) 一种用于道路场景语义分割的方法及***
CN112529862A (zh) 一种交互循环特征重塑的显著性图像检测方法
Hien et al. Artwork style transfer model using deep learning approach
CN112364709A (zh) 基于编码识别的机柜智能资产盘点方法
CN108520532B (zh) 识别视频中物体运动方向的方法及装置
Zhang et al. S2wat: Image style transfer via hierarchical vision transformer using strips window attention
CN112241743A (zh) 一种显著图再生成三流网络的rgbd图像显著性检测方法
CN117315387A (zh) 一种工业缺陷图像生成方法
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN115861401A (zh) 一种双目与点云融合深度恢复方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination