CN111428602A - 卷积神经网络边缘辅助增强的双目显著性图像检测方法 - Google Patents

卷积神经网络边缘辅助增强的双目显著性图像检测方法 Download PDF

Info

Publication number
CN111428602A
CN111428602A CN202010191633.0A CN202010191633A CN111428602A CN 111428602 A CN111428602 A CN 111428602A CN 202010191633 A CN202010191633 A CN 202010191633A CN 111428602 A CN111428602 A CN 111428602A
Authority
CN
China
Prior art keywords
convolution
layer
block
neural network
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010191633.0A
Other languages
English (en)
Other versions
CN111428602B (zh
Inventor
周武杰
柳昌
雷景生
何成
王海江
周扬
邱薇薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010191633.0A priority Critical patent/CN111428602B/zh
Priority claimed from CN202010191633.0A external-priority patent/CN111428602B/zh
Publication of CN111428602A publication Critical patent/CN111428602A/zh
Application granted granted Critical
Publication of CN111428602B publication Critical patent/CN111428602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种卷积神经网络边缘辅助增强的双目显著性图像检测方法。采集原始3D图像包括RGB图和深度图构成训练集;构建RGB图网络和深度图网络,RGB图网络和深度图网络之间通过融合卷积模块连接再融合生成最后的显著性图,形成双目卷积神经网络;将训练集进行训练得到总损失;通过反向传播优化神经网络权重参数,获得训练后的双目卷积神经网络;待测的图像输入到双目卷积神经网络中后预测处理,输出结果。本发明采用双目网络区域增强边缘辅助来生成显著性图,用边缘图来对区域图进行边界加强,输出结果更加准确清晰,解决了现有技术存在显著区域不明显和边界不明确的问题,提高检测效率和精度。

Description

卷积神经网络边缘辅助增强的双目显著性图像检测方法
技术领域
本发明是一种涉及深度学习的视觉图像显著性检测方法,尤其是涉及一种 卷积神经网络区域增强边缘辅助的双目显著性图像检测方法。
背景技术
学界早有注意力机制这个词的提出,当人眼看到一幅画面的时候,往往视 觉会特别注意某个地方或某个位置,而且由于人类大脑储存即时信息的局限性, 会选择人脑认为重要的信息优先处理。人脑的这个特殊机制就回引导着人去关 注这个区域特殊的位置,一般人眼看到这幅画面的这个区域位置称为显著性区 域,而找到人眼显著性区域的任务称作显著性检测,显著性检测不管在生物学 上还是计算机学科都有广泛应用。早前的显著性检测主要是依赖传统手工方法, 通过找到手工特征来计算显著性区域图,但是往往手工特征显著性显示区域过 于模糊,分辨率不够,显著区域不太明亮,与原本所期望的显著性图差别太大, 从而达不到业界应用所需的标准。而计算机硬件发展伴随而来的神经网络热潮正好迎合了显著性检测这个方向,用深度学习模型生成的显著性图往往比手工 提取有精确率高,检测效果好,高分辨率突出物体保持物体原有信息,并且具 有良好甚至优秀的计算效率。
虽然说深度学习模型的应用,卷积网络用来提取图片特征获得了相对于比 手工特征较好的结果,但是卷积层和池化层带来的特征丢失也是卷积计算上一 个神经网络计算上存在的一个问题,如何利用好网络从低到高的特征来充分完 善显著性图依旧是一个普遍存在的问题需要去解决,由于我们数据集是对状图 片集,如何利用深度图的补充信息也是神经网络需要面临的问题,包括深度网 络信息与RGB网络信息的充分融合,这也是我们需要解决的。
发明内容
为了解决以上的问题,本发明提出了一种卷积神经网络区域增强边缘辅助 的双目显著性图像检测方法,经过实验证明,其显著性检测效率高,结果好。
本发明解决上述技术问题所采用的技术方案为:
步骤1-1:采集原始3D图像,原始3D图像包括RGB图和深度图,RGB 图和深度图是一对训练图片,将RGB图和深度图构成训练集,将训练集分为多 个不同批次,每一批具有若干图;
原始3D图像对应有标签图,标签图是根据人眼注意力来判定显著区域。
步骤1-2:构建RGB图网络和深度图网络,深度图网络是依赖RGB图网络 结合边缘图的特性对边缘辅助卷积神经网络进行构造,RGB图网络和深度图网 络之间通过融合卷积模块连接再融合生成最后的显著性图,形成此专利的双目 卷积神经网络;
所述的显著性图是指图像中真实人眼注意力所关注的区域标注图。
步骤1-3:将训练集的不同批次图和对应的已知已标注真实人眼显著区域的 标签图依次输入到双目卷积神经网络中进行训练,训练过程中每一批次图经双 目卷积神经网络处理输出的结果和对应的标签图进行对比得到M个损失函数 值,M表示同一批次中的图总数,N表示批次的总数,共计获得N*M个损失函 数值,将所有损失函数值相加后除以图总个数N*M得到总损失;
步骤1-4:通过反向传播优化神经网络权重参数,将最小损失函数值对应的 权值矢量和偏置项作为双目卷积神经网络的最优权值矢量和最优偏置项,从而 获得训练后的双目卷积神经网络;
步骤1-5:对于待测的图像,输入到训练后的双目卷积神经网络中后预测处 理,输出预测图即为显著性图,完成了双目显著性图像检测。
如图1所示,所述步骤1-2中,双目卷积神经网络包括总输出层、融合卷积 块、RGB图网络和深度图网络,RGB图网络用于生成区域图作为区域图,深度 图网络用于生成边缘图,用边缘图进行边缘辅助对显著性图进行优化。RGB图、 深度图分别输入到RGB图网络、深度图网络,RGB图网络和深度图网络的输出 分别连接输入到融合卷积块,融合卷积块的输出连接总输出层;
所述的RGB图网络包括第一、第二、第三、第四、第五、第六、第七神经 网络块以及六个过渡卷积块、两个聚合模块、一个整体注意力块、一个区域增 强模块;RGB图连接输入到第一输入层,第一输入层的输出依次经第一神经网 络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、 第三过渡卷积块和第一聚合模块后连接输入到区域增强模块,区域增强模块的 输出连接到第一输出层,同时第三神经网络块的输出和第四神经网络块的输出 分别经第一过渡卷积块、第二过渡卷积块后连接输入到第一聚合模块,第一聚 合模块的输出和第三神经网络块的输出一起输入到整体注意力块,整体注意力块的输出依次经第六神经网络块、第七神经网络块、第六过渡卷积块后连接到 第二聚合模块,同时整体注意力块的输出和第六神经网络块的输出分别经第四 过渡卷积块、第五过渡卷积块连接输入到第二聚合模块,第二聚合模块的输出 和区域增强模块的输出均连接到点和层作相加处理,点和层的输出分别输入到 融合卷积块和第二输出层;
所述的深度图网络和RGB图网络的结构基本一致,RGB图网络采用 resnet-50作为基本网络,深度图采用VGG作为基本网络,深度图网络仅采用了 一个自适应卷积块模块代替区域增强模块;且深度图网络和RGB图网络的点和 层的输出均连接输入到融合卷积块;
RGB图网络和深度图网络分别输出区域图和边缘图,RGB图网络的第一个 输出层和第二输出层分别输出通过区域增强模块区域图和通过第一个头注意力 块的区域图,第二个输出层输出的区域图较第一个输出层输出的区域图显著效 果更好,但是第一个输出层区域图携带的信息特征会更多,深度图网络的第一 个输出层和第二个输出层分别输出通过过渡卷积块边缘图和通过第二个头注意 力块的边缘图,第二个边缘输出层较第一个边缘输出层输出效果更好,但是第 一个边缘输出层携带的信息特征会更多,将边缘图输入到融合卷积块对区域图 进行修正处理获得最终的显著性图。
所述步骤1-3中,计算每个损失函数值时,是将单目区域卷积神经网络的两 个输出层输出的区域图分别和标签图作损失计算获得第一损失值和第二损失 值,同时将边缘辅助卷积神经网络的两个输出层输出的边缘图分别和边缘标签 图作损失计算获得第散损失值和第四损失值,边缘标签图是由标签图经Canny 算子边缘提取获得,同时将融合卷积块输出的显著性图和标签图作损失计算获 得第五损失值,将五个损失值相加获得损失函数值。
所述的双目卷积神经网络有五个输出,分别为RGB图网络的两个输出层的 区域图输出,深度图网络的两个输出层的边缘图输出,以及最后融合卷积块的 显著性图输出。
本发明的双目卷积神经网络主要由RGB图网络和深度图网络构成,网络有 多个输出层对通道的过渡,除了最后结果输出之外都包括一个简单的卷积块, 本方法显著性检测输出仅仅需要一个通道即可。
RGB图网络采用分流网络结构,基础网络结构为resnet-50,大致分为五块, 第一步图片预处理之后经过卷积池化为第一层,命名为第一个神经网络块,接 下来有四块包括瓶颈结构不同层数的四块网络分别为第二个神经网络块、第三 个神经网络块,第四个神经网络块和第五个神经网络块,然后采用分流网络添 加分别与第四神经网络块与第五神经网络块一致的第六个神经网络块、第七个 神经网络块。当RGB图片输入先经过一层卷积层,一个池化层,再依次经过第 二个神经网络块,第三个神经网络块,此时网络开始分流分别经过第四个神经 网络块,第五个神经网络块和第六个神经网络块,第七个神经网络块。
深度图网络也采用分流网络结构,基础网络为VGG,VGG网络包括第一个 神经网络块、第二个神经网络块、第三个神经网络块、第四个神经网络块、第 五个神经网络块和与第四个神经网络块和第五个神经网络块一致的第六个神经 网络块和第六个神经网络块。深度图预处理之后依次经过第一神经网络块,第 二个神经网络块、第三个神经网络块开始分流分别经过第四个神经网络块,第 五个神经网络块和第六个神经网络块,第七个神经网络块。
所述的RGB图网络和深度图网络的两个输出层均包含一个简单的卷积层, 共计四个输出层,仅仅做通道变换为显著性任务所需;总输出层仅输出无任何 计算操作。
所述的区域增强模块为编码解码网络,采用U型网络结构,输入的特征图 先经过连续两个卷积层、一个池化层、一个卷积层、一个池化层、连续两个卷 积层、一个池化层后连接输入到一个中间过渡模块,通过中间过渡模块进入解 码过程,解码过程是把通过双线性差值放大图片以及卷积层提取信息来达到解 码目的最后的一个池化层的输出换为双线性差值上采样变换图片尺寸,整个编 码解码过程中有跳连直接从编码部分流入解码部分,从而最后得到区域增强之 后的图片,并且其中除了第一层卷积层之外的其他卷积层之后均设置有批标准 化和激活函数操作。
如图2a所示,每个所述过渡卷积块结构相同,均主要由两个卷积块和两个 注意力机制块组成,输入的特征图经过第一个卷积块改变特征图个数,再依次 经过两个注意力机制块后再与输入的特征图一起输入到叠合层进行堆叠后输入 第四卷积块,最后第二个卷积块输出;两个卷积块的结构相同,均由三个卷积 层依次连接构成。
如图2b所示,所述的融合卷积块包括三个卷积块和三个张量运算操作,每 次区域图与边缘图进行运算之后都会经过拥有三个卷积层的卷积块;边缘辅助 卷积神经网络和单目区域卷积神经网络的点和层分别输出边缘图与区域图,融 合卷积块的融合方式为边缘图与区域图融合,一方面边缘图与区域图共同输入 到一个点和层进行张量加操作,另一方面边缘图与区域图共同输入到一个点乘 层进行张量乘操作,点和层和点乘层的输出经各自的一个卷积块后连接到叠 合层进行堆叠后输入到第三个卷积块,最后由第三个卷积块输出;三个卷积块 的结构相同,均由三个卷积层依次连接构成。
本发明大量使用三个卷积层堆叠的卷积块操作,因为涉及的卷积层卷积核 都不大,这样有节省算力提高模型效率,能够带来精确提取图片信息好处和充 分利用图片特征的优势。
单目区域卷积神经网络的输入层的输入为3D图像的RGB图,RGB图的输 入层分别为R通道、B通道、G通道;边缘辅助卷积神经网络的输入层的输入 为3D图像的深度图,深度图经过HHA预处理之后同样为三通道,以方便网络 预训练。
所述的聚合模块主要由六个上采样单元和十个卷积单元构成,第三过渡卷 积块/第六过渡卷积块的输出分别连接输入到第一上采样单元和第二上采样单 元,第一上采样单元的输出连接输入到第一卷积单元,第一卷积单元的输出和 第二过渡卷积块/第四过渡卷积块的输出均连接到第一个点乘层处理,第一上采 样单元的输出经第四卷积单元后和第一个点乘层的输出一起连接输入到第一个 叠合层作相连接处理,第一个叠合层的输出依次经第六卷积单元、第四上采样 单元后输入到第五卷积单元,第二上采样单元的输出经第三上采样单元后输入 到第二卷积单元,同时第二过渡卷积块/第四过渡卷积块的输出经第五上采样单 元输入到第三卷积单元,第一过渡卷积块/第一过渡卷积块的输出以及第二卷积 单元和第三卷积单元的输出一起连接输入到第二个点乘层,第二个点乘层的输 出和第五卷积单元的输出一起输入到第二个叠合层作相连接处理,第二个叠合 层的输出经第七卷积单元后连接输入到第八卷积单元,第八卷积单元的输出经 第九卷积单元后连接输入到整体注意力块/点和层,同时第八卷积单元的输出依 次经第十卷积单元和第六上采样单元后输入到区域增强模块。
所述的整体注意力块均是仅由一个卷积层组成。
所述的第一神经网络块是由一个卷积层、一个池化层和一个激活层依次连 接组成;所述的第二神经网络块是由一个卷积单元、连续两个卷积块依次连接 组成,所述的第三神经网络块是由一个卷积单元、连续三个卷积块依次连接组 成,所述的第四神经网络块是由一个卷积单元、连续五个卷积块依次连接组成, 所述的第五神经网络块是由一个卷积单元、连续两个卷积块依次连接组成,所 述的第六神经网络块是由一个卷积单元、连续五个卷积块依次连接组成,所述 的第七神经网络块是由一个卷积单元、连续两个卷积块依次连接组成;所述的 卷积单元是由连续三个卷积层、一个跳连下采样卷积层和一个激活层依次连接 组成,所述的卷积块是由连续三个卷积层和一个激活层依次连接组成。
所述的跳连下采样卷积层为一个步长为2卷积核为1能实现图片尺寸变换 的卷积层。
所述的自适应卷积块模块为一个卷积核为1的卷积层,这为了提取到有用 的信息而设置的。
具体实施中,选取N对原始3D图像,3D图像的一对图片包括一张RGB 图片其中第k副记为
Figure RE-GDA0002528299260000061
和一张深度图其中第k副记为
Figure RE-GDA0002528299260000062
再选取 对应的标签图其中第k副记为{Gk(x,y)}构成原始训练集,k为正整数,1≤k≤N, 1≤x≤W,1≤y≤H,再对输入图片进行预处理,图片变换为W*H,W是预处理 之后的图片的宽度,H是预处理之后图片的高度,在本发明中WH均为224, Rk(x,y)表示
Figure RE-GDA0002528299260000063
中坐标位置为(x,y)的像素点的像素值,
Figure RE-GDA0002528299260000064
表示
Figure RE-GDA0002528299260000065
中坐标位置为(x,y)的像素点的像素值,Gk(x,y)表示{Gk(x,y)}中坐标位 置为(x,y)的像素点的像素值。
具体实施中,本实验选定数据集为NJU2K和NLPR,均为知名公开数据集。 NJU2K拥有2000对图片包括1600对训练图片和400张测试图片,NLPR拥有 1000张图片分别是800对训练图片,200对测试图片。
如图1所示,具体实施中,对于输入层:单目区域卷积神经网络的第一输 入层,输入图片经过预处理为H*W大小,通道为3通道,分别为R通道,G通 道,B通道;边缘辅助卷积神经网络的第二输入层,输入图片经过预处理为H*W, 通道为1通道,经过HHA处理之后变为三通道。
对于作为RGB网络的单目区域卷积神经网络:输入到第一个神经网络块, 输出的特征图的集合为S1,依次经过第二个神经网络块得到特征图S2,第三个 神经网络块得到特征图S3,RGB网络在这里开始分流,特征图S3经过第四个 神经网络块得到S4,经过第五个神经网络块得到S5,特征图S3、S4、S5经过第 一个过渡卷积块、第二个过渡卷积块、第二个过渡卷积块、得到特征图T1、特 征图T2、特征图T3,其特征图个数一致,尺寸2的倍数递减,然后通过第一个 聚合模块接受T1、T2、T3,得到特征图A1和A3,A1与S3同时输入到整体注意 力模块得到特征图H1,特征图H1再经过第六神经网络块、第七个神经网络块 分别得到S6、S7,整体注意力模块输出特征图H1和S6、S7再经过第四个过渡卷 积块、第五个过渡卷积块、第六个过渡卷积块得到T4、T5、T6,特征图T4、T5、 T6再经过第二个聚合模块得到A2,特征图A3经过区域增强模块得到特征图Q, 特征图Q与A2得到区域预测图两张。
对于作为深度图网络的边缘辅助卷积神经网络:输入到第一个神经网络块, 输出的特征图的集合为D1,依次经过第二个神经网络块得到特征图D2,第三个 神经网络块得到特征图D3,RGB网络在这里开始分流,特征图S3经过第四个神 经网络块得到D4,经过第五个神经网络块得到D5,特征图D3、D4、D5经过第 一个过渡卷积块、第二个过渡卷积块、第二个过渡卷积块、得到特征图P1、特 征图P2、特征图T3,其特征图个数一致,尺寸2的倍数递减,然后通过第一个 聚合模块接受P1、P2、P3,得到特征图B1和B3,B1与D3同时输入到整体注意 力模块得到特征图H2,特征图H2再经过第六神经网络块、第七个神经网络块分 别得到D6、D7,整体注意力模块输出特征图H2和D6、D7再经过第四个过渡卷 积块、第五个过渡卷积块、第六个过渡卷积块得到P4、P5、P6,特征图P4、P5、 P6再经过第二个聚合模块得到B2,特征图B3经过自适应卷积块得到特征图2张, 两张特征图与B2得到的边缘预测图两张。
针对现有单目网络的显著性图往往存在显著区域不明显、边界不明确的问 题,本发明方法采用双目网络区域增强边缘辅助来生成显著性图,输入改变为 一对图片分别是RGB彩色图和深度图,采用深度图生成的边缘图来对区域图进 行边界加强,使最后生成的图片更加准确清晰,经过实验本方法在显著性检测 两个数据集上都有很好的表现。
本发明的有益效果:
1)本发明方法构建一个双目的端到端卷积神经网络,构建了一个每个过渡 卷积块取提取不同等级特征。
2)本发明方法采用了聚合模块来充分利用高低级特征。
3)本发明方法采用了边缘辅助,使用边缘信息通过融合卷积块和区域图进 行融合。
4)本发明采用了多层监督的方法,提高检测效率和精度。
附图说明
图1为本发明的总体实现框图;
图2a为本发明的第n个过渡卷积块;
图2b为本发明的融合卷积块;
图2b中,C表示通道相叠,X表示张量相乘操作,+表示张量相加操作;
图3a为NJU2K测试集随机挑选一个标签图片;
图3b为利用本发明方法对应3a卷积神经网络模型生成的显著性图;
图4a为NJU2K测试集随机挑选一个标签图片;
图4b为利用本发明方法对应4a卷积神经网络模型生成的显著性图;
图5a为NLPR测试集随机挑选一个标签图片;
图5b为利用本发明方法对应5a卷积神经网络模型生成的显著性图;
图6a为NLPR测试集随机挑选一个标签图片;
图6b为利用本发明方法对应6a卷积神经网络模型生成的显著性图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明具体实施例及其实施过程包括:
包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1-1:选取N对原始3D图像,一对图片包括一张RGB图片其中第k 副记为
Figure RE-GDA0002528299260000081
和一张深度图其中第k副记为
Figure RE-GDA0002528299260000082
再选取对应的标签图 其中第k副记为{Gk(x,y)}构成原始训练集,其中,N为正整数,N≥200,如取 N=600,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,再对输入图片进行预处理, 图片变换为W*H,W是预处理之后的图片的宽度,H是预处理之后图片的高度, 在本发明中WH均为224,Rk(x,y)表示
Figure RE-GDA0002528299260000083
中坐标位置为(x,y)的像素点的 像素值,
Figure RE-GDA0002528299260000084
表示
Figure RE-GDA0002528299260000085
中坐标位置为(x,y)的像素点的像素值,Gk(x,y)表 示{Gk(x,y)}中坐标位置为(x,y)的像素点的像素值,本实验选定数据集为NJU2K 和NLPR,均为知名公开数据集。NJU2K拥有2000对图片包括1600对训练图 片和400张测试图片,NLPR拥有1000张图片分别是800对训练图片,200对 测试图片。
步骤1-2:构建端到端的卷积神经网络:卷积神经网络包括输入层、隐层和 输出层,隐藏层依次是RGB图网络的第一个神经网络块、第二个神经网络块、 第三个神经网络块、第四个神经网络块、第五个神经网络块、第六个神经网络 块、第七个神经网络块、第一个过渡卷积块、第二个过渡卷积块、第三个过渡 卷积块、第四个过渡卷积块、第五个过渡卷积块、第六个过渡卷积块、第一个 头注意力块、第一个聚合模块、第二个聚合模块、区域增强模块、融合卷积块、 第一个输出层、第二个输出层、深度图网络的第八个神经网络块、第九个神经 网络块、第十个神经网络块、第十一个神经网络块、第十二个神经网络块、第 十三个神经网络块、第十四个神经网络块、第七个过渡卷积块、第八个过渡卷 积块、第九个过渡卷积块、第十个过渡卷积块、第十一个过渡卷积块、第十二 个过渡卷积块、第二个头注意力块、第三个聚合模块、第四个聚合模块、过渡 卷积块。第一个边缘输出层、第二个边缘输出层和一个总输出层。
对于输入层,分为RGB网络和深度网络,RGB网络为输入层1,输入图片 经过预处理为H*W大小,通道为3通道,分别为R通道,G通道,B通道,深 度网络为输入层2,输入图片经过预处理为H*W,通道为1通道,经过HHA处 理之后变为三通道。
对于RGB图网络:基础网络包括第一个神经网络块、第二个神经网络块、 第三个神经网络块、第四神经网络块、第五个神经网络块、第六个神经网络块、 第七个神经网络块,第一个过渡卷积块、第二个过渡卷积块、第三个过渡卷积 块、第四个过渡卷积块、第五个过渡卷积块、第六个过渡卷积块,第一个神经 网络块是由第一卷积层(Convolution,Conv),第一池化层(Maxpooling,Pool), 第一激活层组成,激活方式(Activation,Act)为“Relu”,经过第一个神经网 络块输出64张特征图,卷积层卷积核(kernel_size)大小为7*7、卷积核(filters) 个数为64、步长(stride)为2,补零参数(padding)的值为1。池化层的卷积 核大小为3*3、步长为2,补零参数为3,将64张特征图的集合记为S1,特征图 宽度为W/4,高度为H/4,以下未介绍的步长都为1,未介绍的补零参数3*3 卷积核的卷积为1,1*1卷积为0,未介绍的池化均为最大池化。
对于第二个神经网络块,第二个神经网络块由三个卷积块组成,第一卷积 块由第二卷积层,第三卷积层,第四卷积层,第一跳连下采样卷积层,第二激 活层,激活方式为“Relu”,第二卷积层卷积核大小为1*1、卷积核个数为64, 第三卷积层卷积核大小为3*3、卷积核个数为64、补零参数为1,第四卷积层卷 积核大小为1*1、卷积核个数为256,第一跳连下采样卷积层卷积核大小为1*1、 卷积核个数为256,第二卷积块由第五卷积层,第六卷积层,第七卷积层,第三 个激活层,激活方式为“Relu”,第五卷积层卷积核大小为1*1、卷积核个数为 64,第六卷积层卷积核大小为3*3、卷积核个数为64、补零参数为1,第七卷积 层卷积核大小为1*1、卷积核个数为256,第三卷积块由第八个卷积层,第九卷 积层,第十卷积层,第四激活层,激活方式为“Relu”,第八卷积层卷积核大小 为1*1、卷积核个数为64,第九卷积层卷积核大小为3*3、卷积核个数为64、 补零参数为1,第十个卷积层卷积核大小为1*1、卷积核个数为256,将256张 特征图的集合记为S2,特征图宽度为W/4,高度为H/4。
对于第三个神经网络块,第三个神经网络块由四个卷积块组成,第四卷积 块有第十一卷积层,第十二卷积层,第十三卷积层,第二跳连下采样卷积层, 第五激活层,激活方式为“Relu”第十一卷积层卷积核大小为1*1、卷积核个数 为128,第十二卷积层卷积核大小为3*3、卷积核个数为128、步长为2、补零 参数为1,第十三卷积层卷积核大小为1*1,卷积核个数为512,第二跳连下采 样卷积层卷积核大小为1*1、卷积核个数为512、步长为2。第五卷积块由第十 四卷积层,第十五卷积层,第十六卷积层,第六激活层,激活方式为“Relu”第十四卷积层卷积核大小为1*1、卷积核个数为128,第十五卷积层卷积核大小为 3*3、卷积核个数为128、补零参数为1,第十六卷积层卷积核大小为1*1,卷积 核个数为512。第六卷积块由由第十七卷积层,第十八卷积层,第十九卷积层, 第七激活层,激活方式为“Relu”第十七卷积层卷积核大小为1*1、卷积核个数 为128,第十八卷积层卷积核大小为3*3、卷积核个数为128、补零参数为1, 第十九卷积层卷积核大小为1*1,卷积核数为512。第七卷积块由第二十卷积层, 第二十一卷积层,第二十二卷积层,第八激活层,激活方式为“Relu“,第二十 卷积层卷积核大小为1*1、卷积核个数为128,第二十一卷积层卷积核大小为3*3、 卷积核个数为128、补零参数为1,第二十二卷积层卷积核大小为1*1,卷积核 个数为512。,将512张特征图的集合记为S3,特征图宽度为W/8,高度为H/8。
对于第四个神经网络块,第四个神经网络块由六卷积块组成,第八卷积块 由由第二十三卷积层,第二十四卷积层,第二十五卷积层,第三跳连下采样卷 积层,第一个下采样激活层,激活方式为“Relu,第二十三卷积层卷积核大小为 1*1、卷积核个数为256,第二十四卷积层卷积核大小为3*3、卷积核个数为256、 步长为2、补零参数为1,第二十五卷积层卷积核大小为1*1,卷积核个数为1024, 第三跳连下采样卷积层卷积核大小为1*1、卷积核个数为1024、步长为2。第九 个卷积块由由第二十六卷积层,第二十七卷积层,第二十八卷积层,第九个激 活层,激活方式为“Relu”第二十六卷积层卷积核大小为1*1、卷积核个数为256,第二十七卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第 二十八卷积层卷积核大小为1*1,卷积核个数为1024。第十个卷积块由由第二 十九卷积层,第三十卷积层,第三十一卷积层,第十激活层,激活方式为“Relu” 第二十九卷积层卷积核大小为1*1、卷积核个数为256,第三十卷积层卷积核大 小为3*3、卷积核个数为256、补零参数为1,第三十一卷积层卷积核大小为1*1, 卷积核个数为1024。第十一个卷积块由第三十二卷积层,第三十三卷积层,第 三十四个卷积层,第十一个激活层,激活方式为“Relu”第三十二卷积层卷积核 大小为1*1、卷积核个数为256,第三十三卷积层卷积核大小为3*3、卷积核个 数为256、补零参数为1,第三十四卷积层卷积核大小为1*1,卷积核个数为1024, 第十二个卷积块由由第三十五卷积层,第三十六卷积层,第三十七卷积层,第 十二激活层,激活方式为“Relu”第三十五卷积层卷积核大小为1*1、卷积核个 数为256,第三十六卷积层卷积核大小为3*3、卷积核个数为256、补零参数为 1,第三十七卷积层卷积核大小为1*1,卷积核个数为1024,第十三个卷积块由 第三十八卷积层,第三十九卷积层,第四十卷积层,第十三激活层,激活方式 为“Relu”第三十八卷积层卷积核大小为1*1、卷积核个数为256,第三十九卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第四十卷积层卷积 核大小为1*1,卷积核个数为1024,将512张特征图的集合记为S4,特征图宽 度为W/16,高度为H/16。
对于第五个神经网络块,第五个神经网络块由三个卷积块组成,第十四卷 积块由第四十卷积层,第四十一卷积层,第四十二卷积层,第四跳连下采样卷 积层,第十四激活层,激活方式为“Relu”,第四十卷积层卷积核大小为1*1、 卷积核个数为512,第四十一卷积层卷积核大小为3*3、卷积核个数为512、步 长为2、补零参数为1,第四十二卷积层卷积核大小为1*1、卷积核个数为2048, 第四跳连下采样卷积层卷积核大小为1*1、卷积核个数为2048、步长为2,第十 五卷积块由第四十三卷积层,第四十四卷积层,第四十五卷积层,十五激活层, 激活方式为“Relu”,第四十三卷积层卷积核大小为1*1、卷积核数为512,第 四十四卷积层卷积核大小为3*3、卷积核个数为512、补零参数为1,第四十五 卷积层卷积核大小为1*1、卷积核个数为2048,第十六卷积块由第四十六卷积 层,第四十七卷积层,第四十八卷积层,第十六激活层,激活方式为“Relu”, 第四十六卷积层卷积核大小为1*1、卷积核个数为512,第四十七卷积层卷积核 大小为3*3、卷积核个数为512、补零参数为1,第四十八卷积层卷积核大小为 1*1、卷积核个数为2048,将2048张特征图的集合记为S5,特征图宽度为W/32, 高度为H/32。
对于第六个神经网络块,第六个神经网络块由六个卷积块组成,第十七卷 积块由由第四十九卷积层,第五十卷积层,第五十一卷积层,第五跳连下采样 卷积层,第十七激活层,激活方式为“Relu,第四十九卷积层卷积核大小为1*1、 卷积核个数为256,第五十卷积层卷积核大小为3*3、卷积核个数为256、步长 为2、补零参数为1,第五十一卷积层卷积核大小为1*1,卷积核个数为1024, 跳连下采样卷积层卷积核大小为1*1、卷积核个数为1024、步长为2。第十八卷 积块由第五十二卷积层,第五十三卷积层,第五十四个卷积层,第十八激活层, 激活方式为“Relu”第五十二卷积层卷积核大小为1*1、卷积核个数为256,第 五十三卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第五十四 卷积层卷积核大小为1*1,卷积核个数为1024。第十九卷积块由第五十五卷积 层,第五十六卷积层,第五十七卷积层,第十九激活层,激活方式为“Relu”第 五十五卷积层卷积核大小为1*1、卷积核个数为256,第五十六卷积层卷积核大 小为3*3、卷积核个数为256、补零参数为1,第五十七卷积层卷积核大小为1*1, 卷积核个数为1024。第二十卷积块由第五十八个卷积层,第五十九卷积层,第 六十个卷积层,第二十激活层,激活方式为“Relu”第五十八卷积层卷积核大小 为1*1、卷积核个数为256,第五十九卷积层卷积核大小为3*3、卷积核个数为 256、补零参数为1,第六十卷积层卷积核大小为1*1,卷积核个数为1024,第 二十一卷积块由第六十一卷积层,第六十二卷积层,第六十三卷积层,第二十 一激活层,激活方式为“Relu”第六十一卷积层卷积核大小为1*1、卷积核个数 为256,第六十二卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1, 第六十三卷积层卷积核大小为1*1,卷积核个数为1024,第二十二卷积块由第 六十四卷积层,第六十五卷积层,第六十六卷积层,第二十二激活层,激活方 式为“Relu”第六十四卷积层卷积核大小为1*1、卷积核个数为256,第六十五 卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第六十六卷积层 卷积核大小为1*1,卷积核个数为1024,将512张特征图的集合记为S6,特征 图大小为W/16,H/16。
对于第七个神经网络块,第七个神经网络块由三个卷积块组成,第二十三 卷积块有第六十七个卷积层,第六十八卷积层,第六十九卷积层,第六跳连下 采样卷积层,第二十三个激活层,激活方式为“Relu”,第六十七卷积层卷积核 大小为1*1、卷积核个数为512,第六十八卷积层卷积核大小为3*3、卷积核个 数为512、步长为2、补零参数为1,第六十九卷积层卷积核大小为1*1、卷积 核个数为2048,第六跳连下采样卷积层卷积核大小为1*1、卷积核个数为2048、 步长为2,第二十四卷积块有第七十个卷积层,第七十一卷积层,第七十二卷积 层,第二十四激活层,激活方式为“Relu”,第七十卷积层卷积核大小为1*1、 卷积核个数为512,第七十一卷积层卷积核大小为3*3、卷积核个数为512、补 零参数为1,第七十二卷积层卷积核大小为1*1、卷积核个数为2048,第二十五 卷积块由由第七十三卷积层,第七十四卷积层,第七十五卷积层,第二十五激 活层,激活方式为“Relu”,第七十三卷积层卷积核大小为1*1、卷积核个数为 512,第七十四卷积层卷积核大小为3*3、卷积核个数为512、补零参数为1,第 七十五卷积层卷积核大小为1*1、卷积核个数为2048,将2048张特征图的集合记为S7,特征图大小为W/32,H/32。
对于第一个过渡卷积块,以下所述过渡卷积块为图2a所示,第一个过渡卷 积块由四个卷积块组成,第二十六卷积块有第七十六卷积层、第七十七卷积层、 第七十八卷积层,第七十六卷积层卷积核大小为3*3、卷积核个数为512,第七 十七卷积层卷积核大小为1*1、卷积核个数为64,第七十八卷积层卷积核大小 为1*1,卷积核个数为32。第二十七卷积块为注意力机制块,引用的为GCNet, 后面第n个过渡卷积块的注意力机制块均为GCNet,有第七十九卷积层,第二 十六激活层,第八十卷积层,第二十七激活层,第八十一卷积层,第七十九卷 积层卷积核大小为1*1,卷积核个数为1,第二十六激活层,激活方式为 “Softmax”,第八十卷积层卷积核大小为1*1,卷积核个数为16,第二十七激 活层,激活方式为“Relu”,第八十一卷积层卷积核大小为1,卷积核个数为128, 第二十八卷积块为注意力机制块,有第八十二卷积层,第二十八激活层,第八 十三卷积层,第二十九激活层,第八十四卷积层,第八十二卷积层卷积核大小 为1*1,卷积核个数为1,第二十八激活层,激活方式为“Softmax”,第八十三 卷积层卷积核大小为1*1,卷积核个数为16,第二十九激活层,激活方式为 “Relu”,第八十四卷积层卷积核大小为1,卷积核个数为128。第二十九卷积 块有第八十五个卷积层、第八十六卷积层、第八十七卷积层。第八十五卷积层 卷积核为3*3,卷积核个数为64,第八十六卷积层卷积核为3*3,卷积核个数为 64,第八十七卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记 为T1,特征图宽度为W/8,高度为H/8。
对于第二个过渡卷积块,第二个过渡卷积块由四个卷积块组成,第三十卷 积块有第八十八卷积层、第八十九卷积层、第九十卷积层,第八十八卷积层卷 积核大小为3*3、卷积核个数为512,第八十九卷积层卷积核大小为1*1、卷积 核个数为64,第九十卷积层卷积核大小为1*1,卷积核个数为32。第三十一个 卷积块为注意力机制块,有第九十一卷积层,第三十个激活层,第九十二卷积 层,第三十一激活层,第九十三卷积层,第九十一卷积层卷积核大小为1*1,卷 积核个数为1,第三十层激活层,激活方式为“Softmax”,第九十二卷积层卷 积核大小为1*1,卷积核个数为16,第三十一激活层,激活方式为“Relu”,第 九十三卷积层卷积核大小为1,卷积核个数为128,第三十二卷积块为注意力机 制块,有第九十四卷积层,第三十二激活层,第九十五卷积层,第三十三激活 层,第九十六卷积层,第九十四卷积层卷积核大小为1*1,卷积核个数为1,第 三十二激活层,激活方式为“Softmax”,第九十五卷积层卷积核大小为1*1, 卷积核个数为16,第三十三激活层,激活方式为“Relu”,第九十六卷积层卷 积核大小为1,卷积核个数为128。第三十三个卷积块有第九十七卷积层、第九 十八卷积层、第九十九卷积层。第九十七卷积层卷积核为3*3,卷积核个数为 64,第九十八卷积层卷积核为3*3,卷积核个数为64,第九十九卷积层卷积核 为3*3,卷积核个数为32。将32张特征图的集合记为T2,特征图宽度为W/16, 高度为H/16。
对于第三个过渡卷积块,第三个过渡卷积块由四个卷积块组成,第三十四 卷积块有第一百个卷积层、第一百零一卷积层、第一百零二卷积层,第一百卷 积层卷积核大小为3*3、卷积核个数为512,第一百零一卷积层卷积核大小为1*1、 卷积核个数为64,第一百零二卷积层卷积核大小为1*1,卷积核个数为32。第 三十五卷积块为注意力机制块,有第一百零三卷积层,第三十四激活层,第一 百零四个卷积层,第三十五激活层,第一百零五卷积层,第一百零三个卷积层 卷积核大小为1*1,卷积核个数为1,第三十五层激活层,激活方式为 “Softmax”,第一百零四个层卷积层卷积核大小为1*1,卷积核个数为16,第 三十五激活层,激活方式为“Relu”,第一百零五卷积层卷积核大小为1,卷积 核个数为128,第三十六卷积块为注意力机制块,有第一百零六卷积层,第三十 六个激活层,第一百零七卷积层,第三十七激活层,第一百零八卷积层,第一 百零六个卷积层卷积核大小为1*1,卷积核个数为1,第三十六激活层,激活方 式为“Softmax”,第一百零七卷积层卷积核大小为1*1,卷积核个数为16,第 三十七激活层,激活方式为“Relu”,第一百零八卷积层卷积核大小为1,卷积 核个数为128。第三十七个卷积块有第一百零九卷积层、第一百一十卷积层、第 一百一十一卷积层。第一百零九卷积层卷积核为3*3,卷积核个数为64,第一 百一十卷积层卷积核为3*3,卷积核个数为64,第一百一十一卷积层卷积核为 3*3,卷积核个数为32。将32张特征图的集合记为T3,特征图宽度为W/32,高 度为H/32。
对于第四个过渡卷积块,第四个过渡卷积块由四个卷积块组成,第三十八 卷积块有第一百一十二卷积层、第一百一十三卷积层、第一百一十四卷积层, 第一百一十二个卷积层卷积核大小为3*3、卷积核个数为512,第一百一十三卷 积层卷积核大小为1*1、卷积核个数为64,第一百一十四卷积层卷积核大小为 1*1,卷积核个数为32。第三十九个卷积块为注意力机制块,有第一百一十四个 卷积层,第三十八激活层,第一百一十五卷积层,第三十九个激活层,第一百 一十六卷积层,第一百一十四卷积层卷积核大小为1*1,卷积核个数为1,第三 十八层激活层,激活方式为“Softmax”,第一百一十五卷积层卷积核大小为 1*1,卷积核个数为16,第三十九层激活层,激活方式为“Relu”,第一百一十 六卷积层卷积核大小为1,卷积核个数为128,第四十卷积块为注意力机制块, 有第一百一十七卷积层,第四十激活层,第一百一十八卷积层,第四十一激活 层,第一百一十九卷积层,第一百一十七卷积层卷积核大小为1*1,卷积核个数 为1,第四十激活层,激活方式为“Softmax”,第一百一十八卷积层卷积核大 小为1*1,卷积核个数为16,第四十一激活层,激活方式为“Relu”,第一百一 十九卷积层卷积核大小为1,卷积核个数为128。第四十一卷积块有第一百二十 卷积层、第一百二十一卷积层、第一百二十二卷积层。第一百二十卷积层卷积 核为3*3,卷积核个数为64,第一百二十一卷积层卷积核为3*3,卷积核个数为 64,第一百二十二个卷积层卷积核为3*3,卷积核个数为32。将32张特征图的 集合记为T4,特征图宽度为W/8,高度为H/8。
对于第五个过渡卷积块,第五个过渡卷积块由四个卷积块组成,第四十二 卷积块有第一百二十三卷积层、第一百二十四卷积层、第一百二十五卷积层, 第一百二十三个卷积层卷积核大小为3*3、卷积核个数为512,第一百二十四卷 积层卷积核大小为1*1、卷积核个数为64,第一百二十五卷积层卷积核大小为 1*1,卷积核个数为32。第四十三个卷积块为注意力机制块,有第一百二十六个 卷积层,第四十二个激活层,第一百二十七卷积层,第四十三激活层,第一百 二十八卷积层,第一百二十六卷积层卷积核大小为1*1,卷积核个数为1,第四 十二激活层,激活方式为“Softmax”,第一百二十七个卷积层卷积核大小为 1*1,卷积核个数为16,第四十三层激活层,激活方式为“Relu”,第一百二十 八卷积层卷积核大小为1,卷积核个数为128,第四十四个卷积块为注意力机制 块,有第一百二十九个卷积层,第四十四个激活层,第一百三十个卷积层,第 四十五个激活层,第一百三十一卷积层,第一百二十九卷积层卷积核大小为1*1, 卷积核个数为1,第四十四激活层,激活方式为“Softmax”,第一百三十卷积 层卷积核大小为1*1,卷积核个数为16,第四十五激活层,激活方式为“Relu”, 第一百三十一卷积层卷积核大小为1,卷积核个数为128。第四十五卷积块有第 一百三十二卷积层、第一百三十三卷积层、第一百三十四卷积层。第一百三十 二卷积层卷积核为3*3,卷积核个数为64,第一百三十三卷积层卷积核为3*3, 卷积核个数为64,第一百三十四卷积层卷积核为3*3,卷积核个数为32。将32 张特征图的集合记为T5,特征图宽度为W/16,高度为H/16。
对于第六个过渡卷积块,第六个过渡卷积块由四个卷积块组成,第四十六 卷积块有第一百三十五卷积层、第一百三十六卷积层、第一百三十七卷积层, 第一百三十五卷积层卷积核大小为3*3、卷积核个数为512,第一百三十六卷积 层卷积核大小为1*1、卷积核个数为64,第一百三十七卷积层卷积核大小为1*1, 卷积核个数为32。第四十七个卷积块为注意力机制块,有第一百三十八个卷积 层,第四十六激活层,第一百三十九卷积层,第四十七激活层,第一百四十卷 积层,第一百三十八卷积层卷积核大小为1*1,卷积核个数为1,第四十六激活 层,激活方式为“Softmax”,第一百三十九卷积层卷积核大小为1*1,卷积核个 数为16,第四十七层激活层,激活方式为“Relu”,第一百四十卷积层卷积核大 小为1,卷积核个数为128,第四十八个卷积块为注意力机制块,有第一百四十 一个卷积层,第四十八激活层,第一百四十二卷积层,第四十九个激活层,第 一百四十三卷积层,第一百四十一个卷积层卷积核大小为1*1,卷积核个数为1, 第四十八激活层,激活方式为“Softmax”,第一百四十二层卷积层卷积核大小为 1*1,卷积核个数为16,第四十九层激活层,激活方式为“Relu”,第一百四十三 个卷积层卷积核大小为1,卷积核个数为128。第四十九个卷积块有第一百四十 四个卷积层、第一百四十五个卷积层、第一百四十六卷积层。第一百四十四个卷积层卷积核为3*3,卷积核个数为64,第一百四十五卷积层卷积核为3*3,卷 积核个数为64,第一百四十六个卷积层卷积核为3*3,卷积核个数为32。将32 张特征图的集合记为T6,特征图宽度为W/32,高度为H/32。
第一个聚合模块由第一个上采样层,第一百四十七卷积层、第五十激活层、 第一百四十八卷积层、第五十一激活层、第一百四十九卷积层、第五十二激活 层、第一百五十卷积层、第五十三激活层、第一百五十一卷积层、第五十四激 活层、第一百五十二卷积层、第五十五激活层、第一百五十三卷积层、第五十 六激活层、第一百五十四卷积层、第五十七激活层、第一百五十五卷积层、第 一百五十六卷积层、第二上采样层,聚合模块均引用denseaggregation模块,激 活方式均为“Relu”,第一上采样层放大倍数(scale factor)为2,插值方法为双线 性差值(bilinear),第一百四十七个卷积层卷积核为3、卷积核个数为32,第一百四十八个卷积层卷积核为3、卷积核个数为32,第一百四十九卷积层卷积 核为3、卷积核个数为32,第一百五十个卷积层卷积核为3、卷积核个数为32, 第一百五十一卷积层卷积核为3、卷积核个数为64,第一百五十二卷积层卷积 核为3、卷积核个数为64,第一百五十三个卷积层卷积核为3、卷积核个数为 96,第一百五十四卷积层卷积核为3、卷积核个数为96,第一百五十五卷积层 卷积核为1、卷积核个数为1,第一百五十六卷积层卷积核为1、卷积核个数为 2,第二上采样层放大倍数为4、插值方法为双线性插值。接受由第一个过渡卷 积块、第二个过渡卷积块、第三个过渡卷积块的特征图集合,输出两个特征图 集合,一个输入到整体注意力块1张特征图记为A1,其特征图宽度为W/4,高 度为H/4,一个输入到过渡卷积块2张特征图集合记为A3,其特征图宽度为W, 高度为H。
对于区域增强模块,引用自Refunet,区域增强模块由第一百五十七个卷积 层、第一百五十八卷积层、第五十八激活层、第二池化层、第一百五十九卷积 层、第五十九激活层、第三池化层、第一百六十卷积层、第六十激活层、第四 池化层、第一百六十一卷积层、第六十一激活层、第五池化层、第一百六十二 卷积层、第六十二激活层、第一百六十三卷积层、第六十三激活层、第一百六 十四卷积层、第六十四激活层、第一百六十五卷积层、第六十五激活层、第一 百六十六卷积层、第六十六激活层、第一百六十七卷积层、第三上采样层。激 活方式均为“Relu”,第一百五十七卷积层卷积核大小为3*3、卷积核个数为64, 第一百五十八个卷积层卷积核大小为3*3、卷积核个数为64,第二个池化层卷 积核大小为2、步长为2,第一百五十九卷积层卷积核大小为3*3、卷积核个数 为64,第三池化层卷积核大小为2、步长为2,第一百六十卷积层卷积核大小为3*3、卷积核个数为64,第四池化层卷积核大小为2、步长为2,第一百六十一 卷积层卷积核大小为3*3、卷积核个数为64,第五池化层卷积核大小为2、步长 为2,第一百六十二卷积层卷积核大小为3*3、卷积核个数为64,第一百六十三 卷积层卷积核大小为3*3、卷积核个数为64,第一百六十四卷积层卷积核大小 为3*3、卷积核个数为64,第一百六十五卷积层卷积核大小为3*3、卷积核个数 为64,第一百六十六卷积层卷积核大小为3*3、卷积核个数为64,第三上采样 层放大倍数为2、放大方式为双线性插值,第一百六十七卷积层卷积核大小为 3*3、卷积核个数为1。将2张特征图的集合记为Q,特征图宽度为W,高度为 H。
第一个头注意力块由第一百六十八卷积层组成,卷积核为自定义高斯核、 补零参数为15、零偏置,现对卷积后参数做一个归一化函数再取最大值。将输 出的512张特征图记为H1,其特征图宽度为W/8,高度为H/8。
第二个聚合模块由第四个上采样层,第一百六十九卷积层、第六十七激活 层、第一百七十卷积层、第六十八激活层、第一百七十一卷积层、第六十九激 活层、第一百七十二卷积层、第七十激活层、第一百七十三卷积层、第七十一 激活层、第一百七十四卷积层、第七十二激活层、第一百七十五卷积层、第七 十三激活层、第一百七十六卷积层、第七十四激活层、第一百七十七卷积、第 五个上采样层,激活方式均为“Relu”。第四上采样层放大倍数(scale factor) 为2,插值方法为双线性差值(bilinear),第一百六十九卷积层卷积核为3、卷 积核个数为32,第一百七十卷积层卷积核为3、卷积核个数为32,第一百七十 一卷积层卷积核为3、卷积核个数为32,第一百七十二卷积层卷积核为3、卷积 核个数为32,第一百七十三卷积层卷积核为3、卷积核个数为64,第一百七十 四卷积层卷积核为3、卷积核个数为64,第一百七十五卷积层卷积核为3、卷积 核个数为96,第一百七十六卷积层卷积核为3、卷积核个数为96,第一百七十 七卷积层卷积核为1、卷积核个数为2,第五上采样层放大倍数为4、插值方法 为双线性插值。将2张特征图的集合记为A2,其特征图宽度为W,高度为H。
RGB图网络输出由两个输出层组成,第一个输出层由第一百七十八卷积层 组成,卷积核大小为3*3,卷积核个数为1,输出一副宽度为W,高度为H的区 域特征图,第二个输出层由第一百七十九卷积层组成,卷积核大小为3*3,卷积 核个数为1,输出一副宽度为W,高度为H的区域特征图。
对于深度图网络:基础网络包括第八个神经网络块、第九个神经网络块、 第十个神经网络块、第十一个神经网络块、第十二个神经网络块、第十三个神 经网络块、第十四个神经网络块,第七个过渡卷积块、第八个过渡卷积块、第 九个过渡卷积块、第十个过渡卷积块、第十一个过渡卷积块、第十二个过渡卷 积块。对于第八神经网络块,第八个神经网络块有第一百八十卷积层,第七十 五激活层,第一百八十一卷积层,第七十六激活层,激活方式均为“Relu”,第 一百八十卷积层卷积核大小为3,卷积核个数为64,第一百八十一卷积层卷积 核大小为3,卷积核个数为64。将64张特征图的集合记为D1,特征图的宽度为 W,高度为H。
对于第九个神经网络块,第九个神经网络块依次有第一层平均池化层,第 一百八十二卷积层,第七十七激活层,第一百八十三卷积层,第七十八激活层, 激活方式均为“Relu”,第一层平均池化层卷积核大小为2、步长为2,第一百 八十二卷积层卷积核大小为3,卷积核个数为128,第一百八十三卷积层卷积核 大小为3,卷积核个数为128。将128张特征图的集合记为D2,特征图的宽度为 W/2,高度为H/2。
对于第十个神经网络块,第十个神经网络块依次有第二平均池化层,第一 百八十四卷积层,第七十九激活层,第一百八十五卷积层,第八十激活层,激 活方式均为“Relu”,第二平均池化层卷积核大小为2、步长为2,第一百八十 四卷积层卷积核大小为3,卷积核个数为256,第一百八十五卷积层卷积核大小 为3,卷积核个数为256。将256张特征图的集合记为D3,特征图的宽度为W/4, 高度为H/4。
对于第十一个神经网络块,第十一神经网络块依次有第三平均池化层,第 一百八十六卷积层,第八十一激活层,第一百八十七卷积层,第八十二激活层, 激活方式均为“Relu”,第三层平均池化卷积核大小为2、步长为2,第一百八 十六卷积层卷积核大小为3,卷积核个数为512,第一百八十七卷积层卷积核大 小为3,卷积核个数为512。将512张特征图的集合记为D4,特征图的宽度为 W/8,高度为H/8。
对于第十二个神经网络块,第十二神经网络块依次有第四层平均池化层, 第一百八十八层卷积层,第八十三激活层,第一百八十九卷积层,第八十四激 活层,激活方式均为“Relu”,第四平均池化层卷积核大小为2、步长为2,第 一百八十八卷积层卷积核大小为3,卷积核个数为512,第一百八十九个卷积层 卷积核大小为3,卷积核个数为512。将512张特征图的集合记为D5,特征图的 宽度为W/16,高度为H/16。
对于第十三个神经网络块,第十三个神经网络块依次有第五平均池化层, 第一百九十卷积层,第八十五激活层,第一百九十一卷积层,第八十六激活层, 激活方式均为“Relu”,第五层平均池化层卷积核大小为2、步长为2,第一百 九十卷积层卷积核大小为3,卷积核个数为128,第一百九十一卷积卷积核大小 为3,卷积核个数为128。将128张特征图的集合记为D6,特征图的宽度为W/8, 高度为H/8。
对于第十四个神经网络块,第十四个神经网络块依次有第六平均池化层, 一百九十二卷积层,第八十七激活层,第一百九十三卷积层,第八十八激活层, 激活方式均为“Relu”,第六平均池化卷积核大小为2、步长为2,第一百九十 二卷积层卷积核大小为3,卷积核个数为128,第一百九十三卷积卷积核大小为 3,卷积核个数为128。将128张特征图的集合记为D7,特征图的宽度为W/16, 高度为H/16。
对于第七个过渡卷积块,第七个过渡卷积块由四个卷积块组成,第五十卷 积块有第一百九十四卷积层、第一百九十五卷积层、第一百九十六卷积层,第 一百九十四卷积层卷积核大小为3*3、卷积核个数为512,第一百九十五卷积层 卷积核大小为1*1、卷积核个数为64,第一百九十六卷积层卷积核大小为1*1, 卷积核个数为32。第五十一卷积块为注意力机制块,有第一百九十七卷积层, 第八十九激活层,第一百九十八卷积层,第九十激活层,第一百九十九卷积层, 第一百九十七卷积层卷积核大小为1*1,卷积核个数为1,第八十九激活层,激 活方式为“Softmax”,第一百九十八层卷积层卷积核大小为1*1,卷积核个数 为16,第九十层激活层,激活方式为“Relu”,第一百九十九卷积层卷积核大 小为1,卷积核个数为128,第五十二卷积块为注意力机制块,有第二百卷积层, 第九十一激活层,第二百零一卷积层,第九十二个激活层,第二百零二卷积层, 第二百卷积层卷积核大小为1*1,卷积核个数为1,第九十一激活层,激活方式 为“Softmax”,第二百零一卷积层卷积核大小为1*1,卷积核个数为16,第九 十二激活层,激活方式为“Relu”,第二百零二卷积层卷积核大小为1,卷积核 个数为128。第五十三卷积块有第二百零三卷积层、第二百零四卷积层、第二百零五卷积层。第两百零三卷积层卷积核为3*3,卷积核个数为64,第二百零四 卷积层卷积核为3*3,卷积核个数为64,第二百零五卷积层卷积核为3*3,卷积 核个数为32。将32张特征图的集合记为P1,特征图宽度为W/4,高度为H/4。
对于第八个过渡卷积块,第八个过渡卷积块由四个卷积块组成,第五十四 卷积块有第二百零六卷积层、第二百零七卷积层、第二百零八卷积层,第二百 零六卷积层卷积核大小为3*3、卷积核个数为512,第二百零七卷积层卷积核大 小为1*1、卷积核个数为64,第两百零八卷积层卷积核大小为1*1,卷积核个数 为32。第五十五卷积块为注意力机制块,有第二百零九卷积层,第九十三激活 层,第二百一十卷积层,第九十四激活层,第二百一十一卷积层,第二百零九 卷积层卷积核大小为1*1,卷积核个数为1,第九十三激活层,激活方式为 “Softmax”,第二百一十卷积层卷积核大小为1*1,卷积核个数为16,第九十 四层激活层,激活方式为“Relu”,第二百一十一卷积层卷积核大小为1,卷积 核个数为128,第五十六个卷积块为注意力机制块,有第二百一十二个卷积层, 第九十五个激活层,第二百一十三卷积层,第九十六激活层,第二百一十四卷 积层,第二百一十二卷积层卷积核大小为1*1,卷积核个数为1,第九十五层激 活层,激活方式为“Softmax”,第两百一十三卷积层卷积核大小为1*1,卷积 核个数为16,第九十六激活层,激活方式为“Relu”,第二百一十四卷积层卷 积核大小为1,卷积核个数为128。第五十七卷积块有第二百一十五卷积层、第 两百一十六卷积层、第二百一十七卷积层。第二百一十五卷积层卷积核为3*3, 卷积核个数为64,第二百一十六卷积层卷积核为3*3,卷积核个数为64,第两 百一十七卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为P2, 特征图宽度为W/8,高度为H/8。
对于第九个过渡卷积块,第九个过渡卷积块由四个卷积块组成,第五十八 个卷积块有第二百一十八个卷积层、第二百一十九个卷积层、第二百二十个卷 积层,第二百一十八个卷积层卷积核大小为3*3、卷积核个数为512,第二百一 十九个卷积层卷积核大小为1*1、卷积核个数为64,第二百二十卷积层卷积核 大小为1*1,卷积核个数为32。第五十九个卷积块为注意力机制块,有第二百 二十一卷积层,第九十七激活层,第二百二十二卷积层,第九十八激活层,第 两百二十三卷积层,第二百二十一个卷积层卷积核大小为1*1,卷积核个数为1, 第九十七层激活层,激活方式为“Softmax”,第二百二十二卷积层卷积核大小 为1*1,卷积核个数为16,第九十八层激活层,激活方式为“Relu”,第二百二 十三个卷积层卷积核大小为1,卷积核个数为128,第六十个卷积块为注意力机 制块,有第二百二十四个卷积层,第九十九激活层,第二百二十五卷积层,第 一百激活层,第二百二十六个卷积层,第二百二十四个卷积层卷积核大小为1*1, 卷积核个数为1,第九十九激活层,激活方式为“Softmax”,第二百二十五层 卷积层卷积核大小为1*1,卷积核个数为16,第一百层激活层,激活方式为 “Relu”,第二百二十六卷积层卷积核大小为1,卷积核个数为128。第六十一 卷积块有第二百二十七卷积层、第二百二十八卷积层、第二百二十九卷积层。 第二百二十七卷积层卷积核为3*3,卷积核个数为64,第二百二十八卷积层卷 积核为3*3,卷积核个数为64,第二百二十九卷积层卷积核为3*3,卷积核个数 为32。将32张特征图的集合记为P3,特征图宽度为W/16,高度为H/16。
对于第十个过渡卷积块,第十个过渡卷积块由四个卷积块组成,第六十二 卷积块有第二百三十卷积层、第二百三十一卷积层、第二百三十二卷积层,第 二百三十卷积层卷积核大小为3*3、卷积核个数为512,第二百三十一卷积层卷 积核大小为1*1、卷积核个数为64,第二百三十二卷积层卷积核大小为1*1,卷 积核个数为32。第六十三个卷积块为注意力机制块,有第二百三十三卷积层, 第一百零一激活层,第二百三十四卷积层,第一百零二激活层,第二百三十五 卷积层,第二百三十三卷积层卷积核大小为1*1,卷积核个数为1,第一百零一 激活层,激活方式为“Softmax”,第二百三十四卷积层卷积核大小为1*1,卷 积核个数为16,第一百零二层激活层,激活方式为“Relu”,第二百三十五个 卷积层卷积核大小为1,卷积核个数为128,第六十四个卷积块为注意力机制块, 有第二百三十六个卷积层,第一百零三激活层,第二百三十七卷积层,第一百 零四激活层,第一百三十八卷积层,第二百三十六个卷积层卷积核大小为1*1, 卷积核个数为1,第一百零三激活层,激活方式为“Softmax”,第二百三十七 层卷积层卷积核大小为1*1,卷积核个数为16,第一百零四层激活层,激活方 式为“Relu”,第二百三十八卷积层卷积核大小为1,卷积核个数为128。第六十五个卷积块有第二百三十九卷积层、第二百四十卷积层、第二百四十一卷积 层。第二百三十九个卷积层卷积核为3*3,卷积核个数为64,第二百四十卷积 层卷积核为3*3,卷积核个数为64,第二百四十一卷积层卷积核为3*3,卷积核 个数为32。将32张特征图的集合记为P4,特征图宽度为W/4,高度为H/4。
对于第十一个过渡卷积块,第十一个过渡卷积块由四个卷积块组成,第六 十六卷积块有第二百四十二卷积层、第二百四十三卷积层、第二百四十四卷积 层,第二百四十二卷积层卷积核大小为3*3、卷积核个数为512,第二百四十三 卷积层卷积核大小为1*1、卷积核个数为64,第二百四十四卷积层卷积核大小 为1*1,卷积核个数为32。第六十七卷积块为注意力机制块,有第二百四十五 卷积层,第一百零五激活层,第二百四十六卷积层,第一百零六激活层,第二 百四十七卷积层,第二百四十五卷积层卷积核大小为1*1,卷积核个数为1,第 一百零五层激活层,激活方式为“Softmax”,第二百四十六卷积层卷积核大小 为1*1,卷积核个数为16,第一百零六激活层,激活方式为“Relu”,第二百四 十七个卷积层卷积核大小为1,卷积核个数为128,第六十八卷积块为注意力机 制块,有第二百四十八卷积层,第一百零七激活层,第二百四十九个卷积层, 第一百零八个激活层,第二百五十卷积层,第二百四十八卷积层卷积核大小为 1*1,卷积核个数为1,第一百零七激活层,激活方式为“Softmax”,第二百四 十九卷积层卷积核大小为1*1,卷积核个数为16,第一百零八层激活层,激活 方式为“Relu”,第二百五十卷积层卷积核大小为1,卷积核个数为128。第六 十九个卷积块有第二百五十一卷积层、第二百五十二卷积层、第二百五十三卷 积层。第二百五十一卷积层卷积核为3*3,卷积核个数为64,第二百五十二卷 积层卷积核为3*3,卷积核个数为64,第二百五十三卷积层卷积核为3*3,卷积 核个数为32。将32张特征图的集合记为P5,特征图宽度为W/8,高度为H/8。
对于第十二个过渡卷积块,第十二个过渡卷积块由四个卷积块组成,第七 十个卷积块有第二百五十四卷积层、第二百五十五卷积层、第二百五十六卷积 层,第二百五十四卷积层卷积核大小为3*3、卷积核个数为512,第二百五十五 卷积层卷积核大小为1*1、卷积核个数为64,第二百五十六卷积层卷积核大小 为1*1,卷积核个数为32。第七十一卷积块为注意力机制块,有第二百五十七 卷积层,第一百零九激活层,第二百五十八卷积层,第一百一十个激活层,第 二百五十九卷积层,第二百五十七个卷积层卷积核大小为1*1,卷积核个数为1, 第一百零九层激活层,激活方式为“Softmax”,第二百五十八层卷积层卷积核 大小为1*1,卷积核个数为16,第一百一十层激活层,激活方式为“Relu”,第 二百五十九个卷积层卷积核大小为1,卷积核个数为128,第七十二个卷积块为 注意力机制块,有第二百六十卷积层,第一百一十一激活层,第二百六十一卷 积层,第一百一十二激活层,第二百六十二卷积层,第二百六十卷积层卷积核 大小为1*1,卷积核个数为1,第一百一十一激活层,激活方式为“Softmax”, 第二百六十一卷积层卷积核大小为1*1,卷积核个数为16,第一百一十二层激 活层,激活方式为“Relu”,第二百六十二个卷积层卷积核大小为1,卷积核个 数为128。第七十三个卷积块有第二百六十三个卷积层、第二百六十四卷积层、 第二百六十五卷积层。第二百六十三个卷积层卷积核为3*3,卷积核个数为64, 第二百六十四个卷积层卷积核为3*3,卷积核个数为64,第二百六十五卷积层 卷积核为3*3,卷积核个数为32。将32张特征图的集合记为P6,特征图宽度为 W/16,高度为H/16。
第三个聚合模块由第六上采样层,第二百六十六卷积层、第一百一十三激 活层、第二百六十七卷积层、第一百一十四激活层、第二百六十八卷积层、第 一百一十五激活层、第二百六十九卷积层、第一百一十六激活层、第二百七十 个卷积层、第一百一十七激活层、第二百七十一卷积层、第一百一十八层激活 层、第二百七十二卷积层、第一百一十九激活层、第二百七十三卷积层、第一 百二十激活层、第二百七十四个卷积层、第二百七十五卷积层,第七层上采样 层,激活方式均为“Relu”,第六上采样层放大倍数(scale factor)为2,插值方 法为双线性差值(bilinear),第二百六十六卷积层卷积核为3、卷积核个数为 32,第二百六十七卷积层卷积核为3、卷积核个数为32,第二百六十八个卷积 层卷积核为3、卷积核个数为32,第二百六十九个卷积层卷积核为3、卷积核个 数为32,第二百七十卷积层卷积核为3、卷积核个数为64,第二百七十一个卷 积层卷积核为3、卷积核个数为64,第二百七十二卷积层卷积核为3、卷积核个 数为96,第二百七十三卷积层卷积核为3、卷积核个数为96,第二百七十四卷 积层卷积核为1、卷积核个数为1,第二百七十五卷积层卷积核为1、卷积核个 数为2,第七上采样层放大倍数为4、插值方法为双线性插值。接受由第一个过 渡卷积块、第二个过渡卷积块、第三个过渡卷积块的特征图集合,输出两个特 征图集合,一个输入到整体注意力块1张特征图记为B1,其特征图宽度为W/4, 高度为H/4,过渡卷积块由一个卷积层组成,卷积核大小为1*1,卷积核个数为 1,一个输入到过渡卷积块2张特征图集合记为B3,其特征图宽度为W,高度 为H。
第二个头注意力块由二百七十六卷积层组成,卷积核为自定义高斯核、补 零参数为15、零偏置,现对卷积后参数做一个归一化函数再取最大值。将输出 的256张特征图记为H2,其特征图宽度为W/4,高度为H/4。
第四个聚合模块由第八个上采样层,第二百七十七个卷积层、第一百二十 一个激活层、第二百七十八个卷积层、第一百二十二个激活层、第二百七十九 个卷积层、第一百二十三个激活层、第二百八十个卷积层、第一百二十四层激 活层、第二百八十一个卷积层、第一百二十五层激活层、第二百八十二个卷积 层、第一百二十六层激活层、第二百八十三个卷积层、第一百二十七层激活层、 第二百八十四个卷积层、第一百二十八层激活层、第二百八十五个卷积、第九 上采样层,激活方式均为“Relu”。第一个上采样层放大倍数(scalefactor)为2, 插值方法为双线性差值(bilinear),第二百七十七卷积层卷积核为3、卷积核个 数为32,第二百七十八卷积层卷积核为3、卷积核个数为32,第二百七十九卷 积层卷积核为3、卷积核个数为32,第二百八十卷积层卷积核为3、卷积核个数 为32,第二百八十一卷积层卷积核为3、卷积核个数为64,第二百八十二卷积 层卷积核为3、卷积核个数为64,第二百八十三卷积层卷积核为3、卷积核个数 为96,第二百八十四卷积层卷积核为3、卷积核个数为96,第二百八十五卷积 层卷积核为1、卷积核个数为2,第九上采样层放大倍数为4、插值方法为双线 性插值。将2张特征图的集合记为B2,其特征图宽度为W,高度为H。
自适应卷积块由第二百九十七卷积层组成,其卷积核大小为1,卷积核个数 为2,输出仅做信息加工,不改变图片尺寸大小。
深度图输出由两个边缘输出层组成,第一个边缘输出层由第二百八十六卷 积层组成,卷积核大小为3*3,卷积核个数为1,输出一副宽度为W,高度为H 的边缘特征图,第二个边缘输出层由第二百八十七卷积层组成,卷积核大小为 3*3,卷积核个数为1,输出一副宽度为W,高度为H的边缘特征图。
融合卷积块由三个卷积块组成,第七十四卷积块由第二百八十八卷积层、 第二百八十九卷积层,第二百九十卷积层,第二百八十八卷积层卷积核为3*3、 卷积核个数为64,第二百八十九个卷积层卷积核为3*3、卷积核个数为64,第 二百九十层卷积核为1*1、卷积核个数为2。第七十五卷积块由第二百九十一卷 积层、第二百九十二卷积层,第二百九十三卷积层,第二百九十一个卷积层卷 积核为3*3、卷积核个数为64,第二百九十二卷积层卷积核为3*3、卷积核个数 为64,第二百九十三卷积核为1*1、卷积核个数为2。第七十六卷积块由第二百 九十四卷积层、第二百九十五卷积层,第二百九十六卷积层,第二百九十四卷 积层卷积核为3*3、卷积核个数为64,第二百九十五卷积层卷积核为3*3、卷积 核个数为64,第二百九十六卷积核为1*1、卷积核个数为1。得到最后特征输出 记为F,特征图宽度为W,高度为H。
总输出层无任何卷积或计算操作直接从融合卷积块输出,特征图宽度为W, 高度为H,为最终预测结果,由于本网络结构把任务细分的很具体,高低特征利 用充分,使用带注意力机制的跳连结构使高低特征融合,使用边缘辅助让显著 性图更完善,使用多层监督让结果更加接近真实值,实验证明此网络结果很好。
步骤1_3:将训练集中的原始立体图像的RGB图和深度图作为输入,输入 到上一个步骤构建好的卷积神经网络二分类模型进行训练,得到对应的显著性 检测图,记为
Figure RE-GDA0002528299260000241
步骤1_4:计算卷积神经网络分类模型的损失函数值,将预测到第i个显著 性图记为
Figure RE-GDA0002528299260000242
将原始训练集的第i个标签标签图记为
Figure RE-GDA0002528299260000243
Figure RE-GDA0002528299260000244
Figure RE-GDA0002528299260000245
之间的损 失函数值记为
Figure RE-GDA0002528299260000246
步骤1_5:重复执行步骤1_3和步骤1_4M次,在本发明中取值M=800, 得到卷积神经网络分类训练模型,一轮训练总共会得到N*M个损失函数值,用 总损失函数值与训练集图片对数相除得到本轮训练损失函数值,招待最小的损 失函数值,得到最小损失函数值分类模型的权重和偏置数值,对应记为Wbest和 Bbest;。
所述测试阶段过程的具体步骤为:
Figure RE-GDA0002528299260000247
坐标位置为(x',y')的像素点的像素值。
步骤2_2:将
Figure RE-GDA0002528299260000248
的R通道分量、G通道分量和B通道分量输入到卷积 神经网络训练模型中,并使用训练阶段得到的Wbest和Bbest进行测试,得到对应的 显著性检测图像,记为
Figure RE-GDA0002528299260000251
其中,
Figure RE-GDA0002528299260000252
表示
Figure RE-GDA0002528299260000253
中坐标位置为 (x',y')的像素点的像素值。
所述的步骤1_4中,用二分类交叉熵求出
Figure RE-GDA0002528299260000254
利用pytorch库python语言编写代码对此方法进行实验,实验设备为英特尔 i5-7500处理器,NVIDIA TITAN XP-12GB显卡下使用cuda加速。为保证实验 的严谨性,实验采用数据集NJU2K和NLPR分别进行测试,NJU2K拥有2000 对图片包括1600对训练图片和400张测试图片,NLPR拥有1000张图片分别是 800对训练图片,200对测试图片。在本实验中,利用评估显著性检测方法的4 个常用客观参量作为评价指标:AUC参数(the Aera Under thereceiver operating characteristics Curve),F-mean度量值,F-max度量值,MAE平均绝对误差(Mean Absolute Error,)来评价显著性检测图像的检测性能,其中F度量值通过计算精 准率和召回率求出用来评价检测方法好坏的重要指标。
最后通过本方法生成的显著性图像通过和标签对比,分别用AUC,F-mean, F-max和MAE来作为评价指标评价此方法好坏,两个数据集的评价指标如表1, 由表1可见本方法在两个数据集上的表现是优秀的。
表1本方法在两个数据上的评测结果
Dataset Criteria NJU2K NLPR
AUC 0.982 0.984
F-mean 0.866 0.872
F-max 0.892 0.896
MAE 0.058 0.034
图3a为NJU2K测试集随机挑选一个标签图片;图3b为利用本发明方法对 应3a卷积神经网络模型生成的显著性图;图4a为NJU2K测试集随机挑选一个 标签图片;图4b为利用本发明方法对应4a卷积神经网络模型生成的显著性图; 图5a为NLPR测试集随机挑选一个标签图片;图5b为利用本发明方法对应5a 卷积神经网络模型生成的显著性图;图6a为NLPR测试集随机挑选一个标签图 片;图6b为利用本发明方法对应6a卷积神经网络模型生成的显著性图,根据 表1的数据以及附图图3、图4、图5的图片可以看出本发明的显著分割精度较 高,分割物体清楚明了。

Claims (10)

1.一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:
步骤1-1:采集原始3D图像,原始3D图像包括RGB图和深度图,将RGB图和深度图构成训练集,将训练集分为多个不同批次;
步骤1-2:构建RGB图网络和深度图网络,RGB图网络和深度图网络之间通过融合卷积模块连接再融合生成最后的显著性图,形成双目卷积神经网络;
步骤1-3:将训练集的不同批次图和对应的已标注真实人眼显著区域的标签图依次输入到双目卷积神经网络中进行训练,训练过程中每一批次图经双目卷积神经网络处理输出的结果和对应的标签图进行对比得到M个损失函数值,M表示同一批次中的图总数,N表示批次的总数,共计获得N*M个损失函数值,将所有损失函数值相加后除以图总个数N*M得到总损失;
步骤1-4:通过反向传播优化神经网络权重参数,将最小损失函数值对应的权值矢量和偏置项作为双目卷积神经网络的最优权值矢量和最优偏置项,从而获得训练后的双目卷积神经网络;
步骤1-5:对于待测的图像,输入到训练后的双目卷积神经网络中后预测处理,输出预测图即为显著性图。
2.根据权利要求1所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述步骤1-2中,双目卷积神经网络包括总输出层、融合卷积块、RGB图网络和深度图网络,RGB图、深度图分别输入到RGB图网络、深度图网络,RGB图网络和深度图网络的输出分别连接输入到融合卷积块,融合卷积块的输出连接总输出层;
所述的RGB图网络包括第一、第二、第三、第四、第五、第六、第七神经网络块以及六个过渡卷积块、两个聚合模块、一个整体注意力块、一个区域增强模块;RGB图连接输入到第一输入层,第一输入层的输出依次经第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、第三过渡卷积块和第一聚合模块后连接输入到区域增强模块,区域增强模块的输出连接到第一输出层,同时第三神经网络块的输出和第四神经网络块的输出分别经第一过渡卷积块、第二过渡卷积块后连接输入到第一聚合模块,第一聚合模块的输出和第三神经网络块的输出一起输入到整体注意力块,整体注意力块的输出依次经第六神经网络块、第七神经网络块、第六过渡卷积块后连接到第二聚合模块,同时整体注意力块的输出和第六神经网络块的输出分别经第四过渡卷积块、第五过渡卷积块连接输入到第二聚合模块,第二聚合模块的输出和区域增强模块的输出均连接到点和层,点和层的输出分别输入到融合卷积块和第二输出层;
所述的深度图网络和RGB图网络的结构基本一致,RGB图网络采用resnet-50作为基本网络,深度图采用VGG作为基本网络,深度图网络采用了一个自适应卷积块模块代替区域增强模块;且深度图网络和RGB图网络的点和层的输出均连接输入到融合卷积块;RGB图网络和深度图网络分别输出区域图和边缘图,RGB图网络的第一个输出层和第二输出层分别输出通过区域增强模块区域图和通过第一个头注意力块的区域图,深度图网络的第一个输出层和第二个输出层分别输出通过过渡卷积块边缘图和通过第二个头注意力块的边缘图,将边缘图输入到融合卷积块对区域图进行修正处理获得最终的显著性图。
3.根据权利要求2所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述步骤1-3中,计算每个损失函数值时,是将单目区域卷积神经网络的两个输出层输出的区域图分别和标签图作损失计算获得第一损失值和第二损失值,同时将边缘辅助卷积神经网络的两个输出层输出的边缘图分别和边缘标签图作损失计算获得第散损失值和第四损失值,边缘标签图是由标签图经Canny算子边缘提取获得,同时将融合卷积块输出的显著性图和标签图作损失计算获得第五损失值,将五个损失值相加获得损失函数值。
4.根据权利要求2所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的RGB图网络和深度图网络的两个输出层均包含一个卷积层。
5.根据权利要求2所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的区域增强模块为编码解码网络,采用U型网络结构,输入先经过连续两个卷积层、一个池化层、一个卷积层、一个池化层、连续两个卷积层、一个池化层后连接输入到一个中间过渡模块,通过中间过渡模块进入解码过程,解码过程是把通过双线性差值放大图片以及卷积层提取信息来达到解码目的最后的一个池化层的输出换为双线性差值上采样变换图片尺寸,整个编码解码过程中有跳连直接从编码部分流入解码部分,从而最后得到区域增强之后的图片,并且其中除了第一层卷积层之外的其他卷积层之后均设置有批标准化和激活函数操作。
6.根据权利要求2所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:每个所述过渡卷积块结构相同,均主要由两个卷积块和两个注意力机制块组成,输入经过第一个卷积块改变特征图个数,再依次经过两个注意力机制块后再与输入一起输入到叠合层进行堆叠后输入第四卷积块,最后第二个卷积块输出;两个卷积块的结构相同,均由三个卷积层依次连接构成。
7.根据权利要求2所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的融合卷积块包括三个卷积块和三个张量运算操作,边缘辅助卷积神经网络和单目区域卷积神经网络的点和层分别输出边缘图与区域图,一方面边缘图与区域图共同输入到一个点和层进行张量加操作,另一方面边缘图与区域图共同输入到一个点乘层进行张量乘操作,点和层和点乘层的输出经各自的一个卷积块后连接到叠合层进行堆叠后输入到第三个卷积块,最后由第三个卷积块输出;三个卷积块的结构相同,均由三个卷积层依次连接构成。
8.根据权利要求2所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的聚合模块主要由六个上采样单元和十个卷积单元构成,第三过渡卷积块/第六过渡卷积块的输出分别连接输入到第一上采样单元和第二上采样单元,第一上采样单元的输出连接输入到第一卷积单元,第一卷积单元的输出和第二过渡卷积块/第四过渡卷积块的输出均连接到第一个点乘层处理,第一上采样单元的输出经第四卷积单元后和第一个点乘层的输出一起连接输入到第一个叠合层处理,第一个叠合层的输出依次经第六卷积单元、第四上采样单元后输入到第五卷积单元,第二上采样单元的输出经第三上采样单元后输入到第二卷积单元,同时第二过渡卷积块/第四过渡卷积块的输出经第五上采样单元输入到第三卷积单元,第一过渡卷积块/第一过渡卷积块的输出以及第二卷积单元和第三卷积单元的输出一起连接输入到第二个点乘层,第二个点乘层的输出和第五卷积单元的输出一起输入到第二个叠合层处理,第二个叠合层的输出经第七卷积单元后连接输入到第八卷积单元,第八卷积单元的输出经第九卷积单元后连接输入到整体注意力块/点和层,同时第八卷积单元的输出依次经第十卷积单元和第六上采样单元后输入到区域增强模块。
9.根据权利要求2所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的第一神经网络块是由一个卷积层、一个池化层和一个激活层依次连接组成;所述的第二神经网络块是由一个卷积单元、连续两个卷积块依次连接组成,所述的第三神经网络块是由一个卷积单元、连续三个卷积块依次连接组成,所述的第四神经网络块是由一个卷积单元、连续五个卷积块依次连接组成,所述的第五神经网络块是由一个卷积单元、连续两个卷积块依次连接组成,所述的第六神经网络块是由一个卷积单元、连续五个卷积块依次连接组成,所述的第七神经网络块是由一个卷积单元、连续两个卷积块依次连接组成;所述的卷积单元是由连续三个卷积层、一个跳连下采样卷积层和一个激活层依次连接组成,所述的卷积块是由连续三个卷积层和一个激活层依次连接组成。
10.根据权利要求8所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的自适应卷积块模块为一个卷积核为1的卷积层。
CN202010191633.0A 2020-03-18 卷积神经网络边缘辅助增强的双目显著性图像检测方法 Active CN111428602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010191633.0A CN111428602B (zh) 2020-03-18 卷积神经网络边缘辅助增强的双目显著性图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010191633.0A CN111428602B (zh) 2020-03-18 卷积神经网络边缘辅助增强的双目显著性图像检测方法

Publications (2)

Publication Number Publication Date
CN111428602A true CN111428602A (zh) 2020-07-17
CN111428602B CN111428602B (zh) 2024-07-05

Family

ID=

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001914A (zh) * 2020-08-31 2020-11-27 三星(中国)半导体有限公司 深度图像补全的方法和装置
CN113408350A (zh) * 2021-05-17 2021-09-17 杭州电子科技大学 一种基于创新边缘特征提取方法的遥感图像显著性检测方法
CN113505800A (zh) * 2021-06-30 2021-10-15 深圳市慧鲤科技有限公司 图像处理方法及其模型的训练方法和装置、设备、介质
CN113837223A (zh) * 2021-08-24 2021-12-24 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN115024298A (zh) * 2022-07-18 2022-09-09 华南农业大学 一种基于轻量级神经网络的计数杀虫灯及计数方法

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351941A1 (en) * 2016-06-03 2017-12-07 Miovision Technologies Incorporated System and Method for Performing Saliency Detection Using Deep Active Contours
AU2016273984A1 (en) * 2016-12-16 2018-07-05 Canon Kabushiki Kaisha Modifying a perceptual attribute of an image using an inaccurate depth map
CN108711147A (zh) * 2018-05-11 2018-10-26 天津大学 一种基于卷积神经网络的显著性融合检测算法
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109712105A (zh) * 2018-12-24 2019-05-03 浙江大学 一种结合彩色和深度信息的图像显著目标检测方法
WO2019136591A1 (zh) * 2018-01-09 2019-07-18 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及***
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
WO2019169884A1 (zh) * 2018-03-09 2019-09-12 北京大学深圳研究生院 基于深度信息的图像显著性检测方法和装置
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法
CN110263813A (zh) * 2019-05-27 2019-09-20 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法
CN110414513A (zh) * 2019-07-31 2019-11-05 电子科技大学 基于语义增强卷积神经网络的视觉显著性检测方法
CN110458178A (zh) * 2019-08-12 2019-11-15 浙江科技学院 多模态多拼接的rgb-d显著性目标检测方法
CN110570402A (zh) * 2019-08-19 2019-12-13 浙江科技学院 基于边界感知神经网络的双目显著物体检测方法
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法
WO2020020472A1 (en) * 2018-07-24 2020-01-30 Fundación Centro Tecnoloxico De Telecomunicacións De Galicia A computer-implemented method and system for detecting small objects on an image using convolutional neural networks
CN110782458A (zh) * 2019-10-23 2020-02-11 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170351941A1 (en) * 2016-06-03 2017-12-07 Miovision Technologies Incorporated System and Method for Performing Saliency Detection Using Deep Active Contours
AU2016273984A1 (en) * 2016-12-16 2018-07-05 Canon Kabushiki Kaisha Modifying a perceptual attribute of an image using an inaccurate depth map
WO2019136591A1 (zh) * 2018-01-09 2019-07-18 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及***
WO2019169884A1 (zh) * 2018-03-09 2019-09-12 北京大学深圳研究生院 基于深度信息的图像显著性检测方法和装置
CN108711147A (zh) * 2018-05-11 2018-10-26 天津大学 一种基于卷积神经网络的显著性融合检测算法
WO2020020472A1 (en) * 2018-07-24 2020-01-30 Fundación Centro Tecnoloxico De Telecomunicacións De Galicia A computer-implemented method and system for detecting small objects on an image using convolutional neural networks
CN109598268A (zh) * 2018-11-23 2019-04-09 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109712105A (zh) * 2018-12-24 2019-05-03 浙江大学 一种结合彩色和深度信息的图像显著目标检测方法
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110210539A (zh) * 2019-05-22 2019-09-06 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
CN110263813A (zh) * 2019-05-27 2019-09-20 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法
CN110414513A (zh) * 2019-07-31 2019-11-05 电子科技大学 基于语义增强卷积神经网络的视觉显著性检测方法
CN110458178A (zh) * 2019-08-12 2019-11-15 浙江科技学院 多模态多拼接的rgb-d显著性目标检测方法
CN110570402A (zh) * 2019-08-19 2019-12-13 浙江科技学院 基于边界感知神经网络的双目显著物体检测方法
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110782458A (zh) * 2019-10-23 2020-02-11 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIANZHONG YUAN 等: "DMFNet: Deep Multi-Modal Fusion Network for RGB-D Indoor Scene Segmentation", 《SPECIAL SECTION ON INTEGRATIVE COMPUTER VISION AND MULTIMEDIA ANALYTICS》, 6 December 2019 (2019-12-06), pages 169350 - 169358 *
刘帆;刘鹏远;张峻宁;徐彬彬;: "基于双流卷积神经网络的RGB-D图像联合检测", 激光与光电子学进展, no. 02, 20 September 2017 (2017-09-20), pages 386 - 394 *
时斐斐;张松龙;彭力;: "结合边缘特征先验引导的深度卷积显著性检测", 计算机工程与应用, no. 14, 6 September 2019 (2019-09-06), pages 199 - 206 *
汪航 等: "基于小样本学习的SAR图像识别", 计算机科学, 25 December 2019 (2019-12-25), pages 1 - 10 *
项前;唐继婷;吴建国;: "多级上采样融合的强监督RGBD显著性目标检测", 计算机工程与应用, 30 October 2019 (2019-10-30), pages 1 - 9 *
高东东;张新生;: "基于空间卷积神经网络模型的图像显著性检测", 计算机工程, no. 05, 15 May 2018 (2018-05-15), pages 240 - 245 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001914A (zh) * 2020-08-31 2020-11-27 三星(中国)半导体有限公司 深度图像补全的方法和装置
CN112001914B (zh) * 2020-08-31 2024-03-01 三星(中国)半导体有限公司 深度图像补全的方法和装置
CN113408350A (zh) * 2021-05-17 2021-09-17 杭州电子科技大学 一种基于创新边缘特征提取方法的遥感图像显著性检测方法
CN113408350B (zh) * 2021-05-17 2023-09-19 杭州电子科技大学 一种基于边缘特征提取的遥感图像显著性检测方法
CN113505800A (zh) * 2021-06-30 2021-10-15 深圳市慧鲤科技有限公司 图像处理方法及其模型的训练方法和装置、设备、介质
CN113837223A (zh) * 2021-08-24 2021-12-24 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN113837223B (zh) * 2021-08-24 2023-06-09 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN115024298A (zh) * 2022-07-18 2022-09-09 华南农业大学 一种基于轻量级神经网络的计数杀虫灯及计数方法
CN115024298B (zh) * 2022-07-18 2023-09-26 华南农业大学 一种基于轻量级神经网络的计数杀虫灯及计数方法

Similar Documents

Publication Publication Date Title
CN108416377B (zh) 柱状图中的信息提取方法及装置
CN107229757A (zh) 基于深度学习和哈希编码的视频检索方法
CN112070753A (zh) 多尺度信息增强双目卷积神经网络显著性图像检测方法
CN111754446A (zh) 一种基于生成对抗网络的图像融合方法、***及存储介质
CN108664981A (zh) 显著图像提取方法及装置
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN110263813B (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN112257509A (zh) 基于联合信息编码的立体图像单流视觉显著性检测方法
CN111798436A (zh) 基于注意力膨胀卷积特征融合的显著物体检测方法
CN112508956A (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN109886964A (zh) 电路板缺陷检测方法、装置及设备
CN112561791B (zh) 一种基于优化AnimeGAN的图像风格迁移
CN112016400A (zh) 一种基于深度学习的单类目标检测方法、设备及存储介质
CN111709947B (zh) 一种双流沟通和全局信息引导的显著物体图像检测方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN111445432A (zh) 一种基于信息融合卷积神经网络的图像显著性检测方法
CN109426825A (zh) 一种物体封闭轮廓的检测方法和装置
CN111062432A (zh) 一种语义上多模态图像生成的方法
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN112241743A (zh) 一种显著图再生成三流网络的rgbd图像显著性检测方法
CN112149662A (zh) 一种基于扩张卷积块的多模态融合显著性检测方法
CN114913342A (zh) 融合事件和图像的运动模糊图像线段检测方法及***
CN111428602A (zh) 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111428602B (zh) 卷积神经网络边缘辅助增强的双目显著性图像检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant