CN111428602B - 卷积神经网络边缘辅助增强的双目显著性图像检测方法 - Google Patents

卷积神经网络边缘辅助增强的双目显著性图像检测方法 Download PDF

Info

Publication number
CN111428602B
CN111428602B CN202010191633.0A CN202010191633A CN111428602B CN 111428602 B CN111428602 B CN 111428602B CN 202010191633 A CN202010191633 A CN 202010191633A CN 111428602 B CN111428602 B CN 111428602B
Authority
CN
China
Prior art keywords
convolution
layer
block
neural network
hundred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010191633.0A
Other languages
English (en)
Other versions
CN111428602A (zh
Inventor
周武杰
柳昌
雷景生
何成
王海江
周扬
邱薇薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN202010191633.0A priority Critical patent/CN111428602B/zh
Publication of CN111428602A publication Critical patent/CN111428602A/zh
Application granted granted Critical
Publication of CN111428602B publication Critical patent/CN111428602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种卷积神经网络边缘辅助增强的双目显著性图像检测方法。采集原始3D图像包括RGB图和深度图构成训练集;构建RGB图网络和深度图网络,RGB图网络和深度图网络之间通过融合卷积模块连接再融合生成最后的显著性图,形成双目卷积神经网络;将训练集进行训练得到总损失;通过反向传播优化神经网络权重参数,获得训练后的双目卷积神经网络;待测的图像输入到双目卷积神经网络中后预测处理,输出结果。本发明采用双目网络区域增强边缘辅助来生成显著性图,用边缘图来对区域图进行边界加强,输出结果更加准确清晰,解决了现有技术存在显著区域不明显和边界不明确的问题,提高检测效率和精度。

Description

卷积神经网络边缘辅助增强的双目显著性图像检测方法
技术领域
本发明是一种涉及深度学习的视觉图像显著性检测方法,尤其是涉及一种卷积神经网络区域增强边缘辅助的双目显著性图像检测方法。
背景技术
学界早有注意力机制这个词的提出,当人眼看到一幅画面的时候,往往视觉会特别注意某个地方或某个位置,而且由于人类大脑储存即时信息的局限性,会选择人脑认为重要的信息优先处理。人脑的这个特殊机制就回引导着人去关注这个区域特殊的位置,一般人眼看到这幅画面的这个区域位置称为显著性区域,而找到人眼显著性区域的任务称作显著性检测,显著性检测不管在生物学上还是计算机学科都有广泛应用。早前的显著性检测主要是依赖传统手工方法,通过找到手工特征来计算显著性区域图,但是往往手工特征显著性显示区域过于模糊,分辨率不够,显著区域不太明亮,与原本所期望的显著性图差别太大,从而达不到业界应用所需的标准。而计算机硬件发展伴随而来的神经网络热潮正好迎合了显著性检测这个方向,用深度学习模型生成的显著性图往往比手工提取有精确率高,检测效果好,高分辨率突出物体保持物体原有信息,并且具有良好甚至优秀的计算效率。
虽然说深度学习模型的应用,卷积网络用来提取图片特征获得了相对于比手工特征较好的结果,但是卷积层和池化层带来的特征丢失也是卷积计算上一个神经网络计算上存在的一个问题,如何利用好网络从低到高的特征来充分完善显著性图依旧是一个普遍存在的问题需要去解决,由于我们数据集是对状图片集,如何利用深度图的补充信息也是神经网络需要面临的问题,包括深度网络信息与RGB网络信息的充分融合,这也是我们需要解决的。
发明内容
为了解决以上的问题,本发明提出了一种卷积神经网络区域增强边缘辅助的双目显著性图像检测方法,经过实验证明,其显著性检测效率高,结果好。
本发明解决上述技术问题所采用的技术方案为:
步骤1-1:采集原始3D图像,原始3D图像包括RGB图和深度图,RGB图和深度图是一对训练图片,将RGB图和深度图构成训练集,将训练集分为多个不同批次,每一批具有若干图;
原始3D图像对应有标签图,标签图是根据人眼注意力来判定显著区域。
步骤1-2:构建RGB图网络和深度图网络,深度图网络是依赖RGB图网络结合边缘图的特性对边缘辅助卷积神经网络进行构造,RGB图网络和深度图网络之间通过融合卷积模块连接再融合生成最后的显著性图,形成此专利的双目卷积神经网络;
所述的显著性图是指图像中真实人眼注意力所关注的区域标注图。
步骤1-3:将训练集的不同批次图和对应的已知已标注真实人眼显著区域的标签图依次输入到双目卷积神经网络中进行训练,训练过程中每一批次图经双目卷积神经网络处理输出的结果和对应的标签图进行对比得到M个损失函数值,M表示同一批次中的图总数,N表示批次的总数,共计获得N*M个损失函数值,将所有损失函数值相加后除以图总个数N*M得到总损失;
步骤1-4:通过反向传播优化神经网络权重参数,将最小损失函数值对应的权值矢量和偏置项作为双目卷积神经网络的最优权值矢量和最优偏置项,从而获得训练后的双目卷积神经网络;
步骤1-5:对于待测的图像,输入到训练后的双目卷积神经网络中后预测处理,输出预测图即为显著性图,完成了双目显著性图像检测。
如图1所示,所述步骤1-2中,双目卷积神经网络包括总输出层、融合卷积块、RGB图网络和深度图网络,RGB图网络用于生成区域图作为区域图,深度图网络用于生成边缘图,用边缘图进行边缘辅助对显著性图进行优化。RGB图、深度图分别输入到RGB图网络、深度图网络,RGB图网络和深度图网络的输出分别连接输入到融合卷积块,融合卷积块的输出连接总输出层;
所述的RGB图网络包括第一、第二、第三、第四、第五、第六、第七神经网络块以及六个过渡卷积块、两个聚合模块、一个整体注意力块、一个区域增强模块;RGB图连接输入到第一输入层,第一输入层的输出依次经第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、第三过渡卷积块和第一聚合模块后连接输入到区域增强模块,区域增强模块的输出连接到第一输出层,同时第三神经网络块的输出和第四神经网络块的输出分别经第一过渡卷积块、第二过渡卷积块后连接输入到第一聚合模块,第一聚合模块的输出和第三神经网络块的输出一起输入到整体注意力块,整体注意力块的输出依次经第六神经网络块、第七神经网络块、第六过渡卷积块后连接到第二聚合模块,同时整体注意力块的输出和第六神经网络块的输出分别经第四过渡卷积块、第五过渡卷积块连接输入到第二聚合模块,第二聚合模块的输出和区域增强模块的输出均连接到点和层作相加处理,点和层的输出分别输入到融合卷积块和第二输出层;
所述的深度图网络和RGB图网络的结构基本一致,RGB图网络采用resnet-50作为基本网络,深度图采用VGG作为基本网络,深度图网络仅采用了一个自适应卷积块模块代替区域增强模块;且深度图网络和RGB图网络的点和层的输出均连接输入到融合卷积块;
RGB图网络和深度图网络分别输出区域图和边缘图,RGB图网络的第一个输出层和第二输出层分别输出通过区域增强模块区域图和通过第一个头注意力块的区域图,第二个输出层输出的区域图较第一个输出层输出的区域图显著效果更好,但是第一个输出层区域图携带的信息特征会更多,深度图网络的第一个输出层和第二个输出层分别输出通过过渡卷积块边缘图和通过第二个头注意力块的边缘图,第二个边缘输出层较第一个边缘输出层输出效果更好,但是第一个边缘输出层携带的信息特征会更多,将边缘图输入到融合卷积块对区域图进行修正处理获得最终的显著性图。
所述步骤1-3中,计算每个损失函数值时,是将单目区域卷积神经网络的两个输出层输出的区域图分别和标签图作损失计算获得第一损失值和第二损失值,同时将边缘辅助卷积神经网络的两个输出层输出的边缘图分别和边缘标签图作损失计算获得第散损失值和第四损失值,边缘标签图是由标签图经Canny算子边缘提取获得,同时将融合卷积块输出的显著性图和标签图作损失计算获得第五损失值,将五个损失值相加获得损失函数值。
所述的双目卷积神经网络有五个输出,分别为RGB图网络的两个输出层的区域图输出,深度图网络的两个输出层的边缘图输出,以及最后融合卷积块的显著性图输出。
本发明的双目卷积神经网络主要由RGB图网络和深度图网络构成,网络有多个输出层对通道的过渡,除了最后结果输出之外都包括一个简单的卷积块,本方法显著性检测输出仅仅需要一个通道即可。
RGB图网络采用分流网络结构,基础网络结构为resnet-50,大致分为五块,第一步图片预处理之后经过卷积池化为第一层,命名为第一个神经网络块,接下来有四块包括瓶颈结构不同层数的四块网络分别为第二个神经网络块、第三个神经网络块,第四个神经网络块和第五个神经网络块,然后采用分流网络添加分别与第四神经网络块与第五神经网络块一致的第六个神经网络块、第七个神经网络块。当RGB图片输入先经过一层卷积层,一个池化层,再依次经过第二个神经网络块,第三个神经网络块,此时网络开始分流分别经过第四个神经网络块,第五个神经网络块和第六个神经网络块,第七个神经网络块。
深度图网络也采用分流网络结构,基础网络为VGG,VGG网络包括第一个神经网络块、第二个神经网络块、第三个神经网络块、第四个神经网络块、第五个神经网络块和与第四个神经网络块和第五个神经网络块一致的第六个神经网络块和第六个神经网络块。深度图预处理之后依次经过第一神经网络块,第二个神经网络块、第三个神经网络块开始分流分别经过第四个神经网络块,第五个神经网络块和第六个神经网络块,第七个神经网络块。
所述的RGB图网络和深度图网络的两个输出层均包含一个简单的卷积层,共计四个输出层,仅仅做通道变换为显著性任务所需;总输出层仅输出无任何计算操作。
所述的区域增强模块为编码解码网络,采用U型网络结构,输入的特征图先经过连续两个卷积层、一个池化层、一个卷积层、一个池化层、连续两个卷积层、一个池化层后连接输入到一个中间过渡模块,通过中间过渡模块进入解码过程,解码过程是把通过双线性差值放大图片以及卷积层提取信息来达到解码目的最后的一个池化层的输出换为双线性差值上采样变换图片尺寸,整个编码解码过程中有跳连直接从编码部分流入解码部分,从而最后得到区域增强之后的图片,并且其中除了第一层卷积层之外的其他卷积层之后均设置有批标准化和激活函数操作。
如图2a所示,每个所述过渡卷积块结构相同,均主要由两个卷积块和两个注意力机制块组成,输入的特征图经过第一个卷积块改变特征图个数,再依次经过两个注意力机制块后再与输入的特征图一起输入到叠合层进行堆叠后输入第四卷积块,最后第二个卷积块输出;两个卷积块的结构相同,均由三个卷积层依次连接构成。
如图2b所示,所述的融合卷积块包括三个卷积块和三个张量运算操作,每次区域图与边缘图进行运算之后都会经过拥有三个卷积层的卷积块;边缘辅助卷积神经网络和单目区域卷积神经网络的点和层分别输出边缘图与区域图,融合卷积块的融合方式为边缘图与区域图融合,一方面边缘图与区域图共同输入到一个点和层进行张量加操作,另一方面边缘图与区域图共同输入到一个点乘层进行张量乘操作,点和层和点乘层的输出经各自的一个卷积块后连接到叠合层进行堆叠后输入到第三个卷积块,最后由第三个卷积块输出;三个卷积块的结构相同,均由三个卷积层依次连接构成。
本发明大量使用三个卷积层堆叠的卷积块操作,因为涉及的卷积层卷积核都不大,这样有节省算力提高模型效率,能够带来精确提取图片信息好处和充分利用图片特征的优势。
单目区域卷积神经网络的输入层的输入为3D图像的RGB图,RGB图的输入层分别为R通道、B通道、G通道;边缘辅助卷积神经网络的输入层的输入为3D图像的深度图,深度图经过HHA预处理之后同样为三通道,以方便网络预训练。
所述的聚合模块主要由六个上采样单元和十个卷积单元构成,第三过渡卷积块/第六过渡卷积块的输出分别连接输入到第一上采样单元和第二上采样单元,第一上采样单元的输出连接输入到第一卷积单元,第一卷积单元的输出和第二过渡卷积块/第四过渡卷积块的输出均连接到第一个点乘层处理,第一上采样单元的输出经第四卷积单元后和第一个点乘层的输出一起连接输入到第一个叠合层作相连接处理,第一个叠合层的输出依次经第六卷积单元、第四上采样单元后输入到第五卷积单元,第二上采样单元的输出经第三上采样单元后输入到第二卷积单元,同时第二过渡卷积块/第四过渡卷积块的输出经第五上采样单元输入到第三卷积单元,第一过渡卷积块/第一过渡卷积块的输出以及第二卷积单元和第三卷积单元的输出一起连接输入到第二个点乘层,第二个点乘层的输出和第五卷积单元的输出一起输入到第二个叠合层作相连接处理,第二个叠合层的输出经第七卷积单元后连接输入到第八卷积单元,第八卷积单元的输出经第九卷积单元后连接输入到整体注意力块/点和层,同时第八卷积单元的输出依次经第十卷积单元和第六上采样单元后输入到区域增强模块。
所述的整体注意力块均是仅由一个卷积层组成。
所述的第一神经网络块是由一个卷积层、一个池化层和一个激活层依次连接组成;所述的第二神经网络块是由一个卷积单元、连续两个卷积块依次连接组成,所述的第三神经网络块是由一个卷积单元、连续三个卷积块依次连接组成,所述的第四神经网络块是由一个卷积单元、连续五个卷积块依次连接组成,所述的第五神经网络块是由一个卷积单元、连续两个卷积块依次连接组成,所述的第六神经网络块是由一个卷积单元、连续五个卷积块依次连接组成,所述的第七神经网络块是由一个卷积单元、连续两个卷积块依次连接组成;所述的卷积单元是由连续三个卷积层、一个跳连下采样卷积层和一个激活层依次连接组成,所述的卷积块是由连续三个卷积层和一个激活层依次连接组成。
所述的跳连下采样卷积层为一个步长为2卷积核为1能实现图片尺寸变换的卷积层。
所述的自适应卷积块模块为一个卷积核为1的卷积层,这为了提取到有用的信息而设置的。
具体实施中,选取N对原始3D图像,3D图像的一对图片包括一张RGB图片其中第k副记为和一张深度图其中第k副记为再选取对应的标签图其中第k副记为{Gk(x,y)}构成原始训练集,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,再对输入图片进行预处理,图片变换为W*H,W是预处理之后的图片的宽度,H是预处理之后图片的高度,在本发明中WH均为224,Rk(x,y)表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Gk(x,y)表示{Gk(x,y)}中坐标位置为(x,y)的像素点的像素值。
具体实施中,本实验选定数据集为NJU2K和NLPR,均为知名公开数据集。NJU2K拥有2000对图片包括1600对训练图片和400张测试图片,NLPR拥有1000张图片分别是800对训练图片,200对测试图片。
如图1所示,具体实施中,对于输入层:单目区域卷积神经网络的第一输入层,输入图片经过预处理为H*W大小,通道为3通道,分别为R通道,G通道,B通道;边缘辅助卷积神经网络的第二输入层,输入图片经过预处理为H*W,通道为1通道,经过HHA处理之后变为三通道。
对于作为RGB网络的单目区域卷积神经网络:输入到第一个神经网络块,输出的特征图的集合为S1,依次经过第二个神经网络块得到特征图S2,第三个神经网络块得到特征图S3,RGB网络在这里开始分流,特征图S3经过第四个神经网络块得到S4,经过第五个神经网络块得到S5,特征图S3、S4、S5经过第一个过渡卷积块、第二个过渡卷积块、第二个过渡卷积块、得到特征图T1、特征图T2、特征图T3,其特征图个数一致,尺寸2的倍数递减,然后通过第一个聚合模块接受T1、T2、T3,得到特征图A1和A3,A1与S3同时输入到整体注意力模块得到特征图H1,特征图H1再经过第六神经网络块、第七个神经网络块分别得到S6、S7,整体注意力模块输出特征图H1和S6、S7再经过第四个过渡卷积块、第五个过渡卷积块、第六个过渡卷积块得到T4、T5、T6,特征图T4、T5、T6再经过第二个聚合模块得到A2,特征图A3经过区域增强模块得到特征图Q,特征图Q与A2得到区域预测图两张。
对于作为深度图网络的边缘辅助卷积神经网络:输入到第一个神经网络块,输出的特征图的集合为D1,依次经过第二个神经网络块得到特征图D2,第三个神经网络块得到特征图D3,RGB网络在这里开始分流,特征图S3经过第四个神经网络块得到D4,经过第五个神经网络块得到D5,特征图D3、D4、D5经过第一个过渡卷积块、第二个过渡卷积块、第二个过渡卷积块、得到特征图P1、特征图P2、特征图T3,其特征图个数一致,尺寸2的倍数递减,然后通过第一个聚合模块接受P1、P2、P3,得到特征图B1和B3,B1与D3同时输入到整体注意力模块得到特征图H2,特征图H2再经过第六神经网络块、第七个神经网络块分别得到D6、D7,整体注意力模块输出特征图H2和D6、D7再经过第四个过渡卷积块、第五个过渡卷积块、第六个过渡卷积块得到P4、P5、P6,特征图P4、P5、P6再经过第二个聚合模块得到B2,特征图B3经过自适应卷积块得到特征图2张,两张特征图与B2得到的边缘预测图两张。
针对现有单目网络的显著性图往往存在显著区域不明显、边界不明确的问题,本发明方法采用双目网络区域增强边缘辅助来生成显著性图,输入改变为一对图片分别是RGB彩色图和深度图,采用深度图生成的边缘图来对区域图进行边界加强,使最后生成的图片更加准确清晰,经过实验本方法在显著性检测两个数据集上都有很好的表现。
本发明的有益效果:
1)本发明方法构建一个双目的端到端卷积神经网络,构建了一个每个过渡卷积块取提取不同等级特征。
2)本发明方法采用了聚合模块来充分利用高低级特征。
3)本发明方法采用了边缘辅助,使用边缘信息通过融合卷积块和区域图进行融合。
4)本发明采用了多层监督的方法,提高检测效率和精度。
附图说明
图1为本发明的总体实现框图;
图2a为本发明的第n个过渡卷积块;
图2b为本发明的融合卷积块;
图2b中,C表示通道相叠,X表示张量相乘操作,+表示张量相加操作;
图3a为NJU2K测试集随机挑选一个标签图片;
图3b为利用本发明方法对应3a卷积神经网络模型生成的显著性图;
图4a为NJU2K测试集随机挑选一个标签图片;
图4b为利用本发明方法对应4a卷积神经网络模型生成的显著性图;
图5a为NLPR测试集随机挑选一个标签图片;
图5b为利用本发明方法对应5a卷积神经网络模型生成的显著性图;
图6a为NLPR测试集随机挑选一个标签图片;
图6b为利用本发明方法对应6a卷积神经网络模型生成的显著性图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明具体实施例及其实施过程包括:
包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1-1:选取N对原始3D图像,一对图片包括一张RGB图片其中第k副记为和一张深度图其中第k副记为再选取对应的标签图其中第k副记为{Gk(x,y)}构成原始训练集,其中,N为正整数,N≥200,如取N=600,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,再对输入图片进行预处理,图片变换为W*H,W是预处理之后的图片的宽度,H是预处理之后图片的高度,在本发明中WH均为224,Rk(x,y)表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Gk(x,y)表示{Gk(x,y)}中坐标位置为(x,y)的像素点的像素值,本实验选定数据集为NJU2K和NLPR,均为知名公开数据集。NJU2K拥有2000对图片包括1600对训练图片和400张测试图片,NLPR拥有1000张图片分别是800对训练图片,200对测试图片。
步骤1-2:构建端到端的卷积神经网络:卷积神经网络包括输入层、隐层和输出层,隐藏层依次是RGB图网络的第一个神经网络块、第二个神经网络块、第三个神经网络块、第四个神经网络块、第五个神经网络块、第六个神经网络块、第七个神经网络块、第一个过渡卷积块、第二个过渡卷积块、第三个过渡卷积块、第四个过渡卷积块、第五个过渡卷积块、第六个过渡卷积块、第一个头注意力块、第一个聚合模块、第二个聚合模块、区域增强模块、融合卷积块、第一个输出层、第二个输出层、深度图网络的第八个神经网络块、第九个神经网络块、第十个神经网络块、第十一个神经网络块、第十二个神经网络块、第十三个神经网络块、第十四个神经网络块、第七个过渡卷积块、第八个过渡卷积块、第九个过渡卷积块、第十个过渡卷积块、第十一个过渡卷积块、第十二个过渡卷积块、第二个头注意力块、第三个聚合模块、第四个聚合模块、过渡卷积块。第一个边缘输出层、第二个边缘输出层和一个总输出层。
对于输入层,分为RGB网络和深度网络,RGB网络为输入层1,输入图片经过预处理为H*W大小,通道为3通道,分别为R通道,G通道,B通道,深度网络为输入层2,输入图片经过预处理为H*W,通道为1通道,经过HHA处理之后变为三通道。
对于RGB图网络:基础网络包括第一个神经网络块、第二个神经网络块、第三个神经网络块、第四神经网络块、第五个神经网络块、第六个神经网络块、第七个神经网络块,第一个过渡卷积块、第二个过渡卷积块、第三个过渡卷积块、第四个过渡卷积块、第五个过渡卷积块、第六个过渡卷积块,第一个神经网络块是由第一卷积层(Convolution,Conv),第一池化层(Maxpooling,Pool),第一激活层组成,激活方式(Activation,Act)为“Relu”,经过第一个神经网络块输出64张特征图,卷积层卷积核(kernel_size)大小为7*7、卷积核(filters)个数为64、步长(stride)为2,补零参数(padding)的值为1。池化层的卷积核大小为3*3、步长为2,补零参数为3,将64张特征图的集合记为S1,特征图宽度为W/4,高度为H/4,以下未介绍的步长都为1,未介绍的补零参数3*3卷积核的卷积为1,1*1卷积为0,未介绍的池化均为最大池化。
对于第二个神经网络块,第二个神经网络块由三个卷积块组成,第一卷积块由第二卷积层,第三卷积层,第四卷积层,第一跳连下采样卷积层,第二激活层,激活方式为“Relu”,第二卷积层卷积核大小为1*1、卷积核个数为64,第三卷积层卷积核大小为3*3、卷积核个数为64、补零参数为1,第四卷积层卷积核大小为1*1、卷积核个数为256,第一跳连下采样卷积层卷积核大小为1*1、卷积核个数为256,第二卷积块由第五卷积层,第六卷积层,第七卷积层,第三个激活层,激活方式为“Relu”,第五卷积层卷积核大小为1*1、卷积核个数为64,第六卷积层卷积核大小为3*3、卷积核个数为64、补零参数为1,第七卷积层卷积核大小为1*1、卷积核个数为256,第三卷积块由第八个卷积层,第九卷积层,第十卷积层,第四激活层,激活方式为“Relu”,第八卷积层卷积核大小为1*1、卷积核个数为64,第九卷积层卷积核大小为3*3、卷积核个数为64、补零参数为1,第十个卷积层卷积核大小为1*1、卷积核个数为256,将256张特征图的集合记为S2,特征图宽度为W/4,高度为H/4。
对于第三个神经网络块,第三个神经网络块由四个卷积块组成,第四卷积块有第十一卷积层,第十二卷积层,第十三卷积层,第二跳连下采样卷积层,第五激活层,激活方式为“Relu”第十一卷积层卷积核大小为1*1、卷积核个数为128,第十二卷积层卷积核大小为3*3、卷积核个数为128、步长为2、补零参数为1,第十三卷积层卷积核大小为1*1,卷积核个数为512,第二跳连下采样卷积层卷积核大小为1*1、卷积核个数为512、步长为2。第五卷积块由第十四卷积层,第十五卷积层,第十六卷积层,第六激活层,激活方式为“Relu”第十四卷积层卷积核大小为1*1、卷积核个数为128,第十五卷积层卷积核大小为3*3、卷积核个数为128、补零参数为1,第十六卷积层卷积核大小为1*1,卷积核个数为512。第六卷积块由由第十七卷积层,第十八卷积层,第十九卷积层,第七激活层,激活方式为“Relu”第十七卷积层卷积核大小为1*1、卷积核个数为128,第十八卷积层卷积核大小为3*3、卷积核个数为128、补零参数为1,第十九卷积层卷积核大小为1*1,卷积核数为512。第七卷积块由第二十卷积层,第二十一卷积层,第二十二卷积层,第八激活层,激活方式为“Relu“,第二十卷积层卷积核大小为1*1、卷积核个数为128,第二十一卷积层卷积核大小为3*3、卷积核个数为128、补零参数为1,第二十二卷积层卷积核大小为1*1,卷积核个数为512。,将512张特征图的集合记为S3,特征图宽度为W/8,高度为H/8。
对于第四个神经网络块,第四个神经网络块由六卷积块组成,第八卷积块由由第二十三卷积层,第二十四卷积层,第二十五卷积层,第三跳连下采样卷积层,第一个下采样激活层,激活方式为“Relu,第二十三卷积层卷积核大小为1*1、卷积核个数为256,第二十四卷积层卷积核大小为3*3、卷积核个数为256、步长为2、补零参数为1,第二十五卷积层卷积核大小为1*1,卷积核个数为1024,第三跳连下采样卷积层卷积核大小为1*1、卷积核个数为1024、步长为2。第九个卷积块由由第二十六卷积层,第二十七卷积层,第二十八卷积层,第九个激活层,激活方式为“Relu”第二十六卷积层卷积核大小为1*1、卷积核个数为256,第二十七卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第二十八卷积层卷积核大小为1*1,卷积核个数为1024。第十个卷积块由由第二十九卷积层,第三十卷积层,第三十一卷积层,第十激活层,激活方式为“Relu”第二十九卷积层卷积核大小为1*1、卷积核个数为256,第三十卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第三十一卷积层卷积核大小为1*1,卷积核个数为1024。第十一个卷积块由第三十二卷积层,第三十三卷积层,第三十四个卷积层,第十一个激活层,激活方式为“Relu”第三十二卷积层卷积核大小为1*1、卷积核个数为256,第三十三卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第三十四卷积层卷积核大小为1*1,卷积核个数为1024,第十二个卷积块由由第三十五卷积层,第三十六卷积层,第三十七卷积层,第十二激活层,激活方式为“Relu”第三十五卷积层卷积核大小为1*1、卷积核个数为256,第三十六卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第三十七卷积层卷积核大小为1*1,卷积核个数为1024,第十三个卷积块由第三十八卷积层,第三十九卷积层,第四十卷积层,第十三激活层,激活方式为“Relu”第三十八卷积层卷积核大小为1*1、卷积核个数为256,第三十九卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第四十卷积层卷积核大小为1*1,卷积核个数为1024,将512张特征图的集合记为S4,特征图宽度为W/16,高度为H/16。
对于第五个神经网络块,第五个神经网络块由三个卷积块组成,第十四卷积块由第四十卷积层,第四十一卷积层,第四十二卷积层,第四跳连下采样卷积层,第十四激活层,激活方式为“Relu”,第四十卷积层卷积核大小为1*1、卷积核个数为512,第四十一卷积层卷积核大小为3*3、卷积核个数为512、步长为2、补零参数为1,第四十二卷积层卷积核大小为1*1、卷积核个数为2048,第四跳连下采样卷积层卷积核大小为1*1、卷积核个数为2048、步长为2,第十五卷积块由第四十三卷积层,第四十四卷积层,第四十五卷积层,十五激活层,激活方式为“Relu”,第四十三卷积层卷积核大小为1*1、卷积核数为512,第四十四卷积层卷积核大小为3*3、卷积核个数为512、补零参数为1,第四十五卷积层卷积核大小为1*1、卷积核个数为2048,第十六卷积块由第四十六卷积层,第四十七卷积层,第四十八卷积层,第十六激活层,激活方式为“Relu”,第四十六卷积层卷积核大小为1*1、卷积核个数为512,第四十七卷积层卷积核大小为3*3、卷积核个数为512、补零参数为1,第四十八卷积层卷积核大小为1*1、卷积核个数为2048,将2048张特征图的集合记为S5,特征图宽度为W/32,高度为H/32。
对于第六个神经网络块,第六个神经网络块由六个卷积块组成,第十七卷积块由由第四十九卷积层,第五十卷积层,第五十一卷积层,第五跳连下采样卷积层,第十七激活层,激活方式为“Relu,第四十九卷积层卷积核大小为1*1、卷积核个数为256,第五十卷积层卷积核大小为3*3、卷积核个数为256、步长为2、补零参数为1,第五十一卷积层卷积核大小为1*1,卷积核个数为1024,跳连下采样卷积层卷积核大小为1*1、卷积核个数为1024、步长为2。第十八卷积块由第五十二卷积层,第五十三卷积层,第五十四个卷积层,第十八激活层,激活方式为“Relu”第五十二卷积层卷积核大小为1*1、卷积核个数为256,第五十三卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第五十四卷积层卷积核大小为1*1,卷积核个数为1024。第十九卷积块由第五十五卷积层,第五十六卷积层,第五十七卷积层,第十九激活层,激活方式为“Relu”第五十五卷积层卷积核大小为1*1、卷积核个数为256,第五十六卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第五十七卷积层卷积核大小为1*1,卷积核个数为1024。第二十卷积块由第五十八个卷积层,第五十九卷积层,第六十个卷积层,第二十激活层,激活方式为“Relu”第五十八卷积层卷积核大小为1*1、卷积核个数为256,第五十九卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第六十卷积层卷积核大小为1*1,卷积核个数为1024,第二十一卷积块由第六十一卷积层,第六十二卷积层,第六十三卷积层,第二十一激活层,激活方式为“Relu”第六十一卷积层卷积核大小为1*1、卷积核个数为256,第六十二卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第六十三卷积层卷积核大小为1*1,卷积核个数为1024,第二十二卷积块由第六十四卷积层,第六十五卷积层,第六十六卷积层,第二十二激活层,激活方式为“Relu”第六十四卷积层卷积核大小为1*1、卷积核个数为256,第六十五卷积层卷积核大小为3*3、卷积核个数为256、补零参数为1,第六十六卷积层卷积核大小为1*1,卷积核个数为1024,将512张特征图的集合记为S6,特征图大小为W/16,H/16。
对于第七个神经网络块,第七个神经网络块由三个卷积块组成,第二十三卷积块有第六十七个卷积层,第六十八卷积层,第六十九卷积层,第六跳连下采样卷积层,第二十三个激活层,激活方式为“Relu”,第六十七卷积层卷积核大小为1*1、卷积核个数为512,第六十八卷积层卷积核大小为3*3、卷积核个数为512、步长为2、补零参数为1,第六十九卷积层卷积核大小为1*1、卷积核个数为2048,第六跳连下采样卷积层卷积核大小为1*1、卷积核个数为2048、步长为2,第二十四卷积块有第七十个卷积层,第七十一卷积层,第七十二卷积层,第二十四激活层,激活方式为“Relu”,第七十卷积层卷积核大小为1*1、卷积核个数为512,第七十一卷积层卷积核大小为3*3、卷积核个数为512、补零参数为1,第七十二卷积层卷积核大小为1*1、卷积核个数为2048,第二十五卷积块由由第七十三卷积层,第七十四卷积层,第七十五卷积层,第二十五激活层,激活方式为“Relu”,第七十三卷积层卷积核大小为1*1、卷积核个数为512,第七十四卷积层卷积核大小为3*3、卷积核个数为512、补零参数为1,第七十五卷积层卷积核大小为1*1、卷积核个数为2048,将2048张特征图的集合记为S7,特征图大小为W/32,H/32。
对于第一个过渡卷积块,以下所述过渡卷积块为图2a所示,第一个过渡卷积块由四个卷积块组成,第二十六卷积块有第七十六卷积层、第七十七卷积层、第七十八卷积层,第七十六卷积层卷积核大小为3*3、卷积核个数为512,第七十七卷积层卷积核大小为1*1、卷积核个数为64,第七十八卷积层卷积核大小为1*1,卷积核个数为32。第二十七卷积块为注意力机制块,引用的为GCNet,后面第n个过渡卷积块的注意力机制块均为GCNet,有第七十九卷积层,第二十六激活层,第八十卷积层,第二十七激活层,第八十一卷积层,第七十九卷积层卷积核大小为1*1,卷积核个数为1,第二十六激活层,激活方式为“Softmax”,第八十卷积层卷积核大小为1*1,卷积核个数为16,第二十七激活层,激活方式为“Relu”,第八十一卷积层卷积核大小为1,卷积核个数为128,第二十八卷积块为注意力机制块,有第八十二卷积层,第二十八激活层,第八十三卷积层,第二十九激活层,第八十四卷积层,第八十二卷积层卷积核大小为1*1,卷积核个数为1,第二十八激活层,激活方式为“Softmax”,第八十三卷积层卷积核大小为1*1,卷积核个数为16,第二十九激活层,激活方式为“Relu”,第八十四卷积层卷积核大小为1,卷积核个数为128。第二十九卷积块有第八十五个卷积层、第八十六卷积层、第八十七卷积层。第八十五卷积层卷积核为3*3,卷积核个数为64,第八十六卷积层卷积核为3*3,卷积核个数为64,第八十七卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为T1,特征图宽度为W/8,高度为H/8。
对于第二个过渡卷积块,第二个过渡卷积块由四个卷积块组成,第三十卷积块有第八十八卷积层、第八十九卷积层、第九十卷积层,第八十八卷积层卷积核大小为3*3、卷积核个数为512,第八十九卷积层卷积核大小为1*1、卷积核个数为64,第九十卷积层卷积核大小为1*1,卷积核个数为32。第三十一个卷积块为注意力机制块,有第九十一卷积层,第三十个激活层,第九十二卷积层,第三十一激活层,第九十三卷积层,第九十一卷积层卷积核大小为1*1,卷积核个数为1,第三十层激活层,激活方式为“Softmax”,第九十二卷积层卷积核大小为1*1,卷积核个数为16,第三十一激活层,激活方式为“Relu”,第九十三卷积层卷积核大小为1,卷积核个数为128,第三十二卷积块为注意力机制块,有第九十四卷积层,第三十二激活层,第九十五卷积层,第三十三激活层,第九十六卷积层,第九十四卷积层卷积核大小为1*1,卷积核个数为1,第三十二激活层,激活方式为“Softmax”,第九十五卷积层卷积核大小为1*1,卷积核个数为16,第三十三激活层,激活方式为“Relu”,第九十六卷积层卷积核大小为1,卷积核个数为128。第三十三个卷积块有第九十七卷积层、第九十八卷积层、第九十九卷积层。第九十七卷积层卷积核为3*3,卷积核个数为64,第九十八卷积层卷积核为3*3,卷积核个数为64,第九十九卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为T2,特征图宽度为W/16,高度为H/16。
对于第三个过渡卷积块,第三个过渡卷积块由四个卷积块组成,第三十四卷积块有第一百个卷积层、第一百零一卷积层、第一百零二卷积层,第一百卷积层卷积核大小为3*3、卷积核个数为512,第一百零一卷积层卷积核大小为1*1、卷积核个数为64,第一百零二卷积层卷积核大小为1*1,卷积核个数为32。第三十五卷积块为注意力机制块,有第一百零三卷积层,第三十四激活层,第一百零四个卷积层,第三十五激活层,第一百零五卷积层,第一百零三个卷积层卷积核大小为1*1,卷积核个数为1,第三十五层激活层,激活方式为“Softmax”,第一百零四个层卷积层卷积核大小为1*1,卷积核个数为16,第三十五激活层,激活方式为“Relu”,第一百零五卷积层卷积核大小为1,卷积核个数为128,第三十六卷积块为注意力机制块,有第一百零六卷积层,第三十六个激活层,第一百零七卷积层,第三十七激活层,第一百零八卷积层,第一百零六个卷积层卷积核大小为1*1,卷积核个数为1,第三十六激活层,激活方式为“Softmax”,第一百零七卷积层卷积核大小为1*1,卷积核个数为16,第三十七激活层,激活方式为“Relu”,第一百零八卷积层卷积核大小为1,卷积核个数为128。第三十七个卷积块有第一百零九卷积层、第一百一十卷积层、第一百一十一卷积层。第一百零九卷积层卷积核为3*3,卷积核个数为64,第一百一十卷积层卷积核为3*3,卷积核个数为64,第一百一十一卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为T3,特征图宽度为W/32,高度为H/32。
对于第四个过渡卷积块,第四个过渡卷积块由四个卷积块组成,第三十八卷积块有第一百一十二卷积层、第一百一十三卷积层、第一百一十四卷积层,第一百一十二个卷积层卷积核大小为3*3、卷积核个数为512,第一百一十三卷积层卷积核大小为1*1、卷积核个数为64,第一百一十四卷积层卷积核大小为1*1,卷积核个数为32。第三十九个卷积块为注意力机制块,有第一百一十四个卷积层,第三十八激活层,第一百一十五卷积层,第三十九个激活层,第一百一十六卷积层,第一百一十四卷积层卷积核大小为1*1,卷积核个数为1,第三十八层激活层,激活方式为“Softmax”,第一百一十五卷积层卷积核大小为1*1,卷积核个数为16,第三十九层激活层,激活方式为“Relu”,第一百一十六卷积层卷积核大小为1,卷积核个数为128,第四十卷积块为注意力机制块,有第一百一十七卷积层,第四十激活层,第一百一十八卷积层,第四十一激活层,第一百一十九卷积层,第一百一十七卷积层卷积核大小为1*1,卷积核个数为1,第四十激活层,激活方式为“Softmax”,第一百一十八卷积层卷积核大小为1*1,卷积核个数为16,第四十一激活层,激活方式为“Relu”,第一百一十九卷积层卷积核大小为1,卷积核个数为128。第四十一卷积块有第一百二十卷积层、第一百二十一卷积层、第一百二十二卷积层。第一百二十卷积层卷积核为3*3,卷积核个数为64,第一百二十一卷积层卷积核为3*3,卷积核个数为64,第一百二十二个卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为T4,特征图宽度为W/8,高度为H/8。
对于第五个过渡卷积块,第五个过渡卷积块由四个卷积块组成,第四十二卷积块有第一百二十三卷积层、第一百二十四卷积层、第一百二十五卷积层,第一百二十三个卷积层卷积核大小为3*3、卷积核个数为512,第一百二十四卷积层卷积核大小为1*1、卷积核个数为64,第一百二十五卷积层卷积核大小为1*1,卷积核个数为32。第四十三个卷积块为注意力机制块,有第一百二十六个卷积层,第四十二个激活层,第一百二十七卷积层,第四十三激活层,第一百二十八卷积层,第一百二十六卷积层卷积核大小为1*1,卷积核个数为1,第四十二激活层,激活方式为“Softmax”,第一百二十七个卷积层卷积核大小为1*1,卷积核个数为16,第四十三层激活层,激活方式为“Relu”,第一百二十八卷积层卷积核大小为1,卷积核个数为128,第四十四个卷积块为注意力机制块,有第一百二十九个卷积层,第四十四个激活层,第一百三十个卷积层,第四十五个激活层,第一百三十一卷积层,第一百二十九卷积层卷积核大小为1*1,卷积核个数为1,第四十四激活层,激活方式为“Softmax”,第一百三十卷积层卷积核大小为1*1,卷积核个数为16,第四十五激活层,激活方式为“Relu”,第一百三十一卷积层卷积核大小为1,卷积核个数为128。第四十五卷积块有第一百三十二卷积层、第一百三十三卷积层、第一百三十四卷积层。第一百三十二卷积层卷积核为3*3,卷积核个数为64,第一百三十三卷积层卷积核为3*3,卷积核个数为64,第一百三十四卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为T5,特征图宽度为W/16,高度为H/16。
对于第六个过渡卷积块,第六个过渡卷积块由四个卷积块组成,第四十六卷积块有第一百三十五卷积层、第一百三十六卷积层、第一百三十七卷积层,第一百三十五卷积层卷积核大小为3*3、卷积核个数为512,第一百三十六卷积层卷积核大小为1*1、卷积核个数为64,第一百三十七卷积层卷积核大小为1*1,卷积核个数为32。第四十七个卷积块为注意力机制块,有第一百三十八个卷积层,第四十六激活层,第一百三十九卷积层,第四十七激活层,第一百四十卷积层,第一百三十八卷积层卷积核大小为1*1,卷积核个数为1,第四十六激活层,激活方式为“Softmax”,第一百三十九卷积层卷积核大小为1*1,卷积核个数为16,第四十七层激活层,激活方式为“Relu”,第一百四十卷积层卷积核大小为1,卷积核个数为128,第四十八个卷积块为注意力机制块,有第一百四十一个卷积层,第四十八激活层,第一百四十二卷积层,第四十九个激活层,第一百四十三卷积层,第一百四十一个卷积层卷积核大小为1*1,卷积核个数为1,第四十八激活层,激活方式为“Softmax”,第一百四十二层卷积层卷积核大小为1*1,卷积核个数为16,第四十九层激活层,激活方式为“Relu”,第一百四十三个卷积层卷积核大小为1,卷积核个数为128。第四十九个卷积块有第一百四十四个卷积层、第一百四十五个卷积层、第一百四十六卷积层。第一百四十四个卷积层卷积核为3*3,卷积核个数为64,第一百四十五卷积层卷积核为3*3,卷积核个数为64,第一百四十六个卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为T6,特征图宽度为W/32,高度为H/32。
第一个聚合模块由第一个上采样层,第一百四十七卷积层、第五十激活层、第一百四十八卷积层、第五十一激活层、第一百四十九卷积层、第五十二激活层、第一百五十卷积层、第五十三激活层、第一百五十一卷积层、第五十四激活层、第一百五十二卷积层、第五十五激活层、第一百五十三卷积层、第五十六激活层、第一百五十四卷积层、第五十七激活层、第一百五十五卷积层、第一百五十六卷积层、第二上采样层,聚合模块均引用denseaggregation模块,激活方式均为“Relu”,第一上采样层放大倍数(scale factor)为2,插值方法为双线性差值(bilinear),第一百四十七个卷积层卷积核为3、卷积核个数为32,第一百四十八个卷积层卷积核为3、卷积核个数为32,第一百四十九卷积层卷积核为3、卷积核个数为32,第一百五十个卷积层卷积核为3、卷积核个数为32,第一百五十一卷积层卷积核为3、卷积核个数为64,第一百五十二卷积层卷积核为3、卷积核个数为64,第一百五十三个卷积层卷积核为3、卷积核个数为96,第一百五十四卷积层卷积核为3、卷积核个数为96,第一百五十五卷积层卷积核为1、卷积核个数为1,第一百五十六卷积层卷积核为1、卷积核个数为2,第二上采样层放大倍数为4、插值方法为双线性插值。接受由第一个过渡卷积块、第二个过渡卷积块、第三个过渡卷积块的特征图集合,输出两个特征图集合,一个输入到整体注意力块1张特征图记为A1,其特征图宽度为W/4,高度为H/4,一个输入到过渡卷积块2张特征图集合记为A3,其特征图宽度为W,高度为H。
对于区域增强模块,引用自Refunet,区域增强模块由第一百五十七个卷积层、第一百五十八卷积层、第五十八激活层、第二池化层、第一百五十九卷积层、第五十九激活层、第三池化层、第一百六十卷积层、第六十激活层、第四池化层、第一百六十一卷积层、第六十一激活层、第五池化层、第一百六十二卷积层、第六十二激活层、第一百六十三卷积层、第六十三激活层、第一百六十四卷积层、第六十四激活层、第一百六十五卷积层、第六十五激活层、第一百六十六卷积层、第六十六激活层、第一百六十七卷积层、第三上采样层。激活方式均为“Relu”,第一百五十七卷积层卷积核大小为3*3、卷积核个数为64,第一百五十八个卷积层卷积核大小为3*3、卷积核个数为64,第二个池化层卷积核大小为2、步长为2,第一百五十九卷积层卷积核大小为3*3、卷积核个数为64,第三池化层卷积核大小为2、步长为2,第一百六十卷积层卷积核大小为3*3、卷积核个数为64,第四池化层卷积核大小为2、步长为2,第一百六十一卷积层卷积核大小为3*3、卷积核个数为64,第五池化层卷积核大小为2、步长为2,第一百六十二卷积层卷积核大小为3*3、卷积核个数为64,第一百六十三卷积层卷积核大小为3*3、卷积核个数为64,第一百六十四卷积层卷积核大小为3*3、卷积核个数为64,第一百六十五卷积层卷积核大小为3*3、卷积核个数为64,第一百六十六卷积层卷积核大小为3*3、卷积核个数为64,第三上采样层放大倍数为2、放大方式为双线性插值,第一百六十七卷积层卷积核大小为3*3、卷积核个数为1。将2张特征图的集合记为Q,特征图宽度为W,高度为H。
第一个头注意力块由第一百六十八卷积层组成,卷积核为自定义高斯核、补零参数为15、零偏置,现对卷积后参数做一个归一化函数再取最大值。将输出的512张特征图记为H1,其特征图宽度为W/8,高度为H/8。
第二个聚合模块由第四个上采样层,第一百六十九卷积层、第六十七激活层、第一百七十卷积层、第六十八激活层、第一百七十一卷积层、第六十九激活层、第一百七十二卷积层、第七十激活层、第一百七十三卷积层、第七十一激活层、第一百七十四卷积层、第七十二激活层、第一百七十五卷积层、第七十三激活层、第一百七十六卷积层、第七十四激活层、第一百七十七卷积、第五个上采样层,激活方式均为“Relu”。第四上采样层放大倍数(scalefactor)为2,插值方法为双线性差值(bilinear),第一百六十九卷积层卷积核为3、卷积核个数为32,第一百七十卷积层卷积核为3、卷积核个数为32,第一百七十一卷积层卷积核为3、卷积核个数为32,第一百七十二卷积层卷积核为3、卷积核个数为32,第一百七十三卷积层卷积核为3、卷积核个数为64,第一百七十四卷积层卷积核为3、卷积核个数为64,第一百七十五卷积层卷积核为3、卷积核个数为96,第一百七十六卷积层卷积核为3、卷积核个数为96,第一百七十七卷积层卷积核为1、卷积核个数为2,第五上采样层放大倍数为4、插值方法为双线性插值。将2张特征图的集合记为A2,其特征图宽度为W,高度为H。
RGB图网络输出由两个输出层组成,第一个输出层由第一百七十八卷积层组成,卷积核大小为3*3,卷积核个数为1,输出一副宽度为W,高度为H的区域特征图,第二个输出层由第一百七十九卷积层组成,卷积核大小为3*3,卷积核个数为1,输出一副宽度为W,高度为H的区域特征图。
对于深度图网络:基础网络包括第八个神经网络块、第九个神经网络块、第十个神经网络块、第十一个神经网络块、第十二个神经网络块、第十三个神经网络块、第十四个神经网络块,第七个过渡卷积块、第八个过渡卷积块、第九个过渡卷积块、第十个过渡卷积块、第十一个过渡卷积块、第十二个过渡卷积块。对于第八神经网络块,第八个神经网络块有第一百八十卷积层,第七十五激活层,第一百八十一卷积层,第七十六激活层,激活方式均为“Relu”,第一百八十卷积层卷积核大小为3,卷积核个数为64,第一百八十一卷积层卷积核大小为3,卷积核个数为64。将64张特征图的集合记为D1,特征图的宽度为W,高度为H。
对于第九个神经网络块,第九个神经网络块依次有第一层平均池化层,第一百八十二卷积层,第七十七激活层,第一百八十三卷积层,第七十八激活层,激活方式均为“Relu”,第一层平均池化层卷积核大小为2、步长为2,第一百八十二卷积层卷积核大小为3,卷积核个数为128,第一百八十三卷积层卷积核大小为3,卷积核个数为128。将128张特征图的集合记为D2,特征图的宽度为W/2,高度为H/2。
对于第十个神经网络块,第十个神经网络块依次有第二平均池化层,第一百八十四卷积层,第七十九激活层,第一百八十五卷积层,第八十激活层,激活方式均为“Relu”,第二平均池化层卷积核大小为2、步长为2,第一百八十四卷积层卷积核大小为3,卷积核个数为256,第一百八十五卷积层卷积核大小为3,卷积核个数为256。将256张特征图的集合记为D3,特征图的宽度为W/4,高度为H/4。
对于第十一个神经网络块,第十一神经网络块依次有第三平均池化层,第一百八十六卷积层,第八十一激活层,第一百八十七卷积层,第八十二激活层,激活方式均为“Relu”,第三层平均池化卷积核大小为2、步长为2,第一百八十六卷积层卷积核大小为3,卷积核个数为512,第一百八十七卷积层卷积核大小为3,卷积核个数为512。将512张特征图的集合记为D4,特征图的宽度为W/8,高度为H/8。
对于第十二个神经网络块,第十二神经网络块依次有第四层平均池化层,第一百八十八层卷积层,第八十三激活层,第一百八十九卷积层,第八十四激活层,激活方式均为“Relu”,第四平均池化层卷积核大小为2、步长为2,第一百八十八卷积层卷积核大小为3,卷积核个数为512,第一百八十九个卷积层卷积核大小为3,卷积核个数为512。将512张特征图的集合记为D5,特征图的宽度为W/16,高度为H/16。
对于第十三个神经网络块,第十三个神经网络块依次有第五平均池化层,第一百九十卷积层,第八十五激活层,第一百九十一卷积层,第八十六激活层,激活方式均为“Relu”,第五层平均池化层卷积核大小为2、步长为2,第一百九十卷积层卷积核大小为3,卷积核个数为128,第一百九十一卷积卷积核大小为3,卷积核个数为128。将128张特征图的集合记为D6,特征图的宽度为W/8,高度为H/8。
对于第十四个神经网络块,第十四个神经网络块依次有第六平均池化层,一百九十二卷积层,第八十七激活层,第一百九十三卷积层,第八十八激活层,激活方式均为“Relu”,第六平均池化卷积核大小为2、步长为2,第一百九十二卷积层卷积核大小为3,卷积核个数为128,第一百九十三卷积卷积核大小为3,卷积核个数为128。将128张特征图的集合记为D7,特征图的宽度为W/16,高度为H/16。
对于第七个过渡卷积块,第七个过渡卷积块由四个卷积块组成,第五十卷积块有第一百九十四卷积层、第一百九十五卷积层、第一百九十六卷积层,第一百九十四卷积层卷积核大小为3*3、卷积核个数为512,第一百九十五卷积层卷积核大小为1*1、卷积核个数为64,第一百九十六卷积层卷积核大小为1*1,卷积核个数为32。第五十一卷积块为注意力机制块,有第一百九十七卷积层,第八十九激活层,第一百九十八卷积层,第九十激活层,第一百九十九卷积层,第一百九十七卷积层卷积核大小为1*1,卷积核个数为1,第八十九激活层,激活方式为“Softmax”,第一百九十八层卷积层卷积核大小为1*1,卷积核个数为16,第九十层激活层,激活方式为“Relu”,第一百九十九卷积层卷积核大小为1,卷积核个数为128,第五十二卷积块为注意力机制块,有第二百卷积层,第九十一激活层,第二百零一卷积层,第九十二个激活层,第二百零二卷积层,第二百卷积层卷积核大小为1*1,卷积核个数为1,第九十一激活层,激活方式为“Softmax”,第二百零一卷积层卷积核大小为1*1,卷积核个数为16,第九十二激活层,激活方式为“Relu”,第二百零二卷积层卷积核大小为1,卷积核个数为128。第五十三卷积块有第二百零三卷积层、第二百零四卷积层、第二百零五卷积层。第两百零三卷积层卷积核为3*3,卷积核个数为64,第二百零四卷积层卷积核为3*3,卷积核个数为64,第二百零五卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为P1,特征图宽度为W/4,高度为H/4。
对于第八个过渡卷积块,第八个过渡卷积块由四个卷积块组成,第五十四卷积块有第二百零六卷积层、第二百零七卷积层、第二百零八卷积层,第二百零六卷积层卷积核大小为3*3、卷积核个数为512,第二百零七卷积层卷积核大小为1*1、卷积核个数为64,第两百零八卷积层卷积核大小为1*1,卷积核个数为32。第五十五卷积块为注意力机制块,有第二百零九卷积层,第九十三激活层,第二百一十卷积层,第九十四激活层,第二百一十一卷积层,第二百零九卷积层卷积核大小为1*1,卷积核个数为1,第九十三激活层,激活方式为“Softmax”,第二百一十卷积层卷积核大小为1*1,卷积核个数为16,第九十四层激活层,激活方式为“Relu”,第二百一十一卷积层卷积核大小为1,卷积核个数为128,第五十六个卷积块为注意力机制块,有第二百一十二个卷积层,第九十五个激活层,第二百一十三卷积层,第九十六激活层,第二百一十四卷积层,第二百一十二卷积层卷积核大小为1*1,卷积核个数为1,第九十五层激活层,激活方式为“Softmax”,第两百一十三卷积层卷积核大小为1*1,卷积核个数为16,第九十六激活层,激活方式为“Relu”,第二百一十四卷积层卷积核大小为1,卷积核个数为128。第五十七卷积块有第二百一十五卷积层、第两百一十六卷积层、第二百一十七卷积层。第二百一十五卷积层卷积核为3*3,卷积核个数为64,第二百一十六卷积层卷积核为3*3,卷积核个数为64,第两百一十七卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为P2,特征图宽度为W/8,高度为H/8。
对于第九个过渡卷积块,第九个过渡卷积块由四个卷积块组成,第五十八个卷积块有第二百一十八个卷积层、第二百一十九个卷积层、第二百二十个卷积层,第二百一十八个卷积层卷积核大小为3*3、卷积核个数为512,第二百一十九个卷积层卷积核大小为1*1、卷积核个数为64,第二百二十卷积层卷积核大小为1*1,卷积核个数为32。第五十九个卷积块为注意力机制块,有第二百二十一卷积层,第九十七激活层,第二百二十二卷积层,第九十八激活层,第两百二十三卷积层,第二百二十一个卷积层卷积核大小为1*1,卷积核个数为1,第九十七层激活层,激活方式为“Softmax”,第二百二十二卷积层卷积核大小为1*1,卷积核个数为16,第九十八层激活层,激活方式为“Relu”,第二百二十三个卷积层卷积核大小为1,卷积核个数为128,第六十个卷积块为注意力机制块,有第二百二十四个卷积层,第九十九激活层,第二百二十五卷积层,第一百激活层,第二百二十六个卷积层,第二百二十四个卷积层卷积核大小为1*1,卷积核个数为1,第九十九激活层,激活方式为“Softmax”,第二百二十五层卷积层卷积核大小为1*1,卷积核个数为16,第一百层激活层,激活方式为“Relu”,第二百二十六卷积层卷积核大小为1,卷积核个数为128。第六十一卷积块有第二百二十七卷积层、第二百二十八卷积层、第二百二十九卷积层。第二百二十七卷积层卷积核为3*3,卷积核个数为64,第二百二十八卷积层卷积核为3*3,卷积核个数为64,第二百二十九卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为P3,特征图宽度为W/16,高度为H/16。
对于第十个过渡卷积块,第十个过渡卷积块由四个卷积块组成,第六十二卷积块有第二百三十卷积层、第二百三十一卷积层、第二百三十二卷积层,第二百三十卷积层卷积核大小为3*3、卷积核个数为512,第二百三十一卷积层卷积核大小为1*1、卷积核个数为64,第二百三十二卷积层卷积核大小为1*1,卷积核个数为32。第六十三个卷积块为注意力机制块,有第二百三十三卷积层,第一百零一激活层,第二百三十四卷积层,第一百零二激活层,第二百三十五卷积层,第二百三十三卷积层卷积核大小为1*1,卷积核个数为1,第一百零一激活层,激活方式为“Softmax”,第二百三十四卷积层卷积核大小为1*1,卷积核个数为16,第一百零二层激活层,激活方式为“Relu”,第二百三十五个卷积层卷积核大小为1,卷积核个数为128,第六十四个卷积块为注意力机制块,有第二百三十六个卷积层,第一百零三激活层,第二百三十七卷积层,第一百零四激活层,第一百三十八卷积层,第二百三十六个卷积层卷积核大小为1*1,卷积核个数为1,第一百零三激活层,激活方式为“Softmax”,第二百三十七层卷积层卷积核大小为1*1,卷积核个数为16,第一百零四层激活层,激活方式为“Relu”,第二百三十八卷积层卷积核大小为1,卷积核个数为128。第六十五个卷积块有第二百三十九卷积层、第二百四十卷积层、第二百四十一卷积层。第二百三十九个卷积层卷积核为3*3,卷积核个数为64,第二百四十卷积层卷积核为3*3,卷积核个数为64,第二百四十一卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为P4,特征图宽度为W/4,高度为H/4。
对于第十一个过渡卷积块,第十一个过渡卷积块由四个卷积块组成,第六十六卷积块有第二百四十二卷积层、第二百四十三卷积层、第二百四十四卷积层,第二百四十二卷积层卷积核大小为3*3、卷积核个数为512,第二百四十三卷积层卷积核大小为1*1、卷积核个数为64,第二百四十四卷积层卷积核大小为1*1,卷积核个数为32。第六十七卷积块为注意力机制块,有第二百四十五卷积层,第一百零五激活层,第二百四十六卷积层,第一百零六激活层,第二百四十七卷积层,第二百四十五卷积层卷积核大小为1*1,卷积核个数为1,第一百零五层激活层,激活方式为“Softmax”,第二百四十六卷积层卷积核大小为1*1,卷积核个数为16,第一百零六激活层,激活方式为“Relu”,第二百四十七个卷积层卷积核大小为1,卷积核个数为128,第六十八卷积块为注意力机制块,有第二百四十八卷积层,第一百零七激活层,第二百四十九个卷积层,第一百零八个激活层,第二百五十卷积层,第二百四十八卷积层卷积核大小为1*1,卷积核个数为1,第一百零七激活层,激活方式为“Softmax”,第二百四十九卷积层卷积核大小为1*1,卷积核个数为16,第一百零八层激活层,激活方式为“Relu”,第二百五十卷积层卷积核大小为1,卷积核个数为128。第六十九个卷积块有第二百五十一卷积层、第二百五十二卷积层、第二百五十三卷积层。第二百五十一卷积层卷积核为3*3,卷积核个数为64,第二百五十二卷积层卷积核为3*3,卷积核个数为64,第二百五十三卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为P5,特征图宽度为W/8,高度为H/8。
对于第十二个过渡卷积块,第十二个过渡卷积块由四个卷积块组成,第七十个卷积块有第二百五十四卷积层、第二百五十五卷积层、第二百五十六卷积层,第二百五十四卷积层卷积核大小为3*3、卷积核个数为512,第二百五十五卷积层卷积核大小为1*1、卷积核个数为64,第二百五十六卷积层卷积核大小为1*1,卷积核个数为32。第七十一卷积块为注意力机制块,有第二百五十七卷积层,第一百零九激活层,第二百五十八卷积层,第一百一十个激活层,第二百五十九卷积层,第二百五十七个卷积层卷积核大小为1*1,卷积核个数为1,第一百零九层激活层,激活方式为“Softmax”,第二百五十八层卷积层卷积核大小为1*1,卷积核个数为16,第一百一十层激活层,激活方式为“Relu”,第二百五十九个卷积层卷积核大小为1,卷积核个数为128,第七十二个卷积块为注意力机制块,有第二百六十卷积层,第一百一十一激活层,第二百六十一卷积层,第一百一十二激活层,第二百六十二卷积层,第二百六十卷积层卷积核大小为1*1,卷积核个数为1,第一百一十一激活层,激活方式为“Softmax”,第二百六十一卷积层卷积核大小为1*1,卷积核个数为16,第一百一十二层激活层,激活方式为“Relu”,第二百六十二个卷积层卷积核大小为1,卷积核个数为128。第七十三个卷积块有第二百六十三个卷积层、第二百六十四卷积层、第二百六十五卷积层。第二百六十三个卷积层卷积核为3*3,卷积核个数为64,第二百六十四个卷积层卷积核为3*3,卷积核个数为64,第二百六十五卷积层卷积核为3*3,卷积核个数为32。将32张特征图的集合记为P6,特征图宽度为W/16,高度为H/16。
第三个聚合模块由第六上采样层,第二百六十六卷积层、第一百一十三激活层、第二百六十七卷积层、第一百一十四激活层、第二百六十八卷积层、第一百一十五激活层、第二百六十九卷积层、第一百一十六激活层、第二百七十个卷积层、第一百一十七激活层、第二百七十一卷积层、第一百一十八层激活层、第二百七十二卷积层、第一百一十九激活层、第二百七十三卷积层、第一百二十激活层、第二百七十四个卷积层、第二百七十五卷积层,第七层上采样层,激活方式均为“Relu”,第六上采样层放大倍数(scale factor)为2,插值方法为双线性差值(bilinear),第二百六十六卷积层卷积核为3、卷积核个数为32,第二百六十七卷积层卷积核为3、卷积核个数为32,第二百六十八个卷积层卷积核为3、卷积核个数为32,第二百六十九个卷积层卷积核为3、卷积核个数为32,第二百七十卷积层卷积核为3、卷积核个数为64,第二百七十一个卷积层卷积核为3、卷积核个数为64,第二百七十二卷积层卷积核为3、卷积核个数为96,第二百七十三卷积层卷积核为3、卷积核个数为96,第二百七十四卷积层卷积核为1、卷积核个数为1,第二百七十五卷积层卷积核为1、卷积核个数为2,第七上采样层放大倍数为4、插值方法为双线性插值。接受由第一个过渡卷积块、第二个过渡卷积块、第三个过渡卷积块的特征图集合,输出两个特征图集合,一个输入到整体注意力块1张特征图记为B1,其特征图宽度为W/4,高度为H/4,过渡卷积块由一个卷积层组成,卷积核大小为1*1,卷积核个数为1,一个输入到过渡卷积块2张特征图集合记为B3,其特征图宽度为W,高度为H。
第二个头注意力块由二百七十六卷积层组成,卷积核为自定义高斯核、补零参数为15、零偏置,现对卷积后参数做一个归一化函数再取最大值。将输出的256张特征图记为H2,其特征图宽度为W/4,高度为H/4。
第四个聚合模块由第八个上采样层,第二百七十七个卷积层、第一百二十一个激活层、第二百七十八个卷积层、第一百二十二个激活层、第二百七十九个卷积层、第一百二十三个激活层、第二百八十个卷积层、第一百二十四层激活层、第二百八十一个卷积层、第一百二十五层激活层、第二百八十二个卷积层、第一百二十六层激活层、第二百八十三个卷积层、第一百二十七层激活层、第二百八十四个卷积层、第一百二十八层激活层、第二百八十五个卷积、第九上采样层,激活方式均为“Relu”。第一个上采样层放大倍数(scalefactor)为2,插值方法为双线性差值(bilinear),第二百七十七卷积层卷积核为3、卷积核个数为32,第二百七十八卷积层卷积核为3、卷积核个数为32,第二百七十九卷积层卷积核为3、卷积核个数为32,第二百八十卷积层卷积核为3、卷积核个数为32,第二百八十一卷积层卷积核为3、卷积核个数为64,第二百八十二卷积层卷积核为3、卷积核个数为64,第二百八十三卷积层卷积核为3、卷积核个数为96,第二百八十四卷积层卷积核为3、卷积核个数为96,第二百八十五卷积层卷积核为1、卷积核个数为2,第九上采样层放大倍数为4、插值方法为双线性插值。将2张特征图的集合记为B2,其特征图宽度为W,高度为H。
自适应卷积块由第二百九十七卷积层组成,其卷积核大小为1,卷积核个数为2,输出仅做信息加工,不改变图片尺寸大小。
深度图输出由两个边缘输出层组成,第一个边缘输出层由第二百八十六卷积层组成,卷积核大小为3*3,卷积核个数为1,输出一副宽度为W,高度为H的边缘特征图,第二个边缘输出层由第二百八十七卷积层组成,卷积核大小为3*3,卷积核个数为1,输出一副宽度为W,高度为H的边缘特征图。
融合卷积块由三个卷积块组成,第七十四卷积块由第二百八十八卷积层、第二百八十九卷积层,第二百九十卷积层,第二百八十八卷积层卷积核为3*3、卷积核个数为64,第二百八十九个卷积层卷积核为3*3、卷积核个数为64,第二百九十层卷积核为1*1、卷积核个数为2。第七十五卷积块由第二百九十一卷积层、第二百九十二卷积层,第二百九十三卷积层,第二百九十一个卷积层卷积核为3*3、卷积核个数为64,第二百九十二卷积层卷积核为3*3、卷积核个数为64,第二百九十三卷积核为1*1、卷积核个数为2。第七十六卷积块由第二百九十四卷积层、第二百九十五卷积层,第二百九十六卷积层,第二百九十四卷积层卷积核为3*3、卷积核个数为64,第二百九十五卷积层卷积核为3*3、卷积核个数为64,第二百九十六卷积核为1*1、卷积核个数为1。得到最后特征输出记为F,特征图宽度为W,高度为H。
总输出层无任何卷积或计算操作直接从融合卷积块输出,特征图宽度为W,高度为H,为最终预测结果,由于本网络结构把任务细分的很具体,高低特征利用充分,使用带注意力机制的跳连结构使高低特征融合,使用边缘辅助让显著性图更完善,使用多层监督让结果更加接近真实值,实验证明此网络结果很好。
步骤1_3:将训练集中的原始立体图像的RGB图和深度图作为输入,输入到上一个步骤构建好的卷积神经网络二分类模型进行训练,得到对应的显著性检测图,记为
步骤1_4:计算卷积神经网络分类模型的损失函数值,将预测到第i个显著性图记为将原始训练集的第i个标签标签图记为之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4M次,在本发明中取值M=800,得到卷积神经网络分类训练模型,一轮训练总共会得到N*M个损失函数值,用总损失函数值与训练集图片对数相除得到本轮训练损失函数值,招待最小的损失函数值,得到最小损失函数值分类模型的权重和偏置数值,对应记为Wbest和Bbest;。
所述测试阶段过程的具体步骤为:
坐标位置为(x',y')的像素点的像素值。
步骤2_2:将的R通道分量、G通道分量和B通道分量输入到卷积神经网络训练模型中,并使用训练阶段得到的Wbest和Bbest进行测试,得到对应的显著性检测图像,记为其中,表示中坐标位置为(x',y')的像素点的像素值。
所述的步骤1_4中,用二分类交叉熵求出
利用pytorch库python语言编写代码对此方法进行实验,实验设备为英特尔i5-7500处理器,NVIDIA TITAN XP-12GB显卡下使用cuda加速。为保证实验的严谨性,实验采用数据集NJU2K和NLPR分别进行测试,NJU2K拥有2000对图片包括1600对训练图片和400张测试图片,NLPR拥有1000张图片分别是800对训练图片,200对测试图片。在本实验中,利用评估显著性检测方法的4个常用客观参量作为评价指标:AUC参数(the Aera Under thereceiver operating characteristics Curve),F-mean度量值,F-max度量值,MAE平均绝对误差(Mean Absolute Error,)来评价显著性检测图像的检测性能,其中F度量值通过计算精准率和召回率求出用来评价检测方法好坏的重要指标。
最后通过本方法生成的显著性图像通过和标签对比,分别用AUC,F-mean,F-max和MAE来作为评价指标评价此方法好坏,两个数据集的评价指标如表1,由表1可见本方法在两个数据集上的表现是优秀的。
表1本方法在两个数据上的评测结果
Dataset Criteria NJU2K NLPR
AUC 0.982 0.984
F-mean 0.866 0.872
F-max 0.892 0.896
MAE 0.058 0.034
图3a为NJU2K测试集随机挑选一个标签图片;图3b为利用本发明方法对应3a卷积神经网络模型生成的显著性图;图4a为NJU2K测试集随机挑选一个标签图片;图4b为利用本发明方法对应4a卷积神经网络模型生成的显著性图;图5a为NLPR测试集随机挑选一个标签图片;图5b为利用本发明方法对应5a卷积神经网络模型生成的显著性图;图6a为NLPR测试集随机挑选一个标签图片;图6b为利用本发明方法对应6a卷积神经网络模型生成的显著性图,根据表1的数据以及附图图3、图4、图5的图片可以看出本发明的显著分割精度较高,分割物体清楚明了。

Claims (7)

1.一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:
步骤1-1:采集原始3D图像,原始3D图像包括RGB图和深度图,将RGB图和深度图构成训练集,将训练集分为多个不同批次;
步骤1-2:构建RGB图网络和深度图网络,RGB图网络和深度图网络之间通过融合卷积模块连接再融合生成最后的显著性图,形成双目卷积神经网络;
步骤1-3:将训练集的不同批次图和对应的已标注真实人眼显著区域的标签图依次输入到双目卷积神经网络中进行训练,训练过程中每一批次图经双目卷积神经网络处理输出的结果和对应的标签图进行对比得到M个损失函数值,M表示同一批次中的图总数,N表示批次的总数,共计获得N*M个损失函数值,将所有损失函数值相加后除以图总个数N*M得到总损失;
步骤1-4:通过反向传播优化神经网络权重参数,将最小损失函数值对应的权值矢量和偏置项作为双目卷积神经网络的最优权值矢量和最优偏置项,从而获得训练后的双目卷积神经网络;
步骤1-5:对于待测的图像,输入到训练后的双目卷积神经网络中后预测处理,输出预测图即为显著性图;
所述步骤1-2中,双目卷积神经网络包括总输出层、融合卷积块、RGB图网络和深度图网络,RGB图、深度图分别输入到RGB图网络、深度图网络,RGB图网络和深度图网络的输出分别连接输入到融合卷积块,融合卷积块的输出连接总输出层;
所述的RGB图网络包括第一、第二、第三、第四、第五、第六、第七神经网络块以及六个过渡卷积块、两个聚合模块、一个整体注意力块、一个区域增强模块;RGB图连接输入到第一输入层,第一输入层的输出依次经第一神经网络块、第二神经网络块、第三神经网络块、第四神经网络块、第五神经网络块、第三过渡卷积块和第一聚合模块后连接输入到区域增强模块,区域增强模块的输出连接到第一输出层,同时第三神经网络块的输出和第四神经网络块的输出分别经第一过渡卷积块、第二过渡卷积块后连接输入到第一聚合模块,第一聚合模块的输出和第三神经网络块的输出一起输入到整体注意力块,整体注意力块的输出依次经第六神经网络块、第七神经网络块、第六过渡卷积块后连接到第二聚合模块,同时整体注意力块的输出和第六神经网络块的输出分别经第四过渡卷积块、第五过渡卷积块连接输入到第二聚合模块,第二聚合模块的输出和区域增强模块的输出均连接到点和层,点和层的输出分别输入到融合卷积块和第二输出层;
所述的深度图网络和RGB图网络的结构基本一致,RGB图网络采用resnet-50作为基本网络,深度图采用VGG作为基本网络,深度图网络采用了一个自适应卷积块模块代替区域增强模块;且深度图网络和RGB图网络的点和层的输出均连接输入到融合卷积块;RGB图网络和深度图网络分别输出区域图和边缘图,RGB图网络的第一个输出层和第二输出层分别输出通过区域增强模块区域图和通过第一个头注意力块的区域图,深度图网络的第一个输出层和第二个输出层分别输出通过过渡卷积块边缘图和通过第二个头注意力块的边缘图,将边缘图输入到融合卷积块对区域图进行修正处理获得最终的显著性图;
所述的区域增强模块为编码解码网络,采用U型网络结构,输入先经过连续两个卷积层、一个池化层、一个卷积层、一个池化层、连续两个卷积层、一个池化层后连接输入到一个中间过渡模块,通过中间过渡模块进入解码过程,解码过程是把通过双线性差值放大图片以及卷积层提取信息来达到解码目的最后的一个池化层的输出换为双线性差值上采样变换图片尺寸,整个编码解码过程中有跳连直接从编码部分流入解码部分,从而最后得到区域增强之后的图片,并且其中除了第一层卷积层之外的其他卷积层之后均设置有批标准化和激活函数操作;
所述的自适应卷积块模块为一个卷积核为1的卷积层。
2.根据权利要求1所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述步骤1-3中,计算每个损失函数值时,是将单目区域卷积神经网络的两个输出层输出的区域图分别和标签图作损失计算获得第一损失值和第二损失值,同时将边缘辅助卷积神经网络的两个输出层输出的边缘图分别和边缘标签图作损失计算获得第三损失值和第四损失值,边缘标签图是由标签图经Canny算子边缘提取获得,同时将融合卷积块输出的显著性图和标签图作损失计算获得第五损失值,将五个损失值相加获得损失函数值。
3.根据权利要求1所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的RGB图网络和深度图网络的两个输出层均包含一个卷积层。
4.根据权利要求1所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:每个所述过渡卷积块结构相同,均由两个卷积块和两个注意力机制块组成,输入经过第一个卷积块改变特征图个数,再依次经过两个注意力机制块后再与输入一起输入到叠合层进行堆叠后输入第四卷积块,最后第二个卷积块输出;两个卷积块的结构相同,均由三个卷积层依次连接构成。
5.根据权利要求1所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的融合卷积块包括三个卷积块和三个张量运算操作,边缘辅助卷积神经网络和单目区域卷积神经网络的点和层分别输出边缘图与区域图,一方面边缘图与区域图共同输入到一个点和层进行张量加操作,另一方面边缘图与区域图共同输入到一个点乘层进行张量乘操作,点和层和点乘层的输出经各自的一个卷积块后连接到叠合层进行堆叠后输入到第三个卷积块,最后由第三个卷积块输出;三个卷积块的结构相同,均由三个卷积层依次连接构成。
6.根据权利要求1所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的聚合模块由六个上采样单元和十个卷积单元构成,第三过渡卷积块/第六过渡卷积块的输出分别连接输入到第一上采样单元和第二上采样单元,第一上采样单元的输出连接输入到第一卷积单元,第一卷积单元的输出和第二过渡卷积块/第四过渡卷积块的输出均连接到第一个点乘层处理,第一上采样单元的输出经第四卷积单元后和第一个点乘层的输出一起连接输入到第一个叠合层处理,第一个叠合层的输出依次经第六卷积单元、第四上采样单元后输入到第五卷积单元,第二上采样单元的输出经第三上采样单元后输入到第二卷积单元,同时第二过渡卷积块/第四过渡卷积块的输出经第五上采样单元输入到第三卷积单元,第一过渡卷积块/第五过渡卷积块的输出以及第二卷积单元和第三卷积单元的输出一起连接输入到第二个点乘层,第二个点乘层的输出和第五卷积单元的输出一起输入到第二个叠合层处理,第二个叠合层的输出经第七卷积单元后连接输入到第八卷积单元,第八卷积单元的输出经第九卷积单元后连接输入到整体注意力块/点和层,同时第八卷积单元的输出依次经第十卷积单元和第六上采样单元后输入到区域增强模块。
7.根据权利要求1所述的一种卷积神经网络边缘辅助增强的双目显著性图像检测方法,其特征在于:所述的第一神经网络块是由一个卷积层、一个池化层和一个激活层依次连接组成;所述的第二神经网络块是由一个卷积单元、连续两个卷积块依次连接组成,所述的第三神经网络块是由一个卷积单元、连续三个卷积块依次连接组成,所述的第四神经网络块是由一个卷积单元、连续五个卷积块依次连接组成,所述的第五神经网络块是由一个卷积单元、连续两个卷积块依次连接组成,所述的第六神经网络块是由一个卷积单元、连续五个卷积块依次连接组成,所述的第七神经网络块是由一个卷积单元、连续两个卷积块依次连接组成;所述的卷积单元是由连续三个卷积层、一个跳连下采样卷积层和一个激活层依次连接组成,所述的卷积块是由连续三个卷积层和一个激活层依次连接组成。
CN202010191633.0A 2020-03-18 2020-03-18 卷积神经网络边缘辅助增强的双目显著性图像检测方法 Active CN111428602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010191633.0A CN111428602B (zh) 2020-03-18 2020-03-18 卷积神经网络边缘辅助增强的双目显著性图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010191633.0A CN111428602B (zh) 2020-03-18 2020-03-18 卷积神经网络边缘辅助增强的双目显著性图像检测方法

Publications (2)

Publication Number Publication Date
CN111428602A CN111428602A (zh) 2020-07-17
CN111428602B true CN111428602B (zh) 2024-07-05

Family

ID=71553661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010191633.0A Active CN111428602B (zh) 2020-03-18 2020-03-18 卷积神经网络边缘辅助增强的双目显著性图像检测方法

Country Status (1)

Country Link
CN (1) CN111428602B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001914B (zh) * 2020-08-31 2024-03-01 三星(中国)半导体有限公司 深度图像补全的方法和装置
CN113408350B (zh) * 2021-05-17 2023-09-19 杭州电子科技大学 一种基于边缘特征提取的遥感图像显著性检测方法
CN113505800A (zh) * 2021-06-30 2021-10-15 深圳市慧鲤科技有限公司 图像处理方法及其模型的训练方法和装置、设备、介质
CN113837223B (zh) * 2021-08-24 2023-06-09 中国地质大学(武汉) 一种基于rgb-d的显著目标检测方法及储存介质
CN115024298B (zh) * 2022-07-18 2023-09-26 华南农业大学 一种基于轻量级神经网络的计数杀虫灯及计数方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699151B2 (en) * 2016-06-03 2020-06-30 Miovision Technologies Incorporated System and method for performing saliency detection using deep active contours
AU2016273984A1 (en) * 2016-12-16 2018-07-05 Canon Kabushiki Kaisha Modifying a perceptual attribute of an image using an inaccurate depth map
WO2019136591A1 (zh) * 2018-01-09 2019-07-18 深圳大学 基于弱监督时空级联神经网络的显著目标检测方法及***
CN108491848B (zh) * 2018-03-09 2022-02-25 北京大学深圳研究生院 基于深度信息的图像显著性检测方法和装置
CN108711147B (zh) * 2018-05-11 2021-10-12 天津大学 一种基于卷积神经网络的显著性融合检测方法
WO2020020472A1 (en) * 2018-07-24 2020-01-30 Fundación Centro Tecnoloxico De Telecomunicacións De Galicia A computer-implemented method and system for detecting small objects on an image using convolutional neural networks
CN109598268B (zh) * 2018-11-23 2021-08-17 安徽大学 一种基于单流深度网络的rgb-d显著目标检测方法
CN109712105B (zh) * 2018-12-24 2020-10-27 浙江大学 一种结合彩色和深度信息的图像显著目标检测方法
CN110059728B (zh) * 2019-03-26 2020-11-13 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110084249A (zh) * 2019-04-24 2019-08-02 哈尔滨工业大学 基于金字塔特征注意的图像显著性检测方法
CN110210539B (zh) * 2019-05-22 2022-12-30 西安电子科技大学 多级深度特征融合的rgb-t图像显著性目标检测方法
CN110263813B (zh) * 2019-05-27 2020-12-01 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法
CN110414513A (zh) * 2019-07-31 2019-11-05 电子科技大学 基于语义增强卷积神经网络的视觉显著性检测方法
CN110458178B (zh) * 2019-08-12 2023-09-22 浙江科技学院 多模态多拼接的rgb-d显著性目标检测方法
CN110570402B (zh) * 2019-08-19 2021-11-19 浙江科技学院 基于边界感知神经网络的双目显著物体检测方法
CN110619638A (zh) * 2019-08-22 2019-12-27 浙江科技学院 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110782458B (zh) * 2019-10-23 2022-05-31 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462B (zh) * 2019-10-30 2022-08-09 浙江科技学院 一种基于双流特征融合的语义分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246148A (zh) * 2019-05-27 2019-09-17 浙江科技学院 多模态的深度信息融合和注意力学习的显著性检测方法

Also Published As

Publication number Publication date
CN111428602A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111428602B (zh) 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN108416377B (zh) 柱状图中的信息提取方法及装置
CN109829891B (zh) 一种基于密集生成对抗神经网络的磁瓦表面缺陷检测方法
CN106683048A (zh) 一种图像超分辨率方法及设备
CN109241913A (zh) 结合显著性检测和深度学习的船只检测方法及***
CN110246148A (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN111709947B (zh) 一种双流沟通和全局信息引导的显著物体图像检测方法
CN112257509A (zh) 基于联合信息编码的立体图像单流视觉显著性检测方法
CN110263813A (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN111798436A (zh) 基于注意力膨胀卷积特征融合的显著物体检测方法
CN109376753A (zh) 一种稠密连接的三维空谱分离卷积深度网络及构建方法
CN112508956A (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN106780546A (zh) 基于卷积神经网络的运动模糊编码点的身份识别方法
CN109426825A (zh) 一种物体封闭轮廓的检测方法和装置
CN113378949A (zh) 一种基于胶囊网络和混合注意力的双重生成对抗学习方法
CN111062432A (zh) 一种语义上多模态图像生成的方法
CN114693908A (zh) 一种基于YOLOv5的工业二维码定位方法
CN114283352A (zh) 一种视频语义分割装置、训练方法以及视频语义分割方法
CN113436198A (zh) 一种协同图像超分辨率重建的遥感图像语义分割方法
CN108108652A (zh) 一种基于字典学习的跨视角人体行为识别方法及装置
CN116977822A (zh) 一种融合CNN与Transformer模型的图像识别网络
CN114973122A (zh) 基于改进YOLOv5的安全帽佩戴检测方法
CN115240057A (zh) 一种基于深度学习的架空输电线路监拍图像检测方法
CN114419078A (zh) 基于卷积神经网络的表面缺陷区域分割方法及装置
CN110188706B (zh) 基于生成对抗网络的视频中人物表情的神经网络训练方法及检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant