CN107180430A - 一种适用于语义分割的深度学习网络构建方法及*** - Google Patents
一种适用于语义分割的深度学习网络构建方法及*** Download PDFInfo
- Publication number
- CN107180430A CN107180430A CN201710342354.8A CN201710342354A CN107180430A CN 107180430 A CN107180430 A CN 107180430A CN 201710342354 A CN201710342354 A CN 201710342354A CN 107180430 A CN107180430 A CN 107180430A
- Authority
- CN
- China
- Prior art keywords
- network
- mrow
- image
- deep learning
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种适用于语义分割的深度学习网络构建方法及***,该方法在反卷积网络语义分割的基础上,考虑到条件随机场对边缘优化较好的特点,将条件随机场解释为递归网络融入到反卷积网络中,进行端对端的训练,使得卷积网络和递归网络中的参数学习相互作用,最终训练出更好的集成网络。本发明提出的反卷积网络和条件随机场联合训练的方式,得到更强的细节和形状信息,解决了图像边缘分割不太准确的问题;结合多尺度输入和多尺度池化的策略,解决了语义分割中由于感受野单一而产生的大目标被过分割或小目标被漏分割的情况。本发明对经典的反卷积网络进行扩展,利用条件随机场联合训练和多特征信息融合策略,提高语义分割的准确性。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种适用于语义分割的深度学习网络构建方法及***。
背景技术
随着网络数据量的***式增长,大数据图像处理和识别逐渐成为一个热门方向,其中深度学习技术已经成为大数据不可或缺的研究工具。虽然深度学习的发展时间不长,理论储备不完整,但深度网络构建方法层出不穷,在计算机视觉方向的应用效果显著。利用深度学习进行视觉感知立足于人脑视觉机理,多层次网络设计类比于分级的信息处理视觉***。人的视觉***处理分以下几部分,像素被瞳孔捕捉,然后大脑皮层发现边缘和方向,接着由边缘抽象出物体的形状,最后进一步抽象出物体的类别。深度网络类似,低级的层次提取边缘特征,中间级提取形状特征并做进一步抽象,最终获得整个目标或目标的行为更高层的特征进行分类。深度学习作为机器学习又一个新的里程碑,吸引了越来越多的图像研究者参与其中,具体理论包括图像分类,目标识别,语义分割等计算机视觉相关的问题,应用包括智能辅助驾驶***、人脸识别、图像检索等方面。
利用机器学习进行图像识别的思路一般按照以下几步进行:首先传感器获取图像数据,然后经过预处理和特征提取,接着进行特征选择,最后根据特征进行识别预测。预处理,特征提取和特征选择的目的是找到合适的特征表达以便于分类器分类。特征表达的有效性往往对最终识别的准确性起到最关键的作用,早期的特征表达都是人工提取的特征,手工选择特征复杂而且费力,多年的研究都对识别结果准确率提升不大。其中最具有代表性的尺度不变特征变换,虽然对旋转、尺度缩放、亮度变化保持不变性,但对于***的图像来说,仍然不能达到很好的识别效果。深度学习作为无监督的特征学习过程,自动的学习有用的特征,加上有大量数据的训练支持和强大的计算机运算能力,无疑成为计算机视觉研究的热点。二维图像可以直接作为网络的输入,避免了传统算法中需要对数据特征进行手工提取和重建数据的过程。卷积神经网络主要有两个方面的优点,第一,通过卷积层直接自动训练和提取特征,避免了特征的人工抽取,训练的特征提取器具有更好的鲁棒性;第二,卷积层上的神经元共享权重,可以进行并行的网络学习,减少了参数的训练量。卷积神经网络对位移、缩放及其他形式扭曲不变形的二维图形能够进行较好的识别,成为众多计算机视觉研究者的首选模型。
在众多计算机视觉问题中,图像语义分割是一个重要并且复杂的问题。图像语义分割和图像分类检测不同,图像分类检测是做图像级的理解,而语义分割是做像素级的理解,语义分割的目标是给定一张图片,对图片中每个像素点分类。传统的分割算法主要解决前景-背景分割、图片内容的聚类等问题,这些问题中对物体分类并没有标记语义信息,实际应用的话需要对分割块进行进一步的处理。利用卷积神经网络可以直接进行端对端的训练和预测,只需要提供相应的语义分割的数据集,设计训练网络结构,就可以得到语义分割的结果。
自深度学习中的卷积神经网络用于计算机视觉任务以来,众多学者对图像语义分割也产生了兴趣,并提出了很多适用于语义分割的卷积神经网络,相比于之前的传统方法,深度学习的框架进行语义分割的效果要好很多。虽然已经可以设计出较好的网络进行语义分割,但结果仍不能适用于各类图像,图像的多样性使得需要准备的训练数据量很大,而且各类别之间的干扰性使得像素级的预测并不能达到特别准确。
发明内容
针对现有技术的以上缺陷或改进需求,本发明的目的在于提供了一种适用于语义分割的深度学习网络构建方法及***,由此解决现有的适用于语义分割的卷积神经网络对语义分割的准确性较低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种适用于语义分割的深度学习网络构建方法,包括:
S1、对数据集中的图像进行多尺度变换,其中,所述数据集中的图像均已按照类别进行标记;
S2、将经过多尺度变换后的图像以及相应标记作为深度学***均场迭代层,所述网络结构文件的修改包括多尺度池化的网络设置,所述网络求解文件的修改包括训练参数设置;
S3、在所述平均场迭代层中利用平均场迭代算法对所述反卷积网络输出进行迭代优化;
S4、根据修改后的网络结构文件和网络求解文件,采用反卷积网络和条件随机场联合训练的方式,得到目标深度学习网络,所述目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。
优选地,步骤S2具体包括以下子步骤:
S2.1、将经过多尺度变换后的图像以及相应标记作为输入送入到构建leveldb的可运行程序中,修改成Caffe能够直接使用的文件;
S2.2、设置Caffe中的网络结构文件中的卷积层和池化层的类型以及网络结构文件中的操作参数,对最后一层池化层进行多尺度池化操作,将输入的图像分为与多尺度池化对应的多个区域,并获取每个区域的值填入最后一层池化层;
S2.3、将平均场算法的实现添加到深度学习网络的caffe框架中;
S2.4、caffe.proto更新ID(M,N),并设置参数;SIMPLE_FAST_MEANFIELD=M,MULTI_STAGE_MEANFIELD=N,其中,M、N为正整数;
S2.5、改动深度学***均场迭代层;
S2.6、对训练文件中的网络模型、基础学习率、学习更新策略、上一次梯度更新的权重、最大迭代次数以及运行模式进行设置。
优选地,步骤S3具体包括以下子步骤:
S3.1、由得到平均场迭代的反馈输入,其中V2(t)=fθ(U,V1(t),I),0≤t≤T表示经过平均场迭代的输出;
S3.2、由得到最终的输出结果,其中,soft max为进行概率的归一化操作,U为反卷积网络的输出,t表示当前迭代,T表示迭代总次数,V1和V2为迭代时的中间变量,I为输入的经过多尺度变换后的二维图像,fθ为平均场迭代算法计算过程,θ为需要训练的条件随机场的参数,具体包括各个高斯核函数的权重系数和二元关系之间的系数,Y(t)为最终的语义分割输出。
优选地,最终的平均场迭代的输出V2(t)的具体计算方法为:
A1、用反卷积网络语义分割粗略结果对一元势函数项Ui(l)进行初始化,并由得到概率归一化值,其中Zi=∑lexp(Ui(l)),l为类别标记,Ui(l)为i像素属于l类别的概率;
A2、通过高斯核函数km(pi,pj)传递像素点分类标记之间的相互影响并用系数ω(m)求其加权和,其中用以下公式来表示:
其中,i,j表示像素点,pi,pj表示对应像素点的像素值,km(pi,pj)表示第m个高斯核函数;
A3、根据均衡二元关系之间的系数μ(l,l')得到像素点分类标记之间的相互影响关系:Qi(l)=∑l'∈Lμ(l,l')Qi(l'),其中,l'表示不同于l的类别,L表示所有类别的集合;
A4、加入一元势函数项Ui(l),具体为:Qi(l)=Ui(l)-Qi(l);
A5、由更新Qi(l),将输出作为新的输入,跳转至步骤A2直至收敛或者达到最大迭代次数,其中,Zi=∑lexp(Ui(l)),最终得到的Qi(l)即为平均场迭代输出V2(t)。
优选地,步骤S4具体包括以下子步骤:
S4.1、将经过多尺度变换后的图像以及相应标记作为输入送入到所述深度学习网络;
S4.2、通过所述卷积网络提取图像的目标区域的特征,通过所述反卷积网络还原所述目标区域的细节信息和形状信息,得到实际输出各类别的概率;
S4.3、计算实际的输出概率与标记之间的差值;
S4.4、根据所述差值按极小化误差的方法反向传播调整卷积核参数和偏移向量参数以及条件随机场的优化参数。
优选地,所述多尺度包括3个尺度,分别为0.5,1,1.5,表示对原图像进行相应倍数的缩放。
优选地,所述多尺度池化采用3种不同的尺度,分别为1×1,2×2,4×4,分别将图像分为1个区域,4个区域,16个区域。
按照本发明的另一方面,提供了一种适用于语义分割的深度学习网络构建***,包括:
图像变换模块,用于对数据集中的图像进行多尺度变换,其中,所述数据集中的图像均已按照类别进行标记;
设置模块,用于将经过多尺度变换后的图像以及相应标记作为深度学***均场迭代层,所述网络结构文件的修改包括多尺度池化的网络设置,所述网络求解文件的修改包括训练参数设置;
优化模块,用于在所述平均场迭代层中利用平均场迭代算法对所述反卷积网络输出进行迭代优化;
联合训练模块,用于根据修改后的网络结构文件和网络求解文件,采用反卷积网络和条件随机场联合训练的方式,得到目标深度学习网络,所述目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。
总体而言,本发明方法与现有技术方案相比,能够取得下列有益效果:
(1)本发明在反卷积网络语义分割方法的基础上,考虑到条件随机场对边缘优化较好的特点,将条件随机场解释为递归网络融入到反卷积网络中,进行端对端的训练,使得卷积网络和递归网络中的参数学习相互作用,最终训练出更好的深度学习网络。
(2)本发明提出了一种反卷积网络和条件随机场联合训练的方式,参数具有更强的鲁棒性,可以得到更强的细节和形状信息,解决了图像边缘分割不太准确的问题。
(3)本发明通过输入多尺度图片并采用多尺度池化的策略来改变神经网络的感受野,感受野的变化保证了大小目标的完整性,使得训练出的深度学习网络可以解决语义分割中由于感受野单一而产生的大目标被过分割或者小目标被漏分割的情况。
(4)本发明对经典的反卷积网络进行扩展,利用条件随机场联合训练和多特征信息融合的策略,使得训练出的深度学习网络在对图像进行语义分割时,可以提高语义分割的准确性。
附图说明
图1为本发明实施例公开的一种适用于语义分割的深度学习网络的网络框架图;
图2为本发明实施例公开的一种适用于语义分割的深度学习网络构建方法的流程示意图;
图3为本发明实施例公开的一种平均场迭代方法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示为本发明实施例公开的一种适用于语义分割的深度学***均场迭代层(即CRF-RNN层)。
如图2所示为本发明实施例公开的一种适用于语义分割的深度学***均场迭代过程;4)条件随机场和反卷积网络联合训练。其具体实施方式如下:
S1、对数据集中的图像进行多尺度变换,其中,上述数据集中的图像均已按照类别进行标记;
其中,多尺度包括3个尺度,分别为0.5,1,1.5,表示对原图像进行相应倍数的缩放。
S2、将经过多尺度变换后的图像以及相应标记作为深度学***均场迭代层,网络结构文件的修改包括多尺度池化的网络设置,网络求解文件的修改包括训练参数设置;
其中,步骤S2具体包括以下子步骤:
S2.1、将经过多尺度变换后的图像以及相应标记作为输入送入到构建leveldb的可运行程序中,修改成Caffe能够直接使用的文件;
S2.2、设置Caffe中的网络结构文件中的卷积层和池化层的类型以及网络结构文件中的操作参数,对最后一层池化层进行多尺度池化操作,以将输入的图像分为与多尺度池化对应的多个区域,并获取每个区域的值填入池化层;
S2.3、将平均场算法的实现添加到深度学习网络的caffe框架中;
S2.4、caffe.proto更新ID(M,N),并设置参数;SIMPLE_FAST_MEANFIELD=M,MULTI_STAGE_MEANFIELD=N,其中,M、N为正整数;优选地,M取值为54,N取值为55;
S2.5、改动深度学***均场迭代层meanfield;
将训练文件的网络架构部分加入多尺度操作部分,多尺度池化采用3种不同的尺度,分别为1×1,2×2,4×4,分别将图像分为1个区域,4个区域,16个区域,并取得每个区域的值填入池化层;训练核心文件solver.prototxt需要进行设置,主要包括网络模型名称(训练时所用的train.prototxt),基础学习率(base_lr=0.01),学习更新策略(lr_policy:"step"),上一次梯度更新的权重(momentum:0.9),最大迭代次数(max_iter:20000),运行模式(GPU)等。
S2.6、对所述训练文件中的网络模型、基础学习率、学习更新策略、上一次梯度更新的权重、最大迭代次数以及运行模式进行设置。
S3、在平均场迭代层中利用平均场迭代算法对反卷积网络输出进行迭代优化;
如图3所示为本发明实施例公开的一种平均场迭代方法示意图,包括:
S3.1、由得到平均场迭代的反馈输入,其中V2(t)=fθ(U,V1(t),I),0≤t≤T表示经过平均场迭代的输出;
S3.2、由得到最终的输出结果,其中,soft max为进行概率的归一化操作,U为反卷积网络的输出(即语义分割粗略结果),t表示当前迭代,T表示迭代总次数,V1和V2为迭代时的中间变量,I为输入的经过多尺度变换后的二维图像,fθ为平均场迭代算法计算过程,θ为需要训练的条件随机场的参数,具体包括各个高斯核函数的权重系数和二元关系之间的系数,Y(t)为最终的语义分割输出。
其中,最终的平均场迭代的输出V2(t)的具体计算方法为:
A1、用反卷积网络语义分割粗略结果对一元势函数项Ui(l)进行初始化,并由得到概率归一化值,其中Zi=Σlexp(Ui(l)),l为类别标记,Ui(l)为i像素属于l类别的概率;
A2、通过高斯核函数km(pi,pj)传递像素点分类标记之间的相互影响并用系数ω(m)求其加权和,其中用以下公式来表示:
其中,i,j表示像素点,pi,pj表示对应像素点的像素值,km(pi,pj)表示第m个高斯核函数,高斯核函数的个数可以根据实际需要进行确定;
例如,采用两个不同的高斯核函数,即m取1和2,θα,θβ,θγ具体设置为160,3,3,核函数中pi,pj分别为i,j像素的颜色值,Ii,Ij为i,j像素的位置坐标值。
A3、根据均衡二元关系之间的系数μ(l,l')得到像素点分类标记之间的相互影响关系:Qi(l)=Σl'∈Lμ(l,l')Qi(l'),其中,l'表示不同于l的类别,L表示所有类别的集合;
其中,主要考虑每个类别的差异性,对于差异较小的两个类其系数μ(l,l')较小,取值范围为-1到0。
A4、加入一元势函数项Ui(l),具体为:Qi(l)=Ui(l)-Qi(l);
A5、由更新Qi(l),将输出作为新的输入,跳转至步骤A2直至收敛或者达到最大迭代次数,其中,Zi=Σlexp(Ui(l)),最终得到的Qi(l)即为平均场迭代输出V2(t)。
优选地,最大迭代次数为10。
其中,softmax回归模型是基于logistics模型的二分类问题进行推广的,可以将其应用到多分类问题,具体的,对于训练集{(x(1),y(1)),...(x(l),y(l))},x(i)为训练样本(这里即每个像素点的像素值),y(i)为每个像素对应的标签,y(i)∈{1,2,...,k}。对于每个输入x,需要通过卷积神经网络得到其属于每一类的概率,我们用θ简单表示整个网络需要训练的参数,那么可以用假设函数来表征,具体如下:
其中θ1,θ2,...,θk为需要训练的模型参数,这一项是用来归一化输出概率,主要保证概率和为1。
S4、根据修改后的网络结构文件和网络求解文件,采用反卷积网络和条件随机场联合训练的方式,得到目标深度学习网络,该目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。
其中,步骤S4主要是联合训练,将整个网络联合起来进行训练,将搜集的数据集和相应的标记标签输入到网络;通过卷积层,池化层等进行特征的一步步提取,经过反卷积网络还原目标的细节信息和形状信息,得到此区域每一类的概率图,将概率图和原图输入到平均场迭代过程中进行迭代优化得到优化后的输出概率图;最后计算实际的输出与标记之间的差值并按极小化误差的方法反向传播调整卷积核参数和偏移向量参数以及条件随机场的优化参数,保存网络的参数以便进行测试。具体包括以下子步骤:
S4.1、将经过多尺度变换后的图像以及相应标记作为输入送入到所述深度学习网络;
S4.2、通过所述卷积网络提取图像的目标区域的特征,通过所述反卷积网络还原所述目标区域的细节信息和形状信息,得到实际输出各类别的概率;
S4.3、计算实际的输出概率与标记之间的差值;
S4.4、根据所述差值按极小化误差的方法反向传播调整卷积核参数和偏移向量参数以及条件随机场的优化参数。
在得到训练好的网络图之后,可以将测试图片进行多尺度变换,变换为0.5,1,1.5三种尺度,并依次送入到训练好的深度网络中去,将多尺度图片的概率图进行求和归一化操作得到最终的概率图,根据概率图得到最终的语义分割结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种适用于语义分割的深度学习网络构建方法,其特征在于,包括:
S1、对数据集中的图像进行多尺度变换,其中,所述数据集中的图像均已按照类别进行标记;
S2、将经过多尺度变换后的图像以及相应标记作为深度学***均场迭代层,所述网络结构文件的修改包括多尺度池化的网络设置,所述网络求解文件的修改包括训练参数设置;
S3、在所述平均场迭代层中利用平均场迭代算法对所述反卷积网络输出进行迭代优化;
S4、根据修改后的网络结构文件和网络求解文件,采用反卷积网络和条件随机场联合训练的方式,得到目标深度学习网络,所述目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。
2.根据权利要求1所述的方法,其特征在于,步骤S2具体包括以下子步骤:
S2.1、将经过多尺度变换后的图像以及相应标记作为输入送入到构建leveldb的可运行程序中,修改成Caffe能够直接使用的文件;
S2.2、设置Caffe中的网络结构文件中的卷积层和池化层的类型以及网络结构文件中的操作参数,对最后一层池化层进行多尺度池化操作,将输入的图像分为与多尺度池化对应的多个区域,并获取每个区域的值填入最后一层池化层;
S2.3、将平均场算法的实现添加到深度学习网络的caffe框架中;
S2.4、caffe.proto更新ID(M,N),并设置参数;SIMPLE_FAST_MEANFIELD=M,MULTI_STAGE_MEANFIELD=N,其中,M、N为正整数;
S2.5、改动深度学***均场迭代层;
S2.6、对训练文件中的网络模型、基础学习率、学习更新策略、上一次梯度更新的权重、最大迭代次数以及运行模式进行设置。
3.根据权利要求1所述的方法,其特征在于,步骤S3具体包括以下子步骤:
S3.1、由得到平均场迭代的反馈输入,其中V2(t)=fθ(U,V1(t),I),0≤t≤T表示经过平均场迭代的输出;
S3.2、由得到最终的输出结果,其中,softmax为进行概率的归一化操作,U为反卷积网络的输出,t表示当前迭代,T表示迭代总次数,V1和V2为迭代时的中间变量,I为输入的经过多尺度变换后的二维图像,fθ为平均场迭代算法计算过程,θ为需要训练的条件随机场的参数,包括各个高斯核函数的权重系数和二元关系之间的系数,Y(t)为最终的语义分割输出。
4.根据权利要求3所述的方法,其特征在于,最终的平均场迭代的输出V2(t)的具体计算方法为:
A1、用反卷积网络语义分割粗略结果对一元势函数项Ui(l)进行初始化,并由得到概率归一化值,其中Zi=∑lexp(Ui(l)),l为类别标记,Ui(l)为i像素属于l类别的概率;
A2、通过高斯核函数km(pi,pj)传递像素点分类标记之间的相互影响并用系数ω(m)求其加权和,其中用以下公式来表示:
<mrow>
<msubsup>
<mi>Q</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>&NotEqual;</mo>
<mi>i</mi>
</mrow>
</msub>
<msup>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msup>
<mrow>
<mo>(</mo>
<msub>
<mi>f</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>f</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<msub>
<mi>Q</mi>
<mi>j</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>Q</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msub>
<mi>&Sigma;</mi>
<mi>m</mi>
</msub>
<msup>
<mi>&omega;</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msup>
<msubsup>
<mi>Q</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
其中,i,j表示像素点,pi,pj表示对应像素点的像素值,km(pi,pj)表示第m个高斯核函数;
A3、根据均衡二元关系之间的系数μ(l,l')得到像素点分类标记之间的相互影响关系:Qi(l)=∑l'∈Lμ(l,l')Qi(l'),其中,l'表示不同于l的类别,L表示所有类别的集合;
A4、加入一元势函数项Ui(l),具体为:Qi(l)=Ui(l)-Qi(l);
A5、由更新Qi(l),将输出作为新的输入,跳转至步骤A2直至收敛或者达到最大迭代次数,其中,Zi=∑lexp(Ui(l)),最终得到的Qi(l)即为平均场迭代输出V2(t)。
5.根据权利要求4所述的方法,其特征在于,步骤S4具体包括以下子步骤:
S4.1、将经过多尺度变换后的图像以及相应标记作为输入送入到所述深度学习网络;
S4.2、通过所述卷积网络提取图像的目标区域的特征,通过所述反卷积网络还原所述目标区域的细节信息和形状信息,得到实际输出各类别的概率;
S4.3、计算实际的输出概率与标记之间的差值;
S4.4、根据所述差值按极小化误差的方法反向传播调整卷积核参数和偏移向量参数以及条件随机场的优化参数。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述多尺度包括3个尺度,分别为0.5,1,1.5,表示对原图像进行相应倍数的缩放。
7.根据权利要求1至5任意一项所述的方法,其特征在于,所述多尺度池化采用3种不同的尺度,分别为1×1,2×2,4×4,分别将图像分为1个区域,4个区域,16个区域。
8.一种适用于语义分割的深度学习网络构建***,其特征在于,包括:
图像变换模块,用于对数据集中的图像进行多尺度变换,其中,所述数据集中的图像均已按照类别进行标记;
设置模块,用于将经过多尺度变换后的图像以及相应标记作为深度学***均场迭代层,所述网络结构文件的修改包括多尺度池化的网络设置,所述网络求解文件的修改包括训练参数设置;
优化模块,用于在所述平均场迭代层中利用平均场迭代算法对所述反卷积网络输出进行迭代优化;
联合训练模块,用于根据修改后的网络结构文件和网络求解文件,采用反卷积网络和条件随机场联合训练的方式,得到目标深度学习网络,所述目标深度学习网络能够对经过多尺度变换后的待测试图像进行语义分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710342354.8A CN107180430A (zh) | 2017-05-16 | 2017-05-16 | 一种适用于语义分割的深度学习网络构建方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710342354.8A CN107180430A (zh) | 2017-05-16 | 2017-05-16 | 一种适用于语义分割的深度学习网络构建方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107180430A true CN107180430A (zh) | 2017-09-19 |
Family
ID=59832220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710342354.8A Pending CN107180430A (zh) | 2017-05-16 | 2017-05-16 | 一种适用于语义分割的深度学习网络构建方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107180430A (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730514A (zh) * | 2017-09-29 | 2018-02-23 | 北京奇虎科技有限公司 | 场景分割网络训练方法、装置、计算设备及存储介质 |
CN107729992A (zh) * | 2017-10-27 | 2018-02-23 | 深圳市未来媒体技术研究院 | 一种基于反向传播的深度学习方法 |
CN108010049A (zh) * | 2017-11-09 | 2018-05-08 | 华南理工大学 | 使用全卷积神经网络分割定格动画中人手部区域的方法 |
CN108053376A (zh) * | 2017-12-08 | 2018-05-18 | 长沙全度影像科技有限公司 | 一种语义分割信息指导深度学习鱼眼图像校正方法 |
CN108335313A (zh) * | 2018-02-26 | 2018-07-27 | 阿博茨德(北京)科技有限公司 | 图像分割方法及装置 |
CN108345887A (zh) * | 2018-01-29 | 2018-07-31 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
CN108765431A (zh) * | 2018-05-25 | 2018-11-06 | 中国科学院重庆绿色智能技术研究院 | 一种图像的分割方法及其在医学领域的应用 |
CN108830854A (zh) * | 2018-03-22 | 2018-11-16 | 广州多维魔镜高新科技有限公司 | 一种图像分割方法及存储介质 |
CN108876796A (zh) * | 2018-06-08 | 2018-11-23 | 长安大学 | 一种基于全卷积神经网络和条件随机场的道路分割***及方法 |
CN109145939A (zh) * | 2018-07-02 | 2019-01-04 | 南京师范大学 | 一种小目标敏感的双通道卷积神经网络语义分割方法 |
CN109145713A (zh) * | 2018-07-02 | 2019-01-04 | 南京师范大学 | 一种结合目标检测的小目标语义分割方法 |
CN109657715A (zh) * | 2018-12-12 | 2019-04-19 | 广东工业大学 | 一种语义分割方法、装置、设备及介质 |
CN109670577A (zh) * | 2018-12-14 | 2019-04-23 | 北京字节跳动网络技术有限公司 | 模型生成方法和装置 |
CN109801293A (zh) * | 2019-01-08 | 2019-05-24 | 平安科技(深圳)有限公司 | 遥感影像分割方法、装置及存储介质、服务器 |
CN109829885A (zh) * | 2018-12-24 | 2019-05-31 | 中山大学 | 一种基于深度语义分割网络的自动识别鼻咽癌原发肿瘤方法 |
CN110009573A (zh) * | 2019-01-29 | 2019-07-12 | 北京奇艺世纪科技有限公司 | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 |
CN110009556A (zh) * | 2018-01-05 | 2019-07-12 | 广东欧珀移动通信有限公司 | 图像背景虚化方法、装置、存储介质及电子设备 |
CN110047047A (zh) * | 2019-04-17 | 2019-07-23 | 广东工业大学 | 三维形貌图像信息解译的方法、装置、设备及存储介质 |
CN110837811A (zh) * | 2019-11-12 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN111091560A (zh) * | 2019-12-19 | 2020-05-01 | 广州柏视医疗科技有限公司 | 鼻咽癌原发肿瘤图像识别方法及*** |
CN111178495A (zh) * | 2018-11-10 | 2020-05-19 | 杭州凝眸智能科技有限公司 | 用于检测图像中极小物体的轻量卷积神经网络 |
CN111340047A (zh) * | 2020-02-28 | 2020-06-26 | 江苏实达迪美数据处理有限公司 | 基于多尺度特征与前背景对比的图像语义分割方法及*** |
CN111582043A (zh) * | 2020-04-15 | 2020-08-25 | 电子科技大学 | 基于多任务学习的高分辨率遥感影像地物变化检测方法 |
CN113269093A (zh) * | 2021-05-26 | 2021-08-17 | 大连民族大学 | 视频描述中视觉特征分割语义检测方法及*** |
CN117211758A (zh) * | 2023-11-07 | 2023-12-12 | 克拉玛依市远山石油科技有限公司 | 用于浅孔取芯的智能钻进控制***及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361363A (zh) * | 2014-11-25 | 2015-02-18 | 中国科学院自动化研究所 | 深度反卷积特征学习网络、生成方法及图像分类方法 |
CN105975968A (zh) * | 2016-05-06 | 2016-09-28 | 西安理工大学 | 一种基于Caffe框架的深度学习车牌字符识别方法 |
CN106157307A (zh) * | 2016-06-27 | 2016-11-23 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
CN106372390A (zh) * | 2016-08-25 | 2017-02-01 | 姹ゅ钩 | 一种基于深度卷积神经网络的预防肺癌自助健康云服务*** |
-
2017
- 2017-05-16 CN CN201710342354.8A patent/CN107180430A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361363A (zh) * | 2014-11-25 | 2015-02-18 | 中国科学院自动化研究所 | 深度反卷积特征学习网络、生成方法及图像分类方法 |
CN105975968A (zh) * | 2016-05-06 | 2016-09-28 | 西安理工大学 | 一种基于Caffe框架的深度学习车牌字符识别方法 |
CN106157307A (zh) * | 2016-06-27 | 2016-11-23 | 浙江工商大学 | 一种基于多尺度cnn和连续crf的单目图像深度估计方法 |
CN106372390A (zh) * | 2016-08-25 | 2017-02-01 | 姹ゅ钩 | 一种基于深度卷积神经网络的预防肺癌自助健康云服务*** |
Non-Patent Citations (5)
Title |
---|
JONATHAN LONG ETC.: ""Fully Convolutional Networks for Semantic Segmentation"", 《IEEE IN COMPUTER VISION AND PATTERN RECOGNITION》 * |
LIANG-CHIEH CHEN ET AL.: "Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs", 《ICLR 2015》 * |
SHUAI ZHENG ET AL.: "Conditional Random Fields as Recurrent Neural Networks", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION(ICCV)》 * |
刘丹 等: "一种多尺度CNN的图像语义分割算法", 《遥感信息》 * |
山世光 等: "深度学习:多层神经网络的复兴与变革", 《科技导报》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730514A (zh) * | 2017-09-29 | 2018-02-23 | 北京奇虎科技有限公司 | 场景分割网络训练方法、装置、计算设备及存储介质 |
CN107730514B (zh) * | 2017-09-29 | 2021-02-12 | 北京奇宝科技有限公司 | 场景分割网络训练方法、装置、计算设备及存储介质 |
CN107729992A (zh) * | 2017-10-27 | 2018-02-23 | 深圳市未来媒体技术研究院 | 一种基于反向传播的深度学习方法 |
CN107729992B (zh) * | 2017-10-27 | 2020-12-29 | 深圳市未来媒体技术研究院 | 一种基于反向传播的深度学习方法 |
CN108010049A (zh) * | 2017-11-09 | 2018-05-08 | 华南理工大学 | 使用全卷积神经网络分割定格动画中人手部区域的方法 |
CN108053376A (zh) * | 2017-12-08 | 2018-05-18 | 长沙全度影像科技有限公司 | 一种语义分割信息指导深度学习鱼眼图像校正方法 |
US11410277B2 (en) | 2018-01-05 | 2022-08-09 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and device for blurring image background, storage medium and electronic apparatus |
CN110009556A (zh) * | 2018-01-05 | 2019-07-12 | 广东欧珀移动通信有限公司 | 图像背景虚化方法、装置、存储介质及电子设备 |
CN108345887A (zh) * | 2018-01-29 | 2018-07-31 | 清华大学深圳研究生院 | 图像语义分割模型的训练方法及图像语义分割方法 |
CN108335313A (zh) * | 2018-02-26 | 2018-07-27 | 阿博茨德(北京)科技有限公司 | 图像分割方法及装置 |
CN108830854A (zh) * | 2018-03-22 | 2018-11-16 | 广州多维魔镜高新科技有限公司 | 一种图像分割方法及存储介质 |
CN108765431B (zh) * | 2018-05-25 | 2022-07-15 | 中国科学院重庆绿色智能技术研究院 | 一种图像的分割方法及其在医学领域的应用 |
CN108765431A (zh) * | 2018-05-25 | 2018-11-06 | 中国科学院重庆绿色智能技术研究院 | 一种图像的分割方法及其在医学领域的应用 |
CN108876796A (zh) * | 2018-06-08 | 2018-11-23 | 长安大学 | 一种基于全卷积神经网络和条件随机场的道路分割***及方法 |
CN109145939B (zh) * | 2018-07-02 | 2021-11-02 | 南京师范大学 | 一种小目标敏感的双通道卷积神经网络语义分割方法 |
CN109145713A (zh) * | 2018-07-02 | 2019-01-04 | 南京师范大学 | 一种结合目标检测的小目标语义分割方法 |
CN109145939A (zh) * | 2018-07-02 | 2019-01-04 | 南京师范大学 | 一种小目标敏感的双通道卷积神经网络语义分割方法 |
CN111178495A (zh) * | 2018-11-10 | 2020-05-19 | 杭州凝眸智能科技有限公司 | 用于检测图像中极小物体的轻量卷积神经网络 |
CN109657715B (zh) * | 2018-12-12 | 2024-02-06 | 广东省机场集团物流有限公司 | 一种语义分割方法、装置、设备及介质 |
CN109657715A (zh) * | 2018-12-12 | 2019-04-19 | 广东工业大学 | 一种语义分割方法、装置、设备及介质 |
CN109670577A (zh) * | 2018-12-14 | 2019-04-23 | 北京字节跳动网络技术有限公司 | 模型生成方法和装置 |
CN109829885A (zh) * | 2018-12-24 | 2019-05-31 | 中山大学 | 一种基于深度语义分割网络的自动识别鼻咽癌原发肿瘤方法 |
CN109829885B (zh) * | 2018-12-24 | 2022-07-22 | 广州柏视医疗科技有限公司 | 一种基于深度语义分割网络的自动识别鼻咽癌原发肿瘤方法 |
CN109801293B (zh) * | 2019-01-08 | 2023-07-14 | 平安科技(深圳)有限公司 | 遥感影像分割方法、装置及存储介质、服务器 |
CN109801293A (zh) * | 2019-01-08 | 2019-05-24 | 平安科技(深圳)有限公司 | 遥感影像分割方法、装置及存储介质、服务器 |
CN110009573B (zh) * | 2019-01-29 | 2022-02-01 | 北京奇艺世纪科技有限公司 | 模型训练、图像处理方法、装置、电子设备及存储介质 |
CN110009573A (zh) * | 2019-01-29 | 2019-07-12 | 北京奇艺世纪科技有限公司 | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 |
CN110047047A (zh) * | 2019-04-17 | 2019-07-23 | 广东工业大学 | 三维形貌图像信息解译的方法、装置、设备及存储介质 |
CN110837811A (zh) * | 2019-11-12 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 语义分割网络结构的生成方法、装置、设备及存储介质 |
CN111091560A (zh) * | 2019-12-19 | 2020-05-01 | 广州柏视医疗科技有限公司 | 鼻咽癌原发肿瘤图像识别方法及*** |
CN111340047A (zh) * | 2020-02-28 | 2020-06-26 | 江苏实达迪美数据处理有限公司 | 基于多尺度特征与前背景对比的图像语义分割方法及*** |
CN111340047B (zh) * | 2020-02-28 | 2021-05-11 | 江苏实达迪美数据处理有限公司 | 基于多尺度特征与前背景对比的图像语义分割方法及*** |
CN111582043B (zh) * | 2020-04-15 | 2022-03-15 | 电子科技大学 | 基于多任务学习的高分辨率遥感影像地物变化检测方法 |
CN111582043A (zh) * | 2020-04-15 | 2020-08-25 | 电子科技大学 | 基于多任务学习的高分辨率遥感影像地物变化检测方法 |
CN113269093A (zh) * | 2021-05-26 | 2021-08-17 | 大连民族大学 | 视频描述中视觉特征分割语义检测方法及*** |
CN113269093B (zh) * | 2021-05-26 | 2023-08-22 | 大连民族大学 | 视频描述中视觉特征分割语义检测方法及*** |
CN117211758A (zh) * | 2023-11-07 | 2023-12-12 | 克拉玛依市远山石油科技有限公司 | 用于浅孔取芯的智能钻进控制***及方法 |
CN117211758B (zh) * | 2023-11-07 | 2024-04-02 | 克拉玛依市远山石油科技有限公司 | 用于浅孔取芯的智能钻进控制***及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107180430A (zh) | 一种适用于语义分割的深度学习网络构建方法及*** | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
WO2022147965A1 (zh) | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅*** | |
CN107169421B (zh) | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 | |
CN106203395B (zh) | 基于多任务深度学习的人脸属性识别方法 | |
CN108182441B (zh) | 平行多通道卷积神经网络、构建方法及图像特征提取方法 | |
CN106650721B (zh) | 一种基于卷积神经网络的工业字符识别方法 | |
CN107610087B (zh) | 一种基于深度学习的舌苔自动分割方法 | |
CN107169974A (zh) | 一种基于多监督全卷积神经网络的图像分割方法 | |
CN107506722A (zh) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 | |
CN107122375A (zh) | 基于图像特征的图像主体的识别方法 | |
CN111553837B (zh) | 一种基于神经风格迁移的艺术文本图像生成方法 | |
CN107862261A (zh) | 基于多尺度卷积神经网络的图像人群计数方法 | |
CN106709568A (zh) | 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法 | |
CN105825502B (zh) | 一种基于显著性指导的词典学习的弱监督图像解析方法 | |
CN107729513A (zh) | 基于语义对齐的离散监督跨模态哈希检索方法 | |
CN106372648A (zh) | 基于多特征融合卷积神经网络的浮游生物图像分类方法 | |
CN106096538A (zh) | 基于定序神经网络模型的人脸识别方法及装置 | |
CN107066916A (zh) | 基于反卷积神经网络的场景语义分割方法 | |
CN112115993B (zh) | 一种基于元学习的零样本和小样本证件照异常检测方法 | |
CN109886161A (zh) | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 | |
CN107133955A (zh) | 一种多层次结合的协同显著性检测方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及*** | |
CN108268890A (zh) | 一种高光谱图像分类方法 | |
CN107220655A (zh) | 一种基于深度学习的手写、印刷文本的分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170919 |
|
RJ01 | Rejection of invention patent application after publication |