CN108764342A

CN108764342A - 一种对于眼底图中视盘和视杯的语义分割方法

Info

Publication number: CN108764342A
Application number: CN201810534400.9A
Authority: CN
Inventors: 刘少鹏; 贾西平; 关立南; 林智勇; 高维奇; 欧阳佳; 梁杰鹏; 廖秀秀; 马震远; 洪佳明
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-06
Anticipated expiration: 2038-05-29
Also published as: CN108764342B

Abstract

本发明提供了一种对于眼底图中视盘和视杯的语义分割方法，其包括：对任一个眼底图进行预处理，获得眼底图数据；获得预处理后的眼底图中关于视盘和视杯的标准分割图像数据；初始化构建的语义分割网络、生成器网络和判别器网络的参数；将眼底图数据输入到语义分割网络生成第一生成样本数据，将将标准分割图像数据输入到生成器网络生成第二生成样本数据；将第一生成样本数据、第二生成样本数据和原始样本数据输入到判别器网络中进行处理和训练；将对任何一幅眼底图进行预处理后所获得的眼底图数据输入到经训练完成的所述语义分割网络中进行语义分割，生成期望的分割图像数据。

Description

一种对于眼底图中视盘和视杯的语义分割方法

技术领域

本发明涉及图像处理技术领域，具体而言涉及一种对于眼底图中视盘和视杯的语义分割方法。

背景技术

青光眼是失明的主要原因，其特征是视神经持续损失轴突，且目前不能康复。然而，早期检测，可将青光眼视神经病变的发展显著减缓甚至停止，临床上早期筛查青光眼意义重大。青光眼的典型特点是视神经头特定的反常外观：视盘凹陷，视神经视网膜盘沿损失，典型的被认为是杯盘比(Cup to Disc Ratio，CDR)增大。CDR被认为是检测病人出现青光眼以及青光眼视神经病变程度的重要指标之一。杯盘比指的是眼底图上的视杯与视盘之间的比例，是青光眼早期筛查的一项重要指标。CDR值越大，青光眼患病的概率越高。计算CDR指标的关键在于如何准确分割眼底图的视盘和视杯区域。

对眼底图的视盘和视杯进行语义分割的现有方法采用了计算机视觉技术和深度学习技术。语义分割就是对图片的每个像素点进行分类。传统的计算机视觉技术融合图像亮度、颜色及其对比度增强，Graph Cut(图割)，边缘检测以及形态学等方法，对眼底图进行处理与分析，从而得到有效的特征信息，分别检测出视盘和视杯。由于过分依赖人工经验并且处理数据的规模较小，导致模型泛化能力差，视盘和视杯的分割效果有待改进，实际推广应用价值不高。

深度学习技术能够自动抽取图像特征，无需人工干预，适用于图像语义分割等任务，结合深度学习分析青光眼医学影像成为研究热点。将眼底图输入到全连接语义分割网络U-Net模型，计算并输出眼底图的视盘和视杯的分割结果，网络参数通过后向传播技术训练得到。但是，将已有全连接语义分割网络直接应用于眼底图的视盘和视杯分割，忽略了视盘和视杯之间的空间与位置关系，这导致输出结果与真实眼底图之间存在高阶不一致性。另外，眼底图的视盘和视杯的分割图像的真实标注样本较少，因为这需要研究青光眼的专家医生针对眼底图标注出视盘和视杯的分割图像的真实样本，显然依靠专家医生人工作出真实的标注样本，该标注样本数量是非常有限的，这使得对于现有的全连接语义分割网络U-Net模型进行深度学习时会遇到很大障碍。

综上，如何构建基于深度学习的眼底图的视盘和视杯语义分割模型，进一步优化分割结果，是目前亟待解决的问题。

发明内容

本发明的目的在于提供一种对于眼底图中视盘和视杯的语义分割方法，以改善上述的问题。

本发明提供了一种对于眼底图中视盘和视杯的语义分割方法，其包括：

对任意一个眼底图进行预处理，获得眼底图数据x；

获得预处理后的眼底图中关于视盘和视杯的标准分割图像数据y；

初始化构建的语义分割网络、生成器网络和判别器网络的参数；

将眼底图数据x输入到语义分割网络中进行语义分割后，生成分割图像数据y'，由此构成第一生成样本数据(x,y')；

将标准分割图像数据y输入到生成器网络中进行处理，生成眼底图数据x'，由此构成第二生成样本数据(x',y)；

将第一生成样本数据(x,y')、第二生成样本数据(x',y)和原始样本数据(x,y)输入到判别器网络中进行处理，基于原始样本数据(x,y)来判断并输出第一生成样本数据(x,y')和第二生成样本数据(x',y)的真假结果，其中根据每次获得的真假结果，使用优化算法更新所述判别器网络的参数，以及更新所述语义分割网络和所述生成器网络的参数，由此进行生成式对抗网络训练，直到达到纳什均衡时训练完成；

将对任何一幅眼底图进行预处理后所获得的眼底图数据输入到经上述训练完成的所述语义分割网络中进行语义分割，生成期望的分割图像数据。

其中，所述预处理包括裁剪处理。或者，所述预处理包括裁剪处理、旋转处理、和颜色对比度增强处理。

其中，在初始化时，所述语义分割网络、所述生成器网络和所述判别器网络的参数值是预定的或者是随机的。

其中，所述构建的语义分割网络采用面向语义分割任务的全连接卷积神经网络FCN，所述卷积神经网络FCN包括依次串联的2个第一卷积层单元、3个第二卷积层单元和1个第三卷积层单元，该第三卷积层单元用来实现端到端的映射；每个所述第一卷积层单元均包括一个第一卷积层以及与该第一卷积层输出端串联的一激励操作单元ReLU、一个第二卷积层以及与该第二卷积层输出端串联的激励操作单元ReLU和最大池化层MaxPool2d；每个所述第二卷积层单元均包括3组串联的卷积层以及与该卷积层输出端串联的一激励操作单元ReLU、和最后串联的一个最大池化层MaxPool2d；所述第三卷积单元包括：依次串联的卷积层、激励操作单元ReLU、卷积层、激励操作单元ReLU、和卷积层；将2个第一卷积层单元分别依次称为第一层块和第二层块，将3个第二卷积层单元依次称为第三层块、第四层块和第五层块，将第三卷积层单元称为第六层块，则第六层块的输出经过2倍上采样操作后与第四层块的输出经过卷积后再融合得到第一结果，此结果同样经过2倍上采样操作后与第三层块的输出经过卷积后再融合得到第二结果，最终将该第二结果经过8倍上采样后得到分割图像数据。

其中，所述构建的生成器网络的结构是：其深度为62层，包括四种不同的网络单元，分别为：1)包括串联的卷积网络、批规范化单元BN、和修正线性单元ReLU的网络单元、2)包括串联的卷积网络、批规范化单元BN、修正线性单元ReLU、卷积网络、和批规范化单元BN的网络单元、3)包括串联的反卷积网络、批规范化单元BN、和修正线性单元ReLU的网络单元、4)包括串联的反卷积网络和激活单元Tanh的网络单元；其中，串联的第一层块到第三层块均为包括串联的卷积网络、批规范化单元BN、和修正线性单元ReLU的网络单元，第一层块中的卷积网络是64个7*7*3的滤波器、第二层块中的卷积网络是128个3*3*64的滤波器、第三层块中的卷积网络是256个3*3*128的滤波器，用来产生256个特征映射；第四层块是包括串联的卷积网络、批规范化单元BN、修正线性单元ReLU、卷积网络、和批规范化单元BN的残差网络单元，其中的两个卷积网络均由256个3*3*256的滤波器组成，共有9个串联的第四层块，紧接串联的第五层和第六层为包括串联的反卷积网络、批规范化单元BN、和修正线性单元ReLU的网络层，第五层块中的反卷积网络由128个3*3*256的滤波器组成，第六层块中的反卷积网络由64个3*3*128的滤波器组成；最后一层块为包括串联的反卷积网络和激活单元Tanh的网络单元，该反卷积网使用3个7*7*64的滤波器，最后一层块用来实现端到端的映射，重建输出结果，以上各个层块都是串联在一起。

其中，所述构建的判别器网络的结构是：其深度为12层，包括三种不同的网络单元，分别为：1)包括串联的卷积网络和激励操作单元LeakyReLU的网络单元、2)包括串联的卷积网络、批规范化单元BN和激励操作单元LeakyReLU的网络单元、3)卷积网络；其中：所述判别器网络的结构的第一层块是包括串联的卷积网络和激励操作单元LeakyReLU的网络单元，由64个4*4*6的滤波器组成；第二层块到第四层块均是包括串联的卷积网络、批规范化单元BN和激励操作单元LeakyReLU的网络单元，其滤波器规格依次为128个4*4*64、256个4*4*128、512个4*4*256；最后一层就是一个卷积网络，由1个4*4*512滤波器组成，用来实现端到端的映射，重建输出结果。

根据本发明的一种对于眼底图中视盘和视杯的语义分割方法，能够利用较少数量(甚至可以是1个或几个)的真实的关于视盘和视杯的标准分割图像，改善了标注的标准样本过少的问题；通过深度学习训练，实现对于眼底图中视盘和视杯进行准确语义分割的目的，保证分割结果的高阶一致性，提升了视盘和视杯的分割准确率。

附图说明

图1是一个眼底图的示例图；

图2是对于图1所示眼底图的关于视盘和视杯的标准分割图；

图3是本发明实施例的一种对于眼底图中视盘和视杯的语义分割方法的示意性流程图；

图4是本发明实施例提供的语义分割网络的构架示意图。

具体实施方式

下面将结合本发明实施例和附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合本发明的附图和具体实施例，对本发明的技术方案进行清楚、完整地描述。

图1是本发明第一实施例的一种对于眼底图中视盘和视杯的语义分割方法的示意性流程图。如图1所示，所述对于眼底图中视盘和视杯的语义分割方法包括：

步骤1：对任意一个眼底图进行预处理，获得眼底图数据x。

其中所述预处理包括裁剪处理，例如将拍照得到的大尺寸的原始眼底图裁剪成所需要的小尺寸的眼底图，例如256×256大小的JPG格式的眼底图。

其中所述预处理除了包括裁剪处理之外，还可以包括旋转处理和颜色对比度增强处理。做旋转处理，例如旋转90度后的眼底图，做多个角度旋转处理，可以扩充作为训练用的样本数量。同样的，也可以通过进行颜色对比度增强处理，扩充作为训练用的样本数量。

步骤2：获得预处理后的眼底图中关于视盘和视杯的标准分割图像数据y。

可以依靠研究青光眼领域的专家医生人工针对预处理后的眼底图作出真实的关于视盘和视杯的标准分割图像，技术人员根据该标准分割图像从所述预处理后的眼底图获得相应的标准分割图像数据y。注意，背景技术中提到研究青光眼的专家医生针对眼底图标注出视盘和视杯的分割图像的真实样本的标注样本数量是非常有限的，也就是说数量很少。本发明的目的就是利用较少数量(甚至可以是1个或几个)的真实的关于视盘和视杯的标准分割图像，通过深度学习训练，实现对于眼底图中视盘和视杯进行准确语义分割的目的。

步骤3：初始化构建的语义分割网络、生成器网络和判别器网络的参数。

在初始化时，语义分割网络、生成器网络和判别器网络的参数值可以是预定的，或者，也可以是随机的。

如何构建语义分割网络、生成器网络和判别器网络将在后面做具体描述。

步骤4：将眼底图数据x输入到语义分割网络中进行语义分割后，生成分割图像数据y'，由此构成第一生成样本数据(x,y')。

在该第一生成样本数据(x,y')中，x是对眼底图进行预处理所获得的眼底图数据x，y'是语义分割后得到的视盘和视杯的分割图像数据y'。

步骤5：将标准分割图像数据y输入到生成器网络中进行处理，生成眼底图数据x'，由此构成第二生成样本数据(x',y)。

在该第二生成样本数据(x',y)中，x'是将上述的视盘和视杯的标准分割图像数据y输入到所述生成器网络中生成相应的眼底图数据x'，y是上述的视盘和视杯的标准分割图像数据y。

步骤6：将第一生成样本数据(x,y')、第二生成样本数据(x',y)和原始样本数据(x,y)输入到判别器网络中进行处理，基于原始样本数据(x,y)来判断并输出第一生成样本数据(x,y')和第二生成样本数据(x',y)的真假结果，其中根据每次获得的真假结果，使用优化算法更新所述判别器网络的参数，以及更新所述语义分割网络和所述生成器网络的参数，由此进行生成式对抗网络训练，直到达到纳什均衡时训练完成。

在该步骤6中，所述的优化算法使用了Adam算法，采用了生成式对抗网络GAN(Generative Adversarial Networks)的训练学习方式，不断地对所述语义分割网络、所述生成器网络和所述判别器网络进行对抗的训练学习，直到达到纳什均衡，此时训练完成。其中，对于判别器网络输出的真假结果，通常可以使用1表示结果为真，使用0表示结果为假；然后还可以采用约定的其他数字表示，这里不多举例。

简单说，通过判别器网络判别输入数据是真实数据还是生成的样本数据，不断地进行网络优化。训练时固定一方，更新另一个的参数，交替迭代，使得对方的错误最大化，直到达到一个纳什均衡，使得所述语义分割网络生成的分割图像数据y'与真实的标准分割图像数据y无差别或几乎无差别，生成器网络生成的眼底图数据x'与真实的眼底图数据x无差别或几乎无差别，所述判别器网络也无法正确判别出生成样本数据和真实数据。

步骤7：将对任何一幅眼底图进行预处理后所获得的眼底图数据输入到经上述训练完成的所述语义分割网络中进行语义分割，生成期望的分割图像数据。

由于经过上述的对抗性学习训练，用于语义分割的所述语义分割网络的准确分割能力获得大大提升，将任何一幅眼底图进行预处理后的眼底图数据输入到所述语义分割网络，该语义分割网络都能够生成期望的且真实的分割图像数据，进而可以计算CDR指标，将其作为青光眼早期筛查的重要依据之一。

下面描述本发明使用的语义分割网络、生成器网络和判别器网络的具体构造。

其中，所述构建的语义分割网络采用面向语义分割任务的全连接卷积神经网络FCN，如图4所示的卷积神经网络构架示意图，所述卷积神经网络FCN包括依次串联的2个第一卷积层单元、3个第二卷积层单元和1个第三卷积层单元，该第三卷积层单元用来实现端到端的映射；每个所述第一卷积层单元均包括一个第一卷积层以及与该第一卷积层输出端串联的一激励操作单元ReLU、一个第二卷积层以及与该第二卷积层输出端串联的激励操作单元ReLU和最大池化层MaxPool2d；每个所述第二卷积层单元均包括3组串联的卷积层以及与该卷积层输出端串联的一激励操作单元ReLU、和最后串联的一个最大池化层MaxPool2d；所述第三卷积单元包括：依次串联的卷积层、激励操作单元ReLU、卷积层、激励操作单元ReLU、和卷积层；在这里，将2个第一卷积层单元分别依次称为第一层块和第二层块，将3个第二卷积层单元依次称为第三层块、第四层块和第五层块，将第三卷积层单元称为第六层块；第六层块的输出经过2倍上采样操作后与第四层块的输出经过卷积后再融合得到第一结果，此结果同样经过2倍上采样操作后与第三层块的输出经过卷积后再融合得到第二结果，最终将该第二结果经过8倍上采样后得到分割图像数据。

其中，经过8倍上采样后得到的分割图像的大小与原始眼底图的大小相同。

在这里，每个卷积网络、每个批规范化单元BN、每个修正线性单元ReLU、每个反卷积网络和激活单元Tanh都各自视为一层，一共有62层，其中每层都是串联在一起。下面通过表格方式示意性表示生成器网络的结构。

示意性的生成器网络的结构：

其中，Conv表示卷积网络，ConvTran表示反卷积网络，BatchNorm2d表示批规范化单元，ReLU表示修正线性单元，Tanh表示激活单元，IN#表示输入的通道数目(比如IN3表示输入通道数目为3)，OUT#表示输出的通道数目(比如OUT64表示输出通道数目为64)，K#表示滤波器尺寸，S#表示步长，P#表示填充数目。

其中，所述构建的判别器网络的结构是：其深度为12层，包括三种不同的网络单元，分别为：1)包括串联的卷积网络和激励操作单元LeakyReLU的网络单元、2)包括串联的卷积网络、批规范化单元BN和激励操作单元LeakyReLU的网络单元、3)卷积网络；其中：所述判别器网络的结构的第一层块是包括串联的卷积网络和激励操作单元LeakyReLU的网络单元，由64个4*4*6的滤波器组成；第二层块到第四层块均是包括串联的卷积网络、批规范化单元BN和激励操作单元LeakyReLU的网络单元，其滤波器规格依次为128个4*4*64、256个4*4*128、512个4*4*256；最后一层块就是一个卷积网络，由1个4*4*512滤波器组成，用来实现端到端的映射，重建输出结果。以上各个层块都是串联在一起。

在这里，每个卷积网络、每个批规范化单元BN、和每个修正线性单元LeakyReLU都各自视为一层，一共有12层，其中每层都是串联在一起。下面通过表格方式示意性表示判别器网络的结构。

示意性的判别器网络的结构：

其中，Conv表示卷积网络，LeakyReLU表示修正线性单元，BatchNorm2d表示批规范化单元，IN#表示输入的通道数目(比如IN6表示输入通道数目为6)，OUT#表示输出的通道数目(比如OUT64表示输出通道数目为64)，K#表示滤波器尺寸，S#表示步长，P#表示填充数目。

这里，采用批规范化单元BN(BatchNorm2d)进行规范化操作，防止梯度消失或梯度***。

在生成器网络中，为了利用视盘和视杯的分割图的深度特征，生成高分辨率眼底图，这里引入了反卷积操作。修正线性单元选择ReLU激活函数，因为其具有分段线性性质，更容易计算梯度，且能避免Tanh等激活函数的梯度在饱和区域消失的问题。最后一层的激活单元选择Tanh激活函数选择而非ReLU，主要考虑Tanh激活函数具有更好的输出表达能力，使得生成图像更为光滑真实。

在判别器网络中，激励操作单元采用LeakyReLU激活函数替换ReLU激活函数，当输入为负值时，赋予较小的非零梯度值，避免出现神经元无法激活的问题。引入批规范化单元BN(BatchNorm2d)执行规范化操作，通过零均值化每一层的输入，使每一层拥有服从相同分布的输入样本，因此克服了深度网络参数训练时内部存在的协方差偏移的影响，有效解决反向传播中梯度消失和***的问题。

在生成对抗网络的训练学习过程中，判别器网络D最终要使语义分割网络S和生成器网络G学习眼底图数据x及其标准视盘和视杯分割图y的联合分布P(x，y)。对抗损失L_GAN(S,G,D)定义如下：

其中α∈(0，1)，反映语义分割网络S和生成器网络G在对抗学习中的重要程度；E表示数学期望值，其下标为随机变量分布，D(x,y)是取0或1，即D(x,y)表示取结果为真或为假的值，这里用1表示结果为真，用0表示结果为假。

为保证语义分割网络S和生成器网络G生成图像的质量，需考虑L₁(S，G)损失函数：

E表示数学期望值，其下标为随机变量分布；

||x-x'||₁表示眼底图与生成的眼底图的差距，||y-y'||₁表示标准分割图与生成的分割图的差距。具体计算方法如下：首先将两幅图像(眼底图与生成的眼底图两幅图像；或者标准分割图与生成的分割图两幅图像)相同位置的像素点对求灰度值的差，再对差值取绝对值，最后求和得到结果。

因此，最终的损失函数L(S，G，D)定义如下：

L(S，G，D)＝L_GAN(S，G，D)+L₁(S，G)

全局优化目标如下：

在对抗学习中，判别器网络D的目标是最大化对抗损失L_GAN，而语义分割网络S和生成器网络G的目标是最小化对抗损失L_GAN和L₁损失。

本发明相的优点及效果：

表1为本发明与现有已知的眼底图视盘和视杯分割模型的MIoU对比情况。

表1

	MIoU of Disc	MIoU of Cup	MIoU of Disc&Cup
				本发明	0.741	0.787	0.764
U-Net	0.729	0.758	0.743
				U-Net+GANs	0.758	0.767	0.762
M-Net	0.746	0.753	0.749

MIoU of Disc列是指视盘分割效果对比；MIoU of Cup列是指视杯分割效果对比，MIoU of Disc&Cup列为视盘和视杯两者的分割效果对比。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种对于眼底图中视盘和视杯的语义分割方法，其包括：

对任意一个眼底图进行预处理，获得眼底图数据x；

2.根据权利要求1所述的方法，其中所述预处理包括裁剪处理。

3.根据权利要求1所述的方法，其中所述预处理包括裁剪处理、旋转处理、和颜色对比度增强处理。

4.根据权利要求1所述的方法，其中所述构建的语义分割网络采用面向语义分割任务的全连接卷积神经网络FCN，所述卷积神经网络FCN包括依次串联的2个第一卷积层单元、3个第二卷积层单元和1个第三卷积层单元，该第三卷积层单元用来实现端到端的映射；每个所述第一卷积层单元均包括一个第一卷积层以及与该第一卷积层输出端串联的一激励操作单元ReLU、一个第二卷积层以及与该第二卷积层输出端串联的激励操作单元ReLU和最大池化层MaxPool2d；每个所述第二卷积层单元均包括3组串联的卷积层以及与该卷积层输出端串联的一激励操作单元ReLU、和最后串联的一个最大池化层MaxPool2d；所述第三卷积单元包括：依次串联的卷积层、激励操作单元ReLU、卷积层、激励操作单元ReLU、和卷积层；将2个第一卷积层单元分别依次称为第一层块和第二层块，将3个第二卷积层单元依次称为第三层块、第四层块和第五层块，将第三卷积层单元称为第六层块，则第六层块的输出经过2倍上采样操作后与第四层块的输出经过卷积后再融合得到第一结果，此结果同样经过2倍上采样操作后与第三层块的输出经过卷积后再融合得到第二结果，最终将该第二结果经过8倍上采样后得到分割图像数据。

5.根据权利要求1所述的方法，其中所述构建的生成器网络的结构是：其深度为62层，包括四种不同的网络单元，分别为：1)包括串联的卷积网络、批规范化单元BN、和修正线性单元ReLU的网络单元、2)包括串联的卷积网络、批规范化单元BN、修正线性单元ReLU、卷积网络、和批规范化单元BN的网络单元、3)包括串联的反卷积网络、批规范化单元BN、和修正线性单元ReLU的网络单元、4)包括串联的反卷积网络和激活单元Tanh的网络单元；其中，串联的第一层块到第三层块均为包括串联的卷积网络、批规范化单元BN、和修正线性单元ReLU的网络单元，第一层块中的卷积网络是64个7*7*3的滤波器、第二层块中的卷积网络是128个3*3*64的滤波器、第三层块中的卷积网络是256个3*3*128的滤波器，用来产生256个特征映射；第四层块是包括串联的卷积网络、批规范化单元BN、修正线性单元ReLU、卷积网络、和批规范化单元BN的残差网络单元，其中的两个卷积网络均由256个3*3*256的滤波器组成，共有9个串联的第四层块，紧接串联的第五层和第六层为包括串联的反卷积网络、批规范化单元BN、和修正线性单元ReLU的网络层，第五层块中的反卷积网络由128个3*3*256的滤波器组成，第六层块中的反卷积网络由64个3*3*128的滤波器组成；最后一层块为包括串联的反卷积网络和激活单元Tanh的网络单元，该反卷积网使用3个7*7*64的滤波器，最后一层块用来实现端到端的映射，重建输出结果，以上各个层块都是串联在一起。

6.根据权利要求1所述的方法，其中所述构建的判别器网络的结构是：其深度为12层，包括三种不同的网络单元，分别为：1)包括串联的卷积网络和激励操作单元LeakyReLU的网络单元、2)包括串联的卷积网络、批规范化单元BN和激励操作单元LeakyReLU的网络单元、3)卷积网络；其中：所述判别器网络的结构的第一层块是包括串联的卷积网络和激励操作单元LeakyReLU的网络单元，由64个4*4*6的滤波器组成；第二层块到第四层块均是包括串联的卷积网络、批规范化单元BN和激励操作单元LeakyReLU的网络单元，其滤波器规格依次为128个4*4*64、256个4*4*128、512个4*4*256；最后一层就是一个卷积网络，由1个4*4*512滤波器组成，用来实现端到端的映射，重建输出结果。