CN110570443B - 一种基于结构约束条件生成模型的图像线状目标提取方法 - Google Patents

一种基于结构约束条件生成模型的图像线状目标提取方法 Download PDF

Info

Publication number
CN110570443B
CN110570443B CN201910753540.XA CN201910753540A CN110570443B CN 110570443 B CN110570443 B CN 110570443B CN 201910753540 A CN201910753540 A CN 201910753540A CN 110570443 B CN110570443 B CN 110570443B
Authority
CN
China
Prior art keywords
image
model
output
linear
linear target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910753540.XA
Other languages
English (en)
Other versions
CN110570443A (zh
Inventor
熊盛武
林泽华
李梦
路雄博
刁月月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan Shuixiang Electronic Technology Co ltd
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Shuixiang Electronic Technology Co ltd, Wuhan University of Technology WUT filed Critical Wuhan Shuixiang Electronic Technology Co ltd
Priority to CN201910753540.XA priority Critical patent/CN110570443B/zh
Publication of CN110570443A publication Critical patent/CN110570443A/zh
Application granted granted Critical
Publication of CN110570443B publication Critical patent/CN110570443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于结构约束条件生成模型的图像线状目标提取方法,包括步骤包括:S1、构造训练和测试数据集,获取所需原始图像及其对应的线状目标图像,得到数据集;S2、设计条件生成模型网络结构,并通过反向传播算法更新条件生成模型,然后利用测试集图像遴选最优的图像线状目标提取模型;S3、利用上述训练好的图像线状目标提取模型,得到给定图像对应的线状目标图像。本发明通过结合图像结构信息差异损失函数,训练具有更强的图像结构信息捕捉能力的条件生成模型,具有适用性强、提取得到的线状目标图像质量高、可扩展性强等优点。

Description

一种基于结构约束条件生成模型的图像线状目标提取方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于结构约束条件生成模型的图像线状目标提取方法。
背景技术
图像线状目标提取是指:从具有复杂背景的图像中提取出用户需要的具有线状结构的内容。图像线状目标提取方法具有很多重要的应用,例如,从航拍或遥感图像中提取道路和河流位置信息、从医学图像中提取血管和骨骼信息、从植物叶片图像中提取叶脉结构信息、从人脸图像中提取轮廓信息等等。同时,在目标识别、指纹识别、视网膜病理识别、植物品种识别等应用场景中,图像线状目标提取通常作为图像前处理过程,对相关形状和纹理特征提取以及后续识别任务的性能具有重要影响。
在计算机视觉领域,如何提取图像中的线状目标一直是一个热门的研究课题。传统的线状目标提取主要基于图像灰度信息,采用滤波算法(如Sobel算子、Canny算子以及相关的改进算子)、Hough变换、IPM等技术实现对边缘或线状物体的检测。但此类方法在图像低级的像素特征层面处理而不涉及语义信息,容易将复杂背景中非用户期望的线状目标也一并提取出来,因此此类技术仅适用于背景简单的图像。
近年来,基于深度学习的图像处理技术得到广泛发展,其中条件生成模型,例如条件变分自编码器、条件生成对抗网络等,从跨模态图像生成的视角出发,实现两类语义内容差别较大的图像之间的转化。线状目标提取在一定程度上也可以看作是跨模态图像生成任务,相比于上述传统方法,基于条件生成模型的方法鲁棒性和通用性较强,在复杂背景下提取效果较好。但由于图像中线状目标所蕴含的信息具有强结构性,而普通的条件生成模型难以刻画线状结构信息,仍然难以提取出结构完善的线状目标。
发明内容
本发明要解决的技术问题是,针对上述传统的和基于条件生成模型的图像线状目标提取技术的不足,提出一种基于结构约束条件生成模型的图像线状目标提取方法,提高图像线状目标提取效果,为相关应用提供技术支撑。
本发明解决上述技术问题所采取的技术方案关键为:通过结合图像结构信息差异损失函数,训练具有更强的图像结构信息捕捉能力的条件生成模型。
其中所述结构信息差异损失函数项定义为:通过预训练的VGG19神经网络模型提取结果图像和目标图像的高级特征后,计算特征之间的均方差。
其中所述条件生成模型基于最优传输理论,包含两个深度卷积神经网络子模型,记为gζ
Figure BDA0002168010130000021
前者用于计算最优传输映射实现图像线状目标提取,后者用于拟合Kantorovich势计算结果图像和目标图像之间的Wasserstein距离。
本发明的技术方案具体包括如下步骤:
S1、构造训练和测试数据集,获取所需原始图像xi及其对应的线状目标图像
Figure BDA0002168010130000027
得到数据集,记为
Figure BDA0002168010130000022
M为图像数目,并按照一定比例随机划分为训练集和测试集,分别记为
Figure BDA0002168010130000023
Figure BDA0002168010130000024
S2、设计结构约束条件生成模型的网络结构,并将上述训练集图像,输入结构约束条件生成模型进行训练,并利用测试集图像遴选最优的图像线状目标提取模型;
其中,结构约束条件生成模型包含两个深度卷积神经网络子模型,记为gζ
Figure BDA0002168010130000025
前者用于计算最优传输映射实现图像线状目标提取,后者用于拟合Kantorovich势计算结果图像和目标图像之间的Wasserstein距离:生成器gζ以U-Net网络为基础,包括n个结构为“二维卷积Conv2D—归一化BatchNorm—激活函数”的卷积模块和n个结构为“反卷积Deconv2D—归一化BatchNorm—激活函数”的反卷积模块;
判别器
Figure BDA0002168010130000028
以DCGAN网络模型的判别器网络为基础,包含1个输入卷积层,5个结构为“Conv2D—BatchNorm—LeaklyReLU激活函数”的卷积模块,以及1个最终输出卷积层;
S3、利用上述训练好的图像线状目标提取模型,得到给定图像对应的线状目标图像。
进一步的,步骤S1的具体实现方式如下,
S11、根据具体应用场景,人工采集对应的原始图像xi,然后通过人工标注其对应的线状目标图像
Figure BDA00021680101300000318
S12、将数据集的图像缩放至统一的恰当的分辨率,保证原始图像和线状目标图像中线状目标结构信息不受破坏的情况下,尽可能减少数据维度,便于后续模型的处理;
S13、将线状目标图像二值化,得到黑色背景、白色线条的二值图像,其中二值化操作采取阈值方法,像素值大于某一阈值δ则设置为1得到白色像素点,否则设置为0得到黑色像素点;
S14、将上述处理好的数据集
Figure BDA0002168010130000031
按照约5:1随机划分为训练集和测试集,分别记为
Figure BDA0002168010130000032
Figure BDA0002168010130000033
进一步的,步骤S2的生成器gζ中,除了最后一个反卷积模块激活函数采用Sigmoid函数外,其余模块均采用Tanh函数,同时,第i个卷积模块的输出同时作为第n-i个反卷积模块的输入;判别器
Figure BDA0002168010130000034
中输入卷积层采用LeaklyReLU激活函数,输出卷积层不使用激活函数。
进一步的,所述步骤S2结构约束条件生成模型的输入为原始图像xi,期望输出为输入的原始图像对应的线状目标图像
Figure BDA00021680101300000319
模型中生成器的实际输出作为预测输出,生成器训练目标为:最小化模型预测输出与期望输出之间的Wasserstein距离
Figure BDA0002168010130000035
像素级差异
Figure BDA0002168010130000036
和结构信息差异
Figure BDA0002168010130000037
总的表达式为:
Figure BDA0002168010130000038
Figure BDA0002168010130000039
其中α为Wasserstein距离项权重系数,β为结构信息差异项权重系数,用于调节各项重要性;
模型训练的具体步骤如下:
S21、从训练集数据
Figure BDA00021680101300000310
中随机采样m组原始图像和对应的线状目标图像
Figure BDA00021680101300000311
m为训练批次图像数目;
S22、将原始图像输入生成器网络,得到预测的线状目标图像
Figure BDA00021680101300000312
然后根据预测输出
Figure BDA00021680101300000313
与期望输出
Figure BDA00021680101300000320
计算模型损失函数
Figure BDA00021680101300000314
Figure BDA00021680101300000315
S23、计算
Figure BDA00021680101300000316
对生成器网络参数的导数
Figure BDA00021680101300000317
然后通过梯度下降算法更新生成器参数;
S24、重复S21和S23直至生成器网络参数收敛。
进一步的,所述像素级差异
Figure BDA0002168010130000041
取二进制交叉熵函数,其表达式为:
Figure BDA0002168010130000042
式中,x表示模型预测输出的图像,y表示模型期望输出的线状目标图像,i表示图像像素位置索引,i的取值范围为1~w×h,w和h分别为图像长和宽像素数。
进一步的,所述结构信息差异
Figure BDA0002168010130000043
定义为:通过预训练的VGG19神经网络模型提取结果图像和目标图像的高级特征后,计算特征之间的均方差,其表达式为,
Figure BDA0002168010130000044
式中,x表示模型预测输出的图像,y表示模型期望输出的线状目标图像,N为参与计算的VGG19模型提取的高层特征数,Mn为第n层输出的特征图的通道数,
Figure BDA0002168010130000045
为第n层输出的特征图的第m个通道,
Figure BDA0002168010130000046
表示
Figure BDA0002168010130000047
Figure BDA0002168010130000048
之间的欧式距离。
进一步的,所述Wasserstein距离
Figure BDA0002168010130000049
通过优化判别器来实现,判别器优化过程为:
S221、运用单纯形法求下列线性规划问题,最优解即为Wasserstein距离,并得到各对偶变量的最优值H*
Figure BDA00021680101300000410
Figure BDA00021680101300000411
其中
Figure BDA00021680101300000412
为Wasserstein距离的值,m为参与计算的图像数,Hj和Hi为辅助计算Wasserstein距离的对偶变量,其中i,j是下标,分别描述的是生成的图像和给定的图像,
Figure BDA00021680101300000413
为定义的距离函数;
S222、通过判别器
Figure BDA00021680101300000414
来拟合Wasserstein距离,该回归问题中,求解迭代次数记为Nr;针对该回归问题,以上一步求得的线性规划对偶变量最优解H*为模型的期望输出,以预测值作为模型预测输出,目标损失函数表达式如下:
Figure BDA0002168010130000051
其中m为参与计算的图像数,
Figure BDA0002168010130000052
Figure BDA0002168010130000053
由步骤S221计算得到,
Figure BDA0002168010130000054
指判别器网络,
Figure BDA0002168010130000055
Figure BDA0002168010130000056
分别指给定的叶脉图像和生成的叶脉图像。
进一步的,所述条件生成模型中,生成器和判别器的更新算法均选用Adam优化算法,学习率设置为0.001,Adam优化算法中的参数beta=(0.5,0.999)。
通过本发明所构思的以上技术方案,相比于现有技术,本发明具有以下技术效果:
(1)适用性强:本发明针对图像线状目标提取问题,采用条件生成模型,从跨模态图像生成的角度,实现语义层面上的图像线状目标提取,相比于基于灰度信息的技术,在具有复杂背景的图像中提取效果更好。
(2)生成图像质量高:本发明针对现有技术难以刻画和捕捉图像线状结构信息的问题,创新性地结合结构信息差异损失函数,训练具有更强的图像结构信息捕捉能力的条件生成模型,使提取的线状目标图像结构信息更完整。
(3)可扩展性强:本发明一种基于结构约束条件生成模型的图像线状目标提取方法,其原理通用性较高,根据实际需要,选择合适的训练数据和网络结构,可以应用到不同类型的线状目标提取任务。
附图说明
图1为本发明一种基于结构约束条件生成模型的图像线状目标提取方法流程图;
图2为本发明实施例中大豆叶片图像数据可视化结果;
图3为本发明实施例中大豆叶片数据对应的叶脉图像可视化结果;
图4为本发明实施例中用于大豆叶脉提取的结构约束条件生成模型示意图。
具体实施方式
为了具体说明使本发明的目的、技术方案、优点和可实现性,下面结合附图和实施例对本发明做进一步的说明。应当理解,此处所描述的具体实例仅仅用于解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互结合。
以下首先就本发明中涉及的技术术语进行解释和说明:
DCGAN网络:一种用于图像生成的神经网络,包含生成器和判别器两部分,前者用以实现从低维的高斯分布采样点到高维的目标图像的映射,后者用于比较生成图像的真实程度;生成器包含多个由反卷积层、归一化层和激活函数层组成的反卷积模块,逐步实现放大输出图像的特征尺寸;判别器包含多个由卷积层、归一化层和激活函数层组成的卷积模块,逐步提取输入图像的特征,计算生成图像和真实图像之间的相似度。
U-Net网络:一种用于图像处理的神经网络,为包含跳层连接的编码-解码结构,网络共有n个结构为卷积层、归一化层和激活函数层的卷积模块,以及n个结构为反卷积层、归一化层和激活函数层的反卷积模块,第i个卷积模块的输出同时作为第n-i个反卷积模块的输入。
Wasserstein距离:一种描述两种数据分布之间距离的度量方式,相对于Jansen-Shannon散度和KL散度等,Wasserstein距离更平滑,用于神经网络模型实现对图像数据之间的度量时不容易出现梯度消失等问题。
本实施例以大豆叶片图像中线状的叶脉提取为场景,对本发明提供的一种基于结构约束条件生成模型的图像线状目标提取方法作详细说明。
如图1所示,一种基于结构约束条件生成模型的图像线状目标提取方法,应用于大豆叶脉提取任务时,该方法详细步骤为:
S1、构造训练和测试数据集,获取所需大豆叶片图像xi及其对应的叶脉图像
Figure BDA0002168010130000061
得到数据集后划分为训练集和测试集,如图2所示,具体步骤如下:
S11、人工采集对应的大豆叶片图像xi,然后通过绘图板等工具人工标注其对应的叶脉图像
Figure BDA0002168010130000062
S12、将数据集的图像缩放至统一的恰当的分辨率,保证大豆叶片图像和叶脉图像中叶脉结构信息不受破坏的情况下,尽可能减少数据维度,便于后续模型的处理;
S13、将叶脉图像二值化,得到黑色背景、白色线条的二值图像,二值化操作采取阈值方法,像素值大于某一阈值δ,则设置为1得到白色像素点,否则设置为0得到黑色像素点;
S14、将上述处理好的数据集
Figure BDA0002168010130000063
按照约5:1随机划分为训练集和测试集,分别记为
Figure BDA0002168010130000071
Figure BDA0002168010130000072
S2、设计条件生成模型网络结构,如图3所示,并将上述训练集图像,输入结构约束条件生成模型,计算结合结构信息差异的总的损失函数,通过反向传播算法更新条件生成模型;并利用测试集图像遴选最优的大豆叶脉图像提取模型(即计算模型生成图像与测试集图像之间的差异,即Wasserstein距离+结构损失,选取差异最小的模型)。
所述条件生成模型基于最优传输理论,包含两个深度卷积神经网络子模型,记为gζ
Figure BDA0002168010130000073
前者用于计算最优传输映射实现图像线状目标提取,后者用于拟合Kantorovich势计算结果图像和目标图像之间的Wasserstein距离。
其中,生成器gζ以U-Net网络为基础,为包含跳层连接的编码-解码结构。网络共有7个结构为“二维卷积Conv2D—归一化BatchNorm—激活函数”的卷积模块和7个结构为“反卷积Deconv2D—归一化BatchNorm—激活函数”的反卷积模块,除了最后一个反卷积模块激活函数采用Sigmoid函数外,其余模块均采用Tanh函数,同时,第i个卷积模块的输出同时作为第7-i个反卷积模块的输入。
判别器
Figure BDA0002168010130000074
以DCGAN网络模型的判别器网络为基础,包含1个输入卷积层,5个结构为“Conv2D—BatchNorm—LeaklyReLU激活函数”的卷积模块,以及1个最终输出卷积层,其中输入卷积层采用LeaklyReLU激活函数,输出卷积层不使用激活函数。
上述条件生成模型的输入为大豆叶片图像xi,期望输出为输入的大豆叶片图像对应的叶脉图像
Figure BDA00021680101300000712
模型生成器的实际输出作为预测输出。模型生成器训练目标为:最小化模型预测输出与期望输出之间的Wasserstein距离
Figure BDA0002168010130000075
像素级差异
Figure BDA0002168010130000076
和结构信息差异
Figure BDA0002168010130000077
总的表达式为:
Figure BDA0002168010130000078
其中α为Wasserstein距离项权重系数,β为结构信息差异项权重系数,用于调节各项重要性。模型训练的具体步骤如下:
S21、从训练集数据
Figure BDA0002168010130000079
中随机采样m组大豆叶片图像和对应的叶脉图像
Figure BDA00021680101300000710
m为训练批次图像数目,取32;
S22、将大豆叶片图像输入生成器网络,得到预测的叶脉图像
Figure BDA00021680101300000711
然后根据预测输出
Figure BDA0002168010130000081
与期望输出
Figure BDA0002168010130000082
计算模型损失函数
Figure BDA0002168010130000083
Figure BDA0002168010130000084
其中,像素级差异
Figure BDA0002168010130000085
取二进制交叉熵函数,其表达式为:
Figure BDA0002168010130000086
式中,x表示模型预测输出的图像,y表示模型期望输出的叶脉图像,i表示图像像素位置索引,i的取值范围为1~w×h,w和h分别为图像长和宽像素数。
所述结构信息差异
Figure BDA0002168010130000087
定义为:通过预训练的VGG19神经网络模型提取结果图像和目标图像的高级特征后,计算特征之间的均方差。结构信息差异
Figure BDA0002168010130000088
表达式为:
Figure BDA0002168010130000089
式中,x表示模型预测输出的图像,y表示模型期望输出的叶脉图像,N为参与计算的VGG19模型提取的高层特征数,Mn为第n层输出的特征图的通道数,
Figure BDA00021680101300000820
为第n层输出的特征图的第m个通道,
Figure BDA00021680101300000821
表示
Figure BDA00021680101300000811
Figure BDA00021680101300000812
之间的欧式距离。VGG19提取的高层次特征能够包含更多的拓扑结构信息,因此
Figure BDA00021680101300000813
对图像线状的叶脉结构信息更敏感。
Wasserstein距离
Figure BDA00021680101300000814
需要通过优化判别器来实现,判别器优化过程为:
S221、运用单纯形法求下列线性规划问题,最优解即为Wasserstein距离,并得到各对偶变量的最优值H*
Figure BDA00021680101300000815
Figure BDA00021680101300000816
其中
Figure BDA00021680101300000817
为Wasserstein距离的值,m为参与计算的图像数,Hj和Hi为辅助计算Wasserstein距离的对偶变量,其中i,j是下标,分别描述的是生成的叶脉图像和给定的叶脉图像,
Figure BDA00021680101300000818
为定义的距离函数。
S222、通过判别器
Figure BDA00021680101300000822
来拟合Wasserstein距离,该回归问题中,求解迭代次数记为Nr,通常取5;针对该回归问题,以上一步求得的线性规划对偶变量最优解H*为模型的期望输出,以预测值作为模型预测输出,目标损失函数表达式如下:
Figure BDA0002168010130000091
其中m为参与计算的图像数,
Figure BDA0002168010130000092
Figure BDA0002168010130000093
由步骤S221计算得到,
Figure BDA0002168010130000099
指判别器网络,
Figure BDA0002168010130000095
Figure BDA0002168010130000096
分别指给定的叶脉图像和生成的叶脉图像。
S23、计算
Figure BDA0002168010130000097
对生成器网络参数的导数
Figure BDA0002168010130000098
然后通过梯度下降算法更新生成器参数;
S24、重复S21和S23直至生成器网络参数收敛。
上述条件生成模型优化过程中,生成器和判别器的更新算法均选用Adam优化算法,学习率设置为0.001,Adam优化算法中的参数beta=(0.5,0.999);
S3、利用上述训练好的大豆叶脉图像提取模型,得到给定大豆叶片图像对应的大豆叶脉图像,具体步骤为:
向训练好的生成器网络输入给定的大豆叶片图像,生成器的输出即为提取的叶脉图像。
应当理解的是,对本领域普通技术人员来说,可以根据本发明的原理和上述说明加以改进或变换,或将本发明所提供的方法应用到类似的图像线状目标提取任务,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种基于结构约束条件生成模型的图像线状目标提取方法,其特征在于:结合图像结构信息差异损失函数,训练具有更强的图像结构信息捕捉能力的条件生成模型,提取图像线状目标;所述方法包括以下步骤,
S1、构造训练和测试数据集,获取所需原始图像xi及其对应的线状目标图像li,得到数据集,记为
Figure FDA0003244161220000011
M为图像数目,并按照一定比例随机划分为训练集和测试集,分别记为
Figure FDA0003244161220000012
Figure FDA0003244161220000013
S2、设计结构约束条件生成模型的网络结构,并将上述训练集图像,输入结构约束条件生成模型进行训练,并利用测试集图像遴选最优的图像线状目标提取模型;
其中,结构约束条件生成模型包含两个深度卷积神经网络子模型,记为gζ
Figure FDA0003244161220000014
前者用于计算最优传输映射实现图像线状目标提取,后者用于拟合Kantorovich势计算结果图像和目标图像之间的Wasserstein距离:生成器gζ以U-Net网络为基础,包括n个结构为“二维卷积Conv2D—归一化BatchNorm—激活函数”的卷积模块和n个结构为“反卷积Deconv2D—归一化BatchNorm—激活函数”的反卷积模块;
判别器
Figure FDA0003244161220000015
以DCGAN网络模型的判别器网络为基础,包含1个输入卷积层,5个结构为“Conv2D—BatchNorm—LeaklyReLU激活函数”的卷积模块,以及1个最终输出卷积层;
所述步骤S2结构约束条件生成模型的输入为原始图像xi,期望输出为输入的原始图像对应的线状目标图像li,模型中生成器的实际输出作为预测输出,生成器训练目标为:最小化模型预测输出与期望输出之间的Wasserstein距离
Figure FDA0003244161220000016
像素级差异
Figure FDA0003244161220000017
和结构信息差异
Figure FDA0003244161220000018
总的表达式为:
Figure FDA0003244161220000019
其中α为Wasserstein距离项权重系数,β为结构信息差异项权重系数,用于调节各项重要性;
模型训练的具体步骤如下:
S21、从训练集数据
Figure FDA00032441612200000110
中随机采样m组原始图像和对应的线状目标图像
Figure FDA00032441612200000111
m为训练批次图像数目;
S22、将原始图像输入生成器网络,得到预测的线状目标图像
Figure FDA00032441612200000112
然后根据预测输出
Figure FDA00032441612200000113
与期望输出li计算模型损失函数
Figure FDA00032441612200000114
S23、计算
Figure FDA00032441612200000115
对生成器网络参数的导数
Figure FDA00032441612200000116
然后通过梯度下降算法更新生成器参数;
S24、重复S21和S23直至生成器网络参数收敛;
S3、利用上述训练好的图像线状目标提取模型,得到给定图像对应的线状目标图像。
2.如权利要求1所述的一种基于结构约束条件生成模型的图像线状目标提取方法,其特征在于:步骤S1的具体实现方式如下,
S11、根据具体应用场景,人工采集对应的原始图像xi,然后通过人工标注其对应的线状目标图像li
S12、将数据集的图像缩放至统一的恰当的分辨率,保证原始图像和线状目标图像中线状目标结构信息不受破坏的情况下,尽可能减少数据维度,便于后续模型的处理;
S13、将线状目标图像二值化,得到黑色背景、白色线条的二值图像,其中二值化操作采取阈值方法,像素值大于某一阈值δ则设置为1得到白色像素点,否则设置为0得到黑色像素点;
S14、将上述处理好的数据集
Figure FDA0003244161220000021
按照约5:1随机划分为训练集和测试集,分别记为
Figure FDA0003244161220000022
Figure FDA0003244161220000023
3.如权利要求1所述的一种基于结构约束条件生成模型的图像线状目标提取方法,其特征在于:步骤S2的生成器gζ中,除了最后一个反卷积模块激活函数采用Sigmoid函数外,其余模块均采用Tanh函数,同时,第i个卷积模块的输出同时作为第n-i个反卷积模块的输入;判别器
Figure FDA0003244161220000024
中输入卷积层采用LeaklyReLU激活函数,输出卷积层不使用激活函数。
4.如权利要求1所述的一种基于结构约束条件生成模型的图像线状目标提取方法,其特征在于:所述像素级差异
Figure FDA0003244161220000025
取二进制交叉熵函数,其表达式为:
Figure FDA0003244161220000026
式中,x表示模型预测输出的图像,y表示模型期望输出的线状目标图像,i表示图像像素位置索引,i的取值范围为1~w×h,w和h分别为图像长和宽像素数。
5.如权利要求1所述的一种基于结构约束条件生成模型的图像线状目标提取方法,其特征在于:所述结构信息差异
Figure FDA0003244161220000029
定义为:通过预训练的VGG19神经网络模型提取结果图像和目标图像的高级特征后,计算特征之间的均方差,其表达式为,
Figure FDA0003244161220000027
式中,x表示模型预测输出的图像,y表示模型期望输出的线状目标图像,N为参与计算的VGG19模型提取的高层特征数,Mn为第n层输出的特征图的通道数,
Figure FDA0003244161220000028
为第n层输出的特征图的第m个通道,
Figure FDA0003244161220000031
表示
Figure FDA0003244161220000032
Figure FDA0003244161220000033
之间的欧式距离。
6.如权利要求1所述的一种基于结构约束条件生成模型的图像线状目标提取方法,其特征在于:所述Wasserstein距离
Figure FDA0003244161220000034
通过优化判别器来实现,判别器优化过程为:
S221、运用单纯形法求下列线性规划问题,最优解即为Wasserstein距离,并得到各对偶变量的最优值H*
Figure FDA0003244161220000035
Figure FDA0003244161220000036
其中
Figure FDA0003244161220000037
为Wasserstein距离的值,m为参与计算的图像数,Hj和Hi为辅助计算Wasserstein距离的对偶变量,
Figure FDA0003244161220000038
为定义的距离函数;
S222、通过判别器
Figure FDA0003244161220000039
来拟合Wasserstein距离,该回归问题中,求解迭代次数记为Nr;针对该回归问题,以上一步求得的线性规划对偶变量最优解H*为模型的期望输出,以预测值作为模型预测输出,目标损失函数表达式如下:
Figure FDA00032441612200000310
其中m为参与计算的图像数,
Figure FDA00032441612200000311
Figure FDA00032441612200000312
由步骤S221计算得到,
Figure FDA00032441612200000313
指判别器网络,lj
Figure FDA00032441612200000314
分别指给定的叶脉图像和生成的叶脉图像。
7.如权利要求4所述的一种基于结构约束条件生成模型的图像线状目标提取方法,其特征在于:所述条件生成模型中,生成器和判别器的更新算法均选用Adam优化算法,学习率设置为0.001,Adam优化算法中的参数beta=(0.5,0.999)。
CN201910753540.XA 2019-08-15 2019-08-15 一种基于结构约束条件生成模型的图像线状目标提取方法 Active CN110570443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910753540.XA CN110570443B (zh) 2019-08-15 2019-08-15 一种基于结构约束条件生成模型的图像线状目标提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753540.XA CN110570443B (zh) 2019-08-15 2019-08-15 一种基于结构约束条件生成模型的图像线状目标提取方法

Publications (2)

Publication Number Publication Date
CN110570443A CN110570443A (zh) 2019-12-13
CN110570443B true CN110570443B (zh) 2021-12-17

Family

ID=68775496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753540.XA Active CN110570443B (zh) 2019-08-15 2019-08-15 一种基于结构约束条件生成模型的图像线状目标提取方法

Country Status (1)

Country Link
CN (1) CN110570443B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161250B (zh) * 2019-12-31 2023-05-26 南遥科技(广东)有限公司 一种多尺度遥感图像密集房屋检测方法及装置
CN111640057B (zh) * 2020-05-25 2022-04-15 武汉理工大学 基于隐藏变量解耦的人脸图像局部特征迁移网络及方法
CN111753903B (zh) * 2020-06-24 2022-07-12 武汉理工大学 一种基于叶脉拓扑特征的大豆品种识别方法
CN113744291B (zh) * 2021-09-01 2023-07-04 江苏徐工工程机械研究院有限公司 一种基于深度学习的矿山落石检测方法和装置
CN114140688B (zh) * 2021-11-23 2022-12-09 武汉理工大学 基于透射扫描图像的叶脉表型提取方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208088A (zh) * 2013-03-21 2013-07-17 国家电网公司 考虑风电出力不确定性的节能发电调度的决策风险计算机评价方法
CN109146868A (zh) * 2018-08-27 2019-01-04 北京青燕祥云科技有限公司 3d肺结节生成方法、装置及电子设备
CN109191402A (zh) * 2018-09-03 2019-01-11 武汉大学 基于对抗生成神经网络的图像修复方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10971142B2 (en) * 2017-10-27 2021-04-06 Baidu Usa Llc Systems and methods for robust speech recognition using generative adversarial networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103208088A (zh) * 2013-03-21 2013-07-17 国家电网公司 考虑风电出力不确定性的节能发电调度的决策风险计算机评价方法
CN109146868A (zh) * 2018-08-27 2019-01-04 北京青燕祥云科技有限公司 3d肺结节生成方法、装置及电子设备
CN109191402A (zh) * 2018-09-03 2019-01-11 武汉大学 基于对抗生成神经网络的图像修复方法和***

Also Published As

Publication number Publication date
CN110570443A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN110570443B (zh) 一种基于结构约束条件生成模型的图像线状目标提取方法
CN108009520B (zh) 基于卷积变分自编码器网络的手指静脉识别方法及***
CN110458844B (zh) 一种低光照场景的语义分割方法
Rao et al. Selfie video based continuous Indian sign language recognition system
CN107679491B (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN108921019B (zh) 一种基于GEI和TripletLoss-DenseNet的步态识别方法
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN108764041B (zh) 用于下部遮挡人脸图像的人脸识别方法
JP7130905B2 (ja) フィードフォワード畳み込みニューラルネットワークを使用した高速且つ堅牢な皮膚紋理の印のマニューシャの抽出
US11587341B2 (en) Method of detecting at least one element of interest visible in an input image by means of a convolutional neural network
CN110598692B (zh) 一种基于深度学习的椭圆识别方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN103927531A (zh) 一种基于局部二值和粒子群优化bp神经网络的人脸识别方法
CN111950408B (zh) 基于规则图的手指静脉图像识别方法、装置及存储介质
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
CN111062410B (zh) 基于深度学习的星型信息桥气象预测方法
Choudhary et al. Signature Recognition & Verification System Using Back Propagation Neural Network
CN104077742B (zh) 基于Gabor特征的人脸素描合成方法及***
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN110674824A (zh) 基于R2U-Net的手指静脉分割方法、装置和存储介质
CN110956082A (zh) 基于深度学习的人脸关键点检测方法和检测***
CN110880010A (zh) 基于卷积神经网络的视觉slam闭环检测算法
CN111914762A (zh) 基于步态信息的身份识别方法及装置
CN114882537B (zh) 一种基于神经辐射场的手指新视角图像生成方法
CN111382601A (zh) 生成对抗网络模型的光照人脸图像识别预处理***及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221111

Address after: 430070 Hubei Province, Wuhan city Hongshan District Luoshi Road No. 122

Patentee after: WUHAN University OF TECHNOLOGY

Address before: 430070 Hubei Province, Wuhan city Hongshan District Luoshi Road No. 122

Patentee before: WUHAN University OF TECHNOLOGY

Patentee before: WUHAN SHUIXIANG ELECTRONIC TECHNOLOGY Co.,Ltd.