CN115240201B - 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法 - Google Patents

利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法 Download PDF

Info

Publication number
CN115240201B
CN115240201B CN202211146858.XA CN202211146858A CN115240201B CN 115240201 B CN115240201 B CN 115240201B CN 202211146858 A CN202211146858 A CN 202211146858A CN 115240201 B CN115240201 B CN 115240201B
Authority
CN
China
Prior art keywords
image
source domain
skeleton
style
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211146858.XA
Other languages
English (en)
Other versions
CN115240201A (zh
Inventor
曾锦山
周杰
徐瑞英
程诺
黄箐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202211146858.XA priority Critical patent/CN115240201B/zh
Publication of CN115240201A publication Critical patent/CN115240201A/zh
Application granted granted Critical
Publication of CN115240201B publication Critical patent/CN115240201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/141Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明公开了利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法,包括下列步骤:步骤一、从源域图像中提取对应骨架图像,源域图像和相应的骨架图像拼接在一起输入生成器中生成目标风格的图像,并将放入判别器中判别图片的真假;步骤二、从目标风格的图像中提取相应的骨架图像,并将提取的骨架图像和目标风格的图像拼接,拼接结果输入另一个生成器生成源域风格的图像,并将源域风格的图像放入另一判别器判别;步骤三、从生成器重建生成的图像中提取骨架图像,对提取的骨架图像和步骤一中提取的源域风格的骨架图像计算像素级损失,像素级损失作为网络梯度回传的一部分,并用于在训练中优化模型。

Description

利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法
技术领域
本发明属于计算机视觉技术领域,具体涉及利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法。
背景技术
汉字生成是一项非常艰巨的任务,汉字字形本身非常复杂,且常用汉字数量庞大,字库生成时间长。在早期,相关技术人员首先提取汉字的一些显性特征,如笔画、偏旁等,然后利用一些传统的机器学习方法来生成新的汉字。而良好的前期特征提取对这类方法的效果影响非常大,而且这种前期特征的提取通常是手工制作的,非常的费时费力。
近年来的一些方法通过引入配对数据集来增强网络的有效性,但是在现实生活中,配对数据集是很难获得的,特别是在古迹修复,手写字的生成上,数据集都是有限的,使用当下的一些配对数据集的方法,很难使用不多的配对数据集训练出一个鲁棒的模型。而且制作配对数据集是人工通过对给定的数据集进行手动划分的,这需要耗费非常庞大的人力和物力。为了解决汉字生成过程中配对数据获取困难的问题,一些现有技术在这方面也进行了一定程度上的探索,但是这些方法严重依赖额外的训练步骤,或者加入一些其他额外的标签。而对于神经网络来说,多余的训练步骤会增加训练的成本,额外的标签又是需要人工进行制作的,需要耗费较多精力。而且当下使用的无配对模型会存在一个通病,即模式崩溃问题。
有部分方法开始关注到了模式崩溃问题,并且试图从几个角度来缓解汉字生成过程中的模式崩溃问题,比如名称为“通过笔画编码减少中文字体生成中的模式崩溃”的AAAI会议记录,提出使用加入one-hot笔画编码的形式,但是这个方法对于提取的笔画信息,只能判断这个字体中是否存在某个笔画,没有考虑到笔画和整体汉字之间的关系。例如生成‘已’和‘巳’这两个字在这个方法上是无法区分开的,因为这两个字的笔画完全一样。还有一个例子是‘王’,‘工’这两个字在这个方法上也是无法区分的,因为组成他们的基础笔画是一样的。还有些技术,如论文“基于方块变换的自监督中文字体生成”中提出,考虑将汉字切分成为四个部分,让网络学习到四部分之间的空间结构信息。但是这个方法学习的空间结构信息非常浅显的,并且对于笔画细节部分没有进行约束。
发明内容
本发明的目的是提供利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法,用于解决现有技术中存在网络生成过程中的模式崩溃的技术问题,同时保证该汉字生成方法的快捷和低成本。
所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法,包括下列步骤:
步骤一、从源域图像
Figure 69661DEST_PATH_IMAGE001
中提取对应的源域骨架图像
Figure 635771DEST_PATH_IMAGE002
,源域图像
Figure 78385DEST_PATH_IMAGE001
和相应的源域骨架 图像
Figure 314325DEST_PATH_IMAGE002
拼接在一起输入生成器
Figure 701444DEST_PATH_IMAGE003
中生成目标风格图像
Figure 681033DEST_PATH_IMAGE004
,并将目标风格图像
Figure 712574DEST_PATH_IMAGE004
放入判别器
Figure 509629DEST_PATH_IMAGE005
中判别目标风格图像
Figure 993831DEST_PATH_IMAGE004
的真假;
步骤二、从目标风格图像
Figure 777110DEST_PATH_IMAGE004
中提取相应的目标风格骨架图像
Figure 787791DEST_PATH_IMAGE006
,并将提取的目标 风格骨架图像
Figure 896693DEST_PATH_IMAGE006
和目标风格图像
Figure 602612DEST_PATH_IMAGE004
拼接,拼接结果输入另一个生成器
Figure 314216DEST_PATH_IMAGE007
生成源域风格图像
Figure 320349DEST_PATH_IMAGE008
,并将源域风格图像
Figure 334573DEST_PATH_IMAGE008
放入另一判别器
Figure 918001DEST_PATH_IMAGE009
判别;
步骤三、从生成器
Figure 777503DEST_PATH_IMAGE007
重建生成的源域风格图像
Figure 903722DEST_PATH_IMAGE008
中提取源域风格骨架图像
Figure 213481DEST_PATH_IMAGE010
,对提 取的源域风格骨架图像
Figure 159571DEST_PATH_IMAGE010
和步骤一中提取的源域骨架图像
Figure 822765DEST_PATH_IMAGE002
计算像素级损失,像素级损失 作为网络梯度回传的一部分,并用于在训练中优化模型。
优选的,所述步骤一中,源域图像
Figure 662545DEST_PATH_IMAGE001
为RGB三通道图像,各个骨架图像为单通道的灰 度图像,具体拼接操作是将源域图像
Figure 284150DEST_PATH_IMAGE001
的RGB三通道,拼接上提取出的源域骨架图像
Figure 186379DEST_PATH_IMAGE002
的灰 度单通道,最后组合成为一个四通道的信息放入网络中的生成器
Figure 43476DEST_PATH_IMAGE003
,生成RGB三通道的目标 风格图像
Figure 878708DEST_PATH_IMAGE004
优选的,所述步骤二中,将目标风格图像
Figure 405635DEST_PATH_IMAGE004
的RGB三通道,拼接上提取出的目标风格 骨架图像
Figure 450952DEST_PATH_IMAGE006
的灰度单通道,最后组合成为一个四通道的信息放入网络中的生成器
Figure 455948DEST_PATH_IMAGE007
,生成 RGB三通道的源域风格图像
Figure 145687DEST_PATH_IMAGE008
优选的,所述步骤三中,通过计算源域图像的骨架和重构生成的源域风格图像的 骨架之间的误差值作为网络梯度回传的一部分,用于在训练中优化模型,网络梯度回传的 所述误差值即所述像素级损失,优化后所述像素级损失小于设定的损失阈值,即表明重建 生成的源域风格图像
Figure 233728DEST_PATH_IMAGE011
在骨架层面也与步骤一中的源域图像
Figure 110549DEST_PATH_IMAGE012
相似。
优选的,本方法所用的循环生成网络包括骨架提取整合模块、重构生成字体模块、两个生成器、两个判别器和计算骨架损失模块。
优选的,骨架提取整合模块,用于将输入的源域图像提取为源域骨架图像,并将提 取的源域骨架图像和源域图像在通道维度上进行拼接,组合成为一个四通道的信息放入网 络中的生成器
Figure 184815DEST_PATH_IMAGE003
生成目标风格图像。
优选的,重构生成字体模块,用于对生成器
Figure 588114DEST_PATH_IMAGE003
生成的目标风格图像提取其对应的目 标风格骨架图像,将生成的目标风格图像和目标风格骨架图像拼接,然后将生成的四通道 的信息传入生成器
Figure 988003DEST_PATH_IMAGE007
中重构生成源域风格图像。
优选的,两个生成器分别为生成源域风格图像的生成器
Figure 352119DEST_PATH_IMAGE007
和生成目标风格图像的 生成器
Figure 89131DEST_PATH_IMAGE003
,两个生成器的输入为拼接生成的四通道图像,经过一系列的卷积层,两个生成器 的输出为三通道的图像。
优选的,两个判别器模块,作用是判定输入的图像是真实图像还是网络生成的虚假图像,判别器和生成器之间存在矛盾的关系,互相优化双方的能力。
优选的,计算骨架损失模块,通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分,并用于在训练中优化模型。
本发明具有以下优点:1.本发明利用骨架的空间结构信息可以缓解网络生成过程中的模式崩溃问题,骨架信息相比于笔画信息和切分出来的局部空间信息能够提供更加全面的整体信息,还能约束网络在笔画细节上的生成效果。2.本发明使用CycleGAN网络,利用循环生成的想法,解决配对数据集的问题。3.本发明使用自动提取骨架算法提取骨架信息,不需要人工提取特征,解决人工提取特征的问题。4.本发明便于提取的骨架信息,可以很容易得生成一套汉字字体,解决汉字生成成本过高的问题。5. 本方法还可以容易的拓展到其他网路模型上,具有较强的普适性。
附图说明
图1为本发明基于利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法的流程示意图。
图2为本发明中骨架提取整合模块的示意图。
图3为本发明中重构生成字体模块的示意图。
图4为本发明中计算骨架损失模块的示意图。
图5为各模型生成字体的效果图。
图6为在Attention GAN应用本发明的方法和未应用本发明的方法的字体生成效果图。
图7为在FUNIT应用本发明的方法和未应用本发明的方法的字体生成效果图。
图8为在SQ-GAN应用本发明的方法和未应用本发明的方法的字体生成效果图。
图9为在StrokeGAN应用本发明的方法和未应用本发明的方法的字体生成效果图。
图10为在UGATIT应用本发明的方法和未应用本发明的方法的字体生成效果图。
附图中的Attention GAN、FUNIT、SQ-GAN、StrokeGAN、UGATIT均为相应模型的英文简称。
具体实施方式
下面对照附图,通过对实施例的描述,对本发明具体实施方式作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和伸入的理解。
实施例一:
如图1-4所示,本发明提供了利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法,包括下列步骤。
步骤一、从源域图像
Figure 776899DEST_PATH_IMAGE001
中提取对应源域骨架图像
Figure 82110DEST_PATH_IMAGE002
,源域图像
Figure 58156DEST_PATH_IMAGE001
和相应的源域骨架 图像
Figure 208646DEST_PATH_IMAGE002
拼接在一起输入生成器
Figure 993062DEST_PATH_IMAGE003
中生成目标风格图像
Figure 938016DEST_PATH_IMAGE004
,并将目标风格图像
Figure 666937DEST_PATH_IMAGE004
放入判别器
Figure 621118DEST_PATH_IMAGE005
中判别目标风格图像
Figure 119095DEST_PATH_IMAGE004
的真假。
源域图像
Figure 766108DEST_PATH_IMAGE001
为RGB三通道图像,各个骨架图像为单通道的灰度图像,具体拼接操作 是将源域图像
Figure 592113DEST_PATH_IMAGE001
的RGB三通道,拼接上提取出的源域骨架图像
Figure 474618DEST_PATH_IMAGE002
的灰度单通道,最后组合成 为一个四通道的信息放入网络中的生成器
Figure 968048DEST_PATH_IMAGE003
,生成目标风格图像
Figure 785962DEST_PATH_IMAGE004
,一个RGB三通道的图像。
步骤二、按照循环生成网络的思路,从目标风格图像
Figure 223897DEST_PATH_IMAGE004
中提取相应的目标风格骨 架图像
Figure 254301DEST_PATH_IMAGE006
,并将提取的目标风格骨架图像
Figure 867816DEST_PATH_IMAGE006
和目标风格图像
Figure 715686DEST_PATH_IMAGE004
拼接,拼接结果输入另一个生 成器
Figure 250704DEST_PATH_IMAGE007
生成源域风格图像
Figure 350378DEST_PATH_IMAGE008
,并将源域风格图像
Figure 818400DEST_PATH_IMAGE008
放入另一判别器
Figure 102750DEST_PATH_IMAGE009
判别。
拼接操作与步骤一类似,将目标风格图像
Figure 125064DEST_PATH_IMAGE004
的RGB三通道,拼接上提取出的目标风 格骨架图像
Figure 887484DEST_PATH_IMAGE006
的灰度单通道,最后组合成为一个四通道的信息放入网络中的生成器
Figure 210012DEST_PATH_IMAGE007
,生成 源域风格图像
Figure 540630DEST_PATH_IMAGE008
,同样是RGB三通道的图像。
步骤三、从生成器
Figure 440453DEST_PATH_IMAGE007
重建生成的源域风格图像
Figure 616351DEST_PATH_IMAGE008
中提取源域风格骨架图像
Figure 793385DEST_PATH_IMAGE010
,对提 取的源域风格骨架图像
Figure 419539DEST_PATH_IMAGE010
和步骤一中提取的源域骨架图像
Figure 416445DEST_PATH_IMAGE002
计算像素级损失,以确保优化 后重建生成的源域风格图像
Figure 396033DEST_PATH_IMAGE008
在骨架层面也与步骤一中的源域图像
Figure 552208DEST_PATH_IMAGE001
相似。优化后所述像素 级损失小于设定的损失阈值,即表明重建生成的源域风格图像
Figure 490208DEST_PATH_IMAGE011
在骨架层面也与步骤一中 的源域图像
Figure 708831DEST_PATH_IMAGE012
相似。该步骤通过计算源域图像的骨架和重构生成的源域风格图像的骨架之 间的误差值作为网络梯度回传的一部分,并用于在训练中优化模型。
我们网络采用循环生成网络,目的是通过循环生成网络可以实现自监督,不需要使用配对数据集。通过使用X->Y->X的过程,实现网络的伪配对,从而可以在大量的未配对数据集上进行训练。在现实生活中能够采集到的目标字体数据大都和进行转换的字体是不配对的,如古迹修复、手写字的生成。现有的需要配对的数据集方法都无法直接利用这些数据集,需要进行大量的数据预处理操作,我们的方法通过应用循环生成的想法从而实现对模型使用未配对数据集进行训练。
本方法所用的循环生成网络包括骨架提取整合模块、重构生成字体模块、两个生成器、两个判别器和计算骨架损失模块。各模块功能及具体实现方式如下。
骨架提取整合模块,用于将输入的源域图像提取为源域骨架图像,并将提取的源 域骨架图像和源域图像在通道维度上进行拼接。骨架图像为灰度单通道图像,具体拼接操 作是将源域图像的RGB三通道,拼接上提取的源域骨架图像的单通道,最后组合成为一个四 通道的信息放入网络中的生成器
Figure 882323DEST_PATH_IMAGE003
生成目标风格图像。
重构生成字体模块,用于对生成器
Figure 33950DEST_PATH_IMAGE003
生成的目标风格图像提取其对应的目标风格 骨架图像。将生成的目标风格图像和目标风格骨架图像采用和之前骨架提取整合模块相同 的拼接方法拼接,在生成的目标风格图像的RGB通道上拼接上目标风格骨架图像的单通道, 形成四通道的信息,然后将这四通道的信息传入生成器
Figure 877272DEST_PATH_IMAGE007
中重构生成源域风格图像。
两个生成器分别为生成源域风格图像的生成器
Figure 973404DEST_PATH_IMAGE007
和生成目标风格图像的生成器
Figure 29216DEST_PATH_IMAGE003
,对于两个生成器我们传入网络的都是四通道图像,也就是上面骨架提取模块获得的四通 道信息,网络经过一系列的卷积层,得到一个三通道的图像。
两个判别器模块,作用是判定输入的图像是真实图像还是网络生成的虚假图像, 分别为鉴别源域风格图像真假的判别器
Figure 300929DEST_PATH_IMAGE009
和鉴别目标风格图像真假的判别器
Figure 439786DEST_PATH_IMAGE005
判别器和生成器之间存在矛盾的关系,可以互相优化双方的能力,生成器一边希望生成的图像能够欺骗判别器,判别器希望能够正确的对传入的图像判定是真实还是虚假的。
计算骨架损失模块,通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分,并用于在训练中优化模型。本方法采用循环生成网络并使用非配对关系的数据集训练,那么数据集中也就不存在一一对应的图像对。而在训练网络的时候需要进行梯度的回传,因此要求网络能够计算出一个损失值供给网络进行梯度回传。
图5表现各类型模型生成字体的效果。以下是本方法方法应用到其他模型上的效果(SK,代表使用了我们的方法)。
图6表示在Attention GAN应用我们的方法,对其输入扩充为四通道信息,网络其余部分保持不变。可以发现我们的方法应用在Attention GAN上具有较大的提升。
图7表示在FUNIT应用我们的方法,这个方法是对内容和风格进行了分解,我们将我们的骨架信息拓展到他的内容模块上,发现可以较好的提升模型的生成效果。
图8表示在SQ-GAN应用我们的方法,对其输入扩充为四通道信息,网络其余部分保持不变。可以发现我们的方法应用在SQ-GAN上具有较大的提升。
图9表示在StrokeGAN应用我们的方法,对其输入扩充为四通道信息,网络其余部分保持不变。可以发现我们的方法应用在StrokeGAN上具有较大的提升。
图10表示在UGATIT应用我们的方法,对其输入扩充为四通道信息,网络其余部分保持不变。可以发现我们的方法应用在UGATI上具有较大的提升。
本方法设置计算骨架损失模块计算骨架图像之间的像素级损失,这不仅能优化本方法采用的生成器,并能够利用骨架的空间结构信息可以缓解网络生成过程中的模式崩溃问题,骨架信息相比于笔画信息和切分出来的局部空间信息能够提供更加全面的整体信息,还能约束网络在笔画细节上的生成效果。
上面结合附图对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进,或未经改进将本发明构思和技术方案直接应用于其它场合的,均在本发明保护范围之内。

Claims (8)

1.利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法,其特征在于:包括下列步骤:
步骤一、从源域图像
Figure DEST_PATH_IMAGE001
中提取对应的源域骨架图像
Figure DEST_PATH_IMAGE002
,源域图像
Figure 733532DEST_PATH_IMAGE001
和相应的源域骨架图 像
Figure 181831DEST_PATH_IMAGE002
拼接在一起输入生成器
Figure DEST_PATH_IMAGE003
中生成目标风格图像
Figure DEST_PATH_IMAGE004
,并将目标风格图像
Figure 289464DEST_PATH_IMAGE004
放入判别器
Figure DEST_PATH_IMAGE005
中 判别目标风格图像
Figure 481411DEST_PATH_IMAGE004
的真假;
所述步骤一中,源域图像
Figure 826942DEST_PATH_IMAGE001
为RGB三通道图像,各个骨架图像为单通道的灰度图像,具体 拼接操作是将源域图像
Figure 183493DEST_PATH_IMAGE001
的RGB三通道,拼接上提取出的源域骨架图像
Figure 981684DEST_PATH_IMAGE002
的灰度单通道, 最后组合成为一个四通道的信息放入网络中的生成器
Figure 446164DEST_PATH_IMAGE003
,生成RGB三通道的目标风格图像
Figure 646201DEST_PATH_IMAGE004
步骤二、从目标风格图像
Figure 170723DEST_PATH_IMAGE004
中提取相应的目标风格骨架图像
Figure DEST_PATH_IMAGE006
,并将提取的目标风格骨 架图像
Figure 721790DEST_PATH_IMAGE006
和目标风格图像
Figure 989960DEST_PATH_IMAGE004
拼接,拼接结果输入另一个生成器
Figure DEST_PATH_IMAGE007
生成源域风格图像
Figure DEST_PATH_IMAGE008
,并 将源域风格图像
Figure 841242DEST_PATH_IMAGE008
放入另一判别器
Figure DEST_PATH_IMAGE009
判别;
所述步骤二中,将目标风格图像
Figure 333403DEST_PATH_IMAGE004
的RGB三通道,拼接上提取出的目标风格骨架图像
Figure 106187DEST_PATH_IMAGE006
的灰度单通道,最后组合成为一个四通道的信息放入网络中的生成器
Figure 646890DEST_PATH_IMAGE007
,生成RGB三通道的 源域风格图像
Figure 821519DEST_PATH_IMAGE008
步骤三、从生成器
Figure 687844DEST_PATH_IMAGE007
重建生成的源域风格图像
Figure 682345DEST_PATH_IMAGE008
中提取源域风格骨架图像
Figure DEST_PATH_IMAGE010
,对提取 的源域风格骨架图像
Figure 843984DEST_PATH_IMAGE010
和步骤一中提取的源域骨架图像
Figure 873120DEST_PATH_IMAGE002
计算像素级损失,像素级损失作 为网络梯度回传的一部分,并用于在训练中优化模型。
2.根据权利要求1所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法, 其特征在于:所述步骤三中,通过计算源域图像的骨架和重构生成的源域风格图像的骨架 之间的误差值作为网络梯度回传的一部分,用于在训练中优化模型,网络梯度回传的所述 误差值即所述像素级损失,优化后所述像素级损失小于设定的损失阈值,即表明重建生成 的源域风格图像
Figure 910346DEST_PATH_IMAGE008
在骨架层面也与步骤一中的源域图像
Figure 392143DEST_PATH_IMAGE001
相似。
3.根据权利要求1-2中任一所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法,其特征在于:本方法所用的循环生成网络包括骨架提取整合模块、重构生成字体模块、两个生成器、两个判别器和计算骨架损失模块。
4.根据权利要求3所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法, 其特征在于:骨架提取整合模块,用于将输入的源域图像提取为源域骨架图像,并将提取的 源域骨架图像和源域图像在通道维度上进行拼接,组合成为一个四通道的信息放入网络中 的生成器
Figure 805807DEST_PATH_IMAGE003
生成目标风格图像。
5.根据权利要求3所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法, 其特征在于:重构生成字体模块,用于对生成器
Figure 689449DEST_PATH_IMAGE003
生成的目标风格图像提取其对应的目标 风格骨架图像,将生成的目标风格图像和目标风格骨架图像拼接,然后将生成的四通道的 信息传入生成器
Figure 897576DEST_PATH_IMAGE007
中重构生成源域风格图像。
6.根据权利要求3所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法, 其特征在于:两个生成器分别为生成源域风格图像的生成器
Figure 866669DEST_PATH_IMAGE007
和生成目标风格图像的生成 器
Figure 818445DEST_PATH_IMAGE003
,两个生成器的输入为拼接生成的四通道图像,经过一系列的卷积层,两个生成器的输 出为三通道的图像。
7.根据权利要求6所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法,其特征在于:两个判别器模块,作用是判定输入的图像是真实图像还是网络生成的虚假图像,判别器和生成器之间存在矛盾的关系,互相优化双方的能力。
8.根据权利要求3所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法,其特征在于:计算骨架损失模块,通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分,并用于在训练中优化模型。
CN202211146858.XA 2022-09-21 2022-09-21 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法 Active CN115240201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211146858.XA CN115240201B (zh) 2022-09-21 2022-09-21 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211146858.XA CN115240201B (zh) 2022-09-21 2022-09-21 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法

Publications (2)

Publication Number Publication Date
CN115240201A CN115240201A (zh) 2022-10-25
CN115240201B true CN115240201B (zh) 2022-12-23

Family

ID=83682194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211146858.XA Active CN115240201B (zh) 2022-09-21 2022-09-21 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法

Country Status (1)

Country Link
CN (1) CN115240201B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129207B (zh) * 2023-04-18 2023-08-04 江西师范大学 一种多尺度通道注意力的图像数据处理方法
CN117078921B (zh) * 2023-10-16 2024-01-23 江西师范大学 一种基于多尺度边缘信息的自监督小样本汉字生成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109408776A (zh) * 2018-10-09 2019-03-01 西华大学 一种基于生成式对抗网络的书法字体自动生成算法
CN110033054B (zh) * 2019-03-14 2021-05-25 上海交通大学 基于协同笔画优化的个性化手写体迁移方法和***
CN111859852A (zh) * 2019-04-26 2020-10-30 普天信息技术有限公司 一种汉字风格迁移模型的训练装置和方法
CN112036137A (zh) * 2020-08-27 2020-12-04 哈尔滨工业大学(深圳) 一种基于深度学习的多风格书法数字墨水仿真方法和***
CN113657397B (zh) * 2021-08-17 2023-07-11 北京百度网讯科技有限公司 循环生成网络模型的训练方法、建立字库的方法和装置
CN114742714A (zh) * 2021-10-29 2022-07-12 天津大学 一种基于骨架提取及对抗学习的汉字图像修复算法

Also Published As

Publication number Publication date
CN115240201A (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
CN115240201B (zh) 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及***
CN110033054B (zh) 基于协同笔画优化的个性化手写体迁移方法和***
CN109255826B (zh) 中文训练图像生成方法、装置、计算机设备及存储介质
CN114118012B (zh) 一种基于CycleGAN的个性字体生成方法
CN110046116B (zh) 一种张量填充方法、装置、设备及存储介质
CN115131560A (zh) 基于全局特征学习和局部特征判别聚合的点云分割方法
CN117058266B (zh) 一种基于骨架和轮廓的书法字生成方法
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习***及方法
CN114972847A (zh) 图像处理方法及装置
CN112037239A (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN115908639A (zh) 基于transformer的场景图像文字修改方法、装置、电子设备及存储介质
CN114529785A (zh) 模型的训练方法、视频生成方法和装置、设备、介质
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer
CN114529450B (zh) 基于改进深度迭代协作网络的人脸图像超分辨方法
US11734389B2 (en) Method for generating human-computer interactive abstract image
EP4012668A2 (en) Training method for character generation model, character generation method, apparatus and device
CN113052759B (zh) 基于mask和自动编码器的场景复杂文本图像编辑方法
CN114332491A (zh) 一种基于特征重构的显著性目标检测算法
CN113065407A (zh) 基于注意力机制和生成对抗网络的财务票据***擦除方法
CN116109823B (zh) 数据处理方法、装置、电子设备、存储介质和程序产品
CN118115819B (zh) 一种基于深度学习的图表图像数据识别方法及***
CN111898456B (zh) 基于多层次注意力机制的文本修改图片网络模型训练方法
CN116311275B (zh) 一种基于seq2seq语言模型的文字识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zeng Jinshan

Inventor after: Zhou Jie

Inventor after: Xu Ruiying

Inventor after: Cheng Nuo

Inventor after: Huang Jing

Inventor before: Zeng Jinshan

Inventor before: Zhou Jie

Inventor before: Xu Ruiying

Inventor before: Cheng Nuo

Inventor before: Huang Jing

GR01 Patent grant
GR01 Patent grant