CN115240201B

CN115240201B - 利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法

Info

Publication number: CN115240201B
Application number: CN202211146858.XA
Authority: CN
Inventors: 曾锦山; 周杰; 徐瑞英; 程诺; 黄箐
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-23
Anticipated expiration: 2042-09-21
Also published as: CN115240201A

Abstract

本发明公开了利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，包括下列步骤：步骤一、从源域图像中提取对应骨架图像，源域图像和相应的骨架图像拼接在一起输入生成器中生成目标风格的图像，并将放入判别器中判别图片的真假；步骤二、从目标风格的图像中提取相应的骨架图像，并将提取的骨架图像和目标风格的图像拼接，拼接结果输入另一个生成器生成源域风格的图像，并将源域风格的图像放入另一判别器判别；步骤三、从生成器重建生成的图像中提取骨架图像，对提取的骨架图像和步骤一中提取的源域风格的骨架图像计算像素级损失，像素级损失作为网络梯度回传的一部分，并用于在训练中优化模型。

Description

利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法

技术领域

本发明属于计算机视觉技术领域，具体涉及利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法。

背景技术

汉字生成是一项非常艰巨的任务，汉字字形本身非常复杂，且常用汉字数量庞大，字库生成时间长。在早期，相关技术人员首先提取汉字的一些显性特征，如笔画、偏旁等，然后利用一些传统的机器学习方法来生成新的汉字。而良好的前期特征提取对这类方法的效果影响非常大，而且这种前期特征的提取通常是手工制作的，非常的费时费力。

近年来的一些方法通过引入配对数据集来增强网络的有效性，但是在现实生活中，配对数据集是很难获得的，特别是在古迹修复，手写字的生成上，数据集都是有限的，使用当下的一些配对数据集的方法，很难使用不多的配对数据集训练出一个鲁棒的模型。而且制作配对数据集是人工通过对给定的数据集进行手动划分的，这需要耗费非常庞大的人力和物力。为了解决汉字生成过程中配对数据获取困难的问题，一些现有技术在这方面也进行了一定程度上的探索，但是这些方法严重依赖额外的训练步骤，或者加入一些其他额外的标签。而对于神经网络来说，多余的训练步骤会增加训练的成本，额外的标签又是需要人工进行制作的，需要耗费较多精力。而且当下使用的无配对模型会存在一个通病，即模式崩溃问题。

有部分方法开始关注到了模式崩溃问题，并且试图从几个角度来缓解汉字生成过程中的模式崩溃问题，比如名称为“通过笔画编码减少中文字体生成中的模式崩溃”的AAAI会议记录，提出使用加入one-hot笔画编码的形式，但是这个方法对于提取的笔画信息，只能判断这个字体中是否存在某个笔画，没有考虑到笔画和整体汉字之间的关系。例如生成‘已’和‘巳’这两个字在这个方法上是无法区分开的，因为这两个字的笔画完全一样。还有一个例子是‘王’，‘工’这两个字在这个方法上也是无法区分的，因为组成他们的基础笔画是一样的。还有些技术，如论文“基于方块变换的自监督中文字体生成”中提出，考虑将汉字切分成为四个部分，让网络学习到四部分之间的空间结构信息。但是这个方法学习的空间结构信息非常浅显的，并且对于笔画细节部分没有进行约束。

发明内容

本发明的目的是提供利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，用于解决现有技术中存在网络生成过程中的模式崩溃的技术问题，同时保证该汉字生成方法的快捷和低成本。

所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，包括下列步骤：

步骤一、从源域图像

中提取对应的源域骨架图像

，源域图像

和相应的源域骨架图像

拼接在一起输入生成器

中生成目标风格图像

，并将目标风格图像

放入判别器

中判别目标风格图像

的真假；

步骤二、从目标风格图像

中提取相应的目标风格骨架图像

，并将提取的目标风格骨架图像

和目标风格图像

拼接，拼接结果输入另一个生成器

生成源域风格图像

，并将源域风格图像

放入另一判别器

判别；

步骤三、从生成器

重建生成的源域风格图像

中提取源域风格骨架图像

，对提取的源域风格骨架图像

和步骤一中提取的源域骨架图像

计算像素级损失，像素级损失作为网络梯度回传的一部分，并用于在训练中优化模型。

优选的，所述步骤一中，源域图像

为RGB三通道图像，各个骨架图像为单通道的灰度图像，具体拼接操作是将源域图像

的RGB三通道，拼接上提取出的源域骨架图像

的灰度单通道，最后组合成为一个四通道的信息放入网络中的生成器

，生成RGB三通道的目标风格图像

。

优选的，所述步骤二中，将目标风格图像

的RGB三通道，拼接上提取出的目标风格骨架图像

，生成 RGB三通道的源域风格图像

。

优选的，所述步骤三中，通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分，用于在训练中优化模型，网络梯度回传的所述误差值即所述像素级损失，优化后所述像素级损失小于设定的损失阈值，即表明重建生成的源域风格图像

在骨架层面也与步骤一中的源域图像

相似。

优选的，本方法所用的循环生成网络包括骨架提取整合模块、重构生成字体模块、两个生成器、两个判别器和计算骨架损失模块。

优选的，骨架提取整合模块，用于将输入的源域图像提取为源域骨架图像，并将提取的源域骨架图像和源域图像在通道维度上进行拼接，组合成为一个四通道的信息放入网络中的生成器

生成目标风格图像。

优选的，重构生成字体模块，用于对生成器

生成的目标风格图像提取其对应的目标风格骨架图像，将生成的目标风格图像和目标风格骨架图像拼接，然后将生成的四通道的信息传入生成器

中重构生成源域风格图像。

优选的，两个生成器分别为生成源域风格图像的生成器

和生成目标风格图像的生成器

，两个生成器的输入为拼接生成的四通道图像，经过一系列的卷积层，两个生成器的输出为三通道的图像。

优选的，两个判别器模块，作用是判定输入的图像是真实图像还是网络生成的虚假图像，判别器和生成器之间存在矛盾的关系，互相优化双方的能力。

优选的，计算骨架损失模块，通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分，并用于在训练中优化模型。

本发明具有以下优点：1.本发明利用骨架的空间结构信息可以缓解网络生成过程中的模式崩溃问题，骨架信息相比于笔画信息和切分出来的局部空间信息能够提供更加全面的整体信息，还能约束网络在笔画细节上的生成效果。2.本发明使用CycleGAN网络，利用循环生成的想法，解决配对数据集的问题。3.本发明使用自动提取骨架算法提取骨架信息，不需要人工提取特征，解决人工提取特征的问题。4.本发明便于提取的骨架信息，可以很容易得生成一套汉字字体，解决汉字生成成本过高的问题。5. 本方法还可以容易的拓展到其他网路模型上，具有较强的普适性。

附图说明

图1为本发明基于利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法的流程示意图。

图2为本发明中骨架提取整合模块的示意图。

图3为本发明中重构生成字体模块的示意图。

图4为本发明中计算骨架损失模块的示意图。

图5为各模型生成字体的效果图。

图6为在Attention GAN应用本发明的方法和未应用本发明的方法的字体生成效果图。

图7为在FUNIT应用本发明的方法和未应用本发明的方法的字体生成效果图。

图8为在SQ-GAN应用本发明的方法和未应用本发明的方法的字体生成效果图。

图9为在StrokeGAN应用本发明的方法和未应用本发明的方法的字体生成效果图。

图10为在UGATIT应用本发明的方法和未应用本发明的方法的字体生成效果图。

附图中的Attention GAN、FUNIT、SQ-GAN、StrokeGAN、UGATIT均为相应模型的英文简称。

具体实施方式

下面对照附图，通过对实施例的描述，对本发明具体实施方式作进一步详细的说明，以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和伸入的理解。

实施例一：

如图1-4所示，本发明提供了利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，包括下列步骤。

步骤一、从源域图像

中提取对应源域骨架图像

，源域图像

和相应的源域骨架图像

拼接在一起输入生成器

中生成目标风格图像

，并将目标风格图像

放入判别器

中判别目标风格图像

的真假。

源域图像

的RGB三通道，拼接上提取出的源域骨架图像

，生成目标风格图像

，一个RGB三通道的图像。

步骤二、按照循环生成网络的思路，从目标风格图像

中提取相应的目标风格骨架图像

，并将提取的目标风格骨架图像

和目标风格图像

拼接，拼接结果输入另一个生成器

生成源域风格图像

，并将源域风格图像

放入另一判别器

判别。

拼接操作与步骤一类似，将目标风格图像

的RGB三通道，拼接上提取出的目标风格骨架图像

，生成源域风格图像

，同样是RGB三通道的图像。

步骤三、从生成器

重建生成的源域风格图像

中提取源域风格骨架图像

，对提取的源域风格骨架图像

和步骤一中提取的源域骨架图像

计算像素级损失，以确保优化后重建生成的源域风格图像

在骨架层面也与步骤一中的源域图像

相似。优化后所述像素级损失小于设定的损失阈值，即表明重建生成的源域风格图像

在骨架层面也与步骤一中的源域图像

相似。该步骤通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分，并用于在训练中优化模型。

我们网络采用循环生成网络，目的是通过循环生成网络可以实现自监督，不需要使用配对数据集。通过使用X->Y->X的过程，实现网络的伪配对，从而可以在大量的未配对数据集上进行训练。在现实生活中能够采集到的目标字体数据大都和进行转换的字体是不配对的，如古迹修复、手写字的生成。现有的需要配对的数据集方法都无法直接利用这些数据集，需要进行大量的数据预处理操作，我们的方法通过应用循环生成的想法从而实现对模型使用未配对数据集进行训练。

本方法所用的循环生成网络包括骨架提取整合模块、重构生成字体模块、两个生成器、两个判别器和计算骨架损失模块。各模块功能及具体实现方式如下。

骨架提取整合模块，用于将输入的源域图像提取为源域骨架图像，并将提取的源域骨架图像和源域图像在通道维度上进行拼接。骨架图像为灰度单通道图像，具体拼接操作是将源域图像的RGB三通道，拼接上提取的源域骨架图像的单通道，最后组合成为一个四通道的信息放入网络中的生成器

生成目标风格图像。

重构生成字体模块，用于对生成器

生成的目标风格图像提取其对应的目标风格骨架图像。将生成的目标风格图像和目标风格骨架图像采用和之前骨架提取整合模块相同的拼接方法拼接，在生成的目标风格图像的RGB通道上拼接上目标风格骨架图像的单通道，形成四通道的信息，然后将这四通道的信息传入生成器

中重构生成源域风格图像。

两个生成器分别为生成源域风格图像的生成器

和生成目标风格图像的生成器

，对于两个生成器我们传入网络的都是四通道图像，也就是上面骨架提取模块获得的四通道信息，网络经过一系列的卷积层，得到一个三通道的图像。

两个判别器模块，作用是判定输入的图像是真实图像还是网络生成的虚假图像，分别为鉴别源域风格图像真假的判别器

和鉴别目标风格图像真假的判别器

。

判别器和生成器之间存在矛盾的关系，可以互相优化双方的能力，生成器一边希望生成的图像能够欺骗判别器，判别器希望能够正确的对传入的图像判定是真实还是虚假的。

计算骨架损失模块，通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分，并用于在训练中优化模型。本方法采用循环生成网络并使用非配对关系的数据集训练，那么数据集中也就不存在一一对应的图像对。而在训练网络的时候需要进行梯度的回传，因此要求网络能够计算出一个损失值供给网络进行梯度回传。

图5表现各类型模型生成字体的效果。以下是本方法方法应用到其他模型上的效果（SK，代表使用了我们的方法）。

图6表示在Attention GAN应用我们的方法，对其输入扩充为四通道信息，网络其余部分保持不变。可以发现我们的方法应用在Attention GAN上具有较大的提升。

图7表示在FUNIT应用我们的方法，这个方法是对内容和风格进行了分解，我们将我们的骨架信息拓展到他的内容模块上，发现可以较好的提升模型的生成效果。

图8表示在SQ-GAN应用我们的方法，对其输入扩充为四通道信息，网络其余部分保持不变。可以发现我们的方法应用在SQ-GAN上具有较大的提升。

图9表示在StrokeGAN应用我们的方法，对其输入扩充为四通道信息，网络其余部分保持不变。可以发现我们的方法应用在StrokeGAN上具有较大的提升。

图10表示在UGATIT应用我们的方法，对其输入扩充为四通道信息，网络其余部分保持不变。可以发现我们的方法应用在UGATI上具有较大的提升。

本方法设置计算骨架损失模块计算骨架图像之间的像素级损失，这不仅能优化本方法采用的生成器，并能够利用骨架的空间结构信息可以缓解网络生成过程中的模式崩溃问题，骨架信息相比于笔画信息和切分出来的局部空间信息能够提供更加全面的整体信息，还能约束网络在笔画细节上的生成效果。

上面结合附图对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的发明构思和技术方案进行的各种非实质性的改进，或未经改进将本发明构思和技术方案直接应用于其它场合的，均在本发明保护范围之内。

Claims

1.利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，其特征在于：包括下列步骤：

步骤一、从源域图像

中提取对应的源域骨架图像

，源域图像

和相应的源域骨架图像

拼接在一起输入生成器

中生成目标风格图像

，并将目标风格图像

放入判别器

中判别目标风格图像

的真假；

所述步骤一中，源域图像

的RGB三通道，拼接上提取出的源域骨架图像

，生成RGB三通道的目标风格图像

；

步骤二、从目标风格图像

中提取相应的目标风格骨架图像

，并将提取的目标风格骨架图像

和目标风格图像

拼接，拼接结果输入另一个生成器

生成源域风格图像

，并将源域风格图像

放入另一判别器

判别；

所述步骤二中，将目标风格图像

的RGB三通道，拼接上提取出的目标风格骨架图像

，生成RGB三通道的源域风格图像

；

步骤三、从生成器

重建生成的源域风格图像

中提取源域风格骨架图像

，对提取的源域风格骨架图像

和步骤一中提取的源域骨架图像

2.根据权利要求1所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，其特征在于：所述步骤三中，通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分，用于在训练中优化模型，网络梯度回传的所述误差值即所述像素级损失，优化后所述像素级损失小于设定的损失阈值，即表明重建生成的源域风格图像

在骨架层面也与步骤一中的源域图像

相似。

3.根据权利要求1-2中任一所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，其特征在于：本方法所用的循环生成网络包括骨架提取整合模块、重构生成字体模块、两个生成器、两个判别器和计算骨架损失模块。

4.根据权利要求3所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，其特征在于：骨架提取整合模块，用于将输入的源域图像提取为源域骨架图像，并将提取的源域骨架图像和源域图像在通道维度上进行拼接，组合成为一个四通道的信息放入网络中的生成器

生成目标风格图像。

5.根据权利要求3所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，其特征在于：重构生成字体模块，用于对生成器

中重构生成源域风格图像。

6.根据权利要求3所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，其特征在于：两个生成器分别为生成源域风格图像的生成器

和生成目标风格图像的生成器

7.根据权利要求6所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，其特征在于：两个判别器模块，作用是判定输入的图像是真实图像还是网络生成的虚假图像，判别器和生成器之间存在矛盾的关系，互相优化双方的能力。

8.根据权利要求3所述的利用汉字骨架信息减缓网络模式崩溃问题的汉字生成方法，其特征在于：计算骨架损失模块，通过计算源域图像的骨架和重构生成的源域风格图像的骨架之间的误差值作为网络梯度回传的一部分，并用于在训练中优化模型。