CN112418310A

CN112418310A - 文本风格迁移模型训练方法和及图像生成方法和

Info

Publication number: CN112418310A
Application number: CN202011313453.1A
Authority: CN
Inventors: 韩景涛; 韩锋; 顾立新; 张悦
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26
Anticipated expiration: 2040-11-20
Also published as: CN112418310B

Abstract

提供了一种文本风格迁移模型训练方法和***及图像生成方法和***。所述图像生成方法包括：获取根据预定规则生成的包含文本的第一图像集；基于第一图像集利用预先训练的用于对图像中的文本的风格进行迁移的机器学习模型生成包含文本的第二图像集，其中，第二图像集中的文本的风格不同于第一图像集中的文本的风格，其中，所述机器学习模型是基于包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集利用生成式对抗网络进行训练而获得的。

Description

文本风格迁移模型训练方法和***及图像生成方法和***

技术领域

本公开总体说来涉及人工智能领域，更具体地，涉及一种训练用于文本风格迁移的机器学习模型的方法和***以及一种生成包含文本的图像的方法和***。

背景技术

现实生活中的诸多场景中均会用到含文本的图像，例如，为了进行文本识别，需要预先训练文本识别模型，而文本识别模型的训练需要大量含文本的图像，然而真实的含文本的图像获得的时间成本和价格成本都很高，所以需要能够自动生成含文本的图像的技术。但是，目前生成含文本的图像的主流方法是通过专家规则来实现的,具体地,首先需要使用opencv图像库,对背景图进行生成或者读入已准备好的背景图像,然后使用pillow文本渲染库,将文本画到背景图上,最后在该图像上进行一系列的数据增强操作,模拟现实生活中图像的噪音,例如图像旋转，图像扭曲，局部高斯模糊，加入光源等常见的图像增强的操作。然而，这样的生成包含文本的图像的方法的缺陷在于生成的图像的文本风格是有限的,并且对于现实生活中的部分场景(例如，银行***场景)，难以用传统方法拟合出包含类似文本风格的图像。鉴于此，需要能够自动生成尽可能模拟真实图像中的文本风格的图像的技术。

发明内容

本公开提供一种训练用于文本风格迁移的机器学习模型的方法和***、一种生成包含文本的图像的方法和***、一种存储指令的计算机可读存储介质以及一种包括至少一个计算装置和存储指令的至少一个存储装置的***，以至少解决相关技术中的上述问题。本公开的技术方案如下：

根据本公开的第一方面，提供了一种训练用于文本风格迁移的机器学习模型的方法，所述方法包括：获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集，其中，模板图像集中的文本的风格不同于真实图像集中的文本的风格；基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练。

可选地，所述生成式对抗网络是循环生成式对抗网络cycle-GAN，其中，真实图像集和模板图像集中的图像无需一一对应；或者，所述生成式对抗网络是pix2pix，其中，真实图像集和模板图像集中的图像一一对应。

可选地，所述循环生成式对抗网络cycle-GAN或pix2pix包括第一生成器、第二生成器、第一判别器和第二判别器，其中，第一生成器用于基于模板图像生成图像，第二生成器用于基于真实图像生成图像，第一判别器用于判别生成的图像是否为模板图像，第二判别器用于判别生成的图像是否为真实图像。

可选地，用于训练所述机器学习模型的损失函数被配置为包括生成器的损失和判别器的损失，其中，判别器的损失被配置为包括第一判别器的损失和第二判别器的损失，生成器的损失被配置为包括第一生成器的损失、第二生成器的损失、以及用于重建真实图像和模板图像的损失与预定正则项的乘积。

可选地，第一生成器的损失被配置为等于第一判别器对第二生成器基于真实图像生成的图像的打分平均值与-1的乘积，第二生成器的损失被配置为等于第二判别器对第一生成器基于模板图像生成的图像的打分平均值与-1的乘积，用于重建真实图像和模板图像的损失被配置为等于对真实图像先后通过第一生成器和第二生成器之后得到的图像与真实图像之间的差值取平均所得的值与对模板图像先后通过第二生成器和第一生成器之后得到的图像与模板图像之间的差值取平均所得的值之和。

可选地，所述基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练，包括：保存在利用所述损失函数调整模型参数过程中生成的分别对应于不同损失的多个备选机器学习模型，并从所述多个备选机器学习模型中选择预定数量的备选机器学习模型，作为所述机器学习模型。

可选地，所述从所述多个备选机器学习模型中选择预定数量的备选机器学习模型，包括：获取第一测试图像集，其中，第一测试图像集是根据所述预定规则生成的包含文本的图像集；基于第一测试数据集以及与第一测试数据集对应的包含文本的真实图像集结合用户判断从所述多个备选机器学习模型中选择预定数量的备选机器学习模型。

可选地，所述基于第一测试数据集以及与第一测试数据集对应的包含文本真实图像集结合用户判断从所述多个备选机器学习模型中选择预定数量的备选机器学习模型，包括：基于所述第一测试数据集，分别利用所述多个备选机器学习模型生成第二测试图像集；向用户提供将第二测试数据集和与第一测试数据集对应的包含文本的真实图像集进行随机混合后的图像集；根据用户对混合后的图像集中的每个图像是否为真实图像的判断结果确定每个备选机器学习模型的评分，并根据评分从所述多个备选机器学习模型中选择预定数量的备选机器学习模型。

可选地，真实图像和模板图像是包含数字的银行***图像。

根据本公开的第二方面，提供了一种生成包含文本的图像的方法，所述方法包括：获取根据预定规则生成的包含文本的第一图像集；基于第一图像集利用预先训练的用于对图像中的文本的风格进行迁移的机器学习模型生成包含文本的第二图像集，其中，第二图像集中的文本的风格不同于第一图像集中的文本的风格，其中，所述机器学习模型是基于包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集利用生成式对抗网络进行训练而获得的。

可选地，所述方法还包括：利用第二图像集训练文本识别模型。

可选地，所述机器学习模型是从在利用所述损失函数调整模型参数的过程中生成的分别对应于不同损失的多个备选机器学习模型中选择预定数量的备选机器学习模型而得到的。

可选地，所述从在利用所述损失函数调整模型参数过程中生成的分别对应于不同损失的多个备选机器学习模型中选择预定数量的备选机器学习模型，包括：基于第一测试数据集以及与第一测试数据集对应的包含文本的真实图像集结合用户判断从所述多个备选机器学习模型中选择预定数量的备选机器学习模型，其中，第一测试图像集是根据所述预定规则生成的包含文本的图像集。

可选地，第一图像、第二图像、真实图像和模板图像是包含数字的银行***图像。

根据本公开的第三方面，提供了一种训练用于文本风格迁移的机器学习模型的***，所述***包括：图像获取装置，被配置为获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集，其中，模板图像集中的文本的风格不同于真实图像集中的文本的风格；训练装置，被配置为基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练。

可选地，真实图像和模板图像是包含数字的银行***图像。

根据本公开的第四方面，提供了一种生成包含文本的图像的***，所述***包括：图像获取装置，被配置为获取根据预定规则生成的包含文本的第一图像集；图像生成装置，被配置为基于第一图像集利用预先训练的用于对图像中的文本的风格进行迁移的机器学习模型生成包含文本的第二图像集，其中，第二图像集中的文本的风格不同于第一图像集中的文本的风格，其中，所述机器学习模型是基于包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集利用生成式对抗网络进行训练而获得的。

可选地，所述***还包括：文本识别模型训练装置，被配置为利用第二图像集训练文本识别模型。

根据本公开的第五方面，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的方法。

根据本公开的第六方面，提供了一种包括至少一个计算装置和存储指令的至少一个存储装置的***，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的方法。

根据本公开示例性实施例的模型训练***和模型训练方法可训练出用于文本风格迁移的机器学习模型，所述机器学习模型可被用于基于输入的包含文本的图像生成文本风格被迁移的新图像。根据本公开示例性实施例的图像生成***和图像生成方法可基于输入的包含文本的图像利用所述机器学习模型生成文本风格被迁移的新图像，而生成的新图像可被进一步用于文本识别模型的训练，利用这样的图像训练出的文本识别模型可具有更准确的文本识别准备率。

附图说明

从下面结合附图对本公开实施例的详细描述中，本公开的这些和/或其他方面和优点将变得更加清楚并更容易理解，其中：

图1是示出真实银行卡图像和根据传统方法生成的银行卡图像的示图；

图2是示出根据本公开示例性实施例的训练用于文本风格迁移的机器学习模型的***的框图；

图3是示出根据本公开示例性实施例的生成式对抗网络的组成的示意图；

图4是示出根据本公开示例性实施例的生成器的操作以及生成器中的残差模块的操作的示意图；

图5是示出根据本公开示例性实施例的判别器的操作的示意图；

图6是示出根据本公开示例性实施例的训练用于文本风格迁移的机器学习模型的方法的流程图；

图7是示出根据本公开示例性实施例的生成包含文本的图像的***的框图；

图8是示出利用根据本公开示例性实施例生成的银行卡图像的示例；

图9是示出本公开示例性实施例的总体构思的示意图；

图10是示出根据本公开示例性实施例的生成包含文本的图像的方法的流程图。

具体实施方式

为了使本领域技术人员更好地理解本公开，下面结合附图和具体实施方式对本公开的示例性实施例作进一步详细说明。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如本公开背景技术中所述，利用传统方法生成的图像的文本风格是有限的,并且对于现实生活中的部分场景(例如，银行***场景)，难以用传统方法拟合出包含类似文本风格的图像。图1是示出真实银行卡图像和根据传统方法生成的银行卡图像的示图。真实的银行***图像如图1的(a)所示,其图像中的文本具有明显的金属凸出质感,然而用传统方法难以拟合出包含类似文本风格的图像。用传统方法生成的银行卡图像如图1的(b)所示。从图1的(a)和(b)可明显看出用传统方法生成的银行卡图像中文本的风格与真实银行卡图像中的文本风格相差较远。

针对此，本公开提出了能够自动生成文本风格迁移的图像的构思。接下来，将参照图2至图10对本公开的构思进行详细描述。

图2是示出根据本公开示例性实施例的训练用于文本风格迁移的机器学习模型的***(在下文中，为描述方便，将其简称为“模型训练***”)的框图。

如图2所示，模型训练***200可包括图像获取装置210和训练装置220。

具体地，图像获取装置210可获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集，这里，模板图像集中的文本的风格不同于真实图像集中的文本的风格。作为示例，图像获取装置210可直接从外部获取模板图像集和真实图像集，或者，图像获取装置210可本身执行操作来获取模板图像集和真实图像集，并将获取的模板图像集和真实图像集处理为适当的格式或形式。作为示例，模板图像集可根据专家规则生成，例如，可借助图像处理库(例如，opencv)与字体处理库(例如，pillow),通过专家设计画图写字的规则来生成模板图像。需要说明的是，尽管这里给出了生成模板图像的一个示例，然而，用于生成模板图像的预定规则不限于此。真实图像集可以是通过各种采集方式得到的包含文本的图像集。作为示例，真实图像和模板图像可以是包含数字的银行***图像，但不限于此。

训练装置220可基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型(也可被称为“文本风格迁移模型”)进行训练。

根据示例性实施例，上述生成式对抗网络可以是循环生成式对抗网络cycle-GAN。如果利用循环生成式对抗网络cycle-GAN对机器学习模型进行训练，则真实图像集和模板图像集中的图像无需一一对应。这里，无需一一对应表示真实图像集和模板图像集中的图像可以完全不对应，或者可以部分对应，或者也可以完全对应，也就是说，在利用循环生成式对抗网络cycle-GAN对机器学习模型进行训练时，对真实图像集和模板图像集中的图像是否对应并无要求。可选地，根据本公开另一示例性实施例，上述生成式对抗网络可以是pix2pix。如果利用pix2pix对机器学习模型进行训练，则真实图像集和模板图像集中的图像需要一一对应。这里，图像一一对应是指对于真实图像集中的每个真实图像，在模板图像集中一定存在一个模板图像与该真实图像对应。例如，模板图像与真实图像一一对应可以是模板图像和真实图像中的文本的内容一致或接近、文本的几何位置或轮廓等一致或接近。

为方便描述，在下文中，以cycle-GAN为例，对基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练的过程进行描述。然而，下文以cycle-GAN为例描述的内容同样适用于利用pix2pix对机器学习模型进行训练。

图3是示出根据本公开示例性实施例的生成式对抗网络的组成的示意图。根据示例性实施例，cycle-GAN或pix2pix可包括第一生成器310、第二生成器320、第一判别器330和第二判别器340。这里，第一生成器310用于基于模板图像生成图像，第二生成器320用于基于真实图像生成图像，第一判别器330用于判别生成的图像是否为模板图像，第二判别器340用于判别生成的图像是否为真实图像。

根据示例性实施例，第一生成器310和第二生成器320均包括卷积模块、残差模块和反卷积模块。图4是示出根据本公开示例性实施例的生成器的操作以及生成器中的残差模块的操作的示意图。参照图4的(a)，输入图像(具体地，对于第一生成器来说，输入图像是模板图像；对于第二生成器来说，输入图像是真实图像)被输入到生成器中后，首先被进行数值归一化，例如，将数值归一化到-1到1之间。随后，归一化后的数值被输入到卷积模块来提取图像的高维特征。例如，卷积模块可由三层二维卷积组合实现，卷积核的维度可以是3，核个数每经过一层放大两倍，步长可以为2，这样通过卷积模块后图像特征的长宽维度下降了4倍，而特征维度增大到4倍。在通过卷积模块提取出图像的高维特征之后，利用残差模块对特征进行特征组合。具体地，例如，残差模块可以是ResNet残差网络。例如，如图4的(b)所示，残差模块的每个基本单元可由2层卷积和一层实例归一化层InstanceNormalization组成,输入到残差模块的数据首先经过2层卷积进行卷积操作，然后经过一层InstanceNormalization进行归一化操作，接下来，输出结果再与输入相加,该基本单元共重复了9次,总共构成一个残差模块。残差模块的输出被输入到反卷积模块以恢复低维特征，使得输出的张量维度与输入图像的张量维度严格对齐。具体地，例如，反卷积模块可执行2层反卷积操作,由此可将张量的长宽维度扩大4倍(即恢复到原输入图像的尺寸),之后，可再通过一个卷积操作将特征维度恢复到3维,即，图像的通道数。通过以上操作，生成器可基于输入图像生成图像，具体地，第一生成器310可基于模板图像生成图像，第二生成器320可基于真实图像生成图像。

图5是示出根据本公开示例性实施例的判别器的操作的示意图。参照图5，判别器例如可由全卷积网络构成，共五层二维卷积。图像被输入判别器之后，首先通过五层二维卷积执行卷积操作，然后，对输出张量进行取平均操作，得到判别器的输出分数。具体地，第一判别器可执行以上操作来得到相应的输出分数，进而判别生成的图像是否为模板图像；第二判别器可执行以上操作来得到相应的输出分数，进而判别生成的图像是否为真实图像。

由于所述机器学习模型包括生成器和判别器，因此，根据示例性实施例，用于训练所述机器学习模型的损失函数可被配置为包括生成器的损失和判别器的损失。本公开对传统生成式对抗网络的损失函数进行了改进，具体地，判别器的损失可被配置为包括第一判别器的损失和第二判别器的损失，生成器的损失可被配置为包括第一生成器的损失、第二生成器的损失、以及用于重建真实图像和模板图像的损失与预定正则项的乘积。

为直观地对根据公开示例性实施例的损失函数进行介绍，这里，假设模板图像和真实图像分别是A和B，第一生成器和第二生成器分别是G_A-B和G_B-A，第一判别器和第二判别器分别是D_A和D_B，则损失函数Loss可被表示如下：

Loss＝Loss_G+Loss_D，其中，Loss_G和Loss_D分别是生成器的损失和判别器的损失。具体地，Loss_G可被表示如下：

Loss_G＝Loss_G_A+Loss_G_B+lambda×(Loss_recon_A+Loss_recon_B)，其中，Loss_G_A是第一生成器的损失，Loss_G_B是第二生成器的损失，lambda为预定正则项，Loss_recon_A是用于重建模板图像的损失，Loss_recon_B是用于重建真实图像的损失。

例如，根据Wasserstein loss的公式,可得：

Loss_G_A＝-1x mean(A_dis_fake)

Loss_G_B＝-1x mean(B_dis_fake)

Loss_recon_A＝mean(|A-ABA|)

Loss_recon_B＝mean(|B-BAB|)

其中，ABA代表A通过G_A-B和G_B-A连续作用变化得到的新图像,同理，BAB代表B通过G_B-A和G_A-B连续作用变化得到的新图像，A_dis_real代表D_A对A输出的评分,A_dis_fake代表D_A对B通过G_B-A之后得到的图像的评分,B_dis_real代表D_B对B输出的评分,B_dis_fake代表D_B对A通过G_A-B得到的图像的评分。

由此可见，第一生成器的损失可被配置为等于第一判别器对第二生成器基于真实图像生成的图像的打分平均值与-1的乘积，第二生成器的损失被配置为等于第二判别器对第一生成器基于模板图像生成的图像的打分平均值与-1的乘积，用于重建真实图像和模板图像的损失被配置为等于对真实图像先后通过第一生成器和第二生成器之后得到的图像与真实图像之间的差值取平均所得的值与对模板图像先后通过第二生成器和第一生成器之后得到的图像与模板图像之间的差值取平均所得的值之和。

传统方法通过训练集与验证集上的损失函数大小来选择模型,通常选取数值最小的损失函数对应的那个模型。然而，事实上，实验发现损失小的模型不一定对应生成图像更逼真或更接近真实图像的模型。为此，根据本公开示例实施例，在基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练时，保存在利用上述损失函数调整模型参数过程中生成的分别对应于不同损失的多个备选机器学习模型，并从所述多个备选机器学习模型中选择预定数量的备选机器学习模型，作为所述机器学习模型。这里，预定数量可以是大于或等于1的任何数量。

具体地，例如可通过以下方式从所述多个备选机器学习模型中选择预定数量的备选机器学习模型：首先，获取第一测试图像集，其中，第一测试图像集是根据所述预定规则生成的包含文本的图像集；其次，基于第一测试数据集以及与第一测试数据集对应的包含文本的真实图像集结合用户判断从所述多个备选机器学习模型中选择预定数量的备选机器学习模型。这里，第一测试图像集可以与模板图像集一样，根据预定规则被生成。以上已经对根据预定规则生成包含文本的图像进行了介绍，这里不再赘述。在结合用户判断从所述多个备选机器学习模型中选择预定数量的备选机器学习模型时，可首先基于所述第一测试数据集，分别利用所述多个备选机器学习模型生成第二测试图像集，然后，向用户提供将第二测试数据集和与第一测试数据集对应的包含文本的真实图像集进行随机混合后的图像集，最后，根据用户对混合后的图像集中的每个图像是否为真实图像的判断结果确定每个备选机器学习模型的评分，并根据评分从所述多个备选机器学习模型中选择预定数量的备选机器学习模型。

也就是说，最终，我们统计生成的图像混淆用户(例如，测试标注人员)的能力来选择最优模型。例如，可根据测试标注人员在判断每个图像是否为真实图像时出现判断错误的占比确定每个备选机器学习模型的评分，并根据评分选择预定数量的备选机器学习模型。理论上，如果判断错误的占比接近0.5,则代表备选机器学习模型具有完全混淆真实数据的能力，则该备选机器学习模型的评分将是最高的。作为示例，可选择评分最大的预定数量个(例如，50，但不限于此)备选机器学习模型，作为所述机器学习模型。由于在选择备选机器学习模型时结合了用户判断，所以利用选择出的机器学习模型生成的图像将更加逼真，即，更接近包含文本的真实图像。此外，尽管可以仅选择一个备选机器学习模型作为所述机器学习模型，但是鉴于利用一个备选机器学习模型生成的图像中的文本风格较为单一，因此，根据示例性实施例，可选择多个备选学习模型而不是选择评分最高的一个机器学习模型，这样可以进一步保证后续利用机器学习模型生成的图像中的文本风格的多样性。

以上，已经参照图1至图5对根据本公开示例性实施例的模型训练***进行了描述。利用上述模型训练***训练出的用于文本风格迁移的机器学习模型可基于输入的包含文本的图像生成文本风格被迁移的新图像。

需要说明的是，尽管以上在描述模型训练***200时将其划分为用于分别执行相应处理的装置(例如，图像获取装置210和训练装置220)，然而，本领域技术人员清楚的是，上述各装置执行的处理也可以在模型训练***200不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外，以上参照图1所描述的模型训练***200并不限于包括以上描述的装置，而是还可以根据需要增加一些其他装置(例如，存储装置、数据处理装置等)，或者以上装置也可被组合。

图6是示出根据本公开示例性实施例的训练用于文本风格迁移的机器学习模型的方法(以下，为描述方便，将其简称为“模型训练方法”)的流程图。

这里，作为示例，图6所示的模型训练方法可由图2所示的模型训练***200来执行，也可完全通过计算机程序或指令以软件方式实现，还可通过特定配置的计算***或计算装置来执行，例如，可通过包括至少一个计算装置和至少一个存储指令的存储装置的***来执行，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行上述模型训练方法。为了描述方便，假设图6所示的模型训练方法由图2所示的模型训练***200来执行，并假设模型训练***200可具有图2所示的配置。

参照图6，在步骤S610，图像获取装置210可获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集。这里，模板图像集中的文本的风格不同于真实图像集中的文本的风格。作为示例，真实图像和模板图像可以是包含数字的银行***图像，但不限于此。接下来，在步骤S620，训练装置220可基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练。由于以上已经参照图2至图5对生成式对抗网络、用于训练所述机器学习模型的损失函数以及利用生成式对抗网络对所述机器学习模型进行训练、以及如何进行模型选择进行了描述，因此，这里不再对步骤S620涉及的具体操作和细节进行赘述，相关内容可参见以上关于图2至图5的相关描述。事实上，由于图6所示的模型训练方法由图2所述的模型训练***200执行，因此，以上参照图2在描述模型训练***中包括的各个装置时所提及的内容均适用于这里，故关于以上步骤中所涉及的相关细节，均可参见图2的相应描述，这里都不再赘述。

在下文中，将参照图7至图10对利用上述训练出的机器学习模型生成包含文本的图像进行描述。

图7是示出根据本公开示例性实施例的生成包含文本的图像的***(以下，为描述方便，将其简称为“图像生成***”)的框图。

参照图7，图像生成***700可包括图像获取装置710和图像生成装置720。具体地，图像获取装置710可获取根据预定规则生成的包含文本的第一图像集。根据示例性实施例，预定规则可以是预定专家规则，例如，可根据预定专家规则，借助图像处理库(例如，opencv)与字体处理库(例如，pillow),通过专家设计画图写字的规则来生成第一图像。图像获取装置710可直接从外部获取第一图像集，或者，图像获取装置710可本身执行生成操作来获取第一图像集。

图像生成装置720可基于第一图像集利用预先训练的用于对图像中的文本的风格进行迁移的机器学习模型生成包含文本的第二图像集。这里，第二图像集中的文本的风格不同于第一图像集中的文本的风格。此外，所述机器学习模型可以是基于包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集利用生成式对抗网络进行训练而获得的，即，利用以上参照图2和图6描述的模型训练***和模型训练方法获得的机器学习模型。生成的包含文本的第二图像集可被作为用于训练文本识别模型的训练数据集。因此，可选地，根据本公开示例性实施例，图像生成***700还可包括文本识别模型训练装置(未示出)，文本识别模型训练装置可利用第二图像集训练文本识别模型。利用这样的第二图像集训练出的文本识别模型将具有更好的识别效果。

如上文中提到的，所述生成式对抗网络可以是循环生成式对抗网络cycle-GAN，其中，真实图像集和模板图像集中的图像无需一一对应。或者，所述生成式对抗网络是pix2pix，其中，真实图像集和模板图像集中的图像一一对应。具体地，所述循环生成式对抗网络cycle-GAN或pix2pix包括第一生成器、第二生成器、第一判别器和第二判别器，其中，第一生成器用于基于模板图像生成图像，第二生成器用于基于真实图像生成图像，第一判别器用于判别生成的图像是否为模板图像，第二判别器用于判别生成的图像是否为真实图像。以上已经在参照图3至图5的描述中对生成器和判别器的操作进行了描述，这里不再赘述。

根据示例性实施例，如以上关于模型训练的描述中提及的，用于训练所述机器学***均值与-1的乘积，第二生成器的损失可被配置为等于第二判别器对第一生成器基于模板图像生成的图像的打分平均值与-1的乘积，用于重建真实图像和模板图像的损失可被配置为等于对真实图像先后通过第一生成器和第二生成器之后得到的图像与真实图像之间的差值取平均所得的值与对模板图像先后通过第二生成器和第一生成器之后得到的图像与模板图像之间的差值取平均所得的值之和。关于损失函数的描述可参见以上描述模型训练时的相应描述，这里也不再赘述。

另外，如上所述，在模型训练时会保存在利用所述损失函数调整模型参数的过程中生成的分别对应于不同损失的多个备选机器学习模型。这里，所述机器学习模型是从在利用所述损失函数调整模型参数的过程中生成的分别对应于不同损失的多个备选机器学习模型中选择预定数量的备选机器学习模型而得到的。具体地，从在利用所述损失函数调整模型参数过程中生成的分别对应于不同损失的多个备选机器学习模型中选择预定数量的备选机器学习模型，可以包括：基于第一测试数据集以及与第一测试数据集对应的包含文本的真实图像集结合用户判断从所述多个备选机器学习模型中选择预定数量的备选机器学习模型。这里，第一测试图像集可以是根据所述预定规则生成的包含文本的图像集。具体地，可首先基于所述第一测试数据集，分别利用所述多个备选机器学习模型生成第二测试图像集。其次，可向用户提供将第二测试数据集和与第一测试数据集对应的包含文本的真实图像集进行随机混合后的图像集。最后，根据用户对混合后的图像集中的每个图像是否为真实图像的判断结果确定每个备选机器学习模型的评分，并根据评分从所述多个备选机器学习模型中选择预定数量的备选机器学习模型。以上已经在描述模型训练时描述了模型选择时的细节，这里不再赘述。

作为示例，以上提到的第一图像、第二图像、真实图像和模板图像可以是包含数字的银行***图像。在银行卡识别场景中，例如，可根据预定规则生成100万的第一图像集(第一图像是包含文本的银行卡图像)，选择备选机器学习模型中评分最高的50个模型，然后，随机选择机器学习模型来对第一图像集进行文本风格迁移来生成100万迁移过文本风格(具体地，银行***风格)的第二图像集，并利用生成的第二图像集训练文本识别模型。利用这样的第二图像集训练出的文本识别模型将能够更好地识别银行卡图像上的银行***。

图8是示出利用根据本公开示例性实施例生成的银行卡图像的示例。如图8所示，根据本公开示例性实施例生成的银行卡图像相比传统方法生成的银行卡图像更接近真实的银行卡图像，其具有明显的金属凸出质感，很好地拟合出了真实银行卡图像中银行***的风格。需要说明的是，本公开示例性实施例不仅限于对银行***这个特定场景的文本风格进行迁移，而是可根据需要被用于其他包含文本的场景,如对驾驶证、行驶证上的文本进行风格迁移。

为便于直观地理解本公开的构思，以下，结合图9对本公开的总体构思进行简要概述。图9是示出本公开示例性实施例的总体构思的示意图。参照图9，如上文中所描述的，可获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集，并基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练，得到训练好的机器学习模型。之后，可以基于第一图像集利用训练好的机器学习模型生成第二图像集，并利用生成的第二图像集训练文本识别模型，进而得到训练好的文本识别模型。训练好的文本识别模型可被用于进行文本识别。

以上已经对根据本公开示例性实施例的图像生成***进行了介绍，利用图像生成***可生成文本风格被迁移的图像，这样的图像可被用于训练文本识别模型，并且利用这样的图像训练出的文本识别模型可具有更高的文本识别准确率。

另外，需要说明的是，尽管以上在描述图像生成***700时将其划分为用于分别执行相应处理的装置(例如，图像获取装置710和图像生成装置720)，然而，本领域技术人员清楚的是，上述各装置执行的处理也可以在图像生成***700不进行任何具体装置划分或者各装置之间并无明确划界的情况下执行。此外，以上参照图7所描述的图像生成***700并不限于包括以上描述的图像获取装置710、图像生成装置720和文本识别模型训练装置，而是还可以根据需要增加一些其他装置(例如，存储装置、数据处理装置、文本识别装置等)，或者以上装置也可被组合。而且，作为示例，以上参照图2描述的模型训练***200和图像生成***700也可被组合为一个***，或者它们可以是彼此独立的***，本公开对此并无限制。

图10是示出根据本公开示例性实施例的生成包含文本的图像的方法(以下，为描述方便，将其简称为“图像生成方法”)的流程图。

这里，作为示例，图10所示的图像生成方法可由图7所示的图像生成***700来执行，也可完全通过计算机程序或指令以软件方式实现，还可通过特定配置的计算***或计算装置来执行，例如，可通过包括至少一个计算装置和至少一个存储指令的存储装置的***来执行，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行上述图像生成方法。为了描述方便，假设图10所示的图像生成方法由图7所示的图像生成***700来执行，并假设图像生成***700可具有图7所示的配置。

参照图10，在步骤S1010，图像获取装置710可获取根据预定规则生成的包含文本的第一图像集。接下来，在步骤S1020，图像生成装置720可基于第一图像集利用预先训练的用于对图像中的文本的风格进行迁移的机器学习模型生成包含文本的第二图像集。这里，第二图像集中的文本的风格不同于第一图像集中的文本的风格，此外，所述机器学习模型是基于包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集利用生成式对抗网络进行训练而获得的。可选地，图像生成方法还包括利用第二图像集训练文本识别模型。由于以上已经在图2至图9的描述中对生成式对抗网络、用于训练所述机器学习模型的损失函数以及利用生成式对抗网络对所述机器学习模型进行训练、以及如何进行模型选择等内容进行了描述，因此，这里不再对上述内容进行赘述，相关内容可参见上文中的相关描述。事实上，由于图10所示的图像生成方法由图7所述的图像生成***700执行，因此，以上参照图7在描述图像生成***中包括的各个装置时所提及的内容均适用于这里，故关于以上步骤中所涉及的相关细节，这里都不再赘述。

以上已参照图2至图10描述了根据本申请示例性实施例模型训练***和模型训练方法以及图像生成***和图像生成方法。然而，应理解的是：图2和图7所示出的***及其装置可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些***或装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些***或装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算机可读存储介质上的指令来实现，例如，根据本申请的示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集，其中，模板图像集中的文本的风格不同于真实图像集中的文本的风格；基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练。

此外，根据本申请的另一示例性实施例，可提供一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行以下步骤：获取根据预定规则生成的包含文本的第一图像集；基于第一图像集利用预先训练的用于对图像中的文本的风格进行迁移的机器学习模型生成包含文本的第二图像集，其中，第二图像集中的文本的风格不同于第一图像集中的文本的风格，其中，所述机器学习模型是基于包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集利用生成式对抗网络进行训练而获得的。

上述计算机可读存储介质中存储的指令可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述指令还可在执行上述步骤时执行更为具体的处理，这些进一步处理的内容已经在参照图2至图10的描述中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的模型训练***和图像生成***可完全依赖计算机程序或指令的运行来实现相应的功能，即，各个装置在计算机程序的功能架构中与各步骤相应，使得整个***通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，当图2和图7所示的***和装置以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得至少一个处理器或至少一个计算装置可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，根据本申请示例性实施例，可提供一种包括至少一个计算装置和存储指令的至少一个存储装置的***，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集，其中，模板图像集中的文本的风格不同于真实图像集中的文本的风格；基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练。

例如，根据本申请另一示例性实施例，可提供一种包括至少一个计算装置和存储指令的至少一个存储装置的***，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行下述步骤：获取根据预定规则生成的包含文本的第一图像集；基于第一图像集利用预先训练的用于对图像中的文本的风格进行迁移的机器学习模型生成包含文本的第二图像集，其中，第二图像集中的文本的风格不同于第一图像集中的文本的风格，其中，所述机器学习模型是基于包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集利用生成式对抗网络进行训练而获得的。

具体说来，上述***可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点上。此外，所述***可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。此外，所述***还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。另外，所述***的所有组件可经由总线和/或网络而彼此连接。

这里，所述***并非必须是单个***，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。所述***还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述***中，所述至少一个计算装置可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，所述至少一个计算装置还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。计算装置可运行存储在存储装置之一中的指令或代码，其中，所述存储装置还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储装置可与计算装置集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储装置可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储装置和计算装置可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得计算装置能够读取存储在存储装置中的指令。

以上描述了本申请的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本申请不限于所披露的各示例性实施例。在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种训练用于文本风格迁移的机器学习模型的方法，包括：

获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集，其中，模板图像集中的文本的风格不同于真实图像集中的文本的风格；

基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练。

2.如权利要求1所述的方法，其中，

所述生成式对抗网络是循环生成式对抗网络cycle-GAN，其中，真实图像集和模板图像集中的图像无需一一对应；或者

所述生成式对抗网络是pix2pix，其中，真实图像集和模板图像集中的图像一一对应。

3.如权利要求2所述的方法，其中，所述循环生成式对抗网络cycle-GAN或pix2pix包括第一生成器、第二生成器、第一判别器和第二判别器，其中，第一生成器用于基于模板图像生成图像，第二生成器用于基于真实图像生成图像，第一判别器用于判别生成的图像是否为模板图像，第二判别器用于判别生成的图像是否为真实图像。

4.如权利要求3所述的方法，其中，用于训练所述机器学习模型的损失函数被配置为包括生成器的损失和判别器的损失，其中，判别器的损失被配置为包括第一判别器的损失和第二判别器的损失，生成器的损失被配置为包括第一生成器的损失、第二生成器的损失、以及用于重建真实图像和模板图像的损失与预定正则项的乘积。

5.如权利要求4所述的方法，其中，第一生成器的损失被配置为等于第一判别器对第二生成器基于真实图像生成的图像的打分平均值与-1的乘积，第二生成器的损失被配置为等于第二判别器对第一生成器基于模板图像生成的图像的打分平均值与-1的乘积，用于重建真实图像和模板图像的损失被配置为等于对真实图像先后通过第一生成器和第二生成器之后得到的图像与真实图像之间的差值取平均所得的值与对模板图像先后通过第二生成器和第一生成器之后得到的图像与模板图像之间的差值取平均所得的值之和。

6.如权利要求4所述的方法，其中，所述基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练，包括：保存在利用所述损失函数调整模型参数过程中生成的分别对应于不同损失的多个备选机器学习模型，并从所述多个备选机器学习模型中选择预定数量的备选机器学习模型，作为所述机器学习模型。

7.如权利要求6所述的方法，其中，所述从所述多个备选机器学习模型中选择预定数量的备选机器学习模型，包括：

获取第一测试图像集，其中，第一测试图像集是根据所述预定规则生成的包含文本的图像集；

基于第一测试数据集以及与第一测试数据集对应的包含文本的真实图像集结合用户判断从所述多个备选机器学习模型中选择预定数量的备选机器学习模型。

8.一种训练用于文本风格迁移的机器学习模型的***，包括：

图像获取装置，被配置为获取包含文本的真实图像集以及根据预定规则生成的包含文本的模板图像集，其中，模板图像集中的文本的风格不同于真实图像集中的文本的风格；

训练装置，被配置为基于真实图像集和模板图像集利用生成式对抗网络对所述机器学习模型进行训练。

9.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的方法。

10.一种包括至少一个计算装置和存储指令的至少一个存储装置的***，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的方法。