CN118194038A

CN118194038A - 一种模型训练方法、资源生成方法、装置及存储介质

Info

Publication number: CN118194038A
Application number: CN202410310085.7A
Authority: CN
Inventors: 陈志军
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-06-14

Abstract

本说明书实施例公开了一种模型训练方法、资源生成方法、装置、存储介质及电子设备，将包含第一特征的第一样本输入第一特征编码器，得到第一特征向量；将包含第二特征的第二样本输入第二特征解码器，第二样本通过自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第三向量，将第三向量输入卷积神经网络的解码器中，得到融合第一特征和第二特征的输出结果；以输出结果的真实性为训练目标，对第一特征编码器以及第二特征解码器进行训练，从而得到可以生成大量与真实样本相似度高的目标资源，以解决例如证件识别等过程中资源不足的问题。

Description

一种模型训练方法、资源生成方法、装置及存储介质

技术领域

本发明涉及计算机技术，尤其涉及一种模型训练方法、资源生成方法、装置、存储介质及电子设备。

背景技术

随着互联网技术的普及与发展，电子证件作为重要个人信息之一正在快速普及和高速发展。

由于全球各地的证件版式有上千种，不同的证件字体、背景、风格都不太一样，为了能够通过人工智能更好地识别各种版式的证件，需要在模型训练或者机器学习的过程中使用大量训练数据，因而，数据就成为提高证件识别准确度和适用度的关键之一。然而，相关技术中，采集不同版式的大量样本难度较大，存在识别模型数据不足的问题。

因此，亟需一种解决方案，以解决例如证件识别等过程中资源不足的问题。

发明内容

本说明书实施例提供一种模型训练方法，该方法可以生成大量的融合第一特征和第二特征的目标资源，所述方法包括：

将包含第一特征的第一样本输入第一特征编码器，得到第一特征向量，所述第一特征编码器包括卷积神经网络的编码器以及对针对所述卷积神经网络的编码器的输出向量的自注意力机制；

将包含第二特征的第二样本输入第二特征解码器，所述第二特征解码器包括自注意力机制、交叉注意力机制和所述卷积神经网络的解码器，所述第二样本通过所述自注意力机制得到第二特征向量，所述第一特征向量和所述第二特征向量通过所述交叉注意力机制，得到融合所述第一特征和所述第二特征的第三向量，将所述第三向量输入所述卷积神经网络的解码器中，得到融合所述第一特征和所述第二特征的输出结果；

以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练。

进一步地，在一些实施方式中，所述将包含第一特征的第一样本输入第一特征编码器之前，所述方法还包括：

通过包含不同的第一子特征的第三样本对所述卷积神经网络进行预训练，预训练好的所述卷积神经网络的编码器用于获取所述第一样本的鲁棒特征。

进一步地，在一些实施方式中，以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练，包括：

根据判别器性能和所述目标资源的生成性能之间的对抗损失对所述第一特征编码器以及所述第二特征解码器进行训练。

进一步地，在一些实施方式中，以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练还包括：

通过手写文字识别模型识别所述输出结果中的文本内容，根据所述判别器性能和所述输出结果的生成性能之间的对抗损失以及所述文字识别模型的损失函数对所述第一特征编码器以及所述第二特征解码器进行训练。

进一步地，在一些实施方式中，所述第一特征向量和所述第二特征向量通过交叉注意力机制，得到融合所述第一特征和所述第二特征的第三向量，包括：

将所述第二特征向量作为查询向量，所述第一特征向量作为关键字向量和值向量，执行交叉注意力机制，得到融合所述第一特征和所述第二特征的第三向量。

进一步地，在一些实施方式中，所述自注意力机制及所述交叉注意力机制为多层多头注意力机制。

本说明书实施例还提出了一种资源生成方法，包括：

将包含第一特征的第一资源输入训练好的第一特征编码器，得到第一特征向量，所述第一特征编码器包括训练好的卷积神经网络的编码器以及针对所述卷积神经网络的编码器的输出向量的自注意力机制；

将包含第二特征的第二资源输入训练好的第二特征解码器，所述第二特征解码器包括自注意力机制、交叉注意力机制和所述卷积神经网络的解码器，所述第二样本通过所述自注意力机制得到第二特征向量，所述第一特征向量和所述第二特征向量通过所述交叉注意力机制，得到融合所述第一特征和所述第二特征的第四向量，将所述第四向量输入所述卷积神经网络的解码器中，得到融合所述第一特征和所述第二特征的目标资源。

进一步地，在一些实施方式中，所述第二资源包括文字资源或者图像资源。

进一步地，在一些实施方式中，所述第二资源为文字资源，所述将包含第二特征的第二资源输入训练好的第二特征解码器之前，所述方法还包括：

获取目标文字，对所述目标文字进行文字编码，得到所述文字资源。

进一步地，在一些实施方式中，所述第二资源为图像资源，所述将包含第二特征的第二资源输入训练好的第二特征解码器之前，所述方法还包括：

获取目标图像，对所述目标图像进行线性映射，得到所述图像资源。

进一步地，在一些实施方式中，所述方法还包括：

将生成的所述目标资源和真实资源混合，作为样本资源，对卷积循环神经网络进行训练，得到训练好的卷积循环神经网络用于资源真实性识别。

本说明书实施例还提出了一种模型训练装置，包括：

第一训练模块，用于将包含第一特征的第一样本输入第一特征编码器，得到第一特征向量，所述第一特征编码器包括卷积神经网络的编码器以及对针对所述卷积神经网络的编码器的输出向量的自注意力机制；

第二训练模块，用于将包含第二特征的第二样本输入第二特征解码器，所述第二特征解码器包括自注意力机制、交叉注意力机制和所述卷积神经网络的解码器，所述第二样本通过所述自注意力机制得到第二特征向量，所述第一特征向量和所述第二特征向量通过所述交叉注意力机制，得到融合所述第一特征和所述第二特征的第三向量，将所述第三向量输入所述卷积神经网络的解码器中，得到融合所述第一特征和所述第二特征的输出结果；

第三训练模块，用于以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练。

本说明书实施例还提出了一种资源生成装置，包括：

第一处理模块，用于将包含第一特征的第一资源输入训练好的第一特征编码器，得到第一特征向量，所述第一特征编码器包括训练好的卷积神经网络的编码器以及针对所述卷积神经网络的编码器的输出向量的自注意力机制；

第二处理模块，用于将包含第二特征的第二资源输入训练好的第二特征解码器，所述第二特征解码器包括自注意力机制、交叉注意力机制和所述卷积神经网络的解码器，所述第二样本通过所述自注意力机制得到第二特征向量，所述第一特征向量和所述第二特征向量通过所述交叉注意力机制，得到融合所述第一特征和所述第二特征的第四向量，将所述第四向量输入所述卷积神经网络的解码器中，得到融合所述第一特征和所述第二特征的目标资源。

本说明书实施例还提供一种计算机程序产品，所述计算机程序产品存储有至少一条指令，所述至少一条指令适于由处理器加载并执行上述的方法步骤。

本说明书实施例还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序适于由处理器加载并执行上述的方法的步骤。

本说明书实施例还提供一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法的步骤。

采用本说明书实施例提供的模型训练方法，上述模型训练方法，将包含第一特征的第一样本输入第一特征编码器，得到第一特征向量，第一特征编码器包括卷积神经网络的编码器以及对针对卷积神经网络的编码器的输出向量的自注意力机制；将包含第二特征的第二样本输入第二特征解码器，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器，第二样本通过自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第三向量，将第三向量输入卷积神经网络的解码器中，得到融合第一特征和第二特征的输出结果；以输出结果的真实性为训练目标，对第一特征编码器以及第二特征解码器进行训练。上述资源生成方法，将包含第一特征的第一资源输入训练好的第一特征编码器，得到第一特征向量，第一特征编码器包括训练好的卷积神经网络的编码器以及针对卷积神经网络的编码器的输出向量的自注意力机制；将包含第二特征的第二资源输入训练好的第二特征解码器，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器，第二样本通过自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第四向量，将第四向量输入卷积神经网络的解码器中，得到融合第一特征和第二特征的目标资源。通过该模型，能够高效地生成大量真实性较高的样本资源，用于后续的模型训练，解决了例如证件识别等过程中训练资源不足的问题。

附图说明

图1为本说明书实施例提供了一种模型训练方法的流程示意图；

图2为本说明书实施例提供的一种模型训练方法的流程示意图；

图3为本说明书实施例提供的一种模型训练方法的模型架构示意图；

图4为本说明书实施例提供的一种资源生成方法的流程示意图；

图5为本说明书实施例提供的一种第二资源处理方法的流程示意图；

图6为本说明书实施例提供的一种第二资源处理方法的流程示意图；

图7为本说明书实施例提供的一种模型训练装置的结构示意图；

图8为本说明书实施例提供的一种资源生成装置的结构示意图；

图9为本说明书实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

相关技术中，采集全球各地不同版式且数量较大的证件样本难度较大。基于此，本说明书一个或多个实施例提出了一种用于生成样本资源的模型训练方法，以及，用于生成样本资源的资源生成方法。上述模型训练方法，将包含第一特征的第一样本输入第一特征编码器，得到第一特征向量，第一特征编码器包括卷积神经网络的编码器以及对针对卷积神经网络的编码器的输出向量的自注意力机制；将包含第二特征的第二样本输入第二特征解码器，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器，第二样本通过自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第三向量，将第三向量输入卷积神经网络的解码器中，得到融合第一特征和第二特征的输出结果；以输出结果的真实性为训练目标，对第一特征编码器以及第二特征解码器进行训练。上述资源生成方法，将包含第一特征的第一资源输入训练好的第一特征编码器，得到第一特征向量，第一特征编码器包括训练好的卷积神经网络的编码器以及针对卷积神经网络的编码器的输出向量的自注意力机制；将包含第二特征的第二资源输入训练好的第二特征解码器，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器，第二样本通过自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第四向量，将第四向量输入卷积神经网络的解码器中，得到融合第一特征和第二特征的目标资源。通过该模型，能够高效地生成大量真实性较高的样本资源，用于后续的模型训练，解决了例如证件识别等过程中训练资源不足的问题。

本说明书一个或多个实施例提出的模型训练方法以及资源生成方法，可以用于证件识别领域，在证件识别领域中，上述生成的目标资源可以是证件的完整版式，也可以是证件中某一字段对应的文字条，例如姓名字段、地址字段或者证件号码字段等等。此外，上述模型训练方法以及资源生成方法也可以用于其他领域的版式资源生成，例如出版物的版式、宣传物的版式等，在此不做限制。

请参见图1，为本说明书实施例提供了一种模型训练方法的流程示意图。在本说明书实施例中，所述模型训练方法应用于模型训练装置或配置有模型训练装置的电子设备。下面将针对图1所示的流程进行详细的阐述，所述模型训练方法具体可以包括以下步骤：

S102，将包含第一特征的第一样本输入第一特征编码器，得到第一特征向量，第一特征编码器包括卷积神经网络的编码器以及对针对卷积神经网络的编码器的输出向量的自注意力机制。

在本说明书一个或多个实施例中，第一特征可以是风格特征，例如可以是证件版式中的文字条风格，或者文字字体风格，也可以是底色或者背景风格等，根据应用场景进行确认，在此不做限制。相对应的，包含第一特征的第一样本，则可以是能够体现该第一特征的样本，例如，各类型证件版式中包含不同风格的文字条样本，或者不同字体的文字内容样本，或者不同风格的底色或者背景样本。

在本说明书一个或多个实施例中，第一特征编码器包括卷积神经网络(Convolutional Neural Networks,CNN)的编码器以及自注意力机制，自注意力机制也可以被看做是Transformer编码器。第一样本输入CNN编码器后得到输出向量，将输出向量输入Transformaer编码器，得到第一特征向量，即，可以是风格向量。

在本说明书一个或多个实施例中，上述自注意力机制可以是多头多层的自注意力机制，通过多头注意力，模型能同时学习不同的依赖关系，增强了模型的表现力，以提高第一特征编码器的特征编码能力，从而进一步提高模型生成的目标资源的准确性和真实性。

在本说明书一个或多个实施例中，请参见图2，为本说明书实施例提供了一种模型训练方法的流程示意图。将包含第一特征的第一样本输入第一特征编码器之前，所述模型训练方法具体还可以包括以下步骤：

S202，通过包含不同的第一子特征的第三样本,卷积神经网络进行预训练。预训练好的卷积神经网络的编码器用于获取第一样本的鲁棒特征。

在本说明书一个或者多个实施例中，第一子特征可以是第一特征的子分类特征。例如，在第一特征为风格特征，第一样本为不同版式的文字条样本的情况下，第一子特征可以是文字条中的文字书法风格；又例如，在第一样本为不同版式的文字内容样本的情况下，第一子特征可以是文字的内容属性特征。

对应于不同的第一子特征，可以通过包含有第一子特征的第三样本对卷积神经网络进行预训练，得到预训练好的卷积神经网络的编码器。以上述在第一特征为风格特征，第一样本为不同版式的文字条样本的情况为例，可以通过以证件文字的文字条为样本数据集对卷积神经网络进行训练，从而使得卷积神经网络编码器可以通过预训练学习不同的书法风格。将第一样本输入训练好的卷积神经网络编码器得到输出向量，并通过Transformer编码器传递，从而获得第一样本的鲁棒特征。鲁棒性特征是指在面对异常值、缺失值、噪声或其他干扰时，能够保持稳定并能较好地反映数据内在结构的特征。这类特征有助于提升机器学习模型在遇到不同情况时的适应能力，确保模型在各种条件下都能提供准确的预测或决策，从而增加第一样本中风格特征获取的准确性和高效性。

S104，将包含第二特征的第二样本输入第二特征解码器，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器，第二样本通过自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第三向量，将第三向量输入卷积神经网络的解码器中，得到融合第一特征和第二特征的输出结果。

在本说明书一个或者多个实施例中，第二特征可以是内容特征，可以是证件文字条中所包含的内容例如数字、英文字母或者某种语言的文字，也可以是图像内容等，在此不做限制。相对应的，包含第二特征的第二样本可以是包含上述内容特征的样本，但是样本形式可以是多样的。例如，在第二特征是证件文字条中包含的文字内容的情况下，第二样本可以是包含文字内容的图像，也可以是文字内容本身，以及其他任何可以识别或者编译出文字内容的样本。

在本说明书一个或者多个实施例中，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器。需要说明的是，第二特征解码器中包括的交叉注意力机制可以视为与第一特征编码器中的Transformer编码器对应的transformer解码器，其本质也是注意力机制。第二样本通过自注意力机制得到内容向量对该内容向量与第一特征编码器得到的风格向量进行交叉注意力机制，得到融合了第一特征和第二特征的第三向量，例如风格-内容表示向量。再将第三向量送入CNN解码器中，输出风格化的内容。其中，上述CNN也可以是通过步骤S202所述的方式进行预训练的卷积神经网络。

在本说明书一个或多个实施例中，上述自注意力机制可以是多头多层的自注意力机制，通过多头注意力，模型能同时学习不同的依赖关系，增强了模型的表现力，以提高第二特征解码器的特征融合及解码能力，从而进一步提高模型生成的目标资源的准确性和真实性。

在本说明书的一个或者多个实施例中，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第三向量，包括：将第二特征向量作为查询向量，第一特征向量作为关键字向量和值向量，执行交叉注意力机制，得到融合第一特征和第二特征的第三向量。在transformer解码器中，包括查询(query)向量、关键字(key)向量和值(value)向量，通过Query和Key的点积计算，得到各元素之间的相似度矩阵，将相似度矩阵归一化为权重，利用权重矩阵对Value进行加权求和得到输出。

S106，以输出结果的真实性为训练目标，对第一特征编码器以及第二特征解码器进行训练。

在本说明书一个或多个实施例中，根据第一特征和第二特征得到输出结果，输出结果的形式通常可以是图片。例如，在第一特征为风格特征，第二特征为内容特征的情况下，输出结果为符合风格特征且内容为内容特征的文字条图像。

在训练阶段以输出结果的真实性为训练目标，对第一特征编码器以及第二特征解码器进行训练。对于输出结果的真实性判断可以借助训练好的判别器，提高输出结果被判别为真的可能性。由于上述模型是用于生成目标资源，而目标资源的作用可以是替代部分真实资源，作为其他模型的训练材料等，因此，以目标资源的真实性对该模型进行训练，可以提高该模型在使用时生成的目标资源的可用性。

在本说明书一个或多个实施例中，以输出结果的真实性为训练目标，对第一特征编码器以及第二特征解码器进行训练，包括：根据判别性能和输出结果真实性之间的对抗损失对第一特征编码器以及第二特征解码器进行训练。设上述模型为Y_θ，用于判别输出结果的判别器为D_η，则两者之间的对抗损失为：

L_adv＝Ε[max(1-D_η(X_W),0)]+Ε[max (1+D_η(Y_θ(X_W,C)),0)]

其中，X_W为第一样本，而C为内容特征对应的向量。

在本说明书一个或多个实施例中，以输出结果的真实性为训练目标，对第一特征编码器以及所述第二特征解码器进行训练还包括：通过手写文字识别模型识别输出结果中的文本内容，根据所述判别器性能和输出结果的生成性能之间的对抗损失以及文字识别模型的损失函数对第一特征编码器以及第二特征解码器进行训练。

除了上述L_adv之外，还可以利用手写文字识别模型识别输出结果中的文本，手写文字识别模型(HTR)可以使用样本进行训练，该模型的损失函数为：

L_HTR＝Ε[∑log (p(t_x|R_θ(X)))]

其中，x可以为生成模型的输出结果，也可以是真实样本。利用手写文字识别模型识别输出结果中的文本，从而迫使生成模型再现需要生成的文本内容，而不是渲染样式，结合L_adv与L_HTR对第一特征编码器以及第二特征解码器的参数进行调整，得到的训练模型能够进一步提高模型生成的资源的真实性与准确性。

本说明书提供的模型训练方法，将包含第一特征的第一样本输入第一特征编码器，得到第一特征向量，第一特征编码器包括卷积神经网络的编码器以及对针对卷积神经网络的编码器的输出向量的自注意力机制；将包含第二特征的第二样本输入第二特征解码器，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器，第二样本通过自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第三向量，将第三向量输入卷积神经网络的解码器中，得到融合第一特征和第二特征的输出结果；以输出结果的真实性为训练目标，对第一特征编码器以及第二特征解码器进行训练，从而得到可以生成大量与真实样本相似度高的目标资源，以解决例如证件识别等过程中资源不足的问题。

在本说明书一个可行的实施例中，请参见图3，本说明书实施例提供一种模型训练方法的模型架构示意图，如图3所示，模型包括风格编码器和内容指导解码器：

风格编码器包含CNN编码器和Transformer编码器，Transformer编码器包括多层多头的自注意力机制。风格编码器将风格样本图像X_w转换为风格特征S_w，并且CNN编码器会经过预训练过程从风格样本图像中获得鲁棒特征。上述CNN编码器的预训练是通过构建了一个证件字体文字条的大型数据集来进行预训练的。

内容指导解码器的包括两个模块，分别是多层多头解码器以及CNN解码器。解码器在文本内容样本中的内容向量C之间首先进行自注意力，随后在内容向量序列(被用作查询向量)和风格向量(被用作关键字向量和值向量)之间执行交叉注意力。通过这种方式，模型可以学习内容风格纠缠，因为每个查询向量都被迫关注风格向量。CNN解码器则生成风格化的输出图像。

请参见图4，为本说明书实施例提供的一种资源生成方法的流程示意图。如图4所示，所述资源生成方法包括如下步骤：

S402，将包含第一特征的第一资源输入训练好的第一特征编码器，得到第一特征向量，第一特征编码器包括训练好的卷积神经网络的编码器以及针对卷积神经网络的编码器的输出向量的自注意力机制。

在本说明书一个或多个实施例中，第一特征可以是风格特征，例如可以是证件版式中的文字条风格，或者文字字体风格，也可以是底色或者背景风格等，根据应用场景进行确认，在此不做限制。相对应的，包含第一特征的第一资源，则可以是能够体现该第一特征的资源，例如，各类型证件版式中包含不同风格的文字条，或者不同字体的文字内容，或者不同风格的底色或者背景。

在本说明书一个或多个实施例中，第一特征编码器包括卷积神经网络(Convolutional Neural Networks,CNN)的编码器以及自注意力机制，自注意力机制也可以被看做是Transformer编码器。第一特征编码器可以是通过本申请实施例中提供的模型训练方法训练的。第一资源输入CNN编码器后得到输出向量，将输出向量输入Transformaer编码器，得到第一特征向量，即，可以是风格向量。

在本说明书一个或多个实施例中，上述CNN编码器可以是通过如步骤S202及相关实施例进行预训练得到的，在此不做赘述。

S404，将包含第二特征的第二资源输入训练好的第二特征解码器，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器，第二样本通过自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第四向量，将第四向量输入卷积神经网络的解码器中，得到融合第一特征和第二特征的目标资源。

在本说明书一个或者多个实施例中，第二特征可以是内容特征，可以是证件文字条中所包含的内容例如数字、英文字母或者某种语言的文字，也可以是图像内容等，在此不做限制。相对应的，包含第二特征的第二资源可以是包含上述内容特征的资源，但是资源形式可以是多样的。例如，在第二特征是证件文字条中包含的文字内容的情况下，第二样本可以是包含文字内容的图像，也可以是文字内容本身，以及其他任何可以识别或者编译出文字内容的资源。

在本说明书一个或者多个实施例中，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器。需要说明的是，第二特征解码器中包括的交叉注意力机制可以视为与第一特征编码器中的Transformer编码器对应的transformer解码器，其本质也是注意力机制。第二特征解码器可以是通过本说明书一个或者多个实施例所提供的模型训练方法训练好的。第二资源通过自注意力机制得到内容向量对该内容向量与第一特征编码器得到的风格向量进行交叉注意力机制，得到融合了第一特征和第二特征的第四向量，例如风格-内容表示向量。再将第四向量送入CNN解码器中，输出风格化的内容。其中，上述CNN也可以是通过步骤S202所述的方式进行预训练的卷积神经网络。

通过本说明书一个或多个实施例中的资源生成方法，将包含第一特征的第一资源输入训练好的第一特征编码器，得到第一特征向量，第一特征编码器包括训练好的卷积神经网络的编码器以及针对卷积神经网络的编码器的输出向量的自注意力机制；将包含第二特征的第二资源输入训练好的第二特征解码器，第二特征解码器包括自注意力机制、交叉注意力机制和卷积神经网络的解码器，第二样本通过所述自注意力机制得到第二特征向量，第一特征向量和第二特征向量通过交叉注意力机制，得到融合第一特征和第二特征的第四向量，将第四向量输入所述卷积神经网络的解码器中，得到融合第一特征和所述第二特征的目标资源。上述方法可以用于全球证件文字条数据生成的方案，将一种证件当成一种风格，在大规模预训练的基础上，输入文字行的图像数据以及证件风格图像，输出对应证件风格的文字条数据。

从而高效获取大量可以用于例如证件识别等过程的资源。

在本说明书一个或多个实施例中，第二资源包括文字资源或者图像资源。可以更好地适应不同的应用场景，扩大本说明书一个或者多个实施例提供的资源生成方法的适用性。

进一步的，请参见图5，为本说明书实施例提供的一种第二资源处理方法的示意图。如图5所示，在本说明书一个或多个实施例中，第二资源为文字资源，将包含第二特征的第二资源输入训练好的第二特征解码器之前，所述方法还包括获取目标文字，对目标文字进行文字编码，得到文字资源。示例性的，可以通过对目标文字的输入进行自注意力以及前向反馈进行编码，编码结果作为第二资源输入第二特征解码器中。

可选地，请参见图6，为本说明书实施例提供的一种第二资源处理方法的示意图。在本说明书一个或者多个实施例中，第二资源为图像资源，将包含第二特征的第二资源输入训练好的第二特征解码器之前，所述方法还包括：获取目标图像，对目标图像进行线性映射，得到图像资源。如图6所示，示例性的，获取包含文字的目标图像，通过对目标图像进行线性映射，实现对目标图像中的文字的编码，并将编码结果输入第二特征解码器中。

在本说明书一个或多个实施例中，在获得目标资源之后，将生成的目标资源和真实资源混合，作为样本资源，对卷积循环神经网络进行训练，得到训练好的卷积循环神经网络用于资源真实性识别。即，生成的目标资源可以用于后续模型训练。以证件识别为例，在大规模的证件文字条上进行大规模预训练，学习每种证件的不同风格，训练得到风格编码器的预训练模型，将预训练模型用于本说明书一个或者多个实施例提供的模型训练方法，在证件大数据上进行训练，得到基于证件的数据生成模型，并用于本说明书一个或者多个实施例提供的资源生成方法，以此模型生成大量的数据；将真实的数据和数据生成的数据混合，并基于CRNN，训练一个全球证件的OCR识别模型，用于后续的全球证件识别。

请参见图7，为本说明书实施例提供的一种模型训练装置的结构示意图。如图7所示，该模型训练装置1可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。根据一些实施例，该模型训练装置1包括基础第一训练模块11、第二训练模块12和第三训练模块13，具体包括：

第一训练模块11，用于将包含第一特征的第一样本输入第一特征编码器，得到第一特征向量，所述第一特征编码器包括卷积神经网络的编码器以及对针对所述卷积神经网络的编码器的输出向量的自注意力机制；

第二训练模块12，用于将包含第二特征的第二样本输入第二特征解码器，所述第二特征解码器包括自注意力机制、交叉注意力机制和所述卷积神经网络的解码器，所述第二样本通过所述自注意力机制得到第二特征向量，所述第一特征向量和所述第二特征向量通过所述交叉注意力机制，得到融合所述第一特征和所述第二特征的第三向量，将所述第三向量输入所述卷积神经网络的解码器中，得到融合所述第一特征和所述第二特征的输出结果；

第三训练模块13，用于以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练。

可选的，模型训练装置1还包括预训练模块，用于通过包含不同的第一子特征的第三样本对所述卷积神经网络进行预训练，预训练好的所述卷积神经网络的编码器用于获取所述第一样本的鲁棒特征。

可选的，所述第三训练模块13在以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练过程中，具体用于：

可选的，所述第三训练模块13在以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练过程中，具体还用于：

可选的，第二训练模块12在所述第一特征向量和所述第二特征向量通过交叉注意力机制，得到融合所述第一特征和所述第二特征的第三向量的过程中，具体用于：

可选的，第一训练模块11以及第二训练模块12中的所述自注意力机制及所述交叉注意力机制为多层多头注意力机制。

请参见图8，为本说明书实施例提供的一种资源生成装置的结构示意图。如图8所示，所述资源生成装置2包括第一生成模块21，第二生成模块22，具体包括：

第一处理模块21，用于将包含第一特征的第一资源输入训练好的第一特征编码器，得到第一特征向量，所述第一特征编码器包括训练好的卷积神经网络的编码器以及针对所述卷积神经网络的编码器的输出向量的自注意力机制；

第二处理模块22，用于将包含第二特征的第二资源输入训练好的第二特征解码器，所述第二特征解码器包括自注意力机制、交叉注意力机制和所述卷积神经网络的解码器，所述第二样本通过所述自注意力机制得到第二特征向量，所述第一特征向量和所述第二特征向量通过所述交叉注意力机制，得到融合所述第一特征和所述第二特征的第四向量，将所述第四向量输入所述卷积神经网络的解码器中，得到融合所述第一特征和所述第二特征的目标资源。

可选的，资源生成装置2还包括资源预处理模块，资源预处理模块输入第二处理模块22的第二资源包括文字资源或者图像资源。

可选的，资源预处理模块输入训练好的第二特征解码器的第二资源为文字资源，将包含第二特征的第二资源输入训练好的第二特征解码器之前，资源预处理模块用于：

可选的，资源预处理模块输入训练好的第二特征解码器的第二资源为图像资源，将包含第二特征的第二资源输入训练好的第二特征解码器之前，资源预处理模块用于：

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供的一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1～图6所示实施例的所述方法，具体执行过程可以参见图1～图6所示实施例的具体说明，在此不进行赘述。

本说明书还提供的一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1～图6所示实施例的所述方法，具体执行过程可以参见图1～图6所示实施例的具体说明，在此不进行赘述。

本说明书实施例还提供了图9所示的电子设备的结构示意图。如图9，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他事务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述的模型训练以及资源生成方法。

当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、***、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练方法，所述方法包括：

2.根据权利要求1所述的方法，所述将包含第一特征的第一样本输入第一特征编码器之前，所述方法还包括：

3.根据权利要求1所述的方法，以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练，包括：

4.根据权利要求3所述的方法，以所述输出结果的真实性为训练目标，对所述第一特征编码器以及所述第二特征解码器进行训练还包括：

5.根据权利要求1所述的方法，所述第一特征向量和所述第二特征向量通过交叉注意力机制，得到融合所述第一特征和所述第二特征的第三向量，包括：

6.根据权利要求1所述的方法，所述自注意力机制及所述交叉注意力机制为多层多头注意力机制。

7.一种资源生成方法，所述方法包括：

8.根据权利要求7所述的方法，所述第二资源包括文字资源或者图像资源。

9.根据权利要求8所述的方法，所述第二资源为文字资源，所述将包含第二特征的第二资源输入训练好的第二特征解码器之前，所述方法还包括：

10.根据权利要求8所述的方法，所述第二资源为图像资源，所述将包含第二特征的第二资源输入训练好的第二特征解码器之前，所述方法还包括：

11.根据权利要求7所述的方法，所述方法还包括：

12.一种模型训练装置，包括：

13.一种资源生成装置，包括：

14.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6或7～11中任意一项所述方法的步骤。

15.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～6或7～11中任意一项所述方法的步骤。

16.一种计算机程序产品，其上存储有至少一条指令，其特征在于，所述至少一条指令被处理器执行时实现权利要求1～6或7～11中任意一项所述方法的步骤。