CN117372571A

CN117372571A - 一种文字处理方法、装置、计算机设备及存储介质

Info

Publication number: CN117372571A
Application number: CN202311280743.4A
Authority: CN
Inventors: 张涛; 苏俊杰; 欧阳双
Original assignee: Beijing Zitiao Network Technology Co Ltd
Current assignee: Beijing Zitiao Network Technology Co Ltd
Priority date: 2023-09-28
Filing date: 2023-09-28
Publication date: 2024-01-09

Abstract

本公开提供了一种文字处理方法、装置、计算机设备及存储介质，包括：获取目标文字，以及所述目标文字对应的风格提示信息；按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像；基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧；基于所述视频帧，生成与所述目标文字对应的风格化文字视频。通过这种方式可以实时的生成个性化的风格化文字视频，提升了风格化文字视频的处理速度和处理质量。

Description

一种文字处理方法、装置、计算机设备及存储介质

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种文字处理方法、装置、计算机设备及存储介质。

背景技术

在很多场景中，例如：视频编辑、动态海报制作等，都需要添加一些动态文字，以提高视觉效果的丰富性。一般的，在添加动态文字时，添加的动态文字往往是艺术字，而艺术字一般都是由专业的设计师设计的，这就导致可以提供给用户的艺术字是可选的几种，类型较少；并且设计师设计动态艺术字需要耗费大量的时间，效率较低。

发明内容

本公开实施例至少提供一种文字处理方法、装置、计算机设备及存储介质。

第一方面，本公开实施例提供了一种文字处理方法，包括：

获取目标文字，以及所述目标文字对应的风格提示信息；

按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像；

基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧；

基于所述视频帧，生成与所述目标文字对应的风格化文字视频。

一种可能的实施方式中，所述按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像，包括：

确定所述目标文字对应的字体信息；

按照所述字体信息生成与所述目标文字对应的文字图像；

确定与所述文字图像中的目标文字对应的掩模图像，并将所述掩模图像和与所述目标文字对应的风格提示信息输入至风格化模型中，确定与所述目标文字对应的风格化文字图像。

一种可能的实施方式中，所述基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧，包括：

对所述风格化文字图像进行堆叠处理，得到目标数量张初始图像；

对所述目标数量张初始图像进行特征提取，得到第一图像特征，并为所述第一图像特征添加噪声；

基于添加噪声后的所述第一图像特征和所述动态风格化模型，生成多张与所述风格化文字图像对应的视频帧。

一种可能的实施方式中，所述第一图像特征包括各初始图像分别对应的子图像特征；

所述为所述第一图像特征添加噪声，包括：

分别为所述第一图像特征中的各子图像特征添加噪声；其中，不同子图像特征添加的噪声不同。

一种可能的实施方式中，所述分别为所述第一图像特征中的各子图像特征添加噪声，包括：

针对所述子图像特征，确定与所述子图像特征对应的噪声特征；

将所述子图像特征与所述噪声特征进行融合，得到添加噪声后的子图像特征。

所述基于添加噪声后的所述第一图像特征和所述动态风格化模型，生成多张与所述风格化文字图像对应的视频帧，包括：

确定添加噪声后的第一图像特征中各子图像特征分别对应的掩码约束特征；

将添加噪声后的各子图像特征和对应的掩码约束特征进行融合，得到第二图像特征；

将所述第二图像特征输入至所述动态风格化模型中，生成多张与所述风格化文字图像对应的视频帧。

一种可能的实施方式中，所述将所述第二图像特征输入至所述动态风格化模型中，生成多张与所述风格化文字图像对应的视频帧，包括：

将所述第二图像特征作为输入特征，输入至所述动态风格化模型中，得到输出特征；

将所述输出特征重新作为输入特征，并返回执行输入所述动态风格化模型的步骤，直至循环预设次数；

对最后一次循环得到的输出特征进行解码，得到多张与所述风格化文字图像对应的视频帧。

一种可能的实施方式中，所述动态风格化模型基于以下方法调整得到：

获取参考视频；

提取所述参考视频的视频帧的参考图像特征；

为所述参考图像特征添加监督噪声，并将添加监督噪声后的参考图像特征输入至待调整的动态风格化模型中，确定所述待调整的动态风格化模型预测的，输入至所述动态风格化模型中的图像特征所包含的预测噪声；

基于所述预测噪声和所述监督噪声对所述待调整的动态风格化模型进行调整。

第二方面，本公开实施例还提供一种文字处理装置，包括：

获取模块，用于获取目标文字，以及所述目标文字对应的风格提示信息；

第一生成模块，用于按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像；

第二生成模块，用于基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧；

确定模块，用于基于所述视频帧，生成与所述目标文字对应的风格化文字视频。

第三方面，本公开实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本公开实施例提供的文字处理方法、装置、计算机设备及存储介质，可以在获取目标文字以及目标文字对应的风格提示信息之后，可以按照所述风格提示信息生成与所述目标文字对应的风格化文字图像，然后基于所述风格化文字图像以及三维风格化模式，生成多张视频帧，并基于视频帧，生成与所述目标文字对应的风格化文字视频。通过这种方式，可以实时的生成个性化的风格化文字视频，提升了风格化文字视频的处理速度和处理质量。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种文字处理方法的流程图；

图2示出了本公开实施例所提供的文字处理方法中，一种风格化文字图像的示意图；

图3示出了本公开实施例所提供的一种动态风格化模型的训练方法的流程图；

图4示出了本公开实施例所提供的一种动态风格化模型的训练过程的整体流程图；

图5示出了本公开实施例所提供的一种动态风格化模型的推理过程的整体流程图；

图6示出了本公开实施例所提供的一种文字处理装置的架构示意图；

图7示出了本公开实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

经研究发现，在很多场景中，例如：视频编辑、动态海报制作等，都需要添加一些动态文字，以提高视觉效果的丰富性。一般的，在添加动态文字时，添加的动态文字往往是艺术字，而艺术字一般都是由专业的设计师设计的，这就导致可以提供给用户的艺术字是可选的几种，类型较少；并且设计师设计动态艺术字需要耗费大量的时间，效率较低。

基于上述研究，本公开提供了一种文字处理方法、装置、计算机设备及存储介质，可以在获取目标文字以及目标文字对应的风格提示信息之后，可以按照所述风格提示信息生成与所述目标文字对应的风格化文字图像，然后基于所述风格化文字图像以及三维风格化模式，生成多张视频帧，并基于视频帧，生成与所述目标文字对应的风格化文字视频。通过这种方式，可以实时的生成个性化的风格化文字视频，提升了风格化文字视频的处理速度和处理质量。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种文字处理方法进行详细介绍，本公开实施例所提供的文字处理方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该文字处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的文字处理方法的流程图，所述方法包括步骤101～步骤104，其中：

步骤101、获取目标文字，以及所述目标文字对应的风格提示信息；

步骤102、按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像；

步骤103、基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧；

步骤104、基于所述视频帧，生成与所述目标文字对应的风格化文字视频。

以下是对上述步骤的详细描述。

针对步骤101和步骤102、

所述目标文字可以是待进行风格化处理的问题，一种可能的实施方式中，在获取所述目标文字时，可以是接收用户输入的文字，或者可以是对图像进行光学字符识别(Optical Character Recognition，OCR)，然后将识别得到的文字作为所述目标文字。

在一种可能的应用场景中，所述目标文字可以是用于添加在待处理视频上的文字，例如在视频剪辑场景中，所述目标文字可以是需要在待处理视频中添加的文字，因此所述获取目标文字，可以是获取在待处理视频上添加的目标文字。

一种可能的实施方式中，在按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像时，示例性的可以参照如下步骤：

步骤a1、确定所述目标文字对应的字体信息；

步骤a2、按照所述字体信息生成与所述目标文字对应的文字图像；

步骤a3、确定与所述文字图像中的目标文字对应的掩模图像，并将所述掩模图像和与所述目标文字对应的风格提示信息输入至风格化模型中，确定与所述目标文字对应的风格化文字图像。

其中，所述与目标文字对应的字体信息例如可以包括宋体、楷体、黑体等字体类型；在确定与所述目标文字对应的字体信息时，可以是响应用户的设置指令，将设置指令中携带的字体信息确定为与所述目标文字对应的字体信息。

可选地，所述字体信息还可以包括字体大小、字体粗细等。

在另外一种可能的实施方式中，在获取目标文字，以及确定与所述目标文字对应的字体信息时，可以是在获取待处理视频之后，对所述待处理视频进行内容识别，并基于内容识别结果确定与所述待处理视频匹配的目标文字，以及所述目标文字对应的字体信息。

具体的，在视频剪辑场景中，可以通过自动配文的方式来为视频添加文字，而所述目标文字可以即为在为视频进行自动配文时自动生成的文字。

示例性的，在自动配文时可以借助于配文模型，将所述待处理视频输入至所述配文模型之后，所述配文模型可以自动输出与所述待处理视频匹配的目标文字，以及目标文字对应的字体信息。

例如，若待处理视频为动画片，则与所述待处理视频匹配的目标文字可以是某一首儿歌的歌词。

步骤a3中，所述风格化模型可以是生成式人工智能(Artificial IntelligenceGenerated Content，AIGC)模型；与所述目标文字对应的风格提示信息prompt，用于提示所述风格化模型将文字图像处理成何种风格的图像。可选地，在确定所述目标文字对应的风格提示信息时，可以通过如下方法中的任一种：

方法1、接收用户输入的与所述目标文字对应的风格提示信息。

具体的，用户可以在输入目标文字时，同时输入与目标文字对应的风格提示信息。

方法2、对所述待处理视频进行风格检测，基于风格检测结果确定与所述目标文字对应的风格提示信息。

这里，所述待处理视频可以是指，在获取目标文字时，目标文字所在的视频；由于所述目标文字是需要添加在待处理视频上的，因此最终成的风格化文字需要与所述待处理视频的风格保持一致。

具体实施中，在对所述待处理视频进行风格检测时，可以通过预先训练的风格检测模型，将所述待处理视频输入至所述风格检测模型中，所述风格检测模型可以输出所述风格检测结果，所述风格检测结果中包括所述待处理视频所属的风格。

在确定所述风格检测结果之后，可以根据预先建立的视频风格与文字风格之间的对应关系，确定与所述待处理视频的视频风格对应的文字风格，并将确定的文字风格作为所述风格提示信息。

方法3、对所述目标文字进行内容检测，基于内容检测结果确定与所述文字对应的风格提示信息。

具体的，所述对所述目标文字进行内容检测可以是，对所述目标文字进行分词处理，确定所述目标文字所包含的关键词，然后检测所述目标文字所包含的关键词中是否包括目标关键词，并将所述目标关键词作为所述风格提示信息。其中，所述分词处理例如可以N-gram模型来执行。

所述目标关键词可以为用于表征风格信息的词，例如漫画、古风、酷炫等。所述目标关键词可以是预先设置的关键词。

可选地，在所述风格提示信息中包含主体对象的名称时，所述风格化文字图像可以是基于所述主体对象组合成的文字，这里所述的组合可以理解为拼凑。

示例性的，若所述风格提示信息为“正在融化的冰激凌”，目标文字为“WORD”，则生成的风格化文字图像中的文字为基于融化的冰淇淋组合拼成的“WORD”，示例性的，如图2所示。

在所述风格提示信息中不包含主体对象的名称的情况下，所述目标文字对应的风格化文字图像中的文字为基于与所述风格提示信息关联的关联对象组合成的文字。

这里，与所述风格提示信息关联的关联对象可以理解为能够体现所述风格提示信息所指示的风格的对象，示例性的，若所述风格提示信息为水果，则所述关联对象可以为苹果、葡萄、香蕉等；若所述风格提示信息为鲜花，则所述关联对象可以为百合花、向日葵、玫瑰花等。

需要说明的是，上述组成文字的主体对象/关联对象可以为一种或多种类型的对象。

针对步骤103、

一种可能的实施方式中，在基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧时，可以参照如下步骤：

步骤b1、对所述风格化文字图像进行堆叠处理，得到目标数量张初始图像；

步骤b2、对所述目标数量张初始图像进行特征提取，得到第一图像特征，并为所述第一图像特征添加噪声；

步骤b3、基于添加噪声后的所述第一图像特征和所述动态风格化模型，生成多张与所述风格化文字图像对应的视频帧。

步骤b1中，所述对风格化文字图像进行堆叠处理，可以理解为，将所述风格化文字图像复制N张，并将N张风格化文字图像按照顺序进行排列，这里N为所述目标数量。

这里，将所述风格化文字图像进行堆叠处理的目的在于，基于后续步骤将各张风格化文字图像进行改动，然后再将改动之后的风格化文字图像排列之后，即可实现动态的风格化文字图像的效果，即风格化文字视频。

对所述风格化文字图像进行堆叠处理，得到的可以为3×N×H×W的数据块，其中，3为图片的通道数(一般为RGB三通道)，N为目标数数量，H×W为风格化文字图像的尺寸。

步骤b2中，在对所述目标数量张初始图像进行特征提取时，可以是通过编码器，对所述3×N×H×W的数据块进行特征提取，在进行特征提取时，可以在“N”的方向上，逐层进行特征提取，即逐个图像的进行特征提取。

这样在进行特征提取之后，得到的所述第一图像特征应该包括各初始图像分别对应的子图像特征，相应的在步骤b3中，在为所述第一图像特征添加噪声时，可以是分别为所述第一图像特征中的各子图像特征添加噪声；其中，不同子图像特征添加的噪声不同。

具体实施中，在为所述第一图像特征中的各子图像特征添加噪声时，针对各子图像特征，可以确定与各子图像特征分别对应的噪声图像，然后将所述子图像特征与所述噪声特征进行融合，得到添加噪声后的子图像特征。

其中，每个子图像特征对应的噪声可以是随机生成的。示例性的，针对每一张初始图像，可以随机生成与该图像对应的噪声图像，然后对所述噪声图像进行特征提取，得到所述噪声特征。

所述子图像特征与所述噪声特征的特征尺寸可以是相同的，在将所述子图像特征与所述噪声特征进行融合时，示例性的，可以将所述子图像特征与所述噪声图像特征对应特征位置处的取值进行加权求和，得到添加噪声后的子图像特征在该特征位置处的取值。

示例性的，所述子图像特征与所述噪声特征在融合时，可以通过如下公式：

L_mid＝L_im*α+L_noise*(1-α)

其中，L_mid表示添加噪声后的子图像特征，L_im表示子图像特征，L_noise表示噪声特征，α表示子图像特征对应的权重，1-α表示噪声特征对应的权重。

可选地，在将所述子图像特征与所述噪声特征融合之后，融合之后的各子图像特征按照堆叠处理时的堆叠顺序进行拼接，得到所述添加噪声后的第一图像特征，然后将添加噪声后的第一图像特征输入至所述动态风格化模型，可以生成多张与所述风格化文字图像对应的视频帧。

一种可能的实施方式中，为保证生成的视频帧中字体的稳定性，还可以在生成视频帧的过程中，添加字体约束，以保证字体的稳定性。

具体的，在基于添加噪声后的所述第一图像特征和所述动态风格化模型，生成多张与所述风格化文字图像对应的视频帧时，可以先确定添加噪声后的第一图像特征中各子图像特征分别对应的掩码约束特征；然后将添加噪声后的各子图像特征和对应的掩码约束特征进行融合，得到第二图像特征；再将所述第二图像特征输入至所述动态风格化模型中，生成多张与所述风格化文字图像对应的视频帧。

这里，不同子图像特征分别对应的掩码约束特征可以是不同的，其原因在于，若对所有的图像都采用相同的字体约束，则最终生成的风格化文字视频的动态效果可能较差。一般的，对于风格化文字视频的前几帧视频帧的约束更强，对于后几帧视频帧的约束更弱。

示例性的，在确定各子图像特征分别对应的掩码约束特征时，可以采用如下公式进行计算：

mask_t＝(N-t)*mask/10

其中，mask_t表示第t帧初始图像的子图像特征对应的掩码约束特征，N表示初始图像的数量，即所述目标数量，mask表示掩码特征，所述掩码特征可以是对所述目标文字对应的掩码图像进行特征提取后的特征。

通过上述公式可知，t越大，N-t越小，相应的，mask_t的取值越小，因此，帧序号越小的初始图像的子图像特征，其对应的约束越强，帧序号越大的初始图像的子图像特征，其对应的约束越弱。

在将添加噪声后的各子图像特征和对应的掩码约束特征进行融合时，示例性的可以通过如下公式：

L_mix＝L_{mid_0}*mask_t+L_{mid_t}*(1-mask_t)

其中，L_mix表示将添加噪声后的各子图像特征和对应的掩码约束特征进行融合后的特征，L_{mid_0}表示首帧初始图像的添加噪声后的子图像特征，L_{mid_t}表示第t帧初始图像的添加噪声后的子图像特征。

这样，在将各个子图像特征和对应的掩码约束特征融合时，结合首帧初始图像的子图像特征，通过首帧初始图像的子图像特征作为约束，避免帧与帧之间的差距过大，影响生成的风格化文字视频的效果。

将添加噪声后的各子图像特征和对应的掩码约束特征进行融合后，可以将融合后的图像特征按照对应的初始图像的堆叠顺序进行拼接，得到所述第二图像特征。

在将所述第二图像特征输入至所述动态风格化模型中，生成多张与所述风格化文字图像对应的视频帧时，可以将所述第二图像特征作为输入特征，输入至所述动态风格化模型中，得到输出特征；然后将所述输出特征重新作为输入特征，并返回执行输入所述动态风格化模型的步骤，直至循环预设次数；再对最后一次循环得到的输出特征进行解码，得到多张与所述风格化文字图像对应的视频帧。

这里，循环多次的目的在于，通过动态风格化模型多次预测所述第二图像特征中噪声特征，以提高生成的视频帧的关联以及动感，并消除视频帧之间的静态干扰，具体的循环预设次数可以根据实际情况进行调整。

针对步骤104、

在确定多张视频帧之后，可以将所述多张视频帧按照所述初始图像的堆叠顺序进行排列，排列之后即可得到所述风格化文字视频。

需要说明的是，在对输出特征进行解码之后，相邻两帧视频帧之间的差别不大，但是各帧视频帧之间均存在差异。

本公开实施例还提供一种动态风格化模型的训练方法，参照图3所示，为本公开实施例提供的一种动态风格化模型的训练方法的流程图，包括如下几个步骤：

步骤301、获取参考视频。

步骤302、提取所述参考视频的视频帧的参考图像特征。

步骤303、为所述参考图像特征添加监督噪声，并将添加监督噪声后的参考图像特征输入至待调整的动态风格化模型中，确定所述待调整的动态风格化模型预测的，输入至所述动态风格化模型中的图像特征所包含的预测噪声。

步骤304、基于所述预测噪声和所述监督噪声对所述待调整的动态风格化模型进行调整。

这里，所述为参考图像特征添加监督噪声，可以是指随机生成图像噪声，并将生成的图像噪声添加至参考图像特征上，由于为参考图像特征添加的何种噪声是可以确定的，因此可以以为参考图像特征添加的图像噪声为监督数据。

在动态风格化模型输入图像特征之后，动态风格化模型可以预测输入的图像特征中所添加的图像噪声为何种噪声，然后可以基于监督数据即监督噪声，以及动态风格化模型预测的预测噪声，确定本次训练过程中的损失值，并基于损失值，调整所述动态风格化模型的模型参数值。

基于这种方式训练的动态风格化模型，可以从大量的参考视频中学习到不同物体的运动形态，例如“飘动的火焰”对应的视觉动效。当训练好的动态风格化模型进行模型推理时，由于输入动态风格化模型的图像特征为多张静态图像的图像特征，因此，动态风格化模型可以理解为多张静态图像是由于添加了噪声而导致丧失了运动形态，故通过动态风格化模型预测输入的图像特征所包含的噪声，可以“还原”多张静态图像中物体的运动形态。

需要说明的是，这里所述三维风格化在推理时，预测的图像特征中所包含的图像噪声，与上述步骤b2中添加的图像噪声并不为同一噪声。

下面将结合整体流程图对上述动态风格化模型的训练过程以及推理过程分别进行介绍。

参照图4所示，为本公开实施例提供的一种动态风格化模型的训练过程的整体流程图，包括如下几个步骤：

首先对获取的参考视频进行特征提取，得到参考图像特征，然后随机生成噪声，并将噪声添加至参考图像特征中，再将添加噪声后的参考图像特征输入至待训练的动态风格化模型中，动态风格化模型可以输出预测噪声，然后基于预测噪声和为参考图像特征添加的噪声进行损失计算。

关于上述步骤的详细描述参照图3的实施例的介绍，在此将不再赘述。

参照图5所示，为本公开实施例提供的一种动态风格化模型的推理过程的整体流程图，包括如下几个步骤：

首先基于风格化模型生成目标文字的风格化文字图像，然后提取风格化文字图像的图像特征，得到第一图像特征；再为第一图像特征添加随机生成的图像噪声，再将添加图像噪声后的第一图像特征作为输入特征输入至动态风格化模型中，并将动态风格化模型的输出特征重新作为输入特征，输入至动态风格化模型中，循环多次，并对最后一次循环的输出。特征进行解码，得到多张与所述风格化文字图像对应的视频帧

这里，所述风格化模型区别于所述动态风格化模型，所述动态风格化模型在风格化模型的基础上增加了运动建模模块，所述运动建模模块可以学习参考视频中的物体的运动形态。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与文字处理方法对应的文字处理装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述文字处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图6所示，为本公开实施例提供的一种文字处理装置的架构示意图，所述装置包括：获取模块601、第一生成模块602、第二生成模块603、确定模块604以及调整模块605；其中，

获取模块601，用于获取目标文字，以及所述目标文字对应的风格提示信息；

第一生成模块602，用于按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像；

第二生成模块603，用于基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧；

确定模块604，用于基于所述视频帧，生成与所述目标文字对应的风格化文字视频。

一种可能的实施方式中，所述第一生成模块602，在按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像时，用于：

确定所述目标文字对应的字体信息；

按照所述字体信息生成与所述目标文字对应的文字图像；

一种可能的实施方式中，所述第二生成模块603，在基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧时，用于：

所述第二生成模块603，在为所述第一图像特征添加噪声时，用于：

一种可能的实施方式中，所述第二生成模块603，在分别为所述第一图像特征中的各子图像特征添加噪声时，用于：

所述第二生成模块603，在基于添加噪声后的所述第一图像特征和所述动态风格化模型，生成多张与所述风格化文字图像对应的视频帧时，用于：

一种可能的实施方式中，所述第二生成模块603，在将所述第二图像特征输入至所述动态风格化模型中，生成多张与所述风格化文字图像对应的视频帧时，用于：

一种可能的实施方式中，所述装置还包括调整模块605，用于基于以下方法调整得到所述动态风格化模型：

获取参考视频；

提取所述参考视频的视频帧的参考图像特征；

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

基于同一技术构思，本公开实施例还提供了一种计算机设备。参照图7所示，为本公开实施例提供的计算机设备700的结构示意图。本公开实施例中的计算机设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端，或者各种形式的服务器，如独立服务器或者服务器集群。图7示出的计算机设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机设备700可以包括处理装置(例如中央处理器、图形处理器等)701，其可以根据存储在只读存储装置(ROM)702中的程序或者从存储装置705加载到随机访问存储装置(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有计算机设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

通常，以下装置可以连接至I/O接口705：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置707；包括例如磁带、硬盘等的存储装置708；以及通信装置709。通信装置709可以允许计算机设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的计算机设备700，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行文字处理方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置709从网络上被下载和安装，或者从存储装置708被安装，或者从ROM 702被安装。在该计算机程序被处理装置701执行时，执行本公开实施例的方法中限定的上述功能。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的文字处理方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的文字处理方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种文字处理方法，其特征在于，包括：

获取目标文字，以及所述目标文字对应的风格提示信息；

2.根据权利要求1所述的方法，其特征在于，所述按照所述风格提示信息，生成与所述目标文字对应的风格化文字图像，包括：

确定所述目标文字对应的字体信息；

按照所述字体信息生成与所述目标文字对应的文字图像；

3.根据权利要求1所述的方法，其特征在于，所述基于所述风格化文字图像以及动态风格化模型，生成多张与所述风格化文字图像对应的视频帧，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一图像特征包括各初始图像分别对应的子图像特征；

所述为所述第一图像特征添加噪声，包括：

5.根据权利要求4所述的方法，其特征在于，所述分别为所述第一图像特征中的各子图像特征添加噪声，包括：

6.根据权利要求3所述的方法，其特征在于，所述第一图像特征包括各初始图像分别对应的子图像特征；

7.根据权利要求6所述的方法，其特征在于，所述将所述第二图像特征输入至所述动态风格化模型中，生成多张与所述风格化文字图像对应的视频帧，包括：

8.根据权利要求1～7任一所述的方法，其特征在于，所述动态风格化模型基于以下方法调整得到：

获取参考视频；

提取所述参考视频的视频帧的参考图像特征；

9.一种文字处理装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一项所述的文字处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一项所述的文字处理方法的步骤。