CN113920229A

CN113920229A - 一种虚拟角色的处理方法、装置及存储介质

Info

Publication number: CN113920229A
Application number: CN202111040172.8A
Authority: CN
Inventors: 张嘉益
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2022-01-11

Abstract

本公开是关于一种虚拟角色的处理方法、装置及存储介质。该方法包括：获取用户输入的语句；基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息；根据所述人设信息，得到第一图像；确定与所述第一图像对应的动作参数；根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色；其中，所述目标虚拟角色能够执行与所述动作参数对应的动作。相较于相关技术中仅关注虚拟角色的人设，或者仅关注虚拟角色的形象的技术方案，本公开实施例中的技术方案能够实现从人设到形象的完整角色创建过程，不仅简化了传统角色创建所需的工程量，还能够使得创建的虚拟角色的人设和形象更加自然。

Description

一种虚拟角色的处理方法、装置及存储介质

技术领域

本公开涉及计算机技术，尤其涉及一种虚拟角色的处理方法、装置及存储介质。

背景技术

随着互联网、信息通讯以及人工智能(Artificial Intelligence，AI)技术的发展，人们开始对AI创作逐渐产生了兴趣，其中，AI写诗、AI画画、AI自动根据音乐生成舞蹈动作、AI生成歌曲、AI唱歌、AI写故事等新颖有趣的尝试与应用逐渐走入了大众的视野。与此同时，虚拟人物诸如虚拟偶像、虚拟主播等也进入公众视野。

发明内容

本公开提供一种虚拟角色的处理方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种虚拟角色的处理方法，应用于电子设备，包括：

获取用户输入的语句；

基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息；

根据所述人设信息，得到第一图像；

确定与所述第一图像对应的动作参数；

根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色；

其中，所述目标虚拟角色能够执行与所述动作参数对应的动作。

在一些实施例中，所述根据人设信息，得到第一图像，包括：

将所述人设信息输入图像生成模型，得到所述第一图像；

其中，所述第一图像具有二维显示效果。

从预设角色库中确定出预存的多个虚拟角色；

根据所述人设信息与所述多个虚拟角色对应的预设人设信息之间的相似度，从所述多个虚拟角色对应的多个图像中确定出所述第一图像。

在一些实施例中，所述根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色，包括：

将所述第一图像和所述动作参数输入图像转换模型，得到所述目标虚拟角色；

其中，所述目标虚拟角色具有三维显示效果。

在一些实施例中，所述基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息，包括：

在所述语句为第一类型的语句的情况下，基于所述语句分析模型，从所述第一类型的语句中提取出与虚拟角色相关的人设信息；

其中，所述第一类型的语句包括虚拟角色的人设特征。

在一些实施例中，所述方法还包括：

在已创建所述目标虚拟角色，且所述语句为第二类型的语句的情况下，根据所述第二类型的语句，对所述目标虚拟角色的视觉形象进行调整；

其中，所述第二类型的语句包括虚拟角色的形象特征。

在一些实施例中，所述根据所述第二类型的语句，对所述目标虚拟角色的视觉形象进行调整，包括：

将所述第二类型的语句、所述人设信息以及所述第一图像输入图像生成模型，以得到视觉形象调整后的第一图像；

将视觉形象调整后的第一图像和所述动作参数输入图像转换模型，得到视觉形象调整后的目标虚拟角色。

在一些实施例中，所述方法还包括：

在已创建所述目标虚拟角色，且所述语句为第三类型的语句的情况下，根据所述第三类型的语句，对所述目标虚拟角色的动作进行调整；

其中，所述第三类型的语句包括虚拟角色的动作特征。

在一些实施例中，所述根据所述第三类型的语句，对所述目标虚拟角色的动作进行调整，包括：

将所述第三类型的语句、所述人设信息以及所述第一图像输入所述图像转换模型，得到动作调整后的目标虚拟角色。

根据本公开实施例的第二方面，提供一种虚拟角色的处理装置，应用于电子设备，包括：

第一获取模块，配置为获取用户输入的语句；

提取模块，配置为基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息；

第二获取模块，配置为根据所述人设信息，得到第一图像；

确定模块，配置为确定与所述第一图像对应的动作参数；

第三获取模块，配置为根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色；

在一些实施例中，所述第二获取模块，配置为：

将所述人设信息输入图像生成模型，得到所述第一图像；

其中，所述第一图像具有二维显示效果。

在一些实施例中，所述第二获取模块，配置为：

从预设角色库中确定出预存的多个虚拟角色；

在一些实施例中，所述第三获取模块，配置为：

其中，所述目标虚拟角色具有三维显示效果。

在一些实施例中，所述提取模块，配置为：

其中，所述第一类型的语句包括虚拟角色的人设特征。

在一些实施例中，所述装置还包括：

第一调整模块，配置为在已创建所述目标虚拟角色，且所述语句为第二类型的语句的情况下，根据所述第二类型的语句，对所述目标虚拟角色的视觉形象进行调整；

其中，所述第二类型的语句包括虚拟角色的形象特征。

在一些实施例中，所述第一调整模块，配置为：

在一些实施例中，所述装置还包括：

第二调整模块，配置为在已创建所述目标虚拟角色，且所述语句为第三类型的语句的情况下，根据所述第三类型的语句，对所述目标虚拟角色的动作进行调整；

其中，所述第三类型的语句包括虚拟角色的动作特征。

在一些实施例中，所述第二调整模块，配置为：

根据本公开实施例的第三方面，提供一种虚拟角色的处理装置，应用于电子设备，所述装置包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述第一方面中任一种虚拟角色的处理方法中的步骤。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由虚拟角色的处理装置的处理器执行时，使得所述装置能够执行上述第一方面中任一种虚拟角色的处理方法中的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例中，在创建虚拟角色的过程中，可以先获取用户输入的语句，基于语句分析模型，从用户输入的语句中提取出与虚拟角色相关的人设信息，根据人设信息得到第一图像，进而确定与第一图像对应的动作参数，并根据第一图像和该动作参数，得到对第一图像进行转换后的目标虚拟角色，且目标虚拟角色能够执行与动作参数对应的动作。

相较于相关技术中仅关注虚拟角色的人设，或者仅关注虚拟角色的形象的技术方案，本公开实施例中的技术方案能够实现从人设到形象的完整角色创建过程，不仅简化了传统角色创建所需的工程量，还能够使得创建的虚拟角色的人设和形象更加自然。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据本公开一示例性实施例示出的虚拟角色的处理方法的流程示意图一。

图2是根据本公开一示例性实施例示出的虚拟角色的处理方法的流程示意图二。

图3是根据本公开一示例性实施例示出的虚拟角色的处理方法的流程示意图三。

图4是根据本公开一示例性实施例示出的一种虚拟角色的处理装置框图。

图5是根据本公开一示例性实施例示出的一种虚拟角色的处理装置1200的框图。

图6是根据本公开一示例性实施例示出的另一种用于虚拟角色的处理装置1300的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例中的虚拟角色的处理方法可以应用于：游戏、社交平台中角色形象的创建及调整等场景中。例如，人物形象或者动物形象的创建及调整等。

在相关技术中，在创建虚拟角色的过程中，只关注角色创建中的一点，比如，仅关注虚拟角色的人设，或者仅关注虚拟角色的形象等，并不能实现从人设到形象的完整角色创建过程。即人设与形象的创建过程一般相对独立，不仅增加了角色创建所需的工程量，还容易使得创建的角色产生割裂违和感。例如，一个性格卑鄙的人设，大概率应该对应一个尖嘴猴腮的形象；一个笑容甜美的形象，大概率应该对应一个活泼开朗的性格。

且相关技术中，角色创建的过程普遍比较机械化，比如创建人设需要填写心理测试，创建视觉形象需要拖动/设置角色参数，并使用专业三维(3D)设计工具等等，而专业3D设计工具并不能基于自然交互语言的方式去方便地实现用户所想。本公开实施例中，在人设设计完成之后，就能自动生成与该人设对应的形象；反之亦然。这样，就不必两个创建过程都需要从头来。且用户能够基于自然交互语言的方式实现虚拟角色的创建与调整。

图1是根据本公开一示例性实施例示出的虚拟角色的处理方法的流程示意图一，如图1所示，该方法应用于电子设备，主要包括以下步骤：

在步骤101中，获取用户输入的语句；

在步骤102中，基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息；

在步骤103中，根据所述人设信息，得到第一图像；

在步骤104中，确定与所述第一图像对应的动作参数；

在步骤105中，根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色；

需要说明的是，本公开实施例中的虚拟角色的处理方法可以应用于电子设备，其中，电子设备包括移动终端和固定终端。这里，移动终端包括：智能音箱、手机、笔记本电脑、平板电脑、可穿戴式电子设备等，固定终端包括个人计算机、电视等。

在实现的过程中，用户可以基于电子设备的音频采集组件输入音频格式的语句，或者通过文本输入界面输入文本格式的语句。以输入的是音频格式的语句为例，电子设备在采集到音频格式的语句之后，可以对音频格式的语句进行语音识别，进而得到文本格式的语句。

本公开实施例中，在得到文本格式的语句之后，可以将该语句输入语句分析模型，以从该语句中提取出与虚拟角色相关的人设信息。例如，可以基于句法依存分析模型(dependency parsing)，从该语句中提取出与虚拟角色相关的人设信息。

例如，用户输入的语句为：我想角色名字叫abc；则提取出的人设信息可以为：<角色名字，叫，abc>。再例如，用户输入的语句为：她是女的，性格随和；则提取出的人设信息可以为：<她，是，女的>、<她，性格，随和>。

在一些实施例中，在提取出人设信息之后，可以将符合语法的人设信息***角色人设表中，使得虚拟角色人设的设定生效。其中，角色人设表用于存储各个虚拟角色的人设信息。这里，在需要获取人设信息时，则可以直接从该角色人设表中获取。

本公开实施例中，在得到人设信息之后，可以根据人设信息，得到第一图像。例如，可以基于人设信息得到二维显示效果的第一图像，或者基于人设信息得到三维显示效果的第一图像。在确定出第一图像之后，可以确定出与第一图像对应的动作参数，并根据第一图像和该动作参数，得到对第一图像进行转换后的目标虚拟角色。

在一些实施例中，可以基于用户输入的语句确定与第一图像对应的动作参数。例如，可以基于语句分析模型，从语句中提取出与虚拟角色的动作信息，进而得到对应的动作参数。比如，用户输入的语句为：她会摇头；则提取出的动作信息可以为：<她，摇头>。

将所述人设信息输入图像生成模型，得到所述第一图像；

其中，所述第一图像具有二维显示效果。

这里，图像生成模型可以包括：Dall-E模型、VAE(Variational Auto-Encoder)模型，DRAW(Deep Recurrent Attention Writer)模型或者GAN模型等。图像生成模型的主要任务是从一句描述性文本生成与文本内容相对应的图像。

以图像生成模型是Dall-E模型为例，可以通过预训练Dall-E模型中的图像编码器和文本编码器来预测各个图像与数据集中随机采样的文本片段中的哪些文本真正配对，进而训练得到分类器，最后，将数据集的所有类别转换成文字，并预测文本的类别与给定图像的最佳对应关系，在实现的过程中，可以通过输入的文本和训练得到的对应关系，确定出与输入文本对应的图像。

以图像生成模型是GAN模型为例，在实现的过程中，可以先对用户输入的语句(如，自然语言文本)进行处理得到文本特征，进而将得到的文本特征作为后续第一图像生成过程的约束，GAN模型的生成器(Generator)可以根据该文本特征生成第一图像，继而通过鉴别器(Discriminator)鉴定第一图像生成效果。在另一些实施例中，还可以根据鉴别器的鉴定结果，对第一图像的显示效果进行调整，例如，可以控制生成器再次生成更真实的图像，鉴别器则再次对新图鉴定，以此类推，迭代进行直到达到预设收敛条件。

也就是说，本公开实施例中的图像生成模型的输入是一句文本(Text)，输出则可以是该文本对应的图像(Image)，通过图像生成模型得到第一图像的公式表示如下：

Image2D＝Model(Text) (1)；

公式(1)中，Text表示图像生成模型的输入，即文本格式的人设信息；Image2D表示该人设信息对应的图像，即第一图像。

本公开实施例中，可以将人设信息输入图像生成模型，进而得到具有二维显示效果的第一图像，并基于二维显示效果的第一图像和动作参数，得到目标虚拟角色。即通过用户输入的语句即可实现目标虚拟角色的创建，且能够使得目标虚拟角色执行与动作参数对应的动作，不仅能够实现从人设到形象的完整角色创建过程，还简化了创建角色所需的工作量。

从预设角色库中确定出预存的多个虚拟角色；

在一些实施例中，可以基于收集的历史数据，创建预设角色库，其中，预设角色库中可以预存多个虚拟角色，本公开实施例中，可以从预设角色库中确定出多个虚拟角色，并根据人设信息与该多个虚拟角色对应的预设人设信息之间的相似度，从多个虚拟角色对应的多个图像中确定出第一图像。

例如，可以确定从语句中提取出的人设信息与预设角色库中预存的多个虚拟角色的预设人设信息之间的相似度，对得到的多个相似度进行比较，并根据比较结果从多个虚拟角色对应的多个图像中确定出第一图像。如，可以确定出相似度最高的预设人设信息所对应的虚拟角色，并将该虚拟角色所对应的图像确定为第一图像。

在一些实施例中，预设角色库中各个虚拟角色的角色数据可以包括以下至少之一：预设人设信息；二维显示效果的图像；三维显示效果的图像；各个图像对应的动作参数。

在另一些实施例中，还可以根据该人设信息，确定与该第一图像对应的动作参数。例如，可以根据人设信息与多个虚拟角色对应的预设人设信息之间的相似度，从多个虚拟角色对应的多个图像中确定出第一图像，并将该图像对应的动作参数确定为与第一图像对应的动作参数。如，可以确定出相似度最高的预设人设信息所对应的虚拟角色，并将该虚拟角色所对应的图像确定为第一图像，将该图像对应的动作参数确定为与第一图像对应的动作参数。

本公开实施例中，可以根据人设信息与预设角色库中预存的多个虚拟角色对应的预设人设信息之间的相似度，从多个虚拟角色对应的多个图像中确定出第一图像，通过创建预设角色库，并基于人设信息从预设角色库中检索相似的虚拟角色的形象，作为基础形象供用户选择，能够简化创建目标虚拟角色所需的工程量。

在另一些实施例中，还可以基于预设角色库为图像生成模型和/或图像转换模型提供训练数据。

其中，所述目标虚拟角色具有三维显示效果。

这里，图像转换模型可以包括：将二维显示效果的图像转化为三维显示效果的模型。如，图像转换模型可以包括：Photo Wake-Up模型等。

在基于图像转换模型对第一图像进行处理的过程中，可以先对第一图像进行分割与姿态估计，如，可以从输入的第一图像中分割人体区域且估计人体的2D姿态，对分割出人体之后的空白区域进行填充，得到估计的人体2D轮廓。

然后再进行三维网格的构建，例如，可以在无遮挡的情况下进行三维网格的构建，也可以在自遮挡的情况下进行三维网格的构建。以进行无遮挡的三维网格的构建为例，可以将预设的通用的SMPL模型适配到输入的第一图像，并投影到二维(2D)空间生成对应的轮廓图、法向图、深度图、蒙皮权重图。然后将SMPL模型的2D轮廓变形到上述估计的人体2D轮廓，再将此变形应用到法向图、深度图、蒙皮权重图，并根据变形得到的这图，构建出三维网格，进而形成整个人体模型。在得到该人体模型之后，可以将确定的动作参数融入该人体模型，进而得到具有三维显示效果，且能够产生动画效果的目标虚拟角色。

本公开实施例中，图像转换模型的输入是第一图像，输出为目标虚拟角色，通过图像转换模型得到目标虚拟角色的公式表示如下：

3D＝Model(2D) (2)；

公式(2)中，2D表示图像转换模型的输入，即第一图像；3D表示目标虚拟角色。

本公开实施例中，可以将第一图像和动作参数输入图像转换模型，得到具有三维显示效果目标虚拟角色，由于融入了动作参数，能够使得目标虚拟角色执行与动作参数对应的动作，不仅能够实现从人设到形象的完整角色创建过程，还简化了创建角色所需的工作量。

其中，所述第一类型的语句包括虚拟角色的人设特征。

这里，虚拟角色的人设特征包括：具有虚拟角色自身属性的特征，能够用于表征虚拟角色的身份。例如，虚拟角色的人设特征可以包括：虚拟角色的性别、虚拟角色性格、虚拟角色的名字等特征。

在实现的过程中，如果检测到用户输入的语句包括虚拟角色的人设特征，则可以确定该语句为第一类型的语句，检测出该语句为第一类型的语句的情况下，可以基于语句分析模型，从第一类型的语句中提取出人设信息，并基于该人设信息得到第一图像。

本公开实施例中，在进行人设信息的提取之前，先对用户输入的语句的类型进行判断，在确定用户输入的语句中包含有人设特征的情况下，在进行人设信息的提取，能够提高信息处理的效率。

图2是根据本公开一示例性实施例示出的虚拟角色的处理方法的流程示意图二，如图2所示，该方法应用于电子设备，主要包括以下步骤：

在步骤201中，获取用户输入的语句；

在步骤202中，基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息；

在步骤203中，根据所述人设信息，得到第一图像；

在步骤204中，确定与所述第一图像对应的动作参数；

在步骤205中，根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色；其中，所述目标虚拟角色能够执行与所述动作参数对应的动作；

在步骤206中，在已创建所述目标虚拟角色，且所述语句为第二类型的语句的情况下，根据所述第二类型的语句，对所述目标虚拟角色的视觉形象进行调整；其中，所述第二类型的语句包括虚拟角色的形象特征。

这里，虚拟角色的形象特征包括：与虚拟角色的形象相关的特征，能够用于表征虚拟角色的静态形象。例如，虚拟角色的形象特征可以包括：虚拟角色的体型、虚拟角色外貌等特征。

在实现的过程中，在已创建目标虚拟角色的情况下，如果检测到用户输入的语句包括虚拟角色的形象特征，则可以确定该语句为第二类型的语句，检测出该语句为第二类型的语句的情况下，可以基于语句分析模型，从第二类型的语句中提取出形象信息，并基于该形象信息对目标虚拟角色的视觉形象进行调整。例如，如果用户输入的语句为：希望角色变胖点，则可以将目标虚拟角色的体型调整胖点。

本公开实施例中，在已创建目标虚拟角色的情况下，可以基于用户输入的语句对已创建的目标虚拟角色的视觉形象进行调整，即用户仅通过输入语句就能够实现对虚拟角色的视觉形象的调整，能够提高用户使用电子设备创建和调整目标虚拟角色的便利性，进而提升用户的体验感。

在一些实施例中，用户可以通过自然交互的方式对第一图像的视觉形象进行任意调整，进而实现对目标虚拟角色的视觉形象的调整。在另一些实施例中，图像生成模型可以将调整后的第一图像展示给用户，如果用户不满意，可以基于自然交互的方式继续对该第一图像的视觉形象进行调整，直至最终确定出二维显示效果的第一图像，并根据最终确定的第一图像和动作参数，确定出视觉形象调整后的目标虚拟角色。

本公开实施例中，图像生成模型的输入是：第二类型的语句、人设信息以及第一图像，输出为调整后的第一图像，通过图像生成模型得到调整后的第一图像的公式表示如下：

Image2D’＝Model(Query1,人设信息，Image2D_原始) (3)；

公式(3)中，Image2D’表示调整后的第一图像；Query1表示用户输入的第二类型的语句；人设信息表示创建目标虚拟角色的人设信息；Image2D_原始表示原始的第一图像。

在一些实施例中，第一图像可以是根据人设信息从预设角色库中确定的。在另一些实施例中，在得到调整后的第一图像之后，还可以将调整后的第一图像作为下一次对目标虚拟角色进行调整的原始输入，这样，能够使得最终得到的目标虚拟角色是每一次视觉形象调整后的结果累积生效的，即新的调整需要以之前的调整结果为基础，相较于每一次都从零重新开始，能够保证目标虚拟角色的视觉形象的调整的连贯性，使得调整后的目标虚拟角色更加生动自然。

本公开实施例中，通过将第二类型的语句作为图像生成模型的输入，能够使得调整后的第一图像符合用户修改意愿；通过将人设信息作为图像生成模型的额外输入，能够使得调整后的第一图像大体上符合人设，通过为图像生成模型增加两个额外输入，能够实时对目标虚拟角色的视觉形象进行调整，使得最终得到的目标虚拟角色的视觉形象更加符合用户需求。

在一些实施例中，由于增加了图像生成模型的输入，图像生成模型内部的模型参数也有所变化，因此，需要在原始图像生成模型的基础之上进行微调(fine-tune)训练，以提高输出结果的精确性。在对原始图像生成模型进行微调训练的过程中，可以基于预设角色库中的数据对原始图像生成模型内部的模型参数进行调整，也可以通过采集的标注数据对原始图像生成模型内部的模型参数进行调整，在此不作具体限定。

图3是根据本公开一示例性实施例示出的虚拟角色的处理方法的流程示意图三，如图3所示，该方法应用于电子设备，主要包括以下步骤：

在步骤301中，获取用户输入的语句；

在步骤302中，基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息；

在步骤303中，根据所述人设信息，得到第一图像；

在步骤304中，确定与所述第一图像对应的动作参数；

在步骤305中，根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色；其中，所述目标虚拟角色能够执行与所述动作参数对应的动作；

在步骤306中，在已创建所述目标虚拟角色，且所述语句为第三类型的语句的情况下，根据所述第三类型的语句，对所述目标虚拟角色的动作进行调整；其中，所述第三类型的语句包括虚拟角色的动作特征。

这里，虚拟角色的动作特征包括：与虚拟角色执行的动作相关的特征，能够用于表征虚拟角色的动态属性。例如，虚拟角色的动作特征可以包括：虚拟角色的运动姿态、虚拟角色动作幅度等特征。

在实现的过程中，在已创建目标虚拟角色的情况下，如果检测到用户输入的语句包括虚拟角色的动作特征，则可以确定该语句为第三类型的语句，检测出该语句为第三类型的语句的情况下，可以基于语句分析模型，从第三类型的语句中提取出动作参数，并基于该动作参数对目标虚拟角色的动作进行调整。例如，如果用户输入的语句为：希望动作幅度再小一点，则可以将目标虚拟角色的动作幅度调小。再例如，如果用户输入的语句为：走路迈步要外八字，则可以将目标虚拟角色的走路姿态调整至外八字。

本公开实施例中，在已创建目标虚拟角色的情况下，可以基于用户输入的语句对已创建的目标虚拟角色的动作进行调整，即用户仅通过输入语句就能够实现对虚拟角色的动作的调整，能够提高用户使用电子设备创建和调整目标虚拟角色的便利性，进而提升用户的体验感。

本公开实施例中，图像转换模型的输入是：第三类型的语句、人设信息以及第一图像，输出为调整后的目标虚拟角色，通过图像转换模型得到调整后的目标虚拟角色的公式表示如下：

3D＝Model(Image2D_原始，人设信息，Query2) (4)；

公式(3)中，3D表示调整后的目标虚拟角色；Query2表示用户输入的第三类型的语句；人设信息表示创建目标虚拟角色的人设信息；Image2D_原始表示原始的第一图像。在一些实施例中，第一图像可以是根据人设信息从预设角色库中确定的。

本公开实施例中，通过将第三类型的语句作为图像转换模型的输入，能够使得调整后的目标虚拟角色符合用户修改意愿；通过将人设信息作为图像转换模型的额外输入，能够使得调整后的目标虚拟角色的动作与人设比较一致，通过为图像转换模型增加两个额外输入，能够实时对目标虚拟角色的动作进行调整，使得最终得到的目标虚拟角色的动作与人设更加匹配。比如，一个粗犷的大汉的角色和文静的小姑娘的角色，二者产生的动作一定是不一样的。

在一些实施例中，用户可以通过自然交互的方式对第一图像对应的动作进行任意调整，进而实现对目标虚拟角色的动作的调整。在另一些实施例中，图像转换模型可以将动作调整后的目标虚拟角色展示给用户，如果用户不满意，可以基于自然交互的方式继续对该目标虚拟角色的动作进行调整，直至最终确定动作调整后的目标虚拟角色。

在一些实施例中，由于增加了图像转换模型的输入，图像转换模型内部的模型参数也有所变化，因此，需要在原始图像转换模型的基础之上进行微调(fine-tune)训练，以提高输出结果的精确性。在对原始图像转换模型进行微调训练的过程中，可以基于预设角色库中的数据对原始图像转换模型内部的模型参数进行调整，也可以通过采集的标注数据对原始图像转换模型内部的模型参数进行调整，在此不作具体限定。

通过本公开实施例中的技术方案，能够实现虚拟角色从人设信息的提取，基于人设信息生成二维显示效果的第一图像，基于第一图像和动作参数，生成三维显示效果的目标虚拟角色的完整创建流程。且在创建目标虚拟角色之后，能够支持用户使用自然语言交互的方式，对虚拟角色的人设、视觉形象以及动作进行实时修改，极大程度地简化了传统虚拟角色创建所需的工程量。

图4是根据本公开一示例性实施例示出的一种虚拟角色的处理装置框图。如图4所示，所述装置应用于电子设备，该虚拟角色的处理装置400主要包括：

第一获取模块401，配置为获取用户输入的语句；

提取模块402，配置为基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息；

第二获取模块403，配置为根据所述人设信息，得到第一图像；

确定模块404，配置为确定与所述第一图像对应的动作参数；

第三获取模块405，配置为根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色；

在一些实施例中，所述第二获取模块403，配置为：

将所述人设信息输入图像生成模型，得到所述第一图像；

其中，所述第一图像具有二维显示效果。

在一些实施例中，所述第二获取模块403，配置为：

从预设角色库中确定出预存的多个虚拟角色；

在一些实施例中，所述第三获取模块405，配置为：

其中，所述目标虚拟角色具有三维显示效果。

在一些实施例中，所述提取模块402，配置为：

其中，所述第一类型的语句包括虚拟角色的人设特征。

在一些实施例中，所述装置400还包括：

其中，所述第二类型的语句包括虚拟角色的形象特征。

在一些实施例中，所述第一调整模块，配置为：

在一些实施例中，所述装置400还包括：

其中，所述第三类型的语句包括虚拟角色的动作特征。

在一些实施例中，所述第二调整模块，配置为：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据本公开一示例性实施例示出的一种虚拟角色的处理装置1200的框图。例如，装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电力组件1206，多媒体组件1208，音频组件1210，输入/输出(I/O)接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件1206为装置1200的各种组件提供电力。电力组件1206可以包括电源管理***，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

I/O接口1212为处理组件1202和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到设备1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，4G或5G，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由装置1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由虚拟角色的处理装置的处理器执行时，使得虚拟角色的处理装置能够执行一种虚拟角色的处理方法，所述方法包括：

获取用户输入的语句；

根据所述人设信息，得到第一图像；

确定与所述第一图像对应的动作参数；

图6是根据本公开一示例性实施例示出的另一种用于虚拟角色的处理装置1300的框图。例如，装置1300可以被提供为一服务器。参照图6，装置1300包括处理组件1322，其进一步包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1322被配置为执行指令，以执行上述虚拟角色的处理方法，所述方法包括：

获取用户输入的语句；

根据所述人设信息，得到第一图像；

确定与所述第一图像对应的动作参数；

装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理，一个有线或无线网络接口1350被配置为将装置1300连接到网络，和一个输入输出(I/O)接口1358。装置1300可以操作基于存储在存储器1332的操作***，例如Windows ServerTM，MacOS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种虚拟角色的处理方法，其特征在于，应用于电子设备，包括：

获取用户输入的语句；

根据所述人设信息，得到第一图像；

确定与所述第一图像对应的动作参数；

2.根据权利要求1所述的方法，其特征在于，所述根据人设信息，得到第一图像，包括：

将所述人设信息输入图像生成模型，得到所述第一图像；

其中，所述第一图像具有二维显示效果。

3.根据权利要求1所述的方法，其特征在于，所述根据人设信息，得到第一图像，包括：

从预设角色库中确定出预存的多个虚拟角色；

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像和所述动作参数，得到对所述第一图像进行转换后的目标虚拟角色，包括：

其中，所述目标虚拟角色具有三维显示效果。

5.根据权利要求1所述的方法，其特征在于，所述基于语句分析模型，从所述语句中提取出与虚拟角色相关的人设信息，包括：

其中，所述第一类型的语句包括虚拟角色的人设特征。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

其中，所述第二类型的语句包括虚拟角色的形象特征。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二类型的语句，对所述目标虚拟角色的视觉形象进行调整，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

其中，所述第三类型的语句包括虚拟角色的动作特征。

9.根据权利要求8所述的方法，其特征在于，所述根据所述第三类型的语句，对所述目标虚拟角色的动作进行调整，包括：

10.一种虚拟角色的处理装置，其特征在于，应用于电子设备，包括：

第一获取模块，配置为获取用户输入的语句；

第二获取模块，配置为根据所述人设信息，得到第一图像；

确定模块，配置为确定与所述第一图像对应的动作参数；

11.一种虚拟角色的处理装置，其特征在于，应用于电子设备，所述装置包括：

处理器；

配置为存储处理器可执行指令的存储器；

其中，所述处理器配置为：执行时实现上述权利要求1至9中任一种虚拟角色的处理方法中的步骤。

12.一种非临时性计算机可读存储介质，当所述存储介质中的指令由虚拟角色的处理装置的处理器执行时，使得所述装置能够执行上述权利要求1至9中任一种虚拟角色的处理方法中的步骤。