CN117078816A

CN117078816A - 一种虚拟形象的生成方法、装置、终端设备和存储介质

Info

Publication number: CN117078816A
Application number: CN202311059569.0A
Authority: CN
Inventors: 李勉; 刘世超; 严立康; 徐坚江
Original assignee: Avatr Technology Chongqing Co Ltd
Current assignee: Avatr Technology Chongqing Co Ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-11-17

Abstract

本申请涉及图像处理技术领域，提出一种虚拟形象的生成方法、装置、终端设备和存储介质。该方法利用虚拟形象对应的原始图像的图像特征，通过图像扩散模型生成相应的视频，然后将视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理；视频在经过编解码网络的编码层、中间层和解码层，以及ControlNet网络的编码层、中间层和零卷积层的处理后，最终由解码层输出一个处理后的视频文件，该视频文件即可视作带有原始图像特征的虚拟形象。通过这样设置，用户可以按照喜好选取想要生成的虚拟形象对应的原始图像，这样获得的虚拟形象不再是固定的形象，能够满足用户的个性化需求。

Description

一种虚拟形象的生成方法、装置、终端设备和存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种虚拟形象的生成方法、装置、终端设备和存储介质。

背景技术

随着人工智能技术的持续发展，智能语音助手等虚拟形象在各个领域都获得了广泛的应用。例如，在车辆领域，车载语音助手可以为驾驶员提供语音导航、车辆控制和音乐播放等服务，从而有效提高用户的驾驶体验。然而，目前的车载语音助手等虚拟形象一般是预先设置好的固定形象，无法满足用户的个性化需求。

发明内容

有鉴于此，本申请实施例提供了一种虚拟形象的生成方法、装置、终端设备和存储介质，能够满足用户对于虚拟形象的个性化需求。

本申请实施例的第一方面提供了一种虚拟形象的生成方法，包括：

获取虚拟形象对应的原始图像；

通过已训练的图像扩散模型，生成与原始图像对应的第一视频；

将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理；其中，编解码网络依次包含编码层、中间层和解码层，ControlNet网络依次包含与编解码网络相同的编码层、与编解码网络相同的中间层和零卷积层，零卷积层的输出连接至解码层的输入；

通过解码层输出生成的虚拟形象。

本申请实施例利用虚拟形象对应的原始图像的图像特征，通过图像扩散模型生成相应的视频，然后将视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理；视频在经过编解码网络的编码层、中间层和解码层，以及ControlNet网络的编码层、中间层和零卷积层的处理后，最终由编解码网络的解码层输出一个处理后的视频文件，该视频文件即可视作带有原始图像特征的虚拟形象。通过这样设置，用户可以按照个人喜好选取想要生成的虚拟形象对应的原始图像，例如男性人物的图像或者动画人物的图像等，在输入该原始图像之后即可自动输出与该原始图像对应的虚拟形象。这样获得的虚拟形象不再是固定的形象，能够满足用户的个性化需求。

在本申请实施例的一种实现方式中，所述通过已训练的图像扩散模型，生成与原始图像对应的第一视频，可以包括：

通过图像扩散模型包含的SegNet网络对原始图像进行图像语义分割处理，得到特征图像；

通过图像扩散模型包含的语义学习网络，将特征图像转换为目标文本；

通过图像扩散模型包含的图像扩散网络，对目标文本和特征图像进行图像扩散处理，得到目标图像；

通过图像扩散模型包含的文本转语音网络，将目标文本转换为目标音频；

将目标图像和目标音频融合，得到第一视频。

进一步的，SegNet网络的网络结构可以包含多个网络层组，每个网络层组包含至少一个卷积层和至少一个池化层，且每个网络层组的第一个卷积层和最后一个池化层之间增加跳跃连接。

在本申请实施例的一种实现方式中，所述将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理，可以包括：

获取预设的形象模板图像；

将第一视频和形象模板图像作为输入数据，分别输入至编解码网络和ControlNet网络进行处理。

在本申请实施例的另一种实现方式中，所述将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理，可以包括：

获取与虚拟形象对应的提示语文本；

将第一视频和提示语文本作为输入数据，分别输入至编解码网络和ControlNet网络进行处理。

在本申请实施例的又一种实现方式中，虚拟形象为车辆的车载语音助手形象；所述将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理，可以包括：

获取车辆在行驶过程中的车辆参数；

将第一视频和车辆参数作为输入数据，分别输入至编解码网络和ControlNet网络进行处理。

在本申请实施例的一种实现方式中，所述通过解码层输出生成的虚拟形象，可以包括：

通过解码层，输出第二视频；

针对第二视频中的每一帧图像，获取图像中包含虚拟形象的边缘的范围区域；将范围区域内的每个像素点作为距离度量算法的输入进行距离度量处理，以增大范围区域内属于虚拟形象边缘的像素点与不属于虚拟形象边缘的像素点之间的距离，从而得到处理后的第二视频；

将处理后的第二视频，确定为生成的虚拟形象。

本申请实施例的第二方面提供了一种虚拟形象的生成装置，包括：

原始图像获取模块，用于获取虚拟形象对应的原始图像；

视频生成模块，用于通过已训练的图像扩散模型，生成与原始图像对应的第一视频；

视频输入模块，用于将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理；其中，编解码网络依次包含编码层、中间层和解码层，ControlNet网络依次包含与编解码网络相同的编码层、与编解码网络相同的中间层和零卷积层，零卷积层的输出连接至解码层的输入；

虚拟形象输出模块，用于通过解码层输出生成的虚拟形象。

本申请实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例的第一方面提供的虚拟形象的生成方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例的第一方面提供的虚拟形象的生成方法。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行如本申请实施例的第一方面提供的虚拟形象的生成方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1是本申请实施例提供的一种虚拟形象的生成方法的流程图；

图2是本申请实施例提供的一种编解码网络和ControlNet网络的结构示意图；

图3是本申请实施例提供的虚拟形象的生成方法的一种整体流程示意图；

图4是生成第一视频的数据处理流程示意图；

图5是本申请实施例提供的一种虚拟形象的生成装置的结构框架图；

图6是本申请实施例提供的一种终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

目前，当人们驾驶车辆出行时，可以利用车载终端的车载语音助手提供的语音导航、车辆控制和音乐播放等服务，从而有效提高用户的驾驶体验。然而，车载语音助手等虚拟形象一般是预先设置好的固定形象，无法满足用户的个性化需求。针对该问题，本申请实施例提供了一种虚拟形象的生成方法、装置、终端设备和存储介质，可以通过图像处理算法生成个性化的虚拟形象，从而满足用户对于虚拟形象的个性化需求。关于本申请实施例更具体的技术实现细节，请参照下文所述的各个实施例。

应当理解，本申请各个方法实施例的执行主体为各种类型的终端设备或服务器，例如可以是手机、平板电脑、可穿戴设备、整车控制器、车载终端、增强现实(augmentedreality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、个人数字助理(personal digitalassistant，PDA)，等等，本申请实施例对该终端设备和服务器的具体类型不作任何限制。

请参阅图1，示出了本申请实施例提供的一种虚拟形象的生成方法，包括：

101、获取虚拟形象对应的原始图像；

本申请实施例的执行主体一般可以是车辆的车载终端，或者用户使用的手机/平板电脑等终端设备。首先，获取虚拟形象对应的原始图像。用户可以根据自己的个性化需求，选取想要生成的虚拟形象，例如成熟男人形象、年轻女人形象或者卡通动物形象，等等。在实际操作中，终端设备可以预先采集各个不同虚拟形象(例如不同性别、不同年龄、不同肤色和不同发型等)分别对应的图像数据和语音数据，对图像数据和语音数据进行一定的预处理，例如数据清洗、数据标准化和数据缺失值处理等，然后存储预处理后的图像数据和语音数据。当用户选取想要生成的虚拟形象后，终端设备即可查找该虚拟形象的图像数据，从中获取多帧图像作为原始图像。

102、通过已训练的图像扩散模型，生成与原始图像对应的第一视频；

在获得原始图像之后，可以将原始图像输入一个训练好的图像扩散模型进行处理，经过图像扩散模型的特征提取和图像扩散等处理后，可以输出一个带有原始图像特征的视频，这里用第一视频表示。这里的图像扩散模型可以采用现有的各类图像扩散处理算法，例如Diffusion算法、Stable Difussion算法和Guided Diffusion算法，等等。

(1)通过图像扩散模型包含的SegNet网络对原始图像进行图像语义分割处理，得到特征图像；

(2)通过图像扩散模型包含的语义学习网络，将特征图像转换为目标文本；

(3)通过图像扩散模型包含的图像扩散网络，对目标文本和特征图像进行图像扩散处理，得到目标图像；

(4)通过图像扩散模型包含的文本转语音网络，将目标文本转换为目标音频；

(5)将目标图像和目标音频融合，得到第一视频。

本申请实施例设计的图像扩散模型可以包含SegNet网络、语义学习网络、图像扩散网络、文本转语音网络以及后文描述的编解码网络等多个子网络。在将原始图像输入图像扩散模型后，首先由SegNet网络对原始图像进行图像语义分割处理，从而提取相应的特征图像。需要重点说明的是，在常规的Stable Difussion扩散模型中，采用的特征提取网络是U-Net网络，与此不同，本申请实施例将Stable Difussion扩散模型的网络架构进行延伸，独创性地将SegNet网络引入Stable Difussion扩散模型的主干结构，也即将StableDifussion扩散模型的特征提取网络由U-Net网络替换为SegNet网络。考虑到StableDifussion扩散模型要求网络的输入和输出维度相同，SegNet网络在满足这个要求的前提下，还具备优秀的图像语义分割能力，因此本申请实施例利用SegNet网络对原始图像进行图像语义分割处理，既能成功提取相应的特征图像，也能显著提升图像语义分割的效果。

通常来说，如果想要获得性能更好的神经网络模型，则模型训练迭代步数需要对应设置较大的数值，那么随之而来会出现常见的梯度消失和梯度***等问题。为了解决这个问题，本申请实施例对SegNet网络的网络结构也进行了改进，具体是对SegNet网络的卷积层和池化层进行分组，得到多个网络层组，每个网络层组包含至少一个卷积层和至少一个池化层，另外在每个网络层组的第一个卷积层和最后一个池化层之间增加跳跃连接。通过增加类似于残差网络等结构的跳跃连接，随着模型进行深度迭代训练，能够避免产生梯度消失和梯度***等问题，同时让模型获得更快的收敛速度和更好的性能。

在获得特征图像之后，利用语义学习网络将特征图像转换为自然语言文本，记作目标文本。这里可以采用基于循环神经网络的自然语言处理模型作为语义学习网络，将提取到的特征图像的信息转换为自然语言文本，例如性别、年龄、肤色、发型、动作、表情和情感等文本信息。利用自然语言处理模型将特征图像转换为自然语言文本的具体原理可以参照现有技术，在此不再赘述。

在获得目标文本之后，利用图像扩散网络对目标文本和特征图像进行图像扩散处理，得到目标图像。例如，可以训练一个基于Stable Difussion算法的图像扩散网络，将目标文本和特征图像都输入至该图像扩散网络进行图像扩散处理，参照Stable Difussion算法中利用文本和特征图像生成图像的原理，可以获得输出的目标图像，该目标图像既包含原始图像的图像特征，也包含目标文本的文本特征。

另一方面，可以通过文本转语音网络将目标文本转换为目标音频，这里可以利用文本转语音TTS(Text To Speech)等技术，将目标文本转换为对应的音频，用目标音频表示。

最后，可以将目标图像和目标音频进行融合，从而得到第一视频。可以理解的是，原始图像可以包含多帧形象图像，每帧形象图像都可以获得各自对应的目标图像和目标音频，将所有形象图像的目标图像和目标音频融合后进行拼接，即可得到一个带有音频的视频文件，也即第一视频。

在本申请实施例的一种实现方式中，所述方法还可以包括：

获取虚拟形象对应的第一音频；

所述将目标图像和目标音频融合，得到第一视频，可以包括：

将目标图像、目标音频和第一音频融合，得到第一视频。

正如前文所述，每个虚拟形象都可以预先存储对应的图像数据和语音数据，而语音数据则包含每个虚拟形象对应的音频。当用户选取想要生成的虚拟形象之后，可以获取该虚拟形象对应的音频，用第一音频表示，例如，如果用户想要生成的虚拟形象是成熟男人形象，则该第一音频是成熟男人的声音，如果用户想要生成的虚拟形象是年轻女人形象，则该第一音频是年轻女人的声音，以此类推。在进行视频合成时，可以先将第一音频和目标音频叠加，得到叠加后的音频，然后再将叠加后的音频和目标图像进行融合，最终合成第一视频。通过这样设置，最终生成的虚拟形象将具有与形象匹配的个性化声音，从而进一步提升用户观看虚拟形象的体验。

在本申请实施例的一种实现方式中，在将特征图像转换为目标文本之后，还可以包括：

对目标文本进行文本情感分析处理，得到情感标签。

(1)获取情感标签对应的第二音频；

(2)将目标图像、目标音频和第二音频融合，得到第一视频。

如果想要实现虚拟形象的声音与情感相结合，进一步提高虚拟形象的智能化和个性化程度，则还可以对目标文本进行文本情感分析处理，得到情感标签，例如愉快、开心、兴奋、悲伤和失落等情感标签。这里可以采用带有记忆的注意力机制神经网络，对目标文本进行情感分析处理，从而获得与文本对应的情感标签。采用注意力机制神经网络对文本进行情感分析处理获得相应的情感标签的具体原理可以参照现有技术，在此不再赘述。终端设备可以预先存储各个不同情感标签分别对应的音频，例如开心标签对应欢快语气的音频，悲伤标签对应哭泣语气的音频，等等。在对目标文本进行文本情感分析处理，得到情感标签之后，即可查找与该情感标签对应的音频，用第二音频表示。然后，将目标图像、目标音频和第二音频融合，得到第一视频。具体的，可以先将第二音频和目标音频叠加，得到叠加后的音频，然后再将叠加后的音频和目标图像进行融合，最终合成第一视频。通过这样设置，最终生成的虚拟形象的声音将与其情感关联，例如，如果通过文本情感分析处理获得的情感标签是开心，则最终生成的虚拟形象说话的声音会是欢快的语气。

103、将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理；

在获得第一视频之后，可以针对该目标视频进行一定的优化处理，从而生成逼真、个性化的虚拟形象。具体的，可以将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理。ControlNet是斯坦福大学研究人员开发的Stable Diffusion的扩展，使创作者能够轻松地控制AI图像和视频中的对象。它将根据边缘检测、草图处理或人体姿势等各种条件来控制图像生成，可以概括为一种简单的稳定扩散微调方法。

其中，该编解码网络可以依次包含编码层、中间层和解码层，该ControlNet网络可以依次包含与编解码网络相同的编码层、与编解码网络相同的中间层和零卷积层，零卷积层的输出连接至解码层的输入。如图2所示，为本申请实施例提供的一种编解码网络和ControlNet网络的结构示意图。在图2中，左方为图像扩散模型的编解码网络，其依次包含多个编码层、一个中间层以及与编码层对应的多个解码层；图2的右方为ControlNet网络，为保持图像扩散模型的输出结果稳定，仅对输出结果进行微调，这里令ControlNet网络包含与编解码网络相同的编码层以及与编解码网络相同的中间层，ControlNet网络没有解码层，取而代之的是多个零卷积层，零卷积层是带有零初始化权重和偏差的1*1卷积，使用零卷积层可以保持图像扩散模型与训练数据的一致性。具体的数据流向可参照图2中的箭头方向，第一视频分别输入编解码网络和ControlNet网络，一路数据依次经过编解码网络的编码层、中间层和解码层的处理；另一路数据依次经过ControlNet网络的编码层、中间层和零卷积层的处理，每个零卷积层处理后的数据会输入至对应的编解码网络的解码层，最终由编解码网络的最后一个解码层输出最终数据。该最终数据实质上也是一个视频文件，可视作带有原始图像特征的虚拟形象。

(1)获取预设的形象模板图像；

(2)将第一视频和形象模板图像作为输入数据，分别输入至编解码网络和ControlNet网络进行处理。

在根据第一视频生成虚拟形象时，可以获取预设的形象模板图像，然后通过编解码网络和ControlNet网络将形象模板图像和第一视频融合，也即利用ControlNet技术对图像数据进行分析和处理，最终融合成逼真、个性化的虚拟形象。具体的，用户对虚拟形象可以有一些个性化的需求，例如性别、外貌、年龄、风格、动作、表情、服装、发型和佩饰，等等。针对每个个性化需求可以分别构建并存储相应的形象模板图像，例如不同性别和外貌的形象模板图像、不同年龄和风格的形象模板图像、不同服装和佩饰的形象模板图像、不同动作和表情的形象模板图像，等等。另外，用户还可以自定义形象模板图像，例如可以上传自己或他人的照片作为形象模板图像，这样生成的虚拟形象将包含用户自己或他人的外貌特征。在获取形象模板图像之后，可以将形象模板图像和第一视频都作为输入数据，分别输入至编解码网络和ControlNet网络进行处理，最终生成相应的虚拟形象，该虚拟形象将带有形象模板图像的个性化特征。

(1)获取与虚拟形象对应的提示语文本；

(2)将第一视频和提示语文本作为输入数据，分别输入至编解码网络和ControlNet网络进行处理。

在另一种实施方式中，用户还可以预先设置每个虚拟形象分别对应的提示语文本。例如，如果当前想要生成的虚拟形象是车载语音助手形象，则可以获取车载语音助手形象常用的一些提示语，作为提示语文本。在利用第一视频生成虚拟形象时，可以将第一视频和该提示语文本均作为输入数据，分别输入至图像扩散模型的编解码网络和ControlNet网络进行处理。通过这样设置，可以使得输出的虚拟形象也附带该提示语文本的特征，用户可以更直观地看到相应的提示语。

(1)获取车辆在行驶过程中的车辆参数；

(2)将第一视频和车辆参数作为输入数据，分别输入至编解码网络和ControlNet网络进行处理。

如果用户想要生成的虚拟形象是车辆的车载语音助手形象，则可以获取车辆在行驶过程中的车辆参数，将车辆参数也融入至生成的车载语音助手形象中。具体的，车载终端可以获取车辆在行驶过程中的各类车辆参数，例如车辆的定位、速度、加速度和型号等参数。在利用第一视频生成虚拟形象时，可以将第一视频和该车辆参数均作为输入数据，分别输入至图像扩散模型的编解码网络和ControlNet网络进行处理。通过这样设置，可以使得输出的虚拟形象带有车速等车辆参数信息，例如，可以在最终生成的车载语音助手形象的附近区域展示该车辆参数信息，这样用户在观看车载语音助手形象时可以一并获取当前的车辆参数，从而提升驾驶体验。

104、通过编解码网络的解码层输出生成的虚拟形象。

将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理之后，可以通过编解码网络的解码层输出处理后得到的视频文件，该视频文件可以视作生成的虚拟形象。生成的虚拟形象可以展示给用户或应用***，以便进行后续的分析和处理，例如，可以在车载终端的屏幕或者用户手机的屏幕上显示生成的虚拟形象，用户可以对生成的虚拟形象进行评估和意见反馈，包括形象逼真度、形象个性度和用户意见等方面的内容。

(1)通过解码层，输出第二视频；

(2)针对第二视频中的每一帧图像，获取图像中包含虚拟形象的边缘的范围区域；将范围区域内的每个像素点作为距离度量算法的输入进行距离度量处理，以增大范围区域内属于虚拟形象边缘的像素点与不属于虚拟形象边缘的像素点之间的距离，从而得到处理后的第二视频；

(3)将处理后的第二视频，确定为生成的虚拟形象。

假设通过解码层输出的视频文件称作第二视频，一方面可以直接将该第二视频作为生成的虚拟形象输出，另一方面，如果用户比较注重生成的虚拟形象的边缘部分的细节，则可以引入距离度量学习对第二视频进行处理，以改进虚拟形象边缘部分的像素计算的准确性，使得虚拟形象的整体呈现效果更加真实自然。具体的，针对第二视频中的每一帧图像，可以获取图像中包含虚拟形象的边缘的范围区域，将范围区域内的每个像素点作为距离度量算法的输入进行距离度量处理，以增大范围区域内属于虚拟形象边缘的像素点与不属于虚拟形象边缘的像素点之间的距离，从而得到处理后的第二视频。也即，将属于虚拟形象边缘的像素点聚拢，将不属于虚拟形象边缘的像素点的距离推远，这样能够学习到更加真实精准的虚拟形象边缘信息，从而获得整体视觉上更加清晰生动的虚拟形象。经过距离度量算法处理后的第二视频，即可作为最终的虚拟形象输出。

如图3所示，为本申请实施例提供的虚拟形象的生成方法的一种整体流程示意图。在图3中，首先是数据采集阶段，可以采集各个不同虚拟形象分别对应的图像数据和语音数据；然后，对图像数据和语音数据进行相应的数据预处理操作，例如数据清洗、数据标准化和数据缺失值处理等；接着，将图像数据输入语义特征提取模块进行处理，得到特征图像和转换的目标文本；之后，通过Stable Difussion扩散算法融合数据，生成相应的第一视频；接下来，利用编解码网络和ControlNet网络融合第一视频和形象模板图像，生成最终的虚拟形象；最后，可以对生成的虚拟形象进行结果优化与展示。

如图4所示，为生成第一视频的数据处理流程示意图。在图4中，输入的是虚拟形象对应的多帧原始图像，通过特征提取网络可以提取得到原始图像对应的特征图像，该特征提取网络可以采用卷积神经网络或者SegNet网络。之后，特征图像会输入一个语义学习模块，该语义学习模块由图像解码器和文本解码器构成，利用图像解码器和文本解码器可以将特征图像转换为对应的文本，转换得到的文本会和特征图像一起输入扩散网络进行图像扩散处理，生成相应的目标图像。另外，转换得到的文本还可以通过文本转语音模块转换成对应的目标音频，最终将目标图像和目标音频合成为输出的第一视频。

总的来说，本申请实施例可以利用Stable Difussion结合ControlNet实现个性化的虚拟形象生成，其具备以下优点：(1)模型效果更加逼真：基于Stable Diffusion和ControlNet的虚拟形象生成***采用深度神经网络，可以更好地捕捉形象生成的复杂性和多样性；(2)个性化程度更高：基于Stable Diffusion和ControlNet的虚拟形象生成***可以根据用户的偏好和需求生成个性化的虚拟形象，例如可以根据用户上传的照片或者选择的形象模板来生成个性化的形象；(3)速度更快：基于Stable Diffusionn和ControlNet的虚拟形象生成***采用深度神经网络，可以通过并行计算来加速虚拟形象生成的过程；(4)***可扩展性更强：基于Stable Diffusion和ControlNet的虚拟形象生成***可以通过预训练模型和迁移学习等方式来实现新样本的生成，从而提高***的可扩展性。

应理解，上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上面主要描述了一种虚拟形象的生成方法，下面将对一种虚拟形象的生成装置进行描述。

请参阅图5，本申请实施例中一种虚拟形象的生成装置的一个实施例包括：

原始图像获取模块501，用于获取虚拟形象对应的原始图像；

视频生成模块502，用于通过已训练的图像扩散模型，生成与原始图像对应的第一视频；

视频输入模块503，用于将第一视频分别输入至图像扩散模型包含的编解码网络和用于对图像扩散模型进行控制的ControlNet网络进行处理；其中，编解码网络依次包含编码层、中间层和解码层，ControlNet网络依次包含与编解码网络相同的编码层、与编解码网络相同的中间层和零卷积层，零卷积层的输出连接至解码层的输入；

虚拟形象输出模块504，用于通过解码层输出生成的虚拟形象。

在本申请实施例的一种实现方式中，所述视频生成模块可以包括：

特征提取单元，用于通过所述图像扩散模型包含的SegNet网络对所述原始图像进行图像语义分割处理，得到特征图像；

文本转换单元，用于通过所述图像扩散模型包含的语义学习网络，将所述特征图像转换为目标文本；

图像扩散单元，用于通过所述图像扩散模型包含的图像扩散网络，对所述目标文本和所述特征图像进行图像扩散处理，得到目标图像；

音频转换单元，用于通过所述图像扩散模型包含的文本转语音网络，将所述目标文本转换为目标音频；

视频合成单元，用于将所述目标图像和所述目标音频融合，得到所述第一视频。

进一步的，所述SegNet网络的网络结构包含多个网络层组，每个所述网络层组包含至少一个卷积层和至少一个池化层，且每个所述网络层组的第一个卷积层和最后一个池化层之间增加跳跃连接。

在本申请实施例的一种实现方式中，所述视频输入模块可以包括：

形象模板获取单元，用于获取预设的形象模板图像；

第一处理单元，用于将所述第一视频和所述形象模板图像作为输入数据，分别输入至所述编解码网络和所述ControlNet网络进行处理。

在本申请实施例的另一种实现方式中，所述视频输入模块可以包括：

提示语文本获取单元，用于获取与所述虚拟形象对应的提示语文本；

第二处理单元，用于将所述第一视频和所述提示语文本作为输入数据，分别输入至所述编解码网络和所述ControlNet网络进行处理。

在本申请实施例的又一种实现方式中，所述虚拟形象为车辆的车载语音助手形象；所述视频输入模块可以包括：

车辆参数获取单元，用于获取所述车辆在行驶过程中的车辆参数；

第三处理单元，用于将所述第一视频和所述车辆参数作为输入数据，分别输入至所述编解码网络和所述ControlNet网络进行处理。

在本申请实施例的一种实现方式中，所述虚拟形象输出模块可以包括：

视频输出单元，用于通过所述解码层，输出第二视频；

距离度量处理单元，用于针对所述第二视频中的每一帧图像，获取所述图像中包含虚拟形象的边缘的范围区域；将所述范围区域内的每个像素点作为距离度量算法的输入进行距离度量处理，以增大所述范围区域内属于虚拟形象边缘的像素点与不属于虚拟形象边缘的像素点之间的距离，从而得到处理后的所述第二视频；

虚拟形象确定单元，用于将处理后的所述第二视频，确定为生成的所述虚拟形象。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一实施例描述的虚拟形象的生成方法。

本申请实施例还提供一种计算机程序产品，当该计算机程序产品在终端设备上运行时，使得终端设备执行实现如上述任一实施例描述的虚拟形象的生成方法。

图6是本申请一实施例提供的终端设备的示意图。如图6所示，该实施例的终端设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个虚拟形象的生成方法的实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图5所示模块501至504的功能。

所述计算机程序62可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器61中，并由所述处理器60执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述终端设备6中的执行过程。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述终端设备6的内部存储单元，例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备，例如所述终端设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟形象的生成方法，其特征在于，包括：

获取虚拟形象对应的原始图像；

通过已训练的图像扩散模型，生成与所述原始图像对应的第一视频；

将所述第一视频分别输入至所述图像扩散模型包含的编解码网络和用于对所述图像扩散模型进行控制的ControlNet网络进行处理；其中，所述编解码网络依次包含编码层、中间层和解码层，所述ControlNet网络依次包含与所述编解码网络相同的编码层、与所述编解码网络相同的中间层和零卷积层，所述零卷积层的输出连接至所述解码层的输入；

通过所述解码层输出生成的所述虚拟形象。

2.如权利要求1所述的方法，其特征在于，所述通过已训练的图像扩散模型，生成与所述原始图像对应的第一视频，包括：

通过所述图像扩散模型包含的SegNet网络对所述原始图像进行图像语义分割处理，得到特征图像；

通过所述图像扩散模型包含的语义学习网络，将所述特征图像转换为目标文本；

通过所述图像扩散模型包含的图像扩散网络，对所述目标文本和所述特征图像进行图像扩散处理，得到目标图像；

通过所述图像扩散模型包含的文本转语音网络，将所述目标文本转换为目标音频；

将所述目标图像和所述目标音频融合，得到所述第一视频。

3.如权利要求2所述的方法，其特征在于，所述SegNet网络的网络结构包含多个网络层组，每个所述网络层组包含至少一个卷积层和至少一个池化层，且每个所述网络层组的第一个卷积层和最后一个池化层之间增加跳跃连接。

4.如权利要求1所述的方法，其特征在于，所述将所述第一视频分别输入至所述图像扩散模型包含的编解码网络和用于对所述图像扩散模型进行控制的ControlNet网络进行处理，包括：

获取预设的形象模板图像；

将所述第一视频和所述形象模板图像作为输入数据，分别输入至所述编解码网络和所述ControlNet网络进行处理。

5.如权利要求1所述的方法，其特征在于，所述将所述第一视频分别输入至所述图像扩散模型包含的编解码网络和用于对所述图像扩散模型进行控制的ControlNet网络进行处理，包括：

获取与所述虚拟形象对应的提示语文本；

将所述第一视频和所述提示语文本作为输入数据，分别输入至所述编解码网络和所述ControlNet网络进行处理。

6.如权利要求1所述的方法，其特征在于，所述虚拟形象为车辆的车载语音助手形象；所述将所述第一视频分别输入至所述图像扩散模型包含的编解码网络和用于对所述图像扩散模型进行控制的ControlNet网络进行处理，包括：

获取所述车辆在行驶过程中的车辆参数；

将所述第一视频和所述车辆参数作为输入数据，分别输入至所述编解码网络和所述ControlNet网络进行处理。

7.如权利要求1至6任一项所述的方法，其特征在于，所述通过所述解码层输出生成的所述虚拟形象，包括：

通过所述解码层，输出第二视频；

针对所述第二视频中的每一帧图像，获取所述图像中包含虚拟形象的边缘的范围区域；将所述范围区域内的每个像素点作为距离度量算法的输入进行距离度量处理，以增大所述范围区域内属于虚拟形象边缘的像素点与不属于虚拟形象边缘的像素点之间的距离，从而得到处理后的所述第二视频；

将处理后的所述第二视频，确定为生成的所述虚拟形象。

8.一种虚拟形象的生成装置，其特征在于，包括：

原始图像获取模块，用于获取虚拟形象对应的原始图像；

视频生成模块，用于通过已训练的图像扩散模型，生成与所述原始图像对应的第一视频；

视频输入模块，用于将所述第一视频分别输入至所述图像扩散模型包含的编解码网络和用于对所述图像扩散模型进行控制的ControlNet网络进行处理；其中，所述编解码网络依次包含编码层、中间层和解码层，所述ControlNet网络依次包含与所述编解码网络相同的编码层、与所述编解码网络相同的中间层和零卷积层，所述零卷积层的输出连接至所述解码层的输入；

虚拟形象输出模块，用于通过所述解码层输出生成的所述虚拟形象。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的虚拟形象的生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的虚拟形象的生成方法。