CN115511704B

CN115511704B - 一种虚拟客服生成方法、装置、电子设备及存储介质

Info

Publication number: CN115511704B
Application number: CN202211465709.XA
Authority: CN
Inventors: 王小东; 吕文勇; 周智杰; 朱羽; 廖浩
Original assignee: Chengdu New Hope Finance Information Co Ltd
Current assignee: Chengdu New Hope Finance Information Co Ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-10
Anticipated expiration: 2042-11-22
Also published as: CN115511704A

Abstract

本申请提供一种虚拟客服生成方法、装置、电子设备及存储介质。该方法包括：提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸；使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表***，形成无声客服视频，其中，姿态表***为预先录制的朗读视频；基于原始文本，形成视频音频；以及根据视频音频对无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于校对后的无声客服视频和视频音频进行语音融合，形成虚拟客服视频。通过上述方法生成的虚拟客服，用户可以与生成的虚拟客户进行交互，消除了用户认为无人监管而进行造假的想法，进而降低用户欺诈攻击的风险。

Description

一种虚拟客服生成方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种虚拟客服生成方法、装置、电子设备及存储介质。

背景技术

在银行的业务办理中，如开户，大额提现，风险告知，受托支付等都需要面对面的面签。目前的面签的方式主要通过客服和用户利用音视频进行在线化的视频通话完成面签，也就是说，每一次面签都需要人工进行监管实现。但上述面签方式中需要耗费大量的人工成本。

发明内容

本申请实施例的目的在于提供一种虚拟客服生成方法、装置、电子设备及存储介质，以改善上述的技术问题。

第一方面，本申请实施例提供了一种虚拟客服生成方法，包括：提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸；使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表***，形成无声客服视频，其中，姿态表***为预先录制的朗读视频；基于原始文本，形成视频音频；以及根据视频音频对无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于校对后的无声客服视频和视频音频进行语音融合，形成虚拟客服视频。通过上述方法生成的虚拟客服，不需要真人客服参与面签，可以节约人工成本。同时，用户可以在面签过程中与生成的虚拟客户进行交互，进而消除了用户认为无人监管而进行造假的想法，减少用户欺诈攻击的可能性。

可选地，在本申请实施例中，提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸之前，还包括：对多个人脸图像进行特征提取并存储，形成待匹配面部特征，待匹配面部特征用于对模板人脸的面部特征进行替换。在上述实现过程中，通过对同一面部特征可以提取到不同人的相应的部分，可以使得在虚拟人脸更加的多样性。

可选地，在本申请实施例中，提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸，包括：提取模板人脸的面部特征并随机选择面部特征中的至少一个面部特征为待替换面部特征；将每一个待替换面部特征与待匹配面部特征进行匹配，得到目标匹配面部特征；以及使用目标匹配面部特征对对应的待替换面部特征进行替换，形成虚拟客服视频人脸。在上述实现过程中，可以理解的，其中模板人脸可以是真实的人脸，而通过对模板人脸中至少一个面部特征的替换既可以使得虚拟人脸具有一定的真实性，又使得虚拟客服的人脸与模板人脸产生区别从而避免了侵犯肖像权的风险。

可选地，在本申请实施例中，人脸迁移算法基于Gan模型训练得到。通过Gan模型训练得到人脸迁移算法以对客服进行表情和姿态迁移，使得虚拟客服可以模拟真人客服在沟通中的表情和姿态，提高了虚拟客服的真实性。

可选地，在本申请实施例中，基于原始文本，形成视频音频包括：获取原始文本；对原始文本进行断句，分词，归一化处理以及对原始文本中的***数据、符号和外文替换为中文，得到处理后的文本；对处理后的文本转换为带音调的拼音并进行韵律分析处理，获得带韵律的拼音文本；将带韵律的拼音文本输入声学模型进行转换处理，得到声学特征；以及将声学特征输入声学模型进行转化处理，得到视频音频。在上述实现过程中，实现了文本向音频的转换，进而模拟真人客服说话的声音，提高了虚拟客服的真实性，使得用户在面签中很难发现面对面通话的画面中是虚拟客服。

可选地，在本申请实施例中，根据视频音频对无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频包括：对视频音频进行分帧处理，并使用傅里叶变换将每一帧音频转换为频谱图；使用卷积神经网络对频谱图进行特征提取，得到多维特征图；基于多维特征图使用嘴型生成模型，生成目标嘴型序列；基于目标嘴型序列更新视频音频对应的无声客服视频中的嘴型，生成校对后的无声客服视频。在上述实现过程中，通过对无声视频中人脸的嘴型的校正使得视频中的口型符合文本朗读时的嘴型，进而使得虚拟客服的模拟更加的真实，使得用户在面签中很难发现面对面通话的画面中是虚拟客服。

可选地，在本申请实施例中，基于校对后的无声客服视频和视频音频进行语音融合，形成虚拟客服视频，包括：使用多媒体视频处理工具对校对后的无声客服视频和视频音频进行合成，形成虚拟客服视频。通过上述将音频和无声客服视频的合成，可以在面签时同时模拟面签是真人客服的声音和形象，提高了虚拟客服的真实性，使得用户在面签中很难发现面对面通话的画面中是虚拟客服。

第二方面，本申请实施例还提供了虚拟客服生成装置，包括：人脸生成模块，用于提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸；无声视频生成模块，用于使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表***，形成无声客服视频；音频生成模块，用于基于原始文本，形成视频音频；以及虚拟客服视频生成模块，用于根据视频音频对无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于校对后的无声客服视频和视频音频进行语音融合，形成虚拟客服视频。

可选地，在本申请实施例中，人脸生成模块，还用于对多个人脸图像进行特征提取并存储，形成待匹配面部特征，待匹配面部特征用于对模板人脸的面部特征进行替换。

可选地，在本申请实施例中，人脸生成模块，还用于提取模板人脸的面部特征并随机选择面部特征中的至少一个面部特征为待替换面部特征；将每一个待替换面部特征与待匹配面部特征进行匹配，得到目标匹配面部特征；以及使用目标匹配面部特征对对应的待替换面部特征进行替换，形成虚拟客服视频人脸。

可选地，在本申请实施例中，音频生成模块，具体用于获取原始文本；对原始文本进行断句，分词，归一化处理以及对原始文本中的***数据、符号和外文替换为中文，得到处理后的文本；对处理后的文本转换为带音调的拼音并进行韵律分析处理，获得带韵律的拼音文本；将带韵律的拼音文本输入声学模型进行转换处理，得到声学特征；以及将声学特征输入声学模型进行转化处理，得到视频音频。

可选地，在本申请实施例中，虚拟客服视频生成模块，具体用于：对视频音频进行分帧处理，并使用傅里叶变换将每一帧音频转换为频谱图；使用卷积神经网络对频谱图进行特征提取，得到多维特征图；基于多维特征图使用嘴型生成模型，生成目标嘴型序列；基于目标嘴型序列更新视频音频对应的无声客服视频中的嘴型，生成校对后的无声客服视频。

可选地，在本申请实施例中，虚拟客服视频生成模块，具体用于：使用多媒体视频处理工具对校对后的无声客服视频和视频音频进行合成，形成虚拟客服视频。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如第一方面描述的方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面描述的方法。

通过上述方法生成的虚拟客服，其虚拟客服视频人脸通过改变模板人脸的人脸特征而生成，使得人脸既可以具有很高的真实性又避免的对肖像权的侵犯，同时通过对表情和姿态迁移、语音合成以及口型校对，进一步提升了虚拟客服对真人客服的模拟程度，使得用户在于虚拟客服进行交互中难以发现其交互对象是虚拟客服，进而消除了用户认为无人监管而进行造假的想法，减少用户欺诈攻击的可能性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种虚拟客服生成方法的流程示意图；

图2为本申请实施例提供的虚拟客服视频人脸生成的流程示意图；

图3为本申请实施例提供的另一种虚拟客服视频人脸生成的示意图；

图4为本申请实施例提供的人脸特征提取流程示意图；

图5为本申请实施例提供的视频音频生成的流程示意图；

图6为本申请实施例提供的一种虚拟客服生成装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

需要说明的是，本申请实施例提供的虚拟客服生成方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：个人电脑（personal computer，PC）、平板电脑、个人数字助理（personal digital assistant，PDA）、移动上网设备（mobile Internet device，MID）、网络交换机或网络路由器等。

在介绍本申请实施例提供的虚拟客服生成方法之前，先介绍该虚拟客服生成方法适用的应用场景，这里的应用场景包括但不限于：随着数字化和人工智能技术的普及，在银行的业务办理中，如开户，大额提现，风险告知，受托支付等面签中，主要是通过虚拟客服与用户进行交互，但是现有的虚拟客服仅仅是对真人客服声音的模拟，没有真实的人物形象，这就使得用户认为无人监管而产生进行造假的想法。因此，可以使用本发明中所提供的虚拟客服生成方法生成虚拟客服，从而使得用户可以与生成的虚拟客户进行交互，消除了用户认为无人监管而进行造假的想法，降低了用户欺诈攻击的风险。

请参照图1，图1为本申请实施例提供的图1为本申请实施例提供的一种虚拟客服生成方法的流程示意图；该虚拟客服生成方法，包括：

步骤S100：提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸。

上述步骤S100中，模板人脸为提前获取的真人客服人脸。

步骤S200：使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表***，形成无声客服视频。

上述步骤S200中，姿态表***为预先录制的朗读视频，具体的，在银行面签业务中，姿态表***是真人根据不同的面签场景，进行表情丰富，姿态丰富的朗读而录制成视频。

步骤S300：基于原始文本，形成视频音频。

上述步骤S300中，通过将原始文本真人化的语音合成，可提升虚拟客服的合成效果，让客户很难发现面对面通话的画面中是机器人。其中，原始文本为针对各种应用场景预先存储的文本，具体例如在银行大额提现的面签场景中，原始文本包括客户信息核实的话术等内容。

步骤S400：根据视频音频对无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于校对后的无声客服视频和视频音频进行语音融合，形成虚拟客服视频。

上述步骤S100-步骤S400，不需要真人客服参与面签，可以节约人工成本。同时，用户可以在面签过程中与生成的虚拟客户进行交互，进而消除了用户认为无人监管而进行造假的想法，减少用户欺诈攻击的可能性。

在一些可选的实施例中，提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸之前，还包括：

步骤S1：对多个人脸图像进行特征提取并存储，形成待匹配面部特征，待匹配面部特征用于对模板人脸的面部特征进行替换。

上述步骤S1，可以理解的是，上述多个人脸图像的面部特征的提取可以通过特征提取神经网络实现。具体的，在一个可选的实施例中，特征提取神经网络对多个真人人脸进行特征提取，包括提取人脸的面部轮廓，面部脸型，面部表情，面部姿态，头发，眼睛，嘴巴，鼻子，额头，装饰品，眼镜，性别，年龄，五官，皮肤等特征，并对上述面部特征进行标记和存储，具体例如，对于脸部轮廓可以标记为feature outline，通过对特征标记方便在后续（步骤S120）对待替换面部特征与待匹配面部特征进行匹配。

可以理解的是，上述实现过程中，通过对不同人脸面部特征的提取到使得在虚拟人脸更加的多样性。具体地，在银行面签的场景中，为了保证虚拟人脸的质量，可以在选取人脸图像时选取具有特定特征的人脸，具体例如，年龄控制在22-30岁，姿态控制正脸，头发控制长发扎起，表情是微笑，不戴眼镜，眼睛睁大，嘴巴关闭，不戴任何装饰。

请参照图2，图2为本申请实施例提供的虚拟客服视频人脸生成的流程示意图；在一些可选的实施例中，提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸，包括：

步骤S110：提取模板人脸的面部特征并随机选择面部特征中的至少一个面部特征为待替换面部特征。

上述步骤S110中，理解的是，首先使用特征提取神经网络对模板人脸的面部特征进行提取，并随机选取提取的模板人脸的面部特征中的至少一个作为待替换面部特征。需要说明的是，在实际实现过程中，对于选取提取的板人脸的面部特征作为待替换面部特征的数量可以依据实际情况进行设置。

在一种可选的实施例中，模板人脸为真实的人脸。

步骤S120：将每一个待替换面部特征与待匹配面部特征进行匹配，得到目标匹配面部特征。

上述步骤S110和步骤S120，在一种可选的实施例中，在提取模板人脸的面部特征时可以采取与上述步骤S1相同的标记方式对提取的模板人脸的面部特征进行标记，因此在对每一个待替换面部特征与待匹配面部特征进行匹配时，可以根据待替换面部特征的标记，匹配具有相同标记的待匹配面部特征，若与替换面部特征匹配的待匹配面部特征有多个，则选取其中一个作为目标匹配面部特征。

步骤S130：使用目标匹配面部特征对对应的待替换面部特征进行替换，形成虚拟客服视频人脸。

上述步骤S130，在一种可选的实施例中，使用人脸生成神经网络完成对目标匹配面部特征对对应的待替换面部特征进行替换以形成虚拟客服视频人脸，具体的例如，待替换面部特征为眼睛，则使用步骤S1中获取的眼睛这一待匹配面部特对原模板中的眼睛这一待替换面部特征进行替换。其中人脸生成神经网络中包括loss函数，以保证生成的虚拟客服视频人脸的真实性。

上述步骤S110-步骤S130，请参照图3，图3为本申请实施例提供的另一种虚拟客服视频人脸生成的示意图；通过对模板人脸中至少一个面部特征的替换既可以使得虚拟人脸具有一定的真实性，又使得虚拟客服的人脸与模板人脸产生区别从而避免了侵犯肖像权的风险。

在一些可选的实施例中，人脸迁移算法基于Gan模型训练得到。通过Gan模型训练得到人脸迁移算法以对客服进行表情和姿态迁移，使得虚拟客服可以模拟真人客服在沟通中的表情和姿态，提高了虚拟客服的真实性。

请参照图4，图4为本申请实施例提供的人脸特征提取流程示意图。

获取模板人脸原始图，使用特征提取神经网络对模板人脸的面部特征进行提取，面部特征包括面部脸型，面部表情，面部姿态，头发，眼睛，嘴巴，鼻子，额头，面部轮廓，性别，年龄等。预先构建一个人脸生成神经网络，人脸生成神经网络中包括loss函数，以保证生成的虚拟客服视频人脸的真实性。根据人脸生成神经网络生成虚拟客服人脸。

在一个优选实施例中，为了使虚拟客服可拥有人的表情和姿态，并且表情和姿态可随时运动，更加拟人化，使用图像生成技术进行表情姿态的算法迁移，具体的实现可以为：通过上述步骤S110-步骤S130，获得生成的虚拟客服的人脸照片，记作face_a；获取预先录制的视频，视频包括人物姿态和人物表情；将预先录制的视频记作video_b；视频中人物的人脸记作face_b。

将生成的虚拟客服的人脸照片face_a，以及预先录制的视频video_b，输入预先构建的姿态迁移模型，对虚拟客服的姿态和表情进行迁移，将预先录制的视频video_b中的人物的姿态和表情，迁移到虚拟客服的人脸照片face_a，实现虚拟客服的姿态和表情迁移。

在一些可选的实施例中，基于原始文本，形成视频音频包括：

步骤S10：获取原始文本。

步骤S20：对原始文本进行断句，分词，归一化处理以及对原始文本中的***数据、符号和外文替换为中文，得到处理后的文本。

下面对上述步骤S20如何实现断句、分词以及归一化处理的实现过程进行说明：

对于断句，其实现包括：基于断句规则进行断句，例如基于标点符号（句号、问号、冒号和感叹号等等）进行断句。

对于分词，在一种可选的实施例中，分词可以使用jieba器实现。可以理解的是，通过分词处理可以将连续的字序列按照一定的规范重新组合成语义独立词序列。分词算法还可以使用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法的算法。

对于归一化处理，其实现过程包括：根据分词处理的结果，将多音字转化为与该多音字相同音的单音词，具体例如，根据分词中对“一行行文字”语义分析，把“一行行”替换成“一航航”，通过归一化处理可以避免由于多音字的原因导致文本音频转化的读音错误。

对原始文本中的***数据、符号和外文替换为中文的实现过程为：将***数字和符号按照实际场景读法转化为中文，具体例如“流水单号123#”经过替换后为“流水单号幺二三井号”，将英文“app”转换为“诶批批”，西语“gracias”替换为“格拉西啊丝”，需要说明的是，在实际应用中还可能包括其他的外文和符号，在此不再赘述。

步骤S30：对处理后的文本转换为带音调的拼音并进行韵律分析处理，获得带韵律的拼音文本。

上述步骤S30，具体例如，“虚拟客服”，其形成的带韵律的拼音文本为“xu1，ni3，ke4，fu2”。

步骤S40：将带韵律的拼音文本输入声学模型进行转换处理，得到声学特征。

在一种可选的实施例中，声学特征为mel频谱。

步骤S50：将声学特征输入声学模型进行转化处理，得到视频音频。

上述步骤S50，声学模型可以使用隐马尔科夫模型进行建模，通过声学模型实现了文本向音频的转换，进而模拟真人客服说话的声音，提高了虚拟客服的真实性，使得用户在面签中很难发现面对面通话的画面中是虚拟客服。

请参照图5，图5为本申请实施例提供的视频音频生成的流程示意图。在一个优选的实施例中，对获取到的原始文本为“虚拟客户2.0”，将原始文本进行文本预处理，文本预处理包括将文本进行断句，分词以及归一化处理；对预处理之后的文本为“虚拟，客户，二点零”，在对预处理之后的文本进行音调转换：“xu1，ni3，ke4，fu2，er2，dian3，ling3”，将带韵律的拼音文本输入声学模型进行转换处理，得到声学特征；建立声码器模型：把声学特征转换为语音波形，将声学特征数输入声学模型进行转化处理，也就是把梅尔频谱图逆变换成声音波形，利用深度学习建立模型之间的关系，进而生成波形，波形也就是常见的语音信号。

在一些可选的实施例中，根据视频音频对无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频包括：

步骤S410：对视频音频进行分帧处理，并使用傅里叶变换将每一帧音频转换为频谱图。

上述步骤S410中，可以按照预设的时间长度对视频音频进行分帧，具体例如，可以按照10ms一帧对视频音频进行分帧，可以理解的，预设时长可以根据具体的应用场景进行设置，具体例如为了获取更高的精度还可以按照5ms一帧对视频音频进行分帧。

步骤S420：使用卷积神经网络对频谱图进行特征提取，得到多维特征图。

步骤S430：基于多维特征图使用嘴型生成模型，生成目标嘴型序列。

上述步骤S430中，嘴型生成模型包括真实人物的嘴型与真实人物的语音片段的多维特征图之间的关联关系，因此可以根据多维特征图确定与多维特征图相对应的嘴型序列。

步骤S440：基于目标嘴型序列更新视频音频对应的无声客服视频中的嘴型，生成校对后的无声客服视频。

在上述实现过程中，通过对无声视频中人脸的嘴型的校正使得视频中的口型符合文本朗读时的嘴型，进而使得虚拟客服的模拟更加的真实，使得用户在面签中很难发现面对面通话的画面中是虚拟客服。

在一些可选的实施例中，基于校对后的无声客服视频和视频音频进行语音融合，形成虚拟客服视频，包括：使用多媒体视频处理工具对校对后的无声客服视频和视频音频进行合成，形成虚拟客服视频。

在一个可选的实施例中，多媒体视频处理工具为ffmpeg。

通过上述将音频和无声客服视频的合成，可以在面签时同时模拟面签是真人客服的声音和形象，提高了虚拟客服的真实性，使得用户在面签中很难发现面对面通话的画面中是虚拟客服。

在一个优选实施例中，在生成视频音频以及语音波形之后，对无声客服视频中人脸的嘴型进行校对，根据语音波形，调整无声客服视频中人脸的口型的变化，从而达到说出来的话语口型保持一致。具体例如：对无声客服视频进行视频解析，形成视频流。对视频流进行人脸检测，获得客服人脸；通过人脸编码器，对客服人脸进行特征提取，获取客服人脸的多维特征向量。其中，提取人脸特征的包括卷积，池化，激活函数等卷积处理。

根据多维特征向量，生成多维特征图，具体例如，按照10ms一帧利用傅里叶变换，获得频谱图，通过卷积神经网络对频谱图进行特征提取，生成多维特征图。对语音进行特征提取，获得语音Mfcc（Mel Frequency Cepstrum Coefficient，梅尔倒谱系数）特征，将语音特征转成一维图像向量，再使用卷积，池化，激活函数等进行特征抽取，获得语音特征。

根据人脸编码器以及语音编码器，对特征进行融合，并使用Lstm（Long Short-Term Memory，长短期记忆人工神经网络）建立时序关系；根据多维特征图确定与多维特征图相对应的嘴型序列，基于目标嘴型序列更新视频音频对应的无声客服视频中的嘴型，将嘴型融合到原始视频，生成与音频同步的人脸图像。

请参照图6，图6为本申请实施例提供的一种虚拟客服生成装置的结构示意图，该虚拟客服生成装置500，包括：

人脸生成模块510，用于提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸。

无声视频生成模块520，用于使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表***，形成无声客服视频。

音频生成模块530，用于基于原始文本，形成视频音频。

虚拟客服视频生成模块540，用于根据视频音频对无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于校对后的无声客服视频和视频音频进行语音融合，形成虚拟客服视频。

在一些可选的实施例中，人脸生成模块，还用于对多个人脸图像进行特征提取并存储，形成待匹配面部特征，待匹配面部特征用于对模板人脸的面部特征进行替换。

在一些可选的实施例中，人脸生成模块，还用于提取模板人脸的面部特征并随机选择面部特征中的至少一个面部特征为待替换面部特征；将每一个待替换面部特征与待匹配面部特征进行匹配，得到目标匹配面部特征；以及使用目标匹配面部特征对对应的待替换面部特征进行替换，形成虚拟客服视频人脸。

在一些可选的实施例中，音频生成模块，具体用于获取原始文本；对原始文本进行断句，分词，归一化处理以及对原始文本中的***数据、符号和英文替换为中文，得到处理后的文本；对处理后的文本转换为带音调的拼音并进行韵律分析处理，获得带韵律的拼音文本；将带韵律的拼音文本输入声学模型进行转换处理，得到声学特征；以及将声学特征输入声学模型进行转化处理，得到视频音频。

在一些可选的实施例中，虚拟客服视频生成模块，具体用于：对视频音频进行分帧处理，并使用傅里叶变换将每一帧音频转换为频谱图；使用卷积神经网络对频谱图进行特征提取，得到多维特征图；基于多维特征图使用嘴型生成模型，生成目标嘴型序列；基于目标嘴型序列更新视频音频对应的无声客服视频中的嘴型，生成校对后的无声客服视频。

在一些可选的实施例中，虚拟客服视频生成模块，具体用于：使用多媒体视频处理工具对校对后的无声客服视频和视频音频进行合成，形成虚拟客服视频。

本申请实施例提供虚拟客服生成装置，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图7为本申请实施例提供的一种电子设备的结构示意图。参照图7，电子设备4包括：处理器401、存储器402，这些组件通过通信总线403和/或其他形式的连接机构（未示出）互连并相互通讯。

其中，存储器402包括一个或多个（图中仅示出一个），其可以是，但不限于，随机存取存储器（Random Access Memory，简称RAM），只读存储器（Read Only Memory，简称ROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，简称EPROM），电可擦除可编程只读存储器（Electric Erasable Programmable Read-Only Memory，简称EEPROM）等。处理器401以及其他可能的组件可对存储器402进行访问，读和/或写其中的数据。

处理器401包括一个或多个（图中仅示出一个），其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器401可以是通用处理器，包括中央处理器（CentralProcessing Unit，简称CPU）、微控制单元（Micro Controller Unit，简称MCU）、网络处理器（Network Processor，简称NP）或者其他常规处理器；还可以是专用处理器，包括神经网络处理器（Neural-network Processing Unit，简称NPU）、图形处理器（Graphics ProcessingUnit，简称GPU）、数字信号处理器（Digital Signal Processor，简称DSP）、专用集成电路（Application Specific Integrated Circuits，简称ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器401为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。

在存储器402中可以存储一个或多个计算机程序指令，处理器401可以读取并运行这些计算机程序指令，以实现本申请实施例提供的一种虚拟客服生成方法。

可以理解的，图5所示的结构仅为示意，电子设备4还可以包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的结构。图5中所示的各组件可以采用硬件、软件或其组合实现。电子设备4可能是实体设备，例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备4也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本申请实施例提供的一种虚拟客服生成方法。例如，计算机可读存储介质可以实现为图5中电子设备4中的存储器402。

在本申请所提供的实施例中，应该理解到，所揭露装置以及***，可以通过其它的方式实现。以上所描述的***实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟客服生成方法，其特征在于，所述方法包括：

提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸；

使用人脸迁移算法将所述虚拟客服视频人脸迁移至姿态表***，形成无声客服视频，其中，所述姿态表***为预先录制的朗读视频；

基于原始文本，形成视频音频；以及

根据所述视频音频对所述无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于所述校对后的无声客服视频和所述视频音频进行语音融合，形成虚拟客服视频；

其中，所述提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸之前，还包括：

对多个人脸图像进行特征提取并存储，形成待匹配面部特征，所述待匹配面部特征用于对所述模板人脸的面部特征进行替换；

所述提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸，包括：

提取模板人脸的面部特征并随机选择所述面部特征中的至少一个面部特征为待替换面部特征；

将每一个所述待替换面部特征与所述待匹配面部特征进行匹配，得到目标匹配面部特征；以及

使用所述目标匹配面部特征对对应的所述待替换面部特征进行替换，形成所述虚拟客服视频人脸。

2.根据权利要求1所述方法，其特征在于，所述人脸迁移算法基于Gan模型训练得到。

3.根据权利要求1所述方法，其特征在于，所述基于原始文本，形成视频音频，包括：

获取所述原始文本；

对所述原始文本进行断句，分词，归一化处理以及对所述原始文本中的***数据、符号和外文替换为中文，得到处理后的文本；

对所述处理后的文本转换为带音调的拼音并进行韵律分析处理，获得带韵律的拼音文本；

将所述带韵律的拼音文本输入声学模型进行转换处理，得到声学特征；以及

将所述声学特征输入声学模型进行转化处理，得到所述视频音频。

4.根据权利要求1-3任一项所述方法，其特征在于，所述根据所述视频音频对所述无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，包括：

对所述视频音频进行分帧处理，并使用傅里叶变换将每一帧音频转换为频谱图；

使用卷积神经网络对所述频谱图进行特征提取，得到多维特征图；

基于所述多维特征图使用所述嘴型生成模型，生成目标嘴型序列；

基于所述目标嘴型序列更新所述视频音频对应的无声客服视频中的嘴型，生成校对后的无声客服视频。

5.根据权利要求4所述方法，其特征在于，基于所述校对后的无声客服视频和所述视频音频进行语音融合，形成虚拟客服视频，包括：

使用多媒体视频处理工具对所述校对后的无声客服视频和所述视频音频进行合成，形成虚拟客服视频。

6.一种虚拟客服生成装置，其特征在于，所述装置包括：

人脸生成模块，用于提取模板人脸的面部特征并对模板人脸中的至少一个面部特征进行替换，形成虚拟客服视频人脸；

无声视频生成模块，用于使用人脸迁移算法将虚拟客服视频人脸迁移至姿态表***，形成无声客服视频；

音频生成模块，用于基于原始文本，形成视频音频；以及

虚拟客服视频生成模块，用于根据所述视频音频对所述无声客服视频中人脸的嘴型进行校对，形成校对后的无声客服视频，并基于所述校对后的无声客服视频和所述视频音频进行语音融合，形成虚拟客服视频；

所述人脸生成模块，还用于对多个人脸图像进行特征提取并存储，形成待匹配面部特征，所述待匹配面部特征用于对所述模板人脸的面部特征进行替换；

所述人脸生成模块，还用于提取模板人脸的面部特征并随机选择所述面部特征中的至少一个面部特征为待替换面部特征；将每一个所述待替换面部特征与所述待匹配面部特征进行匹配，得到目标匹配面部特征；以及使用所述目标匹配面部特征对对应的所述待替换面部特征进行替换，形成所述虚拟客服视频人脸。

7.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法。

8.一种计算机可读存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法。