CN110400251A

CN110400251A - 视频处理方法、装置、终端设备及存储介质

Info

Publication number: CN110400251A
Application number: CN201910511183.6A
Authority: CN
Inventors: 马凯; 杨国基
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-11-01

Abstract

本申请公开了一种视频处理方法、装置、终端设备及存储介质，该方法包括：获取用户输入的交互信息；对交互信息进行识别，获取与交互信息对应的特定音频信息；将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点；将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像；将预设视频中的预设人脸图像替换为模拟人脸图像，并获得替换人脸图像后的包含模拟人脸图像的答复视频；输出针对交互信息的答复视频，答复视频中包含特定音频信息。本申请可以在用户与机器人对话时，针对用户的对话内容，提供模拟真人的答复视频，实现多模态交互，可适用于企业级应用，提供客服型机器人，优化客服体验。

Description

视频处理方法、装置、终端设备及存储介质

技术领域

本申请涉及终端设备技术领域，更具体地，涉及一种视频处理方法、装置、终端设备及存储介质。

背景技术

目前，手机等移动终端设备的普及率越来越高，智能手机已成为人们出行的必备随身物品。随着移动互联网发展迅速，移动终端上出现了各种各样的应用程序，这其中许多应用程序可以为用户提供客服功能，使得用户能够通过客服来进行产品咨询等业务。

一般而言，在移动端应用程序内，企业为用户提供的客服功能通常包含机器人客服和人工客服两部分。面对一些简单或常见的问题，通常可以由机器人客服对用户的问题进行回答，而对一些复杂或特殊的问题，则可通过转接人工客服来进行处理。

随着人工智能相关技术的发展，机器人客服的功能越来越强，能够适用的场景也越来越多，大大提高了客服效率，节省了人工资源。然而，目前的机器人客服大多为通过文字的方式与用户对话，用户体验较为单一。

发明内容

鉴于上述问题，本申请提出了一种视频处理方法、装置、终端设备及存储介质，可实现多模态交互，提升用户体验。

第一方面，本申请实施例提供了一种视频处理方法，该方法包括：获取用户输入的交互信息；对交互信息进行识别，获取与交互信息对应的特定音频信息；将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点；将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像，第二机器学习模型为生成对抗网络模型，模拟人脸图像为二维人脸图像；将预设视频中的预设人脸图像替换为模拟人脸图像，并获得替换人脸图像后的包含模拟人脸图像的答复视频，预设人脸图像为二维人脸图像，将预设视频中的预设人脸图像替换为模拟人脸图像为基于二维图像处理的图像替换；输出针对交互信息的答复视频，答复视频中包含特定音频信息。

进一步的，所述交互信息包括语音信息、文本信息、图像信息中的至少一种，所述对所述交互信息进行识别，获取与所述交互信息对应的特定音频信息，包括：对所述交互信息进行识别，获取与所述交互信息对应的交互文本；在问答库中查询并获取与所述交互文本对应的答复文本；合成与所述答复文本对应的特定音频信息。

进一步的，所述视频处理方法还包括：获取第一训练样本集，所述第一训练样本集包括从第一预训练视频中抽取的人脸图像的面部特征点以及与所述面部特征点对应的音频；将所述第一训练样本集输入所述第一机器学习模型，对所述第一机器学习模型进行训练；获取第二训练样本集，所述第二训练样本集包括从第二预训练视频中抽取的人脸图像以及与所述人脸图像对应的面部特征点；将所述第二训练样本集输入所述第二机器学习模型，对所述第二机器学习模型进行训练。

进一步的，所述第二预训练视频与所述预设视频中的人脸图像为同一人的人脸图像。

进一步的，所述第一预训练视频与所述第二预训练视频中的人脸图像为同一人或不同人的人脸图像。

进一步的，所述将预设视频中的预设人脸图像替换为所述模拟人脸图像，包括：在预设视频中确定与所述模拟人脸图像对应的图像替换区域，所述图像替换区域为所述预设视频中的预设人脸图像的局部区域或全部区域；将所述模拟人脸图像覆盖至所述图像替换区域。

进一步的，所述面部特征点包括唇形特征点、面部轮廓特征点以及人脸细节特征点中的至少一种。

第二方面，本申请实施例提供了一种视频处理装置，该装置包括：信息输入模块，用于获取用户输入的交互信息；音频获取模块，用于对交互信息进行识别，获取与交互信息对应的特定音频信息；特征点获取模块，用于将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点；人脸生成模块，用于将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像，第二机器学习模型为生成对抗网络模型，模拟人脸图像为二维人脸图像；人脸替换模块，用于将预设视频中的预设人脸图像替换为模拟人脸图像，并获得替换人脸图像后的包含模拟人脸图像的答复视频，预设人脸图像为二维人脸图像，将预设视频中的预设人脸图像替换为模拟人脸图像为基于二维图像处理的图像替换；视频输出模块，用于输出针对交互信息的答复视频，答复视频中包含特定音频信息。

进一步的，所述交互信息包括语音信息、文本信息、图像信息中的至少一种，所述音频获取模块包括：识别单元，用于对所述交互信息进行识别，获取与所述交互信息对应的交互文本；查询单元，用于在问答库中查询并获取与所述交互文本对应的答复文本；合成单元，用于合成与所述答复文本对应的特定音频信息。

进一步的，所述视频处理装置还包括：第一样本获取模块，用于获取第一训练样本集，所述第一训练样本集包括从第一预训练视频中抽取的人脸图像的面部特征点以及与所述面部特征点对应的音频；第一训练模块，用于将所述第一训练样本集输入所述第一机器学习模型，对所述第一机器学习模型进行训练；第二样本获取模块，用于获取第二训练样本集，所述第二训练样本集包括从第二预训练视频中抽取的人脸图像以及与所述人脸图像对应的面部特征点；第二训练模块，用于将所述第二训练样本集输入所述第二机器学习模型，对所述第二机器学习模型进行训练。

进一步的，所述人脸替换模块包括：区域单元，用于在预设视频中确定与所述模拟人脸图像对应的图像替换区域，所述图像替换区域为所述预设视频中的预设人脸图像的局部区域或全部区域；替换单元，用于将所述模拟人脸图像覆盖至所述图像替换区域。

第三方面，本申请实施例提供了一种终端设备，其包括：存储器；一个或多个处理器，与存储器耦接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供的视频处理方法、装置、终端设备及存储介质，可先获取用户输入的交互信息，然后对交互信息进行识别，获取与交互信息对应的特定音频信息，再将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点，将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像，其中，第二机器学习模型为生成对抗网络模型，模拟人脸图像为二维人脸图像，将预设视频中的预设人脸图像替换为模拟人脸图像，并获得替换人脸图像后的包含模拟人脸图像的答复视频，其中，预设人脸图像为二维人脸图像，将预设视频中的预设人脸图像替换为模拟人脸图像为基于二维图像处理的图像替换，最后输出针对交互信息的答复视频，答复视频中包含特定音频信息。本申请实施例可通过在用户与机器人对话时，针对用户输入的交互信息，匹配对应的特定音频信息，并基于机器学习模型生成与该特定音频信息对应的拟真的模拟人脸图像，最后将合成有模拟人脸图像与特定音频的答复视频输出以展示给用户，实现多模态交互，使得机器人能够以更逼真自然的形象呈现在用户面前，优化机器人客服的质量，提升用户的使用体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图；

图2示出了本申请一个实施例提供的视频处理方法的流程示意图；

图3示出了三种不同类型的面部特征点的示意图；

图4示出了本申请一个实施例中替换人脸图像的一种可能的应用示意图；

图5示出了本申请一个实施例提供的视频处理方法的一种可能的交互界面示意图；

图6示出了本申请又一个实施例提供的一种视频处理方法的流程示意图；

图7示出了本申请又一个实施例中执行步骤S401至步骤S404的流程示意图；

图8示出了本申请实施例提供的视频处理装置的模块框图；

图9是本申请实施例的用于执行根据本申请实施例的视频处理方法的终端设备的框图；

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的视频处理方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着科技发展，人们对各种智能产品使用过程中人性化体验的需求也在逐渐增加，在与客服沟通过程中，用户也希望可以不仅仅只是得到文字或语音的回复，而是可以通过与实际生活中的人际沟通相似的更为自然的交互方式进行沟通。

发明人在研究中发现，可通过让客服机器人模拟真人说话，来增进客服的亲切感。例如在客服机器人与用户进行对话时，可以将对用户咨询的回复内容经过虚拟的人物形象之口，通过语音的方式表达出来，让用户可以在用户界面上直观的看到具有虚拟人物形象的客服机器人在“说话”，使用户与客服机器人之间能够进行“面对面”的沟通交流。

然而，在实际的研究过程中，发明人发现，由于人们对人脸的视觉与听觉一致性的感知较为灵敏，在客服机器人“说话”时，虚拟人物的面部表情以及嘴型等如果与语音有微小的偏差，都可能会给用户带来不自然的感觉，影响用户的体验。

为了改善上述问题，发明人研究了拟人化的客服机器人在实现过程中的困难点，更是综合考虑实际交互场景中的使用需求，提出了本申请实施例中的视频处理方法、装置、电子设备及存储介质。

为便于更好的理解本申请实施例提供的视频处理方法、装置、电子设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的视频处理方法可以应用于如图1所示的多态交互***100。多态交互***100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像等，还可以是基于终端设备101上安装有的手势识别模块，使得用户可以实现手势输入等交互方式。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信，具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息、语音信息或图像信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，客户端应用程序可以用于向用户提供客户服务，与用户进行客服沟通，客户端应用程序可以基于虚拟机器人与用户进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于虚拟机器人对该信息作出应答。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形态建立的形似真人的机器人，也可以是动漫效果式的机器人，例如动物形态或卡通人物形态的机器人。

在一些实施方式中，终端设备101在获取与用户输入的信息对应的回复信息后，可以在终端设备101的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像。作为一种方式，在播放虚拟机器人图像的同时，可以通过终端设备101的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频，还可以在终端设备101的显示屏上显示与该回复信息对应的文字或图形，实现在图像、语音、文字等多个方面上与用户的多态交互。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备101上，使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互，此时多态交互***100可以只包括终端设备101。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的视频处理方法、装置、终端设备及存储介质进行详细说明。

请参阅图2，图2示出了本申请一个实施例提供的视频处理方法的流程示意图。本实施例提供的视频处理方法可以适用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。视频处理方法可先获取用户输入的交互信息，然后对交互信息进行识别，获取与交互信息对应的特定音频信息，再将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点，将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像，其中，第二机器学习模型为生成对抗网络(Generative Adversarial Networks，GAN)模型，模拟人脸图像为二维人脸图像，将预设视频中的预设人脸图像替换为模拟人脸图像，并获得替换人脸图像后的包含模拟人脸图像的答复视频，其中，预设人脸图像为二维人脸图像，将预设视频中的预设人脸图像替换为模拟人脸图像为基于二维图像处理的图像替换，最后输出针对交互信息的包含特定音频信息的答复视频，可实现多模态交互，使得机器人能够以更逼真自然的形象呈现在用户面前，优化机器人客服的质量，提升用户的使用体验。

在具体的实施例中，视频处理方法可应用于如图8所示的视频处理装置500以及图9所示的终端设备600。下面将针对图2所示的流程进行详细的阐述。上述的视频处理方法具体地可以包括以下步骤：

步骤S201：获取用户输入的交互信息。

本实施例中，可通过终端设备中集成的多种信息输入模块或与终端设备连接的多种信息输入装置获取用户输入的交互信息。

在一些实施方式中，交互信息包括但不限于语音信息、文本信息、图像信息、动作信息等各种类型的信息。其中，语音信息可以包括语言类的音频信息(例如汉语、英语音频等)以及非语言类的音频信息(例如音乐音频等)；文本信息可以包括文字类的文本信息(例如中文、英文等)以及非文字类的文本信息(例如特殊符号、字符表情等)；图像信息可以包括静态图像信息(例如静态图片、照片等)以及动态图像信息(例如动态图片、视频图像等)；动作信息可以包括用户动作信息(例如用户手势、身体动作、表情动作等)以及终端动作信息(例如终端设备的位置、姿态和摇动、旋转等运动状态等)。

可以理解的是，对应于不同种类的交互信息，可以通过终端设备上不同类型的信息输入模块进行信息采集。例如，可通过麦克风等音频输入设备采集用户的语音信息，通过触摸屏或物理按键采集用户输入的文本信息，通过摄像头采集图像信息，通过光学传感器、重力传感器等采集动作信息等。

作为一种方式，在客服机器人对应的应用程序在终端设备的***前台运行时，即可调用终端设备的各个硬件模块来获取用户通过客服机器人对应的应用程序界面输入的交互信息。

作为一种方式，交互信息可以用于表征用户向客服机器人提出的交互意向，可以是明确的询问，例如“我购买的商品发货了吗？”，也可以是某种请求，例如“请帮我查询我购买的这件商品的物流信息”，还可以是表达某种交互意愿的问候语，例如“你好，我有问题需要咨询”，等等。

可以理解的是，同一个问题，可以对应于不同类型的交互信息。例如，用户想要输入“请帮我查询我购买的这件商品的物流信息”的请求时，用户可以通过语音输入的方式输入对应的音频，也可以上传与“我购买的这件商品”对应的图片或输入对应的文本信息，或是直接在应用程序界面上选择“我购买的这件商品”对应的虚拟图标来触发交互信息的输入。可以理解的是，对应于同一个问题，可以仅输入一种类型的交互信息，也可以同时输入多种类型的交互信息，来使用户的咨询请求更加明确，更易被客服机器人识别。

本实施例中，通过多种方式来获取不同种类的交互信息，使得用户的多种交互方式可以自由得到响应，不再局限于传统机械式的人机交互手段，实现了人机之间的多态交互，满足更多的交互场景。

步骤S202：对交互信息进行识别，获取与交互信息对应的特定音频信息。

本实施例中，在获取用户输入的交互信息之后，可以对交互信息进行识别，解析交互信息中包含的用户意向。

本实施例中，特定音频信息，可以是客服机器人针对用户输入的交互信息，获取的用于向用户进行相应答复的音频信息。例如，当用户输入的交互信息包含“请帮我查询这件商品什么时候发货”的用户意向时，与该交互信息对应的特定音频信息可以是用于表达“这件商品预计在3天之内发货”的音频信息。

作为一种方式，当终端设备获取交互信息后，可以在终端设备本地对交互信息进行识别，并生成与该交互信息对应的特定音频信息。可以理解的是，用于对交互信息与特定音频信息进行转换的装置可以部署在终端设备本地，使得客服机器人在离线环境下依然可以运作。

作为另一种方式，在终端设备与服务器建立通信连接的状态下，当终端设备获取交互信息后，还可以将交互信息发送至服务器，由服务器对交互信息进行识别，并生成与该交互信息对应的特定音频信息，再将该特定音频信息发送至终端设备，由终端设备获取。可以理解的是，用于对交互信息与特定音频信息进行转换的装置还可以部署在云端服务器中，使得终端设备本地的计算存储压力得以缓解。

在一些实施方式中，在获取交互信息后，还可以基于交互信息的不同类型，将交互信息输入与交互信息的类型对应的识别装置中，基于该识别装置对交互信息进行识别与转换，从而得到与该交互信息对应的答复音频信息。

步骤S203：将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点。

本实施例中，第一机器学习模型，可以是基于大量真人说话视频(包含真人说话图像以及与真人说话图像对应的真人说话音频)以及真人说话时面部特征点的训练样本，通过神经网络训练得到的。可以理解的是，第一机器学习模型，是用于将音频转换为对应面部特征点的模型。通过将之前获取的特定音频信息输入第一机器学习模型，即可由第一机器学习模型输出与特定音频信息对应的面部特征点。

本实施例中，面部特征点可以是用于描述人脸全部或部分形态的特征点集合，其记载有人脸上各个特征点在空间中的位置信息和深度信息，通过获取面部特征点即可重建人脸局部或全部的图像。作为一种方式，面部特征点可以是预先选取的，例如，为了描述人的唇型，可以提取人嘴唇的轮廓线，并在嘴唇的轮廓线上按需求选取间隔分布的多个点作为用于描述唇形的面部特征点。

可以理解的是，当人说话时，人脸会发生变化，对应的面部特征点的各个特征点的位置信息与深度信息也会发生变化，即人说话时的每一个发音(对应于说话音频)，均对应于至少一张人脸图像，而每一张人脸图像均对应于一组面部特征点，通过在真人说话视频中提取音频对应的真人人脸图像，并从真人人脸图像中提取面部特征点，即可推理出面部特征点与音频之间的对应关系。

在一些实施方式中，如图3所示，面部特征点可以包括唇形特征点、面部轮廓特征点以及人脸细节特征点中的至少一种。可以理解的是，根据用户需求与应用环境的不同，面部特征点还可以是其他以任意方式呈现的用于描述人脸全部或部分形态的特征点。

可以理解的是，本实施例中，获取的面部特征点与特定音频信息在时间上是对应的。例如，一秒钟需要的面部特征点数量为30组(每组面部特征点都包含各个特征点在空间中的位置信息与深度信息)，若特定音频信息对应的音频时长为10秒，则需要的面部特征点总量为300组，这300组面部特征点与10秒的特定音频信息在时间上是对齐的。

在一些实施方式中，第一机器学习模型可以运行于服务器中，由服务器基于输入的特定音频信息通过第一机器学习模型将其转换为对应的面部特征点。作为一种方式，终端设备在获取交互信息后，可以将交互信息发送至服务器，由服务器对其进行识别生成特定音频信息，并由服务器将生成的特定音频信息转换为面部特征点，即生成特定音频信息与转换面部特征点的数据处理过程均可由服务器完成。作为另一种方式，终端设备还可以在本地获取特定音频信息，并将特定音频信息发送至服务器，由服务器根据终端设备发送的特定音频信息获取对应的面部特征点。通过将第一机器学习模型部署于服务器中，可减少对终端设备存储容量及运算资源的占用，并且服务器只需接收少量数据(交互信息或特定音频信息的体积较小)，也大大降低了数据传输的压力，提高了数据传输的效率，如此，不仅使得存储容量以及运算资源相对较少的终端设备可以轻松实现本实施例提供的方法，降低了用户门槛，提升了市场适应性，也同时提高了终端设备的响应速度，提升了用户体验。

在另一些实施方式中，第一机器学习模型还可以运行于终端设备本地，使得客服机器人可以在离线环境下提供服务。

作为一种方式，第一机器学习模型可以采用RNN(Recurrent Neural Network，循环神经网络)模型，其可以利用内部的记忆来处理任意时序的输入序列，这使得其在语音识别处理上相对于其他机器学习模型具有更佳的计算效率和精确度。

步骤S204：将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像。

本实施例中，第二机器学习模型，可以是基于大量真人说话时的人脸图像以及从人脸图像中提取的面部特征点的训练样本，通过神经网络训练得到的。可以理解的是，第二机器学习模型，是用于根据人脸的面部特征点构建与面部特征点对应的模拟人脸图像的模型。通过将由第一机器学习模型输出的面部特征点输入第二机器学习模型，即可由第二机器学习模型输出与面部对应的模拟人脸图像。

可以理解的是，由于获取的面部特征点与特定音频信息是对应的，基于面部特征点获取的模拟人脸图像与特定音频信息也是对应的。

在一些实施方式中，第二机器学习模型与第一机器学习模型类似，可以运行于服务器中，也可以运行于终端设备本地，在不同的应用场景下具有相应的优势，可根据实际需求进行选择。

本实施例中，第二机器学习模型可以根据输入的面部特征点，输出与真人人脸图像近似的模拟人脸图像，例如，在面部轮廓、空间形状、皮肤材质等方面，均可在一定程度的训练后，实现输出与真人人脸在视觉上难以分辨区别的模拟人脸图像。可以理解的是，基于训练样本数量以及训练时间的累积，第二机器学习模型基于面部特征点模拟人脸图像的拟真度会逐步提升。

作为一种方式，第二机器学习模型可以选择GAN(Generative AdversarialNetworks，生成对抗网络)模型，其通过生成器(Generator)和判别器(Discriminator)的互相博弈学习，能够不断优化自身的输出，在训练样本数量足够大的情况下，可通过GAN模型获得无限趋近真人人脸的模拟人脸图像，实现“以假乱真”的效果。进一步地，模拟人脸图像为二维人脸图像，即将面部特征点输入GAN模型，可以获得与面部特征点对应的二维的模拟人脸图像。

步骤S205：将预设视频中的预设人脸图像替换为模拟人脸图像，并获得替换人脸图像后的包含模拟人脸图像的答复视频。

本实施例中，预设视频，可以是预先准备的用于针对用户输入的交互信息对用户进行反馈的视频。预设人脸图像，可以是预设视频中包含的人脸图像。在获取模拟人脸图像后，即可将预设视频中的预设人脸图像替换为模拟人脸图像，获得替换人脸后的答复视频。

在一种实施方式中，预设人脸图像为二维人脸图像、且模拟人脸图像为二维人脸图像，将预设视频中的预设人脸图像替换为模拟人脸图像为基于二维图像处理的图像替换，由于模拟人脸图像是根据GAN模型获得，因此根据GAN模型的特性可以大大提高图片的质量，提高模拟人脸说话的逼真度。

作为一种方式，根据模拟人脸图像对应真实人脸区域的不同，预设视频中的预设人脸图像的替换，可以是全部替换，也可以是局部替换。

如图4所示，若模拟人脸图像仅为唇形模拟，则仅需将模拟人脸图像对预设人脸图像中的嘴部附近区域进行替换即可，最终获得的图像为仅替换人脸嘴部附近区域的人脸图像，而除该部分区域以外的预设视频中的其他区域则可以保留预设视频中原有的图像。可以理解的是，相对于全部人脸替换，局部人脸替换需要的面部特征点数量更少，其数据处理量更低，获得答复视频的效率也会更高。另外，由于人在说话时，除嘴部附近区域变化较明显外，人脸上的其他区域如额头部、面颊部、眼部、耳部、鼻部等区域的变化不明显，因此仅替换嘴部图像，可以在提升视频处理效率的同时，使得对替换后人脸拟真度的影响最小化，可为用户提供最优化的体验。

步骤S206：输出针对交互信息的答复视频，答复视频中包含特定音频信息。

本实施例中，在获取替换人脸图像后的答复视频后，可以将答复视频中来自预设视频的原始音频部分或全部替换为特定音频信息，再对包含有特定音频信息与模拟人脸图像的答复视频进行输出，向用户呈现出模拟的外形与声音均形似真人的客服机器人形象。

在一些实施方式中，预设视频可以仅包含图像而不包含音频，此时，只需将特定音频信息合成至替换人脸后的答复视频中即可输出。

在另一些实施方式中，若预设视频包含原始人声音频和原始背景音频(可以是真实环境音，也可以是音乐等背景音)，可以用特定音频信息替换预设视频中的原始人声音频，作为一种方式，可以先将预设视频中的原始人声音频消除，保留原始背景音频，再将特定音频信息与原始背景音频混合，得到包含特定音频信息的答复视频。可以理解的是，根据应用场景与用户需求的不同，答复视频中的背景音频也可以进行替换或是删除。作为一种方式，特定音频信息中不仅可以包括用于针对交互信息进行反馈的答复人声音频，还可以包含其他背景音频。例如，可以包含背景音乐，此时获得答复视频在播放时，随客服机器人的人声可以同时播放背景音乐，提升用户的使用体验。

在一些实施方式中，人脸图像的替换与音频的合成，可以是在服务器中进行的。作为一种方式，服务器可以从接收终端设备发送的交互信息开始，依次进行针对交互信息生成特定音频信息、基于特定音频信息获取面部特征点、基于面部特征点生成模拟人脸图像、将预设视频中的预设人脸图像替换为模拟人脸图像、输出包含特定音频信息的答复视频至终端设备，使得终端设备可以仅进行向服务器发送用户输入的交互信息，以及获取服务器反馈的答复视频，大大减小了终端设备本地的运算存储压力，提高了答复视频的获取效率，使得客服机器人与用户的交互实现及时的响应，让模拟真人的机器人客服体验更为自然。

在一种具体的应用场景中，如图5所示，用户可以通过打开应用程序客户端(例如微信小程序或独立的APP)进入与客服机器人的交互界面，交互界面包括视频界面与聊天界面。当用户在聊天界面上的输入框中输入文字交互信息“你好”时，客服机器人的应用程序客户端在获取该交互信息后即可发送至服务器，由应用程序服务端进行识别并生成针对该交互信息的特定音频信息“您好，我是客服机器人小一”(合成的人声)，再进一步根据该特定音频信息获取答复视频，并将答复视频(包含特定音频信息)返回至用户终端。用户终端在接收到服务器下发的答复视频后，可以在交互界面上的视频界面播放该答复视频(图5所示答复视频中的女性形象即为替换人脸后的模拟真人的客服机器人形象)，并可同步在聊天界面上显示对应于特定音频信息的文本信息“您好，我是客服机器人小一～”。

请继续参阅图5，在第一轮“问候”交互后，用户继续向客服机器人表达商品信息查找的需求“我想要这张图中衣服的商品信息”，用户可以通过聊天界面下方的语音输入按钮通过语音的方式输入对应的语音交互信息，也可以通过输入框输入对应的文字交互信息。由于用户先前输入的交互信息中包含“这张图中”这种单独依靠语音或文字指代不清楚的内容，用户继续通过上传图片的功能输入了一张商品图片，此时，终端设备可以待用户输入的交互信息能够确定一个清楚的交互意向后，将先后输入的“我想要这张图中衣服的商品信息”以及商品图片这两个交互信息打包发送至服务器，并由服务器针对这两个交互信息，生成对应的特定音频信息“请稍等，正在帮您查询呢”，并输出对应的答复视频至终端设备，将其播放在交互界面的视频界面上，并同步在聊天界面上显示对应于特定音频信息的文本信息“请稍等，正在帮您查询呢～”。另一方面，服务器可在识别交互信息后，立即在网络中继续查找用户需求的商品信息，并在查找到之后，向终端设备发送该商品信息，呈现在交互界面上(图5未示出)。

可以理解的是，本实施例中上述的各个步骤，均可以由终端设备在本地进行，也可以由终端设备与服务器分工进行，根据实际应用场景的不同，可以按照需求进行任务的分配，以实现最优化的拟真机器人客服体验。

本申请一个实施例提供的视频处理方法，可通过在用户与机器人对话时，针对用户输入的交互信息，匹配对应的特定音频信息，并基于机器学习模型生成与该特定音频信息对应的拟真的模拟人脸图像，最后将合成有模拟人脸图像与特定音频的答复视频输出以展示给用户，实现多模态交互，使得机器人能够以更逼真自然的形象呈现在用户面前，优化机器人客服的质量，提升用户的使用体验。

请参阅图6，图6示出了本申请又一个实施例提供的视频处理方法的流程示意图。下面将针对图6所示的流程进行详细的阐述。上述的视频处理方法具体地可以包括以下步骤：

步骤S301：获取用户输入的交互信息。

本实施例中，步骤S301的具体描述可以参考上一实施例中的步骤S201，本实施例对此不再赘述。

步骤S302：对交互信息进行识别，获取与交互信息对应的交互文本。

本实施例中，针对交互信息的不同类型，可以将交互信息输入与交互信息类型对应的识别模型中，并基于识别模型对该交互信息进行识别，获取对应的交互文本。

作为一种方式，当用户输入的交互信息为语音信息时，可以基于语音识别模型对交互信息进行识别，获取对应的交互文本；当交互信息为文本信息时，可以不经过识别模型，直接将交互信息作为交互文本；当交互信息为图像信息时，可以基于图像识别模型对交互信息进行识别，获取对应的交互文本；当交互信息为动作信息时，可以基于肢体语言识别模型、终端姿态识别模型或手势识别模型来对交互信息进行识别，获取对应的交互文本。

可以理解的是，通过将多种不同类型的交互信息分别进行识别并获取交互文本，可以将不同类型的交互信息种类归一化，减少整个视频处理***的复杂度，提升信息处理效率。

作为一种方式，对交互信息进行识别并获取对应交互文本的模型，如语音识别模型可以采用循环神经网络模型如LSTM(Long Short Term Memory，长短期记忆)网络模型。

步骤S303：在问答库中查询并获取与交互文本对应的答复文本。

本实施例中，问答库，可以是预先配置的包含了多个问答对的数据库，其中，问答对包括预存的交互文本以及与交互文本对应的预存的答复文本。每个交互文本与其匹配的答复文本对应。基于交互文本可以在问答库中查询并获取与交互文本对应的答复文本，从而实现针对问答库已经覆盖的用户交互意向，可以给出较为准确的答复。

在一些实施方式中，若交互文本并未在问答库中查询到直接对应的预存的交互文本，可以通过语义识别分析的方法，将该交互文本进行语义上的近似处理，并寻找可能对应的预存的交互文本，再基于该可能对应的预存的交互文本获取匹配的答复文本。例如，用户输入交互信息经过识别后生成的交互文本为“这是我体验过最好的机器人客服服务了”，然而该交互文本并未在问答库中直接查找到对应的预存的交互文本，此时可通过语义分析的方式，找到与该交互信息的语义对应的预存交互文本为“给你点赞”，并获取对应的答复文本“谢谢您”。

在一些实施方式中，还可以基于问答库建立问答模型(可以是机器学习模型)，问答模型可以基于大量的问答对训练得到，例如可以将从海量人工客服的沟通记录得到的海量问答对作为训练样本，将用户方的信息作为输入，将客服方的答复作为期望输出，基于机器学习的方法训练得到问答模型，从而通过问答模型获取与交互文本对应的答复文本，实现对于问答库中没有预存的交互文本也可以进行对应的答复，使方案的应用更加智能化。

步骤S304：合成与答复文本对应的特定音频信息。

本实施例中，可以基于预先训练的语音合成模型，将答复文本输入语音合成模型，得到与答复文本对应的特定音频信息。

作为一种方式，语音合成模型可以选择CNN(Convolutional Neural Networks,卷积神经网络)模型，其可以通过卷积核进行特征提取，将与答复文本对应的音素序列中的各音素与频谱信息、基频信息一一对应，从而生成与答复文本对应的特定音频信息。

在一些实施方式中，语音合成模型还可以是RNN模型，如WaveRNN。

本实施例中，上述的问答库、问答模型、语音合成模型等均可以运行于终端设备，也可以运行于服务器，在此不作限定。

步骤S305：将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点。

步骤S306：将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像。

本实施例中，步骤S305、步骤S306的具体描述可以参考上一实施例中的步骤S203、步骤S204，本实施例对此不再赘述。

进一步的，在一些可选的实施方式中，在根据海量人工客服的沟通记录训练问答模型时，可以同时将人工客服所用的表情包或后缀符号进行情感的标注，使得根据问答模型输出对应的答复文本携带有情感标签，情感标签包括但不限于陈述、疑问、感叹、大笑、委屈等，使得根据携带有情感标签的答复文本可以生成包含对应情感的特定音频信息，使得根据携带有情感标签的特定音频信息输出的模拟人脸图像除了与特定音频信息对应外，还更契合特定音频信息对应的语气，从而使得客服机器人在说话时的面部表情更加生动自然，富有感情。

步骤S307：在预设视频中确定与模拟人脸图像对应的图像替换区域，图像替换区域为预设视频中的预设人脸图像的局部区域或全部区域。

本实施例中，在获取模拟人脸图像后，可以先根据预先设定的模拟人脸图像的尺寸、形状以及坐标，在预设视频中确定与模拟人脸图像对应的图像替换区域。

例如，预先设定的模拟人脸图像为尺寸为20x10的矩形图像，其替换位置的中心坐标为(0,50)，此时即可从预设视频中确定与模拟人脸图像对应的图像替换区域为(-20,40)到(20,60)的矩形区域，该部分区域可以刚好对应于预设人脸图像的嘴部。

步骤S308：将模拟人脸图像覆盖至图像替换区域。

本实施例中，在确定图像替换区域后，即可将模拟人脸图像覆盖至图像替换区域，替换掉预设视频中的预设人脸图像的局部区域或全部区域，以获得替换人脸后的答复视频。

步骤S309：输出针对交互信息的答复视频，答复视频中包含特定音频信息。

本实施例中，步骤S309的具体描述可以参考上一实施例中的步骤S206，本实施例对此不再赘述。

请参阅图7，在一些实施方式中，第一机器学习模型与第二机器学习模型可通过如下步骤进行对应的训练。

步骤S401：获取第一训练样本集，第一训练样本集包括从第一预训练视频中抽取的人脸图像的面部特征点以及与面部特征点对应的音频。

步骤S402：将第一训练样本集输入第一机器学习模型，对第一机器学习模型进行训练。

步骤S403：获取第二训练样本集，第二训练样本集包括从第二预训练视频中抽取的人脸图像以及与人脸图像对应的面部特征点。

步骤S404：将第二训练样本集输入第二机器学习模型，对第二机器学习模型进行训练。

在一些实施方式中，上述的用于训练第二机器学习模型的第二预训练视频，与预设视频中的人脸图像可以是同一人的人脸图像。可以理解的是，由于在人脸替换后的答复视频中，除了被替换的人脸区域以外，可能还会存在人的身体其他部位，为了保持人脸替换后的答复视频中的模拟人脸与未经替换的身体其他部位在肤色与形体上保持一致，可以将预设视频中的真人的人脸图像以及与其对应的面部特征点作为第二训练样本集，用于训练第二机器学习模型，可使得经第二机器学习模型生成的模拟人脸图像与预设视频中的背景人体保持一致，使替换人脸后的客服机器人形象显得更为自然。可以理解的是，只需使第二预训练视频中抽取的人脸图像与预设视频中的预设人脸图像为同一人即可，即第二预训练视频可以是除预设视频外的其他包括同一真人人脸图像的视频。

在另一些实施方式中，在肤色、形体差别不大，且能够保持输出的模拟人脸图像与背景人体一致的前提下，第二预训练视频中的人脸图像与预设视频中的预设人脸图像还可以是不同的人。

作为一种方式，第一预训练视频与第二预训练视频中的人脸图像可以为同一人的人脸图像，也可以为不同人的人脸图像。可以理解的是，由于第一机器学习模型是用于将音频信息转换为对应的面部特征点，在某些情况下，同一组面部特征点可以用于描述不同的人脸。在第一预训练视频与第二预训练视频中的人脸图像为同一人的人脸图像，可以保持最终输出的模拟人脸图像的表情与预设视频中真人本人的人脸表情的一致性；而在第一预训练视频与第二预训练视频中的人脸图像为不同人的人脸图像时，可以让最终输出的模拟人脸做出与预设视频中真人本人从未做出的人脸表情，实现更为多样化和令人惊喜的应用。

可以理解的是，根据用户需求以及应用场景的不同，对于第一机器学习模型与第二机器学习模型的训练方法可以是多样化的，本实施例对此不作限定。

本申请又一个实施例提供的视频处理方法，相较于图2所示的方法，本实施例还进一步将多态的交互信息转换为文本，并通过预先建立的问答库以及语音合成获取对应的特定音频，以及可通过模拟人脸图像对预设视频进行局部到全部的图像替换，扩展了本方案的应用场景，可根据用户需求的不同，自由选择不同类型的机器人客服模式，实现了更为智能化的多态交互，能够有效提升用户的使用体验。

请参阅图8，图8示出了本申请一个实施例提供的视频处理装置500的模块框图。该视频处理装置500应用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。下面将针对图8所示的模块框图进行阐述，视频处理装置500包括：信息输入模块510、音频获取模块520、特征点获取模块530、人脸生成模块540、人脸替换模块550以及视频输出模块560，其中：

信息输入模块510，用于获取用户输入的交互信息.

音频获取模块520，用于对交互信息进行识别，获取与交互信息对应的特定音频信息。进一步的，交互信息包括语音信息、文本信息、图像信息中的至少一种，音频获取模块520包括：

识别单元，用于对交互信息进行识别，获取与交互信息对应的交互文本。

查询单元，用于在问答库中查询并获取与交互文本对应的答复文本。

合成单元，用于合成与答复文本对应的特定音频信息。

特征点获取模块530，用于将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点。在一些实施方式中，面部特征点包括唇形特征点、面部轮廓特征点以及人脸细节特征点中的至少一种。

人脸生成模块540，用于将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像。

人脸替换模块550，用于将预设视频中的预设人脸图像替换为模拟人脸图像，并获得替换人脸图像后的包含模拟人脸图像的答复视频。进一步的，人脸替换模块550包括：

区域单元，用于在预设视频中确定与模拟人脸图像对应的图像替换区域，图像替换区域为预设视频中的预设人脸图像的局部区域或全部区域。

替换单元，用于将模拟人脸图像覆盖至图像替换区域。

视频输出模块560，用于输出针对交互信息的答复视频，答复视频中包含特定音频信息。

在一些实施方式中，进一步的，视频处理装置500还包括：

第一样本获取模块，用于获取第一训练样本集，第一训练样本集包括从第一预训练视频中抽取的人脸图像的面部特征点以及与面部特征点对应的音频。

第一训练模块，用于将第一训练样本集输入第一机器学习模型，对第一机器学习模型进行训练。

第二样本获取模块，用于获取第二训练样本集，第二训练样本集包括从第二预训练视频中抽取的人脸图像以及与人脸图像对应的面部特征点。在一些实施方式中，第二预训练视频与预设视频中的人脸图像为同一人的人脸图像。

第二训练模块，用于将第二训练样本集输入第二机器学习模型，对第二机器学习模型进行训练。

在一些实施方式中，第一预训练视频与第二预训练视频中的人脸图像为同一人或不同人的人脸图像。

本申请一个实施例提供的视频处理装置，可通过在用户与机器人对话时，针对用户输入的交互信息，匹配对应的特定音频信息，并基于机器学习模型生成与该特定音频信息对应的拟真的模拟人脸图像，最后将合成有模拟人脸图像与特定音频的答复视频输出以展示给用户，实现多模态交互，使得机器人能够以更逼真自然的形象呈现在用户面前，优化机器人客服的质量，提升用户的使用体验。

本申请实施例提供的视频处理装置用于实现前述方法实施例中相应的视频处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的视频处理装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图9，其示出了本申请实施例提供的一种终端设备600的结构框图。该终端设备600可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备600可以包括一个或多个如下部件：处理器610、存储器620以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器620中并被配置为由一个或多个处理器610执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器610可以包括一个或者多个处理核。处理器610利用各种接口和线路连接整个终端设备600内的各个部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，以及调用存储在存储器620内的数据，执行终端设备600的各种功能和处理数据。可选地，处理器610可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器610可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。

存储器620可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器620可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备600在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质700包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的视频处理方法、装置、终端设备及存储介质，可先获取用户输入的交互信息，然后对交互信息进行识别，获取与交互信息对应的特定音频信息，再将特定音频信息输入至第一机器学习模型，获得与特定音频信息对应的面部特征点，将面部特征点输入至第二机器学习模型，获得与面部特征点对应的模拟人脸图像，将预设视频中的预设人脸图像替换为模拟人脸图像，并获得替换人脸图像后的包含模拟人脸图像的答复视频，最后输出针对交互信息的答复视频，答复视频中包含特定音频信息。本申请实施例可通过在用户与机器人对话时，针对用户输入的交互信息，匹配对应的特定音频信息，并基于机器学习模型生成与该特定音频信息对应的拟真的模拟人脸图像，最后将合成有模拟人脸图像与特定音频的答复视频输出以展示给用户，实现多模态交互，使得机器人能够以更逼真自然的形象呈现在用户面前，优化机器人客服的质量，提升用户的使用体验。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取用户输入的交互信息；

对所述交互信息进行识别，获取与所述交互信息对应的特定音频信息；

将所述特定音频信息输入至第一机器学习模型，获得与所述特定音频信息对应的面部特征点；

将所述面部特征点输入至第二机器学习模型，获得与所述面部特征点对应的模拟人脸图像，所述第二机器学习模型为生成对抗网络模型，所述模拟人脸图像为二维人脸图像；

将预设视频中的预设人脸图像替换为所述模拟人脸图像，并获得替换人脸图像后的包含所述模拟人脸图像的答复视频，所述预设人脸图像为二维人脸图像，所述将预设视频中的预设人脸图像替换为所述模拟人脸图像为基于二维图像处理的图像替换；

输出针对所述交互信息的所述答复视频，所述答复视频中包含所述特定音频信息。

2.根据权利要求1所述的方法，其特征在于，所述交互信息包括语音信息、文本信息、图像信息中的至少一种，所述对所述交互信息进行识别，获取与所述交互信息对应的特定音频信息，包括：

对所述交互信息进行识别，获取与所述交互信息对应的交互文本；

在问答库中查询并获取与所述交互文本对应的答复文本；

合成与所述答复文本对应的特定音频信息。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第一训练样本集，所述第一训练样本集包括从第一预训练视频中抽取的人脸图像的面部特征点以及与所述面部特征点对应的音频；

将所述第一训练样本集输入所述第一机器学习模型，对所述第一机器学习模型进行训练；

获取第二训练样本集，所述第二训练样本集包括从第二预训练视频中抽取的人脸图像以及与所述人脸图像对应的面部特征点；

将所述第二训练样本集输入所述第二机器学习模型，对所述第二机器学习模型进行训练。

4.根据权利要求3所述的方法，其特征在于，所述第二预训练视频与所述预设视频中的人脸图像为同一人的人脸图像。

5.根据权利要求3所述的方法，其特征在于，所述第一预训练视频与所述第二预训练视频中的人脸图像为同一人或不同人的人脸图像。

6.根据权利要求1所述的方法，其特征在于，所述将预设视频中的预设人脸图像替换为所述模拟人脸图像，包括：

在预设视频中确定与所述模拟人脸图像对应的图像替换区域，所述图像替换区域为所述预设视频中的预设人脸图像的局部区域或全部区域；

将所述模拟人脸图像覆盖至所述图像替换区域。

7.根据权利要求1所述的方法，其特征在于，所述面部特征点包括唇形特征点、面部轮廓特征点以及人脸细节特征点中的至少一种。

8.一种视频处理装置，其特征在于，所述装置包括：

信息输入模块，用于获取用户输入的交互信息；

音频获取模块，用于对所述交互信息进行识别，获取与所述交互信息对应的特定音频信息；

特征点获取模块，用于将所述特定音频信息输入至第一机器学习模型，获得与所述特定音频信息对应的面部特征点；

人脸生成模块，用于将所述面部特征点输入至第二机器学习模型，获得与所述面部特征点对应的模拟人脸图像，所述第二机器学习模型为生成对抗网络模型，所述模拟人脸图像为二维人脸图像；

人脸替换模块，用于将预设视频中的预设人脸图像替换为所述模拟人脸图像，并获得替换人脸图像后的包含所述模拟人脸图像的答复视频，所述预设人脸图像为二维人脸图像，所述将预设视频中的预设人脸图像替换为所述模拟人脸图像为基于二维图像处理的图像替换；

视频输出模块，用于输出针对所述交互信息的所述答复视频，所述答复视频中包含所述特定音频信息。

9.一种终端设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。