CN111862279A

CN111862279A - 交互处理方法和装置

Info

Publication number: CN111862279A
Application number: CN202010719783.4A
Authority: CN
Inventors: 李德强; 高园; 罗涛
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-10-30

Abstract

本公开提供了一种交互处理方法。该方法包括获取用户与虚拟客服之间的交互数据；根据所述交互数据，确定适用于所述虚拟客服的表情特征；根据所述交互数据和所述表情特征，生成所述虚拟客服的交互响应视频；向用户显示所述交互响应视频。本公开还提供了一种交互处理装置、一种电子设备以及一种计算机可读存储介质。

Description

交互处理方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及一种交互处理方法和装置。

背景技术

随着人工智能技术的迅速发展，智能化服务的应用场景越来越广泛。在智能化服务中，虚拟客服能够代替人工客服与用户进行交互，并解决用户的部分业务问题。

在实现本公开构思的过程中，发明人发现在相关技术的智能化服务中，虚拟客服通过文字、机器语音的方式与用户进行交互，该种交互方式存在虚拟客服真实感不佳、交互效率低、交互效果不佳的问题。

发明内容

本公开的一个方面提供了一种交互处理方法。该方法包括获取用户与虚拟客服之间的交互数据；根据上述交互数据，确定适用于上述虚拟客服的表情特征；根据上述交互数据和上述表情特征，生成上述虚拟客服的交互响应视频；向用户显示上述交互响应视频。

可选地，上述根据上述交互数据，确定适用于上述虚拟客服的表情特征，包括根据上述交互数据，确定与上述交互数据匹配的情绪特征；根据上述情绪特征，确定适用于上述虚拟客服的表情特征；

可选地，上述获取用户与虚拟客服之间的交互数据，包括获取用户与虚拟客服之间的交互文本数据；上述根据上述交互数据，确定与上述交互数据匹配的情绪特征，包括对上述交互文本数据进行特征提取，得到上述交互文本数据中的至少一个文本特征；利用预设的情绪识别模型，确定与上述至少一个文本特征匹配的情绪特征，以作为与上述交互数据匹配的情绪特征。

可选地，上述根据上述情绪特征，确定适用于上述虚拟客服的表情特征，包括根据情绪特征与表情类别之间的预设关联关系，确定与上述情绪特征关联的目标表情类别；根据上述目标表情类别，确定上述虚拟客服的至少一个预设五官特征点的位姿参数，以得到上述表情特征。

可选地，上述根据上述交互数据和上述表情特征，生成上述虚拟客服的交互响应视频，包括根据上述交互数据中的交互响应数据，生成交互响应音频；根据上述表情特征，控制上述虚拟客服生成目标表情；根据上述交互响应音频、上述目标表情和上述虚拟客服的预设初始视频，生成上述交互响应视频。

可选地，上述获取用户与虚拟客服之间的交互数据，包括获取用户与虚拟客服之间的交互图像数据；上述根据上述交互数据，确定与上述交互数据匹配的情绪特征，包括对上述交互图像数据进行特征提取，得到上述交互图像数据中的至少一个图像特征；利用预设的情绪识别模型，确定与上述至少一个图像特征匹配的情绪特征，以作为与上述交互数据匹配的情绪特征。

可选地，上述方法还包括根据上述情绪特征，确定适用于上述虚拟客服的声音特征，其中，上述声音特征包括声音大小、发声速度、声音音色中的至少之一；上述根据上述交互数据和上述表情特征，生成上述虚拟客服的交互响应视频，包括根据上述交互数据、上述表情特征和上述声音特征，生成上述虚拟客服的交互响应视频。

本公开的另一个方面提供了一种交互处理装置。本装置包括获取模块，用于获取用户与虚拟客服之间的交互数据；第一处理模块，用于根据上述交互数据，确定适用于上述虚拟客服的表情特征；第二处理模块，用于根据上述交互数据和上述表情特征，生成上述虚拟客服的交互响应视频；显示模块，用于向用户显示上述交互响应视频。

可选地，上述第一处理模块，包括第一处理子模块，用于根据上述交互数据，确定与上述交互数据匹配的情绪特征；第二处理子模块，用于根据上述情绪特征，确定适用于上述虚拟客服的表情特征。

可选地，上述获取模块，包括第一获取子模块，用于获取用户与虚拟客服之间的交互文本数据；上述第一处理子模块，包括第一处理单元，用于对上述交互文本数据进行特征提取，得到上述交互文本数据中的至少一个文本特征；第二处理单元，用于利用预设的情绪识别模型，确定与上述至少一个文本特征匹配的情绪特征，以作为与上述交互数据匹配的情绪特征。

可选地，上述第二处理子模块，包括第三处理单元，用于根据情绪特征与表情类别之间的预设关联关系，确定与上述情绪特征关联的目标表情类别；第四处理单元，用于根据上述目标表情类别，确定上述虚拟客服的至少一个预设五官特征点的位姿参数，以得到上述表情特征。

可选地，上述第二处理模块，包括第三处理子模块，用于根据上述交互数据中的交互响应数据，生成交互响应音频；第四处理子模块，用于根据上述表情特征，控制上述虚拟客服生成目标表情；第五处理子模块，用于根据上述交互响应音频、上述目标表情和上述虚拟客服的预设初始视频，生成上述交互响应视频。

可选地，上述获取模块，包括第二获取子模块，用于获取用户与虚拟客服之间的交互图像数据；上述第一处理子模块，包括第五处理单元，用于对上述交互图像数据进行特征提取，得到上述交互图像数据中的至少一个图像特征；第六处理单元，用于利用预设的情绪识别模型，确定与上述至少一个图像特征匹配的情绪特征，以作为与上述交互数据匹配的情绪特征。

可选地，上述装置还包括第三处理模块，用于根据上述情绪特征，确定适用于上述虚拟客服的声音特征，其中，上述声音特征包括声音大小、发声速度、声音音色中的至少之一；上述第二处理模块，包括第六处理子模块，用于根据上述交互数据、上述表情特征和上述声音特征，生成上述虚拟客服的交互响应视频。

本公开的另一方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现本公开实施例的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，上述指令在被执行时用于实现本公开实施例的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中，

图1示意性示出了根据本公开实施例的交互处理方法和装置的***架构；

图2A示意性示出了根据本公开实施例的交互处理方法的流程图；

图2B示意性示出了根据本公开实施例的虚拟客服的示意图；

图3A示意性示出了根据本公开另一实施例的交互处理方法的流程图；

图3B示意性示出了根据本公开实施例的针对虚拟客服的三维人脸模型的示意图；

图4示意性示出了根据本公开又一实施例的交互处理方法的流程图；

图5示意性示出了根据本公开实施例的交互处理装置的框图；以及

图6示意性示出了根据本公开实施例的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性地，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、操作、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、操作、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据检测装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行***使用或者结合指令执行***使用。

本公开的实施例提供了一种交互处理方法以及能够用于执行该交互处理方法的装置，该交互处理方法例如可以包括如下操作。获取用户与虚拟客服之间的交互数据，然后根据交互数据，确定适用于虚拟客服的表情特征，之后根据交互数据和表情特征，生成虚拟客服的交互响应视频，并向用户显示交互响应视频。

图1示意性示出了根据本公开实施例的交互处理方法和装置的***架构。需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。

如图1所示，该***架构100包括至少一个终端(图中示出了多个，如终端101、102、103)和服务器104(也可以是服务器集群，图中未示出)。在该***架构100中，用户通过终端(如终端101、102、103)与虚拟客服进行交互，服务器104获取用户与虚拟客服之间的交互数据，然后根据交互数据，确定适用于虚拟客服的表情特征，之后根据交互数据和表情特征，生成虚拟客服的交互响应视频，并通过终端向用户显示交互响应视频。

以下将结合附图和具体实施例详细阐述本公开。

图2A示意性示出了根据本公开实施例的交互处理方法的流程图。

如图2A所示，该方法可以包括操作S210～S240。

在操作S210，获取用户与虚拟客服之间的交互数据。

在本公开实施例中，具体地，虚拟客服是利用人工智能技术实现的人工智能客服，其可以为用户提供咨询、聊天、业务办理等服务。虚拟客服可以是虚拟人或数字人，其形象可以是二维或者三维的真人形象、卡通形象、二次元形象等。图2B示意性示出了根据本公开实施例的虚拟客服的示意图，如图2B所示，虚拟客服为真人客服形象的数字人。本公开实施例中涉及的用户可以包括与虚拟客服进行交互的任意对象。

从数据内容来说，用户与虚拟客服之间的交互数据，可以包括用户向虚拟客服发起交互时输入的交互触发数据，也可以包括虚拟客服针对交互触发数据的交互响应数据。其中，交互触发数据是用户输入的用于向虚拟客服发起服务请求的数据，具体可以是用户输入的问题，或者是用户请求办理的业务内容等。交互响应数据是虚拟客服提供的针对交互触发数据的应答数据，具体可以是向用户提供的问题答案、咨询结果、商品介绍、业务办理流程、业务办理结果等。

从数据形式来说，用户与虚拟客服之间的交互数据，可以包括交互音频数据、交互文本数据和交互图像数据。

获取用户与虚拟客服之间的交互数据，可以包括获取用户与虚拟客服之间的交互触发数据和/或交互响应数据。其中，针对交互触发数据，可以利用虚拟客服的接收器被动接收用户输入的交互触发数据，也可以利用虚拟客服的检测器主动监测并获取用户输入的交互触发数据。

然后，在操作S220，根据交互数据，确定适用于虚拟客服的表情特征。

在本公开实施例中，具体地，根据交互数据，确定适用于虚拟客服的表情特征，可以包括根据交互数据，确定与交互数据匹配的情绪特征，然后根据情绪特征，确定适用于虚拟客服的表情特征。其中，情绪特征用于指示虚拟客服的情绪类别，表情特征用于指示虚拟客服的表情动作。情绪特征能够指示的情绪类别，例如可以包括正常、高兴、生气、吃惊、感叹、恐惧、厌恶、悲伤等类别。表情特征能够指示的表情动作，例如可以包括嘴角上扬、嘴角下撇、凝眉、眼角下垂、眼睛瞪圆等。

根据交互数据，确定适用于虚拟客服的表情特征，使虚拟客服能够使用多种脸部表情与用户进行交互，这有利于提升虚拟客服的真实感，有利于提升虚拟客服与用户间的交互效率和交互效果。

接下来，在操作S230，根据交互数据和表情特征，生成虚拟客服的交互响应视频。

在本公开实施例中，可选地，根据交互数据和表情特征，生成虚拟客服的交互响应视频，可以包括根据交互数据中的交互响应数据，生成交互响应音频；根据表情特征，控制虚拟客服生成目标表情；根据交互响应音频、目标表情和虚拟客服的预设初始视频，生成交互响应视频。其中，根据交互数据中的交互响应数据，生成交互响应音频，可以包括根据交互响应数据和预设的声音特征，生成交互响应音频。声音特征例如可以包括声音大小、发声速度、声音音色、音调范围等。

交互响应数据是根据获取的用户的交互触发数据，确定出的用于向用户显示的响应数据，例如可以是根据获取的用户的问题文本，确定出的用于向用户显示的答案数据。交互响应数据可以包括音频数据和文本数据。示例性地，交互响应数据可以是针对特定交互场景而提前录制的固定音频，当获取的用户的交互触发数据与预设交互触发数据的相似度大于预设阈值时，将提前录制的固定音频用作交互响应数据。再示例性地，交互响应数据还可以是根据获取的用户的问题文本，从答案文本库中确定出的与问题文本关联的答案文本数据。

在根据确定出的表情特征，控制虚拟客服生成目标表情时，可以根据确定出的表情特征，对虚拟客服的至少一个预设五官关键点的位姿参数进行调整，以控制虚拟客服生成目标表情。此外，还可以根据确定出的表情特征，从数据库或服务器中获取与表情特征关联的脸部表情，得到虚拟客服的目标表情。

在根据交互响应音频、目标表情和虚拟客服的预设初始视频，生成交互响应视频时，根据目标表情，调节针对虚拟客服的三维人脸模型中的至少一个预设五官关键点的位姿参数，以控制虚拟客服完成目标表情，得到虚拟客服的渲染后的脸部图像；将渲染后的脸部图像、交互响应音频与虚拟客服的预设初始视频进行融合，得到交互响应视频。其中，预设初始视频可以是提前录制的真人客服的视频。

接下来，在操作S240，向用户显示交互响应视频。

在本公开实施例中，具体地，通过向用户显示交互响应视频的方式，实现将交互响应数据以视频的方式显示给用户，由于交互响应视频中包括虚拟客服的目标表情，目标表情与获取的交互数据相适应，这有利于提升虚拟客服交互的灵活性与趣味性，有利于提升虚拟客服的真实感。

通过本公开实施例，在获取用户与虚拟客服之间的交互数据后，根据交互数据确定适用于虚拟客服的表情特征，然后再根据交互数据和表情特征，生成虚拟客服的交互响应视频，并向用户显示生成的交互响应视频。根据获取的交互数据，确定适用于虚拟客服的表情特征，然后根据确定出的表情特征，生成交互响应视频并显示，这能够有效增强虚拟客服的真实感，和提升虚拟客服交互的趣味性与灵活性，因此本公开实施例有利于提高虚拟客服与用户交互的交互效率，和提升虚拟客服与用户交互的交互效果。

图3A示意性示出了根据本公开另一实施例的交互处理方法的流程图。

如图3A所示，该方法可以包括操作S310～S340、操作S230和操作S240。

在操作S310，获取用户与虚拟客服之间的交互文本数据。

在本公开实施例中，具体地，获取用户与虚拟客服之间的交互文本数据，包括获取用户输入的交互触发文本，也包括获取确定出的虚拟客服的交互响应文本。示例性地，获取针对用户问题确定出的答案文本数据。

接下来，在操作S320，对交互文本数据进行特征提取，得到交互文本数据中的至少一个文本特征。

在本公开实施例中，具体地，在对交互文本数据进行特征提取前，对交互文本数据进行预处理，预处理可以包括删除处理和替换处理。具体地，删除处理可以是对交互文本数据中重复出现的字或词组进行删除；替换处理可以是利用占位符替换交互文本数据中与情绪无关的字或词组。

对交互文本数据进行特征提取，以得到至少一个文本特征的方法，可采用现有算法实现，例如，可利用预训练语言模型BERT对交互文本数据进行特征提取，得到至少一个文本特征的序列向量集。此外，还可利用TF-IDF算法、TextRank算法、CBOW模型、skip-gram模型等算法进行交互文本数据的特征提取。

接下来，在操作S330，利用预设的情绪识别模型，确定与至少一个文本特征匹配的情绪特征。

在本公开实施例中，具体地，情绪识别模型是预先训练得到的、具有情绪识别功能的人工神经网络模型。情绪识别模型的训练方法，可以包括获取大量的样本交互文本数据，针对各样本交互文本数据进行特征提取，得到各样本交互文本数据的文本特征，然后针对各文本特征进行情绪特征标注，之后将标注后的文本特征输入人工神经网络模型中进行训练，得到情绪识别模型。

在获取到交互文本数据后，对交互文本数据进行特征提取，得到交互文本数据的至少一个文本特征，将至少一个文本特征输入训练得到的情绪识别模型中，即可输出与至少一个文本特征匹配的情绪特征，以得到与交互数据匹配的情绪特征。

可选地，情绪识别模型还可以采用条件随机场(ConditionalRandom Field，CRF)模型或长短期记忆网络(Long Short-Term Memory，LSTM)模型。具体地，在利用预设的情绪识别模型，确定与至少一个文本特征匹配的情绪特征时，可以将至少一个文本特征输入预设的情绪识别模型中，然后输出针对至少一个文本特征的情绪特征概率分布集，再利用最大分值算法确定出情绪特征概率分布集中所占概率最大的情绪特征，作为与至少一个文本特征匹配的情绪特征，以得到与交互数据匹配的情绪特征。

接下来，在操作S340，根据情绪特征，确定适用于虚拟客服的表情特征。

在本公开实施例中，具体地，根据情绪特征，确定适用于虚拟客服的表情特征，可以包括根据情绪特征与表情类别之间的预设关联关系，确定与情绪特征关联的目标表情类别；然后，根据目标表情类别，确定虚拟客服的至少一个预设五官特征点的位姿参数，以得到表情特征。

由于不同表情类别对应不同表情动作，不同表情动作可用于体现不同情绪类别，加之情绪特征用于指示情绪类别，因此，情绪特征与表情类别之间具有预设的关联关系。在根据获取的交互文本数据，确定出适用于虚拟客服的情绪特征后，根据情绪特征与表情类别之间的预设关联关系，确定适用于虚拟客服的目标表情类别。由于目标表情类别是通过目标表情动作来实现的，因此根据目标表情类别，确定虚拟客服实现目标表情动作的动作参数，即确定虚拟客服的至少一个预设五官特征点的位姿参数，以得到表情特征。

通过调节虚拟客服的预设五官特征点的位姿参数，能够控制虚拟客户完成特定表情动作或特定口型动作。其中，预设五官特征点例如可以包括眼睛、嘴巴、鼻子、眉毛、脸部轮廓等部位的特征点。预设五官特征点的确定方法，可以包括将包含不同表情类别的样本图像输入人工神经网络模型中，利用人工神经网络模型确定出能够用于表征表情类别的不同五官特征点。

可选地，在根据目标表情类别，确定虚拟客服的至少一个预设五官特征点的位姿参数时，可以根据目标表情类别，确定各预设五官特征点在针对虚拟客服的三维人脸模型中的六自由度，以得到位姿参数。图3B示意性示出了本公开实施例的针对虚拟客服的三维人脸模型的示意图，如图3B所示，三维人脸模型是根据虚拟客服的标准表情构建的脸部模型，三维人脸模型中包括多个预设五官特征点。根据目标表情类别，确定各预设五官特征点在三维人脸模型中的六自由度，得到虚拟客服用于完成目标表情动作时的预设五官特征点的位姿参数。

可选地，还可根据确定出的情绪特征，确定适用于虚拟客服的声音特征，然后根据交互数据、表情特征和声音特征，生成虚拟客服的交互响应视频，其中，声音特征包括声音大小、发声速度、声音音色中的至少之一。通过确定与情绪特征相匹配的声音特征，并利用声音特征生成交互响应视频，这有利于实现在表情与声音上双角度提升虚拟客服的真实感，有利于提高虚拟客服与用户间交互的趣味性与灵活性，有利于有效改善虚拟客服与用户间的交互效果。

接下来，在操作S240，向用户显示交互响应视频。

操作S230和操作S240与前述实施例类似，此处不再赘述。

通过本公开实施例，在获取用户与虚拟客服之间的交互文本数据之后，首先对交互文本数据进行特征提取，得到至少一个文本特征，然后再利用预设的情绪识别模型，确定与至少一个文本特征匹配的情绪特征，以得到与交互数据匹配的表情特征，之后再根据交互数据和表情特征，生成虚拟客服的交互响应视频，并向用户显示交互响应视频。利用预设的情绪识别模型确定交互文本数据指示的情绪特征，有效实现了自动确定适用于虚拟客服的情绪特征，适用于智能化服务场景，有利于提高虚拟客服与用户间交互的智能化程度；根据交互文本数据和根据确定出的表情特征生成交互响应视频，这有利于提高虚拟客服的脸部表情与交互数据内容间的贴合度，有利于有效提升虚拟客服的真实感，进而有利于提高虚拟客服与用户交互的交互效率，和提升虚拟客服与用户交互的交互效果。

图4示意性示出了根据本公开又一实施例的交互处理方法的流程图。

如图4所示，该方法可以包括操作S410～S430、操作S340、操作S230和操作S240。

在操作S410，获取用户与虚拟客服之间的交互图像数据。

在本公开实施例中，具体地，获取用户与虚拟客服之间的交互图像数据，可以包括获取用户与虚拟客服进行交互时产生的图片数据或者视频数据。当获取的是用户与虚拟客服之间的交互视频数据，对交互视频数据进行抽帧处理，得到交互视频数据的离散图像帧。

接下来，在操作S420，对交互图像数据进行特征提取，得到交互图像数据中的至少一个图像特征。

在本公开实施例中，具体地，对交互图像数据进行特征提取，具体可以是对交互图像数据中的用户脸部图像进行特征提取，得到用户脸部图像中的至少一个图像特征。对交互图像数据进行特征提取的方法可采用ASM算法或AAM算法实现。

示例性地，在对交互图像数据进行特征提取，得到交互图像数据中的至少一个图像特征时，可以利用ASM算法模型，对交互图像数据中的用户脸部图像进行五官特征点提取，得到用户脸部图像中的至少一个五官特征点；然后确定各五官特征点在用户脸部图像中的位姿参数，得到用户脸部图像的至少一个图像特征，至少一个图像特征例如可以指示用户脸部轮廓、眉毛、眼睛、鼻子和嘴巴的形状特征。

接下来，在操作S430，利用预设的情绪识别模型，确定与至少一个图像特征匹配的情绪特征。

本公开实施例中，具体地，在利用预设的情绪识别模型，确定与至少一个图像特征匹配的情绪特征之前，还可根据至少一个图像特征，对交互图像数据进行对齐操作。具体地，当交互图像数据中的用户脸部图像是侧脸或者倾斜的时，通过对用户脸部图像进行对齐操作，得到用户正脸图像，对齐操作可采用仿射变换方法或插值对齐方法实现。根据用户正脸图像，确定用户交互时的情绪特征，这有利于提高用户情绪特征识别的准确率，进而有利于提高确定出的虚拟客服表情特征的匹配度，有利于改善虚拟客服与用户间交互的交互效果。

接下来，在操作S240，向用户显示交互响应视频。

操作S340、操作S230和操作S240与前述实施例类似，此处不再赘述。

通过本公开实施例，首先获取用户与虚拟客服之间的交互图像数据，并对交互图像数据进行特征提取，得到交互图像数据中的至少一个图像特征，然后利用预设的情绪识别模型，确定与至少一个图像特征匹配的情绪特征，以得到与交互数据匹配的情绪特征，之后根据情绪特征，确定适用于虚拟客服的表情特征，再根据交互数据和表情特征，生成虚拟客服的交互响应视频，并向用户显示交互响应视频。在本技术方案中，由于虚拟客服的表情特征是根据交互图像数据的图像特征确定的，而交互图像数据中包含用户脸部图像，交互图像数据的图像特征指示用户交互时的情绪特征，因此，确定出的虚拟客服的表情特征与用户情绪特征相适应，这有利于提升虚拟客服的真实感，有利于提高虚拟客服与用户交互的交互效率，和提升虚拟客服与用户交互的交互效果。

图5示意性示出了根据本公开实施例的交互处理装置的框图。

如图5所示，该交互处理装置500包括获取模块501、第一处理模块502、第二处理模块503和显示模块504。该交互处理装置可以执行上面参考方法实施例部分描述的方法，在此不再赘述。

具体地，获取模块501，用于获取用户与虚拟客服之间的交互数据；第一处理模块502，用于根据交互数据，确定适用于虚拟客服的表情特征；第二处理模块503，用于根据交互数据和表情特征，生成虚拟客服的交互响应视频；显示模块504，用于向用户显示交互响应视频。

作为一种可选的实施例，第一处理模块包括第一处理子模块，用于根据交互数据，确定与交互数据匹配的情绪特征；以及第二处理子模块，用于根据情绪特征，确定适用于虚拟客服的表情特征。

作为一种可选的实施例，获取模块包括第一获取子模块，用于获取用户与虚拟客服之间的交互文本数据。第一处理子模块包括第一处理单元，用于对交互文本数据进行特征提取，得到交互文本数据中的至少一个文本特征；以及第二处理单元，用于利用预设的情绪识别模型，确定与至少一个文本特征匹配的情绪特征，以得到与交互数据匹配的情绪特征。

作为一种可选的实施例，第二处理子模块包括第三处理单元，用于根据情绪特征与表情类别之间的预设关联关系，确定与情绪特征关联的目标表情类别；以及第四处理单元，用于根据目标表情类别，确定虚拟客服的至少一个预设五官特征点的位姿参数，以得到表情特征。

作为一种可选的实施例，第二处理模块包括第三处理子模块，用于根据交互数据中的交互响应数据，生成交互响应音频；第四处理子模块，用于根据表情特征，控制虚拟客服生成目标表情；以及第五处理子模块，用于根据交互响应音频、目标表情和虚拟客服的预设初始视频，生成交互响应视频。

作为一种可选的实施例，获取模块还包括第二获取子模块，用于获取用户与虚拟客服之间的交互图像数据。第一处理子模块还包括第五处理单元，用于对交互图像数据进行特征提取，得到交互图像数据中的至少一个图像特征；以及第六处理单元，用于利用预设的情绪识别模型，确定与至少一个图像特征匹配的情绪特征，以得到与交互数据匹配的情绪特征。

作为一种可选的实施例，该装置还包括第三处理模块，用于根据情绪特征，确定适用于虚拟客服的声音特征，其中，声音特征包括声音大小、发声速度、声音音色中的至少之一。第二处理模块还包括第六处理子模块，用于根据交互数据、表情特征和声音特征，生成虚拟客服的交互响应视频。

根据本公开的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者根据本公开实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块501、第一处理模块502、第二处理模块503和显示模块504中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块501、第一处理模块502、第二处理模块503和显示模块504中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块501、第一处理模块502、第二处理模块503和显示模块504中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图6示意性示出了根据本公开实施例的电子设备的框图。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600包括处理器610、计算机可读存储介质620。该电子设备600可以执行根据本公开实施例的方法。

具体地，处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理模块或者是多个处理模块。

计算机可读存储介质620，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质620可以包括计算机程序621，该计算机程序621可以包括代码/计算机可执行指令，其在由处理器610执行时使得处理器610执行根据本公开实施例的方法或其任何变形。

计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序621中的代码可以包括一个或多个程序模块，例如包括621A、模块621B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器610执行时，使得处理器610可以执行根据本公开实施例的方法或其任何变形。

根据本公开的实施例，获取模块501、第一处理模块502、第二处理模块503和显示模块504中的至少一个可以实现为参考图6描述的计算机程序模块，其在被处理器610执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种交互处理方法，包括：

获取用户与虚拟客服之间的交互数据；

根据所述交互数据，确定适用于所述虚拟客服的表情特征；

根据所述交互数据和所述表情特征，生成所述虚拟客服的交互响应视频；

向用户显示所述交互响应视频。

2.根据权利要求1所述的方法，其中，所述根据所述交互数据，确定适用于所述虚拟客服的表情特征，包括：

根据所述交互数据，确定与所述交互数据匹配的情绪特征；

根据所述情绪特征，确定适用于所述虚拟客服的表情特征。

3.根据权利要求2所述的方法，其中，

所述获取用户与虚拟客服之间的交互数据，包括：

获取用户与虚拟客服之间的交互文本数据；

所述根据所述交互数据，确定与所述交互数据匹配的情绪特征，包括：

对所述交互文本数据进行特征提取，得到所述交互文本数据中的至少一个文本特征；

利用预设的情绪识别模型，确定与所述至少一个文本特征匹配的情绪特征，以作为与所述交互数据匹配的情绪特征。

4.根据权利要求2所述的方法，其中，所述根据所述情绪特征，确定适用于所述虚拟客服的表情特征，包括：

根据情绪特征与表情类别之间的预设关联关系，确定与所述情绪特征关联的目标表情类别；

根据所述目标表情类别，确定所述虚拟客服的至少一个预设五官特征点的位姿参数，以得到所述表情特征。

5.根据权利要求1所述的方法，其中，所述根据所述交互数据和所述表情特征，生成所述虚拟客服的交互响应视频，包括：

根据所述交互数据中的交互响应数据，生成交互响应音频；

根据所述表情特征，控制所述虚拟客服生成目标表情；

根据所述交互响应音频、所述目标表情和所述虚拟客服的预设初始视频，生成所述交互响应视频。

6.根据权利要求2所述的方法，其中，

所述获取用户与虚拟客服之间的交互数据，包括：

获取用户与虚拟客服之间的交互图像数据；

对所述交互图像数据进行特征提取，得到所述交互图像数据中的至少一个图像特征；

利用预设的情绪识别模型，确定与所述至少一个图像特征匹配的情绪特征，以作为与所述交互数据匹配的情绪特征。

7.根据权利要求1至6中任一项所述的方法，还包括：

根据所述情绪特征，确定适用于所述虚拟客服的声音特征，其中，所述声音特征包括声音大小、发声速度、声音音色中的至少之一；

所述根据所述交互数据和所述表情特征，生成所述虚拟客服的交互响应视频，包括：

根据所述交互数据、所述表情特征和所述声音特征，生成所述虚拟客服的交互响应视频。

8.一种交互处理装置，包括：

获取模块，用于获取用户与虚拟客服之间的交互数据；

第一处理模块，用于根据所述交互数据，确定适用于所述虚拟客服的表情特征；

第二处理模块，用于根据所述交互数据和所述表情特征，生成所述虚拟客服的交互响应视频；

显示模块，用于向用户显示所述交互响应视频。

9.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现权利要求1至7中任一项所述的方法。