CN110807388B

CN110807388B - 交互方法、装置、终端设备及存储介质

Info

Publication number: CN110807388B
Application number: CN201911024921.0A
Authority: CN
Inventors: 金益欣
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2021-06-08
Anticipated expiration: 2039-10-25
Also published as: CN110807388A

Abstract

本申请实施例提供了一种交互方法、装置、终端设备及存储介质。该方法包括：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征；基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列；基于答复图像序列，生成并输出针对待处理视频的答复视频。本申请通过对手语信息和用户的脸部进行识别，根据识别到的文本信息和情绪特征确定语义信息，从而提高了用户意图识别的准确性。

Description

交互方法、装置、终端设备及存储介质

技术领域

本申请涉及人机交互技术领域，更具体地，涉及一种交互方法、装置、终端设备及存储介质。

背景技术

客服是企业获得用户反馈意见、解决用户产品疑问的一个主要途径。传统的客服业务主要由人工客服人员来处理，使得企业在客服方面的投入会随着客服业务量的增加而高速线性增长，成为不可忽视的支出。针对这一问题，目前比较先进的方案是引入客服机器人，以此降低人工客服量以及企业所需投入的成本。据了解，我国听力、语言残障人士超过2000万人，然而，目前客服机器人主要面向的用户为正常人，面向特殊群体提供服务的客服机器人较少，使得特殊群体的用户很难与客服机器人进行交互，降低了特殊群体的用户与客服机器人进行交互的便利性。

发明内容

本申请实施例提出了一种交互方法、装置、终端设备及存储介质，以解决上述问题。

第一方面，本申请实施例提供了一种交互方法，应用于终端设备，该方法包括：当所述终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；对所述手语信息进行识别得到文本信息，对所述人脸图像序列进行情绪分析获取情绪特征；基于所述文本信息和所述情绪特征，确定所述待处理视频的语义信息，并获取与所述语义信息对应的答复手语信息；基于所述答复手语信息生成虚拟智能客服的动作参数；基于所述动作参数，对所述虚拟智能客服的动作进行驱动，生成答复图像序列，所述答复图像序列由驱动所述虚拟智能客服产生的多帧连续的行为图像构成；基于所述答复图像序列，生成并输出针对所述待处理视频的答复视频。

可选地，所述基于所述文本信息和所述情绪特征，确定所述待处理视频的语义信息，包括：将所述文本信息输入第一机器学习模型，获得与所述文本信息对应的语义信息；将所述情绪特征输入第二机器学习模型，获得与所述情绪特征对应的语义信息；基于所述文本信息对应的语义信息和所述情绪特征对应的语义信息，确定所述待处理视频的语义信息。

可选地，所述获取待处理视频中的手语信息以及人脸图像序列之后，所述方法还包括：获取待处理视频中的手语信息在预设时间段内的数量；基于所述预设时间段和所述数量计算得到所述待处理视频中的手语信息的变化速度；所述对所述人脸图像序列进行情绪分析获取情绪特征，包括：对所述人脸图像序列以及所述变化速度进行情绪分析，获取所述情绪特征。

可选地，所述获取待处理视频中的手语信息以及人脸图像序列之后，所述方法还包括：获取与所述手语信息相邻的手语信息，基于所述手语信息和所述相邻的手语信息，确定上下文语义信息；所述对所述人脸图像序列进行情绪分析获取情绪特征，包括：对所述人脸图像以及所述上下文语义信息进行情绪分析，获取所述情绪特征。

可选地，所述当所述终端设备的当前模式为手语识别模式，获取待处理视频中的手语信息之前，所述方法还包括：获取待处理视频；若所述终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断所述待处理视频是否包含手语信息；当所述待处理视频包含手语信息时，将所述终端设备的当前模式切换为手语识别模式。

可选地，所述人脸图像序列包括多个人脸图像，所述对所述人脸图像序列进行情绪分析获取情绪特征，包括：提取所述人脸图像序列中每个人脸图像对应的人脸关键点；基于所述人脸图像序列中的每个人脸图像以及所述每个人脸图像对应的人脸关键点，获得所述每个人脸图像对应的特征向量；根据预设的映射关系确定与所述特征向量对应的情绪特征，得到所述人脸图像序列中每个人脸图像对应的情绪特征，其中，所述预设的映射关系中包括多个特征向量和多个情绪特征的对应关系。

可选地，所述获取与所述语义信息对应的答复手语信息，包括：基于所述文本信息以及所述待处理视频对应的语义信息，查找对应的答复文本信息；将所述答复文本信息输入第二神经网络模型，获得与所述答复文本信息对应的答复手语信息，其中，所述第二神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

第二方面，本申请实施例提供了一种交互装置，应用于终端设备，该装置包括：信息获取模块，用于当所述终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；信息识别模块，用于对所述手语信息进行识别得到文本信息，对所述人脸图像序列进行情绪分析获取情绪特征；信息确定模块，用于基于所述文本信息和所述情绪特征，确定所述待处理视频的语义信息，并获取与所述语义信息对应的答复手语信息；参数生成模块，用于基于所述答复手语信息生成虚拟智能客服的动作参数；序列生成模块，用于基于所述动作参数，对所述虚拟智能客服的动作进行驱动，生成答复图像序列，所述答复图像序列由驱动所述虚拟智能客服产生的多帧连续的行为图像构成；视频生成模块，用于基于所述答复图像序列，生成并输出针对所述待处理视频的答复视频。

可选地，所述人脸图像序列包括多个人脸图像，所述信息识别模块包括：关键点提取子模块，用于提取所述人脸图像序列中的每个人脸图像对应的人脸关键点；向量获得子模块，用于基于所述人脸图像序列中的每个人脸图像以及所述每个人脸图像对应的人脸关键点，获得所述每个人脸图像对应的特征向量；特征确定子模块，用于根据预设的映射关系确定与所述特征向量对应的情绪特征，得到所述人脸图像序列中每个人脸图像对应的情绪特征，其中，所述预设的映射关系中包括多个特征向量和多个情绪特征的对应关系。

可选地，所述信息确定模块包括：第一语义信息获得子模块，用于将所述文本信息输入第一机器学习模型，获得与所述文本信息对应的语义信息；第二语义信息获得子模块，用于将所述情绪特征输入第二机器学习模型，获得与所述情绪特征对应的语义信息；语义信息确定子模块，用于基于所述文本信息对应的语义信息和所述情绪特征对应的语义信息，确定所述待处理视频的语义信息。

可选地，所述信息确定模块还包括：信息查找子模块，用于基于所述文本信息以及所述待处理视频对应的语义信息，查找对应的答复文本信息；手语信息获得子模块，用于将所述答复文本信息输入第二神经网络模型，获得与所述答复文本信息对应的答复手语信息，其中，所述第二神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

可选地，所述交互装置还包括：数量获取模块，用于获取待处理视频中的手语信息在预设时间段内的数量；速度计算模块，用于基于所述预设时间段和所述数量计算得到所述待处理视频中的手语信息的变化速度；第一特征获取模块，用于对所述人脸图像序列以及所述变化速度进行情绪分析，获取所述情绪特征。

可选地，所述交互装置还包括：语义信息确定模块，用于获取与所述手语信息相邻的手语信息，基于所述手语信息和所述相邻的手语信息，确定上下文语义信息；第二特征获取模块，用于对所述人脸图像以及所述上下文语义信息进行情绪分析，获取所述情绪特征。

可选地，所述交互装置还包括：视频获取模块，用于获取待处理视频；信息判断模块，用于若所述终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断所述待处理视频是否包含手语信息；模式切换模块，用于当所述待处理视频包含手语信息时，将所述终端设备的当前模式切换为手语识别模式。

第三方面，本申请实施例提供了一种终端设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供了一种交互方法、装置、终端设备及存储介质。当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征；基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过对手语信息和用户的脸部进行识别，根据识别到的文本信息和情绪特征确定语义信息，从而提高了用户意图识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图；

图2示出了本申请实施例提供的一交互方法的流程示意图；

图3示出了本申请实施例提供的虚拟智能客服的显示示例图；

图4示出了本申请实施例提供的另一交互方法的流程示意图；

图5示出了本申请实施例提供的又一交互方法的流程示意图；

图6示出了本申请实施例提供的再一交互方法的流程示意图；

图7示出了本申请实施例提供的还一交互方法的流程示意图；

图8示出了本申请实施例提供的又再一交互方法的流程示意图；

图9示出了本申请实施例提供的交互装置的结构框图；

图10示出了本申请实施例的用于执行根据本申请实施例的交互方法的终端设备的结构框图。

图11示出了本申请实施例的用于保存或者携带实现根据本申请实施例的交互方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着互联网、社会化媒体的发展，除了传统上对客服需求旺盛的行业(例如运营商客服、银行客服、政府部门政策解答的在线机器人等等)，一些新的行业如：手机、汽车、快递行业等也都开始尝试引入虚拟客服助理(即虚拟智能客服)。虚拟智能客服与用户进行对话时，可以将对用户咨询的回复内容经过虚拟的人物形象之口，通过语音的方式表达出来，让用户可以在人机交互界面上直观的看到具有虚拟人物形象的虚拟客服助理在“说话”，使用户与虚拟客服助理之间能够进行“面对面”的沟通交流。

然而，目前客服机器人主要面向的用户为正常人，面向特殊群体提供服务的客服机器人较少。同样的，目前的客服机器人通过识别用户输入手语信息与用户进行交互，但仅根据识别手语信息不能准确的确定用户的意图。

为了解决上述问题，发明人提出了本申请实施例中的交互方法、装置、终端设备及存储介质，通过对手语信息和用户的脸部进行识别，根据识别到的文本信息和情绪特征确定语义信息，从而提高了用户意图识别的准确性。

为便于更好的理解本申请实施例提供的交互方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的交互方法可以应用于如图1所示的多态交互***100。多态交互***100包括终端设备110以及服务器120，服务器120与终端设备110通信连接。其中，服务器120可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备110可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备110上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备110上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如应用程序(application，APP)、微信小程序等)与服务器120进行通信。具体的，服务器120上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器120注册一个用户账号，并基于该用户账号与服务器120进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器120，使得服务器120可以接收该信息并进行处理及存储，服务器120还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备110。

在一些实施方式中，客户端应用程序可以用于向用户提供客户服务，与用户进行客服沟通，客户端应用程序可以基于虚拟机器人与用户进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于虚拟机器人对该信息做出应答。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形态建立的形似真人的机器人，也可以是动漫效果式的机器人，例如动物形态或卡通人物形态的机器人，在此不作限定。

在一些实施方式中，终端设备110在获取与用户输入的信息对应的回复信息后，可以在终端设备110的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像(其中，该虚拟机器人图像特征可以包括虚拟机器人的性别、与答复音频所对应的答复情感以及形象特征等)。作为一种方式，在播放虚拟机器人图像的同时，可以通过终端设备110的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频，还可以在终端设备110的显示屏上显示与该回复信息对应的文字或图形，实现在图像、语音、文字等多个方面上与用户的多态交互。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备110上，使得终端设备110无需依赖与服务器120建立通信即可实现与用户的交互，此时多态交互***100可以只包括终端设备110。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的交互方法、装置、终端设备及存储介质进行详细说明。

请参阅图2，图2示出了本申请实施例提供的一交互方法的流程示意图。本实施例提供的交互方法可以应用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中，交互方法可应用于如图8所示的交互装置200以及图9所示的终端设备110。下面将针对图2所示的流程进行详细的阐述。上述的交互方法具体地可以包括以下步骤：

步骤S110：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列。

在本申请实施例中，终端设备可以包括多种模式，其中，不同的模式对应终端设备不同的操作，例如，当终端设备的当前模式是语音识别模式时，终端设备可以采集语音信息并对语音信息进行识别，使得用户可以通过语音进行人机交互；当终端设备的当前模式是文本识别模式，终端设备可以获取用户输入的文本信息，与用户进行交互；当终端设备的当前模式为手语识别模式，则可以获取待处理视频中的手语信息以及人脸图像序列进行识别操作。

在一些实施方式中，终端设备可以通过接收用户的操作，选择不同的模式。具体地，终端设备可以基于用户在界面上的触控操作选择对应的模式，例如，用户在界面上点击语音识别的图标时，可以将终端设备的模式选择为语音识别模式。终端设备也可以通过采集包含用户的视频，并对视频进行识别，确定该视频对应的模式，例如，当识别出视频中包含手语信息，可以将终端设备的模式选择为手语识别模式。

作为一种实施方式，当终端设备的当前模式为手语识别模式时，为了避免采集到语音信息造成误触发操作，可以关闭麦克风等音频采集设备，仅开启摄像头等图像采集设备采集用户的手语信息以及人脸图像序列，进而还可以降低终端设备的功耗。

在一些实施方式中，待处理视频为至少包含有用户手部和用户人脸的视频流，可以是仅包含用户上半身的视频流，也可以是包含用户全身的视频流。终端设备可以通过多种方式获取到待处理视频。在一些实施例中，待处理视频可以是在用户与虚拟智能客服进行交互时，终端设备利用摄像头等图像采集设备实时采集到的用户的视频。具体地，作为一种方式，可以是当终端设备的***前台运行有虚拟智能客服对应的应用程序时，调用终端设备的各个硬件模块来采集用户的视频。

在一些实施方式中，终端设备获取到待处理视频后，且该终端设备的当前模式为手语识别模式时，可以获取待处理视频中的手语信息以及人脸图像序列。作为一种实施方式，可以对待处理视频进行分解，以提取出手语信息以及人脸图像序列。其中，手语信息可以是从分解的多张视频图像中挑选出的包含手部动作的视频图像，人脸图像序列可以是从分解的多张视频图像中挑选出的包含用户人脸的视频图像。

步骤S120：对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征。

在一些实施方式中，可以将手语信息输入与手语信息对应的识别模型中，并基于识别模型对该手语信息进行识别，获取与该手语信息对应的文本信息。

作为一种实施方式，文本信息可以是基于上述手语信息在问答库中查询并获取与手语信息对应的文本信息，其中，问答库包括预存的手语信息和与手语信息对应的预存的文本信息，每个手语信息与其匹配的文本信息一一对应。例如问答库中预存的手语信息可以是完整的问题如“你们店铺包邮吗？”，从而基于该手语信息，可以获取与该手语信息对应的文本信息。

作为一种实施方式，文本信息也可以是基于问答模型获取的，具体地，可以将手语信息输入问答模型，通过问答模型获取与该手语信息对应的文本信息。其中，问答模型可以是基于大量的问答对训练得到的，例如可以将从海量人工客服的沟通记录得到的海量问答视频作为训练样本，将手语信息作为输入，手语信息对应的文本信息作为期望输出，基于机器学习的方法训练得到问答模型，从而通过问答模型获取与手语信息对应的文本信息。

在一些实施方式中，终端设备获取到待处理视频中的人脸图像序列后，可以对该人脸图像序列进行情绪分析，以获取用户的情绪特征。其中，情绪特征可以用于表征人脸图像中人物的情绪。在一些实施例中，情绪特征所表征的情绪可以包括兴奋、愉快、幸福、满足、放松、冷静等正面情绪，也可以包括疲劳、无聊、压抑、沮丧、愤怒、紧张等负面情绪，在此不限定。

在一些实施方式中，可以通过深度学习技术，对人脸图像序列进行情绪分析。作为一种方式，可以将人脸图像序列输入已训练的情绪识别模型，得到该情绪识别模型输出的情绪特征。具体地，在一些实施方式中，情绪识别模型可以预先基于大量真人说话时的人脸图像序列以及人脸呈现的情绪特征的训练样本，通过神经网络训练得到的。训练样本可以包括输入样本及输出样本，输入样本可以包括人脸图像序列，输出样本可以为图像中人物的情绪特征，从而已训练的情绪识别模型可以用于根据获取的人脸图像序列，输出图像中人物的情绪特征。

其中，情绪识别模型可以采用循环神经网络(recurrent neural network，RNN)模型、卷积神经网络(convolutional neural networks，CNN)模型、双向长短时记忆循环神经网络(bi-directional long short-term memory，BiLSTM)模型、变分自编码器(variational autoencoder，VAE)模型等机器学习模型，在此不做限定。例如，情绪识别模型还可以是采用上述机器学习模型的变体或组合等。

步骤S130：基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息。

可以理解的是，同一句话在不同的情绪下所表征出来的语义是不同的。例如，同一句话“这是什么意思”在负面情绪下理解的语义信息可以为质问、发泄等，在正面情绪下所理解的语义信息可以为询问、咨询等。因此，在本申请实施例中，可以同时根据文本信息以及用户在表达该句话时的情绪特征来进行语义理解，从而可以准确确定出用户的意图，进而虚拟智能客服可以采用对应的答复手语信息进行答复。例如，负面情绪下的答复手语信息可以为“请您消消气”等，正面情绪下的答复手语信息可以为“XX的意思是……”等。

在一些实施方式中，终端设备在获取到上述文本信息以及情绪特征后，可以通过深度学习技术，确定出用户的意图、词槽等对话相关的语义信息，以根据语义信息确定出对应的答复手语信息。作为一种方式，可以通过将文本信息以及情绪特征输入已训练的特征识别模型，得到该特征识别模型输出的语义信息，再根据该语义信息以及用户的情绪特征，生成对应的答复手语信息。其中，特征识别模型可以是将大量文本信息以及情绪特征作为输入样本，将该文本信息以及情绪特征所对应的语义信息作为输出样本，通过神经网络训练得到的。

步骤S140：基于答复手语信息生成虚拟智能客服的动作参数。

在一些实施方式中，可以基于答复手语信息生成虚拟智能客服的动作参数。

作为一种实施方式，可以预先获取大量的训练手语信息以及训练手语信息对应的动作参数作为训练样本集，并将训练样本集输入机器学习模型进行训练，得到动作参数对应的神经网络模型，从而可以将答复手语信息输入该神经网络模型，得到虚拟智能客服的动作参数。其中，该神经网络模型可以是循环神经网络(recurrent neural network，RNN)或者长短期记忆网络(long short-term memory，LSTM)等神经网络模型。

从而虚拟智能客服在接收到用户的询问时，可以通过手语告知用户回复内容。例如，在用户通过手语询问店铺的方位时，虚拟智能客服可以通过手语告知用户具体路线。

步骤S150：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

在本申请实施例中，可以通过动作参数，对虚拟智能客服的动作进行驱动，即可驱动虚拟智能客服的人体模型呈现不同的动作(可以主要指虚拟智能客服的上半身肢体呈现不同的动作)。

作为一种实施方式，虚拟智能客服的人体模型，可以是通过三维建模等三维制作软件制作得到的三维人体模型，故可以基于动作参数驱动虚拟智能客服的人体模型，使得虚拟智能客服呈现不同的动作。具体地，可以根据动作参数解析出各个重点关节的旋转角度等信息，并根据这些信息驱动人体模型中相应的关节进行动作，从而使得虚拟智能客服呈现不同的动作。通过动作参数对虚拟智能客服的动作进行驱动，即可获得虚拟智能客服的行为图像，进而可以根据连续的多帧行为图像，生成答复图像序列。

步骤S160：基于答复图像序列，生成并输出针对待处理视频的答复视频。

作为一种实施方式，答复视频，可以是虚拟智能客服针对用户输入的手语信息，获取的用于向用户进行相应答复的视频。进一步地，可以基于答复图像序列，生成并输出针对待处理视频的答复视频，具体地，可以获取预设视频，预设视频可以是预先准备的用于针对待处理视频对用户进行反馈的视频，预设视频中包括有预设答复图像序列，那么可以将预设视频中的预设答复图像序列替换为上述的答复图像序列，从而生成针对上述待处理视频的答复视频，进而将该答复视频输出并向用户展示。

作为一种实施方式，答复视频可以包括答复图像序列，即基于动作参数，驱动虚拟智能客服产生的多帧连续的行为图像，例如，以图3所示的终端设备110的显示界面为例，用户可以通过手语在终端设备110发起询问，客服***在获得用户的手语后，对手语对应的询问内容进行识别，并获取对应的答复手语信息，进而可以基于答复手语信息生成虚拟智能客服101的动作参数，驱动虚拟智能客服101，使得虚拟智能客服101用手语回复用户。

作为一种实施方式，可以获取答复手语信息对应的答复文本信息，基于答复文本信息得到视频展示信息(例如，视频中的字幕)，则可以基于答复图像序列和视频展示信息，生成并输出针对待处理视频的答复视频。进一步地，生成针对待处理信息的答复视频时，为了使得输出的答复视频中的答复图像序列与视频展示信息同步，可以对答复图像序列以及视频展示信息分别标注时间戳信息，以用于在生成答复视频时将答复图像序列和视频展示信息基于时间戳信息对齐，实现答复视频中的内容同步。

其中，需要说明的是，图3中的虚拟智能客服的形象仅作为一种示例，实际实现时虚拟智能客服的形象可以是多样化的。作为一种方式，当用户开启了视频客服功能按钮时，可以在视频客服的用户端显示虚拟智能客服。可选的，对于显示虚拟智能客服的场所可以不受限制，例如，可以是在手机的APP客户端的显示界面进行显示，也可以是在运营商的网站的页面上进行显示，也可以是在银行的客服机等终端设备的显示界面进行显示，具体不作限定。

上述实施例提供的交互方法，当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征；基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过对手语信息和用户的脸部进行识别，根据识别到的文本信息和情绪特征确定语义信息，从而提高了用户意图识别的准确性。

请参阅图4，图4示出了本申请实施例提供的另一交互方法的流程示意图，该方法包括：

步骤S210：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列。

其中，步骤S210-步骤S220的具体描述请参阅步骤S110-步骤S120，在此不再赘述。

步骤S220：对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征。

在本申请实施例中，可以对手语信息进行识别得到文本信息，并对人脸图像序列进行情绪分析获取情绪特征。

在一些实施方式中，人脸图像序列包括多个人脸图像，对人脸图像序列进行情绪分析获取情绪特征，可以包括以下步骤：

步骤S221：提取人脸图像序列中每个人脸图像对应的人脸关键点。

在本申请实施例中，人脸做出不同的表情时人脸关键点的位置分布也会不同，因此，可以提取人脸图像序列中每个人脸图像对应的人脸关键点进行情绪分析，以提高情绪分析的准确度。其中，人脸关键点的数量可以是68个。

步骤S222：基于人脸图像序列中的每个人脸图像以及每个人脸图像对应的人脸关键点，获得每个人脸图像对应的特征向量。

在一些实施方式中，可以利用机器学习模型，基于人脸图像序列中的每个人脸图像以及每个人脸图像对应的人脸关键点，获得每个人脸图像对应的特征向量。具体地，机器学习模型可以分别对人脸图像以及与人脸图像对应的人脸关键点进行编码，以得到第一特征向量以及第二特征向量。然后机器学习模型可以将两个特征向量进行对齐拼接，生成一个第三特征向量。机器学习模型通过对人脸图像序列中的每一个人脸图像和对应的人脸关键点进行如上处理，从而得到一个由第三特征向量组成的特征序列，作为机器学习模型的真实输入。例如，机器学习模型可以将人脸图像以及人脸图像对应的68个人脸关键点分别编码为特征向量a和特征向量b，然后将特征向量a和特征向量b对齐拼接为[a,b]形式的特征向量c，从而多个人脸图像和对应的人脸关键点重复上述处理后，可以得到一个由特征向量c组成的特征序列，作为机器学习模型的真实输入。

终端设备将每个人脸图像以及每个人脸图像对应的人脸关键点输入机器学习模型后，可以获得机器学习模型输出的每个人脸图像对应的二维的特征向量，该二维的特征向量可以用于分析图像中用户的情绪状态。

步骤S223：根据预设的映射关系确定与特征向量对应的情绪特征，得到人脸图像序列中每个人脸图像对应的情绪特征，其中，预设的映射关系中包括多个特征向量和多个情绪特征的对应关系。

在一些实施例中，二维的特征向量与情绪特征的映射关系可以通过唤醒度—正负性(Arousal-Valence)情感模型进行体现。其中，情绪特征向量中的二维与Arousal轴、Valence轴分别对应且固定。具体地，可以将二维的特征向量所映射的Arousal-Valence情绪空间依照所设计的方法划分成12个等分的子空间，分别对应12种情绪状态。其中，12种情绪状态分为6种正面情绪(兴奋、愉快、幸福、满足、放松、冷静)和6种负面情绪(疲劳、无聊、压抑、沮丧、愤怒、紧张)。然后可以根据二维的特征向量中各维的取值，唯一地确定情绪空间中的一个坐标点，通过获取该坐标点所落在的子空间对应的情绪状态即可确定该二维的特征向量所对应的情绪状态。

步骤S230：将文本信息输入第一机器学习模型，获得与文本信息对应的语义信息。

在本申请实施例中，第一机器学习模型，可以是基于可以是基于大量文本信息以及文本信息对应的语义信息的训练样本，通过神经网络训练得到的。可以理解的是，第一机器学习模型，是用于将文本信息转换为对应的语义信息的模型。通过将之前获取的文本信息输入第一机器学习模型，即可由第一机器学习模型输出与文本信息对应的语义信息。

步骤S240：将情绪特征输入第二机器学习模型，获得与情绪特征对应的语义信息。

在本申请实施例中，第二机器学习模型，可以是基于可以是基于大量情绪特征以及情绪特征对应的语义信息的训练样本，通过神经网络训练得到的。可以理解的是，第二机器学习模型，是用于将情绪特征转换为对应的语义信息的模型。通过将之前获取的情绪特征输入第二机器学习模型，即可由第二机器学习模型输出与情绪特征对应的语义信息。

步骤S250：基于文本信息对应的语义信息和情绪特征对应的语义信息，确定待处理视频的语义信息。

在本申请实施例中，可以基于文本信息对应的语义信息和情绪特征对应的语义信息确定待处理视频的语义信息。其中，文本信息对应的语义信息可以是该手语信息对应的内容，例如“这件衣服发货了吗”，情绪特征对应的语义信息则可以是用户在输入该手语信息时的情绪，例如可以是询问的语气，也可以是愤怒的语气。

在一些实施方式中，可以在预先设置的语义识别库中，查找与文本信息对应的语义信息以及情绪特征对应的语义信息，均符合的语义信息，即待处理视频的语义信息，进而可以根据该语义信息获取对应的答复手语信息。例如，可以在语义识别库中找到与“这件衣服发货了吗”的语义信息，以及愤怒的语气均符合的语义信息，进而可以根据该语义信息获取表达安抚语气的答复手语信息。

步骤S260：获取与语义信息对应的答复手语信息。

步骤S270：基于答复手语信息生成虚拟智能客服的动作参数。

步骤S280：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

步骤S290：基于答复图像序列，生成并输出针对待处理视频的答复视频。

其中，步骤S260-步骤S290的具体描述请参阅步骤S130-步骤S160，在此不再赘述。

上述实施例提供的交互方法，当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征；将文本信息输入第一机器学习模型，获得与文本信息对应的语义信息；将情绪特征输入第二机器学习模型，获得与情绪特征对应的语义信息，基于文本信息对应的语义信息和情绪特征对应的语义信息，确定待处理视频的语义信息；获取与语义信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过两个机器学习模型，分别得到文本信息对应的语义信息以及情绪特征对应的文本信息，基于文本信息对应的语义信息和情绪特征对应的文本信息，确定待处理视频的语义信息，从而提高了语义信息确定的准确性，提高了手语识别的准确性。

请参阅图5，图5示出了本申请实施例提供的又一交互方法的流程示意图，该方法包括：

步骤S310：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列。

其中，步骤S310的具体描述请参阅步骤S110，在此不再赘述。

步骤S320：获取待处理视频中的手语信息在预设时间段内的数量。

可以理解的是，用户使用手语时的手速不同，代表了用户不同的情绪。因此，在本申请实施例中，可以获取待处理视频中手语信息的变化速度。具体地，可以获取待处理视频中的手语信息在预设时间段内的数量，例如，可以获取三十秒内的手语信息的数量。

步骤S330：基于预设时间段和数量计算得到待处理视频中的手语信息的变化速度。

在一些实施方式中，基于上述获取到的待处理视频中的手语信息在预设时间段内的数量，以及预设时间段，可以计算得到待处理视频中的手语信息的变化速度。例如，获取三十秒内的手语信息的数量为六十个，则可以计算得到手语信息的变化速度为每秒两个手语信息。

步骤S340：对手语信息进行识别得到文本信息，对人脸图像序列以及变化速度进行情绪分析获取情绪特征。

在本申请实施例中，可以对手语信息进行识别得到文本信息。可以理解的是，用户在情绪不同时，输入手语信息的速度也不同，当输入手语信息的速度较快时，可能表示用户此时的情绪较为焦急，于是，对应的用户的意图就会相应有所不同，为了能更准确的确定用户的意图，可以对人脸图像序列以及变化速度进行情绪分析，从而获取到更准确的情绪特征，进而能更准确的确定用户的意图。

在一些实施方式中，可以将人脸图像序列以及变化速度输入已训练的情绪识别模型中，得到由情绪识别模型输出的情绪特征。也可以将人脸图像序列以及变化速度分别输入两个不同的情绪识别模型，得到由两个不同的情绪识别模型输出的对应的两个情绪特征，再将对应的两个情绪特征进行综合得到最终的情绪特征。

在另一些实施方式中，可以先根据变化速度确定用户的情绪，当变化速度较快时，用户的情绪可能是焦急，也可能是愤怒，此时，可以再结合对人脸图像序列中人脸关键点的分析，筛选得到更准确的情绪特征。

步骤S350：基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息。

步骤S360：基于答复手语信息生成虚拟智能客服的动作参数。

步骤S370：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

步骤S380：基于答复图像序列，生成并输出针对待处理视频的答复视频。

其中，步骤S350-步骤S380的具体描述请参阅步骤S130-步骤S160，在此不再赘述。

上述实施例提供的交互方法，当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；获取待处理视频中的手语信息在预设时间段内的数量；基于预设时间段和数量计算得到待处理视频中的手语信息的变化速度；对手语信息进行识别得到文本信息，对人脸图像序列以及变化速度进行情绪分析获取情绪特征，基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列；基于答复图像序列，生成并输出针对待处理视频的答复视频。通过对人脸图像序列以及变化速度进行情绪分析获取情绪特征，从而获取到更准确的情绪特征，提高待处理视频的语义信息识别的准确性。

请参阅图6，图6示出了本申请实施例提供的再一交互方法的流程示意图，该方法包括：

步骤S410：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列。

其中，步骤S410的具体描述请参阅步骤S110，在此不再赘述。

步骤S420：获取与手语信息相邻的手语信息，基于手语信息和相邻的手语信息，确定上下文语义信息。

可以理解的是，由于上下文内容不同，对应的用户的情绪也会有所不同，例如，同样是“什么时候发货呀？”，若前一句为“这件衣服包邮吗？”，对应的语气是平和的语气，用户的情绪可能是平静的；若前一句为“我都下订单好几天了”，那对应的语气可能是不满的语气，用户的情绪可能是生气的。故可以根据上下文的内容，确定上下文语义，进而得到更准确的情绪特征。因此，在本申请实施例中，可以获取与手语信息相邻的手语信息，基于手语信息和相邻的手语信息，确定上下文语义信息。其中，与手语信息相邻的手语信息，可以是与该手语信息相邻的前一条手语信息，或后一条手语信息，也可以是该手语信息相邻的前一条手语信息和后一条手语信息，在此不做限定。

在一些实施方式中，可以将该手语信息以及与该手语信息相邻的手语信息输入至语义识别模型中，得到由语义识别模型输出的上下文语义信息。其中，语义识别模型可以是预先基于大量的整段手语信息以及整段手语信息对应的上下文语义信息的训练样本，通过神经网络模型训练得到的，其中，整段手语信息包括手语信息以及与该手语信息相邻的手语信息。

步骤S430：对手语信息进行识别得到文本信息，对人脸图像序列以及上下文语义信息进行情绪分析获取情绪特征。

在本申请实施例中，可以对手语信息进行识别得到文本信息。可以理解的是，由于上下文内容的不同，对应的用户的情绪也会有所不同，则可以对人脸图像序列以及上下文语义信息进行情绪分析，获得更准确的情绪特征。

在一些实施方式中，可以对将人脸图像序列以及上下文语义信息输入已训练的情绪识别模型中，获得由情绪识别模型输出的情绪特征。也可以将人脸图像序列以及上下文语义信息输入不同的两个情绪识别模型，得到由两个不同的情绪识别模型输出的两个对应的情绪特征，将这两个对应的情绪特征综合起来，即可以得到最终的情绪特征。

在一些实施方式中，也可以先对人脸图像序列进行情绪分析得到人脸图像序列对应的情绪特征，再根据上下文语义信息得到上下文语义信息对应的情绪特征，根据上下文语义信息对应的情绪特征，调整人脸图像序列对应的情绪特征，进而获得综合人脸图像序列以及上下文语义信息分析得到的情绪特征。

步骤S440：基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息。

步骤S450：基于答复手语信息生成虚拟智能客服的动作参数。

步骤S460：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

步骤S470：基于答复图像序列，生成并输出针对待处理视频的答复视频。

其中，步骤S440-步骤S470的具体描述请参阅步骤S130-步骤S150，在此不再赘述。

上述实施例提供的交互方法，当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；获取与手语信息相邻的手语信息，基于手语信息和相邻的手语信息，确定上下文语义信息，对手语信息进行识别得到文本信息，对人脸图像序列以及上下文语义信息进行情绪分析获取情绪特征，基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息，基于答复手语信息生成虚拟智能客服的动作参数，基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，基于答复图像序列，生成并输出针对待处理视频的答复视频。通过基于手语信息和相邻的手语信息，确定上下文语义信息，根据人脸图像序列以及上下文语义信息得到情绪特征，从而获取到更准确的情绪特征，进而提高用户意图识别的准确性。

请参阅图7，图7示出了本申请实施例提供的还一交互方法的流程示意图，该方法包括：

步骤S510：获取待处理视频。

待处理视频为至少包含有用户手部的视频流，可以是仅包含用户上半身的视频流，也可以是包含用户全身的视频流。终端设备可以通过多种方式获取到待处理视频。在一些实施例中，待处理视频可以是在用户与虚拟智能客服进行交互时，终端设备利用摄像头等图像采集设备实时采集到的用户的视频。具体地，作为一种方式，可以是当终端设备的***前台运行有虚拟智能客服对应的应用程序时，调用终端设备的各个硬件模块来采集用户的视频。

在另一些实施例中，待处理视频也可以是已录制好的视频，该录制好的视频需满足视频中的人物，与虚拟智能客服当前的交互对象保持一致。作为一种方式，当终端设备的***前台运行有虚拟智能客服对应的应用程序时，可以通过应用程序的后台获取用户在虚拟智能客服对应的应用程序界面输入的录制好的视频。其中，录制好的视频可以是从第三方客户端程序中获取到的视频，也可以从网上下载或远程下载的录制好的视频。可以理解的是，待处理视频的来源不受限制，仅需待处理视频中包含有当前与虚拟智能客服进行交互的用户即可，在此不再一一列举。

步骤S520：若终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断待处理视频是否包含手语信息。

终端设备包括多种模式，若终端设备的当前模式为非手语识别模式时(例如语音识别模式、图像识别模式等)，可以通过对获取到的待处理视频进行识别，判断待处理视频是否包含手语信息。具体地，可以根据第一神经网络模型判断待处理视频是否包含手语信息，待处理视频可以分解为多张图像，其中，第一神经网络模型可以是将训练图像作为输入，训练图像对应的手语信息作为输出进行训练的。于是可以将待处理视频分解的多张图像分别输入第一神经网络模型，通过判断每张图像对应是否输出有手语信息，从而判断待处理视频是否包含手语信息。其中，第一神经网络模型可以是LSTM模型。

作为一种实施方式，当终端设别的当前模式为非手语识别模式，且待处理视频中不包含语音信息时，即可以理解为待处理视频为静音时，可以基于上述第一神经网络模型判断待处理视频是否包含手语信息。

作为一种实施方式，待处理视频中可以包括语音信息，在执行步骤S520之前，或执行步骤S520的同时，可以对待处理视频中的语音信息进行识别，并判断语音信息对应的识别内容是否为无意义内容。其中，可以是通过无意义词料库，当在无意义词料库中比对出相同的内容，则认定是无意义内容。也可以对语音信息进行噪声检测，例如，可以采用噪音检测工具进行检测，也可以通过检测语音信息的音量是否小于一定的阈值判断该语音信息是否为噪声，当确定该语音信息为噪音，则可以认定语音信息对应的识别内容是无意义内容。进一步地，还可以通过音频端点检测从语音信息中检测是否有有效的语音段，判断是否为无意义内容。

作为一种实施方式，若采集到的语音信息为有意义的内容，则可以对该语音信息进行识别，采用语音交互方式与用户进行交互。

作为一种实施方式，为了避免待处理视频中的某一个动作信息与手语信息类似，而引起误触发手语识别模式的情况，可以检测一段时间内，待处理视频是否包含多个手语信息，或连续的多个手语信息，以此更准确地确定当前用户是否为聋哑人，从而确定是否将终端设备的当前模式切换为手语识别模式。进一步地，还可以将该一段时间内获取到的手语信息进行存储，在将终端设备的当前模式切换为手语识别模式时，可以将上述一段时间内获取到的手语信息进行识别。

步骤S530：当待处理视频包含手语信息时，将终端设备的当前模式切换为手语识别模式。

在本申请实施例中，当待处理视频包含手语信息时，可以将终端设备的当前模式切换为手语识别模式。

在一些实施方式中，若将待处理视频分解的多张图像分别输入第一神经网络模型，当每张图像对应都输出有手语信息，可以确定待处理视频中包含手语信息，则可以见终端设备的当前模式切换为手语识别模式。作为一种实施方式，待处理视频包括语音信息，对语音信息进行识别后，当语音信息对应的识别内容为无意义内容时，且待处理视频包含手语信息，可以将终端设备的当前模式切换为手语识别模式。

作为一种实施方式，当检测到一段时间内，待处理视频包含多个手语信息，或连续的多个手语信息时，可以确定当前用户为聋哑人，则可以将终端设备的当前模式切换为手语识别模式。

进一步地，当将终端设备的当前模式切换为手语识别模式后，为了避免采集到语音信息造成误触发操作，可以关闭麦克风等音频采集设备，仅开启摄像头等图像采集设备采集用户的手语信息，进而还可以降低终端设备的功耗。

在一些实施方式中，步骤S630之后可以执行步骤S110-步骤S160，也可以执行步骤S210-步骤S290，也可以执行步骤S310-步骤S380，还可以执行步骤S410-步骤S470，在此不做限定。

上述实施例提供的交互方法，获取待处理视频，若终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断待处理视频是否包含手语信息，当待处理视频包含手语信息时，将终端设备的当前模式切换为手语识别模式。通过基于神经网络模型判断待处理视频中包含有手语信息时，将终端设备的当前模式切换为手语识别模式，从而可以通过识别待处理视频即可打开手语识别模式，无需用户手动切换手语识别模式，减少用户操作，提升用户使用该终端设备的便利性。

请参阅图8，图8示出了本申请实施例提供的又再一交互方法的流程示意图，该方法包括：

步骤S610：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列。

步骤S620：对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征。

其中，步骤S610-步骤S620的具体描述请参阅步骤S110-步骤S120，在此不再赘述

步骤S630：基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息。

在本申请实施例中，可以基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息。

在一些实施方式中，可以基于文本信息以及待处理视频对应的语义信息，查找对应的答复文本信息，然后可以将答复文本信息输入第二神经网络模型，获得与答复文本信息对应的答复手语信息，其中，第二神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

在一些实施方式中，答复文本信息可以是基于上述文本信息以及语义信息在问答库中查询并获取与文本信息以及语义信息均对应的答复文本信息，其中，问答库包括预存的文本信息、语义信息和与文本信息以及语义信息均对应的预存的答复文本信息，每个文本信息以及语义信息与其匹配的答复文本信息一一对应。例如问答库中预存的文本信息可以是完整的问题如“你们店铺包邮吗？”，语义信息可以是询问的语气，从而基于该文本信息以及语义信息，可以获取与该文本信息以及语义信息均对应的答复文本信息。

在另一些实施方式中，答复文本信息也可以是基于问答模型获取的，具体地，可以将文本信息以及语义信息输入问答模型，通过问答模型获取与该文本信息以及语义信息均对应的答复文本信息。其中，问答模型可以是基于大量的问答对训练得到的，例如可以将从海量人工客服的沟通记录得到的海量问答视频作为训练样本，将文本信息以及语义信息作为输入，文本信息以及语义信息均对应的答复文本信息作为期望输出，基于机器学习的方法训练得到问答模型，从而通过问答模型获取与文本信息以及语义信息均对应的答复文本信息。

在另一些实施方式中，第二神经网络模型，可以是基于大量的文本信息以及文本信息对应的手语信息大量真人手语视频以及对应的文本信息的训练样本，通过神经网络训练得到的(具体地可以是LSTM模型)。可以理解的是，第二神经网络模型，是用于将答复文本信息转换为对应的答复手语信息的模型。通过将之前获取的答复文本信息输入第二神经网络模型，即可由第二神经网络模型输出与答复文本信息对应的答复手语信息。

步骤S640：基于答复手语信息生成虚拟智能客服的动作参数。

步骤S650：基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

步骤S660：基于答复图像序列，生成并输出针对待处理视频的答复视频。

其中，步骤S640-步骤S660的具体描述请参阅步骤S140-步骤S160，在此不再赘述

上述实施例提供的交互方法，当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列，对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征，基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息，基于答复手语信息生成虚拟智能客服的动作参数，基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成，基于答复图像序列，生成并输出针对待处理视频的答复视频。通过对手语信息和人脸图像序列进行识别，进而根据识别出的文本信息和情绪特征，确定待处理视频的语义，从而更准确识别出用户的意图。

请参阅图9，图9示出了本申请实施例提供的交互装置200的结构框图。下面将针对图9所示的框图进行阐述，所述交互装置200包括：信息获取模块210、信息识别模块220、信息确定模块230、参数生成模块240、序列生成模块250以及视频生成模块260，其中：

信息获取模块210，用于当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列。

信息识别模块220，用于对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征。

进一步地，人脸图像序列包括多个人脸图像，信息识别模块220包括：关键点提取子模块、向量获得子模块以及特征确定子模块，其中：

关键点提取子模块，用于提取人脸图像序列中的每个人脸图像对应的人脸关键点。

向量获得子模块，用于基于人脸图像序列中的每个人脸图像以及每个人脸图像对应的人脸关键点，获得每个人脸图像对应的特征向量。

特征确定子模块，用于根据预设的映射关系确定与特征向量对应的情绪特征，得到人脸图像序列中每个人脸图像对应的情绪特征，其中，预设的映射关系中包括多个特征向量和多个情绪特征的对应关系。

信息确定模块230，用于基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息。

进一步地，信息确定模块230包括：第一语义信息获得子模块、第二语义信息获得子模块以及语义信息确定子模块，其中：

第一语义信息获得子模块，用于将文本信息输入第一机器学习模型，获得与文本信息对应的语义信息。

第二语义信息获得子模块，用于将情绪特征输入第二机器学习模型，获得与情绪特征对应的语义信息。

语义信息确定子模块，用于基于文本信息对应的语义信息和情绪特征对应的语义信息，确定待处理视频的语义信息。

进一步地，信息确定模块230还包括：信息查找子模块以及手语信息获得子模块，其中：

信息查找子模块，用于基于文本信息以及待处理视频对应的语义信息，查找对应的答复文本信息。

手语信息获得子模块，用于将答复文本信息输入第二神经网络模型，获得与答复文本信息对应的答复手语信息，其中，第二神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

参数生成模块240，用于基于答复手语信息生成虚拟智能客服的动作参数。

序列生成模块250，用于基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列，答复图像序列由驱动虚拟智能客服产生的多帧连续的行为图像构成。

视频生成模块260，用于基于答复图像序列，生成并输出针对待处理视频的答复视频。

进一步地，交互装置200还包括：数量获取模块、速度计算模块以及第一特征获取模块，其中：

数量获取模块，用于获取待处理视频中的手语信息在预设时间段内的数量。

速度计算模块，用于基于预设时间段和数量计算得到待处理视频中的手语信息的变化速度。

第一特征获取模块，用于对人脸图像序列以及变化速度进行情绪分析，获取情绪特征。

进一步地，交互装置200还包括：语义信息确定模块以及第二特征获取模块，其中：

语义信息确定模块，用于获取与手语信息相邻的手语信息，基于手语信息和相邻的手语信息，确定上下文语义信息。

第二特征获取模块，用于对人脸图像以及上下文语义信息进行情绪分析，获取情绪特征。

进一步地，交互装置200还包括：视频获取魔偶快、信息判断模块以及模式切换模块，其中：

视频获取模块，用于获取待处理视频。

信息判断模块，用于若终端设备的当前模式为非手语识别模式时，基于第一神经网络模型判断待处理视频是否包含手语信息。

模式切换模块，用于当待处理视频包含手语信息时，将终端设备的当前模式切换为手语识别模式。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的交互装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图10，其示出了本申请实施例提供的一种终端设备110的结构框图。该终端设备110可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备110可以包括一个或多个如下部件：处理器111、存储器112以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器112中并被配置为由一个或多个处理器111执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器111可以包括一个或者多个处理核。处理器111利用各种接口和线路连接整个终端设备110内的各个部分，通过运行或执行存储在存储器112内的指令、程序、代码集或指令集，以及调用存储在存储器112内的数据，执行终端设备110的各种功能和处理数据。可选地，处理器111可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicarray，PLA)中的至少一种硬件形式来实现。处理器111可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器111中，单独通过一块通信芯片进行实现。

存储器112可以包括随机存储器(random access memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。存储器112可用于存储指令、程序、代码、代码集或指令集。存储器112可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备110在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图11，其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质300中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读取存储介质300可以是诸如闪存、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory，EEPROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质300包括非易失性计算机可读介质(non-transitorycomputer-readable storage medium)。计算机可读取存储介质300具有执行上述方法中的任何方法步骤的程序代码310的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码310可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的交互方法、装置、终端设备及存储介质，该方法包括：当终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；对手语信息进行识别得到文本信息，对人脸图像序列进行情绪分析获取情绪特征；基于文本信息和情绪特征，确定待处理视频的语义信息，并获取与语义信息对应的答复手语信息；基于答复手语信息生成虚拟智能客服的动作参数；基于动作参数，对虚拟智能客服的动作进行驱动，生成答复图像序列；基于答复图像序列，生成并输出针对待处理视频的答复视频。本申请通过对手语信息和用户的脸部进行识别，根据识别到的文本信息和情绪特征确定语义信息，从而提高了用户意图识别的准确性。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种交互方法，其特征在于，应用于终端设备，所述方法包括：

获取待处理视频；

若所述终端设备的当前模式为非手语识别模式时，检测预设时间段内，所述待处理视频是否包含多个手语信息，或连续的多个手语信息；

当检测到所述预设时间段内，所述待处理视频包含所述多个手语信息，或连续的所述多个手语信息时，将所述终端设备的当前模式切换为手语识别模式；

当所述终端设备的当前模式为手语识别模式时，获取所述待处理视频中的手语信息以及人脸图像序列；

对所述手语信息进行识别得到文本信息，对所述人脸图像序列进行情绪分析获取情绪特征；

基于所述文本信息和所述情绪特征，确定所述待处理视频的语义信息，并获取与所述语义信息对应的答复手语信息；

基于所述答复手语信息生成虚拟智能客服的动作参数；

基于所述动作参数，对所述虚拟智能客服的动作进行驱动，生成答复图像序列，所述答复图像序列由驱动所述虚拟智能客服产生的多帧连续的行为图像构成；

基于所述答复图像序列，生成并输出针对所述待处理视频的答复视频。

2.根据权利要求1所述的方法，其特征在于，所述基于所述文本信息和所述情绪特征，确定所述待处理视频的语义信息，包括：

将所述文本信息输入第一机器学习模型，获得与所述文本信息对应的语义信息；

将所述情绪特征输入第二机器学习模型，获得与所述情绪特征对应的语义信息；

基于所述文本信息对应的语义信息和所述情绪特征对应的语义信息，确定所述待处理视频的语义信息。

3.根据权利要求1所述的方法，所述获取待处理视频中的手语信息以及人脸图像序列之后，所述方法还包括：

获取待处理视频中的手语信息在预设时间段内的数量；

基于所述预设时间段和所述数量计算得到所述待处理视频中的手语信息的变化速度；

所述对所述人脸图像序列进行情绪分析获取情绪特征，包括：

对所述人脸图像序列以及所述变化速度进行情绪分析，获取所述情绪特征。

4.根据权利要求1所述的方法，其特征在于，所述获取待处理视频中的手语信息以及人脸图像序列之后，所述方法还包括：

获取与所述手语信息相邻的手语信息，基于所述手语信息和所述相邻的手语信息，确定上下文语义信息；

对所述人脸图像以及所述上下文语义信息进行情绪分析，获取所述情绪特征。

5.根据权利要求1或2所述的方法，其特征在于，所述人脸图像序列包括多个人脸图像，所述对所述人脸图像序列进行情绪分析获取情绪特征，包括：

提取所述人脸图像序列中每个人脸图像对应的人脸关键点；

基于所述人脸图像序列中的每个人脸图像以及所述每个人脸图像对应的人脸关键点，获得所述每个人脸图像对应的特征向量；

根据预设的映射关系确定与所述特征向量对应的情绪特征，得到所述人脸图像序列中每个人脸图像对应的情绪特征，其中，所述预设的映射关系中包括多个特征向量和多个情绪特征的对应关系。

6.根据权利要求1所述的方法，其特征在于，所述获取与所述语义信息对应的答复手语信息，包括：

基于所述文本信息以及所述待处理视频对应的语义信息，查找对应的答复文本信息；

将所述答复文本信息输入第二神经网络模型，获得与所述答复文本信息对应的答复手语信息，其中，所述第二神经网络模型是通过将样本答复文本信息作为输入，将样本答复文本信息对应的答复手语信息作为输出，基于机器学习算法训练得到的。

7.一种交互装置，其特征在于，应用于终端设备，所述装置包括：

视频获取模块，用于获取待处理视频；

信息判断模块，用于若所述终端设备的当前模式为非手语识别模式时，检测预设时间段内，所述待处理视频是否包含多个手语信息，或连续的多个手语信息；

模式切换模块，用于当检测到所述预设时间段内，所述待处理视频包含所述多个手语信息，或连续的多个手语信息时，将所述终端设备的当前模式切换为手语识别模式；

信息获取模块，用于当所述终端设备的当前模式为手语识别模式时，获取待处理视频中的手语信息以及人脸图像序列；

信息识别模块，用于对所述手语信息进行识别得到文本信息，对所述人脸图像序列进行情绪分析获取情绪特征；

信息确定模块，用于基于所述文本信息和所述情绪特征，确定所述待处理视频的语义信息，并获取与所述语义信息对应的答复手语信息；

参数生成模块，用于基于所述答复手语信息生成虚拟智能客服的动作参数；

序列生成模块，用于基于所述动作参数，对所述虚拟智能客服的动作进行驱动，生成答复图像序列，所述答复图像序列由驱动所述虚拟智能客服产生的多帧连续的行为图像构成；

视频生成模块，用于基于所述答复图像序列，生成并输出针对所述待处理视频的答复视频。

8.一种终端设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-6任一项所述的方法。

9.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。