CN117234369B

CN117234369B - 数字人交互方法及***、计算机可读存储介质、数字人设备

Info

Publication number: CN117234369B
Application number: CN202311057771.XA
Authority: CN
Inventors: 沈旭立; 王晓梅; 虞钉钉; 蔡华; 沈伟林; 徐清
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2024-06-21
Anticipated expiration: 2043-08-21
Also published as: CN117234369A

Abstract

本发明公开一种数字人交互方法及***、计算机可读存储介质、数字人设备，该方法包括：接收包含语音的用户交互视频；将所述用户交互视频分离为视频帧和语音，将所述语音转换为文本，得到多模态数据；根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码；根据各模态的情绪感知结果或感知编码确定控制标签向量；将所述控制标签向量融合到各模态的感知编码中；根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容；将所述基于视频、语音、文本的生成内容进行合成处理，得到合成视频。利用本发明方案，可以有效提高数字人的情感识别和表达能力，提升用户使用体验和效率。

Description

数字人交互方法及***、计算机可读存储介质、数字人设备

技术领域

本发明涉及信息处理技术领域，具体涉及一种数字人交互方法及***、计算机可读存储介质、数字人设备。

背景技术

随着人工智能和多模态识别技术、生成技术的发展，数字人交互***越来越受到人们的关注。数字人交互***是指通过视频生成等技术手段生成2D虚拟数字人视频，实现与人类的交互。数字人交互***可潜在应用于包括客服、教育、娱乐等多个领域，提高用户使用体验和效率。

然而，当前数字人交互***的情感表达能力仍然有待提高。传统的数字人交互***模态单一，多采用文本交互形式，对于情感的有效识别和表达存在困难。同时，目前多模态的数字人交互***无法统一多模态信息来源的情绪识别结果，如视觉传感模块，语音传感模块和文本识别模块等，这样的***无法生成具有情感一致性的2D虚拟数字人视频。

因此，需要开发一种多模态情感对齐的数字人交互***，提高其情感表达和情感识别的能力。

发明内容

本发明实施例提供一种数字人交互方法及***、计算机可读存储介质、数字人设备，可以有效提高数字人的情感识别和表达能力，提升用户使用体验和效率。

一方面，本发明实施例提供一种数字人交互方法，所述方法包括：

接收包含语音的用户交互视频；

将所述用户交互视频分离为视频帧和语音，将所述语音转换为文本，得到多模态数据；

根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码；

根据各模态的情绪感知结果或感知编码确定控制标签向量；

将所述控制标签向量融合到各模态的感知编码中，根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容；

将所述基于视频、语音、文本的生成内容进行合成处理，得到合成视频。

可选地，所述根据所述多模态数据分别获取基于视频、文字、语音的情绪感知结果包括：

将所述视频帧输入至视频情绪感知模型，得到基于视频的情绪感知结果；

将所述语音输入至语音情绪感知模型，得到基于语音的情绪感知结果；

将所述文本输入至文本情绪感知模型，得到基于文本的情绪感知结果。

可选地，根据各模态的情绪感知结果确定控制标签向量包括：分别获取基于视频、语音、文本的情绪感知结果的置信度，将置信度最大的情绪感知结果作为控制标签向量。

可选地，根据各模态的感知编码确定控制标签向量包括：确定各感知编码中与基于视频的感知编码不一致的感知信息，将不一致的感知信息从基于视频的感知编码中剔除，将剔除后的基于视频的感知编码作为控制标签向量。

可选地，所述根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容包括：

将融合后的基于视频的感知编码输入至视频生成模型，得到基于视频的生成内容；

将融合后的基于语音的感知编码输入至语音生成模型，得到基于语音的生成内容；

将融合后的基于文本的感知编码输入至文本生成模型，得到基于文本的生成内容。

可选地，所述方法还包括：输出所述合成视频。

另一方面，本发明实施例还提供一种数字人交互***，所述***包括：

接收模块，用于接收包含语音的用户交互视频；

视频处理模块，用于将所述用户交互视频分离为视频帧和语音，将所述语音转换为文本，得到多模态数据；

情绪感知模块，用于根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码；

标签确定模块，用于根据各模态的情绪感知结果或感知编码确定控制标签向量；

内容生成模块，用于将所述控制标签向量融合到各模态的感知编码中，根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容；

视频合成模块，用于将所述基于视频、语音、文本的生成内容进行合成处理，得到合成视频。

可选地，所述情绪感知模块包括：

视频情绪感知单元，用于将所述视频帧输入至视频情绪感知模型，得到基于视频的情绪感知结果及其置信度；

语音情绪感知单元，用于将所述语音输入至语音情绪感知模型，得到基于语音的情绪感知结果及其置信度；

文本情绪感知单元，用于将所述文本输入至文本情绪感知模型，得到基于文本的情绪感知结果及其置信度。

可选地，所述标签确定模块，具体用于分别获取基于视频、语音、文本的情绪感知结果的置信度，将置信度最大的情绪感知结果作为控制标签向量；或者确定各感知编码中与基于视频的感知编码不一致的感知信息，将不一致的感知信息从基于视频的感知编码中剔除，将剔除后的基于视频的感知编码作为控制标签向量。

可选地，所述内容生成模块包括：

视频生成单元，用于将融合后的基于视频的感知编码输入至视频生成模型，得到基于视频的生成内容；

语音生成单元，用于将融合后的基于语音的感知编码输入至语音生成模型，得到基于语音的生成内容；

文本生成单元，用于将融合后的基于文本的感知编码输入至文本生成模型，得到基于文本的生成内容。

可选地，所述***还包括：输出模块，用于输出所述合成视频。

另一方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上面所述数字人交互方法的步骤。

另一方面，本发明实施例还提供一种数字人交互设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上面所述数字人交互方法的步骤。

本发明实施例提供的数字人交互方法及***、计算机可读存储介质、数字人设备，分别基于用户交互视频中的视频、语音、文本，得到相应的情绪感知结果及感知编码，根据各模态的情绪感知结果或感知编码确定控制标签向量，然后将控制标签向量与感知编码相融合，利用融合后的感知编码分别生成基于视频、语音、文本的生成内容，将这些不同类型的生成内容合成为合成视频，从而可以自动对齐多个情感识别结果，使数字人的生成内容中不同类型数据所表达的情感保持一致，提升了该视频的情感表达能力和准确性，增强了数字人***与用户之间的社交性能，提升了用户交互体验。

附图说明

图1是本发明实施例提供的数字人交互方法的一种流程图；

图2是本发明实施例提供的数字人交互***的一种结构示意图；

图3是本发明实施例提供的数字人交互设备的一种硬件结构示意图。

具体实施方式

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

需要说明的是，在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。另外，本发明实施例中出现的“多个”是指两个或两个以上。

针对现有的多模态的数字人交互***无法统一多模态信息来源的情绪识别结果，从而无法生成具有情感一致性的虚拟数字人视频的问题，本发明实施例提供一种数字人交互方法及***，分别基于用户交互视频中的视频、语音、文本，得到各模态的情绪感知结果及感知编码，根据各模态的情绪感知结果确定控制标签向量，利用该控制标签向量和各模态的感知编码，分别生成基于视频、语音、文本的生成内容，将这些不同类型的生成内容合成为合成视频，从而使数字人***生成内容中不同类型数据所表达的情感保持一致。

如图1所示，是本发明实施例提供的数字人交互方法的一种流程图，包括以下步骤：

步骤101，接收包含语音的用户交互视频。

所述用户交互视频可以是人机对话视频，可以由相应的数字人通过自身内置或外置的摄录功能模块比如摄像头等获取。

步骤102，将所述用户交互视频分离为视频帧和语音，将所述语音转换为文本，得到多模态数据。

所述用户交互视频中包含了语音，在本发明实施例中，可以对用户交互视频进行视频帧和语音的分离处理，得到单纯的视频帧I和语音U；然后再利用现有的语音转文字技术将语音转换为文本T，从而得到对应所述用户交互视频的多模态数据{I,U,T}。

步骤103，根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码。

具体地，分别将多模态数据{I,U,T}输入至对应的情绪感知模型，即将视频帧I输入至视频情绪感知模型F_I，将语音U输入至语音情绪感知模型F_U，将文本T输入至文本情绪感知模型F_T，分别得到基于视频、语音、文本的情绪感知结果及感知编码，具体可以表示如下：

E_I，C_I，Z_I＝F_I(I)

E_U，C_U，Z_U＝F_U(U)

E_T，C_T，Z_T＝F_T(T)

其中，C代表对应模块的情绪识别结果，E代表对应模态的感知编码，Z代对应模态感知结果的置信度。

需要说明的是，所述视频情绪感知模型、文字情绪感知模型、语音情绪感知模型，可以通过来自网络上爬取的视频数据集，经过训练得到。具体的模型结构及训练过程可以采用现有技术，对此本发明实施例不做限定。

所述情绪感知结果是相应情绪感知模型的决策结果，所述感知编码是一个向量，是情绪感知模型的中间信息。

步骤104，根据各模态的情绪感知结果或感知编码确定控制标签向量。

在一种非限制性实施例中，可以分别获取基于视频、语音、文本的情绪感知结果的置信度，将置信度最大的情绪感知结果作为控制标签向量，为了便于描述，将所述控制标签向量记为

上述多模态数据{I，U，T}虽然是同一视频中的不同类型的数据，这些不同类型的数据对应了同一场景，但由于数据的类型不同，所以每种数据所体现的情绪表达程度也会有所不同，通常视频数据包含的情感信息量最大，也就是说，视频模态的情绪感知结果越能准确地体现所述用户交互视频所表达的用户情绪。为此，在另一种非限制性实施例中，可以确定各感知编码中与基于视频的感知编码不一致的感知信息，将不一致的感知信息从基于视频的感知编码中剔除，将剔除后的基于视频的感知编码作为控制标签向量。

具体地，可以将上述视频情绪感知模块的决策作为锚点信息，利用语音与文本模块的感知编码组成集合E^r，基于参数化的神经网络编码器g_φ和情感分类的损失函数输出剔除编码向量。在一种非限制性实施例中，可以采用以下剔除算法：

以文本感知编码E_T与语音感知编码E_U的集合E_r＝{E_T，E_U}、参数化的神经网络编码g_φ、以及情感分类的损失函数作为输入；在剔除阶段m做以下计算：

利用情感分类的损失函数计算经过神经网络编码g_φ的视频感知向量E_I，与集合E_r＝{E_T，E_U}组成集合f：

对集合f中的元素求梯度，组成矩阵G_m：

为求得剔除阶段m关于视频编码的特征对齐的特征动量δ_m，即剔除的编码向量，可以求解拉格朗日乘子λ：

至此，通过δ_m＝-G_m ^Tλ，得到剔除阶段m关于视频编码的特征动量δ_m。

利用该特征动量δ_m和基于视频的感知编码确定控制标签向量具体如下：

利用上述控制标签向量，可以将基于语音的感知编码和基于文本的感知编码剔除与视频感知编码不一致的部分，从而可避免后续生成模型输出情感不一致的生成结果。

步骤105，将所述控制标签向量融合到各模态的感知编码中，根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容。

具体地，将控制标签向量添加到各模态的感知编码中，将融合后的各模态的感知编码分别输入到相应的视频生成模型G_I，文本生成模型G_T和语音生成模型G_U，根据各模型的输出得到基于视频、语音、文本的生成内容。其中，这视频生成模型的对应模型结构为传统U-Net结构，文本与语音模型对应的模型结构为Transformer结构。具体可以表示如下：

其中，O代表对应情感生成内容。

需要说明的是，所述视频生成模型G_I、文本生成模型G_T、语音生成模型G_U，可以通过爬取网络上的视频数据集，经过训练得到。模型的结构可以采用神经网络等，训练方法也可以采用现有技术，对此本发明实施例不做限定。

与现有技术不同的是，在本发明实施例，不是单纯地基于从用户交互视频中分离出的不同类型数据，即视频帧、语音、文本生成相应的生成内容，而是在各类型数据对应的感知编码中，增加了控制标签向量，由统一的控制标签向量控制各模态的生成内容，使基于不同生成模型的生成内容也具有模态统一性，表达一致的情感。

如果不加控制标签，则会产生各模态数据的情感表达不一致的结果，例如，文本生成模型输出的生成内容表达了高兴情感，而语音生成模型输出的生成内容表达了生气情感，这样的不一致的情绪输出会降低用户使用体验。

步骤106，将所述基于视频、语音、文本的生成内容进行合成，得到合成视频。

即将上述各模态的生成内容{O_I，O_U，O_T}合成为视频，得到合成视频V_O。

对于人机交互***，进一步地，还可以输出所述合成视频V_O，实现人机互动。

本发明实施例提供的数字人交互方法，分别基于用户交互视频中的视频、语音、文本，得到相应的情绪感知结果及感知编码，根据各模态的情绪感知结果或感知编码确定控制标签向量，然后将控制标签向量与感知编码相融合，利用融合后的感知编码分别生成基于视频、语音、文本的生成内容，将这些不同类型的生成内容合成为合成视频，从而可以自动对齐多个情感识别结果，使数字人的生成内容中不同类型数据所表达的情感保持一致，提升了该视频的情感表达能力和准确性，增强了数字人***与用户之间的社交性能，提升了用户交互体验。

相应地，本发明实施例还提供一种数字人交互***，如图2所示，是该***的一种结构示意图。

参照图2，该数字人交互***200包括以下各模块：

接收模块201，用于接收包含语音的用户交互视频；

视频处理模块202，用于将所述用户交互视频分离为视频帧和语音，将所述语音转换为文本，得到多模态数据；

情绪感知模块203，用于根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码；

标签确定模块204，用于根据各模态的情绪感知结果或感知编码确定控制标签向量；

内容生成模块205，用于将所述控制标签向量融合到各模态的感知编码中，根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容；

视频合成模块206，用于将所述基于视频、语音、文本的生成内容进行合成，得到合成视频。

其中，视频处理模块202可以先将所述用户交互视频分离为视频帧和语音，然后将所述语音转换为文本，得到多模态数据，即视频帧、语音、文本。

其中，所述情绪感知模块202具体可以包括以下各单元：

视频情绪感知单元，用于将所述视频帧输入至视频情绪感知模型F_I，得到基于视频的情绪感知结果及其置信度；

语音情绪感知单元，用于将所述语音输入至语音情绪感知模型F_U，得到基于语音的情绪感知结果及其置信度；

文本情绪感知单元，用于将所述文本输入至文本情绪感知模型F_T，得到基于文本的情绪感知结果及其置信度。

其中，所述标签确定模块204可以采用多种方式确定控制标签向量。比如，在一种非限制性实施例中，所述标签确定模块204可以分别获取基于视频、语音、文本的情绪感知结果的置信度，将置信度最大的情绪感知结果作为控制标签向量；再比如，在另一种非限制性实施例中，所述标签确定模块204可以确定各感知编码中与基于视频的感知编码不一致的感知信息，将不一致的感知信息从基于视频的感知编码中剔除，将剔除后的基于视频的感知编码作为控制标签向量。控制标签向量的具体确定过程可参见前面本发明方法实施例中的描述，在此不再赘述。

其中，所述内容生成模块204可以包括以下各单元：

在另一种非限制性实施例中，所述数字人交互***还可进一步包括：输出模块(未图示)，用于输出所述合成视频。

本发明实施例提供的数字人交互***，分别基于用户交互视频中的视频、语音、文本，得到相应的情绪感知结果及感知编码，根据各模态的情绪感知结果或感知编码确定控制标签向量，然后将控制标签向量与感知编码相融合，利用融合后的感知编码分别生成基于视频、语音、文本的生成内容，将这些不同类型的生成内容合成为合成视频，从而可以自动对齐多个情感识别结果，使数字人的生成内容中不同类型数据所表达的情感保持一致，提升了该视频的情感表达能力和准确性，增强了数字人***与用户之间的社交性能，提升了用户交互体验。

本发明方案可以应用于多种场景，例如，在智能医疗场景，利用本发明方案，不仅使数字人***感受到客户的情绪，而且能够生成具有情感一致性的生成内容，可以大大增加客户的共情感。又例如，家用聊天数字人，在与用户问答过程中，可以提供适当情绪的数字人生成结果，有效提升用户体验。

关于上述实施例中描述的各个装置、产品包含的各个模块/单元，其可以是软件模块/单元，也可以是硬件模块/单元，或者也可以部分是软件模块/单元，部分是硬件模块/单元。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端设备的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端设备内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端设备内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

本发明实施例还公开了一种存储介质，所述存储介质为计算机可读存储介质，其上存储有计算机程序，所述计算机程序运行时可以执行图1中所示方法的全部或部分步骤。所述存储介质可以包括只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁盘或光盘等。存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还提供一种数字人交互设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行图1所述方法的全部或部分步骤。

请参照图3，本申请实施例还提供了一种数字人交互设备的硬件结构示意图。该装置包括处理器301、存储器302和收发器303。

处理器301可以是一个通用中央处理器(central processing unit，CPU)、微处理器、特定应用集成电路(application-specific integrated circuit，ASIC)，或者一个或多个用于控制本申请方案程序执行的集成电路。处理器301也可以包括多个CPU，并且处理器301可以是一个单核(single-CPU)处理器，也可以是多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路或用于处理数据(例如计算机程序指令)的处理核。

存储器302可以是ROM或可存储静态信息和指令的其他类型的静态存储设备、RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，本申请实施例对此不作任何限制。存储器302可以是独立存在(此时，存储器302可以位于该装置外，也可以位于该装置内)，也可以和处理器301集成在一起。其中，存储器302中可以包含计算机程序代码。处理器301用于执行存储器302中存储的计算机程序代码，从而实现本申请实施例提供的方法。

处理器301、存储器302和收发器303通过总线相连接。收发器303用于与其他设备或通信网络通信。可选的，收发器303可以包括发射机和接收机。收发器303中用于实现接收功能的器件可以视为接收机，接收机用于执行本申请实施例中的接收的步骤。收发器303中用于实现发送功能的器件可以视为发射机，发射机用于执行本申请实施例中的发送的步骤。

当图3所示的结构示意图用于示意上述实施例中所涉及的数字人设备的结构时，处理器301用于对数字人设备的动作进行控制管理，例如，处理器301用于支持数字人设备执行图1中的部分或全部步骤。处理器301可以通过收发器303与其他网络实体通信，例如，与上述网络设备通信。存储器302用于存储终端设备的程序代码和数据。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和***，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的部分步骤。

虽然本申请披露如上，但本申请并非限定于此。任何本领域技术人员，在不脱离本申请的精神和范围内，均可作各种更动与修改，因此本申请的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种数字人交互方法，其特征在于，所述方法包括：

接收包含语音的用户交互视频；

根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码，所述情绪感知结果是情绪感知模型的决策结果，所述感知编码是情绪感知模型的中间信息；

根据各模态的情绪感知结果或感知编码确定控制标签向量，所述控制标签向量用于使对应不同模态数据的生成内容具有情感一致性；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多模态数据分别获取基于视频、文字、语音的情绪感知结果包括：

将所述视频帧输入至视频情绪感知模型(F_I)，得到基于视频的情绪感知结果；

将所述语音输入至语音情绪感知模型(F_U)，得到基于语音的情绪感知结果；

将所述文本输入至文本情绪感知模型(F_T)，得到基于文本的情绪感知结果。

3.根据权利要求1所述的方法，其特征在于，根据各模态的情绪感知结果确定控制标签向量包括：

分别获取基于视频、语音、文本的情绪感知结果的置信度，将置信度最大的情绪感知结果作为控制标签向量。

4.根据权利要求1所述的方法，其特征在于，根据各模态的感知编码确定控制标签向量包括：

确定各感知编码中与基于视频的感知编码不一致的感知信息，将不一致的感知信息从基于视频的感知编码中剔除，将剔除后的基于视频的感知编码作为控制标签向量。

5.根据权利要求1所述的方法，其特征在于，所述根据融合后的各模态的感知编码分别生成基于视频、语音、文本的生成内容包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

输出所述合成视频。

7.一种数字人交互***，其特征在于，所述***包括：

接收模块，用于接收包含语音的用户交互视频；

情绪感知模块，用于根据所述多模态数据分别获取基于视频、语音、文本的情绪感知结果及感知编码，所述情绪感知结果是情绪感知模型的决策结果，所述感知编码是情绪感知模型的中间信息；

标签确定模块，用于根据各模态的情绪感知结果或感知编码确定控制标签向量，所述控制标签向量用于使对应不同模态数据的生成内容具有情感一致性；

8.根据权利要求7所述的***，其特征在于，所述情绪感知模块包括：

9.根据权利要求7所述的***，其特征在于，

所述标签确定模块，具体用于分别获取基于视频、语音、文本的情绪感知结果的置信度，将置信度最大的情绪感知结果作为控制标签向量；或者确定各感知编码中与基于视频的感知编码不一致的感知信息，将不一致的感知信息从基于视频的感知编码中剔除，将剔除后的基于视频的感知编码作为控制标签向量。

10.根据权利要求7所述的***，其特征在于，所述内容生成模块包括：

11.根据权利要求7至10任一项所述的***，其特征在于，所述***还包括：

输出模块，用于输出所述合成视频。

12.一种计算机可读存储介质，所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至6中任一项所述数字人交互方法的步骤。

13.一种数字人交互设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至6中任一项所述数字人交互方法的步骤。