CN113837072A

CN113837072A - 一种融合多维信息的说话人情绪感知方法

Info

Publication number: CN113837072A
Application number: CN202111117785.7A
Authority: CN
Inventors: 曾鸣; 丁艺伟; 邓文晋; 刘鹏飞
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-24

Abstract

一种融合多维信息的说话人情绪感知方法，涉及深度学习和人的情绪感知技术领域。输入说话人的视频，从视频中提取说话人的图像及语音；将说话人的图像及语音输入多维特征提取网络，对语音中的语言文本和语言情绪进行提取，并从图像信息中提取出说话人的人脸表情特征；使用多维特征编码算法对多维特征提取网络的多种特征结果进行编码，将多维信息映射到一个共享的编码空间；使用多维特征融合算法对编码空间中的特征从低维到高维进行融合，取得多维信息在高维特征空间中与说话人情绪高度相关的特征向量；将融合的多维信息输入情绪感知网络进行预测，输出为说话人的情绪感知分布。可根据多维信息有效排除歧义性，精准预测说话人的情绪感知分布。

Description

一种融合多维信息的说话人情绪感知方法

技术领域

本发明涉及深度学习和人的情绪感知技术领域，尤其是涉及一种融合多维信息的说话人情绪感知方法。

背景技术

传统的深度学习算法，或只对语言内容信息进行情绪估计，而语言内容本身具有歧义性，需结合表述内容时的语调信息，缺乏语言内容与语音情绪信息间的关联与约束，或只依赖于单纯的图像信息检测人脸进行情绪估计，缺乏对于语言内容及语音情绪的适应性，无法胜任现实情况下复杂、多变的人机交互场景，实用价值受限。

传统的基于深度学习的情绪感知估计方法可以分为三大部分：(1)直接从图像中检测人脸，并针对人脸进行情绪估计的方法；(3)依赖上下文对话记录对说话人进行情绪感知估计的方法；(3)输入语音，根据语音中包含的语气语调等音频信号对说话人进行情绪感知估计的方法。无论哪一种方法，在现实情况下复杂、多变的交互场景中，都存在精度不够、无法消除歧义性等问题。也存在部分方法同时结合语言文本的语义信息和音频信号，在一定程度上提升情绪感知的效果，但是缺少说话人的图像信息，始终使得提升效果受限。

发明内容

本发明的目的在于针对现有技术存在的上述问题，提供在与人交互的场景下，将语言内容、语音情绪、图像信息进行融合，可以对说话人进行准确有效的情绪感知估计的一种融合多维信息的说话人情绪感知方法。

本发明包括以下步骤：

1)输入说话人的视频，从视频中提取说话人的图像及语音；

2)将说话人的图像及语音输入多维特征提取网络，对语音中的语言内容feature_text和语言情绪feature_audio进行提取，并从图像信息中提取出说话人的人脸表情特征feature_face；

3)使用多维特征编码算法，对多维特征提取网络的多种特征结果进行编码，将多维信息映射到一个共享的编码空间Shared-Space(feature_text,feature_audio,feature_face)；

4)使用多维特征融合算法，将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量

因此具有跨多维特征学习相关性的能力，使得多维信息融合后的特征与情绪高度相关；

5)将融合的多维信息输入情绪感知网络进行预测，输出为说话人的情绪感知分布[score₁,...,acore_n]。

在步骤2)中，所述多维特征提取网络分为三个子网络分别对语言内容、语音情绪及图像信息进行特征提取；

所述语言内容和语言情绪信息从说话人视频中的语音进行提取，图像信息从说话人视频中检测人脸并提取人脸表情信息。

在步骤3)中，所述多维特征编码算法用于将三类特征信息编码到一个共享的编码空间中。

在步骤4)中，所述特征融合算法用于在共享的编码空间的高维特征中，融合多维信息中关于情绪感知的信息，并组成共同的特征表示。

在步骤5)中，所述情绪感知网络用于对多维信息融合的特征进行情感预测，预测结果是说话人的情绪感知分布。

本发明中，融合多维信息的说话人情绪感知方法能够有效地利用多维信息，包括语言内容、语音情绪及图像信息，实时地从视频中估计说话人的情绪感知分布。本发明将语言内容、语音情绪、图像信息进行融合，能有效利用多维信息进行融合，弥补单一维度信息的不足，增强神经网络模型对于不同维度信息特征的融合能力，使其能够快速、准确且有效地完成从视频中分析出说话人准确的情绪。特别是在现实情况下复杂、多变的交互场景，也可以根据多维信息有效的排除歧义性，精准预测说话人的情绪感知分布。本发明能够从视频中精准预测说话人情绪感知分布，其可以作为一项关键信息被应用到测谎分析、智慧问答、数字人等领域，具有极大的社会价值和良好的经济效益。

附图说明

图1为本发明的整体流程图。

图2为本发明的多维特征提取网络的框图。

图3为本发明的多维特征编码算法的示意图。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

参考图1～3，本实施例提出一种融合多维信息的说话人情绪感知方法，包括以下步骤：

S1：输入说话人的视频，从视频中提取说话人的图像及语音；

S2：将说话人的图像及语音输入多维特征提取网络，对语音中的语言内容feature_text和语言情绪feature_audio进行提取，并从图像信息中提取出说话人的人脸表情特征feature_face；

S3：使用多维特征编码算法，对多维特征提取网络的多种特征结果进行编码，将多维信息映射到一个共享的编码空间Shared-Space(feature_text,fea^ure _audio,feature_face)；

S4：使用多维特征融合算法，将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量

S5：将融合的多维信息输入情绪感知网络进行预测，输出为说话人的情绪感知分布[score₁,...,score_n]。

融合多维信息的说话人情绪感知方法：

输入为一段说话人的视频，输出为对应说话人的情绪感知分布。此算法主要包含4个部分：(1)特征提取(2)特征编码(3)特征融合(4)情绪感知分布估计。对于输入的视频，用特征提取网络分别对语言内容、语音情绪、图像信息进行特征提取，得到对应的基础特征；在此基础上，利用多维特征编码算法对特征提取网络的结果进行编码，将多维信息映射到一个共享的编码空间；使用特征融合算法，将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量，因此具有跨多维特征学习相关性的能力，使得多维信息融合后的特征与情绪高度相关；最后，融合的多维信息输入情绪感知网络进行预测，得到说话人的情绪感知分布。

多维特征提取网络：

从输入视频中剥离出语音和图像后，要从这两个输入信息中提取出三类信息：语言内容、语音情绪及说话人的人脸表情信息。为此将特征提取网络分为三个子网络，分别对三类信息进行提取，此网络的结构及流程如下：

1、将语音输入1号子网络，先利用ASR(语音识别技术)得到语言内容对应的文本。而后传统方法会使用单向或者双向LSTM网络来提取文本特征，而此处本发明还结合注意力和学习表示能力更强的Bert作为辅助，获取更加细粒度的情绪特征feature_text；

2、将语音输入2号子网络，然后使用具有注意力机制的LSTM与CNN(卷积神经网络)相结合的结构，让所有的语音间隔在n秒的窗口内计算特征，并以t秒的步长进行移动。即使在仅有几个音素中才含有情感的长句中，也能将注意力层关注于与情感相关的部分以提取语音情绪的高级特征feature_audio；

3、将图像输入3号子网络，先使用人脸检测器检测图像中说话人的人脸，再使用残差模块和深度可分离卷积的CNN架构，可以充分学习到人脸表情特征，提取到精确的人脸表情特征feature_face。

多维特征编码算法：

为克服传统方法只利用单一信息源的局限，需要结合多维信息，而多维信息所在的域不同，因此提取到的特征并不相关，无法直接利用。为此，提出多维特征编码算法，将来自不同域的信息进行编码，映射到一个适合稠密对应的编码空间，作为中间域共享编码空间，为后续多维信息的特征融合提供基础。此算法的过程如下：

1、构建一个共享的编码空间Shared-Space；

2、对语言内容、语音情绪、图像中的人脸表情信息进行特征编码；

3、将多维信息映射到一个共享的编码空间中Shared-Space(feature_text,feature_audio,feature_face)。

多维特征融合算法：

在用多维特征编码算法得到多维特征共享的编码空间之后，需要融合多维特征。特征融合旨在将提取的特定于多维的特征融合为一个有关情绪的通用特征向量，因此具有跨多维特征学习相关性的能力，使得融合的情绪特征高度相关。为此，提出多维特征融合算法，具体过程如下：

1、将特征编码后的多维信息的共享编码空间作为输入；

2、在提取的特征上应用加权特征分数来指示情绪特征的重要性；

3、将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量

4、将融合的多维信息进行存储，以用作情绪感知网络的输入。

本实施例中，首先特征提取网络分为三个子网络分别对语言内容、语音情绪、图像信息进行特征提取。由于提取的特征所在域不同，无法直接利用。因此利用多维特征编码算法，将来自不同域的信息进行编码，映射到一个适合稠密对应的编码空间，作为中间域共享编码空间，为后续多维信息的特征融合提供基础。从共享的编码空间中进行多维特征融合，生成对于说话人情绪感知有关的高维特征表示，并通过情绪感知网络进行预测，即可得到说话人的情绪感知分布情况。

本实施例中，多维特征提取网络先提取到语言内容、语音情绪、图像信息的基本特征信息，用作多维特征编码算法的输入。多维特征编码算法使得多维信息的特征可以摆脱所在域的限制，将不同域的特征映射到共享的编码空间中进行利用，作为共享特征为多维信息的特征融合提供基础。而多维特征融合算法将共享的编码空间信息进行充分利用，对情绪相关的特征从低维到高维进行匹配融合，更为充分和有效的利用空间维度的相关性约束，提高说话人情绪感知估计网络对于现实复杂场景的适应性和鲁棒性，对于测谎分析、智慧问答、数字人等领域有重大意义，具有极大的社会价值和良好的经济效益。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种融合多维信息的说话人情绪感知方法，其特征在于包括以下步骤：

1)输入说话人的视频，从视频中提取说话人的图像及语音；

2)将说话人的图像及语音输入多维特征提取网络，对语音中的语言文本和语言情绪进行提取，并从图像信息中提取出说话人的人脸表情特征；

3)使用多维特征编码算法，对多维特征提取网络的多种特征结果进行编码，将多维信息映射到一个共享的编码空间；

4)使用多维特征融合算法，将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量，因此具有跨多维特征学习相关性的能力，使得多维信息融合后的特征与情绪高度相关；

5)将融合的多维信息输入情绪感知网络进行预测，输出为说话人的情绪感知分布。

2.如权利要求1所述一种融合多维信息的说话人情绪感知方法，其特征在于在步骤2)中，所述多维特征提取网络分为3个子网络分别对语言内容、语音情绪及图像信息进行特征提取，其中，1号子网络为语言文本提取网络，2号子网络为语音情绪提取网络，3号子网络为图像信息提取网络，所述语言内容和语言情绪信息从说话人视频中的语音进行提取，图像信息从说话人视频中检测人脸并提取人脸表情信息。

3.如权利要求1所述一种融合多维信息的说话人情绪感知方法，其特征在于在步骤2)中，将说话人的图像及语音输入多维特征提取网络，对语音中的语言文本和语言情绪进行提取，并从图像信息中提取出说话人的人脸表情特征的具体步骤为：

(1)将语音输入1号子网络，先利用ASR(语音识别技术)得到语言内容对应的文本，使用单向或者双向LSTM网络来提取文本特征，结合注意力和学习表示能力更强的Bert作为辅助，获取更加细粒度的情绪特征feature_text；；

(2)将语音输入2号子网络，然后使用具有注意力机制的LSTM与CNN相结合的结构，让所有的语音间隔在n秒的窗口内计算特征，并以t秒的步长进行移动；即使在仅有几个音素中才含有情感的长句中，也能将注意力层关注于与情感相关的部分以提取语音情绪的高级特征feature_audio；

(3)将图像输入3号子网络，先使用人脸检测器检测图像中说话人的人脸，再使用残差模块和深度可分离卷积的CNN架构，可以充分学习到人脸表情特征，提取到精确的人脸表情特征feature_face。

4.如权利要求1所述一种融合多维信息的说话人情绪感知方法，其特征在于在步骤3)中，所述多维特征编码算法用于将三类特征信息编码到一个共享的编码空间中。

5.如权利要求1所述一种融合多维信息的说话人情绪感知方法，其特征在于在步骤3)中，所述多维特征编码算法的具体步骤为：(1)构建一个共享的编码空间Shared-Space；(2)对语言内容、语音情绪、图像中的人脸表情信息进行特征编码；(3)将多维信息映射到一个共享的编码空间中Shared-Space(feature_text，feature_audio，feature_face)。

6.如权利要求1所述一种融合多维信息的说话人情绪感知方法，其特征在于在步骤4)中，所述多维特征融合算法用于在共享的编码空间的高维特征中，融合多维信息中关于情绪感知的信息，并组成共同的特征表示。

7.如权利要求1所述一种融合多维信息的说话人情绪感知方法，其特征在于在步骤4)中，所述多维特征融合算法的具体步骤为：

(1)将特征编码后的多维信息的共享编码空间作为输入；

(2)在提取的特征上应用加权特征分数来指示情绪特征的重要性；

(3)将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量

(4)将融合的多维信息进行存储，以用作情绪感知网络的输入。

8.如权利要求1所述一种融合多维信息的说话人情绪感知方法，其特征在于在步骤5)中，所述情绪感知网络用于对多维信息融合的特征进行情感预测，预测结果是说话人的情绪感知分布[score₁，...，score_n]。