CN117556084B

CN117556084B - 一种基于多模态的视频情感分析***

Info

Publication number: CN117556084B
Application number: CN202311812195.5A
Authority: CN
Inventors: 张卫平; 张伟; 李显阔; 王丹; 邵胜博
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Digital Group Co Ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-26
Anticipated expiration: 2043-12-27
Also published as: CN117556084A

Abstract

本发明提供了一种基于多模态的视频情感分析***，涉及电数字数据处理领域，包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块，所述音视频采集模块用于采集用户的面部视频信息和语音信息，所述表情识别模块用于对面部视频信息进行分析处理，所述语音分析模块用于对语音信息进行分析处理，所述情感综合分析模块基于视频分析结果和语音分析结果处理得到用户的情感信息；本***从视频信息和音频信息两种模式进行切入分析，并奖两个分析结果进行融合，能够获取更加准确的情感结果。

Description

一种基于多模态的视频情感分析***

技术领域

本发明涉及电数字数据处理领域，具体涉及一种基于多模态的视频情感分析***。

背景技术

随着人工智能的发展，会产生越来越多用于情感交流的应用产品，这类产品的应用前提是能够准确把握用户的情感状态，现有情感分析***中，常采用单一的方式进行分析，或者采用多种方式但只能简单地将各种方式的结果进行组合，因此需要一种能够采用多模态的***来准确分析出用户情感。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

现在已经开发出了很多情感分析***，经过大量的检索与参考，发现现有的情感分析***有如公开号为CN111222464B所公开的***，这些***方法一般包括：获取与目标用户相对应的生理信号；其中，生理信号中包括脑电信号以及肌电信号；获取与目标用户对应的面部图像信息；将生理信号以及面部图像信息分别输入至预先训练好的至少一个目标分类模型中，得到与目标用户相对应的生理信号识别结果以及微表情识别结果基于生理信号识别结果以及微表情识别结果，确定与目标用户对应的情感分析结果。但是该***需要获取生理信号，相比与获取音视频信息较为复杂，且无法通过多模态方式进行综合分析，容易对情感判断错误。

发明内容

本发明的目的在于，针对所存在的不足，提出了一种基于多模态的视频情感分析***。

本发明采用如下技术方案：

一种基于多模态的视频情感分析***，包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块；

所述音视频采集模块用于采集用户的面部视频信息和语音信息，所述表情识别模块用于对面部视频信息进行分析处理，所述语音分析模块用于对语音信息进行分析处理，所述情感综合分析模块基于视频分析结果和语音分析结果处理得到用户的情感信息；

所述音视频采集模块包括视频采集单元、音频采集单元和同步标记单元，所述视频采集单元用于采集用户的面部视频信息，所述音频采集单元用于采集用户的语音信息，所述同步标记单元用于在视频信息和语音信息中标记同步时间点；

所述表情识别模块包括面部特征提取单元和表情分析单元，所述面部特征提取单元用于从视频信息中提取用户的面部特征，所述表情分析单元基于面部特征对用户的情绪进行分析；

所述语音分析模块包括语音特征提取单元和语调分析单元，所述语音特征提取单元用于提取语音信息中的关键特征，所述语调分析单元根据关键特征对用户的情绪进行分析；

所述情感综合分析模块包括数据融合单元和情感判定单元，所述数据融合单元用于将表情识别模块的分析数据和语音分析模块的分析数据进行多模态融合，所述情感判定单元基于融合后的数据对用户的整体情感状态进行判定分析；

进一步的，所述面部特征提取单元包括帧信息提取处理器、面部对准处理器、关键点定位处理器和特征向量处理器，所述帧信息提取处理器用于从视频信息中按序抽取帧信息，所述面部对准处理器用于从帧信息中获取局部的面部画面，所述关键点定位处理器用于在面部画面中获取关键点的位置信息，所述特征向量处理器根据关键点的位置信息计算出特征向量；

进一步的，所述表情分析单元包括向量分析处理器、第一情绪特征寄存器和第一校对分析处理器，所述向量分析处理器用于对特征向量进行计算处理的得到表情数据，所述第一情绪特征寄存器用于保存每个情绪的表情数据，所述第一校对分析处理器将计算得到的表情数据和记录的表情数据进行比较并输出第一判断向量；

所述第一校对分析处理器根据下式计算出第一判断向量Jv1：

；

其中，Jv1_i为第一判断向量的第i个元素值，Jv1共有n个元素，n为第一情绪特征寄存器记录的情绪数量，Ep₁和Ep₂分别为表情数据的横向比值和纵向比值，Ep₁(i)和Ep₂(i)为第i个情绪的横向比值和纵向比值；

进一步的，所述语调分析单元包括第二情绪特征寄存器和第二校对分析处理器，所述第二情绪特征寄存器用于保存每个情绪的语调数据，所述第二校对分析处理器用于将峰值特征向量与语调数据进行比较并输出第二判断向量Jv2，具体公式如下：

；

其中，Jv2_i表示第二判断向量的第i个元素值，Jv2共有n个元素，和/>为第i个情绪的语调特征向量，(/>，/>)为对应目标时间段内的语调特征向量；

进一步的，所述数据融合单元包括时间匹配处理器和融合分析处理器，所述时间匹配处理器根据同步时间点将第一判断向量划分为多个集合，每个集合与对应的一个第二判断向量匹配，所述融合分析处理器将匹配的第一判断向量集合与第二判断向量进行分析处理；

所述融合分析处理器根据下式对第一判断向量集合进行一级融合处理得到一级融合向量Jv1’：

；

其中，Jv1_i’为一级融合向量的第i个元素值，N为第一判断向量集合中的向量数量，Jv1_i(j)为第一判断向量集合中第j个向量的第i个元素值，N(i，j)为第一判断向量集合第j个向量的第i个元素值在本向量元素值中的排序值；

所述融合分析处理器根据下式进行二级融合处理得到二级融合向量Jv2’：

；

其中，Jv2_i’为二级融合向量中的第i个元素值。

本发明所取得的有益效果是：

本***通过对视频信息和音频信息单独分析得到判断向量，然后将判断向量进行融合处理得到多模态下的情感分析结果，相比与单一的方式更加准确，且单独分析的判断向量并非直接表示出情感结果，而是表示各种情绪的可能性，使得两个判断向量能够有机地进行融合处理，而不是简单的将结果进行组合。

为使能更进一步了解本发明的特征及技术内容，请参阅以下有关本发明的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用来对本发明加以限制。

附图说明

图1为本发明整体结构框架示意图；

图2为本发明音视频采集模块构成示意图；

图3为本发明表情识别模块构成示意图；

图4为本发明语音分析模块构成示意图；

图5为本发明情感综合分析模块构成示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的精神下进行各种修饰与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

实施例一：本实施例提供了一种基于多模态的视频情感分析***，包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块；

所述面部特征提取单元包括帧信息提取处理器、面部对准处理器、关键点定位处理器和特征向量处理器，所述帧信息提取处理器用于从视频信息中按序抽取帧信息，所述面部对准处理器用于从帧信息中获取局部的面部画面，所述关键点定位处理器用于在面部画面中获取关键点的位置信息，所述特征向量处理器根据关键点的位置信息计算出特征向量；

所述表情分析单元包括向量分析处理器、第一情绪特征寄存器和第一校对分析处理器，所述向量分析处理器用于对特征向量进行计算处理的得到表情数据，所述第一情绪特征寄存器用于保存每个情绪的表情数据，所述第一校对分析处理器将计算得到的表情数据和记录的表情数据进行比较并输出第一判断向量；

所述第一校对分析处理器根据下式计算出第一判断向量Jv1：

；

所述语调分析单元包括第二情绪特征寄存器和第二校对分析处理器，所述第二情绪特征寄存器用于保存每个情绪的语调数据，所述第二校对分析处理器用于将峰值特征向量与语调数据进行比较并输出第二判断向量Jv2，具体公式如下：

；

所述数据融合单元包括时间匹配处理器和融合分析处理器，所述时间匹配处理器根据同步时间点将第一判断向量划分为多个集合，每个集合与对应的一个第二判断向量匹配，所述融合分析处理器将匹配的第一判断向量集合与第二判断向量进行分析处理；

；

其中，Jv2_i’为二级融合向量中的第i个元素值。

实施例二：本实施例包含了实施例一中的全部内容，提供了一种基于多模态的视频情感分析***，包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块；

结合图2，所述音视频采集模块包括视频采集单元、音频采集单元和同步标记单元，所述视频采集单元用于采集用户的面部视频信息，所述音频采集单元用于采集用户的语音信息，所述同步标记单元用于在视频信息和语音信息中标记同步时间点；

结合图3，所述表情识别模块包括面部特征提取单元和表情分析单元，所述面部特征提取单元用于从视频信息中提取用户的面部特征，所述表情分析单元基于面部特征对用户的情绪进行分析；

结合图4，所述语音分析模块包括语音特征提取单元和语调分析单元，所述语音特征提取单元用于提取语音信息中的关键特征，所述语调分析单元根据关键特征对用户的情绪进行分析；

结合图5，所述情感综合分析模块包括数据融合单元和情感判定单元，所述数据融合单元用于将表情识别模块的分析数据和语音分析模块的分析数据进行多模态融合，所述情感判定单元基于融合后的数据对用户的整体情感状态进行判定分析；

所述帧信息提取处理器检测出含有同步时间点信息的帧作为基础帧，并在基础帧后每隔相同的帧数抽取一帧信息，基础帧和抽取的帧作为分析帧进行保存并按照顺序依次发送给所述面部对准处理器；

所述面部对准处理器从分析帧中截取一个矩形画面，矩形画面的两侧是耳部的边界垂直线，矩形画面的底侧是下颏的边界水平线，矩形画面的上侧是眉毛的边界水平线，所述面部对准处理器将矩形画面的宽度和高度分别记为w和h；

所述关键点定位处理器获取关键点位置信息的过程包括如下步骤：

S1、获取矩形画面中眼部、嘴部、鼻部和眉毛的边缘信息；

S2、使用预设的截线与边缘信息相交，交点作为关键点；

S3、读取出关键点在矩形画面中的坐标信息；

预设的截线包括三个信息：部分、方向和比例，例如，眼部、垂直、0对应的截线得到的关键点为眼部的左端点，嘴部、垂直、0.5对应的截线得到的两个关键点为嘴部中间的上下两端点；

所述特征向量处理器将鼻心关键点作为向量起点，其余关键点作为向量终点计算出特征向量，用表示第i个特征向量；

所述面部特征提取单元将每个分析帧的特征向量发送给所述表情分析单元；

所述向量分析处理器根据下式对特征向量进行计算处理：

；

其中，Ep₁和Ep₂为表示表情数据的两个比值，分别称为横向比值和纵向比值，{k_1i}为横向系数群，{k_2i}为纵向系数群，m为特征向量的数量；

所述横向系数群和纵向系数群通过对大量面部图像进行测量统计得到；

所述第一校对分析处理器根据下式计算出第一判断向量Jv1：

；

其中，Jv1_i为第一判断向量的第i个元素值，Jv1共有n个元素，n为第一情绪特征寄存器记录的情绪数量，Ep₁(i)和Ep₂(i)为第i个情绪的横向比值和纵向比值；

所述表情识别模块将每个分析帧的第一判断向量发送给所述情感综合分析模块；

所述语音特征提取单元包括峰值检测处理器和峰值特征处理器，所述峰值检测处理器用于从音频数据中检测到峰值时间点，所述峰值特征处理器根据峰值时间点的间隔时间和峰值时间点上振幅的变化处理得到语音特征；

时间间隔用表示，振幅变化用/>表示，所述峰值特征处理器对两个相邻同步时间点之间的/>和/>计算出标准差，分别记为/>和/>，两个相邻同步时间点之间的时间段称为目标时间段，由/>和/>构成的向量(/>，/>)作为对应目标时间段内的语调特征向量；

；

其中，Jv2_i表示第二判断向量的第i个元素值，Jv2共有n个元素，和/>为第i个情绪的语调特征向量；

所述语音分析模块每个目标时间段的第二判断向量发送给所述情感综合分析模块；

；

所述排序值指元素值按照从小到大排序时的序号；

所述融合分析处理器根据下式对一级融合向量和二级判断向量进行二级融合处理得到二级融合向量Jv2’：

；

其中，Jv2_i’为二级融合向量中的第i个元素值；

所述情感判定单元包括数据接收处理器和情感输出处理器，所述数据接收处理器用于接收二级融合向量，所述情感输出处理器根据所述二级融合向量输出情感信息；

所述情感输出处理器从每个二级融合向量中检索出元素值最大的元素项，并将该元素项转换为对应的情绪，然后将情绪按照顺序排列并作为情感信息输出；

上文中出现的i和j均为用于表示序号的序数。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的保护范围，所以凡是运用本发明说明书及附图内容所做的等效技术变化，均包含于本发明的保护范围内，此外，随着技术发展其中的元素可以更新的。

Claims

1.一种基于多模态的视频情感分析***，其特征在于，包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块；

所述第一校对分析处理器根据下式计算出第一判断向量Jv1：

；

其中，Jv2_i’为二级融合向量中的第i个元素值。

2.如权利要求1所述的一种基于多模态的视频情感分析***，其特征在于，所述面部特征提取单元包括帧信息提取处理器、面部对准处理器、关键点定位处理器和特征向量处理器，所述帧信息提取处理器用于从视频信息中按序抽取帧信息，所述面部对准处理器用于从帧信息中获取局部的面部画面，所述关键点定位处理器用于在面部画面中获取关键点的位置信息，所述特征向量处理器根据关键点的位置信息计算出特征向量。