CN116453024B

CN116453024B - 视频情绪识别***、方法

Info

Publication number: CN116453024B
Application number: CN202310445856.9A
Authority: CN
Inventors: 卫青蓝; 黄栩灵; 张远
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-09-22
Anticipated expiration: 2043-04-23
Also published as: CN116453024A

Abstract

本发明提供一种视频情绪识别***、方法，首先对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；再对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与情绪权重相对应的视频情绪预测值，用户可以在平台前端上传待分析的视频，而这些模态数据将在后端进行计算，获得的情绪分数和最终预测将打印在前端的界面上，实现端到端一致性视频情绪识别，本发明能够有效提高声觉贡献效果，简化视觉提取结构，提高一致性，提升多模态视频情感分析的产业应用价值。

Description

视频情绪识别***、方法

技术领域

本发明涉及人工智能技术领域，更为具体地，涉及一种视频情绪识别***、方法。

背景技术

多模态情感识别的现代技术主要是通过文本、语音、面部表情、手势、姿势等帮助理解人们在视频种传达出来的情绪。总的来说多模态视频情感识主要是通过声音，视觉和文本三个方面的特征获取和分析从而训练获得情感识别的能力。在现有的基于多模态的视频情感识别工作中，声学模态特征通常由OpenSmile工具包或基于RNN的深度学***为向量；对于视频图像帧使用MTCNN模型来获取图像帧的人脸位置，然后再将它们输入VGG16中，FE2E使用Transformer模型对声觉和视觉顺序表示进行编码。之后，在“CLS”标记处获取输出向量并应用前馈网络(FFN)来获得分类分数。对于文本模态，直接使用Alert模型来处理单词序列。

但是存在如下问题：一方面，使用VGG16处理的声觉效果与视觉和文本模态相比，贡献相对较低；另一方面，虽然用于视觉模态的VGG16网络能带来更好的性能，但由于结构复杂，它们无法应对长高清视频的计算存储挑战，同时，虽然FE2E在模型设计上通过实现端到端对齐的多模态特征学习取得了突破，该模型需要大量的前期数据处理模块，因此从数据输入到情感预测仍未达到完全一致性，即未能实现完整的视频到情感识别的端到端处理。

因此，亟需一种能够实现端到端处理，提高声觉贡献效果，简化视觉提取结构，提高一致性的视频情绪识别***、方法。

发明内容

鉴于上述问题，本发明的目的是提供一种视频情绪识别***、方法，以解决现有技术中一方面，使用VGG16处理的声觉效果与视觉和文本模态相比，贡献相对较低；另一方面，虽然用于视觉模态的VGG16网络能带来更好的性能，但由于结构复杂，它们无法应对长高清视频的计算存储挑战，同时，虽然FE2E在模型设计上通过实现初步端到端对齐的多模态特征学习取得了突破，该模型需要大量的前期数据处理模块，因此从数据输入到情感预测仍未达到完全一致性，即未能实现完整的视频到情感识别的端到端处理的问题。

本发明提供的一种视频情绪识别***，包括预处理模块和预设的视频情感识别多模态模型；其中，

所述预处理模块用于对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；其中，所述预处理模块包括三模态处理单元和片段划分单元，其中，

所述三模态处理单元用于提取所述原始长视频的文本数据、音频数据和视频图像，并分别对所述音频数据进行数据转换以获取梅尔频谱，对所述视频图像进行数据帧处理以获取单人单帧图像；

所述片段划分单元用于按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段；

所述视频情感识别多模态模型用于对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值。

优选地，所述视频情感识别模型包括特征数据提取模块和融合预测模块；其中，

所述特征数据提取模块用于根据所述目标视频的短时视频片段分别提取频谱融合特征数据、视觉模态信息数据和文本特征数据；

所述融合预测模块用于分别对频谱融合特征数据、视觉模态信息数据和文本特征数据进行赋权处理以获取音频情感参数、图像情感参数和文本情感参数，根据所述音频情感参数、图像情感参数和文本情感参数进行推测预测以获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值；其中，所述音频情感参数、图像情感参数和文本情感参数的最优参数在训练所述融合预测模块时获取。

优选地，所述特征数据提取模块包括分层注意力单元、视觉模态信息提取模型、Albert模型；其中，

所述分层注意力单元用于对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块，采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征，并对所述局部声学特征进行聚合处理以形成频谱融合特征数据；

所述视觉模态信息提取模型用于自动提取所述目标视频的短时视频片段中单人单帧图像的视觉模态信息数据；

所述Albert模型用于提取所述目标视频的短时视频片段的文本特征数据。

优选地，训练所述视觉模态信息提取模型时，利用多分支特征学习方法提取预采集的样本图像帧的融合特征以反复训练基于RepVGG的多分支特征学习和单分支推理结构以形成视觉模态信息提取模型；

应用所述视觉模态信息提取模型时，应用所述视觉模态信息提取模型中的单分支推理结构和单分支推理结构中的ReLU层；其中，所述单分支推理结构包括卷积分支和识别分支，所述卷积分支和识别分支用于获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征；所述ReLU层用于根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据。

优选地，所述Albert模型利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据。

优选地，所述融合预测模块包括Transformer层和前反馈模型；其中，

所述Transformer层用于对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数；

所述前反馈模型用于通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值。

优选地，所述片段划分单元，包括：

总时间获取单元，用于获取所述原始长视频的总时间长度，按照所述总时间长度生成时间表；

时间划分单元，用于对所述时间表进行划分以形成时间片段；

数据对齐单元，用于将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段。

本发明还提供一种视频情绪识别方法，基于如前所述的视频情绪识别***进行视频情绪识别，包括：

对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；其中，包括：

提取所述原始长视频的文本数据、音频数据和视频图像，并分别对所述音频数据进行数据转换以获取梅尔频谱，对所述视频图像进行数据帧处理以获取单人单帧图像；

按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段；

对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值。

优选地，所述对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，包括：

对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块，采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征，并对所述局部声学特征进行聚合处理以形成频谱融合特征数据；

获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征；根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据；

利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据；

所述根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值，包括：

对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数；

通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值。

优选地，所述按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段，包括：

获取所述原始长视频的总时间长度，按照所述总时间长度生成时间表；

对所述时间表进行划分以形成时间片段；

将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段。

从上面的技术方案可知，本发明提供的视频情绪识别***、方法，通过预处理模块对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；即通过三模态处理单元提取所述原始长视频的文本数据、音频数据和视频图像，并分别对所述音频数据进行数据转换以获取梅尔频谱，对所述视频图像进行数据帧处理以获取单人单帧图像，通过片段划分单元按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段；通过视频情感识别多模态模型对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与情绪权重相对应的视频情绪预测值，用户可以在平台前端上传待分析的视频，而这些模态数据将在后端进行计算，获得的情绪分数和最终预测将打印在前端的界面上，实现端到端一致性视频情绪识别，提升多模态视频情感分析的产业应用价值。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的视频情绪识别***的框架示意图；

图2为根据本发明实施例的分层注意力单元的示意图；

图3为根据本发明实施例的视觉模态信息提取模型的示意图；

图4为根据本发明实施例的视频情绪识别方法的流程图。

具体实施方式

目前的视频情绪识别***存在以下问题：一方面，使用VGG16处理的声觉效果与视觉和文本模态相比，贡献相对较低；另一方面，虽然用于视觉模态的VGG16网络能带来更好的性能，但由于结构复杂，它们无法应对长高清视频的计算存储挑战，同时，虽然FE2E在模型设计上通过实现端到端对齐的多模态特征学习取得了突破，该模型需要大量的前期数据处理模块，因此从数据输入到情感预测仍未达到完全一致性，即未能实现完整的视频到情感识别的端到端处理。

针对上述问题，本发明提供一种视频情绪识别***、方法，以下将结合附图对本发明的具体实施例进行详细描述。

为了说明本发明提供的视频情绪识别***、方法，图1、图2、图3对本发明实施例的视频情绪识别***、分层注意力单元及其视觉模态信息提取模型进行了示例性标示；图4对本发明实施例的视频情绪识别方法进行了示例性标示。

以下示例性实施例的描述实际上仅仅是说明性的，不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

如图1所示，本发明提供的视频情绪识别***100，包括预处理模块110和预设的视频情感识别多模态模型120；其中，该预处理模块110用于对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；其中，该预处理模块包括三模态处理单元111和片段划分单元112，其中，三模态处理单元111用于提取所述原始长视频的文本数据、音频数据和视频图像，并分别对所述音频数据进行数据转换以获取梅尔频谱，对所述视频图像进行数据帧处理以获取单人单帧图像；该片段划分单元112用于按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段；

该视频情感识别多模态模型120用于对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值。

在图1所示的实施例中，该预处理模块110负责对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；该预处理模块包括三模态处理单元111和片段划分单元112。

在本实施例中，三模态处理单元111在对所述音频数据进行数据转换以获取梅尔频谱时，可以应用任意将音频数据转换为梅尔频谱的方法，在此不做具体限制。

在本实施例中，对所述视频图像进行数据帧处理以获取单人单帧图像时，主要是对原始长视频中的各个帧图像进行裁切，最终得到单人单帧的图像，例如对于IEMOCAP数据集中的双人视频帧，图像预处理阶段将原一帧视频图像裁切为224像素x224像素大小的单人单帧图像。

该片段划分单元112用于按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段；其中，该片段划分单元112，包括：

总时间获取单元1121，用于获取所述原始长视频的总时间长度，按照所述总时间长度生成时间表；

时间划分单元1122，用于对所述时间表进行划分以形成时间片段；

数据对齐单元1123，用于将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段；从而解决原始长视频过于冗长导致计算开销的问题。

更为具体的，在一个具体实施例中，预处理阶段即包括对三个模态预处理以及划分片段两个部分。整体过程具体如下：针对原始长视频输入，可以首先获取该视频的三个模态的数据(原始长视频的文本数据、音频数据和视频图像)；接着对整个完整视频的音频数据进行计算处理得到其梅尔频谱，同时对整个视频的所有视频帧进行处理得到单人单帧的图像(单人单帧图像)。然后将长视频的总时长随机划分为n个近似等长的小时间段，按照划分好的时间段，将上述梅尔频谱、所有的单人单帧图像和完整的文本数据划分，最终得到n个小组，每个小组都包含对应时间段的梅尔频谱数据、该时间段内的所有单人单帧图像以及这个时间段内的文本。整体看来，每个小组都对应于原长视频该时间段内的一个短时频片段(目标视频的短时视频片段)，从而解决原始长视频过于冗长导致计算开销的问题。

在图1所示的实施例中，视频情感识别多模态模型120用于对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与所述情绪权重相对应的视频情绪；包括特征数据提取模块121和融合预测模块122，其中，特征数据提取模块121用于根据所述目标视频的短时视频片段分别提取频谱融合特征数据、视觉模态信息数据和文本特征数据；融合预测模块122用于分别对频谱融合特征数据、视觉模态信息数据和文本特征数据进行赋权处理以获取音频情感参数、图像情感参数和文本情感参数，根据所述音频情感参数、图像情感参数和文本情感参数获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值。

具体的，特征数据提取模块121包括分层注意力单元1211、视觉模态信息提取模型1212、Albert模型1213；其中，

在图1、图2共同所示的实施例中，该分层注意力单元1211用于对目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块，采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征，并对所述局部声学特征进行聚合处理以形成频谱融合特征数据；即采用分层注意力机制对每个频谱块进行特征提取以获取音频特征，而后通过声谱分割、块内自注意力和块聚合处理等提取分层的谱特征，以获得音频谱的内部关系信息，增强音频模态的效果；

图2示出了本实施例的分层注意力单元1211的应用流程，在图2所示的实施例中，该分层注意力单元1211采用分层注意力机制，其输入是一个大小为H×W的梅尔频谱，其中H＝W，在本实施例中，该输入被分成16个大小均为S×S(其中)的小块，这些小块被称为第一层频谱图，分割后，对每小块进行Transformer层处理，在Transformer层中，首先将大小为S×S的补丁嵌入为d维向量：

其中I指的是S×S的补丁大小。

然后，如图2所示，在每个d维向量上采用基本transformer来提取局部自注意声学特征。并对特征进行LN和GELU操作，得到第一层的输出：

O₁＝GELU(LN(x+MSA(x)))

其中O₁代表第一层的输出，MSA是基础transformer的多头注意力机制；每四个空间相邻的块通过一个3×3的CNN合并成一个块，然后经过LayerNorm和一个3×3的最大池化层，聚合的四个块则为第二层的输入频谱图：

I₂＝MaxPooling(LN(CNN(O₁)))

其中I₂是第二层的输入，对于第二层，每个块再次输入Transformer层，的到第二层输出，然后将第二层输出的这四个块聚合在一起，得到的结果即是第三层的输入I₃，再经过Transformer层对第三层的输入I₃进行处理以得到最终的频谱融合特征数据(最后输出)。

在图1、图3共同所示的实施例中，该视觉模态信息提取模型1212用于自动提取所述目标视频的短时视频片段中单人单帧图像的视觉模态信息数据；其中，

训练所述视觉模态信息提取模型1212时，利用多分支特征学习方法提取预采集的样本图像帧的融合特征以反复训练基于RepVGG的多分支特征学习和单分支推理结构以形成视觉模态信息提取模型；

在应用所述视觉模态信息提取模型1212时，应用所述视觉模态信息提取模型中的单分支推理结构和单分支推理结构中的ReLU层；其中，所述单分支推理结构包括卷积分支和识别分支，所述卷积分支和识别分支用于获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征；所述ReLU层用于根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据。

图3示出了本实施例的视觉模态信息提取模型1212的应用流程，在图3所示的实施例中，对于多模态情感识别任务，基于最新的RepVGG技术，提出了多分支特征学习和单分支推理结构。视觉模态信息提取模型1212采用的训练和推理模型，其结构基于3×3卷积、1×1卷积、Identity和ReLU激活层，空间视觉特征主要是通过多分支和多内核卷积来学习。对于输入图像帧，使用三个分支来提取多维特征，包括3×3卷积分支、1×1卷积分支和识别分支，然后融合中间特征作为ReLU层的输入，得到最终结果。在推理过程和应用过程中，采用更纯粹的单分支结构，而不是原来笨重的多分支结构；其中以三通道输入为例，具体来说，在训练模型的三个分支中，只保留3×3卷积分支，而1×1卷积核通过补零变换为3×3卷积，且每个卷积都包含一个BN层。如此，基于RepVGG的多分支特征学习和单分支推理结构，提取帧的视觉模态信息，简化推理模型；需要说明的是，这里的多分支特征学习和单分支推理结构指的是在训练过程中，利用多分支特征学习的优势来提取视频帧的信息，在应用(推理)过程中，选择单分支结构进行预测，如此结构更简单，计算效率更高，取其各自的长处，通过参数迁移实现多分支特征学习和单分支推理结构的连接，压缩计算损失，保证视频帧特征的学习。

在图1所示的实施例中，该Albert模型1213用于提取所述目标视频的短时视频片段的文本特征数据，且在本实施例中，该Albert模型1213利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据，如此，在BERT的基础上利用矩阵分解和跨层参数模型分享减少了参数量，加快从文本到低维向量的转换速度。

在图1所示的实施例中，融合预测模块122包括Transformer层1221和前反馈模型1222；其中，

该Transformer层1221用于对频谱融合特征数据、视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数；

该前反馈模型1222用于通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值；从而精准的获取情绪权重，再根据情绪权重对应出于该情绪权重对应的视频情绪预测值。

如上所述，本实施例提供的视频情绪识别***100通过预处理模块对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；即通过三模态处理单元提取所述原始长视频的文本数据、音频数据和视频图像，并分别对所述音频数据进行数据转换以获取梅尔频谱，对所述视频图像进行数据帧处理以获取单人单帧图像，通过片段划分单元按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段；通过视频情感识别多模态模型对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与情绪权重相对应的视频情绪预测值，用户可以在平台前端上传待分析的视频，而这些模态数据将在后端进行计算，获得的情绪分数和最终预测将打印在前端的界面上，实现端到端一致性视频情绪识别，提高声觉贡献效果，简化视觉提取结构，提高一致性，提升多模态视频情感分析的产业应用价值。

如图4所示，本发明还提供一种视频情绪识别方法，基于如前所述的视频情绪识别***100进行视频情绪识别，包括：

S1：对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；其中，包括：

S2：对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值。

其中，在步骤S1中，按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段，包括：

对所述时间表进行划分以形成时间片段；

在步骤S2中，

所述对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，包括：

S211：对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块，采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征，并对所述局部声学特征进行聚合处理以形成频谱融合特征数据；

S212：获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征；根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据；

S213：利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据；

S221：对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数；

S222：通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值。

上述视频情绪识别方法是和前述视频情绪识别***相对应的实现方法，其具体的执行步骤可参照上述视频情绪识别***的具体实施例，在此不做再一一详述。

如上所述，本申请实施例提供的视频情绪识别方法，首先对预输入的原始长视频进行预处理以形成目标视频的短时视频片段；再对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与情绪权重相对应的视频情绪预测值，用户可以在平台前端上传待分析的视频，而这些模态数据将在后端进行计算，获得的情绪分数和最终预测将打印在前端的界面上，实现端到端一致性视频情绪识别，提高声觉贡献效果，简化视觉提取结构，提高一致性，提升多模态视频情感分析的产业应用价值。

如上参照附图以示例的方式描述了根据本发明提出的视频情绪识别方***、方法。但是，本领域技术人员应当理解，对于上述本发明所提出的视频情绪识别方***、方法，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种视频情绪识别***，其特征在于，包括预处理模块和预设的视频情感识别多模态模型；其中，

所述视频情感识别多模态模型包括特征数据提取模块和融合预测模块；其中，所述特征数据提取模块用于对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，所述融合预测模块用于根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值；

其中，所述特征数据提取模块包括分层注意力单元，所述分层注意力单元用于对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块，采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征，并对所述局部声学特征进行聚合处理以形成频谱融合特征数据。

2.如权利要求1所述的视频情绪识别***，其特征在于，

所述融合预测模块分别对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以获取音频情感参数、图像情感参数和文本情感参数，根据所述音频情感参数、图像情感参数和文本情感参数进行推测预测以获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值；其中，所述音频情感参数、图像情感参数和文本情感参数的最优参数在训练所述融合预测模块时获取。

3.如权利要求2所述的视频情绪识别***，其特征在于，

所述特征数据提取模块还包括视觉模态信息提取模型、Albert模型；其中，

4.如权利要求3所述的视频情绪识别***，其特征在于，

训练所述视觉模态信息提取模型时，利用多分支特征学习方法提取预采集的样本图像帧的融合特征以反复训练基于RepVGG的多分支特征学习和单分支推理结构以形成视觉模态信息提取模型；

应用所述视觉模态信息提取模型时，应用所述视觉模态信息提取模型中的单分支推理结构和所述单分支推理结构中的ReLU层；其中，所述单分支推理结构包括卷积分支和识别分支，所述卷积分支和识别分支用于获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征；所述ReLU层用于根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据。

5.如权利要求3所述的视频情绪识别***，其特征在于，

所述Albert模型利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据。

6.如权利要求2所述的视频情绪识别***，其特征在于，

所述融合预测模块包括Transformer层和前反馈模型；其中，

7.如权利要求1所述的视频情绪识别***，其特征在于，

所述片段划分单元，包括：

8.一种视频情绪识别方法，基于如权利要求1-7任一所述的视频情绪识别***进行视频情绪识别，包括：

对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据，根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重，并获取与所述情绪权重相对应的视频情绪预测值；其中，

所述对所述目标视频的短时视频片段进行特征提取以获取频谱融合特征数据，包括：对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块，采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征，并对所述局部声学特征进行聚合处理以形成频谱融合特征数据。

9.如权利要求8所述的视频情绪识别方法，其特征在于，

所述对所述目标视频的短时视频片段进行特征提取以分别获取视觉模态信息数据和文本特征数据，包括：

10.如权利要求9所述的视频情绪识别方法，其特征在于，所述按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段，包括：

对所述时间表进行划分以形成时间片段；