CN116453024B - 视频情绪识别***、方法 - Google Patents
视频情绪识别***、方法 Download PDFInfo
- Publication number
- CN116453024B CN116453024B CN202310445856.9A CN202310445856A CN116453024B CN 116453024 B CN116453024 B CN 116453024B CN 202310445856 A CN202310445856 A CN 202310445856A CN 116453024 B CN116453024 B CN 116453024B
- Authority
- CN
- China
- Prior art keywords
- video
- data
- emotion
- text
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000008451 emotion Effects 0.000 claims abstract description 146
- 238000001228 spectrum Methods 0.000 claims abstract description 101
- 230000000007 visual effect Effects 0.000 claims abstract description 83
- 230000004927 fusion Effects 0.000 claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 34
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000000903 blocking effect Effects 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000035807 sensation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种视频情绪识别***、方法,首先对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;再对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与情绪权重相对应的视频情绪预测值,用户可以在平台前端上传待分析的视频,而这些模态数据将在后端进行计算,获得的情绪分数和最终预测将打印在前端的界面上,实现端到端一致性视频情绪识别,本发明能够有效提高声觉贡献效果,简化视觉提取结构,提高一致性,提升多模态视频情感分析的产业应用价值。
Description
技术领域
本发明涉及人工智能技术领域,更为具体地,涉及一种视频情绪识别***、方法。
背景技术
多模态情感识别的现代技术主要是通过文本、语音、面部表情、手势、姿势等帮助理解人们在视频种传达出来的情绪。总的来说多模态视频情感识主要是通过声音,视觉和文本三个方面的特征获取和分析从而训练获得情感识别的能力。在现有的基于多模态的视频情感识别工作中,声学模态特征通常由OpenSmile工具包或基于RNN的深度学***为向量;对于视频图像帧使用MTCNN模型来获取图像帧的人脸位置,然后再将它们输入VGG16中,FE2E使用Transformer模型对声觉和视觉顺序表示进行编码。之后,在“CLS”标记处获取输出向量并应用前馈网络(FFN)来获得分类分数。对于文本模态,直接使用Alert模型来处理单词序列。
但是存在如下问题:一方面,使用VGG16处理的声觉效果与视觉和文本模态相比,贡献相对较低;另一方面,虽然用于视觉模态的VGG16网络能带来更好的性能,但由于结构复杂,它们无法应对长高清视频的计算存储挑战,同时,虽然FE2E在模型设计上通过实现端到端对齐的多模态特征学习取得了突破,该模型需要大量的前期数据处理模块,因此从数据输入到情感预测仍未达到完全一致性,即未能实现完整的视频到情感识别的端到端处理。
因此,亟需一种能够实现端到端处理,提高声觉贡献效果,简化视觉提取结构,提高一致性的视频情绪识别***、方法。
发明内容
鉴于上述问题,本发明的目的是提供一种视频情绪识别***、方法,以解决现有技术中一方面,使用VGG16处理的声觉效果与视觉和文本模态相比,贡献相对较低;另一方面,虽然用于视觉模态的VGG16网络能带来更好的性能,但由于结构复杂,它们无法应对长高清视频的计算存储挑战,同时,虽然FE2E在模型设计上通过实现初步端到端对齐的多模态特征学习取得了突破,该模型需要大量的前期数据处理模块,因此从数据输入到情感预测仍未达到完全一致性,即未能实现完整的视频到情感识别的端到端处理的问题。
本发明提供的一种视频情绪识别***,包括预处理模块和预设的视频情感识别多模态模型;其中,
所述预处理模块用于对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;其中,所述预处理模块包括三模态处理单元和片段划分单元,其中,
所述三模态处理单元用于提取所述原始长视频的文本数据、音频数据和视频图像,并分别对所述音频数据进行数据转换以获取梅尔频谱,对所述视频图像进行数据帧处理以获取单人单帧图像;
所述片段划分单元用于按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;
所述视频情感识别多模态模型用于对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
优选地,所述视频情感识别模型包括特征数据提取模块和融合预测模块;其中,
所述特征数据提取模块用于根据所述目标视频的短时视频片段分别提取频谱融合特征数据、视觉模态信息数据和文本特征数据;
所述融合预测模块用于分别对频谱融合特征数据、视觉模态信息数据和文本特征数据进行赋权处理以获取音频情感参数、图像情感参数和文本情感参数,根据所述音频情感参数、图像情感参数和文本情感参数进行推测预测以获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值;其中,所述音频情感参数、图像情感参数和文本情感参数的最优参数在训练所述融合预测模块时获取。
优选地,所述特征数据提取模块包括分层注意力单元、视觉模态信息提取模型、Albert模型;其中,
所述分层注意力单元用于对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块,采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征,并对所述局部声学特征进行聚合处理以形成频谱融合特征数据;
所述视觉模态信息提取模型用于自动提取所述目标视频的短时视频片段中单人单帧图像的视觉模态信息数据;
所述Albert模型用于提取所述目标视频的短时视频片段的文本特征数据。
优选地,训练所述视觉模态信息提取模型时,利用多分支特征学习方法提取预采集的样本图像帧的融合特征以反复训练基于RepVGG的多分支特征学习和单分支推理结构以形成视觉模态信息提取模型;
应用所述视觉模态信息提取模型时,应用所述视觉模态信息提取模型中的单分支推理结构和单分支推理结构中的ReLU层;其中,所述单分支推理结构包括卷积分支和识别分支,所述卷积分支和识别分支用于获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征;所述ReLU层用于根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据。
优选地,所述Albert模型利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据。
优选地,所述融合预测模块包括Transformer层和前反馈模型;其中,
所述Transformer层用于对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数;
所述前反馈模型用于通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
优选地,所述片段划分单元,包括:
总时间获取单元,用于获取所述原始长视频的总时间长度,按照所述总时间长度生成时间表;
时间划分单元,用于对所述时间表进行划分以形成时间片段;
数据对齐单元,用于将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段。
本发明还提供一种视频情绪识别方法,基于如前所述的视频情绪识别***进行视频情绪识别,包括:
对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;其中,包括:
提取所述原始长视频的文本数据、音频数据和视频图像,并分别对所述音频数据进行数据转换以获取梅尔频谱,对所述视频图像进行数据帧处理以获取单人单帧图像;
按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;
对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
优选地,所述对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,包括:
对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块,采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征,并对所述局部声学特征进行聚合处理以形成频谱融合特征数据;
获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征;根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据;
利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据;
所述根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值,包括:
对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数;
通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
优选地,所述按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段,包括:
获取所述原始长视频的总时间长度,按照所述总时间长度生成时间表;
对所述时间表进行划分以形成时间片段;
将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段。
从上面的技术方案可知,本发明提供的视频情绪识别***、方法,通过预处理模块对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;即通过三模态处理单元提取所述原始长视频的文本数据、音频数据和视频图像,并分别对所述音频数据进行数据转换以获取梅尔频谱,对所述视频图像进行数据帧处理以获取单人单帧图像,通过片段划分单元按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;通过视频情感识别多模态模型对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与情绪权重相对应的视频情绪预测值,用户可以在平台前端上传待分析的视频,而这些模态数据将在后端进行计算,获得的情绪分数和最终预测将打印在前端的界面上,实现端到端一致性视频情绪识别,提升多模态视频情感分析的产业应用价值。
附图说明
通过参考以下结合附图的说明书内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的视频情绪识别***的框架示意图;
图2为根据本发明实施例的分层注意力单元的示意图;
图3为根据本发明实施例的视觉模态信息提取模型的示意图;
图4为根据本发明实施例的视频情绪识别方法的流程图。
具体实施方式
目前的视频情绪识别***存在以下问题:一方面,使用VGG16处理的声觉效果与视觉和文本模态相比,贡献相对较低;另一方面,虽然用于视觉模态的VGG16网络能带来更好的性能,但由于结构复杂,它们无法应对长高清视频的计算存储挑战,同时,虽然FE2E在模型设计上通过实现端到端对齐的多模态特征学习取得了突破,该模型需要大量的前期数据处理模块,因此从数据输入到情感预测仍未达到完全一致性,即未能实现完整的视频到情感识别的端到端处理。
针对上述问题,本发明提供一种视频情绪识别***、方法,以下将结合附图对本发明的具体实施例进行详细描述。
为了说明本发明提供的视频情绪识别***、方法,图1、图2、图3对本发明实施例的视频情绪识别***、分层注意力单元及其视觉模态信息提取模型进行了示例性标示;图4对本发明实施例的视频情绪识别方法进行了示例性标示。
以下示例性实施例的描述实际上仅仅是说明性的,不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论,但在适当情况下,所述技术和设备应当被视为说明书的一部分。
如图1所示,本发明提供的视频情绪识别***100,包括预处理模块110和预设的视频情感识别多模态模型120;其中,该预处理模块110用于对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;其中,该预处理模块包括三模态处理单元111和片段划分单元112,其中,三模态处理单元111用于提取所述原始长视频的文本数据、音频数据和视频图像,并分别对所述音频数据进行数据转换以获取梅尔频谱,对所述视频图像进行数据帧处理以获取单人单帧图像;该片段划分单元112用于按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;
该视频情感识别多模态模型120用于对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
在图1所示的实施例中,该预处理模块110负责对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;该预处理模块包括三模态处理单元111和片段划分单元112。
在本实施例中,三模态处理单元111在对所述音频数据进行数据转换以获取梅尔频谱时,可以应用任意将音频数据转换为梅尔频谱的方法,在此不做具体限制。
在本实施例中,对所述视频图像进行数据帧处理以获取单人单帧图像时,主要是对原始长视频中的各个帧图像进行裁切,最终得到单人单帧的图像,例如对于IEMOCAP数据集中的双人视频帧,图像预处理阶段将原一帧视频图像裁切为224像素x224像素大小的单人单帧图像。
该片段划分单元112用于按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;其中,该片段划分单元112,包括:
总时间获取单元1121,用于获取所述原始长视频的总时间长度,按照所述总时间长度生成时间表;
时间划分单元1122,用于对所述时间表进行划分以形成时间片段;
数据对齐单元1123,用于将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;从而解决原始长视频过于冗长导致计算开销的问题。
更为具体的,在一个具体实施例中,预处理阶段即包括对三个模态预处理以及划分片段两个部分。整体过程具体如下:针对原始长视频输入,可以首先获取该视频的三个模态的数据(原始长视频的文本数据、音频数据和视频图像);接着对整个完整视频的音频数据进行计算处理得到其梅尔频谱,同时对整个视频的所有视频帧进行处理得到单人单帧的图像(单人单帧图像)。然后将长视频的总时长随机划分为n个近似等长的小时间段,按照划分好的时间段,将上述梅尔频谱、所有的单人单帧图像和完整的文本数据划分,最终得到n个小组,每个小组都包含对应时间段的梅尔频谱数据、该时间段内的所有单人单帧图像以及这个时间段内的文本。整体看来,每个小组都对应于原长视频该时间段内的一个短时频片段(目标视频的短时视频片段),从而解决原始长视频过于冗长导致计算开销的问题。
在图1所示的实施例中,视频情感识别多模态模型120用于对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪;包括特征数据提取模块121和融合预测模块122,其中,特征数据提取模块121用于根据所述目标视频的短时视频片段分别提取频谱融合特征数据、视觉模态信息数据和文本特征数据;融合预测模块122用于分别对频谱融合特征数据、视觉模态信息数据和文本特征数据进行赋权处理以获取音频情感参数、图像情感参数和文本情感参数,根据所述音频情感参数、图像情感参数和文本情感参数获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
具体的,特征数据提取模块121包括分层注意力单元1211、视觉模态信息提取模型1212、Albert模型1213;其中,
在图1、图2共同所示的实施例中,该分层注意力单元1211用于对目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块,采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征,并对所述局部声学特征进行聚合处理以形成频谱融合特征数据;即采用分层注意力机制对每个频谱块进行特征提取以获取音频特征,而后通过声谱分割、块内自注意力和块聚合处理等提取分层的谱特征,以获得音频谱的内部关系信息,增强音频模态的效果;
图2示出了本实施例的分层注意力单元1211的应用流程,在图2所示的实施例中,该分层注意力单元1211采用分层注意力机制,其输入是一个大小为H×W的梅尔频谱,其中H=W,在本实施例中,该输入被分成16个大小均为S×S(其中)的小块,这些小块被称为第一层频谱图,分割后,对每小块进行Transformer层处理,在Transformer层中,首先将大小为S×S的补丁嵌入为d维向量:
其中I指的是S×S的补丁大小。
然后,如图2所示,在每个d维向量上采用基本transformer来提取局部自注意声学特征。并对特征进行LN和GELU操作,得到第一层的输出:
O1=GELU(LN(x+MSA(x)))
其中O1代表第一层的输出,MSA是基础transformer的多头注意力机制;每四个空间相邻的块通过一个3×3的CNN合并成一个块,然后经过LayerNorm和一个3×3的最大池化层,聚合的四个块则为第二层的输入频谱图:
I2=MaxPooling(LN(CNN(O1)))
其中I2是第二层的输入,对于第二层,每个块再次输入Transformer层,的到第二层输出,然后将第二层输出的这四个块聚合在一起,得到的结果即是第三层的输入I3,再经过Transformer层对第三层的输入I3进行处理以得到最终的频谱融合特征数据(最后输出)。
在图1、图3共同所示的实施例中,该视觉模态信息提取模型1212用于自动提取所述目标视频的短时视频片段中单人单帧图像的视觉模态信息数据;其中,
训练所述视觉模态信息提取模型1212时,利用多分支特征学习方法提取预采集的样本图像帧的融合特征以反复训练基于RepVGG的多分支特征学习和单分支推理结构以形成视觉模态信息提取模型;
在应用所述视觉模态信息提取模型1212时,应用所述视觉模态信息提取模型中的单分支推理结构和单分支推理结构中的ReLU层;其中,所述单分支推理结构包括卷积分支和识别分支,所述卷积分支和识别分支用于获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征;所述ReLU层用于根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据。
图3示出了本实施例的视觉模态信息提取模型1212的应用流程,在图3所示的实施例中,对于多模态情感识别任务,基于最新的RepVGG技术,提出了多分支特征学习和单分支推理结构。视觉模态信息提取模型1212采用的训练和推理模型,其结构基于3×3卷积、1×1卷积、Identity和ReLU激活层,空间视觉特征主要是通过多分支和多内核卷积来学习。对于输入图像帧,使用三个分支来提取多维特征,包括3×3卷积分支、1×1卷积分支和识别分支,然后融合中间特征作为ReLU层的输入,得到最终结果。在推理过程和应用过程中,采用更纯粹的单分支结构,而不是原来笨重的多分支结构;其中以三通道输入为例,具体来说,在训练模型的三个分支中,只保留3×3卷积分支,而1×1卷积核通过补零变换为3×3卷积,且每个卷积都包含一个BN层。如此,基于RepVGG的多分支特征学习和单分支推理结构,提取帧的视觉模态信息,简化推理模型;需要说明的是,这里的多分支特征学习和单分支推理结构指的是在训练过程中,利用多分支特征学习的优势来提取视频帧的信息,在应用(推理)过程中,选择单分支结构进行预测,如此结构更简单,计算效率更高,取其各自的长处,通过参数迁移实现多分支特征学习和单分支推理结构的连接,压缩计算损失,保证视频帧特征的学习。
在图1所示的实施例中,该Albert模型1213用于提取所述目标视频的短时视频片段的文本特征数据,且在本实施例中,该Albert模型1213利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据,如此,在BERT的基础上利用矩阵分解和跨层参数模型分享减少了参数量,加快从文本到低维向量的转换速度。
在图1所示的实施例中,融合预测模块122包括Transformer层1221和前反馈模型1222;其中,
该Transformer层1221用于对频谱融合特征数据、视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数;
该前反馈模型1222用于通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值;从而精准的获取情绪权重,再根据情绪权重对应出于该情绪权重对应的视频情绪预测值。
如上所述,本实施例提供的视频情绪识别***100通过预处理模块对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;即通过三模态处理单元提取所述原始长视频的文本数据、音频数据和视频图像,并分别对所述音频数据进行数据转换以获取梅尔频谱,对所述视频图像进行数据帧处理以获取单人单帧图像,通过片段划分单元按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;通过视频情感识别多模态模型对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与情绪权重相对应的视频情绪预测值,用户可以在平台前端上传待分析的视频,而这些模态数据将在后端进行计算,获得的情绪分数和最终预测将打印在前端的界面上,实现端到端一致性视频情绪识别,提高声觉贡献效果,简化视觉提取结构,提高一致性,提升多模态视频情感分析的产业应用价值。
如图4所示,本发明还提供一种视频情绪识别方法,基于如前所述的视频情绪识别***100进行视频情绪识别,包括:
S1:对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;其中,包括:
提取所述原始长视频的文本数据、音频数据和视频图像,并分别对所述音频数据进行数据转换以获取梅尔频谱,对所述视频图像进行数据帧处理以获取单人单帧图像;
按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;
S2:对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
其中,在步骤S1中,按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段,包括:
获取所述原始长视频的总时间长度,按照所述总时间长度生成时间表;
对所述时间表进行划分以形成时间片段;
将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段。
在步骤S2中,
所述对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,包括:
S211:对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块,采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征,并对所述局部声学特征进行聚合处理以形成频谱融合特征数据;
S212:获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征;根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据;
S213:利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据;
所述根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值,包括:
S221:对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数;
S222:通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
上述视频情绪识别方法是和前述视频情绪识别***相对应的实现方法,其具体的执行步骤可参照上述视频情绪识别***的具体实施例,在此不做再一一详述。
如上所述,本申请实施例提供的视频情绪识别方法,首先对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;再对目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与情绪权重相对应的视频情绪预测值,用户可以在平台前端上传待分析的视频,而这些模态数据将在后端进行计算,获得的情绪分数和最终预测将打印在前端的界面上,实现端到端一致性视频情绪识别,提高声觉贡献效果,简化视觉提取结构,提高一致性,提升多模态视频情感分析的产业应用价值。
如上参照附图以示例的方式描述了根据本发明提出的视频情绪识别方***、方法。但是,本领域技术人员应当理解,对于上述本发明所提出的视频情绪识别方***、方法,还可以在不脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求书的内容确定。
Claims (10)
1.一种视频情绪识别***,其特征在于,包括预处理模块和预设的视频情感识别多模态模型;其中,
所述预处理模块用于对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;其中,所述预处理模块包括三模态处理单元和片段划分单元,其中,
所述三模态处理单元用于提取所述原始长视频的文本数据、音频数据和视频图像,并分别对所述音频数据进行数据转换以获取梅尔频谱,对所述视频图像进行数据帧处理以获取单人单帧图像;
所述片段划分单元用于按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;
所述视频情感识别多模态模型包括特征数据提取模块和融合预测模块;其中,所述特征数据提取模块用于对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,所述融合预测模块用于根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值;
其中,所述特征数据提取模块包括分层注意力单元,所述分层注意力单元用于对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块,采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征,并对所述局部声学特征进行聚合处理以形成频谱融合特征数据。
2.如权利要求1所述的视频情绪识别***,其特征在于,
所述融合预测模块分别对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以获取音频情感参数、图像情感参数和文本情感参数,根据所述音频情感参数、图像情感参数和文本情感参数进行推测预测以获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值;其中,所述音频情感参数、图像情感参数和文本情感参数的最优参数在训练所述融合预测模块时获取。
3.如权利要求2所述的视频情绪识别***,其特征在于,
所述特征数据提取模块还包括视觉模态信息提取模型、Albert模型;其中,
所述视觉模态信息提取模型用于自动提取所述目标视频的短时视频片段中单人单帧图像的视觉模态信息数据;
所述Albert模型用于提取所述目标视频的短时视频片段的文本特征数据。
4.如权利要求3所述的视频情绪识别***,其特征在于,
训练所述视觉模态信息提取模型时,利用多分支特征学习方法提取预采集的样本图像帧的融合特征以反复训练基于RepVGG的多分支特征学习和单分支推理结构以形成视觉模态信息提取模型;
应用所述视觉模态信息提取模型时,应用所述视觉模态信息提取模型中的单分支推理结构和所述单分支推理结构中的ReLU层;其中,所述单分支推理结构包括卷积分支和识别分支,所述卷积分支和识别分支用于获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征;所述ReLU层用于根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据。
5.如权利要求3所述的视频情绪识别***,其特征在于,
所述Albert模型利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据。
6.如权利要求2所述的视频情绪识别***,其特征在于,
所述融合预测模块包括Transformer层和前反馈模型;其中,
所述Transformer层用于对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数;
所述前反馈模型用于通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
7.如权利要求1所述的视频情绪识别***,其特征在于,
所述片段划分单元,包括:
总时间获取单元,用于获取所述原始长视频的总时间长度,按照所述总时间长度生成时间表;
时间划分单元,用于对所述时间表进行划分以形成时间片段;
数据对齐单元,用于将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段。
8.一种视频情绪识别方法,基于如权利要求1-7任一所述的视频情绪识别***进行视频情绪识别,包括:
对预输入的原始长视频进行预处理以形成目标视频的短时视频片段;其中,包括:
提取所述原始长视频的文本数据、音频数据和视频图像,并分别对所述音频数据进行数据转换以获取梅尔频谱,对所述视频图像进行数据帧处理以获取单人单帧图像;
按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段;
对所述目标视频的短时视频片段进行特征提取以分别获取频谱融合特征数据、视觉模态信息数据和文本特征数据,根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值;其中,
所述对所述目标视频的短时视频片段进行特征提取以获取频谱融合特征数据,包括:对所述目标视频的短时视频片段中的梅尔频谱进行分块和重塑处理以形成频谱块,采用分层注意力机制对所述频谱块进行特征提取以获取局部声学特征,并对所述局部声学特征进行聚合处理以形成频谱融合特征数据。
9.如权利要求8所述的视频情绪识别方法,其特征在于,
所述对所述目标视频的短时视频片段进行特征提取以分别获取视觉模态信息数据和文本特征数据,包括:
获取所述目标视频的短时视频片段中单人单帧图像的融合中间特征;根据所述融合中间特征获取所述单人单帧图像的视觉模态信息数据;
利用矩阵分解和跨层参数模型对所述目标视频的短时视频片段中的文本数据进行特征提取以获取文本特征数据;
所述根据所述频谱融合特征数据、视觉模态信息数据和文本特征数据获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值,包括:
对所述频谱融合特征数据、所述视觉模态信息数据和所述文本特征数据进行赋权处理以形成音频情感参数、图像情感参数和文本情感参数;
通过预训练的前反馈网络对所述音频情感参数、图像情感参数和文本情感参数执行多模式融合处理以获取情绪权重,并获取与所述情绪权重相对应的视频情绪预测值。
10.如权利要求9所述的视频情绪识别方法,其特征在于,所述按照预获取的时间表将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段,包括:
获取所述原始长视频的总时间长度,按照所述总时间长度生成时间表;
对所述时间表进行划分以形成时间片段;
将处于同一时间片段内的文本数据、梅尔频谱和单人单帧图像进行数据对齐以获取目标视频的短时视频片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310445856.9A CN116453024B (zh) | 2023-04-23 | 2023-04-23 | 视频情绪识别***、方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310445856.9A CN116453024B (zh) | 2023-04-23 | 2023-04-23 | 视频情绪识别***、方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116453024A CN116453024A (zh) | 2023-07-18 |
CN116453024B true CN116453024B (zh) | 2023-09-22 |
Family
ID=87133556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310445856.9A Active CN116453024B (zh) | 2023-04-23 | 2023-04-23 | 视频情绪识别***、方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116453024B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688936B (zh) * | 2024-02-04 | 2024-04-19 | 江西农业大学 | 一种图文融合的低秩多模态融合情感分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020091338A (ja) * | 2018-12-03 | 2020-06-11 | 大学共同利用機関法人情報・システム研究機構 | 話者変換装置、話者変換方法、学習装置、学習方法及びプログラム |
CN114694076A (zh) * | 2022-04-08 | 2022-07-01 | 浙江理工大学 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
CN115393933A (zh) * | 2022-08-23 | 2022-11-25 | 重庆邮电大学 | 一种基于帧注意力机制的视频人脸情绪识别方法 |
-
2023
- 2023-04-23 CN CN202310445856.9A patent/CN116453024B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020091338A (ja) * | 2018-12-03 | 2020-06-11 | 大学共同利用機関法人情報・システム研究機構 | 話者変換装置、話者変換方法、学習装置、学習方法及びプログラム |
CN114694076A (zh) * | 2022-04-08 | 2022-07-01 | 浙江理工大学 | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 |
CN115393933A (zh) * | 2022-08-23 | 2022-11-25 | 重庆邮电大学 | 一种基于帧注意力机制的视频人脸情绪识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116453024A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jaiswal et al. | Facial emotion detection using deep learning | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
Luo et al. | Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion Recognition. | |
Muhammad et al. | Emotion recognition for cognitive edge computing using deep learning | |
US11138903B2 (en) | Method, apparatus, device and system for sign language translation | |
CN116453024B (zh) | 视频情绪识别***、方法 | |
Subramanian et al. | Multimodal emotion recognition using different fusion techniques | |
Yang et al. | Open domain dialogue generation with latent images | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN112101096A (zh) | 一种基于语音和微表情的多模态融合的***情绪感知方法 | |
DE102022131824A1 (de) | Visuelle Spracherkennung für Digitalvideos unter Einsatz generativ-adversativen Lernens | |
CN116258989A (zh) | 基于文本与视觉的时空关联型多模态情感识别方法、*** | |
Dweik et al. | Read my lips: Artificial intelligence word-level arabic lipreading system | |
Birhala et al. | Temporal aggregation of audio-visual modalities for emotion recognition | |
US20080232682A1 (en) | System and method for identifying patterns | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及*** | |
Ali et al. | Privacy enhanced speech emotion communication using deep learning aided edge computing | |
CN116167015A (zh) | 一种基于联合交叉注意力机制的维度情感分析方法 | |
CN115017900B (zh) | 一种基于多模态多去偏见的对话情感识别方法 | |
CN116417008A (zh) | 一种跨模态音视频融合语音分离方法 | |
CN116469404A (zh) | 一种视听跨模态融合语音分离方法 | |
Guodong et al. | Multi feature fusion EEG emotion recognition | |
He et al. | Dual multi-task network with bridge-temporal-attention for student emotion recognition via classroom video |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |