CN117556084B - 一种基于多模态的视频情感分析*** - Google Patents

一种基于多模态的视频情感分析*** Download PDF

Info

Publication number
CN117556084B
CN117556084B CN202311812195.5A CN202311812195A CN117556084B CN 117556084 B CN117556084 B CN 117556084B CN 202311812195 A CN202311812195 A CN 202311812195A CN 117556084 B CN117556084 B CN 117556084B
Authority
CN
China
Prior art keywords
analysis
emotion
vector
processor
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311812195.5A
Other languages
English (en)
Other versions
CN117556084A (zh
Inventor
张卫平
张伟
李显阔
王丹
邵胜博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Digital Group Co Ltd
Original Assignee
Global Digital Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Digital Group Co Ltd filed Critical Global Digital Group Co Ltd
Priority to CN202311812195.5A priority Critical patent/CN117556084B/zh
Publication of CN117556084A publication Critical patent/CN117556084A/zh
Application granted granted Critical
Publication of CN117556084B publication Critical patent/CN117556084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多模态的视频情感分析***,涉及电数字数据处理领域,包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块,所述音视频采集模块用于采集用户的面部视频信息和语音信息,所述表情识别模块用于对面部视频信息进行分析处理,所述语音分析模块用于对语音信息进行分析处理,所述情感综合分析模块基于视频分析结果和语音分析结果处理得到用户的情感信息;本***从视频信息和音频信息两种模式进行切入分析,并奖两个分析结果进行融合,能够获取更加准确的情感结果。

Description

一种基于多模态的视频情感分析***
技术领域
本发明涉及电数字数据处理领域,具体涉及一种基于多模态的视频情感分析***。
背景技术
随着人工智能的发展,会产生越来越多用于情感交流的应用产品,这类产品的应用前提是能够准确把握用户的情感状态,现有情感分析***中,常采用单一的方式进行分析,或者采用多种方式但只能简单地将各种方式的结果进行组合,因此需要一种能够采用多模态的***来准确分析出用户情感。
背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。
现在已经开发出了很多情感分析***,经过大量的检索与参考,发现现有的情感分析***有如公开号为CN111222464B所公开的***,这些***方法一般包括:获取与目标用户相对应的生理信号;其中,生理信号中包括脑电信号以及肌电信号;获取与目标用户对应的面部图像信息;将生理信号以及面部图像信息分别输入至预先训练好的至少一个目标分类模型中,得到与目标用户相对应的生理信号识别结果以及微表情识别结果基于生理信号识别结果以及微表情识别结果,确定与目标用户对应的情感分析结果。但是该***需要获取生理信号,相比与获取音视频信息较为复杂,且无法通过多模态方式进行综合分析,容易对情感判断错误。
发明内容
本发明的目的在于,针对所存在的不足,提出了一种基于多模态的视频情感分析***。
本发明采用如下技术方案:
一种基于多模态的视频情感分析***,包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块;
所述音视频采集模块用于采集用户的面部视频信息和语音信息,所述表情识别模块用于对面部视频信息进行分析处理,所述语音分析模块用于对语音信息进行分析处理,所述情感综合分析模块基于视频分析结果和语音分析结果处理得到用户的情感信息;
所述音视频采集模块包括视频采集单元、音频采集单元和同步标记单元,所述视频采集单元用于采集用户的面部视频信息,所述音频采集单元用于采集用户的语音信息,所述同步标记单元用于在视频信息和语音信息中标记同步时间点;
所述表情识别模块包括面部特征提取单元和表情分析单元,所述面部特征提取单元用于从视频信息中提取用户的面部特征,所述表情分析单元基于面部特征对用户的情绪进行分析;
所述语音分析模块包括语音特征提取单元和语调分析单元,所述语音特征提取单元用于提取语音信息中的关键特征,所述语调分析单元根据关键特征对用户的情绪进行分析;
所述情感综合分析模块包括数据融合单元和情感判定单元,所述数据融合单元用于将表情识别模块的分析数据和语音分析模块的分析数据进行多模态融合,所述情感判定单元基于融合后的数据对用户的整体情感状态进行判定分析;
进一步的,所述面部特征提取单元包括帧信息提取处理器、面部对准处理器、关键点定位处理器和特征向量处理器,所述帧信息提取处理器用于从视频信息中按序抽取帧信息,所述面部对准处理器用于从帧信息中获取局部的面部画面,所述关键点定位处理器用于在面部画面中获取关键点的位置信息,所述特征向量处理器根据关键点的位置信息计算出特征向量;
进一步的,所述表情分析单元包括向量分析处理器、第一情绪特征寄存器和第一校对分析处理器,所述向量分析处理器用于对特征向量进行计算处理的得到表情数据,所述第一情绪特征寄存器用于保存每个情绪的表情数据,所述第一校对分析处理器将计算得到的表情数据和记录的表情数据进行比较并输出第一判断向量;
所述第一校对分析处理器根据下式计算出第一判断向量Jv1:
其中,Jv1i为第一判断向量的第i个元素值,Jv1共有n个元素,n为第一情绪特征寄存器记录的情绪数量,Ep1和Ep2分别为表情数据的横向比值和纵向比值,Ep1(i)和Ep2(i)为第i个情绪的横向比值和纵向比值;
进一步的,所述语调分析单元包括第二情绪特征寄存器和第二校对分析处理器,所述第二情绪特征寄存器用于保存每个情绪的语调数据,所述第二校对分析处理器用于将峰值特征向量与语调数据进行比较并输出第二判断向量Jv2,具体公式如下:
其中,Jv2i表示第二判断向量的第i个元素值,Jv2共有n个元素,和/>为第i个情绪的语调特征向量,(/>,/>)为对应目标时间段内的语调特征向量;
进一步的,所述数据融合单元包括时间匹配处理器和融合分析处理器,所述时间匹配处理器根据同步时间点将第一判断向量划分为多个集合,每个集合与对应的一个第二判断向量匹配,所述融合分析处理器将匹配的第一判断向量集合与第二判断向量进行分析处理;
所述融合分析处理器根据下式对第一判断向量集合进行一级融合处理得到一级融合向量Jv1’:
其中,Jv1i’为一级融合向量的第i个元素值,N为第一判断向量集合中的向量数量,Jv1i(j)为第一判断向量集合中第j个向量的第i个元素值,N(i,j)为第一判断向量集合第j个向量的第i个元素值在本向量元素值中的排序值;
所述融合分析处理器根据下式进行二级融合处理得到二级融合向量Jv2’:
其中,Jv2i’为二级融合向量中的第i个元素值。
本发明所取得的有益效果是:
本***通过对视频信息和音频信息单独分析得到判断向量,然后将判断向量进行融合处理得到多模态下的情感分析结果,相比与单一的方式更加准确,且单独分析的判断向量并非直接表示出情感结果,而是表示各种情绪的可能性,使得两个判断向量能够有机地进行融合处理,而不是简单的将结果进行组合。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
图1为本发明整体结构框架示意图;
图2为本发明音视频采集模块构成示意图;
图3为本发明表情识别模块构成示意图;
图4为本发明语音分析模块构成示意图;
图5为本发明情感综合分析模块构成示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一:本实施例提供了一种基于多模态的视频情感分析***,包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块;
所述音视频采集模块用于采集用户的面部视频信息和语音信息,所述表情识别模块用于对面部视频信息进行分析处理,所述语音分析模块用于对语音信息进行分析处理,所述情感综合分析模块基于视频分析结果和语音分析结果处理得到用户的情感信息;
所述音视频采集模块包括视频采集单元、音频采集单元和同步标记单元,所述视频采集单元用于采集用户的面部视频信息,所述音频采集单元用于采集用户的语音信息,所述同步标记单元用于在视频信息和语音信息中标记同步时间点;
所述表情识别模块包括面部特征提取单元和表情分析单元,所述面部特征提取单元用于从视频信息中提取用户的面部特征,所述表情分析单元基于面部特征对用户的情绪进行分析;
所述语音分析模块包括语音特征提取单元和语调分析单元,所述语音特征提取单元用于提取语音信息中的关键特征,所述语调分析单元根据关键特征对用户的情绪进行分析;
所述情感综合分析模块包括数据融合单元和情感判定单元,所述数据融合单元用于将表情识别模块的分析数据和语音分析模块的分析数据进行多模态融合,所述情感判定单元基于融合后的数据对用户的整体情感状态进行判定分析;
所述面部特征提取单元包括帧信息提取处理器、面部对准处理器、关键点定位处理器和特征向量处理器,所述帧信息提取处理器用于从视频信息中按序抽取帧信息,所述面部对准处理器用于从帧信息中获取局部的面部画面,所述关键点定位处理器用于在面部画面中获取关键点的位置信息,所述特征向量处理器根据关键点的位置信息计算出特征向量;
所述表情分析单元包括向量分析处理器、第一情绪特征寄存器和第一校对分析处理器,所述向量分析处理器用于对特征向量进行计算处理的得到表情数据,所述第一情绪特征寄存器用于保存每个情绪的表情数据,所述第一校对分析处理器将计算得到的表情数据和记录的表情数据进行比较并输出第一判断向量;
所述第一校对分析处理器根据下式计算出第一判断向量Jv1:
其中,Jv1i为第一判断向量的第i个元素值,Jv1共有n个元素,n为第一情绪特征寄存器记录的情绪数量,Ep1和Ep2分别为表情数据的横向比值和纵向比值,Ep1(i)和Ep2(i)为第i个情绪的横向比值和纵向比值;
所述语调分析单元包括第二情绪特征寄存器和第二校对分析处理器,所述第二情绪特征寄存器用于保存每个情绪的语调数据,所述第二校对分析处理器用于将峰值特征向量与语调数据进行比较并输出第二判断向量Jv2,具体公式如下:
其中,Jv2i表示第二判断向量的第i个元素值,Jv2共有n个元素,和/>为第i个情绪的语调特征向量,(/>,/>)为对应目标时间段内的语调特征向量;
所述数据融合单元包括时间匹配处理器和融合分析处理器,所述时间匹配处理器根据同步时间点将第一判断向量划分为多个集合,每个集合与对应的一个第二判断向量匹配,所述融合分析处理器将匹配的第一判断向量集合与第二判断向量进行分析处理;
所述融合分析处理器根据下式对第一判断向量集合进行一级融合处理得到一级融合向量Jv1’:
其中,Jv1i’为一级融合向量的第i个元素值,N为第一判断向量集合中的向量数量,Jv1i(j)为第一判断向量集合中第j个向量的第i个元素值,N(i,j)为第一判断向量集合第j个向量的第i个元素值在本向量元素值中的排序值;
所述融合分析处理器根据下式进行二级融合处理得到二级融合向量Jv2’:
其中,Jv2i’为二级融合向量中的第i个元素值。
实施例二:本实施例包含了实施例一中的全部内容,提供了一种基于多模态的视频情感分析***,包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块;
所述音视频采集模块用于采集用户的面部视频信息和语音信息,所述表情识别模块用于对面部视频信息进行分析处理,所述语音分析模块用于对语音信息进行分析处理,所述情感综合分析模块基于视频分析结果和语音分析结果处理得到用户的情感信息;
结合图2,所述音视频采集模块包括视频采集单元、音频采集单元和同步标记单元,所述视频采集单元用于采集用户的面部视频信息,所述音频采集单元用于采集用户的语音信息,所述同步标记单元用于在视频信息和语音信息中标记同步时间点;
结合图3,所述表情识别模块包括面部特征提取单元和表情分析单元,所述面部特征提取单元用于从视频信息中提取用户的面部特征,所述表情分析单元基于面部特征对用户的情绪进行分析;
结合图4,所述语音分析模块包括语音特征提取单元和语调分析单元,所述语音特征提取单元用于提取语音信息中的关键特征,所述语调分析单元根据关键特征对用户的情绪进行分析;
结合图5,所述情感综合分析模块包括数据融合单元和情感判定单元,所述数据融合单元用于将表情识别模块的分析数据和语音分析模块的分析数据进行多模态融合,所述情感判定单元基于融合后的数据对用户的整体情感状态进行判定分析;
所述面部特征提取单元包括帧信息提取处理器、面部对准处理器、关键点定位处理器和特征向量处理器,所述帧信息提取处理器用于从视频信息中按序抽取帧信息,所述面部对准处理器用于从帧信息中获取局部的面部画面,所述关键点定位处理器用于在面部画面中获取关键点的位置信息,所述特征向量处理器根据关键点的位置信息计算出特征向量;
所述帧信息提取处理器检测出含有同步时间点信息的帧作为基础帧,并在基础帧后每隔相同的帧数抽取一帧信息,基础帧和抽取的帧作为分析帧进行保存并按照顺序依次发送给所述面部对准处理器;
所述面部对准处理器从分析帧中截取一个矩形画面,矩形画面的两侧是耳部的边界垂直线,矩形画面的底侧是下颏的边界水平线,矩形画面的上侧是眉毛的边界水平线,所述面部对准处理器将矩形画面的宽度和高度分别记为w和h;
所述关键点定位处理器获取关键点位置信息的过程包括如下步骤:
S1、获取矩形画面中眼部、嘴部、鼻部和眉毛的边缘信息;
S2、使用预设的截线与边缘信息相交,交点作为关键点;
S3、读取出关键点在矩形画面中的坐标信息;
预设的截线包括三个信息:部分、方向和比例,例如,眼部、垂直、0对应的截线得到的关键点为眼部的左端点,嘴部、垂直、0.5对应的截线得到的两个关键点为嘴部中间的上下两端点;
所述特征向量处理器将鼻心关键点作为向量起点,其余关键点作为向量终点计算出特征向量,用表示第i个特征向量;
所述面部特征提取单元将每个分析帧的特征向量发送给所述表情分析单元;
所述表情分析单元包括向量分析处理器、第一情绪特征寄存器和第一校对分析处理器,所述向量分析处理器用于对特征向量进行计算处理的得到表情数据,所述第一情绪特征寄存器用于保存每个情绪的表情数据,所述第一校对分析处理器将计算得到的表情数据和记录的表情数据进行比较并输出第一判断向量;
所述向量分析处理器根据下式对特征向量进行计算处理:
其中,Ep1和Ep2为表示表情数据的两个比值,分别称为横向比值和纵向比值,{k1i}为横向系数群,{k2i}为纵向系数群,m为特征向量的数量;
所述横向系数群和纵向系数群通过对大量面部图像进行测量统计得到;
所述第一校对分析处理器根据下式计算出第一判断向量Jv1:
其中,Jv1i为第一判断向量的第i个元素值,Jv1共有n个元素,n为第一情绪特征寄存器记录的情绪数量,Ep1(i)和Ep2(i)为第i个情绪的横向比值和纵向比值;
所述表情识别模块将每个分析帧的第一判断向量发送给所述情感综合分析模块;
所述语音特征提取单元包括峰值检测处理器和峰值特征处理器,所述峰值检测处理器用于从音频数据中检测到峰值时间点,所述峰值特征处理器根据峰值时间点的间隔时间和峰值时间点上振幅的变化处理得到语音特征;
时间间隔用表示,振幅变化用/>表示,所述峰值特征处理器对两个相邻同步时间点之间的/>和/>计算出标准差,分别记为/>和/>,两个相邻同步时间点之间的时间段称为目标时间段,由/>和/>构成的向量(/>,/>)作为对应目标时间段内的语调特征向量;
所述语调分析单元包括第二情绪特征寄存器和第二校对分析处理器,所述第二情绪特征寄存器用于保存每个情绪的语调数据,所述第二校对分析处理器用于将峰值特征向量与语调数据进行比较并输出第二判断向量Jv2,具体公式如下:
其中,Jv2i表示第二判断向量的第i个元素值,Jv2共有n个元素,和/>为第i个情绪的语调特征向量;
所述语音分析模块每个目标时间段的第二判断向量发送给所述情感综合分析模块;
所述数据融合单元包括时间匹配处理器和融合分析处理器,所述时间匹配处理器根据同步时间点将第一判断向量划分为多个集合,每个集合与对应的一个第二判断向量匹配,所述融合分析处理器将匹配的第一判断向量集合与第二判断向量进行分析处理;
所述融合分析处理器根据下式对第一判断向量集合进行一级融合处理得到一级融合向量Jv1’:
其中,Jv1i’为一级融合向量的第i个元素值,N为第一判断向量集合中的向量数量,Jv1i(j)为第一判断向量集合中第j个向量的第i个元素值,N(i,j)为第一判断向量集合第j个向量的第i个元素值在本向量元素值中的排序值;
所述排序值指元素值按照从小到大排序时的序号;
所述融合分析处理器根据下式对一级融合向量和二级判断向量进行二级融合处理得到二级融合向量Jv2’:
其中,Jv2i’为二级融合向量中的第i个元素值;
所述情感判定单元包括数据接收处理器和情感输出处理器,所述数据接收处理器用于接收二级融合向量,所述情感输出处理器根据所述二级融合向量输出情感信息;
所述情感输出处理器从每个二级融合向量中检索出元素值最大的元素项,并将该元素项转换为对应的情绪,然后将情绪按照顺序排列并作为情感信息输出;
上文中出现的i和j均为用于表示序号的序数。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素可以更新的。

Claims (2)

1.一种基于多模态的视频情感分析***,其特征在于,包括音视频采集模块、表情识别模块、语音分析模块和情感综合分析模块;
所述音视频采集模块用于采集用户的面部视频信息和语音信息,所述表情识别模块用于对面部视频信息进行分析处理,所述语音分析模块用于对语音信息进行分析处理,所述情感综合分析模块基于视频分析结果和语音分析结果处理得到用户的情感信息;
所述音视频采集模块包括视频采集单元、音频采集单元和同步标记单元,所述视频采集单元用于采集用户的面部视频信息,所述音频采集单元用于采集用户的语音信息,所述同步标记单元用于在视频信息和语音信息中标记同步时间点;
所述表情识别模块包括面部特征提取单元和表情分析单元,所述面部特征提取单元用于从视频信息中提取用户的面部特征,所述表情分析单元基于面部特征对用户的情绪进行分析;
所述语音分析模块包括语音特征提取单元和语调分析单元,所述语音特征提取单元用于提取语音信息中的关键特征,所述语调分析单元根据关键特征对用户的情绪进行分析;
所述情感综合分析模块包括数据融合单元和情感判定单元,所述数据融合单元用于将表情识别模块的分析数据和语音分析模块的分析数据进行多模态融合,所述情感判定单元基于融合后的数据对用户的整体情感状态进行判定分析;
所述表情分析单元包括向量分析处理器、第一情绪特征寄存器和第一校对分析处理器,所述向量分析处理器用于对特征向量进行计算处理的得到表情数据,所述第一情绪特征寄存器用于保存每个情绪的表情数据,所述第一校对分析处理器将计算得到的表情数据和记录的表情数据进行比较并输出第一判断向量;
所述第一校对分析处理器根据下式计算出第一判断向量Jv1:
其中,Jv1i为第一判断向量的第i个元素值,Jv1共有n个元素,n为第一情绪特征寄存器记录的情绪数量,Ep1和Ep2分别为表情数据的横向比值和纵向比值,Ep1(i)和Ep2(i)为第i个情绪的横向比值和纵向比值;
所述语调分析单元包括第二情绪特征寄存器和第二校对分析处理器,所述第二情绪特征寄存器用于保存每个情绪的语调数据,所述第二校对分析处理器用于将峰值特征向量与语调数据进行比较并输出第二判断向量Jv2,具体公式如下:
其中,Jv2i表示第二判断向量的第i个元素值,Jv2共有n个元素,和/>为第i个情绪的语调特征向量,(/>,/>)为对应目标时间段内的语调特征向量;
所述数据融合单元包括时间匹配处理器和融合分析处理器,所述时间匹配处理器根据同步时间点将第一判断向量划分为多个集合,每个集合与对应的一个第二判断向量匹配,所述融合分析处理器将匹配的第一判断向量集合与第二判断向量进行分析处理;
所述融合分析处理器根据下式对第一判断向量集合进行一级融合处理得到一级融合向量Jv1’:
其中,Jv1i’为一级融合向量的第i个元素值,N为第一判断向量集合中的向量数量,Jv1i(j)为第一判断向量集合中第j个向量的第i个元素值,N(i,j)为第一判断向量集合第j个向量的第i个元素值在本向量元素值中的排序值;
所述融合分析处理器根据下式进行二级融合处理得到二级融合向量Jv2’:
其中,Jv2i’为二级融合向量中的第i个元素值。
2.如权利要求1所述的一种基于多模态的视频情感分析***,其特征在于,所述面部特征提取单元包括帧信息提取处理器、面部对准处理器、关键点定位处理器和特征向量处理器,所述帧信息提取处理器用于从视频信息中按序抽取帧信息,所述面部对准处理器用于从帧信息中获取局部的面部画面,所述关键点定位处理器用于在面部画面中获取关键点的位置信息,所述特征向量处理器根据关键点的位置信息计算出特征向量。
CN202311812195.5A 2023-12-27 2023-12-27 一种基于多模态的视频情感分析*** Active CN117556084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311812195.5A CN117556084B (zh) 2023-12-27 2023-12-27 一种基于多模态的视频情感分析***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311812195.5A CN117556084B (zh) 2023-12-27 2023-12-27 一种基于多模态的视频情感分析***

Publications (2)

Publication Number Publication Date
CN117556084A CN117556084A (zh) 2024-02-13
CN117556084B true CN117556084B (zh) 2024-03-26

Family

ID=89811171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311812195.5A Active CN117556084B (zh) 2023-12-27 2023-12-27 一种基于多模态的视频情感分析***

Country Status (1)

Country Link
CN (1) CN117556084B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007098560A1 (en) * 2006-03-03 2007-09-07 The University Of Southern Queensland An emotion recognition system and method
CN114399818A (zh) * 2022-01-05 2022-04-26 广东电网有限责任公司 一种多模态人脸情绪识别方法及装置
CN114724224A (zh) * 2022-04-15 2022-07-08 浙江工业大学 一种用于医疗护理机器人的多模态情感识别方法
CN116167015A (zh) * 2023-02-28 2023-05-26 南京邮电大学 一种基于联合交叉注意力机制的维度情感分析方法
WO2023139559A1 (en) * 2022-01-24 2023-07-27 Wonder Technology (Beijing) Ltd Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
CN116883888A (zh) * 2023-06-06 2023-10-13 交通银行股份有限公司 基于多模态特征融合的银行柜面服务问题溯源***及方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10204625B2 (en) * 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
US20180160200A1 (en) * 2016-12-03 2018-06-07 Streamingo Solutions Private Limited Methods and systems for identifying, incorporating, streamlining viewer intent when consuming media
CN110677598B (zh) * 2019-09-18 2022-04-12 北京市商汤科技开发有限公司 视频生成方法、装置、电子设备和计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007098560A1 (en) * 2006-03-03 2007-09-07 The University Of Southern Queensland An emotion recognition system and method
CN114399818A (zh) * 2022-01-05 2022-04-26 广东电网有限责任公司 一种多模态人脸情绪识别方法及装置
WO2023139559A1 (en) * 2022-01-24 2023-07-27 Wonder Technology (Beijing) Ltd Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
CN114724224A (zh) * 2022-04-15 2022-07-08 浙江工业大学 一种用于医疗护理机器人的多模态情感识别方法
CN116167015A (zh) * 2023-02-28 2023-05-26 南京邮电大学 一种基于联合交叉注意力机制的维度情感分析方法
CN116883888A (zh) * 2023-06-06 2023-10-13 交通银行股份有限公司 基于多模态特征融合的银行柜面服务问题溯源***及方法

Also Published As

Publication number Publication date
CN117556084A (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
Dehghan et al. Dager: Deep age, gender and emotion recognition using convolutional neural network
CN107358223B (zh) 一种基于yolo的人脸检测与人脸对齐方法
CN102214291B (zh) 一种快速准确的基于视频序列的人脸检测跟踪方法
CN110267061B (zh) 一种新闻拆条方法及***
CN111563452B (zh) 一种基于实例分割的多人体姿态检测及状态判别方法
CN103218603B (zh) 一种人脸自动标注方法及***
US20110025834A1 (en) Method and apparatus of identifying human body posture
CN108898125A (zh) 一种基于嵌入式人脸识别管理***
CN106778496A (zh) 活体检测方法及装置
CN109034099A (zh) 一种表情识别方法及装置
CN110232331B (zh) 一种在线人脸聚类的方法及***
CN110796101A (zh) 一种嵌入式平台的人脸识别方法及***
Yuan et al. Large scale sign language interpretation
CN107038400A (zh) 人脸识别装置及方法和利用其的目标人跟踪装置及方法
CN112101124A (zh) 一种坐姿检测方法及装置
US20240135956A1 (en) Method and apparatus for measuring speech-image synchronicity, and method and apparatus for training model
CN112257513A (zh) 一种手语视频翻译模型的训练方法、翻译方法及***
Agarwal et al. Face recognition based smart and robust attendance monitoring using deep CNN
Zheng et al. Attention assessment based on multi‐view classroom behaviour recognition
CN117556084B (zh) 一种基于多模态的视频情感分析***
CN110287933A (zh) 一种基于立体视频流的动态人脸识别***及识别方法
CN109472222A (zh) 一种基于计算机视觉技术的辅助二胡练习者姿态检测方法
Axyonov et al. Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language
CN111428577B (zh) 一种基于深度学习与视频放大技术的人脸活体判断方法
CN112149598A (zh) 一种侧脸评估方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant