CN109783684B - 一种视频的情感识别方法、装置、设备及可读存储介质 - Google Patents

一种视频的情感识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN109783684B
CN109783684B CN201910072964.XA CN201910072964A CN109783684B CN 109783684 B CN109783684 B CN 109783684B CN 201910072964 A CN201910072964 A CN 201910072964A CN 109783684 B CN109783684 B CN 109783684B
Authority
CN
China
Prior art keywords
grained
video
fine
emotion recognition
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910072964.XA
Other languages
English (en)
Other versions
CN109783684A (zh
Inventor
吴小燕
何山
殷兵
柳林
刘聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201910072964.XA priority Critical patent/CN109783684B/zh
Publication of CN109783684A publication Critical patent/CN109783684A/zh
Application granted granted Critical
Publication of CN109783684B publication Critical patent/CN109783684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请提供了一种视频的情感识别方法、装置、设备及可读存储介质,方法包括:获取待识别视频,并基于指定的边界划分依据对待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;确定细粒度视频片段的至少一种情感识别结果,并通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果。本申请提供的情感识别方法具有较高的识别准确度。

Description

一种视频的情感识别方法、装置、设备及可读存储介质
技术领域
本申请涉及情感识别技术领域,更具体地说,涉及一种视频的情感识别方法、装置、设备及可读存储介质。
背景技术
情感识别指的是对指定对象的情感状态进行识别,目前的情感识别有多种,比如,基于语音的情感识别、基于视频的情感识别等,基于语音的情感识别通过提取声学特征和文本特征,利用SVM或卷积神经网络确定情感类别,与基于语音的情感识别不同,基于视频的情感识别无需显著的语言沟通,仅通过图像就可获得情感类别。目前,基于语音的情感识别相对比较成熟,但基于视频的情感识别因某些限制条件导致其识别准确率较低。
发明内容
有鉴于此,本申请提供了一种视频的情感识别方法、装置、设备及可读存储介质,用以针对视频提供一种具有较高识别准确率的情感识别方案,该技术方案如下:
一种视频的情感识别方法,包括:
获取待识别视频,并基于指定的边界划分依据对所述待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;
基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;
确定所述细粒度视频片段的至少一种情感识别结果,并通过所述细粒度视频片段的至少一种情感识别结果获得所述待识别视频的情感识别结果。
可选的,所述基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段,包括:
基于所述粗粒度视频片段的时空语义信息,确定所述粗粒度视频片段中每帧图像的情感识别结果;
基于所述粗粒度视频片段中每帧图像的情感识别结果,对所述粗粒度视频片段进一步进行细粒度的边界划分,获得所述细粒度视频片段。
可选的,任一帧图像的情感识别结果通过该帧图像属于对应情感类别的分数表征;
所述基于所述粗粒度视频片段中每帧图像的情感识别结果,对所述粗粒度视频片段进一步进行细粒度的边界划分,获得所述细粒度视频片段,包括:
将所述粗粒度视频片段分割为多个预设长度的子片段,并确定每个子片段的分数,其中,任一子片段的分数为该子片段中各帧图像的分数中的最高分数;
基于相邻子片段之间的分数差以及预设的分数阈值,对所述粗粒度视频片段进行细粒度的边界划分,获得所述细粒度视频片段。
可选的,所述确定所述细粒度视频片段的至少一种情感识别结果,包括:
通过所述粗粒度视频片段中每帧图像的情感识别结果获得所述细粒度视频片段的第一情感识别结果;
和/或,
基于所述细粒度视频片段中每帧图像的静态图像特征,获取所述细粒度视频片段的第二情感识别结果;
和/或,
基于所述细粒度视频片段的视频时序特征,获得所述细粒度视频片段的第三情感识别结果。
可选的,所述细粒度视频片段的情感识别结果包括:所述第一情感识别结果、所述第二情感识别结果和所述第三情感识别结果;
所述待识别视频的情感识别结果为对所述第一情感识别结果、所述第二情感识别结果和所述第三情感识别结果进行加权融合得到的结果。
可选的,所述基于所述细粒度视频片段中每个视频帧的静态图像特征,获取所述细粒度视频片段的第二情感识别结果,包括:
基于所述细粒度视频片段中每帧图像的全局特征和局部特征,确定所述细粒度视频片段的第二情感识别结果;
其中,任一帧图像的全局特征为整幅图像的特征,该帧图像的局部特征为该帧图像中待识别对象的特征。
一种视频的情感识别装置,包括:视频获取模块、粗粒度视频片段获取模块、细粒度视频片段获取模块和情感识别模块;
所述视频获取模块,用于获取待识别视频;
所述粗粒度视频片段获取模块,用于基于指定的边界划分依据对所述待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;
所述细粒度视频片段获取模块,用于基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;
所述情感识别模块,用于确定所述细粒度视频片段的至少一种情感识别结果,并通过所述细粒度视频片段的至少一种情感识别结果获得所述待识别视频的情感识别结果。
可选的,所述粗粒度视频片段获取模块包括:识别结果确定子模块和粗粒度视频片段获取子模块;
所述识别结果确定子模块,用于基于所述粗粒度视频片段的时空语义信息,确定所述粗粒度视频片段中每帧图像的情感识别结果;
所述细粒度视频片段确定子模块,用于基于所述粗粒度视频片段中每帧图像的情感识别结果,对所述粗粒度视频片段进一步进行细粒度的边界划分,获得所述细粒度视频片段。
可选的,所述情感识别模块包括:第一识别结果确定子模块,和/或第二识别结果确定子模块,和/或第三识别结果确定子模块;
所述第一识别结果确定子模块,用于通过所述粗粒度视频片段中每帧图像的情感识别结果获得所述细粒度视频片段的第一情感识别结果;
所述第二识别结果确定子模块,用于基于所述细粒度视频片段中每帧图像的静态图像特征,获取所述细粒度视频片段的第二情感识别结果;
所述第三识别结果确定子模块,用于基于所述细粒度视频片段的视频时序特征,获得所述细粒度视频片段的第三情感识别结果。
可选的,所述第二识别结果确定子模块,具体用于基于所述细粒度视频片段中每帧图像的全局特征和局部特征,确定所述细粒度视频片段的第二情感识别结果;
其中,任一帧图像的全局特征为整幅图像的特征,该帧图像的局部特征为该帧图像中待识别对象的特征。
一种视频的情感识别设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现所述视频的情感识别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述视频的情感识别方法的各个步骤。
从上述的技术方案可以看出,本申请提供的视频的情感识别方法,在获得待识别视频后,首先对待识别视频进行情感识别边界的粗略划分,以获得粗粒度视频片段,鉴于直接对粗粒度视频片段进行情感识别会导致识别结果准确度较低,本申请进一步对粗粒度视频片段进行情感识别边界的精细划分,以得到细粒度视频片段,最后确定细粒度视频片段的至少一种情感识别结果,通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果。本申请提供的视频的情感识别方法,通过边界的粗划分和边界的细划分,可获得比较准确的、用于情感识别的视频片段,对比较准确的视频片段进行情感识别,可获得比较准确的情感识别结果,另外,本申请能够获得细粒度视频片段的多种情感识别结果,通过细粒度视频片段的多种情感识别结果确定的最终结果更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的视频的情感识别方法的流程示意图;
图2为本申请实施例提供的视频的情感识别方法中,基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频段的流程示意图;
图3为本申请实施例提供的静态图像情感识别模型的结构意图;
图4为本申请实施例提供的视频的情感识别装置的结构示意图;
图5为本申请实施例提供的视频的情感识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了针对视频获得识别效果较好的情感识别方案,本案发明人进行了深入研究:
起初的思路是:对待识别视频进行粗粒度的边界划分(即粗略定位出情绪的始末位置),获得真正用于情感识别的视频片段,然后利用3D卷积网络从该视频片段中提取视频时序特征,最后,利用循环神经网络如长短期记忆网络LSTM基于视频时序特征确定待识别视频的情感类别。
发明人经研究发现:采用3D卷积网络和LSTM进行情感识别的关键在于:精确划分出情感边界,若情感边界划分不准确,会导致情感识别结果偏差严重,即识别准确度不高,另外,上述情感识别方式采用的识别特征比较单一,识别特征比较单一也会影响识别结果的准确度。
鉴于上述问题,发明人进行了深入研究,最终针对视频提出了一种效果较好的情感识别方案。接下来通过下述实施例对本申请提供的视频的情感识别方法进行介绍。
请参阅图1,示出了本申请实施例提供的视频的情感识别方法的流程示意图,该方法可以包括:
步骤S101:获取待识别视频。
其中,待识别视频为包含待识别对象的视频,对待识别视频进行情感识别即对待识别视频中待识别对象的情感类别进行识别。
步骤S102:基于指定的边界划分依据,对待识别视频进行粗粒度的边界划分,获得粗粒度视频片段。
其中,指定的边界划分依据可以但不限为指定的待识别对象、指定事件、关键帧等。需要说明的是,对于明确指定了待识别对象的视频而言,可在待识别视频中识别和跟踪待识别对象,从而找到划分边界;对于未指定具体对象的视频而言,可基于指定事件、关键帧等在待识别视频中找到划分边界,其中,指定事件可基于具体需求设定。另外,本实施例中的粗粒度视频片段可能为一个,也可能为多个。
步骤S103:基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段。
粗粒度视频片段是通过对待识别视频进行粗粒度的边界划分得到的视频片段,由于粗粒度的边界通常不准确,因此,若直接对基于粗粒度的边界划分结果获得粗粒度视频片段进行情感识别,势必导致识别结果不准确,有鉴于此,本实施例在进行粗粒度的边界划分的基础上,进一步进行细粒度的边界划分,即,对粗粒度视频片段进一步进行细粒度的边界划分。
步骤S104:确定细粒度视频片段的至少一种情感识别结果,并通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果。
其中,细粒度视频片段可能为一个,也可能为多个。细粒度视频片段的一种情感识别结果基于一种识别特征确定,优选的,可基于多种不同的识别特征获得细粒度视频片段的多种情感识别结果,融合细粒度视频片段的多种情感识别结果,获得待识别视频的情感识别结果。
本申请实施例提供的视频的情感识别方法,在获得待识别视频后,首先对待识别视频进行情感识别边界的粗略划分,以获得粗粒度视频片段,鉴于直接对粗粒度视频片段进行情感识别会导致识别结果准确度较低,本申请进一步对粗粒度视频片段进行情感识别边界的精细划分,以得到细粒度视频片段,最后确定细粒度视频片段的至少一种情感识别结果,通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果。本申请实施例提供的视频的情感识别方法,通过边界的粗划分和边界的细划分,可获得比较准确的、用于情感识别的视频片段,对比较准确的视频片段进行情感识别,可获得比较准确的情感识别结果,另外,本申请实施例可基于多种识别特征获得细粒度视频片段的多种情感识别结果,通过将细粒度视频片段的多种情感识别结果进行融合,可获得更加准确的情感识别结果。
在本申请的另一实施例中,对上述实施例中的“基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段”进行介绍。
请参阅图2,示出了基于粗粒度视频片段的时空语义信息,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段的实现过程的流程示意图,可以包括:
步骤S201:基于粗粒度视频片段的时空语义信息,确定粗粒度视频片段中每帧图像的情感识别结果。
具体地,可通过卷积-反卷积(Convolution-De-Convolution,CDC)滤波器预测粗粒度视频片段中每帧图像的情感识别结果。
需要说明的是,CDC滤波器是将两个方向操作(即卷积和反卷积)组合的滤波器,它能够同时进行时间上采样操作和空间下采样操作以预测帧粒度处的动作。基于此,为了能够精确定位出真正用于情感识别的视频片段的边界,本实施例先采用CDC滤波器预测粗粒度视频片段中每帧图像的情感识别结果。
步骤S202:基于粗粒度视频片段中每帧图像的情感识别结果,对粗粒度视频片段进一步进行细粒度的边界划分,获得细粒度视频片段。
其中,任一帧图像的情感识别结果可通过该帧图像属于对应情感类别的分数表征,一帧图像属于对应情感类别的分数可以为该帧图像属于对应情感类别的概率。
在一种可能的实现方式中,基于粗粒度视频片段中每帧图像的情感识别结果,对粗粒度视频片段进一步进行细粒度的边界划分,获得细粒度视频片段的过程可以包括:将粗粒度视频片段分割为多个预设长度的子片段,并确定每个子片段的分数,其中,任一子片段的分数为该子片段中各帧图像的分数中的最高分数;基于相邻子片段之间的分数差以及预设的分数阈值,对粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段。
可以理解的是,若相邻子片段之间的分数差小于预设的分数阈值,则表明相邻的两个视频片段的分数接近,可确定这两个相邻的视频片段属于相同的情感类别,基于此,本实施例可将子片段之间的分数间隔小于预设的分数阈值的连续子片段合并,从而获得细粒度视频片段。
示例性的,基于粗粒度的边界划分结果获得粗粒度视频片段为1~128帧,1~128帧的情感类别为微笑:将粗粒度视频片段长度的1/8作为窗口尺寸(即窗口尺寸为128/8=16),在粗粒度视频片段上滑动窗口,取当前窗口中16帧图像的分数中的最高分数作为当前窗口中子片段的分数,比如,当前窗口中16帧图像的分数中的最高分数为0.7,则当前窗口中子片段的分数为0.7,假设1~128帧中的1~16帧的情感类别为微笑的分数为0.8,17~32帧的情感类别为微笑的分数为0.5,33~48帧的情感类别为微笑的分数为0.6,假设预设的分数阈值为0.6,由于1~16帧与17~32帧的分数相差0.1,小于0.6,17~32帧与33~48帧的分数相差0.3,小于0.6,因此,1~48帧为细粒度视频片段。
以下对上述实施例中的“步骤S104:确定细粒度视频片段的至少一种情感识别结果,并通过细粒度视频片段的至少一种情感识别结果获得待识别视频的情感识别结果”进行介绍。
确定细粒度视频片段的至少一种情感识别结果的过程可以包括:通过粗粒度视频片段中每帧图像的情感识别结果(该结果可通过CDC滤波器预测)获得细粒度视频片段的第一情感识别结果;和/或,基于细粒度视频片段中每帧图像的静态图像特征,获取细粒度视频片段的第二情感识别结果;和/或,基于细粒度视频片段的视频时序特征,获得细粒度视频片段的第三情感识别结果。
其中,通过粗粒度视频片段中每帧图像的情感识别结果获得细粒度视频片段的第一情感识别结果,包括:从粗粒度视频片段中各帧图像的情感识别结果中获取细粒度视频片段中各帧图像的情感识别结果,将细粒度视频片段中各帧图像的情感识别结果进行融合(比如加权求平均),融合后获得细粒度视频片段的第一情感识别结果。需要说明的是,也可将细粒度视频片段中各帧图像的情感识别结果作为细粒度视频片段的第一情感识别结果。
其中,基于细粒度视频片段中每个视频帧的静态图像特征,获取细粒度视频片段的第二情感识别结果,包括:基于细粒度视频片段中每帧图像的全局特征和局部特征,确定细粒度视频片段的第二情感识别结果。需要说明的是,任一帧图像的全局特征为整幅图像的特征,其可以包括背景信息、对象交互关系信息等,该帧图像的局部特征为该帧图像中待识别对象的特征,其可以包括待识别对象的面部表情、身体动作等信息。本实施例基于全局特征和局部特征进行情感识别能够提升情感识别效果。
在一种可能的实现方式中,可基于如图3所示的情感识别模型确定细粒度视频片段的第二情感识别结果,如图3所示,可通过两个卷积神经网络CNN分别提取每个视频帧的全局特征和局部特征,两个CNN的结构可以相同也可以不同,两个CNN中,其中一个CNN的输入为整幅图像,其提取的是全局特征,另一个CNN的输入为对应图像中待识别对象所在区域的图像,其提取的是局部特征,本实施例在两个CNN后分别连接全连接层,两个全连接层输出的两个向量拼接后依次经1×1卷积层、全连接和softmax,最后由softmax输出情感识别结果。图3示出的情感识别模型的损失函数可采用基于softmax的交叉熵,具体公式如下:
Figure BDA0001957826710000091
其中,xi(i=1...N)和xj(j=1...L)为模型的输出。
需要说明的是,细粒度视频片段中各帧图像分别输入图3示出的情感识别模型,情感识别模型输出每帧图像的情感识别结果,在获得细粒度视频片段中各帧图像的情感识别结果后,可将各帧图像的情感识别结果进行融合(比如加权求平均),融合后获得细粒度视频片段的第二情感识别结果。需要说明的是,也可将情感识别模型输出的、细粒度视频片段中各帧图像的情感识别结果作为细粒度视频片段的第二情感识别结果。
其中,基于细粒度视频片段的视频时序特征,获得细粒度视频片段的第三情感识别结果的过程可以包括:通过3D卷积网络(即C3D)从细粒度视频片段提取视频时序特征,利用循环神经网络RNN(如长短期记忆网络LSTM)基于视频时序特征确定细粒度视频片段中各个视频帧的情感识别结果,将细粒度视频片段中各个视频帧的情感识别结果进行融合(比如加权求平均),融合后获得细粒度视频片段的第三情感识别结果。需要说明的是,也可将RNN输出的、细粒度视频片段中各个视频帧的情感识别结果作为细粒度视频片段的第三情感识别结果。
需要说明的是,本申请实施例可将细粒度视频片段的第一情感识别结果、第二情感识别结果、第三情感识别结果中的任意一种结果作为待识别视频的情感识别结果,为了能够提升识别的准确度,可将第一情感识别结果、第二情感识别结果、第三情感识别结果中的任意两种情感识别结果进行融合(比如两种结果加权求平均),融合后的结果作为待识别视频的情感识别结果,优选的,可将第一情感识别结果、第二情感识别结果、第三情感识别结果进行融合(比如三种结果加权求平均),融合后的结果作为待识别视频的情感识别结果。
本申请实施例提供的情感识别方法,一方面,可准确的对待识别视频进行情感边界划分,从而获得比较准确的视频片段,基于准确的视频片段进行情感识别结果,可获得准确的识别结果,另一方面,针对细粒度视频片段,基于多种识别特征分别进行情感识别,将获得的多种情感识别结果进行融合可进一步提升识别准确度。
本申请实施例还提供了一种视频的情感识别装置,下面对本申请实施例提供的视频的情感识别装置进行描述,下文描述的视频的情感识别装置与上文描述的视频的情感识别方法可相互对应参照。
请参阅图4,示出了本申请实施例提供的一种视频的情感识别装置的结构示意图,如图4所示,该装置可以包括:视频获取模块401、粗粒度视频片段获取模块402、细粒度视频片段获取模块403和情感识别模块404。
视频获取模块401,用于获取待识别视频。
粗粒度视频片段获取模块402,用于基于指定的边界划分依据对所述待识别视频进行粗粒度的边界划分,获得粗粒度视频片段。
细粒度视频片段获取模块403,用于基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段。
情感识别模块404,用于确定所述细粒度视频片段的至少一种情感识别结果,并通过所述细粒度视频片段的至少一种情感识别结果获得所述待识别视频的情感识别结果。
本申请提供的视频的情感识别方法,通过边界的粗划分和边界的细划分,可获得比较准确的、用于情感识别的视频片段,对比较准确的视频片段进行情感识别,可获得比较准确的情感识别结果,另外,本申请能够获得细粒度视频片段的多种情感识别结果,通过细粒度视频片段的多种情感识别结果确定的最终结果更加准确。
在一种可能的实现方式中,上述实施例提供的视频的情感识别装置中的粗粒度视频片段获取模块402可以包括:识别结果确定子模块和粗粒度视频片段获取子模块。
所述识别结果确定子模块,用于基于所述粗粒度视频片段的时空语义信息,确定所述粗粒度视频片段中每帧图像的情感识别结果;
所述细粒度视频片段确定子模块,用于基于所述粗粒度视频片段中每帧图像的情感识别结果,对所述粗粒度视频片段进一步进行细粒度的边界划分,获得所述细粒度视频片段。
在一种可能的实现方式中,任一帧图像的情感识别结果通过该帧图像属于对应情感类别的分数表征。
所述细粒度视频片段确定子模块,具体用于将所述粗粒度视频片段分割为多个预设长度的子片段,并确定每个子片段的分数,其中,任一子片段的分数为该子片段中各帧图像的分数中的最高分数;基于相邻子片段之间的分数差以及预设的分数阈值,对所述粗粒度视频片段进行细粒度的边界划分,获得所述细粒度视频片段。
在一种可能的实现方式中,上述实施例提供的视频的情感识别装置中的情感识别模块404可以包括:第一识别结果确定子模块,和/或第二识别结果确定子模块,和/或第三识别结果确定子模块。
所述第一识别结果确定子模块,用于通过所述粗粒度视频片段中每帧图像的情感识别结果获得所述细粒度视频片段的第一情感识别结果。
所述第二识别结果确定子模块,用于基于所述细粒度视频片段中每帧图像的静态图像特征,获取所述细粒度视频片段的第二情感识别结果。
所述第三识别结果确定子模块,用于基于所述细粒度视频片段的视频时序特征,获得所述细粒度视频片段的第三情感识别结果。
在一种可能的实现方式中,所述细粒度视频片段的情感识别结果包括:所述第一情感识别结果、所述第二情感识别结果和所述第三情感识别结果,所述待识别视频的情感识别结果为对所述第一情感识别结果、所述第二情感识别结果和所述第三情感识别结果进行加权融合得到的结果。
在一种可能的实现方式中,所述第二识别结果确定子模块,具体用于基于所述细粒度视频片段中每帧图像的全局特征和局部特征,确定所述细粒度视频片段的第二情感识别结果;
其中,任一帧图像的全局特征为整幅图像的特征,该帧图像的局部特征为该帧图像中待识别对象的特征。
本申请实施例还提供了一种视频的情感识别设备,请参阅图5,示出了该视频的情感识别设备的结构示意图,该设备可以包括:至少一个处理器501,至少一个通信接口502,至少一个存储器503和至少一个通信总线504;
在本申请实施例中,处理器501、通信接口502、存储器503、通信总线504的数量为至少一个,且处理器501、通信接口502、存储器503通过通信总线504完成相互间的通信;
处理器501可能是一个中央处理器CPU,或者是特定集成电路ASIC
(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器503可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待识别视频,并基于指定的边界划分依据对所述待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;
基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;
确定所述细粒度视频片段的至少一种情感识别结果,并通过所述细粒度视频片段的至少一种情感识别结果获得所述待识别视频的情感识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待识别视频,并基于指定的边界划分依据对所述待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;
基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;
确定所述细粒度视频片段的至少一种情感识别结果,并通过所述细粒度视频片段的至少一种情感识别结果获得所述待识别视频的情感识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种视频的情感识别方法,其特征在于,包括:
获取待识别视频,并基于指定的边界划分依据对所述待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;
基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;
确定所述细粒度视频片段的至少一种情感识别结果,并通过所述细粒度视频片段的至少一种情感识别结果获得所述待识别视频的情感识别结果;
其中,所述基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段,包括:
基于所述粗粒度视频片段的时空语义信息,确定所述粗粒度视频片段中每帧图像的情感识别结果;
基于所述粗粒度视频片段中每帧图像的情感识别结果,对所述粗粒度视频片段进一步进行细粒度的边界划分,获得所述细粒度视频片段。
2.根据权利要求1所述的情感识别方法,其特征在于,任一帧图像的情感识别结果通过该帧图像属于对应情感类别的分数表征;
所述基于所述粗粒度视频片段中每帧图像的情感识别结果,对所述粗粒度视频片段进一步进行细粒度的边界划分,获得所述细粒度视频片段,包括:
将所述粗粒度视频片段分割为多个预设长度的子片段,并确定每个子片段的分数,其中,任一子片段的分数为该子片段中各帧图像的分数中的最高分数;
基于相邻子片段之间的分数差以及预设的分数阈值,对所述粗粒度视频片段进行细粒度的边界划分,获得所述细粒度视频片段。
3.根据权利要求1所述的情感识别方法,其特征在于,所述确定所述细粒度视频片段的至少一种情感识别结果,包括:
通过所述粗粒度视频片段中每帧图像的情感识别结果获得所述细粒度视频片段的第一情感识别结果;
和/或,
基于所述细粒度视频片段中每帧图像的静态图像特征,获取所述细粒度视频片段的第二情感识别结果;
和/或,
基于所述细粒度视频片段的视频时序特征,获得所述细粒度视频片段的第三情感识别结果。
4.根据权利要求3所述的情感识别方法,其特征在于,所述细粒度视频片段的情感识别结果包括:所述第一情感识别结果、所述第二情感识别结果和所述第三情感识别结果;
所述待识别视频的情感识别结果为对所述第一情感识别结果、所述第二情感识别结果和所述第三情感识别结果进行加权融合得到的结果。
5.根据权利要求3所述的情感识别方法,其特征在于,所述基于所述细粒度视频片段中每个视频帧的静态图像特征,获取所述细粒度视频片段的第二情感识别结果,包括:
基于所述细粒度视频片段中每帧图像的全局特征和局部特征,确定所述细粒度视频片段的第二情感识别结果;
其中,任一帧图像的全局特征为整幅图像的特征,该帧图像的局部特征为该帧图像中待识别对象的特征。
6.一种视频的情感识别装置,其特征在于,包括:视频获取模块、粗粒度视频片段获取模块、细粒度视频片段获取模块和情感识别模块;
所述视频获取模块,用于获取待识别视频;
所述粗粒度视频片段获取模块,用于基于指定的边界划分依据对所述待识别视频进行粗粒度的边界划分,获得粗粒度视频片段;
所述细粒度视频片段获取模块,用于基于所述粗粒度视频片段的时空语义信息,对所述粗粒度视频片段进行细粒度的边界划分,获得细粒度视频片段;
所述情感识别模块,用于确定所述细粒度视频片段的至少一种情感识别结果,并通过所述细粒度视频片段的至少一种情感识别结果获得所述待识别视频的情感识别结果;
其中,所述粗粒度视频片段获取模块包括:识别结果确定子模块和粗粒度视频片段获取子模块;
所述识别结果确定子模块,用于基于所述粗粒度视频片段的时空语义信息,确定所述粗粒度视频片段中每帧图像的情感识别结果;
所述细粒度视频片段确定子模块,用于基于所述粗粒度视频片段中每帧图像的情感识别结果,对所述粗粒度视频片段进一步进行细粒度的边界划分,获得所述细粒度视频片段。
7.根据权利要求6所述的视频的情感识别装置,其特征在于,所述情感识别模块包括:第一识别结果确定子模块,和/或第二识别结果确定子模块,和/或第三识别结果确定子模块;
所述第一识别结果确定子模块,用于通过所述粗粒度视频片段中每帧图像的情感识别结果获得所述细粒度视频片段的第一情感识别结果;
所述第二识别结果确定子模块,用于基于所述细粒度视频片段中每帧图像的静态图像特征,获取所述细粒度视频片段的第二情感识别结果;
所述第三识别结果确定子模块,用于基于所述细粒度视频片段的视频时序特征,获得所述细粒度视频片段的第三情感识别结果。
8.根据权利要求7所述的视频的情感识别装置,其特征在于,所述第二识别结果确定子模块,具体用于基于所述细粒度视频片段中每帧图像的全局特征和局部特征,确定所述细粒度视频片段的第二情感识别结果;
其中,任一帧图像的全局特征为整幅图像的特征,该帧图像的局部特征为该帧图像中待识别对象的特征。
9.一种视频的情感识别设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~5中任一项所述的视频的情感识别方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~5中任一项所述的视频的情感识别方法的各个步骤。
CN201910072964.XA 2019-01-25 2019-01-25 一种视频的情感识别方法、装置、设备及可读存储介质 Active CN109783684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910072964.XA CN109783684B (zh) 2019-01-25 2019-01-25 一种视频的情感识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910072964.XA CN109783684B (zh) 2019-01-25 2019-01-25 一种视频的情感识别方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109783684A CN109783684A (zh) 2019-05-21
CN109783684B true CN109783684B (zh) 2021-07-06

Family

ID=66502581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910072964.XA Active CN109783684B (zh) 2019-01-25 2019-01-25 一种视频的情感识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN109783684B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519653B (zh) * 2019-07-22 2021-09-03 同济大学 一种基于事实转移的情感嵌入视频描述方法
CN110473571A (zh) * 2019-07-26 2019-11-19 北京影谱科技股份有限公司 基于短视频语音的情感识别方法和装置
CN110705490B (zh) * 2019-10-09 2022-09-02 中国科学技术大学 视觉情感识别方法
CN113496156B (zh) * 2020-03-20 2023-12-19 阿里巴巴集团控股有限公司 一种情感预测方法及其设备
CN112906488A (zh) * 2021-01-26 2021-06-04 广东电网有限责任公司 一种基于人工智能的安防视频质量评价***
CN113128353B (zh) * 2021-03-26 2023-10-24 安徽大学 面向自然人机交互的情绪感知方法及其***
CN115761569B (zh) * 2022-10-20 2023-07-04 之江实验室 一种基于情感分类的视频情感定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101715585A (zh) * 2007-04-20 2010-05-26 谷歌公司 媒体广告
CN102117313A (zh) * 2010-12-29 2011-07-06 天脉聚源(北京)传媒科技有限公司 一种视频检索方法和***
CN103426176A (zh) * 2013-08-27 2013-12-04 重庆邮电大学 基于改进直方图和聚类算法的视频镜头检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169409A (zh) * 2017-03-31 2017-09-15 北京奇艺世纪科技有限公司 一种情感识别方法及装置
CN107247919A (zh) * 2017-04-28 2017-10-13 深圳大学 一种视频情感内容的获取方法及***
US10417484B2 (en) * 2017-05-30 2019-09-17 Wipro Limited Method and system for determining an intent of a subject using behavioural pattern
CN107808146B (zh) * 2017-11-17 2020-05-05 北京师范大学 一种多模态情感识别分类方法
CN108376234B (zh) * 2018-01-11 2021-03-16 中国科学院自动化研究所 用于视频图像的情感识别***及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101715585A (zh) * 2007-04-20 2010-05-26 谷歌公司 媒体广告
CN102117313A (zh) * 2010-12-29 2011-07-06 天脉聚源(北京)传媒科技有限公司 一种视频检索方法和***
CN103426176A (zh) * 2013-08-27 2013-12-04 重庆邮电大学 基于改进直方图和聚类算法的视频镜头检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于人脸多模态的视频分类算法的设计与实现";李丹锦;《电子设计工程》;20181220;第26卷(第24期);第151页第2节,第152页第3-4节,图1 *
"多模态情感识别研究进展";何俊等;《计算机应用研究》;20181130(第11期);3201-3205页 *

Also Published As

Publication number Publication date
CN109783684A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109783684B (zh) 一种视频的情感识别方法、装置、设备及可读存储介质
US11062123B2 (en) Method, terminal, and storage medium for tracking facial critical area
AU2016352215B2 (en) Method and device for tracking location of human face, and electronic equipment
CN109977262B (zh) 从视频中获取候选片段的方法、装置及处理设备
CN109344789B (zh) 人脸跟踪方法及装置
Pfeuffer et al. Semantic segmentation of video sequences with convolutional lstms
WO2019023921A1 (zh) 一种手势识别方法、装置及设备
CN113378600B (zh) 一种行为识别方法及***
CN109033955B (zh) 一种人脸跟踪方法和***
Jin et al. Eigenlanes: Data-driven lane descriptors for structurally diverse lanes
CN112749666B (zh) 一种动作识别模型的训练及动作识别方法与相关装置
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN109977872B (zh) 动作检测方法、装置、电子设备及计算机可读存储介质
CN112749726B (zh) 目标检测模型的训练方法、装置、计算机设备和存储介质
US11871125B2 (en) Method of processing a series of events received asynchronously from an array of pixels of an event-based light sensor
Kumar et al. Key frame extraction from consumer videos using sparse representation
WO2013100791A1 (en) Method of and apparatus for scalable frame rate up-conversion
CN115334335B (zh) 视频插帧方法及装置
CN110147724B (zh) 用于检测视频中的文本区域的方法、装置、设备以及介质
Bae et al. Dual-dissimilarity measure-based statistical video cut detection
CN114064972A (zh) 视频类型确定方法及相关装置
JP2009302723A (ja) 画像処理装置、方法およびプログラム
CN111684491A (zh) 目标跟踪方法、目标跟踪装置和无人机
CN117292307B (zh) 一种基于粗时间粒度的时序动作提名生成方法及***
CN113434731B (zh) 音乐视频流派分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant