CN105989370A - 基于属性层次的视音频融合方法 - Google Patents

基于属性层次的视音频融合方法 Download PDF

Info

Publication number
CN105989370A
CN105989370A CN201510082621.3A CN201510082621A CN105989370A CN 105989370 A CN105989370 A CN 105989370A CN 201510082621 A CN201510082621 A CN 201510082621A CN 105989370 A CN105989370 A CN 105989370A
Authority
CN
China
Prior art keywords
video
audio
training set
bag
phi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510082621.3A
Other languages
English (en)
Other versions
CN105989370B (zh
Inventor
李学龙
卢孝强
胡迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XiAn Institute of Optics and Precision Mechanics of CAS
Original Assignee
XiAn Institute of Optics and Precision Mechanics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XiAn Institute of Optics and Precision Mechanics of CAS filed Critical XiAn Institute of Optics and Precision Mechanics of CAS
Priority to CN201510082621.3A priority Critical patent/CN105989370B/zh
Publication of CN105989370A publication Critical patent/CN105989370A/zh
Application granted granted Critical
Publication of CN105989370B publication Critical patent/CN105989370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于属性层次的视音频融合方法。包括以下步骤:1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理;2】对预处理后的训练集数据进行属性特征提取;3】利用提取到的属性特征对测试集进行度量,得到分类结果。本发明提出了一种可以提高识别率,同时增强应用的可扩展性的基于属性层次的视音频融合方法。

Description

基于属性层次的视音频融合方法
技术领域
本发明属于多媒体技术领域,涉及一种利用视音频信息进行行为识别的方法,尤其涉及一种基于属性层次的视音频融合方法,可应用于公共安全管理、影视创作、体育健身等领域。
背景技术
近年来,随着人类与计算机间交互方式的变化,以及内容需求的增长,传统的交互方式(如键盘,鼠标,画面显示等)已难以满足人们的需求。这要求计算机能够获取多模式信息,包括图像,语音,文字等,进而完成一定的任务要求,获得期望输出。在主动获取多模式信息后,对其分别进行的处理以及信息融合处理是多模式处理的核心。
视音频信息融合是多模式信息融合的一种,它建立在获取特定任务的图像信息和声音信息的基础上,主要目的是获取统一的“感官体验”。现有的视音频融合方法主要为三类,已在文献“S T.Shivappa,M M.Trivedi,B D.Rao.Audiovisual information fusion in human–computer interfaces and intelligent environments:A survey.Proceedings of the IEEE,98(10):1692-1715,2010”中有较详细的叙述,分别是特征层,模型层和决策层:
一是特征层次融合方法,将获取的图像特征和声音特征在最低层次进行整合,进而组成一个较大的特征向量用以表示具体时刻的视音频融合信息,但是基于特征层的融合并没有具体的理论支撑,图像特征和声音特征来自不同空间,不宜直接进行整合,并且此层次的融合很难让两个通道的特征保持同步,同时当训练集和测试集的状况发生变化的时候,实验效果并不是很好。
二是模型层次融合方法,它是将图像信息和声音信息融合视作一个整体,在特定的模型内部进行融合。此种方法在自动语音识别和情 感识别中应用较多,其中应用较为普遍的模型是隐马尔科夫模型和动态贝叶斯模型。基于模型的融合是一次真正意义上有实际理论依据的多通道信息融合。虽然它和其他融合方法相比有时表现并不好,但它所达到的理论意义是值得肯定的。在另一方面,此种方法有模型局限性,现在只能用于上述两类识别任务,并不能进行扩展。
三是决策层次融合方法是一种基于声音和图像各自分类结果的融合问题。它针对于将视音频主要的分类结果进行融合,而不注重内部交互。决策层融合并不是在实现一个真正意义上的“整体大于局部之和”,并不包含视音频内部的交互。它对融合的假设建立在图像信息和声音信息是独立的基础上,但这与事实相反。不过,它有效的避免了类似于特征层融合中特征向量过大的问题。
不同的融合层次需要一定的理论背景和任务需求。当前计算机视音频信息融合已经在一些领域中的得到了应用,例如自动语音识别,目标定位及跟踪和情感识别等。
发明内容
为了解决背景技术中所存在的技术问题,本发明提出了一种基于属性层次的视音频融合方法
本发明的技术方案为:一种基于属性层次的视音频融合方法,其特殊之处在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;上述视频特征采用密集轨迹特征和运动边界特征,并根据密集轨迹特征和运动边界特征组成视频数据;
上述视频数据在帧的层次上进行密集采样,以保证特征点均等的 覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
上述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;上述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
C A : { c 1 A , c 2 A , . . . , c p A }
C V : { c 1 V , c 2 V , . . . , c q V }
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心。
min W , C A , C V Σ i = 1 n | | W φ A ( x i A ) φ V ( x i V ) - y i | | 2 2 + β 1 θ ( { x i A } i = 1 n , C A ) + β 2 θ ( { x i V } i = 1 n , C V ) + α | | W | | 2,1
其中,是视音频训练行为描述包;
CV和CA是视音频弱行为描述包(聚类中心);
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束;其中的函数用于获取聚类中心,即弱行为描述包,其具体如下:
θ ( { x i } i = 1 m , C ) = Σ i = 1 m min j = 1 , . . . , n { H ( x i , c j ) }
其中,是相应的训练行为包;H(xi,cj)用以测量两包之间的豪斯多夫距离;对于每个xi需要找出与它豪斯多夫距离最小的聚类中心cj,通过对所有最短距离的求和及不断改变C来获得局部最小值;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
φ ( x i A ) = [ s ( x i A , c 1 A ) , s ( x i A , c 2 A ) , . . . , s ( x i A , c p A ) ]
φ ( x i V ) = [ s ( x i V , c 1 V ) , s ( x i V , c 2 V ) , . . . , s ( x i V , c q V ) ]
上式中,用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离,而下式用于度量高斯分布下两包的相似度:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
3b]获取分类结果;将上述获取的相似度度量结果()和优化目标表达式所得到的超平面W共同带入下式:
y i = W φ A ( x i A ) φ V ( x i V )
其中,yi为对于测试视频的分类结果;
上述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
本发明的优点是:本发明所展现的视音频融合是基于属性层次的 融合。它通过对将视频和音频数据的底层特征进行整合,抽象成为属性特征,通过对训练和测试数据间属性特征的比对来进行行为识别。与现有方法相比,其提高了识别率,同时增强了应用的可扩展性。
附图说明
图1为本发明基于属性层次视音频融合方法的流程图。
具体实施方式
参见图1,一种基于属性层次的视音频融合方法,其特殊之处在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据(如:吃饭、握手、下车、跑步)建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;上述视频特征采用密集轨迹特征和运动边界特征,并根据密集轨迹特征和运动边界特征组成视频数据;
上述视频数据在帧的层次上进行密集采样,以保证特征点均等的覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
上述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;上述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
C A : { c 1 A , c 2 A , . . . , c p A }
C V : { c 1 V , c 2 V , . . . , c q V }
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通 过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心。
min W , C A , C V Σ i = 1 n | | W φ A ( x i A ) φ V ( x i V ) - y i | | 2 2 + β 1 θ ( { x i A } i = 1 n , C A ) + β 2 θ ( { x i V } i = 1 n , C V ) + α | | W | | 2,1
其中,是视音频训练行为描述包;
CV和CA是视音频弱行为描述包(聚类中心);
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束;其中的函数用于获取聚类中心,即弱行为描述包,其具体如下:
θ ( { x i } i = 1 m , C ) = Σ i = 1 m min j = 1 , . . . , n { H ( x i , c j ) }
其中,是相应的训练行为包;H(xi,cj)用以测量两包之间的豪斯多夫距离;对于每个xi需要找出与它豪斯多夫距离最小的聚类中心cj,通过对所有最短距离的求和及不断改变C来获得局部最小值;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
φ ( x i A ) = [ s ( x i A , c 1 A ) , s ( x i A , c 2 A ) , . . . , s ( x i A , c p A ) ]
φ ( x i V ) = [ s ( x i V , c 1 V ) , s ( x i V , c 2 V ) , . . . , s ( x i V , c q V ) ]
上式中,用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离,而下式用于度量高斯分布下两包的相似度:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
3b]获取分类结果;将上述获取的相似度度量结果()和优化目标表达式所得到的超平面W共同带入下式:
y i = W φ A ( x i A ) φ V ( x i V )
其中,yi为对于测试视频的分类结果;
上述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
本发明实现的具体步骤如下:
步骤1,对训练和测试视音频进行预处理。
(1a)提取视频特征。视频特征采用密集轨迹和运动边界特征。具体来说,本方法将主要利用文献“H.Wang,A.C.Schmid,et al.Dense trajectories and motion boundary descriptors for action recognition.International journal of computer vision,103(1):60-79,2013”提出的算法,即视频在帧的层次上进行密集采样,目的是保证特征点均等的覆盖所有的空间位置和尺度,尽可能的保留要被计算的轨迹信息。然后在同一尺度上计算两帧之间的光流场wt=(ut,vt),其中ut和vt是光流的水平和竖直方向。下一帧的确定与当前帧有关系,如下式:
P t + 1 = ( x t + 1 , y t + 1 ) = ( x t , y t ) + ( M * w t ) | ( x t , y y )
其中,M是3*3的中值滤波器。将若干Pi进行串联,便可获得针对某点的一个轨迹(Pt,Pt+1,Pt+2,...)。由于轨迹倾向于离初始点越来越远,故而将帧数设为L,即只取L数量的Pi。一个视频通常会获取多个轨迹特征,将其组成一个矩阵用以表达此视频。
(1b)提取音频特征。由于视频背景的多样性,可能会涉及到多种声音,因此我们对视频中声音提取多种特征以使保留最大信息,解决多种类问题。我们主要采取的声音特征有:零通过率、能量、能量 熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度等。通过对上述声音不同方面特征的提取,尽可能的保留原始声音各方面的特性。实现方面,上述特征在声音帧的层次上进行提取。一个音频会由上述多个特征进行联合表示,将其组成一个矩阵用以表达此音频。
(1c)聚类预处理。对所有训练视频特征和音频特征分别进行k-means聚类,其结果分别为:
C A : { c 1 A , c 2 A , . . . , c p A }
C V : { c 1 V , c 2 V , . . . , c q V }
步骤2,对预处理后的训练数据进行属性特征学习。
(2a)根据得到的预处理结果,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的弱行为描述包,即聚类中心。
min W , C A , C V Σ i = 1 n | | W φ A ( x i A ) φ V ( x i V ) - y i | | 2 2 + β 1 θ ( { x i A } i = 1 n , C A ) + β 2 θ ( { x i V } i = 1 n , C V ) + α | | W | | 2,1
式中,是视音频训练行为描述包,CV和CA是视音频弱行为描述包(聚类中心),W是相应的线性规划参数。由于我们将行为识别多分类问题转化为“一对多”问题,故而对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束。β1,β2以及α是平衡系数。而其中的函数用于获取聚类中心,即弱行为描述包,其具体如下:
θ ( { x i } i = 1 m , C ) = Σ i = 1 m min j = 1 , . . . , n { H ( x i , c j ) }
其中,是相应的训练行为包,对于每个xi需要找出与它豪斯多夫距离最小的聚类中心cj,通过对所有最短距离的求和及不断改变C来获得全局最小值。
(2b)对目标式进行优化。对一种有效的块协同下降法,即
首先固定W和CV,优化含CA的目标式;
再固定W和CA,优化含CV的目标式;
最后固定CV和CA,优化含W的目标式,重复三步骤进行直至最终收敛。
步骤3,测试。
(3a)获取相似度。把衡量集合之间的豪斯多夫(Hausdorff)距离用来测量训练行为描述包和弱行为描述包之间的相似度,具体如下:
φ ( x i A ) = [ s ( x i A , c 1 A ) , s ( x i A , c 2 A ) , . . . , s ( x i A , c p A ) ]
φ ( x i V ) = [ s ( x i V , c 1 V ) , s ( x i V , c 2 V ) , . . . , s ( x i V , c q V ) ]
上式中,用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离,而
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中δ是在所有弱行为描述包间的平均豪斯多夫距离,H(xi,cj)用以测量两包之间的豪斯多夫距离。
(3b)获取分类结果。将上述的相似度度量结果和训练所得到的超平面W共同带入下式:
y i = W φ A ( x i A ) φ V ( x i V )
其中,所得到的yi即为对于测试视频的分类结果。
步骤4,计算平均精度值。
在测试实验结果时,我们利用平均精度值(average precision,AP)来进行衡量。首先上述精度的概念可以从用两个角度来解释,一个是准确率,一个是召回率。把所有待检测的行为视频带入回归函数,得到各自的回归分数。在一定的阈值条件下,我们可以筛选出那些回归是正确的,那些回归是错误的。准确率是在被认为正确的检测视频中真正正确的比率,而召回率是被认为正确的检测视频中真正正确的数目占所有被检测视频的比率,如下式:
正确率=提取出的正确信息条数/提取出的信息条数
召回率=提取出的正确信息条数/样本中的信息条数
两者取值在0和1之间,数值越接近1,正确率或召回率就越高。而平均精度AP描述的是召回率和正确率所围成的面积,即:
AP = ∫ 0 1 p ( r ) dr
其中,p(r)表示正确率,r代表召回率。在实际计算中,正确率和召回率一般是离散的值,从而我们使用下式对AP进行计算:
AP = Σ k = 1 n P ( k ) Δr ( k )
在这里,k表示阈值内的行为视频所在的等级,P(k)指在k等级的正确率,Δr(k)指k到k-1的等级变化。我们采取如上的办法计算平均精度AP值。
本发明的效果可以通过以下仿真实验做进一步的说明。
1.仿真条件
本发明是利用CPU和GPU异构计算进行加速实验。
实验中使用的数据库为Hollywood2行为数据库。此数据库来源自文献“M.Marszalek,I.Laptev,C.Schmid.Actions in context.IEEE Conference on Computer Vision and Pattern Recognition,pages 2929-2936,2009”,其主要截取自69部电影,包含12类行为, 共1707个视频片段,选取823个视频片段用于训练,其余884个用于识别,训练和识别来自不同的电影,测试效果用平均精度值来衡量。

Claims (2)

1.一种基于属性层次的视音频融合方法,其特征在于:包括以下步骤:
1】在Hollywood2行为数据库基础上任意抽取4组行为数据建立实验数据库,所述实验数据库包括训练集和测试集;对训练集和测试集的视音频进行预处理,预处理方法具体如下:
1a]提取训练集与测试集的视频特征;所述视频特征采用密集轨迹特征和运动边界特征;并根据密集轨迹特征和运动边界特征组成视频数据;
所述视频数据在帧的层次上进行密集采样,以保证特征点均等的覆盖所有的空间位置;
1b]提取训练集与测试集的音频特征;
所述音频特征在声音帧的层次上进行提取;一个音频会由多个特征进行联合表示,将多个特征组成一个矩阵;所述矩阵为音频数据;
1c]聚类处理;对所有训练集中的视频特征和音频特征分别进行k-means聚类,其结果为预处理后的训练集数据,具体公式如下:
C A : { c 1 A , c 2 A , . . . , c p A }
C V : { c 1 V , c 2 V , . . . , c p V }
其中,由于视觉信息量远大于听觉信息量,故而q>p;
2】对预处理后的训练集数据进行属性特征提取;
根据得到的预处理后的训练集数据,提出以下的目标表达式,通过对它进行优化,以得到有监督聚类后的视音频弱行为描述包,即若干聚类中心。
min W , C A , C V Σ i = 1 n | | W φ A ( x i A ) φ V ( x i V ) - y i | | 2 2 + β 1 θ ( { x i A } i = 1 n , C A ) + β 2 θ ( { x i V } i = 1 n , C V ) + α | | W | | 2,1
其中,是视音频训练行为描述包;
CV和CA是视音频弱行为描述包;
W是相应的线性分类超平面;
β1,β2以及α是平衡系数;
对W采取l2,1-范式约束,使其既能满足能量约束,也同时能满足稀疏约束;其中的函数用于获取聚类中心,即弱行为描述包,其具体如下:
θ ( { x i } i = 1 m , C ) = Σ i = 1 m min j = 1 , . . . , n { H ( x i , c j ) }
其中,是相应的训练行为包;
H(xi,cj)用以测量两包之间的豪斯多夫距离;
对于每个xi需要找出与它豪斯多夫距离最小的聚类中心cj,通过对所有最短距离的求和及不断改变C来获得局部最小值;
3】利用提取到的属性特征对测试集进行度量,得到分类结果,具体方法如下:
3a]获取相似度;用豪斯多夫距离测量学习得到的弱行为描述包和测试视频行为包之间的相似度,具体如下:
φ ( x i A ) = [ s ( x i A , c 1 A ) , s ( x i A , c 2 A ) , . . . , s ( x i A , c p A ) ]
φ ( x i V ) = [ s ( x i V , c 1 V ) , s ( x i V , c 2 V ) , . . . , s ( x i V , c p V ) ]
上式中,用以度量待检测行为包和每个弱行为描述包间的相似度,并且是已进行归一化后的距离,而下式用于度量高斯分布下两包的相似度:
s(xi,cj)=exp(-H(xi,cj)2/δ)
其中,δ是在所有弱行为描述包间的平均豪斯多夫距离;
3b]获取分类结果;将上述获取的相似度度量结果和优化目标表达式所得到的超平面W共同带入下式:
y i = W φ A ( x i A ) φ V ( x i V )
其中,yi为对于测试视频的分类结果。
2.根据权利要求1所述的一种基于属性层次的视音频融合方法,其特征在于:所述步骤1】1b]中音频特征包括:零通过率、能量、能量熵、声谱中心和广度、声谱能量、声谱变化量、声谱对称性、梅尔频率倒谱系数、声音浓度。
CN201510082621.3A 2015-02-15 2015-02-15 基于属性层次的视音频融合方法 Active CN105989370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510082621.3A CN105989370B (zh) 2015-02-15 2015-02-15 基于属性层次的视音频融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510082621.3A CN105989370B (zh) 2015-02-15 2015-02-15 基于属性层次的视音频融合方法

Publications (2)

Publication Number Publication Date
CN105989370A true CN105989370A (zh) 2016-10-05
CN105989370B CN105989370B (zh) 2020-07-31

Family

ID=57041518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510082621.3A Active CN105989370B (zh) 2015-02-15 2015-02-15 基于属性层次的视音频融合方法

Country Status (1)

Country Link
CN (1) CN105989370B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820071A (zh) * 2021-02-25 2021-05-18 泰康保险集团股份有限公司 一种行为识别方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030133511A1 (en) * 2002-01-15 2003-07-17 Romain Cabasson Summarizing videos using motion activity descriptors correlated with audio features
US20040143604A1 (en) * 2003-01-21 2004-07-22 Steve Glenner Random access editing of media
CN102982634A (zh) * 2012-11-13 2013-03-20 上海交通大学 音视频融合的人员入侵检测方法
CN103402044A (zh) * 2013-08-07 2013-11-20 重庆大学 一种基于多源视频融合的目标识别与跟踪***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030133511A1 (en) * 2002-01-15 2003-07-17 Romain Cabasson Summarizing videos using motion activity descriptors correlated with audio features
US20040143604A1 (en) * 2003-01-21 2004-07-22 Steve Glenner Random access editing of media
CN102982634A (zh) * 2012-11-13 2013-03-20 上海交通大学 音视频融合的人员入侵检测方法
CN103402044A (zh) * 2013-08-07 2013-11-20 重庆大学 一种基于多源视频融合的目标识别与跟踪***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820071A (zh) * 2021-02-25 2021-05-18 泰康保险集团股份有限公司 一种行为识别方法和装置

Also Published As

Publication number Publication date
CN105989370B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
Hou et al. Signspeaker: A real-time, high-precision smartwatch-based sign language translator
Schuller Speech emotion recognition: Two decades in a nutshell, benchmarks, and ongoing trends
Ma et al. Audio-visual emotion fusion (AVEF): A deep efficient weighted approach
Nagrani et al. Voxceleb: a large-scale speaker identification dataset
Kim et al. Towards speech emotion recognition" in the wild" using aggregated corpora and deep multi-task learning
Zhang et al. Motion primitive-based human activity recognition using a bag-of-features approach
Harwath et al. Learning word-like units from joint audio-visual analysis
KR102601848B1 (ko) 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치
CN110516696A (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
Jin et al. Attention-block deep learning based features fusion in wearable social sensor for mental wellbeing evaluations
Benalcázar et al. Real-time hand gesture recognition based on artificial feed-forward neural networks and EMG
CN106294344A (zh) 视频检索方法和装置
Bu Human motion gesture recognition algorithm in video based on convolutional neural features of training images
Fang et al. Dynamic gesture recognition using inertial sensors-based data gloves
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN112418172A (zh) 基于多模信息智能处理单元的多模信息融合情感分析方法
Sheng et al. Siamese networks for weakly supervised human activity recognition
Debnath et al. RETRACTED ARTICLE: Audio-Visual Automatic Speech Recognition Towards Education for Disabilities
Sharma et al. LIVELINET: A Multimodal Deep Recurrent Neural Network to Predict Liveliness in Educational Videos.
Sharma et al. Visual speech recognition using optical flow and hidden Markov model
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
Qi et al. Music-driven dance generation
Liu et al. Automatic Detection of the Temporal Segmentation of Hand Movements in British English Cued Speech.
Scholten et al. Learning to recognise words using visually grounded speech
Wang et al. Cornerstone network with feature extractor: a metric-based few-shot model for chinese natural sign language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant