CN109344781A - 一种基于声音视觉联合特征的视频内表情识别方法 - Google Patents

一种基于声音视觉联合特征的视频内表情识别方法 Download PDF

Info

Publication number
CN109344781A
CN109344781A CN201811182972.1A CN201811182972A CN109344781A CN 109344781 A CN109344781 A CN 109344781A CN 201811182972 A CN201811182972 A CN 201811182972A CN 109344781 A CN109344781 A CN 109344781A
Authority
CN
China
Prior art keywords
sound
sampled
video
audio
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811182972.1A
Other languages
English (en)
Inventor
张奕
谢锦滨
顾寅铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jilian Network Technology Co Ltd
Original Assignee
Shanghai Jilian Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jilian Network Technology Co Ltd filed Critical Shanghai Jilian Network Technology Co Ltd
Priority to CN201811182972.1A priority Critical patent/CN109344781A/zh
Publication of CN109344781A publication Critical patent/CN109344781A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于声音视觉联合特征的视频内表情识别方法,该方法包括以下步骤:步骤S1:对输入视频在视觉和声音两个维度上进行采样,得到采样图像帧和采样音频片段;步骤S2:在采样图像帧上进行视觉特征提取,获得视觉特征向量,在采样声音片段上进行声音特征提取,获得声音特征向量;步骤S3:融合视觉和声音特征向量,设计联合分类器对视觉声音联合特征进行分类,得到表情检测分类结果。

Description

一种基于声音视觉联合特征的视频内表情识别方法
技术领域
本发明涉及一种视频内表情识别方法,尤其涉及一种基于声音视觉联合特征的视频内表情识别方法。
背景技术
视频内的表情识别是依据视频中出现的人物特征来判断其表情的技术。视频中常见且重要的表情类别包括开心、愤怒、厌恶、恐惧、悲伤、惊讶等。表情是视频内容的重要组成部分,通过识别表情,可对视频片段所表达和对应的情感情绪进行分析,从而衍生出与情感相关的视频应用。
现有的视频中表情识别技术大多聚焦在基于人脸视觉特征的方式,即通过人脸检测定位,分析和识别人脸区域图像,根据人脸区域图像的视觉特征对其进行表情分类。人脸区域图像视觉特征确实是最能反映人脸表情的视觉特征,但由于人脸图像存在模糊、光照条件、角度偏向等因素的干扰,仅基于视觉单一模态特征的人脸表情识别存在一定的局限性。但是视频中能反映表情的信息并不仅局限于视觉特征,声音特征也是一类能反映视频情感的重要特征,通过声音特征可对视频片段的情感属性进行分析,从而帮助视频内表情识别提高准确率。如何将视觉特征和声音特征有效融合,是有待解决的问题。
发明内容
本发明的目的在于利用声音特征模型对视频情感进行分析,将声音特征与视觉特征联合建模,对视频中出现的多种表情类别进行检测识别。其核心是设计一种声音视觉多模态特征联合框架,使各模态特征之间互为补充,弥补单一特征模态的不足。
为了实现以上目的,本发明提供的一种基于声音视觉联合特征的视频内表情识别方法,分为以下步骤:
步骤S1:对输入视频在视觉和声音两个维度上进行采样,得到采样图像帧和采样音频片段;
步骤S2:在采样图像帧上进行视觉特征提取,获得视觉特征向量,在采样声音片段上进行声音特征提取,获得声音特征向量;
步骤S3:融合视觉和声音特征向量,设计联合分类器对视觉声音联合特征进行分类,得到表情检测分类结果。
其中,输入视频视觉和声音两个维度上均采用等间隔采样。
其中,采样图像帧上视觉特征采用经训练的卷积神经网络获得,该网络训练数据为经标注表情类别的人脸图像数据。
其中,采用声音片段上的声音特征采用经训练的卷积神经网络获得,该网络训练数据为经标注情感类别的包含情感语音的声音片段。
其中,融合视觉和声音特征向量,采用了单层神经网络的方式进行,通过学习视觉特征和声音特征到各表情类别间映射权重来得到最终映射函数和分类结果。
本发明的优点和技术效果:从具体实施例可以看出本发明的优点和技术效果,充分利用视频中包含的声音和视觉信息,通过神经网络将其有效地组合,建立联合特征和模型,弥补单一模态特征各自的不足,达到提升视频中表情识别准确率的效果。
附图说明
图1本发明基于声音视觉联合特征的视频内表情识别的基本流程。
具体实施方式
下面结合附图详细说明技术方案中所涉及的各个细节问题。应该指出的是,所描述的实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本发明的实施流程如图1所示:
本发明实施例首先对视频进行采样,采样分为图像和声音两个模态。
图像采样采用2.56秒等间隔采样,获得采样帧。
声音采样以20毫秒为间隔对音频进行等间隔采样,获得20毫秒长度的音频片段。
采样图像经过以下预处理步骤:利用参考文献[1](Zhang,K.,Zhang,Z.,Li,Z.,and Qiao,Y.(2016).Joint face detection and alignment using multitask cascadedconvolutional networks.IEEE Signal Processing Letters,23(10):1499–1503)的方法检测图像中的人脸框和特征点并进行姿态对齐,获得对齐后的人脸图像。
采样音频片段经过以下预处理步骤:对每个采样音频片段进行频谱分析,频谱量化为128个频段,每128个采样点为一采样组,每个采样片段时长为0.02秒*128=2.56秒,构成128*128维的频谱响应图。
图像卷积神经网络采用经标注的人脸表情图像数据集进行训练,网络结构为50层Resnet。
声音卷积神经网络采样经标注的情感音频数据集进行训练,其标注类别标签与图像数据中的人脸表情一一对应,网络结构也采用50层Resnet。
采样图像帧经预处理后输入到图像卷积神经网络,提取1000维pool5层输出作为采样图像对应的视觉特征向量。
采样音频片段经预处理后输入到声音卷积神经网络,提取1000维pool5层输出作为采样音频片段对应的声音特征向量。
连接合并视觉特征向量和声音特征向量,经PCA主元分析法降维到512维并归一化后,作为该采样的声音视觉联合特征向量。
用监督学习方法训练基于声音视觉联合特征向量的表情分类器,训练样本为同时包含人脸表情和声音的视频片段及标注的表情类别标签,分类器样式可选SVM、XGBoost、单层全连接神经网络等常见的监督学习分类器或其组合,推理时将采样的声音视觉联合特征向量输入分类器即可获得采样对应的表情分类。

Claims (9)

1.一种基于声音视觉联合特征的视频内表情识别方法,其特征在于:
包括以下步骤:
步骤S1:对输入视频在视觉和声音两个维度上进行采样,得到采样图像帧和采样音频片段;
步骤S2:在采样图像帧上进行视觉特征提取,获得视觉特征向量,在采样声音片段上进行声音特征提取,获得声音特征向量;
步骤S3:融合视觉和声音特征向量,设计联合分类器对视觉声音联合特征进行分类,得到表情检测分类结果。
2.如权利要求1所述的基于声音视觉联合特征的视频内表情识别方法,其特征在于:视频中表情识别采用视觉图像帧和声音片段的联合采样,两种采样具有相同的采样间隔以满足时间域上的对齐。
3.如权利要求2所述的基于声音视觉联合特征的视频内表情识别方法,其特征在于:声音特征采用将等长间隔音频频谱图输入经预训练的声音卷积神经网络得到的特征层输出,视觉特征采用将等长间隔采样得到的采样图像经人脸检测对齐预处理后输入经预训练的视觉卷积神经网络得到的特征层输出,声音特征和视觉特征经过连接合并、降维归一化等变换等处理后得到联合特征向量。
4.如权利要求3所述的基于声音视觉联合特征的视频内表情识别方法,其特征在于:使用声音视觉联合标注的样本集,提取声音视觉联合特征向量后用标注的表情标签来训练有监督分类器,实现视频中的表情分类。
5.如权利要求4所述的基于声音视觉联合特征的视频内表情识别方法,其特征在于:用监督学习方法训练基于声音视觉联合特征向量的表情分类器,训练样本为同时包含人脸表情和声音的视频片段及标注的表情类别标签,分类器样式选包括不限于SVM、XGBoost、单层全连接神经网络监督学习分类器或其组合,推理时将采样的声音视觉联合特征向量输入分类器即可获得采样对应的表情分类。
6.如权利要求5所述的基于声音视觉联合特征的视频内表情识别方法,其特征在于:图像采样采用2.56秒等间隔采样,获得采样帧;声音采样以20毫秒为间隔对音频进行等间隔采样,获得20毫秒长度的音频片段。
7.如权利要求6所述的基于声音视觉联合特征的视频内表情识别方法,其特征在于:采样图像后检测图像中的人脸框和特征点并进行姿态对齐,获得对齐后的人脸图像;采样音频片段经过以下预处理步骤:对每个采样音频片段进行频谱分析,频谱量化为128个频段,每128个采样点为一采样组,每个采样片段时长为0.02秒*128=2.56秒,构成128*128维的频谱响应图。
8.如权利要求7所述的基于声音视觉联合特征的视频内表情识别方法,其特征在于:图像卷积神经网络采用经标注的人脸表情图像数据集进行训练,网络结构为50层Resnet;声音卷积神经网络采样经标注的情感音频数据集进行训练,其标注类别标签与图像数据中的人脸表情一一对应,网络结构也采用50层Resnet。
9.如权利要求8所述的基于声音视觉联合特征的视频内表情识别方法,其特征在于:采样图像帧经预处理后输入到图像卷积神经网络,提取1000维pool5层输出作为采样图像对应的视觉特征向量;采样音频片段经预处理后输入到声音卷积神经网络,提取1000维pool5层输出作为采样音频片段对应的声音特征向量;连接合并视觉特征向量和声音特征向量,经PCA主元分析法降维到512维并归一化后,作为该采样的声音视觉联合特征向量。
CN201811182972.1A 2018-10-11 2018-10-11 一种基于声音视觉联合特征的视频内表情识别方法 Pending CN109344781A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811182972.1A CN109344781A (zh) 2018-10-11 2018-10-11 一种基于声音视觉联合特征的视频内表情识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811182972.1A CN109344781A (zh) 2018-10-11 2018-10-11 一种基于声音视觉联合特征的视频内表情识别方法

Publications (1)

Publication Number Publication Date
CN109344781A true CN109344781A (zh) 2019-02-15

Family

ID=65309445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811182972.1A Pending CN109344781A (zh) 2018-10-11 2018-10-11 一种基于声音视觉联合特征的视频内表情识别方法

Country Status (1)

Country Link
CN (1) CN109344781A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363074A (zh) * 2019-06-03 2019-10-22 华南理工大学 一种针对复杂抽象化事物的类人化识别交互方法
CN110717470A (zh) * 2019-10-16 2020-01-21 上海极链网络科技有限公司 一种场景识别方法、装置、计算机设备和存储介质
CN110942011A (zh) * 2019-11-18 2020-03-31 上海极链网络科技有限公司 一种视频事件识别方法、***、电子设备及介质
CN110971969A (zh) * 2019-12-09 2020-04-07 北京字节跳动网络技术有限公司 视频配乐方法、装置、电子设备及计算机可读存储介质
CN111163366A (zh) * 2019-12-30 2020-05-15 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
CN111401259A (zh) * 2020-03-18 2020-07-10 南京星火技术有限公司 模型训练方法、***、计算机可读介质和电子设备
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
CN111723239A (zh) * 2020-05-11 2020-09-29 华中科技大学 一种基于多模态的视频标注方法
WO2020248376A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 情绪检测方法、装置、电子设备及存储介质
CN112328830A (zh) * 2019-08-05 2021-02-05 Tcl集团股份有限公司 一种基于深度学习的信息定位方法及相关设备
CN112699774A (zh) * 2020-12-28 2021-04-23 深延科技(北京)有限公司 视频中人物的情绪识别方法及装置、计算机设备及介质
WO2021138855A1 (zh) * 2020-01-08 2021-07-15 深圳市欢太科技有限公司 模型训练方法、视频处理方法、装置、存储介质及电子设备
WO2021147084A1 (en) * 2020-01-23 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for emotion recognition in user-generated video(ugv)
TWI760671B (zh) * 2019-09-27 2022-04-11 大陸商深圳市商湯科技有限公司 一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質
CN114330453A (zh) * 2022-01-05 2022-04-12 东北农业大学 基于声学特征和视觉特征融合的生猪咳嗽声音识别方法
CN114581749A (zh) * 2022-05-09 2022-06-03 城云科技(中国)有限公司 视听特征融合的目标行为识别方法、装置及应用
CN114581570A (zh) * 2022-03-01 2022-06-03 浙江同花顺智能科技有限公司 一种三维脸部动作生成方法和***
US11494477B2 (en) 2019-04-12 2022-11-08 Coupang Corp. Computerized systems and methods for determining authenticity using micro expressions

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105740767A (zh) * 2016-01-22 2016-07-06 江苏大学 一种基于脸部特征的驾驶员路怒症实时识别和预警方法
CN106803098A (zh) * 2016-12-28 2017-06-06 南京邮电大学 一种基于语音、表情与姿态的三模态情感识别方法
CN106878677A (zh) * 2017-01-23 2017-06-20 西安电子科技大学 基于多传感器的学生课堂掌握程度评估***和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105469065A (zh) * 2015-12-07 2016-04-06 中国科学院自动化研究所 一种基于递归神经网络的离散情感识别方法
CN105740767A (zh) * 2016-01-22 2016-07-06 江苏大学 一种基于脸部特征的驾驶员路怒症实时识别和预警方法
CN106803098A (zh) * 2016-12-28 2017-06-06 南京邮电大学 一种基于语音、表情与姿态的三模态情感识别方法
CN106878677A (zh) * 2017-01-23 2017-06-20 西安电子科技大学 基于多传感器的学生课堂掌握程度评估***和方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11494477B2 (en) 2019-04-12 2022-11-08 Coupang Corp. Computerized systems and methods for determining authenticity using micro expressions
CN110363074A (zh) * 2019-06-03 2019-10-22 华南理工大学 一种针对复杂抽象化事物的类人化识别交互方法
WO2020248376A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 情绪检测方法、装置、电子设备及存储介质
CN112328830A (zh) * 2019-08-05 2021-02-05 Tcl集团股份有限公司 一种基于深度学习的信息定位方法及相关设备
TWI760671B (zh) * 2019-09-27 2022-04-11 大陸商深圳市商湯科技有限公司 一種音視訊訊息處理方法及裝置、電子設備和電腦可讀儲存介質
CN110717470A (zh) * 2019-10-16 2020-01-21 上海极链网络科技有限公司 一种场景识别方法、装置、计算机设备和存储介质
CN110717470B (zh) * 2019-10-16 2023-09-26 山东瑞瀚网络科技有限公司 一种场景识别方法、装置、计算机设备和存储介质
CN110942011A (zh) * 2019-11-18 2020-03-31 上海极链网络科技有限公司 一种视频事件识别方法、***、电子设备及介质
CN110971969A (zh) * 2019-12-09 2020-04-07 北京字节跳动网络技术有限公司 视频配乐方法、装置、电子设备及计算机可读存储介质
CN111163366A (zh) * 2019-12-30 2020-05-15 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
WO2021138855A1 (zh) * 2020-01-08 2021-07-15 深圳市欢太科技有限公司 模型训练方法、视频处理方法、装置、存储介质及电子设备
WO2021147084A1 (en) * 2020-01-23 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for emotion recognition in user-generated video(ugv)
CN111401259A (zh) * 2020-03-18 2020-07-10 南京星火技术有限公司 模型训练方法、***、计算机可读介质和电子设备
CN111401259B (zh) * 2020-03-18 2024-02-02 南京星火技术有限公司 模型训练方法、***、计算机可读介质和电子设备
CN111507421A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种基于视频的情感识别方法及装置
CN111723239A (zh) * 2020-05-11 2020-09-29 华中科技大学 一种基于多模态的视频标注方法
CN111723239B (zh) * 2020-05-11 2023-06-16 华中科技大学 一种基于多模态的视频标注方法
CN112699774A (zh) * 2020-12-28 2021-04-23 深延科技(北京)有限公司 视频中人物的情绪识别方法及装置、计算机设备及介质
CN112699774B (zh) * 2020-12-28 2024-05-24 深延科技(北京)有限公司 视频中人物的情绪识别方法及装置、计算机设备及介质
CN114330453A (zh) * 2022-01-05 2022-04-12 东北农业大学 基于声学特征和视觉特征融合的生猪咳嗽声音识别方法
CN114581570B (zh) * 2022-03-01 2024-01-26 浙江同花顺智能科技有限公司 一种三维脸部动作生成方法和***
CN114581570A (zh) * 2022-03-01 2022-06-03 浙江同花顺智能科技有限公司 一种三维脸部动作生成方法和***
CN114581749A (zh) * 2022-05-09 2022-06-03 城云科技(中国)有限公司 视听特征融合的目标行为识别方法、装置及应用
WO2023216609A1 (zh) * 2022-05-09 2023-11-16 城云科技(中国)有限公司 视听特征融合的目标行为识别方法、装置及应用
CN114581749B (zh) * 2022-05-09 2022-07-26 城云科技(中国)有限公司 视听特征融合的目标行为识别方法、装置及应用

Similar Documents

Publication Publication Date Title
CN109344781A (zh) 一种基于声音视觉联合特征的视频内表情识别方法
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN112699774A (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
Potdar et al. A convolutional neural network based live object recognition system as blind aid
CN107491729A (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN112418172A (zh) 基于多模信息智能处理单元的多模信息融合情感分析方法
CN108597501A (zh) 一种基于残差网络和双向门控循环单元的视听语音模型
Toor et al. Biometric surveillance using visual question answering
Gokilavani et al. Ravdness, crema-d, tess based algorithm for emotion recognition using speech
Goyal et al. Real-life facial expression recognition systems: a review
Shinde et al. Real time two way communication approach for hearing impaired and dumb person based on image processing
Parvini et al. An approach to glove-based gesture recognition
CN104091150B (zh) 一种基于回归的人眼状态判断方法
CN107944363A (zh) 人脸图像处理方法、***及服务器
Krupa et al. Emotion aware smart music recommender system using two level CNN
Sasidharan Rajeswari et al. Speech Emotion Recognition Using Machine Learning Techniques
Shrivastava et al. Puzzling out emotions: a deep-learning approach to multimodal sentiment analysis
Lungociu REAL TIME SIGN LANGUAGE RECOGNITION USING ARTIFICIAL NEURAL NETWORKS.
Sharma et al. Gesture recognition system
Kartik et al. Multimodal biometric person authentication system using speech and signature features
Tu et al. Bimodal emotion recognition based on speech signals and facial expression
Bora et al. ISL gesture recognition using multiple feature fusion
Jimoh et al. Offline gesture recognition system for yorùbá numeral counting
CN107492384B (zh) 一种基于模糊最近邻算法的语音情感识别方法
Shibata et al. Basic investigation for improvement of sign language recognition using classification scheme

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215