CN110110653A - 多特征融合的情绪识别方法、装置和存储介质 - Google Patents

多特征融合的情绪识别方法、装置和存储介质 Download PDF

Info

Publication number
CN110110653A
CN110110653A CN201910367271.3A CN201910367271A CN110110653A CN 110110653 A CN110110653 A CN 110110653A CN 201910367271 A CN201910367271 A CN 201910367271A CN 110110653 A CN110110653 A CN 110110653A
Authority
CN
China
Prior art keywords
emotion identification
obtains
data
voice
multiple features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910367271.3A
Other languages
English (en)
Inventor
陈继华
陈志国
陈凯迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Liwei Zhilian Technology Co Ltd
Shanghai Yueling Information Technology Co Ltd
Shenzhen ZNV Technology Co Ltd
Original Assignee
Shenzhen Liwei Zhilian Technology Co Ltd
Shanghai Yueling Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Liwei Zhilian Technology Co Ltd, Shanghai Yueling Information Technology Co Ltd filed Critical Shenzhen Liwei Zhilian Technology Co Ltd
Priority to CN201910367271.3A priority Critical patent/CN110110653A/zh
Publication of CN110110653A publication Critical patent/CN110110653A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Psychiatry (AREA)
  • Acoustics & Sound (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种多特征融合的情绪识别方法。该方法包括:获取语音数据和人脸图像数据;对所述语音数据进行语音情绪识别,获得语音情绪数据,并对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据;对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果。本发明还公开了一种多特征融合的情绪识别装置及计算机可读存储介质。本发明能够实现提供一种利用语音和人脸图像两种特征信息进行情绪识别,识别更准确更全面的多特征融合的情绪识别方法。

Description

多特征融合的情绪识别方法、装置和存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种多特征融合的情绪识别方法、装置和计算机可读存储介质。
背景技术
情绪在人们的生活中起着举足轻重的作用,对人们的思维、决策和行为产生很大程度的影响。随着社会竞争压力的增加,如果常面临繁重的精神压力,长期处于不良情绪容易导致失眠以及增加焦虑症、抑郁症等心理疾病发病率、威胁人们健康甚至生命。因此对情绪易失控的人群,通过情绪识别及早发现情绪是否异常,有助于帮助缓解这类人群的精神压力,改善人体的身心健康状况。
然而,目前的情绪识别容易受到周围环境因素的影响如光照明暗、角度不同、遮挡区域等问题的影响,导致单一特征的情绪识别不够准确,如语音情感识别容易受到周围环境噪声的干扰,面部表情识别容易受到光照明暗、拍摄角色、遮挡区域等的影响,使得单一特征的情绪识别存在一定的局限性,情绪识别容易出现偏差,无法满足现代社会对情绪识别高要求的需要。
发明内容
本发明的主要目的在于提供一种多特征融合的情绪识别方法、装置和计算机可读存储介质,旨在实现提供一种利用语音和人脸图像两种特征信息进行情绪识别,识别更准确更全面的多特征融合的情绪识别方法。
为实现上述目的,本发明提供一种多特征融合的情绪识别方法,所述多特征融合的情绪识别方法包括以下步骤:
获取语音数据和人脸图像数据;
对所述语音数据进行语音情绪识别,获得语音情绪数据,并对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据;
对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果。
可选地,所述对所述语音数据进行语音情绪识别,获得语音情绪数据的步骤包括:
对所述语音数据进行分帧加窗处理,获得语音分析帧;
对所述语音分析帧进行短时傅里叶变换,获得语音声谱图;
根据预设的神经网络算法对所述语音声谱图进行情绪识别,获得语音情绪数据。
可选地,所述根据预设的神经网络算法对所述语音声谱图进行情绪识别,获得语音情绪数据的步骤包括:
对所述语音声谱图进行卷积操作,获得对应的声谱特征图;
对所述声谱特征图进行池化操作,并提取主要的语音情感特征;
对提取的语音情感特征进行分类识别,获得语音情绪数据。
可选地,所述对所述语音声谱图进行卷积操作,获得对应的声谱特征图的步骤之前包括:
对所述语音声谱图进行处理,获得简化语音声谱图;
对所述语音声谱图进行卷积操作,获得对应的声谱特征图的步骤包括:
对所述简化语音声谱图进行卷积操作,获得对应的声谱特征图。
可选地,所述对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据的步骤包括:
对所述人脸图像数据进行预处理,获得灰度图像;
通过灰度共生矩阵方法对所述灰度图像进行人脸纹理分析,获得灰度共生矩阵;
对所述灰度共生矩阵进行特征向量提取,获得人脸表情特征向量;
对所述人脸表情特征向量利用神经网络进行分类,获得人脸情绪数据。
可选地,所述对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果的步骤包括:
对所述语音情绪数据和人脸情绪数据构建后验概率集合,通过预设的两种算法分别获得对应的第一概率集合和第二概率集合;
根据所述第一概率集合和第二概率集合进行判断,获得情绪识别结果。
可选地,所述对所述语音情绪数据和人脸情绪数据构建后验概率集合,通过预设的两种算法分别获得对应的第一概率集合和第二概率集合的步骤包括:
通过预设概率算法对所述语音情绪数据和人脸情绪数据进行计算,获得后验概率集合;
对所述后验概率集合根据加权求和公式进行计算,获得第一概率集合,并对所述后验概率集合根据求积公式进行计算,获得第二概率集合。
可选地,所述根据所述第一概率集合和第二概率集合进行判断,获得情绪识别结果的步骤包括:
判断所述第一概率集合和第二概率集合的大小,确定最大概率集合;
对所述最大概率集合进行情绪分类计算,获得所述最大概率集合所对应的情绪识别结果。
此外,为实现上述目的,本发明还提供一种多特征融合的情绪识别装置,所述多特征融合的情绪识别装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多特征融合的情绪识别程序,所述多特征融合的情绪识别程序被所述处理器执行时实现如上所述的多特征融合的情绪识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有多特征融合的情绪识别程序,所述多特征融合的情绪识别程序被处理器执行时实现上述的多特征融合的情绪识别方法的步骤。
本发明提供一种多特征融合的情绪识别方法、装置和计算机存储介质。在该方法中,获取语音数据和人脸图像数据;对所述语音数据进行语音情绪识别,获得语音情绪数据,并对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据;对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果。通过上述方式,本发明能够根据语音和人脸图像两种特性信息的融合进行情绪的识别,获得情绪信息。利用多个情感特征间的不同特点,进行取长补短,可以更加全面准确的对人的情绪状态进行识别,克服了单一情感特征情绪识别容易受外界环境影响,准确度不高的缺陷,从而获得更加准确全面的情绪识别结果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明多特征融合的情绪识别方法第一实施例的流程示意图;
图3为本发明多特征融合的情绪识别方法第二实施例的流程示意图;
图4为本发明多特征融合的情绪识别方法第三实施例的流程示意图;
图5为本发明多特征融合的情绪识别方法第四实施例的流程示意图;
图6为本发明多特征融合的情绪识别方法第五实施例的流程示意图;
图7为本发明多特征融合的情绪识别方法第六实施例的流程示意图;
图8为本发明多特征融合的情绪识别方法第七实施例的流程示意图;
图9为本发明多特征融合的情绪识别方法第八实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。
本发明实施例装置可以是PC的组合,也可以是智能手机、平板电脑、便携计算机等具有数据处理功能的装置设备。
如图1所示,该装置可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如摄像头、麦克风和键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的装置结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及多特征融合的情绪识别程序。
在图1所示的装置中,网络接口1004主要用于后台服务器互联,用于后台服务器间进行数据通信;用户接口1003主要用于采集语音数据和人脸图像数据,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的多特征融合的情绪识别程序,并执行以下操作:
获取语音数据和人脸图像数据;
对所述语音数据进行语音情绪识别,获得语音情绪数据,并对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据;
对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果。
进一步地,处理器1001可以调用存储器1005中存储的多特征融合的情绪识别程序,还执行以下操作:
对所述语音数据进行分帧加窗处理,获得语音分析帧;
对所述语音分析帧进行短时傅里叶变换,获得语音声谱图;
根据预设的神经网络算法对所述语音声谱图进行情绪识别,获得语音情绪数据。
进一步地,处理器1001可以调用存储器1005中存储的多特征融合的情绪识别程序,还执行以下操作:
对所述语音声谱图进行卷积操作,获得对应的声谱特征图;
对所述声谱特征图进行池化操作,并提取主要的语音情感特征;
对提取的语音情感特征进行分类识别,获得语音情绪数据。
进一步地,处理器1001可以调用存储器1005中存储的多特征融合的情绪识别程序,还执行以下操作:
对所述语音声谱图进行处理,获得简化语音声谱图;
对所述语音声谱图进行卷积操作,获得对应的声谱特征图的步骤包括:
对所述简化语音声谱图进行卷积操作,获得对应的声谱特征图。
进一步地,处理器1001可以调用存储器1005中存储的多特征融合的情绪识别程序,还执行以下操作:
对所述人脸图像数据进行预处理,获得灰度图像;
通过灰度共生矩阵方法对所述灰度图像进行人脸纹理分析,获得灰度共生矩阵;
对所述灰度共生矩阵进行特征向量提取,获得人脸表情特征向量;
对所述人脸表情特征向量利用神经网络进行分类,获得人脸情绪数据。
进一步地,处理器1001可以调用存储器1005中存储的多特征融合的情绪识别程序,还执行以下操作:
对所述语音情绪数据和人脸情绪数据构建后验概率集合,通过预设的两种算法分别获得对应的第一概率集合和第二概率集合;
根据所述第一概率集合和第二概率集合进行判断,获得情绪识别结果。
进一步地,处理器1001可以调用存储器1005中存储的多特征融合的情绪识别程序,还执行以下操作:
通过预设概率算法对所述语音情绪数据和人脸情绪数据进行计算,获得后验概率集合;
对所述后验概率集合根据加权求和公式进行计算,获得第一概率集合,并对所述后验概率集合根据求积公式进行计算,获得第二概率集合。
进一步地,处理器1001可以调用存储器1005中存储的多特征融合的情绪识别程序,还执行以下操作:
判断所述第一概率集合和第二概率集合的大小,确定最大概率集合;
对所述最大概率集合进行情绪分类计算,获得所述最大概率集合所对应的情绪识别结果。
本发明多特征融合的情绪识别设备的具体实施例与下述多特征融合的情绪识别方法各实施例基本相同,在此不作赘述。
参照图2,图2为本发明多特征融合的情绪识别方法第一实施例的流程示意图,所述多特征融合的情绪识别方法包括:
步骤S100,获取语音数据和人脸图像数据;
人的情感情绪往往需要借助表情、语言等方式来表达和传递,本发明就是根据语音数据和人脸图像数据进行情感情绪识别的一个过程。本发明实施例中,语音数据可以通过麦克风获得,也可以通过其他设备传输获得,本发明实施例对语音数据的获得方式不作限定。语音数据为包含人说话内容的音频数据,说话人的当时情绪不同,说话的内容也就不同,说话的语气也就不同,根据语音数据中说话人说话的内容和说话语气的不同,可以对说话人的情绪进行判断,获得说话人的情绪信息。同理,人脸图像数据可以通过摄像头拍摄获得,也可以通过其他设备传输获得,本发明实施例对人脸图像数据的获得方式不作限定。人脸图像数据包含有人脸图像,不同情绪下,人脸的表情特征就不一样,因此可以根据人脸图像中的人脸表情进行判断,获得说话人的情绪信息。
步骤S200,对所述语音数据进行语音情绪识别,获得语音情绪数据,并对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据;
在本实施例中,获得语音数据和人脸图像数据后,需要对语音数据和人脸图像数据进行识别,获得语音情绪数据和人脸情绪数据。语音情感识别是指人的语音信号进行预处理后,提取具有情感倾向的特征参数,并对特征参数进行分析识别,以此确定说话人的情感状态。面部情感识别是指从静态人脸图像或动态视频中提取人的表情状态,从而识别出人的心理情绪。获得语音数据后,需要对语音数据进行语音情绪识别,获得语音情绪数据;获得人脸图像数据后,需要对人脸图像数据进行面部情绪识别,获得人脸情绪数据。
在本实施例中,获得语音数据后,对语音数据进行语音情绪识别,获得语音情绪数据,对语音数据进行语音情绪识别可以采用基于声谱图和CNN(Convolutional NeuralNetworks,卷积神经网络)的语音情感识别方法来进行语音情绪识别。CNN(ConvolutionalNeural Networks,卷积神经网络)为一种深度前馈人工神经网络,已成功地应用于许多领域进行识别。
在本实施例中,获得人脸图像数据后,对人脸图像数据进行人脸情绪识别,获得人脸情绪数据,对人脸图像数据进行人脸图像识别可以采用基于BP(Back Propagation,反向传播)神经网络的面部情感识别方法来进行人脸情绪识别。利用语音数据进行语音情感识别和获取人脸抓拍照片进行面部情感识别为两个独立的操作过程,这两个操作流程没有先后顺序之分。
步骤S300,对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果。
获得语音情绪数据和人脸情绪数据后,对语音情绪数据和人脸情绪数据进行决策层融合,得到情绪识别结果。决策层融合,是指在提取有语音情绪特征的语音情绪数据和人脸表情特征的人脸情绪数据后,根据一定的准则如后验概率的决策层融合准则对数据特征进行决策层融合,从而得到最终的情绪识别的情感识别结果。决策层融合简单来说就是将多个分类器产生的分类结果采用一定的准则进行组合再进行判断,得到最终的识别结果。
本发明提供一种多特征融合的情绪识别方法、装置和计算机存储介质。在该方法中,获取语音数据和人脸图像数据;对所述语音数据进行语音情绪识别,获得语音情绪数据,并对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据;对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果。通过上述方式,本发明能够根据语音和人脸图像两种特性信息的融合进行情绪的识别,获得情绪信息。利用多个情感特征间的不同特点,进行取长补短,可以更加全面准确的对人的情绪状态进行识别,克服了单一情感特征情绪识别容易受外界环境影响,准确度不高的缺陷,从而获得更加准确全面的情绪识别结果。
请参阅图3,图3为本发明多特征融合的情绪识别方法第二实施例的流程示意图。
基于上述实施例,本实施例中,步骤S200包括:
步骤S210,对所述语音数据进行分帧加窗处理,获得语音分析帧;
在本实施例中,对语音数据进行分帧加窗处理,可以将语音数据分为一个个语音分析帧。因为语音信号通常在10~30ms(毫秒)之内保持相对平稳,因此,对语音数据进行分帧,可以使用平稳过程的处理方法对语音信号进行短时处理,将语音信号划分为很多短时的语音段,成为一个个分析帧。同时,为了减少频谱能量泄漏,可以采用不同的截取函数对信号进行截断,截断函数称为窗函数,常用的窗函数有矩形窗(Rectangle)、汉宁窗(Hanning)、汉明窗(Hamming)、高斯窗(Gaussian)等。对分帧后的语音信号进行加窗,利用窗函数和语音信号相乘得到加窗后的语音信号,经过加窗后的每一帧语音可以认为是短时平稳信号。
步骤S220,对所述语音分析帧进行短时傅里叶变换,获得语音声谱图;
在获得短时平稳信号的语音分析帧后,通过对短时语音信号进行短时傅里叶变换得到短时功率谱(即声谱图的灰度值),然后以时间为横坐标、频率为纵坐标生成二维图像(第三维度为灰度值),即为语音声谱图。
步骤S230,根据预设的神经网络算法对所述语音声谱图进行情绪识别,获得语音情绪数据。
在获得语音声谱图后,通过CNN的全连接层将语音情感特征数据进行降维,并通过分类器识别用户的语音情绪。对语音特征进行情绪识别,可以将语音声谱图分为生气、恐惧、高兴、悲伤、中性五个类别。
请参阅图4,图4为本发明多特征融合的情绪识别方法第三实施例的流程示意图。
基于上述实施例,本实施例中,步骤S230包括:
步骤S231,对所述语音声谱图进行卷积操作,获得对应的声谱特征图;
步骤S232,对所述声谱特征图进行池化操作,并提取主要的语音情感特征;
步骤S233,对提取的语音情感特征进行分类识别,获得语音情绪数据。
在获得语音声谱图后,采用CNN对声谱图进行卷积、池化操作,通过使用多层卷积层卷积得到更深层次的声谱特征图,通过池化操作对得到的声谱特征图进行压缩,提取主要语音情感特征,获得语音特征。
请参阅图5,图5为本发明多特征融合的情绪识别方法第四实施例的流程示意图。
基于上述实施例,本实施例中,步骤S231之前还包括:
步骤S234,对所述语音声谱图进行处理,获得简化语音声谱图;
获得语音声谱图后,对语音声谱图进行声谱图预处理,由于产生的声谱图边框信息对于语音的情感识别是无用的,因此,需要对声谱图进行剪切,删除无效信息;还需要对声谱图进行尺寸变换,得到大小统一的图片。
则步骤S231变为步骤S235:对所述简化语音声谱图进行卷积操作,获得对应的声谱特征图。
在获得简化语音声谱图后,采用CNN对简化声谱图进行卷积、池化操作,通过使用多层卷积层卷积得到更深层次的声谱特征图,通过池化操作对得到的声谱特征图进行压缩,提取主要语音情感特征,获得语音特征。
请参阅图6,图6为本发明多特征融合的情绪识别方法第五实施例的流程示意图。
基于上述实施例,本实施例中,步骤S200还包括:
步骤S240,对所述人脸图像数据进行预处理,获得灰度图像;
由于彩色图像中每个像素的颜色由R(Red,红色)、G(Green,绿色)、B(Blue,蓝色)三个分量决定,每个分量有256种取值情况,因此,一个像素点的颜色变化范围超过1600万。而灰度图的一个像素点的变化范围只有256种情况,将人脸抓拍照片转变成灰度图像,可以大幅度减少图像处理的计算量。通过对RGB空间的人脸抓拍照片做平均化处理,转化为灰度人脸图像,转化公式可以为:像素灰度值=(R+G+B)/3。
步骤S250,通过灰度共生矩阵方法对所述灰度图像进行人脸纹理分析,获得灰度共生矩阵;
人脸表情的外观特征最主要的一个表现就是脸部不同器官的纹理形状发生变化。通过分析人脸图像中的像素灰度级变化趋势,可以得到纹理变化情况。灰度共生矩阵是一种通过研究灰度的空间相关特性来描述纹理的常用方法。采用空间灰度共生矩阵的方法对人脸图像进行纹理分析,通过计算两个灰度级别在图像中以一定方向相邻的次数而得到一个灰度共生矩阵。方向可以是水平、45度、90度、135度等。以水平方向计算的灰度共生矩阵为例,灰度共生矩阵中的每一个元素(i,j)代表灰度i与灰度j在图像中水平相邻的次数。
步骤S260,对所述灰度共生矩阵进行特征向量提取,获得人脸表情特征向量;
差分运算是指将两帧图像的灰度共生矩阵做矩阵减法,然后将新的灰度共生矩阵按列展开为一个向量表示。由于连续抓拍的人脸图片中的背景一般不变,因此,可以将人脸图像的前后两帧图像进行差分运算得到人脸表情时空特征数据。通过对灰度共生矩阵进行差分运算得到人脸表情特征向量。
步骤S270,对所述人脸表情特征向量利用神经网络进行分类,获得人脸情绪数据。
BP(Back Propagation,反向传播)神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络,可以通过设置多层隐含层,并以反向逆传播的方式不断修改网络权值,从而达到学习训练的目的。本实施例中,将提取出的人脸表情特征向量作为输入,在BP神经网络中进行线性组合,并在每个神经元处采用非线性的激活函数输出,每个神经元可以得到一个计算结果,将这个计算结果与预置阈值进行比较得到输出结果。可以采用sigmoid函数作为激活函数,sigmoid激活函数的公式为sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。这里,所述激活函数采用sigmoid函数并不是必须的,可以是任何更逼近人脑对于视觉处理过程的神经元激活函数。BP神经网络的反向传播过程需要调整权值,确定一个误差函数,这个误差函数可以根据经验来确定。同时,为了进行多特征融合决策,面部表情情绪的类型与语音情感识别的语音情绪类型保持一致,BP神经网络的面部表情情绪输出同样分为生气、恐惧、高兴、悲伤、中性五个类别。
请参阅图7,图7为本发明多特征融合的情绪识别方法第六实施例的流程示意图。
基于上述实施例,本实施例中,步骤S300包括:
步骤S310,对所述语音情绪数据和人脸情绪数据构建后验概率集合,通过预设的两种算法分别获得对应的第一概率集合和第二概率集合;
通过后验概率算法对语音情绪数据和人脸情绪数据构造后验概率集合,然后采用加权求和准则计算第一概率集合,并用采用求积准则计算第二概率集合。对后验概率集合利用两种预设算法分别计算,获得对应的第一概率集合和第二概率集合。
步骤S320,根据所述第一概率集合和第二概率集合进行判断,获得情绪识别结果。
在本实施例中,通过加权求和准则和求积准则分别计算第一概率集合和第二概率集合即两个Pe(x),最后结果最大的Pe(x)所对应的类别即为最终的情绪分类识别结果,计算公式为:F(x)=argmaxe(Pe(x))。
请参阅图8,图8为本发明多特征融合的情绪识别方法第七实施例的流程示意图。
基于上述实施例,本实施例中,步骤S310包括:
步骤S311,通过预设概率算法对所述语音情绪数据和人脸情绪数据进行计算,获得后验概率集合;
在许多实际应用中,不仅需要知道样本分类的类别,还需要知道样本的隶属度,也就是后验后概率,它表示为样本被判定为某类别的概率。在本实施例中,可以采用sigmoid函数将语音情绪识别和人脸表情情绪识别的结果进行后处理映射到[0,1]之间,转化成后验概率。后验概率的计算公式为:f(x)是语音情绪识别或人脸表情情绪识别的结果,A和B是待拟合的参数,可以通过训练得到最优参数A和B。对于语音情绪识别和人脸表情情绪识别,一共有2种分类,5种模态特征(生气、恐惧、高兴、悲伤、中性五个类别),因此,得到的后验概率集合为:{ple(x),l=1,2,…,5;e=1,2}。
步骤S312,对所述后验概率集合根据加权求和公式进行计算,获得第一概率集合,并对所述后验概率集合根据求积公式进行计算,获得第二概率集合。
在本实施例中,采用加权求和准则分别对2种分类方式得到的后验概率进行组合形成一个新的概率集合:{Pe(x),e=1,2}。采用加权求和准则计算的后验概率计算公式为:αl表示第l种模态特征的权重系数,可以通过训练得到最优权重系数。计算新概率Pe(x)的计算公式为:
采用求积准则分别对2种分类方式得到的后验概率进行组合形成一个新的概率集合:{Pe(x),e=1,2}。采用求积准则计算的后验概率计算公式为:计算新概率Pe(x)的计算公式为:
采用加权求和准则计算新的概率集合和采用求积准则计算新的概率集合为两个独立的操作过程,这两个操作流程没有先后顺序之分。
请参阅图9,图9为本发明多特征融合的情绪识别方法第八实施例的流程示意图。
基于上述实施例,本实施例中,步骤S320包括:
步骤S321,判断所述第一概率集合和第二概率集合的大小,确定最大概率集合;
步骤S322,对所述最大概率集合进行情绪分类计算,获得所述最大概率集合所对应的情绪识别结果。
在本实施例中,通过加权求和准则和求积准则分别计算第一概率集合和第二概率集合即两个Pe(x),最后结果最大的Pe(x)所对应的类别即为最终的情绪分类识别结果,计算公式为:F(x)=argmaxe(Pe(x))。
此外,本发明实施例还提出一种计算机可读存储介质。
本发明计算机可读存储介质上存储有多特征融合的情绪识别程序,所述多特征融合的情绪识别程序被处理器执行时实现如上所述的多特征融合的情绪识别方法的步骤。
其中,在所述处理器上运行的多特征融合的情绪识别程序被执行时所实现的方法可参照本发明多特征融合的情绪识别方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台装置设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种多特征融合的情绪识别方法,其特征在于,所述多特征融合的情绪识别方法包括以下步骤:
获取语音数据和人脸图像数据;
对所述语音数据进行语音情绪识别,获得语音情绪数据,并对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据;
对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果。
2.如权利要求1所述的多特征融合的情绪识别方法,其特征在于,所述对所述语音数据进行语音情绪识别,获得语音情绪数据的步骤包括:
对所述语音数据进行分帧加窗处理,获得语音分析帧;
对所述语音分析帧进行短时傅里叶变换,获得语音声谱图;
根据预设的神经网络算法对所述语音声谱图进行情绪识别,获得语音情绪数据。
3.如权利要求2所述的多特征融合的情绪识别方法,其特征在于,所述根据预设的神经网络算法对所述语音声谱图进行情绪识别,获得语音情绪数据的步骤包括:
对所述语音声谱图进行卷积操作,获得对应的声谱特征图;
对所述声谱特征图进行池化操作,并提取主要的语音情感特征;
对提取的语音情感特征进行分类识别,获得语音情绪数据。
4.如权利要求3所述的多特征融合的情绪识别方法,其特征在于,所述对所述语音声谱图进行卷积操作,获得对应的声谱特征图的步骤之前包括:
对所述语音声谱图进行处理,获得简化语音声谱图;
对所述语音声谱图进行卷积操作,获得对应的声谱特征图的步骤包括:
对所述简化语音声谱图进行卷积操作,获得对应的声谱特征图。
5.如权利要求1所述的多特征融合的情绪识别方法,其特征在于,所述对所述人脸图像数据进行人脸情绪识别,获得人脸情绪数据的步骤包括:
对所述人脸图像数据进行预处理,获得灰度图像;
通过灰度共生矩阵方法对所述灰度图像进行人脸纹理分析,获得灰度共生矩阵;
对所述灰度共生矩阵进行特征向量提取,获得人脸表情特征向量;
对所述人脸表情特征向量利用神经网络进行分类,获得人脸情绪数据。
6.如权利要求1所述的多特征融合的情绪识别方法,其特征在于,所述对所述语音情绪数据和人脸情绪数据进行融合处理,得到情绪识别结果的步骤包括:
对所述语音情绪数据和人脸情绪数据构建后验概率集合,通过预设的两种算法分别获得对应的第一概率集合和第二概率集合;
根据所述第一概率集合和第二概率集合进行判断,获得情绪识别结果。
7.如权利要求6所述的多特征融合的情绪识别方法,其特征在于,所述对所述语音情绪数据和人脸情绪数据构建后验概率集合,通过预设的两种算法分别获得对应的第一概率集合和第二概率集合的步骤包括:
通过预设概率算法对所述语音情绪数据和人脸情绪数据进行计算,获得后验概率集合;
对所述后验概率集合根据加权求和公式进行计算,获得第一概率集合,并对所述后验概率集合根据求积公式进行计算,获得第二概率集合。
8.如权利要求6所述的多特征融合的情绪识别方法,其特征在于,所述根据所述第一概率集合和第二概率集合进行判断,获得情绪识别结果的步骤包括:
判断所述第一概率集合和第二概率集合的大小,确定最大概率集合;
对所述最大概率集合进行情绪分类计算,获得所述最大概率集合所对应的情绪识别结果。
9.一种多特征融合的情绪识别装置,其特征在于,所述多特征融合的情绪识别装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多特征融合的情绪识别程序,所述多特征融合的情绪识别程序被所述处理器执行时实现如权利要求1至8中任一项所述多特征融合的情绪识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有多特征融合的情绪识别程序,所述多特征融合的情绪识别程序被处理器执行时实现如权利要求1至8中任一项所述多特征融合的情绪识别方法的步骤。
CN201910367271.3A 2019-04-30 2019-04-30 多特征融合的情绪识别方法、装置和存储介质 Pending CN110110653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910367271.3A CN110110653A (zh) 2019-04-30 2019-04-30 多特征融合的情绪识别方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910367271.3A CN110110653A (zh) 2019-04-30 2019-04-30 多特征融合的情绪识别方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN110110653A true CN110110653A (zh) 2019-08-09

Family

ID=67488083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910367271.3A Pending CN110110653A (zh) 2019-04-30 2019-04-30 多特征融合的情绪识别方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110110653A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675859A (zh) * 2019-09-05 2020-01-10 华南理工大学 结合语音与文本的多情感识别方法、***、介质及设备
CN110838027A (zh) * 2019-10-23 2020-02-25 上海能塔智能科技有限公司 车辆使用满意度的确定方法及装置、存储介质、计算设备
CN110969073A (zh) * 2019-08-23 2020-04-07 贵州大学 一种基于特征融合与bp神经网络的人脸表情识别方法
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
CN111401198A (zh) * 2020-03-10 2020-07-10 广东九联科技股份有限公司 观众情绪识别方法、装置及***
CN111967311A (zh) * 2020-07-06 2020-11-20 广东技术师范大学 情绪识别方法、装置、计算机设备及存储介质
CN112307975A (zh) * 2020-10-30 2021-02-02 江西理工大学 融合语音与微表情的多模态情感识别方法及***
CN112488219A (zh) * 2020-12-07 2021-03-12 江苏科技大学 一种基于gru的情绪安慰方法、***及移动终端
CN112861949A (zh) * 2021-01-29 2021-05-28 成都视海芯图微电子有限公司 一种基于人脸和声音的情绪预测方法和***
CN112990301A (zh) * 2021-03-10 2021-06-18 深圳市声扬科技有限公司 情绪数据标注方法、装置、计算机设备和存储介质
CN113076813A (zh) * 2021-03-12 2021-07-06 首都医科大学宣武医院 面具脸特征识别模型训练方法和装置
CN113139561A (zh) * 2020-01-17 2021-07-20 Tcl集团股份有限公司 一种垃圾分类方法、装置、终端设备及存储介质
WO2021147084A1 (en) * 2020-01-23 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for emotion recognition in user-generated video(ugv)
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型
CN113449590A (zh) * 2021-05-14 2021-09-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN113707185A (zh) * 2021-09-17 2021-11-26 卓尔智联(武汉)研究院有限公司 一种情绪识别方法、装置和电子设备
WO2022184133A1 (zh) * 2021-03-03 2022-09-09 郑州航空工业管理学院 一种基于视觉的人脸表情识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及***
CN106019973A (zh) * 2016-07-30 2016-10-12 杨超坤 一种具有情感识别功能的智能家居
CN106570496A (zh) * 2016-11-22 2017-04-19 上海智臻智能网络科技股份有限公司 情绪识别方法和装置以及智能交互方法和设备
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN107705808A (zh) * 2017-11-20 2018-02-16 合光正锦(盘锦)机器人技术有限公司 一种基于面部特征与语音特征的情绪识别方法
CN109446948A (zh) * 2018-10-15 2019-03-08 西安交通大学 一种基于Android平台的人脸和语音多生物特征融合认证方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894550A (zh) * 2010-07-19 2010-11-24 东南大学 基于情感对特征优化的语音情感分类方法
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及***
CN106019973A (zh) * 2016-07-30 2016-10-12 杨超坤 一种具有情感识别功能的智能家居
CN106570496A (zh) * 2016-11-22 2017-04-19 上海智臻智能网络科技股份有限公司 情绪识别方法和装置以及智能交互方法和设备
CN107256392A (zh) * 2017-06-05 2017-10-17 南京邮电大学 一种联合图像、语音的全面情绪识别方法
CN107705808A (zh) * 2017-11-20 2018-02-16 合光正锦(盘锦)机器人技术有限公司 一种基于面部特征与语音特征的情绪识别方法
CN109446948A (zh) * 2018-10-15 2019-03-08 西安交通大学 一种基于Android平台的人脸和语音多生物特征融合认证方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱娜: "基于表情和语音的双模态情感识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
梁瑞奇: "基于神经网络的人脸表情识别", 《电子制作》 *
路婷婷: "基于语音和人脸表情的多模态情感识别算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969073A (zh) * 2019-08-23 2020-04-07 贵州大学 一种基于特征融合与bp神经网络的人脸表情识别方法
CN110969073B (zh) * 2019-08-23 2023-02-03 贵州大学 一种基于特征融合与bp神经网络的人脸表情识别方法
CN110675859A (zh) * 2019-09-05 2020-01-10 华南理工大学 结合语音与文本的多情感识别方法、***、介质及设备
CN110675859B (zh) * 2019-09-05 2021-11-23 华南理工大学 结合语音与文本的多情感识别方法、***、介质及设备
CN110838027A (zh) * 2019-10-23 2020-02-25 上海能塔智能科技有限公司 车辆使用满意度的确定方法及装置、存储介质、计算设备
CN110991427A (zh) * 2019-12-25 2020-04-10 北京百度网讯科技有限公司 用于视频的情绪识别方法、装置和计算机设备
CN113139561B (zh) * 2020-01-17 2024-05-03 Tcl科技集团股份有限公司 一种垃圾分类方法、装置、终端设备及存储介质
CN113139561A (zh) * 2020-01-17 2021-07-20 Tcl集团股份有限公司 一种垃圾分类方法、装置、终端设备及存储介质
WO2021147084A1 (en) * 2020-01-23 2021-07-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for emotion recognition in user-generated video(ugv)
CN111401198A (zh) * 2020-03-10 2020-07-10 广东九联科技股份有限公司 观众情绪识别方法、装置及***
CN111401198B (zh) * 2020-03-10 2024-04-23 广东九联科技股份有限公司 观众情绪识别方法、装置及***
CN111967311A (zh) * 2020-07-06 2020-11-20 广东技术师范大学 情绪识别方法、装置、计算机设备及存储介质
CN111967311B (zh) * 2020-07-06 2021-09-10 广东技术师范大学 情绪识别方法、装置、计算机设备及存储介质
CN112307975A (zh) * 2020-10-30 2021-02-02 江西理工大学 融合语音与微表情的多模态情感识别方法及***
CN112488219A (zh) * 2020-12-07 2021-03-12 江苏科技大学 一种基于gru的情绪安慰方法、***及移动终端
CN112861949B (zh) * 2021-01-29 2023-08-04 成都视海芯图微电子有限公司 一种基于人脸和声音的情绪预测方法和***
CN112861949A (zh) * 2021-01-29 2021-05-28 成都视海芯图微电子有限公司 一种基于人脸和声音的情绪预测方法和***
WO2022184133A1 (zh) * 2021-03-03 2022-09-09 郑州航空工业管理学院 一种基于视觉的人脸表情识别方法
CN112990301A (zh) * 2021-03-10 2021-06-18 深圳市声扬科技有限公司 情绪数据标注方法、装置、计算机设备和存储介质
CN113076813A (zh) * 2021-03-12 2021-07-06 首都医科大学宣武医院 面具脸特征识别模型训练方法和装置
CN113076813B (zh) * 2021-03-12 2024-04-12 首都医科大学宣武医院 面具脸特征识别模型训练方法和装置
CN113449590A (zh) * 2021-05-14 2021-09-28 网易(杭州)网络有限公司 说话视频生成方法及装置
CN113408649A (zh) * 2021-07-09 2021-09-17 南京工业大学 基于视频图像面部表情和语音的多模态儿童情绪识别融合模型
CN113707185A (zh) * 2021-09-17 2021-11-26 卓尔智联(武汉)研究院有限公司 一种情绪识别方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN110110653A (zh) 多特征融合的情绪识别方法、装置和存储介质
CN107894833B (zh) 基于虚拟人的多模态交互处理方法及***
Hossain et al. An emotion recognition system for mobile applications
WO2020135194A1 (zh) 基于情绪引擎技术的语音交互方法、智能终端及存储介质
CN105654952B (zh) 用于输出语音的电子设备、服务器和方法
WO2021139471A1 (zh) 一种健康状态检测方法、设备和计算机存储介质
WO2019204186A1 (en) Integrated understanding of user characteristics by multimodal processing
CN109040471B (zh) 情绪提示方法、装置、移动终端以及存储介质
CN108550375A (zh) 一种基于语音信号的情感识别方法、装置和计算机设备
CN110399837B (zh) 用户情绪识别方法、装置以及计算机可读存储介质
CN110838286A (zh) 一种模型训练的方法、语种识别的方法、装置及设备
KR20190081243A (ko) 정규화된 표현력에 기초한 표정 인식 방법, 표정 인식 장치 및 표정 인식을 위한 학습 방법
CN107464572B (zh) 多模式交互音乐感知***及其控制方法
KR101984283B1 (ko) 기계학습모델을 이용한 자동화된 피평가자분석 시스템, 방법, 및 컴퓨터 판독가능매체
KR20100001928A (ko) 감정인식에 기반한 서비스 장치 및 방법
CN107341464A (zh) 一种用于提供交友对象的方法、设备及***
CN113516990A (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN117641667A (zh) 氛围灯亮度智能控制方法及***
CN115620384A (zh) 模型训练方法、眼底图像预测方法及装置
CN109961152B (zh) 虚拟偶像的个性化互动方法、***、终端设备及存储介质
Ritschel et al. Multimodal joke generation and paralinguistic personalization for a socially-aware robot
CN116137673A (zh) 数字人表情驱动方法及其装置、设备、介质
CN108806699B (zh) 语音反馈方法、装置、存储介质及电子设备
US20200293268A1 (en) Audible distractions at locations external to a device
CN112149610A (zh) 一种目标对象的识别的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190809