CN115169507A - 类脑多模态情感识别网络、识别方法及情感机器人 - Google Patents
类脑多模态情感识别网络、识别方法及情感机器人 Download PDFInfo
- Publication number
- CN115169507A CN115169507A CN202211092432.0A CN202211092432A CN115169507A CN 115169507 A CN115169507 A CN 115169507A CN 202211092432 A CN202211092432 A CN 202211092432A CN 115169507 A CN115169507 A CN 115169507A
- Authority
- CN
- China
- Prior art keywords
- features
- network
- emotion
- splicing
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 44
- 230000014509 gene expression Effects 0.000 claims abstract description 41
- 230000015654 memory Effects 0.000 claims abstract description 29
- 238000007499 fusion processing Methods 0.000 claims abstract description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 33
- 230000004927 fusion Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 20
- 230000004913 activation Effects 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000000875 corresponding effect Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 13
- 230000006403 short-term memory Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000007787 long-term memory Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000002596 correlated effect Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 230000009471 action Effects 0.000 description 16
- 230000008921 facial expression Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 12
- 210000003128 head Anatomy 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002996 emotional effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000003759 clinical diagnosis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000003141 lower extremity Anatomy 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Child & Adolescent Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Hospice & Palliative Care (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种类脑多模态情感识别网络、识别方法及情感机器人,其中,类脑多模态情感识别方法包括提取视频表情特征和语音情感特征,计算与音频强关联的视频特征和与视频强关联的音频特征,拼接视频表情特征和语音情感特征,得到原始拼接特征,计算模态m的多头自注意力特征和模态m的多头跨模态强关联特征,对所有头部的同类特征进行拼接,得到第一至第四拼接特征,将第一至第四拼接特征分别输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,基于统一特征向量进行情感分类识别。本发明通过改进多模态特征融合过程,通过相同头部内部特征融合、不同头部外部特征融合后再进行特征拼接,最终提高了情感识别结果的鲁棒性和精准率。
Description
技术领域
本发明属于类脑智能与情感计算技术领域,更具体地,涉及一种类脑多模态情感识别网络、识别方法及情感机器人。
背景技术
图1 展示的是一个典型面部表情识别***的结构,主要由3部分组成:人脸检测、表情特征提取、分类器。心理学研究发现,在人类的情感表达中,面部表情约占比55%,语音和说话内容分别占38%与7%。现有深度学习方法在面部表情识别方面取得了重要进展,然而,单模态识别***面临情感解释不全面、分类不准确等局限,限制了情感机器人的应用。虽然也有一些文献提出了融合视觉和听觉的多模态情感识别方法,受融合方法的限制,导致现有情感识别方法在准确率和鲁棒性等方面无法满足动态场景下人机交互、临床诊断的使用要求,依然限制了情感机器人的应用与制备。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种类脑多模态情感识别网络、识别方法及情感机器人,其目的在于对多模态融合方法进行改进,由此提高情感识别的鲁棒性及准确率。
为实现上述目的,按照本发明的一个方面,提供了一种类脑多模态情感识别方法,包括:
将第一至第四拼接特征分别输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,基于统一特征向量进行情感分类识别。
在其中一个实施例中,
在其中一个实施例中,所述双向长短期记忆网络为改进的残差双向长短期记忆网络,包括:上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和,得到改进的残差双向长短期记忆网络的输出结果。
在其中一个实施例中,视频表情特征的提取过程包括:
先采用多任务级联卷积神经网络对人脸图像进行特征点定位;
再采用嵌入残差通道空间注意力模块的神经网络提取视频表情特征;
其中,嵌入残差通道空间注意力模块嵌于神经网络每个池化层之前,嵌入残差通道空间注意力模块包括通道注意力模块和空间注意力模块以及求和模块,其中,
在其中一个实施例中,多任务级联卷积神经网络包括依次连接的提议网络、细化网络和输出网络,其中,
提议网络为全卷积网络,用于确定候选区域;
细化网络相比于所述提议网络在最后增加全连接层,用于使用边界框回归进行特征标定;
输出网络相比于所述细化网络在中间增加一个卷积层,用于对人脸细节特征进行处理,标记出脸部关键特征点。
在其中一个实施例中,语音情感特征的提取过程包括:
将音频信号转换为梅尔频率倒谱系数向量;
将梅尔频率倒谱系数向量输入所述改进的残差双向长短期记忆网络,更新系数向量;
将更新后的系数向量输入音频卷积网络,提取语音情感特征。
在其中一个实施例中,将音频信号转换为梅尔频率倒谱系数向量,包括:
对音频信号依次进行预加重、分帧和加窗处理;
对每一帧加窗后的特征通过快速傅里叶变换得到频谱;
将频谱输入Mel滤波器组,得到Mel频谱;
对Mel频谱进行倒谱分析,得到梅尔频率倒谱系数向量。
按照本发明的另一方面,提供了一种类脑多模态情感识别网络,包括:
双向长短期记忆网络,用于获取第一至第四拼接特征前后时刻的信息,更新第一至第四拼接特征;
第一特征拼接网络,用于拼接更新后的第一至第四拼接特征,得到统一特征向量;
分类网络,用于基于统一特征向量进行情感分类识别;
其中,两阶段注意力融合网络包括第一通道特征融合网络和第二空间特征融合网络:
第二空间特征融合网络包括向量拼接模块和多头注意力模块:
多头注意力模块包括多头自注意力特征提取模块和多头跨模态强关联特征提取模块,其中,
在其中一个实施例中,所述双向长短期记忆网络为改进的残差双向长短期记忆网络,包括:上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和,得到改进的残差双向长短期记忆网络的输出结果。
按照本发明的又一方面,提供了一种情感机器人,包括数据采集模块、情感识别模块和交互模块,其中,
数据采集模块用于采集测试者的情感视频数据;
所述情感识别模块具备上述的类脑多模态情感识别网络,用于根据所采集的人情感视频数据识别测试者的情感;
所述交互模块用于根据所述情感识别模块所识别出的情感做出相应的动作。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明在提取视频表情特征和语音情感特征之后,基于所提取的特征,执行
以下三个方面的操作:第一方面计算跨模态强关联特征,得到与音频强关联的视频特征
和与视频强关联的音频特征,第二方面对视频表情特征和语音情感特征进行拼接,
得到原始拼接特征,第三方面计算模态m的多头自注意力特征。在得到与音频强关
联的视频特征和与视频强关联的音频特征以及原始拼接特征之后,又基于这些
特征计算m的多头跨模态强关联特征。最后,对音频情感的多头自注意力特征进
行拼接,得到第一拼接特征,对视频表情的多头自注意力特征进行拼接,得到
第二拼接特征,对音频情感的多头跨模态强关联特征进行拼接,得到第三拼接
特征,对视频表情的多头跨模态强关联特征进行拼接,得到第四拼接特征。最后将四类拼接经过双向长短期记忆网络、特征拼接和分类器后,得到情感分类
识别结果。本发明通过改进多模态特征融合过程,通过相同头部内部特征融合、不同头部外
部特征融合后再进行特征拼接,最终提高了情感识别结果的鲁棒性和精准率,且实验也验
证了结果的可靠度。
附图说明
图1为一实施例的面部表情识别***的基本模块示意图。
图2为一实施例的人类多模态情感识别的主要流程图。
图3为一实施例的类脑多模态情感识别方法的步骤流程图。
图4为一实施例的类脑多模态情感识别网络的示意图。
图5(a)为一实施例的实现跨模态强关联特征提取的网络示意图。
图5(b)为另一实施例的实现跨模态强关联特征提取的网络示意图。
图5(c)为一实施例的实现模态m的多头自注意力特征提取的网络示意图。
图5(d)为一实施例的模态m的多头跨模态强关联特征提取的网络示意图。
图6为一实施例的MTCNN网络示意图。
图7(a)为一实施例的RCS-VGG19网络示意图。
图7(b)为一实施例的残差通道空间注意力模块的结构框图。
图8为一实施例的1DCNN音频卷积网络示意图。
图9为一实施例的残差双向LSTM网络示意图。
图10为一实施例的在FER2013测试集上的混淆矩阵图。
图11为一实施例的在FER2013测试集上的面部识别精度曲线。
图12为一实施例的NAO6机器人对不同情感的动作反馈图,其中,(a)表示焦虑对应的NAO6动作反馈;(b) 表示高兴对应的NAO6动作反馈;(c) 表示惊讶对应的NAO6动作反馈;(d) 表示悲伤对应的NAO6动作反馈;(e) 表示生气对应的NAO6动作反馈;(f) 表示厌恶对应的NAO6动作反馈;(g)表示 中性对应的NAO6动作反馈。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
人类的情感识别是一个复杂动态过程,涉及多模态感知通道,如图2,其识别精度依赖多模态信息的整合、学习等功能。然而,在计算机***中,多模态信号存在网络难训练、特征难融合等缺陷,导致现有情感识别方法在准确率和鲁棒性等方面无法满足动态场景下人机交互、临床诊断的使用要求,限制了情感机器人的应用与制备。因此,模拟人脑多模态信息融合机制,发展新的类脑协同学习方法,有望突破现有情感识别方法在准确率和鲁棒性等方面的局限。
如图3所示为一实施例中的类脑多模态情感识别方法的步骤流程图,该方法至少包括以下步骤:
步骤S200:计算跨模态强关联特征、原始拼接特征和模态m的多头自注意力特征。
在提取到视频表情特征和语音情感特征后,可以基于此特征执行三方面的操作,分别为:
其中,为近似最大函数,用于神经网络的分类层,取a或v,、、
分别为特征的Query、 Key、Value矩阵,即,、、分别为特征的Query、 Key、
Value矩阵,、、分别为特征的Query、 Key、Value矩阵。
其中,关于Query、 Key、Value矩阵,可以根据常规公式计算所得,具体如下:
其中,WQ、WK、WV为随机生成的线性变换矩阵。
对应于音频模态,其多头自注意力特征的计算公式为:
此时所计算的多头自注意力特征是单个模态各自的特征向量,不存在特征交叉。
此时所计算的多头跨模态强关联特征是融合了跨模态强关联特征和拼接特征所得。
步骤S500:将第一至第四拼接特征分别输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,基于统一特征向量进行情感分类识别。
在一实施例中,将第一至第四拼接特征分别输入双向长短期记忆网络后,通过全局平均池化对每个通道取均值,再进行特征拼接,以防止过拟合。
对应的,本发明还涉及一种类脑多模态情感识别网络,通过该网络可以完成上述类脑多模态情感识别方法。具体的,参考图4所示为一实施例中的类脑多模态情感识别网络的结构示意图,其中每个方框代表了一个算法的模块或代码的一部分,该模块或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。具体的,类脑多模态情感识别网络至少包括:
分类网络,用于基于统一特征向量进行情感分类识别。通常设置全连接层输出分类结果。
其中,本发明的核心网络为两阶段注意力融合网络的设计,其至少包括第一通道特征融合网络和第二空间特征融合网络:
第二空间特征融合网络包括向量拼接模块和多头注意力模块:
多头注意力模块包括多头自注意力特征提取模块和多头跨模态强关联特征提取模块,其中,
基于上述所搭建的,将情感视频数据输入其中后,便能执行上文介绍的类脑多模态情感识别方法,最终输出情感分类结果。
在一实施例中,视频表情特征提取网络包括依次连接的多任务级联卷积神经网络(Multi-task Cascaded Convolutional Neural Network,以下简称MTCNN)和嵌入残差通道空间注意力模块(Residual-Channel-Spatial Attention,简称RCS注意力模块)的神经网络(例如VGG19神经网络),RCS注意力模块嵌嵌于神经网络每个池化层之前。视频表情特征的提取过程包括:先采用多任务级联卷积神经网络对人脸图像进行特征点定位,再采用嵌入RCS注意力模块的神经网络提取视频表情特征。例如,先采用MTCNN检测人脸,提取人脸图像,并对人脸图像进行特征点定位,标记68个特征点(如眼、嘴、鼻等位置);再构建了一种嵌入RCS注意力模块的VGG19网络(以下简称RCS- VGG19网络),通过仿射变换进行人脸矫正,提取128维的人脸特征信息。
具体的,如图6所示为一具体实施例中的MTCNN网络,其包括种包含三个级联结构,依次为提议网络(Proposal Network,以下简称P-Net)、细化网络(Refine Network,以下简称R-Net)和输出网络(Output Network,以下简称O-Net)。首先,输入图像被预处理缩放到不同的大小;然后,P-Net通过遍历缩放图像中的每个像素,用于定位人脸区域;R-Net用于过滤边界框,O-Net将输出面部关键点,用于面部检测,且这三个网络是级联的,前一网络输出为后续网络的输入;最后,MTCNN根据这三个任务进行训练,实现人脸区域定位(即分类)、边界框回归和人脸关键点定位这三个功能。
MTCNN网络中各部分结构与功能如下:
P-Net是一个全卷积网络,其输入数据是大小为12×12×3的图像,输出为候选区域和边界回归向量,对候选区域进行标定,通过非极大值抑制算法去除重叠框定。
R-Net的网络与P-Net网络类似,但最后添加了一个全连接层,用于图像分类,其输入数据为P-Net的输出图像,图像大小为24×24×3,同样使用边界框回归进行标定,稍微调整候选形式,通过NMS(非极大值抑制)算法合并重叠区域。
O-Net的网络与R-Net相似,其输入数据为R-Net的输出图像,图像大小为48×48×3,不同之处在于新添加的一个卷积层,用来对人脸细节的特征进行处理。O-Net可以标记5个脸部关键点:左眼、右眼、鼻子、左嘴角、右嘴角。
具体的,如图7(a)所示为一具体实施例中的RCS- VGG19网络,其作用于被MTCNN框
定出来的面部区域,目的是提取人脸表情特征向量。如图7(a)所示,不同于传统VGG网络,
VGG19网络采用深度可分离卷积,代替常规卷积,减小卷积层的计算消耗;同时每个池化层
之前,嵌入RCS注意力模块,通过激励改变特征通道权重(权重取值更大意味着特征更重
要),添加通道注意力机制,以提升模型提取特征的能力。这两方面改进有利于将RCS-
VGG19网络嵌入算力有限的机器人。具体的,VGG19要求的RGB图像像素不小于197×197,因
此RCS- VGG19网络的输入数据是O-Net边界框回归、重新调整大小后的人脸图像。RCS-
VGG19网络隐含层的最后一层输出视频表情特征。
具体的,如图7(b)所示为RCS注意力模块的结构框图,其主要包括通道注意力模块和空间注意力模块以及求和模块。
其中,通道注意力模块用于对输入特征F依次进行全局平均池化、全连接和sigmoid激
活函数处理后再与输入特征相乘,输出通道注意力特征,其
中,表示sigmoid激活函数,表示全连接处理,表示全局平均池化。
其中,空间注意力模块用于提取输入特征的单一通道特征后,依次对所提取的每
个单一通道特征进行全局平均池化、最大池化、卷积、sigmoid激活函数处理并拼接所有经
处理后的单一通道特征,输出空间注意力特征,其
中,表示卷积操作,具体可以为卷积核为7*7的卷积操作,表示最大池化操作。
在一实施例中,语音情感特征提取网络包括依次连接的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,以下简称 MFCC))处理网络、LSTM网络和音频卷积网络。语音情感特征提取过程至少包括:先将音频信号转换为梅尔频率倒谱系数向量,然后将梅尔频率倒谱系数向量输入所述改进的残差双向长短期记忆网络,更新系数向量;最后将更新后的系数向量输入音频卷积网络,提取语音情感特征。
具体的,MFCC的计算流程包括:
1)对音频信号预加重、分帧和加窗。预加重主要是将音频通过一个高通滤波器,用来增强高频信息;分帧主要是音频切成一小段一小段,每一小段为一帧,通常一帧为20~30毫秒;加窗主要对每一帧的音频信号乘上窗函数(如汉明窗),增加帧前、帧后两端的连续性,避免频谱泄露。
2)对每一帧加窗后通过快速傅里叶变换FFT得到频谱。加窗后的音频经过FFT后就可以得到频谱,FFT由离散傅里叶变换公式给出。
3)频谱通过Mel滤波器组得到Mel频谱。Mel滤波器组包含 20-30个三角函数滤波器,Mel滤波器组能识别特定帧中存在多少能量,得到每帧的滤波器组能量后,对其取log函数,得到Mel频谱。
4)对Mel频谱进行倒谱分析,即:取对数,做逆变换,这里的逆变换是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数构成一个向量,就是每帧的MFCC向量。
本发明使用Python中librosa工具包,计算音频的MFCC参数。
在一实施例中,上述所采用的LSTM网络均为改进的残差LSTM网络。如图9所示,该改进的残差LSTM网络包括上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征Xi依次经过下层双向长短期记忆网络和上层长短期记忆网络后再与输入特征Xi求和,得到改进的残差双向长短期记忆网络的输出结果Yi。考虑到经典LSTM算法只关注历史信息,不能获取t时刻之后的信息,我们采用残差双向LSTM获取t时刻前后文的语音信息,从整段音频时序出发判断说话者的情感,增强识别精度,同时防止过拟合。
本发明还涉及一种情感机器人,其包括采集模块、情感识别模块和交互模块,其中,
数据采集模块用于采集测试者的情感视频数据;
所述情感识别模块具备上文的类脑多模态情感识别网络,用于根据所采集的人情感视频数据识别测试者的情感;
所述交互模块用于根据所述情感识别模块所识别出的情感做出相应的动作。
具体的,打开机器人的可编程接口,如Choregraphe、Python等,嵌入本发明的类脑协同学习情感识别网络。根据情感类别,结合机器人的运动关节属性,编排机器人的上肢、下肢动作。启动机器人的摄像头获取测试者的视频流信号,通过麦克风获取音频流信号,把所采集的信号作为输入,送入机器人的情感识别模块,输出情感类别,机器人根据情感类别做出高兴、愤怒等动作反馈,实现机器人对情感的判断和交互。
以下,以具体的实施例进行说明。
实施例一
使用来自RAVDESS数据集的中的数据作为多模态情感数据,该数据集包含由24名专业演员(12名女性, 12名男性)制作的7356个文件,他们用中性的北美口音发出两个词汇匹配的语句,平均时长为3.74秒。言语包含平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,而歌曲包含平静、快乐、悲伤、愤怒和恐惧的情绪。在实施例中,将数据按照4:1:1的比例分成训练集、验证集和测试集,并使用随机水平翻转和随机旋转来进行数据增强,使可用数据更加充分。
第一阶段,从上述训练集中提取视频表情特征和语音情感特征。
为提取视频表情特征,先制备面部表情数据集,将RAVDESS中的视频分剪为15个连续帧,使用MTCNN网络对人物的面部进行检测并调整大小,获得图像大小为224×224像素的面部表情序列。再使用RCS-VGG19网络在VGG Face人脸数据集上进行预训练,实现迁移学习,迁移学习的作用是将模型放在与实验问题相关的大型数据集上进行预训练,然后使用预训练好的模型在制备的面部表情数据集中进行微调训练。这里,CNN使用随机梯度下降作为优化器,学习率为0.01,batch_size取值128,训练120个epoch之后得到训练好的视频表情特征提取网络。
为提取语音情感特征,对RAVDESS音频数据,通过librosa工具包计算MFCC特征向量,使用1DCNN提取音频特征,同样,这里的CNN使用随机梯度下降作为优化器,学习率为0.01,batch_size取值128,训练120个epoch之后得到训练好的语音情感特征提取网络。
第二阶段,进行视频表情特征和语音情感特征的融合。
步骤1:通过上文介绍的两阶段注意力融合网络实现特征融合,输出第一至第四拼
接特征、、、。本实施例中具体采取先对特征进行预处理后再
通过注意力融合机制计算与音频强关联的视频特征和与视频强关联的音频特征。
步骤2:通过上文介绍的残差双向LSTM获取视频前后两个时间的信息,防止过拟合。
步骤3:添加全局平均池化层,对步骤2获取的特征进行选择,提高特征感受野,通过逐步减小特征层的大小,达到减小模型参数与计算量的目的,也可以防止过拟合。在全局平均池化之后,通过Concatenate 函数构建特征拼接层,输出融合的特征向量,完成面部表情和音频情感特征的融合。
第三阶段:将上述融合的双模态情感特征进行集成,通过Softmax函数,将来自特征拼接层的输入值转化为概率,预测每个情感类别的概率,然后选择预测值最高的类别作为输出,即完成情感识别过程。
上述实施例可以采用Pycharm编译器进行编写,编程语言为Python 3.6,深度学***台包括Intel(R) Xeon(R) Silver 4110 CPU处理器和用于加速模型训练的Nvidia GeForce RTX 2080Ti GPU。实施效果如图10、图11、表1、表2和表3所示。
图10展示了上述实施例在人脸表情数据集FER2013测试集上的混淆矩阵,将对角线元素加和得到所有预测正确的个数,除以总样本数,得到准确率74.25%。
如图11为上述实施例在面部表情数据集FER2013的识别精度曲线,该识别精度高达74.25%。不同网络在面部表情数据集FER2013的识别精度对比如表1所示,其中,GCN模型出自文献“Fast and Efficient Facial Expression Recognition Using a GaborConvolutional Network”,Single MLCNN模型出自文献“Facial Expression RecognitionUsing a Temporal Ensemble of Multi-Level Convolutional Neural Networks.”,其对比结果如下:
如表1所示,相比最新的面部表情识别方法(73.03%),本发明精度提升约1.22%。
不同网络模型在RAVDESS数据集上的识别精度的对比如表2所示,其中,LogisticRegression on posteriors of the CNN-14&biLSTM-GuidedST模型出自文献“Multimodalemotion recognition on RAVDESS dataset using transfer learning”,xlsr-Wav2Vec2.0模型出自文献“A Proposal for Multimodal Emotion Recognition UsingAural Transformers and Action Units on RAVDESS Dataset”,CNN-X模型出自文献“Shallow over Deep Neural Networks: An Empirical Analysis for Human EmotionClassification Using Audio Data. In: International Conference on Internet ofThings and Connected Technologies”,其对比结果如下:
如表2所示,本发明在视频数据集的多模态识别精度达86.16%,相比最新的双模态识别方法(82.99%),本发明精度提升约3.17%。
另外,为验证本发明算法在模态缺失时的鲁棒性,将所发明的类脑学习情感识别算法应用于单模态的音频数据集和视频数据集(无语音),不同网络模型在单模态数据集识别精度对比如表3所示,其中,Guided-ST and bi-LSTM with attention模型和AlexNet模型以及CNN-14模型出自文献“Multimodal emotion recognition on RAVDESS datasetusing transfer learning”,bi-LSTM+Attention模型出自文献“A Proposal forMultimodal Emotion Recognition Using Aural Transformers and Action Units onRAVDESS Dataset”,ERANN-0-4模型出自文献“Eranns: Efficient residual audioneural networks for audio pattern recognition”,其对比结果如下:
如表3所示,本算法在单音频、单视频数据集上的识别精度分别达到71.00%和74.92%,较其他算法具有一定优势,因此,本发明所提及的方案具有较好的鲁棒性。
实施例二
基于NAO6代机器人展开,NAO机器人是法国Aldebaran Robotics公司开发的一款人形机器人,NAO拥有人形外观,身高为574mm,重量为5.4kg,全身上下共25个自由度,全身配备多种传感器,包括4个麦克风、2个摄像头、2个红外线发射接收装置、1个超声波测距仪、9个触碰传感器、1个IMU和8个压力传感器,使得NAO机器人可以实时感知环境、避免碰撞障碍物等,进而保证NAO执行特定感知识别任务的能力。第二实施例使用的NAO6是全新的第6代NAO机器人。将本发明算法通过Choregraphe界面和Python语言,嵌入NAO6机器人***,赋予机器人自主判断情感和交互功能。具体步骤如下:
步骤1:启动NAO6机器人,打开其可视化操作***Choregraphe,将移动、说话、语音识别、人脸检测等指令盒,拖动到Choregraphe***中,点击连接,完成情感识别与交互初始化过程。
步骤2:编排机器人的上肢、下肢动作,匹配高兴、悲伤、生气、恐惧、惊讶、中性等情感,完成情感交互动作初始化过程。
步骤3:将本发明的类脑协同学习情感识别算法,通过Python语音,封装成一个指令盒,拖入Choregraphe***,完成情感识别算法的嵌入过程。
步骤4:启动NAO6机器人上的两个摄像头和四个麦克风。获取测试者的人脸图像和声音,根据链路,先将人脸图像送入人脸检测指令盒,再激活Choregraphe***中情感识别指令盒,最后输出情感类别,完成面部表情和音频的多模态识别过程。
步骤5: NAO6机器人根据步骤4输出的情感类别,结合步骤3编排的情感表达动作,做出高兴、愤怒等动作反馈,完成情感交互过程。
图12展示了NAO6机器人根据本发明对于检测到的不同情感,自主做出不同的动作反馈。综上,通过第二实施例及其实施效果,验证了本发明在机器人情感识别与交互方面的成功应用。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种类脑多模态情感识别方法,其特征在于,包括:
将第一至第四拼接特征分别输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,基于统一特征向量进行情感分类识别。
3.如权利要求1所述的类脑多模态情感识别方法,其特征在于,所述双向长短期记忆网络为改进的残差双向长短期记忆网络,包括:上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和,得到改进的残差双向长短期记忆网络的输出结果。
4.如权利要求1所述的类脑多模态情感识别方法,其特征在于,视频表情特征的提取过程包括:
先采用多任务级联卷积神经网络对人脸图像进行特征点定位;
再采用嵌入残差通道空间注意力模块的神经网络提取视频表情特征;
其中,嵌入残差通道空间注意力模块嵌于神经网络每个池化层之前,嵌入残差通道空间注意力模块包括通道注意力模块和空间注意力模块以及求和模块,其中,
5.如权利要求4所述的类脑多模态情感识别方法,其特征在于,多任务级联卷积神经网络包括依次连接的提议网络、细化网络和输出网络,其中,
提议网络为全卷积网络,用于确定候选区域;
细化网络相比于所述提议网络在最后增加全连接层,用于使用边界框回归进行特征标定;
输出网络相比于所述细化网络在中间增加一个卷积层,用于对人脸细节特征进行处理,标记出脸部关键特征点。
6.如权利要求3所述的类脑多模态情感识别方法,其特征在于,语音情感特征的提取过程包括:
将音频信号转换为梅尔频率倒谱系数向量;
将梅尔频率倒谱系数向量输入所述改进的残差双向长短期记忆网络,更新系数向量;
将更新后的系数向量输入音频卷积网络,提取语音情感特征。
7.如权利要求6所述的类脑多模态情感识别方法,其特征在于,将音频信号转换为梅尔频率倒谱系数向量,包括:
对音频信号依次进行预加重、分帧和加窗处理;
对每一帧加窗后的特征通过快速傅里叶变换得到频谱;
将频谱输入Mel滤波器组,得到Mel频谱;
对Mel频谱进行倒谱分析,得到梅尔频率倒谱系数向量。
8.一种类脑多模态情感识别网络,其特征在于,包括:
双向长短期记忆网络,用于获取第一至第四拼接特征前后时刻的信息,更新第一至第四拼接特征;
第一特征拼接网络,用于拼接更新后的第一至第四拼接特征,得到统一特征向量;
分类网络,用于基于统一特征向量进行情感分类识别;
其中,两阶段注意力融合网络包括第一通道特征融合网络和第二空间特征融合网络:
第二空间特征融合网络包括向量拼接模块和多头注意力模块:
多头注意力模块包括多头自注意力特征提取模块和多头跨模态强关联特征提取模块,其中,
9.如权利要求8所述的类脑多模态情感识别网络,其特征在于,所述双向长短期记忆网络为改进的残差双向长短期记忆网络,包括:上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和,得到改进的残差双向长短期记忆网络的输出结果。
10.一种情感机器人,其特征在于,包括数据采集模块、情感识别模块和交互模块,其中,
数据采集模块用于采集测试者的情感视频数据;
所述情感识别模块具备权利要求8或9所述的类脑多模态情感识别网络,用于根据所采集的人情感视频数据识别测试者的情感;
所述交互模块用于根据所述情感识别模块所识别出的情感做出相应的动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211092432.0A CN115169507B (zh) | 2022-09-08 | 2022-09-08 | 类脑多模态情感识别网络、识别方法及情感机器人 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211092432.0A CN115169507B (zh) | 2022-09-08 | 2022-09-08 | 类脑多模态情感识别网络、识别方法及情感机器人 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115169507A true CN115169507A (zh) | 2022-10-11 |
CN115169507B CN115169507B (zh) | 2023-05-19 |
Family
ID=83481671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211092432.0A Active CN115169507B (zh) | 2022-09-08 | 2022-09-08 | 类脑多模态情感识别网络、识别方法及情感机器人 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115169507B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115431288A (zh) * | 2022-11-10 | 2022-12-06 | 深圳市神州云海智能科技有限公司 | 基于多元融合信息进行情感反馈及信息交互的导诊机器人 |
CN116127403A (zh) * | 2022-10-26 | 2023-05-16 | 锋睿领创(珠海)科技有限公司 | 基于跨模态特征再校准的信息融合方法、设备和存储介质 |
CN116543445A (zh) * | 2023-06-29 | 2023-08-04 | 新励成教育科技股份有限公司 | 一种演讲者面部表情分析方法、***、设备及存储介质 |
CN117131347A (zh) * | 2023-10-25 | 2023-11-28 | 上海为旌科技有限公司 | 司机动力画像的生成方法、装置、电子设备和存储介质 |
CN117809354A (zh) * | 2024-02-29 | 2024-04-02 | 华南理工大学 | 基于头部可穿戴设备感知的情感识别方法、介质及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001072478A1 (fr) * | 2000-03-31 | 2001-10-04 | Sony Corporation | Dispositif robotique, procede de commande de l'action du dispositif robotique, dispositif de detection de force exterieure, et procede de detection de force exterieure |
CN108229540A (zh) * | 2017-12-08 | 2018-06-29 | 中国科学院自动化研究所 | 类脑多模态融合方法及装置 |
CN111222009A (zh) * | 2019-10-25 | 2020-06-02 | 汕头大学 | 一种基于长短时记忆机制的多模态个性化情感的处理方法 |
CN111553295A (zh) * | 2020-05-01 | 2020-08-18 | 北京邮电大学 | 基于自注意力机制的多模态情感识别方法 |
CN112784798A (zh) * | 2021-02-01 | 2021-05-11 | 东南大学 | 一种基于特征-时间注意力机制的多模态情感识别方法 |
CN113408385A (zh) * | 2021-06-10 | 2021-09-17 | 华南理工大学 | 一种音视频多模态情感分类方法及*** |
CN114648108A (zh) * | 2022-04-20 | 2022-06-21 | 华中科技大学 | 自适应仿生神经元电路及仿生神经元自适应模拟方法 |
-
2022
- 2022-09-08 CN CN202211092432.0A patent/CN115169507B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001072478A1 (fr) * | 2000-03-31 | 2001-10-04 | Sony Corporation | Dispositif robotique, procede de commande de l'action du dispositif robotique, dispositif de detection de force exterieure, et procede de detection de force exterieure |
CN108229540A (zh) * | 2017-12-08 | 2018-06-29 | 中国科学院自动化研究所 | 类脑多模态融合方法及装置 |
CN111222009A (zh) * | 2019-10-25 | 2020-06-02 | 汕头大学 | 一种基于长短时记忆机制的多模态个性化情感的处理方法 |
CN111553295A (zh) * | 2020-05-01 | 2020-08-18 | 北京邮电大学 | 基于自注意力机制的多模态情感识别方法 |
CN112784798A (zh) * | 2021-02-01 | 2021-05-11 | 东南大学 | 一种基于特征-时间注意力机制的多模态情感识别方法 |
CN113408385A (zh) * | 2021-06-10 | 2021-09-17 | 华南理工大学 | 一种音视频多模态情感分类方法及*** |
CN114648108A (zh) * | 2022-04-20 | 2022-06-21 | 华中科技大学 | 自适应仿生神经元电路及仿生神经元自适应模拟方法 |
Non-Patent Citations (1)
Title |
---|
李祎,缪向水: "基于忆阻器的存储与计算融合理论与实现", 《国防科技》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116127403A (zh) * | 2022-10-26 | 2023-05-16 | 锋睿领创(珠海)科技有限公司 | 基于跨模态特征再校准的信息融合方法、设备和存储介质 |
CN116127403B (zh) * | 2022-10-26 | 2024-02-06 | 锋睿领创(珠海)科技有限公司 | 基于跨模态特征再校准的信息融合方法、设备和存储介质 |
CN115431288A (zh) * | 2022-11-10 | 2022-12-06 | 深圳市神州云海智能科技有限公司 | 基于多元融合信息进行情感反馈及信息交互的导诊机器人 |
CN116543445A (zh) * | 2023-06-29 | 2023-08-04 | 新励成教育科技股份有限公司 | 一种演讲者面部表情分析方法、***、设备及存储介质 |
CN116543445B (zh) * | 2023-06-29 | 2023-09-26 | 新励成教育科技股份有限公司 | 一种演讲者面部表情分析方法、***、设备及存储介质 |
CN117131347A (zh) * | 2023-10-25 | 2023-11-28 | 上海为旌科技有限公司 | 司机动力画像的生成方法、装置、电子设备和存储介质 |
CN117131347B (zh) * | 2023-10-25 | 2024-01-19 | 上海为旌科技有限公司 | 司机动力画像的生成方法、装置、电子设备和存储介质 |
CN117809354A (zh) * | 2024-02-29 | 2024-04-02 | 华南理工大学 | 基于头部可穿戴设备感知的情感识别方法、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115169507B (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115169507B (zh) | 类脑多模态情感识别网络、识别方法及情感机器人 | |
US11093734B2 (en) | Method and apparatus with emotion recognition | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及*** | |
CN110826466A (zh) | 基于lstm音像融合的情感识别方法、装置及存储介质 | |
WO2015158017A1 (zh) | 智能交互及心理慰藉机器人服务*** | |
CN112151030B (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
Dhuheir et al. | Emotion recognition for healthcare surveillance systems using neural networks: A survey | |
CN111967334B (zh) | 一种人体意图识别方法、***以及存储介质 | |
CN112418166B (zh) | 一种基于多模态信息的情感分布学习方法 | |
CN115329779A (zh) | 一种多人对话情感识别方法 | |
CN115631267A (zh) | 生成动画的方法及装置 | |
CN113516990A (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
Ivanko et al. | An experimental analysis of different approaches to audio–visual speech recognition and lip-reading | |
KR102373608B1 (ko) | 디지털 휴먼 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램 | |
Akman et al. | Lip reading multiclass classification by using dilated CNN with Turkish dataset | |
Kumar et al. | Facial emotion recognition and detection using cnn | |
Asadiabadi et al. | Multimodal speech driven facial shape animation using deep neural networks | |
Chelali | Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment | |
Xu et al. | Emotion recognition research based on integration of facial expression and voice | |
Nguyen | Multimodal emotion recognition using deep learning techniques | |
CN114999633A (zh) | 一种基于多模态共享矢量空间的抑郁识别方法及*** | |
Ivanko | Audio-visual Russian speech recognition | |
Nemani et al. | Speaker independent VSR: A systematic review and futuristic applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |