CN115169507A - 类脑多模态情感识别网络、识别方法及情感机器人 - Google Patents

类脑多模态情感识别网络、识别方法及情感机器人 Download PDF

Info

Publication number
CN115169507A
CN115169507A CN202211092432.0A CN202211092432A CN115169507A CN 115169507 A CN115169507 A CN 115169507A CN 202211092432 A CN202211092432 A CN 202211092432A CN 115169507 A CN115169507 A CN 115169507A
Authority
CN
China
Prior art keywords
features
network
emotion
splicing
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211092432.0A
Other languages
English (en)
Other versions
CN115169507B (zh
Inventor
胡滨
李祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202211092432.0A priority Critical patent/CN115169507B/zh
Publication of CN115169507A publication Critical patent/CN115169507A/zh
Application granted granted Critical
Publication of CN115169507B publication Critical patent/CN115169507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Hospice & Palliative Care (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种类脑多模态情感识别网络、识别方法及情感机器人,其中,类脑多模态情感识别方法包括提取视频表情特征和语音情感特征,计算与音频强关联的视频特征和与视频强关联的音频特征,拼接视频表情特征和语音情感特征,得到原始拼接特征,计算模态m的多头自注意力特征和模态m的多头跨模态强关联特征,对所有头部的同类特征进行拼接,得到第一至第四拼接特征,将第一至第四拼接特征分别输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,基于统一特征向量进行情感分类识别。本发明通过改进多模态特征融合过程,通过相同头部内部特征融合、不同头部外部特征融合后再进行特征拼接,最终提高了情感识别结果的鲁棒性和精准率。

Description

类脑多模态情感识别网络、识别方法及情感机器人
技术领域
本发明属于类脑智能与情感计算技术领域,更具体地,涉及一种类脑多模态情感识别网络、识别方法及情感机器人。
背景技术
图1 展示的是一个典型面部表情识别***的结构,主要由3部分组成:人脸检测、表情特征提取、分类器。心理学研究发现,在人类的情感表达中,面部表情约占比55%,语音和说话内容分别占38%与7%。现有深度学习方法在面部表情识别方面取得了重要进展,然而,单模态识别***面临情感解释不全面、分类不准确等局限,限制了情感机器人的应用。虽然也有一些文献提出了融合视觉和听觉的多模态情感识别方法,受融合方法的限制,导致现有情感识别方法在准确率和鲁棒性等方面无法满足动态场景下人机交互、临床诊断的使用要求,依然限制了情感机器人的应用与制备。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种类脑多模态情感识别网络、识别方法及情感机器人,其目的在于对多模态融合方法进行改进,由此提高情感识别的鲁棒性及准确率。
为实现上述目的,按照本发明的一个方面,提供了一种类脑多模态情感识别方法,包括:
提取视频表情特征
Figure 21610DEST_PATH_IMAGE001
和语音情感特征
Figure 681261DEST_PATH_IMAGE002
融合视频表情特征
Figure 639990DEST_PATH_IMAGE001
和语音情感特征
Figure 560541DEST_PATH_IMAGE002
,得到与音频强关联的视频特征
Figure 313734DEST_PATH_IMAGE003
和与 视频强关联的音频特征
Figure 585315DEST_PATH_IMAGE004
拼接视频表情特征
Figure 82155DEST_PATH_IMAGE001
和语音情感特征
Figure 998159DEST_PATH_IMAGE002
,得到原始拼接特征
Figure 187832DEST_PATH_IMAGE005
计算模态m的多头自注意力特征
Figure 946709DEST_PATH_IMAGE006
,其中,m取a或v,
Figure 981661DEST_PATH_IMAGE007
为头 部序号,
Figure 752171DEST_PATH_IMAGE008
Figure 237379DEST_PATH_IMAGE009
Figure 93340DEST_PATH_IMAGE010
Figure 931983DEST_PATH_IMAGE011
分别为特征
Figure 947212DEST_PATH_IMAGE012
在n种不同转换矩阵下的Query、Key、 Value矩阵,
Figure 478688DEST_PATH_IMAGE013
为Query矩阵的维度;
计算模态m的多头跨模态强关联特征
Figure 556365DEST_PATH_IMAGE014
,其中,
Figure 588912DEST_PATH_IMAGE015
Figure 334014DEST_PATH_IMAGE016
Figure 770812DEST_PATH_IMAGE017
Figure 460419DEST_PATH_IMAGE018
为特征
Figure 640865DEST_PATH_IMAGE019
在n种不同转换矩阵下的Query矩阵,
Figure 506052DEST_PATH_IMAGE020
Figure 503964DEST_PATH_IMAGE021
分别为特征
Figure 821813DEST_PATH_IMAGE005
在n种不同 转换矩阵下的Key、Value矩阵;
对所有头部的同类特征进行拼接,得到第一至第四拼接特征
Figure 805950DEST_PATH_IMAGE022
Figure 384699DEST_PATH_IMAGE023
Figure 428878DEST_PATH_IMAGE024
Figure 234023DEST_PATH_IMAGE025
,其中,
Figure 21850DEST_PATH_IMAGE026
Figure 720685DEST_PATH_IMAGE027
将第一至第四拼接特征分别输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,基于统一特征向量进行情感分类识别。
在其中一个实施例中,
计算与音频强关联的视频特征
Figure 935766DEST_PATH_IMAGE003
的过程包括:
将特征
Figure 697048DEST_PATH_IMAGE002
依次经Relu激活函数和Sigmoid激活函数处理,得到模态
Figure 413200DEST_PATH_IMAGE028
的强关联权 重
Figure 841908DEST_PATH_IMAGE029
将特征
Figure 227890DEST_PATH_IMAGE001
与强关联权重
Figure 7627DEST_PATH_IMAGE029
相乘,得到中间特征
Figure 261891DEST_PATH_IMAGE030
计算与音频强关联的视频特征
Figure 545104DEST_PATH_IMAGE031
计算与视频强关联的音频特征
Figure 367567DEST_PATH_IMAGE004
的过程包括:
将特征
Figure 369021DEST_PATH_IMAGE001
依次经输入Relu激活函数和Sigmoid激活函数处理,得到模态
Figure 161397DEST_PATH_IMAGE032
的强关 联权重
Figure 564696DEST_PATH_IMAGE033
将特征
Figure 558060DEST_PATH_IMAGE002
与强关联权重
Figure 781231DEST_PATH_IMAGE034
相乘,得到中间特征
Figure 642876DEST_PATH_IMAGE035
计算与视频强关联的音频特征
Figure 900682DEST_PATH_IMAGE036
其中,
Figure 799368DEST_PATH_IMAGE037
Figure 775415DEST_PATH_IMAGE038
分别为特征
Figure 316117DEST_PATH_IMAGE002
和特征
Figure 287484DEST_PATH_IMAGE002
的Query矩阵,
Figure 622651DEST_PATH_IMAGE039
Figure 820414DEST_PATH_IMAGE040
分别为特征
Figure 23862DEST_PATH_IMAGE030
的 Key、Value矩阵,
Figure 256260DEST_PATH_IMAGE041
Figure 496749DEST_PATH_IMAGE042
分别为特征
Figure 447387DEST_PATH_IMAGE035
的Key、Value矩阵。
在其中一个实施例中,所述双向长短期记忆网络为改进的残差双向长短期记忆网络,包括:上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和,得到改进的残差双向长短期记忆网络的输出结果。
在其中一个实施例中,视频表情特征的提取过程包括:
先采用多任务级联卷积神经网络对人脸图像进行特征点定位;
再采用嵌入残差通道空间注意力模块的神经网络提取视频表情特征;
其中,嵌入残差通道空间注意力模块嵌于神经网络每个池化层之前,嵌入残差通道空间注意力模块包括通道注意力模块和空间注意力模块以及求和模块,其中,
通道注意力模块用于对输入特征依次进行全局平均池化、全连接和sigmoid激活 函数处理后再与输入特征相乘,输出通道注意力特征
Figure 188947DEST_PATH_IMAGE043
空间注意力模块用于提取输入特征的单一通道特征后,依次对所提取的每个单一 通道特征进行全局平均池化、最大池化、卷积、sigmoid激活函数处理并拼接所有经处理后 的单一通道特征,输出空间注意力特征
Figure 275852DEST_PATH_IMAGE044
求和模块用于对输出通道注意力特征和空间注意力特征进行计算,得到嵌入残差 通道空间注意力模块的输出结果
Figure 687242DEST_PATH_IMAGE045
,其中,
Figure 859597DEST_PATH_IMAGE046
Figure 404848DEST_PATH_IMAGE047
Figure 346259DEST_PATH_IMAGE048
均 为设定的求和权重。
在其中一个实施例中,多任务级联卷积神经网络包括依次连接的提议网络、细化网络和输出网络,其中,
提议网络为全卷积网络,用于确定候选区域;
细化网络相比于所述提议网络在最后增加全连接层,用于使用边界框回归进行特征标定;
输出网络相比于所述细化网络在中间增加一个卷积层,用于对人脸细节特征进行处理,标记出脸部关键特征点。
在其中一个实施例中,语音情感特征的提取过程包括:
将音频信号转换为梅尔频率倒谱系数向量;
将梅尔频率倒谱系数向量输入所述改进的残差双向长短期记忆网络,更新系数向量;
将更新后的系数向量输入音频卷积网络,提取语音情感特征。
在其中一个实施例中,将音频信号转换为梅尔频率倒谱系数向量,包括:
对音频信号依次进行预加重、分帧和加窗处理;
对每一帧加窗后的特征通过快速傅里叶变换得到频谱;
将频谱输入Mel滤波器组,得到Mel频谱;
对Mel频谱进行倒谱分析,得到梅尔频率倒谱系数向量。
按照本发明的另一方面,提供了一种类脑多模态情感识别网络,包括:
视频表情特征提取网络和语音情感特征提取网络,分别用于提取视频表情特征
Figure 194129DEST_PATH_IMAGE001
和语音情感特征
Figure 853781DEST_PATH_IMAGE002
两阶段注意力融合网络,用于对视频表情特征和语音情感特征进行融合处理,输 出第一至第四拼接特征
Figure 937143DEST_PATH_IMAGE022
Figure 998640DEST_PATH_IMAGE023
Figure 17412DEST_PATH_IMAGE024
Figure 898780DEST_PATH_IMAGE025
双向长短期记忆网络,用于获取第一至第四拼接特征前后时刻的信息,更新第一至第四拼接特征;
第一特征拼接网络,用于拼接更新后的第一至第四拼接特征,得到统一特征向量;
分类网络,用于基于统一特征向量进行情感分类识别;
其中,两阶段注意力融合网络包括第一通道特征融合网络和第二空间特征融合网络:
第一通道特征融合网络用于融合视频表情特征
Figure 926779DEST_PATH_IMAGE001
和语音情感特征
Figure 967416DEST_PATH_IMAGE002
,得到与音 频强关联的视频特征
Figure 891510DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 525754DEST_PATH_IMAGE004
第二空间特征融合网络包括向量拼接模块和多头注意力模块:
向量拼接模块用于拼接视频表情特征
Figure 950919DEST_PATH_IMAGE001
和语音情感特征
Figure 721429DEST_PATH_IMAGE002
,得到原始拼接特征
Figure 82003DEST_PATH_IMAGE005
多头注意力模块包括多头自注意力特征提取模块和多头跨模态强关联特征提取模块,其中,
多头自注意力特征提取模块用于计算模态m的多头自注意力特征
Figure 203543DEST_PATH_IMAGE006
,其中,m取a或v,
Figure 307765DEST_PATH_IMAGE007
为头部序号,
Figure 57415DEST_PATH_IMAGE008
Figure 588890DEST_PATH_IMAGE009
Figure 197726DEST_PATH_IMAGE010
Figure 840060DEST_PATH_IMAGE011
分别为 特征
Figure 444217DEST_PATH_IMAGE012
在n种不同转换矩阵下的Query、Key、Value矩阵,
Figure 146594DEST_PATH_IMAGE013
为Query矩阵的维度;
多头跨模态强关联特征提取模块用于计算模态m的多头跨模态强关联特征
Figure 977146DEST_PATH_IMAGE049
,其中,
Figure 547805DEST_PATH_IMAGE015
Figure 412993DEST_PATH_IMAGE016
Figure 286271DEST_PATH_IMAGE017
Figure 338541DEST_PATH_IMAGE018
为特征
Figure 853836DEST_PATH_IMAGE019
在n种不同转换矩阵下的 Query矩阵,
Figure 698164DEST_PATH_IMAGE020
Figure 742343DEST_PATH_IMAGE021
分别为特征
Figure 16330DEST_PATH_IMAGE005
在n种不同转换矩阵下的Key、Value矩阵;
第二特征拼接网络,用于对所有头部的同类特征进行拼接,得到第一至第四拼接 特征
Figure 928791DEST_PATH_IMAGE022
Figure 502992DEST_PATH_IMAGE023
Figure 718072DEST_PATH_IMAGE024
Figure 10513DEST_PATH_IMAGE025
,其中,
Figure 461086DEST_PATH_IMAGE026
Figure 155373DEST_PATH_IMAGE027
在其中一个实施例中,所述双向长短期记忆网络为改进的残差双向长短期记忆网络,包括:上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和,得到改进的残差双向长短期记忆网络的输出结果。
按照本发明的又一方面,提供了一种情感机器人,包括数据采集模块、情感识别模块和交互模块,其中,
数据采集模块用于采集测试者的情感视频数据;
所述情感识别模块具备上述的类脑多模态情感识别网络,用于根据所采集的人情感视频数据识别测试者的情感;
所述交互模块用于根据所述情感识别模块所识别出的情感做出相应的动作。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明在提取视频表情特征
Figure 541355DEST_PATH_IMAGE001
和语音情感特征
Figure 55513DEST_PATH_IMAGE002
之后,基于所提取的特征,执行 以下三个方面的操作:第一方面计算跨模态强关联特征,得到与音频强关联的视频特征
Figure 309777DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 858570DEST_PATH_IMAGE004
,第二方面对视频表情特征
Figure 415453DEST_PATH_IMAGE001
和语音情感特征
Figure 416907DEST_PATH_IMAGE002
进行拼接, 得到原始拼接特征
Figure 474862DEST_PATH_IMAGE005
,第三方面计算模态m的多头自注意力特征
Figure 878161DEST_PATH_IMAGE050
。在得到与音频强关 联的视频特征
Figure 605946DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 94696DEST_PATH_IMAGE004
以及原始拼接特征
Figure 956342DEST_PATH_IMAGE005
之后,又基于这些 特征计算m的多头跨模态强关联特征
Figure 214148DEST_PATH_IMAGE051
。最后,对音频情感的多头自注意力特征
Figure 112833DEST_PATH_IMAGE052
进 行拼接,得到第一拼接特征
Figure 88880DEST_PATH_IMAGE022
,对视频表情的多头自注意力特征
Figure 512074DEST_PATH_IMAGE053
进行拼接,得到 第二拼接特征
Figure 624387DEST_PATH_IMAGE023
,对音频情感的多头跨模态强关联特征
Figure 959553DEST_PATH_IMAGE054
进行拼接,得到第三拼接 特征
Figure 157317DEST_PATH_IMAGE024
,对视频表情的多头跨模态强关联特征
Figure 360765DEST_PATH_IMAGE055
进行拼接,得到第四拼接特征
Figure 327584DEST_PATH_IMAGE025
。最后将四类拼接经过双向长短期记忆网络、特征拼接和分类器后,得到情感分类 识别结果。本发明通过改进多模态特征融合过程,通过相同头部内部特征融合、不同头部外 部特征融合后再进行特征拼接,最终提高了情感识别结果的鲁棒性和精准率,且实验也验 证了结果的可靠度。
附图说明
图1为一实施例的面部表情识别***的基本模块示意图。
图2为一实施例的人类多模态情感识别的主要流程图。
图3为一实施例的类脑多模态情感识别方法的步骤流程图。
图4为一实施例的类脑多模态情感识别网络的示意图。
图5(a)为一实施例的实现跨模态强关联特征提取的网络示意图。
图5(b)为另一实施例的实现跨模态强关联特征提取的网络示意图。
图5(c)为一实施例的实现模态m的多头自注意力特征提取的网络示意图。
图5(d)为一实施例的模态m的多头跨模态强关联特征提取的网络示意图。
图6为一实施例的MTCNN网络示意图。
图7(a)为一实施例的RCS-VGG19网络示意图。
图7(b)为一实施例的残差通道空间注意力模块的结构框图。
图8为一实施例的1DCNN音频卷积网络示意图。
图9为一实施例的残差双向LSTM网络示意图。
图10为一实施例的在FER2013测试集上的混淆矩阵图。
图11为一实施例的在FER2013测试集上的面部识别精度曲线。
图12为一实施例的NAO6机器人对不同情感的动作反馈图,其中,(a)表示焦虑对应的NAO6动作反馈;(b) 表示高兴对应的NAO6动作反馈;(c) 表示惊讶对应的NAO6动作反馈;(d) 表示悲伤对应的NAO6动作反馈;(e) 表示生气对应的NAO6动作反馈;(f) 表示厌恶对应的NAO6动作反馈;(g)表示 中性对应的NAO6动作反馈。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
人类的情感识别是一个复杂动态过程,涉及多模态感知通道,如图2,其识别精度依赖多模态信息的整合、学习等功能。然而,在计算机***中,多模态信号存在网络难训练、特征难融合等缺陷,导致现有情感识别方法在准确率和鲁棒性等方面无法满足动态场景下人机交互、临床诊断的使用要求,限制了情感机器人的应用与制备。因此,模拟人脑多模态信息融合机制,发展新的类脑协同学习方法,有望突破现有情感识别方法在准确率和鲁棒性等方面的局限。
如图3所示为一实施例中的类脑多模态情感识别方法的步骤流程图,该方法至少包括以下步骤:
步骤S100:提取视频表情特征
Figure 833651DEST_PATH_IMAGE001
和语音情感特征
Figure 518711DEST_PATH_IMAGE002
步骤S200:计算跨模态强关联特征、原始拼接特征和模态m的多头自注意力特征。
在提取到视频表情特征和语音情感特征后,可以基于此特征执行三方面的操作,分别为:
步骤S210:计算与音频强关联的视频特征
Figure 260271DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 347175DEST_PATH_IMAGE004
在一实施例中,可以通过常规的注意力融合机制计算与音频强关联的视频特征
Figure 24144DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 462079DEST_PATH_IMAGE004
,其计算公式为:
Figure 741750DEST_PATH_IMAGE056
Figure 683162DEST_PATH_IMAGE057
其中,
Figure 531032DEST_PATH_IMAGE058
为近似最大函数,用于神经网络的分类层,
Figure 456263DEST_PATH_IMAGE059
取a或v,
Figure 414991DEST_PATH_IMAGE060
Figure 601122DEST_PATH_IMAGE061
Figure 354314DEST_PATH_IMAGE062
分别为特征
Figure 501262DEST_PATH_IMAGE012
的Query、 Key、Value矩阵,即,
Figure 263682DEST_PATH_IMAGE037
Figure 304319DEST_PATH_IMAGE063
Figure 493992DEST_PATH_IMAGE064
分别为特征
Figure 862656DEST_PATH_IMAGE002
的Query、 Key、 Value矩阵,
Figure 163188DEST_PATH_IMAGE038
Figure 323910DEST_PATH_IMAGE065
Figure 684485DEST_PATH_IMAGE066
分别为特征
Figure 540445DEST_PATH_IMAGE001
的Query、 Key、Value矩阵。
其中,关于Query、 Key、Value矩阵,可以根据常规公式计算所得,具体如下:
Figure 644667DEST_PATH_IMAGE067
Figure 659897DEST_PATH_IMAGE068
Figure 191372DEST_PATH_IMAGE069
其中,WQ、WK、WV为随机生成的线性变换矩阵。
在另一实施例中,为了进一步提高识别精度,也可以先对特征进行预处理后再通 过注意力融合机制计算与音频强关联的视频特征
Figure 534629DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 176963DEST_PATH_IMAGE004
。具体 过程为:
计算与音频强关联的视频特征
Figure 46699DEST_PATH_IMAGE003
的过程包括:
将特征
Figure 749076DEST_PATH_IMAGE002
依次经Relu激活函数和Sigmoid激活函数处理,得到模态
Figure 579628DEST_PATH_IMAGE028
的强关联权 重
Figure 25653DEST_PATH_IMAGE029
,即
Figure 484316DEST_PATH_IMAGE070
,其中,
Figure 357594DEST_PATH_IMAGE071
Figure 675443DEST_PATH_IMAGE072
Figure 784214DEST_PATH_IMAGE073
Figure 238329DEST_PATH_IMAGE074
均为神 经网络可学习的参数。
将特征
Figure 282508DEST_PATH_IMAGE001
与强关联权重
Figure 681128DEST_PATH_IMAGE029
相乘,得到中间特征
Figure 468956DEST_PATH_IMAGE030
,即
Figure 167790DEST_PATH_IMAGE075
计算与音频强关联的视频特征
Figure 382871DEST_PATH_IMAGE031
,其中,
Figure 675312DEST_PATH_IMAGE037
为特征
Figure 1251DEST_PATH_IMAGE002
的 Query矩阵,
Figure 289013DEST_PATH_IMAGE039
Figure 940574DEST_PATH_IMAGE040
分别为特征
Figure 454732DEST_PATH_IMAGE030
的Key、Value矩阵。
相应的,计算与视频强关联的音频特征
Figure 708996DEST_PATH_IMAGE004
的过程包括:
将特征
Figure 257789DEST_PATH_IMAGE001
依次经输入Relu激活函数(也称逻辑回归函数)和Sigmoid激活函数(也称线性 整流函数)处理,得到模态
Figure 814672DEST_PATH_IMAGE032
的强关联权重
Figure 816126DEST_PATH_IMAGE033
,即
Figure 608502DEST_PATH_IMAGE076
将特征
Figure 11801DEST_PATH_IMAGE002
与强关联权重
Figure 739586DEST_PATH_IMAGE033
相乘,得到中间特征
Figure 352970DEST_PATH_IMAGE035
,即
Figure 824403DEST_PATH_IMAGE077
计算与视频强关联的音频特征
Figure 816629DEST_PATH_IMAGE036
,其中,
Figure 105528DEST_PATH_IMAGE038
特征
Figure 81574DEST_PATH_IMAGE001
的Query 矩阵,
Figure 91119DEST_PATH_IMAGE078
Figure 469011DEST_PATH_IMAGE042
分别为特征
Figure 663231DEST_PATH_IMAGE035
的Key、Value矩阵。
步骤S220:拼接视频表情特征
Figure 126574DEST_PATH_IMAGE001
和语音情感特征
Figure 939809DEST_PATH_IMAGE002
,得到原始拼接特征
Figure 31262DEST_PATH_IMAGE005
Figure 537330DEST_PATH_IMAGE079
步骤S230:计算模态m的多头自注意力特征
Figure 222389DEST_PATH_IMAGE050
模态m的多头自注意力特征
Figure 839315DEST_PATH_IMAGE050
的计算公式为:
Figure 50853DEST_PATH_IMAGE080
其中,
Figure 727822DEST_PATH_IMAGE007
为头部序号,
Figure 900178DEST_PATH_IMAGE008
Figure 55216DEST_PATH_IMAGE009
Figure 121261DEST_PATH_IMAGE010
Figure 969131DEST_PATH_IMAGE081
分别为特征
Figure 487837DEST_PATH_IMAGE012
在n种不同转换矩阵 下的Query、 Key、Value矩阵,Query、 Key、Value矩阵的计算参考上文,不同的i对应不同的 线性转换矩阵W。
即,对应于视频模态,其多头自注意力特征
Figure 446566DEST_PATH_IMAGE053
的计算公式为:
Figure 242483DEST_PATH_IMAGE082
对应于音频模态,其多头自注意力特征的计算公式为:
Figure 261255DEST_PATH_IMAGE083
此时所计算的多头自注意力特征是单个模态各自的特征向量,不存在特征交叉。
步骤S300:计算模态m的多头跨模态强关联特征
Figure 1678DEST_PATH_IMAGE051
模态m的多头跨模态强关联特征
Figure 764097DEST_PATH_IMAGE051
的计算公式为:
Figure 804735DEST_PATH_IMAGE084
其中,
Figure 463249DEST_PATH_IMAGE015
Figure 97493DEST_PATH_IMAGE016
Figure 522658DEST_PATH_IMAGE017
Figure 293168DEST_PATH_IMAGE018
为特征
Figure 388163DEST_PATH_IMAGE019
在n种不同转换矩阵下的Query矩阵,
Figure 634336DEST_PATH_IMAGE020
Figure 738559DEST_PATH_IMAGE021
分 别为特征
Figure 363575DEST_PATH_IMAGE005
在n种不同转换矩阵下的Key、Value矩阵。
即,对应于视频模态,其多头跨模态强关联特征
Figure 754105DEST_PATH_IMAGE055
的计算公式为:
Figure 97362DEST_PATH_IMAGE085
对应于音频模态,其多头跨模态强关联特征
Figure 5275DEST_PATH_IMAGE054
的计算公式为:
Figure 750377DEST_PATH_IMAGE086
此时所计算的多头跨模态强关联特征是融合了跨模态强关联特征和拼接特征所得。
步骤S400:对所有头部的同类特征进行拼接,得到第一至第四拼接特征
Figure 577387DEST_PATH_IMAGE022
Figure 407940DEST_PATH_IMAGE023
Figure 588386DEST_PATH_IMAGE024
Figure 312628DEST_PATH_IMAGE025
其中,第一拼接特征
Figure 185906DEST_PATH_IMAGE022
为对音频情感的多头自注意力特征
Figure 503755DEST_PATH_IMAGE052
进行拼接而 成,即
Figure 346946DEST_PATH_IMAGE087
第二拼接特征
Figure 66641DEST_PATH_IMAGE023
为对视频表情的多头自注意力特征
Figure 110820DEST_PATH_IMAGE053
进行拼接而成,即
Figure 915965DEST_PATH_IMAGE088
第三拼接特征
Figure 828426DEST_PATH_IMAGE024
为对音频情感的多头跨模态强关联特征
Figure 402627DEST_PATH_IMAGE054
进行拼接而 成,即
Figure 617708DEST_PATH_IMAGE089
第四拼接特征
Figure 644569DEST_PATH_IMAGE025
为对视频表情的多头跨模态强关联特征
Figure 95142DEST_PATH_IMAGE055
进行拼接而 成,即
Figure 523850DEST_PATH_IMAGE090
步骤S500:将第一至第四拼接特征分别输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,基于统一特征向量进行情感分类识别。
在一实施例中,将第一至第四拼接特征分别输入双向长短期记忆网络后,通过全局平均池化对每个通道取均值,再进行特征拼接,以防止过拟合。
对应的,本发明还涉及一种类脑多模态情感识别网络,通过该网络可以完成上述类脑多模态情感识别方法。具体的,参考图4所示为一实施例中的类脑多模态情感识别网络的结构示意图,其中每个方框代表了一个算法的模块或代码的一部分,该模块或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。具体的,类脑多模态情感识别网络至少包括:
视频表情特征提取网络,用于提取视频表情特征
Figure 909832DEST_PATH_IMAGE001
语音情感特征提取网络,用于提取语音情感特征
Figure 814203DEST_PATH_IMAGE002
两阶段注意力融合网络,用于对视频表情特征和语音情感特征进行融合处理,输 出第一至第四拼接特征
Figure 943833DEST_PATH_IMAGE022
Figure 227046DEST_PATH_IMAGE023
Figure 908563DEST_PATH_IMAGE024
Figure 910018DEST_PATH_IMAGE025
双向长短期记忆(Long Short-Term Memory,以下简称LSTM)网络,用于获取第一 至第四拼接特征前后时刻的信息,更新第一至第四拼接特征
Figure 843338DEST_PATH_IMAGE091
Figure 981059DEST_PATH_IMAGE092
Figure 99056DEST_PATH_IMAGE093
Figure 322227DEST_PATH_IMAGE094
第一特征拼接网络,用于拼接更新后的第一至第四拼接特征,得到同一特征向量
Figure 793660DEST_PATH_IMAGE095
分类网络,用于基于统一特征向量进行情感分类识别。通常设置全连接层输出分类结果。
其中,本发明的核心网络为两阶段注意力融合网络的设计,其至少包括第一通道特征融合网络和第二空间特征融合网络:
第一通道特征融合网络用于融合视频表情特征
Figure 176100DEST_PATH_IMAGE001
和语音情感特征
Figure 340365DEST_PATH_IMAGE002
,得到与音 频强关联的视频特征
Figure 50832DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 325955DEST_PATH_IMAGE004
第二空间特征融合网络包括向量拼接模块和多头注意力模块:
向量拼接模块用于拼接视频表情特征
Figure 562902DEST_PATH_IMAGE001
和语音情感特征
Figure 632489DEST_PATH_IMAGE002
,得到原始拼接特征
Figure 95831DEST_PATH_IMAGE005
多头注意力模块包括多头自注意力特征提取模块和多头跨模态强关联特征提取模块,其中,
多头自注意力特征提取模块用于计算模态m的多头自注意力特征
Figure 33700DEST_PATH_IMAGE050
。其具体计 算公式参考上文介绍,具体可以通过图5(c)所示的网络实现自注意力特征提取。
多头跨模态强关联特征提取模块用于计算模态m的多头跨模态强关联特征
Figure 266098DEST_PATH_IMAGE051
。 其具体计算公式参考上文介绍,具体可以通过图5(d)所示的网络实现跨模态强关联特征提 取。
第二特征拼接网络,用于对所有头部的同类特征进行拼接,得到第一至第四拼接 特征
Figure 506587DEST_PATH_IMAGE022
Figure 457225DEST_PATH_IMAGE023
Figure 198785DEST_PATH_IMAGE024
Figure 285690DEST_PATH_IMAGE025
基于上述所搭建的,将情感视频数据输入其中后,便能执行上文介绍的类脑多模态情感识别方法,最终输出情感分类结果。
在一实施例中,视频表情特征提取网络包括依次连接的多任务级联卷积神经网络(Multi-task Cascaded Convolutional Neural Network,以下简称MTCNN)和嵌入残差通道空间注意力模块(Residual-Channel-Spatial Attention,简称RCS注意力模块)的神经网络(例如VGG19神经网络),RCS注意力模块嵌嵌于神经网络每个池化层之前。视频表情特征的提取过程包括:先采用多任务级联卷积神经网络对人脸图像进行特征点定位,再采用嵌入RCS注意力模块的神经网络提取视频表情特征。例如,先采用MTCNN检测人脸,提取人脸图像,并对人脸图像进行特征点定位,标记68个特征点(如眼、嘴、鼻等位置);再构建了一种嵌入RCS注意力模块的VGG19网络(以下简称RCS- VGG19网络),通过仿射变换进行人脸矫正,提取128维的人脸特征信息。
具体的,如图6所示为一具体实施例中的MTCNN网络,其包括种包含三个级联结构,依次为提议网络(Proposal Network,以下简称P-Net)、细化网络(Refine Network,以下简称R-Net)和输出网络(Output Network,以下简称O-Net)。首先,输入图像被预处理缩放到不同的大小;然后,P-Net通过遍历缩放图像中的每个像素,用于定位人脸区域;R-Net用于过滤边界框,O-Net将输出面部关键点,用于面部检测,且这三个网络是级联的,前一网络输出为后续网络的输入;最后,MTCNN根据这三个任务进行训练,实现人脸区域定位(即分类)、边界框回归和人脸关键点定位这三个功能。
MTCNN网络中各部分结构与功能如下:
P-Net是一个全卷积网络,其输入数据是大小为12×12×3的图像,输出为候选区域和边界回归向量,对候选区域进行标定,通过非极大值抑制算法去除重叠框定。
R-Net的网络与P-Net网络类似,但最后添加了一个全连接层,用于图像分类,其输入数据为P-Net的输出图像,图像大小为24×24×3,同样使用边界框回归进行标定,稍微调整候选形式,通过NMS(非极大值抑制)算法合并重叠区域。
O-Net的网络与R-Net相似,其输入数据为R-Net的输出图像,图像大小为48×48×3,不同之处在于新添加的一个卷积层,用来对人脸细节的特征进行处理。O-Net可以标记5个脸部关键点:左眼、右眼、鼻子、左嘴角、右嘴角。
具体的,如图7(a)所示为一具体实施例中的RCS- VGG19网络,其作用于被MTCNN框 定出来的面部区域,目的是提取人脸表情特征向量。如图7(a)所示,不同于传统VGG网络, VGG19网络采用深度可分离卷积,代替常规卷积,减小卷积层的计算消耗;同时每个池化层 之前,嵌入RCS注意力模块,通过激励改变特征通道权重(权重取值更大意味着特征更重 要),添加通道注意力机制,以提升模型提取特征的能力。这两方面改进有利于将RCS- VGG19网络嵌入算力有限的机器人。具体的,VGG19要求的RGB图像像素不小于197×197,因 此RCS- VGG19网络的输入数据是O-Net边界框回归、重新调整大小后的人脸图像。RCS- VGG19网络隐含层的最后一层输出视频表情特征
Figure 697080DEST_PATH_IMAGE001
具体的,如图7(b)所示为RCS注意力模块的结构框图,其主要包括通道注意力模块和空间注意力模块以及求和模块。
其中,通道注意力模块用于对输入特征F依次进行全局平均池化、全连接和sigmoid激 活函数处理后再与输入特征相乘,输出通道注意力特征
Figure 994069DEST_PATH_IMAGE096
,其 中,
Figure 149107DEST_PATH_IMAGE097
表示sigmoid激活函数,
Figure 356097DEST_PATH_IMAGE098
表示全连接处理,
Figure 938388DEST_PATH_IMAGE099
表示全局平均池化。
其中,空间注意力模块用于提取输入特征的单一通道特征后,依次对所提取的每 个单一通道特征进行全局平均池化、最大池化、卷积、sigmoid激活函数处理并拼接所有经 处理后的单一通道特征,输出空间注意力特征
Figure 722673DEST_PATH_IMAGE100
,其 中,
Figure 681402DEST_PATH_IMAGE101
表示卷积操作,具体可以为卷积核为7*7的卷积操作,
Figure 742899DEST_PATH_IMAGE102
表示最大池化操作。
在一实施例中,语音情感特征提取网络包括依次连接的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,以下简称 MFCC))处理网络、LSTM网络和音频卷积网络。语音情感特征提取过程至少包括:先将音频信号转换为梅尔频率倒谱系数向量,然后将梅尔频率倒谱系数向量输入所述改进的残差双向长短期记忆网络,更新系数向量;最后将更新后的系数向量输入音频卷积网络,提取语音情感特征。
具体的,MFCC的计算流程包括:
1)对音频信号预加重、分帧和加窗。预加重主要是将音频通过一个高通滤波器,用来增强高频信息;分帧主要是音频切成一小段一小段,每一小段为一帧,通常一帧为20~30毫秒;加窗主要对每一帧的音频信号乘上窗函数(如汉明窗),增加帧前、帧后两端的连续性,避免频谱泄露。
2)对每一帧加窗后通过快速傅里叶变换FFT得到频谱。加窗后的音频经过FFT后就可以得到频谱,FFT由离散傅里叶变换公式给出。
3)频谱通过Mel滤波器组得到Mel频谱。Mel滤波器组包含 20-30个三角函数滤波器,Mel滤波器组能识别特定帧中存在多少能量,得到每帧的滤波器组能量后,对其取log函数,得到Mel频谱。
4)对Mel频谱进行倒谱分析,即:取对数,做逆变换,这里的逆变换是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数构成一个向量,就是每帧的MFCC向量。
本发明使用Python中librosa工具包,计算音频的MFCC参数。
进一步考虑音频的时序特性,本发明构建基于1DCNN(一维卷积神经网络)的音频 卷积网络,提取音频特征,记为特征向量
Figure 761671DEST_PATH_IMAGE002
。在一具体的实施例中,采用的1DCNN网络如图8 所示。
在一实施例中,上述所采用的LSTM网络均为改进的残差LSTM网络。如图9所示,该改进的残差LSTM网络包括上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征Xi依次经过下层双向长短期记忆网络和上层长短期记忆网络后再与输入特征Xi求和,得到改进的残差双向长短期记忆网络的输出结果Yi。考虑到经典LSTM算法只关注历史信息,不能获取t时刻之后的信息,我们采用残差双向LSTM获取t时刻前后文的语音信息,从整段音频时序出发判断说话者的情感,增强识别精度,同时防止过拟合。
本发明还涉及一种情感机器人,其包括采集模块、情感识别模块和交互模块,其中,
数据采集模块用于采集测试者的情感视频数据;
所述情感识别模块具备上文的类脑多模态情感识别网络,用于根据所采集的人情感视频数据识别测试者的情感;
所述交互模块用于根据所述情感识别模块所识别出的情感做出相应的动作。
具体的,打开机器人的可编程接口,如Choregraphe、Python等,嵌入本发明的类脑协同学习情感识别网络。根据情感类别,结合机器人的运动关节属性,编排机器人的上肢、下肢动作。启动机器人的摄像头获取测试者的视频流信号,通过麦克风获取音频流信号,把所采集的信号作为输入,送入机器人的情感识别模块,输出情感类别,机器人根据情感类别做出高兴、愤怒等动作反馈,实现机器人对情感的判断和交互。
以下,以具体的实施例进行说明。
实施例一
使用来自RAVDESS数据集的中的数据作为多模态情感数据,该数据集包含由24名专业演员(12名女性, 12名男性)制作的7356个文件,他们用中性的北美口音发出两个词汇匹配的语句,平均时长为3.74秒。言语包含平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,而歌曲包含平静、快乐、悲伤、愤怒和恐惧的情绪。在实施例中,将数据按照4:1:1的比例分成训练集、验证集和测试集,并使用随机水平翻转和随机旋转来进行数据增强,使可用数据更加充分。
第一阶段,从上述训练集中提取视频表情特征和语音情感特征。
为提取视频表情特征,先制备面部表情数据集,将RAVDESS中的视频分剪为15个连续帧,使用MTCNN网络对人物的面部进行检测并调整大小,获得图像大小为224×224像素的面部表情序列。再使用RCS-VGG19网络在VGG Face人脸数据集上进行预训练,实现迁移学习,迁移学习的作用是将模型放在与实验问题相关的大型数据集上进行预训练,然后使用预训练好的模型在制备的面部表情数据集中进行微调训练。这里,CNN使用随机梯度下降作为优化器,学习率为0.01,batch_size取值128,训练120个epoch之后得到训练好的视频表情特征提取网络。
为提取语音情感特征,对RAVDESS音频数据,通过librosa工具包计算MFCC特征向量,使用1DCNN提取音频特征,同样,这里的CNN使用随机梯度下降作为优化器,学习率为0.01,batch_size取值128,训练120个epoch之后得到训练好的语音情感特征提取网络。
第二阶段,进行视频表情特征和语音情感特征的融合。
步骤1:通过上文介绍的两阶段注意力融合网络实现特征融合,输出第一至第四拼 接特征
Figure 767673DEST_PATH_IMAGE022
Figure 264513DEST_PATH_IMAGE023
Figure 180517DEST_PATH_IMAGE024
Figure 494823DEST_PATH_IMAGE025
。本实施例中具体采取先对特征进行预处理后再 通过注意力融合机制计算与音频强关联的视频特征
Figure 129067DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 429598DEST_PATH_IMAGE004
步骤2:通过上文介绍的残差双向LSTM获取视频前后两个时间的信息,防止过拟合。
步骤3:添加全局平均池化层,对步骤2获取的特征进行选择,提高特征感受野,通过逐步减小特征层的大小,达到减小模型参数与计算量的目的,也可以防止过拟合。在全局平均池化之后,通过Concatenate 函数构建特征拼接层,输出融合的特征向量,完成面部表情和音频情感特征的融合。
第三阶段:将上述融合的双模态情感特征进行集成,通过Softmax函数,将来自特征拼接层的输入值转化为概率,预测每个情感类别的概率,然后选择预测值最高的类别作为输出,即完成情感识别过程。
上述实施例可以采用Pycharm编译器进行编写,编程语言为Python 3.6,深度学***台包括Intel(R) Xeon(R) Silver 4110 CPU处理器和用于加速模型训练的Nvidia GeForce RTX 2080Ti GPU。实施效果如图10、图11、表1、表2和表3所示。
图10展示了上述实施例在人脸表情数据集FER2013测试集上的混淆矩阵,将对角线元素加和得到所有预测正确的个数,除以总样本数,得到准确率74.25%。
如图11为上述实施例在面部表情数据集FER2013的识别精度曲线,该识别精度高达74.25%。不同网络在面部表情数据集FER2013的识别精度对比如表1所示,其中,GCN模型出自文献“Fast and Efficient Facial Expression Recognition Using a GaborConvolutional Network”,Single MLCNN模型出自文献“Facial Expression RecognitionUsing a Temporal Ensemble of Multi-Level Convolutional Neural Networks.”,其对比结果如下:
Figure 59163DEST_PATH_IMAGE103
如表1所示,相比最新的面部表情识别方法(73.03%),本发明精度提升约1.22%。
不同网络模型在RAVDESS数据集上的识别精度的对比如表2所示,其中,LogisticRegression on posteriors of the CNN-14&biLSTM-GuidedST模型出自文献“Multimodalemotion recognition on RAVDESS dataset using transfer learning”,xlsr-Wav2Vec2.0模型出自文献“A Proposal for Multimodal Emotion Recognition UsingAural Transformers and Action Units on RAVDESS Dataset”,CNN-X模型出自文献“Shallow over Deep Neural Networks: An Empirical Analysis for Human EmotionClassification Using Audio Data. In: International Conference on Internet ofThings and Connected Technologies”,其对比结果如下:
Figure 419737DEST_PATH_IMAGE104
如表2所示,本发明在视频数据集的多模态识别精度达86.16%,相比最新的双模态识别方法(82.99%),本发明精度提升约3.17%。
另外,为验证本发明算法在模态缺失时的鲁棒性,将所发明的类脑学习情感识别算法应用于单模态的音频数据集和视频数据集(无语音),不同网络模型在单模态数据集识别精度对比如表3所示,其中,Guided-ST and bi-LSTM with attention模型和AlexNet模型以及CNN-14模型出自文献“Multimodal emotion recognition on RAVDESS datasetusing transfer learning”,bi-LSTM+Attention模型出自文献“A Proposal forMultimodal Emotion Recognition Using Aural Transformers and Action Units onRAVDESS Dataset”,ERANN-0-4模型出自文献“Eranns: Efficient residual audioneural networks for audio pattern recognition”,其对比结果如下:
Figure 541277DEST_PATH_IMAGE105
如表3所示,本算法在单音频、单视频数据集上的识别精度分别达到71.00%和74.92%,较其他算法具有一定优势,因此,本发明所提及的方案具有较好的鲁棒性。
实施例二
基于NAO6代机器人展开,NAO机器人是法国Aldebaran Robotics公司开发的一款人形机器人,NAO拥有人形外观,身高为574mm,重量为5.4kg,全身上下共25个自由度,全身配备多种传感器,包括4个麦克风、2个摄像头、2个红外线发射接收装置、1个超声波测距仪、9个触碰传感器、1个IMU和8个压力传感器,使得NAO机器人可以实时感知环境、避免碰撞障碍物等,进而保证NAO执行特定感知识别任务的能力。第二实施例使用的NAO6是全新的第6代NAO机器人。将本发明算法通过Choregraphe界面和Python语言,嵌入NAO6机器人***,赋予机器人自主判断情感和交互功能。具体步骤如下:
步骤1:启动NAO6机器人,打开其可视化操作***Choregraphe,将移动、说话、语音识别、人脸检测等指令盒,拖动到Choregraphe***中,点击连接,完成情感识别与交互初始化过程。
步骤2:编排机器人的上肢、下肢动作,匹配高兴、悲伤、生气、恐惧、惊讶、中性等情感,完成情感交互动作初始化过程。
步骤3:将本发明的类脑协同学习情感识别算法,通过Python语音,封装成一个指令盒,拖入Choregraphe***,完成情感识别算法的嵌入过程。
步骤4:启动NAO6机器人上的两个摄像头和四个麦克风。获取测试者的人脸图像和声音,根据链路,先将人脸图像送入人脸检测指令盒,再激活Choregraphe***中情感识别指令盒,最后输出情感类别,完成面部表情和音频的多模态识别过程。
步骤5: NAO6机器人根据步骤4输出的情感类别,结合步骤3编排的情感表达动作,做出高兴、愤怒等动作反馈,完成情感交互过程。
图12展示了NAO6机器人根据本发明对于检测到的不同情感,自主做出不同的动作反馈。综上,通过第二实施例及其实施效果,验证了本发明在机器人情感识别与交互方面的成功应用。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种类脑多模态情感识别方法,其特征在于,包括:
提取视频表情特征
Figure 131863DEST_PATH_IMAGE001
和语音情感特征
Figure 783424DEST_PATH_IMAGE002
融合视频表情特征
Figure 297582DEST_PATH_IMAGE001
和语音情感特征
Figure 427212DEST_PATH_IMAGE002
,得到与音频强关联的视频特征
Figure 100639DEST_PATH_IMAGE003
和与视频 强关联的音频特征
Figure 657522DEST_PATH_IMAGE004
拼接视频表情特征
Figure 658976DEST_PATH_IMAGE001
和语音情感特征
Figure 592297DEST_PATH_IMAGE002
,得到原始拼接特征
Figure 120230DEST_PATH_IMAGE005
计算模态m的多头自注意力特征
Figure 848015DEST_PATH_IMAGE006
,其中,m取a或v,
Figure 602344DEST_PATH_IMAGE007
为头部序 号,
Figure 73777DEST_PATH_IMAGE008
Figure 331583DEST_PATH_IMAGE009
Figure 620482DEST_PATH_IMAGE010
Figure 596528DEST_PATH_IMAGE011
分别为特征
Figure 606072DEST_PATH_IMAGE012
在n种不同转换矩阵下的Query、 Key、Value矩 阵,
Figure 983964DEST_PATH_IMAGE013
为Query矩阵的维度;
计算模态m的多头跨模态强关联特征
Figure 178185DEST_PATH_IMAGE014
,其中,
Figure 641527DEST_PATH_IMAGE015
Figure 454763DEST_PATH_IMAGE016
Figure 687161DEST_PATH_IMAGE017
Figure 317862DEST_PATH_IMAGE018
为特征
Figure 2922DEST_PATH_IMAGE019
在n种不同转换矩阵下的Query矩阵,
Figure 619848DEST_PATH_IMAGE020
Figure 706752DEST_PATH_IMAGE021
分别为特征
Figure 508355DEST_PATH_IMAGE005
在n种不同转换 矩阵下的Key、Value矩阵;
对所有头部的同类特征进行拼接,得到第一至第四拼接特征
Figure 415131DEST_PATH_IMAGE022
,其中,
Figure 570169DEST_PATH_IMAGE023
Figure 901793DEST_PATH_IMAGE024
将第一至第四拼接特征分别输入双向长短期记忆网络后,拼接所有特征得到统一特征向量,基于统一特征向量进行情感分类识别。
2.如权利要求1所述的类脑多模态情感识别方法,其特征在于,
计算与音频强关联的视频特征
Figure 749664DEST_PATH_IMAGE003
的过程包括:
将特征
Figure 409315DEST_PATH_IMAGE002
依次经Relu激活函数和Sigmoid激活函数处理,得到模态
Figure 368044DEST_PATH_IMAGE025
的强关联权重
Figure 429541DEST_PATH_IMAGE026
将特征
Figure 572946DEST_PATH_IMAGE001
与强关联权重
Figure 719894DEST_PATH_IMAGE026
相乘,得到中间特征
Figure 482313DEST_PATH_IMAGE027
计算与音频强关联的视频特征
Figure 398317DEST_PATH_IMAGE028
计算与视频强关联的音频特征
Figure 447044DEST_PATH_IMAGE004
的过程包括:
将特征
Figure 81288DEST_PATH_IMAGE001
依次经输入Relu激活函数和Sigmoid激活函数处理,得到模态
Figure 381819DEST_PATH_IMAGE029
的强关联权重
Figure 417908DEST_PATH_IMAGE030
将特征
Figure 637537DEST_PATH_IMAGE002
与强关联权重
Figure 759077DEST_PATH_IMAGE030
相乘,得到中间特征
Figure 863299DEST_PATH_IMAGE031
计算与视频强关联的音频特征
Figure 488316DEST_PATH_IMAGE032
其中,
Figure 144425DEST_PATH_IMAGE033
Figure 487681DEST_PATH_IMAGE034
分别为特征
Figure 395595DEST_PATH_IMAGE002
和特征
Figure 140697DEST_PATH_IMAGE002
的Query矩阵,
Figure 967707DEST_PATH_IMAGE035
Figure 798260DEST_PATH_IMAGE036
分别为特征
Figure 244285DEST_PATH_IMAGE027
的Key、 Value矩阵,
Figure 843893DEST_PATH_IMAGE037
Figure 841805DEST_PATH_IMAGE038
分别为特征
Figure 159654DEST_PATH_IMAGE031
的Key、Value矩阵。
3.如权利要求1所述的类脑多模态情感识别方法,其特征在于,所述双向长短期记忆网络为改进的残差双向长短期记忆网络,包括:上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和,得到改进的残差双向长短期记忆网络的输出结果。
4.如权利要求1所述的类脑多模态情感识别方法,其特征在于,视频表情特征的提取过程包括:
先采用多任务级联卷积神经网络对人脸图像进行特征点定位;
再采用嵌入残差通道空间注意力模块的神经网络提取视频表情特征;
其中,嵌入残差通道空间注意力模块嵌于神经网络每个池化层之前,嵌入残差通道空间注意力模块包括通道注意力模块和空间注意力模块以及求和模块,其中,
通道注意力模块用于对输入特征
Figure 143791DEST_PATH_IMAGE039
依次进行全局平均池化、全连接和sigmoid激活函数 处理后再与输入特征相乘,输出通道注意力特征
Figure 863485DEST_PATH_IMAGE040
空间注意力模块用于提取输入特征
Figure 32298DEST_PATH_IMAGE039
的单一通道特征后,依次对所提取的每个单一通 道特征进行全局平均池化、最大池化、卷积、sigmoid激活函数处理并拼接所有经处理后的 单一通道特征,输出空间注意力特征
Figure 837443DEST_PATH_IMAGE041
求和模块用于对输出通道注意力特征和空间注意力特征进行计算,得到嵌入残差通道 空间注意力模块的输出结果
Figure 625271DEST_PATH_IMAGE042
,其中,
Figure 199471DEST_PATH_IMAGE043
Figure 539186DEST_PATH_IMAGE044
Figure 566048DEST_PATH_IMAGE045
均为设 定的求和权重。
5.如权利要求4所述的类脑多模态情感识别方法,其特征在于,多任务级联卷积神经网络包括依次连接的提议网络、细化网络和输出网络,其中,
提议网络为全卷积网络,用于确定候选区域;
细化网络相比于所述提议网络在最后增加全连接层,用于使用边界框回归进行特征标定;
输出网络相比于所述细化网络在中间增加一个卷积层,用于对人脸细节特征进行处理,标记出脸部关键特征点。
6.如权利要求3所述的类脑多模态情感识别方法,其特征在于,语音情感特征的提取过程包括:
将音频信号转换为梅尔频率倒谱系数向量;
将梅尔频率倒谱系数向量输入所述改进的残差双向长短期记忆网络,更新系数向量;
将更新后的系数向量输入音频卷积网络,提取语音情感特征。
7.如权利要求6所述的类脑多模态情感识别方法,其特征在于,将音频信号转换为梅尔频率倒谱系数向量,包括:
对音频信号依次进行预加重、分帧和加窗处理;
对每一帧加窗后的特征通过快速傅里叶变换得到频谱;
将频谱输入Mel滤波器组,得到Mel频谱;
对Mel频谱进行倒谱分析,得到梅尔频率倒谱系数向量。
8.一种类脑多模态情感识别网络,其特征在于,包括:
视频表情特征提取网络和语音情感特征提取网络,分别用于提取视频表情特征
Figure 157566DEST_PATH_IMAGE001
和语 音情感特征
Figure 586273DEST_PATH_IMAGE002
两阶段注意力融合网络,用于对视频表情特征和语音情感特征进行融合处理,输出第 一至第四拼接特征
Figure 96889DEST_PATH_IMAGE022
双向长短期记忆网络,用于获取第一至第四拼接特征前后时刻的信息,更新第一至第四拼接特征;
第一特征拼接网络,用于拼接更新后的第一至第四拼接特征,得到统一特征向量;
分类网络,用于基于统一特征向量进行情感分类识别;
其中,两阶段注意力融合网络包括第一通道特征融合网络和第二空间特征融合网络:
第一通道特征融合网络用于融合视频表情特征
Figure 876626DEST_PATH_IMAGE001
和语音情感特征
Figure 6256DEST_PATH_IMAGE002
,得到与音频强关 联的视频特征
Figure 289470DEST_PATH_IMAGE003
和与视频强关联的音频特征
Figure 236566DEST_PATH_IMAGE004
第二空间特征融合网络包括向量拼接模块和多头注意力模块:
向量拼接模块用于拼接视频表情特征
Figure 238020DEST_PATH_IMAGE001
和语音情感特征
Figure 171341DEST_PATH_IMAGE002
,得到原始拼接特征
Figure 309062DEST_PATH_IMAGE005
多头注意力模块包括多头自注意力特征提取模块和多头跨模态强关联特征提取模块,其中,
多头自注意力特征提取模块用于计算模态m的多头自注意力特征
Figure 427059DEST_PATH_IMAGE006
,其中,m取a或v,
Figure 915809DEST_PATH_IMAGE007
为头部序号,
Figure 387242DEST_PATH_IMAGE008
Figure 645048DEST_PATH_IMAGE009
Figure 933947DEST_PATH_IMAGE010
Figure 644414DEST_PATH_IMAGE046
分别为 特征
Figure 919538DEST_PATH_IMAGE012
在n种不同转换矩阵下的Query、 Key、Value矩阵,
Figure 297429DEST_PATH_IMAGE013
为Query矩阵的维度;
多头跨模态强关联特征提取模块用于计算模态m的多头跨模态强关联特征
Figure 491650DEST_PATH_IMAGE014
,其中,
Figure 954993DEST_PATH_IMAGE015
Figure 768228DEST_PATH_IMAGE016
Figure 626DEST_PATH_IMAGE017
Figure 506694DEST_PATH_IMAGE018
为特征
Figure 581966DEST_PATH_IMAGE019
在n种不同转换矩阵下的 Query矩阵,
Figure 198892DEST_PATH_IMAGE020
Figure 285797DEST_PATH_IMAGE047
分别为特征
Figure 962766DEST_PATH_IMAGE005
在n种不同转换矩阵下的Key、Value矩阵;
第二特征拼接网络,用于对所有头部的同类特征进行拼接,得到第一至第四拼接特
Figure 259755DEST_PATH_IMAGE022
,其中,
Figure 414793DEST_PATH_IMAGE023
Figure 621783DEST_PATH_IMAGE024
9.如权利要求8所述的类脑多模态情感识别网络,其特征在于,所述双向长短期记忆网络为改进的残差双向长短期记忆网络,包括:上层双向长短期记忆网络和下层双向长短期记忆网络,输入特征依次经过下层双向长短期记忆网络和上层长短期记忆网络后与输入特征求和,得到改进的残差双向长短期记忆网络的输出结果。
10.一种情感机器人,其特征在于,包括数据采集模块、情感识别模块和交互模块,其中,
数据采集模块用于采集测试者的情感视频数据;
所述情感识别模块具备权利要求8或9所述的类脑多模态情感识别网络,用于根据所采集的人情感视频数据识别测试者的情感;
所述交互模块用于根据所述情感识别模块所识别出的情感做出相应的动作。
CN202211092432.0A 2022-09-08 2022-09-08 类脑多模态情感识别网络、识别方法及情感机器人 Active CN115169507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211092432.0A CN115169507B (zh) 2022-09-08 2022-09-08 类脑多模态情感识别网络、识别方法及情感机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211092432.0A CN115169507B (zh) 2022-09-08 2022-09-08 类脑多模态情感识别网络、识别方法及情感机器人

Publications (2)

Publication Number Publication Date
CN115169507A true CN115169507A (zh) 2022-10-11
CN115169507B CN115169507B (zh) 2023-05-19

Family

ID=83481671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211092432.0A Active CN115169507B (zh) 2022-09-08 2022-09-08 类脑多模态情感识别网络、识别方法及情感机器人

Country Status (1)

Country Link
CN (1) CN115169507B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115431288A (zh) * 2022-11-10 2022-12-06 深圳市神州云海智能科技有限公司 基于多元融合信息进行情感反馈及信息交互的导诊机器人
CN116127403A (zh) * 2022-10-26 2023-05-16 锋睿领创(珠海)科技有限公司 基于跨模态特征再校准的信息融合方法、设备和存储介质
CN116543445A (zh) * 2023-06-29 2023-08-04 新励成教育科技股份有限公司 一种演讲者面部表情分析方法、***、设备及存储介质
CN117131347A (zh) * 2023-10-25 2023-11-28 上海为旌科技有限公司 司机动力画像的生成方法、装置、电子设备和存储介质
CN117809354A (zh) * 2024-02-29 2024-04-02 华南理工大学 基于头部可穿戴设备感知的情感识别方法、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001072478A1 (fr) * 2000-03-31 2001-10-04 Sony Corporation Dispositif robotique, procede de commande de l'action du dispositif robotique, dispositif de detection de force exterieure, et procede de detection de force exterieure
CN108229540A (zh) * 2017-12-08 2018-06-29 中国科学院自动化研究所 类脑多模态融合方法及装置
CN111222009A (zh) * 2019-10-25 2020-06-02 汕头大学 一种基于长短时记忆机制的多模态个性化情感的处理方法
CN111553295A (zh) * 2020-05-01 2020-08-18 北京邮电大学 基于自注意力机制的多模态情感识别方法
CN112784798A (zh) * 2021-02-01 2021-05-11 东南大学 一种基于特征-时间注意力机制的多模态情感识别方法
CN113408385A (zh) * 2021-06-10 2021-09-17 华南理工大学 一种音视频多模态情感分类方法及***
CN114648108A (zh) * 2022-04-20 2022-06-21 华中科技大学 自适应仿生神经元电路及仿生神经元自适应模拟方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001072478A1 (fr) * 2000-03-31 2001-10-04 Sony Corporation Dispositif robotique, procede de commande de l'action du dispositif robotique, dispositif de detection de force exterieure, et procede de detection de force exterieure
CN108229540A (zh) * 2017-12-08 2018-06-29 中国科学院自动化研究所 类脑多模态融合方法及装置
CN111222009A (zh) * 2019-10-25 2020-06-02 汕头大学 一种基于长短时记忆机制的多模态个性化情感的处理方法
CN111553295A (zh) * 2020-05-01 2020-08-18 北京邮电大学 基于自注意力机制的多模态情感识别方法
CN112784798A (zh) * 2021-02-01 2021-05-11 东南大学 一种基于特征-时间注意力机制的多模态情感识别方法
CN113408385A (zh) * 2021-06-10 2021-09-17 华南理工大学 一种音视频多模态情感分类方法及***
CN114648108A (zh) * 2022-04-20 2022-06-21 华中科技大学 自适应仿生神经元电路及仿生神经元自适应模拟方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李祎,缪向水: "基于忆阻器的存储与计算融合理论与实现", 《国防科技》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127403A (zh) * 2022-10-26 2023-05-16 锋睿领创(珠海)科技有限公司 基于跨模态特征再校准的信息融合方法、设备和存储介质
CN116127403B (zh) * 2022-10-26 2024-02-06 锋睿领创(珠海)科技有限公司 基于跨模态特征再校准的信息融合方法、设备和存储介质
CN115431288A (zh) * 2022-11-10 2022-12-06 深圳市神州云海智能科技有限公司 基于多元融合信息进行情感反馈及信息交互的导诊机器人
CN116543445A (zh) * 2023-06-29 2023-08-04 新励成教育科技股份有限公司 一种演讲者面部表情分析方法、***、设备及存储介质
CN116543445B (zh) * 2023-06-29 2023-09-26 新励成教育科技股份有限公司 一种演讲者面部表情分析方法、***、设备及存储介质
CN117131347A (zh) * 2023-10-25 2023-11-28 上海为旌科技有限公司 司机动力画像的生成方法、装置、电子设备和存储介质
CN117131347B (zh) * 2023-10-25 2024-01-19 上海为旌科技有限公司 司机动力画像的生成方法、装置、电子设备和存储介质
CN117809354A (zh) * 2024-02-29 2024-04-02 华南理工大学 基于头部可穿戴设备感知的情感识别方法、介质及设备

Also Published As

Publication number Publication date
CN115169507B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
CN115169507B (zh) 类脑多模态情感识别网络、识别方法及情感机器人
US11093734B2 (en) Method and apparatus with emotion recognition
CN112800903B (zh) 一种基于时空图卷积神经网络的动态表情识别方法及***
CN110826466A (zh) 基于lstm音像融合的情感识别方法、装置及存储介质
WO2015158017A1 (zh) 智能交互及心理慰藉机器人服务***
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
Dhuheir et al. Emotion recognition for healthcare surveillance systems using neural networks: A survey
CN111967334B (zh) 一种人体意图识别方法、***以及存储介质
CN112418166B (zh) 一种基于多模态信息的情感分布学习方法
CN115329779A (zh) 一种多人对话情感识别方法
CN115631267A (zh) 生成动画的方法及装置
CN113516990A (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
Ivanko et al. An experimental analysis of different approaches to audio–visual speech recognition and lip-reading
KR102373608B1 (ko) 디지털 휴먼 영상 형성을 위한 전자 장치 및 방법과, 그를 수행하도록 컴퓨터 판독 가능한 기록 매체에 저장된 프로그램
Akman et al. Lip reading multiclass classification by using dilated CNN with Turkish dataset
Kumar et al. Facial emotion recognition and detection using cnn
Asadiabadi et al. Multimodal speech driven facial shape animation using deep neural networks
Chelali Bimodal fusion of visual and speech data for audiovisual speaker recognition in noisy environment
Xu et al. Emotion recognition research based on integration of facial expression and voice
Nguyen Multimodal emotion recognition using deep learning techniques
CN114999633A (zh) 一种基于多模态共享矢量空间的抑郁识别方法及***
Ivanko Audio-visual Russian speech recognition
Nemani et al. Speaker independent VSR: A systematic review and futuristic applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant