CN113837072A - 一种融合多维信息的说话人情绪感知方法 - Google Patents

一种融合多维信息的说话人情绪感知方法 Download PDF

Info

Publication number
CN113837072A
CN113837072A CN202111117785.7A CN202111117785A CN113837072A CN 113837072 A CN113837072 A CN 113837072A CN 202111117785 A CN202111117785 A CN 202111117785A CN 113837072 A CN113837072 A CN 113837072A
Authority
CN
China
Prior art keywords
emotion
information
speaker
feature
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111117785.7A
Other languages
English (en)
Inventor
曾鸣
丁艺伟
邓文晋
刘鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111117785.7A priority Critical patent/CN113837072A/zh
Publication of CN113837072A publication Critical patent/CN113837072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种融合多维信息的说话人情绪感知方法,涉及深度学习和人的情绪感知技术领域。输入说话人的视频,从视频中提取说话人的图像及语音;将说话人的图像及语音输入多维特征提取网络,对语音中的语言文本和语言情绪进行提取,并从图像信息中提取出说话人的人脸表情特征;使用多维特征编码算法对多维特征提取网络的多种特征结果进行编码,将多维信息映射到一个共享的编码空间;使用多维特征融合算法对编码空间中的特征从低维到高维进行融合,取得多维信息在高维特征空间中与说话人情绪高度相关的特征向量;将融合的多维信息输入情绪感知网络进行预测,输出为说话人的情绪感知分布。可根据多维信息有效排除歧义性,精准预测说话人的情绪感知分布。

Description

一种融合多维信息的说话人情绪感知方法
技术领域
本发明涉及深度学习和人的情绪感知技术领域,尤其是涉及一种融合多维信息的说话人情绪感知方法。
背景技术
传统的深度学习算法,或只对语言内容信息进行情绪估计,而语言内容本身具有歧义性,需结合表述内容时的语调信息,缺乏语言内容与语音情绪信息间的关联与约束,或只依赖于单纯的图像信息检测人脸进行情绪估计,缺乏对于语言内容及语音情绪的适应性,无法胜任现实情况下复杂、多变的人机交互场景,实用价值受限。
传统的基于深度学习的情绪感知估计方法可以分为三大部分:(1)直接从图像中检测人脸,并针对人脸进行情绪估计的方法;(3)依赖上下文对话记录对说话人进行情绪感知估计的方法;(3)输入语音,根据语音中包含的语气语调等音频信号对说话人进行情绪感知估计的方法。无论哪一种方法,在现实情况下复杂、多变的交互场景中,都存在精度不够、无法消除歧义性等问题。也存在部分方法同时结合语言文本的语义信息和音频信号,在一定程度上提升情绪感知的效果,但是缺少说话人的图像信息,始终使得提升效果受限。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提供在与人交互的场景下,将语言内容、语音情绪、图像信息进行融合,可以对说话人进行准确有效的情绪感知估计的一种融合多维信息的说话人情绪感知方法。
本发明包括以下步骤:
1)输入说话人的视频,从视频中提取说话人的图像及语音;
2)将说话人的图像及语音输入多维特征提取网络,对语音中的语言内容featuretext和语言情绪featureaudio进行提取,并从图像信息中提取出说话人的人脸表情特征featureface
3)使用多维特征编码算法,对多维特征提取网络的多种特征结果进行编码,将多维信息映射到一个共享的编码空间Shared-Space(featuretext,featureaudio,featureface);
4)使用多维特征融合算法,将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量
Figure BDA0003276023390000021
因此具有跨多维特征学习相关性的能力,使得多维信息融合后的特征与情绪高度相关;
5)将融合的多维信息输入情绪感知网络进行预测,输出为说话人的情绪感知分布[score1,...,acoren]。
在步骤2)中,所述多维特征提取网络分为三个子网络分别对语言内容、语音情绪及图像信息进行特征提取;
所述语言内容和语言情绪信息从说话人视频中的语音进行提取,图像信息从说话人视频中检测人脸并提取人脸表情信息。
在步骤3)中,所述多维特征编码算法用于将三类特征信息编码到一个共享的编码空间中。
在步骤4)中,所述特征融合算法用于在共享的编码空间的高维特征中,融合多维信息中关于情绪感知的信息,并组成共同的特征表示。
在步骤5)中,所述情绪感知网络用于对多维信息融合的特征进行情感预测,预测结果是说话人的情绪感知分布。
本发明中,融合多维信息的说话人情绪感知方法能够有效地利用多维信息,包括语言内容、语音情绪及图像信息,实时地从视频中估计说话人的情绪感知分布。本发明将语言内容、语音情绪、图像信息进行融合,能有效利用多维信息进行融合,弥补单一维度信息的不足,增强神经网络模型对于不同维度信息特征的融合能力,使其能够快速、准确且有效地完成从视频中分析出说话人准确的情绪。特别是在现实情况下复杂、多变的交互场景,也可以根据多维信息有效的排除歧义性,精准预测说话人的情绪感知分布。本发明能够从视频中精准预测说话人情绪感知分布,其可以作为一项关键信息被应用到测谎分析、智慧问答、数字人等领域,具有极大的社会价值和良好的经济效益。
附图说明
图1为本发明的整体流程图。
图2为本发明的多维特征提取网络的框图。
图3为本发明的多维特征编码算法的示意图。
具体实施方式
下面结合具体实施例对本发明作进一步解说。
参考图1~3,本实施例提出一种融合多维信息的说话人情绪感知方法,包括以下步骤:
S1:输入说话人的视频,从视频中提取说话人的图像及语音;
S2:将说话人的图像及语音输入多维特征提取网络,对语音中的语言内容featuretext和语言情绪featureaudio进行提取,并从图像信息中提取出说话人的人脸表情特征featureface
S3:使用多维特征编码算法,对多维特征提取网络的多种特征结果进行编码,将多维信息映射到一个共享的编码空间Shared-Space(featuretext,feaure audio,featureface);
S4:使用多维特征融合算法,将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量
Figure BDA0003276023390000031
因此具有跨多维特征学习相关性的能力,使得多维信息融合后的特征与情绪高度相关;
S5:将融合的多维信息输入情绪感知网络进行预测,输出为说话人的情绪感知分布[score1,...,scoren]。
融合多维信息的说话人情绪感知方法:
输入为一段说话人的视频,输出为对应说话人的情绪感知分布。此算法主要包含4个部分:(1)特征提取(2)特征编码(3)特征融合(4)情绪感知分布估计。对于输入的视频,用特征提取网络分别对语言内容、语音情绪、图像信息进行特征提取,得到对应的基础特征;在此基础上,利用多维特征编码算法对特征提取网络的结果进行编码,将多维信息映射到一个共享的编码空间;使用特征融合算法,将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量,因此具有跨多维特征学习相关性的能力,使得多维信息融合后的特征与情绪高度相关;最后,融合的多维信息输入情绪感知网络进行预测,得到说话人的情绪感知分布。
多维特征提取网络:
从输入视频中剥离出语音和图像后,要从这两个输入信息中提取出三类信息:语言内容、语音情绪及说话人的人脸表情信息。为此将特征提取网络分为三个子网络,分别对三类信息进行提取,此网络的结构及流程如下:
1、将语音输入1号子网络,先利用ASR(语音识别技术)得到语言内容对应的文本。而后传统方法会使用单向或者双向LSTM网络来提取文本特征,而此处本发明还结合注意力和学习表示能力更强的Bert作为辅助,获取更加细粒度的情绪特征featuretext
2、将语音输入2号子网络,然后使用具有注意力机制的LSTM与CNN(卷积神经网络)相结合的结构,让所有的语音间隔在n秒的窗口内计算特征,并以t秒的步长进行移动。即使在仅有几个音素中才含有情感的长句中,也能将注意力层关注于与情感相关的部分以提取语音情绪的高级特征featureaudio
3、将图像输入3号子网络,先使用人脸检测器检测图像中说话人的人脸,再使用残差模块和深度可分离卷积的CNN架构,可以充分学习到人脸表情特征,提取到精确的人脸表情特征featureface
多维特征编码算法:
为克服传统方法只利用单一信息源的局限,需要结合多维信息,而多维信息所在的域不同,因此提取到的特征并不相关,无法直接利用。为此,提出多维特征编码算法,将来自不同域的信息进行编码,映射到一个适合稠密对应的编码空间,作为中间域共享编码空间,为后续多维信息的特征融合提供基础。此算法的过程如下:
1、构建一个共享的编码空间Shared-Space;
2、对语言内容、语音情绪、图像中的人脸表情信息进行特征编码;
3、将多维信息映射到一个共享的编码空间中Shared-Space(featuretext,featureaudio,featureface)。
多维特征融合算法:
在用多维特征编码算法得到多维特征共享的编码空间之后,需要融合多维特征。特征融合旨在将提取的特定于多维的特征融合为一个有关情绪的通用特征向量,因此具有跨多维特征学习相关性的能力,使得融合的情绪特征高度相关。为此,提出多维特征融合算法,具体过程如下:
1、将特征编码后的多维信息的共享编码空间作为输入;
2、在提取的特征上应用加权特征分数来指示情绪特征的重要性;
3、将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量
Figure BDA0003276023390000041
因此具有跨多维特征学习相关性的能力,使得多维信息融合后的特征与情绪高度相关;
4、将融合的多维信息进行存储,以用作情绪感知网络的输入。
本实施例中,首先特征提取网络分为三个子网络分别对语言内容、语音情绪、图像信息进行特征提取。由于提取的特征所在域不同,无法直接利用。因此利用多维特征编码算法,将来自不同域的信息进行编码,映射到一个适合稠密对应的编码空间,作为中间域共享编码空间,为后续多维信息的特征融合提供基础。从共享的编码空间中进行多维特征融合,生成对于说话人情绪感知有关的高维特征表示,并通过情绪感知网络进行预测,即可得到说话人的情绪感知分布情况。
本实施例中,多维特征提取网络先提取到语言内容、语音情绪、图像信息的基本特征信息,用作多维特征编码算法的输入。多维特征编码算法使得多维信息的特征可以摆脱所在域的限制,将不同域的特征映射到共享的编码空间中进行利用,作为共享特征为多维信息的特征融合提供基础。而多维特征融合算法将共享的编码空间信息进行充分利用,对情绪相关的特征从低维到高维进行匹配融合,更为充分和有效的利用空间维度的相关性约束,提高说话人情绪感知估计网络对于现实复杂场景的适应性和鲁棒性,对于测谎分析、智慧问答、数字人等领域有重大意义,具有极大的社会价值和良好的经济效益。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种融合多维信息的说话人情绪感知方法,其特征在于包括以下步骤:
1)输入说话人的视频,从视频中提取说话人的图像及语音;
2)将说话人的图像及语音输入多维特征提取网络,对语音中的语言文本和语言情绪进行提取,并从图像信息中提取出说话人的人脸表情特征;
3)使用多维特征编码算法,对多维特征提取网络的多种特征结果进行编码,将多维信息映射到一个共享的编码空间;
4)使用多维特征融合算法,将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量,因此具有跨多维特征学习相关性的能力,使得多维信息融合后的特征与情绪高度相关;
5)将融合的多维信息输入情绪感知网络进行预测,输出为说话人的情绪感知分布。
2.如权利要求1所述一种融合多维信息的说话人情绪感知方法,其特征在于在步骤2)中,所述多维特征提取网络分为3个子网络分别对语言内容、语音情绪及图像信息进行特征提取,其中,1号子网络为语言文本提取网络,2号子网络为语音情绪提取网络,3号子网络为图像信息提取网络,所述语言内容和语言情绪信息从说话人视频中的语音进行提取,图像信息从说话人视频中检测人脸并提取人脸表情信息。
3.如权利要求1所述一种融合多维信息的说话人情绪感知方法,其特征在于在步骤2)中,将说话人的图像及语音输入多维特征提取网络,对语音中的语言文本和语言情绪进行提取,并从图像信息中提取出说话人的人脸表情特征的具体步骤为:
(1)将语音输入1号子网络,先利用ASR(语音识别技术)得到语言内容对应的文本,使用单向或者双向LSTM网络来提取文本特征,结合注意力和学习表示能力更强的Bert作为辅助,获取更加细粒度的情绪特征featuretext;;
(2)将语音输入2号子网络,然后使用具有注意力机制的LSTM与CNN相结合的结构,让所有的语音间隔在n秒的窗口内计算特征,并以t秒的步长进行移动;即使在仅有几个音素中才含有情感的长句中,也能将注意力层关注于与情感相关的部分以提取语音情绪的高级特征featureaudio
(3)将图像输入3号子网络,先使用人脸检测器检测图像中说话人的人脸,再使用残差模块和深度可分离卷积的CNN架构,可以充分学习到人脸表情特征,提取到精确的人脸表情特征featureface
4.如权利要求1所述一种融合多维信息的说话人情绪感知方法,其特征在于在步骤3)中,所述多维特征编码算法用于将三类特征信息编码到一个共享的编码空间中。
5.如权利要求1所述一种融合多维信息的说话人情绪感知方法,其特征在于在步骤3)中,所述多维特征编码算法的具体步骤为:(1)构建一个共享的编码空间Shared-Space;(2)对语言内容、语音情绪、图像中的人脸表情信息进行特征编码;(3)将多维信息映射到一个共享的编码空间中Shared-Space(featuretext,featureaudio,featureface)。
6.如权利要求1所述一种融合多维信息的说话人情绪感知方法,其特征在于在步骤4)中,所述多维特征融合算法用于在共享的编码空间的高维特征中,融合多维信息中关于情绪感知的信息,并组成共同的特征表示。
7.如权利要求1所述一种融合多维信息的说话人情绪感知方法,其特征在于在步骤4)中,所述多维特征融合算法的具体步骤为:
(1)将特征编码后的多维信息的共享编码空间作为输入;
(2)在提取的特征上应用加权特征分数来指示情绪特征的重要性;
(3)将特定于多维信息特征的共享编码空间融合为一个有关情绪的通用特征向量
Figure FDA0003276023380000021
因此具有跨多维特征学习相关性的能力,使得多维信息融合后的特征与情绪高度相关;
(4)将融合的多维信息进行存储,以用作情绪感知网络的输入。
8.如权利要求1所述一种融合多维信息的说话人情绪感知方法,其特征在于在步骤5)中,所述情绪感知网络用于对多维信息融合的特征进行情感预测,预测结果是说话人的情绪感知分布[score1,...,scoren]。
CN202111117785.7A 2021-09-24 2021-09-24 一种融合多维信息的说话人情绪感知方法 Pending CN113837072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111117785.7A CN113837072A (zh) 2021-09-24 2021-09-24 一种融合多维信息的说话人情绪感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111117785.7A CN113837072A (zh) 2021-09-24 2021-09-24 一种融合多维信息的说话人情绪感知方法

Publications (1)

Publication Number Publication Date
CN113837072A true CN113837072A (zh) 2021-12-24

Family

ID=78969614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111117785.7A Pending CN113837072A (zh) 2021-09-24 2021-09-24 一种融合多维信息的说话人情绪感知方法

Country Status (1)

Country Link
CN (1) CN113837072A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898775A (zh) * 2022-04-24 2022-08-12 中国科学院声学研究所南海研究站 一种基于跨层交叉融合的语音情绪识别方法及***
CN116129004A (zh) * 2023-02-17 2023-05-16 华院计算技术(上海)股份有限公司 数字人生成方法及装置、计算机可读存储介质、终端
CN116797981A (zh) * 2023-08-18 2023-09-22 成都锦城学院 一种基于深度学习的跨模态视频情感处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN111339913A (zh) * 2020-02-24 2020-06-26 湖南快乐阳光互动娱乐传媒有限公司 一种视频中的人物情绪识别方法及装置
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置
CN112597889A (zh) * 2020-12-22 2021-04-02 张延雄 一种基于人工智能的情绪处理方法和装置
CN112926525A (zh) * 2021-03-30 2021-06-08 中国建设银行股份有限公司 情绪识别方法、装置、电子设备和存储介质
WO2021134277A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN113111855A (zh) * 2021-04-30 2021-07-13 北京邮电大学 一种多模态情感识别方法、装置、电子设备及存储介质
CN113408385A (zh) * 2021-06-10 2021-09-17 华南理工大学 一种音视频多模态情感分类方法及***

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
WO2021134277A1 (zh) * 2019-12-30 2021-07-08 深圳市优必选科技股份有限公司 情感识别方法、智能装置和计算机可读存储介质
CN111339913A (zh) * 2020-02-24 2020-06-26 湖南快乐阳光互动娱乐传媒有限公司 一种视频中的人物情绪识别方法及装置
CN111564164A (zh) * 2020-04-01 2020-08-21 中国电力科学研究院有限公司 一种多模态情感识别方法及装置
CN112597889A (zh) * 2020-12-22 2021-04-02 张延雄 一种基于人工智能的情绪处理方法和装置
CN112926525A (zh) * 2021-03-30 2021-06-08 中国建设银行股份有限公司 情绪识别方法、装置、电子设备和存储介质
CN113111855A (zh) * 2021-04-30 2021-07-13 北京邮电大学 一种多模态情感识别方法、装置、电子设备及存储介质
CN113408385A (zh) * 2021-06-10 2021-09-17 华南理工大学 一种音视频多模态情感分类方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898775A (zh) * 2022-04-24 2022-08-12 中国科学院声学研究所南海研究站 一种基于跨层交叉融合的语音情绪识别方法及***
CN114898775B (zh) * 2022-04-24 2024-05-28 中国科学院声学研究所南海研究站 一种基于跨层交叉融合的语音情绪识别方法及***
CN116129004A (zh) * 2023-02-17 2023-05-16 华院计算技术(上海)股份有限公司 数字人生成方法及装置、计算机可读存储介质、终端
CN116129004B (zh) * 2023-02-17 2023-09-15 华院计算技术(上海)股份有限公司 数字人生成方法及装置、计算机可读存储介质、终端
CN116797981A (zh) * 2023-08-18 2023-09-22 成都锦城学院 一种基于深度学习的跨模态视频情感处理方法
CN116797981B (zh) * 2023-08-18 2023-11-28 成都锦城学院 一种基于深度学习的跨模态视频情感处理方法

Similar Documents

Publication Publication Date Title
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
CN113408385B (zh) 一种音视频多模态情感分类方法及***
CN113837072A (zh) 一种融合多维信息的说话人情绪感知方法
CN106056207B (zh) 一种基于自然语言的机器人深度交互与推理方法与装置
CN112489635A (zh) 一种基于增强注意力机制的多模态情感识别方法
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
CN116542817B (zh) 一种智能数字人律师咨询方法及***
An et al. Speech Emotion Recognition algorithm based on deep learning algorithm fusion of temporal and spatial features
CN115563290A (zh) 一种基于语境建模的智能情感识别方法
CN111653270A (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN112115718B (zh) 内容文本生成方法和装置、音乐评论文本生成方法
CN116108856B (zh) 基于长短回路认知与显隐情感交互的情感识别方法及***
CN116959417A (zh) 对话回合的检测方法、装置、设备、介质、程序产品
CN112579745B (zh) 基于图神经网络的对话情感纠错***
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN112287690A (zh) 基于条件句子生成和跨模态重排的手语翻译方法
CN116738359B (zh) 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法
Kumar et al. Towards robust speech recognition model using Deep Learning
Zhu et al. A synchronized word representation method with dual perceptual information
Schuller et al. The next generation of audio intelligence: A survey-based perspective on improving audio analysis
Yang et al. The DCASE2021 challenge task 6 system: Automated audio caption
Song et al. Multimodal Sentiment Analysis Based on Pre-LN Transformer Interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination