CN115599894A

CN115599894A - 情绪识别的方法、装置、电子设备及存储介质

Info

Publication number: CN115599894A
Application number: CN202211157649.5A
Authority: CN
Inventors: 孙清源
Original assignee: Best Tone Information Service Corp Ltd
Current assignee: Best Tone Information Service Corp Ltd
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-01-13

Abstract

本发明涉及一种情绪识别的方法、装置、电子设备、存储介质以及包括该装置的智能应答***。情绪识别的方法包括步骤：S1、对用户标签数据和通话数据进行预处理；S2、提取特征，提取音频特征、文本特征、标签特征，充分提取序列内的情感语义信息；S3、通过多维特征叠加处理进行多模态情绪识别，将对用户标签、应答文本、录音文件进行融合、训练来进行情绪的识别；S4、获取关联特征，利用Keras‑ESIM的交互注意力层获取标签特征、音频、应答文本之间的关联特征，实现音频和应答文本序列在时域上的对齐，标签序列和通话之间交互关系，实现基于音频和应答文本融合的Keras‑ESIM多模态情绪识别模型。依据本发明的情绪识别方法能够提升识别效率、识别效果。

Description

情绪识别的方法、装置、电子设备及存储介质

技术领域

本发明涉及AI及大数据领域，具体而言，涉及一种基于用户标签、语音及应答文本的情绪识别的方法、装置、电子设备、存储介质以及包括该装置的智能应答***。

背景技术

通信助理业务中的智能应答功能，是当被叫用户处于关机/不在服务区、主动挂断/遇忙、久呼不应的状态时，由智能应答机器人代接，并进行多轮对话交流，了解来电意图，根据通话意图记录多维度的通话标签。在通话结束之后通过短信及微信消息推送给被叫的业务用户。

目前，情绪识别有如下的方法：1.用户标签的性格属性：电信行业在用户标签方面有天然的优势。在电信办理、运营过程中采集了丰富的用户标签，并构建了精准的用户标签。用户的地域、性别、年龄、民族、收入、学历、消费能力等对于分析用户性格、情绪提供优质的数据基础。2.文本情绪识别：文本情绪识别是通过文本挖掘手段从原始数据中提取出具有情绪色彩和情绪倾向的特征信息，从而进行情绪识别。3.语言情绪识别：20世纪70年代开始，有学者把声信号的统计特征作为模型的输入特征用于音频情绪识别研究中。首先将输入包含情感信息的音频信号转化为可读的物理特征，其次提取与情感表达密切相关的音频情感特征参数，然后构建分类器进行训练，最后输出情绪识别分类结果。

上面列举的三种分析方法各有优势，但都不能全面反映用户特征。基于应答文本情绪识别或语言情绪识别的单一识别模态有了进步，但单模态情绪识别存在识别准确率低。基于用户标签的识别能够反映用户的性格特征，但不能反映用户在某个时间点的情绪特征。

因此，亟需研发一种提升识别效率、识别效果的情绪识别方法、装置。

发明内容

本发明要解决的技术问题是情绪识别准确率低、效果不好的问题。

为解决上述技术问题，根据本发明的一个方面，提供一种情绪识别的方法，情绪识别的方法基于通信用户的用户标签数据和通话数据为输入数据，进行训练模型、优化模型来实现；用户标签数据包括用户的地域、性别、年龄、民族、收入、学历、消费能力，用户标签数据对于分析用户性格、情绪提供优质的数据基础；通话数据包括应答的文本和通话的音频，文本用于通过文本挖掘手段从原始数据中提取出具有情绪色彩和情绪倾向的特征信息，从而进行文本情绪识别；音频用于语言情绪识别，将输入包含情感信息的音频信号转化为可读的物理特征，提取与情感表达密切相关的音频情感特征参数，然后构建分类器进行训练，从而进行语言情绪识别。

情绪识别的方法包括如下步骤：S1、对用户标签数据和通话数据进行预处理，将用户通话音频、应答文本、用户标签数据分别进行预处理；S2、提取特征，提取音频特征、文本特征、标签特征，其中，提取特征时通过注意力机制对序列提取特征，充分提取序列内的情感语义信息；S3、通过多维特征叠加处理进行多模态情绪识别，将对用户标签、应答文本、录音文件进行融合、训练来进行情绪的识别，其中，对音频和应答文本训练时，采用CASIA汉语情感语料库作为原始训练数据集，对音频和应答文本两种模态的情绪进行识别，从而提高计算模型的精准度；S4、获取关联特征，利用Keras-ESIM(Enhanced Sequential InferenceModel：增强顺序推理模型)的交互注意力层获取标签特征、音频、应答文本之间的关联特征，实现音频和应答文本序列在时域上的对齐，标签序列和通话之间交互关系，提高了模型对情感语义的理解和泛化能力，实现基于音频和应答文本融合的Keras-ESIM多模态情绪识别模型，其中，Keras-ESIM的交互注意力层设计编码层基于多头注意力机制，对音频、应答文本序列、标签序列进行并行化处理提取深层情感特征，解决了序列距离的限制从而充分提取序列内的情感语义信息。

根据本发明的实施例，情绪识别的方法还可包括步骤：S5、分类输出，采用全连接层来解决可能存在的非线性问题。全连接层中选用线性的ReLU函数作为激活函数，避免梯度***的问题；最后使用SoftMax函数进行最终的情绪分类预测，通过SoftMax函数为每个输出情绪的结果都赋予一个概率值，表示出每个结果输出的可能性，实现分类输出。

根据本发明的实施例，步骤S3可包括如下多模态情绪识别的步骤：用户标签特征分析，用户标签特征分析是对用户标签里的属性进行分析，通过包括提取关键字、移动冗余信息、固定词、分词和标记词的方法提取表达情绪倾向和性格倾向的关键词；音频情绪特征分析，音频信息中包含着极其丰富的情感信息，可从音频信息中提取出多种声学特征，用来反映说话者的情绪状态，通常，提取出来的音频情绪特征质量直接影响着情绪识别的最终识别效果；文本情绪特征分析，文本情绪特征分析是对文本中的句子进行语法分析和语义分析，通过包括拆分句子、移动冗余信息、固定词、分词和标记词的方法提取表达文本情绪倾向的情感词。

根据本发明的实施例，S3步骤中，多模态情绪特征融合可采用决策级融合方式，决策级融合方式先对多个模态进行特征提取，然后将提取的多个模态的情绪特征输入对应的分类器中，每个分类器独立输出各自的情绪识别预测结果，最后再根据某种原则整合各分类器的预测结果，完成情绪识别的分类输出。

根据本发明的实施例，基于音频和应答文本融合的Keras-ESIM多模态情绪识别模型可包括：数据预处理层、编码层、ESIM交互注意力层、分类层，其中，在输入训练数据集之后，数据预处理层对数据集中的音频流、应答文本、用户标签进行预处理操作，将应答文本和用户标签信息进行矢量化，提取音频信息中的低层情感特征；编码层将预处理后的音频序列、应答文本序列、标签序列输入到编码层进行编码提取深层情感特征；将编码后的序列输入到ESIM交互注意力层获取音频、应答文本特征、标签特征之间的相似特征；经过池化层，将情感特征融合拼接输入到分类层进行多模态情绪识别的分类输出。

根据本发明的第二个方面，提供一种情绪识别的装置，情绪识别的装置基于通信用户的用户标签数据和通话数据为输入数据，进行训练模型、优化模型来实现；用户标签数据包括用户的地域、性别、年龄、民族、收入、学历、消费能力，用户标签数据对于分析用户性格、情绪提供优质的数据基础；通话数据包括应答的文本和通话的音频，文本用于通过文本挖掘手段从原始数据中提取出具有情绪色彩和情绪倾向的特征信息，从而进行文本情绪识别；音频用于语言情绪识别，将输入包含情感信息的音频信号转化为可读的物理特征，提取与情感表达密切相关的音频情感特征参数，然后构建分类器进行训练，从而进行语言情绪识别。

情绪识别的装置包括：数据预处理模块，数据预处理模块对用户标签数据和通话数据进行预处理，将用户通话音频、应答文本、用户标签数据分别进行预处理，将应答文本和用户标签信息进行矢量化，提取音频信息中的低层情感特征；编码模块，编码模块将预处理后的音频序列、应答文本序列、标签序列输入到编码模块进行编码提取深层情感特征，提取音频特征、文本特征、标签特征，其中，提取特征时通过注意力机制对序列提取特征，充分提取序列内的情感语义信息；ESIM交互注意力模块，用于将编码后的序列输入到ESIM交互注意力模块获取音频、应答文本特征、标签特征之间的相似特征、关联特征，实现音频和应答文本序列在时域上的对齐，标签序列和通话之间交互关系。

根据本发明的实施例，情绪识别的装置还可包括：分类输出模块，经过池化层将情感特征融合拼接输入到分类层进行多模态情绪识别的分类输出。

根据本发明的第三个方面，提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的情绪识别程序，情绪识别程序被处理器执行时实现上述的情绪识别方法的步骤。

根据本发明的第四个方面，提供一种计算机存储介质，其中，计算机存储介质上存储有情绪识别程序，情绪识别程序被处理器执行时实现上述的情绪识别方法的步骤。

根据本发明的第五个方面，提供一种智能应答***，包括：ASR(Automatic SpeechRecognition，语音识别到文本)模块，ASR模块用于接受来自语音网关采集到的主叫方的音频流并识别成应答文本；语音网关模块，语音网关模块用于对接电话大网，采集主叫方音频流，进行音频流的数据格式转换；NLP(Natural Language Processing，自然语言处理)模块，NLP模块是智能应答的基础，用于根据主叫的话来决定应答内容；TTS(Text To Speech，文本语音合成)模块，TTS模块用于接受NLP模块中的输出应答文本并合成音频流，提供给语音网关播放给主叫方；情绪识别装置(也称业务平台)，情绪识别装置为上述的情绪识别的装置，其中，通话结束之后由ASR模块和TTS模块生成录音文件及对应的应答文本，情绪识别装置根据录音文件、应答文本、用户标签进行情绪识别并推送给被叫用户。

与现有技术相比，本发明的实施例所提供的技术方案至少可实现如下有益效果：

利用编码层对标签序列、音频、应答文本序列进行编码，通过注意力机制对序列提取特征，充分提取序列内的情感语义信息，解决传统循环神经网络存在的长期依赖性以及其自身顺序属性无法捕获长距离特征的问题。

通过Keras-ESIM的交互注意力层获取标签、音频、应答文本之间的关联特征，实现音频和文本序列在时域上的对齐，提高了模型对情感语义的理解和泛化能力。

经过多次训练模型、验证模型、测试模型，基于Keras-ESIM的多模态情绪识别模型识别效果最好，准确率比单模态情绪识别模型高出很多。

利用智能应答的标签特征、音频特征、应答文本特征之间的互补性，将对情绪识别从单模态情绪识别转移到多模态情绪识别上，从而提升通话情绪识别效果。打造了运营商级别的人工智能应用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本发明的一些实施例，而非对本发明的限制。

图1是示出依据本发明实施例的多模态情绪识别的逻辑流程图。

图2是示出依据本发明实施例的多模态情绪识别的训练图。

图3是示出依据本发明实施例的决策及融合流程图。

图4是示出依据本发明实施例的Keras-ESIM多模态情绪识别模型图。

图5是示出依据本发明实施例的多头注意力机制图。

图6是示出依据本发明实施例的分类输出结构图。

图7是示出依据本发明实施例的智能应答***的模块图。

图8是示出依据本发明实施例的基于情绪识别的漏话提醒示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

情绪识别的方法或装置基于通信用户的用户标签数据和通话数据为输入数据，进行训练模型、优化模型来实现；用户标签数据包括用户的地域、性别、年龄、民族、收入、学历、消费能力，用户标签数据对于分析用户性格、情绪提供优质的数据基础；通话数据包括应答的文本和通话的音频，文本用于通过文本挖掘手段从原始数据中提取出具有情绪色彩和情绪倾向的特征信息，从而进行文本情绪识别；音频用于语言情绪识别，将输入包含情感信息的音频信号转化为可读的物理特征，提取与情感表达密切相关的音频情感特征参数，然后构建分类器进行训练，从而进行语言情绪识别。

图1是示出依据本发明实施例的多模态情绪识别的逻辑流程图，图6是示出依据本发明实施例的分类输出结构图。

如图1和图6所示，情绪识别的方法包括如下步骤：

S1、对用户标签数据和通话数据进行预处理，将用户通话音频、应答文本、用户标签数据分别进行预处理。

S2、提取特征，提取音频特征、文本特征、标签特征，其中，提取特征时通过注意力机制对序列提取特征，充分提取序列内的情感语义信息。

S3、通过多维特征叠加处理进行多模态情绪识别，将对用户标签、应答文本、录音文件进行融合、训练来进行情绪的识别，其中，对音频和应答文本训练时，采用CASIA汉语情感语料库作为原始训练数据集，对音频和应答文本两种模态的情绪进行识别，从而提高计算模型的精准度。

CASIA汉语情感语料库由中国科学院动化所(Institute of Automation,ChineseAcademy of Sciences)录制，共包括四个专业发，六种情绪(angry)、兴(happy)、害怕(fear)、悲伤(sad)、惊讶(surprise)和中性(neutral)，共9600句不同发。其中300句是相同本的，也即是说对相同的本赋以不同的情感来阅读，这些语料可以来对分析不同情感状态下的声学及韵律表现；另外100句是不同本的，这些本从字意思就可以看出其情感归属，便于录更准确地表现出情感。我们选取800句相同本的频作为实验数据，取前500句为训练集，后300句为测试集。

S4、获取关联特征，利用Keras-ESIM的交互注意力层获取标签特征、音频、应答文本之间的关联特征，实现音频和应答文本序列在时域上的对齐，标签序列和通话之间交互关系，提高了模型对情感语义的理解和泛化能力，实现基于音频和应答文本融合的Keras-ESIM多模态情绪识别模型，其中，Keras-ESIM的交互注意力层设计编码层基于多头注意力机制，对音频、应答文本序列、标签序列进行并行化处理提取深层情感特征，解决了序列距离的限制从而充分提取序列内的情感语义信息。

S5、分类输出，采用全连接层来解决可能存在的非线性问题。全连接层中选用线性的ReLU函数作为激活函数，避免梯度***的问题；最后使用SoftMax函数进行最终的情绪分类预测，通过SoftMax函数为每个输出情绪的结果都赋予一个概率值，表示出每个结果输出的可能性，实现分类输出。

图2是示出依据本发明实施例的多模态情绪识别的训练图。

如图2所示，步骤S3包括如下多模态情绪识别的步骤：用户标签特征分析，用户标签特征分析是对用户标签里的属性进行分析，通过包括提取关键字、移动冗余信息、固定词、分词和标记词的方法提取表达情绪倾向和性格倾向的关键词；音频情绪特征分析，音频信息中包含着极其丰富的情感信息，可从音频信息中提取出多种声学特征，用来反映说话者的情绪状态，通常，提取出来的音频情绪特征质量直接影响着情绪识别的最终识别效果；文本情绪特征分析，文本情绪特征分析是对文本中的句子进行语法分析和语义分析，通过包括拆分句子、移动冗余信息、固定词、分词和标记词的方法提取表达文本情绪倾向的情感词。

图3是示出依据本发明实施例的决策及融合流程图。

如图3所示，S3步骤中，多模态情绪特征融合采用决策级融合方式，决策级融合方式先对多个模态进行特征提取，然后将提取的多个模态的情绪特征输入对应的分类器中，每个分类器独立输出各自的情绪识别预测结果，最后再根据某种原则整合各分类器的预测结果，完成情绪识别的分类输出。多模态情绪特征融合即将一个通话里的音频流和应答文本以及用户标签这三个模态的特征数据结合起来。多模态情绪数据的融合可以为情绪识别决策提供更多的信息，从而提高情绪识别决策的准确率。而决策级融合突出了不同特征之间的差异，可以为每个模态选择最合适的分类器。因此本方案采用决策级融合。

如图4所示，基于音频和应答文本融合的Keras-ESIM多模态情绪识别模型包括：数据预处理层、编码层、ESIM交互注意力层、分类层，其中，在输入训练数据集之后，数据预处理层对数据集中的音频流、应答文本、用户标签进行预处理操作，将应答文本和用户标签信息进行矢量化，提取音频信息中的低层情感特征；编码层将预处理后的音频序列、应答文本序列、标签序列输入到编码层进行编码提取深层情感特征；将编码后的序列输入到ESIM交互注意力层获取音频、应答文本特征、标签特征之间的相似特征；经过池化层，将情感特征融合拼接输入到分类层进行多模态情绪识别的分类输出。

图5是示出依据本发明实施例的多头注意力机制图。

虽然该多模态情绪识别模型的效果远优于单模态情绪识别模型，但是在特征提取时仍然存在长期依赖性以及由于模型自身顺序属性无法捕获长距离特征等问题。为了解决这些问题，本方案引入多头注意力机制思想。提出基于Keras-ESIM注意力机制的多模态情绪识别方法。通过增加Keras-ESIM交互注意力机制获取音频、应答文本序列、标签序列之间的关联特征，实现音频和应答文本模态在时域上的对齐，标签序列和通话之间互关系。先以CASIA汉语情感语料库作为前期的训练，到得初始检查点文件，再使用真实的智能应答通话数据以及用户标签对检查点文件周期性训练，不断优化模型，提高情绪识别精确度。

在智能应答的音频流、应答文本序列、标签序列进行特征提取时，传统神经网络CNN、RNN等，以及模型自身存在顺序属性无法捕获长距离特征问题。本方案设计编码层是基于多头注意力机制的，对音频、应答文本序列、标签序列进行并行化处理提取深层情感特征，解决了序列距离的限制从而充分提取序列内的情感语义信息。

注意力机制：将具体的任务看作query、key、value三个角色(分别用Q、K、V简写)，其中Q表示要查询的任务，而K、V是个一一对应的键值对，其目的就是使q在k中找到对应的v值。

多头注意力机制：是对原始的注意力机制的改进，可以表示成：Y＝MultiHead(Q、K、V)。其原理如图5所示，首先，把Q、K、V通过参数矩阵进行全连接层的映射转换；接着，前一步中所转化的三个结果做点积运算；然后，将前两步重复运行h次，并且每次进行第一步的操作时,都使用全新的参数矩阵(参数不共享)；最后，用concat函数把计算h次之后的最终结果拼接起来。

根据本发明的第二个方面，提供一种情绪识别的装置，该装置包括：数据预处理模块、编码模块、ESIM交互注意力模块和分类输出模块。

数据预处理模块对用户标签数据和通话数据进行预处理，将用户通话音频、应答文本、用户标签数据分别进行预处理，将应答文本和用户标签信息进行矢量化，提取音频信息中的低层情感特征。

编码模块将预处理后的音频序列、应答文本序列、标签序列输入到编码模块进行编码提取深层情感特征，提取音频特征、文本特征、标签特征，其中，提取特征时通过注意力机制对序列提取特征，充分提取序列内的情感语义信息。

ESIM交互注意力模块用于将编码后的序列输入到ESIM交互注意力模块获取音频、应答文本特征、标签特征之间的相似特征、关联特征，实现音频和应答文本序列在时域上的对齐，标签序列和通话之间交互关系。

分类输出模块经过池化层将情感特征融合拼接输入到分类层进行多模态情绪识别的分类输出。

图7是示出依据本发明实施例的智能应答***的模块图。

如图7所示，智能应答***包括：ASR模块、语音网关模块、NLP模块、TTS模块和情绪识别装置。

ASR模块用于接受来自语音网关采集到的主叫方的音频流并识别成应答文本。

语音网关模块用于对接电话大网，采集主叫方音频流，进行音频流的数据格式转换。

NLP模块是智能应答的基础，用于根据主叫的话来决定应答内容。

TTS模块用于接受NLP模块中的输出应答文本并合成音频流，提供给语音网关播放给主叫方。

情绪识别装置为上述的情绪识别的装置。

其中，通话结束之后由ASR模块和TTS模块生成录音文件及对应的应答文本，情绪识别装置根据录音文件、应答文本、用户标签进行情绪识别并推送给被叫用户。

如图8所示，通信助理主要面向通信用户，围绕通信来去电场景提供漏话提醒、智能应答、留言信箱等个人通信类服务。通过云、网、视频、AI、智能消息等能力，打造安全、便捷、智能、个性化的服务统一入口，为用户提供智能的生活秘书个人通信服务。

使用时，本方案在智能应答中的应用过程如下：

用户B办理通信助理业务，以支持智能应答***功能；

主叫用户A给用户B打电话时漏接，由智能应答***的机器人代接；

主叫用户A和智能应答***的机器人谈论了关于晚上到医院看望丈母娘的话务场景；

对话过程由智能应答***的ASR、NLP、TTS、语音网关等关键组件提供；

通话结束，生成录音文件和对应的应答文本；

采用多模态情绪识别模型进行通话识别，生成包含情绪识别的通话小结；

通过短信、微信消息把录音文件、应答文本、通话小结推送给用户B；

用户B通过醒目的情绪提醒标签进行后期的话务处理。比如老板焦急的电话，老婆焦虑的呼叫。

根据本发明的又一方面，提供一种情绪识别的设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的情绪识别程序，情绪识别程序被处理器执行时实现上述的情绪识别方法的步骤。

根据本发明还提供一种计算机存储介质。

计算机存储介质上存储有情绪识别程序，情绪识别程序被处理器执行时实现上述的情绪识别方法的步骤。

其中，在所述处理器上运行的情绪识别程序被执行时所实现的方法可参照本发明情绪识别方法各个实施例，此处不再赘述。

本发明还提供一种计算机程序产品。

本发明计算机程序产品包括情绪识别程序，所述情绪识别程序被处理器执行时实现如上所述的情绪识别方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

1.一种情绪识别的方法，所述情绪识别的方法基于通信用户的用户标签数据和通话数据为输入数据，进行训练模型、优化模型来实现；所述用户标签数据包括用户的地域、性别、年龄、民族、收入、学历、消费能力，所述用户标签数据对于分析用户性格、情绪提供优质的数据基础；所述通话数据包括应答的文本和通话的音频，所述文本用于通过文本挖掘手段从原始数据中提取出具有情绪色彩和情绪倾向的特征信息，从而进行文本情绪识别；所述音频用于语言情绪识别，将输入包含情感信息的音频信号转化为可读的物理特征，提取与情感表达密切相关的音频情感特征参数，然后构建分类器进行训练，从而进行语言情绪识别，

所述方法包括如下步骤：

S1、对用户标签数据和通话数据进行预处理，将用户通话音频、应答文本、用户标签数据分别进行预处理；

S2、提取特征，提取音频特征、文本特征、标签特征，其中，提取特征时通过注意力机制对序列提取特征，充分提取序列内的情感语义信息；

S3、通过多维特征叠加处理进行多模态情绪识别，将对用户标签、应答文本、录音文件进行融合、训练来进行情绪的识别，

其中，对音频和应答文本训练时，采用CASIA汉语情感语料库作为原始训练数据集，对音频和应答文本两种模态的情绪进行识别，从而提高计算模型的精准度；

S4、获取关联特征，利用Keras-ESIM的交互注意力层获取标签特征、音频、应答文本之间的关联特征，实现音频和应答文本序列在时域上的对齐，标签序列和通话之间交互关系，实现基于音频和应答文本融合的Keras-ESIM多模态情绪识别模型，

其中，Keras-ESIM的交互注意力层设计编码层基于多头注意力机制，对音频、应答文本序列、标签序列进行并行化处理提取深层情感特征，解决了序列距离的限制从而充分提取序列内的情感语义信息。

2.如权利要求1所述的方法，还包括如下步骤：

3.如权利要求1所述的方法，其中，步骤S3包括如下多模态情绪识别的步骤：

用户标签特征分析，所述用户标签特征分析是对用户标签里的属性进行分析，通过包括提取关键字、移动冗余信息、固定词、分词和标记词的方法提取表达情绪倾向和性格倾向的关键词；

音频情绪特征分析，音频信息中包含着极其丰富的情感信息，可从音频信息中提取出多种声学特征，用来反映说话者的情绪状态；

文本情绪特征分析，所述文本情绪特征分析是对文本中的句子进行语法分析和语义分析，通过包括拆分句子、移动冗余信息、固定词、分词和标记词的方法提取表达文本情绪倾向的情感词。

4.如权利要求1所述的方法，其中，S3步骤中，

所述多模态情绪特征融合采用决策级融合方式，所述决策级融合方式先对多个模态进行特征提取，然后将提取的多个模态的情绪特征输入对应的分类器中，每个分类器独立输出各自的情绪识别预测结果，最后再根据某种原则整合各分类器的预测结果，完成情绪识别的分类输出。

5.如权利要求1所述的方法，其中，基于音频和应答文本融合的Keras-ESIM多模态情绪识别模型包括：数据预处理层、编码层、ESIM交互注意力层、分类层，

其中，在输入训练数据集之后，所述数据预处理层对数据集中的音频流、应答文本、用户标签进行预处理操作，将应答文本和用户标签信息进行矢量化，提取音频信息中的低层情感特征；

编码层将预处理后的音频序列、应答文本序列、标签序列输入到编码层进行编码提取深层情感特征；

将编码后的序列输入到ESIM交互注意力层获取音频、应答文本特征、标签特征之间的相似特征；

经过池化层，将情感特征融合拼接输入到分类层进行多模态情绪识别的分类输出。

6.一种情绪识别的装置，所述情绪识别的装置基于通信用户的用户标签数据和通话数据为输入数据，进行训练模型、优化模型来实现；所述用户标签数据包括用户的地域、性别、年龄、民族、收入、学历、消费能力，所述用户标签数据对于分析用户性格、情绪提供优质的数据基础；所述通话数据包括应答的文本和通话的音频，所述文本用于通过文本挖掘手段从原始数据中提取出具有情绪色彩和情绪倾向的特征信息，从而进行文本情绪识别；所述音频用于语言情绪识别，将输入包含情感信息的音频信号转化为可读的物理特征，提取与情感表达密切相关的音频情感特征参数，然后构建分类器进行训练，从而进行语言情绪识别，

所述装置包括：

数据预处理模块，所述数据预处理模块对用户标签数据和通话数据进行预处理，将用户通话音频、应答文本、用户标签数据分别进行预处理，将应答文本和用户标签信息进行矢量化，提取音频信息中的低层情感特征；

编码模块，所述编码模块将预处理后的音频序列、应答文本序列、标签序列输入到编码模块进行编码提取深层情感特征，提取音频特征、文本特征、标签特征，其中，提取特征时通过注意力机制对序列提取特征，充分提取序列内的情感语义信息；

ESIM交互注意力模块，用于将编码后的序列输入到ESIM交互注意力模块获取音频、应答文本特征、标签特征之间的相似特征、关联特征，实现音频和应答文本序列在时域上的对齐，标签序列和通话之间交互关系。

7.如权利要求6所述的装置，还包括：

分类输出模块，经过池化层将情感特征融合拼接输入到分类层进行多模态情绪识别的分类输出。

8.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的情绪识别程序，所述情绪识别程序被所述处理器执行时实现如权利要求1至4中任一项所述的情绪识别方法的步骤。

9.一种计算机存储介质，其中，所述计算机存储介质上存储有情绪识别程序，所述情绪识别程序被处理器执行时实现如权利要求1至4中任一项所述的情绪识别方法的步骤。

10.一种智能应答***，包括：

ASR模块，所述ASR模块用于接受来自语音网关采集到的主叫方的音频流并识别成应答文本；

语音网关模块，所述语音网关模块用于对接电话大网，采集主叫方音频流，进行音频流的数据格式转换；

NLP模块，所述NLP模块是智能应答的基础，用于根据主叫的话来决定应答内容；

TTS模块，所述TTS模块用于接受NLP模块中的输出应答文本并合成音频流，提供给语音网关播放给主叫方；

情绪识别装置，所述情绪识别装置为权利要求6-7任一项所述的情绪识别的装置，

其中，通话结束之后由所述ASR模块和所述TTS模块生成录音文件及对应的应答文本，所述情绪识别装置根据录音文件、应答文本、用户标签进行情绪识别并推送给被叫用户。