CN108962255B

CN108962255B - 语音会话的情绪识别方法、装置、服务器和存储介质

Info

Publication number: CN108962255B
Application number: CN201810695137.1A
Authority: CN
Inventors: 陈炳金; 林英展; 梁一川; 凌光; 周超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2020-12-08
Anticipated expiration: 2038-06-29
Also published as: CN108962255A

Abstract

本发明实施例公开了一种语音会话的情绪识别方法、装置、服务器和存储介质，该方法包括：采用先验情绪识别规则对会话语音进行识别得到第一识别结果；采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果；依据所述第一识别结果和所述第二识别结果，得到所述会话语音的情绪状态。本发明实施例通过将经过大量人工经验及实践过程中积累下来的且被证明实施有效的先验知识融入语音情绪的识别中，在简单的数据比对后就能够快速判断和干预语音情绪识别结果，更快而明确地辅助情绪识别模型效果上的提升，提高情绪识别模型的优化效率以及语音情绪的识别速度和准确度。

Description

语音会话的情绪识别方法、装置、服务器和存储介质

技术领域

本发明实施例涉及语音处理技术领域，尤其涉及一种语音会话的情绪识别方法、装置、服务器和存储介质。

背景技术

随着物联网技术的快速发展以及智能硬件产品的广泛推广，越来越多的用户开始使用语音与智能产品进行交流，人机智能语音交互已经成为人工智能技术中的重要交互模式。因此，为了为用户提供更加人性化的服务，通过语音对用户情绪的识别是人工智能所要解决的关键问题之一。

目前，现有技术大多采用基于机器学习或深度学习的模型训练方式来获取语音情绪识别模型，并采用基于数据扩展的优化方法，通过标注更多的数据，构建一个更加完善的数据集合，来优化语音情感识别模型；或者采用基于模型调整的优化方法，在数据集合上尝试不同模型或者相同模型的不同参数配置，寻求达到一个更好的模型效果，来优化语音情感识别模型。

然而，现有技术以完备的样本数据集合为基础，对人力的消耗大，模型训练的时间长。且模型参数的调整无法直接有效地让模型给予某种特征以特别的关注，效率上无法保证调整出更优效果模型的时间。

发明内容

本发明实施例提供了一种语音会话的情绪识别方法、装置、服务器和存储介质，能够快速有效地识别出语音会话中用户的情绪状态。

第一方面，本发明实施例提供了一种语音会话的情绪识别方法，包括：

采用先验情绪识别规则对会话语音进行识别得到第一识别结果；

采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果；

依据所述第一识别结果和所述第二识别结果，得到所述会话语音的情绪状态。

第二方面，本发明实施例提供了一种语音会话的情绪识别装置，包括：

第一识别模块，用于采用先验情绪识别规则对会话语音进行识别得到第一识别结果；

第二识别模块，用于采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果；

情绪确定模块，用于依据所述第一识别结果和所述第二识别结果，得到所述会话语音的情绪状态。

第三方面，本发明实施例提供了一种服务器，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的语音会话的情绪识别方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的语音会话的情绪识别方法。

本发明实施例通过采用先验情绪识别规则对会话语音进行识别得到第一识别结果，同时采用预先训练的情绪识别模型对会话语音进行识别得到第二识别结果，综合第一识别结果和第二识别结果得到会话语音的情绪状态。本发明实施例通过将经过大量人工经验及实践过程中积累下来的且被证明实施有效的先验知识融入语音情绪的识别中，在简单的数据比对后就能够快速判断和干预语音情绪识别结果，更快而明确地辅助情绪识别模型效果上的提升，提高情绪识别模型的优化效率以及语音情绪的识别速度和准确度。

附图说明

图1为本发明实施例一提供的一种语音会话的情绪识别方法的流程图；

图2为本发明实施例二提供的基于先验情绪识别规则的语音会话情绪识别的流程图；

图3为本发明实施例二提供的生成先验情绪识别规则的示例图；

图4为本发明实施例三提供的基于情绪识别模型的语音会话情绪识别的流程图；

图5为本发明实施例三提供的原始会话语音经傅里叶变换转换为语谱图的示例图；

图6为本发明实施例四提供的一种语音会话的情绪识别方法的流程图；

图7为本发明实施例五提供的一种语音会话的情绪识别装置的结构示意图；

图8为本发明实施例六提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种语音会话的情绪识别方法的流程图，本实施例可适用于智能语音对话场景中对用户语音情绪进行识别的情况，该方法可由一种语音会话的情绪识别装置来执行。该方法具体包括如下步骤：

S110、采用先验情绪识别规则对会话语音进行识别得到第一识别结果。

在本发明具体实施例中，情绪是对一系列主观认知经验的统称，是指用户通过多种感觉、思想和行为而综合产生的心理和生理状态。进而情绪反应了用户在进行人机语音交互时的心里状态，相应的为了给用户提供更优质更人性化的服务，需要智能产品或智能服务平台时刻掌握用户的情绪状态，从而给予符合用户需求的反馈。

本实施例中，会话语音是指用户与智能产品或智能服务平台进行智能语音会话时产生的实时用户语音。该会话语音可以发生在用户与智能产品或智能服务平台交互时的任何交互类场景，例如智能金融场景、智能教育场景以及智能家居场景等。先验情绪识别规则是指经过大量人工经验及实践过程中积累下来的，且被证明实施有效的语音情绪识别规则。可以是依据历史会话语音以及先验情绪识别知识生成的语音声学特征与对应情绪的情绪匹配表，即人工积累的规则列表。

具体的，本实施例可以对预设的各情绪状态所关联的历史会话语音进行音频特征提取，其中，音频特征可以包括基频、强度、平均强度、过零率和能量中的至少一个；并依据提取的音频特征生成各情绪状态关联的先验情绪识别规则。本实施例还可以同时确定各情绪状态所发生的场景信息，建立先验情绪识别规则与对应场景的关联关系。进而在对会话语音进行情绪识别时，首先，确定该会话语音所属的当前场景；其次，依据先验情绪识别规则与场景的关联关系，将与当前场景关联的先验情绪识别规则作为待使用的当前先验情绪识别规则；最终，对该会话语音进行简单的音频特征提取，将音频特征与当前先验情绪识别规则进行匹配，从而获得该会话语音基于先验情绪识别规则确定的情绪识别结果，即第一识别结果。

示例性的，假设在智能教育场景中，依据人工积累的经验，先验情绪识别规则中可以预先规定与情绪状态“开心”、“满足”、“无聊”以及“焦虑”等教育情景下的情绪状态关联的音频特征，例如语速和音质特征。进而智能产品或智能服务平台通过获取与智能教育场景关联的先验情绪识别规则并实时提取用户语音的音频特征，将音频特征与选定的先验情绪识别规则进行匹配，从而可以获得教育场景下用户当前的情绪状态，获知用户当前的学习状态，为调整用户学习的积极性以及对用户语音进行反馈提供依据。

S120、采用预先训练的情绪识别模型对会话语音进行识别得到第二识别结果。

在本发明具体实施例中，情绪识别模型是指基于深度学习算法预先训练而成的模型，其中深度学习算法可以包括卷积神经网络(Convolutional Neural Network，CNN)以及循环神经网络(Recurrent Neural Network，RNN)等深度学习算法。本实施例通过将会话语音转换为语音频谱图，将对语音的识别转换为对图像的识别，进而通过情绪识别模型直接对会话语谱图进行图像识别，避免了语音识别过程中繁复的语音特征提取的中间过程。本实施例不对模型的训练算法进行限定，任何可以实现图像识别的深度学习算法都可以应用于本实施例中。

具体的，本实施例首先可以采用傅里叶变换将会话语音信息转换为语音频谱图，作为该会话语音信息的会话语谱图。其次可以采用基于CNN的语谱图识别模型，或者基于RNN的语谱图识别模型，或者两者的结合对该会话语谱图进行处理，从而获得会话语音对应的情绪状态，得到第二识别结果。示例性的，将会话语谱图作为情绪识别模型中包括的基于CNN的语谱图识别模型的输入，得到会话语谱图的图像能量分布特征；并将会话语谱图的图像能量分布特征作为情绪识别模型中包括的基于RNN的语谱图识别模型的输入，从而获得会话语音对应的情绪状态。

示例性的，在上述示例中，智能产品或智能服务平台实时采集用户会话语音，并随即将会话语音转换为语谱图，以图像识别的形式，实时地将语谱图输入至情绪识别模型中，从而可以获得教育场景下用户当前的情绪状态，获知用户当前的学习状态，为调整用户学习的积极性以及对用户语音进行反馈提供依据。

S130、依据第一识别结果和第二识别结果，得到会话语音的情绪状态。

在本发明具体实施例中，第一识别结果是依据基于先验情绪识别规则获得的情绪识别结果，第二识别结果是依据基于深度学习的情绪识别模型获得的情绪识别结果。其中，先验情绪识别规则中规定的语音情绪识别匹配关系可能不够全面，存在不能识别语音情绪的情况，但由于先验情绪识别规则中的先验知识是经过大量人工经验及实践过程中积累下来的且被证明实施有效的语音情绪识别匹配关系，进而第一识别结果的准确度较高。本实施例实现了直接快速地将优质的语音特征或信息融合到基于模型的情绪判定流程中，为最终情绪状态的判定提供了依据，能够快速判断和干预语音情绪识别结果，提高了模型的优化效率和情绪识别的准确率。

具体的，本实施例在第一识别结果与第二识别结果不一致的情况下，可以择优为准，或者可以依据第一识别结果对第二识别结果进行修正，或者依据第一识别结果和第二识别结果综合确定最终的情绪状态。

示例性的，鉴于第一识别结果的准确度较高，本实施例可以在存在第一识别结果，且第一识别结果与第二识别结果不一致的情况下，将第一识别结果确定为最终的情绪状态。若不存在第一识别结果，则直接将第二识别结果确定为最终的情绪状态。

示例性的，本实施例还可以预先对两种情绪识别方式中各情绪识别的准确度进行测试，并依据各情绪的识别准确度，分别为两种情绪识别方式及其中各情绪识别的可信度进行权重设置。从而在存在第一识别结果，且第一识别结果与第二识别结果不一致的情况下，依据先验情绪识别规则和第一识别结果的权重，以及情绪识别模型和第二识别结果的权重，选择权重较大的识别结果作为最终的情绪状态。

示例性的，鉴于各个情绪之间存在过度关系，本实施例可以整合先验情绪识别规则以及情绪识别模型可以识别的所有情绪，依据各个情绪之间的过度关系对所有情绪进行排序，并依据排序结果为各个情绪设定连续的数值标识。从而在存在第一识别结果，且第一识别结果与第二识别结果不一致的情况下，依据第一识别结果对应的数值标识和第二识别结果对应的数值标识，取其平均值得到最终结果的数值标识，进而获取该数值标识对应的情绪即可确定为最终的情绪状态。此外，本实施例也可以结合上一示例中的权重设置方式，计算第一识别结果和第二识别结果的加权平均值得到最终结果的数值标识，进而获取该数值标识对应的情绪即可确定为最终的情绪状态。

例如，假设情绪由“焦虑”到“急躁”可以逐渐过度到“愤怒”，依据各个情绪之间的过度关系对所有情绪进行排序，可以得到排序结果为“焦虑”、“急躁”、“愤怒”，进而依据排序结果，分别为情绪设置连续的数值标识为“焦虑-1”、“急躁-2”以及“愤怒-3”。假设第一识别结果为“焦虑”，而第二识别结果为“愤怒”，从而依据两种识别结果对应的数值标识取其平均值为2，即可确定最终情绪状态为“急躁”。

值得注意的是，本实施例不对依据第一识别结果和第二识别结果得到会话语音的情绪状态的方式进行限定，任何可以合理确定最终情绪状态的方式都可以应用于本实施例中。

本实施例的技术方案，通过采用先验情绪识别规则对会话语音进行识别得到第一识别结果，同时采用预先训练的情绪识别模型对会话语音进行识别得到第二识别结果，综合第一识别结果和第二识别结果得到会话语音的情绪状态。本发明实施例通过将经过大量人工经验及实践过程中积累下来的且被证明实施有效的先验知识融入语音情绪的识别中，在简单的数据比对后就能够快速判断和干预语音情绪识别结果，更快而明确地辅助情绪识别模型效果上的提升，提高情绪识别模型的优化效率以及语音情绪的识别速度和准确度。

实施例二

本实施例在上述实施例一的基础上，提供了语音会话的情绪识别方法的一个优选实施方式，能够生成和选择当前可用的先验情绪识别规则。图2为本发明实施例二提供的基于先验情绪识别规则的语音会话情绪识别的流程图，如图2所示，该方法包括以下具体步骤：

S210、对预设的各情绪状态所关联的历史会话语音进行音频特征提取。

在本发明具体实施例中，历史会话语音是指在用户曾经与智能产品或智能平台进行的智能语音交互过程中，所产生的用户语音，且该历史会话语音是确定了情绪识别结果且情绪识别结果正确的用户语音，历史会话语音与其确定的情绪之间存在关联关系。

本实施例在生成先验情绪识别规则之前，首先对预设的各情绪状态所关联的历史会话语音进行音频特征提取，音频特征可以包括基频、强度、平均强度、过零率和能量中的至少一个。其中，基频特征反映了说话人发浊音时的声带振动频率。一般而言，男声的基音频率分布范围为0至200Hz，女声的基音频率分布范围为200至500Hz。因此，鉴于不同性别的说话方式不同，本实施例可以依据基频特征可以辨别用户性别，便于进一步识别情绪。强度特征反映了说话人说话的激烈程度，可通过当前语音强度和平均强度明显区分平稳情绪和极端情绪。过零率特征是指语音信号的符号变化的比率，能量特征可以从整体上反映语音的特点。

S220、依据提取的音频特征生成各情绪状态关联的先验情绪识别规则。

在本发明具体实施例中，先验情绪识别规则是指经过大量人工经验及实践过程中积累下来的，且被证明实施有效的语音情绪识别规则。可以是依据历史会话语音以及先验情绪识别知识生成的语音声学特征与对应情绪的情绪匹配表，即人工积累的规则列表。具体的，依据提取的音频特征和对应的情绪状态生成情绪匹配表即先验情绪识别规则，同时还可以确定各情绪状态所发生的场景信息，建立先验情绪识别规则与对应场景的关联关系。

示例性的，图3为生成先验情绪识别规则的示例图。由图3可知，本实施例对各情绪状态所关联的原始历史会话语音进行简单的声学特征抽取，依据对情绪识别的先验知识，生成声学特征与情绪关联的情绪匹配表。

S230、确定会话语音所属的当前场景。

在本发明具体实施例中，当前场景是指当前会话语音所发生的场景，场景可以为用户与智能产品或智能服务平台交互时的任何交互类场景，例如智能金融场景、智能教育场景以及智能家居场景等。本实施例可以根据具体的智能产品或智能服务平台来直接确定当前场景信息，或者依据智能产品或智能服务平台的具体功能来直接确定当前场景信息，或者根据会话语音所分析的语义内容来间接确定当前场景信息。

S240、将与当前场景关联的先验情绪识别规则作为待使用的当前先验情绪识别规则。

在本发明具体实施例中，依据先验情绪识别规则与场景的关联关系，确定当前场景所关联的先验情绪识别规则，并将该先验情绪识别规则作为待使用的当前先验情绪识别规则，供对会话语音的语音情绪识别时使用。

本实施例的技术方案，以预设的各情绪状态所关联的历史会话语音为依据，通过提取历史会话语音的音频特征，建立音频特征与各情绪状态的关联关系，生成各情绪状态的关联的先验情绪识别规则。并在会话语音的情绪识别时，通过确定当前场景所关联的待使用的当前先验情绪识别规则，供会话语音的情绪识别使用。本发明实施例通过将经过大量人工经验及实践过程中积累下来的且被证明实施有效的先验知识融入语音情绪的识别中，在简单的数据比对后就能够快速判断和干预语音情绪识别结果，更快而明确地辅助情绪识别模型效果上的提升，提高情绪识别模型的优化效率以及语音情绪的识别速度和准确度。

实施例三

本实施例在上述实施例一的基础上，提供了语音会话的情绪识别方法的一个优选实施方式，能够利用神经网络对会话语音的语谱图进行情绪识别。图4为本发明实施例三提供的基于情绪识别模型的语音会话情绪识别的流程图，如图4所示，该方法包括以下具体步骤：

S410、依据会话语音信息生成会话语谱图。

在本发明具体实施例中，为了精简语音情绪的识别过程，提高语音情绪识别的准确度，鉴于图像识别技术相对于语音识别技术较为成熟，本实施例将语音识别转换为图像识别，依据会话语音信息生成会话语谱图。其中，语谱图是指会话语音信号的频谱图，即将时域信号转换为频域信号，语谱图中的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。通过对语谱图中不同频段的信号强度随时间的变化情况的分析和识别，可以获得从时域信号得不到的信息。

优选的，采用傅里叶变换将会话语音信息转换为语音频谱图，作为会话语谱图。

在本发明具体实施例中，傅立叶变换是将时域信号分解为不同频率的正弦信号和余弦信号之和的积分变换，它可分析信号的成分，也可用这些成分合成信号。本实施例优选采用傅里叶变换获得会话语音的频谱图作为会话语谱图，从而通过图像识别技术对语谱图中的信号成分进行分析和识别。

示例性的，图5为原始会话语音经傅里叶变换转换为语谱图的示例图。图5中，上图为原始会话语音的时域波形图，其横坐标为时间，纵坐标为振幅。下图为原始会话语音的频域语谱图，其横坐标为时间，纵坐标为频率。虽然肉眼无法观察得到波形图和语谱图的区别和传达的特征，但是可以看出语谱图为时域信号的分解，其中包含了更多的细节特征，便于特征的提取和识别。

S420、采用情绪识别模型对会话语谱图进行处理，得到第二识别结果。

在本发明具体实施例中，采用基于深度学习算法训练而成的情绪识别模型对语谱图进行处理，其中深度学习算法可以为任何可以实现图像识别的深度学习算法。

优选的，采用基于卷积神经网络的语谱图识别模型和/或基于循环神经网络的语谱图识别模型对会话语谱图进行处理，得到第二识别结果。

在本发明具体实施例中，可以采用基于卷积神经网络的语谱图识别模型对会话语谱图进行处理，得到第二识别结果；或者可以采用基于循环神经网络的语谱图识别模型对会话语谱图进行处理，得到第二识别结果。

具体的，卷积神经网络主要用来识别图像的局部特征，例如位移、缩放以及其他形式扭曲不变性的二维图形，卷积神经网络避免了对图像的复杂前期预处理，可以直接输入原始图像。循环神经网络主要用来处理序列数据。因此，本实施例鉴于卷积神经网络和循环神经网络的适用范围，可以采用卷积神经网络优先对图片形式的语谱图进行处理，获得特征数据，进而采用循环神经网络对特征数据进行处理，获得情绪识别结果。

优选的，将会话语谱图作为情绪识别模型中包括的基于卷积神经网络的语谱图识别模型的输入，得到会话语谱图的图像能量分布特征；

将会话语谱图的图像能量分布特征作为情绪识别模型中包括的基于循环神经网络的语谱图识别模型的输入，得到第二识别结果。

在本发明具体实施例中，语谱图反映了图像中某点与邻域间的差异程度，即图像梯度。一般而言，梯度大的点即高频部分的亮度强，梯度小的点即低频部分的亮度弱。进而通过基于卷积神经网络的语谱图识别模型对语谱图的分析和识别，可以获得会话语谱图的图像能量分布特征。相应的，将会话语谱图的图像能量分布特征以序列数据的形式排列，通过基于循环神经网络的语谱图识别模型对图像能量分布特征序列进行分析和识别，可以获得语音情绪识别的第二识别结果。

本实施例的技术方案，通过将原始的会话语音转换为语谱图，并采用情绪识别模型对语谱图进行图像识别和处理，从而获得情绪识别的第二识别结果。本实施例通过将语音识别转换为图像识别，并采用目前相对成熟的图像识别技术对转换后的图像进行情绪识别，避免了对原始语音进行多种特征提取的复杂操作，提高了情绪识别效率以及识别的准确度。

实施例四

图6为本发明实施例四提供的一种语音会话的情绪识别方法的流程图，本实施例可适用于智能语音对话场景中对用户语音情绪进行识别的情况，该方法可由一种语音会话的情绪识别装置来执行。该方法具体包括如下步骤：

S610、对预设的各情绪状态所关联的历史会话语音进行音频特征提取。

其中，所述音频特征包括基频、强度、平均强度、过零率和能量中的至少一个。

S620、依据提取的音频特征生成各情绪状态关联的先验情绪识别规则。

S630、确定会话语音所属的当前场景。

S640、将与当前场景关联的先验情绪识别规则作为待使用的当前先验情绪识别规则。

S650、采用先验情绪识别规则对会话语音进行识别得到第一识别结果。

S660、采用傅里叶变换将会话语音信息转换为语音频谱图，作为会话语谱图。

S670、将会话语谱图作为情绪识别模型中包括的基于卷积神经网络的语谱图识别模型的输入，得到会话语谱图的图像能量分布特征。

S680、将会话语谱图的图像能量分布特征作为情绪识别模型中包括的基于循环神经网络的语谱图识别模型的输入，得到第二识别结果。

S690、依据第一识别结果和第二识别结果，得到会话语音的情绪状态。

本发明实施例依据历史会话语音生成先验情绪识别规则，依据当前的会话场景确定待使用的当前先验情绪识别规则，通过采用先验情绪识别规则对会话语音进行识别得到第一识别结果。同时采用预先训练的基于CNN和/或RNN的情绪识别模型对会话语音进行识别得到第二识别结果，综合第一识别结果和第二识别结果得到会话语音的情绪状态。本发明实施例通过将经过大量人工经验及实践过程中积累下来的且被证明实施有效的先验知识融入语音情绪的识别中，在简单的数据比对后就能够快速判断和干预语音情绪识别结果，更快而明确地辅助情绪识别模型效果上的提升，提高情绪识别模型的优化效率以及语音情绪的识别速度和准确度。

实施例五

图7为本发明实施例五提供的一种语音会话的情绪识别装置的结构示意图，本实施例可适用于智能语音对话场景中对用户语音情绪进行识别的情况，该装置可实现本发明任意实施例所述的语音会话的情绪识别方法。该装置具体包括：

第一识别模块710，用于采用先验情绪识别规则对会话语音进行识别得到第一识别结果；

第二识别模块720，用于采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果；

情绪确定模块730，用于依据所述第一识别结果和所述第二识别结果，得到所述会话语音的情绪状态。

进一步的，所述装置还包括先验规则确定模块740；所述先验规则确定模块740包括：

场景确定单元7401，用于在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前，确定会话语音所属的当前场景；

先验规则确定单元7402，用于将与所述当前场景关联的先验情绪识别规则作为待使用的当前先验情绪识别规则。

进一步的，所述装置还包括先验规则生成模块750；所述先验规则生成模块750包括：

历史特征提取单元7501，用于在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前，对预设的各情绪状态所关联的历史会话语音进行音频特征提取；其中，所述音频特征包括基频、强度、平均强度、过零率和能量中的至少一个；

先验规则生成单元7502，用于依据提取的音频特征生成各情绪状态关联的先验情绪识别规则。

优选的，所述第二识别模块720包括：

语谱图生成单元7201，用于依据所述会话语音信息生成会话语谱图；

情绪识别单元7202，用于采用所述情绪识别模型对所述会话语谱图进行处理，得到第二识别结果。

优选的，所述语谱图生成单元7201具体用于：

采用傅里叶变换将所述会话语音信息转换为语音频谱图，作为所述会话语谱图。

优选的，所述情绪识别单元7202具体用于：

采用基于卷积神经网络的语谱图识别模型和/或基于循环神经网络的语谱图识别模型对所述会话语谱图进行处理，得到第二识别结果。

优选的，所述情绪识别单元7202还包括：

语谱图处理子单元，用于将所述会话语谱图作为情绪识别模型中包括的基于卷积神经网络的语谱图识别模型的输入，得到所述会话语谱图的图像能量分布特征；

特征处理子单元，用于将所述会话语谱图的图像能量分布特征作为情绪识别模型中包括的基于循环神经网络的语谱图识别模型的输入，得到第二识别结果。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了历史会话语音特征的提取、先验情绪识别规则的生成、当前场景的确定、当前待使用的先验情绪识别规则的选择、基于先验情绪识别规则的语音情绪识别、语谱图的生成、基于语谱图的情绪识别以及最终情绪结果的综合确定等功能。本发明实施例通过将经过大量人工经验及实践过程中积累下来的且被证明实施有效的先验知识融入语音情绪的识别中，在简单的数据比对后就能够快速判断和干预语音情绪识别结果，更快而明确地辅助情绪识别模型效果上的提升，提高情绪识别模型的优化效率以及语音情绪的识别速度和准确度。

实施例六

图8为本发明实施例六提供的一种服务器的结构示意图，图8示出了适于用来实现本发明实施例实施方式的示例***器的框图。图8显示的服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图8显示的服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于：一个或者多个处理器16，***存储器28，连接不同***组件(包括***存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。***存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如***存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理器16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音会话的情绪识别方法。

实施例七

本发明实施例七还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时用于执行一种语音会话的情绪识别方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音会话的情绪识别方法，其特征在于，包括：

依据所述第一识别结果和所述第二识别结果，得到所述会话语音的情绪状态；

在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前，还包括：

对预设的各情绪状态所关联的历史会话语音进行音频特征提取；

依据提取的音频特征生成各情绪状态关联的先验情绪识别规则。

2.根据权利要求1所述的方法，其特征在于，在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前，还包括：

确定会话语音所属的当前场景；

将与所述当前场景关联的先验情绪识别规则作为待使用的当前先验情绪识别规则。

3.根据权利要求1所述的方法，其特征在于，所述采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果，包括：

依据所述会话语音信息生成会话语谱图；

采用所述情绪识别模型对所述会话语谱图进行处理，得到第二识别结果。

4.根据权利要求3所述的方法，其特征在于，所述依据所述会话语音信息生成会话语谱图，包括：

5.根据权利要求3所述的方法，其特征在于，所述采用所述情绪识别模型对所述会话语谱图进行处理，得到第二识别结果，包括：

6.根据权利要求3所述的方法，其特征在于，所述采用所述情绪识别模型对所述会话语谱图进行处理，得到第二识别结果，包括：

将所述会话语谱图作为情绪识别模型中包括的基于卷积神经网络的语谱图识别模型的输入，得到所述会话语谱图的图像能量分布特征；

将所述会话语谱图的图像能量分布特征作为情绪识别模型中包括的基于循环神经网络的语谱图识别模型的输入，得到第二识别结果。

7.一种语音会话的情绪识别装置，其特征在于，包括：

情绪确定模块，用于依据所述第一识别结果和所述第二识别结果，得到所述会话语音的情绪状态；

所述装置还包括先验规则生成模块；所述先验规则生成模块包括：

历史特征提取单元，用于在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前，对预设的各情绪状态所关联的历史会话语音进行音频特征提取；

先验规则生成单元，用于依据提取的音频特征生成各情绪状态关联的先验情绪识别规则。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括先验规则确定模块；所述先验规则确定模块包括：

场景确定单元，用于在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前，确定会话语音所属的当前场景；

先验规则确定单元，用于将与所述当前场景关联的先验情绪识别规则作为待使用的当前先验情绪识别规则。

9.根据权利要求7所述的装置，其特征在于，所述装置还包括先验规则生成模块；所述先验规则生成模块包括：

历史特征提取单元，用于在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前，对预设的各情绪状态所关联的历史会话语音进行音频特征提取；其中，所述音频特征包括基频、强度、平均强度、过零率和能量中的至少一个；

10.一种服务器，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的语音会话的情绪识别方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至6中任一项所述的语音会话的情绪识别方法。