CN111081279A

CN111081279A - 语音情绪波动分析方法及装置

Info

Publication number: CN111081279A
Application number: CN201911341679.XA
Authority: CN
Inventors: 朱锦祥; 单以磊; 臧磊
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-04-28
Also published as: WO2021128741A1

Abstract

本发明实施例提供一种语音情绪波动分析方法，包括：获取待测语音数据的第一音频特征和第一文字特征；基于预先训练好的音频识别模型中的音频特征提取网络，提取第一音频特征中的第二音频特征；基于预先训练好的文字识别模型中的文字特征提取网络，提取第一文字特征中的第二文字特征；识别第二音频特征，获取音频情绪识别结果；识别第二文字特征，获取文字情绪识别结果；对音频情绪识别结果和文字情绪识别结果进行融合处理，得到情绪识别结果，并将所述情绪识别结果发送至关联终端。本发明通过双通道语音情绪识别方法及绘制情绪值热图，给客服质检提供具象化的参考和帮助，使评价结果更加客观，最终帮助企业提高客服服务质量，改善客户体验。

Description

语音情绪波动分析方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种语音情绪波动分析方法及装置。

背景技术

随着人工智能技术的发展，情绪波动分析被运用在越来越多的商业场景中，例如客服人员与客户进行交谈时，双方的情绪波动情况。现有技术中，针对音频的情绪波动分析一般是通过声音的音频信号，例如语调、声波的频率和幅度变化进行分析，分析方式较为单一，并且不同人的音频信号也不相同，只用声音的音频信号对情绪进行分析准确性较低。

发明内容

有鉴于此，本发明实施例提供了一种语音情绪波动分析方法、装置、计算机设备及计算机可读存储介质，用于情绪波动进行分析准确性较低的问题。

本发明实施例是通过下述技术方案来解决上述技术问题：

一种语音情绪波动分析方法，包括：

获取待测语音数据的第一音频特征和第一文字特征；

基于预先训练好的音频识别模型中的音频特征提取网络，提取所述第一音频特征中的第二音频特征；基于预先训练好的文字识别模型中的文字特征提取网络，提取所述第一文字特征中的第二文字特征；

识别所述第二音频特征，获取音频情绪识别结果；识别所述第二文字特征，获取文字情绪识别结果；

对所述音频情绪识别结果和文字情绪识别结果进行融合处理，得到情绪识别结果，并将所述情绪识别结果发送至关联终端。

进一步地，所述获取待测语音数据的第一音频特征和第一文字特征包括：

对所述待测语音数据进行分帧加窗处理，获得语音分析帧；

对所述语音分析帧进行傅里叶变换得到对应的频谱；

将所述频谱经过梅尔滤波器组得到梅尔频谱；

将所述梅尔频谱进行倒谱分析，获得所述待测语音数据的第一音频特征。

进一步地，所述识别所述第二音频特征，获取音频情绪识别结果；识别所述第二文字特征，获取文字情绪识别结果包括：

基于预先训练好的音频识别模型中的音频分类网络，识别所述第二音频特征，获取多个音频情绪分类向量对应的第一置信度；

选取第一置信度最高的音频情绪分类为目标音频情绪分类，对应的第一置信度为目标音频情绪分类参数；

对所述目标音频情绪分类向量参数进行数值映射，得到音频情绪识别结果。

进一步地，所述获取待测语音数据的第一音频特征和第一文字特征还包括：

将所述待测语音数据转换为文字；

对所述文字进行分词处理，得到L个分词，其中L为大于0的自然数；

对所述L个分词分别进行词向量映射，以获取L个分词对应的d维词向量矩阵，其中d为大于0的自然数，所述d维词向量矩阵为待测语音数据的第一文字特征。

基于预先训练好的文字识别模型中的文字分类网络，识别所述第二文字特征，获取多个文字情绪分类向量对应的第二置信度；

选取第二置信度最高的音频情绪分类为目标文字情绪分类，对应的第二置信度为目标文字情绪分类参数；

对所述目标文字情绪分类向量参数进行数值映射，得到文字情绪识别结果。

进一步地，所述方法还包括：

获取离线或者在线的待测语音数据；

对所述语音数据进行分离处理得到待测语音数据，所述待测语音数据包括多段第一用户语音数据和第二用户语音数据。

进一步地，所述对所述音频情绪识别结果和文字情绪识别结果进行融合处理，得到情绪识别结果，并将所述情绪识别结果发送至关联终端包括：

对每段第一用户的语音数据的音频情绪识别结果和文字情绪识别结果进行加权处理，得到第一情绪值，对每段第二用户的语音数据的音频情绪识别结果和文字情绪识别结果进行加权处理，得到第二情绪值；

根据所述第一情绪值生成第一情绪值热图及根据所述第二情绪值生成第二情绪值热图；

将所述第一情绪值热图和第二情绪值热图发送至关联终端。

为了实现上述目的，本发明实施例还提供一种语音情绪波动分析装置，包括：

第一语音特征获取模块，用于获取待测语音数据的第一音频特征和第一文字特征；

第二语音特征提取模块，用于基于预先训练好的音频识别模型中的音频特征提取网络，提取所述第一音频特征中的第二音频特征；基于预先训练好的文字识别模型中的文字特征提取网络，提取所述第一文字特征中的第二文字特征；

语音特征识别模块，用于识别所述第二音频特征，获取音频情绪识别结果；识别所述第二文字特征，获取文字情绪识别结果；

识别结果获取模块，用于对所述音频情绪识别结果和文字情绪识别结果进行融合处理，得到情绪识别结果，并将所述情绪识别结果发送至关联终端。

为了实现上述目的，本发明实施例还提供一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述语音情绪波动分析方法的步骤。

为了实现上述目的，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如上所述的语音情绪波动分析方法的步骤。

本发明实施例提供的语音情绪波动分析方法、装置、计算机设备及计算机可读存储介质，采用双通道分析语音情绪，除通过音频声学韵律来分析语音情绪外，还通过说话内容来进一步判断说话人的情绪，从而提高情绪分析的准确率。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明实施例一之语音情绪波动分析方法的步骤流程图；

图2为获取待测语音数据的具体流程图；

图3为提取所述待测语音数据中的第一音频特征的具体流程图；

图4为提取所述待测语音数据中的第一文字特征的具体流程图；

图5为识别所述第二音频特征，获取音频情绪识别结果的具体流程图；

图6为识别所述第二文字特征，获取文字情绪识别结果的具体流程图；

图7为对所述音频情绪识别结果和文字情绪识别结果进行融合处理，得到情绪识别结果，并将所述情绪识别结果发送至关联终端的具体流程图；

图8为本发明语音情绪波动分析装置之实施例二的程序模块示意图；

图9为本发明计算机设备之实施例三的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

实施例一

请参阅图1，示出了本发明实施例之语音情绪波动分析方法的步骤流程图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备为执行主体进行示例性描述，具体如下：

S100：获取待测语音数据的第一音频特征和第一文字特征；

参阅图2，本发明实施例的语音情绪波动分析方法还包括：

S110：获取待测语音数据。

所述获取待测语音数据进一步包括：

S110A：获取离线或者在线的语音数据；

具体的，所述语音数据包括在线语音数据和离线语音数据，所述在线语音数据是指通话过程中实时获取的语音数据，所述离线语音数据是指从存储于***后台中的通话语音数据，所述待测语音数据为wav格式的录音文件。

S110B：对所述语音数据进行分离处理得到待测语音数据，所述待测语音数据包括多段第一用户语音数据和第二用户语音数据。

具体的，获取所述语音数据后，根据通话语音的静音部分，将待测语音数分成多段第一用户语音数据和第二用户语音数据，采用端点检测技术和声音分离技术，去除所述待测语音数据通话过程中的静音部分，且基于设置的说话间隔段存在的静音时长的时长阈值，标记每一段对话的起点和终点，并根据时间点进行切割分离，得到多个短音频片段，采用声纹识别工具标记每一个短音频片段的说话人身份和说话时间并用编号进行区分。所述时长阈值根据经验值确定，作为一个实施例，本方案的时长阈值为0.25～0.3秒。

所述编号包括但不限于客服的工号、客服的座机号码以及客户的手机号码。

具体的，所述声纹识别工具为LIUM_SpkDiarization工具包，通过LIUM_SpkDiarization工具包对第一用户语音数据和第二用户语音数据进行区分，举例如下：

start_time	end_time	speaker
			0	3	1
4	8	2
			8.3	12.5	1

我们认为，第一个开口说话的人是第一用户(即表中的speaker1)，第二个自然是第二用户(即表中的speaker2)。

参阅图3，所述获取待测语音数据的第一音频特征进一步包括：

S100A1：对所述待测语音数据进行分帧加窗处理，获得语音分析帧；

具体的，语音数据信号具有短时平稳性，可以将语音数据信号进行分帧处理，得到多个音频帧，音频帧是指N个采样点的集合。在本实施例中，N为256或512，涵盖的时间为20～30ms，得到多个所述音频帧后，将每一个音频帧乘以汉明窗，以增加帧左端和右端的连续性，获取语音分析帧。

S100B1：对所述语音分析帧进行傅里叶变换得到对应的频谱；

具体的，由于语音数据信号在时域上变化较难，因此需要将语音数据信号转换为频域上的能量分布，将所述语音分析帧经过傅里叶变换，得到各语音分析帧的频谱。

S100C1：将所述频谱经过梅尔滤波器组得到梅尔频谱；

S100D1：将所述梅尔频谱进行倒谱分析，获得所述待测语音数据的第一音频特征。

具体的，将所述梅尔频谱进行倒谱分析，得到36个1024维的音频向量，所述音频向量即为所述待测语音数据的第一音频特征。

参阅图4，所述获取待测语音数据的第一文字特征进一步包括：

S100A2：将所述待测语音数据转换为文字；

具体的，利用语音听写接口，将所述多段第一用户语音数据和第二用户语音数据转换为文字。作为一个实施例，所述听写接口为讯飞语音听写接口。

S100B2：对所述文字进行分词处理，得到L个分词，其中L为大于0的自然数；

具体的，所述分词处理通过词典分词算法完成，所述词典分词算法包括但不限于正向最大匹配法、逆向最大匹配法和双向匹配分词法，也可以基于隐马尔科夫模型HMM、CRF、SVM、深度学习算法。

S100C2：对所述L个分词分别进行词向量映射，以获取L个分词对应的d维词向量矩阵，其中d为大于0的自然数，所述d维词向量矩阵为待测语音数据的第一文字特征。

具体的，通过word2vec等模型，获取每个分词的128维词向量。

S102：基于预先训练好的音频识别模型中的音频特征提取网络，提取所述第一音频特征中的第二音频特征；基于预先训练好的文字识别模型中的文字特征提取网络，提取所述第一文字特征中的第二文字特征。

具体的，所述第二音频特征和第二文字特征为情绪识别模型的特征提取网络从第一音频特征和第一文字特征中提取出的维度更少的并且更加关注表达情绪的词的语义特征向量，通过提取第二音频特征和第二文字特征，可以使模型的学习能力更好，最终分类的准确率更高。

S104：识别所述第二音频特征，获取音频情绪识别结果；识别所述第二文字特征，获取文字情绪识别结果。

具体的，所述音频识别结果通过将所述音频特征输入音频识别模型中获得，所述文字情绪识别结果通过将所述文字特征输入文字识别模型中获得。具体的，所述音频识别模型和文字情绪识别模型包括特征提取网络和分类网络，其中，特征提取网络用于从第一音频特征和第一文字特征中提取维度更少的语义特征向量，即第二音频特征和第二文字特征，分类网络用于输出各个预设情绪类别的置信度，其中预设的情绪类别可以根据业务需求划分，例如，积极、消极等。所述文字情绪识别模型是包括Embedding层和长短时记忆循环神经层(LSTM，Long Short-Term Memory)的深度神经网络模型，所述音频情绪识别模型是包括自注意力层和双向长短时记忆神经网络层(前向的LSTM与后向的LSTM)的神经网络模型。

长短短期记忆网络是用于处理长跨度间的序列依赖关系，适合于处理长文本间依赖的任务。

进一步地，本发明的实施例还包括，对所述音频识别模型和所述文字识别模型进行训练，所述训练过程包括：

获取与所述目标领域对应的训练集及校验集；

所述获取与目标领域对应的训练集和校验集包括以下步骤：

获取训练集和校验集的语音数据；

具体的，所述训练集和叫校验集语音数据的获取方式包括但不限于公司内部呼叫中心录音数据、合作公司提供的客服录音数据、客户方提供的客服录音数据以及从数据平台直接购买客服录音数据，本实施例中选择从数据平台直接购买的方式获取录音数据，所述录音数据包括了训练集和校验集。

对所述录音数据的情感类型进行标注；

具体的，所述标注过程为：人工标注每个录音的停顿时间点，可得到每段录音的多短音频片段(对话片段)；对每个短音频片段进行情绪倾向标注(即积极情绪、消极情绪)，本实施例中，使用音频标注工具audio-annotator实现音频片段的起点和终点时间点标记和情绪标记。

分离训练集和校验集；

具体的，所述分离训练集和校验集的过程为：将标注好的所有音频片段样本进行随机打乱，然后按4:1的比例分成两份数据集，多的部分用于模型训练,即为训练集，少的部分用于模型验证，即为校验集。

基于训练集的情感类型，对所述语音情绪识别模型和文字情绪识别模型进行调整；

利用所述测试集，对所述语音情绪识别模型和文字情绪识别模型进行测试，以确定所述语音情绪识别模型和文字情绪识别模型的准确性。

参阅图5，所述识别所述第二音频特征，获取音频情绪识别结果进一步包括：

S104A1：基于预先训练好的音频识别模型中的音频分类网络，识别所述第二音频特征，获取多个音频情绪分类及音频情绪分类对应的第一置信度；

将提取到的第二音频特征输入所述音频识别模型中的音频分类网络，分类网络层对第二音频特征进行分析，得到第二音频特征对应的多个音频情绪分类及每个音频情绪分类对应的第一置信度。例如，“积极情绪”的的第一置信度为0.3，“消极情绪”的第一置信度为0.7。

S104B1：选取第一置信度最高的音频情绪分类为目标音频情绪分类，对应的第一置信度为目标音频情绪分类参数。

对应的，目标音频情绪分类为“消极情绪”，目标音频情绪分类参数为0.7。

S104C1：对所述目标音频情绪分类向量参数进行数值映射，得到音频情绪识别结果。

其中，数值映射是指将原本输出结果为情绪类别映射为具体的数值，方便后续进一步观测情绪的波动。在一实施方式中，通过一定的函数关系式，将情绪类别映射为具体的数字，例如，获取所述待测语音数据的各个预设情绪类别的第一置信度后，选取置信度最大的情绪类别对应的目标音频情绪分类向量参数X，采用如下的音频情绪识别结果公式对最终输出的音频情绪识别结果Y进行计算。

在本实施例中，所述数值映射关系为，当识别出来的情绪类别为“积极”时，Y＝0.5X；当情绪识别结果为“消极”时，Y＝0.5(1+X)，以使最终输出的音频情绪识别结果为数值为0到1之间的浮点数。

具体的，最终输出的音频情绪识别结果为0.85。

参阅图6，识别所述第二文字特征，获取文字情绪识别结果进一步包括：

S104A2：基于预先训练好的文字识别模型中的文字分类网络，识别所述第二文字特征，获取多个文字情绪分类向量对应的第二置信度。

将提取到的第二文字特征输入所述文字识别模型中的文字分类网络，分类网络层对第二文字特征进行分析，得到第二文字特征对应的多个文字情绪分类及每个文字情绪分类对应的第二置信度。例如，“积极情绪”的的第二置信度为0.2，“消极情绪”的第一置信度为0.8。

S104B2：选取第二置信度最高的音频情绪分类为目标文字情绪分类，对应的第二置信度为目标文字情绪分类参数。

对应的，目标文字情绪分类为“消极情绪”，目标文字情绪分类参数为0.8。

S104C2：对所述目标文字情绪分类向量参数进行数值映射，得到文字情绪识别结果。

具体的，最终输出的文字情绪识别结果为0.9。

S106，对所述音频情绪识别结果和文字情绪识别结果进行融合处理，得到情绪识别结果，并将所述情绪识别结果发送至关联终端。

参阅图7，所述步骤S106可进一步包括：

S106A，对每段第一用户的语音数据的音频情绪识别结果和文字情绪识别结果进行加权处理，得到第一情绪值，对每段第二用户的语音数据的音频情绪识别结果和文字情绪识别结果进行加权处理，得到第二情绪值；

具体的，用数值加权的方法处理同一音频片段的两种情绪值，所述情绪值为数值为0到1之间的浮点数，越接近于1则情绪越偏向于消极，反之，越接近于0则情绪越偏向于积极。

作为一个实施例，语音情绪识别通道得到的情绪值的权重为0.7；文字情绪识别通道得到的情绪值的权重为0.3。

以上述实施方式为例进行进一步说明，最终的输出的情绪值为0.865。

S106B，根据所述第一情绪值生成第一情绪值热图及根据所述第二情绪值生成第二情绪值热图；

具体的，根据时间顺序对每段待测语音进行编号并绘制的情绪值热图，所述热图用于对每个时间段的情绪进行聚类。

具体的，使用python的seaborn库的heatmap函数绘制情绪值的热图，使用不同的颜色表示不同的情绪，例如积极的情绪为正时，颜色会更深。

S106C，将所述第一情绪值热图和第二情绪值热图发送至关联终端。

具体的，所述关联终端包括第一用户终端和第二用户终端，作为一个实施例，当第一用户和第二用户分别为客户和客服时，所述关联终端除了客户端和客服端外，还包括客服质量监督管理端和客服上级，以便对客服的服务质量进行监督和纠正。

本发明实施例采用双通道分析语音情绪，除通过音频声学韵律来分析语音情绪外，还通过说话内容来进一步判断说话人的情绪，从而提高情绪分析的准确率，结合对话分离技术，对每一段对话的情绪值都进行分析和判断，从而得到完整通话过程中，各时间段说话人的情绪，进而可分析说话人的情绪波动情况，给客服质检提供具象化的参考和帮助，使评价结果更加客观，最终帮助企业提高客服服务质量，改善客户体验。

实施例二

请继续参阅图8，示出了本发明语音情绪波动分析装置的程序模块示意图。在本实施例中，语音情绪波动分析装置20可以包括或被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本发明，并可实现上述语音情绪波动分析方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序本身更适合于描述语音情绪波动分析装置20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能：

第一语音特征获取模块200，用于获取待测语音数据的第一音频特征和第一文字特征。

进一步地，第一语音特征获取模块200还用于：

获取离线或者在线的待测语音数据；

第二语音特征提取模块202：用于基于预先训练好的音频识别模型中的音频特征提取网络，提取所述第一音频特征中的第二音频特征；基于预先训练好的文字识别模型中的文字特征提取网络，提取所述第一文字特征中的第二文字特征。

进一步地，第二语音特征提取模块202还用于：

对所述待测语音数据进行分帧加窗处理，获得语音分析帧；

对所述语音分析帧进行傅里叶变换得到对应的频谱；

将所述频谱经过梅尔滤波器组得到梅尔频谱；

进一步地，第二语音特征提取模块202还用于：

将所述待测语音数据转换为文字；

语音特征识别模块204：用于识别所述第二音频特征，获取音频情绪识别结果；识别所述第二文字特征，获取文字情绪识别结果。

进一步地，语音特征识别模块204还用于：

识别结果获取模块206：用于对所述音频情绪识别结果和文字情绪识别结果进行融合处理，得到情绪识别结果，并将所述情绪识别结果发送至关联终端。

进一步地，识别结果获取模块206还用于：

将所述第一情绪值热图和第二情绪值热图发送至关联终端。

实施例三

参阅图9，是本发明实施例三之计算机设备的硬件架构示意图。本实施例中，所述计算机设备2是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图9所示，所述计算机设备2至少包括，但不限于，可通过***装置总线相互通信连接存储器21、处理器22、网络接口23、以及语音情绪波动分析装置20。其中：

本实施例中，存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作***装置和各类应用软件，例如实施例二的语音情绪波动分析装置20的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行语音情绪波动分析装置20，以实现上述实施例的语音情绪波动分析方法。

所述网络接口23可包括无线网络接口或有线网络接口，该网络接口23通常用于在所述计算机设备2与其他电子***装置之间建立通信连接。例如，所述网络接口23用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication，GSM)、宽带码分多址(WidebandCode Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图9仅示出了具有部件20-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述语音情绪波动分析装置20还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器22)所执行，以完成本发明。

例如，图8示出了所述实现语音情绪波动分析装置20实施例二的程序模块示意图，该实施例中，所述基于语音情绪波动分析装置20可以被划分为第一语音特征获取模块200、第二语音特征提取模块202、语音特征识别模块204和识别结果获取模块206。其中，本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述所述语音情绪波动分析装置20在所述计算机设备2中的执行过程。所述程序模块第一语音特征获取模块200-识别结果获取模块206的具体功能在实施例二中已有详细描述，在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储语音情绪波动分析装置20，被处理器执行时实现上述实施例的语音情绪波动分析方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音情绪波动分析方法，其特征在于，包括：

获取待测语音数据的第一音频特征和第一文字特征；

2.根据权利要求1所述的语音情绪波动分析方法，其特征在于，所述获取待测语音数据的第一音频特征和第一文字特征包括：

对所述待测语音数据进行分帧加窗处理，获得语音分析帧；

对所述语音分析帧进行傅里叶变换得到对应的频谱；

将所述频谱经过梅尔滤波器组得到梅尔频谱；

3.根据权利要求2所述的语音情绪波动分析方法，其特征在于，所述识别所述第二音频特征，获取音频情绪识别结果；识别所述第二文字特征，获取文字情绪识别结果包括：

4.根据权利要求1所述的语音情绪波动分析方法，其特征在于，所述获取待测语音数据的第一音频特征和第一文字特征还包括：

将所述待测语音数据转换为文字；

5.根据权利要求4所述的语音情绪波动分析方法，其特征在于，所述识别所述第二音频特征，获取音频情绪识别结果；识别所述第二文字特征，获取文字情绪识别结果包括：

6.根据权利要求1所述的语音情绪波动分析方法，其特征在于，所述方法还包括：

获取离线或者在线的待测语音数据；

7.根据权利要求6所述的语音情绪波动分析方法，其特征在于，所述对所述音频情绪识别结果和文字情绪识别结果进行融合处理，得到情绪识别结果，并将所述情绪识别结果发送至关联终端包括：

将所述第一情绪值热图和第二情绪值热图发送至关联终端。

8.一种语音情绪波动分析装置，其特征在于，包括：

9.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音情绪波动分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行如权利要求1至7中任一项所述的语音情绪波动分析方法的步骤。