CN111627462B

CN111627462B - 一种基于语义分析的情绪识别方法和设备

Info

Publication number: CN111627462B
Application number: CN202010443389.2A
Authority: CN
Inventors: 龙艳花; 苏春雨; 黄盼
Original assignee: Shanghai Normal University; Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Shanghai Normal University; Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-12-19
Anticipated expiration: 2040-05-22
Also published as: CN111627462A

Abstract

本发明提出了一种基于语义分析的情绪识别方法和设备，该方法包括：获取待测语音，并提取所述待测语音中的声学特征；当基于所述声学特征判定所述待测语音为疑似异常语音时，将所述疑似异常语音转换为文本；基于预设的深度学习监督二分类异构神经网络模型对所述文本进行分析，以识别出所述疑似异常语音数据中的异常情绪语音数据与非异常情绪语音数据。本方案通过综合音质和内容分析来识别情绪，声学特征和词频分析的结合，使得情绪的识别率相较于目前的技术得到了很大程度的提高。

Description

一种基于语义分析的情绪识别方法和设备

技术领域

本发明涉及语义识别领域，特别涉及一种基于语义分析的情绪识别方法和设备。

背景技术

众所周知，说话的奇妙之处在于，有时候重要的不是看说了什么，而是要看是怎么说的,不同的说法(例如以不同的语气来说)会使得说话所代表的内容完全不同，拥有四声和平仄的中文尤为如此。对此，听到过客户尖酸刻薄的挖苦之话的客服接线员想必感触最深。

目前市场上存在有对该领域的应用，具体的应用是通过分析人的声音音调来进行分析的，这种技术更偏向注重的是“声学特征”；此外，还存在有英国的初创企业EITechnologies正在研发的一种语音识别技术，该技术可通过音质分析来识别情绪，这种方式同样是偏向注重“声学特征”来进行识别；这种方式对情绪的识别率很低，且经常失效。可见，目前的自动语音***无法识别这种语气方面的细微差别，这导致各个公司不得不维系大量的人工客服人员来准确获知用户的说话的含义。

由此，目前需要一种情绪的识别率更高的方案。

发明内容

针对现有技术中的缺陷，本发明提出了一种基于语义分析的情绪识别方法和设备，通过综合音质和内容分析来识别情绪，声学特征和词频分析的结合，使得情绪的识别率相较于目前的技术得到了很大程度的提高。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种基于语义分析的情绪识别方法，包括：

获取待测语音，并提取所述待测语音中的声学特征；

当基于所述声学特征判定所述待测语音为疑似异常语音时，将所述疑似异常语音转换为文本；

基于预设的深度学习监督二分类异构神经网络模型对所述文本进行分析，以识别出所述疑似异常语音数据中的异常情绪语音数据与非异常情绪语音数据。

在一个具体的实施例中，所述声学特征包括：短时能量值。

在一个具体的实施例中，所述短时能量值是基于上述公式确定：

其中，为语音在/>时刻所产生的短时能量的均值；X[m]为数字语音序列，W[m]为汉明窗序列。

在一个具体的实施例中，基于所述声学特征判定所述待测语音为疑似异常语音，包括：将所述待测语音中短时能量值经过句子级别的规整之后，与预设的阈值进行比较；

若经过规整后的所述短时能量值大于所述阈值，则判定所述待测语音数据为疑似异常语音数据。

在一个具体的实施例中，若经过规整后的所述短时能量值不大于所述阈值，则判定所述待测语音数据为非异常情绪语音数据。

在一个具体的实施例中，所述基于预设的深度学习监督二分类异构神经网络模型对所述文本进行分析，以识别出所述疑似异常语音数据中的异常情绪语音数据与非异常情绪语音数据，包括：

将所述文本与预设情绪文本数据库中的文本进行比对，以生成文本序列特征；

将所述文本序列特征与所述文本对应的待测语音进行结合，以生成复杂特征序列；

将所述复杂特征序列输入预设的深度学习监督二分类判定模块进行异常情绪检测，以识别出所述疑似异常语音中的异常情绪语音与非异常情绪语音。

在一个具体的实施例中，所述复杂特征序列包括语音mel频谱与文本组合；

所述深度学习监督二分类异构神经网络模型由3层的LSTM、6层TDNN、 2层前馈神经网络与softmax函数级联而成。

本发明实施例还提出了一种基于语义分析的情绪识别设备，包括用于执行上述方法的模块。

以此，本发明实施例提出了一种基于语义分析的情绪识别方法和设备，该方法包括：获取待测语音，并提取所述待测语音中的声学特征；当基于所述声学特征判定所述待测语音为疑似异常语音时，将所述疑似异常语音转换为文本；基于预设的深度学习监督二分类异构神经网络模型对所述文本进行分析，以识别出所述疑似异常语音数据中的异常情绪语音数据与非异常情绪语音数据。本方案通过综合音质和内容分析来识别情绪，声学特征和词频分析的结合，使得情绪的识别率相较于目前的技术得到了很大程度的提高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提出的一种基于语义分析的情绪识别方法的流程示意图；

图2为本发明实施例提出的一种基于语义分析的情绪识别方法的流程示意图；

图3为本发明实施例提出的一种基于语义分析的情绪识别方法中深度学习监督二分类异构神经网络模型的结构示意图；

图4为本发明实施例提出的一种基于语义分析的情绪识别设备中***登录界面；

图5为本发明实施例提出的一种基于语义分析的情绪识别设备中提示用户进入主***的示意图；

图6为本发明实施例提出的一种基于语义分析的情绪识别设备中主界面的示意图；

图7为本发明实施例提出的一种基于语义分析的情绪识别设备中分层设置界面示意图；

图8为本发明实施例提出的一种基于语义分析的情绪识别设备中同步分析设置界面(一)的示意图；

图9为本发明实施例提出的一种基于语义分析的情绪识别设备中同步分析设置界面(二)的示意图；

图10为本发明实施例提出的一种基于语义分析的情绪识别设备中同步分析设置界面(三)的示意图；

图11为本发明实施例提出的一种基于语义分析的情绪识别设备中设置管理界面示意图；

图12为本发明实施例提出的一种基于语义分析的情绪识别设备中数据初始界面示意图。

具体实施方式

在下文中，将更全面地描述本公开的各种实施例。本公开可具有各种实施例，并且可在其中做出调整和改变。然而，应理解：不存在将本公开的各种实施例限于在此公开的特定实施例的意图，而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。

在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用，单数形式意在也包括复数形式，除非上下文清楚地另有指示。除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本公开的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种基于语义分析的情绪识别方法，具体的本方案中的方案可以应用在垂直类电商等服务行业，例如淘宝、京东、拼多多等，以便进行后台服务端的资源整合和调配，本方案具体方法，如图 1-2所示，包括以下步骤：

步骤101、获取待测语音，并提取所述待测语音中的声学特征；

在一个实施例中，考虑到具体权限的问题，本方案在执行时，还可以包括以下步骤：

获取权限信息，并对所述权限信息进行验证

若所述权限信息验证通过，则执行“获取待测语音”的操作。

具体的，权限信息可以为帐户密码等，具体的帐户密码的形式可以有多样，例如包括一般的帐户字符信息与密码字符信息，还可以包括例如指纹信息，语音信息或者虹膜信息或面部信息等等，只有当权限信息验证通过时，才代表当前的用户有执行本方案的权限，进而执行本方案对应的方法，若权限信息验证不通过，则可以提示错误，且无法执行本方案对应的方法。

具体的所述声学特征可以为短时能量值。

所述短时能量值是基于上述公式确定：

步骤102、当基于所述声学特征判定所述待测语音为疑似异常语音时，将所述疑似异常语音转换为文本；

在一个具体的实施例中，步骤102中的所述当基于所述声学特征判定所述待测语音为疑似异常语音，包括：

将所述待测语音中短时能量值经过句子级别的规整之后，与预设的阈值进行比较；

具体的，短时能量值经过句子级别的规整之后，与一个预设的阈值进行比较，若短时能量大于阈值，则判定为疑似情绪异常语音。该阈值由***预先设置在一个有人工标注的开发集合上调试得到，具体是通过在开发集上尝试设定多个阈值参数并统计其检测率，最后从测试的多个阈值中选择具有最高检测率的阈值作为***预设阈值。

此外，对于疑似情绪异常的语音，本方案中接着对其进行语音识别，识别出对应的文本信息，具体实现步骤见图2的第一步所示。其中的”语音数据转文本数据”的语音识别模块例如可以直接采用云知声智能科技有限公司提供的音频撰写API来实现，当然也可以采用其他的音频转视频的技术来实现。

而在另一个具体的实施例中，若经过规整后的所述短时能量值不大于所述阈值，则判定所述待测语音数据为非异常情绪语音数据。

步骤103、基于预设的深度学习监督二分类异构神经网络模型对所述文本进行分析，以识别出所述疑似异常语音数据中的异常情绪语音数据与非异常情绪语音数据。

步骤103中的所述基于预设的深度学习监督二分类异构神经网络模型对所述文本进行分析，以识别出所述疑似异常语音数据中的异常情绪语音数据与非异常情绪语音数据，包括：

具体的，由于深度学习模型训练集参数的既定，无需联网的特点令本方案的技术可被运用到汽车的导航等中小型工程对象上。

具体的，所述复杂特征序列包括语音mel频谱与文本组合；

如图3所示，其中，mel频谱特征维数为80，文本序列特征为4350 维。这两种特征组合起来一起送入后续神经网络进行学习和训练，得到网络模型参数。深度学习监督二分类异构神经网络模型可以由3层的长短时记忆神经网络(LSTM)，6层时延神经网络(TDNN)，2层前馈神经网络与 softmax函数级联而成。网络目标为0,1二分类标签，0表示正常情绪，1 表示异常情绪。

在一个具体的实施例中，为了更好的进行应用，本方案的方法还包括：

当确定所述待测语音为异常情绪语音时，以第一标识进行可视化显示；

当确定所述待测语音为非异常情绪语音时，以第二标识进行可视化显示；其中，所述第一标识与所述第二标识不同；所述第一标识与所述第二标识两者均可自定义。

具体的，第一标识与第二标识可以为数字或者图形图像等来进行区别，例如第一标识可以为1，第二标识可以为0；再例如第一标识为红色色块，第二标识可以为白色色块等，具体的只要能有效进行区分即可，且具体的第一标识与第二标识可以用户自定义来设置。

具体的，本方案的技术通过构建“复杂特征序列”来训练一个多层次异构的深度神经网络，同时学习和挖掘语音中的声学和文本内容两个层次的信息来表征说话人的情绪，大大提高了语音情绪的识别率。在异常情绪检测阶段，首先对采集到的语音进行预检测，即通过能量特征粗分类，这样可大大减少深度神经网络的计算量，提高整个情绪检测***的响应速度。在多个垂类行业(客服、闲聊对话等)，负向(愤怒)情绪的识别准确率可达90％以上。最后由于深度学习模型训练集参数的既定，无需联网的特点令我们的技术可被运用到汽车的导航等中小型工程对象上。

实施例2

本发明实施例2还公开了一种基于语义分析的情绪识别设备，包括用于执行实施例1中所述方法的模块。具体的基于语义分析的情绪识别设备的实施例可以为例如电脑，平板电脑，智能手机等终端，此外，出于简要说明的目的，本发明实施例2中的其他相应特征请参见实施例1中的说明，此外，在一个实际的实施例中，以电脑为例，执行本发明的应用界面可以如图4-12所示；

在桌面上的***的图标，双击之后会弹出一个窗口，在这个窗口中需要输入用户名与密码，在输入用户名和密码之后点击登录。必须在用户名与密码正确的情况下才能通过认证进入***，使用***的各种功能。详情附如图4所示：必须在登录成功之后才能进入软件的主界面，登录成功就会提示进入主***，只有输入正确之后才能进入主界面，详情如附图5所示：在上一步登录成功之后就会进入软件的主界面，主界面包含多个核心功能，但是在第一次加载***的时候***会加载数据所以需要一定的时间，待加载完成后就会成功进入***。详情如附图6所示：

分层设置：分层设置界面主要包括四个功能，分别是分层设置，信号设置，属性设置，参数设置，点击不同的图标进入不同的界面。如图为分层设置界面，可以看到多个设置项，主要包括编号设置(每个顾客的接入会产生一个编号)，类别选择(初始默认“故障”)，类型选择(初始“默认故障”)，优先级选择(初始为0)，连接设置，消息变量，消息位等设置。详情附图7所示：

同步分析设置-同步监测：同步分析设置界面主要包括三个功能，分别是同步监测，分析参数，监测设置，点击不同的图标进入不同的界面。如附图8为同步监测界面，可以看到多个设置项，主要包括连接，压力(***承载)，数据流(客流量)，容量流，显示设置，外接矩形，中心等设置，附图9-10是***后端对顾客情绪实时判定的结果(接近1代表情绪稳定，接近0代表情绪异常)详情如下附图8-10所示：

设置管理-连接设置：设置管理界面主要包括三个功能，分别是安全设置，连接设置，数据初始，点击不同的图标进入不同的界面。如附图7为连接设置界面，可以看到打开关闭连接设置，主要包括端口号，波特率，脉冲等设置。详情如图11所示：

数据初始界面，可以看到数据初始化操作，主要包括警告信息，验证码录入，点击不同的按钮，进行不同的操作。详情如下附图12所示。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本发明的几个具体实施场景，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于语义分析的情绪识别方法，其特征在于，包括：

获取待测语音，并提取所述待测语音中的声学特征，其中，所述声学特征包括：短时能量值；

其中，所述基于所述声学特征判定所述待测语音为疑似异常语音，包括：将所述待测语音中短时能量值经过句子级别的规整之后，与预设的阈值进行比较；若经过规整后的所述短时能量值大于所述阈值，则判定所述待测语音数据为疑似异常语音数据；若经过规整后的所述短时能量值不大于所述阈值，则判定所述待测语音数据为非异常情绪语音数据；

基于预设的深度学习监督二分类异构神经网络模型对所述文本进行分析，以识别出所述疑似异常语音数据中的异常情绪语音数据与非异常情绪语音数据；

其中，所述基于预设的深度学习监督二分类异构神经网络模型对所述文本进行分析，以识别出所述疑似异常语音数据中的异常情绪语音数据与非异常情绪语音数据，包括：将所述文本与预设情绪文本数据库中的文本进行比对，以生成文本序列特征；将所述文本序列特征与所述文本对应的待测语音进行结合，以生成复杂特征序列；将所述复杂特征序列输入预设的深度学习监督二分类判定模块进行异常情绪检测，以识别出所述疑似异常语音中的异常情绪语音与非异常情绪语音。

2.如权利要求1所述的一种基于语义分析的情绪识别方法，其特征在于，所述复杂特征序列包括语音mel频谱与文本组合；

所述深度学习监督二分类异构神经网络模型由3层的LSTM、6层TDNN、2层前馈神经网络与softmax函数级联而成。

3.一种基于语义分析的情绪识别设备，其特征在于，包括用于执行权利要求1或2所述方法的模块。