CN110910901B

CN110910901B - 一种情绪识别方法及装置、电子设备和可读存储介质

Info

Publication number: CN110910901B
Application number: CN201910949733.2A
Authority: CN
Inventors: 方豪; 占小杰; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-08
Filing date: 2019-10-08
Publication date: 2023-03-28
Anticipated expiration: 2039-10-08
Also published as: CN110910901A; WO2021068843A1

Abstract

本发明属于数据识别和处理领域，提供了一种情绪识别方法、***和可读存储介质，其中方法包括：采集语音信号；将所述语音信号进行处理，得到语音识别信息和文本识别信息；将所述语音识别信息和文本识别信息进行语音情绪识别和文本情绪识别，得到语音情绪识别信息和文本情绪识别信息；根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到情绪信息。本发明通过对语音信号进行语音和文本的提取，进行情绪的识别，提高了情绪识别的准确率。通过对语音和文本信息的筛选，提高了处理的效率和准确率，为提高客户服务质量和对服务人员进行绩效考核的参考标准等起到了积极重要的作用。

Description

一种情绪识别方法及装置、电子设备和可读存储介质

技术领域

本发明属于数据识别和处理领域，更具体的，涉及一种情绪识别方法及装置、电子设备和可读存储介质。

背景技术

呼叫中心***是指一种利用现代通讯与计算机技术，自动灵活地处理大量各种不同的电话呼入/呼出业务来实现服务运营的操作***。随着经济发展，呼叫中心***中客服交互的业务量也越来越大，及时和有效的跟踪和监测客服通话中客服和客户的情绪状态，对于企业提升其服务质量具有重要的意义。目前，大多数企业主要依靠聘请专门的质检人员对通话录音进行抽样监听来实现这一目的，这一方面会给企业带来额外的成本，另一方面由于抽样覆盖范围的不确定性、以及人为判定含有的主观感情色彩，使得人工质检的效果存在一定的局限性。此外，质检人员只能在通话结束，获得录音以后对客服和客户的情绪表现进行事后的评价，而难以做到在通话进行当中去实时的监测客服和客户的情绪状态，当通话中客服或客户出现非常负面的情绪时，也无法及时有效的对客服人员进行提醒。

目前对客服电话中心中的对话语音进行负面情绪识别的产品或研究很少。现有的情绪识别产品大部分都是在语音或文本质量较好并且样本均衡的情况下，只从语音或者文本一方面进行情绪识别。而在实际的客服电话中心，大部分都面临语音质量较差并且样本极不平衡的问题，所以无法较好的识别出客服人员的情绪。与此同时，公司为了提高客户服务质量和对服务人员进行绩效考核，业务人员又比较关心类别较少的负面情绪识别是否正确。现有的大部分情绪识别产品不适合用于客服电话中心场景，因此设计一种能够提高情绪识别的方法是亟不可待的。

发明内容

为了解决上述至少一个技术问题，本发明提出了一种情绪识别方法及装置、电子设备和可读存储介质。

本发明第一方面提供了一种情绪识别方法，包括：

采集语音信号；

将所述语音信号进行处理，得到语音识别信息和文本识别信息；

将所述语音识别信息和文本识别信息进行语音情绪识别和文本情绪识别，得到语音情绪识别信息和文本情绪识别信息；

根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到所述语音信号的情绪信息。

在一个实施例中，所述将所述语音信号进行处理，得到语音识别信息，包括：

分割语音信号为多个子语音信息；

提取所述多个子语音信息的特征信息，每个子语音信息的特征信息组成所述子语音信息的特征信息总集合；

统计每个子语音信息中的特征信息，将所述特征信息与预设的多个特征统计量信息进行匹配；

记录与所述多个特征统计量信息匹配的每个子语音信息中的特征信息集合；

根据与所述多个特征统计量信息匹配的特征信息集合，及子语音信息的特征信息总集合，计算每个子语音信息的特征量匹配度；

将特征量匹配度大于预设特征量阈值的子语音信息确定为语音识别信息。

在一个实施例中，将所述语音识别信息进行语音情绪识别，具体为：

提取所述语音识别信息的特征信息；

将所述特征信息与预设的情绪训练模型进行匹配，得到每个不同情绪的概率值；

选取大于预设情绪阈值的概率值对应的情绪，作为所述语音信号的语音情绪识别信息。

在一个实施例中，还包括：

若存在多个大于预设情绪阈值的概率值；

则选取多个所述概率值的平均概率值所对应的情绪作为所述语音信号的语音情绪识别信息。

在一个实施例中，所述将文本识别信息进行文本情绪识别，包括：

对文本识别信息进行特征提取，生成多个特征向量；

将多个特征向量分别进行文本模型匹配，得到每个特征向量的分类结果；

将所述每个特征向量的分类结果进行取值；

根据所述取值计算所述文本识别信息对应的情绪值；

将与所述情绪值对应的情绪，作为所述语音信号的文本情绪识别信息。

在一个实施例中，所述对文本识别信息进行特征提取，生成多个特征向量，包括：

根据预先建立的关键词数量为N的关键词词典，针对文本识别信息，计算关键词词典中各个关键词对应的TF-IDF值；

根据各个关键词对应的TF-IDF值生成对应的特征向量。

在一个实施例中，所述根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到情绪信息，包括：

将所述语音情绪识别信息和文本情绪识别信息进行取值；

将对应取值进行相加，得到结果取值；

根据所述结果取值对应的范围，判定所述语音信号的情绪信息。

本发明第二方面提供了一种情绪识别装置，包括：

采集模块，用于采集语音信号；

处理模块，用于将所述语音信号进行处理，得到语音识别信息和文本识别信息；

识别模块，用于将所述语音识别信息和文本识别信息进行语音情绪识别和文本情绪识别，得到语音情绪识别信息和文本情绪识别信息；

计算模块，用于根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到所述语音信号的情绪信息。

本发明第三方面提供了一种电子设备，包括：存储器和处理器，所述存储器中包括情绪识别方法程序，所述情绪识别方法程序被所述处理器执行时实现如上所述的情绪识别方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括情绪识别方法程序，所述情绪识别方法程序被处理器执行时，实现如上所述的情绪识别方法的步骤。

本发明提供的情绪识别方法、***和可读存储介质，通过对语音信号进行语音和文本的提取，进行情绪的识别，提高了情绪识别的准确率。通过对语音和文本信息的筛选，提高了处理的效率和准确率。本发明为客服电话中心场景的负面情绪识别提供了具体有效的解决方案，为提高客户服务质量和对服务人员进行绩效考核的参考标准等起到了积极重要的作用。针对不同的应用场景，融合语音、文本情绪模型结果，达到了业务实际要求标准。

附图说明

图1示出了本发明一种情绪识别方法的流程图；

图2示出了本发明识别语音信息处理的流程图；

图3示出了本发明语音情绪识别的流程图；

图4示出了本发明文本情绪识别的流程图；

图5示出了本发明一种情绪识别***的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种情绪识别方法的流程图。

如图1所示，本发明公开了一种情绪识别方法，包括：

S102，采集语音信号；

S104，将所述语音信号进行处理，得到语音识别信息和文本识别信息；

S106，将所述语音识别信息和文本识别信息进行语音情绪识别和文本情绪识别，得到语音情绪识别信息和文本情绪识别信息；

S108，根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到所述语音信号的情绪信息。

需要说明的是，客服或坐席在通话的过程中，将实时采集其语音信号。采集语音信号可以采用抽样采集或者固定时间窗形势采集。例如，采用抽样采集时将通话过程中的第5-7秒、9-11秒等的通话进行语音采集；采用固定时间窗采集时将通话过程中的第10-25秒的通话进行语音采集。本领域技术人员可根据实际需要选择采集的方式，但任何采用本发明进行语音采集判断情绪的方法都将落入本发明保护范围中。

进一步的，在采集了语音信号之后，将语音信号进行处理，得到语音识别信息和文本识别信息。其中语音识别信息用于通过语音情绪识别的方式获取情绪信息，文本识别信息用于通过文本情绪识别的方式获取情绪信息。每种不同的识别方式得到的情绪信息可能并不相同，所以在最后需要将两者得到的情绪信息进行综合处理得到情绪信息。通过对两种识别结果的综合处理，可以保证情绪识别的准确性。

图2示出了本发明识别语音信息处理的流程图。根据本发明实施例，所述将所述语音信号进行处理，得到语音识别信息，包括：

S202，分割语音信号为多个子语音信息；

S204，提取所述多个子语音信息的特征信息，每个子语音信息的特征信息组成所述子语音信息的特征信息总集合；

S206，统计每个子语音信息中的特征信息，将所述特征信息与预设的多个特征统计量信息进行匹配；

S208，记录与所述多个特征统计量信息匹配的每个子语音信息中的特征信息集合；

S210，根据与所述多个特征统计量信息匹配的特征信息集合，及子语音信息的特征信息总集合，计算每个子语音信息的特征量匹配度；

S212，将特征量匹配度大于预设特征量阈值的子语音信息确定为语音识别信息。

需要说明的是，在采集到语音信号之后，将所述语音信号分为多个子语音信息，分割子语音信息可以是通过时间或者数量进行分配，也可以是通过其他规则进行。例如，将采集的15秒的语音信号分割为每段3秒的子语音信息，一共可分割为5段，采用时间顺序进行分割，即前3秒分割为一段，第3-6秒分割为一段，以此类推。

进一步的，在分割为多个子语音信息之后，则提取子语音信息的特征信息，并与预设的语音库中的多个特征统计量信息进行匹配。值得一提的是，在后台的数据库中预存储有语音特征统计量信息，所述的语音特征统计量信息为经过筛选确认后的更能反映出情绪的词汇或者语句信息，可以是通过经验和研究确认的资源。例如，在特征统计量信息中不包括一些无用词，例如，数字、数学字符、标点符号及使用频率特高的汉字等；特征统计量中可以包括使用频率较高且能反应出情绪特征的词汇或者短语，例如，你好、再见、没有等词汇，或者又如，还有事吗、先这样吧等类似短语。在与预设的多个特征统计量信息进行匹配之后，则计算每个子语音信息的特征量匹配度。需要说明的是，自语音信息中与预设的多个特征统计量重合多的，则匹配度高。将匹配度大于预设特征量阈值的子语音信息确定为识别语音信息。本领域技术人员可根据实际需要选择预设特征量阈值，例如，可以为0.5、0.7等，也就是说，在匹配度大于0.5时，则将此自语音信息选为识别语音信息。采用此步骤，可以将匹配度低的语音数据信息进行过滤，提高情绪识别的速度和效率。

图3示出了本发明语音情绪识别的流程图。如图3所示，根据本发明实施例，将所述语音识别信息进行语音情绪识别，具体为：

S302，提取所述语音识别信息的特征信息；

S304，将所述特征信息与情绪训练模型进行匹配，得到每个不同情绪的概率值；

S306，选取大于预设情绪阈值的概率值对应的情绪，得到语音信号的语音情绪识别信息。

需要说明的是，获取了语音识别信息之后，将提取其语音识别信息。情绪训练模型为来自语音情绪数据库(Berlin emotion database)，此语音数据库包含了生气(anger)、无聊(boredom)、厌恶(disgust)、害怕(fear)、开心(joy)、中性(neutral)和伤心(sadness)共七种情绪，并且此些语音信号是由多位专业演员各别演示上述七种情绪所对应的句子组成。值得注意的是，本发明并不加以限制所欲识别的情绪的种类，换句话说，在另一实施例中，语音数据库可还包括上述七种情绪以外的其他情绪。例如，在本发明范例实施例中，是从所录制的700句语句中选择较完整且较好的535句语句做为训练语音情绪分类模型的数据。

进一步的，在与情绪训练模型进行匹配之后，将得到每个不同情绪的概率值，选取大于预设情绪阈值的概率值作为对应的情绪。预设情绪阈值的概率值为本领域技术人员可根据实际需要和经验设定的，例如，可以设定所述概率值为70％，则将大于70％的情绪确定为最终的情绪识别信息。

在本发明实施例中，还包括：

若存在多个大于预设情绪阈值的概率值；

值得一提的是，若存在多个情绪大于所述概率值，例如，生气概率值80％，厌恶概率值为75％，其均大于70％的阈值，则选择概率值最大的作为最终的情绪。本发明并未限制通过概率值选取情绪的具体实现方法，也就是说，在其他的实施例中，可以选择其他的方式进行概率值情绪识别，例如，选取多个子语音信息识别出来的情绪概率值，进行求平均计算，则概率最高的确定为最终的情绪。

图4示意性示出了文本情绪识别的流程图。如图4所示，根据本发明实施例，所述将文本识别信息进行文本情绪识别，包括：

S402，对文本识别信息进行特征提取，生成多个特征向量；

S404，将多个特征向量分别进行文本模型匹配，得到每个特征向量的分类结果；

S406，将所述每个特征向量的分类结果进行取值；

S408，根据所述取值计算所述文本识别信息对应的情绪值；

S410，将与所述情绪值对应的情绪，作为所述语音信号的文本情绪识别信息。

需要说明的是，所述对文本识别信息进行特征提取，生成多个特征向量，包括：根据预先建立的关键词数量为N的关键词词典，针对文本识别信息，计算关键词词典中各个关键词对应的TF-IDF值；根据各个关键词对应的TF-IDF值生成对应的特征向量。

这里所说的关键词词典是针对上述被测文本集进行提取的，通过提取关键词能够大幅度减少特征向量的维度，从而提高情绪分类的效率。其中，特征向量的维度为N，特征向量的各个维度上的分量为关键词词典中各个关键词对应的TF-IDF值。

需要说明的是，文本模型为预先训练文本模型，将每个特征向量输入至文本模型后，将得到对应的分类结果。每个特征向量可能会得出不同的分类结果，将不同的分类结果赋予情绪值，然后按照预设的算法将每个情绪值进行加权计算，得到最终的情绪信息。所述的预设的算法可以是根据每个不同的关键词设置对应的加权系数，每个关键词对应的特征向量也和上述的加权系数相等。例如，关键词“你好”对应的加权系数为0.2，关键词“再见”的加权系数为0.1，则在最后计算情绪信息时，将对应的情绪值乘以对应的加权系数再进行相加，得到最后的情绪值，则此情绪值会对应一个情绪。本领域技术人员还可以根据实际需要实时调整权重值，从而提高情绪识别的精确度。

根据本发明实施例，所述根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到情绪信息，包括：

将所述语音情绪识别信息和文本情绪识别信息进行取值；

将对应取值进行相加，得到结果取值；

需要说明的是，在获取了语音情绪识别信息和文本情绪识别信息之后，将根据上述信息分别赋予情绪值，并且将其取值进行相加，得到结果取值。其取值范围，可以是本领域技术人员根据实际需要设定的，每个值落入相应的取值范围中，则判定为相应的情绪。例如，可以将情绪识别信息确定为正面情绪、中立情绪和负面情绪，其情绪值分别为+1、0、-1。若语音情绪识别为正面情绪，则取值为+1，文本情绪识别为负面情绪，则取值为-1，两者相加之后取值为0，所以将其判定为中立情绪。若语音情绪识别为正面情绪，则取值为+1，文本情绪识别为正面情绪，则取值为+1，两者相加之后取值为+2，大于0，则将其判定为正面情绪。

需要说明的是，本实施例中的情绪训练模型可以为本领域的惯用情绪训练模型，如情绪训练模型可以采用TensorFlow进行训练，或者采用RNN等算法进行模型训练。

图5示出了本发明一种情绪识别***的框图。

如图5所示，本发明第二方面提供了一种情绪识别***，该***包括：存储器51、处理器52，所述存储器中包括情绪识别方法程序，所述情绪识别方法程序被所述处理器执行时实现如下步骤：

采集语音信号；

根据本发明实施例，所述将所述语音信号进行处理，得到语音识别信息，包括：

分割语音信号为多个子语音信息；

根据本发明实施例，将所述语音识别信息进行语音情绪识别，具体为：

提取所述语音识别信息的特征信息；

在本发明实施例中，还包括：

若存在多个大于预设情绪阈值的情绪；

根据本发明实施例，所述将文本识别信息进行文本情绪识别，包括：

对文本识别信息进行特征提取，生成多个特征向量；

将所述每个特征向量的分类结果进行取值；

根据所述取值计算所述文本识别信息对应的情绪值；

需要说明的是，所述对文本识别信息进行特征提取，生成多个特征向量，包括：

根据各个关键词对应的TF-IDF值生成对应的特征向量。

将所述语音情绪识别信息和文本情绪识别信息进行取值；

将对应取值进行相加，得到结果取值；

根据所述结果取值对应的范围，判定情绪信息。

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括情绪识别方法程序，所述情绪识别方法程序被处理器执行时，实现如上述任一项所述的一种情绪识别方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种情绪识别方法，其特征在于，包括：采集语音信号；将所述语音信号进行处理，得到语音识别信息和文本识别信息；将所述语音识别信息和文本识别信息进行语音情绪识别和文本情绪识别，得到语音情绪识别信息和文本情绪识别信息；根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到所述语音信号的情绪信息，

所述将所述语音信号进行处理，得到语音识别信息，包括：分割语音信号为多个子语音信息；提取所述多个子语音信息的特征信息，每个子语音信息的特征信息组成所述子语音信息的特征信息总集合；统计每个子语音信息中的特征信息，将所述特征信息与预设的多个特征统计量信息进行匹配；记录与所述多个特征统计量信息匹配的每个子语音信息中的特征信息集合；根据与所述多个特征统计量信息匹配的特征信息集合，及子语音信息的特征信息总集合，计算每个子语音信息的特征量匹配度；将特征量匹配度大于预设特征量阈值的子语音信息确定为语音识别信息，

其中，特征统计量中包括使用频率高且反应出情绪特征的词汇或短语。

2.根据权利要求1所述的一种情绪识别方法，其特征在于，将所述语音识别信息进行语音情绪识别，具体为：提取所述语音识别信息的特征信息；将所述特征信息与预设的情绪训练模型进行匹配，得到每个不同情绪的概率值；选取大于预设情绪阈值的概率值对应的情绪，作为所述语音信号的语音情绪识别信息。

3.根据权利要求2所述的一种情绪识别方法，其特征在于，还包括：若存在多个大于预设情绪阈值的概率值；则选取多个所述概率值的平均概率值所对应的情绪作为所述语音信号的语音情绪识别信息。

4.根据权利要求1所述的一种情绪识别方法，其特征在于，所述将文本识别信息进行文本情绪识别，包括：对文本识别信息进行特征提取，生成多个特征向量；将多个特征向量分别进行文本模型匹配，得到每个特征向量的分类结果；将所述每个特征向量的分类结果进行取值；根据所述取值计算所述文本识别信息对应的情绪值；将与所述情绪值对应的情绪，作为所述语音信号的文本情绪识别信息。

5.根据权利要求4所述的一种情绪识别方法，其特征在于，所述对文本识别信息进行特征提取，生成多个特征向量，包括：根据预先建立的关键词数量为N的关键词词典，针对文本识别信息，计算关键词词典中各个关键词对应的TF-IDF值；根据各个关键词对应的TF-IDF值生成对应的特征向量。

6.根据权利要求1所述的一种情绪识别方法，其特征在于，所述根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到情绪信息，包括：将所述语音情绪识别信息和文本情绪识别信息进行取值；将对应取值进行相加，得到结果取值；根据所述结果取值对应的范围，判定所述语音信号的情绪信息。

7.一种情绪识别装置，其特征在于，包括：采集模块，用于采集语音信号；处理模块，用于将所述语音信号进行处理，得到语音识别信息和文本识别信息；识别模块，用于将所述语音识别信息和文本识别信息进行语音情绪识别和文本情绪识别，得到语音情绪识别信息和文本情绪识别信息；计算模块，用于根据预设计算规则，将所述语音情绪识别信息和文本情绪识别信息进行计算，得到所述语音信号的情绪信息，

其中，所述将所述语音信号进行处理，得到语音识别信息，包括：分割语音信号为多个子语音信息；提取所述多个子语音信息的特征信息，每个子语音信息的特征信息组成所述子语音信息的特征信息总集合；统计每个子语音信息中的特征信息，将所述特征信息与预设的多个特征统计量信息进行匹配；记录与所述多个特征统计量信息匹配的每个子语音信息中的特征信息集合；根据与所述多个特征统计量信息匹配的特征信息集合，及子语音信息的特征信息总集合，计算每个子语音信息的特征量匹配度；将特征量匹配度大于预设特征量阈值的子语音信息确定为语音识别信息。

8.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器中包括情绪识别方法程序，所述情绪识别方法程序被所述处理器执行时实现如权利要求1至6中任一项所述的情绪识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括情绪识别方法程序，所述情绪识别方法程序被处理器执行时，实现如权利要求1至6中任一项所述的情绪识别方法的步骤。