CN110580899A

CN110580899A - 语音识别方法及装置、存储介质、计算设备

Info

Publication number: CN110580899A
Application number: CN201910967019.6A
Authority: CN
Inventors: 李君浩; 邹婷婷; 顾少丰
Original assignee: Shanghai Lake Information Technology Co Ltd
Current assignee: Shanghai Lake Information Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2019-12-17

Abstract

一种语音识别方法及装置、存储介质、计算设备，所述语音识别方法包括：从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；基于所述情绪得分判断所述待检测语音数据是否具有违规风险。本发明提供的技术方案可以高效、准确地完成语音数据的检测，提高违规语音检出率。

Description

语音识别方法及装置、存储介质、计算设备

技术领域

本发明涉及语音检测技术领域，具体地涉及一种语音识别方法及装置、存储介质、计算设备。

背景技术

随着通信技术的发展，呼叫中心每天都会产生海量的电话录音文件。在开展对话内容质检工作时，传统质检方法可以采用人工抽查方式，随机抽查少量电话录音文件，以判断客服人员的对话内容是否违规。但是，传统质检方法效率较低，无法逐个排查每一电话录音文件，难以及时通过录音文件发现客服人员的工作质量。

发明内容

本发明解决的技术问题是如何高效、准确识别违规语音。

为解决上述技术问题，本发明实施例提供一种语音识别方法，包括：从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；基于所述情绪得分判断所述待检测语音数据是否具有违规风险。

可选的，所述基于所述情绪得分判断所述待检测语音数据是否具有违规风险包括：当所述情绪得分高于预设阈值时，确定所述待检测语音数据具有违规风险。

可选的，所述语音识别方法还包括：对具有违规风险的待检测语音数据做标记。

可选的，所述基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型包括：基于所述情绪特征向量和所述文本数据，采用神经网络算法训练得到所述情绪检测模型。

可选的，所述基于所述特征向量和所述文本数据，训练得到情绪检测模型包括：基于所述情绪特征向量和所述文本数据，采用逻辑回归算法训练得到所述情绪检测模型。

可选的，所述情绪特征向量用于表示情绪类型，所述情绪类型选自：高兴、悲伤、愤怒、害怕、厌恶。

可选的，所述将所述一组语音数据转换为文本数据包括：采用语音转文本技术，将所述语音数据转换为所述文本数据。

可选的，所述语音数据包括第一角色的语音数据和第二角色的语音数据，所述从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据包括：对所述一组语音数据中的第一角色的语音数据和第二角色的语音数据进行区分，以得到所述第一角色的语音数据和第二角色的语音数据；提取所述第一角色的语音数据和第二角色的语音数据各自的情绪特征向量，并将所述第一角色的语音数据和第二角色的语音数据各自转换为文本数据。

为解决上述技术问题，本发明实施例还提供一种语音识别装置，包括：提取模块，用于从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；训练模块，基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；计算模块，基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；判断模块，基于所述情绪得分判断所述待检测语音数据是否具有违规风险。

为解决上述技术问题，本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述方法的步骤。

为解决上述技术问题，本发明实施例还提供一种计算设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种语音识别方法，包括：从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；基于所述情绪得分判断所述待检测语音数据是否具有违规风险。本发明实施例通过将语音数据提取的情绪特征向量和文本数据作为输入数据，训练得到情绪检测模型。由于存在大量的语音数据可以作为训练模型的输入数据，因而可以发挥统计优势，通过训练方法得到准确度很高的情绪检测模型。基于该准确度很高的情绪检测模型确定待检测语音数据，可以更加高效、准确地完成语音数据的检测，提高违规语音检出率。进一步，本发明实施例适用于海量语音检测，可以扩展语音检测场景。

进一步，所述基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型包括：基于所述情绪特征向量和所述文本数据，采用神经网络算法训练得到所述情绪检测模型。本发明实施例采用神经网络模型作为所述情绪检测模型，可以借助神经网络的优势，训练出准确度较高的情绪检测模型，进一步有利于提高违规语音检出率。

附图说明

图1是本发明实施例的一种语音识别方法的流程示意图；

图2是本发明实施例的一种典型场景下的语音识别方法的流程示意图；

图3是本发明实施例的一种语音识别方法的流程示意图。

具体实施方式

如背景技术所言，现有技术采用人工抽检方式查找违规语音，效率低。

本申请发明人经研究发现，现有技术中，还可以采用如下步骤确定语音数据是否是违规语音：首先，将待检测语音数据转换为文本数据，并提取所述待检测语音数据的情绪特征向量；其次，根据情绪特征向量确定语音特征，并查找转换得到的文本数据中是否包含预设关键字；之后，结合所述语音特征和预设关键字，综合确定所述音频数据是否为违规语音数据。

然而，采用现有技术方案分析海量电话录音文件中的每一电话录音，无法获取统计违规语音数据的共性信息，准确度低。

本发明实施例提供一种语音识别方法，包括：从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；基于所述情绪得分判断所述待检测语音数据是否具有违规风险。

本发明实施例通过将语音数据提取的情绪特征向量和文本数据作为输入数据，训练得到情绪检测模型。由于存在大量的语音数据可以作为训练模型的输入数据，因而可以发挥统计优势，通过训练方法得到准确度很高的情绪检测模型。基于该准确度很高的情绪检测模型确定待检测语音数据，可以更加高效、准确地完成语音数据的检测，提高违规语音检出率。进一步，本发明实施例适用于海量语音检测，可以扩展语音检测场景。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例的一种语音识别方法的流程示意图。所述语音识别方法可以由计算设备，例如服务器、个人终端等执行。

具体而言，所述语音识别方法可以包括以下步骤：

步骤S101，从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；

步骤S102，基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；

步骤S103，基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；

步骤S104，基于所述情绪得分判断所述待检测语音数据是否具有违规风险。

更具体而言，可以将呼叫中心的每一录音文件作为一份语音数据，从而得到海量的语音数据。

在步骤S101中，可以将海量语音数据的至少一部分作为一组语音数据。从所述一组语音数据中，提取每一语音数据的情绪特征向量，进而可以得到多个情绪特征向量。

其中，所述情绪特征向量可以用于表示或描述情绪类型，所述情绪类型可以为高兴(happiness)、悲伤(sadness)、愤怒(anger)、害怕(fear)、厌恶(disgust)。

本领域技术人员理解，通常情况下，每一语音数据可以包含多个角色输出的语音。例如，以呼叫中心记录的语音录音为例，通常会包含两个角色输出的语音，例如，客服人员和客户人员各自输出的语音。

以语音数据包括两个角色的语音数据为例，所述语音数据可以包括第一角色的语音数据和第二角色的语音数据。此时，可以首先区分第一角色的语音数据和第二角色的语音数据，以得到所述第一角色的语音数据和第二角色的语音数据。

在具体实施中，为评价记录的语音数据中，可以事先区分客服人员和客户人员的语音数据。例如，客服人员通过第一频率输出语音数据，客户人员通过第二频率输出数据，第二频率不同于第一频率。又例如，可以通过关键字或不同角色的常用语言进行区分。

之后，可以分别提取所述第一角色的语音数据和第二角色的语音数据各自的情绪特征向量。

进一步，可以将每一语音数据转换为文本数据。在一个实施例中，可以采用自动语音识别(Automatic Speech Recognition，简称ASR)技术，将每一语音数据转换为文本数据，进而可以得到多个文本数据。

以所述语音数据包括第一角色的语音数据和第二角色的语音数据为例。在具体实施中，可以事先区分所述第一角色的语音数据和第二角色的语音数据。之后，分别将所述第一角色的语音数据和第二角色的语音数据转换为文本数据。

在步骤S102中，可以对所述多个情绪特征向量以及多个文本数据进行训练，从而得到情绪检测模型。将待检测的语音数据作为所述情绪检测模型的输入，可以输出该待检测的语音数据的情绪得分。

在一个实施例中，可以基于所述情绪特征向量和所述文本数据，利用神经网络算法训练得到所述情绪检测模型。优选地，所述神经网络算法可以采用长短期记忆网络(LongShort-Term Memory，简称LSTM)算法。LSTM是一种时间循环神经网络。

在另一个实施例中，可以将所述特征向量和所述文本数据作为逻辑回归(Logistic Regression，简称LR)算法的输入数据，训练得到所述情绪检测模型。

在具体实施中，可以将各个角色的语音数据和文本数据一并输入至所述情绪检测模型，以训练所述情绪检测模型。例如，为每一角色的语音数据和文本数据做标记，以便区分不同角色的语音数据和文本数据。

在步骤S103中，基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分。其中，所述待检测语音数据可以是预设时间段内的语音数据，也可以是记录的语音文件。将所述待检测语音数据输入所述情绪检测模型，通过所述情绪检测模型计算出所述待检测语音数据的情绪得分。

在一个实施例中，所述待检测语音数据为语音文件，该语音文件包括第一角色的语音数据和第二角色的语音数据。假设第一角色的语音数据为客服人员的语音数据，第二角色的语音数据为客户人员的语音数据。在为语音文件区分并标记之后，可以将所述语音文件输入至所述情绪检测模型，所述情绪检测模型输出的情绪得分为第一角色(例如客服人员)的情绪得分。

需要说明的是，所述第二角色的语音数据有利于所述情绪检测模型计算所述第一角色的情绪得分。

在步骤S104中，可以基于所述情绪得分判断所述待检测语音数据是否具有违规风险。以呼叫中心的客服人员为例，所述违规可以指的是客服人员在与客户人员通话过程中，出现挑衅、辱骂等语言。

在具体实施中，可以通过所述情绪检测模型可以设置预设阈值，利用所述预设阈值判断待检测语音数据是否具有违规风险。

如果所述情绪得分不高于所述预设阈值，那么可以确定所述待检测语音数据没有违规风险。

如果所述情绪得分高于所述预设阈值，那么可以确定所述待检测语音数据具有违规风险。进一步，可以对具有违规风险的待检测语音数据打标签。

在实际应用中，可以进一步采用人工方式确认具有标签的语音数据，以复核所述语音数据。

图2是本发明实施例的一种典型场景下的语音识别方法的流程示意图。如图2所示，在一个典型场景中，可以将呼叫中心记录的录音文件作为语音数据，得到情绪检测模型后，利用该情绪检测模型判断录音文件是否具有违规风险。

具体而言，首先，可以执行操作S201，获取语音数据，例如，获取呼叫中心的录音文件。

其次，可以执行操作S202，将语音数据转化为文本数据。具体而言，可以利用ASR技术，得到每一录音文件对应的文本内容，并且区分客服人员和客户人员两种对话角色。

再次，可以执行操作S203，从语音数据中提取情绪特征向量。具体而言，可以使用现有技术中的声学情绪模型得出情绪特征向量，判断两种对话角色的情绪属于开心，伤心，愤怒，害怕，中性，五种情绪中的哪一种，并输出对应的情绪特征向量。

进一步，可以执行操作S204，训练情绪检测模型。具体而言，可以结合文本内容和情绪特征向量作为所述情绪检测模型的输入，利用神经网络算法或逻辑回归算法训练得到所述情绪检测模型。

之后，可以执行操作S205和操作S206，输入待检测的语音文件至所述情绪检测模型，计算情绪得分。具体而言，将待检测的语音文件输入至所述情绪检测模型，并输出情绪得分。

进一步，如果所述情绪检测模型输出的情绪得分超过预设阈值，那么可以将该录音文件打上标签(图未示)。

进一步，可以将打上标签的录音再提供给人工做进一步确认。所述预设阈值可以根据复核人力情况，以及准确率相关指标综合判定(图未示)。

由上，本发明实施例充分利用海量语音数据进行训练，从而得到准确度更高的训练模型(即情绪检测模型)，该训练模型适用于海量语音检测，可以高效、准确地完成语音数据的检测，提高违规语音检出率。

图3是本发明实施例的一种语音识别装置的结构示意图。所述语音识别装置3可以实施图1和图2所示方法技术方案，由计算设备执行。

具体而言，所述语音识别装置3可以包括：提取模块31，用于从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；训练模块32，基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；计算模块33，基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；判断模块34，基于所述情绪得分判断所述待检测语音数据是否具有违规风险。

在具体实施中，所述判断模块34可以包括：确定子模块341，用于当所述情绪得分高于预设阈值时，确定所述待检测语音数据具有违规风险。

在具体实施中，所述语音识别装置3还可以包括：标记模块35，用于对具有违规风险的待检测语音数据做标记。

在一个实施例中，所述训练模块32可以包括：第一训练子模块321，基于所述情绪特征向量和所述文本数据，采用神经网络算法训练得到所述情绪检测模型。

在另一个实施例中，所述训练模块32可以包括：第二训练子模块322，基于所述特征向量和所述文本数据，采用逻辑回归算法训练得到所述情绪检测模型。

在具体实施中，所述情绪特征向量可以用于表示情绪类型，所述情绪类型可以选自：高兴、悲伤、愤怒、害怕、厌恶。

在具体实施中，所述提取模块31可以包括：转换子模块311，用于采用语音转文本技术，将所述语音数据转换为所述文本数据。

在具体实施中，所述语音数据可以包括第一角色的语音数据和第二角色的语音数据，所述提取模块31可以包括：区分子模块312，用于对所述一组语音数据中的第一角色的语音数据和第二角色的语音数据进行区分，以得到所述第一角色的语音数据和第二角色的语音数据；提取子模块313，用于提取所述第一角色的语音数据和第二角色的语音数据各自的情绪特征向量，并将所述第一角色的语音数据和第二角色的语音数据各自转换为文本数据。

关于所述语音识别装置3的工作原理、工作方式的更多内容，可以一并参照上述图1和图2中的相关描述，这里不再赘述。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述图1和图2所示实施例中所述方法技术方案。优选地，所述存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。所述存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开一种计算设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述图1和图2所示实施例中所述的方法技术方案。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；

基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；

基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；

基于所述情绪得分判断所述待检测语音数据是否具有违规风险。

2.根据权利要求1所述的语音识别方法，其特征在于，所述基于所述情绪得分判断所述待检测语音数据是否具有违规风险包括：

当所述情绪得分高于预设阈值时，确定所述待检测语音数据具有违规风险。

3.根据权利要求2所述的语音识别方法，其特征在于，还包括：

对具有违规风险的待检测语音数据做标记。

4.根据权利要求1至3任一项所述的语音识别方法，其特征在于，所述基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型包括：

基于所述情绪特征向量和所述文本数据，采用神经网络算法训练得到所述情绪检测模型。

5.根据权利要求1至3任一项所述的语音识别方法，其特征在于，所述基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型包括：

基于所述特征向量和所述文本数据，采用逻辑回归算法训练得到所述情绪检测模型。

6.根据权利要求1至3任一项所述的语音识别方法，其特征在于，所述情绪特征向量用于表示情绪类型，所述情绪类型选自：高兴、悲伤、愤怒、害怕、厌恶。

7.根据权利要求1至3任一项所述的语音识别方法，其特征在于，所述将所述一组语音数据转换为文本数据包括：

采用语音转文本技术，将所述语音数据转换为所述文本数据。

8.根据权利要求1至3任一项所述的语音识别方法，其特征在于，所述语音数据包括第一角色的语音数据和第二角色的语音数据，所述从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据包括：

对所述一组语音数据中的第一角色的语音数据和第二角色的语音数据进行区分，以得到所述第一角色的语音数据和第二角色的语音数据；

提取所述第一角色的语音数据和第二角色的语音数据各自的情绪特征向量，并将所述第一角色的语音数据和第二角色的语音数据各自转换为文本数据。

9.一种语音识别装置，其特征在于，包括：

提取模块，用于从一组语音数据中提取情绪特征向量，并将所述一组语音数据转换为文本数据；

训练模块，基于所述情绪特征向量和所述文本数据，训练得到情绪检测模型，所述情绪检测模型用于计算情绪得分；

计算模块，基于待检测语音数据和所述情绪检测模型，计算所述待检测语音数据的情绪得分；

判断模块，基于所述情绪得分判断所述待检测语音数据是否具有违规风险。

10.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至8任一项所述的方法的步骤。

11.一种计算设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至8任一项所述的方法的步骤。