CN111883133A

CN111883133A - 客服语音识别方法、装置、服务器及存储介质

Info

Publication number: CN111883133A
Application number: CN202010699013.8A
Authority: CN
Inventors: 顾晓雪; 谢翀
Original assignee: Shenzhen Lexin Software Technology Co Ltd
Current assignee: Shenzhen Lexin Software Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-03
Anticipated expiration: 2040-07-20
Also published as: CN111883133B

Abstract

本发明实施例公开了一种客服语音识别方法、装置、服务器及存储介质，所述方法包括：对待识别音频数据进行端点检测，以获取多个单句音频数据；通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据，所述预设声学模型基于客服语音数据构建；通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据，所述预设语言模型基于线上客服文本数据构建。本发明实施例通过将基于客服语音数据构建的预设声学模型与基于线上客服文本数据构建的语言模型相结合，提高了客服语音识别的精确度。

Description

客服语音识别方法、装置、服务器及存储介质

技术领域

本发明实施例涉及电子商务技术领域，尤其涉及一种客服语音识别方法、装置、服务器及存储介质。

背景技术

随着电子商务的发展，电子商务客服的服务质量问题已越来越受重视。对语音客服的服务质量问题进行评判时，通常先将语音客服的音频数据通过语音识别转换成文本数据，再对本文数据进行分析，评判服务质量。

目前大多采用语音识别模型将音频数据转换成文本数据，例如高斯混合隐马尔可夫模型、深度学习模型等。这些模型通常采用语音客服的音频数据进行训练，然而客服人员在提供服务时，吐字不清晰、语义表达不准确等情况时有发生，这就导致训练得到的模型存在错别字率高、角色识别不明确等问题，从而使得模型的识别精确度降低。

发明内容

本发明实施例提供一种客服语音识别方法、装置、服务器及存储介质，以提高客服语音识别的精确度。

第一方面，本发明实施例提供一种客服语音识别方法，包括：

对待识别音频数据进行端点检测，以获取多个单句音频数据；

通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据，所述预设声学模型基于客服语音数据构建；

通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据，所述预设语言模型基于线上客服文本数据构建。

进一步的，所述通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据之前，还包括：

通过预设性别分类模型确定每个单句音频数据的角色性别。

进一步的，所述通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据包括：

若所有单句音频数据的角色性别都相同，则通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据。

进一步的，所述通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据之后，还包括：

通过预设角色分类模型确定每个第二文本数据的角色身份，所述预设角色分类模型基于线上客服文本数据构建。

进一步的，所述通过预设性别分类模型确定每个单句音频数据的角色性别之后，还包括：

若并非所有单句音频数据的角色性别都相同，则获取所述待识别音频数据对应的客服人员性别；

若单句音频数据的角色性别与所述客服人员性别相同，则确定所述单句音频数据的角色身份为客服人员；

若单句音频数据的角色性别与所述客服人员性别不同，则确定所述单句音频数据的角色身份为用户。

通过预设声学模型确定已经确定角色身份的所述多个单句音频数据对应的多个第一文本数据。

提取所述多个单句音频数据对应的多个单句音频特征；

将所述多个单句音频特征输入预设声学模型，得到多个第一文本数据。

第二方面，本发明实施例提供一种客服语音识别装置，包括：

端点检测模块，用于对待识别音频数据进行端点检测，以获取多个单句音频数据；

第一文本数据确定模块，用于通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据，所述预设声学模型基于客服语音数据构建；

第二文本数据确定模块，用于通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据，所述预设语言模型基于线上客服文本数据构建。

第三方面，本发明实施例提供一种服务器，包括：

一个或至少一个处理器；

存储装置，用于存储一个或至少一个程序，

当所述一个或至少一个程序被所述一个或至少一个处理器执行，使得所述一个或至少一个处理器实现本发明任意实施例提供的客服语音识别方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的客服语音识别方法。

本发明实施例通过将基于客服语音数据构建的预设声学模型与基于线上客服文本数据构建的语言模型相结合，提高了客服语音识别的精确度。

附图说明

图1为本发明实施例一提供的一种客服语音识别方法的流程示意图；

图2为本发明实施例二提供的一种客服语音识别方法的流程示意图；

图3为本发明实施例三提供的一种客服语音识别装置的结构示意图；

图4为本发明实施例四提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”、“批量”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

实施例一

图1为本发明实施例一提供的一种客服语音识别方法的流程示意图，本实施例可适用于电子商务领域的客服语音识别。如图1所示，本发明实施例一提供的客服语音识别方法包括：

S110、对待识别音频数据进行端点检测，以获取多个单句音频数据。

具体的，待识别音频数据为客服人员(简称客服)提供语音服务时所保存的完整的音频数据，其中包括客服人员的音频数据和用户的音频数据。端点检测就是确定一句语音的起始点和结束点。通过端点检测，就可以将一个完整的待识别音频数据中的单个语音句子划分出来，即形成多个单句音频数据。端点检测方法可以为基于短时能量和短时平均过零率的检测方法、基于道普频率的检测方法、基于信息熵的检测方法或其他端点检测方法，本发明实施例对具体的端点检测方法不做限制。

S120、通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据，所述预设声学模型基于客服语音数据构建。

具体的，预设声学模型是用于将语音数据转换成对应的文本数据的模型，其是一个端到端的深度学***台已有的客服语音数据，客服语音数据是指客服人员与用户进行语音沟通的数据，例如，客服人员与用户之间进行电话沟通的语音数据。进一步的，预设声学模型的训练数据还包括AISHELL中文语音数据集、MAGICDATA普通话中文阅读语音语料、THCHS30清华中文语音数据集。单句音频数据经预设声学模型转换后得到的文本数据即第一文本数据，每一个单句音频数据都对应一个第一文本数据。

进一步的，通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据具体包括：提取所述多个单句音频数据对应的多个单句音频特征；将所述多个单句音频特征输入预设声学模型，得到多个第一文本数据。具体的，首先对单句音频数据进行声音特征的提取，得到对应的单句音频特征，然后将单句音频特征输入到预设声学模型进行语音识别，最后通过预设声学模型输出语音识别结果，也即单句音频特征对应的第一文本数据。

进一步的，本发明实施例采用滤波器组(filter bank)的方式进行声音特征提取，可以简化特征提取的复杂度。首先对单句音频数据进行DFT变换(Discrete FourierTransform，离散傅立叶变换)，将单句音频数据转化为频谱数据，然后通过梅尔滤波器组提取特征，最后对提取的特征执行取对数(logarithm，log)操作，得到Fbank特征，也即单句音频特征。

S130、通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据，所述预设语言模型基于线上客服文本数据构建。

具体的，预设语言模型用于对第一文本数据进行进一步分析，以确定第一文本数据最终要表达的正确文本数据，即对应的第二文本数据。预设语言模型基于线上客服文本数据构建，是指预设语言模型的训练数据为电商平台现有的线上客服文本数据，例如，采用线上客服文本数据对统计语言模型kenlm进行训练，得到预设语言模型。线上客服文本数据是指客服人员与用户通过网络进行文字沟通的数据，例如，线上店铺的在线客服与用户的聊天数据。线上客服文本数据具有文字表达清晰、错字率低、对话双方角色身份明确等特点，通过线上客服文本数据构建预设语言模型，使得预设语言模型输出的第二文本数据相较于第一文本数据，能够更加准确的描述单句音频数据所要表达的实际话语。

简单来说，预设语言模型相当于一个纠错模型。将第一文本数据输入到预设语言模型中，预设语言模型对第一文本数据中表达有误或不清晰的地方进行处理，输出正确的文本数据，即第二文本数据。例如，单句音频数据表示为“huaweichangxiangwues”，经预设声学模型转换后，对应的第一文本数据表示为“华为畅享我爱思”，将第一文本数据“华为畅享我爱思”输入预设语言模型，得到对应的第二文本数据为“华为畅享5s”。

本发明实施例一提供的客服语音识别方法通过基于客服语音数据构建的预设声学模型与基于线上客服文本数据构建的语言模型相结合，提高了客服语音识别的精确度。

实施例二

图2为本发明实施例二提供的一种客服语音识别方法的流程示意图，本实施例是对上述实施例的进一步细化。

S210、对待识别音频数据进行端点检测，以获取多个单句音频数据。

S220、通过预设性别分类模型确定每个单句音频数据的角色性别。

具体的，单句音频数据的角色性别是指单句音频数据中的发言人员的性别。预设性别分类模型用于识别单句音频数据的角色性别，确定单句音频数据中的发言人员的性别是男性还是女性。根据预设性别分类模型的识别结果，若所有单句音频数据的角色性别都相同，如所有单句音频数据的角色性别都为女性，或所有单句音频数据的角色性别都为男性，则执行步骤S230～S232。若并非所有单句音频数据的角色性别都相同，也即，多个单句音频数据的角色性别即包括女性又包括男性，则执行步骤S240～S244。

S230、若所有单句音频数据的角色性别都相同，则通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据，所述预设声学模型基于客服语音数据构建。

具体的，预设声学模型是用于将语音数据转换成对应的文本数据的模型。预设声学模型基于客服语音数据构建，是指预设声学模型的训练数据包括电商平台已有的客服语音数据，客服语音数据是指客服人员与用户进行语音沟通的数据，例如，客服人员与用户之间进行电话沟通的语音数据。进一步的，预设声学模型的训练数据还包括AISHELL中文语音数据集、MAGICDATA普通话中文阅读语音语料、THCHS30清华中文语音数据集。单句音频数据经预设声学模型转换后得到的文本数据即第一文本数据，每一个单句音频数据都对应一个第一文本数据。

进一步的，预设声学模型为一个端到端的语音识别模型，其将单句音频数据的单句音频特征转化为对应的第一文本数据，主要包括三个阶段：编码阶段、注意力阶段和解码阶段。

在编码(Encoder)阶段，输入数据为提取的单句音频特征X(x₁,x…x_t)，输入数据经过两层BLSTM(Bidirectional Long Short Temporal Memory，双向长短期记忆)神经网络，网络输出数据为H’(h’₁,h’₂…h’_m)。在实际的音频数据中，相邻的音速和音素往往表示相同或相似的发音，为减少模型的数据量，对BLSTM的输出数据进行降采样(Down Sampling)，将相邻两个网络输出数据相加后得到最终输出数据H(h₁,h₂…h_t)。这样可以解决模型训练性能复发提升的问题。

在注意力(Attention)阶段，引入Dot-product Attention(矩阵相乘的注意力机制)。将编码阶段的最终输出数据H(h₁,h₂…h_t)与关键字Zⁱ字进行矩阵运算，计算结果经过一次softmax后再与最终输出数据H(h₁,h₂…h_t)进行点乘，得到经过注意力机制的注意力输出数据Cⁱ。初始Z⁰采用随机初始化的方式进行定义。

在解码(Decoder)阶段，输入数据为注意力输出数据Cⁱ。输入数据经过一层LSTM(Long Short Temporal Memory，长短期记忆)神经网络后得出每个词或字的概率分布向量，向量维度为词表大小。再计算词或字的概率分布向量与词或字的真实标签(label)向量之间的交叉熵(Cross entropy)损失，交叉熵(Cross entropy)损失最小的概率分布向量(即最优解)即为该词或字的最终向量表示，从而确定该词或字。

S231、通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据，所述预设语言模型基于线上客服文本数据构建。

S232、通过预设角色分类模型确定每个第二文本数据的角色身份，所述预设角色分类模型基于线上客服文本数据构建。

具体的，第二文本数据的角色身份是指第二文本数据的发言人员的身份，如客服人员或用户。预设角色分类模型用于识别第二文本数据的角色身份，以确定第二文本数据的发言人员是客服人员还是用户。预设角色分类模型基于线上客服文本数据构建，是指预设角色分类模型的训练数据为电商平台现有的线上客服文本数据，例如，线上店铺的在线客服与用户的聊天数据。示例性的，由预设语言模型输出的多个第二文本数据(每个第二文本数据就相当于一句话，终止点为句号)为“你好。您好。请问有什么可以帮助您。我想购买商品。”，多个第二文本数据经过预设角色分类模型之后，确定了每个第二文本数据的角色身份，最终的多个第二文本数据表示为“用户：你好。客服：您好。客服：请问有什么可以帮助您。用户：我想购买商品。”。

S240、若并非所有单句音频数据的角色性别都相同，则获取所述待识别音频数据对应的客服人员性别。

具体的，若并非所有单句音频数据的角色性别都相同，也即，多个单句音频数据的角色性别即包括女性又包括男性，那么可以知道客服人员和用户是不同的性别。由于客服人员的性别是已知的，那么此时这一段待识别音频数据对应的客服人员性别，将单句音频数据的角色性别与客服人员性别进行比较，就可以确定单句音频数据的角色性别与客服人员性别是否相同，从而可以确定单句音频数据的发言人员是客服还是用户。

S241、若单句音频数据的角色性别与所述客服人员性别相同，则确定所述单句音频数据的角色身份为客服人员。

具体的，若单句音频数据的角色性别与客服人员性别相同，则说明单句音频数据的发言人员是客服，即确定单句音频数据的角色身份为客服人员。

S242、若单句音频数据的角色性别与所述客服人员性别不同，则确定所述单句音频数据的角色身份为用户。

具体的，若单句音频数据的角色性别与客服人员性别不同，则说明单句音频数据的发言人员不是客服，也就可以确定单句音频数据的发言人员是用户，即确定单句音频数据的角色身份为用户。

S243、通过预设声学模型确定已经确定角色身份的所述多个单句音频数据对应的多个第一文本数据。

具体的，首先对已经确定角色身份的多个单句音频数据进行特征提取，得到多个单句音频特征，将多个单句音频特征输入到预设声学模型，得到对应的多个第一文本数据。本步骤与步骤S230仅处理数据不同，本步骤中处理的数据是已经确定角色身份的多个单句音频数据，步骤S230中处理的数据是没有确定角色身份的多个单句音频数据，除此之外，本步骤中单句音频数据转化为第一文本数据的具体实施方式与步骤S230中相同，在此不再赘述。

S244、通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据，所述预设语言模型基于线上客服文本数据构建。

具体的，本步骤与步骤S231的具体实施方式相同，在此不再赘述。

本发明实施例二提供的客服语音识别方法通过基于客服语音数据构建的预设声学模型与基于线上客服文本数据构建的语言模型相结合，提高了客服语音识别的精确度。通过滤波器组的方式进行特征提取，降低了特征提取的复杂度。通过角色性别识别和角色身份识别，提高了确定客服语音的准确性，进而提高了客服语音识别的精确度。

实施例三

图3为本发明实施例三提供的一种客服语音识别装置的结构示意图，本实施例可适用于电子商务领域的客服语音识别。本发明实施例提供的客服语音识别装置能够实现本发明任意实施例提供的客服语音识别方法，具备实现方法的相应功能结构和有益效果，本实施例中未详尽描述的内容可参考本发明任意方法实施例的描述。

如图3所示，本发明实施例提供的客服语音识别装置包括：端点检测模块310、第一文本数据确定模块320和第二文本数据确定模块330，其中：

端点检测模块310用于对待识别音频数据进行端点检测，以获取多个单句音频数据；

第一文本数据确定模块320用于通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据，所述预设声学模型基于客服语音数据构建；

第二文本数据确定模块330用于通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据，所述预设语言模型基于线上客服文本数据构建。

进一步的，还包括：

角色性别确定模块，用于通过预设性别分类模型确定每个单句音频数据的角色性别。

进一步的，第一文本数据确定模块320具体用于：

进一步的，还包括：

第一角色身份确定模块，用于通过预设角色分类模型确定每个第二文本数据的角色身份，所述预设角色分类模型基于线上客服文本数据构建。

进一步的，还包括：

第二角色身份确定模块，用于若并非所有单句音频数据的角色性别都相同，则获取所述待识别音频数据对应的客服人员性别；若单句音频数据的角色性别与所述客服人员性别相同，则确定所述单句音频数据的角色身份为客服人员；若单句音频数据的角色性别与所述客服人员性别不同，则确定所述单句音频数据的角色身份为用户。

进一步的，第一文本数据确定模块320还用于：

进一步的，第一文本数据确定模块320包括：

特征提取单元，用于提取所述多个单句音频数据对应的多个单句音频特征；

第一文本数据确定单元，用于将所述多个单句音频特征输入预设声学模型，得到多个第一文本数据。

本发明实施例三提供的客服语音识别装置端点检测模块、第一文本数据确定模块和第二文本数据确定模块，将基于客服语音数据构建的预设声学模型与基于线上客服文本数据构建的语言模型相结合，提高了客服语音识别的精确度。

实施例四

图4为本发明实施例四提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例***器412的框图。图4显示的服务器412仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，服务器412以通用服务器的形式表现。服务器412的组件可以包括但不限于：一个或者多个处理器416，存储装置428，连接不同***组件(包括存储装置428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及***组件互连(Peripheral Component Interconnect，PCI)总线。

服务器412典型地包括多种计算机***可读介质。这些介质可以是任何能够被服务器412访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置428可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory，RAM)430和/或高速缓存存储器432。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***434可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440，可以存储在例如存储装置428中，这样的程序模块442包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。

服务器412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信，还可与一个或者多个使得用户能与该服务器412交互的终端通信，和/或与使得该服务器412能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且，服务器412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。如图4所示，网络适配器420通过总线418与服务器412的其它模块通信。应当明白，尽管图中未示出，可以结合服务器412使用其它硬件和/或软件模块，包括但不限于：微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)***、磁带驱动器以及数据备份存储***等。

处理器416通过运行存储在存储装置428中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例所提供的客服语音识别方法，该方法可以包括：

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的客服语音识别方法，该方法可以包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种客服语音识别方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据之前，还包括：

通过预设性别分类模型确定每个单句音频数据的角色性别。

3.如权利要求2所述的方法，其特征在于，所述通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据包括：

4.如权利要求3所述的方法，其特征在于，所述通过预设语言模型确定所述多个第一文本数据对应的多个第二文本数据之后，还包括：

5.如权利要求2所述的方法，其特征在于，所述通过预设性别分类模型确定每个单句音频数据的角色性别之后，还包括：

6.如权利要求5所述的方法，其特征在于，所述通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述通过预设声学模型确定所述多个单句音频数据对应的多个第一文本数据包括：

提取所述多个单句音频数据对应的多个单句音频特征；

8.一种客服语音识别装置，其特征在于，包括：

9.一种服务器，其特征在于，包括：

一个或至少一个处理器；

存储装置，用于存储一个或至少一个程序，

当所述一个或至少一个程序被所述一个或至少一个处理器执行，使得所述一个或至少一个处理器实现如权利要求1-7中任一项所述的客服语音识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的客服语音识别方法。