CN115641850A

CN115641850A - 话术轮次结束的识别方法、装置、存储介质及计算机设备

Info

Publication number: CN115641850A
Application number: CN202211212816.1A
Authority: CN
Inventors: 辛逸男; 黄明星; 王福钋; 张航飞; 徐华韫; 曹富康; 郭立钊; 范野; 沈鹏
Original assignee: Beijing Absolute Health Ltd
Current assignee: Beijing Absolute Health Ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-24

Abstract

本发明公开了一种话术轮次结束的识别方法、装置、存储介质及计算机设备，涉及人工智能技术领域，主要在于能够提高话术轮次结束的识别精度。其中方法包括：获取待识别话术对应的话术文本和语音信号；将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；基于所述第一识别结果和所述第二识别结果，基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束。本发明适用于对话术轮次结束进行识别。

Description

话术轮次结束的识别方法、装置、存储介质及计算机设备

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种话术轮次结束的识别方法、装置、存储介质及计算机设备。

背景技术

在保险领域，随着人工智能的发展，语音对话机器人技术日益成熟，通过语音机器人能够筛选出更有意向的用户，提高网销效率。在用户任意一轮次的说话结束后，语音机器人需要针对用户的说话内容进行有效回复，基于此，为了使语音机器人与用户之间产生有效对话，提高服务质量，增加用户满意度，在多轮次对话场景中，判断用户说话轮次是否结束成为亟待解决的问题。

目前，通常通过对用户话术中的文本内容进行分析，确定用户说话轮次是否结束。然而，这种方式无法判断用户说话的状态，如，“嗯”，无法判断该字为肯定语气，还是疑问语气，用户的说话语气不同，其对应的说话轮次是否结束的判断结果也会不同，从而导致话术轮次结束的识别精度较低。

发明内容

本发明提供了一种话术轮次结束的识别方法、装置、存储介质及计算机设备，主要在于能够提高话术轮次结束的识别精度。

根据本发明的第一个方面，提供一种话术轮次结束的识别方法，包括：

获取待识别话术对应的话术文本和语音信号；

将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；

将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；

基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束。

根据本发明的第二个方面，提供一种话术轮次结束的识别装置，包括：

获取单元，用于获取待识别话术对应的话术文本和语音信号；

第一识别单元，用于将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；

第二识别单元，用于将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；

判断单元，用于基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束。

根据本发明的第三个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取待识别话术对应的话术文本和语音信号；

根据本发明的第四个方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：

获取待识别话术对应的话术文本和语音信号；

根据本发明提供的一种话术轮次结束的识别方法、装置、存储介质及计算机设备，与目前仅对用户话术中的文本内容进行分析，确定用户说话轮次是否结束的方式相比，本发明通过获取待识别话术对应的话术文本和语音信号；并将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；之后将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，由此通过对待识别话术对应的话术文本和语音信息分别进行话术轮次识别，得到第一识别结果和第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，避免了仅对文本内容进行分析，导致无法判断话术语气的情况，从而提高了话术轮次结束的识别精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种话术轮次结束的识别方法流程图；

图2示出了本发明实施例提供的另一种话术轮次结束的识别方法流程图；

图3示出了本发明实施例提供的一种话术轮次结束的识别装置的结构示意图；

图4示出了本发明实施例提供的另一种话术轮次结束的识别装置的结构示意图；

图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

目前，通过仅对用户话术中的文本内容进行分析，确定用户说话轮次是否结束的方式，由于对文本内容进行分析，无法确定话术语气，从而导致话术轮次结束的识别精度较低。

为了解决上述问题，本发明实施例提供了一种话术轮次结束的识别方法，如图1所示，所述方法包括：

101、获取待识别话术对应的话术文本和语音信号。

其中，待识别话术是外呼机器人在与客户进行对话过程中获取到的客户话术。

对于本发明实施例，为了克服现有技术中话术轮次结束的识别精度较低的问题，本发明实施例通过对待识别话术对应的话术文本和语音信息分别进行话术轮次识别，得到第一识别结果和第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，避免了仅对文本内容进行分析，导致无法判断话术语气的情况，从而提高了话术轮次结束的识别精度。本发明实施例主要应用于对话术轮次是否结束进行识别的场景，本发明实施例的执行主体为能够对话术轮次是否结束进行识别的装置或者设备，具体可以设置在客户端或者服务器一侧。

具体地，当外呼机器人与客户进行通话时，利用录音设备对通话内容进行录音，与此同时，当客户说话结束的预设时间后，未进行再次说话，则将该此客户的话术段确定为所述待识别话术，并将所述待识别话术传输至预设ASR(Automatic Speech Recognition，自动语音识别)模型中，得到所述待识别话术对应的话术文本，同时，在录音设备中截取该客户对应的待识别话术对应的语义数据，得到所述待识别话术对应的语音信号，之后分别对所述话术文本和语音信号进行识别，得到第一识别结果和第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，提高了话术轮次结束的识别精度。

102、将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果。

其中，所述第一识别结果是指话术轮次是否结束的识别结果。对于本发明实施例，在获取所述待识别话术对应的话术文本后，首先利用预训练好的BERT-Base模型获取所述话术文本对应的语义信息向量，之后将所述语义信息向量输入至预设多层感知器中，通过所述多层感知器输出所待识别话术对应的第一识别结果，与此同时，将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，避免机器人出现打断客户说话导致没有掌握客户真实意图的情况，提升机器人智能程度，增加对话流畅性。

103、将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果。

其中，所述第二预设话术轮次识别模型具体可以为预设分类器，所述第二识别结果是指话术轮次是否结束的识别结果。

对于本发明实施例，在获取所述待识别话术对应的语音信号后，确定所述语音信号对应的语谱图，并将所述语谱图输入至所述预设分类器中进行分类，得到所述待识别话术对应的第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，从而避免了仅对文本内容进行分析，导致无法判断话术语气的情况，从而提高了话术轮次结束的识别精度。

104、基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束。

其中，话术轮次结束是指客户针对同一内容的描述结束。对于本发明实施例，在基于所述话术文本，确定所述待识别话术对应的第一识别结果，以及基于所述语音信号，确定所述待识别话术对应的第二识别结果后，将所述第一识别结果和所述第二识别结果进行综合考虑，判断所述待识别话术对应的话术轮次是否结束，由此通过对待识别话术对应的话术文本和语音信息分别进行话术轮次识别，得到第一识别结果和第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，避免了仅对文本内容进行分析，导致无法判断话术语气的情况，从而提高了话术轮次结束的识别精度。

根据本发明提供的一种话术轮次结束的识别方法，与目前仅对用户话术中的文本内容进行分析，确定用户说话轮次是否结束的方式相比，本发明通过获取待识别话术对应的话术文本和语音信号；并将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；之后将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，由此通过对待识别话术对应的话术文本和语音信息分别进行话术轮次识别，得到第一识别结果和第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，避免了仅对文本内容进行分析，导致无法判断话术语气的情况，从而提高了话术轮次结束的识别精度。

进一步的，为了更好的说明上述对话术轮次结束进行识别的过程，作为对上述实施例的细化和扩展，本发明实施例提供了另一种话术轮次结束的识别方法，如图2所示，所述方法包括：

201、获取待识别话术对应的话术文本和语音信号。

具体地，在外呼机器人与客户进行通话过程中，实时通过录音设备录取对话，与此同时，记录客户说话结束后的静音时间，当所述静音时间大于预设时间，则通过录音设备获取客户该次话术段对应的语音信号，与此同时，利用ASR模型将录音设备录取的待识别话术对应的语音数据转换成为文本内容，即话术文本。

202、确定所述话术文本中包含的各个字符，并确定所述各个字符对应的嵌入向量。

对于本发明实施例，为了确定所述待识别话术对应的第一识别结果，首先需要确定所述话术文本中包含的各个字符，例如，话术文本为医疗保险投保要求，则话术文本对应的各个字符为，医/疗/保/险/投/保/要/求/，之后利Word2Vec等词嵌入方法将话术文本中的各个字符转化为嵌入向量，并将各个字符对应的嵌入向量输入至预设自然语言模型中进行语义信息识别，得到所述待识别话术对应的语义信息向量，最终基于所述语义信息向量，确定所述待识别话术对应的第一识别结果。

203、将所述嵌入向量输入至预设自然语言模型中进行语义信息识别，得到所述待识别话术对应的语义信息向量。

其中，所述预设自然语言模型为Bert模型，BERT模型中包括多个编码器，每个编码器首尾相连，上一个编码器的输出会作为下一个编码器的输入，该编码器具体包括自注意力层和前馈神经网络层。

具体地，为了确定所述待识别话术对应的第一识别结果，首先需要提取所述待识别话术对应的语义信息向量，基于此，步骤203具体包括：将所述嵌入向量输入至所述自注意力层中的不同注意力子空间进行特征提取，得到所述话术文本在所述不同注意力子空间下的第一特征向量；将所述话术文本在所述不同注意力子空间下的第一特征向量与所述不同注意力子空间对应的权重相乘并求和，得到所述话术文本对应的自注意力层输出向量；将所述自注意力层输出向量和所述嵌入向量相加，得到所述话术文本对应的第二特征向量；将所述第二特征向量输入至所述前馈神经网络层中进行特征提取，得到所述待识别话术对应的语义信息向量。

其中，第一特征向量为自注意力层的输出向量，待识别话术对应的语义信息向量为最后一个编码器的前馈神经网络层的输出向量。

具体地，在利用BERT模型提取待识别话术对应的语义信息向量的过程中，首先将各个字符对应的嵌入向量输入至BERT模型中第一个编码器的自注意力层进行特征提取，得到该自注意力层的输出向量，即各个字符对应的第一特征向量，其中，在自注意力层进行特征提取的具体过程为：根据所述各个字符对应的嵌入向量，确定所述各个字符对应的查询向量、键向量和值向量；将所述各个字符中的目标字符对应的查询向量与所述各个字符对应的键向量相乘，得到所述各个字符针对所述目标字符的注意力分值；将所述各个字符对应的所述注意力分值和所述值向量相乘并求和，得到所述目标字符对应的第一特征向量。

对于本发明实施例，在获取各个字符对应的第一特征向量的过程中，可以将待识别话术对应的话术文本中各个字符对应的嵌入向量与BERT模型中自注意力层对应的权重矩阵相乘，得到各个字符对应的查询向量、键向量和值向量，进一地，需要计算各个字符对应的注意力分值，在计算各个字符中任意一个字符(目标字符)对应的注意力分值时，需要利用话术文本中各个字符对目标字符进行打分，具体地，将目标字符对应的查询向量与各个字符对应的键向量相乘，得到各个字符对目标字符的打分值，即注意力分值，之后将各个字符对应的注意力分值和值向量相乘求和，最终得到目标字符对应的自注意力层输出向量，即目标字符对应的第一特征向量，由此按照上述方式能够确定各个字符对应的第一特征向量，以便利用各个字符对应的第一特征向量获取待识别话术对应的语义信息向量。

进一步地，为了待识别话术对应的语义信息向量，在将待识别话术对应的话术文本中各个字符对应的嵌入向量输入至第一个编码器的自注意力层，提取到各个字符对应的第一特征向量之后，需要将第一特征向量与各个字符对应的嵌入向量相加，得到各个字符对应的第二特征向量，并将第二特征向量输入至第一个编码器的前馈神经网络层中进行特征提取，得到第一个编码器的输出向量，因为本发明实施例中的BERT模型包含多个编码器，且多个编码器之间采用首尾串联的方式，因此将第一个编码器的输出向量输入至第二个编码器中进行特征提取，得到第二个编码器的输出向量，以此将前一个编码器的输出向量作为下一个编码器的输入向量，最终将最后一个编码器的输出向量确定为待识别话术对应的语义信息向量。

204、将所述语义信息向量输入至所述第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果。

其中，所述第一预设话术轮次识别模型具体可以为多层感知器模型，多层感知器是一种神经网络模型，它包括输入层、隐藏层和输出层。

对于本发明实施例，在确定所述待识别话术对应的语义信息向量后，需要根据所述语义信息向量，确定所述待识别话术对应的第一识别结果，基于此，步骤204具体包括：将所述语义信息向量输入至所述多层感知器，提取所述多层感知器中最后一个全连接层输出的特征；将所述最后一个全连接层输出的特征输入至所述多层感知器中的softmax层，得到所述待识别话术对应的话术轮次结束的第一概率值和话术轮次未结束的第二概率值。

具体地，将所述待识别话术对应的话术文本中各个字符对应的嵌入向量通过多层感知器模型的输入层输入至隐藏层，通过该隐藏层输出的结果为：

f(W₁x+b₁)

其中，x为各个字符对应的嵌入向量，w₁为隐藏层的权重，也是多层感知器的连接系数，b₁为隐藏层的偏置系数，f函数通常可以采用sigmoid函数或者tanh函数，如下所示：

sigmoid(x)＝1/(1+e^-x)

tanh(x)＝(e^x-e^-x)/(e¹+e^-x)

进一步地，在将话术文本中各个字符对应的嵌入向量通过多层感知器模型的输入层输入至隐藏层，得到该隐藏层输出的结果之后，再将该结果输入至输出层，即所述多层感知器的softmax层，通过该输出层进行话术轮次结果识别，得到的推荐结果为：

softmax(W₂f(W₁x+b₁)+b₂)

其中，W₂为输出层的权重系数，b₂为输出层的偏置系数，通过该多层感知器模型的输出层能够输出待识别话术对应的第一识别结果，该第一识别结果实质上为待识别话术对应的话术轮次是否结束的分类概率，即第一识别结果为待识别话术话术轮次结束的第一概率值和话术轮次未结束的第二概率值。

205、将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果。

其中，所述第二预设话术轮次识别模型具体可以为预设分类器，所述预设分类器为预设神经网络模型，所述预设神经网络模型可以是一个多层模型，如CNN-LSTM模型。

对于本发明实施例，为了提高第二预设话术轮次识别模型的识别精度，首先需要确定所述语音信号对应的语谱图，基于此，步骤205具体包括：对所述语音信号进行交叉式的分帧处理，得到分帧后的语音信号；对所述分帧后的语音信号进行加窗处理，得到加窗后的语音信号；将所述加窗后的语音信号进行傅里叶变换，得到所述加窗后的语音信号对应的各个频谱向量；沿着预设坐标系中的时间轴并联各个频谱向量，得到所述语音信号对应的语谱图；将所述语谱图输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果。

具体地，在通话过程中记录下语音流字节收集原始语音数据，首先对语音信号进行交叉式的分帧处理，之后在对分帧后的语音信号进行加窗处理，每一个窗口大小为25ms，窗移10ms，之后每个窗口的语音信号进行短时傅里叶变换，得到语音信号的梅尔滤波器组特征，即频谱向量，共160维，建立预设坐标系，以时间为横轴，沿着预设坐标系中的时间轴并联各个频谱向量，得到语音信号对应的语谱图，之后基于所述语谱图，利用预设分类器获取所述待识别话术对应的第二识别结果，基于此，所述方法包括：确定所述语谱图对应的语音特征向量；将所述语音特征向量输入至所述分类器中进行分类，得到所述待识别话术对应的话术轮次结束的第三概率值和话术轮次未结束的第四概率值。

具体地，利用预设CNN(卷积申请网络模型)模型中的卷积层提取所述语谱图中的局部特征和全局特征，并融合所述局部特征和所述全局特征，得到所述语谱图对应的语音特征向量，之后将所述语音特征向量输入至预设分类器中进行分类，得到所述待识别话术对应的话术轮次是否结束的分类概率，即第二识别结果为待识别话术话术轮次结束的第三概率值和话术轮次未结束的第四概率值。

206、基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束。

对于本发明实施例，在确定所述待识别话术对应的第一识别结果和第二识别结果后，需要基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，基于此，步骤206具体包括：确定所述第一概率值和所述第二概率值共同对应的第一权重系数，以及确定所述第三概率值和所述第四概率值共同对应的第二权重系数；基于所述第一权重系数和所述第二权重系数，将所述第一概率值和所述第三概率值相加，得到所述待识别话术对应的话术轮次结束的第一总概率值，以及将所述第二概率值和所述第四概率值相加，得到所述待识别话术对应的话术轮次未结束的第二总概率值；若所述第一总概率值大于所述第二总概率值，则确定所述所述待识别话术对应的话术轮次结束；若所述第一总概率值小于所述第二总概率值，则确定所述所述待识别话术对应的话术轮次未结束。

具体地，预先为第一预设话术轮次识别模型的识别结果设置第一权重系数，以及为第二预设话术轮次识别模型的识别结果设置第二权重系数，在利用第一预设话术轮次识别模型确定所述待识别话术对应的话术轮次结束的第一概率值和话术轮次未结束的第二概率值，以及利用第二预设话术轮次识别模型确定所述待识别话术对应的话术轮次结束的第三概率值和话术轮次未结束的第四概率值后，将所述第一权重系数与所述第一概率值相乘，得到第一乘积，并将第二权重系数与所述第三概率值相乘，得到第二乘积，将所述第一乘积与所述第二乘积相加，得到所述待识别话术对应的话术轮次结束的第一总概率值，与此同时，将所述第一权重系数与所述二概率值相乘，得到第三乘积，并将第二权重系数与所述第四概率值相乘，得到第四乘积，将所述第三乘积与所述第四乘积相加，得到所述待识别话术对应的话术轮次未结束的第二总概率值，若所述第一总概率值大于所述第二总概率值，则确定所述待识别话术对应的话术轮次结束，若所述第一总概率值小于所述第二总概率值，则确定所述待识别话术对应的话术轮次未结束，若所述第一总概率值等于所述第二总概率值，则在第一概率值和第二概率值中确定最大概率值，并将最大概率值对应的识别结果确定为所述待识别话术对应的论述轮次是否结束的识别结果。

例如，若将话术文本输入至第一预设话术轮次识别模型中，得到待识别话术对应的话术轮次结束的第一概率值为0.8，待识别话术对应的话术轮次未结束的第二概率值为0.2，将语音信号输入至第二预设话术轮次识别模型中，得到待识别话术对应的话术轮次结束的第三概率值为0.2，待识别话术对应的话术轮次未结束的第四概率值为0.8，第一概率值和第二概率值对应的第一权重系数为0.75，第三概率值和第四概率值对应的第二权重系数为0.25，则通过计算得到话术轮次结束的第一总概率值为0.75×0.8+0.25×0.2＝0.65，话术轮次未结束的第二总概率值为0.75×0.2+0.25×0.8＝0.35，由此可知，第一总概率值大于所述第二总概率值，而第一总概率值对应的话术轮次识别结果为的话术轮次结束，则最终确定所述待识别话术对应的话术轮次为结束。

进一步地，若待识别话术对应的话术伦次结束，则外呼机器人根据客户意图进行回话，若待识别话术对应的话术伦次未结束，则继续等待预设时间，在等待预设时间内若用户继续说话，则将用户继续说话的话术段与上一次话术段确定为客户对同一内容的描述话术，针对该同一内容的描述话术，外呼机器人做出相应回答。

根据本发明提供的另一种话术轮次结束的识别方法，与目前仅对用户话术中的文本内容进行分析，确定用户说话轮次是否结束的方式相比，本发明通过获取待识别话术对应的话术文本和语音信号；并将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；之后将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，由此通过对待识别话术对应的话术文本和语音信息分别进行话术轮次识别，得到第一识别结果和第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，避免了仅对文本内容进行分析，导致无法判断话术语气的情况，从而提高了话术轮次结束的识别精度。

进一步地，作为图1的具体实现，本发明实施例提供了一种话术轮次结束的识别装置，如图3所示，所述装置包括：获取单元31、第一识别单元32、第二识别单元33和判断单元34。

所述获取单元31，可以用于获取待识别话术对应的话术文本和语音信号。

所述第一识别单元32，可以用于将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果。

所述第二识别单元33，可以用于将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果。

所述判断单元34，可以用于基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束。

在具体应用场景中，为了确定所述待识别话术对应的第一识别结果，如图4所示，所述第一识别单元32，包括第一确定模块321、语义识别模块322和第一识别模块323。

所述第一确定模块321，可以用于确定所述话术文本中包含的各个字符，并确定所述各个字符对应的嵌入向量。

所述语义识别模块322，可以用于将所述嵌入向量输入至预设自然语言模型中进行语义信息识别，得到所述待识别话术对应的语义信息向量。

所述第一识别模块323，可以用于将所述语义信息向量输入至所述第一预设话术轮次识别模型中进行话术轮次识别，得到所述待识别话术对应的第一识别结果。

在具体应用场景中，为了确定所述话术文本对应的语义信息向量，所述语义识别模块322，包括特征提取子模块和求和子模块。

所述特征提取子模块，可以用于将所述嵌入向量输入至所述自注意力层中的不同注意力子空间进行特征提取，得到所述话术文本在所述不同注意力子空间下的第一特征向量。

所述求和子模块，可以用于将所述话术文本在所述不同注意力子空间下的第一特征向量与所述不同注意力子空间对应的权重相乘并求和，得到所述话术文本对应的自注意力层输出向量。

所述求和子模块，具体可以用于将所述自注意力层输出向量和所述嵌入向量相加，得到所述话术文本对应的第二特征向量。

所述特征提取子模块，具体可以用于将所述第二特征向量输入至所述前馈神经网络层中进行特征提取，得到所述待识别话术对应的语义信息向量。

在具体应用场景中，为了确定所述待识别话术对应的第一识别结果，所述第一识别模块323，具体可以用于将所述语义信息向量输入至所述多层感知器，提取所述多层感知器中最后一个全连接层输出的特征；将所述最后一个全连接层输出的特征输入至所述多层感知器中的softmax层，得到所述待识别话术对应的话术轮次结束的第一概率值和话术轮次未结束的第二概率值。

在具体应用场景中，为了确定所述待识别话术对应的第二识别结果，所述第二识别单元33，包括分帧处理模块331、加窗处理模块332、变换模块333、并联模块334和第二识别模块335。

所述分帧处理模块331，可以用于对所述语音信号进行交叉式的分帧处理，得到分帧后的语音信号。

所述加窗处理模块332，可以用于对所述分帧后的语音信号进行加窗处理，得到加窗后的语音信号。

所述变换模块333，可以用于将所述加窗后的语音信号进行傅里叶变换，得到所述加窗后的语音信号对应的各个频谱向量。

所述并联模块334，可以用于沿着预设坐标系中的时间轴并联各个频谱向量，得到所述语音信号对应的语谱图。

所述第二识别模块335，可以用于将所述语谱图输入至第二预设话术轮次识别模型中进行话术轮次识别，得到所述待识别话术对应的第二识别结果。

在具体应用场景中，为了基于所述语谱图，确定所述待识别话术对应的第二识别结果，所述第二识别模块335，包括确定子模块和分类子模块。

所述确定子模块，可以用于确定所述语谱图对应的语音特征向量。

所述分类子模块，可以用于将所述语音特征向量输入至所述分类器中进行分类，得到所述待识别话术对应的话术轮次结束的第三概率值和话术轮次未结束的第四概率值。

在具体应用场景中，为了判断所述待识别话术对应的话术轮次是否结束，所述判断单元34，包括第二确定模块341和相加模块342。

所述第二确定模块341，可以用于确定所述第一概率值和所述第二概率值共同对应的第一权重系数，以及确定所述第三概率值和所述第四概率值共同对应的第二权重系数。

所述相加模块342，可以用于基于所述第一权重系数和所述第二权重系数，将所述第一概率值和所述第三概率值相加，得到所述待识别话术对应的话术轮次结束的第一总概率值，以及将所述第二概率值和所述第四概率值相加，得到所述待识别话术对应的话术轮次未结束的第二总概率值。

所述第二确定模块341，具体可以用于若所述第一总概率值大于所述第二总概率值，则确定所述所述待识别话术对应的话术轮次结束。

所述第二确定模块341，具体还可以用于若所述第一总概率值小于所述第二总概率值，则确定所述所述待识别话术对应的话术轮次未结束。

需要说明的是，本发明实施例提供的一种话术轮次结束的识别装置所涉及各功能模块的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获取待识别话术对应的话术文本和语音信号；将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束。

基于上述如图1所示方法和如图3所示装置的实施例，本发明实施例还提供了一种计算机设备的实体结构图，如图5所示，该计算机设备包括：处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序，其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤：获取待识别话术对应的话术文本和语音信号；将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束。

通过本发明的技术方案，本发明通过获取待识别话术对应的话术文本和语音信号；并将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果；之后将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果；最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，由此通过对待识别话术对应的话术文本和语音信息分别进行话术轮次识别，得到第一识别结果和第二识别结果，最终基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，避免了仅对文本内容进行分析，导致无法判断话术语气的情况，从而提高了话术轮次结束的识别精度。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种话术轮次结束的识别方法，其特征在于，包括：

获取待识别话术对应的话术文本和语音信号；

2.根据权利要求1所述的方法，其特征在于，所述将所述话术文本输入至第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果，包括：

确定所述话术文本中包含的各个字符，并确定所述各个字符对应的嵌入向量；

将所述嵌入向量输入至预设自然语言模型中进行语义信息识别，得到所述待识别话术对应的语义信息向量；

将所述语义信息向量输入至所述第一预设话术轮次识别模型中进行话术轮次识别，得到所述待识别话术对应的第一识别结果。

3.根据权利要求2所述的方法，其特征在于，所述预设自然语言模型为预设编码器，所述预设编码器包括自注意力层和前馈神经网络层，所述将所述嵌入向量输入至预设自然语言模型中进行语义信息识别，得到所述待识别话术对应的语义信息向量，包括：

将所述嵌入向量输入至所述自注意力层中的不同注意力子空间进行特征提取，得到所述话术文本在所述不同注意力子空间下的第一特征向量；

将所述话术文本在所述不同注意力子空间下的第一特征向量与所述不同注意力子空间对应的权重相乘并求和，得到所述话术文本对应的自注意力层输出向量；

将所述自注意力层输出向量和所述嵌入向量相加，得到所述话术文本对应的第二特征向量；

将所述第二特征向量输入至所述前馈神经网络层中进行特征提取，得到所述待识别话术对应的语义信息向量。

4.根据权利要求2所述的方法，其特征在于，所述第一预设话术轮次识别模型为多层感知器，所述将所述语义信息向量输入至所述第一预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第一识别结果，包括：

将所述语义信息向量输入至所述多层感知器，提取所述多层感知器中最后一个全连接层输出的特征；

将所述最后一个全连接层输出的特征输入至所述多层感知器中的softmax层，得到所述待识别话术对应的话术轮次结束的第一概率值和话术轮次未结束的第二概率值。

5.根据权利要求1所述的方法，其特征在于，所述将所述语音信号输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果，包括：

对所述语音信号进行交叉式的分帧处理，得到分帧后的语音信号；

对所述分帧后的语音信号进行加窗处理，得到加窗后的语音信号；

将所述加窗后的语音信号进行傅里叶变换，得到所述加窗后的语音信号对应的各个频谱向量；

沿着预设坐标系中的时间轴并联各个频谱向量，得到所述语音信号对应的语谱图；

将所述语谱图输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果。

6.根据权利要求5所述的方法，其特征在于，所述第二预设话术轮次识别模型为分类器，所述将所述语谱图输入至第二预设话术轮次识别模型中进行话术轮次结束识别，得到所述待识别话术对应的第二识别结果，包括：

确定所述语谱图对应的语音特征向量；

将所述语音特征向量输入至所述分类器中进行分类，得到所述待识别话术对应的话术轮次结束的第三概率值和话术轮次未结束的第四概率值。

7.根据权利要求4至6中任一项所述的方法，其特征在于，所述基于所述第一识别结果和所述第二识别结果，判断所述待识别话术对应的话术轮次是否结束，包括：

确定所述第一概率值和所述第二概率值共同对应的第一权重系数，以及确定所述第三概率值和所述第四概率值共同对应的第二权重系数；

基于所述第一权重系数和所述第二权重系数，将所述第一概率值和所述第三概率值相加，得到所述待识别话术对应的话术轮次结束的第一总概率值，以及将所述第二概率值和所述第四概率值相加，得到所述待识别话术对应的话术轮次未结束的第二总概率值；

若所述第一总概率值大于所述第二总概率值，则确定所述所述待识别话术对应的话术轮次结束；

若所述第一总概率值小于所述第二总概率值，则确定所述所述待识别话术对应的话术轮次未结束。

8.一种话术轮次结束的识别装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。