CN114155839A

CN114155839A - 一种语音端点检测方法、装置、设备及存储介质

Info

Publication number: CN114155839A
Application number: CN202111535332.6A
Authority: CN
Inventors: 张儒瑞; 李永超
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-08

Abstract

本申请提供了一种语音端点检测方法、装置、设备及存储介质，其中，语音端点检测方法该方法可判别出待检测的音频数据包含的音频帧为静音帧、噪声帧还是语音帧，即，本申请可检测出音频数据所包含音频帧的较为精准的属性，在此基础上进行语音前端点和语音后端点的检测，能够获得较为准确的检测结果。在实现语音端点检测的基础上，本申请可获取语音段的识别文本，并可根据识别文本的语义确定识别文本的语义场景，进而可根据识别文本的语义场景设置合适的后静音超时门限，从而基于合适的后静音超时门限触发后静音超时事件，以提升用户体验。

Description

一种语音端点检测方法、装置、设备及存储介质

技术领域

本申请涉及语音端点检测技术领域，尤其涉及一种语音端点检测方法、装置、设备及存储介质。

背景技术

语音端点检测(Voice Activity Detection,VAD)是语音识别的一个重要环节。可以理解的是，音频数据中的音频帧并非都是语音帧，通过语音端点检测可获得语音端点，进而可获得语音段，相比于对音频数据进行识别，只对音频数据中的语音段进行识别能够大大降低数据量和运算量，从而减少识别时间。

目前的语音端点检测方案大多为：预测待检测的音频数据包含的音频帧是静音帧还是非静音帧，若音频帧是静音帧，则确定音频帧是非语音帧，若音频帧是非静音帧，则确定音频帧为语音帧，在获得音频帧为语音帧或非语音帧的检测结果后，根据检测结果检测语音端点。

然而，实际应用场景中，非静音帧并不一定是语音帧，将非静音帧确定为语音帧将导致最终难以获得较为准确的语音端点检测结果。

发明内容

有鉴于此，本申请提供了一种语音端点检测方法、装置、设备及存储介质，用以解决现有的语音端点检测方案检测准确度不高的问题，其技术方案如下：

一种语音端点检测方法，包括：

在获得待检测的音频数据后，获取所述音频数据包含的音频帧对应的第一信息和第二信息，其中，所述第一信息能够指示对应音频帧为静音帧还是非静音帧，所述第二信息为对应音频帧的发音信息；

以所述音频数据包含的音频帧对应的第一信息和第二信息为依据，对所述音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别；

根据所述音频数据包含的音频帧对应的判别结果，检测语音前端点和语音后端点。

可选的，所述语音端点检测方法还包括：

在检测到所述语音前端点后，将从所述语音前端点开始的语音段识别为文本，以得到识别文本和所述识别文本对应的置信度；

根据所述识别文本的语义和所述识别文本对应的置信度，设置后静音超时门限，并基于设置的后静音超时门限触发后静音超时事件。

可选的，所述获取所述音频数据包含的音频帧对应的第一信息和第二信息，包括：

利用预先建立的多任务联合模型，预测所述音频数据包含的音频帧分别为静音帧和非静音帧的声学得分，以及所述音频数据包含的音频帧对应的全音素声学得分；

其中，一音频帧分别为静音帧和非静音帧的声学得分作为该音频帧对应的第一信息，一音频帧对应的全音素声学得分作为该音频帧对应的第二信息，所述全音素声学得分包括所述音频数据所属语种包含的所有音素分别对应的声学得分。

可选的，所述以所述音频数据包含的音频帧对应的第一信息和第二信息为依据，对所述音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别，包括：

针对待判别的音频帧，根据该音频帧对应的第一信息，对该音频帧进行静音帧、非静音帧的判别；

在判定该音频帧为非静音帧时，根据该音频帧对应的第二信息对该音频帧进行噪声帧、语音帧的判别。

可选的，所述根据该音频帧对应的第二信息对该音频帧进行噪声帧、语音帧的判别，包括：

若该音频帧对应的全音素声学得分中的最大声学得分小于所述预设声学得分阈值，则判定该音频帧为噪声帧；

若该音频帧对应的全音素声学得分中的最大声学得分大于或等于预设声学得分阈值，则判定该音频帧为语音帧。

可选的，所述将从所述语音前端点开始的语音段识别为文本，以得到识别文本和所述识别文本对应的置信度，包括：

从所述语音前端点开始，将语音帧对应的第二信息经预先构建的音素级网络进行解码，在检测到所述语音后端点并完成对所述语音后端点对应的第二信息的解码后，结束解码，其中，解码与语音后端点检测同步进行，所述音素级网络根据第一语料集中的第一语料和第二语料集中的第二语料构建，所述第一语料为语义不完整、需要长时等待再触发后静音超时事件的语料，所述第二语料为语义完整、不需要长时等待即可触发后静音超时事件的语料；

通过回溯最优解码路径，获取最优解码结果和所述最优解码结果对应的置信度，作为所述识别文本和所述识别文本对应的置信度。

可选的，根据第一语料集中的第一语料和第二语料集中的第二语料构建音素级网络，包括：

将所述第一语料集中的第一语料和所述第二语料集中的第二语料并联，得到句级网络，每个语料为所述句级网络中的一个节点；

将所述句级网络中的每个语料扩展成单字，得到初始字级网络，每个单字为所述初始字级网络中的一个节点；

对所述初始字级网络中的节点和路径进行合并，得到最终的字级网络；

将所述最终的字级网络中的每个单字扩展成音素，得到初始音素级网络，每个音素为所述初始音素级网络中的一个节点；

对所述初始音素级网络中的节点和路径进行合并，得到最终的音素级网络。

可选的，所述根据所述识别文本的语义和所述识别文本对应的置信度，设置后静音超时门限，包括：

根据所述识别文本的语义和所述识别文本对应的置信度，从设定的语义场景中确定所述识别文本的语义场景；

根据所述识别文本的语义场景，设置后静音超时门限；

其中，所述设定的语义场景包括第一场景、第二场景和默认场景，每个场景具有对应的后静音超时门限，所述第一场景对应的后静音超时门限大于所述默认场景对应的默认后静音超时门限，所述第二场景对应的后静音超时门限小于所述默认场景对应的默认后静音超时门限。

可选的，所根据所述识别文本的语义和所述识别文本对应的置信度，从设定的语义场景中确定所述识别文本的语义场景，包括：

根据所述识别文本对应的置信度，确定所述识别文本是否可信；

若所述识别文本不可信，则确定所述识别文本的语义场景为默认场景；

若所述识别文本可信，则确定所述识别文本与所述第一语料集中第一语料的语义相似度以及所述识别文本与所述第二语料集中第二语料的语义相似度；

根据确定出的语义相似度，从所述设定的语义场景中确定所述识别文本的语义场景。

可选的，所述根据确定出的语义相似度，从所述设定的语义场景中确定所述识别文本的语义场景，包括：

若确定出的语义相似度中的最大语义相似度大于或等于预设相似度阈值，且所述最大语义相似度为所述识别文本与第一语料的相似度，则确定所述识别文本的语义场景为所述第一场景；

若所述最大语义相似度大于或等于所述预设相似度阈值，且所述最大语义相似度为所述识别文本与第二语料的语义相似度，则确定所述识别文本的语义场景为所述第二场景；

若所述最大语义相似度小于所述预设相似度阈值，则确定所述识别文本结果的语义场景为所述默认场景。

可选的，所述根据所述识别文本的语义场景，设置后静音超时门限，包括：

若所述识别文本的语义场景为所述第一场景，则将后静音超时门限设置为所述第一场景对应的后静音超时门限；

若所述识别文本的语义场景为所述第二场景，则将后静音超时门限设置为所述第二场景对应的后静音超时门限；

若所述识别文本的语义场景为所述默认场景，则将后静音超时门限设置为所述默认场景对应的默认后静音超时门限。

一种语音端点检测装置，包括：判别信息获取模块、音频帧判别模块和语音端点检测模块；

所述判别信息获取模块，用于在获得待检测的音频数据后，获取所述音频数据包含的音频帧对应的第一信息和第二信息，其中，所述第一信息能够指示对应音频帧为静音帧还是非静音帧，所述第二信息为对应音频帧的发音信息；

所述音频帧判别模块，用于以所述音频数据包含的音频帧对应的第一信息和第二信息为依据，对所述音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别；

所述语音端点检测模块，用于根据所述音频数据包含的音频帧对应的判别结果，检测语音前端点和语音后端点。

可选的，所述语音端点检测装置还包括：语音段识别模块、后静音超时门限设置模块和后静音超时事件触发模块；

所述语音段识别模块，用于在所述语音端点检测模块检测到所述语音前端点后，将从所述语音前端点开始的语音段识别为文本，以得到识别文本和所述识别文本对应的置信度；

所述后静音超时门限设置模块，用于根据所述识别文本的语义和所述识别文本对应的置信度，设置后静音超时门限；

所述后静音超时事件触发模块，用于基于所述后静音超时门限设置模块设置的后静音超时门限触发后静音超时事件。

一种语音端点检测设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的语音端点检测方法的各个步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的语音端点检测方法的各个步骤。

本申请提供的语音端点检测方法、装置、设备及存储介质，在获得待检测的音频数据后，首先获取音频数据包含的音频帧对应的第一信息(第一信息能够指示对应音频帧为静音帧还是非静音帧)和第二信息(第二信息为对应音频帧的发音信息)，然后以音频数据包含的音频帧对应的第一信息和第二信息为依据，对音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别，最后根据音频数据包含的音频帧对应的判别结果，检测语音前端点和语音后端点。本申请提供的语音端点检测方法可判别出音频数据包含的音频帧为静音帧、噪声帧还是语音帧，即，本申请可检测出音频数据所包含音频帧的较为精准的属性，在此基础上进行语音前端点和语音后端点的检测，能够获得较为准确的检测结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种语音端点检测方法的流程示意图；

图2为本申请实施例提供的另一种语音端点检测方法的流程示意图；

图3为本申请实施例提供的句级网络的一示例的示意图；

图4为本申请实施例提供的将图3示出的句级网络中的每个语料扩展成单字得到的初始字级网络的示意图；

图5为本申请实施例提供的对图4示出的初始字级网络进行节点和路径合并后的结果；

图6为本申请实施例提供的语音端点检测装置的结构示意图；

图7为本申请实施例提供的语音端点检测设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

申请人在实现本申请的过程中发现：现有的语音端点检测方案大多为基于特征的检测方法和基于模型的检测方法，其中，基于特征的检测方法的出发点是寻找能表征静音帧和非静音帧的差异的特征，来实现静音帧和非静音帧的区分，基于模型的检测方法通过对静音帧和非静音帧进行建模，来区分音频帧是静音帧还是非静音帧。可见，不管是基于特征的检测方法还是基于模型的检测方法，针对音频数据中的音频帧，只能检测出其为静音帧还是非静音帧，然而非静音帧并非一定是语音帧，将非静音帧作为语音帧进行语音端点检测，将导致检测出的语音端点不准确，即，现有的语音端点检测方案因不能较为准确地检测出音频帧的属性，导致最终难以获得较为准确的语音端点检测结果。

鉴于现有的语音端点检测准确度不高，申请人试图提出一种检测准确度较高的语音端点检测方法，并为此进行了研究，通过不断研究，最终提出了一种语音端点检测方法，该语音端点检测方法可判别出待检测的音频数据包含的音频帧为静音帧、噪声帧还是语音帧，即能够确定出音频帧较为精准的属性，在此基础上进行语音端点的检测，能够获得较为准确的检测结果。在实现语音端点检测的基础上，申请人还提出，将语音前端点至语音后端点的语音段识别为文本，根据识别文本的语义设置合适的后静音超时门限，进而基于合适的后静音超时门限触发后静音超时事件，以提升用户体验。

本申请提出的语音端点检测方法可应用于具有数据处理能力的电子设备，该电子设备可以为用户侧使用的终端，比如智能手机、PC、笔记本、PAD、智能家电、车载终端等等，该电子设备还可以为网络侧的服务器(可以为单个服务器，也可以为多个服务器或服务器集群)，电子设备可按本申请提供的语音端点检测方法检测出较为准确的语音端点。接下来通过下述实施例对本申请提供的语音端点检测方法进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的一种语音端点检测方法的流程示意图，该方法可以包括：

步骤S101：在获得待检测的音频数据后，获取音频数据包含的音频帧对应的第一信息和第二信息。

其中，第一信息能够指示对应音频帧为静音帧还是非静音帧，第二信息为对应音频帧的发音信息。

可选的，一音频帧对应的第一信息可以包括该音频帧分别为静音帧和非静音帧的得分(即该音频帧为静音帧的声学得分和该音频帧为非静音帧的声学得分)。

可选的，第二信息可以为对应音频帧对应的全音素声学得分，全音素声学得分指的是，音频数据所属语种所包含的所有音素分别对应的声学得分，假设音频数据所属语种所包含的所有音素为N个，则第二信息包括N个音素分别对应的声学得分。

可选的，获取音频数据包含的音频帧对应的第一信息和第二信息的过程可以包括：利用预先建立的多任务联合模型，预测音频数据包含的音频帧分别为静音帧和非静音帧的声学得分，以及音频数据包含的音频帧对应的全音素声学得分。

具体的，利用预先建立的多任务联合模型，预测音频数据包含的音频帧分别为静音帧和非静音帧的声学得分，以及音频数据包含的音频帧对应的全音素声学得分的过程可以包括：

步骤a1、获取音频数据包含的音频帧的音频特征。

其中，音频特征可以但不限定为filterbank特征、mfcc特征等。

步骤a2、利用预先建立的多任务联合模型，以音频数据包含的音频帧的音频特征为依据，预测音频数据包含的音频帧分别为静音帧和非静音帧的声学得分，以及音频数据包含的音频帧对应的全音素声学得分。

具体的，将音频数据包含的音频帧的音频特征输入多任务联合模型，多任务联合模型根据输入的音频特征预测对应音频帧分别为静音帧和非静音帧的声学得分，以及对应音频帧对应的全音素声学得分。

其中，多任务联合模型包括输入层和隐层，以及共享输入层和隐层的第一输出层和第二输出层，其中，输入层用于输入音频数据包含的音频帧的音频特征，隐层用于对输入层输入的音频特征进行处理，第一输出层用于根据隐层的输出预测对应音频帧分别为静音帧和非静音帧的声学得分，第二输出层用于根据隐层的输出预测对应音频帧对应的全音素声学得分。

需要说明的是，多任务联合模型的第一输出层首先根据隐层的输出预测对应音频帧分别为静音帧和非静音帧的概率，然后根据对应音频帧分别为静音帧和非静音帧的概率确定对应音频帧分别为静音帧和非静音帧的声学得分，类似的，第二输出层首先根据隐层的输出预测对应音频帧对应的音素为全音素中各个音素的概率，然后根据对应音频帧对应的音素为全音素中各个音素的概率确定对应音频帧对应的音素为全音素中各个音素的声学得分，即全音素声学得分。

多任务联合模型采用训练音频数据以及训练音频数据包含的每个音频帧对应的第一类别标签和第二类别标签训练得到，其中，一个音频帧对应的第一类别标签用于指示该音频帧为静音帧还是为非静音帧，第二类别标签用于指示该音频帧对应的音素为全音素中的哪个音素。在训练时，多任务联合模型具有两个任务，其一，学习静音和非静音的分类，其二，学习全音素的分类，针对两个任务，设置两个损失函数，根据两个损失函数对模型参数进行更新，其中，两个损失函数中的一个损失函数根据多任务联合模型预测的音频帧为静音帧的概率和为非静音帧的概率以及音频帧对应的第一类别标签确定，两个损失函数中的另一个损失函数根据多任务联合模型预测的音频帧对应的音素为全音素中每个音素的概率以及音频帧对应的第二类别标签确定。

步骤S102：以音频数据包含的音频帧对应的第一信息和第二信息为依据，对音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别。

具体的，以音频数据包含的音频帧对应的第一信息和第二信息为依据，对音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别的过程可以包括：

步骤b1、针对每个待判别的音频帧，根据该音频帧对应的第一信息，对该音频帧进行静音帧、非静音帧的判别。

上述内容提到，第一信息可以包括对应音频帧分别为静音帧和非静音帧的声学得分，有鉴于此，针对待判别的音频帧，可根据该音频帧分别为静音帧和非静音帧的声学得分判别该音频帧为静音帧还是非静音帧，具体的，若该音频帧为静音帧的声学得分大于该音频帧为非静音帧的声学得分，则判定该音频帧为静音帧，否则，判定该音频帧为非静音帧。

可选的，第一信息还可以包括对应音频帧的帧能量，有鉴于此，针对待判别的音频帧，可根据该音频帧分别为静音帧和非静音帧的声学得分以及该音频帧的帧能量判别该音频帧为静音帧还是非静音帧，具体的，若该音频帧的帧能量小于预设的帧能量阈值，且该音频帧为静音帧的声学得分大于该音频帧为非静音帧的声学得分，则判定该音频帧为静音帧，否则，判定该音频帧为非静音帧。

步骤b2、在判定该音频帧为非静音帧时，根据该音频帧对应的第二信息对该音频帧进行噪声帧和语音帧的判别。

上述内容提到，第一信息可以为对应音频帧对应的全音素得分，有鉴于此，针对待判别的音频帧，可根据该音频帧对应的全音素得分判别该音频帧为噪声帧还是语音帧，具体的，若该音频帧对应的全音素声学得分中的最大声学得分小于预设声学得分阈值，则判定该音频帧为噪声帧，若该音频帧对应的全音素声学得分中的最大声学得分大于或等于预设声学得分阈值，则判定该音频帧为语音帧。

步骤S103：根据音频数据包含的音频帧对应的判别结果，检测语音前端点和语音后端点。

具体的，当音频数据中出现连续第一预设帧数的语音帧时，确定检测到语音前端点，将连续第一预设帧数的语音帧中的首个语音帧确定为语音前端点，在检测到语音前端点后，若音频数据中出现连续第二预设帧数的非语音帧，则确定检测到语音后端点，将连续第二预设帧数的非语音帧中的首个非语音帧的前向相邻语音帧确定为语音后端点。可选的，第一预设帧数可以但不限定为区间[10，20]内的整数，第二预设帧数可以但不限定为区间[30，40]内的整数。

示例性的，第一预设帧数为20，第二预设帧数为40，假设判别出音频数据的第11～30个音频帧为语音帧，则可确定检测到语音前端点，将第11个音频帧确定为语音前端点，在检测到语音前端点后，假设检测到第60个音频帧之后的连续40个音频帧均为非语音帧，则可确定检测到语音后端点，将第60个音频帧确定为语音后端点。

需要说明的是，若没有检测到语音前端点，则判断前静音时长是否超过预设的前静音超时门限，若超过预设的前静音超时门限，则结束检测。

本申请实施例提供的语音端点检测方法，在获得待检测的音频数据后，首先获取音频数据包含的音频帧对应的第一信息(第一信息能够指示对应音频帧为静音帧还是非静音帧)和第二信息(第二信息为对应音频帧的发音信息)，然后以音频数据包含的音频帧对应的第一信息和第二信息为依据，对音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别，最后根据音频数据包含的音频帧对应的判别结果，检测语音前端点和语音后端点。本申请实施例提供的语音端点检测方法可判别出音频数据包含的音频帧为静音帧、噪声帧还是语音帧，即，本申请请实施例可检测出音频数据所包含音频帧的较为精准的属性，在此基础上进行语音前端点和语音后端点的检测，能够获得较为准确的语音端点检测结果。相比于现有的语音端点检测方法，本申请实施例提供的语音端点检测方法提高了语音端点的检测准确率，为后续语音段的的使用打下了坚实的基础。

第二实施例

在某些应用场景，在检测到语音后端点后，需要检测后静音时长，在检测到后静音时长大于设置的后静音超时门限时，触发后静音超时事件，以便某应用在接收到后静音超时事件后执行一些操作。

比如，在录音场景中，电子设备上的语音助手通常需要在用户说完具有完整语义的一句话后，能够自动停止录音，以便识别用户说话内容，进而对识别内容进行语义识别和后续操作，目前，自动停止录音的方式为，设置固定的后静音超时门限，比如800ms，在检测到语音后端点后，检测后静音时长，若后静音时长超过后静音超时门限比如800ms，则触发后静音超时事件，当语音助手接收到后静音超时事件时，停止录音。目前，统计现网用户行为发现，基于800ms触发后静音超时事件，大约95％用户说的话具有完整语义，大约4％用户说的话语义不完整，如果在大部分用户说完完整语义的话之后能够更快的触发后静音超时事件，而对于用户未表达完整的语义能够设置更长的后静音超时门限，给用户思考的时间，这样能够提升用户体验。

有鉴于此，本申请提供了另一种语音端点检测方法，请参阅图2，示出了该语音端点检测方法的流程示意图，可以包括：

步骤S201：在获得待检测的音频数据后，获取音频数据包含的音频帧对应的第一信息和第二信息。

其中，第一信息能够指示对应音频帧为静音帧还是非静音帧，第二信息为对应音频帧的发音信息。可选的，第一信息可以为对应音频帧分别为静音帧和非静音帧的得分，第二信息可以为对应音频帧对应的全音素声学得分。

步骤S202：以音频数据包含的音频帧对应的第一信息和第二信息为依据，对音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别。

步骤S203：根据音频数据包含的音频帧对应的判别结果，检测语音前端点。

需要说明的是，若没有检测到语音前端点，则判断前静音时长是否超过预设的前静音超时门限，若超过预设的前静音超时门限，则结束检测，若检测到语音前端点，则执行后续步骤。

步骤S204：在检测到语音前端点后，将从语音前端点开始的语音段识别为文本，并在识别过程中同步根据音频数据包含的音频帧对应的判别结果检测语音后端点，在完成语音前端点至语音后端点的识别后，结束识别，得到识别文本和识别文本对应的置信度。

需要说明的是，步骤S201～步骤S203和步骤S204中“根据音频数据包含的音频帧对应的判别结果检测语音后端点”的具体实现过程和相关解释说明可参见上述实施例中步骤S101～步骤S103的具体实现过程和相关解释说明，本实施例在此不做赘述。

其中，将从语音前端点开始的语音段识别为文本，以得到识别文本和识别文本对应的置信度的过程可以包括：

步骤c1、从语音前端点开始，将语音帧对应的第二信息(比如语音帧对应的全音素得分)经预先构建的音素级网络进行解码。

可选的，可以利用维特比(Viterbi)、DTW等解码算法中的任一种解码算法进行解码。

需要说明的是，在解码的过程中同步检测语音后端点，在检测到语音后端点并完成对语音后端点对应的第二信息(比如语音帧对应的全音素得分)的解码后，结束解码。

步骤c1中的音素级网络根据第一语料集中的第一语料和第二语料集中的第二语料构建，其中，第一语料集中包括多个第一语料，第一语料为语义不完整、需要长时等待再触发后静音超时事件的语料，比如，“我想一下”、“我想找一个”等，第二语料集中包括多个第二语料，第二语料为语义完整、不需要长时等待即可触发后静音超时事件的语料，比如，“打电话报警”、“立刻关机”等。

具体的，根据第一语料集中的第一语料和第二语料集中的第二语料构建音素级网络的过程可以包括：

步骤d1、将第一语料集中的第一语料和第二语料集中的第二语料并联，得到句级网络。

其中，每个语料为句级网络中的一个节点。

需要说明的是，步骤d1是将两个语料集中的所有语料并联在一起，不需要对第一语料和第二语料区分处理。

请参阅图3，示出了句级网络的一示例的示意图，图3示出的句级网络通过将语料“打电话给张三”与语料“打电话给李四”并联得到，句级网络的开始是一个静音节点，句级网络中每个语料以一静音节点结束。

步骤d2、将句级网络中的每个语料扩展成单字，得到初始字级网络。

其中，每个单字为初始字级网络中的一个节点。

请参阅图4，示出了将图3示出的句级网络中的每个语料扩展成单字得到的初始字级网络的示意图，如图4所示，将“打电话给张三”扩展成单字为“打”、“电”、“话”、“给”、“张”、“三”，“打电话给李四”同样如此，初始字级网络中除静音节点外的每个节点为语料中的一个字。

步骤d3、对初始字级网络中的节点和路径进行合并，得到最终的字级网络。

鉴于初始字级网络中的某些路径存在相同节点，本实施例对不同路径的相同节点进行合并，在合并节点时不可避免的进行路径合并。可选的，可采用有向图合并算法对初始字级网络中的节点和路径进行合并。

如图4所示，图4中的两条路径上具有相同的节点“打”、“电”、“话”、“sil”，为此，需要对初始字级网络进行路径和节点合并，图5示出了对图4示出的初始字级网络进行节点和路径合并后的结果，如图5所示，通过节点和路径的合并，去除了冗余节点和路径，简化了字级网络的网络结构。

步骤d3、将最终的字级网络中的每个单字扩展成音素，得到初始音素级网络。

其中，每个音素为初始音素级网络中的一个节点。

可选的，可将最终的字级网络中的每个单字扩展成单音子音素，以图5中的节点“打”为例，将“打”扩展成单音子音素为“d”和“a”，本实施例并不限定于此，也可将最终的字级网络中的每个单字扩展成多音子音素，比如双音子音素、三音子音素，同样以图5中的节点“打”为例，将“打”扩展成双音子音素后为“sil-d”、“d+a”，将“打”扩展成三音子音素后为“sil-d+a”、“d-a+d”。

步骤d4、对初始音素级网络中的节点和路径进行合并，得到最终的音素级网络。

与初始字级网络类似，初始音素级网络中的不同路径上也可能存在相同节点，为此，本实施例对初始音素级网络的不同路径上的相同节点进行合并，在合并节点时不可避免的进行路径合并。可选的，可采用有向图合并算法对初始音素级网络中的节点和路径进行合并。

步骤c2、通过回溯最优解码路径，获取最优解码结果和最优解码结果对应的置信度，将最优解码结果作为识别文本，将最优解码结果对应的置信度作为识别文本对应的置信度。

步骤S205：根据识别文本的语义和识别文本对应的置信度，设置后静音超时门限，并基于设置的后静音超时门限触发后静音超时事件。

具体的，根据识别文本的语义和识别文本对应的置信度，设置后静音超时门限的过程可以包括：

步骤e1、根据识别文本的语义和识别文本对应的置信度，从设定的语义场景中确定识别文本的语义场景。

其中，设定的语义场景可以包括第一场景、第二场景和默认场景，每个场景具有对应的后静音超时门限，第一场景对应的后静音超时门限大于默认场景对应的默认后静音超时门限，第二场景对应的后静音超时门限小于默认场景对应的默认后静音超时门限。需要说明的是，默认场景对应的默认后静音超时门限可根据具体的业务场景设定，比如上述的录音场景，可将默认场景对应的默认后静音超时门限设置为800ms，基于此，设置第一场景对应的后静音超时门限大于800ms，设置第二场景对应的后静音超时门限小于800ms。

具体的，根据识别文本的语义和识别文本对应的置信度，从设定的语义场景中确定识别文本的语义场景的过程可以包括：

步骤e1-1、根据识别文本对应的置信度，确定识别文本是否可信。

具体的，若识别文本对应的置信度大于或等于预设置信度阈值，则确定识别文本可信，若识别文本对应的置信度小于预设置信度阈值，则确定识别文本不可信。

步骤e1-2a、若识别文本不可信，则确定识别文本的语义场景为默认场景。

步骤e1-2b-1、若识别文本可信，则确定识别文本与第一语料集中第一语料的语义相似度以及识别文本与第二语料集中第二语料的语义相似度。

具体的，在确定识别文本与一语料的相似度时，可首先获取识别文本中各个词的表示向量以及该语料中各个词的表示向量，然后对识别文本中各个词的表示向量进行编码，得到识别文本的语义表征向量，同样的，对该语料中各个词的表示向量进行编码，得到该语料的语义表征向量，最后根据识别文本的语义表征向量和该语料的语义表征向量确定识别文本与语料的语义相似度。可选的，可采用MLP、CNN、RNN、Self-attention、Transformer encoder、BERT等中的任一个对识别文本中各个词的表示向量进行编码，以及对语料中各个词的表示向量进行编码。在根据识别文本的语义表征向量和语料的语义表征向量确定识别文本与语料的相似度时，可计算识别文本的语义表征向量与语料的语义表征向量的余弦相似度、高斯距离等。

步骤e1-2b-2、根据确定出的语义相似度，从设定的语义场景中确定识别文本的语义场景。

具体的，根据确定出的语义相似度，从设定的语义场景中确定识别文本的语义场景的过程可以包括：若确定出的语义相似度中的最大语义相似度大于或等于预设相似度阈值，可确定识别文本的语义场景为第一场景和第二场景中的一个，进一步的，若最大语义相似度为识别文本与第一语料的相似度，则确定识别文本的语义场景为第一场景，若最大语义相似度为识别文本与第二语料的语义相似度，则确定识别文本的语义场景为第二场景；若最大语义相似度小于预设相似度阈值，则确定识别文本结果的语义场景为默认场景。

步骤e2、根据识别文本的语义场景，设置后静音超时门限。

具体的，根据识别文本的语义场景，设置后静音超时门限的过程可以包括：若识别文本的语义场景为第一场景，则将后静音超时门限设置为第一场景对应的后静音超时门限；若识别文本的语义场景为第二场景，则将后静音超时门限设置为第二场景对应的后静音超时门限；若识别文本的语义场景为默认场景，则将后静音超时门限设置为默认场景对应的默认后静音超时门限。需要说明的是，在识别文本的语义场景为第一场景时，将后静音超时门限设置为第一场景对应的后静音超时门限，能够更快的触发后静音超时事件，在识别文本的语义场景为第二场景时，将后静音超时门限设置为第二场景对应的后静音超时门限，能够为用户留有思考时间，确保获取到用户语义完整的话。

在根据识别文本的语义场景，设置后静音超时门限后，便可基于设置的后静音超时门限触发后静音超时事件，具体的，判断后静音时长是否超过设置的后静音超时门限，若是，则结束检测，触发后静音超时事件，需要说明的是，若后静音时长没有超过设置的后静音超时门限，则继续检测语音前端点，若检测到语音前端点，则继续执行步骤S204，若没有检测到语音前端点，则继续执行“判断后静音时长是否超过设置的后静音超时门限”，直至检测到后静音时长超过设置的后静音超时门限或者不存在可检测的音频数据。

本申请实施例提供的语音端点检测方法，可判别出音频数据包含的音频帧为静音帧、噪声帧还是语音帧，即，本申请实施例可检测出音频数据所包含音频帧的较为精准的属性，在此基础上进行语音前端点和语音后端点的检测，能够获得较为准确的检测结果。在实现语音端点检测的基础上，本申请可获取语音段的识别文本，并可根据识别文本的语义确定识别文本的语义场景，进而可根据识别文本的语义场景设置合适的后静音超时门限，从而基于合适的后静音超时门限触发后静音超时事件，以提升用户体验。

第三实施例

本申请实施例还提供了一种语音端点检测装置，下面对本申请实施例提供的语音端点检测装置进行描述，下文描述的语音端点检测装置与上文描述的语音端点检测方法可相互对应参照。

请参阅图6，示出了本申请实施例提供的语音端点检测装置的结构示意图，可以包括：判别信息获取模块601、音频帧判别模块602和语音端点检测模块603。

判别信息获取模块601，用于在获得待检测的音频数据后，获取所述音频数据包含的音频帧对应的第一信息和第二信息。

其中，所述第一信息能够指示对应音频帧为静音帧还是非静音帧，所述第二信息为对应音频帧的发音信息。

音频帧判别模块602，用于以所述音频数据包含的音频帧对应的第一信息和第二信息为依据，对所述音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别。

语音端点检测模块603，用于根据所述音频数据包含的音频帧对应的判别结果，检测语音前端点和语音后端点。

可选的，本申请实施例提供的语音端点检测装置还可以包括：语音段识别模块、后静音超时门限设置模块和后静音超时事件触发模块。

所述语音段识别模块，用于在所述语音端点检测模块检测到所述语音前端点后，将从所述语音前端点开始的语音段识别为文本，以得到识别文本和所述识别文本对应的置信度。

所述后静音超时门限设置模块，用于根据所述识别文本的语义和所述识别文本对应的置信度，设置后静音超时门限。

可选的，判别信息获取模块601在获取所述音频数据包含的音频帧对应的第一信息和第二信息时，具体用于：

利用预先建立的多任务联合模型，预测所述音频数据包含的音频帧分别为静音帧和非静音帧的声学得分，以及所述音频数据包含的音频帧对应的全音素声学得分。

可选的，音频帧判别模块602包括第一判别子模块和第二判别子模块。

所述第一判别子模块，用于针对待判别的音频帧，根据该音频帧对应的第一信息，对该音频帧进行静音帧、非静音帧的判别。

所述第二判别子模块，用于在判定该音频帧为非静音帧时，根据该音频帧对应的第二信息对该音频帧进行噪声帧、语音帧的判别。

可选的，所述第二判别子模块在根据该音频帧对应的第二信息对该音频帧进行噪声帧、语音帧的判别时，具体用于：

若该音频帧对应的全音素声学得分中的最大声学得分小于所述预设声学得分阈值，则判定该音频帧为噪声帧；若该音频帧对应的全音素声学得分中的最大声学得分大于或等于预设声学得分阈值，则判定该音频帧为语音帧。

可选的，语音段识别模块包括：解码模块和解码结果获取模块。

所述解码模块，用于从所述语音前端点开始，将语音帧对应的第二信息经预先构建的音素级网络进行解码，在检测到所述语音后端点并完成对所述语音后端点对应的第二信息的解码后，结束解码，其中，解码与语音后端点检测同步进行，所述音素级网络根据第一语料集中的第一语料和第二语料集中的第二语料构建，所述第一语料为语义不完整、需要长时等待再触发后静音超时事件的语料，所述第二语料为语义完整、不需要长时等待即可触发后静音超时事件的语料。

所述解码结果获取模块，用于通过回溯最优解码路径，获取最优解码结果和所述最优解码结果对应的置信度，作为所述识别文本和所述识别文本对应的置信度。

可选的，本申请实施例提供的语音端点检测装置还可以包括：音素级网络构建模块。

音素级网络构建模块用于根据第一语料集中的第一语料和第二语料集中的第二语料构建音素级网络。

可选的，音素级网络构建模块在根据第一语料集中的第一语料和第二语料集中的第二语料构建音素级网络时，具体用于：

将所述第一语料集中的第一语料和所述第二语料集中的第二语料并联，得到句级网络，每个语料为所述句级网络中的一个节点；将所述句级网络中的每个语料扩展成单字，得到初始字级网络，每个单字为所述初始字级网络中的一个节点；对所述初始字级网络中的节点和路径进行合并，得到最终的字级网络；将所述最终的字级网络中的每个单字扩展成音素，得到初始音素级网络，每个音素为所述初始音素级网络中的一个节点；对所述初始音素级网络中的节点和路径进行合并，得到最终的音素级网络。

可选的，所述后静音超时门限设置模块包括：语义场景确定子模块和后静音超时门限设置子模块。

所述语义场景确定子模块，用于根据所述识别文本的语义和所述识别文本对应的置信度，从设定的语义场景中确定所述识别文本的语义场景。

所述后静音超时门限设置子模块，用于根据所述识别文本的语义场景，设置后静音超时门限。

可选的，所述语义场景确定子模块在根据所述识别文本的语义和所述识别文本对应的置信度，从设定的语义场景中确定所述识别文本的语义场景时，具体用于：

根据所述识别文本对应的置信度，确定所述识别文本是否可信；若所述识别文本不可信，则确定所述识别文本的语义场景为默认场景；若所述识别文本可信，则确定所述识别文本与所述第一语料集中第一语料的语义相似度以及所述识别文本与所述第二语料集中第二语料的语义相似度；根据确定出的语义相似度，从所述设定的语义场景中确定所述识别文本的语义场景。

可选的，所述语义场景确定子模块在根据确定出的语义相似度，从所述设定的语义场景中确定所述识别文本的语义场景时，具体用于：

若确定出的语义相似度中的最大语义相似度大于或等于预设相似度阈值，且所述最大语义相似度为所述识别文本与第一语料的相似度，则确定所述识别文本的语义场景为所述第一场景；若所述最大语义相似度大于或等于所述预设相似度阈值，且所述最大语义相似度为所述识别文本与第二语料的语义相似度，则确定所述识别文本的语义场景为所述第二场景；若所述最大语义相似度小于所述预设相似度阈值，则确定所述识别文本结果的语义场景为所述默认场景。

可选的，所述后静音超时门限设置子模块在根据所述识别文本的语义场景，设置后静音超时门限时，具体用于：

若所述识别文本的语义场景为所述第一场景，则将后静音超时门限设置为所述第一场景对应的后静音超时门限；若所述识别文本的语义场景为所述第二场景，则将后静音超时门限设置为所述第二场景对应的后静音超时门限；若所述识别文本的语义场景为所述默认场景，则将后静音超时门限设置为所述默认场景对应的默认后静音超时门限。

本申请实施例提供的语音端点检测装置，可根据待检测的音频数据包含的音频帧对应的第一信息(第一信息能够指示对应音频帧为静音帧还是非静音帧)和第二信息(第二信息为对应音频帧的发音信息)判别出音频数据包含的音频帧为静音帧、噪声帧还是语音帧，即，本申请实施例可检测出音频数据所包含音频帧的较为精准的属性，在此基础上进行语音前端点和语音后端点的检测，能够获得较为准确的检测结果。在实现语音端点检测的基础上，本申请实施例提供的语音端点检测装置可获取语音段的识别文本，并可根据识别文本的语义确定识别文本的语义场景，进而可根据识别文本的语义场景设置合适的后静音超时门限，从而基于合适的后静音超时门限触发后静音超时事件，以提升用户体验。

第四实施例

本申请实施例还提供了一种语音端点检测设备，请参阅图7，示出了该语音端点检测设备的结构示意图，该语音端点检测设备可以包括：至少一个处理器701，至少一个通信接口702，至少一个存储器703和至少一个通信总线704；

在本申请实施例中，处理器701、通信接口702、存储器703、通信总线704的数量为至少一个，且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信；

处理器701可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器703可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第五实施例

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音端点检测方法，其特征在于，包括：

2.根据权利要求1所述的语音端点检测方法，其特征在于，还包括：

3.根据权利要求1或2所述的语音端点检测方法，其特征在于，所述获取所述音频数据包含的音频帧对应的第一信息和第二信息，包括：

4.根据权利要求3所述的语音端点检测方法，其特征在于，所述以所述音频数据包含的音频帧对应的第一信息和第二信息为依据，对所述音频数据包含的音频帧进行静音帧、噪声帧和语音帧的判别，包括：

5.根据权利要求4所述的语音端点检测方法，其特征在于，所述根据该音频帧对应的第二信息对该音频帧进行噪声帧、语音帧的判别，包括：

6.根据权利要求2所述的语音端点检测方法，其特征在于，所述将从所述语音前端点开始的语音段识别为文本，以得到识别文本和所述识别文本对应的置信度，包括：

7.根据权利要求6所述的语音端点检测方法，其特征在于，根据第一语料集中的第一语料和第二语料集中的第二语料构建音素级网络，包括：

8.根据权利要求2所述的语音端点检测方法，其特征在于，所述根据所述识别文本的语义和所述识别文本对应的置信度，设置后静音超时门限，包括：

根据所述识别文本的语义场景，设置后静音超时门限；

9.根据权利要求8所述的语音端点检测方法，其特征在于，所根据所述识别文本的语义和所述识别文本对应的置信度，从设定的语义场景中确定所述识别文本的语义场景，包括：

10.根据权利要求9所述的语音端点检测方法，其特征在于，所述根据确定出的语义相似度，从所述设定的语义场景中确定所述识别文本的语义场景，包括：

11.根据权利要求8所述的语音端点检测方法，其特征在于，所述根据所述识别文本的语义场景，设置后静音超时门限，包括：

12.一种语音端点检测装置，其特征在于，包括：判别信息获取模块、音频帧判别模块和语音端点检测模块；

13.根据权利要求12所述的语音端点检测装置，其特征在于，还包括：语音段识别模块、后静音超时门限设置模块和后静音超时事件触发模块；

14.一种语音端点检测设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～11中任一项所述的语音端点检测方法的各个步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～11中任一项所述的语音端点检测方法的各个步骤。