CN111710332B

CN111710332B - 语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN111710332B
Application number: CN202010612566.5A
Authority: CN
Inventors: 曲贺; 王晓瑞; 李岩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-07-07
Anticipated expiration: 2040-06-30
Also published as: CN111710332A

Abstract

本公开关于一种语音处理方法、装置、电子设备及存储介质，所述方法包括：获取待识别语音，对待识别语音进行分帧处理，得到多个待检测音帧；提取每个待检测音帧分别对应的语音特征；对每个语音特征进行识别，得到每个待检测音帧的检测结果；根据检测结果，对待识别语音进行切分，得到多个目标语音片段，其中，每个目标语音片段的长度小于或者等于第一阈值，且相邻的目标语音片段的长度之和大于或等于第二阈值。通过该方法得到的每个目标语音片段的长度在指定的长度范围之内，可以提高目标语音片段的语音识别效率；同时，由于相邻目标语音片段的长度之和大于或等于第二阈值，使得目标语音片段具有一定的上下文信息，从而可以提高语音识别的准确率。

Description

语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及语音识别技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能的发展，语音识别已经广泛应用于各行各业。在语音识别***中，语音端点检测技术(VAD，Voice Activity Detection)发挥着重要作用。由于语音信号中存在着大量的非语音片段，例如静音，各种噪声等，严重干扰语音识别的性能，增加了语音识别***的负担。因此，在语音识别时，往往先通过语音识别***进行语音的端点检测。即，给定连续输入的语音信号，输出其中的语音片段的起始点和结束点，从而可以过滤掉静音，噪音等非语音片段，提高语音识别***的性能。

相关技术中，进行语音端点检测常采用深度学习技术。具体的，是对输入的语音帧提取语音特征；将语音特征输入至语音活动性检测VAD分类模型，得到语音帧的分类结果；根据语音帧的分类结果，确定语音的起点和终点。但是，相关技术中，根据所得到的一段语音的起点和终点进行语音识别，存在语音识别准确率和效率不能兼得的问题。

发明内容

本公开提供一种语音处理方法、装置、电子设备及存储介质，以至少解决相关技术中语音片段的语音长度太短时，语音识别不够准确的问题，或者语音片段的语音长度太长时，语音识别效率不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音处理方法，包括：

获取待识别语音，对待识别语音进行分帧处理，得到多个待检测音帧；

提取每个待检测音帧分别对应的语音特征；

对每个待检测音帧分别对应的语音特征进行分类识别，得到每个待检测音帧的检测结果；

根据检测结果，对待识别语音进行切分，得到多个目标语音片段，其中，每个目标语音片段的长度小于或者等于第一阈值，且相邻的目标语音片段的长度之和大于或等于第二阈值。

在其中一个实施例中，根据检测结果，对待识别语音进行切分，得到多个目标语音片段，包括：

根据检测结果对待识别语音进行切分，得到多个原始语音片段，原始语音片段的长度小于或者等于第一阈值；

对原始语音片段进行片段融合，得到多个目标语音片段，其中，相邻的目标语音片段的长度之和大于或等于第二阈值。

在其中一个实施例中，根据检测结果对待识别语音进行切分，得到多个原始语音片段，包括：

根据检测结果确定当前原始语音片段中的第一个语音帧，作为当前原始语音片段的起始点；

从起始点开始，根据检测结果确定当前原始语音片段中的语音帧和非语音帧，当前原始语音片段的长度为语音帧长度和非语音帧长度之和；

当检测到当前原始语音片段的长度达到第一阈值时，或者当检测到当前原始语音片段未达到第一阈值，但当前原始语音片段中的非语音帧长度大于随当前语音帧长度变化的第一值时，则

将当前原始语音片段中的最后一个待检测音帧作为当前原始语音片段的结束点，以此类推，得到每个原始语音片段。

在其中一个实施例中，检测结果包括非语音帧概率；根据检测结果确定当前原始语音片段中的语音帧和非语音帧，包括：

获取当前原始语音片段中的当前待检测音帧的非语音帧概率；

获取更新的当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新随当前语音帧长度变化的第二值；

将当前待检测音帧的非语音帧概率与第二值进行比较，根据比较结果确定当前待检测音帧的语音分类结果，语音分类结果包括语音帧和非语音帧。

在其中一个实施例中，根据检测结果确定当前原始语音片段中的语音帧和非语音帧，还包括：

当确定当前待检测音帧的语音分类结果为语音帧时，更新当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新第一值。

在其中一个实施例中，当前语音帧长度越大，则第一值越小；当前语音帧长度越大，则第二值越小。

在其中一个实施例中，对原始语音片段进行片段融合，得到多个目标语音片段，包括：

遍历每个原始语音片段，当确定相邻的原始语音片段的长度之和小于第二阈值时，则合并相邻的原始语音片段；

更新融合后的原始语音片段的长度，直至确定所有相邻的语音片段的长度之和大于或等于第二阈值，得到多个目标语音片段。

根据本公开实施例的第二方面，提供一种语音处理装置，其特征在于，包括：

分帧模块，被配置为执行获取待识别语音，对待识别语音进行分帧处理，得到多个待检测音帧；

特征提取模块，被配置为执行提取每个待检测音帧分别对应的语音特征；

分类识别模块，被配置为执行对每个待检测音帧分别对应的语音特征进行分类识别，得到每个待检测音帧的检测结果；

语音片段生成模块，被配置为执行根据检测结果，对待识别语音进行切分，得到多个目标语音片段，其中，每个目标语音片段的长度小于或者等于第一阈值，且相邻的目标语音片段的长度之和大于或等于第二阈值。

在其中一个实施例中，语音片段生成模块，包括：

语音片段切分模块，被配置为执行根据检测结果对待识别语音进行切分，得到多个原始语音片段，原始语音片段的长度小于或者等于第一阈值；

片段融合模块，被配置为执行对原始语音片段进行片段融合，得到多个目标语音片段，其中，相邻的目标语音片段的长度之和大于或等于第二阈值。

在其中一个实施例中，语音片段切分模块，包括：

起始点确定单元，被配置为执行根据检测结果确定当前原始语音片段中的第一个语音帧，作为当前原始语音片段的起始点；

音帧确定单元，被配置为执行从起始点开始，根据检测结果确定当前原始语音片段中的语音帧和非语音帧，当前原始语音片段的长度为语音帧长度和非语音帧长度之和；

判断单元，被配置为执行判断当前原始语音片段的长度是否达到第一阈值，或者当检测到当前原始语音片段未达到所述第一阈值时，判断当前原始语音片段中的非语音帧长度是否大于随当前语音帧长度变化的第一值；

结束点确定单元，被配置为执行将当前原始语音片段中的最后一个待检测音帧作为当前原始语音片段的结束点，以此类推，得到每个原始语音片段。

在其中一个实施例中，音帧确定单元，包括：

获取单元，被配置为执行获取当前原始语音片段中的当前待检测音帧的非语音帧概率；

第二值更新单元，被配置为执行获取更新的当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新随当前语音帧长度变化的第二值；

比较单元，被配置为执行将当前待检测音帧的非语音帧概率与第二值进行比较，根据比较结果确定当前待检测音帧的语音分类结果，语音分类结果包括语音帧和非语音帧。

在其中一个实施例中，音帧确定单元，还包括：

第一值更新单元，被配置为执行当确定当前待检测音帧的语音分类结果为语音帧时，更新当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新第一值。

在其中一个实施例中，当前语音帧长度越大，则第一值越小；当前语音帧长度越大，则第二越小。

在其中一个实施例中，片段融合模块，被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面的任一项实施例中所述的语音处理方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面的任一项实施例中所述的语音处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的语音处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过对每个待检测音帧对应的语音特征进行分类识别，得到每个待检测音帧的检测结果；基于每个待检测音帧的检测结果，对待识别语音进行划分，得到多个目标语音片段。当目标语音片段的语音长度太长时，使每个目标语音片段的长度在指定的长度范围之内，可以提高每个目标语音片段的语音识别的效率；同时，通过使相邻的目标语音片段的长度之和大于或等于第二阈值，当目标语音片段的语音长度太短时，使得目标语音片段具有一定的上下文信息，从而可以提高语音识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种语音处理方法的应用环境图。

图2是根据另一示例性实施例示出的一种语音处理方法的应用环境图。

图3是根据一示例性实施例示出的一种语音处理方法的流程图。

图4是根据一示例性实施例示出的一种生成目标语音片段步骤的流程图。

图5是根据一示例性实施例示出的一种生成原始语音片段步骤的流程图。

图6是根据一示例性实施例示出的一种得到语音帧和非语音帧步骤的流程图。

图7是根据一示例性实施例示出的一种融合语音片段步骤的流程图。

图8是根据一示例性实施例示出的一种语音处理方法的流程图。

图9是根据一示例性实施例示出的一种对切分得到原始语音片段步骤的流程图。

图10是根据一示例性实施例示出的一种融合语音片段步骤的流程图。

图11是根据一示例性实施例示出的一种语音处理装置的框图。

图12是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的语音处理方法，可以应用于如图1所示的应用环境中。其中，音频采集设备110与终端120互相连接。音频采集设备110可以是单独的设备，也可以是终端120中的内置部件。终端120中部署有对待识别语音进行分帧处理和特征提取的预处理***；以及部署有已训练的深度学***板电脑和便携式可穿戴设备。

在另一个示例性实施例中，本公开所提供的语音处理方法，还可以应用于如图2所示的应用环境中。其中，终端210和服务器220通过网络进行交互。用于语音处理的预处理***、深度学***板电脑和便携式可穿戴设备，服务器220可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图3是根据一示例性实施例示出的一种语音处理方法的流程图，如图3所示，语音处理方法用于服务器220中，包括以下步骤。

在步骤S310中，获取待识别语音，对待识别语音进行分帧处理，得到多个待检测音帧。

在步骤S320中，提取每个待检测音帧分别对应的语音特征。

其中，待识别语音是指待进行语音处理的语音。具体地，在获取待识别语音后，对待识别语音进行分帧处理以及特征提取，得到待识别语音对应的多个语音特征。对待识别语音进行分帧处理以及特征提取可以通过以下方式实现。首先，通过一个高通滤波器对待识别语音进行预加重。由于语音信号具有短时平稳性，可以将语音信号按照时间步长进行分帧处理，每一个时间步长称为一帧，每一帧对应的时间步长可以取预设数值，例如20～30ms之间任意数值。为了避免相邻两帧的变化过大，因此可以在两相邻帧之间设置一段重叠区域。然后，将每一帧进行加窗处理，以增加帧左端和右端的连续性，例如使用25ms的窗口进行计算，每10ms进行移位。接着，对加窗后的语音信号进行傅里叶变换得到频谱图并进行滤波，使频谱图更为紧凑。最后，可以使用谱或者倒谱分析得到每个待检测音帧分别对应的语音特征。

在步骤S330中，对每个待检测音帧分别对应的语音特征进行分类识别，得到每个待检测音帧的检测结果。

具体地，可以采用已训练的深度学习网络对每个待检测音帧分别对应的语音特征进行分类识别。深度学习网络可以是任何能够用于语音特征分类的网络，例如，循环神经网络、卷积神经网络，或者循环神经网络和卷积神经网络组合构成的网络。在得到每个待检测音帧的对应的语音特征后，采用已训练的深度学习网络对每个待检测音帧对应的语音特征进行识别，得到检测结果。检测结果中包含每个类别的概率。类别可以有多个，不限于包括语音、静音、噪音等。

在步骤S340中，根据检测结果，对待识别语音进行切分，得到多个目标语音片段，其中，每个目标语音片段的长度小于或者等于第一阈值，且相邻的目标语音片段的长度之和大于或等于第二阈值。

其中，第一阈值和第二阈值可以是预先配置的数值。第一阈值可以使用时间表征，或者使用音帧的数量表征，在此不做限定。第一阈值和第二阈值可以相等，也可以不相等，依实际情况而定。具体地，在获取每个待检测音帧的检测结果后，可以根据检测结果确定每个待检测音帧所属的类别，进而定位到待检测音帧中的语音帧。根据语音帧的分布，对待识别语音进行划分，得到多个长度小于或者等于第一阈值，且相邻的长度之和大于或等于第二阈值的多个目标语音片段。

上述语音处理方法中，通过对每个待检测音帧对应的语音特征进行分类识别，得到每个待检测音帧的检测结果；基于每个待检测音帧的检测结果，对待识别语音进行划分，得到多个目标语音片段。当目标语音片段的语音长度太长时，使每个目标语音片段的长度在指定的长度范围之内，可以提高每个目标语音片段的语音识别的效率；同时，通过使相邻的目标语音片段的长度之和大于或等于第二阈值，当目标语音片段的语音长度太短时，使得目标语音片段具有一定的上下文信息，从而可以提高语音识别的准确率。

在一示例性实施例中，如图4所示，在步骤S340中，根据检测结果，对待识别语音进行切分，得到多个目标语音片段，可以通过以下步骤实现：

在步骤S410中，根据检测结果对待识别语音进行切分，得到多个原始语音片段，原始语音片段的长度小于或者等于第一阈值。

具体地，在获取深度学习网络输出的每个待检测音帧的检测结果后，可以根据该检测结果对每个待检测音帧进行识别，确定每个待检测音帧的类别，类别不限于包含语音帧和非语音帧。然后，根据待检测音帧的类别识别结果，对多个待检测音帧进行切分得到多个原始语音片段。示例性地，若根据待检测音帧的检测结果确定存在连续的待检测音帧均为语音帧，或者连续的待检测音帧中语音帧占比大于一定比例时，判断该连续的待检测音帧的长度不超过第一阈值，可以直接切分该连续的待检测音帧，作为一个原始语音片段。当判断连续的待检测音帧为语音帧，且长度大于第一阈值，则可以对该连续的待检测音帧进行切分，得到多个原始语音片段，每个原始语音片段的长度不超过第一阈值。进一步地，得到多个原始语音片段后，可以将每个原始语音片段的第一个待检测音帧作为每个原始语音片段的起始点，每个原始语音片段中的最后一个待检测音帧作为每个原始语音片段的结束点。

在步骤S420中，对原始语音片段进行片段融合，得到多个目标语音片段，其中，相邻的目标语音片段的长度之和大于或等于第二阈值。

具体地，在获得到多个原始语音片段后，根据相邻的原始语音片段的长度，对原始语音片段进行融合，直至所有的相邻的语音片段的长度之和大于或等于第二阈值，得到目标语音片段。

本实施例中，首先通过采用基于语音长度惩罚的方法，使得到的每个原始语音片段的长度在指定长度范围之内，可以提高每个语音片段的语音识别的效率；通过采用语音片段融合的方法，使相邻的语音片段的长度之和超过第二阈值，使得语音片段具有一定的上下文信息，从而可以提高语音识别的准确率。

在一示例性实施例中，如图5所示，在步骤S410中，根据检测结果对待识别语音进行切分，得到多个原始语音片段，可以通过以下步骤实现：

在步骤S411中，根据检测结果确定当前原始语音片段中的第一个语音帧，作为当前原始语音片段的起始点。

在步骤S412中，从起始点开始，根据检测结果确定当前原始语音片段中的语音帧和非语音帧，当前原始语音片段的长度为语音帧长度和非语音帧长度之和。

在步骤S413中，当检测到当前原始语音片段的长度达到第一阈值时，或者当检测到当前原始语音片段未达到第一阈值，但当前原始语音片段中的非语音帧长度大于随当前语音帧长度变化的第一值时，则执行步骤S414。

在步骤S414中，将当前原始语音片段中的最后一个待检测音帧作为当前原始语音片段的结束点，以此类推，得到每个原始语音片段。

其中，第一值随当前语音帧长度变化，用于判断当前原始语音片段中的非语音帧长度是否满足预设要求。第一值可以通过预先配置的第一函数得到。当前语音帧长度为第一函数的变量，当前语音帧长度变化时，根据该当前语音帧长度重新对第一函数进行计算，将得到的值作为第一值。具体地，通过深度学习网络可以输出每个待检测音帧对应的语音特征的类别概率。类别包含语音帧和非语音帧，则可以得到语音帧概率和非语音帧概率。根据该语音帧概率和非语音帧概率，可以确定待检测音帧是语音帧还是非语音帧。例如，当语音帧的概率大于0.6时，则确定该待检测音帧是语音帧。对于当前的原始语音片段，可以将检测到的第一个语音帧，作为当前原始语音片段的起始点。

从起始点开始，依次根据待检测音帧的检测结果，判断待检测音帧所属的类别。每检测一个待检测音帧，可以实时更新当前原始语音片段中的语音帧长度或者非语音帧长度。例如，若确定当前待检测音帧为语音帧，则更新语音帧长度，非语音帧长度保持不变，同时，根据更新后的语音帧长度计算第一函数，得到第一值；若确定当前待检测音帧为非语音帧，则更新非语音帧长度，语音帧长度保持不变。将已获取的语音帧长度和非语音帧长度之和，作为当前原始语音片段的长度。将当前原始语音片段的长度与第一阈值进行比较，当检测当前原始语音片段的长度达到第一阈值时，则输出该原始语音片段。或者，当检测当前原始语音片段的长度还未达到第一阈值，但是当前原始语音片段中，非语音帧长度大于随当前语音帧长度变化的第一值时，也输出该当前原始语音片段。将该当前原始语音片段的最后一个待检测音帧作为结束点。以此类推，直至检测到多个待检测音帧中的最后一帧，得到多个原始语音片段。

本实施例中，通过依次确定每个待检测音帧的类别，根据待检测音帧的类别实时更新当前原始语音片段的长度。在当前原始语音片段的长度达到第一阈值，或者当前原始语音片段的长度未达到第一阈值，但是当前原始语音片段中的非语音帧长度大于第一值时，切分得到当前原始语音片段。一方面，可以使获取的原始语音片段的长度都在指定长度范围内；另一方面，允许每个原始语音片段中包含一定数量的非语音帧，可以提高切分语音片段的效率。

在一示例性实施例中，如图6所示，检测结果包括非语音帧概率；在步骤S412中，根据检测结果确定当前原始语音片段中的语音帧和非语音帧，可以通过以下步骤实现：

在步骤S4121中，获取当前原始语音片段中的当前待检测音帧的非语音帧概率。

在步骤S4122中，获取更新的当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新随当前语音帧长度变化第二值。

在步骤S4123中，将当前待检测音帧的非语音帧概率与第二值进行比较，根据比较结果确定当前待检测音帧的语音分类结果，语音分类结果包括语音帧和非语音帧。

其中，第二值随当前语音帧长度变化，用于判断当前音帧是语音帧还是非语音帧。第二值可以通过预先配置的第二函数得到。当前语音帧长度为第二函数的变量，当前语音帧长度变化时，根据该当前语音帧长度重新对第二函数进行计算，将得到的值作为第二值。具体地，相关技术中，通常将深度学习网络输出的类别概率与阈值进行比较，确定待检测对象所属的类别。但是深度学习网络输出的检测结果通常存在一定的误差，因此，本实施例中，通过预先配置用于判断待检测音帧的类别的第二函数，可以提高待检测音帧的类别判断准确率。第二函数的值随当前原始语音片段中的当前语音帧长度而变。优选地，当前语音帧长度越大，第二函数的值越小。在对当前待检测音帧的类别进行判断时，获取当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新第二函数的值。将当前待检测音帧的非语音帧概率与第二函数的值进行比较，并根据比较结果确定当前待检测音帧的类别。可以通过以下公式确定当前待检测音帧的类别：x＞P(L)。其中，x代表当前待检测音帧的非语音帧概率，L代表当前原始语音片段中的当前语音帧长度，P(L)代表第二函数。若x＞P(L)，则当前待检测音帧为非语音帧；否则，当前待检测音帧为语音帧。以此类推，直至检测到当前原始语音片段的长度达到第一阈值；或者检测到当前原始语音片段未达到第一阈值，但当前原始语音片段中的非语音帧长度大于第一值。

对于第二值，可以设定一个初始值，在确定当前原始语音片段中起始点时(即第一个语音帧)，将当前待检测音帧的非语音帧概率与初始值进行比较，确定当前原始语音片段中的第一个语音帧。

本实施例中，通过预先配置值随当前原始语音片段中的当前语音帧长度可变的第二值，根据第二值动态判断当前待检测音帧的类别，可以提高当前待检测音帧的识别准确率，从而可以辅助提高语音识别的性能。

在一示例性实施例中，在步骤S412中，根据检测结果确定当前原始语音片段中的语音帧和非语音帧，还包括：当确定当前待检测音帧的语音分类结果为语音帧时，更新当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新第一值。

具体地，对于当前原始语音片段，当检测到当前原始语音片段的长度达到第一阈值时，或者当检测到当前原始语音片段未达到第一阈值，但当前原始语音片段中的非语音帧长度大于第一值时，则输出该当前原始语音片段。第一值随当前原始语音片段中的当前语音帧长度动态变化。优选地，当前语音帧长度越大，则第一值越小。在检测当前待检测音帧时，获取当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新第一值。本实施例中，通过预先配置随当前原始语音片段中的当前语音帧长度可变的第一值，根据第一值动态控制当前原始语音片段中非语音帧长度，可以提高原始语音片段中的语音帧占比，从而可以辅助提高语音识别的性能。

在一示例性实施例中，如图7所示，在步骤S420中，对原始语音片段进行片段融合，得到多个目标语音片段，可以通过以下步骤实现：

在步骤S421中，遍历每个原始语音片段，当确定相邻的原始语音片段的长度之和小于第二阈值时，则合并相邻的原始语音片段。

在步骤S422中，更新融合后的原始语音片段的长度，直至确定所有相邻的语音片段的长度之和大于或等于第二阈值，得到多个目标语音片段。

具体地，在得到多个原语音片段后，对多个原始语音片段进行循环遍历，计算当前原始语音片段与其相邻原始语音片段的长度之和，并将计算得到的长度之和与第二阈值进行比较。若长度之和小于第二阈值，则融合该相邻的两个原始语音片段，得到融合后的原始语音片段，并更新融合的原始语音片段的长度、起始点和结束点。重复遍历融合后的语音片段，直至所有相邻的语音片段的长度之和大于或等于第二阈值，得到多个目标语音片段。本实施例中，通过采用语音片段融合的方法对语音片段进行融合，使得目标语音片段具有一定的上下文信息，从而可以提高语音识别的准确率。

图8是根据一示例性实施例示出的一种具体的语音处理方法的流程图，如图8所示，包括以下步骤。

在步骤S810中，获取待识别语音，对待识别语音进行分帧处理，得到多个待检测音帧。

在步骤S820中，提取每个待检测音帧分别对应的语音特征。

在步骤S830中，将语音特征输入至深度学习网络，得到每个待检测音帧的语音帧概率和非语音帧概率。其中，深度学习网络可以为神经网络。

在步骤S840中，根据每个待检测音帧的非语音帧概率，对待识别语音进行切分，得到多个原始语音片段，每个原始语音片段的长度小于或等于第一阈值。

如图9所示，步骤S840可以通过以下步骤实现。

在步骤S841中，根据待检测音帧的非语音帧概率，确定当前原始语音片段中的第一个语音帧，作为当前原始语音片段的起始点。

其中，对于第一个原始语音片段的起始点，当将待检测音帧的语音帧概率与阈值进行比较，确定连续的N个待检测音帧是语音帧或语音帧占比大于指定阈值，则可以将连续的N个待检测音帧中的第一个语音帧作为第一个原始语音片段的起始点。从该第一个起始点开始，依次进行检测。通过上述方式确定第一个原始语音片段的起始点，当待识别语音的开头有较长的静音片段时，可以节省待检测音帧的识别时间。

在步骤S842中，从起始点开始，获取更新的当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新随当前语音帧长度变化的第一值，以及随当前语音帧长度变化的第二值。

其中，第一值可以通过预先配置的第一函数得到，第二值可以通过预先配置的第二函数得到。图9中T(L)代表第一函数，P(L)代表第二函数。T(L)和P(L)是随当前语音帧长度L可变的函数。T(L)和P(L)可以使用线性函数表示，例如T(L)＝AL+B其中，A和B是根据实际情况而定的常数；P(L)＝aL+b，其中，a和b是根据实际情况而定的常数。L代表当前语音帧长度，L的初始值为0。

在步骤S843中，将当前待检测音帧的非语音帧概率与第二值进行比较，确定当前原始语音片段中的当前待检测音帧的类别。当前待检测音帧的类别包括语音帧和非语音帧。若为语音帧，则进行步骤S844；若为非语音帧，则进行步骤S846。

具体地，可以通过以下公式确定当前待检测音帧的类别：x＞P(L)。其中，x代表当前待检测音帧的非语音帧概率。若x＞P(L)，则当前待检测音帧为非语音帧；否则，当前待检测音帧为语音帧。

在步骤S844中，若当前待检测音帧为语音帧，则更新当前原始语音片段中的语音帧长度L。即，当检测当前待检测音帧为语音帧时，L加1。

在步骤S845中，将当前原始语音片段的长度与第一阈值进行比较。当前原始语音片段的长度为当前语音帧长度和非语音帧长度之和。若当前原始语音片段的长度达到第一阈值，则进行步骤S848，输出当前原始语音片段的长度、起始点和结束点；否则，继续执行步骤S842，继续判断下一个待检测音帧。

在步骤S846中，若当前待检测音帧为非语音帧，则更新当前原始语音片段中的非语音帧长度S。其中，非语音帧长度S起始可以为0，当检测当前待检测音帧为非语音帧时，S加1。

在步骤S847中，将非语音帧长度S与第一值进行比较。若非语音帧长度S大于第一值，则执行步骤S848；否则，执行步骤S845。

在步骤S848中，输出当前原始语音片段，以及当前原始语音片段的起始点、结束点和长度。

在步骤S850中，对多个原始语音片段进行片段融合，得到多个目标语音片段，其中，相邻的所述目标语音片段的长度之和大于第二阈值。

如图10所示，步骤S850具体可以通过以下步骤实现。假设通过步骤S841-S848得到多个原始语音片段S1，S2，...Sn。

在步骤S851中，判断原始语音片段的数量是否小于2个。若小于2个，则结束融合过程；否则，则继续执行步骤S852。

在步骤S852中，遍历每个原始语音片段，确定相邻的原始语音片段Si和S(i+1)的长度之和小于第二阈值时的原始语音片段。

在步骤S853中，确定i小于n-1。则执行步骤S854。否则，结束融合过程。

在步骤S854中，合并相邻的原始语音片段Si和S(i+1)，作为新的Si。

示例性地，对于序号为第i个原始语音片段Si和其相邻的片段S(i+1)，若Si和S(i+1)的语音片段长度之和小于第二阈值，则合并Si和S(i+1)，作为新的Si，并相应地更新其他原始语音片段的序号。新的Si的起点为合并前Si的起点，新的Si的结束点为合并前S(i+1)的结束点，新的Si的长度为合并前Si和S(i+1)的长度之和。循环上述步骤，直到所有相邻的语音片段的长度之和大于或等于第二阈值或者语音片段的数量小于2个，得到多个目标语音片段。

应该理解的是，虽然图1-10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图11是根据一示例性实施例示出的一种语音处理装置框图。参照图11，该装置包括分帧模块1101、特征提取模块1102、分类识别模块1103和语音片段生成模块1104。其中，

分帧模块1101，被配置为执行获取待识别语音，对待识别语音进行分帧处理，得到多个待检测音帧；

特征提取模块1102，被配置为执行提取每个待检测音帧分别对应的语音特征；

分类识别模块1103，被配置为执行对每个待检测音帧分别对应的语音特征进行分类识别，得到每个待检测音帧的检测结果；

语音片段生成模块1104，被配置为执行根据检测结果，对待识别语音进行切分，得到多个目标语音片段，其中，每个目标语音片段的长度小于或者等于第一阈值，且相邻的目标语音片段的长度之和大于或等于第二阈值。

在一示例性实施例中，语音片段生成模块1104，包括：语音片段切分模块，被配置为执行根据检测结果对待识别语音进行切分，得到多个原始语音片段，原始语音片段的长度小于或者等于第一阈值；片段融合模块，被配置为执行对原始语音片段进行片段融合，得到多个目标语音片段，其中，相邻的目标语音片段的长度之和大于或等于第二阈值。

在一示例性实施例中，语音片段切分模块，包括：起始点确定单元，被配置为执行根据检测结果确定当前原始语音片段中的第一个语音帧，作为当前原始语音片段的起始点；音帧确定单元，被配置为执行从起始点开始，根据检测结果确定当前原始语音片段中的语音帧和非语音帧，当前原始语音片段的长度为语音帧长度和非语音帧长度之和；判断单元，被配置为执行判断当前原始语音片段的长度是否达到第一阈值，或者当检测到当前原始语音片段未达到所述第一阈值时，判断当前原始语音片段中的非语音帧长度是否大于随当前语音帧长度变化的第一值；结束点确定单元，被配置为执行当检测到当前原始语音片段的长度达到第一阈值时，或者当检测到当前原始语音片段未达到第一阈值，但当前原始语音片段中的非语音帧长度大于第一值时，则将当前原始语音片段中的最后一个待检测音帧作为当前原始语音片段的结束点，以此类推，得到每个原始语音片段。

在一示例性实施例中，音帧确定单元，包括：获取单元，被配置为执行获取当前原始语音片段中的当前待检测音帧的非语音帧概率；第二值更新单元，被配置为执行获取更新的当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新随当前语音帧长度变化的第二值；比较单元，被配置为执行将当前待检测音帧的非语音帧概率与第二值进行比较，根据比较结果确定当前待检测音帧的语音分类结果，语音分类结果包括语音帧和非语音帧。

在一示例性实施例中，音帧确定单元，还包括：第一值更新单元，被配置为执行当确定当前待检测音帧的语音分类结果为语音帧时，更新当前原始语音片段中的当前语音帧长度，根据当前语音帧长度更新第一值。

在一示例性实施例中，当前语音帧长度越大，则第一值越小；当前语音帧长度越大，则第二值越小。

在一示例性实施例中，片段融合模块，被配置为执行：遍历每个原始语音片段，当确定相邻的原始语音片段的长度之和小于第二阈值时，则合并相邻的原始语音片段；更新融合后的原始语音片段的长度，直至确定所有相邻的语音片段的长度之和大于或等于第二阈值，得到多个目标语音片段。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于语音处理的电子设备1200的框图。例如，电子设备1200可以为一服务器。参照图12，电子设备1200包括处理组件1220，其进一步包括一个或多个处理器，以及由存储器1222所代表的存储器资源，用于存储可由处理组件1220的执行的指令，例如应用程序。存储器1222中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1220被配置为执行指令，以执行上述语音处理的方法。

电子设备1200还可以包括一个电源组件1224被配置为执行电子设备1200的电源管理，一个有线或无线网络接口1226被配置为将电子设备1200连接到网络，和一个输入输出(I/O)接口1228。电子设备1200可以操作基于存储在存储器1222的操作***，例如Windows Server，Mac OS X，Unix，Linux，FreeBSD或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器1222，上述指令可由电子设备1200的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取待识别语音，对所述待识别语音进行分帧处理，得到多个待检测音帧；

提取每个待检测音帧分别对应的语音特征；

对所述每个待检测音帧分别对应的语音特征进行分类识别，得到所述每个待检测音帧的检测结果；

根据所述检测结果对所述待识别语音进行切分，得到多个目标语音片段，其中，每个目标语音片段的长度小于或者等于第一阈值，且相邻的目标语音片段的长度之和大于或等于第二阈值；

其中，所述根据所述检测结果，对所述待识别语音进行切分，得到多个目标语音片段，包括：

根据所述检测结果对所述待识别语音进行切分，得到多个原始语音片段，所述原始语音片段的长度小于或者等于所述第一阈值；

对所述原始语音片段进行片段融合，得到多个目标语音片段，其中，相邻的所述目标语音片段的长度之和大于或等于所述第二阈值。

2.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述检测结果对所述待识别语音进行切分，得到多个原始语音片段，包括：

根据所述检测结果确定当前原始语音片段中的第一个语音帧，作为所述当前原始语音片段的起始点；

从所述起始点开始，根据所述检测结果确定所述当前原始语音片段中的语音帧和非语音帧，所述当前原始语音片段的长度为语音帧长度和非语音帧长度之和；

当检测到所述当前原始语音片段的长度达到第一阈值时，或者当检测到所述当前原始语音片段未达到所述第一阈值，但所述当前原始语音片段中的非语音帧长度大于随当前语音帧长度变化的第一值时，则

将所述当前原始语音片段中的最后一个待检测音帧作为所述当前原始语音片段的结束点，以此类推，得到每个原始语音片段。

3.根据权利要求2所述的语音处理方法，其特征在于，所述检测结果包括非语音帧概率；根据所述检测结果确定所述当前原始语音片段中的语音帧和非语音帧，包括：

获取所述当前原始语音片段中的当前待检测音帧的非语音帧概率；

获取更新的所述当前原始语音片段中的当前语音帧长度，根据所述当前语音帧长度更新随当前语音帧长度变化的第二值；

将所述当前待检测音帧的非语音帧概率与所述第二值进行比较，根据比较结果确定当前待检测音帧的语音分类结果，所述语音分类结果包括语音帧和非语音帧。

4.根据权利要求3所述的语音处理方法，其特征在于，所述根据所述检测结果确定所述当前原始语音片段中的语音帧和非语音帧，还包括：

当确定所述当前待检测音帧的语音分类结果为语音帧时，更新当前原始语音片段中的当前语音帧长度，根据所述当前语音帧长度更新所述第一值。

5.根据权利要求4所述的语音处理方法，其特征在于，所述当前语音帧长度越大，则所述第一值越小；所述当前语音帧长度越大，则所述第二值越小。

6.根据权利要求1所述的语音处理方法，其特征在于，所述对所述原始语音片段进行片段融合，得到多个目标语音片段，包括：

遍历每个所述原始语音片段，当确定相邻的原始语音片段的长度之和小于所述第二阈值时，则合并所述相邻的原始语音片段；

更新融合后的所述原始语音片段的长度，直至确定所有相邻的语音片段的长度之和大于或等于所述第二阈值，得到所述多个目标语音片段。

7.一种语音处理装置，其特征在于，包括：

分帧模块，被配置为执行获取待识别语音，对所述待识别语音进行分帧处理，得到多个待检测音帧；

分类识别模块，被配置为执行对所述每个待检测音帧分别对应的语音特征进行分类识别，得到所述每个待检测音帧的检测结果；

语音片段生成模块，被配置为执行根据所述检测结果，对所述待识别语音进行切分，得到多个目标语音片段，其中，每个目标语音片段的长度小于或者等于第一阈值，且相邻的目标语音片段的长度之和大于或等于第二阈值；

其中，所述语音片段生成模块，包括：

语音片段切分模块，被配置为执行根据所述检测结果对所述待识别语音进行切分，得到多个原始语音片段，所述原始语音片段的长度小于或者等于所述第一阈值；

片段融合模块，被配置为执行对所述原始语音片段进行片段融合，得到多个目标语音片段，其中，相邻的所述目标语音片段的长度之和大于所述第二阈值。

8.根据权利要求7所述的语音处理装置，其特征在于，所述语音片段切分模块，包括：

起始点确定单元，被配置为执行根据所述检测结果确定当前原始语音片段中的第一个语音帧，作为所述当前原始语音片段的起始点；

音帧确定单元，被配置为执行从所述起始点开始，根据所述检测结果确定所述当前原始语音片段中的语音帧和非语音帧，所述当前原始语音片段的长度为语音帧长度和非语音帧长度之和；

判断单元，被配置为执行判断所述当前原始语音片段的长度是否达到第一阈值，或者当检测到所述当前原始语音片段未达到所述第一阈值时，判断所述当前原始语音片段中的非语音帧长度是否大于随当前语音帧长度变化的第一值；

结束点确定单元，被配置为执行将所述当前原始语音片段中的最后一个待检测音帧作为所述当前原始语音片段的结束点，以此类推，得到每个原始语音片段。

9.根据权利要求8所述的语音处理装置，其特征在于，所述音帧确定单元，包括：

获取单元，被配置为执行获取所述当前原始语音片段中的当前待检测音帧的非语音帧概率；

第二值更新单元，被配置为执行获取更新的所述当前原始语音片段中的当前语音帧长度，根据所述当前语音帧长度更新随当前语音帧长度变化的第二值；

比较单元，被配置为执行将所述当前待检测音帧的非语音帧概率与所述第二值进行比较，根据比较结果确定当前待检测音帧的语音分类结果，所述语音分类结果包括语音帧和非语音帧。

10.根据权利要求9所述的语音处理装置，其特征在于，所述音帧确定单元，还包括：

第一值更新单元，被配置为执行当确定所述当前待检测音帧的语音分类结果为语音帧时，更新当前原始语音片段中的当前语音帧长度，根据所述当前语音帧长度更新所述第一值。

11.根据权利要求10所述的语音处理装置，其特征在于，所述当前语音帧长度越大，则所述第一值越小；所述当前语音帧长度越大，则所述第二值越小。

12.根据权利要求7所述的语音处理装置，其特征在于，所述片段融合模块，被配置为执行：

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语音处理方法。

14.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的语音处理方法。