CN112435691B

CN112435691B - 在线语音端点检测后处理方法、装置、设备及存储介质

Info

Publication number: CN112435691B
Application number: CN202011083235.3A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Zhuhai Eeasy Electronic Tech Co ltd
Current assignee: Zhuhai Eeasy Electronic Tech Co ltd
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2024-03-12
Anticipated expiration: 2040-10-12
Also published as: CN112435691A

Abstract

本发明适用于音频处理技术领域，提供了一种在线语音端点检测后处理方法、装置、设备及存储介质，该方法包括：获取当前音频帧的上一音频帧的门状态，根据与上一音频帧的门状态匹配的门状态判断方式，判断当前音频帧的门状态，根据当前音频帧的门状态确定当前音频帧的音频帧类型，从而通过将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断，提高了语音/非语音判断的准确性，进而提高了语音识别的性能。

Description

在线语音端点检测后处理方法、装置、设备及存储介质

技术领域

本发明属于音频处理技术领域，尤其涉及一种在线语音端点检测后处理方法、装置、设备及存储介质。

背景技术

语音端点检测（Voice Activity Detection，VAD），从应用场景上可以分为离线VAD和在线VAD两种，离线VAD其主要任务是从带有噪声的语音中准确定位出语音的开始点和结束点，在进行判断之前已经拥有全部语音信息，而在线VAD其主要任务是判断当前时刻输出的是语音部分还是非语音部分，有较高的实时性要求。

为了能够更好地区分语音和非语音部分，近年来提出了许多基于深度神经网络的VAD算法，主流的有CRNN，即CNN（卷积神经网络）+RNN（循环神经网络）+DNN（深度神经网络）网络结构，或者CLDNN，即CNN+LSTM（长期短期记忆网络）+DNN网络结构，将语音和非语音的判断当成一个二分类问题。统一的思想就首先用CNN网络进行特征提取，区别于图像，语音信号是有时序的序列，用RNN/LSTM/GRU（门控循环单元）对语音序列进行建模，后接DNN经过softmax进行最终的输出，但模型的输出结果会存在语音帧/非语音帧误判的情况，进而导致语音识别性能的降低。

发明内容

本发明的目的在于提供一种在线语音端点检测后处理方法、装置、设备及存储介质，旨在解决现有技术中由于语音帧/非语音帧误判导致的语音识别性能低的问题。

一方面，本发明提供一种在线语音端点检测后处理方法，所述方法包括下述步骤：

获取当前音频帧的上一音频帧的门状态；

根据与所述上一音频帧的门状态匹配的门状态判断方式，判断所述当前音频帧的门状态；

根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型。

优选地，所述根据与所述上一音频帧的门状态匹配的门状态判断方式，判断所述当前音频帧的门状态的步骤，还包括：

若所述上一音频帧的门状态为开门状态，则将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较，其中，所述第一语音概率平均值用于表示当前音频帧之前连续第一预设语音长度中各个音频帧的语音概率值的平均值；

若所述第一语音概率平均值大于或等于所述第一语音概率平均阈值，则判定所述当前音频帧的门状态为开门状态。

优选地，所述将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较的步骤之后，还包括：

若所述第一语音概率平均值小于所述第一语音概率平均阈值，则将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较，其中，所述第二语音概率平均值用于表示所述当前音频帧之前连续第二预设语音长度中各个音频帧的语音概率值的平均值，所述第二预设语音长度小于所述第一预设语音长度；

若所述第二语音概率平均值大于或等于所述第二语音概率平均阈值，则判定所述当前音频帧的门状态为开门状态。

优选地，所述将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较的步骤之后，还包括：

若所述第二语音概率平均值小于所述第二语音概率平均阈值，则将获取到的所述当前音频帧的语音概率值与第三语音概率平均值进行比较，其中，所述第三语音概率平均值用于表示所述当前音频帧之前保持连续开门状态的音频帧的语音概率值的平均值；

若所述当前音频帧的语音概率值大于或等于所述第三语音概率平均值，则判定所述当前音频帧的门状态为开门状态。

优选地，所述将所述当前音频帧的语音概率值与第三语音概率平均值进行比较的步骤之后，还包括：

若所述当前音频帧的语音概率值小于所述第三语音概率平均值，则判断当前音频帧是否为初始音频帧；

若为初始音频帧，则判定所述当前音频帧的门状态为开门状态；

若不为初始音频帧，则判定所述当前音频帧的门状态为关门状态。

若所述上一音频帧的门状态为关门状态，则将所述当前音频帧的语音概率值与预设的语音概率阈值进行比较；

若所述当前音频帧的语音概率值大于或等于所述语音概率阈值，则判定所述当前音频帧的门状态为开门状态；

若所述当前音频帧的语音概率值小于所述语音概率阈值，则判定所述当前音频帧的门状态为关门状态。

优选地，所述根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型的步骤，包括：

若所述当前音频帧的门状态为开门状态，则确定所述当前音频帧为语音帧；

若所述当前音频帧的门状态为关门状态，则确定所述当前音频帧为非语音帧。

另一方面，本发明提供了一种在线语音端点检测后处理装置，所述装置包括：

门状态获取单元，用于获取当前音频帧的上一音频帧的门状态；

门状态判断单元，用于根据与所述上一音频帧的门状态匹配的门状态判断方式，判断所述当前音频帧的门状态；以及

音频帧类型确定单元，用于根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型。

另一方面，本发明还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明获取当前音频帧的上一音频帧的门状态，根据与上一音频帧的门状态匹配的门状态判断方式，判断当前音频帧的门状态，根据当前音频帧的门状态确定当前音频帧的音频帧类型，从而通过将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断，提高了语音/非语音判断的准确性，进而提高了语音识别的性能。

附图说明

图1是本发明实施例一提供的在线语音端点检测后处理方法的实现流程图；

图2是本发明实施例二提供的当前音频帧的门状态判断方法的流程示例图；

图3是本发明实施例三提供的在线语音端点检测后处理装置的结构示意图；以及

图4是本发明实施例四提供的电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的在线语音端点检测后处理方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，获取当前音频帧的上一音频帧的门状态。

本发明实施例适用于在线语音端点检测，具体可应用于手机、手环、平板电脑、便携计算机、桌上型计算机等具有运算功能的电子设备。本发明将语音端点检测分为三部分，即前处理部分、模型部分和后处理部分，其中，前处理部分用于提取音频特征，提取的音频特征作为模型的输入，该部分通常包含加窗、分帧、STFT（短时傅里叶变换）等，模型部分用于预测并输出当前音频帧属于语音帧的概率值，该模型的输入一般为N帧M维的梅尔频谱，N帧对应的buffer（缓冲寄存器）缓冲（例如，200ms）的音频数据，M一般取40或64，后处理部分即本实施例所描述的方法。考虑到在线端点检测检测要求输出结果相对输入延迟控制在200ms（结合buffer的大小）以内，即实时性要求较高，因此，本方法将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断，并结合当前音频帧的语音概率值、以及当前音频帧之前的音频帧的语音概率值和门状态等多维度因素进行综合判断，提高了语音识别的性能。其中，该门状态包括开门状态和关门状态，具体实现中，门状态可用0、1表示。

在步骤S102中，根据与上一音频帧的门状态匹配的门状态判断方式，判断当前音频帧的门状态。

在本发明实施例中，对于采用语音输入进行聊天等场景，考虑到当说话人长时间说话时，语音段之间会存在短暂的停顿，从而优选地，在根据与上一音频帧的门状态匹配的门状态判断方式，判断当前音频帧的门状态时，若上一音频帧的门状态为开门状态，则将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较，若第一语音概率平均值大于或等于第一语音概率平均阈值，则判定当前音频帧的门状态为开门状态，此时，门状态无需进行转换，继续保持开门状态，以保证说话人语音片段的连贯性和完整性。其中，语音概率值通常是指音频帧被预测为语音帧的概率值，该语音概率值通常由神经网络预测得到，例如，CRNN网络或CLDNN网络；第一语音概率平均阈值可根据实际语音环境灵活设置；第一语音概率平均值用于表示当前音频帧之前连续第一预设语音长度中各个音频帧的语音概率值的平均值。

对于语音唤醒等场景，考虑到说话人说的时间通常较短，从而优选地，在将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较之后，若第一语音概率平均值小于第一语音概率平均阈值，则将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较，若第二语音概率平均值大于或等于第二语音概率平均阈值，则判定当前音频帧的门状态为开门状态，此时，继续保持开门状态，从而进一步降低了对音频帧的误判率。其中，第二语音概率平均值用于表示当前音频帧之前连续第二预设语音长度中各个音频帧的语音概率值的平均值，第二预设语音长度小于第一预设语音长度。

在这里需要指出的是，第一预设语音长度和第二预设语音长度可根据实际应用场景的经验值确定。

考虑到在不同环境中，不同人说话时音频帧被预测为语音帧的概率值并不固定，例如，在安静环境下，被预测为语音帧的概率值总体偏高，在环境比较复杂尤其是信噪比比较低时，被预测为语音帧的概率值总体偏低，从而优选地，在将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较之后，若第二语音概率平均值小于第二语音概率平均阈值，则将获取到的当前音频帧的语音概率值与第三语音概率平均值进行比较,若当前音频帧的语音概率值大于或等于第三语音概率平均值，则判定当前音频帧的门状态为开门状态，以在信噪比较低时，提高判断结果的准确性，进而提高了低信噪比环境下语音识别的性能。其中，第三语音概率平均值用于表示当前音频帧之前保持连续开门状态的音频帧的语音概率值的平均值。在这里需要说明的是，若当前音频帧之前的门状态为关门状态，则表示当前音频帧之前无连续音频帧，第三语音概率平均值为零。

考虑到***刚刚开启时，获得语音信息较少，该方法获取的门状态可能不太稳定，从而优选地，在将语音概率值与第三语音概率平均值进行比较之后，若当前音频帧的语音概率值小于第三语音概率平均值，则判断当前音频帧是否为初始音频帧，若为初始音频帧，则判定当前音频帧的门状态为开门状态，若不为初始音频帧，则判定当前音频帧的门状态为关门状态，此时，将门状态由开门状态转换为关门状态，从而提高了语音/非语音判断结果的准确性，进而提高了语音识别的性能。

当前一音频帧的门状态为关门状态时，为了在不漏掉语音帧的情况下，尽可能将非语音帧进行过滤，从而优选地，在根据与上一音频帧的门状态匹配的门状态判断方式，判断当前音频帧的门状态时，若上一音频帧的门状态为关门状态，则将当前音频帧的语音概率值与预设的语音概率阈值进行比较，若当前音频帧的语音概率值大于或等于语音概率阈值，则判定当前音频帧的门状态为开门状态，此时，将门状态由关门状态转换为开门状态，若当前音频帧的语音概率值小于语音概率阈值，则判定当前音频帧的门状态为关门状态，此时，保持门状态为关门状态不变，从而简化了语音/非语音判断过程，提高了语音识别的性能。

当然，在实际应用中，该语音概率值也可以是音频帧被预测为非语音帧的概率值，相应地，各比较参数及具体的门状态的判断方式需进行相应地调整，但其基本判断方法与本实施例中描述的方法实质相同。

在步骤S103中，根据当前音频帧的门状态确定当前音频帧的音频帧类型。

在本发明实施例中，不同的门状态可表示音频帧的不同数据类型，具体可根据实际需要进行设定。本发明实施例中的音频帧类型包括语音帧和非语音帧，开门状态表示当前音频帧的音频帧类型为语音帧，关门状态表示表示当前音频帧的音频帧类型为非语音帧，从而优选地，若当前音频帧的门状态为开门状态，则确定当前音频帧为语音帧，若当前音频帧的门状态为关门状态，则确定当前音频帧为非语音帧，从而降低了语音/非语音的误判率，进而提高了语音识别的性能。

在本发明实施例中，获取当前音频帧的上一音频帧的门状态，根据与上一音频帧的门状态匹配的门状态判断方式，判断当前音频帧的门状态，根据当前音频帧的门状态确定当前音频帧的音频帧类型，从而通过将在线端点检测后处理中语音/非语音的判断转换为开门/关门两种状态的判断，降低了语音/非语音的误判率，进而提高了语音识别的性能。

实施例二：

图2示出了本发明实施例二提供的当前音频帧的门状态判断方法的流程示例图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

图2中用door_state表示当前音频帧的门状态，用last_state表示当前音频帧的前一音频帧的门状态，其中，1表示开门状态，0表示关门状态；第一语音概率平均值用S1表示，第一语音概率平均阈值用T1表示；第二语音概率平均值用S2表示，第二语音概率平均阈值用T2表示，第三语音概率平均值用S3表示；当前音频帧的语音概率值用label表示，语音概率阈值用thred表示；当前音频帧与初始音频帧之间的关系用begin_flag表示，其中，begin_flag=1表示当前音频帧为初始音频帧，begin_flag=0表示当前音频帧为非初始音频帧。

在步骤S201中，判断当前音频帧的前一音频帧的门状态是否为关门状态，若否，则执行S202，若是，则执行S206；

在步骤S202中，判断第一语音概率平均值是否大于或等于第一语音概率平均阈值，若否，则执行S203，若是，则执行S207；

在步骤S203中，判断第二语音概率平均值是否大于或等于第二语音概率平均阈值，若否，则执行S204，若是，则执行S207；

在步骤S204中，判断当前音频帧的语音概率值是否大于或等于第三语音概率平均值，若否，则执行S205，若是，则执行S207；

在步骤S205中，判断当前音频帧是否为初始音频帧，若否，则执行步骤S208，若是，则执行步骤S207；

在步骤S206中，判断当前音频帧的语音概率值是否大于或等于预设的语音概率阈值，若否，则执行步骤S208，若是，则执行步骤S207

在步骤S207中，确定当前音频帧的门状态为开门状态；

在步骤S208中，确定当前音频帧的门状态为关门状态。

实施例三：

图3示出了本发明实施例三提供的在线语音端点检测后处理装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

门状态获取单元31，用于获取当前音频帧的上一音频帧的门状态；

门状态判断单元32，用于根据与上一音频帧的门状态匹配的门状态判断方式，判断当前音频帧的门状态；以及

帧类型确定单元33，用于根据当前音频帧的门状态确定当前音频帧的音频帧类型。

优选地，该装置还包括：

第一比较单元，用于若上一音频帧的门状态为开门状态，则将获取到的第一语音概率平均值与预设的第一语音概率平均阈值进行比较，其中，第一语音概率平均值用于表示当前音频帧之前连续第一预设语音长度中各个音频帧的语音概率值的平均值；以及

第一状态确定单元，用于若第一语音概率平均值大于或等于第一语音概率平均阈值，则判定当前音频帧的门状态为开门状态。

优选地，该装置还包括：

第二比较单元，用于若第一语音概率平均值小于第一语音概率平均阈值，则将获取到的第二语音概率平均值与预设的第二语音概率平均阈值进行比较，其中，第二语音概率平均值用于表示当前音频帧之前连续第二预设语音长度中各个音频帧的语音概率值的平均值，第二预设语音长度小于第一预设语音长度；以及

第二状态确定单元，用于若第二语音概率平均值大于或等于第二语音概率平均阈值，则判定当前音频帧的门状态为开门状态。

优选地，该装置还包括：

第三比较单元，用于若第二语音概率平均值小于第二语音概率平均阈值，则将获取到的当前音频帧的语音概率值与第三语音概率平均值进行比较，其中，第三语音概率平均值用于表示当前音频帧之前保持连续开门状态的音频帧的语音概率值的平均值；以及

第三状态确定单元，用于若当前音频帧的语音概率值大于或等于第三语音概率平均值，则判定当前音频帧的门状态为开门状态。

优选地，该装置还包括：

第四比较单元，用于若当前音频帧的语音概率值小于第三语音概率平均值，则判断当前音频帧是否为初始音频帧；以及

第四状态确定单元，用于若为初始音频帧，则判定当前音频帧的门状态为开门状态；

第五状态确定单元，用于若不为初始音频帧，则判定当前音频帧的门状态为关门状态。

优选地，该装置还包括：

第五比较单元，用于若上一音频帧的门状态为关门状态，则将当前音频帧的语音概率值与预设的语音概率阈值进行比较；以及

第六状态确定单元，用于若当前音频帧的语音概率值大于或等于语音概率阈值，则判定当前音频帧的门状态为开门状态；

第七状态确定单元，用于若当前音频帧的语音概率值小于语音概率阈值，则判定当前音频帧的门状态为关门状态。

优选地，帧类型确定单元包括：

第一确定子单元，用于若当前音频帧的门状态为开门状态，则确定当前音频帧为语音帧；以及

第二确定子单元，用于若当前音频帧的门状态为关门状态，则确定当前音频帧为非语音帧。

在本发明实施例中，在线语音端点检测后处理装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。在线语音端点检测后处理装置的各单元的具体实施方式可参考前述方法实施例的描述，在此不再赘述。

实施例四：

图4示出了本发明实施例四提供的电子设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的电子设备4包括处理器40、存储器41以及存储在存储器41中并可在处理器40上运行的计算机程序42。该处理器40执行计算机程序42时实现上述各方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，处理器40执行计算机程序42时实现上述各装置实施例中各单元的功能，例如图3所示单元31至33的功能。

实施例五：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S103。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图3所示单元31至33的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在线语音端点检测后处理方法，其特征在于，所述方法包括下述步骤：

获取当前音频帧的上一音频帧的门状态；

根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型；

所述根据与所述上一音频帧的门状态匹配的门状态判断方式，判断所述当前音频帧的门状态的步骤，包括：

2.如权利要求1所述的方法，其特征在于，还包括：

3.如权利要求1所述的方法，其特征在于，还包括：

4.如权利要求1所述的方法，其特征在于，还包括：

5.如权利要求1所述的方法，其特征在于，所述根据与所述上一音频帧的门状态匹配的门状态判断方式，判断所述当前音频帧的门状态的步骤，还包括：

6.如权利要求1所述的方法，其特征在于，所述根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型的步骤，包括：

7.一种在线语音端点检测后处理装置，其特征在于，所述装置包括：

帧类型确定单元，用于根据所述当前音频帧的门状态确定所述当前音频帧的音频帧类型；

所述门状态判断单元在根据与所述上一音频帧的门状态匹配的门状态判断方式，判断所述当前音频帧的门状态时，包括：

8.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。