CN108346425B

CN108346425B - 一种语音活动检测的方法和装置、语音识别的方法和装置

Info

Publication number: CN108346425B
Application number: CN201710056814.0A
Authority: CN
Inventors: 李洋; 欧阳宏宇; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2021-05-25
Anticipated expiration: 2037-01-25
Also published as: CN108346425A

Abstract

本发明实施例提供了一种语音活动检测方法和装置、语音识别的方法和装置，其中，语音活动检测方法包括：获取当前帧输入信号的信号特征参数；采用所述信号特征参数确定所述当前帧输入信号的第一信号类型，以及，采用所述信号特征参数和预设的深度神经网络模型确定所述当前帧输入信号的第二信号类型；依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型，本发明实施例，基于信号层面和模型层面确定输入信号中的语音信号和非语音信号，提高了语音信号和非语音信号的识别准确性，增强了语音识别对噪声环境的鲁棒性和连续性。

Description

一种语音活动检测的方法和装置、语音识别的方法和装置

技术领域

本发明涉及输入法的技术领域，特别是涉及一种语音活动检测的方法和一种语音活动检测装置、语音识别的方法和装置

背景技术

目前，移动互联网的快速发展带动了移动智能设备如手机、平板电脑、穿戴式设备等的广泛普及，而作为移动设备上人机交互最方便自然的方式之一，语音输入正逐渐被广大用户所接受。

语音输入的过程，是一种典型的数据输入和数据输出过程。具体来说，涉及到录音信号采集，录音信号中语音信号和非语音信号的识别，录音信号中的语音信号加工处理、语音信号的识别，最后获取到语音信号的识别结果等步骤。

在现有的语音识别方法中，由于解码器的资源有限，需要将长时间的录音信号切割成与有限资源匹配的有效片段，而将录音信号切割成有效片段主要依赖人说话的停顿间隙，停顿间隙通常可以认为是静音或者噪音，即非语音信号。目前对语音信号和非语音信号，通常利用语音活动检测(Voice Activity Detection，VAD)来进行检测，传统的VAD检测方法主要是基于信号或者基于模型，基于信号的检测方法在平稳噪声下，可以快速进行语音信号和非语音信号的识别，但是在模糊噪声、瞬态噪声等非平稳噪声环境下，识别结果不准确，造成虚警或漏警错判；基于模型的识别方法可以在平稳或者非平稳噪声下准确识别语音信号和非语音信号，但是需要排除人说话较小时的语音信号，造成语音信号识别的不连续，可见，目前对语音信号和非语音信号的识别方法，存在识别不准确和不连续的问题。

发明内容

本发明实施例所要解决的技术问题是提供一种语音活动检测的方法和装置，语音识别的方法和装置，以提高对语音信号和非语音信号检测与识别的准确性和连续性。

为了解决上述问题，本发明公开了一种语音活动检测的方法,包括：

获取当前帧输入信号的信号特征参数；

采用所述信号特征参数确定所述当前帧输入信号的第一信号类型，以及，采用所述信号特征参数和预设的深度神经网络模型确定所述当前帧输入信号的第二信号类型；

依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型。

优选地，所述信号特征参数包括信号能量值、语音信噪比、感知线性预测参数以及基频，所述采用所述信号特征参数确定所述当前帧输入信号的第一信号类型，以及，采用所述信号特征参数和预设的深度神经网络模型确定所述当前帧输入信号的第二信号类型的步骤包括：

采用所述信号能量值和所述语音信噪比确定所述当前帧输入信号的第一信号类型；

采用所述感知线性预测参数和基频，在预设的深度神经网络模型中，确定所述当前帧输入信号的第二信号类型。

优选地，所述采用所述信号能量值和所述语音信噪比确定所述当前帧输入信号的第一信号类型的步骤包括：

采用所述信号能量值确定所述当前帧输入信号的第一预判信号类型；

采用所述语音信噪比确定所述当前帧输入信号的第二预判信号类型；

当所述第一预判信号类型和所述第二预判信号类型均为语音信号时，确定所述第一信号类型为语音信号；

当所述第一预判信号类型和所述第二预判信号类型中存在非语音信号时，确定所述第一信号类型为非语音信号。

优选地，所述采用所述信号能量值确定所述当前帧输入信号的第一预判信号类型的步骤包括：

判断所述信号能量值是否大于预设能量阈值；

若是，则确定所述第一预判信号类型为语音信号；

若否，则确定所述第一预判信号类型为非语音信号。

优选地，所述采用所述语音信噪比确定所述当前帧输入信号的第二预判信号类型的步骤包括：

采用所述语音信噪比，计算所述当前帧输入信号的语音存在概率；

判断所述语音存在概率是否大于预设语音存在概率阈值；

若是，则确定所述第二预判信号类型为语音信号；

若否，则确定所述第二预判信号类型为非语音信号。

优选地，所述采用所述感知线性预测参数和基频，在预设的深度神经网络模型中，确定所述当前帧输入信号的第二信号类型的步骤包括：

采用所述感知线性预测参数和基频生成输入参数；

采用所述输入参数，在预设的深度神经网络模型中，计算所述当前帧输入信号为语音信号的置信概率；

获取所述当前帧输入信号的前一帧输入信号为语音信号的置信度；

采用所述前一帧输入信号为语音信号的置信度和所述当前帧输入信号为语音信号的置信概率，计算所述当前帧输入信号的置信度；

判断所述当前帧输入信号的置信度是否大于预设置信度阈值；

若是，则确定所述第二信号类型为语音信号；

若否，则确定所述第二信号类型为非语音信号。

优选地，所述依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型的步骤包括：

当所述第一信号类型和所述第二信号类型均为语音信号时，确定所述当前帧输入信号的信号类型为语音信号；

当所述第一信号类型和所述第二信号类型中存在非语音信号时，确定所述当前帧输入信号的信号类型为非语音信号。

本发明实施例公开了一种语音识别的方法，包括：

采用语音活动检测的方法确定当前帧输入信号的信号类型；

当确定所述当前帧输入信号的信号类型为语音信号时，将所述当前帧输入信号发送至解码器进行解码，得到当前帧输入信号对应的文本信息。

优选地，还包括：

当确定所述当前帧输入信号的信号类型为非语音信号时，计算所述非语音信号的持续时间；

当所述持续时间大于预设时间阈值时，重置所述解码器。

优选地，在将所述当前帧输入信号发送至解码器进行解码的步骤之前，还包括：

对所述输入信号进行预处理，所述预处理包括：低频去噪，和/或，信号增强。

本发明实施例还公开了一种语音活动检测的装置，包括：

特征参数获取模块，用于获取当前帧输入信号的信号特征参数；

信号类型获取模块，用于采用所述信号特征参数确定所述当前帧输入信号的第一信号类型；以及，采用所述信号特征参数和预设的深度神经网络模型，确定所述当前帧输入信号的第二信号类型；

信号类型确定模块，用于依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型。

优选地，所述信号特征参数包括信号能量值、语音信噪比、感知线性预测参数以及基频，所述信号类型获取模块包括：

第一信号类型确定子模块，用于采用所述信号能量值和所述语音信噪比确定所述当前帧输入信号的第一信号类型；

第二信号类型确定子模块，用于采用所述感知线性预测参数和基频，在预设的深度神经网络模型中，确定所述当前帧输入信号的第二信号类型；

语音信号确定子模块，用于当所述第一信号类型和所述第二信号类型均为语音信号时，确定所述当前帧输入信号的信号类型为语音信号；

非语音信号确定子模块，用于当所述第一信号类型和所述第二信号类型中存在非语音信号时，确定所述当前帧输入信号的信号类型为非语音信号。

优选地，所述第一信号类型确定子模块包括：

第一预判信号类型单元，用于采用所述信号能量值确定所述当前帧输入信号的第一预判信号类型；

第二预判信号类型单元，用于采用所述语音信噪比确定所述当前帧输入信号的第二预判信号类型；

第一语音信号确定单元，用于当所述第一预判信号类型和所述第二预判信号类型均为语音信号时，确定所述第一信号类型为语音信号；

第一非语音信号确定单元，用于当所述第一预判信号类型和所述第二预判信号类型中存在非语音信号时，确定所述第一信号类型为非语音信号。

优选地，所述第一预判信号类型单元包括：

信号能量值判断子单元，判断所述信号能量值是否大于预设能量阈值；

第一语音信号确定子单元，用于确定所述第一预判信号类型为语音信号；

第一非语音信号确定子单元，用于确定所述第一预判信号类型为非语音信号。

优选地，所述第二预判信号类型单元包括：

语音存在概率计算子单元，用于采用所述语音信噪比，计算所述当前帧输入信号的语音存在概率；

语音存在概率判断子单元，用于判断所述语音存在概率是否大于预设语音存在概率阈值；

第二语音信号确定子单元，用于确定所述第二预判信号类型为语音信号；

第二非语音信号确定子单元，用于确定所述第二预判信号类型为非语音信号。

优选地，所述第二信号类型确定子模块包括：

输入参数生成单元，用于采用所述感知线性预测参数和基频生成输入参数；

置信概率计算单元，用于采用所述输入参数，在预设的深度神经网络模型中，计算所述当前帧输入信号为语音信号的置信概率；

置信度获取单元，用于获取当前帧输入信号的前一帧输入信号为语音信号的置信度；

置信度计算单元，用于采用所述前一帧输入信号为语音信号的置信度和所述当前帧输入信号为语音信号的置信概率，计算所述当前帧输入信号的置信度；

置信度判断单元，用于判断所述当前帧输入信号的置信度是否大于预设置信度阈值；

第二语音信号确定单元，用于确定所述第二信号类型为语音信号；

第二非语音信号确定单元，用于确定所述第二信号类型为非语音信号。

本发明实施例公开了一种语音识别装置，包括：

语音活动检测模块，用于采用语音活动检测装置确定当前帧输入信号的信号类型；

语音识别模块，用于当确定所述当前帧输入信号的信号类型为语音信号时，将所述当前帧输入信号发送至解码器进行解码，得到当前帧输入信号对应的文本信息。

优选地，还包括：

时间计算模块，用于当确定所述当前帧输入信号的信号类型为非语音信号时，计算所述非语音信号的持续时间；

当所述持续时间大于预设时间阈值时，重置所述解码器。

优选地，还包括：

预处理模块，用于对所述输入信号进行预处理，所述预处理包括：低频去噪，和/或，信号增强。

本发明实施例公开了一种语音活动检测装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取当前帧输入信号的信号特征参数；

采用所述信号特征参数和预设的深度神经网络模型，确定所述当前帧输入信号的信号类型；

本发明实施例公开了一种语音识别装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采用语音活动检测装置确定当前帧输入信号的信号类型，

与背景技术相比，本发明实施例包括以下优点：

本发明实施例中，在语音输入模式下获取当前帧输入信号的信号特征参数，采用信号特征参数确定当前帧输入信号的第一信号类型，以及，采用信号特征参数和预设的深度神经网络模型确定当前帧输入信号的第二信号类型，依据第一信号类型和第二信号类型，确定当前帧输入信号的信号类型。本发明实施例基于信号特征参数在信号层面上确定输入信号的第一信号类型，基于信号特征参数和预设的深度神经网络模型在模型层面确定输入信号的第二信号类型，然后综合第一信号类型和第二信号类型确定输入信号中的语音信号和非语音信号，提高了语音信号和非语音信号的识别准确性，增强了语音识别对噪声环境的鲁棒性和连续性。

附图说明

图1是本发明的一种语音活动检测方法实施例1的步骤流程图；

图2是本发明的一种语音识别方法实施例2的步骤流程图；

图3是本发明的一种语音活动检测装置实施例3的结构框图；

图4是本发明的一种语音识别装置实施例4的结构框图；

图5是本发明的一种语音活动检测装置的框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语音活动检测方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，获取当前帧输入信号的信号特征参数。

本发明实施例中，输入信号可以是在语音输入模式下，通过语音采集设备采集用户说话的声音，得到的模拟输入信号，也可以是语音采集设备将模拟输入信号经模数转换后得到的数字信号。语音输入模式下的输入信号中，包括语音信号和非语音信号，语音信号可以是指用户说话的声音转换成的信号，非语音信号可以是用户说话停顿时产生的信号，还可以是环境噪声产生的信号或者是语音采集设备产生的噪声等。

人说话的声音转换成的输入信号是准稳态信号，在处理时，通常把输入信号进行分帧处理。输入信号的分帧处理可以是语音采集设备进行分帧后传输至解码器，解码器可以逐帧接收输入信号，输入信号的分帧处理还可以在解码器前端进行。由于语音识别是一个连续的数据处理过程，因此，当接收到一帧输入信号时，可以获取该帧输入信号的信号特征参数，在本发明实施例中，输入信号的信号特征参数可以包括信号能量值、语音信噪比、感知线性预测参数以及基频，当然，还可以是其它的信号特征参数，例如短时过零率、短时自相关函数等，本发明实施例对此不做限制。

信号能量值表示信号的强度，可以是一段时间内信号的功率与时间的乘积，通常的语音信号的能量值比非语音信号的能量值大，本发明实施例中，信号能量值可以是短时能量值，即在一帧信号中，截取一小段窗口的信号，该小段窗口的信号的能量值即为该帧信号的短时能量值，或者，信号能量值也可以是短时平均能量值，即将一帧信号分割成多个小段窗口的信号，计算多个小段窗口的信号的短时能量值的平均值。

信噪比(SIGNAL-NOISE RATIO，SNR)，是指一个电子设备或者电子***中信号的有效功率与噪声的有效功率的比例，在本发明实施例中，信号指的是语音采集设备采集的输入信号，噪声是指经过语音采集设备后产生的原信号中并不存在的无规则的额外信号(或信息)。

感知线性预测参数是一种基于听觉模型的特征参数，是全极点模型预测多项式的一组系数。输入信号经过频谱分析、临界频带分析、等响度预加重、强度-响度转换、傅里叶逆变换、德宾算法计算12阶全极点模型,得到16阶倒谱系数即为感知线性预测参数。

基频即基音的频率，决定人说话声音的音高，在本发明实施例中，基频可以是指一帧输入信号中存在的语音信号或者非语音信号的基频。基频可以通过自相关法，倒谱法，平均幅度差函数法，线性预测法，小波—自相关函数法，谱减—自相关函数法等方法提取。

步骤102，采用所述信号特征参数确定所述当前帧输入信号的第一信号类型，以及，采用所述信号特征参数和预设的深度神经网络模型确定所述当前帧输入信号的第二信号类型。

在获取当前帧输入信号的信号能量值、语音信噪比、感知线性预测参数以及基频等信号特征参数后，可以采用信号能量值、语音信噪比、感知线性预测参数、基频以及预设的深度神经网络模型，确定当前帧输入信号的信号类型为语音信号还是非语音信号。

在本发明的一种优选实施例中，采用所述信号特征参数和预设的深度神经网络模型，确定所述当前帧输入信号的信号类型包括以下步骤：

子步骤S11，采用所述信号能量值和语音信噪比确定所述当前帧输入信号的第一信号类型。

在本发明实施例的一种优选示例中，步骤S11可以包括如下子步骤：

子步骤S111，采用所述信号能量值确定所述当前帧输入信号的第一预判信号类型。

在实际应用中，语音信号整体上是一个非平稳性号，但是在短时间内可以认为是一个平稳信号，例如帧长为10ms的一帧信号可以认为是平稳信号，一帧输入信号具有信号能量值，可以通过信号能量值确定输入信号是语音信号还是非语音信号，具体的，步骤S111可以包括如下子步骤：

子步骤S111-1，判断所述信号能量值是否大于预设能量阈值，若是执行子步骤S111-2，若否，执行子步骤S111-3；

子步骤S111-2，确定所述第一预判信号类型为语音信号；

子步骤S111-3，确定所述第一预判信号类型为非语音信号。

本发明实施例中，输入信号是由语音采集设备采集人说话的声音生成的，在人说话时生成的输入信号的能量值通常大于人不说话的停顿间隙，背景噪音生成的输入信号的能量值，因此，可以根据信号能量值确定当前帧的输入信号是语音信号还是非语音信号，具体的，可以获取人不说话时，在用户所处的低噪音环境下，背景噪音生成的信号的信号能量，将该信号能量作为预设能量阈值，当接收到的当前帧输入信号的信号能量值大于预设能量阈值时，则可以确定当前帧输入信号的第一预判信号类型为语音信号，否则，确定当前帧输入信号的第一预判信号类型为非语音信号，这样，通过信号能量值可以快速确定出输入信号中的静音和低噪的信号。

子步骤S112，采用所述语音信噪比确定所述当前帧输入信号的第二预判信号类型。

在本发明实施例的一种优选示例中，步骤S112可以包括如下子步骤：

子步骤S112-1，采用所述语音信噪比，计算所述当前帧输入信号的语音存在概率；

子步骤S112-2，判断所述语音存在概率是否大于预设语音存在概率阈值，若是，执行子步骤S112-3，若否，执行子步骤S112-4；

子步骤S112-3，确定所述第二预判信号类型为语音信号；

子步骤S112-4，确定所述第二预判信号类型为非语音信号。

在本发明实施例中，可以采用当前帧输入信号的语音信噪比，计算当前帧输入信号的语音存在概率，当语音存在概率大于预设音存在概率阈值时，确定当前帧输入信号的第二预判信号类型为语音信号，否则，确定第二预判信号类型为非语音信号，具体的，可以获取在人不说话时生成信号的信噪比，利用该信噪比计算出非语音信号存在概率，用1减去该非语音信号存在概率即为语音存在概率阈值，当然，也可以直接使用语音信噪比直接确定当前输入信号的第二预判信号类型为语音信号还是非语音信号，例如，在人不说话时生成信号的信噪比作为信噪比阈值，当前帧输入信号的语音信噪比大于信噪比阈值时，确定为语音信号，否则为非语音信号。

子步骤S113，当所述第一预判信号类型和所述第二预判信号类型均为语音信号时，确定所述第一信号类型为语音信号。

确定当前帧输入信号的第一预判信号类型和第二预判信号类型后，可以根据第一预判信号类型和第二预判信号类型确定当前帧输入信号的第一信号类型，当第一预判信号类型和第二预判信号类型均为语音信号时，确定第一信号类型为语音信号。

子步骤S114，当所述第一预判信号类型和所述第二预判信号类型中存在非语音信号时，确定所述第一信号类型为非语音信号。

本发明实施例中，第一预判信号类型和第二预判信号类型的确定过程可以是同时进行，也可以是先执行其中一个，例如先执行确定第一预判信号类型的步骤，然后根据第一预判信号类型确定是否执行确定第二预判信号类型的步骤，当第一预判信号类型为语音信号时，执行确定第二预判信号类型的步骤，否则不执行。当第一预判信号类型和第二预判信号类型中存在非语音信号时，确定第一信号类型为非语音信号。

本发明实施例中，基于当前帧输入信号的信号能量值确定当前帧输入信号的第一预判信号类型，基于当前帧输入信号的语音信噪比确定当前帧输入信号的第二预判信号类型，当第一预判信号类型和第二预判信号类型均为语音信号时，确定当前帧输入信号的第一信号类型为语音信号，否则为非语音信号，采用两级确定信号类型，提高了第一信号类型判决的准确性。

本发明实施例，通过信号的信号能量值和信噪比，确定输入信号的信号类型，可以快速的识别出输入信号中的语音信号和非语音信号，提高了识别的效率。

子步骤S12，采用所述感知线性预测参数和基频，在预设的深度神经网络模型中，确定所述当前帧输入信号的第二信号类型。

本发明实施例中，深度神经网络模型中收集了大规模的语音数据和非语音数据,其中非语音数据包括静音数据和噪声数据，可以利用深度神经网络训练分类模型，将当前帧输入信号的感知线性预测参数以及基频输入至分类模型中，可以计算出当前帧输入信号为语音信号或者非语音信号的置信概率。

在本发明的一种优选实施例中，步骤S12可以包括以下子步骤：

子步骤S121，采用所述感知线性预测参数和基频生成输入参数。

本发明实施例中，深度神经网络模型是一个多维度的分析模型，具有多个结构层，每个结构层都有相应的输入和输出接口，例如在输入层中，需要输入参数以进行计算，因此可以将当前帧输入信号的感知线性预测参数和基频进行合成，生成多维度的输入信号的输入参数，以在深度神经网络模型中进行运算，例如，输入参数是一个123维度的向量参数，其中有120维度属于感知线性预测参数，3维度属于基频。

子步骤S122，采用所述输入参数，在预设的深度神经网络模型中，计算所述当前帧输入信号为语音信号的置信概率。

本发明实施例中，可以将获取到的当前帧输入信号的感知线性预测参数和基频合成，生成输入参数，将输入参数输入至预设的深度神经网络模型中，计算出当前帧输入信号为语音信号的置信概率，当然，也可以是计算当前帧输入信号为非语音信号的置信概率。

子步骤S123，获取当前帧输入信号的前一帧输入信号为语音信号的置信度。

在语音输入时，人说话生成的输入信号是一个数据流，每帧输入信号之间不是单独的，当前帧输入信号与其前一帧输入信号具有一定的关联性，因此，为了计算当前帧输入信号的置信概率的可靠度，即置信度，可以根据当前帧输入信号的前一帧输入信号的置信度进行综合计算，因此，可以获取当前帧输入信号的前一帧输入信号为语音信号的置信度。

子步骤S124，采用所述前一帧输入信号为语音信号的置信度和所述当前帧输入信号为语音信号的置信概率，计算所述当前帧输入信号的置信度。

在本发明实施例的一种示例中，可以通过以下公式计算当前帧输入信号的置信度：

S(t2)＝α×S(t1)+(1-α)×P(t2)

其中，S(t1)为前一帧输入信号的置信度，S(t2)为当前帧输入信号的置信度，P(t2)为当前帧输入信号的置信概率；α为平滑系数，0≤α≤1，在上述公式中，平滑系数α越接近于1，表示当前帧输入信号的置信度与前一帧输入信号的关联度越高，例如，在实际应用中，每一帧输入信号都计算置信度，当前一帧为语音信号的置信度较高时，接着相邻的下一帧计算置信度时，可以设置α更接近于1，否则可以将α设置得接近于0。

子步骤S125，判断所述当前帧输入信号的置信度是否大于预设置信度阈值，若是，执行子步骤S126，若否，执行子步骤S127。

本发明实施例中，可以预设置信度阈值，例如设置输入信号为语音信号或者非语音信号的置信度阈值，以通过置信度阈值确定输入信号为语音信号还是非语音信号，本发明实施例中，可以设置输入信号为语音信号的置信度阈值。当大于预设置信度阈值时，确定当前帧输入信号的第二信号类型为语音信号，否则为非语音信号。

子步骤S126，确定所述第二信号类型为语音信号；

子步骤S127，确定所述第二信号类型为非语音信号。

本发明实施例中，第二信号类型由当前帧输入信号参考当前帧输入信号的前一帧输入信号的置信度进行确定，提升了对语音信号和非语音信号的识别的准确度，避免了仅仅依据置信概率确定语音信号和非语音信号时出现的虚警错判或者漏警错判。

步骤103，依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型。

在本发明实施例中，步骤103可以包括如下子步骤：

子步骤S21，当所述第一信号类型和所述第二信号类型均为语音信号时，确定所述当前帧输入信号的信号类型为语音信号。

在本发明实施例中，第一信号类型和第二信号类型的确定可以是同时执行，也可以是先确定第一信号类型，然后根据第一信号类型的结果，确定是否执行确定第二信号类型的步骤，例如当第一信号类型的结果为语音信号时，则执行确定第二信号类型的步骤，否则不执行。当第一信号类型和第二信号类型均为语音信号时，确定当前帧输入信号时语音信号。

子步骤S22，当所述第一信号类型和所述第二信号类型中存在非语音信号时，确定所述当前帧输入信号的信号类型为非语音信号。

当第一信号类型的结果为非语音信号时，可以确定当前帧输入信号为非语音信号，或者第一信号类型为语音信号，在执行确定第二信号类型的步骤后，第二信号类型为非语音信号时，确定当前帧输入信号为非语音信号，即第一信号类型和第二信号类型中存在非语音信号时，确定当前帧输入信号的信号类型为非语音信号。

本发明实施例通过步骤102，采用输入信号的信号能量值和语音信噪比，在信号层面上确定输入信号的信号类型，同时结合了输入信号的感知线性预测参数和基频，在预设的深度神经网络模型中，基于模型层面确定输入信号的信号类型，即本发明实施例中，基于信号层面和模型层面确定输入信号的信号类型，可以提高输入信号中语音信号和非语音信号的识别准确度，同时保证了语音信号识别的连续性。

在语音输入模式下获取当前帧输入信号的信号特征参数，采用信号特征参数确定当前帧输入信号的第一信号类型，以及，采用信号特征参数和预设的深度神经网络模型确定当前帧输入信号的第二信号类型，依据第一信号类型和第二信号类型，确定当前帧输入信号的信号类型。本发明实施例基于信号特征参数在信号层面上确定输入信号的第一信号类型，基于信号特征参数和预设的深度神经网络模型在模型层面确定输入信号的第二信号类型，然后综合第一信号类型和第二信号类型确定输入信号中的语音信号和非语音信号，提高了语音信号和非语音信号的识别准确性，增强了语音识别对噪声环境的鲁棒性和连续性。

参照图2所示，为本发明一种语音识别方法实施例2的步骤流程图。

本发明实施例的一种语音识别方法，采用实施例一中的语音活动检测方法确定出输入信号的类型后，包括以下步骤：

步骤201,采用语音活动检测的方法确定当前帧输入信号的信号类型。

本发明实施例中，可以采用如实施例1所述的语音活动检测方法确定当前帧输入信号的信号类型，在此不再赘述。

步骤202，当确定所述当前帧输入信号的信号类型为语音信号时，将所述当前帧输入信号发送至解码器进行解码，得到当前帧输入信号对应的文本信息。

在确定当前帧输入信号的信号类型为语音信号后，将当前帧输入信号发送至解码器进行解码，得到当前帧输入信号对应的文本信息。对语音信号的解码过程，可以是对语音信号的识别过程，其可以在声学模型(Acoustic Model，AM)与语言模型(Language Model，LM)的指导下针对接收到的语音信号识别得到一个或多个文本信息。

声学模型(Acoustic Model，AM)是自动语音识别***的模型中最底层的部分，同时也是自动语音识别***中最关键的组成单元，声学模型建模的好坏会直接从根本上影响语音识别***的识别效果和鲁棒性。声学模型实验概率统计的模型对带有声学信息的语音基本单元建立模型，描述其统计特性。通过对声学模型的建模，可以较有效地衡量语音的特征矢量序列和每一个发音模板之间的相似度，可以有助于判断该段语音的声学信息，即语音的内容。语者的语音内容都是由一些基本的语音单元组成，这些基本的语音单元可以是句子、词组、词、音节(syllable)、子音节(Sub-syllable)或者音素等。

由于语音信号的时变性、噪声和其它一些不稳定因素，单纯靠声学模型无法达到较高的语音识别的准确率。在人类语言中，每一句话的单词直接有密切的联系，这些单词层面的信息可以减少声学模型上的搜索范围，有效地提高识别的准确性，要完成这项任务，语言模型是必不可少的，它提供了语言中词之间的上下文信息以及语义信息。语言模型(Language Model，LM)具体可以包括N-Gram模型、马尔可夫N元模型(Markov N-gram)、指数模型(Exponential Models)、决策树模型(Decision Tree Models)等等。而N-Gram模型是最常被使用的统计语言模型，特别是二元语言模型(bigram)、三元语言模型(trigram)。

在本发明的一种优选实施例中，在将输入信号发送至解码器进行解码之前，还包括：

对输入信号进行预处理，预处理包括：低频去噪，和/或，信号增强。

用户的语音输入环境可能存在各种各样的噪声，例如用户在办公室中可能存在空调发出的噪音，在路上使用移动终端语音输入时，存在汽车的发动机低频噪音，还可以是语音采集设备，例如麦克风处理信号时产生的信号噪音等，如果将输入信号直接送入到解码器当中，极有可能会影响到解码结果的准确性，所以输入信号进入到解码器之前，首先对输入信号进行低频去噪以消除各种低频噪声，同时由于用户环境因素造成用户声音较小或者语音采集设备等硬件性能影响，造成输入信号强度较弱，可以通过幅度增强技术对输入信号强度进行增强，通过对输入信号进行预处理后，可以提高输入信号的抗噪性，可以提高解码时识别的准确率。

在本发明的一种优选实施例中，语音识别的方法还包括：

当确定当前帧输入信号的信号类型为非语音信号时，计算所述非语音信号的持续时间。

用户在说话时，存在着停顿，在停顿时生成的输入信号即为非语音信号，用户说话的停顿可以是在一帧输入信号中，也可以是在连续的多帧输入信号中，例如，在一帧输入信号的长度为1秒时间，其中有可能其中的0.2秒为非语音时间，又或者是一帧输入信号的长度为10毫秒，出现连续多帧输入信号全部为非语音信号，因此，当确定到非语音信号时，计算非语音信号的持续时间。

当所述持续时间大于预设时间阈值时，重置所述解码器。

解码器在运行过程中，持续地接收输入信号进行解码和输出解码结果，当遇到非语音信号时不进行解码，当非语音信号的持续时长超过预设时间阈值时，可以重置解码器，释放解码器里面的数据，例如清空缓存数据等，避免了解码器资源有限，不能长时间进行解码，实时输出解码的问题。例如，在用户说“大家好，我叫李磊，很高兴认识大家”时，“大家好”后的停顿的输入信号，确定为非语音信号，且非语音信号持续时间超过停顿阈值，判断语音信号结束，解码器解码结束，重置解码器。

用户可以根据实际情况设置时间阈值，例如根据用户说话的语速、说话习惯、语言类型等设置。

本发明优选实施例是可选的，可以视具体情况决定是否需要执行。

本发明实施例中，在确定到输入信号是非语音信号时，计算非语音信号的持续时间，当持续时间大于预设时间阈值时，重置解码器，使得在语音识别过程中，不受解码器资源的限制，从而能够实现长时间语音识别。

本发明实施例中，基于信号特征参数在信号层面上确定输入信号的第一信号类型，基于信号特征参数和预设的深度神经网络模型在模型层面确定输入信号的第二信号类型，然后综合第一信号类型和第二信号类型确定输入信号中的语音信号和非语音信号，提高了语音信号和非语音信号的识别准确性，增强了语音识别对噪声环境的鲁棒性和连续性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图3，示出了本发明一种语音活动检测装置实施例3的结构框图，具体可以包括如下模块：

特征参数获取模块301，用于获取当前帧输入信号的信号特征参数；

信号类型获取模块302，用于采用所述信号特征参数确定所述当前帧输入信号的第一信号类型；以及，采用所述信号特征参数和预设的深度神经网络模型，确定所述当前帧输入信号的第二信号类型；

信号类型确定模块303，用于依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型。

在本发明的一种优选实施例中，信号类型获取模块302包括：

在本发明的一种优选实施例中，所述第一信号类型确定子模块包括：

在本发明的一种优选实施例中，所述第一预判信号类型单元包括：

所述第二预判信号类型单元包括：

在本发明的一种优选实施例中，所述第二信号类型确定子模块包括：

置信度计算单元，用于采用所述前一帧输入信号为语音信号的置信度和所述当前帧输入信号为语音信号的置信概率，计算当前帧输入信号的置信度；

参照图4，示出了本发明一种语音识别装置实施例4的结构框图，具体可以包括如下模块：

语音活动检测模块401，用于采用语音活动检测装置确定当前帧输入信号的信号类型；

语音识别模块402，用于当确定所述当前帧输入信号的信号类型为语音信号时，将所述当前帧输入信号发送至解码器进行解码，得到当前帧输入信号对应的文本信息。

在本发明的一种优选实施例中，还包括：

持续时间计算模块，用于当确定当前帧输入信号的信号类型为非语音信号时，计算所述非语音信号的持续时间；

解码器重置模，用于当所述持续时间大于预设时间阈值时，重置所述解码器。

在本发明的一种优选实施例中，语音识别装置还包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图5是根据一示例性实施例示出的一种语音活动检测装置500的框图。例如，装置500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，装置500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制装置500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例包括用于在装置500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为装置500的各种组件提供电力。电源组件506可以包括电源管理***，一个或多个电源，及其他与为装置500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述装置500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当装置500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为装置500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为装置500的显示器和小键盘，传感器组件514还可以检测装置500或装置500一个组件的位置改变，用户与装置500接触的存在或不存在，装置500方位或加速/减速和装置500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件514经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件514还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由装置500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音活动检测方法，所述方法包括：

获取当前帧输入信号的信号特征参数；

可选地，所述信号特征参数包括信号能量值、语音信噪比、感知线性预测参数以及基频，所述采用所述信号特征参数确定所述当前帧输入信号的第一信号类型，以及，采用所述信号特征参数和预设的深度神经网络模型确定所述当前帧输入信号的第二信号类型，包括：

可选地，所述采用所述信号能量值和语音信噪比确定所述当前帧输入信号的第一信号类型，包括：

可选地，所述采用所述信号能量值确定所述当前帧输入信号的第一预判信号类型，包括：

判断所述信号能量值是否大于预设能量阈值；

若是，则确定所述第一预判信号类型为语音信号；

若否，则确定所述第一预判信号类型为非语音信号。

可选地，所述采用所述语音信噪比确定所述当前帧输入信号的第二预判信号类型，包括：

判断所述语音存在概率是否大于预设语音存在概率阈值；

若是，则确定所述第二预判信号类型为语音信号；

若否，则确定所述第二预判信号类型为非语音信号。

可选地，所述采用所述感知线性预测参数和基频，在预设的深度神经网络模型中，确定所述当前帧输入信号的第二信号类型，包括：

采用所述感知线性预测参数和基频生成输入参数；

若是，则确定所述第二信号类型为语音信号；

若否，则确定所述第二信号类型为非语音信号。

可选地，所述依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型，包括：

在另一示例性实施例的一种语音识别装置中，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种语音识别的方法，所述方法包括：

采用语音活动检测装置确定当前帧输入信号的信号类型，

可选地，还包括：

当所述持续时间大于预设时间阈值时，重置所述解码器。

可选地，在将所述当前帧输入信号发送至解码器进行解码的步骤之前，还包括：

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音活动检测的方法，其特征在于，包括：

获取当前帧输入信号的信号特征参数；

采用所述信号特征参数确定所述当前帧输入信号的第一信号类型，以及，采用所述信号特征参数和预设的深度神经网络模型确定所述当前帧输入信号的第二信号类型；所述第一信号类型为语音信号或非语音信号，所述第二信号类型为语音信号或非语音信号；

依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型；

其中，所述信号特征参数包括信号能量值、语音信噪比、感知线性预测参数以及基频，所述采用所述信号特征参数确定所述当前帧输入信号的第一信号类型，以及，采用所述信号特征参数和预设的深度神经网络模型确定所述当前帧输入信号的第二信号类型的步骤包括：

采用所述感知线性预测参数和基频生成输入参数；

若是，则确定所述第二信号类型为语音信号；

若否，则确定所述第二信号类型为非语音信号。

2.根据权利要求1所述的方法，其特征在于，所述采用所述信号能量值和所述语音信噪比确定所述当前帧输入信号的第一信号类型的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述采用所述信号能量值确定所述当前帧输入信号的第一预判信号类型的步骤包括：

判断所述信号能量值是否大于预设能量阈值；

若是，则确定所述第一预判信号类型为语音信号；

若否，则确定所述第一预判信号类型为非语音信号。

4.根据权利要求2所述的方法，其特征在于，所述采用所述语音信噪比确定所述当前帧输入信号的第二预判信号类型的步骤包括：

判断所述语音存在概率是否大于预设语音存在概率阈值；

若是，则确定所述第二预判信号类型为语音信号；

若否，则确定所述第二预判信号类型为非语音信号。

5.根据权利要求1-4任一所述的方法，其特征在于，所述依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型的步骤包括：

6.一种语音识别的方法，其特征在于，包括：

采用如权利要求1-5任一所述的语音活动检测的方法确定当前帧输入信号的信号类型；

7.根据权利要求6所述的方法，其特征在于，还包括：

当所述持续时间大于预设时间阈值时，重置所述解码器。

8.根据权利要求6或7所述的方法，其特征在于，在将所述当前帧输入信号发送至解码器进行解码的步骤之前，还包括：

9.一种语音活动检测的装置，其特征在于，包括：

信号类型获取模块，用于采用所述信号特征参数确定所述当前帧输入信号的第一信号类型；以及，采用所述信号特征参数和预设的深度神经网络模型，确定所述当前帧输入信号的第二信号类型；所述第一信号类型为语音信号或非语音信号，所述第二信号类型为语音信号或非语音信号；

信号类型确定模块，用于依据所述第一信号类型和第二信号类型，确定所述当前帧输入信号的信号类型；

其中，所述信号特征参数包括信号能量值、语音信噪比、感知线性预测参数以及基频，所述信号类型获取模块包括：

第二信号类型确定子模块，用于采用所述感知线性预测参数和基频生成输入参数；采用所述输入参数，在预设的深度神经网络模型中，计算所述当前帧输入信号为语音信号的置信概率；获取当前帧输入信号的前一帧输入信号为语音信号的置信度；采用所述前一帧输入信号为语音信号的置信度和所述当前帧输入信号为语音信号的置信概率，计算所述当前帧输入信号的置信度；判断所述当前帧输入信号的置信度是否大于预设置信度阈值；若是，则确定所述第二信号类型为语音信号；若否，则确定所述第二信号类型为非语音信号。

10.根据权利要求9所述的装置，其特征在于，所述第一信号类型确定子模块包括：

11.根据权利要求10所述的装置，其特征在于，所述第一预判信号类型单元包括：

12.根据权利要求10所述的装置，其特征在于，所述第二预判信号类型单元包括：

13.根据权利要求9-12任一所述的装置，其特征在于，所述信号类型确定模块包括：

14.一种语音识别装置，其特征在于，包括：

语音活动检测模块，用于采用如权利要求9-13任一所述的语音活动检测装置确定当前帧输入信号的信号类型；

15.根据权利要求14所述的装置，其特征在于，还包括：

当所述持续时间大于预设时间阈值时，重置所述解码器。

16.根据权利要求14或15所述的装置，其特征在于，还包括：

17.一种语音活动检测装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取当前帧输入信号的信号特征参数；

采用所述感知线性预测参数和基频生成输入参数；

若是，则确定所述第二信号类型为语音信号；

若否，则确定所述第二信号类型为非语音信号。

18.一种语音识别装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

采用如权利要求17所述的语音活动检测装置确定当前帧输入信号的信号类型，

19.一种存储介质，其特征在于，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如方法权利要求1-5中一个或多个所述的语音活动检测方法。

20.一种存储介质，其特征在于，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如方法权利要求6-8中一个或多个所述的语音识别的方法。