CN106782504B

CN106782504B - 语音识别方法和装置

Info

Publication number: CN106782504B
Application number: CN201611244370.5A
Authority: CN
Inventors: 崔玮玮; 孙珏
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2019-01-22
Anticipated expiration: 2036-12-29
Also published as: US20180190280A1; CN106782504A; US10373609B2

Abstract

本申请公开了语音识别方法和装置。该方法的一具体实施方式包括：响应于检测到传声器接收到包含干扰音信号的语音信号，对语音信号进行高通滤波处理；消除经高通滤波处理后的语音信号中的干扰音信号；对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号；从目标语音信号中提取特征向量，并将特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果，其中，声学模型用于表征特征向量与语音识别结果的对应关系。该实施方式提高了语音识别的成功率。

Description

语音识别方法和装置

技术领域

本申请涉及计算机技术领域，具体涉及互联网技术领域，尤其涉及语音识别方法和装置。

背景技术

随着计算机技术的发展，语音识别技术被应用于越来越多的领域，如智能家居、工业控制、终端设备的语音交互***等。利用语音识别技术可以使信息的处理和获取更加便捷，从而提高用户的工作效率。

然而，现有的语音识别方式通常将待识别的语音信号输入至基于纯净语音信号训练所得的声学模型，进而得到语音识别结果。由于待识别的语音信号通常与纯净语音信号存在较大差异，因而，这种语音识别方式存在着识别成功率较低的问题。

发明内容

本申请的目的在于提出一种改进的语音识别方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请提供了一种语音识别方法，上述方法包括：响应于检测到上述传声器接收到包含干扰音信号的语音信号，对上述语音信号进行高通滤波处理；消除经高通滤波处理后的语音信号中的干扰音信号；对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号；从上述目标语音信号中提取特征向量，并将上述特征向量输入至预先训练的声学模型，得到与上述目标语音信号匹配的语音识别结果，其中，上述声学模型用于表征特征向量与语音识别结果的对应关系。

在一些实施例中，上述终端设备还安装有扬声器，上述干扰音信号由回声信号和噪音信号组成，其中，上述回声信号是由上述扬声器发送并传送至上述传声器的声音信号。

在一些实施例中，上述消除上述语音信号中的上述干扰音信号，得到目标语音信号，包括：利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理，消除回声信号；利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。

在一些实施例中，上述响应于确定上述传声器接收到语音信号之前，上述方法还包括：对预先获取的训练样本进行预处理，生成目标训练样本，其中，上述目标训练样本包括语音标识；从上述目标训练样本中提取特征向量；基于卷积神经网络、深度神经网络和受限波尔兹曼机，将从上述目标训练样本中提取的特征向量作为输入，上述语音标识作为输出，训练得到上述声学模型。

在一些实施例中，上述对预先获取的训练样本进行预处理，生成目标训练样本，包括：对预先获取的训练样本进行高通滤波处理；对经高通滤波处理后的训练样本依次进行回声消除和噪声抑制处理；对经噪声抑制处理后的训练样本进行自动增益控制处理，生成目标训练样本。

在一些实施例中，上述响应于确定上述传声器接收到语音信号之前，上述方法还包括：利用聚类算法对上述声学模型输出的语音标识进行聚类，将聚类后的语音标识确定为与上述训练样本匹配的语音识别结果。

第二方面，本申请提供了一种语音识别装置，上述装置包括：第一处理单元，配置用于响应于检测到上述传声器接收到包含干扰音信号的语音信号，对上述语音信号进行高通滤波处理；消除单元，配置用于消除经高通滤波处理后的语音信号中的干扰音信号；第二处理单元，配置用于对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号；输入单元，配置用于从上述目标语音信号中提取特征向量，并将上述特征向量输入至预先训练的声学模型，得到与上述目标语音信号匹配的语音识别结果，其中，上述声学模型用于表征特征向量与语音识别结果的对应关系。

在一些实施例中，上述消除单元包括：第一消除模块，配置用于利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理，消除回声信号；第二消除模块，配置用于利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。

在一些实施例中，上述装置还包括：预处理单元，配置用于对预先获取的训练样本进行预处理，生成目标训练样本，其中，上述目标训练样本包括语音标识；提取单元，配置用于从上述目标训练样本中提取特征向量；训练单元，配置用于基于卷积神经网络、深度神经网络和受限波尔兹曼机，将从上述目标训练样本中提取的特征向量作为输入，上述语音标识作为输出，训练得到上述声学模型。

在一些实施例中，上述预处理单元包括：第一处理模块，配置用于对预先获取的训练样本进行高通滤波处理；第二处理模块，配置用于对经高通滤波处理后的训练样本依次进行回声消除和噪声抑制处理；第三处理模块，配置用于对经噪声抑制处理后的训练样本进行自动增益控制处理，生成目标训练样本。

在一些实施例中，上述装置还包括：聚类单元，配置用于利用聚类算法对上述声学模型输出的语音标识进行聚类，将聚类后的语音标识确定为与上述训练样本匹配的语音识别结果。

本申请提供的语音识别方法和装置，通过对语音信号依次进行高通滤波处理、消除干扰音信号、自动增益控制处理，以便得到目标语音信号，之后从目标语音信号中提取特征向量，并将特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果，从而提高了语音识别的成功率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的语音识别方法的一个实施例的流程图；

图3是根据本申请的语音识别方法的一个应用场景的示意图；

图4是根据本申请的语音识别方法的又一个实施例的流程图；

图5是根据本申请的语音识别装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的终端设备的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的语音识别方法或语音识别装置的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、102、103和服务器104。另外，上述***架构100还可以包含用以在终端设备101、102、103和服务器104之间提供通信链路介质的网络。其中，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103上可以安装有各种电子器件，如扬声器、传声器、摄像头等，也可以安装有各种通讯客户端应用，例如语音输入类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以检测所安装的传声器所接收语音信号，并对检测到的语音信号进行高通滤波、干扰音消除、自动增益控制等处理，并通过网络与服务器104交互，进而对处理后的语音信号进行识别。其中，上述服务器104可以用于存储声学模型。

终端设备101、102、103可以是安装有传声器的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

需要指出的是，终端设备101、102、103也可以直接进行声学模型的存储，并对处理后的语音信号进行识别，因而，终端设备101、102、103可以不与服务器104进行交互。此时，上述***架构100中可以不存在服务器104和网络。

需要说明的是，本申请实施例所提供的语音识别方法一般由终端设备101、102、103执行，相应地，语音识别装置一般设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备。

继续参考图2，其示出了根据本申请的用于终端设备的语音识别方法的一个实施例的流程200。所述的语音识别方法，包括以下步骤：

步骤201，响应于检测到传声器接收到包含干扰音信号的语音信号，对语音信号进行高通滤波处理。

在本实施例中，语音识别方法运行于其上的电子设备(例如图1所示的终端设备101、102、103)可以安装有传声器。实践中，上述传声器可以是将声波信号转换为相应电信号的传感器，如麦克风、微音器等。

在本实施例中，上述电子设备可以基于语音活动检测(Voice ActivityDetection，VAD)算法实时检测所安装的传声器是否接收到语音信号。响应于检测到上述传声器接收到语音信号，上述电子设备可以对上述语音信号进行高通滤波(High-passFilter，HPF)处理，以阻隔或削弱频率小于预设频率阈值(如100Hz、200Hz等)的语音信号。此处，可以将用户说话过程中经空气等介质传播至上述传声器中的声波信号作为上述语音信号。另外，由于上述电子设备可以处于各种环境中，因而上述语音信号中通常包含环境中的、由用户以外的其他声源发出并经空气等介质传播至上述传声器的干扰音信号。

实践中，VAD算法可以用于从声音信号流里识别和消除长时间的静音期；高通滤波是一种信号的过滤方式，用于使高于设定临界值的高频信号能正常通过，而低于设定临界值的低频信号则被阻隔或减弱。需要说明的是，上述VAD算法和高通滤波处理方法是目前广泛研究和应用的公知技术，在此不再赘述。

步骤202，消除经高通滤波处理后的语音信号中的干扰音信号。

在本实施例中，上述电子设备可以利用各种方式消除经高通滤波处理后的语音信号中的干扰音信号。

在本实施例的一些可选的实现方式中，上述干扰音信号可以是噪音信号。实践中，噪音信号可以存在于各种环境中，例如，公共场所、行驶的车辆内等，即使在安静的环境中，也可以存在平稳背景噪声。上述电子设备可以采用各种噪声抑制算法消除经高通滤波处理后的语音信号中的噪音信号。作为示例，上述噪声抑制算法可以是LMS(Least MeanSquare,最小均方)滤波算法、李雅普诺夫噪声主动控制算法等等。

在本实施例的一些可选的实现方式中，上述电子设备可以安装有扬声器。用户在利用上述电子设备播放音乐的情况下，或利用上述电子设备的TTS(Text to Speech，语音合成)播放功能播放声音(如导航语音、新闻阅读播报语音)的情况下，上述扬声器所发出的声音可以经空气等介质传输至上述传声器，形成声学回声。此时，上述干扰音信号可以是回声信号，其中，上述回声信号即由上述扬声器发送并传送至上述传声器的声音信号。上述电子设备可以利用回声消除(Acoustic Echo Cancellation，AEC)技术消除经高通滤波处理后的语音信号中的回声信号。具体的，上述电子设备可以按照如下步骤执行：首先，对上述扬声器发出的声音信号进行高通滤波处理，以阻隔或削弱频率小于上述预设频率阈值的声音信号。之后，利用各种时延估计(Time Delay Estimation，TDE)算法(例如广义互相关函数法、最小均方自适应滤波法、互功率谱相位法、基于高阶统计量的双谱时延估计法等)计算上述扬声器发送声音信号与上述传声器接收到回声信号的时延，并对上述传声器接收到的回声信号进行时延补偿。最后，对经高通滤波处理后的语音信号进行自适应滤波处理，消除经高通滤波处理后的语音信号中的回声信号。需要说明的是，上述噪声抑制算法、回声消除技术和时延估计算法是目前广泛研究和应用的公知技术，在此不再赘述。

在本实施例的一些可选的实现方式中，上述干扰音信号可以由上述回声信号和上述噪音信号组成。上述电子设备可以首先利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理，消除回声信号；之后，可以利用噪声消除算法消除经自适应滤波处理后的语音信号中的噪音信号。

步骤203，对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号。

在本实施例中，上述电子设备可以对消除干扰音信号后的语音信号进行自动增益控制(Automatic Gain Control，AGC)处理，将经自动增益控制处理后的语音信号确定为目标语音信号。具体的，当消除干扰音信号后的语音信号的强度小于预设的最小幅度阈值时，上述电子设备可以将该语音信号的幅度进行放大；当消除干扰音信号后的语音信号的幅度大于预设的最大幅度阈值时，上述电子设备可以将该语音信号的幅度进行减弱。实践中，AGC是一种使增益自动随信号幅度而调整的自动控制方法，可以通过改变信号输入输出压缩比例自动控制增益的幅度。

在本实施例的一些可选的实现方式中，在对消除干扰音信号后的语音信号进行AGC处理之后，上述电子设备还可以对小于预设幅度的语音信号进行动态范围控制(Dynamic Range Control，DRC)处理，以将语音信号的幅度的范围映射到预设幅度范围之内，将DRC处理后的语音信号确定为目标语音信号。

需要说明的是，上述AGC处理方法和DRC处理方法是目前广泛研究和应用的公知技术，在此不再赘述。

步骤204，从目标语音信号中提取特征向量，并将特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果。

在本实施例中，上述电子设备可以首先利用各种声学特征提取方法从上述目标语音信号中提取特征向量；之后，将上述特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果。其中，上述声学模型可以用于表征特征向量与语音识别结果的对应关系。需要说明的是，上述特征向量可以包含多个数值；上述语音识别结果可以是可以用于区别音素、音节、词素或音素状态等信息的语音识别标识，上述语音标识可以以各种形式表示，如字母、数字、符号、文字等等。需要指出的是，上述声学模型可以基于各种模型而建立，如隐马尔可夫模型(Hidden Markov Model，HMM)、循环神经网络(RecurrentNeural Networks，RNN)、深度神经网络(Deep Neural Network，DNN)等，也可以基于多个模型的结合而建立。作为示例，基于隐马尔可夫模型建立声学模型，可以首先统计文字的发音概率，建立隐性状态的表现概率矩阵，其中，上述隐性状态可以是语音信号对应的文字序列；之后，统计字词之间的转移概率，建立转移概率矩阵，并结合隐性状态的表现概率矩阵得到隐马尔可夫模型；然后，可以利用前向算法等对该隐马尔可夫模型进行评估，并通过机器学习方法进行训练确定隐马尔可夫模型的参数，得到上述声学模型。

在本实施例的一些可选的实现方式中，上述电子设备可以基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)从上述目标语音信号中提取特征向量。具体的，上述电子设备可以首先利用离散傅氏变换的快速算法(Fast FourierTransformation，FFT)对上述目标语音信号进行从时域至频域的转换，得到能量频率；之后，上述电子设备可以利用三角带通滤波方法，依照梅尔刻度分布，将上述目标语音信号的能量频谱进行卷积计算，得到多个输出对数能量，最后对上述多个输出对数能量构成的向量进行离散余弦变换(Discrete Cosine Transform，DCT)，生成特征向量。

在本实施例的一些可选的实现方式中，上述电子设备在基于MFCC从上述目标语音信号中提取特征向量之前，还可以对上述目标语音信号进行预加重、加窗等处理。实践中，由于上述目标语音信号是非平稳信号，为了能对上述目标语音信号进行处理，还需要将上述目标语音信号按短时段进行划分，每个短时段为一帧。其中，每一帧可以与预设的任意时长，如20ms、25ms、30ms等。

在本实施例的一些可选的实现方式中，上述电子设备还可以利用线性预测编码(Linear Predictive Coding，LPC)方法，通过对上述目标语音信号进行解析，生成声道激励和转移函数的参数，并以所生成的参数作为特征参数，生成特征向量。

继续参见图3，图3是根据本实施例的语音识别方法的应用场景的一个示意图。在图3的应用场景中，手机终端301安装有传声器302，当手机终端301检测到传声器301接收到包含干扰音信号的语音信号后，对检测到的语音信号进行高通滤波处理(如标号303所示)；之后，消除经高通滤波处理后的语音信号中的干扰音信号(如标号304所示)；然后，对消除干扰音信号后的语音信号进行自动增益控制处理(如标号305所示)，得到目标语音信号306；最后，手机终端301从上述目标语音信号306中提取特征向量，并将上述特征向量输入至预先训练的声学模型(如标号307所示)，得到与上述目标语音信号匹配的语音识别结果308。

本申请的上述实施例提供的方法通过对语音信号依次进行高通滤波处理、消除干扰音信号、自动增益控制处理，以便得到目标语音信号，之后从目标语音信号中提取特征向量，并将特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果，从而提高了语音识别的成功率。

进一步参考图4，其示出了语音识别方法的又一个实施例的流程400。该语音识别方法的流程400，包括以下步骤：

步骤401，对预先获取的训练样本进行预处理，生成目标训练样本。

在本实施例中，语音识别方法运行于其上的电子设备(例如图1所示的终端设备101、102、103)可以预先获取训练样本，其中，上述训练样本可以是预先采集的大量语音信号。需要说明的是，上述大量语音信号可以包含噪音信号和/或回声信号。需要指出的是，上述目标训练样本可以包括语音标识。实践中，上述语音标识可以用于区别音素、音节、词素、音素状态等的标识，上述语音标识可以以各种形式表示，如字母、数字、符号、文字等等。

在本实施例中，上述电子设备可以按照如下步骤对上述训练样本进行预处理：首先，对预先获取的训练样本进行高通滤波处理，以阻隔或削弱频率小于预设频率阈值的语音信号。之后，上述电子设备可以依次利用回声消除技术和噪声抑制算法，对经高通滤波处理后的训练样本进行回声消除处理和噪声抑制处理，以消除训练样本中的干扰音信号。需要说明的是，此处对干扰音信号的消除，也可以是减弱或抑制。最后，上述电子设备可以对经噪声抑制处理后的训练样本进行自动增益控制处理，并将自动增益控制处理后的得到的训练样本确定为目标训练样本。

步骤402，从目标训练样本中提取特征向量。

在本实施例中，上述电子设备可以首先对上述目标训练样本进行预加重、分帧、加窗等处理，之后，基于MFCC从上述目标语音信号中提取特征向量。具体的，上述电子设备可以首先利用离散傅氏变换的快速算法对上述目标训练样本进行从时域至频域的转换，得到能量频率；之后，上述电子设备可以利用三角带通滤波方法，依照梅尔刻度分布，将上述目标训练样本的能量频谱进行卷积计算，得到多个输出对数能量，最后对上述多个输出对数能量构成的向量进行离散余弦变换，生成特征向量。

步骤403，基于卷积神经网络、深度神经网络和受限波尔兹曼机，将从目标训练样本中提取的特征向量作为输入，语音标识作为输出，训练得到声学模型。

本实施例中，可以首先利用卷积神经网络、并以S形函数(即sigmoid函数)作为非线性激活函数建立多层神经网络模型。之后，上述电子设备可以将从上述目标训练样本中提取的特征向量作为输入，上述语音标识作为输出，利用RBM(Restricted BoltzmannMachine，受限波尔兹曼机)对所建立的多层神经网络模型进行训练得到声学模型。实践中，上述神经网络模型可以包括输入层、卷积层、池化层、全连接层、输出层，且上述卷积神经网络可以包括多个卷积层和多个池化层。上述受限玻尔兹曼机是一种可通过输入数据集学习概率分布的随机生成神经网络。上述受限玻尔兹曼机可以由一个可见神经元层和一个隐神经元层组成，隐层神经元之间没有相互连接，并且隐层神经元独立于上述目标训练样本，可见层神经元之间也没有相互连接，通过从上述目标训练样本得到的隐层神经元状态上执行马尔可夫链抽样过程，来估计独立于数据的期望值，并行交替更新所有可见层神经元和隐层神经元的值。需要说明的是，上述卷积神经网络和受限玻尔兹曼机是目前广泛研究和应用的公知技术，在此不再赘述。

在本实施例中，得到上述声学模型后，还可以利用各种聚类算法对上述声学模型所输出的语音标识进行聚类，将聚类后的语音标识确定为与上述训练样本匹配的语音识别结果。作为示例，可以基于相对熵(Kullback-Leibler Divergence，KLD)、层次聚类算法、SOM(Self-organizing Maps，自组织映射)聚类算法、FCM(Fuzzy c-means，模糊C均值)聚类算法等对上述声学模型所输出的语音标识进行聚类。

需要说明的是，上述声学模型可以存储于上述电子设备中，也可以存储于与上述电子设备相连接的服务器(例如图1所示的服务器104)中。

步骤404，响应于检测到传声器接收到包含干扰音信号的语音信号，对语音信号进行高通滤波处理。

在本实施例中，上述电子设备可以安装有传声器和扬声器。上述电子设备可以基于VAD算法实时检测所安装的传声器是否接收到语音信号。响应于检测到上述传声器接收到语音信号，上述电子设备可以对上述传声器所接收到的语音信号进行高通滤波处理，以阻隔或削弱频率小于步骤401上述的预设频率阈值的语音信号。需要说明的是，上述传声器所接收到的语音信号可以包含由上述回声信号和上述噪音信号组成的干扰音信号，其中，上述传声器所接收到的语音信号所包含得回声信号可以是由上述扬声器发送并传送至上述传声器的声音信号。

步骤405，利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理，消除回声信号。

在本实施例中，上述电子设备可以首先对上述扬声器发出的声音信号进行高通滤波处理，以阻隔或削弱频率小于上述预设频率阈值的语音信号。之后，可以利用时延估计算法计算上述扬声器发送声音信号与上述传声器接收到相应的回声信号的时延，并对上述传声器接收到的回声信号进行时延补偿。最后，对经高通滤波处理后的语音信号进行自适应滤波处理，消除经高通滤波处理后的语音信号中的回声信号。

步骤406，利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。

在本实施例中，上述噪音信号可以是环境中存在的平稳背景噪声。上述电子设备可以采用噪声抑制算法消除经高通滤波处理后的语音信号中的噪音信号。

步骤407，对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号。

在本实施例中，上述电子设备可以对消除干扰音信号后的语音信号进行自动增益控制处理，将自动增益控制处理后的语音信号确定为目标语音信号。

步骤408，从目标语音信号中提取特征向量，并将特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果。

在本实施例中，上述电子设备可以基于MFCC从上述目标语音信号中提取特征向量。之后，将所提取的特征向量输入至步骤404所训练的声学模型，得到与上述目标语音信号相匹配的语音识别结果。

需要说明的是，上述步骤405-步骤408的具体操作与步骤201-步骤204的具体操作基本相同，在此不再赘述。

从图4中可以看出，与图4对应的实施例相比，本实施例中的语音识别方法的流程400突出了对声学模型的训练样本进行预处理的步骤。由此，本实施例描述的方案可以减小训练声学模型所使用的训练样本与传声器所接收到的实际语音信号的差异，从而进一步提高了语音识别的成功率。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种语音识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的语音识别装置500包括：第一处理单元501，配置用于响应于检测到上述传声器接收到包含干扰音信号的语音信号，对上述语音信号进行高通滤波处理；消除单元502，配置用于消除经高通滤波处理后的语音信号中的干扰音信号；第二处理单元503，配置用于对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号；输入单元504，配置用于从上述目标语音信号中提取特征向量，并将上述特征向量输入至预先训练的声学模型，得到与上述目标语音信号匹配的语音识别结果，其中，上述声学模型用于表征特征向量与语音识别结果的对应关系。

在本实施例中，语音识别装置500可以安装有传声器。上述语音识别装置500的第一处理单元501可以基于VAD算法实时检测所安装的传声器是否接收到语音信号。响应于检测到上述传声器接收到语音信号，上述第一处理单元501可以对上述语音信号进行高通滤波处理，以阻隔或削弱频率小于预设频率阈值的语音信号。由于上述电子设备可以处于各种环境中，因而上述语音信号中通常包含干扰音信号。

在本实施例中，上述消除单元502可以利用各种方式消除经高通滤波处理后的语音信号中的干扰音信号。响应于上述干扰音信号是噪音信号，上述消除单元502可以采用NS算法消除经高通滤波处理后的语音信号中的噪音信号。响应于上述干扰音信号可以是回声信号，上述消除单元502可以利用AEC技术消除经高通滤波处理后的语音信号中的回声信号。

在本实施例的一些可选的实现方式中，上述语音识别装置500还安装有扬声器，上述干扰音信号由回声信号和噪音信号组成，其中，上述回声信号是由上述扬声器发送并传送至上述传声器的声音信号。

在本实施例的一些可选的实现方式中，上述消除单元502还可以包括第一消除模块和第二消除模块(图中未示出)。其中，上述第一消除模块可以配置用于利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理，消除回声信号；上述第二消除模块可以配置用于利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。

在本实施例中，第二处理单元503可以对消除干扰音信号后的语音信号进行自动增益控制处理，将经自动增益控制处理后的语音信号确定为目标语音信号。具体的，当消除干扰音信号后的语音信号的强度小于预设的最小幅度阈值时，上述电子设备可以将该语音信号的幅度进行放大；当消除干扰音信号后的语音信号的幅度大于预设的最大幅度阈值时，上述电子设备可以将该语音信号的幅度进行减弱。

在本实施例中，输入单元504可以首先利用各种声学特征提取方法从上述目标语音信号中提取特征向量；之后，将上述特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果。其中，上述声学模型可以用于表征特征向量与语音识别结果的对应关系。

在本实施例的一些可选的实现方式中，上述语音识别装置500还可以包括预处理单元、提取单元和训练单元(图中未示出)。其中，上述预处理单元可以配置用于对预先获取的训练样本进行预处理，生成目标训练样本，其中，上述目标训练样本包括语音标识；上述提取单元可以配置用于从上述目标训练样本中提取特征向量；上述训练单元可以配置用于基于卷积神经网络、深度神经网络和受限玻尔兹曼机，将从上述目标训练样本中提取的特征向量作为输入，上述语音标识作为输出，训练得到上述声学模型。

在本实施例的一些可选的实现方式中，上述预处理单元还可以包括第一处理模块、第二处理模块和第三处理模块(图中未示出)。其中，上述第一处理模块可以配置用于对预先获取的训练样本进行高通滤波处理；上述第二处理模块可以配置用于对经高通滤波处理后的训练样本依次进行回声消除和噪声抑制处理；上述第三处理模块可以配置用于对经噪声抑制处理后的训练样本进行自动增益控制处理，生成目标训练样本。

在本实施例的一些可选的实现方式中，上述语音识别装置500还可以包括聚类单元(图中未示出)：聚类单元，配置用于利用聚类算法对上述声学模型输出的语音标识进行聚类，将聚类后的语音标识确定为与上述训练样本匹配的语音识别结果。

本申请的上述实施例提供的装置，通过第一处理单元501、消除单元502、第二处理单元503分别对语音信号依次地进行高通滤波处理、消除干扰音信号、自动增益控制处理，以便得到目标语音信号，之后输入单元504从目标语音信号中提取特征向量，并将特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果，从而提高了语音识别的成功率。

下面参考图6，其示出了适于用来实现本申请的终端设备的计算机***600的结构示意图。

如图6所示，计算机***600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的

程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有***600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括触摸屏、触摸板等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一处理单元、消除单元、第二处理单元和输入单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一处理单元还可以被描述为“对语音信号进行高通滤波处理的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当上述一个或者多个程序被一个设备执行时，使得上述设备：响应于检测到传声器接收到包含干扰音信号的语音信号，对语音信号进行高通滤波处理；消除经高通滤波处理后的语音信号中的干扰音信号；对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号；从目标语音信号中提取特征向量，并将特征向量输入至预先训练的声学模型，得到与目标语音信号匹配的语音识别结果，其中，声学模型用于表征特征向量与语音识别结果的对应关系。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于终端设备的语音识别方法，其特征在于，所述终端设备安装有传声器，所述方法包括：

对预先获取的训练样本进行预处理，生成目标训练样本，其中，所述目标训练样本包括语音标识；

从所述目标训练样本中提取特征向量；

基于卷积神经网络、深度神经网络和受限波尔兹曼机，将从所述目标训练样本中提取的特征向量作为输入，所述语音标识作为输出，训练得到声学模型；

响应于检测到所述传声器接收到包含干扰音信号的语音信号，对所述语音信号进行高通滤波处理；

消除经高通滤波处理后的语音信号中的干扰音信号；

对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号；

从所述目标语音信号中提取特征向量，并将所述特征向量输入至预先训练的声学模型，得到与所述目标语音信号匹配的语音识别结果，其中，所述声学模型用于表征特征向量与语音识别结果的对应关系；

其中，所述对预先获取的训练样本进行预处理，包括：

对预先获取的训练样本进行高通滤波处理；

对经高通滤波处理后的训练样本依次进行回声消除和噪声抑制处理；

对经噪声抑制处理后的训练样本进行自动增益控制处理，生成目标训练样本。

2.根据权利要求1所述的语音识别方法，其特征在于，所述终端设备还安装有扬声器，所述干扰音信号由回声信号和噪音信号组成，其中，所述回声信号是由所述扬声器发送并传送至所述传声器的声音信号。

3.根据权利要求2所述的语音识别方法，其特征在于，所述消除经高通滤波处理后的语音信号中的干扰音信号，包括：

利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理，消除回声信号；

利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。

4.根据权利要求1所述的语音识别方法，其特征在于，所述响应于确定所述传声器接收到语音信号之前，所述方法还包括：

利用聚类算法对所述声学模型输出的语音标识进行聚类，将聚类后的语音标识确定为与所述训练样本匹配的语音识别结果。

5.一种用于终端设备的语音识别装置，其特征在于，所述终端设备安装有传声器，所述装置包括：

预处理单元，配置用于对预先获取的训练样本进行预处理，生成目标训练样本，其中，所述目标训练样本包括语音标识；

提取单元，配置用于从所述目标训练样本中提取特征向量；

训练单元，配置用于基于卷积神经网络、深度神经网络和受限波尔兹曼机，将从所述目标训练样本中提取的特征向量作为输入，所述语音标识作为输出，训练得到声学模型；

第一处理单元，配置用于响应于检测到所述传声器接收到包含干扰音信号的语音信号，对所述语音信号进行高通滤波处理；

消除单元，配置用于消除经高通滤波处理后的语音信号中的干扰音信号；

第二处理单元，配置用于对消除干扰音信号后的语音信号进行自动增益控制处理，得到目标语音信号；

输入单元，配置用于从所述目标语音信号中提取特征向量，并将所述特征向量输入至预先训练的声学模型，得到与所述目标语音信号匹配的语音识别结果，其中，所述声学模型用于表征特征向量与语音识别结果的对应关系；

其中，所述预处理单元包括：

第一处理模块，配置用于对预先获取的训练样本进行高通滤波处理；

第二处理模块，配置用于对经高通滤波处理后的训练样本依次进行回声消除和噪声抑制处理；

第三处理模块，配置用于对经噪声抑制处理后的训练样本进行自动增益控制处理，生成目标训练样本。

6.根据权利要求5所述的语音识别装置，其特征在于，所述终端设备还安装有扬声器，所述干扰音信号由回声信号和噪音信号组成，其中，所述回声信号是由所述扬声器发送并传送至所述传声器的声音信号。

7.根据权利要求6所述的语音识别装置，其特征在于，所述消除单元包括：

第一消除模块，配置用于利用时延估计算法对经高通滤波处理后的语音信号进行自适应滤波处理，消除回声信号；

第二消除模块，配置用于利用噪声抑制算法消除经自适应滤波处理后的语音信号中的噪音信号。

8.根据权利要求5所述的语音识别装置，其特征在于，所述装置还包括：

聚类单元，配置用于利用聚类算法对所述声学模型输出的语音标识进行聚类，将聚类后的语音标识确定为与所述训练样本匹配的语音识别结果。