CN114242106A

CN114242106A - 一种语音处理方法及其装置

Info

Publication number: CN114242106A
Application number: CN202010942560.4A
Authority: CN
Inventors: 褚伟; 胡云卿; 刘悦; 林军; 罗潇
Original assignee: CRRC Zhuzhou Institute Co Ltd
Current assignee: CRRC Zhuzhou Institute Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2022-03-25

Abstract

本发明提供了语音处理方法及其装置。所述语音处理方法包括：获取麦克风采集的语音信号；利用回声消除模型消除所述语音信号中的回声以得到中间语音信号；以及利用深度神经网络模型去除所述中间语音信号中的噪音信号以得到所述语音信号中的语音指令信号。

Description

一种语音处理方法及其装置

技术领域

本发明涉及语音处理领域，尤其涉及一种用于语音交互***的语音处理方法及其装置。

背景技术

电车是一种常用的公共交通客运车，包括铁轨电车、轻轨电车及有轨电车等。现有的铁轨电车、轻轨电车及有轨电车的需要专门的轨道配合实现运行，基础设施建设和车辆购置成本高。

为解决该问题，中车株洲所提出了一种能够跟随地面虚拟轨道的电车，该种新型电车取消了钢轨，通过胶轮承载和方向盘转向的方式跟随地面虚拟轨道行驶。地面虚拟轨道布置灵活，仅需在地面上画出如车道线一样的虚拟轨道。此种新型电车无需沿着固定轨道行驶，大大降低了基建成本，相对于有轨电车而言有巨大的运营优势。同时，该种新型电车具有“共享路权，混行交通”的运行特点，使得交通***在地面车道布设等方面拥有组织灵活的优势。

该新型电车司机室有语音播报***和大屏显示***。两套***独立运行，互不干扰。语音播报***是用来播放调度指令信息以及提示信息。大屏显示***是用来显示牵引封锁、车辆信息、空调状态、胎压、电池容量、故障记录等信息。大屏显示***内嵌了麦克风和扬声器，分别用来拾音和语音输出，可以通过语音交互***切换状态信息。

为了保障行车安全，使司机的注意力更多的集中在路面上，可以通过语音交互来切换大屏显示状态信息。但由于语音播报***和大屏显示***的语音干扰，麦克风接收的语音不仅包括语音交互指令，还包括语音播报***的声音和大屏显示***的声音的回声，甚至，还包括司机室的空调噪声。

为解决麦克风采集的语音信号中的回声和噪音，本发明旨在提出一种语音处理方法及其装置。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面，提供了一种语音处理方法，包括：获取麦克风采集的语音信号；利用回声消除模型消除所述语音信号中的回声以得到中间语音信号；以及利用深度神经网络模型去除所述中间语音信号中的噪音信号以得到所述语音信号中的语音指令信号。

更进一步地，所述利用远端信号的回声消除模型消除所述语音信号中的回声以得到中间语音信号包括：基于所述回声的声源利用所述回声消除模型进行回声估计以得到所述语音信号的回声估计值；以及将所述语音信号减去所述回声估计值以得到所述中间语音信号。

更进一步地，所述语音信号中的回声包括多个声源的回声，所述回声消除模型包括分别与所述多个声源对应的多个自适应滤波器，所述基于所述回声的声源利用所述回声消除模型进行回声估计以得到回声估计值包括：采用所述多个自适应滤波器分别对所述多个声源进行回声估计以分别得到所述多个声源的回声估计值；以及求出所述多个声源的回声估计值之和以作为所述语音信号的回声估计值。

更进一步地，所述语音处理方法还包括：判断所述语音信号中是否包括语音指令信号；以及所述基于所述回声的声源利用所述回声消除模型进行回声估计以得到回声估计值还包括：响应于所述语音信号中不包括语音指令信号，利用所述多个声源更新所述多个自适应滤波器；以及响应于所述语音信号中包括语音指令信号，采用最近更新的多个自适应滤波器对所述多个声源进行回声估计。

更进一步地，所述判断所述语音信号中是否包括语音指令信号包括：利用所述多个声源和所述麦克风采集的语音信号计算出检测函数

其中，r_xd＝E[x(n)d(n)]＝R_xxh，

R_xx＝E[x(n)x^T(n)]，x(n)为所述多个声源之和，d(n)为所述语音信号，R_xx为x(n)的自相关矩阵，h为回声路径，

为所述语音信号d(n)的方差，

为回声y(n)的方差，

为所述噪音信号s(n)的方差，

为所述语音指令信号v(n)的方差；响应于所述检测函数值大于等于预设阈值，判断所述语音信号中不包括语音指令信号；以及响应于所述检测函数值小于所述预设阈值，判断所述语音信号中包括语音指令信号。

更进一步地，假设所述多个声源为m个声源，所述多个滤波器为与所述m个声源对应的m个滤波器，m＞1，所述利用所述多个声源更新所述多个自适应滤波器包括：利用参数更新公式

更新所述多个自适应滤波器的第i个自适应滤波器，其中，

y(n)为所述语音信号，

为所述m个声源的声源信号之和，

x_i为所述m个声源中的第i个声源的声源信号，L是滤波器长度，μ为步长因子，0＜μ＜2，α为保护系数。

更进一步地，所述深度神经网络模型包括输入层、隐含层和输出层，所述利用深度神经网络模型去除所述中间语音信号中的噪音以得到所述语音信号中的语音指令信号包括：将所述中间语音信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层的输出信号以作为所述语音指令信号。

更进一步地，所述语音处理方法还包括：构造所述深度神经网络模型

其中，

为所述隐含层和所述输出层中的任意一层l层的第i个神经元的输出函数，

为连接第l-1层的第j个神经元和第l层的第i个神经元的权重参数，

为第l-1层的第j个神经元的激活函数值，

f(x)为Sigmoid函数，

为第l层的第i个神经元的偏置参数，M_l-1为第l-1层的神经元个数，所述输入层的第i个神经元的输出函数值为所述深度神经网络模型的第i个输入语音，该输入层的第i个神经元的激活函数值等于所述第i个神经元的输出函数值；以及训练所述深度神经网络模型以得到所述神经网络模型的每一权重参数和每一偏置参数。

更进一步地，所述训练所述深度神经网络模型以得到所述神经网络模型的每一权重参数和每一偏置参数包括：采集纯净语音指令信号和实际应用环境的噪音信号；将所述纯净语音指令信号与所述噪音信号混合以得到带噪语音指令信号，所述纯净语音指令为所述带噪语音指令信号的标签值；将所述带噪语音指令信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层输出的与所述带噪语音指令信号对应的预测语音指令信号；以及将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的每一权重参数和每一偏置参数。

更进一步地，所述将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的每一权重参数和每一偏置参数包括：采用均方误差算法确定出所述带噪语音指令信号对应的预测语音指令信号相对于其标签值的代价函数值；以及利用反向传播过程基于所述代价函数值采用随机梯度下降算法不断更新所述深度神经网络模型的每一权重参数和每一偏置参数。

根据本发明的另一个方面，还提供了一种语音处理装置，包括：存储器，用于存储计算机程序；以及处理器，与所述存储器连接，用于执行所述存储器上的计算机程序，所述处理器被配置成：获取麦克风采集的语音信号；利用远端信号的回声消除模型消除所述语音信号中的回声以得到中间语音信号；以及利用深度神经网络模型去除所述中间语音信号中的噪音信号以得到所述语音信号中的语音指令信号。

更进一步地，所述处理器进一步被配置成：基于所述回声的声源利用所述回声消除模型进行回声估计以得到所述语音信号的回声估计值；以及将所述语音信号减去所述回声估计值以得到所述中间语音信号。

更进一步地，所述语音信号中的回声包括多个声源的回声，所述回声消除模型包括分别与所述多个声源对应的多个自适应滤波器，所述处理器进一步被配置成：采用所述多个自适应滤波器分别对所述多个声源进行回声估计以分别得到所述多个声源的回声估计值；以及求出所述多个声源的回声估计值之和以作为所述语音信号的回声估计值。

更进一步地，所述处理器还被配置成：判断所述语音信号中是否包括语音指令信号；响应于所述语音信号中不包括语音指令信号，利用所述多个声源更新所述多个自适应滤波器；以及响应于所述语音信号中包括语音指令信号，采用最近更新的多个自适应滤波器对所述多个声源进行回声估计。

更进一步地，所述处理器进一步被配置成：利用所述多个声源和所述麦克风采集的语音信号计算出检测函数

其中，r_xd＝E[x(n)d(n)]＝R_xxh，

为所述语音信号d(n)的方差，

为回声y(n)的方差，

为所述噪音信号s(n)的方差，

更进一步地，假设所述多个声源为m个声源，所述多个滤波器为与所述m个声源对应的m个滤波器，m＞1，所述处理器进一步被配置成：利用参数更新公式

更新所述多个自适应滤波器的第i个自适应滤波器，其中，

y(n)为所述语音信号，

为所述m个声源的声源信号之和，

更进一步地，所述深度神经网络模型包括输入层、隐含层和输出层，所述处理器进一步被配置成：将所述中间语音信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层的输出信号以作为所述语音指令信号。

更进一步地，所述处理器还被配置成：构造所述深度神经网络模型

其中，

为第l-1层的第j个神经元的激活函数值，

f(x)为Sigmoid函数，

更进一步地，所述处理器进一步被配置成：采集纯净语音指令信号和实际应用环境的噪音信号；将所述纯净语音指令信号与所述噪音信号混合以得到带噪语音指令信号，所述纯净语音指令为所述带噪语音指令信号的标签值；将所述带噪语音指令信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层输出的与所述带噪语音指令信号对应的预测语音指令信号；以及将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的每一权重参数和每一偏置参数。

更进一步地，所述处理器进一步被配置成：采用均方误差算法确定出所述带噪语音指令信号对应的预测语音指令信号相对于其标签值的代价函数值；以及利用反向传播过程基于所述代价函数值采用随机梯度下降算法不断更新所述深度神经网络模型的每一权重参数和每一偏置参数。

根据本发明的再一个方面，还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现上述任一项所述的语音处理方法的步骤。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，更能够更好地理解本发明的上述特征和优点。

图1是根据本发明的一个方面绘示的一实施例中的语音处理方法的流程示意图；

图2是根据本发明的一个方面绘示的轨道交通***的司机室的语音交互示意图；

图3是根据本发明的一个方面绘示的一实施例中的语音处理方法的部分流程示意图；

图4是根据本发明的一个方面绘示的一实施例中的语音处理方法的部分流程示意图；

图5是根据本发明的一个方面绘示的一实施例中的语音处理方法的部分流程示意图；

图6是根据本发明的一个方面绘示的一实施例中的语音处理方法的部分流程示意图；

图7是根据本发明的一个方面绘示的一实施例中的语音处理方法的部分流程示意图；

图8是根据本发明的一个方面绘示的一实施例中的语音处理方法的部分流程示意图；

图9是根据本发明的一个方面绘示的一实施例中的语音处理方法的部分流程示意图；

图10是根据本发明的另一个方面绘示的一实施例中的语音处理装置的模块框图。

具体实施方式

给出以下描述以使得本领域技术人员能够实施和使用本发明并将其结合到具体应用背景中。各种变型、以及在不同应用中的各种使用对于本领域技术人员将是容易显见的，并且本文定义的一般性原理可适用于较宽范围的实施例。由此，本发明并不限于本文中给出的实施例，而是应被授予与本文中公开的原理和新颖性特征相一致的最广义的范围。

在以下详细描述中，阐述了许多特定细节以提供对本发明的更透彻理解。然而，对于本领域技术人员显而易见的是，本发明的实践可不必局限于这些具体细节。换言之，公知的结构和器件以框图形式示出而没有详细显示，以避免模糊本发明。

请读者注意与本说明书同时提交的且对公众查阅本说明书开放的所有文件及文献，且所有这样的文件及文献的内容以参考方式并入本文。除非另有直接说明，否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此，除非另有明确说明，否则所公开的每一个特征仅是一组等效或类似特征的一个示例。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

注意，在使用到的情况下，进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头，该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

根据本发明的一个方面，提供一种语音处理方法，可用于语音交互***的输入语音指令的处理。

语音交互***是指通过获取用户输入的语音指令并产生对应的交互动作的***，例如，苹果手机上的“Siri”、智能机器人和智能家居等等。对于普通的语音交互***而言，并没有复杂的应用环境，背景声音中可能仅存在环境噪音，因此去除环境噪音后即可获得用户发出的语音指令。但对于轨道交通***的司机室而言，由于大屏显示***和语音播报***会经常发出语音消息，该些语音消息经过传播会与用户说出的语音指令同时被语音交互***采集，还会混合有环境噪音比如空调噪音等，因此，司机室的语音交互***采集到的语音信号的处理会比普通的语音交互***更为复杂。

在一实施例中，如图1所示，语音处理方法100包括步骤S110～S130。

其中，步骤S110为：获取麦克风采集的语音信号。

语音信号是指麦克风采集到的混合声音，具体以图2所示的轨道交通***的司机室的声音传播过程为例来说明语音信号的含义。

如图2所示，大屏显示***将声源x₁(n)通过一扬声器在司机室播放，语音播报***将声源x₂(n)通过另一扬声器在司机室播放，该两个扬声器播放的声音分别经过回声传播路径h₁和h₂到达麦克风近端形成混合的回声y(n)；空调噪音等环境噪音会在麦克风近端形成噪音信号s(n)；用户实际说出的语音指令在麦克风近端形成语音指令信号v(n)。可以理解，上述三种声音信号回声y(n)、噪音信号s(n)和语音指令信号v(n)并不一定会同时存在，其中，声音信号回声y(n)和噪音信号s(n)的存在具有一定的偶然性，而语音指令信号v(n)则仅在用户说话时存在。因此，当麦克风进行信号采集时，其采集到的语音信号d(n)可能会是该三种声音信号回声y(n)、噪音信号s(n)和语音指令信号v(n)的任意组合。

由于语音处理方法100的目的在于提取出准确的语音指令信号v(n)，因此当采集到的语音信号d(n)中存在语音指令信号v(n)时，可默认语音信号d(n)中存在其他两种声音信号回声y(n)和噪音信号s(n)，进而对采集到的语音信号d(n)进行无差别地回声y(n)和噪音信号s(n)的去除以获得剩下的语音指令信号v(n)。则本领域的技术人员可以理解，在语音处理的过程中，默认麦克风采集到的语音信号为该三种声音的混合，但实际采集到的语音信号d(n)并不一定为该三种声音的混合，即使不是该三种声音的混合也不影响语音处理的过程和语音处理的最终结果。

虽然本发明以图2司机室为例来进行了语音信号和发明目的的说明，但本领域的技术人员可以理解，语音处理方法100所适用的应用环境并不以存在两种声源的回声为限，麦克风采集到的回声可包括多种声源的回声以及多种环境噪音。

步骤S120为：利用回声消除模型消除所述语音信号中的回声信号以得到中间语音信号。

回声消除模型是利用产生回声的声源来估计出该声源经过扬声器播放之后被麦克风采集到的回声的模型。因此，可利用回声消除模型得到回声y(n)的估计值

再利用

来去除语音信号d(n)中的回声y(n)。

进一步地，如图3所示，步骤S120可具化为步骤S121～S122。

其中，步骤S121为：基于回声的声源利用回声消除模型进行回声估计以得到语音信号的回声估计值

较优地，回声消除模型可由自适应滤波器构成。自适应滤波器是指根据环境的改变，使用自适应算法来更新滤波器的参数和结构的滤波器。回声消除模型则可采用不改变结构但由自适应算法更新滤波系数的滤波器构成。

假设存在多个声源x₁(n)～x_m(n)(m为大于1的整数)，则回声消除模型包括对应的自适应滤波器ω₁～ω_m。对应地，如图4所示，步骤S121可具化为步骤S1211～S1212。

步骤S1211为：采用该多个自适应滤波器ω₁～ω_m分别对该多个声源x₁(n)～x_m(n)进行回声估计以分别得到该多个声源的回声估计值

其中，第i(1≤i≤m)个声源的回声估计值为

步骤S1212为：求出多个声源x₁(n)～x_m(n)对应的回声估计值

之和以作为语音信号d(n)的回声估计值

即

可以理解，如图2所示的轨道交通***的司机室的应用实例中具有两个声源x₁(n)和x₂(n)，因此对应的具有两个自适应滤波器ω₁和ω₂，该两个自适应滤波器分别用于对声源x₁(n)和x₂(n)进行回声估计，最终可得到司机室的回声估计值

进一步地，步骤S122为：将语音信号d(n)减去回声估计值

以得到中间语音信号d'(n)，即

更进一步，在一更优实施例中，该多个自适应滤波器ω₁～ω_m的滤波参数可利用不存在语音指令信号时麦克风采集到的语音信号来进行不断更新。具体可如图5所示，语音处理方法100还包括步骤S140～150。

其中，步骤S140为：判断麦克风采集到的语音信号d(n)中是否包括语音指令信号v(n)。

具体可利用多个声源x₁(n)～x_m(n)和麦克风采集到的语音信号d(n)来构造出一检测函数ξ，并利用该检测函数值来判断语音信号d(n)是否包括语音指令信号v(n)。

在一具体实施例中，构造的检测函数如下：

其中，r_xd＝E[x(n)d(n)]＝R_xxh，

R_xx＝E[x(n)x^T(n)]，x(n)为该多个声源x₁(n)～x_m(n)之和，即

d(n)为麦克风采集的语音信号，R_xx为x(n)的自相关矩阵，h为回声路径，

为语音信号d(n)的方差，

为回声y(n)的方差，

可利用声源来表示，即

为噪音信号s(n)的方差，

为语音指令信号v(n)的方差。

将r_xd＝R_xxh、

和

代入检测函数(1)中，则式(1)可转换为：

从式(2)可以看出，当语音信号d(n)中仅包括回声y(n)时，检测函数值等于1，当语音信号d(n)中包括回声y(n)、噪音信号s(n)和语音指令信号v(n)时，计算出的检测函数值显然小于1。因此上述构造的检测函数可用于判断语音信号d(n)是否包括语音指令信号v(n)。

进一步地，如图6所示，步骤S140可包括步骤S141～S143。

步骤S141为：利用多个声源x₁(n)～x_m(n)和麦克风采集的语音信号d(n)计算出检测函数ξ。即将x(n)和d(n)代入式(1)或式(2)中以计算出对应的检测函数值。

步骤S142为：响应于所述检测函数值大于等于预设阈值，判断所述语音信号中不包括语音指令信号。

步骤S143为：响应于所述检测函数值小于所述预设阈值，判断所述语音信号中包括语音指令信号。

该预设阈值可设置为略小于1，则当计算出的检测函数值小于该预设阈值时，可判断出语音信号d(n)中包括语音指令信号v(n)；则当计算出的检测函数值大于等于该预设阈值时，可判断出语音信号d(n)不包括语音指令信号v(n)。

进一步地，步骤S150为：响应于麦克风采集到的语音信号d(n)不包括语音指令信号v(n)，利用该多个声源x₁(n)～x_m(n)更新该多个自适应滤波器ω₁～ω_m。

可以理解，为了使回声估计值更加逼近真实回声，自适应滤波器ω₁～ω_m可根据语音信号d(n)和前一次滤波残余信号不断更新滤波参数。具体地，第i个自适应滤波器ω_i的更新公式可如下所示：

其中，

为该m个声源的声源信号之和，即

x_i为该m个声源中的第i个声源的声源信号，L是滤波器长度，μ为步长因子，0＜μ＜2，α为保护系数。保护系数α用于防止声源x(n)的內积||x(n)||²过小而导致滤波稳定性下降，可设置为一较小的小数，如0.0001。

则较优地，步骤S1211对应的设置为：响应于麦克风采集到的语音信号d(n)包括语音指令信号v(n)，采用最近更新的多个自适应滤波器对该多个声源x₁(n)～x_m(n)进行回声估计以分别得到该多个声源的回声估计值

即当检测出语音信号中包括语音指令信号时，不进行自适应滤波器的滤波参数的更新，而采集最近一次更新过程中确定出的滤波参数构成的自适应滤波器(最近一次执行的步骤S150产生的自适应滤波器ω₁～ω_m)来进行回声估计。

进一步地，在去除了语音信号d(n)中的回声y(n)后，还需要去除语音信号d(n)中的噪音s(n)。对应地，步骤S130为：利用深度神经网络模型去除所述中间语音信号中的噪音信号以得到所述语音信号中的语音指令信号。

深度神经网络模型是基于深度学习的神经网络模型，包括输入层、隐含层和输出层，其中，隐含层可包括多层。可先分别构造每一层的神经元，再利用深度学习算法进行训练以得到每一层的每一神经元的权重和偏置。

进一步地，如图7所示，步骤S130可包括步骤S131～S132。

步骤S131为：构造深度神经网络模型。

假设深度神经网络模型共有L层，其中，隐含层包括L-2(L＞2)层，输入层和输出层分别为1层，则该L层中的任意一层l(1＜l≤L)层的神经元个数为M_l个，则第l层的第i(1＜i≤M_l)个神经元的输出函数为

其中，

为第l-1层的第j个神经元的激活函数值，即

为第l层的第i个神经元的偏置参数。另外，第一层的第i(1＜i≤M₁)个神经元的输出函数

为深度神经网络模型的输入层的第i个输入语音，同时，第一层的第i(1＜i≤M₁)个神经元的激活函数值

可以理解，激活函数f(x)可以是Sigmoid函数。Sigmoid函数具体表达式如下：

f'(x)＝f(x)(1-f(x)) (5)

输入层的输入语音是指采用傅里叶变换对实际的语音进行转换后得到的幅度谱。对应地，经过各层的输出函数去噪后得到最终的幅度谱，再对最终的幅度谱进行反傅里叶变换可得到去噪后的实际语音。

进一步地，步骤S132为：训练所述深度神经网络模型以得到所述神经网络模型的权重参数和偏置参数。

具体训练过程可如图8所示，步骤S132可包括步骤S1321～S1324。

其中，步骤S1321为：采集纯净语音指令信号和实际应用环境的噪音信号。

以轨道交通***的司机室作为实际应用环境为例，则噪音是信号当司机室不存在回声和语音指令信号时采集到的声音。纯净语音指令信号则是指在无噪音和回声的环境中采集到的语音指令的声音。可以理解，用于训练深度神经网络模型的纯净语音指令信号可以是任意语音，并不要求是实际应用中的控制命令语音。

步骤S1322为：将纯净语音指令信号与噪音信号混合以得到带噪语音指令信号，所述纯净语音指令为所述带噪语音指令信号的标签值。

步骤S1323为：将所述带噪语音指令信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层输出的与所述带噪语音指令信号对应的预测语音指令信号。

可以理解，标签值为带噪语音指令信号实际对应的纯净语音指令，因此，利用深度神经网络模型得到的带噪语音指令信号所对应的预测语音指令信号与对应的标签值的匹配程度可作为深度神经网络模型的准确程度的衡量指数。

步骤S1324为：将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的权重参数和偏置参数。

可以理解，可构造一代价函数来衡量带噪语音指令信号的标签值与其对应的预测语音指令信号的匹配程度并基于该匹配程度来更新权重参数和偏置参数。

在一具体实施例中，如图9所示，步骤S1324可包括步骤S910～S920。

步骤S910为：采用均方误差算法(Mean-Square Error，MSE)确定出带噪语音指令信号对应的预测语音指令信号相对于其标签值的代价函数值。

则，代价函数如下所示：

其中，M_L为深度神经网络模型的输出层的神经元个数，可理解为输出数据的维度，y_k为第k个神经元所对应的带噪语音指令信号的标签值，

为该第k个神经元所对应的带噪语音指令信号的预测语音指令信号。

可以理解，带噪语音指令信号的代价函数越小则表明深度神经网络模型的准确度越高。

步骤S920为：利用反向传播过程基于代价函数值采用随机梯度下降算法(Stochastic Gradient Descent，SGD)不断更新深度神经网络模型的权重参数和偏置参数。

可以理解，不断重复进行深度神经网络模型的训练过程直到满足准确性要求。则，连接第l-1层的第j个神经元和第l(1＜l≤L)层的第i(1＜i≤M_l)个神经元的权重参数

和第l层的第i个神经元的偏置参数

的具体反向传播更新过程可如下式所示：

其中，

另外，

η为比例系数，表征深度神经网络模型的学习速率。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

根据本发明的另一个方面，还提供一种语音处理装置，适用于语音交互***的输入语音指令的语音处理。

在一实施例中，如图10所示，语音处理装置1000包括存储器1010和处理器1020。

其中，存储器1010用于存储计算机程序。

处理器1020与存储器1010连接，用于执行存储器1010上的计算机程序，该处理器1020执行存储器1010上的计算机程序时实现上述任一实施例中的语音处理方法100的步骤。

根据本发明的又一个方面，还提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现上述任一实施例中的语音处理方法100的步骤。

本领域技术人员将可理解，信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如，以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解，本发明的保护范围应当以所附权利要求书为准，而不应被限定于以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内，可以对各实施例进行各种变动和修改，这些变动和修改也落在本发明的保护范围之内。

Claims

1.一种语音处理方法，包括：

获取麦克风采集的语音信号；

利用回声消除模型消除所述语音信号中的回声以得到中间语音信号；以及

利用深度神经网络模型去除所述中间语音信号中的噪音信号以得到所述语音信号中的语音指令信号。

2.如权利要求1所述的语音处理方法，其特征在于，所述利用远端信号的回声消除模型消除所述语音信号中的回声以得到中间语音信号包括：

基于所述回声的声源利用所述回声消除模型进行回声估计以得到所述语音信号的回声估计值；以及

将所述语音信号减去所述回声估计值以得到所述中间语音信号。

3.如权利要求2所述的语音处理方法，其特征在于，所述语音信号中的回声包括多个声源的回声，所述回声消除模型包括分别与所述多个声源对应的多个自适应滤波器，所述基于所述回声的声源利用所述回声消除模型进行回声估计以得到回声估计值包括：

采用所述多个自适应滤波器分别对所述多个声源进行回声估计以分别得到所述多个声源的回声估计值；以及

求出所述多个声源的回声估计值之和以作为所述语音信号的回声估计值。

4.如权利要求3所述的语音处理方法，其特征在于，还包括：

判断所述语音信号中是否包括语音指令信号；以及

所述基于所述回声的声源利用所述回声消除模型进行回声估计以得到回声估计值还包括：

响应于所述语音信号中不包括语音指令信号，利用所述多个声源更新所述多个自适应滤波器；以及

响应于所述语音信号中包括语音指令信号，采用最近更新的多个自适应滤波器对所述多个声源进行回声估计。

5.如权利要求4所述的语音处理方法，其特征在于，所述判断所述语音信号中是否包括语音指令信号包括：

利用所述多个声源和所述麦克风采集的语音信号计算出检测函数

其中，r_xd＝E[x(n)d(n)]＝R_xxh，

为所述语音信号d(n)的方差，

为回声y(n)的方差，

为所述噪音信号s(n)的方差，

为所述语音指令信号v(n)的方差；

响应于所述检测函数值大于等于预设阈值，判断所述语音信号中不包括语音指令信号；以及

响应于所述检测函数值小于所述预设阈值，判断所述语音信号中包括语音指令信号。

6.如权利要求4所述的语音处理方法，其特征在于，假设所述多个声源为m个声源，所述多个滤波器为与所述m个声源对应的m个滤波器，m＞1，所述利用所述多个声源更新所述多个自适应滤波器包括：

利用参数更新公式

更新所述多个自适应滤波器的第i个自适应滤波器，其中，

y(n)为所述语音信号，

为所述m个声源的声源信号之和，

7.如权利要求1所述的语音处理方法，其特征在于，所述深度神经网络模型包括输入层、隐含层和输出层，所述利用深度神经网络模型去除所述中间语音信号中的噪音以得到所述语音信号中的语音指令信号包括：

将所述中间语音信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层的输出信号以作为所述语音指令信号。

8.如权利要求7所述的语音处理方法，其特征在于，还包括：

构造所述深度神经网络模型

其中，

为第l-1层的第j个神经元的激活函数值，

f(x)为Sigmoid函数，

为第l层的第i个神经元的偏置参数，M_l-1为第l-1层的神经元个数，所述输入层的第i个神经元的输出函数值为所述深度神经网络模型的第i个输入语音，该输入层的第i个神经元的激活函数值等于所述第i个神经元的输出函数值；以及

训练所述深度神经网络模型以得到所述神经网络模型的每一权重参数和每一偏置参数。

9.如权利要求8所述的语音处理方法，其特征在于，所述训练所述深度神经网络模型以得到所述神经网络模型的每一权重参数和每一偏置参数包括：

采集纯净语音指令信号和实际应用环境的噪音信号；

将所述纯净语音指令信号与所述噪音信号混合以得到带噪语音指令信号，所述纯净语音指令为所述带噪语音指令信号的标签值；

将所述带噪语音指令信号作为输入语音输入至所述深度神经网络模型的输入层以得到所述输出层输出的与所述带噪语音指令信号对应的预测语音指令信号；以及

将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的每一权重参数和每一偏置参数。

10.如权利要求9所述的语音处理方法，其特征在于，所述将所述带噪语音指令信号的标签值与其对应的预测语音指令信号进行对比以更新所述深度神经网络模型的每一权重参数和每一偏置参数包括：

采用均方误差算法确定出所述带噪语音指令信号对应的预测语音指令信号相对于其标签值的代价函数值；以及

利用反向传播过程基于所述代价函数值采用随机梯度下降算法不断更新所述深度神经网络模型的每一权重参数和每一偏置参数。

11.一种语音处理装置，包括：

存储器，用于存储计算机程序；以及

处理器，与所述存储器连接，用于执行所述存储器上的计算机程序，所述处理器被配置成：

获取麦克风采集的语音信号；

利用远端信号的回声消除模型消除所述语音信号中的回声以得到中间语音信号；以及

12.如权利要求11所述的语音处理装置，其特征在于，所述处理器进一步被配置成：

13.如权利要求12所述的语音处理装置，其特征在于，所述语音信号中的回声包括多个声源的回声，所述回声消除模型包括分别与所述多个声源对应的多个自适应滤波器，所述处理器进一步被配置成：

14.如权利要求13所述的语音处理装置，其特征在于，所述处理器还被配置成：

判断所述语音信号中是否包括语音指令信号；

15.如权利要求14所述的语音处理装置，其特征在于，所述处理器进一步被配置成：

其中，r_xd＝E[x(n)d(n)]＝R_xxh，

为所述语音信号d(n)的方差，

为回声y(n)的方差，

为所述噪音信号s(n)的方差，

为所述语音指令信号v(n)的方差；

16.如权利要求14所述的语音处理装置，其特征在于，假设所述多个声源为m个声源，所述多个滤波器为与所述m个声源对应的m个滤波器，m＞1，所述处理器进一步被配置成：

利用参数更新公式

更新所述多个自适应滤波器的第i个自适应滤波器，其中，

y(n)为所述语音信号，

为所述m个声源的声源信号之和，

17.如权利要求11所述的语音处理装置，其特征在于，所述深度神经网络模型包括输入层、隐含层和输出层，所述处理器进一步被配置成：

18.如权利要求17所述的语音处理装置，其特征在于，所述处理器还被配置成：

构造所述深度神经网络模型

其中，

为第l-1层的第j个神经元的激活函数值，

f(x)为Sigmoid函数，

19.如权利要求18所述的语音处理装置，其特征在于，所述语音处理装置适应于轨道交通车辆的司机室，所述处理器进一步被配置成：

采集纯净语音指令信号和实际应用环境的噪音信号；

20.如权利要求19所述的语音处理装置，其特征在于，所述处理器进一步被配置成：

21.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1～10中任一项所述的语音处理方法的步骤。