CN102426837B

CN102426837B - 农业现场数据采集的移动设备语音识别的鲁棒性方法

Info

Publication number: CN102426837B
Application number: CN2011104539949A
Authority: CN
Inventors: 诸叶平; 赵俊峰
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2013-10-16
Anticipated expiration: 2031-12-30
Also published as: CN102426837A

Abstract

本发明提出一种农业现场数据采集的移动设备语音识别的鲁棒性方法，该方法是基于移动设备语音识别特征补偿和模型补偿相结合的抗噪方法，针对农业现场数据采集典型应用场景的非平稳噪声环境，寻找稳健的耐噪声语音特征参数以及从含噪语音中提取的特征进行处理，去除由噪声引起的含噪语音特征和纯净语音特征之间的偏差，以有效提高***识别准确率。本发明的方法复杂性低，更容易实施，同时由于基于农业特定情景的偏差模式要求的训练数据少，实时性好，更适合于在移动设备有限的计算和存储资源条件下应用。

Description

农业现场数据采集的移动设备语音识别的鲁棒性方法

技术领域

本发明涉及属于智能信息处理、农业信息技术领域，尤其是指一种农业现场数据采集的移动设备语音识别的鲁棒性方法。

背景技术

我国地域跨度大，地理环境复杂，农业生产水平和科技水平发展不平衡，移动设备的应用多样性和灵活性可以帮助解决在农业信息化进程中所遇到的来源于基层的前端技术困难，即原始信息的采集和控制问题。语音识别技术是解决移动设备交互问题的重要途径，随着农业现代化进程的不断深入，语音识别技术在农业信息领域的重要性越来越突出，在农业科学研究、农业生产和农产品信息采集领域都有着广泛应用。但基于移动设备的语音识别距离实用化还有一定距离，一方面，移动条件下各种不良声学环境的环境噪声限制了语音识别技术的应用，另一方面，非特定人连续语音识别对移动设备的语音识别技术提出了更高的鲁棒性要求。现有的语音识别鲁棒性方法主要面临以下问题：

1、语音信号是一种非平稳信号，常用的噪声补偿方法都是建立在线性平稳信号的假设上，考虑时变因素和非线性影响的情形非常复杂。

2、连续语音信号的声学特征随其前后相连的语音的不同而有很大差异，限制了语音识别在低信噪比移动设备上的实际应用。

3、大词汇量连续语音识别***适应性差，对环境的依赖性较强，噪声环境下语音识别准确率的提高难度大。

在通用领域大词汇量连续语音识别的背景下解决上述问题非常困难，在特定领域中小词汇量的应用方面，移动设备的语音识别应用需要适应小数据的新环境，而桌面语音识别常用的具有复杂参数的最大似然线性回归方法复杂度又超出了移动设备的计算能力。

发明内容

本发明要解决的技术问题是：提出一种农业现场数据采集的移动设备语音识别鲁棒性方法，提高了识别鲁棒性，降低了识别难度，改善了农业现场数据采集语音识别的环境适应性。

本发明的技术解决方案是：一种农业现场数据采集的移动设备语音识别的鲁棒性方法，该方法是基于移动设备语音识别特征补偿和模型补偿相结合的抗噪方法，针对农业现场数据采集典型应用场景的非平稳噪声环境，寻找稳健的耐噪声语音特征参数以及从含噪语音中提取的特征进行处理，去除由噪声引起的含噪语音特征和纯净语音特征之间的偏差，以有效提高***识别准确率。

本发明的特点和优点是：本发明为提高农业现场数据采集语音识别的鲁棒性，针对农业现场数据采集典型应用场景的非平稳噪声环境，寻找稳健的耐噪声语音特征参数以及从含噪语音中提取的特征进行处理，提出一种基于移动设备语音识别特征补偿和模型补偿相结合的抗噪方法，去除由噪声引起的含噪语音特征和纯净语音特征之间的偏差，以达到有效提高***识别准确率的目的，在农业现场数据采集领域中小词汇量低信噪比条件下，本发明提高了移动设备语音识别在室内、室外和野外典型环境下的抗噪特性，具有一定的可靠性和实用性。

本方法复杂性低，更容易实施，同时由于基于农业特定情景的偏差模式要求的训练数据少，实时性好，更适合于在移动设备有限的计算和存储资源条件下应用。

附图说明

图1为本发明的农业现场数据采集的移动设备语音识别的鲁棒性方法的原理图。

图2为本发明的农业现场数据采集的移动设备语音识别的鲁棒性方法的模块框图。

具体实施方式

下面配合附图及具体实施例对本发明的具体实施方式作进一步的详细说明。

本发明提出一种农业现场数据采集的移动设备语音识别的鲁棒性方法，所述方法包括模型补偿、场景偏差计算、初始权重调整、环境补偿和自适应控制；语音信号经过模型补偿进行MFCC特征提取，与权值系数完成卷积运算，与背景噪声完成迭加后得到含噪特征矢量，然后经过场景偏差计算，根据计算结果进行场景初始权重系数调整，使场景初始权重根据输入信号的变动自动学习，而不断调整权值系数并始终保持均方差最小。

语音在从产生、采集为数字信号、调制传输解调整个过程都不可避免的受到外界的干扰，包括周围环境噪声的影响，语音信号采集设备的影响，传输调制信道的影响等。语音特征分布的环境变量的变化比语音信号变量的变化要慢，在一个短时间窗的噪声语音和模型分布之间进行随机匹配，从噪声语音数据找出并去除瞬间的非语音变化，可以使得语音识别精度可得到显著改善。

如图1所示，其为本发明的设计原理图。本发明是基于稳定性的考虑提出的一种基于模式的动态补偿方案，用来改善移动环境下语音识别的鲁棒性。

该方法定义了一个带偏差的固定模式来纠正数据训练时的环境变量，假设数据训练是根据一组事先定义好的应用场景下得到的，在识别时，瞬时偏差由多种可能的模式线性加权得到。

为了快速估计加权值，采用基于语音相关先验模式的贝叶斯学习法，对于先验数据统计在训练其间提前计算，一个是固定模式的偏差，一个是模式的初始权重。

固定模式通过把某些特定的场景分类合并的方式获得，选择三种情形下的移动环境作为代表：室内环境(办公室/温室大棚)、公共场所(市场，有背景噪音)和野外环境(风声、水声及虫鸣)。实际过程中通过噪声现场录音方法收集每个先验场景下的数据，利用最大似然线性回归方法估计一个全局偏置矢量作为相对于纯净语音的环境偏差。采用的环境补偿方法是从相似的应用场景中获取知识通过某些预先偏差补偿受噪降低的语音。

模式补偿方法提出瞬间偏差的估计是多种先验偏差模板线性时变的结合，偏差模式由几个代表典型应用场景的环境特性在训练过程计算得到。

为了便于准确理解本发明的技术方案，下面结合具体实施例对本发明的方法的关键技术部分进行详细说明，至于其它与现有语音识别技术相同的部分，由于本领域的技术人员结合本文的描述可以准确理解，故此处则不再一一赘述。

移动环境中语音识别鲁棒性改善的主要障碍包括由加性噪音、通道编码和解码中的非线性特征及脉冲干扰源产生的听觉降低。考虑到农业语音识别的有限训练样本和移动设备资源有限性，本方法采取从相似的应用场景中获取知识通过某些预先偏差来补偿受噪影响的语音信号。在移动环境中，加性噪音和卷积噪音会同时破坏语音信号，在倒谱范围里引出了一个时间变量偏差，瞬间的偏差是各种不同程度噪音、信道、甚至语音本身作用的混合。变化的偏差函数定义为：

b_t＝f(X_t，N_t，H_t) (1)

其中X_t，H_t和N_t分别代表语音、过滤和噪音。

1、语音码本的信号评估方法

考虑一个纯净语音环境，通过把可能的噪声语音数据最大化能够计算出一个变化的环境偏差。语音数据的统计用一个编码本Ω来模拟。

Ω_M＝{ω_m}1≤m≤M ω_m＝{α_m，n；μ_m，n；∑_m，n}1≤n≤N (2)

M代表编码数，每个编码都是一个N阶混合正态分布，α_m，n；μ_m，n；∑_m，n分别代表混合权重、均值和协方差矩阵，O代表当前帧的语音特征：

O = {O_{t - \frac{T}{2}}, \cdot \cdot \cdot, O_{t}, \cdot \cdot \cdot, O_{t + \frac{T}{2}}} - - - (3)

O和Ω之间随机匹配导出最大化的可能性：

\max_{b_{t}} P (O | Ω, b_{t}) - - - (4)

用迭代的最大期望值方法求解：

U_{t} = Σ_{m = 1}^{M} Σ_{n = 1}^{N} Σ_{j = t - T / 2}^{j = t + T / 2} γ_{m, n, j} \cdot Σ_{m, n}^{- 1}

V_{t} = Σ_{m = 1}^{M} Σ_{n = 1}^{N} Σ_{j = t - T / 2}^{j = t + T / 2} γ_{m, n, j} \cdot Σ_{m, n}^{- 1} (o_{j} - μ_{m, n}) - - - (5)

b_{t}^{i} = U_{t}^{- 1} V_{t}

γ_m，n，j是时间j按前面迭代

次偏差假设下的高斯分布ω_m，n的占有率。

2、基于固定模式的动态补偿方法

给出X_t，H_t和N_t的联合分布，偏差可以在整个随机空间按积分计算：

按有限代表点来近似计算：

b_{t} \approx Σ_{r = 1}^{R} f (X_{r}, N_{r}, H_{r}) P_{r, t} - - - (7)

用预先计算好的固定模式描述移动环境特定点(X_r，N_r，H_r)的偏差：

B＝[b₁，b₂，…，b_R]其中b_r＝f(X_r，N_r，H_r) (8)

一个时变矢量被用来表示这些模型的瞬间权重因子：

λ_t＝[λ_t，1，λ_t，2，…，λ_t，R]^T其中λ_t，r＝P_r，t (9)

给出λ_t的先验分布，瞬间偏差能够通过优化噪声数据和模型间的匹配来估算：

\max_{λ_{t}} P (O | Ω_{M}, B, λ_{t}) P (λ_{t}) - - - (10)

先验分布假设为一个正态分布：

λ_{t} &Proportional; N (\overset{&OverBar;}{λ}, Γ) - - - (11)

用迭代方法求解：

U_{t}^{'} = Σ_{m = 1}^{M} Σ_{n = 1}^{N} Σ_{j = t - T / 2}^{j = t + T / 2} γ_{m, n, j} \cdot B^{T} Σ_{m, n}^{- 1} B + τ Γ^{- 1}

V_{t}^{'} = Σ_{m = 1}^{M} Σ_{n = 1}^{N} Σ_{j = t - T / 2}^{j = t + T / 2} γ_{m, n, j} \cdot Σ_{m, n}^{- 1} (o_{j} - μ_{m, n}) + τ Γ^{- 1} \overset{&OverBar;}{λ} - - - (12)

λ′_t＝U′_t ^-1V′_t

τ为先验信息分布的调节参数。当τ被设定为零时，式(12)为最大似然估计。τ根据实际应用中的数据大小来调节。

3、多模板的谱加补偿方法

在农业具体应用环境中，背景噪声通常是加性噪声，对于基于HMM的语音识别***，多模板的谱加训练噪声补偿方法如下：假定噪声模板为N＝{N₁，N₂，…，N_M}其中M代表环境噪声种类，N_i＝{N_i(ω₁)，N_i(ω₂)，，N_i(ω_B)}，对于词表中的某个词在安静环境中得到K遍训练语音，求MFCC参数可得B个频谱，对一个T帧的语音可以得到T个频谱矢量序列，将每一帧频谱矢量分别加相应方差矢量中的某一个矢量，便得到一个新的T帧的频谱矢量序列，连同原来的频谱矢量序列，总共可以得到M+1个T帧的频谱矢量序列。对每一个频谱矢量求离散余弦反变换，得到MFCC参数，将一遍语音便扩展成M+1遍的MFCC参数序列，共得到K(M+1)遍参数序列，用这些参数序列训练该语音的隐马尔可夫模型进行模型补偿，在只考虑背景加性噪声的条件下，可以有效使模板适应多种噪声情况，不增加识别时的运算量，实时性好，适合在便携设备中使用。

如图2所示，本方法的设计主要分为模型补偿模块、场景偏差计算模块、初始权重调整模块、环境补偿模块和自适应控制模块。语音信号经过模型补偿模块进行MFCC特征提取，与权值系数完成卷积运算，与背景噪声完成迭加后得到含噪特征矢量，然后经过场景偏差计算模块，根据计算结果进行场景初始权重系数调整，使场景初始权重根据输入信号的变动自动学习，而不断调整权值系数并始终保持均方差最小。其中，对于环境补偿，由于聚合来自不同特定场景的训练数据会掩盖特定环境在声音模型中的信息，故本方法中的环境补偿是通过人工收集每个先验场景下的数据，利用最大似然方法估计一个全局偏移矢量作为相对于纯净语音的环境偏差，以达到预先补偿受噪降低的语音信号；由于模型和扰动的先验知识比较少，在***的运行过程中依据对象的输入输出数据去不断提取有关模型的信息，改进模型参数，使模型逐步改进完善，逐步接近实际，最后将***自身调整到一个满意的工作状态。

本发明的目的就是不断改变初始权重跟踪最新的场景变化。先验演进法的工作模式是按照不断增加的方式演变，当先验变量矩阵保持不变时相当于根据不同的语音片段调节中先验平均值矢量，通过不断更新先验的统计数据和当前数据来估计瞬时偏差(本发明中按时间变量结合先验模板进行计算)。

与常用的自适应模型比较，本方法复杂性低，更容易实施，同时由于基于农业特定情景的偏差模式要求的训练数据少，实时性好，更适合于在移动设备有限的计算和存储资源条件下应用。

虽然本发明已以具体实施例揭示，但其并非用以限定本发明，任何本领域的技术人员，在不脱离本发明的构思和范围的前提下所作出的等同组件的置换，或依本发明专利保护范围所作的等同变化与修饰，皆应仍属本专利涵盖的范畴。

Claims

1.一种农业现场数据采集的移动设备语音识别的鲁棒性方法，该方法是基于移动设备语音识别特征补偿和模型补偿相结合的抗噪方法，针对农业现场数据采集典型应用场景的非平稳噪声环境，寻找稳健的耐噪声语音特征参数以及从含噪语音中提取的特征进行处理，去除由噪声引起的含噪语音特征和纯净语音特征之间的偏差，其特征在于，所述方法包括模型补偿、场景偏差计算、初始权重调整、环境补偿和自适应控制；语音信号经过模型补偿进行MFCC特征提取，与权值系数完成卷积运算，与背景噪声完成迭加后得到含噪特征矢量，然后经过场景偏差计算，根据计算结果进行场景初始权重系数调整，使场景初始权重根据输入信号的变动自动学习，而不断调整权值系数并始终保持均方差最小，以有效提高***识别准确率。

2.如权利要求1所述的方法，其特征在于，所述方法是通过一个带偏差的固定模式来纠正数据训练时的环境变量，其中数据训练是根据一组事先定义好的应用场景下得到的，在识别时，瞬间偏差由多种可能的模式线性加权得到。

3.如权利要求1所述的方法，其特征在于，所述方法采用基于语音相关先验模式的贝叶斯学习法来快速估计加权值；对于先验数据统计，在训练期间提前计算固定模式的偏差和模式的初始权重。

4.如权利要求3所述的方法，其特征在于，所述固定模式是通过把某些特定的场景分类合并的方式获得，选择三种情形下的移动环境作为代表：以办公室及/或温室大棚为代表的室内环境、以市场为代表的背景噪音的公共场所和以具有风声、水声及/或虫鸣的野外环境。

5.如权利要求1所述的方法，其特征在于，通过噪声现场录音方法收集每个先验场景下的数据，利用最大似然线性回归方法估计一个全局偏置矢量作为相对于纯净语音的环境偏差；从相似的应用场景中获取知识通过某些预先偏差补偿受噪降低的语音。

6.如权利要求2所述的方法，其特征在于，所述瞬间偏差的估计是多种先验偏差模板线性时变的结合，偏差模式由几个代表典型应用场景的环境特性在训练过程计算得到。

7.如权利要求3所述的方法，其特征在于，所述固定模式的偏差是采用语音码本的信号评估方法获得，其中，变化的偏差函数定义为：

b_t＝f(X_t，N_t，H_t) (1)

其中X_t，H_t和N_t分别代表语音、过滤和噪音；

考虑一个纯净语音环境，通过把可能的噪声语音数据最大化能够计算出一个变化的环境偏差；语音数据的统计用一个编码本来模拟：

Ω_M＝{ω_m}1≤m≤M ω_m＝{α_m，n；μ_m，n；∑_m，n}1≤n≤N (2)

O = {O_{t - \frac{T}{2}}, \cdot \cdot \cdot, O_{t}, \cdot \cdot \cdot, O_{t + \frac{T}{2}}} - - - (3)

O和Ω之间随机匹配导出最大化的可能性：max_btP(O|Ω，b_t) (4)

用迭代的最大期望值方法求解：

U_{t} = Σ_{m = 1}^{M} Σ_{n = 1}^{N} Σ_{j = t - T / 2}^{j = t + T / 2} γ_{m, n, j} \cdot Σ_{m, n}^{- 1}

V_{t} = Σ_{m = 1}^{M} Σ_{n = 1}^{N} Σ_{j = t - T / 2}^{j = t + T / 2} γ_{m, n, j} \cdot Σ_{m, n}^{- 1} (o_{j} - μ_{m, n}) - - - (5)

b_{t}^{i} = U_{t}^{- 1} V_{t}

γ_m，n，j是时间j按前面迭代

次偏差假设下的高斯分布ω_m，n的占有率。

8.如权利要求7所述的方法，其特征在于，基于固定模式的动态补偿方法如下：

按有限代表点来近似计算：

b_{t} \approx Σ_{r = 1}^{R} f (X_{r}, N_{r}, H_{r}) P_{r, t} - - - (7)

B＝[b₁，b₂，…，b_R]其中b_r＝f(X_r，N_r，H_r) (8)

利用一个时变矢量被用来表示这些模型的瞬间权重因子：

X_t＝[λ_t，1，λ_t，2，…，λ_t，R]^T其中λ_t，r＝P_r，t (9)

max_λtP(O|Ω_M，B，λ_t)P(λ_t) (10)

将先验分布假设为一个正态分布：

λ_t∝N(

Γ)

用迭代方法求解：

U_{t}^{'} = Σ_{m = 1}^{M} Σ_{n = 1}^{N} Σ_{j = t - T / 2}^{j = t + T / 2} γ_{m, n, j} \cdot B^{T} Σ_{m, n}^{- 1} B + τ Γ^{- 1}

V_{t}^{'} = Σ_{m = 1}^{M} Σ_{n = 1}^{N} Σ_{j = t - T / 2}^{j = t + T / 2} γ_{m, n, j} \cdot Σ_{m, n}^{- 1} (o_{j} - μ_{m, n}) + τ Γ^{- 1} \overset{&OverBar;}{λ} - - - (12)

λ_{t}^{'} = U_{t}^{' - 1} V_{t}^{'}

τ为先验信息分布的调节参数；当τ被设定为零时，式(12)为最大似然估计；τ根据实际应用中的数据大小来调节。

9.如权利要求8所述的方法，其特征在于，对于基于HMM的语音识别***，多模板的谱加训练噪声补偿方法如下：假定噪声模板为N＝{N₁，N₂，…，N_M}其中M代表环境噪声种类，N_i＝{N_i(ω₁)，N_i(ω₂)，，N_i(ω_B)}，对于词表中的某个词在安静环境中得到K遍训练语音，求MFCC参数可得B个频谱，对一个T帧的语音可以得到T个频谱矢量序列，将每一帧频谱矢量分别加相应方差矢量中的某一个矢量，便得到一个新的T帧的频谱矢量序列，连同原来的频谱矢量序列，总共可以得到M+1个T帧的频谱矢量序列；对每一个频谱矢量求离散余弦反变换，得到MFCC参数，将一遍语音便扩展成M+1遍的MFCC参数序列，共得到K(M+1)遍参数序列，用这些参数序列训练该语音的隐马尔可夫模型进行模型补偿。