CN107123432A

CN107123432A - 一种自匹配Top‑N音频事件识别信道自适应方法

Info

Publication number: CN107123432A
Application number: CN201710334633.XA
Authority: CN
Inventors: 罗森林; 佟彤; 潘丽敏; 吕英
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-09-01

Abstract

本发明涉及一种自匹配Top‑N音频事件识别信道自适应方法，从应用场景的角度讲，属于音频事件识别技术领域；从技术实现的角度来讲，亦属于计算机科学与音频处理技术领域。本发明首先进行数据预处理，预处理过程包括量化、采样、预加重和加窗，然后进行特征提取，也就是对所需音频底层特征参数进行抽取，之后进行特征向量生成，也就是对提取的特征帧序列按照段长和段移进行压缩得到段向量，接下来是特征映射，特征映射是将信道相关特征段向量映射为信道无关特征段向量的过程，特征映射FM模块可分为FM训练和FM使用两个部分，最后进行模型训练和识别。本发明可以解决不同k值信道模型下高斯分量个数Top‑N的选择性问题和覆盖信道信息不均匀的问题，为网络传输编码差异影响下的音频事件识别提供一种较好的信道自适应方法。

Description

一种自匹配Top-N音频事件识别信道自适应方法

技术领域

本发明涉及一种自匹配Top-N音频事件识别信道自适应方法，从应用场景的角度讲，属于音频事件识别技术领域；从技术实现的角度来讲，亦属于计算机科学与音频处理技术领域。

背景技术

音频事件识别***在实际应用中经常由于录制环境、采集设备、编码方式的不同而产生信道失配问题，较为常见的一类是编码差异引入的信道失配，信道自适应方法是对信道失配中发生畸变的特征参数进行修正，从而更加准确的反应原始语音的特征信息，信道自适应通常可分为特征域自适应、模型域自适应和得分域自适应，可以选择其中一个或多个进行自适应。

特征域自适应是目前应用最广泛的信道自适应方法。特征域信道自适应方法可分为信道线性自适应和信道非线性自适应，基于信道线性自适应的方法一般较多而且效果比较好，通常为音频识别***的标准配置。其中较为典型的信道线性自适应方法和信道非线性自适应方法有：

1.倒谱均值减

倒谱均值减是一种广泛应用于语音识别中去除信道卷积噪声的方法，该方法的本质是把频域上的卷积噪声变换成倒谱域上的加性噪声，当在倒谱域的倒谱参数上减去均值时，就可以去除卷积噪声，在信道畸变模型为线性特性时该性能尤为突出。但是如果语音时长较短或语音段较干净，使用倒谱均值减方法效果就会不明显，甚至有可能导致***性能下降。而且当信道畸变为非线性失真的时候，倒谱均值减的有效性也会受到一定限制。

2.倒谱均值方差规整

倒谱方差规整进一步对倒谱域特征参数的方差进行规整。倒谱均值减和倒谱方差规整合在一起，称为倒谱均值方差规整。倒谱均值方差规整思路和实现方式简单，在语音识别方面取得了较好的成效，但是对于非线性失真的信道畸变效果不是非常明显。

3.矢量泰勒级数

矢量泰勒级数是一种相对比较实用的特征补偿方法，一般是通过一个显式的模型来描述带噪语音信号的产生，如果纯净语音和噪声分别服从高斯混合模型和单一高斯分布，利用矢量泰勒展开级数方法对非线性环境模型进行线性化，保证含噪语音也服从高斯混合模型，假设训练以及测试语音信号均平稳，利用最大期望算法估计环境噪声统计量，最后利用最小均方误差准则估计出纯净语音特征。矢量泰勒级数算法具有良好的抗噪性能，但是该方法一般都是离线完成并且用到的高斯混合模型一般为128甚至更高，不仅迭代次数多而且计算量大，一般很难满足实时性要求。需要对经典算法进行改进来提升其运算效率和实时性。

4.特征映射

特征映射方法基于GMM-UBM模型，由说话人模型合成方法发展而来，该方法的目的是将信道相关的语音特征映射到一个信道无关的空间中，利用信道无关的特征向量进行模型训练和识别。主要过程包括两个方面：信道模型训练和特征变换。特征映射方法是目前应用最广泛的信道自适应方法之一，作用在特征域，具有很高的灵活性和便捷性。

综上所述，现有的特征映射方法在特征变换时只就得分最大的高斯分量进行自适应，当M为高斯分量个数，会遗漏其余M-1个高斯分量所包含的信道信息，而且最大得分对于不同高斯数目的信道模型往往不同，泛化性一般较差。

发明内容

本发明的目的是为解决不同k值信道模型下高斯分量个数Top-N的选择性问题和覆盖信道信息不均匀的问题，提出一种自匹配Top-N高斯分量的音频事件信道自适应方法。

本发明的设计原理为：本发明首先进行数据预处理，预处理过程包括量化、采样、预加重和加窗，然后进行特征提取，也就是对所需音频底层特征参数进行抽取，之后进行特征向量生成，也就是对提取的特征帧序列按照段长和段移进行压缩得到段向量，接下来是特征映射，特征映射是将信道相关特征段向量映射为信道无关特征段向量的过程，特征映射FM模块可分为FM训练和FM使用两个部分，最后进行模型训练和识别。

本发明的技术方案是通过如下步骤实现的：

步骤1，音频识别的预处理过程主要包括预加重、分帧、加窗。在特征提取之前一般要对原始语音信号进行预加重处理，提升高频部分谱值用一阶数字滤波器来实现，之后需要进行分帧，分帧可采用连续分段或交叠分段方法，但多采用交叠分段以保证相邻帧之间的平滑性和连贯性，最后进行加窗以减小语音帧的截断效应，降低语音帧两端的变化坡度，需要选取合适的窗口长度。

步骤2，采用MFCC进行语音特征提取，将时域信号做FFT变换，之后对它的对数能量谱依照Mel刻度分布的三角滤波器组做卷积，计算每个滤波器组输出的对数能量，再对滤波器组的输出向量做离散余弦变换。

步骤3，在完成特征参数提取后，进行特征向量生成。将连续N帧特征向量的每一维特征相加计算其均值或方差，提取帧特征的共性，弱化帧特征的差异性，相邻片段间一般有N-M帧的交叠为了提高过渡的平滑性。

步骤4，基于自匹配Top-N高斯分量加权映射规则的特征映射。将来自不同信道的特征通过某种方式映射到同一个与信道无关的特征空间上，用于解决在实际音频事件识别***中因为训练条件和测试条件不一致导致识别性能下降的问题。具体实现方法为：

步骤4.1，使用来自各类信道的数据训练得到一个与信道无关的UBM模型(w_i，u_i，δ_i)，其中w_i表示第i个高斯概率密度函数的权重，u_i表示均值，δ_i表示方差。

步骤4.2，根据特定的信道情况选择相对应的训练数据，然后利用各个信道的训练特征数据逐一应用MAP方法自适应出该特定信道下的GMM模型，用(w_i ^A，u_i ^A，δ_i ^A)表示在信道A条件下的GMM模型。

步骤4.3，利用整个识别***信道相关的训练和测试特征向量进行信道模型判定，首先提取出输入数据的特征参数，然后根据对数似然度的大小判定该数据从属的信道，我们假设该条数据属于自信道A。

步骤4.4，采用自匹配Top-N高斯分量加权的映射规则进行特征变换，根据来源于信道A的测试数据的每一帧特征矢量，在信道A的高斯混合模型的数量M个高斯分量中选出排名得分前N的高斯分量N(u_k ^A,δ_k ^A)(N<M，k＝1，2，...，N)，设定得分阈值为ε(0＜ε＜1)，具体N的个数是利用得分阈值自匹配得到的，当得分前N的高斯分量的分数加和达到阈值ε时，则取该N值作为自匹配Top-N高斯分量加权映射的个数：

在N选定之后，分别逐一计算Top-N个高斯分量在特征变换时的方差δ_k ^A和均值u_k ^A对应的权重β_k，而且需要满足

把线性加权之后的UBM和信道A条件下的GMM的基准均值和方差分别记为u_k ^*、δ_k ^*、u_k ^A*、δ_k ^A*。得到自匹配Top-N高斯分量加权特征映射公式：

步骤5，利用信道无关特征向量对整个音频事件进行模型的训练及识别。有益效果

相比于归一基准得分最大的方法，本发明不会遗漏剩下的M-1个高斯分量所包含的信道信息。

相比于Top-1高斯分量特征映射方法和固定Top-N高斯分量加权的特征映射方法，本发明有更好的应用性和信道自适应性能，可为网络传输编码差异影响下的音频事件识别提供一种更好的信道自适应方法。

附图说明

图1为本发明的音频事件识别***原理框图；

图2为三种信道失配下不同k值的信道识别率；

图3为失配1不同k值Top-1和自匹配Top-N方法信道自适应性能；

图4为失配2不同k值Top-1和自匹配Top-N方法信道自适应性能；

图5失配3不同k值Top-1和自匹配Top-N方法信道自适应性能。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实施例对本发明方法的实施方式做进一步详细说明。

音频事件数据选择枪声集作为输入，设计并部署3项测试：(1)基准***参数选取信道匹配实验及信道失配性能对比实验；(2)Top-1高斯分量特征映射方法信道自适应性能测试实验；(3)自匹配Top-N高斯分量加权特征映射方法实验。

下面将对上述3个测试流程逐一进行说明，所有测试均在同一台计算机上完成，具体配置为：Intel双核CPU(主频2.93GHz)，4.00GB内存，Windows 7操作***。

1.基准***信道匹配及信道失配性能对比实验

先用信道匹配数据也就是某个信道的训练数据和该信道的测试数据对基准***在信道匹配条件下的识别准确率进行测试，例如信道1的训练数据和测试数据，然后用信道失配数据，主要包括三种失配情况，分别是信道1的训练数据和信道2、3、4的测试数据，分别测试基准***在这三种信道失配情况下的识别准确率。通过综合考虑***的时间复杂度、识别率以及操作是否简单等因素，决定选取13维MFCC+2维Energy、13维+2维一阶差分、13维+2维二阶差分共45维音频特征作为音频事件识别***实验的基准特征。

2.Top-1高斯分量特征映射方法实验

2.1Top-1高斯分量特征映射方法信道自适应性能实验

首先设置不同的k值，k即为UBM-GMM信道模型中高斯分量的个数，分别使用UBM-GMM训练信道模型，进行模型判断，之后利用Top-1高斯分量特征映射方法进行特征映射，最后采用Adaboost对枪声集进行训练和识别，其中k值分别取4、8、16、32、64、128、256、512和1024，图2给出三种信道失配情况下不同k值的***信道识别率。

2.2不同Top-N高斯分量的信道信息得分及其对应的信道自适应性能实验

首先取信道2下的一个测试文件，其中特征提取为许多帧数据{x₁,x₂,…x_n}，在进行正确的信道判定之后，计算在信道2模型下的前十帧数据的各个高斯分量概率输出得分，列举出得分最高的前六的概率输出。如表1所示，高斯分量个数k取64。

表1测试帧数据属于该信道模型下各高斯分量的得分

当k＝64时，测试在失配1条件下Top-1到Top-6不同高斯分量加权映射下的***识别性能，结果如表2所示。

表2失配1同一k值下不同Top-N高斯分量方法的信道自适应性能

3.自匹配Top-N高斯分量加权特征映射方法实验。

基准***在实验1的三种信道失配条件下，分别利用自匹配Top-N高斯分量加权特征映射方法对不同k值信道模型下的信道失配自适应性能进行测试，基准***的参数配置参考Top-1高斯分量特征映射方法实验，之后和Top-1高斯分量特征映射方法信道自适应性能进行对比。自匹配Top-N高斯分量加权的特征映射方法，采用得分阈值法为每帧特征数据进行自匹配，匹配出对应的特征映射高斯分量个数N。设置实验阈值ε＝0.99999。

测试结果

对于测试(1)，基准***一般在信道匹配的条件下有较好的识别性能，不管在哪种信道失配条件下，受信道失配的影响很大，***的识别性能都急剧下降，由此可以得出信道失配自适应的必要性。

对于测试(2)，当k值取4、8、16、32时，***的识别准确率呈提升趋势，但是当k＝64时，***的准确率开始下降，主要原因是训练样本相对较少，从而导致k值比较高时建立的模型不够精确。总的来说，Top-1高斯分量特征映射方法的信道补偿效果比较好，甚至在k值合适的情况下能够达到或超过信道匹配时的***识别准确率。

固定Top-N高斯分量加权特征映射方法相对于Top-1高斯分量特征映射方法的信道自适应性能稍微好一些，原因是帧数据在特征空间中的分布一般由多个高斯分量共同决定，虽然多个高斯分量覆盖信道信息更广，但是随着k值的增加，固定Top-N个高斯分量的输出得分会降低，包含的信道信息也会减少，而且Top-N个数的选取也不能很好的适应不同k值的信道模型，而自匹配Top-N高斯分量加权的特征映射方法不仅避免了上述问题还可保持相当的信道补偿能力。

对于测试(3)，自匹配Top-N高斯分量加权特征映射方法能解决不同信道模型下高斯分量个数Top-N的选择性问题，而且平均2.0％的片段F值提升及1.36％的时长F值提升，获得比Top-1以及固定Top-N高斯分量加权特征映射方法更好的信道自适应性能。

本发明提出一种自匹配Top-N高斯分量的音频事件信道自适应方法。在音频事件信道失配识别过程中，自匹配Top-N高斯分量加权的特征映射方法可以解决不同k值信道模型下高斯分量个数Top-N如何选择和覆盖信道信息不均匀的问题，应用性和信道自适应性能比Top-1高斯分量特征映射方法和固定Top-N高斯分量加权的特征映射方法更好，可为网络传输编码差异影响下的音频事件识别提供一种较好的信道自适应方法。

Claims

1.一种自匹配Top-N音频事件识别信道自适应方法，其特征在于所述方法包括如下步骤：

步骤1，音频识别的预处理过程主要包括预加重、分帧、加窗，在特征提取之前一般要对原始语音信号进行预加重处理，提升高频部分谱值用一阶数字滤波器来实现，之后需要进行分帧，分帧可采用连续分段或交叠分段方法，但多采用交叠分段以保证相邻帧之间的平滑性和连贯性，最后进行加窗以减小语音帧的截断效应，降低语音帧两端的变化坡度，需要选取合适的窗口长度；

步骤2，采用MFCC进行语音特征提取，将时域信号做FFT变换，之后对它的对数能量谱依照Mel刻度分布的三角滤波器组做卷积，计算每个滤波器组输出的对数能量，再对滤波器组的输出向量做离散余弦变换；

步骤3，在完成特征参数提取后，进行特征向量生成，将连续N帧特征向量的每一维特征相加计算其均值或方差，提取帧特征的共性，弱化帧特征的差异性，相邻片段间一般有N-M帧的交叠为了提高过渡的平滑性；

步骤4，基于自匹配Top-N高斯分量加权映射规则的特征映射，将来自不同信道的特征通过某种方式映射到同一个与信道无关的特征空间上，用于解决在实际音频事件识别***中因为训练条件和测试条件不一致导致识别性能下降的问题；

步骤5，利用信道无关特征向量对整个音频事件进行模型的训练及识别。

2.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射，其特征在于：使用来自各类信道的数据训练得到一个与信道无关的UBM模型(w_i，u_i，δ_i)，其中w_i表示第i个高斯概率密度函数的权重，u_i表示均值，δ_i表示方差。

3.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射，其特征在于：根据特定的信道情况选择相对应的训练数据，然后利用各个信道的训练特征数据逐一应用MAP方法自适应出该特定信道下的GMM模型，用(w_i ^A，u_i ^A，δ_i ^A)表示在信道A条件下的GMM模型。

4.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射，其特征在于：利用整个识别***信道相关的训练和测试特征向量进行信道模型判定，首先提取出输入数据的特征参数，然后根据对数似然度的大小判定该数据从属的信道，我们假设该条数据属于自信道A。

5.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射，其特征在于：采用自匹配Top-N高斯分量加权的映射规则进行特征变换，根据来源于信道A的测试数据的每一帧特征矢量，在信道A的高斯混合模型的数量M个高斯分量中选出排名得分前N的高斯分量N(u_k ^A,δ_k ^A)(N<M，k＝1，2，…，N)，设定得分阈值为ε(0＜ε＜1)，具体N的个数是利用得分阈值自匹配得到的，当得分前N的高斯分量的分数加和达到阈值ε时，则取该N值作为自匹配Top-N高斯分量加权映射的个数：

<mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <msup> <msub> <mi>w</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mi>N</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>u</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mo>,</mo> <msup> <msub> <mi>&delta;</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </msubsup> <msup> <msub> <mi>w</mi> <mi>i</mi> </msub> <mi>A</mi> </msup> <mi>N</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>u</mi> <mi>i</mi> </msub> <mi>A</mi> </msup> <mo>,</mo> <msup> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mi>A</mi> </msup> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>&GreaterEqual;</mo> <mi>&epsiv;</mi> </mrow>

<mrow> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msup> <msub> <mi>w</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mi>N</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>u</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mo>,</mo> <msup> <msub> <mi>&delta;</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msup> <msub> <mi>w</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mi>N</mi> <mrow> <mo>(</mo> <msup> <msub> <mi>u</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mo>,</mo> <msup> <msub> <mi>&delta;</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

把线性加权之后的UBM和信道A条件下的GMM的基准均值和方差分别记为u_k ^*、δ_k ^*、u_k ^A*、δ_k ^A*，得到自匹配Top-N高斯分量加权特征映射公式：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>y</mi> <mo>=</mo> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <msup> <msub> <mi>u</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> <mo>)</mo> </mrow> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> </mrow> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <msup> <msub> <mi>&delta;</mi> <mi>k</mi> </msub> <mi>A</mi> </msup> </mrow> </mfrac> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <msub> <mi>u</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <msup> <msub> <mi>u</mi> <mi>k</mi> </msub> <mrow> <mi>A</mi> <mo>*</mo> </mrow> </msup> <mo>)</mo> </mrow> <mfrac> <mrow> <msup> <msub> <mi>&delta;</mi> <mi>k</mi> </msub> <mo>*</mo> </msup> </mrow> <mrow> <msup> <msub> <mi>&delta;</mi> <mi>k</mi> </msub> <mrow> <mi>A</mi> <mo>*</mo> </mrow> </msup> </mrow> </mfrac> <mo>+</mo> <msup> <msub> <mi>u</mi> <mi>k</mi> </msub> <mo>*</mo> </msup> </mrow> </mtd> </mtr> </mtable> </mfenced> 2