CN110867178A

CN110867178A - 一种多通道远场语音识别方法

Info

Publication number: CN110867178A
Application number: CN201810986855.4A
Authority: CN
Inventors: 张鹏远; 李文洁; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-03-06
Anticipated expiration: 2038-08-28
Also published as: CN110867178B

Abstract

本发明涉及一种多通道远场语音识别方法，其包括：步骤1)提取每个通道的远场语音信号的语音特征，串接多个通道的语音特征，获得语音特征向量；步骤2)计算任意两个通道之间的GCC特征，将GCC特征与步骤1)获得的语音特征向量拼接，获得远场特征向量，作为训练远场学生模型的训练数据；步骤3)对专家模型进行训练，获得训练后的专家模型；同时采用知识升华策略，对远场学生模型进行训练，获得训练后的远场学生模型；步骤4)将待识别语音信号的特征和GCC特征拼接，获得拼接后的特征向量，并将其输入至训练后的远场学生模型，获得对应的远场后验概率向量，进而得到对应的后验概率值，再经过维特比解码，对待识别的语音信号进行识别。

Description

一种多通道远场语音识别方法

技术领域

本发明属于远场语音识别技术领域，具体涉及一种多通道远场语音识别方法。

背景技术

近年来，受益于计算机技术与深度学习理论的发展，在近场场景下，语音识别***已经具有良好的语音识别性能。由于远场拾音时声学环境的复杂性，远场自动语音识别性能恶化严重。然而，人们对远场语音识别技术有着广泛的应用需求，比如新兴的智能家电领域，会议场景等。在这种环境中，语音信号受到噪声和混响的严重干扰，语音识别***的识别率大幅度下降。为了解决这个问题，通常采用多个麦克风的信号来增强语音信号，与单通道相比，使用麦克风阵列的优势在于多通道语音信号可以提供空间上的区分性。

目前，传统的多通道语音识别***包括：前端语音增强模块和后端语音识别模块；上述两个模块是各自独立的。首先，在前端语音增强模块中，使用麦克风阵列语音增强，对多通道信号进行前端语音增强，通常包含定位，波束形成，后滤波等。然后，在后端语音识别模块中，将增强后的语音信号传送到基于神经网络的后端语音识别的声学模型中，进行语音识别。

为了使前端语音增强和后端语音识别模型可以联合进行优化，近来也有很多方法将前端增强模块引入神经网络。使用神经网络估计语音增强的滤波系数，掩蔽值等方法，对原始的多通道远场语音信号进行增强处理；再结合后端声学模型进行联合优化训练。这些方法能够有效改善远场语音识别的性能，但是，这些传统的语音识别方法，一般需要引入一些额外的神经网络层，并且对于训练数据中没有出现过的场景，自适应能力较弱。

另外，在深度神经网络的训练过程中，通常都是以0-1硬标签作为模型训练的目标，即一组声学特征属于某个特定状态的概率为1，其他均为0。在远场场景中，语音受到噪声和混响的干扰，不同声学单元之间的区分性变得很模糊，这种情况下，标注仅限于单个声学状态并不是最优的方案。针对远场识别的声学模型，目标值在0和1之间的软标签更适合远场识别的模型。传统的知识升华策略借助性能较好的专家模型(近场数据训练的模型)，来获得训练数据的软标签，用于训练学生模型(远场数据训练的模型)。但是，这种情况下，每一帧语音的软标签向量的维度通常都很大，会给训练过程带来大的存储和IO负担。

发明内容

本发明的目的在于，为解决现有的语音识别方法存在上述缺陷，本发明提出了一种多通道远场语音识别方法，该方法采用一种基于空间特征补偿的方法，并配合改进的知识升华的框架，将广义互相关参数(Generalized Cross Correlation,以下简称GCC)作为辅助特征引入到学生声学模型中，有效的提高了学生模型在远场环境下的自适应能力，以及提升远场语音识别的性能。在麦克风阵列信号处理中，GCC通常用来估计两个麦克风之间的到达时延，多个麦克风对之间的到达时延可以用来参数化声源位置。对于语音信号，GCC隐含了说话人的位置信息，提供了不同通道的位置信息，将这一信息作为神经网络训练的补偿特征可以提升远场语音识别的性能。同时，该方法还采用了一种改进的知识升华策略，只选取每个软标签向量中较大的一部分值，将剩下的值置零，作为训练学生模型的标签。改进之后的标签可以用一个维度很小的稀疏向量编码，称之为稀疏标签；用稀疏标签代替传统软标签的方法可以大幅减轻存储和IO的负担，同时对模型识别性能的提升也有一定帮助。

为了实现上述目的，本发明提供了一种多通道远场语音识别方法，通过采用基于空间特征补偿的方法和改进的知识升华策略，克服远场识别性能大幅衰减问题，以及传统方法在模型复杂度和自适应能力方面的局限性，在引入较少模型参数量的情况下，改善多通道远场语音识别的准确率和自适应能力；该方法具体包括：

步骤1)提取每个通道的远场语音信号的语音特征，串接多个通道的语音特征，获得语音特征向量；

步骤2)计算任意两个通道之间的GCC特征，将GCC特征与步骤1)获得的语音特征向量拼接，获得远场特征向量，作为训练远场学生模型的训练数据；其中，GCC特征作为辅助特征；

步骤3)对专家模型进行训练，获得训练后的专家模型；将近场特征向量输入至训练后的专家模型，获得近场后验概率向量，最大化近场后验概率向量，将其作为训练远场学生模型的稀疏标签；同时采用知识升华策略，输入步骤2)获得的远场特征向量，结合步骤3)获得的稀疏标签，对远场学生模型进行训练，获得训练后的远场学生模型；

步骤4)将待识别语音信号的特征和GCC特征拼接，获得拼接后的特征向量，并将其输入至训练后的远场学生模型，获得对应的远场后验概率向量，进而得到对应的后验概率值，再经过维特比解码，对待识别的语音信号进行识别，得到识别的文字内容。在本方法中，所述待识别的语音信号为AMI数据集的标准测试集，时长约8.6小时。

作为上述技术方案的改进之一，步骤2)具体包括：

根据公式(1)，计算任意两个通道之间的GCC特征，假设任意两个通道的语音信号分别是x_i(t)和x_j(t)；

其中，X_i(f)和X_j(f)分别表示对应的两个通道x_i(t)和x_j(t)的语音信号的傅立叶变换；*表示它的复数共轭；gcc_ij(n)为两个通道语音信号x_i(t)和x_j(t)间的GCC参数。

理想情况下，gcc_ij(n)在一个周期内呈现单波峰形状，波峰所在位置即为麦克风i和j的到达时延，周期的大小与i和j两个麦克风之间的到达时延相关联。

其中，阵元之间的物理距离在一定意义上反映了到达时延的大小。如果两个阵元距离较远，一般认为到达时延较大。它们之间可以近似看作以声速为权重因子的线性关系。

将步骤1)获得的语音特征向量与GCC特征拼接，获得远场特征向量，作为训练远场学生模型的训练数据。其中，增加GCC作为辅助特征，从而改善模型在远场环境下的自适应能力，提升识别准确率。

作为上述技术方案的改进之一，步骤3)具体包括：

提取每个通道的近场语音信号的语音特征，获得近场特征向量，并将其作为训练数据训练专家模型，获得训练后的语音识别性能较好的专家模型，辅助远场学生模型的训练；其中，近场语音信号是和远场语音信号是同时录制的语音信号；将近场特征向量输入至训练后的专家模型，获得近场后验概率向量，最大化近场后验概率向量，将其作为训练远场学生模型的稀疏标签。

作为上述技术方案的改进之一，步骤3)还具体包括：

将步骤2)获得的远场特征向量输入远场学生模型，获得对应的远场后验概率向量，采用知识升华策略，利用稀疏标签训练远场学生模型，同时采用KL距离作为度量，最小化目标函数，

其中，o_t′是步骤2)获得的远场特征向量，P_S(s|o_t′)为训练后的学生模型的远场后验概率向量；o_t是步骤3)提到的近场特征向量，P_T(s|o_t)为训练后的专家模型的近场后验概率向量；

使P_S(s|o_t′)对应的后验概率值逼近P_T(s|o_t)对应的后验概率值，获得训练后的远场学生模型；，通过反向回传更新学生模型的参数，获得训练后的远场学生模型。

其中，传统的知识升华框架使用近场数据的专家模型生成的软标签，作为标注，训练远场模型。

本发明的优点在于：

通过输入GCC特征，神经网络学习多通道信号在空间域上的差异化信息，这些差异化信息蕴含着目标说话人与干扰声源之间的空间位置关系，通过解析这些信息可以实现对目标声音的增强及对干扰声音的削弱，从而提升远场识别的准确率以及适应能力；同时通过知识升华策略，采用概率分布的方式描述语音帧所属不同状态的可能性，包含更加丰富的潜在状态分布信息，有利于获得更好的识别性能；本方法还使用稀疏标签代替传统的软标签，节约了存储的同时，对性能也有进一步的提升作用。

附图说明

图1是本发明的专家模型和基于空间特征补偿和知识升华的学生模型结构图；

图2是本发明的获得训练后的远场学生模型的示意图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，本发明提供了一种多通道远场语音识别方法，通过采用基于空间特征补偿的方法和改进的知识升华策略，克服远场识别性能大幅衰减问题，以及传统方法在模型复杂度和自适应能力方面的局限性，在引入较少模型参数量的情况下，改善多通道远场语音识别的准确率和自适应能力；该方法具体包括：

作为上述技术方案的改进之一，步骤2)具体包括：

作为上述技术方案的改进之一，步骤3)具体包括：

作为上述技术方案的改进之一，步骤3)还具体包括：

在本实施例中，使用数据是公开数据集AMI，该数据集AMI是100小时的会议数据，其包括：同时录制的近场数据和八通道远场数据。其中，学生模型和专家模型都是包含三个隐层的LSTM模型，每层包含1024个LSTM单元和512个映射单元；输出层有3965个状态。神经网络的输入是40维filter-bank特征，上下文各做了2帧扩展。

使用近场数据训练专家模型，得到训练后的专家模型。在训练远场模型时，将八个通道的语音信号对应的语音特征进行串接，得到320维的语音特征向量，再进行上下文2帧的扩展；对于八个通道的远场语音信号，任意两个通道之间提取21维的GCC特征，总共28个麦克风对，得到588维的GCC特征向量，再将其与320维的语音特征向量拼接，获得远场特征向量，作为远场训练数据，训练远场学生模型。采用训练后的专家模型，将近场数据输入训练后的专家模型中，获得多个近场后验概率向量(3965维向量)，采用改进的知识升华策略，将多个近场后验概率向量转化为40维的稀疏标签，作为训练八通道远场学生模型的标签，采用KL散度，最小化目标函数，使远场后验概率向量对应的后验概率值逼近近场后验概率向量对应的后验概率值，通过反向回传更新学生模型的参数，获得训练后的远场学生模型，如图2所示；然后将待识别语音信号的特征和GCC特征拼接，获得特征向量，并将其输入至训练后的远场学生模型，获得对应的远场后验概率向量，进而得到对应的后验概率值，经过维特比解码，对待识别的语音信号进行识别，得到识别的文字内容。

在本实施例中，每个时刻的近场语音信号的软标签的维度是3965，这会带来很大的存储和IO负担，尤其在数据量大的情况下。采用改进的知识升华策略，取出每个软标签中最大的40个值，其他值置零，再用Softmax函数进行归一化处理，将3965维的软标签转化成40维的稀疏标签，来训练远场学生模型，大幅节约了训练过程中的存储和IO。

为了评估本发明提出的方法对多通道远场语音识别性能，以下提供了本方法的词错误率(word error rate，WER)，此外还提供了基础的多通道远场模型的WER，经过波束形成多通道语音增强模型的WER，以及传统软标签的知识升华结合GCC特征的WER。测试数据为8.6小时与训练数据相同风格的多通道远场语音，结果如下：

这里的词错误率指：

词错误率＝词***错误率+词替换错误率+词删除错误率

由表中结果可以看出，本发明获得的针对多通道远场语音的学生模型，和基础模型以及波束形成模型相比，能够取得更低的词错误率，提升远场识别的准确率。和传统软标签的知识升华框架相比，稀疏标签可以在大幅节约存储的情况下，一定程度提升识别性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多通道远场语音识别方法，其特征在于，该方法具体包括：

步骤4)将待识别语音信号的特征和GCC特征拼接，获得拼接后的特征向量，并将其输入至训练后的远场学生模型，获得对应的远场后验概率向量，进而得到对应的后验概率值，再经过维特比解码，对待识别的语音信号进行识别，得到识别的文字内容。

2.根据权利要求1所述的方法，其特征在于，所述步骤2)具体包括：

其中，X_i(f)和X_j(f)分别表示对应的两个通道x_i(t)和x_j(t)的语音信号的傅立叶变换；*表示它的复数共轭；gcc_ij(n)为两个通道语音信号x_i(t)和x_j(t)间的GCC参数；

将步骤1)获得的语音特征向量与GCC特征拼接，获得远场特征向量，作为训练远场学生模型的训练数据；其中，增加GCC作为辅助特征。

3.根据权利要求1所述的方法，其特征在于，所述步骤3)包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤3)还具体包括：