CN111243579A

CN111243579A - 一种时域单通道多说话人语音识别方法与***

Info

Publication number: CN111243579A
Application number: CN202010061565.6A
Authority: CN
Inventors: 黄露; 杨毅; 孙甲松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-05
Anticipated expiration: 2040-01-19
Also published as: CN111243579B

Abstract

一种时域单通道多说话人语音识别方法，输入是混合语音信号的原始波形采样，先通过一维卷积网络提取特征，然后送入分离网络进行语音分离；分离后的输出分别送入两个全连接层，输出两个声学状态分布向量；随后采用强制对齐方法，从已有的目标语音标注中获得相应的标注信息，通过交叉打分和阈值选择的方式计算两种排序下较小的一个声学建模单元概率分布误差作为神经网络反向传播的误差，构建含有时域单通道多说话人语音识别模型，利用该模型即可实现多说话人语音识别，本发明还提供了一种通过阈值设置来减少1/4～1/2误差计算量的打分算法以加速交叉打分过程。在测试时，将神经网络两个输出的概率向量对数值送入语音识别解码器，即可获得两个人的识别文本。

Description

一种时域单通道多说话人语音识别方法与***

技术领域

本发明属于音频技术领域，特别涉及一种时域单通道多说话人语音识别方法与***。

背景技术

鸡尾酒会问题(cocktail party problem)是计算机语音识别领域的一个问题，当前语音识别技术已经可以以较高精度识别一个人所讲的内容，但是当说话的人数为两人或者多人时，语音识别率就会极大的降低，这一难题被称为鸡尾酒会问题。解决该问题对于一系列实际应用场景都会有很大帮助，比如多人会议自动记录、多方人机交互、音/视频自动标注等。

随着神经网络和深度学习的兴起，很多基于深度学习的语音分离算法被提出，主要可以归纳为两大类，一类是基于时频谱的语音分离，一类是基于时域信号的语音分离。

1、基于时频谱的语音分离方法：

1)深度聚类(Deep Clustering，DPCL)方法：首先通过人工神经网络将语音信号的时频谱映射到高维空间，然后利用如K-均值聚类等聚类算法对高维空间向量做一个划分，将属于同一说话人的分量划分到一起。该方法假设每个时频点仅属于多个说话人中的一个，而且在高维空间进行聚类不一定是最优的操作。

2)深度吸引子网络(Deep Attractor Network，DAN)方法：和DPCL类似，也是先将混合语音信号的时频谱映射到高维空间，然后在该空间构建一系列吸引子，利用这些吸引子将属于该目标人的时频点划分到一起。但是，DAN需要去估计吸引子，不仅需要额外的计算量，而且需要复杂的设计过程。

3)排序无关训练(Permutation Invariant Training，PIT)方法：在两个说话人语音信号混合的情况下，比较直观的的方法是使用人工神经网络来进行语音分离，首先输入混合语音的时频谱或其他特征，然后设计两个输出，每个输出对应一个说话人的时频谱。但是这会导致问题出现：输出两个端口和目标参考语音的排序不一定一致，即：神经网络的两个输出的说话人排序可能是“说话人2说话人1”，但是参考语音的排序是“说话人1说话人2”，如果这个时候强制根据语音标注来计算输出和标注值之间的误差，会产生严重的错误。因此需要对参考语音重新排序为“说话人2说话人1”后，重新计算误差，这就是语音分离中的标签排序(Label Permutation)问题。PIT是目前解决标签排序的主要方法，通过考虑所有可能的参考语音排序，然后选择一个使得所有人误差之和最小的排序作为最优排序，缓解了标签排序问题。如图1所示为利用PIT 方法进行单通道多说话人语音分离的框架。

标准PIT方法的数学模型为：假设混合语音信号输入中包含两个说话人， Y代表混合语音信号输入的时频谱，是一个T×F的矩阵，其中T是时间帧数， F是快速傅里叶变换的频点数。为了表述的简便省略了相关矩阵的时间和频点下标。将其幅度值送入分离网络(通常为循环神经网络RNN)并估计出的两个说话人的掩膜M₁和M₂。

(M₁,M₂)＝Separation(|Y|) (1)

其中Separation代表分离网络。

然后根据掩膜对两个说话人时频谱的幅度值进行估计，如下公式所示：

其中

代表估计出的第i个说话人时频谱幅度值。

假设X₁和X₂是目标说话人原始的干净语音，则估计值与干净语音之间的误差用如下误差函数计算：

其中S是总的说话人个数，当说话人为两个的时候S＝2；p是1,2,…,S的一个排列，总共有S！种可能。上述公式的目标是：通过找到一个最优的目标说话人排列顺序，使其与估计出的说话人排列顺序基本一致，然后再把该排列顺序下的最小均方误差(Mean SquareError，MSE)作为神经网络梯度更新的误差。

根据公式4，在两个说话人的情况下采用PIT方法，计算两个误差LS₁和 LS₂：

LS₁＝LS₁₁+LS₂₂ (5)

LS₂＝L_S12+LS₂₁ (6)

其中

表示分离网络第i个输出和第j个目标人的干净语音频谱之间的误差。具体来说，LS₁₁指的是网络第1个输出与第1个说话人干净语音频谱之间的误差， LS₂₂指的是(将分离网络的第1个输出判断为第1个说话人的前提下)网络的第二个输出与第2个说话人干净语音频谱之间的误差；LS₁₂指的是在网络第1个输出与第2个说话人干净语音频谱之间的误差，LS₂₁指的是(将分离网络的第1 个输出判断为第2个说话人的前提下)网络的第二个输出与第1个说话人干净语音频谱之间的误差。

最终，在LS₁和LS₂两个误差中会选择较好的一组作为神经网络反向传播更新的误差。在这种情况下，需要进行4次公式(7)的运算。

2、基于时域信号的语音分离方法：

时域语音分离网络(Time domain Audio Separation Network，TasNet)利用了PIT的思想来处理输出端口的排序问题，不同之处在于神经网络的输入和输出都是语音波形采样。在整体结构上先利用一维卷积充当编码器，对一帧的语音进行编码而得到编码向量；然后将这个编码向量送到分离网络得到两个掩膜；两个掩膜分别乘以混合语音的编码向量而得到该帧目标说话人语音的编码向量；最后通过一个一维卷积充当的解码器将该编码向量还原为语音波形。最近的工作表明该方法取得的分离效果已经大幅度超过了上述几种基于时频谱的分离方法。

具体而言，考虑当前的混合语音信号输入y是时域形式的，需要对其进行编解码操作实现信号分离，其中编码器用N个与其等长的卷积核与做卷积：

其中i＝1,…,N，N是卷积核数目，w_i是第i个卷积核，得到的e就是编码向量，为N维。随后将这些编码向量输入分离网络，输出是两个说话人的掩膜，预测每个人的编码向量就是混合语音的编码向量乘以自己的掩膜：

(m₁,m₂)＝Separation(e) (9)

d_i＝m_i⊙e (10)

最后是解码器恢复出原始语音

其中W是可学习的解码器矩阵。

上述方法的缺陷在于：由于PIT是对语音的一小段进行处理的，可能存在一句语音中前后两段的参考语音排序不一致，导致将前后段某个输出的分离结果拼起来时，会出现严重的说话人交换的情况，也就是在本应该只有说话人2 的输出中含有了说话人1的语音。于是在实际应用中，一般都会采用循环神经网络RNN进行句子级的建模，这样可以保证输出前后帧的排序具有一定的连续性和稳定性。

此外，所有上述两类方法仍然需要首先进行语音分离后再对每个人进行语音识别，也就是仍然没有实现真正的端到端***，距商业化应用的要求还有一定的距离。

3、利用PIT进行单通道多说话人语音识别

利用PIT进行单通道多说话人语音识别的最直观的方法是将神经网络的输出改为声学建模单元，并将语音分离时的MSE误差函数替换为交叉熵(Cross Entropy，CE)误差函数，即

其中

其中

是神经网络在第t帧第i个输出的声学建模单元概率分布，

是排列p 下第i个说话人第t帧的真实标签，一般通过强制对齐获得。

是t时刻第i 个输出在标签

上的概率。

但是该方法的不足之处在于输入时混合信号的频域幅度谱，并没有对混合信号的相位信息加以利用。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种时域单通道多说话人语音识别方法与***，将时域处理技术与单通道多说话人语音分离技术结合，在排序无关训练的基础上引入语音信号的时域处理方法，从而降低多个说话人语音识别的错误率。

为了实现上述目的，本发明采用的技术方案是：

一种时域单通道多说话人语音识别方法，包括如下步骤：

步骤1，将混合语音的原始波形送入一维卷积网络初步提取特征，然后送入分离网络BSRU，输出原始波形分离后的特征表示；

步骤2，将原始波形分离后的特征表示分别送入两个全连接层，输出两个声学状态分布向量；

步骤3，将所述两个状态分布向量参考强制对齐获得的标注信息，通过交叉打分和阈值选择的方式获得两种排序下的较小的误差，并作为神经网络反向传播的误差，构建时域单通道多说话人语音识别模型；

步骤4，利用所述含有时域单通道多说话人语音识别模型，实现多说话人语音识别。

所述步骤1中，一维卷积网络为一层或多层，对于多层的一维卷积网络，每一层的参数包括卷积核个数、卷积核长度、最大值池化大小和步长；对于一层的一维卷积网络，则将卷积核的长度设置为一帧语音的采样点数；多层的一维卷积网络有池化操作，一层的一维卷积网络没有池化操作；每一层卷积的输出均通过批量归一化进行规整，以提高泛化性和训练速度，最后一层所有通道的向量拼接在一起被当作学习到的时域波形的特征表示。

所述步骤1中，分离网络BSRU为双向的SRU，SRU计算方式如下：

f_t＝σ(W_fxt+v_f⊙c_t-1+b_f)

c_t＝f_t⊙c_t-1+(1-f_t)⊙(Wx_t)

r_t＝σ(W_rx_t+v_r⊙c_t-1+b_r)

h_t＝r_t⊙c_t+(1-r_t)⊙x_t

其中W、W_r、W_f是权重矩阵，v_f、b_f、v_r、b_r是参数向量；x_t和h_t是当前输入与输出；c_t是t时刻cell的状态值，用于保存历史信息，c_t-1是t-1时刻cell 的状态值；f_t和r_t分别代表忘记门和重置门；σ是sigmod函数；⊙表示两个向量的元素对应相乘。

所述步骤2中，得到的两个状态分布向量为两个说话人的声学建模单元概率分布。

所述步骤3中，首先，采用强制对齐方法，从已有的目标语音标注中获得相应的标注信息；随后，在两个说话人的情况下，采用多次交叉打分的方法，即分别考虑两种情况下的误差LR₁和LR₂：

LR₁＝LR₁₁+L_R22

LR₂＝LR₁₂+LR₂₁

其中LR_ij表示分离网络第i个输出和第j个目标人干净语音强制对齐标签之间的交叉熵误差，i＝1,2,j＝1,2。

首先计算LR₁₁，如果LR₁₁小于一个预先设定的阈值，则计算LR₂₂，并将 LR₁作为两种排序下较小的一个误差；如果LR₁₁大于该阈值，则计算LR₁₂和 LR₂₁，将LR₂作为两种排序下较小的一个误差。

本发明还提供了一种时域单通道多说话人语音识别***，包括：

混合语音信号波形采样模块101，进行混合语音信号波形采样；

一维卷积神经网络模块102，以混合语音信号波形采样模块101的输出为输入，初步提取特征；

分离网络BSRU103，以一维卷积神经网络模块102的输出为输入，得到原始波形分离后的特征表示；

两个全连接层104，分别以分离网络BSRU103的两路输出为输入，得到两个状态分布向量；

多次交叉打分模块105，使用多次交叉打分及设置误差阈值的方法，对两个全连接层104的输出和两个目标语音标注106进行交叉打分，获得两种排序下的较小交叉熵误差107；

最小误差模块108，取两种排序下较小的一个误差，作为整个神经网络反向传播更新的误差。

本发明的主要原理是：在两个说话人的情况下，输入是混合语音信号的原始波形采样，先通过一维卷积网络初步学习到波形的特征，然后再送入分离网络进行语音分离；分离后的输出被分别送入两个全连接层，输出两个声学状态分布向量；随后采用强制对齐方法，从已有的目标语音标注中获得相应的标注信息，通过交叉打分和阈值选择的方式计算两种排序下较小的一个声学建模单元概率分布误差作为神经网络反向传播的误差。为了加速交叉打分过程，本发明还提供了一种通过阈值设置来减少1/4～1/2误差计算量的打分算法。在测试时，将神经网络两个输出的概率向量对数值送入语音识别解码器，即可获得两个人的识别文本。

与现有技术相比，本发明的主要优点在于：通过采用更灵活的卷积网络堆叠方式，以及简化了交叉打分计算误差的方法，实现提升模型泛化能力的目的，进一步提升了多个说话人的语音识别***性能。该方法可广泛应用于涉及语音分离和识别的多种应用领域。

附图说明

图1是现有技术中利用PIT方法进行单通道多说话人语音分离的框架示意图。

图2是本发明的时域单通道多说话人语音识别建模流程图

图3是SRU计算方式示意图。

具体实施方式

以下结合附图对本发明进行详细说明。

本发明提出一种时域单通道多说话人语音识别方法与***，特别地，用于多说话人语音识别的场景下，在排序无关训练的基础上将语音信号的时域处理和单通道多说话人语音识别结合，用于降低多个说话人语音识别的错误率。这些方法和***不局限于多说话人语音识别，也可以是任何与语音识别有关的方法和***。

图2为本发明的时域单通道多说话人语音识别模型建模流程，其包括：

步骤1、原始波形送入一维卷积网络初步提取特征，随后送入分离网络 BSRU，输出原始波形分离后的特征表示；

本发明的***输入是混合语音的原始采样波形，将其通过一维卷积网络初步提取特征。这里的一维卷积网络可以是一层或多层，对于多层的一维卷积网络，每一层的参数有卷积核个数、卷积核长度、最大值池化大小和步长等。对于一层的一维卷积网络，则一般将卷积核的长度设置为一帧语音的采样点数，如25ms一帧、16kHz采样则为400个点。多层的一维卷积网络有池化操作，一层的一维卷积网络没有池化操作。每一层卷积的输出均通过批量归一化进行规整，以提高泛化性和训练速度。最后一层所有通道的向量拼接在一起被当作学习到的时域波形的特征表示。这些波形的特征表示随后被送入分离网络 BSRU进行分离，输出原始混合波形分离后的两个说话人的特征表示。

分离网络BSRU(Bidirectional SRU)即双向的SRU，参考图3，SRU计算方式如下：

f_t＝σ(W_fx_t+v_f⊙c_t-1+b_f)

c_t＝f_t⊙c_t-1+(1-f_t)⊙(Wx_t)

r_t＝σ(W_rx_t+v_r⊙c_t-1+b_r)

h_t＝r_t⊙c_t+(1-r_t)⊙x_t

公式中W、W_r、W_f是权重矩阵，v_f、b_f、v_r、b_r是参数向量；x_t和h_t是当前输入与输出；c_t是cell的状态值，用于保存历史信息；f_t和r_t分别代表忘记门和重置门；σ是sigmod函数；⊙表示两个向量的元素对应相乘。

步骤2、步骤1中输出的原始波形分离后的特征表示被分别送入两个全连接层，分别输出两个声学状态分布向量；

分离网络的输出经过两个单独的全连接层，分别得到两个神经网络全连接层输出的声学建模单元概率分布。

步骤3、参考强制对齐获得的标注信息，通过采用多次交叉打分及设置误差阈值的方法降低计算量。

参考强制对齐获得的标注信息，通过交叉打分和阈值选择的方式分别获得两种排序下较小的一个声学建模单元概率分布误差作为神经网络反向传播的误差。

首先，采用强制对齐方法，从已有的目标语音标注中获得相应的标注信息；

随后，在两个说话人的情况下，采用多次交叉打分的方法，即分别考虑两种情况下的误差LR₁和LR₂：

LR₁＝LR₁₁+L_R22 (3)

LR₂＝LR₁₂+LR₂₁ (4)

其中LR_ij，i＝1，2，j＝1,2表示分离网络第i个输出和第j个目标人干净语音强制对齐标签之间的交叉熵误差。

如果按照上述公式依次进行，需要计算4次LR_ij。本发明的方法是：首先计算LR₁₁，如果LR₁₁小于一个预先设定的阈值，则计算LR₂₂，并将公式(3) 作为两种排序下较小的一个误差；如果LR₁₁大于该阈值，则计算LR₁₂和LR₂₁，将公式(4)作为两种排序下较小的一个误差。从而每次只需要计算2次或3次 LR_ij，相比于之前的4次可以节省大约1/4～1/2的误差计算量。这个阈值的设定遵循两个原则：第一，训练的初期误差普遍较大，因此该阈值在训练的初期也应较大，而随着训练的进行而递减；第二，该阈值应该和当前训练的LR_ij平均值有关。

使用这种多次交叉打分法进行训练的误差计算时间，是多次交叉打分方式下的误差计算时间的3/4到1/2。

本发明中的两种排序是指：在两个说话人的情况下，当输入两个说话人的混合语音，要识别两个人分别说的内容，也就是一个输入、两个输出。同时在训练的时候也知道实际上这两个人分别说了什么内容，即两个参考；但是并不知道输出和参考的对应关系，存在两种排序：

A.输出1对应参考1，输出2对应参考2

B.输出2对应参考1，输出1对应参考2

即不能保证第一个端口的输出始终是第一个人的。

在多个说话人的情况下，原理相同。

总之，本发明提供了一种时域单通道多说话人语音识别建模方法，能够比较有效地进一步提高多说话人语音的识别效果。在一些多说话人连续语音识别的数据集上采用这种方法，可以获得比基于时频谱的PIT方法更好的性能。

图2同时表示出了一种相应的***，其中混合语音信号波形采样模块101 得到的信号为x＝[x₁,...,x_T](T为信号的时间长度)，混合语音信号波形采样模块101的输出作为一维卷积神经网络模块102的输入；一维卷积神经网络模块 102的输出作为分离网络BSRU103的输入；分离网络BSRU 103的输出分别送入两个全连接层104；两个全连接层104的输入与两个目标语音标注106一起送到多次交叉打分模块105；多次交叉打分模块105使用多次交叉打分及设置误差阈值的方法，以获得两种排序下的较小交叉熵误差107，最小误差模块108选出的较小误差，就是整个神经网络反向传播更新的误差。

在测试时，将神经网络两个输出的概率向量对数值送入语音识别解码器，即可获得两个人的识别文本，本发明主要优点在于：通过采用更灵活的卷积网络堆叠方式，以及简化了交叉打分计算误差的方法，实现提升模型泛化能力的目的，进一步提升了多个说话人的语音识别***性能。该方法可广泛应用于涉及语音分离和识别的多种应用领域。

Claims

1.一种时域单通道多说话人语音识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述时域单通道多说话人语音识别方法，其特征在于，所述步骤1中，一维卷积网络为一层或多层，对于多层的一维卷积网络，每一层的参数包括卷积核个数、卷积核长度、最大值池化大小和步长；对于一层的一维卷积网络，则将卷积核的长度设置为一帧语音的采样点数；多层的一维卷积网络有池化操作，一层的一维卷积网络没有池化操作；每一层卷积的输出均通过批量归一化进行规整，以提高泛化性和训练速度，最后一层所有通道的向量拼接在一起被当作学习到的时域波形的特征表示。

3.根据权利要求1所述时域单通道多说话人语音识别方法，其特征在于，所述步骤1中，分离网络BSRU为双向的SRU，SRU计算方式如下：

f_t＝σ(W_fx_t+v_f⊙c_t-1+b_f)

c_t＝f_t⊙c_t-1+(1-f_t)⊙(Wx_t)

r_t＝＝σ(W_rx_t+v_r⊙c_t-1+b_r)

h_t＝r_t⊙c_t+(1-r_t)⊙x_t

其中W、W_r、W_f是权重矩阵，v_f、b_f、v_r、b_r是参数向量；x_t和h_t是当前输入与输出；c_t是t时刻cell的状态值，用于保存历史信息，c_t-1是t-1时刻cell的状态值；f_t和r_t分别代表忘记门和重置门；σ是sigmod函数；⊙表示两个向量的元素对应相乘。

4.根据权利要求3所述时域单通道多说话人语音识别方法，其特征在于，所述步骤2中，得到的两个状态分布向量为两个说话人的声学建模单元概率分布。

5.根据权利要求1所述时域单通道多说话人语音识别方法，其特征在于，所述步骤3中，首先，采用强制对齐方法，从已有的目标语音标注中获得相应的标注信息；随后，在两个说话人的情况下，采用多次交叉打分的方法，即分别考虑两种情况下的误差LR₁和LR₂：

LR₁＝LR₁₁+L_R22

LR₂＝LR₁₂+LR₂₁

6.根据权利要求5所述时域单通道多说话人语音识别方法，其特征在于，首先计算LR₁₁，如果LR₁₁小于一个预先设定的阈值，则计算LR₂₂，并将LR₁作为两种排序下较小的一个误差；如果LR₁₁大于该阈值，则计算LR₁₂和LR₂₁，将LR₂作为两种排序下较小的一个误差。

7.一种时域单通道多说话人语音识别***，其特征在于，包括：

混合语音信号波形采样模块(101)，进行混合语音信号波形采样；

一维卷积神经网络模块(102)，以混合语音信号波形采样模块(101)的输出为输入，初步提取特征；

分离网络BSRU(103)，以一维卷积神经网络模块(102)的输出为输入，得到原始波形分离后的特征表示；

两个全连接层(104)，分别以分离网络BSRU(103)的两路输出为输入，得到两个状态分布向量；

多次交叉打分模块(105)，使用多次交叉打分及设置误差阈值的方法，对两个全连接层(104)的输出和两个目标语音标注(106)进行交叉打分，获得两种排序下的较小交叉熵误差(107)；

最小误差模块(108)，取两种排序下较小的一个误差，作为整个神经网络反向传播更新的误差。