CN116129887A

CN116129887A - 一种基于跨域对齐和域内区分的语音识别模型构建方法

Info

Publication number: CN116129887A
Application number: CN202310138178.1A
Authority: CN
Inventors: 秦勇; 周家名; 蒋宁; 赵石顽; 李起成; 王卉; 王雪琛; 贺佳贝
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-05-16

Abstract

本发明属于语音识别领域和领域适配领域，更具体地涉及一种基于跨域对齐和域内区分的语音识别模型构建方法。该方法在对跨域特征进行对齐的基础上，增加了域内区分模块，以减轻对齐跨域特征过程中对模型在目标域上的区分能力造成的损害。本方法无需目标域数据的真实标签，节省了数据标注成本，并提升了模型在目标域上的准确率。

Description

一种基于跨域对齐和域内区分的语音识别模型构建方法

技术领域

本发明属于语音识别领域和领域适配领域，更具体地涉及一种基于跨域对齐和域内区分的语音识别模型构建方法。

背景技术

随着深度学***。但在实际应用中，由于口音、环境、甚至是录音所用的麦克风引起数据分布的偏移，语音识别模型的性能下降十分明显。针对于不同的场景录制音频并加以标注需要耗费大量的人力物力。因此，如何增强语音识别***的鲁棒性、提升语音识别***在方言、噪音等低资源的目标域上的性能，已经成为近年来研究的热点问题。

研究发现，训练数据与测试数据之间数据分布不同，即源域数据与目标域数据的之间存在域偏移。减轻域偏移可以有效提升语音识别***的准确率。基于这一事实，许多研究聚焦于全局对齐源域和目标域数据提取出的特征，如领域对抗学习技术、生成对抗网络。另外也有研究采用了更细粒度的字符级特征对齐，进一步提升了模型的准确率。

尽管如此，目前的领域适配技术还不能够完全适应复杂多变的场景。如何进一步提升模型的性能，成为了当前语音识别领域适配方法研究的难点。

发明内容

现有的方法简单的对跨域特征进行对齐，以增强模型的迁移性，但忽略了模型在目标域上的区分能力因强制对齐而损害这一事实。

为了减轻源域数据与目标域数据之间的域偏移对语音识别***性能的影响，本发明提出一种基于跨域对齐和域内区分的语音识别模型构建方法。本方法在对跨域特征进行对齐的基础上，增加了域内区分模块，以减轻对齐跨域特征过程中对模型在目标域上的区分能力造成的损害。本方法无需目标域数据的真实标签，节省了数据标注成本，并提升了模型在目标域上的准确率。

为实现上述目的，本发明采用如下技术方案：

一种基于跨域对齐和域内区分的语音识别模型构建方法，包括如下步骤：

S101，数据处理，利用有标签源域数据训练一个基于编码器与联合解码器的语音识别模型，用以识别预处理后的无标签目标域数据，生成带伪标签的目标域数据；对目标域数据进行数据增广，得到增广后的目标域数据，有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据准备完成；

S102，特征提取，将有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据传入特征编码器提取各部分的中间特征表示；

S103，语音识别，将有标签的源域数据和有伪标签的目标域数据对应的中间特征表示输入到语音识别联合解码器中，计算语音识别损失；

S104，标注帧级字符伪标签，利用语音识别模型的解码器为提取出的每一帧中间特征标记字符伪标签；

S105，跨域对齐，利用S104获取的源域和目标域中间特征的帧级字符伪标签，得到各个字符在源域和目标域上对应的中间特征的分布，进一步利用数据分布拟合方法对属于同一字符的源域与目标域特征分布进行对齐，计算得到跨域对齐损失；

S106、域内区分，利用S104获取目标域和增广后的目标域中间特征对应的帧级字符伪标签，得到在目标域、增广后的目标域上对应的各个字符中间特征的分布，以相同字符的特征中心为正对、不同字符的特征中心为负对，利用对比学习技术使目标域与增广后目标域上的同字符的特征中心聚集、不同字符的特征中心互相远离，以同时增强模型在目标域内区分能力，计算得到域内区分损失；

S107，共同优化模型，共同优化语音识别、跨域对齐、域内区分三个损失函数，直至损失收敛，即可得到一个在目标域上表现较好的语音识别模型。

本技术方案进一步的优化，所述步骤S101中无标签目标域数据的处理方式包括筛选，删除极端长、短的异常数据；数据增广方式包括速度变换、音调变换、加入混响、时间掩码。

本技术方案进一步的优化，所述步骤S102特征编码器为Transformer编码器。

本技术方案进一步的优化，所述语音识别损失函数为：

L_ASR(X,Y)＝λL_CTC(X,Y)+(1-λ)L_ATT(X,Y)

其中X是源域数据、目标域数据，Y是源域数据标签、目标域数据伪标签，L_CTC是CTC损失，L_ATT是注意力损失，超参数λ平衡了这两个损失。

本技术方案进一步的优化，所述步骤S104中解码器为CTC解码器。

本技术方案进一步的优化，所述步骤S104利用argmax与CTC输出的概率分布，将中间特征逐帧标记CTC伪标签，公式如下：

本技术方案进一步的优化，所述步骤105中跨域对齐损失，公式如下：

其中N是字符总数，S和T分别表示源域、目标域，C_i表示符号集C的第i个字符，

为再生核希尔伯特空间，k为高斯核函数。

本技术方案进一步的优化，所述步骤106中正对的损失计算实例如下：

其中：ψ(a，b)＝exp(sim(f(a)，f(b))/τ)

其中1≤i,j≤N，T代表目标域，aug表示增广后的目标域,C_i表示字典中第i个字符,

为特征中心,sim(u,v)表示u和v的余弦相似度，f()表示特征提取模块提取出的中间特征，τ是温度超参数，最终的L_DI是对于所有正对的损失的平均值。

本技术方案进一步的优化，所述步骤107中语音识别模型的损失函数如下：

其中，L_ASR为语音识别损失，L_MA为跨域对齐损失，L_DI为域内区分的损失，α和β为超参数，平衡两个损失。

区别于现有技术，上述技术方案有益效果是，应用本发明提出的语音识别领域适配方法，可同时提升模型在字符级别上的跨域对齐能力以及目标域上的区分能力，进而增强了语音识别模型在不同设备、不同背景音、不同口音等跨域任务上的性能。

附图说明

图1为语音识别模型构建方法的流程示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

本发明所采用的技术方案将分为数据准备以及领域适配两个阶段。

数据准备阶段：给定有标签的源域数据以及无标签的目标域数据，首先利用源域数据训练一个语音识别模型，并利用该语音识别模型生成无标签目标域数据的伪标签。然后对目标域数据进行数据增广，得到增广后的目标域数据。得到有标签的源域数据、有(伪)标签的目标域数据、增广后的目标域数据。

在领域适配阶段，分别将上述三部分数据传入特征编码器，提取特征表示，对提取出的每一帧特征表示进行伪标签标记。然后计算字符级别上的跨域对齐、域内区分两部分损失。跨域对齐损失部分，利用数据分布拟合方法(如最大均值差异MMD)对属于源域和目标域的同一字符的特征分布进行对齐，以增强模型的跨域对齐能力。域内区分损失部分，利用对比学习技术，使得目标域数据特征与增广后的目标域数据特征中的同字符的特征中心聚集、不同字符的特征中心互相远离，以同时增强模型在目标域内区分能力，进而提升模型在目标域上的准确率。

请参阅图1所示，为语音识别模型构建方法的流程示意图，本发明优选一实施例，该实施例具体包括如下步骤：

S101、数据处理。给定无标签的目标域数据，首先对所有数据进行筛选，删除极端长、短的异常数据。其次，利用有标签源域数据训练一个基于Transformer编码器与CTC-Attention(Connectionist Temporal Classification,CTC)联合解码器的语音识别模型，用以识别无标签目标域数据，生成带伪标签的目标域数据。最后，利用速度变换、音调变换、加入混响、时间掩码等方式对目标域数据进行数据增广，得到增广后的目标域数据。至此，三部分数据包括有标签的源域数据、有伪标签的目标域数据、(有伪标签的)增广后的目标域数据准备完成。

S102、特征提取。分别将上述三部分数据传入特征编码器，如Transformer编码器，提取各部分对应的中间特征表示。

S103、语音识别。将有标签的源域数据和有伪标签的目标域数据对应的中间特征表示输入到语音识别CTC-Attention联合解码器中，并计算语音识别损失，公式如下：

L_ASR(X,Y)＝λL_CTC(X,Y)+(1-λ)L_ATT(X,Y)

其中X是源域数据、目标域数据，Y是源域数据标签、目标域数据伪标签。L_CTC是CTC损失，L_ATT是注意力损失。超参数λ平衡了这两个损失。

S104、标注帧级字符伪标签。利用语音识别模型的解码器(如CTC解码器)为提取出的每一帧中间特征标记字符伪标签，即字典中的字符如“a”,“b”等。以CTC解码器为例，可以利用argmax与CTC输出的概率分布，将中间特征逐帧标记CTC伪标签，公式如下。

其中P_CTC为CTC解码器输出的概率分布，X_n为X第n帧输入，Y_n为X第n帧的可能的标签，

是使得P_CTC最大的X_n的帧级伪标签。

S105、跨域对齐。利用S104获取的源域和目标域中间特征的帧级字符伪标签，可以得到各个字符在源域和目标域上对应的中间特征的分布。进一步利用数据分布拟合方法(如最大均值差异MMD)对属于同一字符的源域与目标域特征分布进行对齐，计算得到跨域对齐损失L_MA，公式如下：

其中N是字符总数。S和T分别表示源域、目标域，C_i表示符号集C的第i个字符。

为再生核希尔伯特空间，k为本发明采用的高斯核函数。

S106、域内区分。利用S104获取目标域和增广后的目标域中间特征对应的帧级字符伪标签，可以得到在目标域、增广后的目标域上对应的各个字符中间特征的分布。由于语音数据提取出的帧数较多，故帧级别的对比学***均中间特征平均，得到各个字符对应的近似特征中心

以相同字符的特征中心为正对、不同字符的特征中心为负对，利用对比学习技术(如NT_XENT损失)使目标域与增广后目标域上的同字符的特征中心聚集、不同字符的特征中心互相远离，以同时增强模型在目标域内区分能力，计算得到域内区分损失L_DI。一个正对的损失计算实例如下：

其中：ψ(a，b)＝exp(sim(f(a)，f(b))/τ)

其中

为特征中心,1≤i,j≤N，T代表目标域，aug表示增广后的目标域,C_i表示字典中第i个字符,sim(u,v)表示u和v的余弦相似度。f()表示特征提取模块提取出的中间特征，τ是温度超参数。最终的L_DI是对于所有正对的损失的平均值。

S107、共同优化模型。共同优化语音识别、跨域对齐、域内区分三个损失函数，直至损失收敛，即可得到一个在目标域上表现较好的语音识别模型。损失如下：

其中α和β为超参数，平衡两个损失。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，包括如下步骤：

S101，数据处理，利用有标签源域数据训练一个基于编码器与联合解码器的语音识别模型，用以识别预处理后的无标签目标域数据，生成带伪标签的目标域数据；对目标域数据进行数据增广，得到增广后的目标域数据。有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据准备完成；

S104，标注帧级字符伪标签，利用语音识别模型的解码器为各部分数据提取出的每一帧中间特征标记字符伪标签；

2.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，所述步骤S101中无标签目标域数据的处理方式包括筛选，删除极端长、短的异常数据；数据增广方式包括速度变换、音调变换、加入混响、时间掩码。

3.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，所述步骤S102特征编码器为Transformer编码器。

4.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，所述语音识别损失函数为：

L_ASR(X，Y)＝λL_CTC(X，Y)+(1-λ)L_ATT(X，Y)

5.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，所述步骤S104中解码器为CTC解码器。

6.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，所述步骤S104利用argmax与CTC输出的概率分布，将中间特征逐帧标记CTC伪标签，公式如下：

7.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，所述步骤105中跨域对齐损失，公式如下：

为再生核希尔伯特空间，k为高斯核函数。

8.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，所述步骤106中正对的损失计算实例如下：

其中：ψ(a，b)＝exp(sim(f(a)，f(b))/τ)

其中

为特征中心,1≤i,j≤N，T代表目标域，aug表示增广后的目标域,C_i表示字典中第i个字符,sim(u,v)表示u和v的余弦相似度，f()表示特征提取模块提取出的中间特征，τ是温度超参数，最终的L_DI是对于所有正对的损失的平均值。

9.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法，其特征在于，所述步骤107中语音识别模型的损失函数如下：

其中，L_ASR为语音识别损失，L_MA为跨域对齐损失，L_DI为域内区分损失，α和β为超参数，平衡两个损失。