CN116129887A - 一种基于跨域对齐和域内区分的语音识别模型构建方法 - Google Patents

一种基于跨域对齐和域内区分的语音识别模型构建方法 Download PDF

Info

Publication number
CN116129887A
CN116129887A CN202310138178.1A CN202310138178A CN116129887A CN 116129887 A CN116129887 A CN 116129887A CN 202310138178 A CN202310138178 A CN 202310138178A CN 116129887 A CN116129887 A CN 116129887A
Authority
CN
China
Prior art keywords
domain
data
target domain
cross
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310138178.1A
Other languages
English (en)
Inventor
秦勇
周家名
蒋宁
赵石顽
李起成
王卉
王雪琛
贺佳贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202310138178.1A priority Critical patent/CN116129887A/zh
Publication of CN116129887A publication Critical patent/CN116129887A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明属于语音识别领域和领域适配领域,更具体地涉及一种基于跨域对齐和域内区分的语音识别模型构建方法。该方法在对跨域特征进行对齐的基础上,增加了域内区分模块,以减轻对齐跨域特征过程中对模型在目标域上的区分能力造成的损害。本方法无需目标域数据的真实标签,节省了数据标注成本,并提升了模型在目标域上的准确率。

Description

一种基于跨域对齐和域内区分的语音识别模型构建方法
技术领域
本发明属于语音识别领域和领域适配领域,更具体地涉及一种基于跨域对齐和域内区分的语音识别模型构建方法。
背景技术
随着深度学***。但在实际应用中,由于口音、环境、甚至是录音所用的麦克风引起数据分布的偏移,语音识别模型的性能下降十分明显。针对于不同的场景录制音频并加以标注需要耗费大量的人力物力。因此,如何增强语音识别***的鲁棒性、提升语音识别***在方言、噪音等低资源的目标域上的性能,已经成为近年来研究的热点问题。
研究发现,训练数据与测试数据之间数据分布不同,即源域数据与目标域数据的之间存在域偏移。减轻域偏移可以有效提升语音识别***的准确率。基于这一事实,许多研究聚焦于全局对齐源域和目标域数据提取出的特征,如领域对抗学习技术、生成对抗网络。另外也有研究采用了更细粒度的字符级特征对齐,进一步提升了模型的准确率。
尽管如此,目前的领域适配技术还不能够完全适应复杂多变的场景。如何进一步提升模型的性能,成为了当前语音识别领域适配方法研究的难点。
发明内容
现有的方法简单的对跨域特征进行对齐,以增强模型的迁移性,但忽略了模型在目标域上的区分能力因强制对齐而损害这一事实。
为了减轻源域数据与目标域数据之间的域偏移对语音识别***性能的影响,本发明提出一种基于跨域对齐和域内区分的语音识别模型构建方法。本方法在对跨域特征进行对齐的基础上,增加了域内区分模块,以减轻对齐跨域特征过程中对模型在目标域上的区分能力造成的损害。本方法无需目标域数据的真实标签,节省了数据标注成本,并提升了模型在目标域上的准确率。
为实现上述目的,本发明采用如下技术方案:
一种基于跨域对齐和域内区分的语音识别模型构建方法,包括如下步骤:
S101,数据处理,利用有标签源域数据训练一个基于编码器与联合解码器的语音识别模型,用以识别预处理后的无标签目标域数据,生成带伪标签的目标域数据;对目标域数据进行数据增广,得到增广后的目标域数据,有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据准备完成;
S102,特征提取,将有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据传入特征编码器提取各部分的中间特征表示;
S103,语音识别,将有标签的源域数据和有伪标签的目标域数据对应的中间特征表示输入到语音识别联合解码器中,计算语音识别损失;
S104,标注帧级字符伪标签,利用语音识别模型的解码器为提取出的每一帧中间特征标记字符伪标签;
S105,跨域对齐,利用S104获取的源域和目标域中间特征的帧级字符伪标签,得到各个字符在源域和目标域上对应的中间特征的分布,进一步利用数据分布拟合方法对属于同一字符的源域与目标域特征分布进行对齐,计算得到跨域对齐损失;
S106、域内区分,利用S104获取目标域和增广后的目标域中间特征对应的帧级字符伪标签,得到在目标域、增广后的目标域上对应的各个字符中间特征的分布,以相同字符的特征中心为正对、不同字符的特征中心为负对,利用对比学习技术使目标域与增广后目标域上的同字符的特征中心聚集、不同字符的特征中心互相远离,以同时增强模型在目标域内区分能力,计算得到域内区分损失;
S107,共同优化模型,共同优化语音识别、跨域对齐、域内区分三个损失函数,直至损失收敛,即可得到一个在目标域上表现较好的语音识别模型。
本技术方案进一步的优化,所述步骤S101中无标签目标域数据的处理方式包括筛选,删除极端长、短的异常数据;数据增广方式包括速度变换、音调变换、加入混响、时间掩码。
本技术方案进一步的优化,所述步骤S102特征编码器为Transformer编码器。
本技术方案进一步的优化,所述语音识别损失函数为:
LASR(X,Y)=λLCTC(X,Y)+(1-λ)LATT(X,Y)
其中X是源域数据、目标域数据,Y是源域数据标签、目标域数据伪标签,LCTC是CTC损失,LATT是注意力损失,超参数λ平衡了这两个损失。
本技术方案进一步的优化,所述步骤S104中解码器为CTC解码器。
本技术方案进一步的优化,所述步骤S104利用argmax与CTC输出的概率分布,将中间特征逐帧标记CTC伪标签,公式如下:
Figure BDA0004086700240000021
本技术方案进一步的优化,所述步骤105中跨域对齐损失,公式如下:
Figure BDA0004086700240000031
其中N是字符总数,S和T分别表示源域、目标域,Ci表示符号集C的第i个字符,
Figure BDA0004086700240000032
为再生核希尔伯特空间,k为高斯核函数。
本技术方案进一步的优化,所述步骤106中正对的损失计算实例如下:
Figure BDA0004086700240000033
其中:ψ(a,b)=exp(sim(f(a),f(b))/τ)
Figure BDA0004086700240000034
其中1≤i,j≤N,T代表目标域,aug表示增广后的目标域,Ci表示字典中第i个字符,
Figure BDA0004086700240000035
为特征中心,sim(u,v)表示u和v的余弦相似度,f()表示特征提取模块提取出的中间特征,τ是温度超参数,最终的LDI是对于所有正对的损失的平均值。
本技术方案进一步的优化,所述步骤107中语音识别模型的损失函数如下:
Figure BDA0004086700240000036
其中,LASR为语音识别损失,LMA为跨域对齐损失,LDI为域内区分的损失,α和β为超参数,平衡两个损失。
区别于现有技术,上述技术方案有益效果是,应用本发明提出的语音识别领域适配方法,可同时提升模型在字符级别上的跨域对齐能力以及目标域上的区分能力,进而增强了语音识别模型在不同设备、不同背景音、不同口音等跨域任务上的性能。
附图说明
图1为语音识别模型构建方法的流程示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
本发明所采用的技术方案将分为数据准备以及领域适配两个阶段。
数据准备阶段:给定有标签的源域数据以及无标签的目标域数据,首先利用源域数据训练一个语音识别模型,并利用该语音识别模型生成无标签目标域数据的伪标签。然后对目标域数据进行数据增广,得到增广后的目标域数据。得到有标签的源域数据、有(伪)标签的目标域数据、增广后的目标域数据。
在领域适配阶段,分别将上述三部分数据传入特征编码器,提取特征表示,对提取出的每一帧特征表示进行伪标签标记。然后计算字符级别上的跨域对齐、域内区分两部分损失。跨域对齐损失部分,利用数据分布拟合方法(如最大均值差异MMD)对属于源域和目标域的同一字符的特征分布进行对齐,以增强模型的跨域对齐能力。域内区分损失部分,利用对比学习技术,使得目标域数据特征与增广后的目标域数据特征中的同字符的特征中心聚集、不同字符的特征中心互相远离,以同时增强模型在目标域内区分能力,进而提升模型在目标域上的准确率。
请参阅图1所示,为语音识别模型构建方法的流程示意图,本发明优选一实施例,该实施例具体包括如下步骤:
S101、数据处理。给定无标签的目标域数据,首先对所有数据进行筛选,删除极端长、短的异常数据。其次,利用有标签源域数据训练一个基于Transformer编码器与CTC-Attention(Connectionist Temporal Classification,CTC)联合解码器的语音识别模型,用以识别无标签目标域数据,生成带伪标签的目标域数据。最后,利用速度变换、音调变换、加入混响、时间掩码等方式对目标域数据进行数据增广,得到增广后的目标域数据。至此,三部分数据包括有标签的源域数据、有伪标签的目标域数据、(有伪标签的)增广后的目标域数据准备完成。
S102、特征提取。分别将上述三部分数据传入特征编码器,如Transformer编码器,提取各部分对应的中间特征表示。
S103、语音识别。将有标签的源域数据和有伪标签的目标域数据对应的中间特征表示输入到语音识别CTC-Attention联合解码器中,并计算语音识别损失,公式如下:
LASR(X,Y)=λLCTC(X,Y)+(1-λ)LATT(X,Y)
其中X是源域数据、目标域数据,Y是源域数据标签、目标域数据伪标签。LCTC是CTC损失,LATT是注意力损失。超参数λ平衡了这两个损失。
S104、标注帧级字符伪标签。利用语音识别模型的解码器(如CTC解码器)为提取出的每一帧中间特征标记字符伪标签,即字典中的字符如“a”,“b”等。以CTC解码器为例,可以利用argmax与CTC输出的概率分布,将中间特征逐帧标记CTC伪标签,公式如下。
Figure BDA0004086700240000041
其中PCTC为CTC解码器输出的概率分布,Xn为X第n帧输入,Yn为X第n帧的可能的标签,
Figure BDA0004086700240000051
是使得PCTC最大的Xn的帧级伪标签。
S105、跨域对齐。利用S104获取的源域和目标域中间特征的帧级字符伪标签,可以得到各个字符在源域和目标域上对应的中间特征的分布。进一步利用数据分布拟合方法(如最大均值差异MMD)对属于同一字符的源域与目标域特征分布进行对齐,计算得到跨域对齐损失LMA,公式如下:
Figure BDA0004086700240000052
其中N是字符总数。S和T分别表示源域、目标域,Ci表示符号集C的第i个字符。
Figure BDA0004086700240000053
为再生核希尔伯特空间,k为本发明采用的高斯核函数。
S106、域内区分。利用S104获取目标域和增广后的目标域中间特征对应的帧级字符伪标签,可以得到在目标域、增广后的目标域上对应的各个字符中间特征的分布。由于语音数据提取出的帧数较多,故帧级别的对比学***均中间特征平均,得到各个字符对应的近似特征中心
Figure BDA0004086700240000054
以相同字符的特征中心为正对、不同字符的特征中心为负对,利用对比学习技术(如NT_XENT损失)使目标域与增广后目标域上的同字符的特征中心聚集、不同字符的特征中心互相远离,以同时增强模型在目标域内区分能力,计算得到域内区分损失LDI。一个正对的损失计算实例如下:
Figure BDA0004086700240000055
其中:ψ(a,b)=exp(sim(f(a),f(b))/τ)
Figure BDA0004086700240000056
其中
Figure BDA0004086700240000057
为特征中心,1≤i,j≤N,T代表目标域,aug表示增广后的目标域,Ci表示字典中第i个字符,sim(u,v)表示u和v的余弦相似度。f()表示特征提取模块提取出的中间特征,τ是温度超参数。最终的LDI是对于所有正对的损失的平均值。
S107、共同优化模型。共同优化语音识别、跨域对齐、域内区分三个损失函数,直至损失收敛,即可得到一个在目标域上表现较好的语音识别模型。损失如下:
Figure BDA0004086700240000058
其中α和β为超参数,平衡两个损失。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (9)

1.一种基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,包括如下步骤:
S101,数据处理,利用有标签源域数据训练一个基于编码器与联合解码器的语音识别模型,用以识别预处理后的无标签目标域数据,生成带伪标签的目标域数据;对目标域数据进行数据增广,得到增广后的目标域数据。有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据准备完成;
S102,特征提取,将有标签的源域数据、有伪标签的目标域数据、增广后的目标域数据传入特征编码器提取各部分的中间特征表示;
S103,语音识别,将有标签的源域数据和有伪标签的目标域数据对应的中间特征表示输入到语音识别联合解码器中,计算语音识别损失;
S104,标注帧级字符伪标签,利用语音识别模型的解码器为各部分数据提取出的每一帧中间特征标记字符伪标签;
S105,跨域对齐,利用S104获取的源域和目标域中间特征的帧级字符伪标签,得到各个字符在源域和目标域上对应的中间特征的分布,进一步利用数据分布拟合方法对属于同一字符的源域与目标域特征分布进行对齐,计算得到跨域对齐损失;
S106、域内区分,利用S104获取目标域和增广后的目标域中间特征对应的帧级字符伪标签,得到在目标域、增广后的目标域上对应的各个字符中间特征的分布,以相同字符的特征中心为正对、不同字符的特征中心为负对,利用对比学习技术使目标域与增广后目标域上的同字符的特征中心聚集、不同字符的特征中心互相远离,以同时增强模型在目标域内区分能力,计算得到域内区分损失;
S107,共同优化模型,共同优化语音识别、跨域对齐、域内区分三个损失函数,直至损失收敛,即可得到一个在目标域上表现较好的语音识别模型。
2.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤S101中无标签目标域数据的处理方式包括筛选,删除极端长、短的异常数据;数据增广方式包括速度变换、音调变换、加入混响、时间掩码。
3.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤S102特征编码器为Transformer编码器。
4.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述语音识别损失函数为:
LASR(X,Y)=λLCTC(X,Y)+(1-λ)LATT(X,Y)
其中X是源域数据、目标域数据,Y是源域数据标签、目标域数据伪标签,LCTC是CTC损失,LATT是注意力损失,超参数λ平衡了这两个损失。
5.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤S104中解码器为CTC解码器。
6.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤S104利用argmax与CTC输出的概率分布,将中间特征逐帧标记CTC伪标签,公式如下:
Figure FDA0004086700230000021
7.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤105中跨域对齐损失,公式如下:
Figure FDA0004086700230000022
其中N是字符总数,S和T分别表示源域、目标域,Ci表示符号集C的第i个字符,
Figure FDA0004086700230000023
为再生核希尔伯特空间,k为高斯核函数。
8.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤106中正对的损失计算实例如下:
Figure FDA0004086700230000024
其中:ψ(a,b)=exp(sim(f(a),f(b))/τ)
Figure FDA0004086700230000025
其中
Figure FDA0004086700230000027
为特征中心,1≤i,j≤N,T代表目标域,aug表示增广后的目标域,Ci表示字典中第i个字符,sim(u,v)表示u和v的余弦相似度,f()表示特征提取模块提取出的中间特征,τ是温度超参数,最终的LDI是对于所有正对的损失的平均值。
9.如权利要求1所述的基于跨域对齐和域内区分的语音识别模型构建方法,其特征在于,所述步骤107中语音识别模型的损失函数如下:
Figure FDA0004086700230000026
其中,LASR为语音识别损失,LMA为跨域对齐损失,LDI为域内区分损失,α和β为超参数,平衡两个损失。
CN202310138178.1A 2023-02-20 2023-02-20 一种基于跨域对齐和域内区分的语音识别模型构建方法 Pending CN116129887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310138178.1A CN116129887A (zh) 2023-02-20 2023-02-20 一种基于跨域对齐和域内区分的语音识别模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310138178.1A CN116129887A (zh) 2023-02-20 2023-02-20 一种基于跨域对齐和域内区分的语音识别模型构建方法

Publications (1)

Publication Number Publication Date
CN116129887A true CN116129887A (zh) 2023-05-16

Family

ID=86300937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310138178.1A Pending CN116129887A (zh) 2023-02-20 2023-02-20 一种基于跨域对齐和域内区分的语音识别模型构建方法

Country Status (1)

Country Link
CN (1) CN116129887A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558263A (zh) * 2024-01-10 2024-02-13 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558263A (zh) * 2024-01-10 2024-02-13 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质
CN117558263B (zh) * 2024-01-10 2024-04-26 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110648659B (zh) 基于多任务模型的语音识别与关键词检测装置和方法
CN105139864B (zh) 语音识别方法和装置
CN112735482B (zh) 基于联合深度神经网络的端点检测方法及***
CN111461025B (zh) 一种自主进化的零样本学习的信号识别方法
CN111970078B (zh) 一种非线性失真场景的帧同步方法
CN116129887A (zh) 一种基于跨域对齐和域内区分的语音识别模型构建方法
CN111739539A (zh) 确定说话人数量的方法、装置及存储介质
CN115131627A (zh) 一种轻量化植物病虫害目标检测模型的构建和训练方法
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN112418175A (zh) 基于域迁移的滚动轴承故障诊断方法、***及存储介质
CN111597333B (zh) 一种面向区块链领域的事件与事件要素抽取方法及装置
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和***
CN107403618B (zh) 基于堆叠基稀疏表示的音频事件分类方法及计算机设备
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、***及终端
CN111354373A (zh) 一种基于神经网络中间层特征滤波的音频信号分类方法
CN116562275B (zh) 一种结合实体属性图的自动文本摘要方法
CN110930997B (zh) 一种利用深度学习模型对音频进行标注的方法
CN117275465A (zh) 基于Conformer的实时中文语音识别及识别结果文本处理方法
CN116524931A (zh) 5g富媒体消息语音转文本***、方法、电子设备及介质
CN116304543A (zh) 一种基于数据流的制造大数据价值关联模式识别方法
CN116580694A (zh) 音频对抗样本生成方法、装置、设备及存储介质
CN112434716B (zh) 一种基于条件对抗神经网络的水下目标数据扩增方法及***
CN113948093A (zh) 一种基于无监督场景适应的说话人识别方法及***
Zhang et al. End-to-end overlapped speech detection and speaker counting with raw waveform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination