CN116386613A

CN116386613A - 一种用于命令词语音增强的模型训练方法

Info

Publication number: CN116386613A
Application number: CN202310650948.0A
Authority: CN
Inventors: 温登峰
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-07-04
Anticipated expiration: 2043-06-05
Also published as: CN116386613B

Abstract

本发明公开了一种用于命令词语音增强的模型训练方法，包括以下步骤:S1.进行初始训练，得到原始语音识别模型MD1；S2：获取客户项目使用的命令词词条C1选择出对应的音频进行筛选并将待扩充命令词进行音频扩充；S3：剔除解码错误的音频，得到修正命令词语料库B4；S4：录制客户家居产品实际用到的噪音对修正命令词语料库B4进行加噪加混响处理，得到命令词扩充语料库B5；S5:选取语料训练芯片端所用的初始模型MD2，使用步骤S4得到的命令词扩充语料库B5进行调整，得到最终模型MD3。本发明利用已有语料库来生成缺乏的命令词语料,可在不显著增加人工成本的情况下提高模型在实际场景下的识别率，满足客户应用需求。

Description

一种用于命令词语音增强的模型训练方法

技术领域

本发明属于语音信号处理技术领域，具体涉及一种用于命令词语音增强的模型训练方法。

背景技术

近年来，随着人工智能的持续发展，各种语音设备的使用也越来越频繁。但是，由于芯片端的算力有限，因此语音芯片的实际应用还是以命令词为主。传统端侧命令词识别过程是使用大量语料训练一个连续语音识别模型，然后用这个模型去识别某一产品对应的命令词。在安静环境下的命令词识别基本不存在问题，然而噪音及远场环境下的识别仍然是一大难题。

因此，开发者通常会根据客户给的命令词指令去录制对应的语料去微调初始模型。然而，录制语料需要耗费大量的人力物力，从而带来更多的成本。另外一种解决方法是使用语音合成的模型来合成对应的命令词语料，这带来一个新的问题是需要训练对应的文本到语音模型（TTS，text to speech），并且合成的语料带来的训练效果提升有限。

发明内容

为克服现有技术存在的缺陷，本发明公开了一种用于命令词语音增强的模型训练方法。

本发明所述用于命令词语音增强的模型训练方法，包括以下步骤:

S1.进行初始训练，得到原始语音识别模型MD1，并建立安静语料库；

S2：获取客户项目使用的命令词词条C1, 所述命令词词条包括至少一个命令词；

S21.根据命令词词条C1在现有的安静语料库A1中选择出对应的音频，统计出命令词词条C1中每个命令词在安静语料库A1中的音频条数，设置第一筛选阈值对命令词词条C1中的全部命令词进行筛选，筛选出对应音频数量低于第一筛选阈值的待扩充命令词；

待扩充命令词进行音频扩充；扩充方法如下：

S22.对命令词进行分词，第一次分词为将命令词分解为一个以上词语，在第一次分词基础上继续进行第二次分词，将每个词语分为一个以上单字；

S23.设置第二筛选阈值，根据第一次分词结果，从安静语料库A1中筛选出包括各个词语的音频词条，如果单个词语的音频条数少于第二筛选阈值，则按照第二次分词结果在安静语料库A1中再次筛选；筛选出音频条数大于第二筛选阈值的单字；

如果两次筛选均不能筛选出结果，则降低第二筛选阈值；重复步骤S23；

获取步骤S23筛选得到包含两次分词结果的原始音频；

S24.使用原始语音识别模型MD1模型对步骤S23得到的音频进行对齐，获得词语或单字在音频中对应的时间标签，并根据对应的时间标签切分出仅包含对应词语或单字的音频，将切分后的音频作为分词子语料库B1；

S25.对每个命令词重复S22-S24步骤，将所有分词子语料库B1组合得到分词语料库B2;

S26.从分词语料库B2中随机筛选音频进行组合，得到命令词整词语料库B3；

S3：使用原始语音识别模型MD1对合成的命令词整词语料库B3进行解码，剔除解码错误的音频，得到修正命令词语料库 B4；

S4：录制客户家居产品实际用到的噪音对修正命令词语料库B4进行加噪加混响处理，得到命令词扩充语料库B5；

S5: 选取语料训练芯片端所用的初始模型MD2，使用步骤S4得到的命令词扩充语料库B5进行调整，得到最终模型MD3。

优选的，所述步骤S1中使用CTC/RNNT的训练方法训练得到原始语音识别模型MD1。

优选的，所述步骤S4中从修正命令词语料B4中选取部分音频在相应噪音环境播放并进行采音，采音得到的音频为补充噪音语料库B6；

所述步骤S5中同时使用所述命令词扩充语料库B5和补充噪音语料库B6对MD2进行调整，得到最终模型MD3。

本发明利用已有语料库来生成缺乏的命令词语料,可在不显著增加人工成本的情况下提高模型在实际场景下的识别率，满足客户应用需求。

附图说明

图1是本发明一个具体实施例的流程示意图。

实施方式

下面结合附图对本发明的具体实施方式进行详细说明，但并不用来限制本发明的保护范围。

下面结合附图，对本发明的具体实施方式作进一步的详细说明。

S1：使用超过1万小时的大语料进行初始训练，得到原始语音识别模型MD1，该模型使用字建模的CTC/RNNT(基于神经网络的时序分类Connectionist TemporalClassification、递归神经网络换能器Recurrent Neural Network Transducer)的训练方法，对于中文来说，模型的建模单元为汉字；

建立安静语料库，所述安静语料库为包括大量安静环境下采集的发声音频,这些音频包括单字、词语、短句、长句或整篇文章,朗读者包括不同性别,年龄,具备不同发音习惯的人；

S2：获取客户项目使用的命令词词条C1, 所述命令词词条包括至少一个命令词,以茶吧机项目为例，所述命令词词条C1中包含命令词如果茶模式、红茶模式、绿茶模式、关闭煮茶、停止煮茶等，

S21.首先根据命令词词条C1在现有的安静语料库A1中选择出对应的音频，统计出命令词词条C1中每个命令词在安静语料库A1中的音频条数，设置第一筛选阈值对命令词词条C1中的命令词进行筛选，筛选出待扩充命令词，对于命令词少于筛选阈值如少于1000条的音频单独列出，作为待扩充命令词C2，假设目前果茶模式音频条数为0，因此需对待扩充命令词中每个命令词的音频数量进行扩充。具体扩充方法如下：

如果两次筛选均不能筛选出结果，说明第二筛选阈值设置较高，则降低第二筛选阈值；重复步骤S23；

获取步骤S23筛选得到包含两次分词结果的原始音频；

S25.对每个命令词重复S21-S24步骤，将所有分词子语料库B1组合得到分词语料库B2；

例如一个具体实施方式流程如图1所示：

①对果茶模式进行分词，第一次分词的分词结果为果茶、模式，在第一分词结果上继续分词得到的第二次分词得到的单字结果为“果、茶”，“模、式”；

② 设置第二筛选阈值为50，根据第一次分词从语料A1中筛选包含“果茶”和“模式”对应的音频词条，如果单个词条的音频条数少于50，则按照第二分词在语料中再次筛选；假设果茶的音频仍少于50条，则根据第二分词“果、茶”进行语料筛选；

③获取由①和②步骤筛选得到包含两次分词结果的原始音频；

④使用原始语音识别模型MD1模型对步骤③得到的音频进行对齐，获得词语或单字如“果茶”、“果”、“茶”、“模式”等在音频中对应的时间标签，并根据对应的时间标签切分出仅包含对应词语或单字的音频，将切分后的音频作为分词子语料库B1；

例如从音频“水果糖”、“糖果”、“团购模式”等中分别切分出“果”和“模式”的音频；

⑤对每个命令词重复①-④步骤，将所有分词子语料库B1组合得到分词语料库B2;

⑥从分词语料库B2中随机筛选音频进行组合，得到命令词整词语料库B3；

例如在分词语料库B2中存在多个“果”、“茶”、“模式”的音频，全部选择或随机筛选出部分音频，将这些音频随机组合成完成的命令词“果茶模式”，将得到的结果作为命令词整词语料库B3；

本步骤采用两次筛选分词是由于人的发音习惯对一个整词，会先进行分词，然后进行发音，而词语的发音更加连贯的，两次分词得到的语料既首先保留了完整的词语发音，同时在没有足够的完整词语发音音频情况时用单字音频替代，有利于获取最优的筛选结果，利于语料的切分；

S3：使用原始语音识别模型MD1对合成的命令词整词语料库B3进行解码，

解码是对合成音频进行识别，如果识别出来的文本和对应的命令词文本不同，认为解码错误，需要删除该类音频使后续投入训练的语料更加有效。造成解码错误的原因通常是由于原始语音识别模型MD1存在***性的小概率解码错误，或由于存在音频切分不准造成合成后的音频失真；

剔除解码错误的音频，得到修正命令词语料库 B4；

S4.录制客户家居产品实际用到的噪音对修正命令词语料库B4进行加噪加混响处理，得到命令词扩充语料库B5；

可以从修正命令词语料B4中选取少量音频在相应噪音环境播放以模拟真实环境，并用语音芯片进行采音，得到补充噪音语料库B6；所谓相应噪音环境是该音频对应命令词常处于的噪音环境，例如“我要接水”音频对应的设备为茶吧机，相应噪音环境是烧水和接水时候产生的噪声；

补充噪音语料库B6是真实环境采音的噪音音频，相对于模拟加噪生成的命令词扩充语料库B5效果更好；

S5. 选取语料训练芯片端所用的初始模型MD2，其中MD2模型是能够在芯片运行并为芯片端训练而构建的基础模型，使用步骤S4得到的命令词扩充语料库B5和补充噪音语料库B6对MD2进行训练，得到最终模型MD3。

本发明通过扩充命令词语料提高识别率，对于模型训练来说，两次筛选分词是由于人的发音习惯（对一个整词，会先进行分词，然后进行发音，而且词语的发音是更加连贯的，这有利于语料的切分；相对而言，单个字的切分更加困难，因为其很少在一段语音中单独出现。

本实施例在开源语音识别工具k2和卡尔迪（kaldi）环境下实施；首先选用上万小时的基础语料在k2平台上训练一个端到端的conformer模型作为原始语音识别模型MD1，用于后续语料的对齐和解码。conformer模型为谷歌（Google）公司在2020年提出的语音识别模型

使用茶吧机的约100个命令词按照本发明所述训练方法的S2步骤筛选和扩充，得到命令词整词语料库B3；并在S3步骤完成剔除；

然后进行S4步骤，录制茶吧机运行时的噪音进行加噪处理，得到命令词扩充语料库B5和补充噪音语料库B6，以提高实际使用时噪声环境下的识别效果。

在卡尔迪（kaldi）环境使用几千小时的基础语料训练芯片端运行的模型结构为f-tdnn（分解延时神经网络Factorized TDNN）的初始模型MD2,然后使用得到命令词扩充语料库B5和补充噪音语料库B6，对初始模型MD2进行微调，从而得到适用于特定命令词的最终模型MD3。

本实施例中，基于茶吧机的测试项目，每个测试集的样本个数为220条音频，各个模型在PC端的测试结果如表1：

	MD2	MD3	MD4
				参数量	850K	850K	850K
安静	98%	99%	100%
				音乐	79%	87%	93%
接水噪音	90%	95%	96%
				烧水噪音	90%	93%	97%

表1：茶吧机测试表

表1中MD2 为基础语料语料训练的模型，MD3是使用本专利的方法生成扩充命令词语料后训练的模型，MD4是使用高保真音响录制的命令词音频（即真实录制的命令词人声音频）后训练的模型，从测试结果来看，扩充命令词语料可以提高模型在实际使用项目下的识别效果。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种用于命令词语音增强的模型训练方法，其特征在于,包括以下步骤:

S1：进行初始训练，得到原始语音识别模型MD1，并建立安静语料库；

待扩充命令词进行音频扩充；扩充方法如下：

获取步骤S23筛选得到包含两次分词结果的原始音频；

2.如权利要求1所述的模型训练方法，其特征在于，所述步骤S1中使用CTC/RNNT的训练方法训练得到原始语音识别模型MD1。

3.如权利要求1所述的模型训练方法，其特征在于，

所述步骤S4中从修正命令词语料B4中选取部分音频在相应噪音环境播放并进行采音，采音得到的音频为补充噪音语料库B6；