CN113823326B

CN113823326B - 一种高效语音关键词检测器训练样本使用方法

Info

Publication number: CN113823326B
Application number: CN202110937477.2A
Authority: CN
Inventors: 贺前华; 兰小添; 田颖慧; 郑若伟
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2023-09-19
Anticipated expiration: 2041-08-16
Also published as: CN113823326A

Abstract

本发明公开了一种高效语音关键词检测器训练样本使用方法，包括：使用全部样本训练检测器n轮；在第k轮训练的准备阶段，基于第k‑1轮训练所得检测器D_k‑1，获取样本的目标评分S(T)和竞争者评分S(C)，构建样本参与第k轮训练的概率；根据样本参与训练的概率，挑选出第k轮所使用的样本集Z_k；第k轮使用Z_k进行训练，获得新的检测器D_k，重复上述获取样本参与训练的概率、挑选样本和训练的过程，直至模型收敛或训练轮次大于预设值，结束训练。本发明通过挑选能对模型训练提供更多区分性信息的样本进行训练，使训练更加关注重要的样本，在提升***性能的同时，提升训练效率；而且可缓解关键词检测训练中类样本不平衡问题；方法简单、高效，有广阔的应用前景。

Description

一种高效语音关键词检测器训练样本使用方法

技术领域

本发明涉及数据处理的技术领域，尤其涉及到一种高效语音关键词检测器训练样本使用方法。

背景技术

语音是信息交流的重要媒介。语音关键词检测(Keyword Spotting,KWS)是指从连续的语音流中检测出预先定义的词。相比于自动语音识别(Automatic SpeechRecognition,ASR)，KWS只关注所定义的关键词，对于关键词以外的词语并不关注，大大降低***的开发难度。由于其快速、灵活等特性，KWS在音频监控、语音检索以及设备控制等领域都有着广泛的应用。

对KWS训练而言，正样本的收集成本较高，而负样本的获取比较容易。同时，KWS的训练确实需要大量且丰富多样的负样本来防止虚警。虽然大体上可以认为与关键字发音相似的字或各种环境噪声容易造成虚警，但实际却并无法快速准确地知道到底哪些样本容易造成虚警。因此，KWS的训练集中往往存在大量的负样本。实际上，无论是正样本还是负样本，都有很大一部分样本之间存在着明显的“信息冗余”现象，数量众多使得它们在训练中很快就可以被训练得很好。然而这些易学***衡问题，在训练中导致次优模型。此外，即使是由领域专家进行人工标注的数据集，错误标签(标签噪声)都不可避免地存在，标签错误问题对训练和评估都会带来负面影响；类似地，还有样本质量低的问题。

实际上，若针对样本不平衡问题，解决方案大致可以分为样本层面的方法和算法层面的方法。基于算法层面的方法主要通过修改现有的一般算法使之适用于不平衡数据，如代价敏感学***衡，主要分为上采样和下采样两种方法。上采样的方法是通过算法生成少数类样本，增加少数类样本的数量。但由于上采样方法本质是基于现有样本来生成新样本的，并非真实样本，容易产生过拟合。同时，由于增大了样本集，训练耗时将增加。无论是算法层面的方法，还是样本层面方法中的上采样方法，低效率的训练将抑制很多科研及生产工作的开展，延缓业界的工作进展。相对地，下采样的方法通过丢弃多数类样本，减少多数类样本的数量。由于经过下采样，训练样本集减小，故训练时间将减少。但是，如果随意丢弃样本，可能丢弃对训练“很重要”的样本，导致欠拟合。这里，“很重要”的样本指的是对训练有促进作用的样本，可以认为其对训练能提供更多的区分性信息。所以，需要一种简单、有效的样本挑选方法，挑选出对训练提供更多区分性信息的“重要样本”，而丢弃大部分易学***衡的问题，进一步提升***性能；而经过挑选，由于只需要使用部分样本进行训练，所以这还可以极大地加速训练。最后，对于标签错误和样本质量低的问题，同样需要一种样本挑选手段来尽量防止低质量和存在错误标签的样本参与训练而影响***训练。

发明内容

本发明的目的在于克服现有技术的不足，提供一种一种高效语音关键词检测器训练样本使用方法。

为实现上述目的，本发明所提供的技术方案为：

一种高效语音关键词检测器训练样本使用方法，基于语音关键词检测器D的迭代训练方法Train和关键词搜索方法Search，包括以下步骤：

S1、基于样本集其中X_i为语音样本，Y_i为对应的转录文本，N为样本总数，预设训练最大轮次为K，利用训练方法Train对语音关键词检测器D进行n(n≥1)轮训练，以保证语音关键词检测器D_n具有可靠性，此时远未达到训练的收敛标准；

S2、在第k(k＞n)轮训练，对于样本集Z中的每一个样本z_i＝(X_i,Y_i)，基于第k-1轮训练所得的语音关键词检测器D_k-1和关键词搜索方法Search，获取其目标评分S(T_i)和目标的竞争者评分S(C_i)；其中，S(*)为检测器从语言样本X_i中检出检测对象*的评分，其值越大，检测对象*成为检测结果的可能性越大；

S3、对于样本集Z内每个样本z_i，构建其参与第k轮训练的概率p_i，该概率应反比于|S(T_i)-S(C_i)|，使得容易纠错的样本更多地参与模型训练；

S4、基于样本参与训练的概率从样本集Z中挑选出第k轮训练使用的样本集Z_k，其中，/>也即样本参与训练的概率越大，则被选中参与第k轮训练的概率越大。

S5、采用挑选出的样本集Z_k训练语音关键词检测器，获得更新的检测器D_k，如果训练已收敛或k≥K，结束训练，否则，重复S2～S5。

进一步地，所述语音关键词检测器进行n轮训练前，对样本集Z中所有语音样本X_i进行预处理，提取特征。

进一步地，所述预处理包括预加重、分帧、加窗。

进一步地，所述步骤S2中，获取样本目标评分S(T_i)和目标的竞争者评分S(C_i)的过程包括：

S2-1、在第k轮训练的准备阶段，对于样本集Z中的每一个样本z_i＝(X_i,Y_i)，基于第k-1轮训练所得的语音关键词检测器D_k-1，利用关键词搜索方法Search，搜索样本z_i的各个音段，按如下方式获取待检测关键词列表内各个关键词的最大得分：

式(1)中，M为W所含关键词数量，R_i为z_i的音段数，为z_i音段t上关键词w_m的得分；

S2-2、对于样本集Z内的样本z_i，基于决策阈值p_out，根据获取其目标评分S(T_i)和目标的竞争者评分S(C_i)；将不存在于待检测关键词列表W中的词统称为非关键词，记为w_NK；

若z_i为正样本，即包含关键词的样本，z_i的目标为其所含有的关键词，设其包含目标关键词为w_m∈W，在z_i所有音段中：

若w_m的最大得分大于p_out，且至少有一个非目标关键词得分大于p_out，即且/>使得/>则令S(C_i)为非目标关键词得分中的最大者，记其所在音段为t_C，令S(T_i)为t_C上非关键词的得分，也即：

否则，令S(T_i)为w_m的最大得分，记其所在音段为t_T，而S(C_i)为t_T上非目标关键词得分中的最大者，也即：

式(5)中，W^*＝W∪{w_NK}；

此时，竞争者包括非关键词和W中不存在于z_i的关键词；

若z_i为负样本，即不含关键词的样本，z_i的目标为非关键词，竞争者为W中的所有关键词；

在z_i所有音段中，令S(C_i)为所有关键词得分中的最大者，记其所在音段为t_W，令S(T_i)为t_W上w_NK的得分，也即：

当一个语音样本中包含多个关键词时，对于正样本，将多个目标关键词最大得分中的最小者作为该样本的目标得分S(T_i)，而获取S(C_i)的方法无需更改；对于负样本，获取S(T_i)和S(C_i)的方法则皆无需更改。

进一步地，所述步骤S2中，关键词及非关键词的得分由语音关键词检测器的输出通过G(·)映射得到，即：

式(8)中，O_i为语音样本X_i对应特征输入语音关键词检测器得到的输出；G(·)为映射函数，其满足：若语音关键词检测器输出是检测对象的相似性评分，与该相似性评分成正比；若语音关键词检测器输出是与检测对象之间的距离度量，/>与该距离度量成反比。

进一步地，所述步骤S3中，对于样本集Z内样本z_i，基于目标评分S(T_i)和目标的竞争者评分S(C_i)，z_i参与第k轮训练的概率p_i为：

式(9)中，α和σ为两个大于0的超参数，控制着样本使用概率对于|S(T_i)-S(C_i)|的敏感程度；此时，p_i∈[e^-α,1]，所以α的取值还决定p_i的分布范围，控制挑选的样本量。

p_i与|S(T_i)-S(C_i)|成反比关系，有：

当S(T_i)比较大而S(C_i)比较小时，表明z_i很容易训练或已经被训练得很好，竞争力最大的竞争者并不会对目标关键词的检出带来太大影响，这类样本过多地参与训练，将拖慢训练进程，影响决策边界，进而降低检测器性能，故需要减少这类样本参与训练；对应地，此时|S(T_i)-S(C_i)|较大，p_i较小，也即样本z_i参与训练的概率较小；

当S(T_i)比较小而S(C_i)比较大时，如前所述，训练是基于“样本转录文本Y_i正确”的假设下进行的，但S(T_i)却比S(C_i)小很多，在检测器具有一定可靠性的情况下，有理由判断Y_i存在错误转录或X_i质量较低，这类样本会给训练带来的负面影响，需要尽量避免其参与训练；对应地，此时|S(T_i)-S(C_i)|较大，p_i较小，也即样本z_i参与训练的概率较小；

当S(T_i)与S(C_i)相对接近时，表明当前检测器并不能很好地识别样本z_i，即z_i属于较难训练的样本，或接近决策边界的“边界样本”，这种样本可为训练提供更多得区分性信息，需要着重训练；对应地，此时|S(T_i)-S(C_i)|较小，p_i较大，也即样本z_i参与训练的概率较大。

进一步地，对于能为语音关键词检测器D训练提供更多区分性信息的样本，其目标评分S(T_i)和目标的竞争者评分S(C_i)接近，参与训练的概率大；对于容易训练的样本，其目标评分S(T_i)大于目标的竞争者评分S(C_i)，参与训练的概率小；对于低质量或有错误标签的样本，其目标评分S(T_i)小于目标的竞争者评分S(C_i)，参与训练的概率小。

与现有技术相比，本技术方案的原理和优点如下：

本技术方案利用样本所含目标关键词和竞争对象的竞争关系，利用语音关键词检测器输出，直接构建样本参与训练的概率，从而挑选出对训练有促进作用的样本集进行训练，具有实现简单、成本较低而高效的优点，克服了传统KWS训练中被大量易学***衡问题；克服了普通下采样方法对训练造成欠拟合的问题，不仅可以提升检测性能，还可以极大地加速训练；通过尽量避免低质量和存在错误标签的样本参与训练，可以有效抑制标签噪声和低质量样本对训练的负面影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种高效语音关键词检测器训练样本使用方法的原理流程图；

图2为本发明实施例中使用和未使用本发明方法训练所得检测器在测试集上的DET曲线对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合具体实施例对本发明作进一步地详细描述。仅此声明，本发明在文中出现或即将出现的上、下、左、右、前、后、内、外等方位用词，仅以本发明的附图为基准，其并不是对本发明的具体限定。

本实施例中，使用AISHELL-2中文语料库中的样本作为实验数据集，其中训练集中正负样本比例为10107:101070＝1:10，也即训练集共111177个样本，测试集中正负样本比例为2018:4036＝1:2；在实验数据集中，关键词只出现在一个语音样本的一部分，同时，一个语音样本中可能存在多个关键词；具体的待检测关键词列表为：“音乐”，“歌曲”，“卫视”，“互联网”，“机器人”，共5个关键词。本实施例以CRNN-CTC的端到端方案搭建语音关键词检测器模型，通过后向传播算法最小化CTC损失函数来训练语音关键词检测器D；建模单元采用有调音节，特征则采用80维的梅尔语谱图。

如图1所示，一种一种高效语音关键词检测器训练样本使用方法，包括以下步骤：

S1、基于样本集其中N＝111177，X_i为语音样本，Y_i为对应的转录文本，对Z中所有X_i进行预处理，包括预加重、分帧和加窗后，提取80维的梅尔语谱图特征；将所有样本的特征输入到网络中，训练语音关键词检测器4轮，得到D₄。

S2、在第k轮训练，对于Z中的每一个样本z_i＝(X_i,Y_i)，基于第k-1轮训练所得语音关键词检测器D_k-1，利用关键词搜索方法Search，通过搜索z_i各个音段，获取其目标评分S(T_i)和目标的竞争者评分S(C_i)；其中，S(*)为语音关键词检测器从X_i中检出检测对象*的评分，其值越大，检测对象成为检测结果的可能性越大。

具体地，步骤S2包括以下步骤：

S2-1、在第k轮训练，对于Z中的每一个样本z_i＝(X_i,Y_i)，基于第k-1轮训练所得语音关键词检测器D_k-1，利用关键词搜索方法Search，基于模型输出的CTC矩阵，搜索z_i各个音段，按如下方式获取待检测关键词列表内各个关键词的最大得分：

式(1)中，M为W中的关键词数量，故M＝5；R_i为z_i的音段数，为z_i音段t上关键词w_m的得分。对于基于CTC方案的网络模型，首先去除blank和重复的帧，找出CTC中的尖峰帧，记由一系列尖峰帧组成的新矩阵为P_spike，有：

式(2)中，s代表尖峰帧的帧数，v则为分类的类别数，本实施例以有调音节作为建模单元，加上“非关键字”，故v＝13；P_spike中每一行代表一帧，每一行经过softmax，故和为1，每一列代表某个有调音节或“非关键字”的概率。此时，对于两字关键词来说，P_spike中任意两相邻帧皆可认为是一个音段；对于三字关键词，则为三相邻帧；以此类推。基于滑动窗方法，则可得到样本的一系列音段。

上述过程中，关键词及“非关键词”的得分由语音关键词检测器的输出通过映射函数G(·)映射得到，即：

式(3)中，O_i为样本z_i对应特征输入语音关键词检测器得到的输出CTC矩阵，根据转录文本Y_i，将不存在W中的词定义为“非关键词”，并记为w_NK，则W^*＝W∪{w_NK}。本实施例中，在某个音段获取某个关键词得分的方法为：对于q个字符的关键词，在P_spike中，根据标签按顺序取出各帧对应列的概率值，将各概率值相乘之后，开q次方根以进行归一化。以关键词“音乐”为例，记为w₁，若“音”的有调音节“yīn”对应标签为“2”，“乐”的有调音节“yuè”对应标签为“3”；基于P_spike矩阵，在该音段的第一帧取出第2列的概率值，记为p_t1,2，第二帧取出第3列的概率值，记为p_t2,3，则在音段t上“音乐”的得分为：

S2-2、对于样本集Z内各个样本z_i，给定决策阈值p_out＝0.5，根据获取其目标评分S(T_i)和目标的竞争者评分S(C_i)。其中，若z_i为正样本，即包含关键词的样本，z_i的目标是其所含有的关键词，此时，竞争者包括“非关键词”和W中不存在于z_i的关键词；若z_i为负样本，即不含关键词的样本，z_i的目标为“非关键词”，竞争者为W中的所有关键词。具体地：

若z_i为正样本，设其包含目标关键词为w_m∈W，在z_i所有音段中：

若w_m的最大得分大于p_out，且至少有一个非目标关键词得分大于p_out，即且/>使得/>则令S(C_i)为非目标关键词得分中的最大者，记其所在音段为t_C，令S(T_i)为t_C上“非关键词”的得分，也即：

若z_i为负样本，在z_i所有音段中，令S(C_i)为所有关键词得分中的最大者，记其所在音段为t_W，令S(T_i)为t_W上w_NK的得分，也即：

S3、对于Z内样本z_i，基于S(T_i)和S(C_i)构建z_i参与第k轮训练的概率p_i，其中p_i计算方式为：

式(11)中，α和σ为超参数，α＝1，σ＝1，控制着样本使用概率对于|S(T_i)-S(C_i)|的敏感程度；此时，p_i∈[e^-α,1]，所以α的取值还决定p_i的分布范围，控制挑选的样本量。

S4、基于样本参与训练的概率进行样本的挑选，具体地：样本参与训练的概率越大，则被选中参与第k轮训练的概率越大。本实施例中，采用如下方式进行样本挑选：基于样本的使用概率，设定一个区间[e^-α-eps,1]内的均匀分布U，其中eps＝10^-8。对于Z内的每一个样本z_i，依照U产生一个随机数p_u，并依据p_u与p_i的大小关系选择训练样本，具体地：

若p_i≥p_u，则z_i被选中作为第k轮训练的样本，加入到样本集Z_k中；

若p_i＜p_u，则不将z_i加入到Z_k中，即，不参与第k轮的训练。

S5、采用挑选出的样本集Z_k训练语音关键词检测器，获得更新的检测器D_k，如果训练已收敛或k≥K，结束训练，否则，重复S2～S5，其中K是预设的训练最大轮次，本实施例中，K＝50。

在测试集上，使用训练所得检测器进行性能测试，根据测试结果绘制DET(Detection Error Tradeoff)曲线，如图2所示：在虚警率为0.3次虚警/关键词/小时(0.3fa/kw/h)时，使用本实施例所述样本挑选方法比与未使用时的漏检率下降4.06％，相对下降34.85％。

本实施例方法在提升***性能和加速训练两个方面的表现如下表1所示：

	漏检率	平均每轮训练消耗时间(秒/轮)
			未使用本实施例方法	11.65％	1011.91
使用本实施例方法	7.59％	261.06

表1

表1中漏检率在虚警率为0.3fa/kw/h时得到。

以训练中的前20轮为例，与未使用本实施例方法相对，使用本实施例方法，使平均每轮的训练时间从1011.91秒/轮减少为261.06秒/轮，相对减少74.20％，其中，在使用本实施例方法的实验中，样本挑选带来的额外时间消耗已计入每轮训练耗时。在分别进行两个实验过程时，本实施例保证在同一机器进行，并且保证机器运行环境基本一致。

使用与未使用本实施例方法时，每轮训练使用样本量以及训练耗时对比的具体结果如下表2所示：

表2

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种高效语音关键词检测器训练样本使用方法，基于语音关键词检测器D的迭代训练方法Train和关键词搜索方法Search，其特征在于，包括以下步骤：

S1、基于样本集其中X_i为语音样本，Y_i为对应的转录文本，N为样本总数，预设训练最大轮次为K，利用训练方法Train对语音关键词检测器D进行n轮训练，n≥1，以保证语音关键词检测器D_n具有可靠性，此时远未达到训练的收敛标准；

S2、在第k轮训练，k＞n，对于样本集Z中的每一个样本z_i＝(X_i,Y_i)，基于第k-1轮训练所得的语音关键词检测器D_k-1和关键词搜索方法Search，获取其目标评分S(T_i)和目标的竞争者评分S(C_i)；

S3、对于样本集Z内每个样本z_i，构建其参与第k轮训练的概率p_i，该概率p_i反比于|S(T_i)-S(C_i)|，使得容易纠错的样本更多地参与模型训练；

S4、基于样本参与训练的概率从样本集Z中挑选出第k轮训练使用的样本集Z_k，其中，/>

S5、采用挑选出的样本集Z_k训练语音关键词检测器，获得更新的检测器D_k，如果训练已收敛或k≥K，结束训练，否则，重复S2～S5；

所述步骤S2中，获取样本目标评分S(T_i)和目标的竞争者评分S(C_i)的过程包括：

S2-1、对于样本集Z中的每一个样本z_i＝(X_i,Y_i)，基于第k-1轮训练所得的语音关键词检测器D_k-1，利用关键词搜索方法Search，搜索样本z_i的各个音段，按如下方式获取待检测关键词列表内各个关键词的最大得分：

若w_m的最大得分大于p_out，且至少有一个非目标关键词得分大于p_out，即且使得/>则令S(C_i)为非目标关键词得分中的最大者，记其所在音段为t_C，令S(T_i)为t_C上非关键词的得分，也即：

式(5)中，W^*＝W∪{w_NK}；

此时，竞争者包括非关键词和W中不存在于z_i的关键词；

2.根据权利要求1所述的一种高效语音关键词检测器训练样本使用方法，其特征在于，所述语音关键词检测器进行n轮训练前，对样本集Z中所有语音样本X_i进行预处理，提取特征。

3.根据权利要求2所述的一种高效语音关键词检测器训练样本使用方法，其特征在于，所述预处理包括预加重、分帧、加窗。

4.根据权利要求1所述的一种高效语音关键词检测器训练样本使用方法，其特征在于，所述步骤S2中，关键词及非关键词的得分由语音关键词检测器的输出通过G(·)映射得到，即：

5.根据权利要求1所述的一种高效语音关键词检测器训练样本使用方法，其特征在于，所述步骤S3中，对于样本集Z内样本z_i，基于目标评分S(T_i)和目标的竞争者评分S(C_i)，z_i参与第k轮训练的概率p_i为：

式(9)中，α和σ为两个大于0的超参数，控制着样本使用概率对于|S(T_i)-S(C_i)|的敏感程度。

6.根据权利要求5所述的一种高效语音关键词检测器训练样本使用方法，其特征在于，对于能为语音关键词检测器D训练提供更多区分性信息的样本，其目标评分S(T_i)和目标的竞争者评分S(C_i)接近，参与训练的概率大；对于容易训练的样本，其目标评分S(T_i)大于目标的竞争者评分S(C_i)，参与训练的概率小；对于低质量或有错误标签的样本，其目标评分S(T_i)小于目标的竞争者评分S(C_i)，参与训练的概率小。