CN111326148B

CN111326148B - 置信度校正及其模型训练方法、装置、设备及存储介质

Info

Publication number: CN111326148B
Application number: CN202010060233.6A
Authority: CN
Inventors: 谷悦; 杨嵩; 袁军峰; 刘子韬
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2021-02-23
Anticipated expiration: 2040-01-19
Also published as: CN111326148A

Abstract

本发明实施例提供了一种置信度校正模型训练方法和装置、置信度校正方法和装置、电子设备及计算机存储介质。所述置信度校正模型训练方法包括：获取多个训练样本；针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别；将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型。通过本发明实施例，能够训练得到可靠的置信度校正模型。

Description

置信度校正及其模型训练方法、装置、设备及存储介质

技术领域

本发明实施例涉及机器学习技术领域，尤其涉及一种置信度校正模型训练方法和装置、置信度校正方法和装置、电子设备及计算机存储介质。

背景技术

语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。由于现有的语音识别技术还无法完全正确地识别出语音内容，因此通常使用置信度来表示识别结果的可靠性。

传统的置信度计算方法主要包括基于预测特征的方法(Predictor featuresbased CM)和基于后验概率的方法(Posterior based CM)。由于这两种计算方法仅依赖于语音识别模型本身的能力，而真实的业务场景诸如环境中存在的背景噪声和混响以及多种设备间存在着信道不匹配的问题而变得极为复杂，使得置信度打分不准确。

发明内容

有鉴于此，本发明实施例提供一种置信度校正模型训练方法和装置、置信度校正方法和装置、电子设备及计算机存储介质，能够可靠地校正语音识别中的置信度。

根据本发明实施例的第一方面，提供了一种置信度校正模型训练方法，包括：获取多个训练样本，其中，每个训练样本中包括音频样本和对所述音频样本识别出的识别文本和该识别文本的置信度；针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别；将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型。

根据本发明实施例的第二方面，提供了一种置信度校正方法，包括：基于置信度校正模型，确定待校正语音识别任务所属的置信度校正类别构建的概率向量，其中，所述置信度校正模型通过如第一方面所述的置信度校正模型训练方法所训练获得；基于所述待校正语音识别任务所属的置信度校正类别构建的概率向量，对所述待校正语音识别任务进行置信度校正。

根据本发明实施例的第三方面，提供了一种置信度校正模型训练装置，包括：获取模块，获取多个训练样本，其中，每个训练样本中包括音频样本和对所述音频样本识别出的识别文本和该识别文本的置信度；第一确定模块，针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别；训练模块，将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型。

根据本发明实施例的第四方面，提供了一种置信度校正装置，包括：第一确定模块，基于置信度校正模型，确定待校正语音识别任务所属的置信度校正类别构建的概率向量，其中，所述置信度校正模型通过如第三方面所述的置信度校正模型训练装置训练获得；校正模块，基于所述待校正语音识别任务所属的置信度校正类别构建的概率向量，对所述待校正语音识别任务进行置信度校正。

根据本发明实施例的第五方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述的方法对应的操作。

根据本发明实施例的第六方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。

根据本发明实施例提供的方案，能够针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别，并且将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型。因训练样本中的置信度可能因各种原因不准确，针对其确定置信度校正类别，通过置信度校正类别对该置信度进行调整，以使其更为精准。因此，将基于该训练样本所属的置信度校正类别构建的概率向量作为学习目标，能够训练得到可靠的置信度校正模型。后续使用该置信度校正模型，将获得针对语音的更为精准的置信度打分。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1A为根据本发明实施例一的置信度校正模型训练方法的示意性流程图；

图1B为根据本发明实施例一的一个示例的设定学习目标的方法的示意性流程图；

图1C根据本发明实施例一的另一示例的设定学习目标的方法的示意性框图；

图1D根据本发明实施例一的另一示例的置信度校正模型训练方法的示意性框图；

图2A为根据本发明实施例二的置信度校正方法的示意性流程图；

图2B为根据本发明实施例二的确定量化校正系数的方法的示意性流程图；

图3为根据本发明实施例三的置信度校正模型训练装置的示意性框图；

图4为根据本发明实施例四的置信度校正装置的示意性框图；

图5为根据本发明实施例五的电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

图1A为根据本发明实施例一的置信度校正模型训练方法的示意性流程图。图1A的置信度校正模型训练方法，包括：

110：获取多个训练样本，其中，每个训练样本中包括音频样本和对音频样本识别出的识别文本和该识别文本的置信度。

应理解，已完成的多个训练样本可以针对诸如句子、段落或篇章等对象，不同的训练样本可以针对不同的对象，本发明实施例对此不作限定。此外，训练样本不一定针对完整的句子，不完整的句子、段落或篇章的音频同样可以作为训练样本，其具有对作为识别结果的识别文本的置信度即可。

120：针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别。例如，语音识别模型的置信度可能准确或不准确，而本方案基于每个训练样本能够确定该训练样本是否准确，以及是否需要上调校正或下调校正，以及上调校正或下调校正的程度高或低，即，确定每个训练样本对应的置信度校正类别。换句话说，将每个训练样本与其对应的置信度校正类别相关联。

还应理解，在一种可行方式中，不同的置信度校正类别可以指示不同的置信度调整策略，如对置信度进行上调校正或下调校正。在另一种可行方式中，不同的置信度校正类别可以指示不同的置信度调整的程度不同。例如，存在多个不同的置信度校正类别，包括需要上调校正的程度较高的类别、需要上调校正的程度较低的类别、不需要上调校正或下调校正的类别、需要下调校正的程度较低的类别以及需要下调校正的程度较高的类别，等等。

可选地，为了减少训练过程中的计算量，同时保证训练的精度，可以确定三个置信度校正类别，即，需要上调校正的类别、不需要校正的类别和需要下调校正的类别。

130：将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型。

例如，概率向量的维数等于多个置信度校正类别的数目，在概率向量的多个维度中，对应于所属的置信度校正类别的维度值大于其余的维度值，例如对应于所属的置信度校正类别的维度值为1，其余维度的值为0，所有维度值之和等于1。但不限于此，在实际应用中，本领域技术人员也可以根据实际需求采用其它适当的维度值。

本实施例的置信度校正模型训练方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。

换句话说，语音识别模型得到的置信度可能是准确的，也可能是不准确的，例如偏高或偏低，本发明实施例的基于有监督学习的置信度模型训练方法能够可靠地校正语音识别模型的置信度。

应理解，本发明实施例的置信度校正模型训练方法将置信度校正看做一个多分类问题，使用有监督学习的策略训练一个多分类模型来对置信度进行校正。

在本发明的一个实现方式中，针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别，包括：确定每个训练样本的标注文本；根据每个训练样本包括的识别文本和该训练样本的标注文本，确定该识别文本的错误率；基于该识别文本的错误率和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别。

在本发明的一个实现方式中，根据每个训练样本包括的识别文本和该训练样本的标注文本，确定该识别文本的错误率，包括：比较识别文本和所述标注文本，确定识别文本中的错字数；确定识别文本的错字数和标注文本的总字数目，确定识别文本的错字率。换句话说，错字率为识别文本和人工标注文本不匹配的字数占总字数的比例。例如，不匹配可以为***错误、替换错误或删除错误中的任一种。进而，基于该识别文本的错误率和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别。

应理解，确定该训练样本所属的置信度校正类别是一种设定学习目标的过程。

可以基于预训练的自动语音识别模型，并且通过词格网络得到置信度打分和识别文本。例如，在语音训练任务为句子的情况下，该过程如图1B所示，可以采用如下步骤：

121：对比识别文本和人工标注文本计算错字率。

122：经过量化模块得到归一化的错字率。

123：对置信度打分和归一化错字率进行匹配。其中，设定的置信区间可以为任意地，优选地为60％-100％。例如，设定的置信度区域为95％。

124：根据匹配结果确定置信度校正类别。

应理解，在量化模块中进行计算时，可以设定错字率合理判定阈值来判定该错误率是否合理，例如，不具有进一步应用价值的错误率被判定为不合理(例如，错误率为500％，而设定的判定阈值为150％，该错误率被判定为不合理)。当错误率判定为不合理时，可以选择将该错误率对应的训练样本丢弃。

还应理解，在进行归一化计算时，可以选择新设定的系数与错字率相乘，使得所有的错字率都不大于1。

在另一实现方式中，也可以将识别文本与人工标注文本中错误的字数与识别文字与人工标注文本中字数多的那个作差，以得到不大于1的错误率。

一般地，根据如图1C所示的一个设定学习目标的完整场景中，可以采用如下方式进行：

首先，音频样本经过特征提取，通过预先训练的ASR模型得到语音识别结果。该结果通过词格网络中的概率关系可以得到与识别文本对应的置信度得分。其中，词格网络也称词格或字格，是一个有向无环图。它有一个单独的起点和标记了一个字和其权重的边(为单独边)。不像强制要求每一条路径都必须通过所有节点的混淆网络，词格的路径不要求每一条路径都通过其所有节点。

进而，通过对人工标注的文本(例如，标准文本)与识别文本进行比较，通过字错误率计算模块计算字错误率，并且通过归一化处理得到归一化字错误率。然后，通过下文所述的方式进行类别标注。也即，从多个置信度校正类别确定所属的置信度校正类别。

其中，多个置信度校正类别通过以下方式确定：确定针对识别文本的至少一个错误率阈值和至少一个置信度阈值；确定至少一个错误率阈值形成的多个错误率阈值区间和至少一个置信度阈值形成的多个置信度阈值区间；通过组合多个错误率阈值区间和多个置信度阈值区间，确定多个置信度校正类别。

在本发明的一个实现方式中，对于确定针对识别文本的至少一个错误率阈值和至少一个置信度阈值，可以确定多个识别文本中的最大错误率和最小错误率，类似地，确定多个识别文本中的最大置信度和最小置信度，然后基于在最大错误率和最小错误率之间确定至少一个错误率阈值(例如，M个错误率阈值)，并且在最大置信度和最小置信度之间确定至少一个置信度阈值(例如，N个置信度阈值)。例如，N个错误率阈值为在最大错误率和最小错误率之间平均确定(划分)，或者根据分布函数(例如，正态分布函数)确定(划分)。例如，M个错误率阈值为在最大置信度和最小置信度之间平均确定(划分)，或者根据分布函数(例如，正态分布函数)确定(划分)。例如，根据上述划分方式获得(M+1)*(N+1)个组合(对应上述的类别)。在本发明的一个实现方式中，基于该识别文本的错误率和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别，包括：从多个错误率阈值区间中，确定该识别文本的错误率所在的错误率阈值区间，并且从多个置信度阈值区间中，确定该识别文本的置信度所在的置信度阈值区间；从多个置信度校正类别中，确定所在的错误率阈值区间和所在的置信度阈值区间的组合对应的置信度校正类别。

例如，利用错误率阈值确定模块采用上述方式确定M个错误率阈值。例如，利用置信度阈值确定模块确定N个置信度阈值。例如，采用向量构建模块，基于M个错误率阈值和N个置信度阈值确定维数等于上述的组合数的向量。

具体地，应理解，至少一个错误率阈值和至少一个置信度阈值可以形成多个阈值区间组合(其数目为错误率阈值数与置信度阈值数的乘积)，例如错误率阈值为3个，置信度阈值数为4个，则阈值区间组合数为(3+1)*(4+1)＝20个。作为一个示例进行说明，对于目标训练样本，在存在一个错误率阈值形成的两个阈值区间和一个置信度阈值(例如，上文所述的95％)形成的两个阈值区间的情况下，例如，通过对比识别结果的错字率CER和语音识别***(ASR)给出的置信度打分可以得到如下四种组合，即，四个类别：(1)错字率较低，置信度较高。即，说明识别结果较为准确，同时ASR***也认为结果较为可靠，则不对置信度校正。(2)当错字率较高，置信度较低。即，说明识别结果较不准确，同时ASR***也认为结果较不可靠，因此也不对置信度进行校正。(3)当错字率较高，置信度也较高。即，说明识别结果较不准确，但ASR***却认为识别结果较为可靠，此时对置信度进行衰减。(4)当词错误率较低，置信度较低。即，说明识别结果较为准确，但ASR***却认为识别结果不可靠，此时对置信度进行增益。

由于情况(1)和(2)都不需要对置信度进行纠正，可以将其合并作为一种类别。最终上述4种情况被归约为3个分类标签，即，三个类别。分别指示保持、降低以及提升置信度。将这3个分类标签作为学习目标，在设定模型训练目标时，输入这三个类别的概率，当前分类标签概率设置为1，其他设置为0，得到三类别真实概率目标向量。

例如，在下面的表格1-3中分别示出了每个训练样本可以构成的各种向量及向量的维度。

表1-五类别向量

训练样本1	训练样本2	训练样本3	…	训练样本N
					[0,0,0.1,0]	[0,0,1,0,0]	[1,0,0,0,0]	…	[1,0,0,0,0]

表2-四类别向量

训练样本1	训练样本2	训练样本3	…	训练样本N
					[0.1,0.7,0.1,0.1]	[0.6,0.1,0.2,0.1]	[0.1,0,0,0.9]	…	[1,0,0,0]

表3-三类别向量

在确定了训练样本所属的置信度校正类别后，确定该置信度校正类别对应的概率向量。一种可行的方式为：通过将多个置信度校正类别对应于所述概率向量的多个维度，确定所述概率向量，其中，所述概率向量中的每个维度指示与其对应的置信度校正类别的权值，使得多个维度对应于权值，并且其中，所述概率向量中的与所述训练样本所属的置信度校正类别对应的维度具有所述多个权值中的最高权值。

例如，基于阈值区间组合构建向量，优选地，可以构建的向量的维数为阈值区间数目。在另一实现方式中，优选地，在错误率阈值区间和置信度区间数都为2时，可以构建三维向量，即，对于上述例子，将词错误率较低，置信度较低的情况与词错误率较高，置信度较高的情况进行合并，确定为相同的上调校正或下调校正的程度(即，不变)，优选地，将向量中的该维度值设定为比其他维度值高，例如，将其设定为1，将其他维度值设定为0。

进一步地，将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型。在本发明的一个实现方式中，该过程可以包括：基于每个训练样本包括的音频样本和音频样本的识别文本中的至少一者，确定该训练样本对应的发音打分、困惑度打分、文本长度和非语音估计打分中的至少一者；利用所述发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者，确定该训练样本的置信度特征向量；将每个训练样本的置信度特征向量作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练所述置信度校正模型的神经网络层。

应理解，利用发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者，确定该训练样本的置信度特征向量，该置信度特征向量可以包括利用发音打分、困惑度打分、文本长度打分和非语音估计打分分别对应的向量，即，可以包括利用发音打分向量、困惑度打分向量、文本长度打分向量和非语音估计打分向量中的至少一者。但不限于此，也可以将上述的至少一个以任何形式进行拼接或组合得到置信度特征向量，作为神经网络层的输入。上述的至少一者可以具有预先设定的权重，本发明实施例对此不作限定。例如，发音打分A、困惑度打分B、文本长度打分C和非语音估计打分D可以构建为向量[wA.xB.yC.zD]，也可以为[xB².yC².wA².zD²]，各个特征向量的权重与幂次不作限定，幂次可以为任意整数，也可以为分数，各个维度可以为不同的幂次。本发明在此处不进行穷举，应理解，上述的形式或类似的组合都在本发明实施例的保护范围内。

具体地，置信度校正模型的神经网络层通过有监督学习方法进行训练，应理解，有监督学习方法的神经网络的训练通常包含输入特征、模型以及学习目标等三个要素。

在本实现方式中，基于每个训练样本包括的音频样本和所述音频样本的识别文本，确定该训练样本的发音打分和非语音估计打分，并且基于所述音频样本的识别文本确定文本长度和困惑度打分。基于此，所述利用所述发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者，确定该训练样本的置信度特征向量实现为：基于所述发音打分、困惑度打分、文本长度打分和非语音估计打分，构建所述置信度特征向量。由于采用音频样本和音频样本的识别文本两者来确定发音打分和非语音估计打分，融合了音频和文本两个因素，使得置信度校正更加准确。另外，基于音频样本的识别文本确定文本长度和困惑度打分，使得只利用识别文本即确定了有利用提高置信度校正效果的文本长度的因素。

例如，发音打分可以采用基于自由语音评测模型的GOP(Goodness ofPronunciation)打分。GOP打分能够指示(例如)一段语音声学方面的信息。应理解，自由语音评测是一种自动对说话人发音好坏进行评价的技术，例如基于隐马尔可夫模型(HiddenMarkov Model)的语音识别引擎来实现。隐马尔可夫模型的原理为利用其似然分数值((likelihood score)以及其他相关信息作为评分依据来实现该GOP算法。

应理解，语音评测的方法通常基于语音识别，但和训练样本有很大不同，因此对置信度的校正是有效的因素。在训练样本中，一段语音对应的文本(内容)对语音识别模型而言不作为输入，因此，语音识别模型进行识别是并不考虑语音对应的文本(例如，标准文本)，而需要由语音识别***“估算”出来。与此不同，在打分***中，一段语音对应的文本对于该打分***而言是作为一种输入，打分***需要对这段语音做一个发音上的评测。

因此，GOP算法由于采用文字信息作为输入的一部分，将语音和它对应的文本进行强制对齐(force alignment)，并把强制对齐得到的似然分数值与该音频对应的文本(例如，标准文本)得到的似然分数值进行比较。从而利用该似然比(likelihood ratio)实现了发音效果的评价。应理解，在自由评测中，已知文本可以由高识别准确率的ASR模型得到。

由于GOP打分在相当程度上能够评估音频(语音)的噪声和质量，因此，当存在噪声(例如，环境噪声和麦克风收音噪声)的问题时，该语音与已知文字(文本)计算得到的声学似然打分和声学模型的输出的声学似然打分匹配程度会降低，从而使得GOP打分比较低。另一方面，当该语音的信噪比比较高或质量较好时，GOP打分会较高。由于，置信度会受到音频质量和噪声的干扰，因此，如上所述，GOP打分在相当程度上反映或指示置信度是否准确，从而，本发明实施例采用GOP打分确定置信度特征向量具有提高置信度校正的精度的效果。

此外，本发明实施例所采用的困惑度(perplexity)打分为基于语言模型的困惑度打分。该困惑度打分指示识别文本方面的信息。在某些情况下，语言模型用于计算句子联合概率的模型，并且能够判断句子是否符合语法规则，且给出是否合理的概率大小。由于困惑度能够用来评估语言模型的性能，对验证集的句子赋予比较高概率值的语言模型较好，因此当语言模型训练好之后，验证集中的句子为正常(或准确度高)的句子。句子概率越大，语言模型越好，困惑度越低。在应用置信度校正训练模型的使用阶段，采用基于每个训练样本包括的音频样本和音频样本的识别文本确定困惑度打分，困惑度打分越低指示该句子越符合特定场景下的语法特征、用词习惯，即，越像一句本场景下的合理句子。

在本发明的一个实现方式的儿童中文识别场景中，对于困惑度打分，例如，“预习”会比“遇袭”、“玉玺”等词出现的概率更高。例如，在测试集中，对语音识别之后的识别文本分别为“下午三点预习”和“下午三点遇袭”，前者更符合学习场景下的用词习惯，因而前一句的困惑度打分比后一句困惑度打分要低。困惑度打分能够反映出语音识别效果的好坏，困惑度较高时，句子的置信度较低。因而，本发明实施例采用困惑度打分确定置信度特征向量实现了评估置信度的准确性。

此外，文本长度打分可以为对诸如句子文本、段落文本或篇章文本等任何文本的长度的打分，训练样本对应的文本长度打分指示所述识别文本的字数。在一个例子中，识别文本为识别句，训练样本对应的文本长度打分指示识别句中的字数。例如，句子文本长度能够评估上下文信息是否丰富。在对置信度和句子文本长度的统计分析的情况下，句子文本长度越短，上下文信息缺失越严重，从而置信度越不准确。另一方面，句子文本长度越长，上下文信息越丰富，置信度越准确。因而，本发明实施例采用文本长度打分确定置信度特征向量实现了评估置信度的准确性。

此外，非语音估计打分可以是任何与语音识别中与音频中的语音关系较小的部分的打分。在一个例子中，音频样本包括语音部分和非语音部分，训练样本对应的非语音估计打分指示非语音部分的时长占音频样本的时长的比值。即，该打分可以为静音和噪声时长估计比率，该静音和噪声时长估计比率是计算一段音频中非语音部分的时长占音频总时长的比值。具体地，静音和噪声时长估计比率能够评估音频中非语音所占比率，例如，该比率高时会产生较多的***错误。

在本发明的一个实现方式中，如果一段音频中非语音的时长比率很高，在长音频经过VAD切割时，可能会将噪声当做语音，而且在对一句话进行识别的过程中，有可能存在大量的静音或者噪音。对于前者，非语音比率越高，识别准确度越低，置信度也越低。对于后者，需要根据场景判断是否为噪声严重的场景。应理解，本发明实施例采用非语音估计打分确定置信度特征向量实现了评估置信度的准确性。

在确定了训练样本的音频样本、识别文本、基于该训练样本所属的置信度校正类别构建的概率向量后，可进行基于神经网络的置信度校正模型的训练。

本发明实施例中，不对置信度校正模型的具体形式进行限定，可进行有监督的学习即可。例如，可以为基于概率的多分类模型，如多项线性判别分析分类器、朴素贝叶斯分类器和人工神经网络等。可选地，可以采用浅层人工神经网络，如两层人工神经网络，即可实现本发明方案的效果，又计算快速，且实现成本低。在本发明的一个实现方式中，置信度校正模型的神经网络层包括隐层和输出层，隐层的激活函数为sigmoid函数，输出层的激活函数为softmax函数，以便得到多个置信度校正类别的后验概率。

在训练过程中，例如，将损失函数构建为多类别交叉熵，目标是多个置信度校正类别的真实概率。上文所述的softmax激活函数用于将输出层的输入分为多类，并给出每类的概率，多类的概率和为1。

具体地，如图1D所示的训练置信度校正模型时，首先进行特征提取，将预测类别概率和真实类别概率输入损失函数(损失函数计算模块在图中未示出)计算均方误差，之后使用反向传播机制训练浅层神经网络，作为置信度校正模型的神经网络层。

通过上述过程，将基于该训练样本所属的置信度校正类别构建的概率向量作为学习目标，能够训练得到可靠的置信度校正模型。后续使用该置信度校正模型，将获得针对语音的更为精准的置信度打分。

图2为根据本发明实施例二的置信度校正方法的示意性流程图。图2A的置信度校正方法与图1A的置信度校正模型训练方法对应。图2的置信度校正方法包括：

210：基于置信度校正模型，确定待校正语音识别任务所属的置信度校正类别构建的概率向量。

其中，置信度校正模型通过如前所述的置信度校正模型训练方法所训练获得。

220：基于待校正语音识别任务所属的置信度校正类别构建的概率向量，对待校正语音识别任务进行置信度校正。

对应于在图1A中的方法，由于不同的置信度校正类别指示对置信度进行上调校正或下调校正的程度不同，因此将基于该训练样本所属的置信度校正类别构建的概率向量作为学习目标，能够训练得到了可靠的置信度校正模型。因此，相应地，基于上述模型获得了待校正语音识别任务所属的置信度校正类别构建的概率向量也是可靠且准确的，从而实现了可靠且准确的置信度校正。

由于不同的置信度校正类别指示对置信度进行上调校正或下调校正的程度不同，因此，利用上述置信度校正类别构建标签进行有监督机器学习，实现了可靠地校正语音识别中的置信度。

本实施例的置信度校正方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如手机、PAD等)和PC机等。

在本发明的一个实现方式中，在基于待校正语音识别任务所属的置信度校正类别构建的概率向量，对待校正语音识别任务进行置信度校正之前，该方法还包括：确定置信度校正度向量，置信度校正度向量的维数等于多个置信度校正类别的数目，置信度校正度向量的多个维度一一对应于多个置信度校正类别，多个维度用于指示每个置信度校正类别的校正程度。

在本发明的一个实现方式中，基于所述待校正语音识别任务所属的置信度校正类别构建的概率向量，对待校正语音识别任务进行置信度校正，包括：将概率向量与置信度校正度向量点乘得到置信度校正系数；利用校正系数与待校正语音识别任务的识别文本的置信度相乘，作为校正后的置信度。如图2B所示，根据音频和识别文本训练的置信度校正模型输出了类别概率向量(上文所述的基于置信度校正类别构建的概率向量)，将该类别概率向量与类别向量(即，上文所述的置信度校正度向量)相乘得到了量化校正系数(即，上文所述的置信度校正系数)。

在一种可行方式中，置信度的校正可以表达为：

C＝αC_ASR

其中，α表示量化校正系数，C_ASR表示初始模型输出的置信度(如，语音识别模型(如ASR模型)输出的置信度，或者，基于语音识别模型和词格输出的置信度)。在一个示例中，α＝0*P₀+1*P₁+2*P₂。其中，[0，1，2]表示置信度校正度向量，[P₀，P₁，P₂]表示基于置信度校正类别构建的概率向量。很明显，该α仅为示例性说明，在实际应用中，置信度校正度向量及其具体元素数值，以及，基于置信度校正类别构建的概率向量及其元素数值，均与实际应用相关，此处仅为原理性说明。

通过上述过程，可以针对语音识别任务获得更为精准的置信度。

图3为根据本发明实施例三的置信度校正模型训练装置的示意性框图；图3的置信度校正模型训练装置包括：

获取模块310，获取多个训练样本，其中，每个训练样本中包括音频样本和对音频样本识别出的识别文本和该识别文本的置信度；

第一确定模块320，针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别；

训练模块330，将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型。

根据本发明实施例提供的方案，能够针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别，并且将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型。因训练样本中的置信度可能因各种原因不准确，针对其确定置信度校正类别，通过置信度校正类别对置信度进行调整，以使其更为精准。因此，将基于该训练样本所属的置信度校正类别构建的概率向量作为学习目标，能够训练得到可靠的置信度校正模型。后续使用该置信度校正模型，将获得针对语音的更为精准的置信度打分。

在本发明的一个实现方式中，训练模块330具体用于：确定每个训练样本的标注文本；根据每个训练样本包括的识别文本和该训练样本的标注文本，确定该识别文本的错误率；基于该识别文本的错误率和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别。

在本发明的一个实现方式中，该装置还包括第二确定模块340，用于：确定针对识别文本的至少一个错误率阈值和至少一个置信度阈值；确定至少一个错误率阈值形成的多个错误率阈值区间和至少一个置信度阈值形成的多个置信度阈值区间；通过组合多个错误率阈值区间和多个置信度阈值区间，确定多个置信度校正类别。

在本发明的一个实现方式中，第一确定模块320具体用于：从多个错误率阈值区间中，确定该识别文本的错误率所在的错误率阈值区间，并且从多个置信度阈值区间中，确定该识别文本的置信度所在的置信度阈值区间；从多个置信度校正类别中，确定所在的错误率阈值区间和所在的置信度阈值区间的组合对应的置信度校正类别。

在本发明的一个实现方式中，第一确定模块320具体用于：比较识别文本和标注文本，确定识别文本中的错字数；确定识别文本的错字数和标注文本的总字数目，确定识别文本的错字率。

在本发明的一个实现方式中，训练模块330具体用于：基于每个训练样本包括的音频样本和音频样本的识别文本中的至少一者，确定该训练样本对应的发音打分、困惑度打分、文本长度和非语音估计打分中的至少一者；利用发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者，确定该训练样本的置信度特征向量；将每个训练样本的置信度特征向量作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练置信度校正模型的神经网络层。

在本发明的一个实现方式中，训练模块330具体用于：基于每个训练样本包括的音频样本和音频样本的识别文本，确定该训练样本的发音打分和非语音估计打分，并且基于音频样本的识别文本确定文本长度和困惑度打分，其中，利用发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者，确定该训练样本的置信度特征向量，包括：基于发音打分、困惑度打分、文本长度打分和非语音估计打分，构建置信度特征向量。

在本发明的一个实现方式中，音频样本包括语音部分和非语音部分，训练样本对应的非语音估计打分指示非语音部分的时长占音频样本的时长的比值。

在本发明的一个实现方式中，训练样本对应的文本长度打分指示识别文本的字数。

在本发明的一个实现方式中，训练模块330，还用于通过将所述多个置信度校正类别对应于所述概率向量的多个维度，确定所述概率向量，其中，所述概率向量中的每个维度指示与其对应的置信度校正类别的权值，使得所述多个维度对应于多个权值，并且其中，所述概率向量中的与所述训练样本所属的置信度校正类别对应的维度具有所述多个权值中的最高权值。

图4为根据本发明实施例四的置信度校正装置的示意性框图；图4的置信度校正装置包括：

第一确定模块410，基于置信度校正模型，确定待校正语音识别任务所属的置信度校正类别构建的概率向量，其中，置信度校正模型通过如图3的置信度校正模型训练装置所训练获得；

校正模块420，基于待校正语音识别任务所属的置信度校正类别构建的概率向量，对待校正语音识别任务进行置信度校正。

基于训练得到的可靠的置信度校正模型，相应地，待校正语音识别任务所属的置信度校正类别构建的概率向量也是可靠且准确的，从而实现了可靠且准确的置信度校正。

在本发明的一个实现方式中，本实施例的置信度校正装置还包括第二确定模块430，在基于待校正语音识别任务所属的置信度校正类别构建的概率向量，对待校正语音识别任务进行置信度校正之前，确定置信度校正度向量，置信度校正度向量的维数等于多个置信度校正类别的数目，置信度校正度向量的多个维度一一对应于多个置信度校正类别，多个维度用于指示每个置信度校正类别的校正程度。

在本发明的一个实现方式中，校正模块420具体用于：将概率向量与置信度校正度向量相乘得到置信度校正系数；利用校正系数与待校正语音识别任务的识别文本的置信度相乘，作为校正后的置信度。

图5为根据本发明实施例五的电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述置信度校正模型训练方法或置信度校正方法中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器52可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：获取多个训练样本，其中，每个训练样本中包括音频样本和对所述音频样本识别出的识别文本和该识别文本的置信度；针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别；将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型，或者，

基于置信度校正模型，确定待校正语音识别任务所属的置信度校正类别构建的概率向量，其中，所述置信度校正模型通过如图1A所述的置信度校正模型训练方法所训练获得；基于所述待校正语音识别任务所属的置信度校正类别构建的概率向量，对所述待校正语音识别任务进行置信度校正。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的置信度校正模型训练方法或置信度校正方法。此外，当通用计算机访问用于实现在此示出的置信度校正模型训练方法或置信度校正方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的置信度校正模型训练方法或置信度校正方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种置信度校正模型训练方法，其特征在于，包括：

获取多个训练样本，其中，每个训练样本中包括音频样本和对所述音频样本识别出的识别文本和该识别文本的置信度；

针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别；

将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型；

其中，所述针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别，包括：

确定每个训练样本的标注文本；

根据每个训练样本包括的识别文本和该训练样本的标注文本，确定该识别文本的错误率；

基于该识别文本的错误率和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别。

2.根据权利要求1所述的方法，其特征在于，所述多个置信度校正类别通过以下方式确定：

确定针对识别文本的至少一个错误率阈值和至少一个置信度阈值；

确定所述至少一个错误率阈值形成的多个错误率阈值区间和至少一个置信度阈值形成的多个置信度阈值区间；

通过组合所述多个错误率阈值区间和所述多个置信度阈值区间，确定所述多个置信度校正类别。

3.根据权利要求2所述的方法，其特征在于，所述基于该识别文本的错误率和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别，包括：

从所述多个错误率阈值区间中，确定该识别文本的错误率所在的错误率阈值区间，并且从多个置信度阈值区间中，确定该识别文本的置信度所在的置信度阈值区间；

从所述多个置信度校正类别中，确定所在的错误率阈值区间和所在的置信度阈值区间的组合对应的置信度校正类别。

4.根据权利要求1所述的方法，其特征在于，所述根据每个训练样本包括的识别文本和该训练样本的标注文本，确定该识别文本的错误率，包括：

比较所述识别文本和所述标注文本，确定所述识别文本中的错字数；

确定所述识别文本的错字数和所述标注文本的总字数目，确定所述识别文本的错字率。

5.根据权利要求1所述的方法，其特征在于，所述将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型，包括：

基于每个训练样本包括的音频样本和所述音频样本的识别文本中的至少一者，确定该训练样本对应的发音打分、困惑度打分、文本长度和非语音估计打分中的至少一者；

利用所述发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者，确定该训练样本的置信度特征向量；

将每个训练样本的置信度特征向量作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练所述置信度校正模型的神经网络层。

6.根据权利要求5所述的方法，其特征在于，所述基于每个训练样本包括的音频样本和所述音频样本的识别文本中的至少一者，确定该训练样本对应的发音打分、困惑度打分、文本长度和非语音估计打分中的至少一者，包括：

基于每个训练样本包括的音频样本和所述音频样本的识别文本，确定该训练样本的发音打分和非语音估计打分，并且基于所述音频样本的识别文本确定文本长度和困惑度打分，其中，

所述利用所述发音打分、困惑度打分、文本长度打分和非语音估计打分中的至少一者，确定该训练样本的置信度特征向量，包括：

基于所述发音打分、困惑度打分、文本长度打分和非语音估计打分，构建所述置信度特征向量。

7.根据权利要求5所述的方法，其特征在于，所述音频样本包括语音部分和非语音部分，所述训练样本对应的非语音估计打分指示所述非语音部分的时长占所述音频样本的时长的比值。

8.根据权利要求5所述的方法，其特征在于，所述训练样本对应的文本长度打分指示所述识别文本的字数。

9.根据权利要求1所述的方法，其特征在于，还包括：

通过将所述多个置信度校正类别对应于所述概率向量的多个维度，确定所述概率向量，其中，所述概率向量中的每个维度指示与其对应的置信度校正类别的权值，使得所述多个维度对应于多个权值，并且其中，所述概率向量中的与所述训练样本所属的置信度校正类别对应的维度具有所述多个权值中的最高权值。

10.一种置信度校正方法，其特征在于，包括：

基于置信度校正模型，确定待校正语音识别任务所属的置信度校正类别构建的概率向量，其中，所述置信度校正模型通过如权利要求1-9中的任一项所述的置信度校正模型训练方法所训练获得；

基于所述待校正语音识别任务所属的置信度校正类别构建的概率向量，对所述待校正语音识别任务进行置信度校正。

11.根据权利要求10所述的方法，其特征在于，在所述基于所述待校正语音识别任务所属的置信度校正类别构建的概率向量，对所述待校正语音识别任务进行置信度校正之前，所述方法还包括：

确定置信度校正度向量，所述置信度校正度向量的维数等于所述多个置信度校正类别的数目，所述置信度校正度向量的多个维度一一对应于所述多个置信度校正类别，所述多个维度用于指示每个置信度校正类别的校正程度。

12.根据权利要求11所述的方法，其特征在于，所述基于所述待校正语音识别任务所属的置信度校正类别构建的概率向量，对所述待校正语音识别任务进行置信度校正，包括：

将所述概率向量与置信度校正度向量点乘得到置信度校正系数；

利用所述校正系数与所述待校正语音识别任务的识别文本的置信度相乘，作为校正后的置信度。

13.一种置信度校正模型训练装置，其特征在于，包括：

获取模块，获取多个训练样本，其中，每个训练样本中包括音频样本和对所述音频样本识别出的识别文本和该识别文本的置信度；

第一确定模块，针对每个训练样本，基于其包括的识别文本和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别；

训练模块，将每个训练样本的音频样本和识别文本作为输入，将基于该训练样本所属的置信度校正类别构建的概率向量作为输出，训练基于神经网络的置信度校正模型；

其中，第一确定模块，具体用于确定每个训练样本的标注文本；根据每个训练样本包括的识别文本和该训练样本的标注文本，确定该识别文本的错误率；基于该识别文本的错误率和该识别文本的置信度，从多个置信度校正类别中，确定该训练样本所属的置信度校正类别。

14.一种置信度校正装置，其特征在于，包括：

第一确定模块，基于置信度校正模型，确定待校正语音识别任务所属的置信度校正类别构建的概率向量，其中，所述置信度校正模型通过如权利要求13中所述的置信度校正模型训练装置训练获得；

校正模块，基于所述待校正语音识别任务所属的置信度校正类别构建的概率向量，对所述待校正语音识别任务进行置信度校正。

15.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的方法对应的操作；或者，执行如权利要求10-12中任一项所述的方法对应的操作。

16.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一项所述的方法；或者，实现如权利要求10-12中任一项所述的方法。