CN112435656B

CN112435656B - 模型训练方法、语音识别方法、装置、设备及存储介质

Info

Publication number: CN112435656B
Application number: CN202011453446.1A
Authority: CN
Inventors: 罗剑; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2024-03-01
Anticipated expiration: 2040-12-11
Also published as: WO2022121257A1; CN112435656A

Abstract

本申请提供一种模型训练方法、语音识别方法、装置、设备及存储介质，该方法包括：根据多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型；将第一语音识别模型与预设语言模型进行融合，得到第二语音识别模型；将多个第二训练样本中的第二语音序列输入至第二语音识别模型，得到每个第二语音序列对应的第二文本和融合分数；根据每个第二语音序列的融合分数，从多个第二语音序列中筛选出目标语音序列；根据每个目标语音序列、每个目标语音序列对应的第二文本和多个第一训练样本，对第二预设语音识别模型进行迭代训练，得到目标语音识别模型。本申请涉及人工智能，能够提高语音识别模型的训练效率。

Description

模型训练方法、语音识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能中的模型构建的技术领域，尤其涉及一种模型训练方法、语音识别方法、装置、设备及存储介质。

背景技术

自动语音识别(Automatic Speech Recognition)是一种将语音转换为文本的技术。语音识别作为人工智能领域的一个重要技术，被应用于互联网，通信、智能家居等相关的各行各业，通常使用语音识别模型来进行自动语音识别。为了对语音识别模型进行训练，需要准备大量的语音数据，以及与语音数据对应的文本数据。现有技术中，该文本数据样本是通过如下的方式获取的：组织大量的人听取语音数据，并写下正确的文本数据。然而，随着算法和计算机能力的进步，语音识别模型允许越来越多的语音数据和对应的文本数据加入训练，以提升语音识别模型的准确度，这使得人工成本成为资源投入的瓶颈，投入大量的人力劳动去对语音数据进行标注，既费时昂贵又效率底下。

发明内容

本申请的主要目的在于提供一种模型训练方法、语音识别方法、装置、设备及存储介质，旨在提高语音识别模型的训练效果和训练效率。

第一方面，本申请提供一种模型训练方法，包括：

获取多个第一训练样本和多个第二训练样本，所述第一训练样本包括第一语音序列和标注的所述第一语音序列对应的第一文本，所述第二训练样本包括第二语音序列；

根据所述多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型；

将所述第一语音识别模型与预设语言模型进行融合，得到第二语音识别模型；

将多个所述第二语音序列输入至所述第二语音识别模型，得到每个所述第二语音序列对应的第二文本和融合分数；

根据每个所述第二语音序列的融合分数，从所述多个第二语音序列中筛选出目标语音序列；

根据每个所述目标语音序列、每个所述目标语音序列对应的第二文本和多个所述第一训练样本，对第二预设语音识别模型进行迭代训练，得到目标语音识别模型。

第二方面，本申请还提供一种语音识别方法，包括：

获取待识别的语音序列；

通过目标语音识别模型对所述语音序列进行语音识别，得到所述语音序列对应的文本信息；

所述目标语音识别模型是根据如上所述的模型训练方法进行训练得到的。

第三方面，本申请还提供一种模型训练装置，所述模型训练装置包括：

获取模块，用于获取多个第一训练样本和多个第二训练样本，所述第一训练样本包括第一语音序列和标注的所述第一语音序列对应的第一文本，所述第二训练样本包括第二语音序列；

第一训练模块，用于根据所述多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型；

融合模块，用于将所述第一语音识别模型与预设语言模型进行融合，得到第二语音识别模型；

输入模块，用于将多个所述第二语音序列输入至所述第二语音识别模型，得到每个所述第二语音序列对应的第二文本和融合分数；

筛选模块，用于根据每个所述第二语音序列的融合分数，从所述多个第二语音序列中筛选出目标语音序列；

第二训练模块，用于根据每个所述目标语音序列、每个所述目标语音序列对应的第二文本和多个所述第一训练样本，对所述第二预设语音识别模型进行迭代训练，得到目标语音识别模型。

第四方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的模型训练方法或者语音识别方法的步骤。

第五方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上所述的模型训练方法或者语音识别方法的步骤。

本申请提供一种模型训练方法、语音识别方法、装置、设备及存储介质，本申请通过获取多个第一训练样本和多个第二训练样本，第一训练样本包括第一语音序列和标注的第一语音序列对应的第一文本，第二训练样本包括第二语音序列，然后根据多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型，将第一语音识别模型与预设语言模型进行融合，得到第二语音识别模型，再将多个第二语音序列输入至第二语音识别模型，得到每个第二语音序列对应的第二文本和融合分数，根据每个第二语音序列的融合分数，从多个第二语音序列中筛选出目标语音序列，根据每个目标语音序列、每个目标语音序列对应的第二文本和多个第一训练样本，对第二预设语音识别模型进行迭代训练，得到目标语音识别模型。本申请通过多个有标注的第一训练样本和多个无标注的第二训练样本对“教师-噪声学生”自训练学习模型进行训练，能够极大提高语音识别模型的训练效果，减少了对有标注的训练样本的数量要求，并且提升了语音识别模型的训练效率。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的步骤流程示意图；

图2为图1中的模型训练方法的子步骤流程示意图；

图3为实施本实施例提供的模型训练方法的一场景示意图；

图4为本申请实施例提供的一种语音识别方法的步骤流程示意图；

图5为本申请实施例提供的一种模型训练装置的示意性框图；

图6为图5中的模型训练装置的子模块的示意性框图；

图7为本申请实施例提供的一种语音识别装置的示意性框图；

图8为本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请实施例提供一种模型训练方法、语音识别方法、装置、设备及存储介质。其中，该模型训练方法可应用于终端设备或服务器中，该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备；该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。以下以该模型训练方法应用于服务器为例进行解释说明。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种模型训练方法的步骤流程示意图。

如图1所示，该模型训练方法包括步骤S101至步骤S106。

步骤S101、获取多个第一训练样本和多个第二训练样本，第一训练样本包括第一语音序列和标注的第一语音序列对应的第一文本，第二训练样本包括第二语音序列。

其中，第一训练样本包括第一语音序列和第一语音序列对应的第一文本，该第一文本是对应的第一语音序列的标注，第二训练样本包括第二语音序列。需要说明的是，第一语音序列和第二语音序列为音频数据，第一语音序列对应的第一文本为该第一语音序列语音识别出的文本内容。例如，第一语音序列为一首歌曲，对应的第一文本为歌词。

噪声学生训练(Noisy Student Training,NST)模型是一个由“教师”和“学生”组成的半监督学习模型，通过教师模型(第一预设语音识别模型)来学习有标注的第一训练样本，并对无标注的第二训练样本进行预测，得到有标注的第二训练样本和第二训练样本对应的第二文本，然后让学生模型(第二预设语音识别模型)对有标注的第一训练样本、有标注的第二训练样本以及第二训练样本对应的第二文本进行训练，并对以上过程进行迭代。通过“教师-噪声学生”自训练学习，能够极大提高语音识别模型的训练效果。

在一实施例中，多个第一训练样本的总音频长度高于第一预设时间阈值，多个第二训练样本的总音频长度高于第二预设时间阈值，能够保证后续训练出的语音识别模型进行语音识别的准确度。

进一步地，第二预设时间阈值高于第一预设时间阈值。实际应用中，第一预设时间阈值和第二预设时间阈值可以根据实际应用场景进行设置，如，第一预设时间阈值为100h，第二预设时间阈值为500h，在此不再赘述。

需要说明的是，为进一步保证上述多个第一训练样本和多个第二训练样本等相关信息的私密和安全性，上述第一训练样本和第二训练样本等相关信息还可以存储于一区块链的节点中，本申请的技术方案还可适用于添加其他存储于区块链上的数据文件，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S102、根据多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型。

第一预设语音识别模型为“教师”模型，将多个第一训练样本输入至第一预设语音识别模型，获得每个第一训练样本各自对应的语音识别结果，并根据每个第一训练样本各自对应的语音识别结果和对应的第一文本对第一预设语音识别模型的参数进行调整，直至获得性能符合预设训练条件的第一语音识别模型。

例如，性能为识别准确度，则预设训练条件可以为识别准确度高于预设准确度阈值。需要说明的是，预设训练条件和预设准确度阈值均可以根据实际应用场景进行设置，例如，预设准确度阈值为0.9，在此不做具体限定。

其中，第一预设语音识别模型例如为LAS(Listen，Attend and Spell)模型，该LAS模型包括Listen(听)层，Attend(注意)层和Spell(拼写)层。第一预设语音识别模型提取输入的第一训练样的语音信号特征，通过将语音信号特征输入到Listen层进行编码，然后利用Attention层在不同时刻关注输入的不同部分(Attend)，最后再使用Spell层进行解码，得到第一训练样本的语音识别结果。

在一实施例中，对多个第一训练样本进行数据增强；根据经过数据增强后的多个第一训练样本，对第一预设语音识别模型进行迭代训练，直至第一预设语音识别模型收敛，得到第一语音识别模型。需要说明的是，通过数据增强(Data Augmentation)能够增加第一训练样本的样本数量，例如通过声道长度标准化、将干净的音频和嘈杂的音频信号叠加来合成嘈杂的音频或者原始音频的速度扰动等方式来实现数据增强。对第一预设语音识别模型进行迭代训练的具体实施过程可参考前述实施例，第一预设语音识别模型收敛可以是性能符合预设训练条件、迭代次数大于预设迭代次数和/或迭代时长大于预设迭代时长等，本实施例不做具体限定。通过数据增强给第一预设语音识别模型加入一些噪音，从而使得后续的第二预设语音识别模型(学生模型)可以被迫更努力的学习第一预设语音识别模型(教师模型)输出的语音识别结果，提升目标语音识别模型的训练效果。

进一步地，使用SpecAugment对多个第一训练样本进行数据增强，通过给第一预设语音识别模型加入一些噪音，从而增加第一语音识别模型的鲁棒性。具体地，将每个第一语音序列转化为频谱图，通过SpecAugment对多个频谱图进行时间形变、频率掩膜和/或时间掩膜。在第一预设语音识别模型进行迭代训练之前，通过SpecAugment可以对第一语音序列的频谱图进行增强，可以增加第一语音识别模型对第一训练样本的训练速度，从而提升目标语音识别模型的训练效率。

需要说明的是，通过SpecAugment对多个频谱图进行时间形变是指对于π时跃的梅尔谱图，以时间为x轴，频率为y轴，构建一个随机的水平线穿过梅尔谱图中心，然后时间段(W,W-π)被形变到左边或右边；对多个频谱图进行频率掩膜是指在连续的梅尔谱图的频率轴上，将[f₀,f₀+f]掩膜，其中f是一个统一的0到F的参数；对多个频谱图进行频率掩膜是指在连续的梅尔谱图的时间轴上，将[t₀,t₀+t]掩膜，其中t是一个0到T的均匀分布。使用SpecAugment对多个第一训练样本进行数据增强，随着迭代训练的进行，第一预设语音识别模型的鲁棒性和表现都会提升，此时可以增加Specaugment的强度，给第一预设语音识别模型的输入带来更多的噪声，从而提升第一语音识别模型的训练效果。

在一实施例中，对第一预设语音识别模型加入噪声；根据多个第一训练样本，对加入噪声的第一预设语音识别模型进行迭代训练，直至加入噪声的第一预设语音识别模型收敛，得到第一语音识别模型。

示例性的，使用Dropout对第一预设语音识别模型加入噪声，即在第一预设语音识别模型每次训练中随机的让神经网络的某些隐藏神经元不工作，隐藏神经元的输出为0，也不更新权重。例如设定dropout ratio＝p，则每个隐藏神经元以概率p不工作，因此，在噪声学生训练中，通过Dropout对第一预设语音识别模型加入噪声，可以使得第二语音识别模型(学生模型)被迫更努力地学习第一预设语音识别模型(教师模型)输出的语音识别结果，提升目标语音识别模型的训练效果。

在一实施例中，对多个第一训练样本进行数据增强，以及对第一预设语音识别模型加入噪声；根据经过数据增强后的多个第一训练样本，对加入噪声的第一预设语音识别模型进行迭代训练，直至加入噪声的第一预设语音识别模型收敛，得到第一语音识别模型。通过对第一训练样本进行数据增强和对第一预设语音识别模型加入噪声，能够使得迭代完成的第一语音识别模型的参数更加准确，从而提升后续的目标语音识别模型的训练效果。

步骤S103、将第一语音识别模型与预设语言模型进行融合，得到第二语音识别模型。

其中，预设语言模型为预先训练好的语言模型(Language Model)，该预设语言模型例如为统计语言模型、前馈神经网络语言模型、循环神经网络语言模型等。通过将第一语音识别模型与预设语言模型进行融合，得到的第二语音识别模型性能更好的，有利于提升目标语音识别模型的训练效果，使得目标语音识别模型的语音识别的准确度更高。

在一实施例中，语言模型的训练样本的数据量远大于第一语音识别模型的第一训练样本的数据量，将第一语音识别模型与预设语言模型进行融合可以帮助到第二语音识别模型进行语义信息的建模，融合方式包括Voting(投票法)、Averaging(平均法)、Bagging(引导聚集法)算法和Boosting(提升法)等，本实施例不做具体限定。

步骤S104、将多个第二语音序列输入至第二语音识别模型，得到每个第二语音序列对应的第二文本和融合分数。

将多个第二训练样本输入至第二语音识别模型，获得每个第二语音序列各自对应的语音识别结果，该语音识别结果包括第二语音序列对应的第二文本和融合分数。通过第二语音识别模型对多个第二语音序列进行预测，输出每个第二语音序列对应的第二文本和融合分数，以便从多个第二语音序列中筛选出符合预设条件的第二语音序列。

示例性的，第二语音识别模型为LAS(Listen，Attend and Spell)模型，包括Listen(听)层，Attend(注意)层和Spell(拼写)层。第二语音序列为长度T的声音信号特征向量x，该长度T的声音信号特征向量x输入至第二语音识别模型之后，通过Listen层保留与声音信号相关的内容，去除与声音信号不相关的噪声，Listen层例如为双向的LSTM网络，输出长度为T的特征向量h＝BiLSTM(x)；在Attend层中，可以采用scaled attention机制，获取Attend层中的RNN网络的当前时刻的隐藏层状态S_t，根据Listen层输出的特征向量h和隐藏层状态S_t计算当前时刻的上下文向量(Context Vector)，即上下文向量C_t＝Attention(S_t,h)；在Spell层中，使用RNN网络作为解码器，确定上一刻的隐藏层状态、Spell层的输出向量和上下文向量，并计算当前时刻的隐藏层状态S_t＝RNN(S_t-1,Y_t-1,C_t-1)，再将当前时刻的输出向量经过softmax网络，输出第二语音序列对应的字符分布概率(第二文本的分布概率)Y_t＝CharacterDistribution(S_t)。由于第二语音识别模型是训练好的第一语音识别模型LAS和语言模型LM进行融合得到的，因此对LAS模型和LM模型的字符分布概率进行加权求和，可以得到第二语音序列对应的融合分数。例如融合分数S＝log p(Y_t＝k)＝log p_LAS(Y_t＝k)+βlog p_LM(Y_t＝k)，其中，β是指需要对第二语音序列上调的超参数，k指的是在t时刻字符分布概率最大的第二文本，log p_LAS(Y_t＝k)是指第二语音序列在LAS模型输出的字符分布概率，log p_LM(Y_t＝k)是指第二语音序列在LM模型输出的字符分布概率。

步骤S105、根据每个第二语音序列的融合分数，从多个第二语音序列中筛选出目标语音序列。

对于第二语音识别模型输出的第二语音序列对应的第二文本，需要筛选出符合预设条件的目标语音序列，可以根据每个第二语音序列的融合分数，从多个第二语音序列中筛选出目标语音序列，目标语音序列可以作为高质量的“学生”模型(第二预设语音识别模型)的训练数据，从而提升第二预设语音识别模型的训练效果。

在一实施例中，如图2所示，步骤S105包括：子步骤S1051至子步骤S1052。

子步骤S1051、根据预设分数阈值和每个第二语音序列的融合分数，对多个第二语音序列进行过滤，得到多个候选语音序列。

在一实施例中，预设分数阈值可以由用户灵活设置，保留融合分数大于或者等于预设分数阈值的第二语音序列，筛除融合分数小于预设分数阈值的第二语音序列，得到多个候选语音序列。需要说明的是，融合分数高的第二语音序列对应的第二文本的正确率较高，因此保留第二文本的正确率较高的第二语音序列，有利于筛选出高质量的第二语音序列。

在一实施例中，由于第二语音序列的句子长度不同，会影响第二语音识别模型的语音识别结果，导致每个第二语音序列对应的第二文本和融合分数准确度不一致。因此，通过对第二语音序列的融合分数进行正则化，再将正则化的融合分数与预设分数阈值进行比较，以筛除融合分数小于预设分数阈值的第二语音序列，得到高质量的多个候选语音序列。

其中，正则化公式为：l是第二语音序列的字符长度，μ、β是对多个第二语音序列的(l_i,S_i)进行线性回归得到的参数，σ是计算/>的标准差。在一些实施例中，预设分数阈值可以随迭代时间的增加而减小，在迭代训练中预设分数阈值越来越小，使得越来越多的候选语音序列能够作为目标语音识别模型的训练样本。

子步骤S1052、根据多个第一训练样本的概率分布信息，从多个候选语音序列中筛选出目标语音序列。

在一实施例中，根据多个第一训练样本的概率分布信息，从多个候选语音序列中筛选出目标语音序列，包括：根据多个候选语音序列，生成多个语音序列集，其中，每个语音序列集包括至少一个候选语音序列；确定每个语音序列集的概率分布信息；根据多个第一训练样本的概率分布信息和每个语音序列集的概率分布信息，从多个语音序列集中选取目标语音序列集。其中，目标语音序列集中包括至少一个目标语音序列。需要说明的是，经过过滤后的多个候选语音序列的分布相差较大，若直接将经过过滤后的多个候选语音序列作为第二预设语音识别模型的训练样本，会影响第二预设语音识别模型的表现，因此从多个语音序列集中查找出与多个第一训练样本的概率分布信息近似的目标语音序列集，并将目标语音序列集中的至少一个目标语音序列作为第二预设语音识别模型的训练样本，可以提升第二预设语音识别模型的表现，即可提高目标语音识别模型的训练效果。

其中，从多个候选语音序列中随机选取多个批(Batch)，以生成多个语音序列集，每个批包括至少一个候选语音序列。每个候选语音序列携带有属性信息，多个候选语音序列携带的属性信息可以构成一个语音序列集的概率分布信息，概率分布信息根据设定的具体业务来决定，比如概率分布信息为音频的长度、说话人男女的比例、说话人年龄、周围环境等，将每个语音序列集对应的概率分布信息与多个第一训练样本的概率分布信息进行比较，以查找出与多个第一训练样本的概率分布信息近似的目标语音序列集。

在一实施例中，根据多个第一训练样本的概率分布信息和每个语音序列集的概率分布信息，计算每个语音序列集的K-L散度；根据每个语音序列集的K-L散度，从多个语音序列集中选取目标语音序列集。其中，K-L散度越低的语音序列集的概率分布信息与多个第一训练样本的概率分布信息相比越接近，选取K-L散度最低的语音序列集作为目标语音序列集，目标语音序列集中包括至少一个目标语音序列。通过计算每个语音序列集的K-L散度(K-L Divergence)，可以准确查找出与多个第一训练样本的概率分布信息近似的目标语音序列集。

K-L散度计算公式如下：

其中，f(M(U))为语音序列集，P(i)为多个第一训练样本的概率分布信息，Q(i)为语音序列集的概率分布信息。

步骤S106、根据每个目标语音序列、每个目标语音序列对应的第二文本和多个第一训练样本，对第二预设语音识别模型进行迭代训练，得到目标语音识别模型。

获取多个目标语音序列之后，将多个第一训练样本输入至语音识别学生模型中，输出第一语音识别结果，并根据第一语音识别结果和每个第一训练样本对应的第一文本之间的相似度，对第二预设语音识别模型的参数进行调整；确定调整后的第二预设语音识别模型符合预设性能条件时，停止模型训练，获得训练好的初始语音识别模型；根据多个目标语音序列对初始语音识别模型进行训练，得到目标语音识别模型。需要说明的是，通过多个有标注的第一训练样本和多个无标注的第二训练样本对“教师-噪声学生”自训练学习模型进行训练，能够极大提高语音识别模型的训练效果，减少了对有标注的训练样本的数量要求，并且提升了语音识别模型的训练效率。

其中，预设性能条件是根据语音识别学生模型的语音识别准确度以及语音识别速度确定的。实际应用中，预设性能条件也可以根据实际应用场景进行设置。通过多个第一训练样本对第二预设语音识别模型进行初始化，以保证训练数据的收敛。通过多个目标语音序列对初始语音识别模型进行训练，得到训练效果较好的目标语音识别模型，该目标语音识别模型进行语音识别的准确度较高。

在一实施例中，第二预设语音识别模型例如为LAS(Listen，Attend and Spell)模型，该LAS模型包括Listen(听)层，Attend(注意)层和Spell(拼写)层。

在一实施例中，根据每个目标语音序列和每个目标语音序列对应的第二文本，生成多个第三训练样本；根据多个第三训练样本和多个第一训练样本，得到训练样本集；通过训练样本集，对第二预设语音识别模型进行迭代训练，直至达到预设条件，得到目标语音识别模型。其中，预设条件可以是性能符合预设训练条件、迭代次数大于预设迭代次数和/或迭代时长大于预设迭代时长等，本申请实施例不做具体限定。

请参照图3，图3为实施本实施例提供的模型训练方法的一场景示意图。

如图3所示，获取多个第一训练样本和多个第二训练样本，第一训练样本包括第一语音序列和标注的第一语音序列对应的第一文本，第二训练样本包括第二语音序列，然后将多个第一训练样本输入至第一预设语音识别模型10，以对第一预设语音识别模型10进行迭代训练，得到第一语音识别模型20，将预设语言模型30与第一语音识别模型20与进行融合，得到第二语音识别模型40，再将多个第二训练样本中的第二语音序列输入至第二语音识别模型40，得到每个第二语音序列对应的第二文本和融合分数，根据每个第二语音序列的融合分数，从多个第二语音序列中筛选出目标语音序列，并将每个目标语音序列、每个目标语音序列对应的第二文本和多个第一训练样本输入至第二预设语音识别模型50，以对第二预设语音识别模型50进行迭代训练，得到目标语音识别模型60。

上述实施例提供的模型训练方法，通过获取多个第一训练样本和多个第二训练样本，第一训练样本包括第一语音序列和标注的第一语音序列对应的第一文本，第二训练样本包括第二语音序列，然后根据多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型，将第一语音识别模型与预设语言模型进行融合，得到第二语音识别模型，再将多个第二语音序列输入至第二语音识别模型，得到每个第二语音序列对应的第二文本和融合分数，根据每个第二语音序列的融合分数，从多个第二语音序列中筛选出目标语音序列，根据每个目标语音序列、每个目标语音序列对应的第二文本和多个第一训练样本，对第二预设语音识别模型进行迭代训练，得到目标语音识别模型。本申请通过多个有标注的第一训练样本和多个无标注的第二训练样本对“教师-噪声学生”自训练学习模型进行训练，能够极大提高语音识别模型的训练效果，减少了对有标注的训练样本的数量要求，并且提升了语音识别模型的训练效率。

请参照图4，图4为本申请实施例提供的一种语音识别方法的步骤流程示意图。

如图4所示，该模型训练方法包括步骤S201至S202。

步骤S201、获取待识别的语音序列。

例如，待识别的语音序列为社交应用中用户发送的一条语音数据。

步骤S202、通过目标语音识别模型对语音序列进行语音识别，得到语音序列对应的文本信息。

其中，目标语音识别模型是根据前述实施例所述的模型训练方法进行训练得到的。例如用户A通过终端设备的社交应用接收用户B发送的一条语音序列，通过目标语音识别模型对该语音序列进行语音识别，获得文本信息“你好”(语音识别结果)。

上述实施例提供的语音识别方法，通过获取待识别的语音序列，并通过前述实施例所述的目标语音识别模型对语音序列进行语音识别，得到语音序列对应的文本信息，由于目标语音识别模型“教师-噪声学生”自训练学习模型进行训练得到的，可以有效的提高语音识别的准确性。

请参照图5，图5为本申请实施例提供的一种模型训练装置的示意性框图。

如图5所示，该模型训练装置300，包括：获取模块301、第一训练模块302、融合模块303、输入模块304、筛选模块305和第二训练模块306。

获取模块301，用于获取多个第一训练样本和多个第二训练样本，第一训练样本包括第一语音序列和标注的第一语音序列对应的第一文本，第二训练样本包括第二语音序列；

第一训练模块302，用于根据多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型；

融合模块303，用于将第一语音识别模型与预设语言模型进行融合，得到第二语音识别模型；

输入模块304，用于将多个第二语音序列输入至第二语音识别模型，得到每个第二语音序列对应的第二文本和融合分数；

筛选模块305，用于根据每个第二语音序列的融合分数，从多个第二语音序列中筛选出目标语音序列；

第二训练模块306，用于根据每个目标语音序列、每个目标语音序列对应的第二文本和多个第一训练样本，对第二预设语音识别模型进行迭代训练，得到目标语音识别模型。

在一个实施例中，如图6所示，筛选模块305包括：

过滤子模块3051，用于根据预设分数阈值和每个所述第二语音序列的融合分数，对多个所述第二语音序列进行过滤，得到多个候选语音序列；

筛选子模块3052，用于根据所述多个第一训练样本的概率分布信息，从所述多个候选语音序列中筛选出目标语音序列。

在一个实施例中，筛选子模块3052还用于：

根据所述多个候选语音序列，生成多个语音序列集，其中，每个所述语音序列集包括至少一个所述候选语音序列；

确定每个所述语音序列集的概率分布信息；

根据所述多个第一训练样本的概率分布信息和每个所述语音序列集的概率分布信息，从多个所述语音序列集中选取目标语音序列集。

在一个实施例中，筛选子模块3052还用于：

根据所述多个第一训练样本的概率分布信息和每个所述语音序列集的概率分布信息，计算每个所述语音序列集的K-L散度；

根据每个所述语音序列集的K-L散度，从多个所述语音序列集中选取目标语音序列集。

在一个实施例中，第一训练模块302还用于：

对多个所述第一训练样本进行数据增强；

根据经过数据增强后的多个所述第一训练样本，对第一预设语音识别模型进行迭代训练，直至所述第一预设语音识别模型收敛，得到第一语音识别模型。

在一个实施例中，第二训练模块306还用于：

根据每个所述目标语音序列和每个所述目标语音序列对应的第二文本，生成多个第三训练样本；

根据所述多个第三训练样本和所述多个第一训练样本，得到训练样本集；

通过所述训练样本集，对所述第二预设语音识别模型进行迭代训练，直至达到预设条件，得到目标语音识别模型。

请参照图7，图7为本申请实施例提供的一种语音识别装置的示意性框图。

如图7所示，该语音识别装置400，包括：

获取模块401，用于获取待识别的语音序列。

识别模块402，用于通过目标语音识别模型对所述语音序列进行语音识别，得到所述语音序列对应的文本信息。

其中，所述目标语音识别模型是根据前述实施例所述的模型训练方法进行训练得到的。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的语音识别装置的各模块及单元的具体工作过程，可以参考前述语音识别方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端设备。

如图8所示，该计算机设备包括通过***总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种模型训练方法或者语音识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种模型训练方法或者语音识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现所述根据每个所述第二语音序列的融合分数，从所述多个第二语音序列中筛选出目标语音序列时，用于实现：

根据预设分数阈值和每个所述第二语音序列的融合分数，对多个所述第二语音序列进行过滤，得到多个候选语音序列；

根据所述多个第一训练样本的概率分布信息，从所述多个候选语音序列中筛选出目标语音序列。

在一个实施例中，所述处理器在实现所述根据所述多个第一训练样本的概率分布信息，从所述多个候选语音序列中筛选出目标语音序列时，用于实现：

确定每个所述语音序列集的概率分布信息；

在一个实施例中，所述处理器在实现所述根据所述多个第一训练样本的概率分布信息和每个所述语音序列集的概率分布信息，从多个所述语音序列集中选取目标语音序列集时，用于实现：

在一个实施例中，所述处理器在实现所述根据所述多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型时，用于实现：

对多个所述第一训练样本进行数据增强；

在一个实施例中，所述处理器在实现所述根据每个所述目标语音序列、每个所述目标语音序列对应的第二文本和多个所述第一训练样本，对所述第二预设语音识别模型进行迭代训练，得到目标语音识别模型时，用于实现：

在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取待识别的语音序列；

所述目标语音识别模型是根据前述实施例所述的模型训练方法进行训练得到的。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述计算机设备的具体工作过程，可以参考前述模型训练方法或者语音识别方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请模型训练方法或者语音识别方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

根据所述多个第一训练样本的概率分布信息，从所述多个候选语音序列中筛选出目标语音序列；

2.如权利要求1所述的模型训练方法，其特征在于，所述根据所述多个第一训练样本的概率分布信息，从所述多个候选语音序列中筛选出目标语音序列，包括：

确定每个所述语音序列集的概率分布信息；

3.如权利要求2所述的模型训练方法，其特征在于，所述根据所述多个第一训练样本的概率分布信息和每个所述语音序列集的概率分布信息，从多个所述语音序列集中选取目标语音序列集，包括：

4.如权利要求1-3中任一项所述的模型训练方法，其特征在于，所述根据所述多个第一训练样本，对第一预设语音识别模型进行迭代训练，得到第一语音识别模型，包括：

对多个所述第一训练样本进行数据增强；

5.如权利要求1-3中任一项所述的模型训练方法，其特征在于，所述根据每个所述目标语音序列、每个所述目标语音序列对应的第二文本和多个所述第一训练样本，对所述第二预设语音识别模型进行迭代训练，得到目标语音识别模型，包括：

6.一种语音识别方法，其特征在于，包括：

获取待识别的语音序列；

所述目标语音识别模型是根据权利要求1至5任一项所述的模型训练方法进行训练得到的。

7.一种模型训练装置，其特征在于，所述模型训练装置包括：

筛选模块，用于根据预设分数阈值和每个所述第二语音序列的融合分数，对多个所述第二语音序列进行过滤，得到多个候选语音序列；根据所述多个第一训练样本的概率分布信息，从所述多个候选语音序列中筛选出目标语音序列；

第二训练模块，用于根据每个所述目标语音序列、每个所述目标语音序列对应的第二文本和多个所述第一训练样本，对第二预设语音识别模型进行迭代训练，得到目标语音识别模型。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的模型训练方法，或者实现如权利要求6所述的语音识别方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至5中任一项所述的模型训练方法，或者实现如权利要求6所述的语音识别方法的步骤。