CN116631379B

CN116631379B - 语音识别方法、装置、设备及存储介质

Info

Publication number: CN116631379B
Application number: CN202310889848.3A
Authority: CN
Inventors: 朱威; 王琅; 潘伟; 钟佳; 陈盛福
Original assignee: China Post Consumer Finance Co ltd
Current assignee: China Post Consumer Finance Co ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-09-26
Anticipated expiration: 2043-07-20
Also published as: CN116631379A

Abstract

本发明涉及人工智能技术领域，并公开了一种语音识别方法、装置、设备及存储介质，该方法包括：采集用户原始语音，并对用户原始语音进行预处理，得到声学特征序列；将声学特征序列输入至预设语音识别模型中，以使预设语音识别模型对声学特征序列进行解码，得到文本序列，预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型；基于文本序列完成对用户原始语音的语音识别。由于本发明通过预设语音识别模型来完成语音识别，该预设语音识别模型基于CTC损失和AED损失训练、并在训练过程中选择局部损失最小的模型进行多批次平均后构建，从而在训练样本数据较少的情况下也能够准确地进行语音识别。

Description

语音识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音识别方法、装置、设备及存储介质。

背景技术

如今，随着人工智能技术的日益发展，作为人工智能细分领域之一的语音识别技术也逐渐被应用于越来越多的场景中。

传统的语音识别通常是通过将语音数据输入至现有的语音识别模型中并输出文字数据的方式来实现。然而，这种传统的语音识别方式所使用的语音识别模型往往需要依赖于大量训练样本数据，因此只适用于拥有大量训练样本数据和训练时间的场景中。而当这种传统的语音识别被应用于只拥有较少训练样本数据的场景（或由于设备配置原因只能进行少量样本训练的场景）中时，其语音识别结果的准确率较低。因此，目前行业内亟需一种在训练样本数据较少的情况下能够准确进行语音识别的方法。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种语音识别方法、装置、设备及存储介质，旨在解决现有技术在训练样本数据较少的情况下无法准确进行语音识别的技术问题。

为实现上述目的，本发明提供了一种语音识别方法，所述方法包括以下步骤：

采集用户原始语音，并对所述用户原始语音进行预处理，得到声学特征序列；

将所述声学特征序列输入至预设语音识别模型中，以使所述预设语音识别模型对所述声学特征序列进行解码，得到文本序列，所述预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型；

基于所述文本序列完成对所述用户原始语音的语音识别；

其中，所述CTC损失用于无对齐标签序列的训练任务，所述AED损失包含标签损失和注意力损失，所述标签损失用于衡量所述初始大语音模型在训练过程中对输出标签序列的预测与标签之间的差异，所述注意力损失用于衡量所述初始大语音模型在训练过程中生成的注意力权重与预期的注意力权重之间的差异。

可选地，所述采集用户原始语音，并对所述用户原始语音进行预处理，得到声学特征序列的步骤之前，还包括：

从历史先验数据中筛选出训练样本数据，并对所述训练样本数据进行数据清洗，得到数据清洗后的训练样本数据；

基于批大小将所述数据清洗后的训练样本数据分为若干批样本，所述批大小为所述批样本中包含的训练样本数据的数量大小；

基于所述批样本对初始大语音模型进行训练，得到预设语音识别模型。

可选地，所述基于所述批样本对初始大语音模型进行训练，得到预设语音识别模型的步骤，包括：

依次将所述批样本输入至初始大语音模型中进行训练，得到CTC损失和AED损失；

根据所述CTC损失和所述AED损失得到联合损失，并基于所述联合损失进行模型平均，得到预设语音识别模型；

所述联合损失的计算公式为：

L_combined(x,y)=λL_CTC(x,y)+(1+λ)L_AED(x,y)；

其中，所述L_combined(x,y)表示所述联合损失，所述L_CTC(x,y)表示所述CTC损失，所述L_AED(x,y)表示所述AED损失，所述x表示所述批样本中的声学特征，所述y表示所述声学特征对应的标签，所述λ表示平衡所述CTC损失和所述AED损失的超参数。

可选地，所述依次将所述批样本输入至初始大语音模型中进行训练，得到CTC损失的步骤，包括：

将所述批样本输入至初始大语音模型中进行训练，在训练过程中通过计算最大化对齐正确标签的概率得到CTC损失，所述CTC损失的计算公式为：

Loss_CTC=-log(ΣP(Y’|X,A))；

其中，所述Loss_CTC表示所述CTC损失，所述X表示给定的输入声学特征，所述Y’表示对齐正确标签，所述A表示所有的对齐情况，所述Σ表示求和运算。

可选地，所述依次将所述批样本输入至初始大语音模型中进行训练，得到AED损失的步骤，包括：

将所述批样本输入至初始大语音模型中进行训练，在训练过程中通过对所述标签损失和所述注意力损失进行求和得到AED损失，所述AED损失的计算公式为：

Loss_AED=Loss_Labal+Loss_Attention；

Loss_Labal=-Σ(log(P(y_i|Y)))；

Loss_Attention=λ*gradient_penalty+ε*|attention_weight-prior_weight|；

其中，所述Loss_AED表示所述AED损失，所述Loss_Labal表示所述标签损失，所述Loss_Attention表示所述注意力损失，所述y_i表示标签序列Y中的第i个元素，所述P(y_i|Y) 表示所述初始大语音模型生成所述y_i的概率；所述gradient_penalty表示梯度惩罚项，所述attention_weight-prior_weight表示实际注意力权重与预设注意力权重之间的注意力权重差异，所述λ和所述ε分别表示控制所述梯度惩罚项和所述注意力权重差异的超参数。

可选地，所述基于所述联合损失进行模型平均，得到预设语音识别模型的步骤，包括：

每隔预设批数量对所述初始大语音模型进行模型采样，并对采样后的当前模型进行保存；

基于采样结果得到若干联合损失，并在所述若干联合损失中筛选出损失值最小的两个联合损失分别对应的epoch-a模型和epoch-b模型；

基于所述epoch-a模型和所述epoch-b模型进行模型平均，得到预设语音识别模型。

可选地，所述基于所述epoch-a模型和所述epoch-b模型进行模型平均，得到预设语音识别模型的步骤，包括：

分别计算所述epoch-a模型和所述epoch-b模型中前后i个p采样之间样本点均值，得到第一均值model_avg_{[p×(m+1,m-1)]}和第二均值model_avg_{[p×(n+1,n-1)]}；

基于所述第一均值和所述第二均值进行模型平均，得到预设语音识别模型；

其中，所述m表示所述epoch-a模型经过第m次采样，所述n表示所述epoch-b模型经过第n次采样，上述p表示所述epoch-a模型和所述epoch-b模型中每次采样对应的批样本数量。

此外，为实现上述目的，本发明还提出一种语音识别装置，所述语音识别装置包括：

语音处理模块，用于采集用户原始语音，并对所述用户原始语音进行预处理，得到声学特征序列；

模型输出模块，用于将所述声学特征序列输入至预设语音识别模型中，以使所述预设语音识别模型对所述声学特征序列进行解码，得到文本序列，所述预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型；

语音识别模块，用于基于所述文本序列完成对所述用户原始语音的语音识别；

此外，为实现上述目的，本发明还提出一种语音识别设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序配置为实现如上文所述的语音识别方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上文所述的语音识别方法的步骤。

本发明通过采集用户原始语音，并对用户原始语音进行预处理，得到声学特征序列；将声学特征序列输入至预设语音识别模型中，以使预设语音识别模型对声学特征序列进行解码，得到文本序列，预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型；基于文本序列完成对用户原始语音的语音识别；其中，CTC损失用于无对齐标签序列的训练任务，AED损失包含标签损失和注意力损失，标签损失用于衡量初始大语音模型在训练过程中对输出标签序列的预测与标签之间的差异，注意力损失用于衡量初始大语音模型在训练过程中生成的注意力权重与预期的注意力权重之间的差异。相比于现有技术通过传统的语音识别模型来进行语音识别，由于本发明上述方法通过对用户原始语音进行预处理后得到的声学特征序列输入至预设语音识别模型中，该预设语音识别模型基于CTC损失和AED损失训练后构建，从而得到文本序列完成语音识别，在训练结束后，模型参数采样点会在最优点附近浮动。通过对这些在最优点附近浮动的采样点求均值，可以得到一个噪声（随机性）更低的模型，即更加接近最优点的模型。使用该噪声（随机性）更低的模型可以克服现有的语音识别模型的平均策略在小样本微调场景无法有效提高语音模型识别字准率的问题，进而在训练样本数据较少的情况下也能够准确地进行语音识别。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的语音识别设备的结构示意图；

图2为本发明语音识别方法第一实施例的流程示意图；

图3为本发明语音识别方法第二实施例的流程示意图；

图4为本发明语音识别方法第三实施例的流程示意图；

图5为本发明语音识别装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的语音识别设备结构示意图。

如图1所示，该语音识别设备可以包括：处理器1001，例如中央处理器（CentralProcessing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（Wireless-Fidelity，Wi-Fi）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM），也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对语音识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及语音识别程序。

在图1所示的语音识别设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明语音识别设备中的处理器1001、存储器1005可以设置在语音识别设备中，所述语音识别设备通过处理器1001调用存储器1005中存储的语音识别程序，并执行本发明实施例提供的语音识别方法。

本发明实施例提供了一种语音识别方法，参照图2，图2为本发明语音识别方法第一实施例的流程示意图。

本实施例中，所述语音识别方法包括以下步骤：

步骤S10：采集用户原始语音，并对所述用户原始语音进行预处理，得到声学特征序列。

需要说明的是，本实施例方法的执行主体可以是具有数据处理、网络通讯以及程序运行功能的计算服务设备，例如手机、平板电脑、个人电脑等，还可以是能够实现相同或相似功能的其他电子设备，本实施例对此不加以限制。此处将以语音识别设备为例对本发明语音识别方法的各项实施例进行说明。

可理解的是，上述用户原始语音可以是未经过任何处理的、由麦克风或其他任意能够实现语音数据采集功能的设备采集而来的语音数据。

应理解的是，上述声学特征序列可以是从上述用户原始语音对应的语音信号中提取的一系列数字表示，用于描述语音的时域和频域特征，例如梅尔频率倒谱系数、线性预测编码、短时能量和过零率，本实施例对此不加以限制。

在具体实现中，上述预处理可以是包含了一系列能够提高语音识别的准确性和鲁棒性的操作，例如去噪、音频增益调整、音量归一化、语音端点检测、语音增强等等，本实施例对此不加以限制。

步骤S20：将所述声学特征序列输入至预设语音识别模型中，以使所述预设语音识别模型对所述声学特征序列进行解码，得到文本序列，所述预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型。

需要说明的是，上述CTC（Connectionist Temporal Classification，基于神经网络的时序类分类）损失用于无对齐标签序列的训练任务，上述AED（Attention-basedEncoder Decoder，基于注意力的编码器-解码器）损失包含标签损失和注意力损失，上述标签损失用于衡量上述初始大语音模型在训练过程中对输出标签序列的预测与标签之间的差异，上述注意力损失用于衡量上述初始大语音模型在训练过程中生成的注意力权重与预期的注意力权重之间的差异。

应理解的是，上述初始大语音模型可以是隐马尔可夫模型 (Hidden MarkovModel, HMM)，也可以是混合高斯模型 (Gaussian Mixture Model, GMM)或其他能够对声学特征序列进行解码从而实现语音识别的模型，本实施例对此不加以限制。

应理解的是，上述文本序列可以是基于小样本训练得到的局部最小模型平均的结果，它可以是由字符、单词或其他离散的文本单元按照一定的顺序组成的序列。

步骤S30：基于所述文本序列完成对所述用户原始语音的语音识别。

在具体实现中，通过上述预设语音识别模型对上述声学特征序列进行解码后得到的文本序列中，仍然可能存在重复文字、错误文字等问题，此时可以通过对上述文本序列进行后处理操作，从而得到更为准确的识别结果，完成对上述用户原始语音的语音识别。

进一步地，在本实施例中，为了得到噪声（或随机性）更低的语音识别模型，从而得到最优的语音识别结果，所述步骤S10之前，还可以包括：

步骤S1：从历史先验数据中筛选出训练样本数据，并对所述训练样本数据进行数据清洗，得到数据清洗后的训练样本数据。

需要说明的是，上述历史先验数据可以是互联网中已公开的语音数据集（如LibriSpeech、Mozilla Common Voice等），也可以是其他历史语音识别的正确案例等，此处不作赘述。

在具体实现中，可以通过去除重复数据、处理缺失值、解决数据不一致性（例如拼写错误、数据格式不统一等）等方法来实现数据清洗，从而得到数据清洗后的训练样本数据。

步骤S2：基于批大小将所述数据清洗后的训练样本数据分为若干批样本，所述批大小为所述批样本中包含的训练样本数据的数量大小。

应理解的是，由于本实施例是针对于训练样本较小的语音识别场景，因此上述批大小（即batch size）也可以设置的相对较小，例如batch size=4。

步骤S3：基于所述批样本对初始大语音模型进行训练，得到预设语音识别模型。

在具体实现中，可以基于上述批样本将上述初始大语音模型的训练过程分为若干轮次（epoch），并观察每个epoch中对应的模型损失的阶段性变化，从而基于本轮次的模型损失确定下一轮次对应的模型优化方向。在训练的后期，模型参数采样点会在最优点附近浮动。通过在参数空间，对这些在loss最优点附近浮动的采样点求均值，可以得到一个噪声（随机性）更低的模型，即更加接近loss最优点的模型。因此选择每个局部loss最小值用来作为模型平均的采样点，模型平均的结果即为上述预设语音识别模型。

本实施例通过从历史先验数据中筛选出训练样本数据，并对训练样本数据进行数据清洗，得到数据清洗后的训练样本数据；基于批大小将数据清洗后的训练样本数据分为若干批样本，批大小为批样本中包含的训练样本数据的数量大小；基于批样本对初始大语音模型进行训练，得到预设语音识别模型；采集用户原始语音，并对用户原始语音进行预处理，得到声学特征序列；将声学特征序列输入至预设语音识别模型中，以使预设语音识别模型对声学特征序列进行解码，得到文本序列，预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型；基于文本序列完成对用户原始语音的语音识别；其中，CTC损失用于无对齐标签序列的训练任务，AED损失包含标签损失和注意力损失，标签损失用于衡量初始大语音模型在训练过程中对输出标签序列的预测与标签之间的差异，注意力损失用于衡量初始大语音模型在训练过程中生成的注意力权重与预期的注意力权重之间的差异。相比于现有技术通过传统的语音识别模型来进行语音识别，由于本实施例上述方法通过对用户原始语音进行预处理后得到的声学特征序列输入至预设语音识别模型中，该预设语音识别模型基于CTC损失和AED损失训练后构建，从而得到文本序列完成语音识别，解决了现有的语音识别方法需要依赖于大量训练样本数据和训练时间的技术问题，进而在训练样本数据较少的情况下也能够准确地进行语音识别。

参考图3，图3为本发明语音识别方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，为了在训练过程中不断对初始大语音模型进行调整，从而得到语音识别准确率更高的预设语音识别模型，所述步骤S3，可以包括：

步骤S31：依次将所述批样本输入至初始大语音模型中进行训练，得到CTC损失和AED损失。

应理解的是，上述CTC损失可以用于无对齐标签的序列到序列任务，在本实施例中它通过最大化对齐正确标签的概率来进行训练，CTC 损失的计算基于条件独立假设，即输出标签的每个位置只依赖于输入特征的一部分，并考虑了所有可能的对齐，从而可以处理输入和输出之间的长度不匹配的问题。

可理解的是，上述AED损失可以包含两个部分：一个是对输出标签序列的损失，另一个是对注意力权重的损失。标签损失（Label Loss）：标签损失用来衡量模型在 Decoder阶段对输出标签序列的预测与标签之间的差异，可以通常使用交叉熵损失函数来计算标签损失。注意力损失（Attention Loss）：注意力损失用来衡量模型在 Decoder 阶段生成的注意力权重与预期的注意力权重之间的差异。

步骤S32：根据所述CTC损失和所述AED损失得到联合损失，并基于所述联合损失进行模型平均，得到预设语音识别模型。

在具体实现中，上述联合损失的计算公式可以为：

L_combined(x,y)=λL_CTC(x,y)+(1+λ)L_AED(x,y)；

其中，上述L_combined(x,y)表示上述联合损失，上述L_CTC(x,y)表示上述CTC损失，上述L_AED(x,y)表示上述AED损失，上述x表示上述批样本中的声学特征，上述y表示上述声学特征对应的标签，上述λ表示平衡上述CTC损失和上述AED损失的超参数。

进一步地，在本实施例中，为了更为准确地得到CTC损失和AED损失，所述步骤S31可以包括：

步骤S311：将所述批样本输入至初始大语音模型中进行训练，在训练过程中通过计算最大化对齐正确标签的概率得到CTC损失。

在具体实现中，上述CTC损失的计算公式可以为：

Loss_CTC=-log(ΣP(Y’|X,A))；

其中，上述Loss_CTC表示上述CTC损失，上述X表示给定的输入声学特征，上述Y’表示对齐正确标签，上述A表示所有的对齐情况，上述Σ表示求和运算，上述P(Y’|X,A)表示输入声学特征后得到的对齐正确标签在所有的对齐情况中出现的概率。

步骤S312：将所述批样本输入至初始大语音模型中进行训练，在训练过程中通过对所述标签损失和所述注意力损失进行求和得到AED损失。

在具体实现中，上述AED损失的计算公式为：

Loss_AED=Loss_Labal+Loss_Attention；

Loss_Labal=-Σ(log(P(y_i|Y)))；

Loss_Attention=λ*gradient_penalty+ε*|attention_weight-prior_weight|；

其中，上述Loss_AED表示上述AED损失，上述Loss_Labal表示上述标签损失，上述Loss_Attention表示所述注意力损失，上述y_i表示标签序列Y中的第i个元素，上述P(y_i|Y) 表示上述初始大语音模型生成上述y_i的概率；上述gradient_penalty表示梯度惩罚项，上述attention_weight-prior_weight表示实际注意力权重与预设注意力权重之间的注意力权重差异，上述λ和上述ε分别表示控制上述梯度惩罚项和上述注意力权重差异的超参数。

本实施例通过将批样本输入至初始大语音模型中进行训练，在训练过程中通过计算最大化对齐正确标签的概率得到CTC损失；将批样本输入至初始大语音模型中进行训练，在训练过程中通过对标签损失和注意力损失进行求和得到AED损失；根据CTC损失和AED损失得到联合损失，并基于所述联合损失进行模型平均，得到预设语音识别模型。相较于现有的语音识别模型，由于本实施例上述方法根据CTC损失和AED损失得到联合损失，并基于联合损失对初始大语音模型中的模型参数进行调整，从而能够得到语音识别准确率更高的预设语音识别模型，进而提升了语音识别结果的可信度。

参考图4，图4为本发明语音识别方法第三实施例的流程示意图。

基于上述各实施例，在本实施例中，为了更好地对不同训练阶段的模型进行保存和对比，从而从中选出损失更小、结果更优的模型，所述步骤S32，可以包括：

步骤S321：每隔预设批数量对所述初始大语音模型进行模型采样，并对采样后的当前模型进行保存。

需要说明的是，上述预设批数量可以是任意非零自然数。

步骤S322：基于采样结果得到若干联合损失，并在所述若干联合损失中筛选出损失值最小的两个联合损失分别对应的epoch-a模型和epoch-b模型。

在具体实现中，在本实施例模型训练的后期，模型参数采样点会在最优点附近浮动。通过在参数空间对这些在损失值最优点附近浮动的采样点求均值，可以得到一个噪声（随机性）更低的模型，即更加接近损失值最优点的模型。因此，本实施例可以选择每个局部损失值最小值用来作为模型平均的采样点。

步骤S323：基于所述epoch-a模型和所述epoch-b模型进行模型平均，得到预设语音识别模型。

在具体实现中，可以基于上述epoch-a模型和上述epoch-b模型。

进一步地，在本实施例中，为了得到噪声（或随机性）更低的预设语音识别模型，从而提升本实施例语音识别的识别准确率，所述步骤S323，可以包括：

步骤S3231：分别计算所述epoch-a模型和所述epoch-b模型中前后i个p采样之间样本点均值，得到第一均值model_avg_{[p×(m+1,m-1)]}和第二均值model_avg_{[p×(n+1,n-1)]}。

需要说明的是，在上述第一均值和上述第二均值的表达式中，上述m表示上述epoch-a模型经过第m次采样，上述n表示上述epoch-b模型经过第n次采样，上述p表示上述epoch-a模型和上述epoch-b模型中每次采样对应的批样本数量。

步骤S3232：基于所述第一均值和所述第二均值进行模型平均，得到预设语音识别模型。

在具体实现中，可以通过反向传播算法计算梯度并更新上述初始大语音模型的参数来进行优化调整，从而得到上述预设语音识别模型。

本实施例通过每隔预设批数量对初始大语音模型进行模型采样，并对采样后的当前模型进行保存；基于采样结果得到若干联合损失，并在若干联合损失中筛选出损失值最小的两个联合损失分别对应的epoch-a模型和epoch-b模型；分别计算epoch-a模型和epoch-b模型中前后i个p采样之间样本点均值，得到第一均值model_avg_{[p×(m+1,m-1)]}和第二均值model_avg_{[p×(n+1,n-1)]}；基于第一均值和第二均值进行模型平均，得到预设语音识别模型；其中，m表示epoch-a模型经过第m次采样，n表示epoch-b模型经过第n次采样，上述p表示epoch-a模型和epoch-b模型中每次采样对应的批样本数量。相较于现有的语音识别方法，由于本实施例上述方法通过对筛选出的联合损失最小（即最优点附近浮动的采样点）的模型求均值，可以得到噪声（即随机性）更低的预设语音识别模型，从而提升了本实施例语音识别的识别准确率。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如上文所述的语音识别方法的步骤。

参照图5，图5为本发明语音识别装置第一实施例的结构框图。

如图5所示，本发明实施例提出的语音识别装置包括：

语音处理模块501，用于采集用户原始语音，并对所述用户原始语音进行预处理，得到声学特征序列；

模型输出模块502，用于将所述声学特征序列输入至预设语音识别模型中，以使所述预设语音识别模型对所述声学特征序列进行解码，得到文本序列，所述预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型；

语音识别模块503，用于基于所述文本序列完成对所述用户原始语音的语音识别；

本实施例通过采集用户原始语音，并对用户原始语音进行预处理，得到声学特征序列；将声学特征序列输入至预设语音识别模型中，以使预设语音识别模型对声学特征序列进行解码，得到文本序列，预设语音识别模型为基于CTC损失和AED损失对初始大语音模型进行训练后得到的模型；基于文本序列完成对用户原始语音的语音识别；其中，CTC损失用于无对齐标签序列的训练任务，AED损失包含标签损失和注意力损失，标签损失用于衡量初始大语音模型在训练过程中对输出标签序列的预测与标签之间的差异，注意力损失用于衡量初始大语音模型在训练过程中生成的注意力权重与预期的注意力权重之间的差异。相比于现有技术通过传统的语音识别模型来进行语音识别，由于本实施例上述方法通过对用户原始语音进行预处理后得到的声学特征序列输入至预设语音识别模型中，该预设语音识别模型基于CTC损失和AED损失训练后构建，从而得到文本序列完成语音识别，解决了现有的语音识别方法需要依赖于大量训练样本数据和训练时间的技术问题，进而在训练样本数据较少的情况下也能够准确地进行语音识别。

基于本发明上述语音识别装置的第一实施例，提出本发明语音识别装置的第二实施例。

在本实施例中，所述语音处理模块502，还用于从历史先验数据中筛选出训练样本数据，并对所述训练样本数据进行数据清洗，得到数据清洗后的训练样本数据；基于批大小将所述数据清洗后的训练样本数据分为若干批样本，所述批大小为所述批样本中包含的训练样本数据的数量大小；基于所述批样本对初始大语音模型进行训练，得到预设语音识别模型。

进一步地，所述语音处理模块502，还用于依次将所述批样本输入至初始大语音模型中进行训练，得到CTC损失和AED损失；根据所述CTC损失和所述AED损失得到联合损失，并基于所述联合损失进行模型平均，得到预设语音识别模型；所述联合损失的计算公式为：L_combined(x,y)=λL_CTC(x,y)+(1+λ)L_AED(x,y)；其中，所述L_combined(x,y)表示所述联合损失，所述L_CTC(x,y)表示所述CTC损失，所述L_AED(x,y)表示所述AED损失，所述x表示所述批样本中的声学特征，所述y表示所述声学特征对应的标签，所述λ表示平衡所述CTC损失和所述AED损失的超参数。

进一步地，所述语音处理模块502，还用于将所述批样本输入至初始大语音模型中进行训练，在训练过程中通过计算最大化对齐正确标签的概率得到CTC损失，所述CTC损失的计算公式为：Loss_CTC=-log(ΣP(Y’|X,A))；其中，所述Loss_CTC表示所述CTC损失，所述X表示给定的输入声学特征，所述Y’表示对齐正确标签，所述A表示所有的对齐情况，所述Σ表示求和运算。

进一步地，所述语音处理模块502，还用于将所述批样本输入至初始大语音模型中进行训练，在训练过程中通过对所述标签损失和所述注意力损失进行求和得到AED损失，所述AED损失的计算公式为：Loss_AED=Loss_Labal+Loss_Attention；Loss_Labal=-Σ(log(P(y_i|Y)))；Loss_Attention=λ*gradient_penalty+ε*|attention_weight-prior_weight|；其中，所述Loss_AED表示所述AED损失，所述Loss_Labal表示所述标签损失，所述Loss_Attention表示所述注意力损失，所述y_i表示标签序列Y中的第i个元素，所述P(y_i|Y) 表示所述初始大语音模型生成所述y_i的概率；所述gradient_penalty表示梯度惩罚项，所述attention_weight-prior_weight表示实际注意力权重与预设注意力权重之间的注意力权重差异，所述λ和所述ε分别表示控制所述梯度惩罚项和所述注意力权重差异的超参数。

进一步地，所述语音处理模块502，还用于每隔预设批数量对所述初始大语音模型进行模型采样，并对采样后的当前模型进行保存；基于采样结果得到若干联合损失，并在所述若干联合损失中筛选出损失值最小的两个联合损失分别对应的epoch-a模型和epoch-b模型；基于所述epoch-a模型和所述epoch-b模型进行模型平均，得到预设语音识别模型。

进一步地，所述语音处理模块502，还用于分别计算所述epoch-a模型和所述epoch-b模型中前后i个p采样之间样本点均值，得到第一均值model_avg_{[p×(m+1,m-1)]}和第二均值model_avg_{[p×(n+1,n-1)]}；基于所述第一均值和所述第二均值进行模型平均，得到预设语音识别模型；其中，所述m表示所述epoch-a模型经过第m次采样，所述n表示所述epoch-b模型经过第n次采样，上述p表示所述epoch-a模型和所述epoch-b模型中每次采样对应的批样本数量。

本发明语音识别装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括以下步骤：

基于所述文本序列完成对所述用户原始语音的语音识别；

其中，所述CTC损失用于无对齐标签序列的训练任务，所述AED损失包含标签损失和注意力损失，所述标签损失用于衡量所述初始大语音模型在训练过程中对输出标签序列的预测与标签之间的差异，所述注意力损失用于衡量所述初始大语音模型在训练过程中生成的注意力权重与预期的注意力权重之间的差异；

所述采集用户原始语音，并对所述用户原始语音进行预处理，得到声学特征序列的步骤之前，还包括：

Loss_CTC=-log(ΣP(Y’|X,A))；

其中，所述Loss_CTC表示所述CTC损失，所述X表示给定的输入声学特征，所述Y’表示对齐正确标签，所述A表示所有的对齐情况，所述Σ表示求和运算；

Loss_AED=Loss_Labal+Loss_Attention；

Loss_Labal=-Σ(log(P(y_i|Y)))；

Loss_Attention=λ*gradient_penalty+ε*|attention_weight-prior_weight|；

其中，所述Loss_AED表示所述AED损失，所述Loss_Labal表示所述标签损失，所述Loss_Attention表示所述注意力损失，所述y_i表示标签序列Y中的第i个元素，所述P(y_i|Y) 表示所述初始大语音模型生成所述y_i的概率；所述gradient_penalty表示梯度惩罚项，所述attention_weight-prior_weight表示实际注意力权重与预设注意力权重之间的注意力权重差异，所述λ和所述ε分别表示控制所述梯度惩罚项和所述注意力权重差异的超参数；

所述联合损失的计算公式为：

L_combined(x,y)=λL_CTC(x,y)+(1+λ)L_AED(x,y)；

其中，所述L_combined(x,y)表示所述联合损失，所述L_CTC(x,y)表示所述CTC损失，所述L_AED(x,y)表示所述AED损失，所述x表示所述批样本中的声学特征，所述y表示所述声学特征对应的标签，所述λ表示平衡所述CTC损失和所述AED损失的超参数；

所述基于所述联合损失进行模型平均，得到预设语音识别模型的步骤，包括：

2.一种基于权利要求1所述的语音识别方法的语音识别装置，其特征在于，所述语音识别装置包括：

3.一种语音识别设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别程序，所述语音识别程序配置为实现如权利要求1所述的语音识别方法的步骤。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音识别程序，所述语音识别程序被处理器执行时实现如权利要求1所述的语音识别方法的步骤。