CN116110378B

CN116110378B - 模型训练方法、语音识别方法、装置和电子设备

Info

Publication number: CN116110378B
Application number: CN202310383270.4A
Authority: CN
Inventors: 韩明伦; 石晶; 徐爽; 徐波
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-18
Anticipated expiration: 2043-04-12
Also published as: CN116110378A

Abstract

本申请提供一种模型训练方法、语音识别方法、装置和电子设备，涉及语音识别技术领域。该方法包括：获取基于连续整合发放CIF机制训练得到的语音识别模型，并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化；再基于语音样本、语音样本对应的视觉图像样本和文本样本对初始化后的多模态语音识别模型进行训练，使得训练出的多模态语音识别模型在进行语音识别时，在多模态语音识别中引入了情境视觉知识和情境语言知识，有效地提高了语音识别性能,拓展了多模态语音识别的边界。

Description

模型训练方法、语音识别方法、装置和电子设备

技术领域

本申请涉及语音识别技术领域，尤其涉及一种模型训练方法、语音识别方法、装置和电子设备。

背景技术

近些年来，随着语音识别技术的不断发展，语音识别模型因为其较强的学习能力，已经被广泛应用于多种场景，例如视频字幕生成、视频会议转写等。

现有技术中，在训练语音识别模型时，主要是以语音样本为主，结合语音样本对应的唇动视觉信息训练生成语音识别模型，但是，采用该种技术方案，需要保证唇动视觉信息与语音样本的内容在时间上严格对齐，而实际的很多语音识别场景很难保证唇动视觉信息与语音样本的内容在时间上严格对齐，从而导致语音识别模型的语音识别性能较差。

因此，如何训练一种语音识别性能较好的语音识别模型是本领域技术人员亟待解决的问题。

发明内容

本申请提供一种模型训练方法、语音识别方法、装置和电子设备，可以有效地提高语音识别性能。

第一方面，本申请提供了一种模型训练方法，该模型训练方法可以包括：

获取基于连续整合发放CIF机制训练得到的语音识别模型。

基于所述语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化，得到初始化后的多模态语音识别模型。

获取多个样本对，各样本对包括语音样本、所述语音样本对应的视觉图像样本和文本样本。

基于所述多个样本对对所述初始化后的多模态语音识别模型进行训练，以得到训练后的多模态语音识别模型。

根据本申请提供的一种模型训练方法，所述初始化后的多模态语音识别模型包括多模态感知模块、声学编码模块、CIF模块以及解码模块，所述基于所述多个样本对对所述初始化后的多模态语音识别模型进行训练，包括：

针对每个所述样本对执行以下处理：

将所述样本对中的语音样本对应的声学表征序列输入至所述声学编码模块中，得到所述语音样本对应的第一语音特征向量序列，并将所述第一语音特征向量序列输入至所述CIF模块中，通过所述CIF模块确定所述语音样本对应的预测权重序列，并基于所述预测权重序列确定所述语音样本对应的第二语音特征向量序列。

将所述样本对中的视觉图像样本输入至所述多模态感知模块中的视觉图像编码器中，得到所述视觉图像样本对应的视觉特征向量序列。

将所述样本对中的文本样本输入至所述多模态感知模块中的文本编码器中，得到所述文本样本对应的文本特征向量序列。

在每个解码时刻，将前一时刻的预测文本表征向量、所述前一时刻对应的第二语音特征向量、当前时刻对应的第二语音特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述解码模块中，得到所述语音样本在当前时刻的预测文本的概率值。

根据各所述语音样本对应的标签文本序列、所述第一语音特征向量序列、权重序列标签、所述预测权重序列、所述标签文本序列的概率值以及预测文本序列的概率值，对所述初始化后的多模态语音识别模型进行训练。

根据本申请提供的一种模型训练方法，所述解码模块包括串联的特征融合层和后处理模块，所述将前一时刻的预测文本表征向量、所述前一时刻对应的第二语音特征向量、当前时刻对应的第二语音特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述解码模块中，得到所述语音样本在当前时刻的预测文本的概率值，包括：

将所述前一时刻的预测文本表征向量和所述前一时刻对应的第二语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列均输入至所述特征融合层进行融合，得到目标融合特征向量。

将所述目标融合特征向量和所述当前时刻对应的第二语音特征向量输入至所述后处理模块中，得到所述预测文本的概率值。

根据本申请提供的一种模型训练方法，所述特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层，所述将前一时刻的预测文本表征向量和所述前一时刻对应的第二语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列均输入至所述特征融合层进行融合，得到目标融合特征向量，包括：

将所述前一时刻的预测文本表征向量和所述前一时刻对应的第二语音特征向量融合得到的特征向量输入至所述声学语言融合层，得到第一融合特征向量。

将所述视觉特征向量序列和所述第一融合特征向量输入至所述视觉融合层进行融合，得到第二融合特征向量。

将所述文本特征向量序列和所述第二融合特征向量输入至所述语言融合层进行融合，得到所述目标融合特征向量。

根据本申请提供的一种模型训练方法，所述特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层，所述将前一时刻的预测文本表征向量和所述前一时刻对应的第二语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列均输入至所述特征融合层进行融合，得到目标融合特征向量，包括：

将所述文本特征向量序列和所述第一融合特征向量输入至所述语言融合层进行融合，得到第三融合特征向量。

将所述视觉特征向量序列和所述第三融合特征向量输入至所述视觉融合层进行融合，得到所述目标融合特征向量。

根据本申请提供的一种模型训练方法，所述根据各所述语音样本对应的标签文本序列、所述第一语音特征向量序列、权重序列标签、所述预测权重序列、所述标签文本序列的概率值以及预测文本序列的概率值，对所述初始化后的多模态语音识别模型进行训练，包括：

针对各所述语音样本，根据所述语音样本对应的标签文本序列和所述第一语音特征向量序列，构造所述语音样本对应的连接时序分类损失函数；根据所述语音样本对应的所述权重序列标签和所述预测权重序列，构造所述语音样本对应的数量损失函数；并根据所述语音样本对应的所述标签文本序列的概率值和所述预测文本的概率值，构造所述语音样本对应的交叉熵损失函数。

根据各所述语音样本对应的连接时序分类损失函数、数量损失函数以及交叉熵损失函数，对所述初始化后的多模态语音识别模型进行训练。

根据本申请提供的一种模型训练方法，所述根据各所述语音样本对应的连接时序分类损失函数、数量损失函数以及交叉熵损失函数，对所述初始化后的多模态语音识别模型进行训练，包括：

针对各所述语音样本，对所述语音样本对应的连接时序分类损失函数、所述数量损失函数、以及所述交叉熵损失函数进行加权处理，得到所述语音样本对应的目标损失函数。

根据各所述语音样本对应的目标损失函数，对所述初始化后的多模态语音识别模型进行训练。

第二方面，本申请还提供了一种语音识别方法，该语音识别方法包括：

获取待识别语音、所述待识别语音对应的视觉图像和文本。

将所述待识别语音、所述视觉图像以及所述文本输入至多模态语音识别模型中，得到所述待识别语音对应的预测文本和所述预测文本的概率值，所述多模态语音识别模型为上述第一方面任一项训练得到的所述多模态语音识别模型。

根据本申请提供的一种语音识别方法，所述多模态语音识别模型包括多模态感知模块、声学编码模块、连续整合发放CIF模块以及解码模块，所述将所述待识别语音、所述视觉图像以及所述文本输入至多模态语音识别模型中，得到所述待识别语音对应的预测文本和所述预测文本的概率值，包括：

将所述待识别语音对应的声学表征序列输入至所述声学编码模块中，得到所述待识别语音对应的第三语音特征向量序列，并将所述第三语音特征向量序列输入至所述CIF模块中，通过所述CIF模块确定所述待识别语音对应的预测权重序列，并基于所述预测权重序列确定所述待识别语音对应的第四语音特征向量序列。

将所述视觉图像输入至所述多模态感知模块中的视觉图像编码器中，得到所述视觉图像对应的视觉特征向量序列。

将所述文本输入至所述多模态感知模块中的文本编码器中，得到所述文本对应的文本特征向量序列。

在每个解码时刻，将前一时刻的预测文本表征向量、所述前一时刻对应的第四语音特征向量、当前时刻对应的第四语音特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述解码模块中，得到所述待识别语音在当前时刻的所述预测文本和所述预测文本的概率值。

根据本申请提供的一种语音识别方法，所述解码模块包括串联的特征融合层和后处理模块，所述将前一时刻的预测文本表征向量、所述前一时刻对应的第四语音特征向量、当前时刻对应的第四语音特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述解码模块中，得到所述待识别语音在当前时刻的所述预测文本和所述预测文本的概率值，包括：

将所述前一时刻的预测文本表征向量和所述前一时刻对应的第四语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述特征融合层进行融合，得到融合特征向量。

将所述融合特征向量和所述当前时刻对应的第四语音特征向量输入至所述后处理模块中，得到所述预测文本和所述预测文本的概率值。

根据本申请提供的一种语音识别方法，所述特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层，所述将所述前一时刻的预测文本表征向量和所述前一时刻对应的第四语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述特征融合层进行融合，得到融合特征向量，包括：

将所述前一时刻的预测文本表征向量和所述前一时刻对应的第四语音特征向量融合得到的特征向量输入至所述声学语言融合层，得到第四融合特征向量。

将所述视觉特征向量序列和所述第四融合特征向量输入至所述视觉融合层进行融合，得到第五融合特征向量。

将所述文本特征向量序列和所述第五融合特征向量输入至所述语言融合层进行融合，得到所述融合特征向量。

根据本申请提供的一种语音识别方法，所述特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层，所述将所述前一时刻的预测文本表征向量和所述前一时刻对应的第四语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述特征融合层进行融合，得到融合特征向量，包括：

将所述文本特征向量序列和所述第四融合特征向量输入至所述语言融合层进行融合，得到第六融合特征向量。

将所述视觉特征向量序列和所述第六融合特征向量输入至所述视觉融合层进行融合，得到所述融合特征向量。

第三方面，本申请还提供了一种模型训练装置，包括：

第一获取单元，用于获取基于连续整合发放CIF机制训练得到的语音识别模型。

第一处理单元，用于基于所述语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化，得到初始化后的多模态语音识别模型。

第二获取单元，用于获取多个样本对，各样本对包括语音样本、所述语音样本对应的视觉图像样本和文本样本。

第二处理单元，用于基于所述多个样本对对所述初始化后的多模态语音识别模型进行训练，以得到训练后的多模态语音识别模型。

根据本申请提供的一种模型训练装置，所述初始化后的多模态语音识别模型包括多模态感知模块、声学编码模块、CIF模块以及解码模块，所述第二处理单元，具体用于：

针对每个所述样本对执行以下处理：

根据本申请提供的一种模型训练装置，所述解码模块包括串联的特征融合层和后处理模块，所述第二处理单元，具体用于：

根据本申请提供的一种模型训练装置，所述特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层，所述第二处理单元，具体用于：

根据本申请提供的一种模型训练装置，所述特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层，所述第二处理单元，具体用于：

根据本申请提供的一种模型训练装置，所述第二处理单元：具体用于：

针对各所述语音样本，根据所述语音样本对应的标签文本序列和所述第一语音特征向量序列，构造所述语音样本对应的连接时序分类损失函数；根据所述语音样本对应的所述权重序列标签和所述预测权重序列，构造所述语音样本对应的数量损失函数；并根据所述语音样本对应的所述标签文本序列的概率值和预测文本序列的概率值，构造所述语音样本对应的交叉熵损失函数。

根据本申请提供的一种模型训练装置，所述第二处理单元，具体用于：

第四方面，本申请还提供一种语音识别装置，包括：

第三获取单元，用于获取待识别语音、所述待识别语音对应的视觉图像和文本。

第三处理单元，用于将所述待识别语音、所述视觉图像以及所述文本输入至多模态语音识别模型中，得到所述待识别语音对应的预测文本和所述预测文本的概率值，所述多模态语音识别模型为上述第一方面任一项训练得到的所述多模态语音识别模型。

根据本申请提供的一种语音识别装置，所述多模态语音识别模型包括多模态感知模块、声学编码模块、连续整合发放CIF模块以及解码模块，所述第三处理单元，具体用于：

将所述待识别语音对应的声学表征序列输入至所述声学编码模块中，得到所述待识别语音对应的第一语音特征向量序列，并将所述第一语音特征向量序列输入至所述CIF模块中，通过所述CIF模块确定所述待识别语音对应的预测权重序列，并基于所述预测权重序列确定所述待识别语音对应的第二语音特征向量序列。

根据本申请提供的一种语音识别装置，所述解码模块包括串联的特征融合层和后处理模块，所述第三处理单元，具体用于：

根据本申请提供的一种语音识别装置，所述特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层，所述第三处理单元，具体用于：

根据本申请提供的一种语音识别装置，所述特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层，所述第三处理单元，具体用于：

第五方面，本申请还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面任一项所述的模型训练方法；或者，实现如上述第二方面任一项所述的语音识别方法。

第六方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的模型训练方法；或者，实现如上述第二方面任一项所述的语音识别方法。

第七方面，本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的模型训练方法；或者，实现如上述第二方面任一项所述的语音识别方法。

本申请提供的模型训练方法、语音识别方法、装置和电子设备，在训练多模态语音识别模型时，通过获取基于连续整合发放CIF机制训练得到的语音识别模型，并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化；再基于多个样本对对初始化后的多模态语音识别模型进行训练，以得到训练后的多模态语音识别模型。这样整合多模态感知信息，即语音样本，语音样本对应的视觉图像样本和文本样本进行融合，共同对初始化后的多模态语音识别模型进行训练，使得训练出的多模态语音识别模型在进行语音识别时，在多模态语音识别中引入了情境视觉知识和情境语言知识，且无需要求唇动视觉信息与语音内容在时间上严格对齐，从而有效地提高了语音识别性能，拓展了多模态语音识别的边界。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的流程示意图；

图2为本申请实施例提供的一种基于CIF机制训练得到的语音识别模型的结构示意图；

图3为本申请实施例提供的一种初始化后的多模态语音识别模型的结构示意图；

图4为本申请实施例提供的一种语音识别方法的流程示意图；

图5为本申请实施例提供的一种模型训练装置的结构示意图；

图6为本申请实施例提供的一种语音识别装置的结构示意图；

图7为本申请实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。在本申请的文字描述中，字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供的技术方案可以应用于视频字幕生成、视频会议转写等较多场景中。以应用于视频字幕生成场景为例，通过语音识别模型可以识别出相关的语音信息，并将对应的语音信息转换为文字信息，从而根据所转换的文字信息生成视频字幕。

现有技术中，在训练语音识别模型时，主要是以语音信息为主模态信息，并结合语音信息对应的唇动视觉信息作为辅助信息共同用于训练语音识别模型，即以语音样本为主，结合语音样本对应的唇动视觉信息训练语音识别模型。但是，采用该种技术方案，需要保证唇动视觉信息与语音样本的内容在时间上严格对齐，而实际的很多语音识别场景很难保证唇动视觉信息与语音样本的内容在时间上严格对齐，从而导致语音识别模型的语音识别性能较差。

因此，为了训练一种语音识别性能较好的语音识别模型，在训练多模态语音识别模型时，以语音样本为主，通过基于连续整合发放（Continuous Integrate-and-Fire,CIF）机制训练得到的语音识别模型的中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化，得到初始化后的多模态语音识别模型，这个过程可以理解为多模态语音识别模型的预训练过程；在通过预训练得到初始化后的多模态语音识别模型的基础上，整合多模态感知信息，即语音样本，语音样本对应的视觉图像样本和文本样本进行融合，共同对初始化后的多模态语音识别模型进行训练，该过程可以理解为采用多模态感知信息对初始化后的多模态语音识别模型进行混合微调的过程，这样训练出的多模态语音识别模型在进行语音识别时，不仅可以拓展多模态语音识别的边界，而且在多模态语音识别中引入了情境视觉知识和情境语言知识，从而有效地提高了语音识别性能。

可以理解的是，在本申请实施例中，通过多模态语音识别模型的预训练过程和混合微调过程，其目的在于：一方面，通过用于训练语音识别模型的通用语音识别数据集对声学编码模块进行预训练，以提供较强的通用声学建模能力；另一方面，在混合微调阶段，通过语音样本，语音样本对应的视觉图像样本和文本样本对初始化后的多模态语音识别模型进行训练，在多模态语音识别中引入了情境视觉知识和情境语言知识，拓展了多模态语音识别的边界，使得训练好的多模态语音识别模型具备整合情境多模态知识的能力。

下面，将通过下述实施例一对本申请提供的模型训练方法进行详细地说明。可以理解的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

实施例一

图1为本申请实施例提供的一种模型训练方法的流程示意图，该模型训练方法可以由软件和/或硬件装置执行。示例的，请参见图1所示，该模型训练方法可以包括：

S101，获取基于连续整合发放CIF机制训练得到的语音识别模型。

其中，基于连续整合发放CIF机制训练得到的语音识别模型是基于多个语音样本训练得到的。示例地，可参见图2所示，图2为本申请实施例提供的一种基于CIF机制训练得到的语音识别模型的结构示意图，该语音识别模型包括声学编码器、CIF模块和解码器。其中，声学编码器主要包括一个卷积前端和一个Conformer模块；CIF模块主要包括一个一维卷积层、一个全连接层、以及一个紧随其后的sigmoid激活函数；解码器主要包括几个全连接层和一个Transformer模块，是一个带有未来掩码的自回归解码器。

在通过多个语音样本训练图2所示的基于CIF机制训练得到的语音识别模型时，针对各语音样本，可以先将语音样本的声学表征的特征序列输入至声学编码器中的卷积前端中，通过卷积前端对声学表征的特征序列进行2倍降采样，再将卷积前端降采样后的输出作为Conformer模块的输入，Conformer模块通过两个最大池化层对采样后的输出进行4倍降采样，得到并输出语音样本的低级声学表示序列/>。

将声学编码器输出的低级声学表征序列输入至CIF模块中的一维卷积层中，通过一维卷积层提取低级声学表征序列/>中的低级声学表征信息，输出对应的特征序列，再将该特征序列映射为维度为1的特征序列，该维度为1的特征序列经过激活函数得到对应的预测权重序列/>，其中，/>为[0，1]之间的一个取值，/>表示预测权重序列中的第u个时刻对应的权重；预测权重序列/>再经过缩放（Scaling）处理以及整合发放（Integrate&Fire）处理，得到语音样本的高级声学表示序列/>。

需要说明的是，在通过CIF模块将低级声学表征序列处理为高级声学表示序列的过程中，沿时间轴逐步累积权重/>，当累积的权重超过阈值时，相邻符号之间声学边界的发放就会产生。

示例地，在本申请实施例中，发放时刻的权重将被分成两部分：第一部分用于发放边界前一时刻的符号的权重积累，当权重积累值达到时，CIF模块通过以权重为加权因子的加权求和对相邻声学边界之间的/>进行汇总；第二部分用于发放边界后一时刻的符号的权重积累。重复上述整合发放过程，最终得到并输出语音样本的高级声学表示序列。

将前一时刻的预测文本和前一时刻的高级声学表征/>进行融合和映射，以将融合后的声学表征序列映射到与transformer模块相匹配的维度，将映射后的信息输入到transformer模块进行进一步地编码，将编码后的声学表征序列与当前时刻的高级声学表征/>进行融合和映射，以输出语音样本对应的预测文本序列，并通过softmax层输出预测文本序列/>对应的概率值，/>为预测文本/>对应的概率值。

结合上述描述，可以得到用于训练基于连续整合发放CIF机制训练得到的语音识别模型的多个语音样本中各语音样本对应的预测文本序列和预测文本序列/>对应的概率值；针对各语音样本，再根据语音样本对应的标签文本序列和低级声学表示序列，构造语音样本对应的连接时序分类(Connectionisttemporal classification，CTC)损失函数，根据语音样本对应的权重序列标签和预测权重序列预测权重序列/>，构造语音样本对应的数量损失函数；并根据语音样本对应的标签文本序列的概率值和预测文本序列/>的概率值/>，构造语音样本对应的交叉熵损失函数；再根据各语音样本对应的连接时序分类损失函数、数量损失函数以及交叉熵损失函数，对初始化后的多模态语音识别模型进行训练，以训练得到基于连续整合发放CIF机制训练得到的语音识别模型。

上述基于连续整合发放CIF机制训练得到的语音识别模型，可以保留语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化，即执行下述S102：

S102、基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化，得到初始化后的多模态语音识别模型。

需要说明的是，在本申请实施例中，基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化的过程，可以理解为多模态语音识别模型的预训练过程；之后，可以在通过初始化后的多模态语音识别模型的基础上，整合多模态感知信息，即语音样本，语音样本对应的视觉图像样本和文本样本进行融合，共同对初始化后的多模态语音识别模型进行训练，即执行下述S103和S104，该过程可以理解为采用多模态感知信息对初始化后的多模态语音识别模型进行混合微调的过程，这样可以较好地提高训练得到的多模态语音识别模型的通用语音识别能力。

可以理解的是，在对初始声学编码模块进行初始化时，除了初始化初始声学编码模块的模型参数和初始CIF模块的模型参数之外，还会初始化其他参数，在此，本申请实施例不再进行赘述。

S103、获取多个样本对，各样本对包括语音样本、语音样本对应的视觉图像样本和文本样本。

其中，语音样本是进行语音识别的主要依据，提供了基础的发音信息，因此，语音样本中的音频模态是该模型的输入主模态；语音样本对应的视觉图像样本和文本样本分别对应了视觉模态和语言模态，以音频模态、视觉模态和语言模态组成的多模态信息，实现跨模态的知识融合，可以在模型层面捕捉到更多的语义相关联的信息。

示例地，在获取多个样本对时，可以接收其他电子设备发送的多个样本对；也可以从本地存储中查找多个样本对；或者，还可以从第三方数据库中获取多个样本对，具体可以根据实际需要进行设置，在此，本申请实施例只是以这三种方式获取多个样本对为例进行说明，但并不代表本申请实施例仅局限于此。

在获取到多个样本对后，可以基于多个样本对对初始化后的多模态语音识别模型进行训练，即执行下述S104：

S104、基于多个样本对对初始化后的多模态语音识别模型进行训练，以得到训练后的多模态语音识别模型。

示例地，可参见图3所示，图3为本申请实施例提供的一种初始化后的多模态语音识别模型的结构示意图，与上述图2所示的基于连续整合发放CIF机制的语音识别模型不同的是，初始化后的多模态语音识别模型中增加了一个多模态感知模块，且与基于连续整合发放CIF机制的语音识别模型的解码模块不同，即在本申请实施例中，如图2所示，初始化后的多模态语音识别模型包括多模态感知模块、声学编码模块、CIF模块以及解码模块。

示例地，多模态感知模块可以采用模态独立编码的方式，即分别包括文本编码器和视觉编码器。示例地，在本申请实施例中，可以采用BERT作为文本编码器，VisionTransformer作为视觉编码器，当然，也可以采用其他的文本编码器和视觉编码器，或视觉文本联合编码器。具体可以根据实际需要进行设置，在此，本申请实施例不做具体限制。

示例地，基于多个样本对对初始化后的多模态语音识别模型进行训练，可以将样本对中的语音样本对应的声学表征序列输入至声学编码模块中，得到语音样本对应的第一语音特征向量序列；并将第一语音特征向量序列输入至CIF模块中，通过CIF模块确定语音样本对应的预测权重序列；并基于预测权重序列确定语音样本对应的第二语音特征向量序列；同时将样本对中的视觉图像样本输入至多模态感知模块中的视觉图像编码器中，得到视觉图像样本对应的视觉特征向量序列；再将样本对中的文本样本输入至多模态感知模块中的文本编码器中，得到文本样本对应的文本特征向量序列；可以理解的，第二语音特征向量可以理解为多个第二语音特征向量构成的序列。之后，在每个解码时刻，将前一时刻的预测文本表征向量、CIF模块输出的前一时刻对应的第二语音特征向量、CIF模块输出的当前时刻对应的第二语音特征向量、视觉特征向量序列以及文本特征向量序列输入至解码模块中，得到语音样本在当前时刻的预测文本的概率值；再根据各语音样本对应的标签文本序列、第一语音特征向量序列、权重序列标签、预测权重序列、标签文本序列的概率值以及预测文本序列的概率值，对初始化后的多模态语音识别模型进行训练。

示例地，在本申请实施例中，声学编码器主要包括一个卷积前端和一个Conformer模块。在通过声学编码器获取语音样本对应的第一语音特征向量时，可以先将样本对中的语音样本的声学表征的特征序列输入至声学编码器中的卷积前端中，通过卷积前端对声学表征的特征序列/>进行2倍降采样，再将卷积前端降采样后的输出作为Conformer模块的输入，Conformer模块通过两个最大池化层对采样后的输出进行4倍降采样，得到语音样本的低级声学表示序列，该语音样本的低级声学表示序列/>即为语音样本对应的第一语音特征向量序列。

示例地，在本申请实施例中，CIF模块主要包括一个一维卷积层、一个全连接层、以及一个紧随其后的sigmoid激活函数。通过CIF模块获取语音样本对应的预测权重序列；并基于预测权重序列确定语音样本对应的第二语音特征向量序列时，可以先将声学编码器输出的低级声学表征序列输入至CIF模块中的一维卷积层中，通过一维卷积层进一步提取低级声学表征序列/>中的声学表征信息，输出对应的特征序列，再将该特征序列映射为维度为1的特征序列，该维度为1的特征序列经过sigmoid激活函数后得到对应的预测权重序列/>；其中，/>为[0，1]之间的一个值，/>表示预测权重序列中的第u个时刻对应的权重；预测权重序列/>再经过缩放（Scaling）处理以及整合发放（Integrate&Fire）处理，得到语音样本的高级声学表示序列/>，该语音样本的高级声学表示序列/>即为语音样本对应的第二语音特征向量序列。

需要说明的是，在本申请实施例中，CIF模块的相关实现与上述S101中CIF模块的相关实现类似，可参见上述S101中CIF模块的相关实现，在此，本申请实施例不再进行赘述。

示例地，在本申请实施例中，解码模块主要包括串联的特征融合层和后处理模块。通过解码模块获取语音样本对应的预测文本的概率值时，可以先将上述前一时刻的预测文本表征向量和前一时刻对应的第二语音特征向量融合得到的特征向量、视觉特征向量序列以及文本特征向量序列输入至特征融合层进行融合，得到目标融合特征向量；再将目标融合特征向量和当前时刻对应的第二语音特征向量，即上述的当前时刻的高级声学表征输入至后处理模块中，得到预测文本序列/>对应的概率值，/>为预测文本/>对应的概率值。

示例地，在一种可能的场景中，特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层。在这种可能的场景中，同样可以先将前一时刻的预测文本表征向量和前一时刻对应的第二语音特征向量，即上述前一时刻的高级声学表征融合得到的特征向量输入至声学语言融合层，得到第一融合特征向量；并将视觉特征向量序列和第一融合特征向量输入至视觉融合层进行融合，得到第二融合特征向量；再将文本特征向量序列和第二融合特征向量输入至语言融合层进行融合，得到目标融合特征向量。

示例地，在另一种可能的场景中，特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层。在这种可能的场景中，可以先将前一时刻的预测文本表征向量和前一时刻对应的第二语音特征向量，即上述前一时刻的高级声学表征融合得到的特征向量输入至声学语言融合层，得到第一融合特征向量；并将文本特征向量序列和第一融合特征向量输入至语言融合层进行融合，得到第三融合特征向量；再将视觉特征向量序列和第三融合特征向量输入至视觉融合层进行融合，得到目标融合特征向量。

其中，视觉融合层通过交叉注意力机制（Cross-Attention）整合情境视觉知识；语言融合层通过交叉注意力机制整合情境语言知识。

示例地，在本申请实施例中，可参见图3所示，后处理模块主要包括一个全连接层（FC层）和一个softmax层。在通过特征融合层得到目标融合特征向量后，可以对目标融合特征向量和第二语音特征向量，即上述的当前时刻的高级声学表征进行融合，输出语音样本对应的预测文本序列/>，并通过softmax层输出预测文本序列对应的概率值/>，/>为预测文本/>对应的概率值。

结合上述描述，可以得到各语音样本对应的标签文本序列、第一语音特征向量序列、预测权重序列以及预测文本的概率值。在得到各语音样本对应的标签文本序列、第一语音特征向量序列、预测权重序列以及预测文本的概率值后，可以根据各语音样本对应的标签文本序列、第一语音特征向量序列、权重序列标签、预测权重序列、标签文本序列的概率值以及预测文本序列的概率值，对初始化后的多模态语音识别模型进行训练。

示例地，根据各语音样本对应的标签文本序列、第一语音特征向量序列、权重序列标签、预测权重序列、标签文本序列的概率值以及预测文本序列的概率值，对初始化后的多模态语音识别模型进行训练时，针对各语音样本，可以根据语音样本对应的标签文本序列和第一语音特征向量序列，构造语音样本对应的连接时序分类损失函数；并根据语音样本对应的权重序列标签和预测权重序列，构造语音样本对应的数量损失函数；并根据语音样本对应的标签文本序列的概率值和预测文本序列的概率值，构造语音样本对应的交叉熵损失函数；再根据各语音样本对应的连接时序分类损失函数、数量损失函数以及交叉熵损失函数，对初始化后的多模态语音识别模型进行训练。

示例地，根据各语音样本对应的连接时序分类损失函数、数量损失函数以及交叉熵损失函数，对初始化后的多模态语音识别模型进行训练时，针对各语音样本，可以先对语音样本对应的连接时序分类损失函数、数量损失函数、以及交叉熵损失函数进行加权处理，得到语音样本对应的目标损失函数；再根据各语音样本对应的目标损失函数，对初始化后的多模态语音识别模型进行训练，直至训练后的多模态语音识别模型满足预设条件，并将满足预设条件的多模态语音识别模型，确定为训练得到的多模态语音识别模型。

示例地，预设条件包括训练次数达到预设次数，和/或，训练后的多模态语音识别模型收敛。

可以看出，本申请实施例，在训练多模态语音识别模型时，通过获取基于连续整合发放CIF机制训练得到的语音识别模型，并基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化；再基于多个样本对对初始化后的多模态语音识别模型进行训练，以得到训练后的多模态语音识别模型。这样整合多模态感知信息，即语音样本，语音样本对应的视觉图像样本和文本样本进行融合，共同对初始化后的多模态语音识别模型进行训练，使得训练出的多模态语音识别模型在进行语音识别时，在多模态语音识别中引入了情境视觉知识和情境语言知识，且无需唇动视觉信息与语音内容在时间上严格对齐，从而有效地提高了语音识别性能，拓展了多模态语音识别的边界。

实施例二

图4为本申请实施例提供的一种语音识别方法的流程示意图，该语音识别方法可以由软件和/或硬件装置执行。示例的，请参见图4所示，该模型训练方法可以包括：

S401、获取待识别语音、待识别语音对应的视觉图像和文本。

S402、将待识别语音、视觉图像以及文本输入至多模态语音识别模型中，得到待识别语音对应的预测文本和预测文本的概率值。

其中，多模态语音识别模型为上述实施例训练得到的多模态语音识别模型。

示例地，多模态语音识别模型包括多模态感知模块、声学编码模块、连续整合发放CIF模块以及解码模块，将待识别语音、视觉图像以及文本输入至多模态语音识别模型中，得到待识别语音对应的预测文本和预测文本的概率值，包括：

将待识别语音对应的声学表征序列输入至声学编码模块中，得到待识别语音对应的第三语音特征向量序列，并将第三语音特征向量序列输入至CIF模块中，通过CIF模块确定待识别语音对应的预测权重序列，并基于预测权重序列确定待识别语音对应的第四语音特征向量序列。

将视觉图像输入至多模态感知模块中的视觉图像编码器中，得到视觉图像对应的视觉特征向量序列。

将文本输入至多模态感知模块中的文本编码器中，得到文本对应的文本特征向量序列。

在每个解码时刻，将前一时刻的预测文本表征向量、前一时刻对应的第四语音特征向量、当前时刻对应的第四语音特征向量、视觉特征向量序列以及文本特征向量序列输入至解码模块中，得到待识别语音在当前时刻的预测文本和预测文本的概率值。

示例地，解码模块包括串联的特征融合层和后处理模块，将前一时刻的预测文本表征向量、前一时刻对应的第四语音特征向量、当前时刻对应的第四语音特征向量、视觉特征向量序列以及文本特征向量序列输入至解码模块中，得到待识别语音在当前时刻的预测文本和预测文本的概率值，包括：

将前一时刻的预测文本表征向量和前一时刻对应的第四语音特征向量融合得到的特征向量、视觉特征向量序列以及文本特征向量序列输入至特征融合层进行融合，得到融合特征向量。

将融合特征向量和第四语音特征向量输入至后处理模块中，得到预测文本和预测文本的概率值。

示例地，特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层，将前一时刻的预测文本表征向量和前一时刻对应的第四语音特征向量融合得到的特征向量、视觉特征向量序列以及文本特征向量序列输入至特征融合层进行融合，得到融合特征向量，包括：

将前一时刻的预测文本表征向量和前一时刻对应的第四语音特征向量融合得到的特征向量输入至声学语言融合层，得到第四融合特征向量。

将视觉特征向量序列和第四融合特征向量输入至视觉融合层进行融合，得到第五融合特征向量。

将文本特征向量序列和第五融合特征向量输入至语言融合层进行融合，得到融合特征向量。

示例地，特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层，将前一时刻的预测文本表征向量和前一时刻对应的第四语音特征向量融合得到的特征向量、视觉特征向量序列以及文本特征向量序列输入至特征融合层进行融合，得到融合特征向量，包括：

将文本特征向量序列和第四融合特征向量输入至语言融合层进行融合，得到第六融合特征向量。

将视觉特征向量序列和第六融合特征向量输入至视觉融合层进行融合，得到融合特征向量。

需要说明的是，本申请实施例中，语音识别方法的具体实现，与上述图1所示的实施例中多模态语音识别模型训练方法的具体实现类似，可参见上述图1所示的实施例中多模态语音识别模型训练方法的具体实现，在此，本申请实施例不再进行赘述。

可以看出，在本申请实施例中，在进行语音识别时，通过获取待识别语音、待识别语音对应的视觉图像和文本；并将待识别语音、视觉图像以及文本输入至多模态语音识别模型中，得到待识别语音对应的预测文本和预测文本的概率值，这样通过多模态语音识别模型进行语音识别时，在多模态语音识别中引入了情境视觉知识和情境语言知识，从而有效地提高了语音识别性能，拓展了多模态语音识别的边界。

图5为本申请实施例提供的一种模型训练装置的结构示意图，示例的，请参见图5所示，该模型训练装置50可以包括：

第一获取单元501，用于获取基于连续整合发放CIF机制训练得到的语音识别模型。

第一处理单元502，用于基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化，得到初始化后的多模态语音识别模型。

第二获取单元503，用于获取多个样本对，各样本对包括语音样本、语音样本对应的视觉图像样本和文本样本。

第二处理单元504，用于基于多个样本对对初始化后的多模态语音识别模型进行训练，以得到训练后的多模态语音识别模型。

可选地，初始化后的多模态语音识别模型包括多模态感知模块、声学编码模块、CIF模块以及解码模块，第二处理单元504，具体用于：

针对每个样本对执行以下处理：

将样本对中的语音样本对应的声学表征序列输入至声学编码模块中，得到语音样本对应的第一语音特征向量序列，并将第一语音特征向量序列输入至CIF模块中，通过CIF模块确定语音样本对应的预测权重序列，并基于预测权重序列确定语音样本对应的第二语音特征向量序列。

将样本对中的视觉图像样本输入至多模态感知模块中的视觉图像编码器中，得到视觉图像样本对应的视觉特征向量序列。

将样本对中的文本样本输入至多模态感知模块中的文本编码器中，得到文本样本对应的文本特征向量序列。

根据各语音样本对应的标签文本序列、第一语音特征向量序列、权重序列标签、预测权重序列、标签文本序列的概率值以及预测文本序列的概率值，对初始化后的多模态语音识别模型进行训练。

可选地，解码模块包括串联的特征融合层和后处理模块，第二处理单元504，具体用于：

可选地，特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层，第二处理单元504，具体用于：

将视觉特征向量序列和第一融合特征向量输入至视觉融合层进行融合，得到第二融合特征向量。

将文本特征向量序列和第二融合特征向量输入至语言融合层进行融合，得到目标融合特征向量。

可选地，特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层，第二处理单元504，具体用于：

将文本特征向量序列和第一融合特征向量输入至语言融合层进行融合，得到第三融合特征向量。

将视觉特征向量序列和第三融合特征向量输入至视觉融合层进行融合，得到目标融合特征向量。

可选地，第二处理单元504：具体用于：

针对各语音样本，根据语音样本对应的标签文本序列和第一语音特征向量序列，构造语音样本对应的连接时序分类损失函数；根据语音样本对应的权重序列标签和预测权重序列，构造语音样本对应的数量损失函数；并根据语音样本对应的标签文本序列的概率值和预测文本序列的概率值，构造语音样本对应的交叉熵损失函数。

根据各语音样本对应的连接时序分类损失函数、数量损失函数以及交叉熵损失函数，对初始化后的多模态语音识别模型进行训练。

可选地，第二处理单元504，具体用于：

针对各语音样本，对语音样本对应的连接时序分类损失函数、数量损失函数、以及交叉熵损失函数进行加权处理，得到语音样本对应的目标损失函数。

根据各语音样本对应的目标损失函数，对初始化后的多模态语音识别模型进行训练。

本申请实施例提供的模型训练装置50，可以执行上述任一实施例中模型训练方法的技术方案，其实现原理以及有益效果与模型训练方法的实现原理及有益效果类似，可参见模型训练方法的实现原理及有益效果，此处不再进行赘述。

图6为本申请实施例提供的一种语音识别装置的结构示意图，示例的，请参见图6所示，该语音识别装置60可以包括：

第三获取单元601，用于获取待识别语音、待识别语音对应的视觉图像和文本。

第三处理单元602，用于将待识别语音、视觉图像以及文本输入至多模态语音识别模型中，得到待识别语音对应的预测文本和预测文本的概率值，多模态语音识别模型为模型训练得到的多模态语音识别模型。

可选地，多模态语音识别模型包括多模态感知模块、声学编码模块、连续整合发放CIF模块以及解码模块，第三处理单元602，具体用于：

可选地，解码模块包括串联的特征融合层和后处理模块，第三处理单元602，具体用于：

将融合特征向量和当前时刻对应的第四语音特征向量输入至后处理模块中，得到预测文本和预测文本的概率值。

可选地，特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层，第三处理单元602，具体用于：

可选地，特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层，第三处理单元602，具体用于：

本申请实施例提供的语音识别装置60，可以执行上述任一实施例中语音识别方法的技术方案，其实现原理以及有益效果与语音识别方法的实现原理及有益效果类似，可参见语音识别方法的实现原理及有益效果，此处不再进行赘述。

图7为本申请实施例提供的一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行上述各方法所述模型训练方法，或者，语音识别方法。

其中，模型训练方法包括：获取基于连续整合发放CIF机制训练得到的语音识别模型；基于语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化，得到初始化后的多模态语音识别模型；获取多个样本对，各样本对包括语音样本、语音样本对应的视觉图像样本和文本样本；基于多个样本对对初始化后的多模态语音识别模型进行训练，以得到训练后的多模态语音识别模型。

语音识别方法包括：获取待识别语音、待识别语音对应的视觉图像和文本；将待识别语音、视觉图像以及文本输入至多模态语音识别模型中，得到待识别语音对应的预测文本和预测文本的概率值，多模态语音识别模型为上述实施例一任一项训练得到的多模态语音识别模型。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所述模型训练方法，或者，语音识别方法。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所述模型训练方法，或者，语音识别方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

获取基于连续整合发放CIF机制训练得到的语音识别模型；

基于所述语音识别模型中声学编码模块的模型参数和CIF模块的模型参数，分别对初始多模态语音识别模型中初始声学编码模块的模型参数和初始CIF模块的模型参数进行初始化，得到初始化后的多模态语音识别模型；

获取多个样本对，各样本对包括语音样本、所述语音样本对应的视觉图像样本和文本样本；

基于所述多个样本对对所述初始化后的多模态语音识别模型进行训练，以得到训练后的多模态语音识别模型；

其中，所述初始化后的多模态语音识别模型包括多模态感知模块、声学编码模块、CIF模块以及解码模块，所述基于所述多个样本对对所述初始化后的多模态语音识别模型进行训练，包括：

针对每个所述样本对执行以下处理：

将所述样本对中的语音样本对应的声学表征序列输入至所述声学编码模块中，得到所述语音样本对应的第一语音特征向量序列，并将所述第一语音特征向量序列输入至所述CIF模块中，通过所述CIF模块确定所述语音样本对应的预测权重序列，并基于所述预测权重序列确定所述语音样本对应的第二语音特征向量序列；

将所述样本对中的视觉图像样本输入至所述多模态感知模块中的视觉图像编码器中，得到所述视觉图像样本对应的视觉特征向量序列；

将所述样本对中的文本样本输入至所述多模态感知模块中的文本编码器中，得到所述文本样本对应的文本特征向量序列；

在每个解码时刻，将前一时刻的预测文本表征向量、所述前一时刻对应的第二语音特征向量、当前时刻对应的第二语音特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述解码模块中，得到所述语音样本在当前时刻的预测文本的概率值；

2.根据权利要求1所述的模型训练方法，其特征在于，所述解码模块包括串联的特征融合层和后处理模块，所述将前一时刻的预测文本表征向量、所述前一时刻对应的第二语音特征向量、当前时刻对应的第二语音特征向量、所述视觉特征向量序列以及所述文本特征向量序列输入至所述解码模块中，得到所述语音样本在当前时刻的预测文本的概率值，包括：

将所述前一时刻的预测文本表征向量和所述前一时刻对应的第二语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列均输入至所述特征融合层进行融合，得到目标融合特征向量；

3.根据权利要求2所述的模型训练方法，其特征在于，所述特征融合层包括依次串联的声学语言融合层、视觉融合层、以及语言融合层，所述将所述前一时刻的预测文本表征向量和所述前一时刻对应的第二语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列均输入至所述特征融合层进行融合，得到目标融合特征向量，包括：

将所述前一时刻的预测文本表征向量和所述前一时刻对应的第二语音特征向量融合得到的特征向量输入至所述声学语言融合层，得到第一融合特征向量；

将所述视觉特征向量序列和所述第一融合特征向量输入至所述视觉融合层进行融合，得到第二融合特征向量；

4.根据权利要求2所述的模型训练方法，其特征在于，所述特征融合层包括依次串联的声学语言融合层、语言融合层、以及视觉融合层，所述将所述前一时刻的预测文本表征向量和所述前一时刻对应的第二语音特征向量融合得到的特征向量、所述视觉特征向量序列以及所述文本特征向量序列均输入至所述特征融合层进行融合，得到目标融合特征向量，包括：

将所述文本特征向量序列和所述第一融合特征向量输入至所述语言融合层进行融合，得到第三融合特征向量；

5.根据权利要求1-4任一项所述的模型训练方法，其特征在于，所述根据各所述语音样本对应的标签文本序列、所述第一语音特征向量序列、权重序列标签、所述预测权重序列、所述标签文本序列的概率值以及预测文本序列的概率值，对所述初始化后的多模态语音识别模型进行训练，包括：

针对各所述语音样本，根据所述语音样本对应的标签文本序列和所述第一语音特征向量序列，构造所述语音样本对应的连接时序分类损失函数；根据所述语音样本对应的所述权重序列标签和所述预测权重序列，构造所述语音样本对应的数量损失函数；并根据所述语音样本对应的所述标签文本序列的概率值和预测文本序列的概率值，构造所述语音样本对应的交叉熵损失函数；

6.根据权利要求5所述的模型训练方法，其特征在于，所述根据各所述语音样本对应的连接时序分类损失函数、数量损失函数以及交叉熵损失函数，对所述初始化后的多模态语音识别模型进行训练，包括：

针对各所述语音样本，对所述语音样本对应的连接时序分类损失函数、所述数量损失函数、以及所述交叉熵损失函数进行加权处理，得到所述语音样本对应的目标损失函数；

7.一种语音识别方法，其特征在于，包括：

获取待识别语音、所述待识别语音对应的视觉图像和文本；

将所述待识别语音、所述视觉图像以及所述文本输入至多模态语音识别模型中，得到所述待识别语音对应的预测文本和所述预测文本的概率值，所述多模态语音识别模型为上述权利要求1-6任一项训练得到的所述多模态语音识别模型。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述的模型训练方法；或者，实现如权利要求7所述的语音识别方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的模型训练方法；或者，实现如权利要求7所述的语音识别方法。