CN114724548A

CN114724548A - 多模态语音识别模型的训练方法、语音识别方法及设备

Info

Publication number: CN114724548A
Application number: CN202210235261.6A
Authority: CN
Inventors: 张自强; 戴礼荣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-07-08

Abstract

本发明公开了一种多模态语音识别模型的训练方法，包括：利用多模态语言识别模型处理无标签的音视频数据，得到无标签的音视频特征；利用跨模态采样机制对无标签的音视频特征进行采样，得到样本表征；利用多模态语音识别模型处理无标签的音视频特征，得到无标签的融合表征；利用预训练损失函数处理无标签的融合表征和样本表征并根据预训练损失值优化多模态语音识别模型；根据预设任务需求，利用多模态语音识别模型处理带标签的音视频数据，得到带标签的融合表征；利用微调损失函数处理带标签的融合表征并根据微调损失值优化多模态语音识别模型；迭代进行预训练优化操作和微调优化操作，直到微调损失值满足预设条件，得到训练完成的多模态语音识别模型。

Description

多模态语音识别模型的训练方法、语音识别方法及设备

技术领域

本发明涉及语音信号处理领域，具体涉及一种多模态语音识别模型的训练方法、语音识别方法、电子设备及存储介质。

背景技术

深度学习的发展带来语音识别技术的飞速发展，但单一模态下的***仍然存在一些固有的问题，比如自动语音识别(Automatic Speech Recognition，ASR)对噪声的容忍性不足，噪声污染严重时性能大幅度下降，声音缺失时也无法补足这一缺失的信息。视频语音识别，或称唇语识别(Visual Speech Recognition，VSR)存在同音异意词的现象，相同的唇形可能代表了不同的单词发音，同一个单词发音也可能有不同的唇形序列，针对单一模态下存在的不足，音视频语音识别(Audio-Visual Speech Recognition，AVSR)被提出。

此外，现有技术中，对于音视频语音识别来说，需要大量的人工标注数据，而标注数据相当耗时且昂贵。同时，在现有技术中采用无监督音视频表征学习的方法存在各种问题：首先，采用无监督音视频表征学习的模型大多学习，比如像声音事件分类场景中的短时实例级表征，这样的学习目标可能不适合语音识别，因为语音识别需要帧级别连续变化并包含长期上下文依赖性的序列表征。其次，音频表征和视频表征是分别提取的。尽管可以通过损失函数联合优化单个模态表征，但缺乏中间交互限制了跨模态的信息流。

发明内容

有鉴于此，本发明提供了一种多模态语音识别模型的训练方法、语音识别方法、电子设备及存储介质，以期至少解决上述技术问题之一。

根据本发明实施例，提供了一种多模态语音识别模型的训练方法，包括：

利用多模态语言识别模型处理无标签的音视频数据，得到无标签的音视频特征，其中，音视频特征包括音频特征和视频特征；

利用跨模态采样机制对无标签的音视频特征进行采样，得到样本表征；

利用多模态语音识别模型处理无标签的音视频特征，得到无标签的融合表征；

利用预训练损失函数处理无标签的融合表征和样本表征，并根据预训练损失值优化多模态语音识别模型；

根据预设任务需求，利用多模态语音识别模型处理带标签的音视频数据，得到带标签的融合表征，其中，预设任务需求包括时序任务和非时序任务；

利用微调损失函数处理带标签的融合表征，并根据微调损失值优化多模态语音识别模型；

迭代进行预训练优化操作和微调优化操作，直到微调损失值满足预设条件，得到训练完成的多模态语音识别模型。

根据本发明实施例，上述利用多模态语音识别模型处理无标签的音视频数据，得到无标签的音视频特征包括：

利用多模态语音识别模型的视频编码器模块提取无标签的音视频数据的视频特征；

利用多模态语音识别模型的音频编码器模块提取无标签的音视频数据的音频特征。

根据本发明实施例，上述利用多模态语音识别模型处理无标签的音视频特征，得到无标签的融合表征包括：

对音视频特征进行向量掩蔽运算，得到掩蔽后的音视频特征；

利用多模态语音识别模型的融合模块计算掩蔽后的音视频特征的上下文表征，得到无标签的融合表征。

根据本发明实施例，上述掩蔽后的音视频特征包括掩蔽后的视频特征和掩蔽后的音频特征；

其中，掩蔽后的视频特征由方程组(I)确定：

其中，

表示掩蔽后的视频特征，v_t表示视频特征，M_v表示视频特征掩蔽位置，m表示可学习的向量嵌入；

其中，掩蔽后的音频特征由方程组(II)确定：

其中，

表示掩蔽后的音频特征，a_t表示音频特征，M_a表示音频特征掩蔽位置，m表示可学习的向量嵌入。

根据本发明实施例，上述预训练损失函数包括音频对比损失函数和视频对比损失函数；

其中，音频对比损失函数由公式(1)确定：

其中，L_c→a表示音频对比损失函数，M_a表示音频特征掩蔽位置，c_t表示融合表征，a_t表示音频特征，a_i表示音频负样本表征，v_i表示视频负样本表征；

其中，视频对比损失函数由公式(2)确定：

其中，L_c→v表示视频对比损失函数，M_v表示视频特征掩蔽位置，c_t表示融合表征，v_t表示视频特征，a_i表示音频负例样本表征，v_i表示视频负例样本表征。

根据本发明实施例，上述根据预设任务需求，利用多模态语音识别模型处理带标签的音视频数据，得到带标签的融合表征包括：

根据预设任务需求，选定多模态语音识别模型的特征提取模块；

利用选定的特征提取模块处理带标签的音视频数据，得到带标签的音视频特征；

对带标签的音视频特征进行预处理，得到预处理后的带标签的音视频特征；

利用多模态语音识别模型的融合模块处理预处理后的带标签的音视频特征，得到带标签的上下文表征；

利用线性映射层处理带标签的上下文表征，得到带标签的融合表征。

根据本发明实施例，上述微调损失函数包括时序分类损失函数和交叉熵损失函数；

其中，时序分类损失函数用于时序任务；

其中，交叉熵损失函数用于非时序任务。

根据本发明实施例，提供了一种多模态语音识别方法，包括：

获取待识别的音视频数据和识别任务类型；

根据识别任务类型，利用多模态语音识别模型处理待识别的音视频数据，得到语音识别结果，其中多模态语音识别模型上述多模态语音识别模型的训练方法训练得到。

根据本发明实施例，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述多模态语音识别模型的训练方法和上述语音识别方法。

根据本发明实施例，提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述多模态语音识别模型的训练方法和上述语音识别。

本发明提供的多模态语音识别模型的训练方法通过利用无标签数据预训练语音识别模型和利用有标签数据微调语音识别模型，并充分挖掘数据的内在联系，得到具有较高识别准确率语音识别模型，并提高了语音识别的效率和降低了语音识别的成本。。同时通过本发明提供的语音识别模型的训练方法得到的语音识别模型能够完成不同类型的语音识别任务，大大提高了语音识别模型的泛化性，拓展了语音识别模型的应用场景。

附图说明

图1示意性示出了根据本发明实施例的多模态语音识别模型的训练方法的流程图；

图2示意性示出了根据本发明实施例的得到无标签的音视频特征的流程图；

图3示意性示出了根据本发明实施例得到带标签的融合表征的流程图；

图4示意性示出了根据本发明实施例的多模态语音识别模型的训练方法的架构图；

图5示意性示出了根据本发明实施例的多模态语音识别方法的流程图；

图6示意性示出了根据本发明实施例的适于实现多模态语音识别模型的训练方法和语音识别方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

人类以多模态方式感知语音，因为看着说话人的唇形有助于理解相应的声音。视频和音频模态的互补性已被广泛研究，并被证明可用于音视频语音识别，尤其是在嘈杂的环境中。由于无监督预训练已普遍用于低资源语音识别场景，然而，是否可以采用自监督预训练方法来提升音视频语音识别的性能还没有被很好的研究。目前已经有一些关于无监督音视频表征学习的研究，例如，可以通过音视频同步和实例判别等方法学习音视频表征。或者也可以使用一种模态作为目标来学习另一种模态。然而，上述技术方案存在识别成本高、泛化性差、识别准确性低等问题，针对上述问题，现有技术做出了相应的改进，例如提出一个新的训练目标，音频嵌入表征用于在时间维度上重建后续视觉图像，或设计视频-音频修复任务，使用视频信息和音频上下文信息预测被掩蔽的语谱图信息；或采用多种融合策略，包括跨模态注意力机制和单模态BERT。然而上述改进并未能很好地解决现有技术中存在的问题。

针对现有技术中存在的问题，本发明提供了一种基于自监督预训练的多模态语音识别模型的训练方法，通过对已有的单模态(例如wav2vec2.0)的多模态扩展，将音视频对齐和掩蔽预测扩展到一个统一的学习目标：音视频恢复，模型使用两种模态的互补性和序列中的上下文信息来恢复被掩蔽的损坏信息。上述语音识别模型可以学习三种类型的表征，音频表征、视频表征和融合表征。融合表征通过融合模块学习跨模态信息和上下文信息，然后用于恢复损坏的音频和视频表征。同时，上述语音识别模型采用对比损失函数，其中需要恢复的目标帧的表征视为正样本，其他位置的音、视频帧视为负样本。与单模态掩蔽相比，多模态掩蔽策略更灵活地控制预训练模型访问信息的优先级，从而更好地驱动预训练模型学到融合表征。对于下游任务，融合表征可以直接用于音视频语音识别任务(AVSR)。此外，预训练模型还能通过在融合之前简单地掩蔽不相关的模态来应对单模态任务，如单模态语音识别(ASR)、唇语识别(VSR)和唇语孤立词识别(Lipreading)。

在本发明的技术方案中，所涉及的用户数据的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

图1示意性示出了根据本发明实施例的多模态语音识别模型的训练方法的流程图。

如图1所示，一种多模态语音识别模型的训练方法包括操作S110～操作S170。

在操作S110，利用多模态语言识别模型处理无标签的音视频数据，得到无标签的音视频特征，其中，音视频特征包括音频特征和视频特征。

在操作S120，利用跨模态采样机制对无标签的音视频特征进行采样，得到样本表征。

上述样本表征包括正例样本表征和负例样本表征。上述基于跨模态机制对音视频数据进行采样，获得正例样本表征和负例样本表征用于在预训练阶段的对比损失函数的计算，通常而言，在音频-视频预训练模型中，音频预训练负样本来自于音频，视频预训练负样本来自于视频。采用的跨模态采样的机制，使音频预训练负样本和视频预训练负样本既能来自音频模态数据也能来自视频模态数据。

在操作S130，利用多模态语音识别模型处理无标签的音视频特征，得到无标签的融合表征。

在操作S140，利用预训练损失函数处理无标签的融合表征和样本表征，并根据预训练损失值优化多模态语音识别模型。

在操作S150，根据预设任务需求，利用多模态语音识别模型处理带标签的音视频数据，得到带标签的融合表征，其中，预设任务需求包括时序任务和非时序任务。

在操作S160，利用微调损失函数处理带标签的融合表征，并根据微调损失值优化多模态语音识别模型。

在操作S170，迭代进行预训练优化操作和微调优化操作，直到微调损失值满足预设条件，得到训练完成的多模态语音识别模型。

上述预设条件包括但不限于微调损失值收敛于确定值，或微调损失值的下降幅度变化较小，或微调损失值收敛于某个数值区间等。

本发明提供的多模态语音识别模型的训练方法通过利用无标签数据预训练语音识别模型和利用有标签数据微调语音识别模型，并充分挖掘数据的内在联系，得到具有较高识别准确率语音识别模型，并提高了语音识别的效率和降低了语音识别的成本。同时通过本发明提供的语音识别模型的训练方法得到的语音识别模型能够完成不同类型的语音识别任务，大大提高了语音识别模型的泛化性，拓展了语音识别模型的应用场景。

图2示意性示出了根据本发明实施例的得到无标签的音视频特征的流程图。

如图2所示，利用多模态语音识别模型处理无标签的音视频数据，得到无标签的音视频特征包括操作S210～操作S220。

在操作S210，利用多模态语音识别模型的视频编码器模块提取无标签的音视频数据的视频特征。

上述视频编码器模块采用多层(例如3层)维卷积神经网络层，后接多层(例如18层)的Resnet网络层(简称Resnet-18)，输入为25Hz视频序列采样点

经过视频编码器输出特征为v＝{v₁，v₂，…，v_t，…，v_T}＝E_v(x^v)，其中v_t表示第t帧视频特征，由此获取的视频特征是40ms每帧。

在操作S220，利用多模态语音识别模型的音频编码器模块提取无标签的音视频数据的音频特征。

上述音频编码器模块包含多层(例如8层)一维卷积神经网络，其目的是利用音频编码器从原始语音中提取浅层局部特征。采用多层卷积神经网络，步长分别为(5,2,2,2,2,2,2,2)，卷积核大小分别为(10,3,3,3,3,2,2,2)，卷积神经网络的维度为512，获取的音频特征是40ms每帧，因此可以和上述视频特征帧率保持相同。上述音频编码器模块输入为16kHz语音序列采样点

经过音频编码器输出特征为a＝{a₁，a₂，…，a_t，…，a_T}＝E_a(x^a)，其中a_t表示第t帧音频特征。

通过上述得到音视频特征的方法，能够提高语音识别模型处理不同语音模态的能力，增强语音识别模型的泛化性。

上述融合模块采用一个多层感知器和多层(例如12层)的transformer模块，其中多层感知器包含2048个隐层结点，并且每个transformer中注意力模块的维度为512，前馈神经网络的隐层结点维度为2048。输入到融合模块的音频特征和视频特征已经具有相同的帧率，因此将这两种特征经过多层感知器进行拼接，然后拼接之后的特征输入到transformer模块中。

上述对音频特征进行掩蔽操作和对视频特征进行掩蔽操作的过程是相互独立的，输入到上述融合模块的特征是经过掩蔽操作后的音频特征和视频特征。

其中，掩蔽后的视频特征由方程组(I)确定：

其中，

其中，掩蔽后的音频特征由方程组(II)确定：

其中，

上述掩蔽后的音频特征和掩蔽后的视频特征输入到融合模块F中得到上下文表征c_t，其中，

上述方程组确定的掩蔽后的音频特征和掩蔽后的视频特征增强了语音识别模型的灵活性，提高了在多模态上进行语音识别的能力。

其中，音频对比损失函数由公式(1)确定：

其中，视频对比损失函数由公式(2)确定：

预训练阶段采用两个对比损失函数：(1)音频对比损失函数。为了使模型预测出的语音帧的信息和真实语音帧的信息尽可能接近，和随机采样的语音帧的信息距离尽可能远。(2)视频对比损失函数。为了使模型预测出的视频帧的信息和真实视频帧的信息尽可能近，和随机采样的视频帧的信息距离尽可能远。

公式(1)和公式(2)中的<·>用于衡量两个表征的相似程度，例如

图3示意性示出了根据本发明实施例得到带标签的融合表征的流程图。

如图3所示，根据预设任务需求，利用多模态语音识别模型处理带标签的音视频数据，得到带标签的融合表征包括操作S310～操作S350。

在操作S310，根据预设任务需求，选定多模态语音识别模型的特征提取模块。

上述预设任务需求包括音视频语音识别(AVSR)、音频或视频语音识别(ASR、VSR)、唇语孤立词识别(Lip-reading)等。上述多模态语音识别模型的特征提取模块包括音频编码器模块和视频编码器模块，根据任务需要，选择音频编码器模块和/或视频编码器模块作为特征提取模块，用于提取带标签的音视频数据的特征。

在操作S320，利用选定的特征提取模块处理带标签的音视频数据，得到带标签的音视频特征。

在操作S330，对带标签的音视频特征进行预处理，得到预处理后的带标签的音视频特征。

根据任务需要，对带标签的音视频特进行预处理；例如，在进行ASR或VSR任务时，对带标签的音视频特进行向量掩蔽运算；进一步地，在进行ASR或VSR任务时，对带标签的音频特征进行向量掩蔽运算，将带标签的视频特征设置为默认值，例如0；当进行Lipreading任务时，对带标签视频特征进行向量掩蔽运算，将带标签的音频特征设置为默认值，例如0。

在操作S340，利用多模态语音识别模型的融合模块处理预处理后的带标签的音视频特征，得到带标签的上下文表征。

在操作S350，利用线性映射层处理带标签的上下文表征，得到带标签的融合表征。

通常将线性映射层添加到融合模块之后，用于对带标签的音频数据进行数据预处理，统一语音识别模型的数据输出格式(例如数据维度)。

上述方法得到的带标签的融合表征，能够根据不同的语音识别任务对音视频数据进行处理，大大提高了语音识别的效率。

根据本发明实施例，上述微调损失函数包括时序分类损失函数(ConnectionistTemporal Classification，CTC)和交叉熵损失函数(Cross Entropy，CE)；

其中，时序分类损失函数用于时序任务，时序任务包括AVSR，ASR和VSR等。

其中，交叉熵损失函数用于非时序任务，非时序任务包括Lip-reading等。

图4示意性示出了根据本发明实施例的多模态语音识别模型的训练方法的架构图，下面结合图4对上述多模态语音识别模型的训练方法作进一步详细说明。

如图4所示，本发明实施例提供了一种基于自监督预训练的音视频多模态语音识别模型，该模型该预训练模型结构如图4(a)所示，主要由视频编码器模块E_v(visualencoder)、音频编码器模块E_a(audio encoder)、融合模块F(fusion module)。在预训练阶段(Audio-visual Pre-training)，将音视频数据通过视频编码器模块和音频编码器模块进行处理，得到视频特征和音频特征，将视频特征和音频特征进行向量掩蔽运算(masking)后，利用融合模块进行处理，其中，融合模块包括多层感知机(MLP)和转换块(transformerblocks)得到融合表征，在获取融合表征过程中，利用对比损失函数(L_c→a和L_c→v)进行模型优化。预训练阶段(Audio-visual Pre-training)完成之后，可以在融合模块之后添加线性分类器，然后用有标签数据微调，进行下游AVSR(如图4(b)),ASR或VSR(如图4(c))和Lip-reading(如图4(d))任务，损失函数主要包含预训练阶段损失函数和微调阶段损失函数。例如在进行Lip-reading任务时候，根据任务需求，只需要利用模型的视频编码器提取音视频数据的视频特征，将视频特征进行向量掩蔽运算，即将对应的音频特征设置为默认值，通常优选的默认值为0，将向量掩蔽运算后得到的视频特征输入到融合模块中，并利用MSTCN进行处理，将处理后得到的上下文表征再利用线性映射层进行处理，就得到Lip-reading任务所需要的融合表征。

为了充分说明本发明实施例提供的多模态语音识别模型的训练方法的有效性，采用如下所述的具体实施方式进行说明：

首先，在预训练阶段使用的无标签数据是408小时的视频数据LRS3[13]，该数据集中视频的平均长度为12.4秒。模型的音频输入是从原始视频中提取的原始波形，对于模型的视频输入，首先从视频中心裁剪112×112的像素，然后将RGB三通道平均为灰度图像。音频编码器中包含八层卷积，步长分别为(5,2,2,2,2,2,2,2)，卷积核大小分别为(10,3,3,3,3,2,2,2)，输出音频特征为每帧40ms。视频编码器包含1层3维卷积神经网络和18层resnet神经网络，输出视频特征为每帧40ms。音频和视频编码器维度为512，融合模块中transformer维度为512维，模型整体参数为60M。采用的掩蔽方法和文章[12]保持相同。在预训练阶段，模型采样100个负样本，其中50个负样本来自音频特征，50个负样本来自视频特征。模型训练采用Adam优化器；

其次，预训练结束之后，在三个下游任务上微调模型以验证方法的有效性。三个下游任务分别为1)音视频语音识别(AVSR)，2)音频语音识别(ASR)或唇语识别(VSR)和3)唇语孤立词识别(Lipreading)。在AVSR任务上，有标签数据采用30h的LRS3子集。在融合模块的输出添加一层线性分类层，然后用CTC函数进行优化。在ASR或VSR任务上，采用的有标签数据和损失均与AVSR任务相同，唯一的区别是，仅利用其中的一个音频或视频模态数据，而不是两种都用，进行微调任务。在唇语孤立词识别任务上，采用LRW数据集[14]，LRW数据集包含173小时数据集和500个发音单词，该任务的目标是根据一小段面部图像对发音单词进行分类。在融合模块的输出添加多尺度时间卷积模块(multiscale temporal convolutionalnetwork,MSTCN)，然后在MSTCN模块的输出特征进行时间维度平均，最后接一层线性分类层进行分类任务；

最后，根据上述设置进行训练方法的实施并对实施结果进行分析；模型采用408小时无标签数据预训练，采用30小时有标签数据微调的下游音频语音识别(ASR：AutomaticSpeech Recognition)、唇语识别(VSR)和音视频语音识别(AVSR)结果如表1所示：

表1 30小时有标签数据微调的ASR、VSR和AVSR实验结果

在表1中，B0实验结果是音频-视频模态数据随机初始化基线***的实验结果。B1实验结果是单视频模态数据预训练模型的实验结果。B2实验结果是单语音模态预训练模型的实验结果。对比B1和B2可以发现，预训练模型能够提升ASR任务的性能。C1和C2分别是提出的模型，不采用跨模态负样本时的实验结果。比较C1和C2实验结果，预训练损失值L_c→a比L_c→v效果更好。这意味着在学习语音表征方面，音频信号比视频信号能提供更多的信息。此外，C1和B1，C2和B2相比，多模态模型性能优于单模态模型性能。D1和D2实验结果是采用跨模态负样本联合训练的实验结果。D2实验结果优于D1实验结果，说明了本发明实施例提出跨模态负样本的有效性。

唇语孤立词识别模型采用408小时无标签数据预训练，采用173小时有标签数据微调，实验结果如表2所示，从表2的实验结果中，能够看出采用预训练模型能够提升词识别准确率。

表2唇语孤立词识别实验结果

总的来说，本发明提出一种基于自监督预训练的音视频多模态语音识别模型。在预训练阶段，采用无标签数据，将音视频对齐和掩蔽预测扩展到一个统一的学习目标：音视频恢复，模型使用与另一种模态的互补性和序列中的上下文信息来恢复被掩蔽的损坏信息。该模型可以学习三种类型的表征，音频表征、视频表征和融合表征。融合表征通过融合模块学习跨模态信息和上下文信息，然后用于在帧级别恢复损坏的音频和视频表征。在微调阶段，采用有标签数据上微调，预训练模型显著提高了音视频多模态语音识别和音频、视频各自的单模态语音识别的性能。

通过上述具体实施方式可知，本发明实施例提供的多模态语音识别模型的训练方法，能够基于自监督框架来学习音视频表征，可以融合两种模态的信息及其时间上下文信息；同时，扩展了框架使得融合表征可以灵活处理单模态应用；此外，显著提高了音视频语音识别、语音识别和视觉语音识别的性能，并在LRW数据集上实现了最优性能。

图5示意性示出了根据本发明实施例的多模态语音识别方法的流程图。如图5所示，包括操作S510～操作S520。

在操作S510，获取待识别的音视频数据和识别任务类型；

在操作S520，根据识别任务类型，利用多模态语音识别模型处理待识别的音视频数据，得到语音识别结果，其中多模态语音识别模型上述多模态语音识别模型的训练方法训练得到。

上述语音识别方法，充分利用多模态语音识别模型的训练方法获得训练完成的语音识别模型，并利用训练完成的语音识别模型根据不同的语音识别任务进行语音识别，提高了语音识别的准确性，降低了语音识别的成本，提升了语音识别的灵活性。

如图6所示，根据本发明实施例的电子设备600包括处理器601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 603中，存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 602和RAM603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，电子设备600还可以包括输入/输出(I/O)接口605，输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的；也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态语音识别模型的训练方法，包括：

利用所述多模态语言识别模型处理无标签的音视频数据，得到无标签的音视频特征，其中，所述音视频特征包括音频特征和视频特征；

利用跨模态采样机制对所述无标签的音视频特征进行采样，得到样本表征；

利用所述多模态语音识别模型处理所述无标签的音视频特征，得到无标签的融合表征；

利用预训练损失函数处理所述无标签的融合表征和所述样本表征，并根据预训练损失值优化所述多模态语音识别模型；

根据预设任务需求，利用所述多模态语音识别模型处理带标签的音视频数据，得到带标签的融合表征，其中，所述预设任务需求包括时序任务和非时序任务；

利用微调损失函数处理所述带标签的融合表征，并根据微调损失值优化所述多模态语音识别模型；

迭代进行预训练优化操作和微调优化操作，直到所述微调损失值满足预设条件，得到训练完成的多模态语音识别模型。

2.根据权利要求1所述的方法，其中，所述利用所述多模态语音识别模型处理所述无标签的音视频数据，得到无标签的音视频特征包括：

利用所述多模态语音识别模型的视频编码器模块提取所述无标签的音视频数据的视频特征；

利用所述多模态语音识别模型的音频编码器模块提取所述无标签的音视频数据的音频特征。

3.根据权利要求1所述的方法，其中，所述利用所述多模态语音识别模型处理所述无标签的音视频特征，得到无标签的融合表征包括：

对所述音视频特征进行向量掩蔽运算，得到掩蔽后的音视频特征；

利用所述多模态语音识别模型的融合模块计算所述掩蔽后的音视频特征的上下文表征，得到所述无标签的融合表征。

4.根据权利要求3所述的方法，其中，所述掩蔽后的音视频特征包括掩蔽后的视频特征和掩蔽后的音频特征；

其中，所述掩蔽后的视频特征由方程组(I)确定：

其中，

表示所述掩蔽后的视频特征，v_t表示所述视频特征，M_v表示所述视频特征掩蔽位置，m表示可学习的向量嵌入；

其中，所述掩蔽后的音频特征由方程组(II)确定：

其中，

表示所述掩蔽后的音频特征，a_t表示所述音频特征，M_a表示所述音频特征掩蔽位置，m表示可学习的向量嵌入。

5.根据权利要求1所述的方法，其中，所述预训练损失函数包括音频对比损失函数和视频对比损失函数；

其中，所述音频对比损失函数由公式(1)确定：

其中，L_c→a表示所述音频对比损失函数，M_a表示所述音频特征掩蔽位置，c_t表示融合表征，a_t表示所述音频特征，a_i表示音频负样本表征，v_i表示视频负样本表征；

其中，所述视频对比损失函数由公式(2)确定：

其中，L_c→v表示所述视频对比损失函数，M_v表示所述视频特征掩蔽位置，c_t表示融合表征，v_t表示所述视频特征，a_i表示音频负例样本表征，v_i表示视频负例样本表征。

6.根据权利要求1所述的方法，其中，所述根据预设任务需求，利用所述多模态语音识别模型处理带标签的音视频数据，得到带标签的融合表征包括：

根据预设任务需求，选定所述多模态语音识别模型的特征提取模块；

利用选定的特征提取模块处理所述带标签的音视频数据，得到带标签的音视频特征；

对所述带标签的音视频特征进行预处理，得到预处理后的带标签的音视频特征；

利用所述多模态语音识别模型的融合模块处理所述预处理后的带标签的音视频特征，得到带标签的上下文表征；

利用线性映射层处理所述带标签的上下文表征，得到带标签的融合表征。

7.根据权利要求1所述的方法，其中，所述微调损失函数包括时序分类损失函数和交叉熵损失函数；

其中，所述时序分类损失函数用于时序任务；

其中，所述交叉熵损失函数用于非时序任务。

8.一种多模态语音识别方法，包括：

获取待识别的音视频数据和识别任务类型；

根据所述识别任务类型，利用多模态语音识别模型处理所述待识别的音视频数据，得到语音识别结果，其中所述多模态语音识别模型根据权利要求1-7任一所述的方法训练得到。

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～8中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～8中任一项所述的方法。