CN115565534A

CN115565534A - 多模态语音识别方法、装置、设备及存储介质

Info

Publication number: CN115565534A
Application number: CN202211150783.2A
Authority: CN
Inventors: 张景宣; 万根顺; 潘嘉; 刘聪; 胡国平; 刘庆峰; 付中华
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-01-03

Abstract

本申请公开了一种多模态语音识别方法、装置、设备及存储介质，本申请获取说话人说话过程的语音以及对说话人拍摄的人脸视频和/或人体视频，并利用预配置的多模态语音识别模型处理语音和视频，多模态语音识别模型被配置为：从输入视频中提取与语音内容相关的视觉特征，从输入语音中提取语音特征，对视觉特征和语音特征进行融合，对融合特征进行编、解码处理，得到预测的识别文本，当输入的视频包括人脸视频时，视觉特征包括人脸视觉特征，当输入的视频包括人体视频时，视觉特征包括人体视觉特征。本申请对视频信息进行了扩展，从传统的唇部视频，扩展到人脸视频、人体视频，利用更加丰富的视觉线索提供更多辅助信息，提升语音识别的准确度。

Description

多模态语音识别方法、装置、设备及存储介质

技术领域

本申请涉及语音识别技术领域，更具体的说，是涉及一种多模态语音识别方法、装置、设备及存储介质。

背景技术

人在说话时，嘴唇部分是发声器官，因此，唇部的运动视频和说话人的语音文本内容高度相关。唇语识别和多模态语音识别，有赖于视觉信号的输入。

现有的唇语识别及多模态语音识别利用人的唇形动作视频，提取出有用的语音内容相关的表征，从而进行语音文本内容的自动识别。因为唇语视频不受环境噪声的干扰，所以融合视觉信号可以有效提升语音识别***在噪声环境下的鲁棒性。但是，本案发明人研究发现，唇语视频虽然能够在一定程度上补充语音识别的可用信息量，但是并未考虑全面，语音识别的准确度还有很大的提升空间。

此外，现有技术为了在语音识别过程提取唇部特征，通常需要对人脸视频进行关键点检测、仿射变换、唇形裁剪等处理，对设备的性能要求较高。

发明内容

鉴于上述问题，提出了本申请以便提供一种多模态语音识别方法、装置、设备及存储介质，以实现进一步提升语音识别的准确度，并降低对语音识别处理设备的性能要求。具体方案如下：

第一方面，提供了一种多模态语音识别方法，包括：

获取说话人说话过程的语音及拍摄的视频，所述视频包括人脸视频、人体视频中的至少一项；

采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本；

其中，所述多模态语音识别模型被配置为：从输入的视频中提取与语音内容相关的视觉特征，从输入的语音中提取语音特征，对提取的视觉特征和语音特征进行融合，对融合特征进行编、解码处理，得到预测的识别文本，其中，当输入的视频包括人脸视频时，提取的视觉特征包括人脸视觉特征，当输入的视频包括人体视频时，提取的视觉特征包括人体视觉特征。

第二方面，提供了一种多模态语音识别装置，包括：

语音及视频获取单元，用于获取说话人说话过程的语音及拍摄的视频，所述视频包括人脸视频、人体视频中的至少一项；

模型处理单元，用于采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本；

第三方面，提供了一种多模态语音识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的多模态语音识别方法的各个步骤。

第四方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的多模态语音识别方法的各个步骤。

借由上述技术方案，本申请获取说话人说话过程的语音以及对说话人拍摄的视频，并利用预配置的多模态语音识别模型处理语音和视频，得到输出的识别文本。本申请输入至多模态语音识别模型的视频包括人脸视频、人体视频中的至少一项。本案发明人研究发现人在说话时整张人脸的表情、头部、躯体的姿态和动作都在传达一定的信号，和说话内容高度相关，因此现有技术单纯依据唇部视频对视觉信号的利用并不充分，本申请对视频信息进行了扩展，从传统的唇部视频，扩展到更大范围的人脸视频、人体视频，从而利用更加丰富的视觉线索提供更多的辅助信息，能够有效提升语音识别的准确度。

进一步，本申请中考虑到人脸视频、人体视频相对于唇部视频包含了更多的视觉线索的同时，也可能包含更多的干扰信息，为此本申请中多模态语音识别模型被配置为，当输入的视频包括人脸视频时，提取与语音内容相关的人脸视觉特征，当输入的视频包括人体视频时，提取与语音内容相关的人体视觉特征，从而能够使得模型从视频中挖掘与语音识别有关联的信息，基于此能够更好的辅助语音识别，提升语音识别的准确度。

此外，由于本申请语音识别过程用到的视频为人脸视频、人体视频，不需要像现有技术那样进一步处理以提取唇部视频，也即不需要进行关键点检测、仿射变换、唇形裁剪等处理，从而大大降低了语音识别处理设备的性能要求，能够进一步扩大语音识别***的应用场景。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的多模态语音识别方法的一流程示意图；

图2示例了一种多模态语音识别模型的处理过程示意图；

图3示例了一种多模态语音识别模型预训练过程示意图；

图4-图7分别示例了几种不同输入的情况下，多模态语音识别模型的处理过程示意图；

图8为本申请实施例提供的一种多模态语音识别装置结构示意图；

图9为本申请实施例提供的多模态语音识别设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种多模态语音识别方案，通过获取说话人说话过程的语音以及对说话人拍摄的视频，结合语音和视频进行多模态语音识别，提升语音识别结果准确度。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。

接下来，结合图1所述，本申请的多模态语音识别方法可以包括如下步骤：

步骤S100、获取说话人说话过程的语音及拍摄的视频，所述视频包括人脸视频、人体视频中的至少一项。

具体地，为了对说话人说话语音进行识别，本步骤中可以获取说话人说话过程所录制的语音，以及，对说话人说话过程拍摄的视频。本步骤中获取的视频可以包括人脸视频和人体视频中的至少一项。

其中，人脸视频是指包含说话人人脸部表情的视频，人体视频是指包含人体头部、躯体姿态和动作的视频。

本申请考虑到人在说话过程人脸表情及头部、躯体姿态、动作都在传达一定的信号，和说话人的语音内容高度相关。举例来说：当说话人的面部表情自信和坚定时，语音内容通常也和情感相符合。当说话人情绪激动时，对应的语音内容也传递出相应的情绪信息。除此之外，人的头部、躯体姿态和动作也会随着说话内容的不同而表现不同，这和人类的交流习惯是相符合的，因此人在交流中自然而然的会利用肢体动作来帮助交流和传词达意。示例如，人在说话过程会摇头表示否定，或者摆手表示再见等。

步骤S110、采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本。

具体地，本申请可以预先训练多模态语音识别模型，该多模态语音识别模型可以支持同时输入语音及视频，其中对于视频可以仅包括人体视频或人脸视频，也可以同时包括人体视频及人脸视频。

一种可实施的方式中，多模态语音识别模型可以被配置为：从输入的视频中提取与语音内容相关的视觉特征，从输入的语音中提取语音特征，对提取的视觉特征和语音特征进行融合，对融合特征进行编、解码处理，得到预测的识别文本，其中，当输入的视频包括人脸视频时，提取的视觉特征包括人脸视觉特征，当输入的视频包括人体视频时，提取的视觉特征包括人体视觉特征。

其中需要说明的是，本实施例中多模态语音识别模型被配置为具备从输入人脸视频中提取人脸视觉特征，以及从输入人体视频中提取人体视觉特征的能力。但是并非限定多模态语音识别模型必须同时输入人脸视频及人体视频，当多模态语音识别模型的输入仅有语音和人脸视频时，则模型可以对提取的人脸视觉特征和语音特征进行融合，并对融合特征进行编解码处理，得到预测的识别文本；当多模态语音识别模型的输入仅有语音和人体视频时，则模型可以对提取的人体视觉特征和语音特征进行融合，并对融合特征进行编解码处理，得到预测的识别文本。

可以理解的是，相比于唇形视频，人脸视频和人体视频虽然包含了更多有用的视觉线索，但是也会包含更多的干扰信息，即与语音内容的相关性偏弱，为此本实施例中可以通过预训练使得多模态语音识别模型能够有效捕捉视频中和抽象语义的联系，从视频中提取到与语音内容相关的视觉特征，进而和语音特征进行融合，该融合特征包含更多的信息，基于此进行编解码得到的识别文本的准确度也更高。

本申请实施例提供的多模态语音识别方法，获取说话人说话过程的语音以及对说话人拍摄的视频，并利用预配置的多模态语音识别模型处理语音和视频，得到输出的识别文本。本申请输入至多模态语音识别模型的视频包括人脸视频、人体视频中的至少一项。本案发明人研究发现人在说话时整张人脸的表情、头部、躯体的姿态和动作都在传达一定的信号，和说话内容高度相关，因此现有技术单纯依据唇部视频对视觉信号的利用并不充分，本申请对视频信息进行了扩展，从传统的唇部视频，扩展到更大范围的人脸视频、人体视频，从而利用更加丰富的视觉线索提供更多的辅助信息，能够有效提升语音识别的准确度。

在本申请的一些实施例中，对多模态语音识别模型进行介绍。

结合图2，其公开了一种多模态语音识别模型的处理过程示意图。其中，多模态语音识别模型可以包括第一视觉特征提取器、第二视觉特征提取器、语音特征提取器、编码器和解码器。

其中，第一视觉特征提取器用于，从输入的人脸视频中提取与语音内容相关的人脸视觉特征。

第二视觉特征提取器用于，从输入的人体视频中提取与语音内容相关的人体视觉特征。

语音特征提取器用于，从输入的语音中提取语音特征。

编码器用于，基于人脸视觉特征、人体视觉特征和语音特征的融合特征进行编码，并由解码器基于编码结果预测对应的识别文本。

需要说明的是，当多模态语音识别模型的输入仅有语音和人脸视频时，此时第二视觉特征提取器不工作，由语音特征和人脸视觉特征融合得到融合特征。当多模态语音识别模型的输入仅有语音和人体视频时，此时第一视觉特征提取器不工作，由语音特征和人体视觉特征融合得到融合特征。

其中，第一视觉特征提取器、第二视觉特征提取器及语音特征提取器采用神经网络结构，如CNN等结构。

进一步地，为了使得第一视觉特征提取器、第二视觉特征提取器能够提取到与语音内容相关的视觉特征，以及语音特征提取器能够提取到对语音识别有帮助的语音特征，本申请实施例中可以采用预训练方式，对多模态语音识别模型中除解码器外的结构进行预训练，预训练过程可以采用掩码预测方式进行训练，接下来结合图3所示，对该预训练过程进行介绍，包括如下处理步骤：

S1、获取训练样本集，所述训练样本集中包含多组训练样本，每一组训练样本包括至少一个视角下拍摄的人脸训练视频、人体训练视频及训练语音。

具体地，考虑到实际情况下获取的人脸视频、人体视频可能是从不同视角下拍摄的，或者是同时包含多个不同视角下拍摄的视频。本申请在对模型预训练过程，对于训练样本集，其中每一组训练样本包括至少一个视角下拍摄的人脸训练视频、人体训练视频以及训练语音。

S2、基于每条训练语音中每一帧的声学特征，确定每一帧的伪标签。

具体地，本申请在对多模态语音识别模型进行预训练时，采用掩码训练方式，对提取的特征进行掩码，并以编码器预测掩码对应的伪标签为目标进行训练。为此，需要提前确定每条训练语音中每一帧的伪标签。为了使得第一、第二视觉特征提取器能够提取与语音内容相关的视觉特征，本实施例中基于每一帧的声学特征，确定每一帧的伪标签。

其中，声学特征可以采用MFCC(Mel-frequency cepstralcoefficients，梅尔频率倒谱系数)或其它类型的声学特征。

本实施例中介绍了一种步骤S2的具体实现方式，包括如下步骤：

S21、提取所述训练样本集中所有训练语音的声学特征，并对各声学特征进行聚类，得到若干聚类簇的类中心。

具体地，在对各声学特征进行聚类时，可以采用k-means等聚类算法。

S22、计算每条训练语音中每一帧的声学特征与各类中心的距离，将距离最近的类中心的标识作为对应帧的伪标签。

S3、对于每一组训练样本：随机选取一个视角下的人脸训练视频输入第一视觉特征提取器，得到人脸视觉训练特征；随机选取一个视角下的人体训练视频输入第二视觉特征提取器，得到人体视觉训练特征；将所述训练语音输入语音特征提取器，得到语音训练特征。

S4、对所述人脸视觉训练特征、所述人体视觉训练特征、所述语音训练特征中的每一特征，分别随机选取其中连续的若干帧特征进行掩码mask处理，得到掩码人脸视觉训练特征、掩码人体视觉训练特征、掩码语音训练特征。

具体地，对于人脸视觉训练特征、人体视觉训练特征、语音训练特征中的任意一个特征，将其表示为F＝{f₁，f₂，…，f_T}，其中，T表示长度，则从1-T的位置，随机的以概率为p的伯努利分布选择作为mask片段的起始位置，然后将从起始位置开始的连续s帧特征进行mask处理。Mask时可以采用可学习的嵌入向量来替换原始的特征，从而得到掩码训练特征。

为了便于表述，定义掩码人脸视觉训练特征表示为F_v1，掩码人体视觉训练特征表示为F_v2，掩码语音训练特征表示为F_a。

S5、对所述掩码人脸视觉训练特征、掩码人体视觉训练特征、掩码语音训练特征进行融合，得到融合训练特征。

具体地，在融合时可以采用通道维度拼接融合，则融合训练特征F_multi表示为：

F_multi＝Concat(F_v1,F_v2,F_a)

其中，Concat()表示通道维度的拼接。示例如，F_v1，F_v2,F_a的维度均为T*D维度，T表示时间维度有T帧，D表示特征的通道维度，则三个特征在通道维度拼接后的融合训练特征的维度就是T*3D。

可选的，为了进一步提升模型对特征缺失时的鲁棒性，更加充分的利用每种特征，本实施例中在融合时还可以引入随机的特征丢弃策略，具体地：

按照预设的与所述掩码人脸视觉训练特征对应的第一丢弃比例p1，与所述掩码人体视觉训练特征对应的第二丢弃比例p2，与所述掩码语音训练特征对应的第三丢弃比例p3，采用随机特征丢弃策略对所述掩码人脸视觉训练特征、掩码人体视觉训练特征、掩码语音训练特征进行拼接融合，得到融合训练特征。

则融合训练特征F_multi表示为：

F_multi＝Concat(Dropout(F_v1,p1),Dropout(F_v2,p2),Dropout(F_a,p3))

其中，Dropout表示随机丢弃操作。

需要说明的是，上述随机丢弃操作是指随机置为全零。

S6、将所述融合训练特征输入编码器，由编码器预测融合训练特征中mask位置对应的伪标签预测结果。

其中，编码器可以采用transformer结构的编码器网络。将融合训练特征输入编码器，由编码器对应于特征mask位置的输出，经过一层全连接层和softmax激活函数后，输出伪标签预测结果。

S7、基于编码器预测的mask位置的伪标签预测结果，以及mask位置对应各帧的伪标签，计算损失，基于所述损失训练多模态语音识别模型中除解码器外的各结构的网络参数，直至满足训练结束条件为止。

按照本实施例提供的预训练方式，能够对多模态语音识别模型中的第一、第二视觉特征提取器、语音特征提取器及编码器的网络参数进行训练，使得第一、第二视觉特征提取器能够提取到与语音内容相关的视觉特征。以此为基础可以有效的构建下游的多模态语音识别模型。

可选的，上述预训练阶段关于训练语音中每一帧的伪标签的确定过程。在预训练前期可以采用上述步骤S2的方式通过声学特征来设置伪标签。当训练到一定阶段后，模型本身具有了提取抽象特征的能力，因此可以从模型的编码器的输出处提取隐层特征，以隐层特征来替代声学特征，重新进行聚类和伪标签的确定，并基于重新确定后的伪标签继续对模型进行训练，直至训练结束。具体地：

在预训练过程中经过若干轮预训练后在达到训练结束条件之前，预训练过程还包括：

提取编码器的最后一个隐层输出的隐层特征，对各隐层特征进行聚类，得到若干聚类簇的类中心。计算每条训练语音中每一帧的隐层特征与各类中心的距离，将距离最近的类中心的标识作为对应帧的更新后伪标签，利用各帧的更新后伪标签替代原始的伪标签，并采用训练样本继续训练多模态语音识别模型，直至满足训练结束条件为止。

进一步地，在完成上述对多模态语音识别模型的预训练之后，可以采用下游语音识别任务数据对模型进行微调，微调阶段，引入解码器模块，该解码器负责从编码器的输出中预测识别文本标签，完成语音识别工作。具体地：

在预训练结束后，还包括：

获取训练数据集，所述训练数据集包括多组训练样本及每组训练样本对应的识别文本，每一组训练样本包括至少一个视角下拍摄的人脸训练视频、人体训练视频及训练语音。

采用所述训练数据集对多模态语音识别模型中各结构的网络参数进行微调，其中，多模态语音识别模型中除解码器外的其余各结构复用预训练后的网络参数。

可选的，在微调阶段，与预训练阶段类似的，仍然可以保留从每组训练样本中随机选择一个视角下拍摄的人脸训练视频、人体训练视频的操作。同时，还可以保留多模态特征融合时的随机丢弃操作，以使得微调后的多模态语音识别模型不依赖于某一种特征，在某一种特征缺失的情况下，仍然可以有效的进行语音识别。

上述实施例中介绍了多模态语音识别模型的结构及训练过程。本申请实施例中基于前述训练得到的多模态语音识别模型，对语音识别的过程进行进一步说明。

前述图1对应的语音识别流程中，步骤S100已经说明，获取说话人说话过程的语音及拍摄的视频，所述视频包括人脸视频、人体视频中的至少一项。其中，对于不同的场景下，可能仅能够获取到语音和人脸视频，也可能仅能够获取到语音和人体视频。其中，获取到的人脸视频可以包括一个或多个视角下的人脸视频，人体视频也可以包括一个或多个视角下的人体视频。因此，对于多模态语音识别模型的输入数据，可以包含多种不同的组合形式。

本实施例中示例性的介绍几种不同组合形式下，利用多模态语音识别模型处理语音及视频，得到识别文本的具体实现过程。

第一种情况下：

获取的视频包含人脸视频和人体视频中的任意一种或两种，并且，对于人脸视频及人体视频，均仅包含一个视角下拍摄的视频。当然，在视频同时包含人脸视频和人体视频时，二者的拍摄视角可以相同也可以不同。

在此情况下，采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本的过程，可以包括：

将一个视角下的人脸视频，和/或一个视角下的人体视频，以及获取的语音输入多模态语音识别模型，得到模型输出的识别文本。

如图4、图5所示：

其中，图4示例的是输入仅包含拍摄角度i下的人脸视频及语音时，多模态语音识别模型的处理流程。

图5示例的是输入仅包含拍摄角度i下的人脸视频，以及拍摄角度j下的人体视频及语音时，多模态语音识别模型的处理流程。

其中，角度i和角度j可以相同也可以不同。

第二种情况下：

获取的视频包含人脸视频和人体视频中的任意一种或两种，并且，对于包含的人脸视频或人体视频，至少有一种类型的视频包含两个以上视角下拍摄。也即，获取的视频包含至少两个视角下的人脸视频，或，至少两个视角下的人体视频。

在此情况下，采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本的过程，可以包括两种处理方式：

1)、

在获取的视频中选取任意一个视角下的人脸视频和/或任意一个视角下的人体视频，与获取的语音一并输入多模态语音识别模型，得到模型输出的识别文本。

具体地，由于多模态语音识别模型在预训练阶段及微调阶段，都引入了特征随机丢弃策略，也即训练得到的多模态语音识别模型可以基于任意一种或两种类型视频及语音进行语音识别。为此，本处理方式中，可以将获取的视频中随机选取一个视角下的人脸视频，和/或随机选取一个视角下的人体视频，与获取的语音一并输入多媒体语音识别模型，得到模型输出的识别文本，详细如图6所示。

2)、

将获取的语音与任意一个视角下的人脸视频和/或任意一个视角下的人体视频组合，得到至少一组输入。

可以理解的是，根据人脸视频的拍摄角度以及人体视频的拍摄角度的不同，上述组合的数量可以有多种，也即最终得到的输入可以有多组。

将每一组输入分别输入一个多模态语音识别模型，将各不同的多模态语音识别模型的后验概率求平均，并基于平均后验概率预测最终的识别文本；其中，各组输入对应的多模态语音识别模型的网络参数一致。

具体地，本申请可以根据输入的组数设置相同数量的多模态语音识别模型，各多模态语音识别模型的网络参数完全一致。

进而由多个多模态语音识别模型集成，每个多模态语音识别模型基于输入的一组数据进行相应处理，最终对各多模态语音识别模型的解码器输出的后验概率求平均，并基于平均后验概率预测最终的识别文本。

通过多组输入对应多个多模态语音识别模型，并通过后验概率求平均，来预测最终识别文本，能够充分利用不同的视频数据，达到最优的识别效果。

参见图7，图7示例的是包含拍摄角度i及角度j下的人脸视频，以及拍摄角度j下的人体视频及语音时，多模态语音识别模型的处理流程。

由图7可知，本申请构建了三组输入，分别是：

第一组输入：角度i的人脸视频+语音

第二组输入：角度j的人脸视频+语音

第三组输入：角度j的人体视频+语音。

下面对本申请实施例提供的多模态语音识别装置进行描述，下文描述的多模态语音识别装置与上文描述的多模态语音识别方法可相互对应参照。

参见图8，图8为本申请实施例公开的一种多模态语音识别装置结构示意图。

如图8所示，该装置可以包括：

语音及视频获取单元11，用于获取说话人说话过程的语音及拍摄的视频，所述视频包括人脸视频、人体视频中的至少一项；

模型处理单元12，用于采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本；

可选的，上述多模态语音识别模型可以包括：第一视觉特征提取器、第二视觉特征提取器、语音特征提取器、编码器和解码器；

所述第一视觉特征提取器用于，从输入的人脸视频中提取与语音内容相关的人脸视觉特征；

所述第二视觉特征提取器用于，从输入的人体视频中提取与语音内容相关的人体视觉特征；

所述语音特征提取器用于，从输入的语音中提取语音特征；

所述编码器用于，基于人脸视觉特征、人体视觉特征和语音特征的融合特征进行编码，并由解码器基于编码结果预测对应的识别文本。

可选的，本申请的装置还可以包括模型预训练单元，用于采样预训练方式对多模态语音识别模型中除解码器外的结构进行训练，预训练过程包括：

获取训练样本集，所述训练样本集中包含多组训练样本，每一组训练样本包括至少一个视角下拍摄的人脸训练视频、人体训练视频及训练语音；

基于每条训练语音中每一帧的声学特征，确定每一帧的伪标签；

对于每一组训练样本：随机选取一个视角下的人脸训练视频输入第一视觉特征提取器，得到人脸视觉训练特征；随机选取一个视角下的人体训练视频输入第二视觉特征提取器，得到人体视觉训练特征；将所述训练语音输入语音特征提取器，得到语音训练特征；

对所述人脸视觉训练特征、所述人体视觉训练特征、所述语音训练特征中的每一特征，分别随机选取其中连续的若干帧特征进行掩码mask处理，得到掩码人脸视觉训练特征、掩码人体视觉训练特征、掩码语音训练特征；

对所述掩码人脸视觉训练特征、掩码人体视觉训练特征、掩码语音训练特征进行融合，得到融合训练特征；

将所述融合训练特征输入编码器，由编码器预测融合训练特征中mask位置对应的伪标签预测结果；

基于编码器预测的mask位置的伪标签预测结果，以及mask位置对应各帧的伪标签，计算损失；

基于所述损失训练多模态语音识别模型中除解码器外的各结构的网络参数，直至满足训练结束条件为止。

可选的，上述模型预训练单元基于每条训练语音中每一帧的声学特征，确定每一帧的伪标签的过程，可以包括：

提取所述训练样本集中所有训练语音的声学特征，并对各声学特征进行聚类，得到若干聚类簇的类中心；

计算每条训练语音中每一帧的声学特征与各类中心的距离，将距离最近的类中心的标识作为对应帧的伪标签。

可选的，上述模型预训练单元在预训练过程中经过若干轮预训练后在达到训练结束条件之前，还用于：

提取所述编码器的最后一个隐层输出的隐层特征，对各隐层特征进行聚类，得到若干聚类簇的类中心；

计算每条训练语音中每一帧的隐层特征与各类中心的距离，将距离最近的类中心的标识作为对应帧的更新后伪标签，利用各帧的更新后伪标签替代原始的伪标签，并采用训练样本继续训练多模态语音识别模型，直至满足训练结束条件为止。

可选的，本申请的装置还可以包括模型微调单元，用于在预训练结束后，获取训练数据集，所述训练数据集包括多组训练样本及每组训练样本对应的识别文本，每一组训练样本包括至少一个视角下拍摄的人脸训练视频、人体训练视频及训练语音；采用所述训练数据集对多模态语音识别模型中各结构的网络参数进行微调，其中，多模态语音识别模型中除解码器外的其余各结构复用预训练后的网络参数。

可选的，上述模型预训练单元对所述掩码人脸视觉训练特征、掩码人体视觉训练特征、掩码语音训练特征进行融合，得到融合训练特征的过程，可以包括：

按照预设的与所述掩码人脸视觉训练特征对应的第一丢弃比例，与所述掩码人体视觉训练特征对应的第二丢弃比例，与所述掩码语音训练特征对应的第三丢弃比例，采用随机特征丢弃策略对所述掩码人脸视觉训练特征、掩码人体视觉训练特征、掩码语音训练特征进行拼接融合，得到融合训练特征。

可选的，语音及视频获取单元获取的视频包括一个视角下的人脸视频，和/或一个视角下的人体视频，在此基础上，模型处理单元采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本的过程，可以包括：

将所述一个视角下的人脸视频，和/或一个视角下的人体视频，以及所述语音输入多模态语音识别模型，得到模型输出的识别文本。

可选的，语音及视频获取单元获取的视频包括至少两个视角下的人脸视频，或，至少两个视角下的人体视频。在此基础上，模型处理单元采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本的过程，可以包括：

在获取的视频中选取任意一个视角下的人脸视频和/或任意一个视角下的人体视频，与获取的语音一并输入多模态语音识别模型，得到模型输出的识别文本；

或，

将获取的语音与任意一个视角下的人脸视频和/或任意一个视角下的人体视频组合，得到至少一组输入；

本申请实施例提供的多模态语音识别装置可应用于多模态语音识别设备，如终端：手机、电脑等。可选的，图9示出了多模态语音识别设备的硬件结构框图，参照图9，多模态语音识别设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多模态语音识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多模态语音识别模型包括：第一视觉特征提取器、第二视觉特征提取器、语音特征提取器、编码器和解码器；

所述语音特征提取器用于，从输入的语音中提取语音特征；

3.根据权利要求2所述的方法，其特征在于，所述多模态语音识别模型中除解码器外的结构采用预训练方式训练得到，预训练过程包括：

4.根据权利要求3所述的方法，其特征在于，所述基于每条训练语音中每一帧的声学特征，确定每一帧的伪标签，包括：

5.根据权利要求3所述的方法，其特征在于，在预训练过程中经过若干轮预训练后在达到训练结束条件之前，还包括：

6.根据权利要求3所述的方法，其特征在于，在预训练结束后，还包括：

获取训练数据集，所述训练数据集包括多组训练样本及每组训练样本对应的识别文本，每一组训练样本包括至少一个视角下拍摄的人脸训练视频、人体训练视频及训练语音；

7.根据权利要求3所述的方法，其特征在于，所述对所述掩码人脸视觉训练特征、掩码人体视觉训练特征、掩码语音训练特征进行融合，得到融合训练特征，包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，所述视频包括一个视角下的人脸视频，和/或一个视角下的人体视频；

所述采用预配置的多模态语音识别模型处理所述语音及所述视频，得到模型输出的识别文本，包括：

9.根据权利要求1-7任一项所述的方法，其特征在于，所述视频包括至少两个视角下的人脸视频，或，至少两个视角下的人体视频；

或，

10.一种多模态语音识别装置，其特征在于，包括：

11.一种多模态语音识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的多模态语音识别方法的各个步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的多模态语音识别方法的各个步骤。