CN113822125A

CN113822125A - 唇语识别模型的处理方法、装置、计算机设备和存储介质

Info

Publication number: CN113822125A
Application number: CN202110703815.6A
Authority: CN
Inventors: 何盛烽; 任苏成; 孙子荀; 邓大付; 王巨宏; 刘婷婷
Original assignee: South China University of Technology SCUT; Tencent Technology Shenzhen Co Ltd
Current assignee: South China University of Technology SCUT; Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-12-21
Anticipated expiration: 2041-06-24
Also published as: CN113822125B

Abstract

本申请涉及一种唇语识别模型的处理方法、装置、计算机设备和存储介质。所述方法涉及人工智能的计算机视觉技术，将整个蒸馏过程划分为交替训练的学生训练阶段与大师训练阶段，在大师训练阶段，利用临时训练样本对前次交替训练更新的学生模型再次更新，获得的临时学生模型通过验证样本向大师模型反馈当前的学习状态，引导大师模型根据当前反馈自适应地调整教学知识；此外，大师模型还接受大师训练样本的监督，通过大师训练样本所确定的大师识别损失来调整教学内容。接着在学生训练阶段对学生模型进行训练，如此反复迭代多次之后根据学生模型获得唇语识别模型。上述方案能够在提升大师模型教学知识准确性的同时灵活调整教学内容，提升知识蒸馏效果。

Description

唇语识别模型的处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种唇语识别模型的处理方法、装置、计算机设备和存储介质。

背景技术

唇语识别识旨在从无声的唇部视频或人脸视频中预测说话内容，这种视觉任务通常是采用知识蒸馏的方式，让学生模型从训练的教师模型学习到唇语识别的能力。

知识蒸馏可以将知识从教师模型传递给学生模型。然而，目前教师模型通常都是预先训练的模型，没有考虑根据学生模型当前具备的唇语识别任务的能力来进行训练，由于忽视学生模型的需要，教师模型在调整教学知识时往往缺乏灵活性，无法根据学生模型的发展动态调整教学内容，从而影响知识蒸馏效果。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升指导学生模型学习唇语识别的效果的唇语识别模型的处理方法、装置、计算机设备和存储介质。

一种唇语识别模型的处理方法，所述方法包括：

获取训练样本并获取前次交替训练更新的学生模型与大师模型，每个所述训练样本包括视频帧序列以及对应的音频信号；

根据所述学生模型与所述大师模型分别对从所述训练样本中获取的临时训练样本进行唇语识别获得的结果确定临时学生损失，基于所述临时学生损失更新所述学生模型获得临时学生模型；

根据所述临时学生模型对从所述训练样本中获取的验证样本进行唇语识别获得的结果与所述验证样本的标签数据，确定学生反馈损失，并根据所述大师模型对从所述训练样本中获取的大师训练样本进行唇语识别获得的结果与所述大师训练样本的标签数据，确定大师识别损失；

根据所述学生反馈损失与所述大师识别损失获得当次交替训练更新的大师模型，基于所述当次交替训练更新的大师模型和所述训练样本对所述前次交替训练更新的学生模型进行模型训练，获得当次交替训练更新的学生模型；

基于当次交替训练更新的学生模型与大师模型，返回所述获取前次交替训练更新的学生模型与大师模型的步骤继续交替训练，根据训练停止时更新的学生模型获得唇语识别模型。

在一个实施例中，所述确定所述训练样本中每个训练样本对应的学习难度系数，包括：

通过预训练的视频助教网络，对各所述训练样本中的视频帧序列进行处理，获得各所述训练样本的唇语预测类别的视频置信度；

通过预训练的音频助教网络，对各所述训练样本中的音频信号进行处理，获得各所述训练样本的唇语预测类别的音频置信度；

融合所述视频置信度与所述音频置信度，得到各所述训练样本的类别置信度，根据所述类别置信度确定各所述训练样本对应的学习难度系数。

在一个实施例中，所述方法还包括：

根据当前的迭代次数，确定当次交替训练所需的目标样本数量，所述目标样本数量随所述迭代次数逐步递增；

获取所述目标样本数量的训练样本进行当次的交替训练。

在一个实施例中，所述方法还包括：

获取待识别视频帧序列；

将所述待识别视频帧序列输入训练好的所述唇语识别模型；

通过所述唇语识别模型中的视频处理网络，对所述待识别视频帧序列进行处理后，输出所述待识别视频帧序列中说话人对应的说话内容。

一种唇语识别模型的处理装置，所述装置包括：

样本获取模块，用于获取训练样本并获取前次交替训练更新的学生模型与大师模型，每个所述训练样本包括视频帧序列以及对应的音频信号；

临时学生模型获取模块，用于根据所述学生模型与所述大师模型分别对从所述训练样本中获取的临时训练样本进行唇语识别获得的结果确定临时学生损失，基于所述临时学生损失更新所述学生模型获得临时学生模型；

大师模型训练模块，用于根据所述临时学生模型对从所述训练样本中获取的验证样本进行唇语识别获得的结果与所述验证样本的标签数据，确定学生反馈损失，并根据所述大师模型对从所述训练样本中获取的大师训练样本进行唇语识别获得的结果与所述大师训练样本的标签数据，确定大师识别损失；根据所述学生反馈损失与所述大师识别损失获得当次交替训练更新的大师模型，基于所述当次交替训练更新的大师模型和所述训练样本对所述前次交替训练更新的学生模型进行模型训练，获得当次交替训练更新的学生模型；

迭代模块，用于基于当次交替训练更新的学生模型与大师模型，返回所述获取前次交替训练更新的学生模型与大师模型的步骤继续交替训练，根据训练停止时更新的学生模型获得唇语识别模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序，所述计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中，计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行上述唇语识别模型的处理方法的步骤。

上述唇语识别模型的处理方法、装置、计算机设备和存储介质，与使用预训练教师模型指导学生模型学习的传统方式相比，不仅对学生模型进行训练，还对指导学生模型学习的模型进行训练，该模型称之为大师模型，从而将整个蒸馏过程划分为交替训练的学生训练阶段与大师训练阶段。

具体地，在大师训练阶段，利用临时训练样本对前次交替训练更新的学生模型再次更新，获得临时学生模型，该临时学生模型作为辅助模型，是不断更新的。临时学生模型通过验证样本向大师模型反馈当前的学习状态，即通过学生反馈损失来引导大师模型根据当前唇语识别任务的反馈自适应地调整教学知识；此外，大师模型还接受大师训练样本的监督，通过大师训练样本所确定的大师识别损失来调整教学内容。也就是说，大师模型的训练过程中的监督信息包括两部分，一部分是反映当前学生模型学习状态的学生反馈损失，另一部分是反映大师模型当前的教学能力的大师识别损失，根据这两个损失去调整前次交替训练更新的大师模型，能够在提升大师模型教学知识准确性的同时灵活动态地调整教学内容，从而提升整个知识蒸馏的效果。这样，在获得当次交替训练更新的大师模型后，就可以在学生训练阶段，使用该当次交替训练更新的大师模型与训练样本对前次交替训练更新的学生模型进行模型训练，如此反复迭代多次之后，根据学生模型获得的唇语识别模型的识别性能将被大大提升。

一种唇语识别模型的处理方法，所述方法包括：

根据所述学生模型对从所述训练样本中获取的学生训练样本中的视频帧序列进行唇语识别，获得学生识别结果，根据所述学生识别结果与所述学生训练样本的标签数据构建交叉熵损失；

根据所述学生识别结果、所述大师模型中的视频处理网络对所述学生训练样本进行唇语识别获得的第一唇语识别结果、所述大师模型中的音频处理网络对所述学生训练样本进行唇语识别获得的第二唇语识别结果以及所述大师模型中的的视听处理网络基于所述视频帧序列与所述音频信号获得的第三唇语识别结果，构建跨模态融合损失；

根据所述交叉熵损失与所述跨模态融合损失，确定学生损失；

根据所述学生损失更新所述前次交替训练更新的学生模型后，获得当次交替训练更新的学生模型，基于所述当次交替训练更新的学生模型和所述训练样本对所述前次交替训练更新的大师模型进行模型训练，获得当次交替训练更新的大师模型；

一种唇语识别模型的处理装置，所述装置包括：

标签损失构建模块，用于根据所述学生模型对从所述训练样本中获取的学生训练样本中的视频帧序列进行唇语识别，获得学生识别结果，根据所述学生识别结果与所述学生训练样本的标签数据构建交叉熵损失；

跨模态融合损失构建模块，用于根据所述学生识别结果、所述大师模型中的视频处理网络对所述学生训练样本进行唇语识别获得的第一唇语识别结果、所述大师模型中的音频处理网络对所述学生训练样本进行唇语识别获得的第二唇语识别结果以及所述大师模型中的的视听处理网络基于所述视频帧序列与所述音频信号获得的第三唇语识别结果，构建跨模态融合损失；

学生模型更新模块，用于根据所述交叉熵损失与所述跨模态融合损失，确定学生损失；根据所述学生损失更新所述前次交替训练更新的学生模型后，获得当次交替训练更新的学生模型，基于所述当次交替训练更新的学生模型和所述训练样本对所述前次交替训练更新的大师模型进行模型训练，获得当次交替训练更新的大师模型；

具体地，在学生训练阶段，学生模型通过学生训练样本的标签数据构建交叉熵损失，此外，大师模型中的视频处理网络对学生训练样本提取视频模态的知识，大师模型的音频处理网络对学生训练样本提取音频模态的知识，大师模型的视听处理网络提取学生训练样本的视听组合知识，融合这三种不同模态的知识得到的跨模态融合损失可以使得学生模型从大师模型学习挖掘多模态信息的能力，根据交叉熵损失与该跨模态融合损失共同指导学生模型的训练，能够大大提升学生模型的学习效果。在获得当次交替训练更新的学生模型后，就可以在大师训练阶段，使用该当次交替训练更新的学生模型与训练样本对前次交替训练更新的大师模型进行模型训练，如此反复迭代多次之后，根据学生模型获得的唇语识别模型的识别性能将被大大提升。

附图说明

图1为一个实施例中唇语识别模型的处理方法的应用环境图；

图2为一个实施例中唇语识别模型的处理方法的流程示意图；

图3为一个实施例中在大师训练阶段对大师模型训练的模型框架示意图；

图4为一个实施例中视频流的网络结构的示意图；

图5为一个实施例中音频流的网络结构的示意图；

图6为一个实施例中语句级唇语识别场景中视频流与音频流的组合的网络结构示意图；

图7为一个实施例中大师模型对训练样本进行唇语识别的流程示意图；

图8为一个实施例中获得当次交替训练更新的学生模型的流程示意图；

图9为一个实施例中确定学生损失的流程示意图；

图10为一个实施例中构建跨模态融合损失的流程示意图；

图11为一个实施例中在学生训练阶段对学生模型训练的模型框架示意图；

图12为一个实施例中确定临时学生损失的流程示意图；

图13为一个具体的实施例中对大师模型与学生模型进行交替训练的网络结构示意图；

图14为一个具体的实施例中唇语识别模型的处理方法的流程示意图；

图15为另一个实施例中唇语识别模型的处理方法的流程示意图；

图16为一个实施例中唇语识别模型的处理装置的结构框图；

图17为另一个实施例中唇语识别模型的处理装置的结构框图；

图18为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的唇语识别模型的处理方法，通过使用人工智能技术(ArtificialIntelligence,AI)中的计算机视觉技术以及机器学习技术，实现了唇语识别模型的训练，还实现了唇语识别。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。可以理解，本申请中根据待处理视频帧序列进行唇语识别，就属于使用计算机视觉技术中的视频语义理解技术，实现唇语识别。

机器学习(Machine Learning,ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，该学科专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。人工神经网络是一门重要的机器学习技术，在***辨识、模式识别、智能控制等领域有着广泛的应用前景。可以理解，本申请通过使用机器学习技术，训练并使用唇语识别模型。本申请中包括人脸或唇部的视频帧序列可以存储于区块链网络上，以防止窃取。

本申请提供的唇语识别模型的处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以获取训练样本并获取前次交替训练更新的学生模型与大师模型，每个训练样本包括视频帧序列以及对应的音频信号；根据学生模型与大师模型分别对从训练样本中获取的临时训练样本进行唇语识别获得的结果确定临时学生损失，基于临时学生损失更新学生模型获得临时学生模型；根据临时学生模型对从训练样本中获取的验证样本进行唇语识别获得的结果与验证样本的标签数据，确定学生反馈损失，并根据大师模型对从训练样本中获取的大师训练样本进行唇语识别获得的结果与大师训练样本的标签数据，确定大师识别损失；根据学生反馈损失与大师识别损失获得当次交替训练更新的大师模型，基于当次交替训练更新的大师模型和训练样本对前次交替训练更新的学生模型进行模型训练，获得当次交替训练更新的学生模型；基于当次交替训练更新的学生模型与大师模型，返回获取前次交替训练更新的学生模型与大师模型的步骤继续交替训练，根据训练停止时更新的学生模型获得唇语识别模型。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种唇语识别模型的处理方法，以该方法应用于图1中的计算机设备(终端102或服务器104)为例进行说明，包括以下步骤：

步骤202，获取训练样本并获取前次交替训练更新的学生模型与大师模型，每个训练样本包括视频帧序列以及对应的音频信号。

唇语识别是指从无声的唇部视频或人脸视频中识别出说话人的说话内容的过程。相关技术中，通常是利用知识蒸馏的方式，从经过音频信号预训练的教师模型学习对无声视频进行唇语识别的能力。显然，学生模型需要从预训练的教师模型学习另一种模态的知识，从音频知识到视频知识是跨模态的，跨模态数据之间潜在的模态差异可能导致学生模型无法学习到准确的视频知识，从而影响学生模型的唇语识别效果。为此，本申请实施例中，每个训练样本包括视频帧序列以及对应的音频信号，使得大师模型能够理解视频模态、音频模态以的知识，以及视频模态与音频模态组合后的视听组合知识，以弥补固有的跨模态知识之间的模态差异，这样学生模型就能够从大师模型学习到跨模态知识。

本申请实施例中，每个训练样本包括视频帧序列与音频信号。音频信号记为X_A，视频帧序列记为X_V，音频信号的语音内容与视频帧序列对应的唇语内容是对应的，比如某个训练样本对应了单词“我”。音频信号可以是时域的原始波形，视频帧序列可以是对原始视频信号按照预设的采样率进行采样获得的视频帧序列，采样率例如可以是25fps。计算机设备还可以对音频信号与视频帧序列进行对齐处理，例如，每个音频信号的长度为1.16秒，对应视频帧序列的长度为29。

每个训练样本还包括与之对应的标签数据，标签数据代表了每个训练样本对应的唇语内容。唇语识别可以分为两种应用场景，一种是单词级的唇语识别，另一种是语句级的唇语识别，在语句级的唇语识别时，每个单词依次被预测后连接起来得到预测的语句。

在单词级的唇语识别场景下，每个单词U∈R^K的标签数据可以用一个长度为K的独热向量进行表示，其中R^K表示词汇表，K表示词汇量，例如可以取500。计算机设备可以使用单词级数据集构建单词级唇语识别的训练样本。

在语句级的唇语识别场景中，语句中的每个字符Z_q∈{R^K|q＝1，2，..，Q}的标签数据可以用一个独热向量表示，其中Q表示句子的长度，Zq表示语句中的第q个字符。例如，可以将字符量设置为40，一共包括26个字母、10个数字和4个特殊标记(空格符、键盘、EOS和标点符号)，那么每个语句对应的标签数据是一个Q*40的向量矩阵，例如“我们”对应了“women”，其标签数据是由5个字母和1个空格对应的独热向量构成的向量矩阵。计算机设备可以使用语句级的数据集构建语句级唇语识别的训练样本。

在一个实施例中，计算机设备获取原始视频，通过对原始视频中的面部区域进行检测，确定唇部区域，并以唇部区域为中心对原始视频进行裁剪，获得视频帧序列。此外，计算机设备还可以对裁剪后的唇部区域进行随机旋转和缩放处理，获得更为丰富的训练样本。

知识蒸馏的目的是为了将知识从教师模型(Teacher)传递至学生模型(Student)，唇语识别的相关技术中，大多是学生模型从预训练的教师模型提取知识从而学习唇语识别，然而，由于教师模型是预训练的，教师模型的教学内容无法根据学生模型当前的学习状态进行灵活动态调整。为此，本申请实施例并不使用预训练的教师模型，而是设计了一个可训练的、可动态调整教学内容的网络，称之为大师模型(Master)。训练过程中，大师模型与学生模型是交替训练的，在大师训练阶段，学生模型的模型参数是固定的，不作更新，大师模型不仅通过训练样本的标签数据的监督来进行优化，还需要接受前次交替更新的学生模型的临时反馈来进行优化；在学生训练阶段，大师模型的模型参数是固定的，不作更新，而学生模型从前次交替训练更新的大师模型学习从训练样本中提取跨模态知识的能力，并通过训练样本的标签数据的监督来进行优化。

具体地，计算机设备在当次交替训练时，获取前次交替训练更新的学生模型与大师模型，在前次交替训练更新的学生模型与大师模型的基础上，继续当次交替训练。例如，在当次交替训练过程中，在大师训练阶段，计算机设备获取10批小批量训练样本对大师模型迭代10次，每批小批量训练样本的数量为30，第10次迭代结束获得前次交替训练更新的大师模型。同样地，在学生训练阶段，计算机设备再获取10批小批量训练样本对学生模型迭代10次，第10次迭代结束时获得前次交替训练更新的学生模型。以此类推，继续这样交替训练下去。需要说明的是，由于是交替训练的，大师模型与学生模型的训练先后顺序是不作限制的。

可以理解的是，“前次交替训练更新的学生模型与大师模型”，用于描述前次交替训练后获得的学生模型与大师模型，“当次交替训练更新的学生模型与大师模型”，用于描述当次交替训练后获得的学生模型与大师模型，“前次”与“当次”均为相对变化的概念，比如，在利用“前次交替训练更新的学生模型与大师模型”进行当次的模型训练获得当次交替训练更新的学生模型与大师模型后，则在下一次交替训练时，可以将当次交替训练更新的学生模型与大师模型作为新的“前次交替训练更新的学生模型与大师模型”，此时下一次交替训练成为新的当次交替训练。

步骤204，根据学生模型与大师模型分别对从训练样本中获取的临时训练样本进行唇语识别获得的结果确定临时学生损失，基于临时学生损失更新学生模型获得临时学生模型。

相关技术中，教师模型通常都是预训练的，没有根据学生当前的唇语识别能力进行训练，忽视了学生模型的学习需求，教师模型在调整教学知识时往往缺乏灵活性。为此，在大师训练阶段，计算机设备利用一个或多个临时训练样本，对前次交替训练更新的学生模型进行临时的更新，获得临时学生模型(Temporary Student)，该临时学生模型的唇语识别能力可以用于向大师模型反馈学生模型的当前学习状态。

具体地，计算机设备可以从训练样本中获取临时训练样本，分别通过前次交替训练更新的学生模型与大师模型对该临时训练样本进行预测，获得各自的预测结果，在更新学生模型获得临时学生模型时，大师模型不作更新，临时训练样本的标签数据与大师模型的预测结果作为更新学生模型的依据。可以理解的是，所获得的临时学生模型是根据前次交替训练更新的学生模型更新得到的，故而在每次交替训练的大师训练阶段，临时学生模型是不断更新的。

步骤206，根据临时学生模型对从训练样本中获取的验证样本进行唇语识别获得的结果与验证样本的标签数据，确定学生反馈损失，并根据大师模型对从训练样本中获取的大师训练样本进行唇语识别获得的结果与大师训练样本的标签数据，确定大师识别损失。

其中，验证样本是用于验证学生模型当前的唇语识别能力的样本，当前学生模型的学习状态，可以依据临时学生模型对验证样本的唇语识别结果与验证样本的标签数据所构建的学生反馈损失来确定。这样，大师模型基于该学生反馈损失进行优化时，可以接收学生模型的反馈，从而促使大师优化过程中能够灵活调整教学内容，提升对学生模型的传递知识的能力。

具体地，计算机设备可以从训练样本中获取验证样本，通过临时学生模型对验证样本进行唇语识别获得预测结果，根据该预测结果与该验证样本的标签数据构建交叉熵损失，作为学生反馈损失。此外，为了提升学生模型的唇语识别性能，大师模型需要提取更全面的教学知识，学生模型才能从大师模型学习到更全面的知识。为此，计算机设备还从训练样本中获取大师训练样本，通过前次交替训练更新的大师模型对该大师训练样本进行唇语识别获得的结果与大师训练样本的标签数据，构建大师模型的大师识别损失。

也就是说，大师模型训练过程中的监督信息包括两部分，一部分是反映当前学生模型学习状态的学生反馈损失，另一部分是反映大师模型当前的教学能力的大师识别损失，根据这两个损失去调整前次交替训练更新的大师模型，能够在提升大师模型教学知识准确性的同时灵活动态地调整教学内容，从而提升整个知识蒸馏的效果。

在一些实施例中，用于验证当前学生模型的学习效果的验证样本，与用于提升大师模型提炼教学知识的大师训练样本，可以是相同的训练样本。在一些实施例中，由于验证样本是验证当前学生模型的唇语识别能力的，所以验证样本可以是验证集中的训练样本，大师训练样本是训练集中的训练样本，也即是，验证样本与大师训练样本采用不同的训练样本。

步骤208，根据学生反馈损失与大师识别损失获得当次交替训练更新的大师模型，基于当次交替训练更新的大师模型和训练样本对前次交替训练更新的学生模型进行模型训练，获得当次交替训练更新的学生模型。

具体地，计算机设备在大师训练阶段，通过上述的学生反馈损失与大师识别损失，进行梯度反向传播，以此来更新大师模型的模型参数，获得当次交替训练更新的大师模型后，继续在学生训练阶段，基于当次交替训练更新的大师模型和训练样本对前次交替训练更新的学生模型进行模型训练，获得当次交替训练更新的学生模型。

步骤210，基于当次交替训练更新的学生模型与大师模型，返回获取前次交替训练更新的学生模型与大师模型的步骤继续交替训练，根据训练停止时更新的学生模型获得唇语识别模型。

具体地，计算机设备按前面的步骤对大师模型与学生模型的交替训练过程，称为交替训练一次迭代过程，按照上述步骤，计算机设备可以迭代多次，返回获取前次交替训练更新的学生模型与大师模型的步骤继续交替训练，直至满足迭代停止条件时，根据更新的学生模型获得唇语识别模型。

如图3所示，为一个实施例中在交替训练的大师训练阶段对大师模型进行训练的模型框架示意图。参照图3，在获得前次交替训练更新的学生模型与大师模型后，将临时训练样本的视频帧序列输入该学生模型、将临时训练样本的视频帧序列与音频信号均输入该大师模型，利用学生模型与大师模型的输出结果构建临时学生损失，根据该临时学生损失更新该学生模型后获得临时学生模型。接着，将验证样本中的视频帧序列输入临时学生模型，根据临时学生模的输出结果构建学生反馈损失，还将大师训练样本中的视频帧序列与音频信号均输入大师模型，根据大师模型的输出结果构建大师识别损失。基于学生反馈损失与大师识别损失更新大师模型的模型参数。

上述唇语识别模型的处理方法，与使用预训练教师模型指导学生模型学习的传统方式相比，不仅对学生模型进行训练，还对指导学生模型学习的模型进行训练，该模型称之为大师模型，从而将整个蒸馏过程划分为交替训练的学生训练阶段与大师训练阶段。具体地，在大师训练阶段，利用临时训练样本对前次交替训练更新的学生模型再次更新，获得临时学生模型，该临时学生模型作为辅助模型，是不断更新的。临时学生模型通过验证样本向大师模型反馈当前的学习状态，即通过学生反馈损失来引导大师模型根据当前唇语识别任务的反馈自适应地调整教学知识；此外，大师模型还接受大师训练样本的监督，通过大师训练样本所确定的大师识别损失来调整教学内容。在获得当次交替训练更新的大师模型后，就可以在学生训练阶段，使用该当次交替训练更新的大师模型与训练样本对前次交替训练更新的学生模型进行模型训练，如此反复迭代多次之后，根据学生模型获得的唇语识别模型的识别性能将被大大提升。

在一个实施例中，学生模型需要通过模型训练学习到对无声视频进行唇语识别的能力，因此学生模型是基于视频流的模型，其输入为训练样本的视频帧序列，输出为唇语识别结果。为了提升学生模型的唇语识别性能，大师模型需要提取更全面的教学知识，学生模型才能从大师模型学习到更全面的知识，本申请实施例中，大师模型是基于视频流与音频流的组合的模型，可以从不同模态的数据中提取更全面的知识，弥补跨模态数据之间固有的模态差异，大师模型的输入包括训练样本的音频信号与视频帧序列。

其中，音频流是基于音频信号产生预测结果的音频处理网络，视频流是基于视频信号产生预测结果的视频处理网络，视听组合流，旨在结合音频信号与视频信号产生预测结果。音频流、视频流均包括前端的特征提取层、后端的特征映射层和用于分类的输出层。视频流与音频流的组合，除了包括上述的音频流与视频流之外，还包括向量级联层与用于分类的输出层，其中向量级联层用于根据音频流的后端、视频流的后端各自产生的输出向量获得视听组合输出向量。

在一个实施例中，音频流前端的特征提取层，可以使用ResNet-18，并且，由于音频信号位于1维空间的信号，计算机设备可以将音频流前端的二维卷积核全部替换为一维卷积，并根据音频信号的采样率设置第一层卷积的卷积核尺寸。音频流后端的特征映射层，在单词级唇语识别场景中，可以使用时间卷积或transformer sequence to sequence(TM-Seq2Seq)，在语句级唇语识别场景中，可以使用transformer sequence to sequence(TM-Seq2Seq)。

在一个实施例中，视频流前端的特征提取层，可以使用ResNet-18，并且，由于视频信号是图像信号，还包括时间维度，计算机设备可以将视频流前端的第一层卷积替换为三维卷积。视频流后端的特征映射层，在单词级唇语识别场景中，可以使用时间卷积或transformer sequence to sequence(TM-Seq2Seq，包括多头注意力与前馈网络)，在语句级唇语识别场景中，可以使用TM-Seq2Seq。

在一个实施例中，视频流与音频流的组合，用于获得从音频流与视频流派生的合并特征的预测结果。视频流与音频流的组合中的向量级联层，在单词级唇语识别场景中，直接将音频流与视频流后端分别产生的输出向量连接成一个新的向量；在语句级唇语识别场景中，通过上下文信息对音频输出向量与视频输出向量的关注，分别获得视频编码向量与音频编码向量后再连接成新的视听组合输出向量后。

如图4所示，为一个实施例中视频流的网络结构的示意图。参照图4，输入为视频帧序列，经过前端的特征提取层，获得视频特征，再利用基于TM-Seq2Seq的后端，获得视频输出向量。

如图5所示，为一个实施例中音频流的网络结构的示意图。参照图4，输入为音频信号，经过前端的特征提取层(一维卷积)，获得音频特征，再利用基于TM-Seq2Seq的后端，获得音频输出向量。

如图6所示，为一个实施例中语句级唇语识别场景中视频流与音频流的组合的网络结构示意图。参照图6，该网络结构除了包括如图4、图5所示的音频流与视频流之外，还包括视听处理网络，视听处理网络包括多头注意力编码层与级联层，用于根据上下文对当前输出字符的注意力获得视听组合输出向量，还包括输出层，用于根据视听组合输出向量获得唇语识别结果。

在一个实施例中，学生模型对训练样本进行唇语识别的步骤包括：将训练样本中的视频帧序列输入学生模型；通过学生模型的特征提取层，提取视频帧序列对应的视频特征；通过学生模型的特征映射层，根据视频特征获得视频输出向量；通过学生模型的输出层，根据视频输出向量获得唇语识别结果。

前文提到，学生模型是基于视频流的模型，也就是，学生模型是基于视频处理网络的模型。参照图4的网络结构，视频流包括特征提取层、特征映射层与用于分类的输出层。计算机设备需要通过学生模型对训练样本进行唇语识别时，将训练样本中的视频帧序列输入学生模型，获得相应的唇语识别结果。在单词级唇语识别场景中，基于视频流的学生模型输出的唇语识别结果是一个K维向量，其中K表示词汇量，该K维向量中每个元素表示该视频帧序列的唇语内容为词汇表中每个单词的概率。在语句级唇语识别场景中，基于视频流的学生模型输出的唇语识别结果是一个矩阵向量。

在一个实施例中，如图7所示，大师模型对训练样本进行唇语识别的步骤包括：

步骤702，将训练样本输入大师模型。

前文提到，大师模型是基于视频流与音频流的组合的模型，如图6所示，视频流与音频流的组合，除了包括上述的音频流与视频流之外，还包括向量级联层与用于分类的输出层。本实施例中，大师模型包括基于视频流的视频处理网络与基于音频流的音频处理网络，还包括视听处理网络。计算机设备需要通过大师模型对训练样本进行唇语识别时，将训练样本中的视频帧序列与音频信号均输入大师模型。

步骤704，通过大师模型中的视频处理网络，对训练样本中的视频帧序列进行处理，获得第一唇语识别结果。

其中，大师模型中的视频处理网络，即基于视频流的网络结构，也就是，大师模型是基于音频处理网络与视频处理网络的模型。计算机设备将训练样本中的视频帧序列输入该视频处理网络，获得第一唇语识别结果。第一唇语识别结果是基于训练样本的视频信息获得的识别结果。

在一个实施例中，通过大师模型中的视频处理网络，对训练样本中的视频帧序列进行处理，获得第一唇语识别结果，包括：将训练样本中的视频帧序列输入大师模型的视频处理网络；通过视频处理网络的特征提取层，提取视频帧序列对应的视频特征，通过视频处理网络的特征映射层，根据视频特征获得视频输出向量，通过视频处理网络的输出层，根据视频输出向量获得第一唇语识别结果。

具体地，视频处理网络是基于视频流的模型，参照图4的网络结构，视频流包括特征提取层、特征映射层与用于分类的输出层。计算机设备将训练样本中的视频帧序列输入视频处理网络，依次通过视频处理网络的特征提取层、特征映射层与输出层的处理，获得第一唇语识别结果。

步骤706，通过大师模型中的音频处理网络，对训练样本中的音频信号进行处理，获得第二唇语识别结果。

其中，大师模型中的音频处理网络，即基于音频流的网络结构。计算机设备将训练样本中的音频信号输入该音频处理网络，获得第二唇语识别结果。第二唇语识别结果是基于训练样本的音频信息获得的识别结果。

在一个实施例中，步骤706包括：将训练样本中的音频信号输入大师模型的音频处理网络；通过音频处理网络的特征提取层，提取音频信号对应的音频特征，通过音频处理网络的特征映射层，根据音频特征获得音频输出向量，通过音频处理网络的输出层，根据音频输出向量获得第二唇语识别结果。

具体地，音频处理网络是基于音频流的模型，参照图5的网络结构，音频流包括特征提取层、特征映射层与用于分类的输出层。计算机设备将训练样本中的音频信号输入音频处理网络，依次通过音频处理网络的特征提取层、特征映射层与输出层的处理，获得第二唇语识别结果。

步骤708，通过大师模型中的视听处理网络，基于视频处理网络根据视频帧序列获得的视频输出向量与音频处理网络根据音频信号获得的音频输出向量，获得视听组合输出向量，基于视听组合输出向量，获得第三唇语识别结果。

其中，大师模型中的视听处理网络用于基于视频输出向量与音频输出向量获得派生的视听组合输出向量。计算机设备根据视频处理网络输出的视频输出向量与音频处理网络输出的音频输出向量，获得视听组合输出向量，根据视听组合输出向量获得第三唇语识别结果。视听组合输出向量是根据视频输出向量与音频输出向量派生得到的能够反应视频模态与音频模态之间潜在的跨模态知识的特征。

在一个实施例中，当学生模型用于单词级唇语识别时，步骤708包括：将视频输出向量与音频输出向量输入大师模型的视听处理网络；通过视听处理网络的级联层，将视频输出向量与音频输出向量进行级联，获得视听组合输出向量，通过视听处理网络的输出层，根据视听组合输出向量，获得第三唇语识别结果。

具体地，视听处理网络包括级联层与输出层，在单词级唇语识别场景中，计算机设备通过该级联层将视频输出向量与音频输出向量级联，获得视听组合输出向量，再通过用于分类的输出层，获得第三唇语识别结果。

在一个实施例中，当学生模型用于语句级唇语识别时，步骤708包括：确定在前输出字符的特征向量；将在前输出字符的特征向量、视频处理网络根据视频帧序列获得的视频输出向量、音频处理网络根据音频信号获得的音频输出向量，输入大师模型的视听处理网络；通过视听处理网络的多头注意力编码层，根据特征向量、视频输出向量与音频输出向量获得视频编码向量与音频编码向量；通过视听处理网络的级联层，将视频编码向量与音频编码向量进行级联，获得视听组合输出向量，通过视听处理网络的输出层，根据视听组合输出向量，获得第三唇语识别结果。

参照图6的网络结构，计算机设备将训练样本中的视频帧序列输入视频处理网络，通过视频处理网络的特征提取层、特征映射层的处理，获得视频输出向量，计算机设备将训练样本中的音频信号输入音频处理网络，依次通过音频处理网络的特征提取层、特征映射层的处理，获得音频输出向量。

为了利用在前输出字符对当前输出字符的影响，在视听处理网络的多头注意力编码层中，利用在前字符的特征向量继续对视频输出向量、音频输出向量进行编码，获得视频编码向量与音频编码向量，通过视听处理网络的级联层，将视频编码向量与音频编码向量进行级联，获得视听组合输出向量，通过视听处理网络的输出层，根据视听组合输出向量，获得第三唇语识别结果。

关于步骤204，根据学生模型与大师模型分别对从训练样本中获取的临时训练样本进行唇语识别获得的结果确定临时学生损失的具体实施方式，也就是临时学生损失构建的方式，与在交替训练的学生训练阶段对学生模型构建学生损失的方式是一致的，后面将会详细介绍。

关于步骤206中的学生反馈损失，可以使用交叉熵损失。

在一个实施例中，根据临时学生模型对从训练样本中获取的验证样本进行唇语识别获得的结果与验证样本的标签数据，确定学生反馈损失，包括：将验证样本中的视频帧序列输入学生模型；通过学生模型的特征提取层，提取视频帧序列对应的视频特征；通过学生模型的特征映射层，根据视频特征获得视频输出向量；通过学生模型的输出层，根据视频输出向量获得唇语识别结果；根据唇语识别结果与验证样本的标签数据构建交叉熵损失，作为学生反馈损失。

在一实施例中，计算机设备获取前次交替更新的学生模型，利用临时训练样本所确定的临时学生损失对该学生模型再次更新，获得临时学生模型，计算机设备可以采用如下公式获得临时学生模型：

其中，L_s表示利用临时训练样本所确定的临时学生损失；θ_s表示前次交替训练更新的学生模型的模型参数，θ_ts表示临时学生模型的模型参数，α表示学习率。

计算机设备在将验证样本输入临时学生模型后，可以采用如下公式构建学生反馈损失：

其中y′表示临时学生模型f_ts对验证样本中的视频帧序列进行唇语识别获得的结果，y₁表示验证样本的标签数据。

关于步骤206中的大师识别损失，也可以使用交叉熵损失。在一个实施例中，根据大师模型对从训练样本中获取的大师训练样本进行唇语识别获得的结果与大师训练样本的标签数据，确定大师识别损失，包括：将大师训练样本输入大师模型，获得对应的第一唇语识别结果、第二唇语识别结果与第三唇语识别结果；根据大师训练样本的标签数据与第一唇语识别结果确定第一交叉熵损失，根据大师训练样本的标签数据与第二唇语识别结果确定第二交叉熵损失，根据大师训练样本的标签数据与第三唇语识别结果确定第三交叉熵损失，融合第一交叉熵损失、第二交叉熵损失与第三交叉熵损失，获得大师识别损失。

其中，将大师训练样本输入大师模型，获得对应的第一唇语识别结果、第二唇语识别结果与第三唇语识别结果的具体实施例，可以参考前文图7描述的大师模型对训练样本进行唇语识别的处理流程，以及前文对基于视频流与音频流的组合的大师模型的详细介绍。

具体是计算机设备将大师训练样本中的视频帧序列输入大师模型的视频处理网络；通过视频处理网络的特征提取层，提取视频帧序列对应的视频特征，通过视频处理网络的特征映射层，根据视频特征获得视频输出向量，通过视频处理网络的输出层，根据视频输出向量获得第一唇语识别结果。计算机设备将大师训练样本中的音频信号输入大师模型的音频处理网络，通过音频处理网络的特征提取层，提取音频信号对应的音频特征，通过音频处理网络的特征映射层，根据音频特征获得音频输出向量，通过音频处理网络的输出层，根据音频输出向量获得第二唇语识别结果。通过大师模型中的视听处理网络，基于视频处理网络根据视频帧序列获得的视频输出向量与音频处理网络根据音频信号获得的音频输出向量，获得视听组合输出向量，基于视听组合输出向量，获得第三唇语识别结果。

在一个实施例中，计算机设备可以采用如下公式构建大师识别损失：

L_m＝λ_m(L_CE(y₂,f_m(X_A,X_V；θ_A,θ_V))+L_CE(y₂,f_m(X_A；θ_A))+L_CE(y₂,f_m(X_V；θ_V)))；

其中，λ_m表示平衡因子，f_m(X_A,X_V；θ_A,θ_V)表示与大师训练样本对应第三唇语识别结果，f_m(X_A；θ_A)表示与大师训练样本对应的第二唇语识别结果，f_m(X_V；θ_V)表示与大师训练样本对应的第一唇语识别结果，y₂表示大师训练样本的标签数据。

那么，大师训练阶段对大师模型进行优化的总损失可以通过如下公式表示：

L_master＝L_ts+λ_m(L_CE(y₂,f_m(X_A,X_V；θ_A,θ_V))+L_CE(y₂,f_m(X_A；θ_A))+L_CE(y₂,f_m(X_V；θ_V)))

通过上述的学生反馈损失与大师识别损失，进行梯度反向传播，以此来更新大师模型的模型参数，获得当次交替训练更新的大师模型。

接下来介绍在交替训练的学生训练阶段对学生模型的优化过程。

在学生训练阶段，只更新学生模型的模型参数，训练目标包括交叉熵损失与跨模态融合损失，交叉熵损失用于提升学生模型的分类准确率，跨模态融合损失用于匹配学生与大师模型之间的输出，使学生模型从大师模型学习到跨模态知识。

在一个实施例中，如图8所示，步骤208中的基于当次交替训练更新的大师模型和训练样本对前次交替训练更新的学生模型进行模型训练，获得当次交替训练更新的学生模型，包括：

步骤802，从训练样本中获取学生训练样本；

步骤804，根据前次交替训练更新的学生模型对学生训练样本进行唇语识别获得的结果，与当次交替训练更新的大师模型对学生训练样本进行唇语识别获得的结果确定学生损失。

步骤806，根据学生损失更新前次交替训练更新的学生模型后，获得当次交替训练更新的学生模型。

在一个实施例中，如图9所示，步骤804包括：

步骤902，通过前次交替训练更新的学生模型对学生训练样本中的视频帧序列进行唇语识别，获得学生识别结果，根据学生识别结果与学生训练样本的标签数据构建交叉熵损失。

具体地，计算机设备可以将学生训练样本的视频帧序列输入前次交替训练更新的学生模型，通过学生模型的特征提取层，提取视频帧序列对应的视频特征，通过学生模型的特征映射层，根据视频特征获得视频输出向量，通过学生模型的输出层，根据视频输出向量获得学生识别结果。

在一个实施例中，在单词级唇语识别场景中，学生训练样本输入至学生模型获得学生识别结果后，其对应的交叉熵损失可采用如下公式表示：

y＝[y1,y2,y3,...,yK]；

y′＝[y1′,y2′,y3′,...,yK′]

其中，y表示学生训练样本的标签数据，K表示词汇表的词汇量，y′表示学生模型对学生训练样本的学生识别结果，可以记为f_s(X_v；θ_s)，L_CE表示交叉熵损失。

在语句级唇语识别场景中，计算机设备可以采用上述的公式获得语句中每个字符产生的损失，根据所有字符产生的损失获得语句的交叉熵损失。

步骤904，根据学生识别结果、当次交替训练更新的大师模型对学生训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失。

本实施例中，从语音模态到视频模态的知识提取对于唇语识别来说是必要的，因为不同的音素特征和视频特征可以避免歧义，让大师模型输出跨模态的不同类型的知识，即音频知识、视频知识和视听知识，以便进一步提炼教学提升，提升对学生模型的指导效果。

具体地，计算机设备可以将学生训练样本的视频帧序列输入大师模型的视频处理网络；通过视频处理网络的特征提取层，提取视频帧序列对应的视频特征，通过视频处理网络的特征映射层，根据视频特征获得视频输出向量，通过视频处理网络的输出层，根据视频输出向量获得第一唇语识别结果。计算机设备将学生训练样本中的音频信号输入大师模型的音频处理网络，通过音频处理网络的特征提取层，提取音频信号对应的音频特征，通过音频处理网络的特征映射层，根据音频特征获得音频输出向量，通过音频处理网络的输出层，根据音频输出向量获得第二唇语识别结果。通过大师模型中的视听处理网络，基于视频处理网络根据视频帧序列获得的视频输出向量与音频处理网络根据音频信号获得的音频输出向量，获得视听组合输出向量，基于视听组合输出向量，获得第三唇语识别结果。

继而，计算机设备就可以根据学生模型输出的学生识别结果、大师模型对输出的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失。

进一步地，由于视频模态数据与音频模态数据之间存在固有的模态差异，在更新学生模型时，如何融合跨模态知识成为进一步需要解决的问题。本申请实施例通过引入两个预训练助教网络，即视频助教网络(tutorV)与音频助教网络(tutorA)，将其各自输出的视频信息与音频信息作为额外的跨模态指导，将其编码成加权系数，作为学生模型对视频信息与音频信息的偏好程度，使学生在训练时能够自我权衡对视频特征与音频特征学习偏好。

在一个实施例中，如图10所示，步骤904包括：

步骤1002，通过预训练的视频助教网络，获得学生训练样本中的视频帧序列对应的视频输出向量后，将视频输出向量编码成视频偏好系数。

其中，视频助教网络是基于视频流的网络，音频助教网络是基于音频流的网络，在对大师模型与学生模型的交替训练过程中，视频助教网络与音频助教网络的参数不作更新。视频助教网络用于提炼出训练样本中视频帧序列的视频信息，音频助教网络用于提炼出训练样本中音频信号的音频信息。它们二者提供的信息可以用于平衡不同模态的知识。

具体地，计算机设备将学生训练样本中的视频帧序列输入预训练的视频助教网络，通过视频助教网络的特征提取层，提取视频帧序列对应的视频特征，通过视频助教网络的特征映射层，根据视频特征获得视频输出向量，视频助教网络获得的视频输出向量可以记为H_V，将视频输出向量编码成视频偏好系数，可以记为W_V。

步骤1004，通过预训练的音频助教网络，获得学生训练样本中的音频信号对应的音频输出向量后，将音频输出向量编码成音频偏好系数。

类似地，计算机设备将学生训练样本中的音频信号输入预训练的音频助教网络，通过音频助教网络的特征提取层，提取音频信号对应的音频特征，通过音频助教网络的特征映射层，根据音频特征获得音频输出向量后，音频助教网络获得的音频输出向量可以记为H_A，将音频输出向量编码成音频偏好系数，可以记为W_A。

步骤1006，根据学生识别结果与第一唇语识别结果确定第一焦点损失，根据学生识别结果与第二唇语识别结果确定第二焦点损失，根据学生识别结果与第三唇语识别结果确定第三焦点损失。

本实施例中，为了让学生模型动态地学***衡学生的学习效果，采用了焦点损失(Focal Loss)来缓解训练样本难易度失衡的问题。

步骤1008，按视频偏好系数对第一焦点损失加权、音频偏好系数对第二焦点损失加权后，与第三焦点损失融合，获得跨模态融合损失。

在一个实施例中，计算机设备可以采用如下公式作为跨模态融合损失：

L_DF＝L_F(f_S(X_V；θ_S),f_m(X_A,X_V；θ_A,θ_V))+W_AL_F(f_S(X_V；θ_S),f_m(X_A；θ_A))

+W_VL_F(f_S(X_V；θ_S),f_m(X_V；θ_V))；

其中，L_F表示焦点损失，f_m(X_V；θ_V)表示大师模型对学生训练样本输出的第一唇语识别结果，f_m(X_A；θ_A)表示大师模型对学生训练样本输出的第二唇语识别结果，f_m(X_A,X_V；θ_A,θ_V)表示大师模型对学生训练样本输出的第三唇语识别结果，f_S(X_V；θ_S)表示学生模型对学生训练样本输出的学生识别结果，W_A表示音频偏好系数，W_V表示视频偏好系数。

步骤906，根据交叉熵损失与跨模态融合损失，确定学生损失。

经过上面的推导，学生训练阶段总体的学生损失可以采用如下公式：

L_s＝L_CE(y,f_s(X_V,θ_s))+λ_aL_DF；

其中，λ_a表示正则化的平衡因子，然后计算优化参数θ_s ^*：

计算机设备在学生训练阶段，通过上述的学生损失，进行梯度反向传播，以此来更新学生模型的模型参数，获得当次交替训练更新的学生模型后，继续在下次交替训练过程，也就是基于当次交替训练更新的大师模型和训练样本对当前交替训练更新的学生模型继续进行交替训练，直至满足迭代停止条件时，根据更新的学生模型获得唇语识别模型。

在一个实施例中，将音频输出向量编码成音频偏好系数，包括：通过跨模态融合网络中的第一全连接层，对视频输出向量进行全连接处理，获得视频全连接向量；通过跨模态融合网络中的第二全连接层，对音频输出向量进行全连接处理，获得音频全连接向量；通过跨模态融合网络中的第三全连接层，将视频全连接向量与音频全连接向量串联后再进行全连接处理，获得音频偏好系数。

其中，跨模态融合网络是用于融合不同模态的知识的网络。跨模态融合网络作为大师模型的一部分，在大师训练阶段进行更新，在学生训练阶段不进行更新。在本实施例中，跨模态融合网络包括三个全连接层，分别是用于对连接视频信息的第一全连接层，其网络参数可以记为θ_FV，用于对音频信息进行全连接处理的第二全连接层，其网络参数可以记为θ_FA，以及融合视频信息与音频信息的第三全连接层，其网络参数可以记为θ_FAV。

具体地，计算机设备可以采用如下公式，获得音频偏好系数与视频偏好系数：

H′_A＝FC(H_A；θ_FA)；

H′_V＝FC(H_V；θ_FV)；

W_A＝W；W_V＝1-W；

其中，H_V表示通过视频助教网络获得的视频输出向量，H_A表示通过音频助教网络获得的音频输出向量，FC(*，θ)表示具有网络参数为θ的全连接层，

表示串联操作，φ表示sigmoid函数。

可以理解的是，在学生训练阶段，跨模态融合网络中作为大师模型的一部分是不更新的，跨模态融合网络是在大师训练阶段通过学生反馈损失进行更新的，也就是说，上述三个全连接层的网络参数都在大师训练阶段进行更新。

如图11所示，为一个实施例中在交替训练的学生训练阶段对学生模型进行训练的模型框架示意图。参照图11，在获得前次交替训练更新的学生模型与当次交替训练更新的大师模型后，将学生训练样本的视频帧序列输入该学生模型、将学生训练样本的音频信号输入该大师模型，利用学生模型的学生识别结果构建交叉熵损失，利用学生模型的学生识别结果与大师模型的输出结果构建跨模态融合损失，根据该交叉熵损失与跨模态融合损失更新该学生模型后获得当次交替训练更新的学生模型。

上面已经介绍了在学生训练阶段对学生模型的更新过程。前文提到，关于步骤204中，交替训练的大师训练阶段时临时学生损失构建的方式，与在交替训练的学生训练阶段对学生模型构建学生损失的方式是一致的，此处对临时学生损失构建的方式进行简要补充说明，详细内容可以参考前文在学生训练阶段对学生模型的更新过程的内容，此处不赘述。

在一个实施例中，如图12所示，步骤1204，根据学生模型与大师模型分别对从训练样本中获取的临时训练样本进行唇语识别获得的结果确定临时学生损失，包括：

步骤1202，通过学生模型对临时训练样本中的视频帧序列进行唇语识别，获得临时学生识别结果，根据临时学生识别结果与临时训练样本的标签数据构建交叉熵损失。

在大师训练阶段对学生模型进行临时更新，与学生训练阶段对学生模型进行优化是相同的过程，只不过，临时更新获得的临时学生模型不会保存下来，仅用于大师模型确定当前学生模型的学习状态。

在学生训练阶段，只更新学生模型的模型参数，训练目标包括交叉熵损失与跨模态融合损失，交叉熵损失用于提升学生模型的分类准确率，跨模态融合损失用于匹配学生与大师模型之间的输出，使学生模型从大师模型学习到跨模态知识。此处在大师训练阶段对前次交替更新的学生模型进行再次更新获得临时学生模型，也是相同的处理步骤。

具体地，计算机设备可以将临时训练样本的视频帧序列输入前次交替训练更新的学生模型，通过学生模型的特征提取层，提取视频帧序列对应的视频特征，通过学生模型的特征映射层，根据视频特征获得视频输出向量，通过学生模型的输出层，根据视频输出向量获得临时学生识别结果。

步骤1204，根据临时学生识别结果、大师模型对临时训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失。

具体地，计算机设备可以将临时训练样本的视频帧序列输入大师模型的视频处理网络，通过视频处理网络的特征提取层，提取视频帧序列对应的视频特征，通过视频处理网络的特征映射层，根据视频特征获得视频输出向量，通过视频处理网络的输出层，根据视频输出向量获得第一唇语识别结果。计算机设备将临时训练样本中的音频信号输入大师模型的音频处理网络，通过音频处理网络的特征提取层，提取音频信号对应的音频特征，通过音频处理网络的特征映射层，根据音频特征获得音频输出向量，通过音频处理网络的输出层，根据音频输出向量获得第二唇语识别结果。通过大师模型中的视听处理网络，基于视频处理网络根据视频帧序列获得的视频输出向量与音频处理网络根据音频信号获得的音频输出向量，获得视听组合输出向量，基于视听组合输出向量，获得第三唇语识别结果。

继而，计算机设备就可以根据学生模型输出的临时学生识别结果、大师模型对输出的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失。

在一个实施例中，步骤1204包括：通过预训练的视频助教网络，获得临时训练样本中的视频帧序列对应的视频输出向量后，将视频输出向量编码成视频偏好系数；通过预训练的音频助教网络，获得临时训练样本中的音频信号对应的音频输出向量后，将音频输出向量编码成音频偏好系数；根据临时学生识别结果与第一唇语识别结果确定第一焦点损失，根据临时学生识别结果与第二唇语识别结果确定第二焦点损失，根据临时学生识别结果与第三唇语识别结果确定第三焦点损失；按视频偏好系数对第一焦点损失加权、音频偏好系数对第二焦点损失加权后，与第三焦点损失融合，获得跨模态融合损失。

步骤1206，根据交叉熵损失与跨模态融合损失，确定临时学生损失。

经过上面的推导，大师训练阶段的临时学生损失可以采用如下公式：

L_s＝L_CE(y,f_s(X_V,θ_s))+λ_aL_DF；

其中，y表示临时训练样本的标签数据，f_s(X_V,θ_s)表示前次交替训练更新的学生模型对临时训练样本进行唇语识别获得的临时学生识别结果，L_CE表示交叉熵损失，L_DF为跨模态融合损失。

前面推导过，在大师训练阶段，在获得临时学生损失后，计算机设备可以采用如下公式获得临时学生模型：

在大师训练阶段，在获得临时学生模型后，计算机设备可以采用如下公式构建学生反馈损失：

L_ts＝L_CE(y₁,f_ts(X_v；θ_ts))；

由此推导过程可知，计算机设备在大师训练阶段，通过上述的学生反馈损失，进行梯度反向传播，以此来更新跨模态融合网络中全连接层的参数，所以全连接层的网络参数是在大师训练阶段训练的。

如图13所示，在一个具体的实施例中对大师模型与学生模型进行交替训练的网络结构示意图。参照图13，网络包括四个模块：大师模型(master)、学生模型(student)和预训练的音频助教网络(tutorA)、视频助教网络(tutorV)，其中下标A和下标V分别表示音频模态和视频模态。大师模型是基于视频流与音频流的组合的模型，学生模型与视频助教网络均是基于视频流的模型，音频助教网络是基于音频流的模型。大师模型以音频信号X_A和视频帧序列X_V作为输入，提供三种类型的知识：从音频流产生的f_m(X_A；θ_A)、从视频流产生的f_m(X_V；θ_V)和从视听组合产生的f_m(X_A,X_V；θ_A,θ_V)，学生模型以视频帧序列X_V作为输入，输出概率f_s(X_V；θ_s)，视频助教网络以视频帧序列X_V作为输入，输出概率f_tV(X_V；θ_tV),音频助教网络以音频信号X_A作为输入，输出概率f_tA(X_A；θ_tA)。

在交替训练的学生训练阶段，只更新学生模型的模型参数θ_s，训练目标包括两项：学生训练样本的交叉熵损失和动态融合损失。将学生训练样本的视频帧序列输入学生模型，获得学生识别结果f_s(X_V；θ_s)，根据该学生识别结果f_s(X_V；θ_s)与该学生训练样本的标签数据y构建交叉熵损失。将学生训练样本的视频帧序列和音频信号输入大师模型，获得f_m(X_A；θ_A)、f_m(X_V；θ_V)与f_m(X_A,X_V；θ_A,θ_V)。将学生训练样本的视频帧序列输入视频助教网络，获得视频输出向量H_V，将学生训练样本的音频信号输入音频助教网络，获得音频输出向量H_A。根据f_s(X_V；θ_s)、f_m(X_A；θ_A)、f_m(X_V；θ_V)、f_m(X_A,X_V；θ_A,θ_V)、H_V与H_A构建动态融合损失。

在交替训练的大师训练阶段，只更新大师模型与跨模态融合网络的学生模型的模型参数，训练目标包括两项：学生反馈损失和大师识别损失。首先使用临时训练样本，按照与在学生训练阶段对学生模型训练的相同的步骤，将临时训练样本输入学生模型、大师模型、视频助教网络和音频助教网络后获得临时学生损失，根据该临时学生损失对学生模型再次更新获得临时学生模型(temporary student)。接着，使用验证样本，将验证样本的视频帧序列输入临时学生模型，获得临时学生识别结果f_ts(X_V；θ_ts)，根据该临时学生识别结果f_ts(X_V；θ_ts)与该验证样本的标签数据y1构建学生反馈损失。使用大师训练样本，将大师训练样本的视频帧序列和音频信号输入大师模型，根据获得的f_m(X_A；θ_A)、f_m(X_V；θ_V)与f_m(X_A,X_V；θ_A,θ_V)与该大师训练样本的标签数据y2构建大师识别损失。

继续按照上面的流程，不断地对学生模型、大师模型再次更新，直至满足训练停止条件时，根据优化的学生模型，获得唇语识别模型。

相关技术中，从训练集中选取训练样本时，通常是随机采样后输入到待优化的模型中的，这种方式没有对训练样本进行排序，在一定程度上会影响训练过程的有效性。为此，本申请实施例基于课程学习的策略，让模型从简单样本开始学习唇语识别知识，并逐渐增加样本难度，以利于模型更好的收敛。

在一个实施例中，上述方法还包括：确定训练样本中每个训练样本对应的学习难度系数；在对学生模型及大师模型训练的过程中，按照学习难度系数从小到大的顺序，依次从训练样本中选取交替训练所需的学生训练样本与大师训练样本。

具体地，计算机设备在获取训练集之后，对于训练集中的每个训练样本，分别确定对应的学习难度系数，学习难度系数越小，模型越容易对该训练样本进行分类，训练样本的学习难度也就越低，反之，学习难度系数越大，模型越容易对该训练样本进行分类，训练样本的学习难度也就越高。对于交替训练的大师训练阶段与学生训练阶段，从训练集中获取训练样本时，按照学习难度系数从小到大的顺序，依次选取训练样本后输入到模型中。

在一个实施例中，确定训练样本中每个训练样本对应的学习难度系数，包括：通过预训练的视频助教网络，对各训练样本中的视频帧序列进行处理，获得各训练样本的唇语预测类别的视频置信度；通过预训练的音频助教网络，对各训练样本中的音频信号进行处理，获得各训练样本的唇语预测类别的音频置信度；融合视频置信度与音频置信度，得到各训练样本的类别置信度，根据类别置信度确定各训练样本对应的学习难度系数。

其中，置信度与学习难度系数成反比，类别置信度越高，说明模型更容易将训练样本预测准确，那么该训练样本的学习难度系数越低，反之，类别置信度越低，该训练样本的学习难度系数越高。

在一个实施例中，计算机设备采用如下评分函数获得训练样本的学习难度系数：

其中，

表示音频信号中的第n个片段，

表示视频帧序列中第m个视频帧，C(·)表示置信度，sort(·)表示排序操作，置信度越高，训练样本越容易被模型学习，训练样本的学习难度系数

越低。可选地，当多个训练样本具有相同的学习难度系数，可以按这些训练样本在视频模态的置信度

优先选择在视频模态的置信度较高的训练样本。

在一个实施例中，上述方法还包括：根据当前的迭代次数，确定当次交替训练所需的目标样本数量，目标样本数量随迭代次数逐步递增；获取目标样本数量的训练样本进行当次的交替训练。

例如，在首次交替训练过程中，在大师训练阶段与学生训练阶段，计算机设备分别获取10批小批量训练样本对大师模型优化10次，每批小批量训练样本的数量为30，在下一次交替训练过程中，在大师训练阶段与学生训练阶段，计算机设备分别依旧获取10批小批量训练样本对大师模型优化10次，每批小批量训练样本的数量为40。

又例如，在首次交替训练过程中，在大师训练阶段与学生训练阶段，计算机设备分别获取10批小批量训练样本对大师模型优化10次，每批小批量训练样本的数量依次递增，第一批训练样本的数量为10，第二批训练样本的数量为15，第三批训练样本的数量为20，依次递增，第10批训练样本的数量为55。

在一个实施例中，计算机设备采用如下步调函数来确定训练过程中训练样本的增量：

其中，G_i表示第i次迭代中训练样本的数量的输入百分比，G₀是初始百分比，P表示指数因子，P可以取1.75，ξ表示交替训练中的迭代次数。

基于评价函数和步调函数，可以更合理地确定训练样本的难易度和训练样本数量的增量，这样的策略可以减少刚开始训练时的学习模糊性，也可以使学习者更好地趋同。

在一个实施例中，上述方法还包括：获取待识别视频帧序列；将待识别视频帧序列输入训练好的唇语识别模型；通过唇语识别模型中的视频处理网络，对待识别视频帧序列进行处理后，输出待识别视频帧序列中说话人对应的说话内容。

具体地，在训练结束时，计算机设备可以根据学生模型获得唇语识别模型。计算机设备可以直接使用该唇语识别模型。计算机设备还可以获取该唇语识别模型的模型参数，在需要时设置学生模型的模型结构并导入该模型参数，获得唇语识别模型。

获得的唇语识别模型是基于视频处理网络的模型，计算机设备如终端或服务器均可以将待处理视频帧输入训练好的唇语识别模型，输出待识别视频帧序列中说话人对应的说话内容。待处理视频帧序列可以是根据无声视频获得的，也可以是根据有声视频，例如在嘈杂环境中，无法听清视频中说话人的说话内容时，可以通过唇语识别模型识别说话人的说话内容。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个具体的实施例中，如图14所示，唇语识别模型的处理方法包括以下步骤：

步骤1402，获取训练样本并获取前次交替训练更新的学生模型与大师模型，每个训练样本包括视频帧序列以及对应的音频信号；

在大师训练阶段的处理步骤包括：

步骤1404，从训练样本中获取临时训练样本；

步骤1406，将临时训练样本输入基于视频流的学生模型，获得临时学生识别结果，根据临时学生识别结果与临时训练样本的标签数据构建交叉熵损失。

步骤1408，将临时训练样本输入基于视频流与音频流的大师模型，根据临时学生识别结果、大师模型对临时训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失。

步骤1410，根据交叉熵损失与跨模态融合损失，确定临时学生损失，基于临时学生损失更新学生模型获得临时学生模型。

步骤1412，从训练样本中获取验证样本，将验证样本输入临时学生模型，获得唇语识别结果，根据唇语识别结果与验证样本的标签数据构建学生反馈损失。

步骤1414，从训练样本中获取大师训练样本，将大师训练样本输入大师模型，根据大师模型对大师训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果与第三唇语识别结果与大师训练样本的标签数据，确定大师识别损失。

步骤1416，根据学生反馈损失与大师识别损失更新大师模型。

在学生训练阶段的处理步骤包括：

步骤1418，从训练样本中获取学生训练样本，将学生训练样本输入基于视频流的学生模型，获得学生识别结果，根据学生识别结果与学生训练样本的标签数据构建交叉熵损失。

步骤1420，将学生训练样本输入基于视频流与音频流的大师模型，根据学生识别结果、大师模型对学生训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失。

步骤1422，根据交叉熵损失与跨模态融合损失，确定学生损失，基于学生损失更新学生模型。

如图15所示，为一个实施例中唇语识别模型的处理方法的流程示意图。图15是一个以学生训练阶段为主的唇语识别模型的处理方法，具体包括如下步骤：

步骤1502，获取训练样本并获取前次交替训练更新的学生模型与大师模型，每个训练样本包括视频帧序列以及对应的音频信号。

步骤1504，根据学生模型对从训练样本中获取的学生训练样本中的视频帧序列进行唇语识别，获得学生识别结果，根据学生识别结果与学生训练样本的标签数据构建交叉熵损失。

步骤1506，根据学生识别结果、大师模型中的视频处理网络对学生训练样本进行唇语识别获得的第一唇语识别结果、大师模型中的音频处理网络对学生训练样本进行唇语识别获得的第二唇语识别结果以及大师模型中的的视听处理网络基于视频帧序列与音频信号获得的第三唇语识别结果，构建跨模态融合损失。

步骤1508，根据交叉熵损失与跨模态融合损失，确定学生损失。

步骤1510，根据学生损失更新前次交替训练更新的学生模型后，获得当次交替训练更新的学生模型，基于当次交替训练更新的学生模型和训练样本对前次交替训练更新的大师模型进行模型训练，获得当次交替训练更新的大师模型。

步骤1512，基于当次交替训练更新的学生模型与大师模型，返回获取前次交替训练更新的学生模型与大师模型的步骤继续交替训练，根据训练停止时更新的学生模型获得唇语识别模型。

关于上述步骤的具体实施例已经在前文介绍过，此处不再赘述。

上述唇语识别模型的处理方法，与使用预训练教师模型指导学生模型学习的传统方式相比，不仅对学生模型进行训练，还对指导学生模型学习的模型进行训练，该模型称之为大师模型，从而将整个蒸馏过程划分为交替训练的学生训练阶段与大师训练阶段。

下面介绍本申请实施例提供的模型训练方法的评估效果。

关于训练所使用的数据集：为了评估本申请实施例提供的方法，使用了三个基准数据集，即一个单词级数据集LRW[3]和两个句子级数据集LRS2-BBC、LRS3-TED。LRW数据集是一个有500个单词和45万个话语的大型词汇级数据集，每个视频长度为1.16秒，29帧。LRS2-BBC数据集来自BBC的谈话，该数据集被分解为预训练数据集、微调训练数据集和验证数据集。LRS3-TED数据集来自TED演讲，包括15万的话语和超过420万字。

关于训练样本的预处理：为了裁剪视频的唇部区域，使用dlib检测面部标志，并对结果进行随机裁剪和插值，得到112×112个以唇部为中心的图像，还对面部区域进行旋转和缩放处理。

关于实现细节：在单词级唇语识别场景中，词汇的大小被设置为500，这与LRW中的词汇量一致。对于句子级唇语识别场景，即LRS2-BBC和LRS3-TED，将词汇的大小设置为40，包括26个字母、10个数字和4个特殊标记([空格]、[键盘]、[EOS]和标点符号)。

此外，在训练过程中，学生模型和大师模型交替使用SGD优化器进行训练，动量为0.9，重量衰减为1e-4。在音频流中，以原始波形作为输入。在视频流中，输入视频以25fps的速度采样。

整个训练过程包括预训练和微调两个步骤。具体来说，在单词级别使用基于时间卷积(TC)的后端对学生模型与大师模型进行预训练，使用的是LRW和LRS2-BBS和LRS3-TED的预训练集，使用LRW对预训练模型进行微调。在句子级唇语识别场景，在预训练模型中用TM-Seq2Seq代替TC作为后端，用LRS2-BBS或LRS3-TED的预训练集继续训练，然后用相关的训练值集对新的预训练模型进行微调。

在训练前，学***坦的时候时减少一半，最终学习率下降到10-6。前文公式中的一些超参数设置如下：λs＝10，λm＝10，G0＝0.25，P＝1.75，ξ＝107。

关于评估指标：在所有的实验中，采用了字错误率(WER)作为度量，字错误率定义为WER＝(S+D+I)/NUM，其中S、D、I分别是预测值相比于标签数据被替换、删除和***单词的数量，NUM是标签数据中的单词总数。

表一：分别采用LRW、LRS2-BBC和LRS3-TED获得的WER

表2：LRW上的错误率

方法	THESE	THERE	THING	UNDER
					Ours(无distillation)	74％	70％	70％	66％
Ours(有distillation)	70％	59％	68％	60％

表3：从不同的预训练的老师或共同训练的的大师中学习的学生的WER

方法	Distill from	LRS-BBC
			Audio Teacher	x	17.2
Student1	Audio Teacher	54.2
			Video Teacher	x	57.5
Student2	Video Teacher	53.4
			Audio-Visual Teacher	x	15.6
Student3	Audio-Visual Teacher	54.1
			Audio Master	x	19.1
Student4	Audio Master	52.1
			Video Master	x	59.1
Student5	Video Master	53.0
			Audio-Visual Master	x	16.9
Student6	Audio-Visual Master	51.5

与相关技术的比较：将本申请实施例提供的方法与几种方法进行了比较，包括MT、Temporal Conv、WAS、Bi LSTM、TM-CTC、TM-Seq2Seq、Conv-Seq2Seq、LIBS和TM-CTC-KD。

对于单词级唇语识别。表1展示了与LRW数据集相关方法在单词级唇语识别方面的定量比较。可以看出，本申请实施例提供的Ours-TC明显优于没有知识蒸馏的基线时间卷积(Temporal Conv)，WER提高了6.7％。此外，ours-TM与其他方法相比取得了最好的性能。特别是，与第二个最好的方法Conv-Seq2Seq相比，增长了2％。

对于句子水平的唇语识别，实验结果列于表2的最后两列。可以观察到，与其他方法相比，本申请实施例提供的TM在LRS2-BBC和LRS3-TED上的性能最好。更重要的是，与TM-Seq2Seq相比，在使用较少训练数据的情况下，本申请实施例提供的方法在LRS2-BBC和LRS3-TED上分别提高了0.6％和0.9％。TM-Seq2Seq采用了与本申请实施例提供的TM相同的后端，并在额外的非公开数据集MV-LRS上进行训练。此外，与Conv-Seq2Seq相比，Conv-Seq2Seq使用了比本申请实施例提供的学生模型更先进的结构，本申请实施例提供的TM仍然实现了更好的性能，LRS2-BBC的WER改进了2.5％，LRS3-TED的WER改进了1.1％。

关于错分类的例子：发明人进一步调查了错误率最高的前四个LRW案例，并在表3中列出了我们的TC没有KD和我们的TC的比较结果。可以观察到，当多个音素映射到一个维位时，例如TH和DH音素与维位/t/的比较，本申请实施例提供的方法的准确率平均提高了近6％。

综上所述，研究结果表明：(i)本申请实施例所提出的大师模型蒸馏的方法可以有效地提高任务特定网络的性能。(ii)虽然本申请实施例提供的模型主要关注于标准蒸馏方法的优点，但当用更先进的网络结构替换任务特定网络结构时，它有可能获得更好的性能。

关于消融实验：调查了提出模块的有效性，包括主网络、跨模态融合网络和课程学习策略，使用一个单一模式的唇语识别网络作为基线。

大师(master)的有效性。为了探讨大师的效能，发明人研究了6对不同模式的teacher或master设计，并在LRS2-BBC上测试了各自的表现。结果汇总在表3中。所报告的audio-visual master的表现来自其视听分支，并且pretrained teaacher的体系结构与其对应的大师的体系结构完全相同。此外，课程学习策略在这里没有使用。

发明人有以下的观察和分析：(一)在没有KD的单模型情况下，无论模型是否可训练(即大师模型)或不可训练(即教师模型)，其在不同模态中的表现的降序总是{视听模态(AV)、音频模态(A)和视频模态(V)}。这验证了从跨模态数据而不是单模态数据中学习的重要性。(二)在从教师模型和大师模型身上提取知识的情况下，学生模型在不同形式下的表现从大到小依次为{V，AV，A}和{AV，A，V}。第一个排序顺序意味着，与音频模态相比，视听模态可以提供额外的信息，从而有助于减轻跨模态间隙造成的歧义，但使用简单的融合策略(级联)是有限的。而另一种排序顺序则显示了大师模型的有效性，这种有效性可以在一定程度上缩小跨模态差异，因为大师模型是基于学生模型的任务特定反馈的动态调节。(三)无论采用哪种形式，从大师模型那里学来的学生模型总是比从教师模型那里学来的学生模型表现得更好。这些事实表明，尽管在自己的表现上有所牺牲，但由于其对学生模型的适应性，被共同训练的大师模型比一个经过预训练的教师模型更有效。

在一个实施例中，如图16所示，提供了一种唇语识别模型的处理装置1600，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：样本获取模块1602、临时学生模型获取模块1604、大师模型训练模块1606和迭代模块1608，其中：

样本获取模块1602，用于获取训练样本并获取前次交替训练更新的学生模型与大师模型，每个训练样本包括视频帧序列以及对应的音频信号；

临时学生模型获取模块1604，用于根据学生模型与大师模型分别对从训练样本中获取的临时训练样本进行唇语识别获得的结果确定临时学生损失，基于临时学生损失更新学生模型获得临时学生模型；

大师模型训练模块1606，用于根据临时学生模型对从训练样本中获取的验证样本进行唇语识别获得的结果与验证样本的标签数据，确定学生反馈损失，并根据大师模型对从训练样本中获取的大师训练样本进行唇语识别获得的结果与大师训练样本的标签数据，确定大师识别损失；根据学生反馈损失与大师识别损失获得当次交替训练更新的大师模型，基于当次交替训练更新的大师模型和训练样本对前次交替训练更新的学生模型进行模型训练，获得当次交替训练更新的学生模型；

迭代模块1608，用于基于当次交替训练更新的学生模型与大师模型，返回获取前次交替训练更新的学生模型与大师模型的步骤继续交替训练，根据训练停止时更新的学生模型获得唇语识别模型。

在一个实施例中，唇语识别模型的处理装置1600还包括学生识别模块，用于将训练样本中的视频帧序列输入学生模型；通过学生模型的特征提取层，提取视频帧序列对应的视频特征；通过学生模型的特征映射层，根据视频特征获得视频输出向量；通过学生模型的输出层，根据视频输出向量获得唇语识别结果。

在一个实施例中，唇语识别模型的处理装置1600还包括大师识别模块，用于将训练样本输入大师模型；通过大师模型中的视频处理网络，对训练样本中的视频帧序列进行处理，获得第一唇语识别结果；通过大师模型中的音频处理网络，对训练样本中的音频信号进行处理，获得第二唇语识别结果；通过大师模型中的视听处理网络，基于视频处理网络根据视频帧序列获得的视频输出向量与音频处理网络根据音频信号获得的音频输出向量，获得视听组合输出向量，基于视听组合输出向量，获得第三唇语识别结果。

在一个实施例中，大师识别模块还用于将训练样本中的视频帧序列输入大师模型的视频处理网络；通过视频处理网络的特征提取层，提取视频帧序列对应的视频特征，通过视频处理网络的特征映射层，根据视频特征获得视频输出向量，通过视频处理网络的输出层，根据视频输出向量获得第一唇语识别结果。

在一个实施例中，大师识别模块还用于将训练样本中的音频信号输入大师模型的音频处理网络；通过音频处理网络的特征提取层，提取音频信号对应的音频特征，通过音频处理网络的特征映射层，根据音频特征获得音频输出向量，通过音频处理网络的输出层，根据音频输出向量获得第二唇语识别结果。

在一个实施例中，当学生模型用于单词级唇语识别时，大师识别模块还用于将视频输出向量与音频输出向量输入大师模型的视听处理网络；通过视听处理网络的级联层，将视频输出向量与音频输出向量进行级联，获得视听组合输出向量，通过视听处理网络的输出层，根据视听组合输出向量，获得第三唇语识别结果。

在一个实施例中，当学生模型用于语句级唇语识别时，大师识别模块还用于确定在前输出字符的特征向量；将在前输出字符的特征向量、视频处理网络根据视频帧序列获得的视频输出向量、音频处理网络根据音频信号获得的音频输出向量，输入大师模型的视听处理网络；通过视听处理网络的多头注意力编码层，根据特征向量、视频输出向量与音频输出向量获得视频编码向量与音频编码向量；通过视听处理网络的级联层，将视频编码向量与音频编码向量进行级联，获得视听组合输出向量，通过视听处理网络的输出层，根据视听组合输出向量，获得第三唇语识别结果。

在一个实施例中，临时学生模型获取模块1604还用于通过学生模型对临时训练样本中的视频帧序列进行唇语识别，获得临时学生识别结果，根据临时学生识别结果与临时训练样本的标签数据构建交叉熵损失；根据临时学生识别结果、大师模型对临时训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失；根据交叉熵损失与跨模态融合损失，确定临时学生损失。

在一个实施例中，临时学生模型获取模块1604还用于通过预训练的视频助教网络，获得临时训练样本中的视频帧序列对应的视频输出向量后，将视频输出向量编码成视频偏好系数；通过预训练的音频助教网络，获得临时训练样本中的音频信号对应的音频输出向量后，将音频输出向量编码成音频偏好系数；根据临时学生识别结果与第一唇语识别结果确定第一焦点损失，根据临时学生识别结果与第二唇语识别结果确定第二焦点损失，根据临时学生识别结果与第三唇语识别结果确定第三焦点损失；按视频偏好系数对第一焦点损失加权、音频偏好系数对第二焦点损失加权后，与第三焦点损失融合，获得跨模态融合损失。

在一个实施例中，临时学生模型获取模块1604还用于通过跨模态融合网络中的第一全连接层，对视频输出向量进行全连接处理，获得视频全连接向量；通过跨模态融合网络中的第二全连接层，对音频输出向量进行全连接处理，获得音频全连接向量；通过跨模态融合网络中的第三全连接层，将视频全连接向量与音频全连接向量串联后再进行全连接处理，获得音频偏好系数。

在一个实施例中，大师模型训练模块1606还用于将验证样本中的视频帧序列输入学生模型；通过学生模型的特征提取层，提取视频帧序列对应的视频特征；通过学生模型的特征映射层，根据视频特征获得视频输出向量；通过学生模型的输出层，根据视频输出向量获得唇语识别结果；根据唇语识别结果与验证样本的标签数据构建交叉熵损失，作为学生反馈损失。

在一个实施例中，大师模型训练模块1606还用于将大师训练样本输入大师模型，获得对应的第一唇语识别结果、第二唇语识别结果与第三唇语识别结果；根据大师训练样本的标签数据与第一唇语识别结果确定第一交叉熵损失，根据大师训练样本的标签数据与第二唇语识别结果确定第二交叉熵损失，根据大师训练样本的标签数据与第三唇语识别结果确定第三交叉熵损失，融合第一交叉熵损失、第二交叉熵损失与第三交叉熵损失，获得大师识别损失。

在一个实施例中，唇语识别模型的处理装置1600还包括学生训练模块，用于从训练样本中获取学生训练样本；根据前次交替训练更新的学生模型对学生训练样本进行唇语识别获得的结果，与当次交替训练更新的大师模型对学生训练样本进行唇语识别获得的结果确定学生损失；根据学生损失更新前次交替训练更新的学生模型后，获得当次交替训练更新的学生模型。

在一个实施例中，学生训练模块还用于通过前次交替训练更新的学生模型对学生训练样本中的视频帧序列进行唇语识别，获得学生识别结果，根据学生识别结果与学生训练样本的标签数据构建交叉熵损失；根据学生识别结果、当次交替训练更新的大师模型对学生训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失；根据交叉熵损失与跨模态融合损失，确定学生损失。

在一个实施例中，唇语识别模型的处理装置1600还包括训练样本选取模块，用于确定训练样本中每个训练样本对应的学习难度系数；在对学生模型及大师模型训练的过程中，按照学习难度系数从小到大的顺序，依次从训练样本中选取交替训练所需的学生训练样本与大师训练样本。

在一个实施例中，训练样本选取模块还用于通过预训练的视频助教网络，对各训练样本中的视频帧序列进行处理，获得各训练样本的唇语预测类别的视频置信度；通过预训练的音频助教网络，对各训练样本中的音频信号进行处理，获得各训练样本的唇语预测类别的音频置信度；融合视频置信度与音频置信度，得到各训练样本的类别置信度，根据类别置信度确定各训练样本对应的学习难度系数。

在一个实施例中，唇语识别模型的处理装置1600还包括训练样本数量确定模块，用于根据当前的迭代次数，确定当次交替训练所需的目标样本数量，目标样本数量随迭代次数逐步递增；获取目标样本数量的训练样本进行当次的交替训练。

在一个实施例中，唇语识别模型的处理装置1600还包括识别模块，用于获取待识别视频帧序列；将待识别视频帧序列输入训练好的唇语识别模型；通过唇语识别模型中的视频处理网络，对待识别视频帧序列进行处理后，输出待识别视频帧序列中说话人对应的说话内容。

上述唇语识别模型的处理装置1600，与使用预训练教师模型指导学生模型学习的传统方式相比，不仅对学生模型进行训练，还对指导学生模型学习的模型进行训练，该模型称之为大师模型，从而将整个蒸馏过程划分为交替训练的学生训练阶段与大师训练阶段。

在一个实施例中，如图17所示，提供了一种唇语识别模型的处理装置1700，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：样本获取模块1702、标签损失构建模块1704、跨模态融合损失构建模块1706、学生模型更新模块1708和迭代模块1710，其中：

一种唇语识别模型的处理装置，装置包括：

样本获取模块1702，用于获取训练样本并获取前次交替训练更新的学生模型与大师模型，每个训练样本包括视频帧序列以及对应的音频信号；

标签损失构建模块1704，用于根据学生模型对从训练样本中获取的学生训练样本中的视频帧序列进行唇语识别，获得学生识别结果，根据学生识别结果与学生训练样本的标签数据构建交叉熵损失；

跨模态融合损失构建模块1706，用于根据学生识别结果、大师模型中的视频处理网络对学生训练样本进行唇语识别获得的第一唇语识别结果、大师模型中的音频处理网络对学生训练样本进行唇语识别获得的第二唇语识别结果以及大师模型中的的视听处理网络基于视频帧序列与音频信号获得的第三唇语识别结果，构建跨模态融合损失；

学生模型更新模块1708，用于根据交叉熵损失与跨模态融合损失，确定学生损失；根据学生损失更新前次交替训练更新的学生模型后，获得当次交替训练更新的学生模型，基于当次交替训练更新的学生模型和训练样本对前次交替训练更新的大师模型进行模型训练，获得当次交替训练更新的大师模型；

迭代模块1710，用于基于当次交替训练更新的学生模型与大师模型，返回获取前次交替训练更新的学生模型与大师模型的步骤继续交替训练，根据训练停止时更新的学生模型获得唇语识别模型。

上述唇语识别模型装置1700，与使用预训练教师模型指导学生模型学习的传统方式相比，不仅对学生模型进行训练，还对指导学生模型学习的模型进行训练，该模型称之为大师模型，从而将整个蒸馏过程划分为交替训练的学生训练阶段与大师训练阶段。

关于唇语识别模型的处理装置的具体限定可以参见上文中对于唇语识别模型的处理方法的限定，在此不再赘述。上述唇语识别模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图18所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种唇语识别模型的处理方法。

本领域技术人员可以理解，图18中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种唇语识别模型的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述学生模型对训练样本进行唇语识别的步骤包括：

将所述训练样本中的视频帧序列输入所述学生模型；

通过所述学生模型的特征提取层，提取所述视频帧序列对应的视频特征；

通过所述学生模型的特征映射层，根据所述视频特征获得视频输出向量；

通过所述学生模型的输出层，根据所述视频输出向量获得唇语识别结果。

3.根据权利要求1所述的方法，其特征在于，所述大师模型对训练样本进行唇语识别的步骤包括：

将所述训练样本输入所述大师模型；

通过所述大师模型中的视频处理网络，对所述训练样本中的视频帧序列进行处理，获得第一唇语识别结果；

通过所述大师模型中的音频处理网络，对所述训练样本中的音频信号进行处理，获得第二唇语识别结果；

通过所述大师模型中的视听处理网络，基于所述视频处理网络根据所述视频帧序列获得的视频输出向量与所述音频处理网络根据所述音频信号获得的音频输出向量，获得视听组合输出向量，基于所述视听组合输出向量，获得第三唇语识别结果。

4.根据权利要求3所述的方法，其特征在于，所述通过所述大师模型中的视频处理网络，对所述训练样本中的视频帧序列进行处理，获得第一唇语识别结果，包括：

将所述训练样本中的视频帧序列输入所述大师模型的视频处理网络；

通过所述视频处理网络的特征提取层，提取所述视频帧序列对应的视频特征，通过所述视频处理网络的特征映射层，根据所述视频特征获得所述视频输出向量，通过所述视频处理网络的输出层，根据所述视频输出向量获得第一唇语识别结果。

5.根据权利要求3所述的方法，其特征在于，所述通过所述大师模型中的音频处理网络，对所述训练样本中的音频信号进行处理，获得第二唇语识别结果，包括：

将所述训练样本中的音频信号输入所述大师模型的音频处理网络；

通过所述音频处理网络的特征提取层，提取所述音频信号对应的音频特征，通过所述音频处理网络的特征映射层，根据所述音频特征获得音频输出向量，通过所述音频处理网络的输出层，根据所述音频输出向量获得第二唇语识别结果。

6.根据权利要求3所述的方法，其特征在于，当所述学生模型用于单词级唇语识别时，所述通过所述大师模型中的视听处理网络，基于所述视频处理网络根据所述视频帧序列获得的视频输出向量与所述音频处理网络根据所述音频信号获得的音频输出向量，获得视听组合输出向量，基于所述视听组合输出向量，获得第三唇语识别结果，包括：

将所述视频输出向量与所述音频输出向量输入大师模型的视听处理网络；

通过所述视听处理网络的级联层，将所述视频输出向量与所述音频输出向量进行级联，获得视听组合输出向量，通过所述视听处理网络的输出层，根据所述视听组合输出向量，获得第三唇语识别结果。

7.根据权利要求3所述的方法，其特征在于，当所述学生模型用于语句级唇语识别时，所述通过所述大师模型中的视听处理网络，基于所述视频处理网络根据所述视频帧序列获得的视频输出向量与所述音频处理网络根据所述音频信号获得的音频输出向量，获得视听组合输出向量，基于所述视听组合输出向量，获得第三唇语识别结果，包括：

确定在前输出字符的特征向量；

将所述在前输出字符的特征向量、所述视频处理网络根据所述视频帧序列获得的视频输出向量、所述音频处理网络根据所述音频信号获得的音频输出向量，输入大师模型的视听处理网络；

通过所述视听处理网络的多头注意力编码层，根据所述特征向量、所述视频输出向量与所述音频输出向量获得视频编码向量与音频编码向量；

通过所述视听处理网络的级联层，将所述视频编码向量与所述音频编码向量进行级联，获得视听组合输出向量，通过所述视听处理网络的输出层，根据所述视听组合输出向量，获得第三唇语识别结果。

8.根据权利要求1所述的方法，其特征在于，所述根据所述学生模型与所述大师模型分别对从所述训练样本中获取的临时训练样本进行唇语识别获得的结果确定临时学生损失，包括：

通过所述学生模型对所述临时训练样本中的视频帧序列进行唇语识别，获得临时学生识别结果，根据所述临时学生识别结果与所述临时训练样本的标签数据构建交叉熵损失；

根据所述临时学生识别结果、所述大师模型对所述临时训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失；

根据所述交叉熵损失与所述跨模态融合损失，确定临时学生损失。

9.根据权利要求8所述的方法，其特征在于，所述根据所述临时学生识别结果、所述大师模型对所述临时训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失，包括：

通过预训练的视频助教网络，获得所述临时训练样本中的视频帧序列对应的视频输出向量后，将所述视频输出向量编码成视频偏好系数；

通过预训练的音频助教网络，获得所述临时训练样本中的音频信号对应的音频输出向量后，将所述音频输出向量编码成音频偏好系数；

根据所述临时学生识别结果与所述第一唇语识别结果确定第一焦点损失，根据所述临时学生识别结果与所述第二唇语识别结果确定第二焦点损失，根据所述临时学生识别结果与所述第三唇语识别结果确定第三焦点损失；

按所述视频偏好系数对所述第一焦点损失加权、所述音频偏好系数对所述第二焦点损失加权后，与所述第三焦点损失融合，获得跨模态融合损失。

10.根据权利要求9所述的方法，其特征在于，所述将所述音频输出向量编码成音频偏好系数，包括：

通过跨模态融合网络中的第一全连接层，对所述视频输出向量进行全连接处理，获得视频全连接向量；

通过跨模态融合网络中的第二全连接层，对所述音频输出向量进行全连接处理，获得音频全连接向量；

通过跨模态融合网络中的第三全连接层，将所述视频全连接向量与音频全连接向量串联后再进行全连接处理，获得音频偏好系数。

11.根据权利要求1所述的方法，其特征在于，所述根据所述临时学生模型对从所述训练样本中获取的验证样本进行唇语识别获得的结果与所述验证样本的标签数据，确定学生反馈损失，包括：

将所述验证样本中的视频帧序列输入所述学生模型；

通过所述学生模型的输出层，根据所述视频输出向量获得唇语识别结果；

根据所述唇语识别结果与所述验证样本的标签数据构建交叉熵损失，作为学生反馈损失。

12.根据权利要求1所述的方法，其特征在于，所述根据所述大师模型对从所述训练样本中获取的大师训练样本进行唇语识别获得的结果与所述大师训练样本的标签数据，确定大师识别损失，包括：

将所述大师训练样本输入大师模型，获得对应的第一唇语识别结果、第二唇语识别结果与第三唇语识别结果；

根据所述大师训练样本的标签数据与所述第一唇语识别结果确定第一交叉熵损失，根据所述大师训练样本的标签数据与所述第二唇语识别结果确定第二交叉熵损失，根据所述大师训练样本的标签数据与所述第三唇语识别结果确定第三交叉熵损失，融合所述第一交叉熵损失、所述第二交叉熵损失与所述第三交叉熵损失，获得大师识别损失。

13.根据权利要求1所述的方法，其特征在于，所述基于所述当次交替训练更新的大师模型和所述训练样本对所述前次交替训练更新的学生模型进行模型训练，获得当次交替训练更新的学生模型，包括：

从所述训练样本中获取学生训练样本；

根据所述前次交替训练更新的学生模型对所述学生训练样本进行唇语识别获得的结果，与所述当次交替训练更新的大师模型对所述学生训练样本进行唇语识别获得的结果确定学生损失；

根据所述学生损失更新所述前次交替训练更新的学生模型后，获得当次交替训练更新的学生模型。

14.根据权利要求13所述的方法，其特征在于，所述根据所述前次交替训练更新的学生模型对所述学生训练样本进行唇语识别获得的结果，与所述当次交替训练更新的大师模型对所述学生训练样本进行唇语识别获得的结果确定学生损失，包括：

通过所述前次交替训练更新的学生模型对所述学生训练样本中的视频帧序列进行唇语识别，获得学生识别结果，根据所述学生识别结果与所述学生训练样本的标签数据构建交叉熵损失；

根据所述学生识别结果、所述当次交替训练更新的大师模型对所述学生训练样本进行唇语识别获得的第一唇语识别结果、第二唇语识别结果和第三唇语识别结果，构建跨模态融合损失；

根据所述交叉熵损失与所述跨模态融合损失，确定学生损失。

15.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述训练样本中每个训练样本对应的学习难度系数；

在对所述学生模型及所述大师模型训练的过程中，按照所述学习难度系数从小到大的顺序，依次从所述训练样本中选取交替训练所需的学生训练样本与大师训练样本。