CN116432012A

CN116432012A - 用于训练模型的方法、电子设备和计算机程序产品

Info

Publication number: CN116432012A
Application number: CN202111665428.4A
Authority: CN
Inventors: 王子嘉; 沙丹青; 倪嘉呈; 贾真
Original assignee: Dell Products LP
Current assignee: Dell Products LP
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-14
Also published as: US20230214450A1

Abstract

本公开的实施例提供了一种用于训练模型的方法、电子设备和计算机程序产品。该方法可以包括分别基于与参考对象相关联的参考图像信息、参考音频信息和参考文本信息确定参考对象的图像特征、音频特征和文本特征。该方法还可以包括将图像特征、音频特征和文本特征构建成为特征张量。此外，该方法可以进一步包括将特征张量分解为分别与图像特征、音频特征和文本特征相对应的第一特征向量、第二特征向量和第三特征向量，以确定模型的损失函数值。该方法还可以包括基于损失函数值更新模型的参数。本公开的实施例通过在模型训练过程中构建特征张量，从而实现了对跨模态信息的关联和去噪，提升了用户体验。

Description

用于训练模型的方法、电子设备和计算机程序产品

技术领域

本公开的实施例涉及数据处理领域，并且更具体地，涉及用于训练模型的方法、电子设备和计算机程序产品。

背景技术

智能且数字地重建诸如正在说话的人脸的技术应用是很多领域研究的关键。因此，基于图像或视频信息以及相应的音频、文本信息来重建三维或更高维的视觉表示，在很多领域中都均有广泛的应用场景。重要的是，人类可以通过观看、倾听和阅读等方式来获取信息，学习知识，即，人类学习的主要方式是探索包括图像、音频和文本信息在内的多模态资源。推广到机器学习或人工智能领域，具有类人智能的机器同样应当进行基于多模态资源的训练。然而，目前缺少有效的跨模态的模型训练方案。

发明内容

本公开的实施例提供了模型训练方案。

在本公开的第一方面中，提供了一种用于训练模型的方法。该方法可以包括分别基于与参考对象相关联的参考图像信息、参考音频信息和参考文本信息确定参考对象的图像特征、音频特征和文本特征。该方法还可以包括将图像特征、音频特征和文本特征构建成为特征张量。此外，该方法可以进一步包括将特征张量分解为分别与图像特征、音频特征和文本特征相对应的第一特征向量、第二特征向量和第三特征向量，以确定模型的损失函数值。该方法还可以包括基于损失函数值更新模型的参数。

在本公开的第二方面中，提供了一种电子设备，包括：处理器；以及与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述电子设备执行动作，所述动作包括：分别基于与参考对象相关联的参考图像信息、参考音频信息和参考文本信息确定所述参考对象的图像特征、音频特征和文本特征；将所述图像特征、所述音频特征和所述文本特征构建成为特征张量；将所述特征张量分解为分别与所述图像特征、所述音频特征和所述文本特征相对应的第一特征向量、第二特征向量和第三特征向量，以确定所述模型的损失函数值；以及基于所述损失函数值更新所述模型的参数。

在本公开的第三方面中，提供了一种计算机程序产品，计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，机器可执行指令在被执行时使机器执行根据第一方面的方法的任意步骤。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同或相似的参考标号通常代表相同或相似的部件。在附图中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的用于训练和应用模型的详细示例环境的示意图；

图3示出了根据本公开的实施例的用于训练模型的过程的流程图；

图4示出了根据本公开的实施例的张量构建和分解的示例环境的示意图；

图5示出了根据本公开的实施例的应用训练好的跨模态编码模型的过程的流程图；以及

图6示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本公开的原理。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“一组示例实施例”。术语“另一实施例”表示“一组另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，传统的三位或更高位的重建技术通常仅基于二位的图像信息。为了更为准确、忠实地重建高维的视觉表示，已经提出了跨多个模态的三维重建技术。例如，可以使用二维的视频信息(也即图像信息)以及与其相对应的音频信息和文本信息这三个模态的重建信息来重建三维或更高维的视觉标识。应理解，除二维的视频信息外，音频信息可以用于更精确地控制人物或对象的嘴型，文本信息可以用于更精细地体现人物或对象的心情以及表情。

跨模态的高维视觉表示重建技术可以具有广泛的应用场景。对于AR或VR中的远程呈现应用，需要忠实再现头部姿势、嘴型、面部表情等的外观。尤其是在教育场景中，学生的经重建的虚拟视觉表示可以保护学生的隐私。此外，也可以帮助残疾人隐藏自身的缺点，使得他们可以像其他人一样在虚拟世界中玩耍和奔跑。

然而，传统的有关跨模态的高维视觉表示重建技术的研究通常仅考虑两个模态。即便在一些探索中使用了三个模态的资源，也是直接将对这些信息进行直接的拼接和应用。在传统的模型训练过程中，三个模态的信息资源并未得到充分学习，且包含不需要的噪声。因此，目前的跨模态的高维视觉表示重建技术还存在效率较低、正确率较低的问题。

有鉴于此，本公开的实施例提出了一种模型训练方案。在该方案中，可以训练数据集中的图像信息、音频信息和文本信息均输入相应的编码器，以获取相应的图像特征、音频特征和文本特征。此外，为了改善训练效果，可以将获取的图像特征、音频特征和文本特征构建为特征张量，即，三维矩阵。之后，可以利用已知的张量分解算法将特征张量分解为与图像特征、音频特征、文本特征相对应的第一特征向量、第二特征向量、第三特征向量、以及噪声信息。以此方式实现了对跨模态信息的关联和去噪，从而优化了模型训练过程。以此方式训练出的模型可以重建更为逼真的面部特征、动作等视觉标识，优化用户体验。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，示例环境100中包含来自用户的多个模态的信息资源，例如，图像信息110、音频信息120和文本信息130。在一些实施例中，图像信息110可以是由多帧图像组成的视频信息，并且在后续处理中，图像信息110可以是一帧或多帧图像中的至少一个区域的子图像。音频信息120可以是音频资源中的至少一段子音频。文本信息130可以是文本资源中的至少一个字符、字、或单词。

如图1所示，***100可以包括计算设备140。计算设备140可以被配置为接收与用户的操作相关联的图像信息110、音频信息120和文本信息130，并且通过运算确定或重建用户的高维表示150。

在一些实施例中，计算设备140可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产品、小型计算机、大型计算机、云计算资源等。应理解，基于成本等因素的考虑，计算设备140还可以具有或不具有用于模型训练的充足算力资源。

在一些实施例中，高维表示150可以是用于重现用户面部表情、动作等的虚拟的三维或更高维的图像或动画。

应当理解，仅出于示例性的目的来描述示例环境100中的架构和功能，而不暗示对本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的其他环境中。

为了更为详细的描述图像处理模型的训练过程，下文将参照图2来描述模型的训练和应用过程。图2示出了根据本公开的实施例的用于训练和应用模型的详细示例环境200的示意图。如图2所示，示例环境200总体上可以包括模型训练***260和模型应用***270。作为示例，模型训练***260和/或模型应用***270可以在如图1所示的计算设备140中实现。应当理解，仅出于示例性的目的描述示例环境200的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。

如前所述，将低维的多个模态的信息资源重建为高维表示的过程均可以分为两个阶段：模型训练阶段和模型应用阶段。作为示例，在模型训练阶段中，模型训练***260可以利用训练数据集250来训练用于执行相应功能的跨模态编码模型240。在模型应用阶段中，模型应用***270可以接收经训练的跨模态编码模型240。由此，载入到模型应用***270的计算设备140中的跨模态编码模型240可以基于输入的任意多模态信息210来重建高维表示230。

在其他实施例中，模型240可以被构建为学习网络。在一些实施例中，该学习网络可以包括多个网络，其中每个网络可以是一个多层神经网络，其可以由大量的神经元组成。通过训练过程，每个网络中的神经元的相应参数能够被确定。这些网络中的神经元的参数被统称为跨模态编码模型240的参数。

跨模态编码模型240的训练过程可以以迭代方式来被执行，直至跨模态编码模型240的参数中的至少部分参数收敛或者直至达到预定迭代次数，由此获得最终的模型参数。

上文描述的技术方案仅用于示例，而非限制本发明。应理解，还可以按照其他方式和连接关系来布置各个网络。为了更清楚地解释上述方案的原理，下文将参考图3来更详细描述模型训练的过程。

图3示出了根据本公开的实施例的用于训练模型的过程300的流程图。在某些实施例中，过程300可以在图1中的计算设备140或其他计算设备中实现。现参照图3并结合图1描述根据本公开实施例的训练模型的过程300。为了便于理解，在下文描述中提及的具体实例均是示例性的，并不用于限定本公开的保护范围。

在302，计算设备140可以分别基于与参考对象相关联的参考图像信息、参考音频信息和参考文本信息确定参考对象的图像特征、音频特征和文本特征。在某些实施例中，参考对象可以是人脸，即，参考图像信息、参考音频信息和参考文本信息均来自与人的脸部活动相关的训练数据集。备选地或附加地，参考对象还可以是人或其他对象的肢体语言、动作等。在某些实施例中，参考图像信息可以是一帧或多帧图像中的至少一个区域的子图像，参考音频信息可以是音频资源中的至少一段子音频，以及参考文本信息可以是文本资源中的至少一个字符、字、或单词。

在某些实施例中，为了确定上述图像特征、音频特征和文本特征，计算设备140可以利用预先设置的视频编码器基于参考图像信息确定图像特征，利用预先设置的音频编码器基于参考音频信息确定音频特征，并且利用预先设置的文本编码器基于参考文本信息确定文本特征。作为示例，可以利用快速R_CNN作为视频编码器，利用wave2vec2.0作为音频编码器，利用BERT作为文本编码器来分别确定图像特征、音频特征和文本特征。

在304，计算设备140可以将经确定的图像特征、音频特征和文本特征构建成为特征张量。在某些实施例中，计算设备140可以将经确定的图像特征、音频特征和文本特征分别沿第一坐标、第二坐标和第三坐标设置，以形成三维空间。作为示例，如果图像特征对应于X个子图像，音频特征对应于Y个子音频，并且文本特征对应于Z个字或单词，则可以构建一个X×Y×Z的三维特征张量。

应理解，该三维空间中的一个位置对应于图像特征中的一个图像特征、音频特征中的相应音频特征以及文本特征中的相应文本特征的组合。作为示例，在上述三维空间的坐标系中，坐标(1,1,1)可以对应于第一个图像特征、第一个音频特征以及第一个文本特征的组合。

此外，为了构建特征张量，计算设备140还可以基于预先标注的上述组合的关联信息来确定相应坐标位置的值，以形成特征张量的一部分。作为示例，在模型训练过程中，可以对特定的图像特征、音频特征、文本特征的组合中的一个或两个特征进行替换，从而出现图像特征、音频特征、文本特征之间不匹配的情况。由此，可以对各种匹配或不匹配的情况进行赋值，即关联信息。例如，可以将图像特征、音频特征、文本特征匹配的情况确定为1；将图像特征、音频特征匹配，文本特征不匹配的情况确定为2；将图像特征、文本特征匹配，音频特征不匹配的情况确定为3；将音频特征、文本特征匹配，图像特征不匹配的情况确定为4；以及将图像特征、音频特征匹配，文本特征均不匹配的情况确定为5。以此方式，可以在特征张量的所有坐标处均填充对应的关联信息，故在接下来的训练过程中均会虑及各模态间的关联信息。

在306，计算设备140可以将经构建的特征张量分解为分别与上述经确定的图像特征、音频特征和文本特征相对应的第一特征向量、第二特征向量和第三特征向量，以便确定模型的损失函数值。

在某些实施例中，可以具体地利用CANDECOMP/PARAFAC分解(即，CP分解)算法来将特征张量分解为三个特征向量以及噪声。由此可以得到第一特征向量、第二特征向量和第三特征向量。第一特征向量、第二特征向量和第三特征向量均包含特征张量的经去除噪声的关联信息。应理解，本公开可以适用于将张量分解为指定书目的向量的其他分解算法。

在某些实施例中，确定损失函数值的具体方式可以是，计算设备140基于第一特征向量、第二特征向量、第三特征向量以及相应的图像特征、音频特征和文本特征，确定模型的损失函数值。作为示例，可以分别确定第一特征向量与图像特征、第二特征向量与音频特征、以及第三特征向量与文本特征的差的绝对值，并对这些绝对值求和。

在308，计算设备140可以基于经确定的损失函数值更新模型的参数。与传统的模型训练方式类似地，计算设备140可以基于经确定的损失函数值调整模型的参数，直至损失函数值最小化，由此可以训练处收敛的模型。

为了更详细地说明本公开的各实施例，现参照图4详细描述构建特征张量以及分解特征张量的过程。图4示出了根据本公开的实施例的张量构建和分解的示例环境400的示意图。

如图4所示，当图像信息410、音频信息420和文本信息430输入用于训练模型的计算设备之后，计算设备中的视频编码器412会对图像信息410进行处理，从而得到相应的特征表示414。类似地并且并行地，计算设备中的音频编码器422会对音频信息420进行处理，从而得到相应的特征表示424。计算设备中的文本编码器432会对文本信息430进行处理，从而得到相应的特征表示434。作为示例，视频编码器412可以是R_CNN，音频编码器422可以是wave2vec 2.0，并且文本编码器432可以是BERT。

张量构建分解单元440首先将特征表示414、特征表示424和特征表示434构建为特征张量。作为示例，张量构建分解单元440可以将对应于X个子图像的图像特征、对应于Y个子音频的音频特征以及对应于Z个字或单词的文本特征构建为X×Y×Z的三维特征张量。

之后，张量构建分解单元440可以利用任何张量分解算法，将上述三维特征张量分解为第一特征向量416、第二特征向量426和第三特征向量436以及噪声。以此方式，可以得到去噪的向量表示。

通过上述处理，可以得到去噪的第一特征向量416、第二特征向量426和第三特征向量436，因此可以基于第一特征向量416、第二特征向量426和第三特征向量436以及特征表示414、特征表示424和特征表示434更为精确地确定模型的损失函数值，从而优化了模型训练的过程。

应理解，在训练好跨模态编码模型240后，就可以如图1所示对该模型进行应用。图5示出了根据本公开的实施例的应用训练好的跨模态编码模型240的过程500的流程图。在某些实施例中，过程500可以在图1中的计算设备140或其他计算设备中实现。现参照图5并结合图1描述根据本公开实施例的应用模型的过程500。为了便于理解，在下文描述中提及的具体实例均是示例性的，并不用于限定本公开的保护范围。

在502，计算设备140可以如上述实施例所述训练跨模态编码模型240。在某些实施例中，例如在计算设备140算力不足的情况下，可以不使用计算设备140来训练跨模态编码模型240，而直接将经由算力更强的其他计算设备训练的模型加载至计算设备140。

在504，计算设备140可以将用户的图像信息110、音频信息120和文本信息130输入训练好的跨模态编码模型240，以确定用户的高维表示。作为示例，可以获取用户的人脸的三维、四维或更高维的虚拟表示。应理解，基于跨模态编码模型确定高维虚拟表示的具体过程已经在很多研究文章中提及(诸如Guy Gafni andothers.“Dynamic Neural RadianceFields for Monocular 4D Facial Avatar Reconstruction”.in:CoRR abs/2012.03065(2020).arXiv:2012.03065.)，故本文不再赘述。

通过上述各实施例，本公开我们提供了新颖的高维虚拟表示的重建框架，其在模型的训练期间综合了三种模态。此外，本公开使用张量分解算法改进了跨模态预训练框架，从而使模型训练虑及了更多信息(诸如各模态间的关联信息)并排除了噪声信息。由此，本公开的模型训练方式改善了模型的训练效率和正确率，训练出的模型可以重建更为逼真的面部特征、动作等视觉标识，优化用户体验。

图6示出了能够实施本公开的多个实施例的计算设备600的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如过程300、500。例如，在一些实施例中，过程300、500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的过程300、500的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程300、500。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于训练模型的方法，包括：

分别基于与参考对象相关联的参考图像信息、参考音频信息和参考文本信息确定所述参考对象的图像特征、音频特征和文本特征；

将所述图像特征、所述音频特征和所述文本特征构建成为特征张量；

将所述特征张量分解为分别与所述图像特征、所述音频特征和所述文本特征相对应的第一特征向量、第二特征向量和第三特征向量，以确定所述模型的损失函数值；以及

基于所述损失函数值更新所述模型的参数。

2.根据权利要求1所述的方法，其中确定所述损失函数值包括：

基于所述第一特征向量、所述第二特征向量、所述第三特征向量以及相应的所述图像特征、所述音频特征和所述文本特征，确定所述模型的损失函数值。

3.根据权利要求1所述的方法，其中构建所述特征张量包括：

将所述图像特征、所述音频特征和所述文本特征分别沿第一坐标、第二坐标和第三坐标设置，以形成三维空间，所述三维空间中的一个位置对应于所述图像特征中的一个图像特征、所述音频特征中的相应音频特征以及所述文本特征中的相应文本特征的组合；

基于预先标注的所述组合的关联信息确定所述位置的值，以形成所述特征张量的一部分。

4.根据权利要求3所述的方法，其中所述第一特征向量、所述第二特征向量和所述第三特征向量均包含所述特征张量的经去除噪声的所述关联信息。

5.根据权利要求1所述的方法，其中确定所述图像特征、所述音频特征和所述文本特征包括：

利用视频编码器基于所述参考图像信息确定所述图像特征；

利用音频编码器基于所述参考音频信息确定所述音频特征；以及

利用文本编码器基于所述参考文本信息确定所述文本特征。

6.根据权利要求1所述的方法，其中所述特征张量对应于所述第一特征向量、所述第二特征向量、所述第三特征向量以及噪声。

7.根据权利要求1所述的方法，其中所述参考对象是人脸。

8.一种电子设备，包括：

处理器；以及

与所述处理器耦合的存储器，所述存储器具有存储于其中的指令，所述指令在被处理器执行时使所述电子设备执行动作，所述动作包括：

基于所述损失函数值更新所述模型的参数。

9.根据权利要求8所述的电子设备，其中确定所述损失函数值包括：

10.根据权利要求8所述的电子设备，其中构建所述特征张量包括：

11.根据权利要求10所述的电子设备，其中所述第一特征向量、所述第二特征向量和所述第三特征向量均包含所述特征张量的经去除噪声的所述关联信息。

12.根据权利要求8所述的电子设备，其中确定所述图像特征、所述音频特征和所述文本特征包括：

利用视频编码器基于所述参考图像信息确定所述图像特征；

利用文本编码器基于所述参考文本信息确定所述文本特征。

13.根据权利要求8所述的电子设备，其中所述特征张量对应于所述第一特征向量、所述第二特征向量、所述第三特征向量以及噪声。

14.根据权利要求8所述的电子设备，其中所述参考对象是人脸。

15.一种计算机程序产品，所述计算机程序产品被有形地存储在计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至7中的任一项所述的方法。