CN116522142A

CN116522142A - 用于训练特征提取模型的方法、特征提取方法和装置

Info

Publication number: CN116522142A
Application number: CN202310495656.4A
Authority: CN
Inventors: 董兴宁; 郭清沛; 王清; 程远
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-08-01

Abstract

本说明书的实施例提供了一种用于训练特征提取模型的方法、特征提取方法和装置。在该用于训练特征提取模型的方法中，利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件：将各个当前训练样本的图像数据和文本数据分别提供给当前图像特征提取模型和当前文本向量化模型，得到各个当前训练样本的对应图像特征和对应文本向量；将各个当前训练样本的对应文本向量以及由对应图像特征和对应文本向量拼接的结果提供给当前多模态特征融合模型，以得到各个当前训练样本的文本特征和多模态特征；分别根据多模态特征和文本特征确定第一损失值和第二损失值进而确定当前模型训练过程的总损失值；根据总损失值调整当前特征提取模型的模型参数。

Description

用于训练特征提取模型的方法、特征提取方法和装置

技术领域

本说明书实施例通常涉及计算机技术领域，尤其涉及用于训练特征提取模型的方法、特征提取方法和装置。

背景技术

随着人工智能技术的飞速发展，视频-文本对匹配的多模态预训练模型也逐渐获得了越来越多的关注。在各种涉及图像、视频与文本之间的匹配的任务(例如多模态视频-文本匹配，视频问答等)中，如何提取图文对的特征，以更好地表征图像和文本的语义信息成为需要研究的重要问题。现有技术中，通常需要利用三个不同的编码模块来执行上述视频-文本对的特征提取任务，即利用不同的编码模块分别针对文本和视频进行编码，再利用融合编码模块针对所得到的文本编码和视频编码进一步提取特征。从而一方面由于编码模块较多导致模型较为笨重，另一方面融合编码模块存在着参数初始化困难的问题往往导致模型收敛较慢或训练完成的模型特征提取效果不理想。因此，需要一种能够至少部分地克服上述不足的用于训练特征提取模型的方法和图文对的特征提取方法。

发明内容

鉴于上述，本说明书实施例提供了一种用于训练特征提取模型的方法、特征提取方法和装置。利用该方法、装置，可以实现通过合理地共享编码模块来有效地减少模型的参数，一方面通过模型的轻量化提高了提取图文对特征的效率，另一方面降低了模型收敛的难度，缩减了训练时间，有助于使得模型所提取的特征具有更好的表征效果。

根据本说明书的实施例的一个方面，提供一种用于训练特征提取模型的方法，其中，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型，该方法包括：利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由图像数据和文本数据组成的图文对：将当前训练样本集中的各个当前训练样本的图像数据提供给当前图像特征提取模型，得到各个当前训练样本的对应图像特征；将各个当前训练样本的文本数据提供给当前文本向量化模型，得到各个当前训练样本的对应文本向量；针对每个当前训练样本，对该当前训练样本的对应图像特征和对应文本向量进行拼接以得到拼接结果；针对每个当前训练样本，分别将该当前训练样本的对应文本向量以及拼接结果提供给当前多模态特征融合模型，以得到该当前训练样本的文本特征和多模态特征；分别根据各个当前训练样本的多模态特征和文本特征确定第一损失值和第二损失值；根据所述第一损失值和所述第二损失值，确定所述当前模型训练过程的总损失值；以及响应于不满足训练结束条件，根据所述总损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

根据本说明书的实施例的另一个方面，提供一种基于特征提取模型的特征提取方法，其中，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型，该特征提取方法包括：将获取到的图文对的图像数据提供给所述图像特征提取模型，得到所述图文对的对应图像特征；将所述图文对的文本数据提供给所述文本向量化模型，得到所述图文对的对应文本向量；将所述对应图像特征和所述对应文本向量进行拼接以得到拼接结果；以及将所述拼接结果提供给所述多模态特征融合模型，以得到所述图文对的多模态特征，其中，所述多模态特征融合模型包括用于融合多模态特征的序列模型。

根据本说明书的实施例的另一个方面，提供一种基于图像处理模型的图像处理方法，其中，所述图像处理模型包括特征提取模型和分类网络，该图像处理方法包括：利用如上所述的特征提取方法对所获取到的图文对进行特征提取，得到所述图文对的多模态特征；将所述图文对的多模态特征提供给所述分类网络，得到与所述分类网络所对应的分类任务相匹配的分类结果，其中，所述分类结果用于指示以下至少一项：图文对的文本数据所指示的问题的答案，图文对的图像数据与文本数据之间是否匹配。

根据本说明书的实施例的又一个方面，提供一种用于训练特征提取模型的装置，其中，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型，该装置被配置为利用训练样本集经由训练单元循环执行模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由图像数据和文本数据组成的图文对，所述训练单元包括：图像特征提取模块，被配置为将当前训练样本集中的各个当前训练样本的图像数据提供给当前图像特征提取模型，得到各个当前训练样本的对应图像特征；文本向量化模块，被配置为将各个当前训练样本的文本数据提供给当前文本向量化模型，得到各个当前训练样本的对应文本向量；向量拼接模块，被配置为针对每个当前训练样本，对该当前训练样本的对应图像特征和对应文本向量进行拼接以得到拼接结果；特征生成模块，被配置为针对每个当前训练样本，分别将该当前训练样本的对应文本向量以及拼接结果提供给当前多模态特征融合模型，以得到该当前训练样本的文本特征和多模态特征；分损失值确定模块，被配置为分别根据各个当前训练样本的多模态特征和文本特征确定第一损失值和第二损失值；总损失值确定模块，被配置为根据所述第一损失值和所述第二损失值，确定所述当前模型训练过程的总损失值；以及所述装置还包括：参数调整单元，被配置为响应于不满足训练结束条件，根据所述总损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

根据本说明书的实施例的再一个方面，提供一种基于特征提取模型的特征提取装置，其中，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型，该特征提取装置包括：图像特征提取单元，被配置为将获取到的图文对的图像数据提供给所述图像特征提取模型，得到所述图文对的对应图像特征；文本向量化单元，被配置为将所述图文对的文本数据提供给所述文本向量化模型，得到所述图文对的对应文本向量；向量拼接单元，被配置为将所述对应图像特征和所述对应文本向量进行拼接以得到拼接结果；以及多模态特征生成单元，被配置为将所述拼接结果提供给所述多模态特征融合模型，以得到所述图文对的多模态特征，其中，所述多模态特征融合模型包括用于融合多模态特征的序列模型。

根据本说明书的实施例的又一个方面，提供一种基于图像处理模型的图像处理装置，其中，所述图像处理模型包括特征提取模型和分类网络，该图像处理装置包括：如上所述的特征提取装置，被配置为对所获取到的图文对进行特征提取，得到所述图文对的多模态特征；分类单元，被配置为将所述图文对的多模态特征提供给所述分类网络，得到与所述分类网络所对应的分类任务相匹配的分类结果，其中，所述分类结果用于指示以下至少一项：图文对的文本数据所指示的问题的答案，图文对的图像数据与文本数据之间是否匹配。

根据本说明书的实施例的另一方面，提供一种用于训练特征提取模型的装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上所述的用于训练特征提取模型的方法。

根据本说明书的实施例的另一方面，提供一种基于特征提取模型的特征提取装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上所述的基于特征提取模型的特征提取方法。

根据本说明书的实施例的另一方面，提供一种基于图像处理模型的图像处理装置，包括：至少一个处理器，以及与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上所述的基于图像处理模型的图像处理方法。

根据本说明书的实施例的另一方面，提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于训练特征提取模型的方法或实现如上所述的基于特征提取模型的特征提取方法或实现如上所述的基于图像处理模型的图像处理方法。

根据本说明书的实施例的另一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如上所述的用于训练特征提取模型的方法或实现如上所述的基于特征提取模型的特征提取方法或实现如上所述的基于图像处理模型的图像处理方法。

附图说明

通过参照下面的附图，可以实现对于本说明书内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书的实施例的用于训练特征提取模型的方法和装置、基于特征提取模型的特征提取方法和装置、基于图像处理模型的图像处理方法和装置的示例性架构。

图2示出了根据本说明书的实施例的用于训练特征提取模型的方法的一个示例的流程图。

图3示出了根据本说明书的实施例的对原始文本进行关键词屏蔽处理过程的一个示例的流程图。

图4示出了根据本说明书的实施例的关键词词典的获得过程的一个示例的流程图。

图5示出了根据本说明书的实施例的用于训练特征提取模型的方法的又一个示例的示意图。

图6示出了根据本说明书的实施例的基于特征提取模型的特征提取方法的一个示例的流程图。

图7示出了根据本说明书的实施例的基于图像处理模型的图像处理方法的一个示例的流程图。

图8示出了根据本说明书的实施例的用于训练特征提取模型的装置的一个示例的方框图。

图9示出了根据本说明书的实施例的用于训练特征提取模型的装置的又一个示例的方框图。

图10示出了根据本说明书的实施例的基于特征提取模型的特征提取装置的一个示例的方框图。

图11示出了根据本说明书的实施例的基于图像处理模型的图像处理装置的一个示例的方框图。

图12示出了根据本说明书的实施例的用于训练特征提取模型的装置的一个示例的方框图。

图13示出了根据本说明书的实施例的基于特征提取模型的特征提取装置的一个示例的方框图。

图14示出了根据本说明书的实施例的基于图像处理模型的图像处理装置的一个示例的方框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

在本说明书中，术语“BERT(Bidirectional Encoder Representations fromTransformer，双向特征编码的深度学***。

在本说明书中，术语“Transformer(深度学习变压器)”可以指一种常见的深度学习神经网络，被广泛应用于文本处理和预训练技术中，具有易扩展，低偏差和高性能的优点。Transformer由多个编码块(Encoder Block)和解码块(Decoder Block)组成，每个单独的编码/解码块由一个多头注意力(Multi-head Attention)网络和一个前馈网络(FeedForward Network，FFN)组成。

在本说明书中，术语“对比学习(Contrastive Learning)”属于自监督学习的一种。对比学习着重于学习同类实例之间的共同特征，区分非同类实例之间的不同之处。其目标是学习一个编码器，此编码器对同类数据进行相似的编码，并使不同类的数据的编码结果尽可能的不同。

下面将结合附图来详细描述根据本说明书实施例的用于训练特征提取模型的方法和装置、基于特征提取模型的特征提取方法和装置、基于图像处理模型的图像处理方法和装置。

图1示出了根据本说明书实施例的用于训练特征提取模型的方法和装置、基于特征提取模型的特征提取方法和装置、基于图像处理模型的图像处理方法和装置的示例性架构100。

在图1中，网络110被应用于在终端设备120和应用服务器130之间进行互连。

网络110可以是能够对网络实体进行互连的任何类型的网络。网络110可以是单个网络或各种网络的组合。在覆盖范围方面，网络110可以是局域网(LAN)、广域网(WAN)等。在承载介质方面，网络110可以是有线网络、无线网络等。在数据交换技术方面，网络110可以是电路交换网络、分组交换网络等。

终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如，终端设备120可以是台式计算机、笔记本电脑、平板电脑、智能电话等。尽管在图1中仅示出了一个终端设备，但是应当理解，可以有不同数量的终端设备连接到网络110。

在一种实施方式中，终端设备120可以由用户使用。终端设备120可以包括可为用户提供各种服务的应用客户端(例如应用客户端121)。在一个示例中，应用客户端可以是视频类应用、资讯类应用等。在一些情况下，应用客户端121可以与应用服务器130进行交互。例如，应用客户端121可以将用户输入的消息传送到应用服务器130，并且从应用服务器130接收与上述消息相关联的响应。然而，应当理解，在其它情况下，应用客户端121也可以在本地生成对用户输入的消息的响应，而不是与应用服务器130进行交互。在本文中，“消息”可以指任何输入信息，例如来自用户输入的用于匹配候选信息的文本等。

应用服务器130可以与候选信息数据库140连接。其中，候选信息数据库140中可以包括候选图像集或候选视频集。在一个示例中，应用服务器130可以将来自应用客户端121的文本和候选信息数据库中的各个候选图像或候选视频组成相应的图文对，并利用特征提取模型得到上述各个图文对的融合特征。可选地，应用服务器130还可以利用上述所得到的融合特征继续执行相应的分类任务(例如图文匹配或视频问答等)。上述特征提取模型可以按照如下述的用于训练特征提取模型的方法训练得到。

应当理解，图1中所示的所有网络实体都是示例性的，根据具体的应用需求，架构100中可以涉及任何其它网络实体。

图2示出了根据本说明书的实施例的用于训练特征提取模型的方法200的流程图。

在本实施例中，上述特征提取模型可以包括图像特征提取模型、文本向量化模型和多模态特征融合模型。

如图2所示，在210，利用训练样本集循环执行下述模型训练过程220-270，直到满足训练结束条件。

在本实施例中，上述训练样本集中的每个训练样本可以包括由图像数据和文本数据组成的图文对。其中，上述图像数据可以包括一张图像或内容相关联多张图像。在一个示例中，上述图文对可以是图像或视频及其对应的描述文本。在一个示例中，训练样本还可以是视频以及该视频对应的音频经过语音识别所得到的文本。在一个示例中，可以从上述训练样本集中选取一批(batch)训练样本作为当前训练样本集，以执行下述模型训练过程(iteration)。

在220，将当前训练样本集中的各个当前训练样本的图像数据提供给当前图像特征提取模型，得到各个当前训练样本的对应图像特征。

在本实施例中，上述当前图像特征提取模型可以包括各种用于提取图像特征的模型。上述当前图像特征提取模型可以包括但不限于以下至少一项：Resnet(残差神经网络)，VST(Video Swin Transformer)模型，PVT(Pyramid Vision Tranformer)模型，ViT(VisionTransformer)模型等。

在230，将各个当前训练样本的文本数据提供给当前文本向量化模型，得到各个当前训练样本的对应文本向量。

在本实施例中，上述文本向量化模型可以包括各种用于将文本转化为向量的模型。从而可以将文本转化为对应的文本向量。在一个示例中，上述当前文本向量化模型的模型参数可以随着训练过程进行微调，也可以不调整(即使用训练完成的文本向量化模型)。

在本实施例的一些可选的实现方式中，上述文本向量化模型可以包括基于BERT的词向量模型。在一个示例中，上述词向量模型例如可以是BERT，DistillBERT等。在一个示例中，针对各个当前训练样本，可以将该当前训练样本的文本数据提供给基于BERT的词向量模型，得到该文本数据的各个分词(token)的词向量。之后，可以根据该文本数据的各个分词的词向量，得到对应文本向量。例如，可以将所得到的各个分词的词向量进行连接，从而得到对应文本向量。再例如，可以将所得到的各个分词的词向量进行加权求和(在维度匹配的前提下)，从而得到对应文本向量。再例如，可以将该文本数据经过分词处理后所得到的[cls]标记所对应的特征确定为对应文本向量。

在240，针对每个当前训练样本，对该当前训练样本的对应图像特征和对应文本向量进行拼接以得到拼接结果。

本实施例中，每个当前训练样本的拼接结果包含了该当前训练样本的对应图像特征和对应文本向量。上述对应图像特征和对应文本向量的拼接先后顺序此处不做限定，但需在整个训练过程和该模型应用过程中保持一致。

在250，针对每个当前训练样本，分别将该当前训练样本的对应文本向量以及拼接结果提供给当前多模态特征融合模型，以得到该当前训练样本的文本特征和多模态特征。

在本实施例中，上述当前多模态特征融合模型可以包括各种用于进行多模态特征融合的模型，例如用于处理序列数据的模型。可选地，上述多模态特征融合模型可以包括基于Transformer的编码器。例如，当前多模态特征融合模型可以包括但不限于以下至少一项：BERT，DistillBERT等。

在本实施例中，针对每个当前训练样本，该当前训练样本的对应文本向量经过上述当前多模态特征融合模型的处理后得到该当前训练样本的文本特征。该当前训练样本的拼接结果经过上述当前多模态特征融合模型的处理后得到该当前训练样本的多模态特征。

在260，分别根据各个当前训练样本的多模态特征和文本特征确定第一损失值和第二损失值。

在本实施例中，可以根据各个当前训练样本的多模态特征确定第一损失值。可以根据各个当前训练样本的文本特征确定第二损失值。

在本实施例的一些可选的实现方式中，上述训练样本集中的每个训练样本的文本数据可以包括对原始文本进行关键词屏蔽(mask)处理后的文本。在一个示例中，被屏蔽关键词通常属于名词、动词、形容词中的至少一项。在一个示例中，可以利用开源语法分析工具(例如Spacy)从当前训练样本的原始文本中提取名词、动词、形容词中的至少一项组成关键词集。而后，可以从上述当前训练样本的原始文本中选取属于上述关键词集的词进行屏蔽，得到各个当前训练样本的经关键词屏蔽处理后的文本。

在一个示例中，训练样本的文本数据可以是“a[MASK]surfing the sea”，对应的被屏蔽关键词可以是“man”。在另一个示例中，训练样本的文本数据可以是“a man[MASK]the sea”，对应的被屏蔽关键词可以是“surfing”。在再一个示例中，训练样本的文本数据可以是“a man surfing the[MASK]”，对应的被屏蔽关键词可以是“sea”。

可选地，参考图3，图3示出了根据本说明书的实施例的对原始文本进行关键词屏蔽处理过程300的一个示例的流程图。

如图3所示，在310，对各个当前训练文本的原始文本进行切词，得到切词结果。

在本实施例中，针对当前训练文本集中的各个当前训练文本，可以通过各种方法对该当前训练文本(例如可以用Cap_i表示)的原始文本进行切词，得到切词结果(例如可以用表示)。从而可以得到与各个当前训练文本分别对应的切词结果。各个切词结果可以分别包括对应的当前训练文本的原始文本的至少一个分词。

在320，将切词结果中的各个词与关键词词典进行匹配，得到匹配结果。

在本实施例中，可以将上述切词结果中的各个词与关键词词典进行匹配，得到匹配结果。其中，上述关键词词典可以根据所获取到的训练样本的原始文本中的词的出现次数而确定。在一个示例中，可以统计所获取的训练样本集中各个训练样本的原始文本中词频靠前(例如前10％或前500个)且不属于虚词(例如介词、连词、助词、语气词等)的词组成关键词词典。在另一个示例中，上述关键词词典可以综合所获取的训练样本集中各个训练样本依据TF-IDF(term frequency–inverse document frequency，词频-逆文本频率指数)而确定的关键词，从而组成关键词词典。

可选地，参考图4，图4示出了根据本说明书的实施例的关键词词典的获得过程400的一个示例的流程图。

如图4所示，在410，对所获取到的各个训练样本的文本数据进行切词，得到总切词结果。

在本实施例中，可以对所获取到的训练样本集中的各个训练样本的文本数据(通常是原始文本)进行切词，得到总切词结果。可选地，可以利用BERT进行切词。

在420，从总切词结果中选取符合词性要求的词组成候选词集。

在本实施例中，上述词性要求例如可以是属于名词、动词或形容词。

在430，根据候选词集中的各个词在所获取到的训练样本的原始文本中的出现次数，从候选词集中选取符合词频要求的词组成关键词词典。

在本实施例中，作为示例，上述词频要求可以是词频较高(例如前10％或前2000个)。作为又一示例，上述词频要求也可以是词频较低(例如后10％或后2000个)。

基于此，本方案可以通过离线方式确定关键词词典，从而为针对各个训练样本的关键词屏蔽操作提供基础，并且在此过程无需引入新的模型参数，具有易移植、轻量化的特点。

回到图3，在330，基于各个匹配成功的词，得到各个当前训练文本对应的关键词集。

在本实施例中，作为示例，针对各个当前训练文本，可以将匹配成功的词组成该当前训练文本对应的关键词集。

在340，针对每个当前训练样本，基于该当前训练样本对应的关键词集中的关键词对该当前训练样本的原始文本中的目标词进行屏蔽。

在本实施例中，针对每个当前训练样本，可以从该当前训练样本的原始文本中选取目标词进行屏蔽。其中，上述目标词包括属于该当前训练样本对应的关键词集的词。在一个示例中，可以首先确定该当前训练样本对应的被屏蔽关键词的数目。例如该当前训练样本的原始文本所包含的分词的数目乘以20％。若该当前训练样本对应的关键词集所包含的关键词的数目小于上述所确定的被屏蔽关键词的数目，则取上述关键词集中的所有值。可选地，还可以将不足被屏蔽关键词的数目的部分用其他非关键词代替。若该当前训练样本对应的关键词集所包含的关键词的数目不小于上述所确定的被屏蔽关键词的数目，则从上述关键词集中随机取与上述被屏蔽关键词的数目一致的值。从而可以得到各个当前训练样本的经关键词屏蔽处理的文本。

基于此，通过本方案基于关键词集选取被屏蔽关键词以及选取具有一定比例的被屏蔽关键词，可以使得每个训练样本所对应的被屏蔽关键词既保证了质量，又保证了数量，从而提高模型训练效果。

回到图2，在步骤260的上述可选的实现方式中，上述特征提取模型还可以包括第一多类分类器和第二多类分类器。在一个示例中，上述第一多类分类器和第二多类分类器可以采用“全连接层+softmax”结构。在另一个示例中，上述第一多类分类器和第二多类分类器可以采用“多层感知机(Multi-Layer Perceptron，MLP)”结构。

上述第一损失值可以包括多模态特征预测损失值。上述第二损失值可以包括文本特征预测损失值。其中，上述多模态特征预测损失值和上述文本特征预测损失值可以分别根据第一预测结果和第二预测结果各自与上述当前训练样本对应的被屏蔽关键词之间的差异而确定。上述第一预测结果和上述第二预测结果可以分别为上述第一多类分类器根据上述多模态特征和上述第二多类分类器根据上述文本特征而得到的被屏蔽关键词的预测结果。

在一个示例中，针对每个当前训练样本，上述多模态特征预测损失值可以通过以下公式计算得到：

其中，Q可以用来表示被屏蔽关键词集。|Q|可以用来表示被屏蔽关键词集所包含的词的数目。q可以用来表示被屏蔽关键词的取值。可以用来表示交叉熵损失。y^q可以用来表示被屏蔽关键词的真值(ground truth)。m^q可以用来表示被屏蔽关键词取q时对应的训练样本的多模态特征。Θ₁(·)可以用来表示上述第一多类分类器。上述第一多类分类器的参数可以根据经验或通过机器学习训练而确定。

例如，Q可以为{man,surfing,sea}。|Q|可以为3。q取“man”时，可以为根据“man”和上述第一多类分类器根据“a[MASK]surfing the sea”的多模态特征得到的第一预测结果而计算得到的交叉熵(Cross-Entropy)损失。q取“surfing”时，/>可以为根据“surfing”和上述第一多类分类器根据“a man[MASK]the sea”的多模态特征得到的第一预测结果而计算得到的交叉熵损失。q取“sea”时，/>可以为根据“sea”和上述第一多类分类器根据“a man surfing the[MASK]”的多模态特征得到的第一预测结果而计算得到的交叉熵损失。

在一个示例中，针对每个当前训练样本，上述文本特征预测损失值可以通过以下公式计算得到：

其中，t^q可以用来表示被屏蔽关键词取q时对应的训练样本的文本特征。Θ₂(·)可以用来表示上述第二多类分类器。其余符号的含义可以参考前述示例。

例如，Q可以为{man,surfing,sea}。|Q|可以为3。q取“man”时，可以为根据“man”和上述第二多类分类器根据“a[MASK]surfing the sea”的文本特征得到的第二预测结果而计算得到的交叉熵损失。q取“surfing”时，/>可以为根据“surfing”和上述第二多类分类器根据“a man[MASK]the sea”的文本特征得到的第二预测结果而计算得到的交叉熵损失。q取“sea”时，/>可以为根据“sea”和上述第二多类分类器根据“a man surfing the[MASK]”的文本特征得到的第二预测结果而计算得到的交叉熵损失。

在一个示例中，可以综合各个当前训练样本的多模态特征预测损失值得到当前训练样本集的第一损失值。在一个示例中，可以综合各个当前训练样本的文本特征预测损失值得到当前训练样本集的第二损失值。

基于此，相对于现有技术中会掩盖给定文本中的一些不重要的单词，本方案可以针对训练样本中的关键词进行有针对性的MLM(Masking Language Modeling，漏字填空建模)训练，从而能够促进视觉和文本两个模态的特征进行融合，且有助于模型学习到高质量的跨模态特征。例如，现有技术针对被掩盖的文本“a boy sitting[MASK]the sofa with[MASK]dog around”，可以仅通过上下文的语法规则直接得出被掩盖的文本是“on”和“a”，而无需依据任何的视觉信息。而本方案的模型训练则可以专注于“boy”、“sitting”、“sofa”、“dog”等与图像内容充分互动的关键词的特征，并结合文本特征和多模态特征共同监督的方式进行模型训练，从而可以有效提升训练后的模型的特征提取效果。

在本实施例的一些可选的实现方式中，上述第二损失值还可以包括局部文本特征对比损失值。上述局部文本特征对比损失值可以根据当前训练样本的对应图像特征和局部文本特征之间的相似度而确定。上述局部文本特征可以基于当前训练样本对应的被屏蔽关键词所对应的文本特征而确定。

上述局部文本特征可以通过各种方式来确定。在一个示例中，可以将当前训练样本对应的被屏蔽关键词分别提供给当前文本向量化模型，再将所得到的对应文本向量提供给当前多模态特征融合模型，将所得到的各个被屏蔽关键词分别对应的文本特征作为局部文本特征。在一个示例中，若当前多模态特征融合模型属于文本特征与分词一一对应的模型(例如基于Transformer的编码器)，可以根据被屏蔽关键词所在文本数据的位置直接从当前训练样本的对应文本特征中提取相应的被屏蔽关键词的文本特征作为局部文本特征。

在一个示例中，上述局部文本特征对比损失值可以通过以下公式计算得到：

其中，可以用来表示当前训练样本集的批大小(batchsize)。针对第i个当前训练样本，/>可以用来表示该当前训练样本的图像数据中第k个图像的对应图像特征，N_v可以用来表示该当前训练样本的图像数据所包含的图像的数目，N_l可以用来表示该当前训练样本在局部文本特征对比损失值计算过程中的被屏蔽关键词的数目，/>可以用来表示该当前训练样本的被屏蔽关键词取第l个时的局部文本特征(例如，第l个被屏蔽关键词取“sea”时，/>可以为“sea”对应的文本特征)。/>可以用来表示第j个当前训练样本的图像数据中第k个图像的对应图像特征。<,>可以用来表示矩阵之间的叉乘，例如<a,b>＝a*b^T(T可以用来表示矩阵的转置)。可选地，上述该当前训练样本的图像数据可以用I_i来表示。I_i可以包含从目标视频V_i中随机采样得到的N_v个视频帧。

在一个示例中，可以首先确定各个当前训练样本在局部文本特征对比损失值计算过程中的被屏蔽关键词的数目。例如，可以是预设数目(如4个)，也可以是当前训练样本的原始文本所包含的分词的数目乘以预设比例(如15％)。作为示例，针对各个当前训练样本，若该当前训练样本对应的关键词集中的关键词的数目(例如8个)不小于上述局部文本特征对比损失值计算过程中的被屏蔽关键词的数目，则可以从上述对应的关键词集中随机选取(如从8个中选取4个关键词)。若该当前训练样本对应的关键词集中的关键词的数目(例如3个)小于上述局部文本特征对比损失值计算过程中的被屏蔽关键词的数目，则允许从上述对应的关键词集中重复选取(如上述3个关键词中的某个关键词可以被选取两次)。

基于此，通过构建基于文本数据的关键词的局部文本特征与对应图像特征的匹配，有效地利用了文本数据的局部重要信息，从而有助于增强所训练的模型的特征提取能力。

在本实施例的一些可选的实现方式中，上述训练样本集中的每个训练样本的文本数据可以包括未经过关键词屏蔽处理的原始文本。在一个示例中，训练样本的文本数据可以是“a man surfing the sea”。

上述特征提取模型还可以包括特征映射层。上述特征映射层可以和上述第一多类分类器、第二多类分类器的结构类似。上述第一损失值可以包括多模态特征对比损失值。上述多模态特征对比损失值可以根据当前训练样本和交换处理后的当前训练样本各自对应的多模态特征经过上述特征映射层得到的映射结果而得到。其中，上述交换处理后的当前训练样本可以由分属于不同当前训练样本的图像数据和原始文本组成。在一个示例中，当前训练样本1可以包括冲浪图像集和“冲浪”。当前训练样本2可以包括骑马图像集和“骑马”。则交换处理后的训练样本3可以包括冲浪图像集和“骑马”。交换处理后的训练样本4可以包括骑马图像集和“冲浪”。

在一个示例中，上述多模态特征对比损失值可以通过以下公式计算得到：

其中，可以用来表示当前训练样本集的批大小(batchsize)。Θ₃(·)可以用来表示上述特征映射层。针对第i个当前训练样本，m_i,i可以用来表示当前训练样本的多模态特征，m_j,i可以用来表示交换处理后的当前训练样本的多模态特征。

上述第二损失值可以包括全局文本特征对比损失值。上述全局文本特征对比损失值可以根据当前训练样本的原始文本的文本特征和对应图像特征之间的相似度而确定。

在一个示例中，上述全局文本特征对比损失值可以通过以下公式计算得到：

其中，可以用来表示当前训练样本集的批大小(batchsize)。针对第i个当前训练样本，/>可以用来表示该当前训练样本的第k个图像数据的对应图像特征，N_v可以用来表示该当前训练样本的图像数据所包含的图像的数目，/>可以用来表示该当前训练样本的原始文本的文本特征(即全局文本特征)。/>可以用来表示第j个当前训练样本的第k个图像数据的对应图像特征。可选地，/>例如可以是原始文本经过分词处理后所得到的[cls]标记所对应的特征(例如可以用/>表示)。

基于此，可以结合利用上述更为轻量的特征提取模型所提取的全局文本特征和多模态特征对其进行训练，使得模型能够学习到全局文本与图像之间的匹配关系，有助于提高模型的特征提取效果。

在本实施例的一些可选的实现方式中，上述训练样本集中的每个训练样本的文本数据可以包括未经过关键词屏蔽处理的原始文本和对原始文本进行关键词屏蔽处理后的文本。上述特征提取模型还可以包括第一多类分类器、第二多类分类器和特征映射层。上述第一损失值可以包括多模态特征对比损失值和多模态特征预测损失值，上述第二损失值可以包括全局文本特征对比损失值和文本特征预测损失值。

可选地，上述第二损失值可以包括全局文本特征对比损失值、文本特征预测损失值和局部文本特征对比损失值。

上述多模态特征对比损失值、多模态特征预测损失值、全局文本特征对比损失值、文本特征预测损失值和局部文本特征对比损失值的具体描述可以参见前述。

基于此，可以结合全局文本特征、局部文本特征与对应图像特征的匹配以及基于对比学习和针对关键词的漏字填空建模等方式构建损失函数，从而提升模型的训练效果。

在270，根据第一损失值和第二损失值，确定当前模型训练过程的总损失值。

在本实施例中，可以综合上述第一损失值和第二损失值，以确定当前模型训练过程的总损失值。在一个示例中，可以将上述第一损失值和第二损失值之和确定为当前模型训练过程的总损失值。在另一个示例中，可以将上述第一损失值和第二损失值的加权和确定为当前模型训练过程的总损失值。

在280，判断是否满足训练结束条件。

在一个示例中，可以通过判断迭代次数是否达到预设次数、训练时长是否达到预设时长、损失值是否收敛等确定是否满足训练结束条件。

在290，响应于不满足训练结束条件，根据总损失值调整当前特征提取模型的模型参数。

在本实施例中，响应于不满足训练结束条件，在一个示例中，可以根据所确定的总损失值确定梯度，再结合学习率确定调整值，从而调整当前特征提取模型的网络参数。例如可以调整图像特征提取模型和多模态特征融合模型的模型参数。再例如可以调整图像特征提取模型、文本向量化模型和多模态特征融合模型的模型参数。

经过模型参数调整后的特征提取模型可以充当下一模型训练过程的当前特征提取模型。之后，可以利用上述训练样本集重新确定当前训练样本，继续执行模型训练过程220-270，直到满足训练结束条件。

继续参考图5，图5示出了根据本说明书的实施例的用于训练特征提取模型的方法500的又一个示例的示意图。

在本实施例中，训练样本集中的每个训练样本可以如图中520所示。该训练样本520可以由图像数据521和文本数据组成。可选地，图像数据521可以是从目标视频510抽取视频帧而得到的视频帧序列。可选地，文本数据可以是如图中522所示的原始文本，也可以是根据上述原始文本进行关键词屏蔽(例如用[mask]代替“girl”、“riding”或“horse”)处理后的文本。下面以当前训练样本集中的一个训练样本(即训练样本520)为例说明下述模型训练过程。可以将视频帧序列521提供给图像特征提取模型530，得到训练样本520的对应图像特征531。其中，对应图像特征531中可以包括视频帧序列521中各个视频帧的图像特征。可以将文本数据(如文本522)提供给文本向量化模型540，得到训练样本520的对应文本向量541。其中，对应文本向量541中可以包括文本522各个分词对应的向量。而后，可以将训练样本520的对应图像特征531与对应文本向量541进行拼接，得到训练样本520的拼接结果550。再将拼接结果550提供给多模态特征融合模型560，得到训练样本520的多模态特征561。将训练样本520的对应文本向量541提供给多模态特征融合模型560，得到训练样本520的文本特征562。

之后，可以根据当前训练样本集中的各个当前训练样本的多模态特征(包括训练样本520的多模态特征561)确定第一损失值571。根据各个当前训练样本的文本特征(包括训练样本520的文本特征562)确定第二损失值572。再根据第一损失值571和第二损失值572确定总损失值580。响应于不满足训练结束条件，根据总损失值580调整当前特征提取模型的模型参数(例如可以包括图像特征提取模型和多模态特征融合模型)。将经过模型参数调整后的特征提取模型作为下一模型训练过程的当前特征提取模型，以及循环执行上述模型训练过程，直到满足训练结束条件。

利用图1-图5中公开的用于训练特征提取模型的方法，相比于现有技术中需要额外训练一个用以将文本向量转换为文本特征的文本特征提取模型，本方案可以通过共享多模态特征融合模型来同时实现对文本特征的提取和多模态的特征(例如文本特征和图像特征)的融合，从而有效地减少了模型的参数。并且，经过调研发现，由于上述文本特征提取模型和多模态特征融合模型均是针对序列化的向量特征(例如，前者的输入为词向量，后者的输入为图像特征和词向量的拼接特征)进行处理，且上述文本特征提取模型和多模态特征融合模型的结构通常相似(例如，均可以使用BERT结构，区别仅在于所使用的Transformer模型的数量)，因而为利用多模态特征融合模型同时进行多模态特征融合和文本特征提取提供了理论基础，使得特征提取模型变得更为轻量化的同时也能够保证较好的特征提取效果。而且，由于本方案的多模态特征融合模型兼具文本特征提取和多模态特征融合的作用，因而可以依据现有的文本特征提取模型的参数初始化经验来降低找到多模态特征融合模型的合适的初始化参数的难度，从而有助于加快模型的收敛，节约模型训练的时间成本和计算资源。

下面参考图6，图6示出了根据本说明书的实施例的基于特征提取模型的特征提取方法600的流程图。

如图6所示，在610，将获取到的图文对的图像数据提供给图像特征提取模型，得到图文对的对应图像特征。

在本实施例中，可以通过各种方式获取图文对。其中，上述图文对可以包括图像数据和文本数据。在一个示例中，图文对可以包括一张图像和对应的描述文本。在一个示例中，图文对可以包括图像序列和与该图像序列对应的描述文本。可选地，上述图像序列可以是视频帧序列。上述图像特征提取模型可以包括各种预先训练的、用于提取图像特征的特征提取模型。上述图像特征提取模型可以包括但不限于以下至少一项：Resnet(残差神经网络)，VST模型，PVT模型，ViT模型等。

在620，将图文对的文本数据提供给文本向量化模型，得到图文对的对应文本向量。

在本实施例中，可以将上述图文对的文本数据提供给文本向量化模型，得到图文对的对应文本向量。其中，上述文本向量化模型可以包括各种用于将文本转化为向量的模型。从而可以将文本转化为对应文本向量。

在630，将对应图像特征和对应文本向量进行拼接以得到拼接结果。

在本实施例中，可以将上述图文对的对应图像特征和对应文本向量进行拼接以得到拼接结果。其中，对应图像特征和对应文本向量之间的先后拼接顺序通常与上述特征提取模型的相应训练过程一致。

在640，将拼接结果提供给多模态特征融合模型，以得到图文对的多模态特征。

在本实施例中，上述多模态特征融合模型可以包括各种用于融合多模态特征的序列模型。上述多模态特征融合模型可以针对序列化的向量(例如向量序列)进行融合处理，使得处理后的多模态特征(通常也为向量序列的形式)中的各个向量能够融合有该向量的原有信息和原向量序列中的其他向量的信息。作为示例，上述多模态特征融合模型可以包括但不限于以下至少一项：BERT，DistillBERT等。作为又一示例，上述多模态特征融合模型还可以包括基于注意力(attention)机制的循环神经网络(Rerrent Neural Network,RNN)、长短期记忆(Long short-term memory，LSTM)网络、门控循环单元(gated recurrentunit，GRU)等。

在本实施例的一些可选的实现方式中，上述特征提取模型可以通过如前述图1-5描述的用于训练特征提取模型的方法训练得到。

利用图6中公开的基于特征提取模型的特征提取方法，相比于现有技术中需要额外训练一个用以将文本向量转换为文本特征的文本特征提取模型，本方案创造性地通过多模态特征融合模型等效实现对文本特征的提取，以及对多模态的特征(例如文本特征和图像特征)进行融合，从而有效地减少了模型的参数，实现了通过轻量化的特征提取模型进行图文对的多模态特征的提取。

继续参考图7，图7示出了根据本说明书的实施例的基于图像处理模型的图像处理方法700的一个示例的流程图。

在本实施例中，上述图像处理模型包括特征提取模型和分类网络。

如图7所示，在710，利用特征提取方法对所获取到的图文对进行特征提取，得到图文对的多模态特征。

在本实施例中，上述特征提取方法可以参考如图6所描述的基于特征提取模型的特征提取方法，此处不再赘述。

在720，将图文对的多模态特征提供给分类网络，得到与分类网络所对应的分类任务相匹配的分类结果。

在本实施例中，上述分类网络可以用于执行相应的分类任务。在一个示例中，上述分类任务可以包括视频问答任务(Video-Question Answering，VQA)。在一个示例中，上述分类任务可以包括文本与视频匹配任务。其中，上述文本与视频匹配任务例如可以包括文本到视频检索(Text-to-Video Retrieval，TVR)任务。相应地，上述分类结果可以用于指示以下至少一项：图文对的文本数据所指示的问题的答案，图文对的图像数据与文本数据之间是否匹配。

在一个示例中，上述分类网络可以采用“全连接层+softmax”结构。上述分类网络可以根据不同的分类任务相应参考前述图2实施例的可选的实现方式中“第一多类分类器”或“特征映射层”的相关描述。在一个示例中，上述分类网络可以在后续微调(fine-tune)过程训练得到。

基于此，本方案提供了一种利用上述基于特征提取模型的特征提取方法所提取的图文对的多模态特征来执行相应的下游任务的方法，从而可以在诸如视频文本匹配、视频问答等应用场景下提升任务表现。

下面参考图8，图8示出了根据本说明书的实施例的用于训练特征提取模型的装置800的一个示例的方框图。该装置实施例可以与图2-图5所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，用于训练特征提取模型的装置800可以包括训练单元810和参数调整单元820。所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型。训练单元810可以被配置为利用训练样本集循环执行模型训练过程，直到满足训练结束条件。所述训练样本集中的每个训练样本包括由图像数据和文本数据组成的图文对。训练单元810可以包括图像特征提取模块811、文本向量化模块812、向量拼接模块813、特征生成模块814、分损失值确定模块815和总损失值确定模块816。

图像特征提取模块811，被配置为将当前训练样本集中的各个当前训练样本的图像数据提供给当前图像特征提取模型，得到各个当前训练样本的对应图像特征。图像特征提取模块811的操作可以参考上面图2描述的220的操作。

文本向量化模块812，被配置为将各个当前训练样本的文本数据提供给当前文本向量化模型，得到各个当前训练样本的对应文本向量。文本向量化模块812的操作可以参考上面图2描述的230的操作。

在一个示例中，所述文本向量化模型包括基于BERT的词向量模型，所述多模态特征融合模型包括基于Transformer的编码器。

向量拼接模块813，被配置为针对每个当前训练样本，对该当前训练样本的对应图像特征和对应文本向量进行拼接以得到拼接结果。向量拼接模块813的操作可以参考上面图2描述的240的操作。

特征生成模块814，被配置为针对每个当前训练样本，分别将该当前训练样本的对应文本向量以及拼接结果提供给当前多模态特征融合模型，以得到该当前训练样本的文本特征和多模态特征。特征生成模块814的操作可以参考上面图2描述的250的操作。

分损失值确定模块815，被配置为分别根据各个当前训练样本的多模态特征和文本特征确定第一损失值和第二损失值。分损失值确定模块815的操作可以参考上面图2描述的260的操作。

在一个示例中，所述训练样本集中的每个训练样本的文本数据包括对原始文本进行关键词屏蔽处理后的文本，所述特征提取模型还包括第一多类分类器和第二多类分类器，所述第一损失值包括多模态特征预测损失值，所述第二损失值包括文本特征预测损失值。所述多模态特征预测损失值和所述文本特征预测损失值分别根据第一预测结果和第二预测结果各自与所述当前训练样本对应的被屏蔽关键词之间的差异而确定。所述第一预测结果和所述第二预测结果分别为所述第一多类分类器根据所述多模态特征和所述第二多类分类器根据所述文本特征而得到的被屏蔽关键词的预测结果。

在一个示例中，所述第二损失值还包括局部文本特征对比损失值，所述局部文本特征对比损失值根据所述当前训练样本的对应图像特征和局部文本特征之间的相似度而确定，所述局部文本特征基于所述当前训练样本对应的被屏蔽关键词所对应的文本特征而确定。

在一个示例中，所述训练样本集中的每个训练样本的文本数据包括未经过关键词屏蔽处理的原始文本，所述第一损失值包括多模态特征对比损失值，所述特征提取模型还包括特征映射层，所述多模态特征对比损失值根据当前训练样本和交换处理后的当前训练样本各自对应的多模态特征经过所述特征映射层得到的映射结果而得到，其中，交换处理后的当前训练样本由分属于不同当前训练样本的图像数据和原始文本组成。所述第二损失值包括全局文本特征对比损失值，所述全局文本特征对比损失值根据所述当前训练样本的原始文本的文本特征和对应图像特征之间的相似度而确定。

在一个示例中，所述训练样本集中的每个训练样本的文本数据还包括未经过关键词屏蔽处理的原始文本，所述第一损失值还包括多模态特征对比损失值，所述特征提取模型还包括特征映射层，所述多模态特征对比损失值根据当前训练样本和交换处理后的当前训练样本各自对应的多模态特征经过所述特征映射层得到的映射结果而得到，其中，交换处理后的当前训练样本由分属于不同当前训练样本的图像数据和原始文本组成。所述第二损失值包括全局文本特征对比损失值，所述全局文本特征对比损失值根据所述当前训练样本的原始文本的文本特征和对应图像特征之间的相似度而确定。

总损失值确定模块816，被配置为根据所述第一损失值和所述第二损失值，确定所述当前模型训练过程的总损失值。总损失值确定模块816的操作可以参考上面图2描述的270的操作。

参数调整单元820，被配置为响应于不满足训练结束条件，根据所述总损失值调整当前特征提取模型的模型参数。其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。参数调整单元820的操作可以参考上面图2描述的280的操作。

下面参考图9，图9示出了根据本说明书的实施例的用于训练特征提取模型的装置900的又一个示例的方框图。该装置实施例可以与图2-图5所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图9所示，用于训练特征提取模型的装置900可以包括训练单元910、参数调整单元920和关键词屏蔽单元930。所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型。

在本实施例中，上述训练单元910、参数调整单元920可以与前述图8实施例中训练单元810和参数调整单元820的描述一致，此处不再赘述。

关键词屏蔽单元930，被配置为对各个当前训练文本的原始文本进行切词，得到切词结果；将所述切词结果中的各个词与关键词词典进行匹配，得到匹配结果，其中，所述关键词词典根据所获取到的训练样本的原始文本中的词的出现次数而确定；基于各个匹配成功的词，得到各个当前训练文本对应的关键词集；针对每个当前训练样本，基于该当前训练样本对应的关键词集中的关键词对该当前训练样本的原始文本中的目标词进行屏蔽。关键词屏蔽单元930的操作可以参考上面图3实施例描述的相关操作。

在本实施例中，训练样本集中的每个训练样本的文本数据包括对原始文本进行关键词屏蔽处理后的文本。

在一个示例中，所述关键词词典通过以下步骤得到：对所获取到的各个训练样本的文本数据进行切词，得到总切词结果；从所述总切词结果中选取符合词性要求的词组成候选词集；根据所述候选词集中的各个词在所获取到的训练样本的原始文本中的出现次数，从所述候选词集中选取符合词频要求的词组成所述关键词词典。

下面参考图10，图10示出了根据本说明书的实施例的基于特征提取模型的特征提取装置1000的一个示例的方框图。该装置实施例可以与图6所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图10所示，基于特征提取模型的特征提取装置1000可以包括图像特征提取单元1010、文本向量化单元1020、向量拼接单元1030和多模态特征生成单元1040。所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型。

图像特征提取单元1010，被配置为将获取到的图文对的图像数据提供给所述图像特征提取模型，得到所述图文对的对应图像特征。图像特征提取单元1010的操作可以参考上面图6描述的610的操作。

文本向量化单元1020，被配置为将所述图文对的文本数据提供给所述文本向量化模型，得到所述图文对的对应文本向量。文本向量化单元1020的操作可以参考上面图6描述的620的操作。

向量拼接单元1030，被配置为将所述对应图像特征和所述对应文本向量进行拼接以得到拼接结果。向量拼接单元1030的操作可以参考上面图6描述的630的操作。

多模态特征生成单元1040，被配置为将所述拼接结果提供给所述多模态特征融合模型，以得到所述图文对的多模态特征，其中，所述多模态特征融合模型包括用于融合多模态特征的序列模型。多模态特征生成单元1040的操作可以参考上面图6描述的640的操作。

在一个示例中，所述特征提取模型通过如图2-图5中描述的用于训练特征提取模型的方法训练得到。

进一步参考图11，图11示出了根据本说明书的实施例的基于图像处理模型的图像处理装置1100的一个示例的方框图。该装置实施例可以与图7所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图11所示，基于图像处理模型的图像处理装置1100可以包括特征提取装置1110和分类单元1120。所述图像处理模型包括特征提取模型和分类网络。

特征提取装置1110，被配置为对所获取到的图文对进行特征提取，得到所述图文对的多模态特征。特征提取装置1110的操作可以参考上面图7描述的710的操作。

分类单元1120，被配置为将所述图文对的多模态特征提供给所述分类网络，得到与所述分类网络所对应的分类任务相匹配的分类结果。其中，所述分类结果用于指示以下至少一项：图文对的文本数据所指示的问题的答案，图文对的图像数据与文本数据之间是否匹配。分类单元1120的操作可以参考上面图7描述的720的操作。

以上参照图1到图11，对根据本说明书实施例的用于训练特征提取模型的方法和装置、基于特征提取模型的特征提取方法和装置、基于图像处理模型的图像处理方法和装置的实施例进行了描述。

本说明书实施例的用于训练特征提取模型的装置、基于特征提取模型的特征提取装置、基于图像处理模型的图像处理装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中，用于训练特征提取模型的装置、基于特征提取模型的特征提取装置、基于图像处理模型的图像处理装置例如可以利用电子设备实现。

图12示出了本说明书的实施例的用于训练特征提取模型的装置1200的一个示例的方框图。

如图12所示，用于训练特征提取模型的装置1200可以包括至少一个处理器1210、存储器(例如，非易失性存储器)1220、内存1230和通信接口1240，并且至少一个处理器1210、存储器1220、内存1230和通信接口1240经由总线1250连接在一起。至少一个处理器1210执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1210：利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由图像数据和文本数据组成的图文对：将当前训练样本集中的各个当前训练样本的图像数据提供给当前图像特征提取模型，得到各个当前训练样本的对应图像特征；将各个当前训练样本的文本数据提供给当前文本向量化模型，得到各个当前训练样本的对应文本向量；针对每个当前训练样本，对该当前训练样本的对应图像特征和对应文本向量进行拼接以得到拼接结果；针对每个当前训练样本，分别将该当前训练样本的对应文本向量以及拼接结果提供给当前多模态特征融合模型，以得到该当前训练样本的文本特征和多模态特征；分别根据各个当前训练样本的多模态特征和文本特征确定第一损失值和第二损失值；根据所述第一损失值和所述第二损失值，确定所述当前模型训练过程的总损失值；以及响应于不满足训练结束条件，根据所述总损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1210进行本说明书的各个实施例中以上结合图2-图5描述的各种操作和功能。

图13示出了本说明书的实施例的基于特征提取模型的特征提取装置1300的一个示例的方框图。

如图13所示，基于特征提取模型的特征提取装置1300可以包括至少一个处理器1310、存储器(例如，非易失性存储器)1320、内存1330和通信接口1340，并且至少一个处理器1310、存储器1320、内存1330和通信接口1340经由总线1350连接在一起。至少一个处理器1310执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1310：将获取到的图文对的图像数据提供给所述图像特征提取模型，得到所述图文对的对应图像特征；将所述图文对的文本数据提供给所述文本向量化模型，得到所述图文对的对应文本向量；将所述对应图像特征和所述对应文本向量进行拼接以得到拼接结果；以及将所述拼接结果提供给所述多模态特征融合模型，以得到所述图文对的多模态特征，其中，所述多模态特征融合模型包括用于融合多模态特征的序列模型。特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1310进行本说明书的各个实施例中以上结合图6描述的各种操作和功能。

图14示出了本说明书的实施例的基于图像处理模型的图像处理装置1400的一个示例的方框图。

如图14所示，基于图像处理模型的图像处理装置1400可以包括至少一个处理器1410、存储器(例如，非易失性存储器)1420、内存1430和通信接口1440，并且至少一个处理器1410、存储器1420、内存1430和通信接口1440经由总线1450连接在一起。至少一个处理器1410执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器1410：利用如上所述的特征提取方法对所获取到的图文对进行特征提取，得到所述图文对的多模态特征；将所述图文对的多模态特征提供给所述分类网络，得到与所述分类网络所对应的分类任务相匹配的分类结果，其中，所述分类结果用于指示以下至少一项：图文对的文本数据所指示的问题的答案，图文对的图像数据与文本数据之间是否匹配。图像处理模型包括特征提取模型和分类网络。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器1410进行本说明书的各个实施例中以上结合图7描述的各种操作和功能。

根据一个实施例，提供了一种例如计算机可读介质的程序产品。计算机可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被计算机执行时，使得计算机执行本说明书的各个实施例中以上结合图1-7描述的各种操作和功能。

具体地，可以提供配有可读存储介质的***或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写，包括面向对象编程语言，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等，常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL 2002、PHP以及ABAP，动态编程语言如Python、Ruby和Groovy，或者其他编程语言等。该程序编码可以在用户计算机上运行，或者作为独立的软件包在用户计算机上运行，或者部分在用户计算机上运行另一部分在远程计算机运行，或者全部在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或者在云计算环境中，或者作为服务使用，比如软件即服务(SaaS)。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各***结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本说明书的实施例的可选实施方式，但是，本说明书的实施例并不限于上述实施方式中的具体细节，在本说明书的实施例的技术构思范围内，可以对本说明书的实施例的技术方案进行多种简单变型，这些简单变型均属于本说明书的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于训练特征提取模型的方法，其中，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型，所述方法包括：

利用训练样本集循环执行下述模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由图像数据和文本数据组成的图文对：

将当前训练样本集中的各个当前训练样本的图像数据提供给当前图像特征提取模型，得到各个当前训练样本的对应图像特征；

将各个当前训练样本的文本数据提供给当前文本向量化模型，得到各个当前训练样本的对应文本向量；

针对每个当前训练样本，对该当前训练样本的对应图像特征和对应文本向量进行拼接以得到拼接结果；

针对每个当前训练样本，分别将该当前训练样本的对应文本向量以及拼接结果提供给当前多模态特征融合模型，以得到该当前训练样本的文本特征和多模态特征；

分别根据各个当前训练样本的多模态特征和文本特征确定第一损失值和第二损失值；

根据所述第一损失值和所述第二损失值，确定所述当前模型训练过程的总损失值；以及

响应于不满足训练结束条件，根据所述总损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

2.如权利要求1所述的方法，其中，所述训练样本集中的每个训练样本的文本数据包括对原始文本进行关键词屏蔽处理后的文本，所述特征提取模型还包括第一多类分类器和第二多类分类器，所述第一损失值包括多模态特征预测损失值，所述第二损失值包括文本特征预测损失值，

所述多模态特征预测损失值和所述文本特征预测损失值分别根据第一预测结果和第二预测结果各自与所述当前训练样本对应的被屏蔽关键词之间的差异而确定，

所述第一预测结果和所述第二预测结果分别为所述第一多类分类器根据所述多模态特征和所述第二多类分类器根据所述文本特征而得到的被屏蔽关键词的预测结果。

3.如权利要求2所述的方法，其中，所述第二损失值还包括局部文本特征对比损失值，所述局部文本特征对比损失值根据所述当前训练样本的对应图像特征和局部文本特征之间的相似度而确定，所述局部文本特征基于所述当前训练样本对应的被屏蔽关键词所对应的文本特征而确定。

4.如权利要求2或3所述的方法，其中，在所述将各个当前训练样本的文本数据提供给当前文本向量化模型，得到各个当前训练样本的对应文本向量之前，所述对原始文本进行关键词屏蔽处理包括：

对各个当前训练文本的原始文本进行切词，得到切词结果；

将所述切词结果中的各个词与关键词词典进行匹配，得到匹配结果，其中，所述关键词词典根据所获取到的训练样本的原始文本中的词的出现次数而确定；

基于各个匹配成功的词，得到各个当前训练文本对应的关键词集；

针对每个当前训练样本，基于该当前训练样本对应的关键词集中的关键词对该当前训练样本的原始文本中的目标词进行屏蔽。

5.如权利要求4所述的方法，其中，所述关键词词典通过以下步骤得到：

对所获取到的各个训练样本的文本数据进行切词，得到总切词结果；

从所述总切词结果中选取符合词性要求的词组成候选词集；

根据所述候选词集中的各个词在所获取到的训练样本的原始文本中的出现次数，从所述候选词集中选取符合词频要求的词组成所述关键词词典。

6.如权利要求1所述的方法，其中，所述训练样本集中的每个训练样本的文本数据包括未经过关键词屏蔽处理的原始文本，所述第一损失值包括多模态特征对比损失值，所述特征提取模型还包括特征映射层，所述多模态特征对比损失值根据当前训练样本和交换处理后的当前训练样本各自对应的多模态特征经过所述特征映射层得到的映射结果而得到，其中，交换处理后的当前训练样本由分属于不同当前训练样本的图像数据和原始文本组成，

所述第二损失值包括全局文本特征对比损失值，所述全局文本特征对比损失值根据所述当前训练样本的原始文本的文本特征和对应图像特征之间的相似度而确定。

7.如权利要求2所述的方法，其中，所述训练样本集中的每个训练样本的文本数据还包括未经过关键词屏蔽处理的原始文本，所述第一损失值还包括多模态特征对比损失值，所述特征提取模型还包括特征映射层，所述多模态特征对比损失值根据当前训练样本和交换处理后的当前训练样本各自对应的多模态特征经过所述特征映射层得到的映射结果而得到，其中，交换处理后的当前训练样本由分属于不同当前训练样本的图像数据和原始文本组成，

所述第二损失值还包括全局文本特征对比损失值，所述全局文本特征对比损失值根据所述当前训练样本的原始文本的文本特征和对应图像特征之间的相似度而确定。

8.如权利要求1所述的方法，其中，所述文本向量化模型包括基于BERT的词向量模型，所述多模态特征融合模型包括基于Transformer的编码器。

9.一种基于特征提取模型的特征提取方法，其中，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型，所述特征提取方法包括：

将获取到的图文对的图像数据提供给所述图像特征提取模型，得到所述图文对的对应图像特征；

将所述图文对的文本数据提供给所述文本向量化模型，得到所述图文对的对应文本向量；

将所述对应图像特征和所述对应文本向量进行拼接以得到拼接结果；以及

将所述拼接结果提供给所述多模态特征融合模型，以得到所述图文对的多模态特征，其中，所述多模态特征融合模型包括用于融合多模态特征的序列模型。

10.如权利要求9所述的特征提取方法，其中，所述特征提取模型通过如权利要求1到8中任一所述的用于训练特征提取模型的方法训练得到。

11.一种基于图像处理模型的图像处理方法，其中，所述图像处理模型包括特征提取模型和分类网络，所述图像处理方法包括：

利用如权利要求9或10所述的特征提取方法对所获取到的图文对进行特征提取，得到所述图文对的多模态特征；

将所述图文对的多模态特征提供给所述分类网络，得到与所述分类网络所对应的分类任务相匹配的分类结果，其中，所述分类结果用于指示以下至少一项：图文对的文本数据所指示的问题的答案，图文对的图像数据与文本数据之间是否匹配。

12.一种用于训练特征提取模型的装置，其中，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型，所述装置被配置为利用训练样本集经由训练单元循环执行模型训练过程，直到满足训练结束条件，所述训练样本集中的每个训练样本包括由图像数据和文本数据组成的图文对，所述训练单元包括：

图像特征提取模块，被配置为将当前训练样本集中的各个当前训练样本的图像数据提供给当前图像特征提取模型，得到各个当前训练样本的对应图像特征；

文本向量化模块，被配置为将各个当前训练样本的文本数据提供给当前文本向量化模型，得到各个当前训练样本的对应文本向量；

向量拼接模块，被配置为针对每个当前训练样本，对该当前训练样本的对应图像特征和对应文本向量进行拼接以得到拼接结果；

特征生成模块，被配置为针对每个当前训练样本，分别将该当前训练样本的对应文本向量以及拼接结果提供给当前多模态特征融合模型，以得到该当前训练样本的文本特征和多模态特征；

分损失值确定模块，被配置为分别根据各个当前训练样本的多模态特征和文本特征确定第一损失值和第二损失值；

总损失值确定模块，被配置为根据所述第一损失值和所述第二损失值，确定所述当前模型训练过程的总损失值；以及

所述装置还包括：

参数调整单元，被配置为响应于不满足训练结束条件，根据所述总损失值调整当前特征提取模型的模型参数，其中，经过模型参数调整后的特征提取模型充当下一模型训练过程的当前特征提取模型。

13.如权利要求12所述的装置，其中，所述训练样本集中的每个训练样本的文本数据包括对原始文本进行关键词屏蔽处理后的文本，

所述装置还包括：

关键词屏蔽单元，被配置为对各个当前训练文本的原始文本进行切词，得到切词结果；将所述切词结果中的各个词与关键词词典进行匹配，得到匹配结果，其中，所述关键词词典根据所获取到的训练样本的原始文本中的词的出现次数而确定；基于各个匹配成功的词，得到各个当前训练文本对应的关键词集；针对每个当前训练样本，基于该当前训练样本对应的关键词集中的关键词对该当前训练样本的原始文本中的目标词进行屏蔽。

14.一种基于特征提取模型的特征提取装置，其中，所述特征提取模型包括图像特征提取模型、文本向量化模型和多模态特征融合模型，所述特征提取装置包括：

图像特征提取单元，被配置为将获取到的图文对的图像数据提供给所述图像特征提取模型，得到所述图文对的对应图像特征；

文本向量化单元，被配置为将所述图文对的文本数据提供给所述文本向量化模型，得到所述图文对的对应文本向量；

向量拼接单元，被配置为将所述对应图像特征和所述对应文本向量进行拼接以得到拼接结果；以及

多模态特征生成单元，被配置为将所述拼接结果提供给所述多模态特征融合模型，以得到所述图文对的多模态特征，其中，所述多模态特征融合模型包括用于融合多模态特征的序列模型。

15.一种基于图像处理模型的图像处理装置，其中，所述图像处理模型包括特征提取模型和分类网络，所述图像处理装置包括：

如权利要求14所述的特征提取装置，被配置为对所获取到的图文对进行特征提取，得到所述图文对的多模态特征；

分类单元，被配置为将所述图文对的多模态特征提供给所述分类网络，得到与所述分类网络所对应的分类任务相匹配的分类结果，其中，所述分类结果用于指示以下至少一项：图文对的文本数据所指示的问题的答案，图文对的图像数据与文本数据之间是否匹配。

16.一种用于训练特征提取模型的装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求1到8中任一所述的用于训练特征提取模型的方法。

17.一种基于特征提取模型的特征提取装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求9或10所述的基于特征提取模型的特征提取方法。

18.一种基于图像处理模型的图像处理装置，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求11所述的基于图像处理模型的图像处理方法。

19.一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1到8中任一所述的用于训练特征提取模型的方法或实现如权利要求9或10所述的基于特征提取模型的特征提取方法或实现如权利要求11所述的基于图像处理模型的图像处理方法。

20.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行来实现如权利要求1到8中任一所述的用于训练特征提取模型的方法或实现如权利要求9或10所述的基于特征提取模型的特征提取方法或实现如权利要求11所述的基于图像处理模型的图像处理方法。