CN117726891A - 模型训练方法、装置、电子设备及可读存储介质 - Google Patents

模型训练方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN117726891A
CN117726891A CN202310246258.9A CN202310246258A CN117726891A CN 117726891 A CN117726891 A CN 117726891A CN 202310246258 A CN202310246258 A CN 202310246258A CN 117726891 A CN117726891 A CN 117726891A
Authority
CN
China
Prior art keywords
sample
text
image
training
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310246258.9A
Other languages
English (en)
Inventor
金磊
张道鑫
汤旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaohongshu Technology Co ltd
Original Assignee
Xiaohongshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaohongshu Technology Co ltd filed Critical Xiaohongshu Technology Co ltd
Priority to CN202310246258.9A priority Critical patent/CN117726891A/zh
Publication of CN117726891A publication Critical patent/CN117726891A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种模型训练方法、装置、电子设备及可读存储介质,包括:获取初始模型和样本数据集;对于第一训练样本,基于样本文本和样本图像中的非掩码图像信息,对样本图像进行图像掩码重建,得到重建图像信息;对于第二训练样本,基于样本图像和样本文本中的非掩码文本信息,对样本文本进行文本掩码重建,得到重建文本信息;基于第一相似度信息和第二相似度信息,训练得到目标多模态模型。本方法同时采用了图像掩码重建和文本掩码重建作为训练任务,可以避免训练时过于依赖单一模态的特征,导致目标多模态模型过拟合的情况,可以提高模型性能。本方法还可以同时训练图像的表征与文本的表征,降低了模型训练成本。

Description

模型训练方法、装置、电子设备及可读存储介质
技术领域
本申请涉及模型训练技术领域,具体涉及一种模型训练方法、装置、电子设备及可读存储介质。
背景技术
随着对模型精度的要求逐渐提高,多模态以其多样化的输入,和准确的输出逐渐受到用户、研发人员的重视。
为了减少多模态模型在下游任务中的训练成本,通常会采用掩码重建、对比学习等方法对多模态模型进行预训练,然后再基于具体的下游任务进行进一步调整,但是目前的预训练方法所得到的多模态模型通常性能不佳。
发明内容
本申请提供一种模型训练方法、装置、电子设备及可读存储介质,旨在解决现有的模型训练方法训练得到的多模态模型性能不佳的技术问题。
第一方面,本申请提供一种模型训练方法,包括:
获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本;
对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息;
对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息;
基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
在本申请的一种可能的实现方式中,所述获取初始模型,以及预设的样本数据集之后,还包括:
将各组所述训练样本输入所述初始模型,通过所述初始模型中的掩码层,按照预设的划分概率将各组所述训练样本划分为第一训练样本和第二训练样本。
在本申请的一种可能的实现方式中,所述划分概率基于各所述样本图像的平均清晰度和/或各所述样本文本的平均文本长度得到。
在本申请的一种可能的实现方式中,所述对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息对应的重建图像信息,包括:
对于各组所述训练样本中的第一训练样本,通过所述初始模型中的掩码层,对所述样本图像进行图像掩码,得到所述样本图像中的非掩码图像信息;
通过所述初始模型中的第一特征提取层,提取得到所述非掩码图像信息的第一图像特征;
通过所述初始模型中的第二特征提取层,提取得到所述样本文本的第一文本特征;
通过所述初始模型中的特征融合层,融合所述第一图像特征和所述第一文本特征,得到第一融合特征;
通过所述初始模型中的第一预测层,基于所述第一融合特征预测得到所述样本图像中的被掩码图像信息对应的重建图像信息。
在本申请的一种可能的实现方式中,所述对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息对应的重建文本信息,包括:
对于各组所述训练样本中的第二训练样本,通过所述初始模型中的掩码层,对所述样本文本进行文本掩码,得到所述样本文本中的非掩码文本信息;
通过所述初始模型中的第一特征提取层,提取得到所述样本图像的第二图像特征;
通过所述初始模型中的第二特征提取层,提取得到所述非掩码文本信息的第二文本特征;
通过所述初始模型中的特征融合层,融合所述第二图像特征和所述第二文本特征,得到第二融合特征;
通过所述初始模型中的第二预测层,基于所述第二融合特征预测得到所述样本文本中的被掩码文本信息对应的重建文本信息。
在本申请的一种可能的实现方式中,所述基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型,包括:
将所述第一相似度信息和所述第二相似度信息输入所述初始模型中预设的优化器,对所述初始模型的模型参数进行优化,输出优化后的模型参数,以及由所述优化后的模型参数构成的待调整模型;
对所述待调整模型进行微调,得到目标多模态模型。
在本申请的一种可能的实现方式中,所述基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型之后,还包括:
响应于目标用户对社交网络中目标社交信息的触发指令,将所述目标社交信息中的目标图像输入所述目标多模态模型中的第一特征提取层,将所述目标社交信息中的目标文本输入所述目标多模态模型中的第二特征提取层,得到所述目标图像中的图像特征和所述目标文本中的文本特征;
将所述图像特征和所述文本特征输入所述目标多模态模型中的特征融合层,得到融合特征;
从预设的特征数据库中搜索得到与所述融合特征之间的相似度大于预设相似度阈值的相似特征;
将所述相似特征的来源信息设定为所述目标用户对应的推荐社交信息。
第二方面,本申请提供一种模型训练装置,包括:
获取单元,用于获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本;
图像掩码重建单元,用于对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息;
文本掩码重建单元,用于对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息;
训练单元,用于基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
在本申请的一种可能的实现方式中,获取单元还用于:
将各组所述训练样本输入所述初始模型,通过所述初始模型中的掩码层,按照预设的划分概率将各组所述训练样本划分为第一训练样本和第二训练样本。
在本申请的一种可能的实现方式中,所述划分概率基于各所述样本图像的平均清晰度和/或各所述样本文本的平均文本长度得到。
在本申请的一种可能的实现方式中,图像掩码重建单元还用于:
对于各组所述训练样本中的第一训练样本,通过所述初始模型中的掩码层,对所述样本图像进行图像掩码,得到所述样本图像中的非掩码图像信息;
通过所述初始模型中的第一特征提取层,提取得到所述非掩码图像信息的第一图像特征;
通过所述初始模型中的第二特征提取层,提取得到所述样本文本的第一文本特征;
通过所述初始模型中的特征融合层,融合所述第一图像特征和所述第一文本特征,得到第一融合特征;
通过所述初始模型中的第一预测层,基于所述第一融合特征预测得到所述样本图像中的被掩码图像信息对应的重建图像信息。
在本申请的一种可能的实现方式中,文本掩码重建单元还用于:
对于各组所述训练样本中的第二训练样本,通过所述初始模型中的掩码层,对所述样本文本进行文本掩码,得到所述样本文本中的非掩码文本信息;
通过所述初始模型中的第一特征提取层,提取得到所述样本图像的第二图像特征;
通过所述初始模型中的第二特征提取层,提取得到所述非掩码文本信息的第二文本特征;
通过所述初始模型中的特征融合层,融合所述第二图像特征和所述第二文本特征,得到第二融合特征;
通过所述初始模型中的第二预测层,基于所述第二融合特征预测得到所述样本文本中的被掩码文本信息对应的重建文本信息。
在本申请的一种可能的实现方式中,训练单元还用于:
将所述第一相似度信息和所述第二相似度信息输入所述初始模型中预设的优化器,对所述初始模型的模型参数进行优化,输出优化后的模型参数,以及由所述优化后的模型参数构成的待调整模型;
对所述待调整模型进行微调,得到目标多模态模型。
在本申请的一种可能的实现方式中,训练单元还用于:
响应于目标用户对社交网络中目标社交信息的触发指令,将所述目标社交信息中的目标图像输入所述目标多模态模型中的第一特征提取层,将所述目标社交信息中的目标文本输入所述目标多模态模型中的第二特征提取层,得到所述目标图像中的图像特征和所述目标文本中的文本特征;
将所述图像特征和所述文本特征输入所述目标多模态模型中的特征融合层,得到融合特征;
从预设的特征数据库中搜索得到与所述融合特征之间的相似度大于预设相似度阈值的相似特征;
将所述相似特征的来源信息设定为所述目标用户对应的推荐社交信息。
第三方面,本申请还提供一种电子设备,电子设备包括处理器、存储器以及存储于存储器中并可在处理器上运行的计算机程序,处理器调用存储器中的计算机程序时执行本申请提供的任一种模型训练方法中的步骤。
第四方面,本申请还提供一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本申请提供的任一种模型训练方法中的步骤。
综上所述,本申请实施例提供的模型训练方法,包括:获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本;对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息;对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息;基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
可见,本申请实施例提供的模型训练方法,同时采用了图像掩码重建和文本掩码重建作为训练任务,因此可以有效避免训练时过于依赖单一模态的特征,导致训练得到的目标多模态模型过拟合,可以提高模型性能。此外,本方法可以同时训练图像的表征与文本的表征,因此可以降低模型训练的成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的模型训练方法的应用场景示意图;
图2是本申请实施例中提供的模型训练方法的一种流程示意图;
图3是本申请实施例中提供的初始模型的一种示意图;
图4是本申请实施例中提供的进行图像掩码重建的一种流程示意图;
图5是本申请实施例中提供的进行文本掩码重建的一种流程示意图;
图6是本申请实施例中提供的获取目标多模态模型的一种流程示意图;
图7是本申请实施例中提供的模型训练方法的另一种流程示意图;
图8是本申请实施例中提供的模型训练装置的一个实施例结构示意图;
图9是本申请实施例中提供的电子设备的一个实施例结构示意图;
图10是本申请实施例中提供的社交网络的一种示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的过程进行详细阐述,以避免不必要的细节使本申请实施例的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请实施例所公开的原理和特征的最广范围相一致。
本申请实施例提供一种模型训练方法、装置、电子设备和可读存储介质。其中,该模型训练装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
本申请实施例模型训练方法的执行主体可以为本申请实施例提供的模型训练装置,或者集成了该模型训练装置的服务器设备、物理主机或者特效制作人员设备(UserEquipment,UE)等不同类型的电子设备,其中,模型训练装置可以采用硬件或者软件的方式实现,UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal Digital Assistant,PDA)等终端设备。
该电子设备可以采用单独运行的工作方式,或者也可以采用设备集群的工作方式。
参见图1,图1是本申请实施例所提供的模型训练***的场景示意图。其中,该模型训练***可以包括电子设备100,电子设备100中集成有模型训练装置。
另外,如图1所示,该模型训练***还可以包括存储器200,用于存储数据,如存储文本数据。
需要说明的是,图1所示的模型训练***的场景示意图仅仅是一个示例,本申请实施例描述的模型训练***以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着模型训练***的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
为了方便理解,首先对本申请的应用背景进行说明,但不能理解为对现有技术的承认:
现有跨模态预训练的算法可以分为两大类,一类是基于对比学***方损失函数等方式训练网络。
对于对比学习的方案,由于其需要在同一个数据流内(即多组图文对,往往图文对的数目>10240)采样负样本训练,其训练规模受限于显卡的显存大小,同时,往往使用一个更大的数据流,或是一个显存更大的显卡,可以能取得更好的效果,因而,此类算法只能在部分设备上取得较有领先的性能。
对于掩码重建的方案,由于通常仅采用单个模态的训练,即针对文本内容,掩码文本,或是对于图片内容,掩码部分图片,倘若掩码了图片或是文本中的主体内容,这会导致网络无法利用相邻内容,恢复出其中的主体内容,严重情况下,会导致网络产过拟合,影响下游任务的性能。
因此为了解决上述问题,本申请提供了下述的模型训练方法,以训练多模态模型。
下面,开始介绍本申请实施例提供的模型训练方法,本申请实施例中以电子设备作为执行主体,为了简化与便于描述,后续方法实施例中将省略该执行主体,该模型训练方法包括:获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本;对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息;对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息;基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
参照图2,图2是本申请实施例提供的模型训练方法的一种流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。该模型训练方法具体可以包括以下步骤201-步骤204,其中:
201、获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本。
初始模型可以是指待训练的多模态模型,首先需要说明的是,在本申请实施例中若未作特别声明,则认为对初始模型训练是指对初始模型进行预训练,后续可以对训练好的初始模型进行微调等操作,以得到实际应用的多模态模型。
本申请实施例所需要训练的多模态模型可以是指将图像和文本作为模型输入的多模态模型,此时,初始模型可以是指待训练的,以图像和文本作为模型输入的多模态模型。示例性地,可以将待训练的视觉语言预训练(Vision-Language Pre-training)模型作为初始模型。例如,可以基于ViT(Vision Transformer)模型和BERT模型,构建初始模型,如将Clip模型,或者ViT-BERT模型作为初始模型。参考图3,图3中示出了一种初始模型301,初始模型301包括图像神经网络302、文本神经网络303、融合网络304,其中,图像神经网络302用于提取输入图像的图像特征,可以由ViT模型中的特征提取层构成,文本神经网络303用于提取输入文本的文本特征,可以由BERT模型中的特征提取层构成,融合网络304用于融合图像特征和文本特征,融合网络304所采用的融合方法可以为注意力等常用的多模态特征融合方法。
由于本申请实施例所需要训练的多模态模型将图像和文本作为模型输入,因此训练时采用的样本数据集需要包含多组训练样本,并且每组训练样本均有样本图像和样本文本构成。需要说明的是,在本申请实施例中对于每组训练样本,样本文本用于描述样本图像的图像内容,即样本文本描述的内容与样本图像描述的内容相同,进而可以使初始模型学习到对应模态中的描述,从而加强不同模态之间的对齐能力(例如调整图3中融合网络304的网络参数),并提高图像特征和文本特征的提取准确率(例如调整图3中图像神经网络302的网络参数和文本神经网络303的网络参数),有效提升初始模型的性能,得到能够准确获取融合特征的多模态模型。
为了方便理解,下面具体举一个例子说明训练样本:例如在构建训练样本时,可以将图像内容为:穿着碎花连衣裙以及其他服装的模特的图像作为样本图像,将文本“碎花连衣裙穿搭”作为该样本图像对应的样本文本,以构建一组训练样本,将包含动物的图像,以及对应动物的名称分别作为一组训练样本中的样本图像和样本文本,对于其他的训练样本同理。
202、对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息。
第一训练样本是指以图像掩码重建(Masked Vision Modeling,MVM)作为训练任务的训练样本。
样本图像中的非掩码图像信息是指在样本图像的图像信息中,被掩码区域之外,即未被掩码的图像信息。
样本图像中的被掩码图像信息是指在样本图像的图像信息中,被掩码区域包含的,即被掩码的图像信息。
重建图像信息是指通过图像掩码重建所预测到的被掩码区域的图像信息。
示例性地,第一训练样本可以由模型训练的工作人员从训练样本中选择。或者,也可以由初始模型从训练样本中随机选择,具体可见下文中的说明。
在本申请实施例中,为了减少训练初始模型时,所需训练样本的数量,并且避免训练好的初始模型过拟合,采用掩码重建的方式对初始样本进行训练。可以理解的,由于对同一训练样本可以进行多次不同的掩码,因此可以有效降低所需训练样本的数量,例如可以对一组训练样本复制多次,得到多个训练样本,利用一组数据流即可训练,从而不会受到设备规模的限制,有效解决了上文中对比学习的缺陷。对于过拟合的说明可以见下文,具体不在此说明。
203、对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息。
第二训练样本是指以文本掩码重建(Masked Language Modeling,MLM)作为训练任务的训练样本。
样本文本中的非掩码文本信息是指在样本文本中未被掩码的文本片段,例如,当样本文本为“碎花连衣裙穿搭”,并且掩码后的样本文本为“碎花XXX穿搭”时,非掩码文本信息是指“碎花”和“穿搭”,其中,上述XXX是指掩码。
样本文本中的被掩码文本信息是指在样本文本中被掩码的文本片段,例如在上述例子中,被掩码文本信息是指“连衣裙”。
重建文本信息是指通过文本掩码重建所预测到的被掩码文本片段。
示例性地,第二训练样本可以由模型训练的工作人员从训练样本中选择,例如将已经选择好的第二训练文本之外的所有训练文本作为第二训练文本。或者,也可以由初始模型从训练样本中随机选择,具体可见下文中的说明。
204、基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
目标多模态模型是指训练好的初始模型。
本申请实施例对获取相似度信息的方法不进行限制,例如可以将曼哈顿距离(Manhattan Distance)、欧式距离(Euclidean Distance)等常用距离的计算方法作为获取相似度信息的方法,将计算得到的距离作为相似度信息,然后将距离作为损失函数,即可对初始模型进行训练,得到训练好的目标多模态模型。
步骤201-步骤204的方法在训练初始模型时,同时采用了图像掩码重建和文本掩码重建作为训练任务,因此可以有效避免使用单一模态的掩码重建作为训练任务时,训练得到的目标多模态模型出现过拟合的情况。为了方便理解,以下举一个例子进行说明:假设仅将图像掩码重建作为初始模型的训练任务,当采用包含动物的图像作为样本图像时,如果掩码遮盖了该动物,进而初始模型在重建时会过于依赖样本文本,容易导致目标多模态模型过拟合,影响下游任务的性能。仅将文本掩码重建作为初始模型的训练任务时同理。
此外,步骤201-步骤204的方法无需在训练时对图像的表征和文本的表征进行分别训练,而是可以同时训练图像的表征与文本的表征,因此可以降低训练成本。
为了方便理解,以下示例性说明一种步骤201-步骤204的实际应用流程:
(A)模型训练的工作人员收集样本数据集,并随机从样本数据集包含的多组训练样本中划分出第一训练样本和第二训练样本,并进行标记;
(B)将各组训练样本依次输入初始模型,初始模型根据训练样本的标记,对输入的训练样本进行识别,若输入的是第一训练样本,则进行图像掩码重建,若输入的是第二训练样本,则进行文本掩码重建;
(C)根据重建后的信息和被掩码的信息之间的相似度,对初始模型进行训练,得到训练好的目标多模态模型。
综上所述,本申请实施例提供的模型训练方法,包括:获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本;对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息;对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息;基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
可见,本申请实施例提供的模型训练方法,同时采用了图像掩码重建和文本掩码重建作为训练任务,因此可以有效避免训练时过于依赖单一模态的特征,导致训练得到的目标多模态模型过拟合,可以提高模型性能。此外,本方法可以同时训练图像的表征与文本的表征,因此可以降低模型训练的成本。
为了提高模型训练的效率,降低人工成本,可以通过初始模型随机划分第一训练样本和第二训练样本。此时,步骤“获取初始模型,以及预设的样本数据集”之后,还包括:
将各组所述训练样本输入所述初始模型,通过所述初始模型中的掩码层,按照预设的划分概率将各组所述训练样本划分为第一训练样本和第二训练样本。
以图3中的初始模型301为例进行说明,初始模型301还包括掩码网络305,掩码网络305可以在接收到输入的训练样本时,按照预设的划分概率随机将训练样本划分为第一训练样本或者第二训练样本,并进行掩码重建。其中,预设的划分概率可以由模型训练的工作人员设置,例如可以设置为50%,即掩码网络305有50%的概率将输入的训练样本划分为第一训练样本,对其进行图像掩码重建,有50%的概率将输入的训练样本划分为第二训练样本,对其进行文本掩码重建。或者划分概率也可以为其他值,本申请实施例对此不进行限制,例如当工作人员认为采集到的样本图像的清晰度较低,和/或样本文本的文本长度较长,容易导致训练时过于依赖样本文本的表征时,可以以较高的划分概率将输入的训练样本划分为第二训练样本,更多地进行文本掩码重建,而样本图像的清晰度较高,和/或样本文本的文本长度较短时同理。基于该判断原则,电子设备也可以自动化地根据样本图像的平均清晰度和样本文本的平均文本长度确定划分概率,即“所述划分概率基于各所述样本图像的平均清晰度和/或各所述样本文本的平均文本长度得到”。示例性地,电子设备可以将平均清晰度和/或平均文本长度分别与对应的阈值进行对比,以判断平均清晰度是否较低,以及平均文本长度是否较长。
在一些实施例中,步骤202可以由图4的方式实施,即步骤“对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息对应的重建图像信息”,包括:
401、对于各组所述训练样本中的第一训练样本,通过所述初始模型中的掩码层,对所述样本图像进行图像掩码,得到所述样本图像中的非掩码图像信息。
在本申请中,掩码层除了可以进行图像掩码之外,还可以用于文本掩码。例如在掩码层中可以包含图像掩码子层和文本掩码子层,通过图像掩码子层进行图像掩码,通过文本掩码子层进行文本掩码。
本申请实施例对掩码层进行图像掩码时所采用的图像掩码方式不进行限制。例如掩码层可以对样本图像中随机的图像区域进行图像掩码,或者采用注意力等方式确定样本图像中包含较多图像信息的区域进行图像掩码,或者其他图像掩码方式。例如,可以采用训练ViT模型时常用的图像掩码方法,作为本申请实施例中的图像掩码方法。
其中,步骤401中的掩码层可以为图3中的掩码网络305,具体不再赘述。
402、通过所述初始模型中的第一特征提取层,提取得到所述非掩码图像信息的第一图像特征。
以图3为例,第一特征提取层可以是指图像神经网络302,当图像神经网络302由ViT模型中的特征提取层构成时,第一特征提取层可以是指ViT模型中的特征提取层。
403、通过所述初始模型中的第二特征提取层,提取得到所述样本文本的第一文本特征。
以图3为例,第二特征提取层可以是指文本神经网络303,当文本神经网络303由BERT模型中的特征提取层构成时,第二特征提取层可以是指BERT模型中的特征提取层。
404、通过所述初始模型中的特征融合层,融合所述第一图像特征和所述第一文本特征,得到第一融合特征。
以图3为例,特征融合层可以是指融合网络304。特征融合层可以通过注意力等方法,对第一图像特征和第一文本特征进行多模态融合,得到第一融合特征。
405、通过所述初始模型中的第一预测层,基于所述第一融合特征预测得到所述样本图像中的被掩码图像信息对应的重建图像信息。
第一预测层用于重建被掩码图像信息。以图3为例,图3中提供的初始模型301还可以包括第一预测网络306,第一预测网络306可以基于融合网络304输出的第一融合特征预测得到重建图像信息。若初始模型为图3中的初始模型301,则第一预测层是指第一预测网络306。
在一些实施例中,步骤203可以由图5的方式实施,即步骤“对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息对应的重建文本信息”,包括:
501、对于各组所述训练样本中的第二训练样本,通过所述初始模型中的掩码层,对所述样本文本进行文本掩码,得到所述样本文本中的非掩码文本信息。
同样地,本申请实施例对掩码层进行文本掩码时所采用的文本掩码方式不进行限制。例如掩码层可以对样本文本中随机的文本片段进行文本掩码,或者采用注意力等方式确定样本文本中包含较多文本信息的文本片段进行文本掩码,或者其他文本掩码方式。例如,可以采用训练BERT模型时常用的文本掩码方法,作为本申请实施例中的文本掩码方法。
其中,步骤402中的掩码层可以为图3中的掩码网络305,具体不再赘述。
502、通过所述初始模型中的第一特征提取层,提取得到所述样本图像的第二图像特征。
第一特征提取层的说明参考上文,不再赘述。
503、通过所述初始模型中的第二特征提取层,提取得到所述非掩码文本信息的第二文本特征。
第二特征提取层的说明参考上文,不再赘述。
504、通过所述初始模型中的特征融合层,融合所述第二图像特征和所述第二文本特征,得到第二融合特征。
特征融合层的说明参考上文,不再赘述。
505、通过所述初始模型中的第二预测层,基于所述第二融合特征预测得到所述样本文本中的被掩码文本信息对应的重建文本信息。
第二预测层用于重建被掩码文本信息。以图3为例,图3中提供的初始模型301还可以包括第二预测网络307,第二预测网络307可以基于融合网络304输出的第二融合特征预测得到重建文本信息。若初始模型为图3中的初始模型301,则第二预测层是指第二预测网络307。
为了方便理解,以图3为例,对上述步骤401-步骤405,以及步骤501-步骤505进行实际应用场景的说明,假设在下述过程中第一训练样本和第二训练样本的划分由初始模型执行:
(a)将样本数据集中的各组训练样本依次输入初始模型301;
(b)初始模型301中的掩码网络305按照划分概率将输入样本划分为第一训练样本或者第二训练样本;
(c1)如果输入样本被划分为第一训练样本,则掩码网络305对第一训练样本中的样本图像进行图像掩码,得到样本图像中的非掩码图像信息和被掩码图像信息;
(d1)图像神经网络302提取非掩码图像信息的图像特征,文本神经网络303提取第一训练样本中样本文本的文本特征,融合网络304融合图像特征和文本特征,得到第一融合特征,将第一融合特征输入第一预测网络306;
(e1)第一预测网络306基于第一融合特征进行掩码重建,得到重建图像信息;
(c2)如果输入样本被划分为第二训练样本,则掩码网络305对第二训练样本中的样本文本进行文本掩码,得到样本文本中的非掩码文本信息和被掩码文本信息;
(d1)图像神经网络302提取第二训练样本中样本图像的图像特征,文本神经网络303提取非掩码文本信息的文本特征,融合网络304融合图像特征和文本特征,得到第二融合特征,将第二融合特征输入第二预测网络307;
(e1)第二预测网络307基于第二融合特征进行掩码重建,得到重建文本信息。
在一些实施例中,可以通过预设的优化器对初始模型的模型参数进行优化,并对优化后的模型进行微调,得到可实际应用于下游任务的目标多模态模型。参考图6,此时,步骤“基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型”,包括:
601、将所述第一相似度信息和所述第二相似度信息输入所述初始模型中预设的优化器,对所述初始模型的模型参数进行优化,输出优化后的模型参数,以及由所述优化后的模型参数构成的待调整模型。
本申请实施例对优化器的种类不进行限制。示例性地,可以将AdamW优化器作为初始模型中预设的优化器,以实现端到端的整体模型优化。具体的优化方法不再赘述。
602、对所述待调整模型进行微调,得到目标多模态模型。
在微调时,可以基于模型实际应用的下游任务确定微调方法,具体的微调方法不进行赘述。
通过上述任一实施例训练得到的目标多模态模型可以用于社交媒体中的信息推荐。参考图7,图7中示出了目标多模态模型的实际应用流程,包括:
701、响应于目标用户对社交网络中目标社交信息的触发指令,将所述目标社交信息中的目标图像输入所述目标多模态模型中的第一特征提取层,将所述目标社交信息中的目标文本输入所述目标多模态模型中的第二特征提取层,得到所述目标图像中的图像特征和所述目标文本中的文本特征。
社交网络可以是指社交APP、社交小程序、社交网页等等中的一种。
参考图10,图10中示出了社交网络的页面1001,在页面1001中,包含多条用户发送的社交信息1002,每条社交信息1002均由图像和文本构成,可以认为每条社交信息1002中的文本用于描述图像。当目标用户想要看到目标社交信息中详细的内容时,可以通过点击等方法触发目标社交信息,此时判定目标社交信息符合目标用户的喜好,电子设备会将目标社交信息中的目标图像和目标文本输入目标多模态模型,以便后续确认推荐至目标用户的社交信息。
702、将所述图像特征和所述文本特征输入所述目标多模态模型中的特征融合层,得到融合特征。
步骤702的说明可以参考上文,不再进行赘述。
703、从预设的特征数据库中搜索得到与所述融合特征之间的相似度大于预设相似度阈值的相似特征。
预设的特征数据库是用于存储社交网络中各社交信息的融合特征的数据库。当用户发布社交信息时,电子设备可以通过目标多模态模型提取该社交信息的融合特征,并更新至特征数据库中。
相似特征是指在特征数据库内与目标社交信息对应的融合特征之间较相似的,其他社交信息对应的融合特征。
相似度的计算方法可以参考上文,不再进行赘述。
预设相似度阈值的具体数值可以由实际应用场景确定,本申请实施例对此不进行限制。
704、将所述相似特征的来源信息设定为所述目标用户对应的推荐社交信息。
来源信息是指相似特征所对应的社交信息。例如可以是通过目标多模态模型提取得到相似特征时输入的社交信息。
由于相似特征与目标社交信息对应的融合信息较为相似,因此可以认为来源信息描述的内容和目标社交信息描述的内容相似,将来源信息作为目标用户对应的推荐社交信息更加符合目标用户的喜好。
在得到推荐社交信息之后,当目标用户刷新社交网络时,可以在刷新后的界面中显示推荐社交信息。
为了更好实施本申请实施例中模型训练方法,在模型训练方法基础之上,本申请实施例中还提供一种模型训练装置,如图8所示,为本申请实施例中模型训练装置的一个实施例结构示意图,该模型训练装置800包括:
获取单元801,用于获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本;
图像掩码重建单元802,用于对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息;
文本掩码重建单元803,用于对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息;
训练单元804,用于基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
在本申请的一种可能的实现方式中,获取单元801还用于:
将各组所述训练样本输入所述初始模型,通过所述初始模型中的掩码层,按照预设的划分概率将各组所述训练样本划分为第一训练样本和第二训练样本。
在本申请的一种可能的实现方式中,所述划分概率基于各所述样本图像的平均清晰度和/或各所述样本文本的平均文本长度得到。
在本申请的一种可能的实现方式中,图像掩码重建单元802还用于:
对于各组所述训练样本中的第一训练样本,通过所述初始模型中的掩码层,对所述样本图像进行图像掩码,得到所述样本图像中的非掩码图像信息;
通过所述初始模型中的第一特征提取层,提取得到所述非掩码图像信息的第一图像特征;
通过所述初始模型中的第二特征提取层,提取得到所述样本文本的第一文本特征;
通过所述初始模型中的特征融合层,融合所述第一图像特征和所述第一文本特征,得到第一融合特征;
通过所述初始模型中的第一预测层,基于所述第一融合特征预测得到所述样本图像中的被掩码图像信息对应的重建图像信息。
在本申请的一种可能的实现方式中,文本掩码重建单元803还用于:
对于各组所述训练样本中的第二训练样本,通过所述初始模型中的掩码层,对所述样本文本进行文本掩码,得到所述样本文本中的非掩码文本信息;
通过所述初始模型中的第一特征提取层,提取得到所述样本图像的第二图像特征;
通过所述初始模型中的第二特征提取层,提取得到所述非掩码文本信息的第二文本特征;
通过所述初始模型中的特征融合层,融合所述第二图像特征和所述第二文本特征,得到第二融合特征;
通过所述初始模型中的第二预测层,基于所述第二融合特征预测得到所述样本文本中的被掩码文本信息对应的重建文本信息。
在本申请的一种可能的实现方式中,训练单元804还用于:
将所述第一相似度信息和所述第二相似度信息输入所述初始模型中预设的优化器,对所述初始模型的模型参数进行优化,输出优化后的模型参数,以及由所述优化后的模型参数构成的待调整模型;
对所述待调整模型进行微调,得到目标多模态模型。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个模块的具体实施可参见前面的方法实施例,在此不再赘述。
由于该模型训练装置可以执行任意实施例中模型训练方法中的步骤,因此,可以实现本申请任意实施例中模型训练方法所能实现的有益效果,详见前面的说明,在此不再赘述。
此外,为了更好实施本申请实施例中模型训练方法,在模型训练方法基础之上,本申请实施例还提供一种电子设备,参阅图9,图9示出了本申请实施例电子设备的一种结构示意图,具体的,本申请实施例提供的电子设备包括处理器901,处理器901用于执行存储器902中存储的计算机程序时实现任意实施例中模型训练方法的各步骤;或者,处理器901用于执行存储器902中存储的计算机程序时实现如图8对应实施例中各模块的功能。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器902中,并由处理器901执行,以完成本申请实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
电子设备可包括,但不仅限于处理器901、存储器902。本领域技术人员可以理解,示意仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
处理器901可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分。
存储器902可用于存储计算机程序和/或模块,处理器901通过运行或执行存储在存储器902内的计算机程序和/或模块,以及调用存储在存储器902内的数据,实现计算机装置的各种功能。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的模型训练装置、电子设备及其相应模块的具体工作过程,可以参考任意实施例中模型训练方法的说明,具体在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种可读存储介质,可读存储介质上存储有计算机程序,该计算机程序被处理器执行时执行本申请任意实施例中模型训练方法中的步骤,具体操作可参考任意实施例中模型训练方法的说明。
其中,该可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
由于该可读存储介质中所存储的指令,可以执行本申请任意实施例中模型训练方法中的步骤,因此,可以实现本申请任意实施例中模型训练方法所能实现的有益效果,详见前面的说明,在此不再赘述。
以上对本申请实施例所提供的一种模型训练方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本;
对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息;
对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息;
基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述获取初始模型,以及预设的样本数据集之后,还包括:
将各组所述训练样本输入所述初始模型,通过所述初始模型中的掩码层,按照预设的划分概率将各组所述训练样本划分为第一训练样本和第二训练样本。
3.根据权利要求2所述的模型训练方法,其特征在于,所述划分概率基于各所述样本图像的平均清晰度和/或各所述样本文本的平均文本长度得到。
4.根据权利要求1所述的模型训练方法,其特征在于,所述对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息对应的重建图像信息,包括:
对于各组所述训练样本中的第一训练样本,通过所述初始模型中的掩码层,对所述样本图像进行图像掩码,得到所述样本图像中的非掩码图像信息;
通过所述初始模型中的第一特征提取层,提取得到所述非掩码图像信息的第一图像特征;
通过所述初始模型中的第二特征提取层,提取得到所述样本文本的第一文本特征;
通过所述初始模型中的特征融合层,融合所述第一图像特征和所述第一文本特征,得到第一融合特征;
通过所述初始模型中的第一预测层,基于所述第一融合特征预测得到所述样本图像中的被掩码图像信息对应的重建图像信息。
5.根据权利要求1所述的模型训练方法,其特征在于,所述对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息对应的重建文本信息,包括:
对于各组所述训练样本中的第二训练样本,通过所述初始模型中的掩码层,对所述样本文本进行文本掩码,得到所述样本文本中的非掩码文本信息;
通过所述初始模型中的第一特征提取层,提取得到所述样本图像的第二图像特征;
通过所述初始模型中的第二特征提取层,提取得到所述非掩码文本信息的第二文本特征;
通过所述初始模型中的特征融合层,融合所述第二图像特征和所述第二文本特征,得到第二融合特征;
通过所述初始模型中的第二预测层,基于所述第二融合特征预测得到所述样本文本中的被掩码文本信息对应的重建文本信息。
6.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型,包括:
将所述第一相似度信息和所述第二相似度信息输入所述初始模型中预设的优化器,对所述初始模型的模型参数进行优化,输出优化后的模型参数,以及由所述优化后的模型参数构成的待调整模型;
对所述待调整模型进行微调,得到目标多模态模型。
7.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型之后,还包括:
响应于目标用户对社交网络中目标社交信息的触发指令,将所述目标社交信息中的目标图像输入所述目标多模态模型中的第一特征提取层,将所述目标社交信息中的目标文本输入所述目标多模态模型中的第二特征提取层,得到所述目标图像中的图像特征和所述目标文本中的文本特征;
将所述图像特征和所述文本特征输入所述目标多模态模型中的特征融合层,得到融合特征;
从预设的特征数据库中搜索得到与所述融合特征之间的相似度大于预设相似度阈值的相似特征;
将所述相似特征的来源信息设定为所述目标用户对应的推荐社交信息。
8.一种模型训练装置,其特征在于,包括:
获取单元,用于获取初始模型,以及预设的样本数据集,其中,所述样本数据集包括多组训练样本,每组所述训练样本均包括样本图像和用于描述所述样本图像的样本文本;
图像掩码重建单元,用于对于各组所述训练样本中的第一训练样本,基于所述样本文本和所述样本图像中的非掩码图像信息,对所述样本图像进行图像掩码重建,得到所述样本图像中的被掩码图像信息所对应的重建图像信息;
文本掩码重建单元,用于对于各组所述训练样本中除所述第一训练样本之外的第二训练样本,基于所述样本图像和所述样本文本中的非掩码文本信息,对所述样本文本进行文本掩码重建,得到所述样本文本中的被掩码文本信息所对应的重建文本信息;
训练单元,用于基于所述重建图像信息与所述被掩码图像信息之间的第一相似度信息,以及所述重建文本信息与所述被掩码文本信息之间的第二相似度信息,对所述初始模型进行训练,得到目标多模态模型。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器以及存储于所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的模型训练方法中的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的模型训练方法中的步骤。
CN202310246258.9A 2023-03-14 2023-03-14 模型训练方法、装置、电子设备及可读存储介质 Pending CN117726891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310246258.9A CN117726891A (zh) 2023-03-14 2023-03-14 模型训练方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310246258.9A CN117726891A (zh) 2023-03-14 2023-03-14 模型训练方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117726891A true CN117726891A (zh) 2024-03-19

Family

ID=90198493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310246258.9A Pending CN117726891A (zh) 2023-03-14 2023-03-14 模型训练方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117726891A (zh)

Similar Documents

Publication Publication Date Title
US11348249B2 (en) Training method for image semantic segmentation model and server
CN109783655B (zh) 一种跨模态检索方法、装置、计算机设备和存储介质
WO2021082743A1 (zh) 视频分类方法、装置及电子设备
CN108205655B (zh) 一种关键点预测方法、装置、电子设备及存储介质
WO2019084867A1 (zh) 自动回答方法、装置、存储介质及电子设备
WO2020253127A1 (zh) 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
WO2022001623A1 (zh) 基于人工智能的图像处理方法、装置、设备及存储介质
CN111522996B (zh) 视频片段的检索方法和装置
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN108664526B (zh) 检索的方法和设备
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN110008961B (zh) 文字实时识别方法、装置、计算机设备及存储介质
WO2020238353A1 (zh) 数据处理方法和装置、存储介质及电子装置
WO2023040506A1 (zh) 一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN110198482B (zh) 一种视频重点桥段标注方法、终端及存储介质
US20170116521A1 (en) Tag processing method and device
WO2015070798A1 (en) Image clustering method, image clustering system, and image clustering server
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN114926835A (zh) 文本生成、模型训练方法和装置
CN111984821A (zh) 确定视频动态封面的方法、装置、存储介质及电子设备
WO2021114634A1 (zh) 文本标注方法、设备及存储介质
CN109635303A (zh) 特定领域意义改变词的识别方法
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN113780365B (zh) 样本生成方法和装置
CN113472834A (zh) 一种对象推送方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination