CN115511104A - 用于训练对比学习模型的方法、装置、设备和介质 - Google Patents

用于训练对比学习模型的方法、装置、设备和介质 Download PDF

Info

Publication number
CN115511104A
CN115511104A CN202211351695.9A CN202211351695A CN115511104A CN 115511104 A CN115511104 A CN 115511104A CN 202211351695 A CN202211351695 A CN 202211351695A CN 115511104 A CN115511104 A CN 115511104A
Authority
CN
China
Prior art keywords
samples
data
sample
modality
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211351695.9A
Other languages
English (en)
Inventor
吴昊
周博言
崔权
杨成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202211351695.9A priority Critical patent/CN115511104A/zh
Publication of CN115511104A publication Critical patent/CN115511104A/zh
Priority to US18/496,769 priority patent/US20240144100A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

提供了用于训练对比学习模型的方法、装置、设备和介质。在一种方法中,获取用于训练对比学习模型的多个样本集,多个样本集包括第一样本集和第二样本集。按照预定规则,从第一样本集和第二样本集中选择第一目标样本集。按照预定义的批次大小,基于第一目标样本集确定第一组样本。利用第一组样本来训练对比学习模型。以此方式,一方面,可以避免由于样本集偏置导致的对比学习模型性能下降;另一方面,可以缓解训练过程中的遗忘问题。

Description

用于训练对比学习模型的方法、装置、设备和介质
技术领域
本公开的示例实施方式总体涉及机器学习,特别地涉及用于训练对比学习模型的方法、装置、设备和计算机可读存储介质。
背景技术
随着机器学习技术的发展,已经可以利用机器学习模型来执行多种应用环境中的任务。为了提高模型的性能,已经提出了利用多个批次的训练样本来迭代地训练模型的技术方案。出于多种原因,难以一次获取包括大量训练样本的样本集,并且通常训练样本会来自不同的样本集。由于样本集之间偏置(bias)并且由于样本集的使用顺序的不同,机器学习模型通常不能充分学习到各个样本集中的训练样本所包含的语义知识。此时,如何以更为有效的方式利用多个样本集来训练机器学习模型,成为一个亟待解决的问题。
发明内容
在本公开的第一方面,提供了一种用于训练对比学习模型的方法。在该方法中,获取用于训练对比学习模型的多个样本集,多个样本集包括第一样本集和第二样本集。按照预定规则,从第一样本集和第二样本集中选择第一目标样本集。按照预定义的批次大小,基于第一目标样本集确定第一组样本。利用第一组样本来训练对比学习模型。
在本公开的第二方面,提供了一种用于训练对比学习模型的装置。该装置包括:获取模块,被配置用于获取用于训练对比学习模型的多个样本集,多个样本集包括第一样本集和第二样本集;选择模块,被配置用于从第一样本集和第二样本集中选择第一目标样本集;确定模块,被配置用于按照预定义的批次大小,基于第一目标样本集确定第一组样本;以及训练模块,被配置用于利用第一组样本来训练对比学习模型。
在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,计算机程序被处理器执行时实现第一方面的方法。
在本公开的第五方面,提供了一种用于数据处理的方法,包括:使用根据第一方面方法来训练对比学习模型;以及利用训练的对比学习模型来确定待处理样本中的数据之间的关联关系。
在本公开的第六方面,提供了一种用于数据处理的装置,包括:训练模块,被配置用于使用根据第二方面的装置来训练对比学习模型;以及确定模块,被配置用于利用训练的对比学习模型来确定待处理样本中的数据之间的关联关系。
应当理解,本内容部分中所描述的内容并非旨在限定本公开的实施方式的关键特征或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施方式的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了能够在其中实现本公开的实施方式的示例环境的示意图;
图2示出了根据本公开的一些实施方式的利用多个样本集来训练对比学习模型的过程的框图;
图3示出了根据本公开的一些实施方式的用于训练对比学习模型的过程的框图;
图4示出了根据本公开的一些实施方式的对比学习模型的结构的框图;
图5示出了根据本公开的一些实施方式的用于从多个样本集中选择目标样本集的过程的框图;
图6示出了根据本公开的一些实施方式的一个样本集中的训练样本的框图;
图7示出了根据本公开的一些实施方式的用于生成负样本的过程的框图;
图8示出了根据本公开的一些实施方式的另一样本集中的训练样本的框图;
图9示出了根据本公开的一些实施方式的特征分布的比较的框图;
图10示出了根据本公开的一些实施方式的损失函数的梯度指标的比较的框图;
图11示出了根据本公开的一些实施方式的用于训练对比学习模型的方法的流程图;
图12示出了根据本公开的一些实现方式的用于训练对比学习模型的装置的框图;以及
图13示出了其中可以实施本公开的一个或多个实施方式的电子设备。
具体实施方式
下面将参照附图更详细地描述本公开的实现方式。虽然附图中示出了本公开的某些实现方式,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实现方式,相反,提供这些实现方式是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实现方式仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实现方式的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“一些实现方式”应当理解为“至少一些实现方式”。下文还可能包括其他明确的和隐含的定义。如本文中所使用的,术语“模型”可以表示各个数据之间的关联关系。例如,可以基于目前已知的和/或将在未来开发的多种技术方案来获取上述关联关系。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限制性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式,例如可以是弹出窗口的方式,弹出窗口中可以以文字的方式呈现提示信息。此外,弹出窗口中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其他满足相关法律法规的方式也可应用于本公开的实现方式中。
在此使用的术语“响应于”表示相应的事件发生或者条件得以满足的状态。将会理解,响应于该事件或者条件而被执行的后续动作的执行时机,与该事件发生或者条件成立的时间,二者之间未必是强关联的。例如,在某些情况下,后续动作可在事件发生或者条件成立时立即被执行;而在另一些情况下,后续动作可在事件发生或者条件成立后经过一段时间才被执行。
示例环境
图1示出了本公开的实现方式能够在其中实现的示例环境100的框图。在图1的环境100中,期望训练和使用这样的机器学习模型(即,模型130),该模型被配置用于多种应用环境,例如,用于识别图像内容,等等。如图1所示,环境100包括模型训练***150和模型应用***152。图1上部示出了模型训练阶段的过程,并且下部示出模型应用阶段的过程。在训练前,模型130的参数值可以具有初始值,或者可以具有通过预训练过程获得经预训练的参数值。可以经由正向传播和反向传播来训练该模型130,在训练过程中模型130的参数值可以被更新和调整。在训练完成后可以获得模型130’。此时,模型130’的参数值已经被更新,并且基于已更新的参数值,模型130在模型应用阶段可以被用于实现预测任务。
在模型训练阶段,可以基于包括多个样本112的训练样本集110,并利用模型训练***150来训练模型130。在此,每个样本112可以涉及二元组格式,并且包括数据120和有关待处理任务的标签122。此时,可以利用包括数据120和标签122的样本112来训练模型130。具体地,可以利用大量训练样本迭代地执行训练过程。在训练完成之后,模型130可以包括有关待处理任务的知识。在模型应用阶段,可以利用模型应用***152来调用模型130’(此时的模型130’具有训练后的参数值)。例如,可以接收输入数据140(包括将被处理的数据142),并且输出相应的待处理任务的答案(也即标签144)。
在图1中,模型训练***150和模型应用***152可以包括具有计算能力的任何计算***,例如各种计算设备/***、终端设备、服务器等。终端设备可以涉及任意类型的移动终端、固定终端或便携式终端,包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。服务器包括但不限于大型机、边缘计算节点、云环境中的计算设备,等等。
应当理解,图1示出的环境100中的部件和布置仅仅是示例,适于用于实现本公开所描述的示例性实现方式的计算***可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如,虽然被示出为是分离的,但模型训练***150和模型应用***152可以集成在相同***或设备中。本公开的实现方式在此方面不受限制。以下将继续参考附图,分别描述模型训练和模型应用的示例性实现方式。
将会理解,出于多种原因难以一次性获取包括足够训练样本的样本集110。此外,从更多数据源引入训练样本可以显著提升模型130的性能,因而在实际应用过程中通常会引入多个样本集。目前已经提出了利用多个样本集中的训练样本来执行训练的技术方案,例如,可以基于随机采样过程或者顺序采样过程来执行训练。参见图2描述有关训练过程的更多细节,该图2示出了根据本公开的一些实施方式的利用多个样本集来训练对比学习模型的过程的框图200。
在图2中,可以存在多个样本集110、210、以及220等。此时,每个样本集可以包括从不同数据源获取的训练样本。具体地,可以以不同的形状来表示不同样本集中的样本,例如,以方框示出样本集110中的样本,以三角示出样本集210中的样本,并且以圆形示出样本集220中的样本。可以按照预定的批次大小(例如,n=1024或者其他数值)来确定每个批次中的样本。
在随机采样过程230中,可以分别从三个样本集110、210和220中随机地选择n个样本,可以在多个批次中迭代地训练模型130以便获得训练后的模型130’。尽管随机采样过程230可以适合于常规模型,然而在对比学习场景中将会存在样本集偏置的问题。具体而言,对比学习中负样本的质量决定了模型中的编码器的性能,样本集偏置导致负样本过于简单并且使得模型容易区别正负样本,从而导致训练不充分进而导致较差的编码器性能。
在顺序采样过程240中,可以按顺序分别从每个样本集中选择训练样本。也即,首先使用样本集110中的样本执行训练,再使用样本集210中的样本执行训练,继而使用样本集220中的样本执行训练。此时,下游模型的效果取决于较后使用的样本集。也即最后使用的样本集与下游测试集的数据分布越接近,则效果越好。造成这个现象的原因是,早期的训练样本将会随着时间流逝而被逐渐“遗忘”,并且被后期使用的样本集的相关梯度所覆盖。此时,期望能够以更为有效的方式来训练对比学习模型。
训练对比学习模型的概要过程
为了至少部分地解决上文描述的缺陷,提出了一种基于无偏置采样过程的训练方法,以便基于多个样本集来训练对比学习模型。参见图3描述根据本公开的一个示例性实现方式的概要,该图3示出了根据本公开的一些实施方式的用于训练对比学习模型的过程的框图300。如图3所示,可以获取用于训练对比学习模型的多个样本集110、210和220。将会理解,尽管图3示出了3个样本集的具体示例,在本公开的上下文中,多个样本集至少包括两个不同的样本集,也即第一样本集和第二样本集。
基于批次的训练过程中,可以按照预定规则(例如,随机、轮询、或者按照各个样本集中的样本数量),从多个样本集中选择一个目标样本集。继而,可以按照预定义的批次大小,从目标样本集中确定在该批次中将要使用的训练样本。具体地,在所提出的无偏置采样过程310中,如标记320所示,在第一个批次(批次330)中可以将样本集110作为目标样本集,可以从样本集110中选择批次330中的n个训练样本。如标记322所示,在第二个批次(批次332)中可以将样本集210作为目标样本集,可以从样本集210中选择批次332中的n个训练样本。如标记324所示,在第三个批次(批次334)中可以将样本集220作为目标样本集,可以从样本集220中选择批次334中的n个训练样本。
可以在多个批次中分别利用多个批次的训练样本执行训练过程。进一步,可以不断地重复上文描述的过程,并且在模型达到收敛和/或各个样本集中的全部数据已经被用于训练时,结束训练过程。
利用本公开的示例性实现方式,由于每个批次中的训练样本是来自相同的样本集,此时在各个批次的训练过程中不存在样本集偏置的问题。因而在每个批次的训练过程都可以充分获取训练样本中的语义知识。进一步,由于在每个批次中以独立方式选择目标样本集,这使得在各个批次中选择的目标样本集将会有所差异,并且各个样本集中的数据将会交替充当训练样本。以此方式,可以避免顺序采样技术方案中的遗忘问题。
训练对比学习模型的详细过程
上文已经提供了训练对比学习模型的概要过程,在下文中将提供有关训练过程的更多详细信息。根据本公开的一个示例性实现方式,各个样本集中的样本可以包括不同模态的数据。具体地,每个样本可以包括第一模态(例如,图像)的数据、第二模态(例如,文本)的数据、以及表示第一模态的数据与第二模态的数据之间的关联关系的标签。
在本公开的上下文中,将以用于处理图像和文本之间的关联关系的机器学习模型作为对比学习模型的示例,描述训练过程的更多信息。在此的对比学习模型可以描述图像和文本的内容是否相一致。例如,如果图像和文本都涉及“马吃草”,则图像和文本的内容相一致。如果图像涉及马吃草但文本涉及“牛吃草”,则图像和文本的内容不一致。参见图4描述对比学习模型的结构,该图4示出了根据本公开的一些实施方式的对比学习模型410的结构的框图400。
如图4所示,对比学习模型410可以包括第一模态的编码器420和第二模态的编码器422。具体地,编码器420可以描述图像数据与图像数据的特征之间的关联关系,并且编码器422可以描述文本数据与文本数据的特征之间的关联关系。
编码器420可以处理输入的图像格式的数据412,并且输出相应的特征432,编码器422可以处理输入的文本格式的数据422,并且输出相应的特征434。可以基于两个特征432和434之间的差异来确定相似度430,并且确定相应的对比损失440。进一步,在训练过程中可以基于对比损失440来不断地更新对比学习模型410。
在此,编码器420和422可以具有初始参数和/或可以具有预训练的部分优化的参数。可以在训练对比学习模型410的过程中不断地优化编码器420和422,以便使得对比学习模型410可以识别输入的图像和文本之间的相似性。以此方式,可以在多个阶段中不断利用各个批次中的训练样本执行优化,进而提高对比学习模型410的性能。
根据本公开的一个示例性实现方式,可以基于预定规则来选择目标样本集。在此预定规则可以包括以下任一项:随机选择规则、轮询选择规则、基于样本数量的选择规则。随机选择规则可以指定,在每个批次中随机地从多个样本集中选择一个样本集。由于各个批次中的样本集是随机选择的,可以避免出现顺序采样过程中的遗忘问题。备选地和/或附加地,轮询选择规则可以指定按顺序来逐一选择每个样本集。以此方式,前后两次选择的样本集是不同的,同样可以避免出现顺序采样过程中的遗忘问题。
根据本公开的一个示例性实现方式,为了避免不能充分使用各个样本集中的样本的问题,可以使用基于样本数量的选择规则。具体地,可以分别获取用于训练对比学习模型410的多个样本集110、210和220(例如,分别表示为D1、D2和D3)。进一步可以从多个样本集中选择用于当前批次的目标样本集。图5示出了根据本公开的一些实施方式的用于从多个样本集中选择目标样本集的过程的框图500。如图5所示,可以分别确定各个样本集中的训练样本的数量,例如,可以确定样本集110的样本数量510、样本集210的样本数量512、以及样本集220的样本数量514。
具体地,三个样本集的样本数量510、512和514可以分别表示为|D1|、|D2|、|D3|,可以基于上述数量来确定各个样本集的权重。例如,可以基于如下公式1来确定权重:
Figure BDA0003919088340000101
在公式1中,wi表示第i个数据集的权重,|Di|表示第i个数据集的样本数量,并且M表示多个样本集的总数。可以利用公式1,来分别确定各个样本集的权重520、522和524。换言之,可以基于各个样本集中的样本数量占总样本的比例来确定相应的权重,进而将确定权重的过程转换为简单的数学运算。
进一步,可以利用确定的权重来选择目标样本集。具体地,可以预先定义分布函数530,并且可以向该分布函数530输入确定的权重520、522和524,进而确定在当前批次中的目标样本集540。根据本公开的一个示例性实现方式,可以基于多项式分布函数来确定目标样本集540的索引。例如,可以基于如下公式2来确定目标样本集540的索引:
γ=f(w1,w2,...,wM) 公式2
在公式2中,γ表示在当前批次中的将被选择的目标样本集的索引,f()表示多项式分布函数,w1,w2,...,wM分别表示各个样本集的权重。将会理解,公式2中的各个符号与上文描述的公式1中的各个符号具有相同的含义,因而不再赘述。根据本公开的一个示例性实现方式,可以基于概率分布的方式来定义f()。假设各个样本集的权重分别为20%、40%和40%,则在每个批次中,可以以20%、40%和40%的概率来选择样本集110、210和220。利用本公开的示例性实现方式,可以基于简单并且有效的方式来选择目标样本集,并且可以确保充分利用各个样本集中的训练样本。
根据本公开的一个示例性实现方式,在已经确定每个批次的目标样本集540的情况下,可以从目标样本集540中确定用作当前批次训练的各个样本。图6示出了根据本公开的一些实施方式的一个样本集(例如,样本集110)中的训练样本的框图600。如图6所示,可以存在多个训练样本610、…、以及620。训练样本610可以包括图像612(也即,第一模态的数据)和文本614(也即,第二模态的数据)、以及表示第一模态的数据与第二模态的数据之间的关联关系的标签616。由于图像612与文本614的内容相一致,(均涉及“马吃草”),此时标签616为“真”。
进一步,训练样本620可以包括图像622、文本624以及描述图像622和文本624之间的内容一致性的标签626。由于图像622和文本624的内容相一致(均涉及“牛吃草”),此时标签626也为“真”。在本公开的上下文中,可以将标签为真的训练样本称为正样本。尽管图6仅示出了正样本,还可以存在负样本。例如,假设某个样本包括图像612并且包括文本624,则图像和文本的内容不一致。该训练样本的标签为“假”,并且可以将该训练样本称为负样本。
将会理解,尽管上文描述了第一模态为图像并且第二模态为文本的示例,备选地和/或附加地,第一模态和第二模态可以交换。备选地和/或附加地,第一模态和第二模态还可以涉及相同的数据格式,例如,在图像处理(例如,裁切、翻转等)环境下,两个模态可以都涉及图像。根据本公开的一个示例性实现方式,第一模态和第二模态还可以涉及其他格式,包括但不限于图像、文本、视频、音频,等等。
根据本公开的一个示例性实现方式,假设在第一批次中的目标样本集540为样本集110,可以从样本集110中选择正样本,并且将该正样本添加至用于执行第一批次的训练过程第一组样本中。在初始阶段,第一组样本可以为空,并且可以选择样本610并将其添加至第一组样本。此时,第一组样本包括样本610。
将会理解,在对比学习中提供更多的负样本数据有助于对比学习模型410获得更多知识。由此,可以基于获得的正样本来构造更多的负样本,以便提高训练过程的效率。根据本公开的一个示例性实现方式,可以基于正样本中的图像数据和样本集110中的其他文本数据来生成负样本。参见图7描述有关选择样本的更多细节,该图7示出了根据本公开的一些实施方式的用于生成负样本的过程的框图700。
如图7所示,可以确定图像数据所在的图像空间710,该图像空间710可以包括来自样本集110中的各个图像,例如,图像612、…、以及图像622。进一步,可以确定文本数据所在的文本空间720,该文本空间720可以包括来自样本集110中的各个文本,例如,文本614、…、以及图像624。根据本公开的一个示例性实现方式,可以将图像空间710中的图像与文本空间720中的文本组合成,并且基于图像和文本的内容一致性来确定相应的标签。
具体地,可以将第一模态的数据(例如,图像空间710中的图像612)分别与第二模态中的数据(例如,文本空间720中的文本614、…、以及624进行组合,以便生成正样本或者负样本。如图7中的箭头730所示,可以组合图像612与文本614,此时标签为“真”,并且生成正样本。根据本公开的一个示例性实现方式,当将图像612与文本614以外的其他文本组合时,可以生成负样本。如箭头732所示,可以组合图像612与文本624,此时标签为“假”,并且生成负样本。
将会理解,尽管上文描述针对给定图像412来生成相应的正样本和负样本的过程,备选地和/或附加地,第一模态和第二模态可以交换。换言之,可以指定某个文本(例如,文本614),并且将该文本614分别与图像空间710中的各个图像进行组合,以便生成相应的正样本和负样本。
假设图像空间710包括u个图像、并且文本空间720包括v个文本,则针对u个图像中的每个图像,可以确定1个正样本和v-1个负样本。进一步,可以将全部v个样本作为第一批次的训练样本,以便用于训练对比学习模型410。以此方式,可以大大提高每个批次中的训练样本的数量,进而提高对比学习模型410的准确性。
根据本公开的一个示例性实现方式,在每个批次中可以基于目前已知的和/或将在未来开发的多种方式来训练对比学习模型410。首先描述处理正样本的过程,可以利用对比学习模型410中的编码器420和422来分别确定正样本中的图像数据的图像特征和文本数据的文本特征。进一步,可以基于图像特征和文本特征之间的差异确定对比学习模型410的损失函数。将会理解,在对比学习中期望拉近正样本中的两个数据的相关特征的距离,因而可以朝向使得损失函数减小的方向更新对比学习模型410中的各个参数。以此方式,可以朝向更加有助于识别图像和文本之间的相似性的方式来训练对比学习模型。
根据本公开的一个示例性实现方式,可以基于类似方式来处理负样本。具体地,可以利用对比学习模型410中的编码器420和422来分别确定负样本中的图像数据的图像特征和文本数据的文本特征。进一步,可以基于图像特征和文本特征之间的差异确定对比学习模型410的损失函数。将会理解,在对比学习中期望推远负样本中的两个数据的相关特征的距离,因而可以朝向使得损失函数增大的方向更新对比学习模型中的各个参数。以此方式,可以朝向更加有助于区分图像和文本之间的差异方式来训练对比学习模型。
上文已经描述了单一批次的训练过程,根据本公开的一个示例性实现方式,可以基于类似方式来执行其他批次的训练过程。返回图3,在第一个批次330的训练过程之后,可以基于上文描述的公式1和公式2来确定第二个批次332的目标样本集。假设确定样本集220将作为批次332的目标样本集,则可以利用样本集220来确定相应的正样本和负样本,进而执行第二批次的训练过程。
根据本公开的一个示例性实现方式,在各个批次中选择目标样本集的过程可以是独立的,并且前后两个批次的目标样本集可以不同。例如,可以独立地执行上文描述的预定规则,并且独立地选择用于每个批次的目标样本集。换言之,在后续批次中选择的目标样本集与在先批次中选择的目标样本集无关。这不同于顺序采样过程中的逐个选择样本集、并且在用尽当前样本集中的训练样本之后再选择下一样本集的过程。
图8示出了根据本公开的一些实施方式的另一样本集中的训练样本的框图800。假设样本集220包括样本810、…、以及820,可以从该从样本集220中选择正样本,并且从样本集220中的文本空间中选择不同于正样本中的文本数据的其他文本数据,以便创建多个负样本。进一步,可以基于选择的正样本和创建的多个负样本来训练对比学习模型410。
如图8所示,样本810可以包括图像812、文本814以及标签816,…,样本820可以包括图像822、文本824以及标签826。此时,可以组合图像812和文本814来作为正样本,并且可以组合图像812和文本824等来作为负样本。以此方式,可以在后续批次中不断地利用各个样本集中的正样本来创建相应的负样本,并且利用正样本和负样本来训练对比学习模型。
将会理解,在每个批次的训练过程中,可以标记各个样本集中的已经被使用的正样本,并且在后续使用某个样本集时,不再选择已经使用的正样本。例如,假设在第一批次中已经使用了样本集110中的样本610,则在后续从样本集110中选择正样本时,可以从样本610以外的其他样本中选择正样本。例如,可以选择样本集110中的样本620来作为正样本。以此方式,可以避免出现训练样本重复的情况,进而以更为充分的方式利用各个样本集中的全部训练样本。
将会理解,样本集的偏置对于下游模型有害,并且甚至可能对于对比学习模型本身的语义有害。为了解决样本集偏差问题,通过指定每个批次的训练样本应当来自于单一的样本集,这排除了样本集偏置的影响,并且使得对比学习模型在每个批次的训练过程中更加关注单一样本集内的有用语义知识,而不是样本集偏置。
利用本公开的示例性实现方式,可以克服多个样本集的之间偏置问题,进而提高对比学习模型410的性能。将会理解,样本集之间的偏置可能会导致各个样本的特征分布出现偏置,进而使得特征不能准确地区分各个样本。在下文中,将在多个公开的样本集上验证所提出的训练方法的性能。例如,可以选择视觉基因组(Visual Genome,缩写VG)样本集、SBU样本集、CC3M样本集、CC12M样本集来作为本公开中的多个样本集。由于各个样本集之间的样本偏置,基于常规的随机采样过程训练获得的特征分布并不均匀。
图9示出了根据本公开的一些实施方式的特征分布的比较的框图900。在图9中,图例910表示VG中的样本的特征,图例912表示SBU中的样本的特征,图例910表示CC3M中的样本的特征,并且图例916表示CC12M中的样本的特征。具体地,分布920表示基于随机采样过程训练所得的对比学习模型输出的图像特征的分布。将会理解,在此特征空间可以以高维(例如,64个维度或者其他维度)向量表示,并且图9示出了将高维特征空间映射至二维空间中的可视化表示。
从分布920中可见,VG样本的特征主要分布于二维空间的左上角,SBU样本的特征主要分布于二维空间的左下角,CC3M样本的特征主要分布于二维空间的右上角,并且CC12M样本的特征主要分布于二维空间的右下角。可见,来自各个样本集的样本的特征的分布并不均匀。换言之,利用常规随机采样过程训练所得的对比学习模型并未充分学习到各个样本集中的知识,这导致不能充分利用特征空间中各个维度,进而使得对比学习模型的准确性和性能较低。类似地,分布930表示基于随机采样过程训练所得的对比学习模型输出的文本特征的分布。在分布930中可见,来自各个样本集的文本的特征分布也并不均匀。
图9下部示出了根据本公开的无偏置采样过程训练所得的对比学习模型输出的特征的分布。具体地,分布940表示根据本公开的一个示例性实现方式的对比学习模型410输出的图像特征的分布,并且分布950表示根据本公开的一个示例性实现方式的对比学习模型410输出的文本特征的分布。通过比较可知,相对于分布920和930而言,根据本公开的一个示例性实现方式的分布940和950的特征分布更为均匀。换言之,利用无偏置采样过程310训练获得对比学习模型410可以充分学习各个样本集的知识,并且能够更为充分地利用特征空间中各个维度,来提高对比学习模型的准确性和性能。
进一步,样本集偏置将会影响对比学习中的损失函数(例如,基于InfoNCE方法确定)的优化性能。基于损失函数的定义可知,损失函数相关的梯度指标受到多个样本数据之间的相似性的影响,并且对比学习过程中负样本的贡献将会由于样本集偏置而弱化。相对于随机采样过程而言,在所提出的无偏置采样过程310中,可以提高各个批次中的负样本的数量,进而获得更为有益的有效梯度。
图10示出了根据本公开的一些实施方式的损失函数的梯度的比较的框图1000。如图10所示,图例1050示出了根据本公开的无偏置采样过程的梯度指标,并且图例1052示出了根据随机采样过程的梯度指标。进一步,分布1010示出了VG样本集上的梯度指标,在此纵坐标表示梯度指标(较大数值表示负样本的较大梯度贡献),横坐标表示样本数量。从分布1010可见,利用本公开的无偏置采样过程可以获得更优的梯度贡献。
类似地,分布1020、1030和1040分别示出了在SBU样本集、CC3M样本集和CC12M样本集上的实验结果。从图10可见,利用本公开的示例性实现方式,可以在多个样本集上获得更优的梯度指标。以此方式,可以以更为有效的方式来训练对比学习模型,进而提高对比学习模型的准确性。
将会理解,尽管上文以图像数据和文本数据作为多模态数据的示例描述了训练对比学习模型的过程。备选地和/或附加地,在此的模态可以包括但不限于图像、文本、视频、音频,等等。例如,一个对比学习模型可以描述图像与音频之间的内容一致性,另一对比学习模型可以描述视频与文本之间的内容一致性,等等。以此方式,可以在多种应用环境下应用对比学习技术来获得泛化的对比学习模型410,进而有助于提高下游模型的准确性。
利用本公开的示例性实现方式,由于各个样本集在整个训练过程中会被均匀地使用,因而避免了顺序采样过程中的遗忘问题。另一方面,由于在每个批次中的训练样本都是来自相同样本集,这可以解决随机采样过程中的样本集集偏置的问题。以此方式,可以使得对比学习模型更加关于各个样本集中的样本的语义信息,进而学习到更为丰富的语义知识。
上文已经描述了训练过程的具体细节,备选地和/或附加地,可以利用上文描述的过程来训练对比学习模型,继而使用训练后的对比学习模型处理样本数据。例如,可以向训练后的对比学习模型输入待处理样本数据,此时该训练后的对比学习模型可以基于在训练阶段获取的准确的知识来确定待处理样本中的数据之间的关联关系。例如,当待处理样本涉及两个模态(例如,文本和图像)的情况,训练后的对比学习模型可以确定两个模态之间是否一致。
示例过程
上文已经描述了确定对比学习模型的更新梯度的具体过程。在下文中,参见图11描述相应的方法。图11示出了根据本公开的一些实施方式的用于训练对比学习模型的方法1100的流程图。在框1110处,获取用于训练对比学习模型的多个样本集,多个样本集包括第一样本集和第二样本集。在框1120处,按照预定规则,从第一样本集和第二样本集中选择第一目标样本集。在框1130处,按照预定义的批次大小,基于第一目标样本集确定第一组样本。在框1140处,利用第一组样本来训练对比学习模型。
根据本公开的一个示例性实现方式,预定规则包括以下任一项:随机选择规则、轮询选择规则、基于样本数量的选择规则。
根据本公开的一个示例性实现方式,按照基于样本数量的选择规则来选择目标样本集包括:分别基于第一样本集的第一样本数量和第二样本集的第二样本数量,确定第一样本集的第一权重和第二样本集的第二权重;以及基于第一权重和第二权重,选择目标样本集。
根据本公开的一个示例性实现方式,基于第一权重和第二权重,选择目标样本集包括:基于与第一权重和第二权重相关联的分布函数,从第一样本集和第二样本集中选择目标样本集。
根据本公开的一个示例性实现方式,第一样本集和第二样本集中的样本包括第一模态的数据、第二模态的数据、以及表示第一模态的数据与第二模态的数据之间的关联关系的标签。
根据本公开的一个示例性实现方式,从第一目标样本集中确定第一组样本包括:从第一目标样本集中选择正样本,正样本中的标签指示正样本中的第一模态的数据和第二模态的数据之间具有关联关系;以及基于正样本中的第一模态的数据和第一目标样本集中的第二模态的数据来生成负样本;以及基于正样本和负样本来生成第一组样本。
根据本公开的一个示例性实现方式,生成负样本包括:从第一目标样本集中的第二模态的数据空间中选择第二模态的另一数据;以及基于正样本中的第一模态的数据和第二模态的另一数据,生成负样本,负样本中的标签指示负样本中的第一模态的数据和第二模态的另一数据之间不具有关联关系。
根据本公开的一个示例性实现方式,训练对比学习模型包括:针对第一组样本中的正样本,利用对比学习模型来分别确定正样本中的第一模态的数据的第一特征和第二模态的数据的第二特征;基于第一特征和第二特征之间的差异确定对比学习模型的损失函数;以及朝向使得损失函数减小的方向更新对比学习模型。
根据本公开的一个示例性实现方式,确定第一特征和第二特征包括:分别利用对比学习模型中的第一编码器和第二编码器来确定第一特征和第二特征,第一编码器描述第一模态的数据与第一模态的数据的特征之间的关联关系,以及第二编码器描述第二模态的数据与第二模态的数据的特征之间的关联关系。
根据本公开的一个示例性实现方式,训练对比学习模型包括:针对第一组样本中的负样本,利用对比学习模型来分别确定负样本中的第一模态的数据的第一特征和第二模态的数据的第二特征;基于第一特征和第二特征之间的差异确定对比学习模型的损失函数;以及朝向使得损失函数增大的方向更新对比学习模型。
根据本公开的一个示例性实现方式,第一模态包括以下多个模态中的任一项:图像、文本、视频、音频,以及第二模态包括多个模态中的另一项。
根据本公开的一个示例性实现方式,该方法1100进一步包括:从第一样本集和第二样本集中选择第二目标样本集;按照预定义的批次大小,基于第二目标样本集确定第二组样本;以及利用第二组样本来训练对比学习模型。
根据本公开的一个示例性实现方式,确定第二组样本包括:从第二组样本中的未被使用的正样本中选择正样本;基于正样本和第二目标样本集的第二模态的数据来生成负样本;以及基于正样本和负样本来确定第二组样本。
根据本公开的一个示例性实现方式,选择第一目标样本集独立于选择第二目标样本集,并且第一目标样本集不同于所述第二目标样本集。
根据本公开的一个示例性实现方式,提供了一种用于数据处理的方法,包括:使用上文描述的方法1100来训练对比学习模型;以及利用训练的对比学习模型来确定待处理样本中的数据之间的关联关系。
示例装置和设备
图12示出了根据本公开的一些实现方式的用于训练对比学习模型的装置1200的框图。该装置1200包括:获取模块1210,被配置用于获取用于训练对比学习模型的多个样本集,多个样本集包括第一样本集和第二样本集;选择模块1220,被配置用于从第一样本集和第二样本集中选择第一目标样本集;以及确定模块1230,被配置用于按照预定义的批次大小,基于第一目标样本集确定第一组样本;以及训练模块1240,被配置用于利用第一组样本来训练对比学习模型。
根据本公开的一个示例性实现方式,预定规则包括以下任一项:随机选择规则、轮询选择规则、基于样本数量的选择规则。
根据本公开的一个示例性实现方式,选择模块1220包括:权重确定模块,被配置用于分别基于第一样本集的第一样本数量和第二样本集的第二样本数量,确定第一样本集的第一权重和第二样本集的第二权重;以及目标选择模块,被配置用于基于第一权重和第二权重,选择目标样本集。
根据本公开的一个示例性实现方式,目标选择模块包括:基于分布的选择模块,被配置用于基于与第一权重和第二权重相关联的分布函数,从第一样本集和第二样本集中选择目标样本集。
根据本公开的一个示例性实现方式,第一样本集和第二样本集中的样本包括第一模态的数据、第二模态的数据、以及表示第一模态的数据与第二模态的数据之间的关联关系的标签。
根据本公开的一个示例性实现方式,确定模块1230包括:正样本选择模块,被配置用于从第一目标样本集中选择正样本,正样本中的标签指示正样本中的第一模态的数据和第二模态的数据之间具有关联关系;负样本生成模块,被配置用于基于正样本中的第一模态的数据和第一目标样本集中的第二模态的数据来生成负样本;以及生成模块,被配置用于基于正样本和负样本来生成第一组样本。
根据本公开的一个示例性实现方式,负样本生成模块包括:数据选择模块,被配置用于从第一目标样本集中的第二模态的数据空间中选择第二模态的另一数据;以及组合模块,被配置用于基于正样本中的第一模态的数据和第二模态的另一数据,生成负样本,负样本中的标签指示负样本中的第一模态的数据和第二模态的另一数据之间不具有关联关系。
根据本公开的一个示例性实现方式,训练模块1240包括:特征确定模块,被配置用于针对第一组样本中的正样本,利用对比学习模型来分别确定正样本中的第一模态的数据的第一特征和第二模态的数据的第二特征;损失确定模块,被配置用于基于第一特征和第二特征之间的差异确定对比学习模型的损失函数;以及更新模块,被配置用于朝向使得损失函数减小的方向更新对比学习模型。
根据本公开的一个示例性实现方式,特征确定模块包括:编码器模块,被配置用于分别利用对比学习模型中的第一编码器和第二编码器来确定第一特征和第二特征,第一编码器描述第一模态的数据与第一模态的数据的特征之间的关联关系,以及第二编码器描述第二模态的数据与第二模态的数据的特征之间的关联关系。
根据本公开的一个示例性实现方式,特征确定模块进一步被配置用于针对第一组样本中的负样本,利用对比学习模型来分别确定负样本中的第一模态的数据的第一特征和第二模态的数据的第二特征;损失确定模块进一步被配置用于基于第一特征和第二特征之间的差异确定对比学习模型的损失函数;以及更新模块进一步被配置用于朝向使得损失函数增大的方向更新对比学习模型。
根据本公开的一个示例性实现方式,第一模态包括以下多个模态中的任一项:图像、文本、视频、音频,以及第二模态包括多个模态中的另一项。
根据本公开的一个示例性实现方式,选择模块1220进一步被配置用于从第一样本集和第二样本集中选择第二目标样本集;确定模块进一步被配置用于按照预定义的批次大小,基于第二目标样本集确定第二组样本;以及训练模块进一步被配置用于利用第二组样本来训练对比学习模型。
根据本公开的一个示例性实现方式,正样本选择模块进一步被配置用于从第二组样本中的未被使用的正样本中选择正样本;负样本生成模块进一步被配置用于基于正样本和第二目标样本集的第二模态的数据来生成负样本;以及组合模块进一步被配置用于基于正样本和负样本来确定第二组样本。
根据本公开的一个示例性实现方式,选择模块1220进一步被配置用于以独立方式选择第一目标样本集和第二目标样本集,并且第一目标样本集不同于所述第二目标样本集。
根据本公开的一个示例性实现方式,提供了一种用于数据处理的装置,包括:训练模块,被配置用于使用上文描述的装置1200来训练对比学习模型;以及确定模块,被配置用于利用训练的对比学习模型来确定待处理样本中的数据之间的关联关系。
图13示出了其中可以实施本公开的一个或多个实施方式的电子设备1300的框图。应当理解,图13所示出的电子设备1300仅仅是示例性的,而不应当构成对本文所描述的实施方式的功能和范围的任何限制。
如图13所示,电子设备1300是通用计算设备的形式。电子设备1300的组件可以包括但不限于一个或多个处理器或处理单元1310、存储器1320、存储设备1330、一个或多个通信单元1340、一个或多个输入设备1350以及一个或多个输出设备1360。处理单元1310可以是实际或虚拟处理器并且能够根据存储器1320中存储的程序来执行各种处理。在多处理器***中,多个处理单元并行执行计算机可执行指令,以提高电子设备1300的并行处理能力。
电子设备1300通常包括多个计算机存储介质。这样的介质可以是电子设备1300可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1320可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备1330可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练样本)并且可以在电子设备1300内被访问。
电子设备1300可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图13中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器1320可以包括计算机程序产品1325,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施方式的各种方法或动作。
通信单元1340实现通过通信介质与其他电子设备进行通信。附加地,电子设备1300的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,电子设备1300可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备1350可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备1360可以是一个或多个输出设备,例如显示器、扬声器、打印机等。电子设备1300还可以根据需要通过通信单元1340与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与电子设备1300交互的设备进行通信,或者与使得电子设备1300与一个或多个其他电子设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims (19)

1.一种用于训练对比学习模型的方法,包括:
获取用于训练所述对比学习模型的多个样本集,所述多个样本集包括第一样本集和第二样本集;
按照预定规则,从所述第一样本集和所述第二样本集中选择第一目标样本集;
按照预定义的批次大小,基于所述第一目标样本集确定第一组样本;以及
利用所述第一组样本来训练所述对比学习模型。
2.根据权利要求1的所述方法,其中所述预定规则包括以下任一项:随机选择规则、轮询选择规则、基于样本数量的选择规则。
3.根据权利要求1的所述方法,其中按照基于样本数量的选择规则来选择所述目标样本集包括:
分别基于所述第一样本集的第一样本数量和所述第二样本集的第二样本数量,确定所述第一样本集的第一权重和所述第二样本集的第二权重;以及
基于所述第一权重和所述第二权重,选择所述目标样本集。
4.根据权利要求3的所述方法,其中基于所述第一权重和所述第二权重,选择所述目标样本集包括:基于与所述第一权重和第二权重相关联的分布函数,从所述第一样本集和所述第二样本集中选择目标样本集。
5.根据权利要求1的所述方法,其中所述第一样本集和所述第二样本集中的样本包括第一模态的数据、第二模态的数据、以及表示所述第一模态的数据与所述第二模态的数据之间的关联关系的标签。
6.根据权利要求5的所述方法,其中从所述第一目标样本集中确定所述第一组样本包括:
从所述第一目标样本集中选择正样本,所述正样本中的标签指示所述正样本中的第一模态的数据和第二模态的数据之间具有关联关系;以及
基于所述正样本中的所述第一模态的数据和所述第一目标样本集中的所述第二模态的数据来生成负样本;以及
基于所述正样本和所述负样本来生成所述第一组样本。
7.根据权利要求6的所述方法,其中生成所述负样本包括:
从所述第一目标样本集中的第二模态的数据空间中选择第二模态的另一数据;以及
基于所述正样本中的所述第一模态的数据和所述第二模态的另一数据,生成所述负样本,所述负样本中的标签指示所述负样本中的第一模态的数据和所述第二模态的另一数据之间不具有关联关系。
8.根据权利要求6的所述方法,其中训练所述对比学习模型包括:针对所述第一组样本中的所述正样本,
利用所述对比学习模型来分别确定所述正样本中的所述第一模态的数据的第一特征和所述第二模态的数据的第二特征;
基于所述第一特征和所述第二特征之间的差异确定所述对比学习模型的损失函数;以及
朝向使得所述损失函数减小的方向更新所述对比学习模型。
9.根据权利要求8的所述方法,其中确定所述第一特征和所述第二特征包括:分别利用所述对比学习模型中的第一编码器和第二编码器来确定所述第一特征和所述第二特征,所述第一编码器描述所述第一模态的数据与所述第一模态的数据的特征之间的关联关系,以及所述第二编码器描述所述第二模态的数据与所述第二模态的数据的特征之间的关联关系。
10.根据权利要求6的所述方法,其中训练所述对比学习模型包括:针对所述第一组样本中的所述负样本,
利用所述对比学习模型来分别确定所述负样本中的所述第一模态的数据的第一特征和所述第二模态的数据的第二特征;
基于所述第一特征和所述第二特征之间的差异确定所述对比学习模型的损失函数;以及
朝向使得所述损失函数增大的方向更新所述对比学习模型。
11.根据权利要求5的所述方法,其中所述第一模态包括以下多个模态中的任一项:图像、文本、视频、音频,以及所述第二模态包括所述多个模态中的另一项。
12.根据权利要求5的所述方法,进一步包括:
从所述第一样本集和所述第二样本集中选择第二目标样本集;
按照预定义的批次大小,基于所述第二目标样本集确定第二组样本;以及
利用所述第二组样本来训练所述对比学习模型。
13.根据权利要求12的所述方法,其中确定所述第二组样本包括:
从所述第二组样本中的未被使用的正样本中选择正样本;
基于所述正样本和所述第二目标样本集的第二模态的数据来生成负样本;以及
基于所述正样本和所述负样本来确定所述第二组样本。
14.根据权利要求12的所述方法,其中选择所述第一目标样本集独立于选择所述第二目标样本集,并且所述第一目标样本集不同于所述第二目标样本集。
15.一种用于训练对比学习模型的装置,包括:
获取模块,被配置用于获取用于训练所述对比学习模型的多个样本集,所述多个样本集包括第一样本集和第二样本集;
选择模块,被配置用于从所述第一样本集和所述第二样本集中选择第一目标样本集;
确定模块,被配置用于按照预定义的批次大小,基于所述第一目标样本集确定第一组样本;以及
训练模块,被配置用于利用所述第一组样本来训练所述对比学习模型。
16.一种电子设备,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述设备执行根据权利要求1至14中任一项所述的方法。
17.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至14中任一项所述的方法。
18.一种用于数据处理的方法,包括:
使用根据权利要求1的所述方法来训练所述对比学习模型;以及
利用训练的所述对比学习模型来确定待处理样本中的数据之间的关联关系。
19.一种用于数据处理的装置,包括:
训练模块,被配置用于使用根据权利要求15的所述装置来训练所述对比学习模型;以及
确定模块,被配置用于利用训练的所述对比学习模型来确定待处理样本中的数据之间的关联关系。
CN202211351695.9A 2022-10-31 2022-10-31 用于训练对比学习模型的方法、装置、设备和介质 Pending CN115511104A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211351695.9A CN115511104A (zh) 2022-10-31 2022-10-31 用于训练对比学习模型的方法、装置、设备和介质
US18/496,769 US20240144100A1 (en) 2022-10-31 2023-10-27 Method, apparatus, device and medium for training contrastive learning model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211351695.9A CN115511104A (zh) 2022-10-31 2022-10-31 用于训练对比学习模型的方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN115511104A true CN115511104A (zh) 2022-12-23

Family

ID=84511700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211351695.9A Pending CN115511104A (zh) 2022-10-31 2022-10-31 用于训练对比学习模型的方法、装置、设备和介质

Country Status (2)

Country Link
US (1) US20240144100A1 (zh)
CN (1) CN115511104A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628509A (zh) * 2023-07-21 2023-08-22 科大讯飞股份有限公司 模型训练方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628509A (zh) * 2023-07-21 2023-08-22 科大讯飞股份有限公司 模型训练方法、装置、设备及存储介质
CN116628509B (zh) * 2023-07-21 2023-12-01 科大讯飞股份有限公司 模型训练方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20240144100A1 (en) 2024-05-02

Similar Documents

Publication Publication Date Title
US11562588B2 (en) Enhanced supervised form understanding
CN113837205B (zh) 用于图像特征表示生成的方法、设备、装置和介质
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
CN111125658B (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、***和装置
CN116011470A (zh) 翻译、对抗样本生成、模型鲁棒性增强方法及相关装置
CN114020887B (zh) 用于确定响应语句的方法、设备、装置和介质
US20240144100A1 (en) Method, apparatus, device and medium for training contrastive learning model
CN116955406A (zh) Sql语句生成方法、装置、电子设备及存储介质
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN116189208A (zh) 用于文本识别的方法、装置、设备和介质
US20240152760A1 (en) Method, apparatus, device and medium for training and applying a contrastive learning model
WO2024140229A1 (zh) 用于特征学习的方法、装置、设备和存储介质
CN117710763B (zh) 图像噪声识别模型训练方法、图像噪声识别方法及装置
US20240144007A1 (en) Methods, apparatuses, device, and medium for contrastive learning
US20240185578A1 (en) Image encoding learning and application
US20240160925A1 (en) Method, apparatus, device, and medium for determining update gradient for contrastive learning model
CN116342995A (zh) 用于特征聚合的方法、装置、设备和存储介质
CN116186434A (zh) 用于生成标签集合的方法、装置、设备和存储介质
CN117829123A (zh) 用于处理文本的方法、装置、设备和介质
CN117493571A (zh) 用于分类的方法、装置、设备和可读介质
CN115563509A (zh) 生成对比学习模型的正样本对的方法、装置、设备和介质
CN118014363A (zh) 用于风险识别的方法、装置、设备和可读介质
WO2023249556A2 (zh) 基于对比学习来处理视频的方法、装置、设备和介质
CN115272792A (zh) 数据增强的方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination