CN117541894B - 一种多模态模型的训练方法及装置 - Google Patents

一种多模态模型的训练方法及装置 Download PDF

Info

Publication number
CN117541894B
CN117541894B CN202410017186.5A CN202410017186A CN117541894B CN 117541894 B CN117541894 B CN 117541894B CN 202410017186 A CN202410017186 A CN 202410017186A CN 117541894 B CN117541894 B CN 117541894B
Authority
CN
China
Prior art keywords
network
task
character
expert
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410017186.5A
Other languages
English (en)
Other versions
CN117541894A (zh
Inventor
轩诗宇
郭清沛
杨铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202410017186.5A priority Critical patent/CN117541894B/zh
Publication of CN117541894A publication Critical patent/CN117541894A/zh
Application granted granted Critical
Publication of CN117541894B publication Critical patent/CN117541894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例提供一种多模态模型的训练方法及装置,多模态模型包括编码网络及可训练的包括路由层及若干并行设置的专家网络的任务网络,该方法包括:获取编码网络处理样本图像及文本形式的任务指令得到的、包括各图像词元及各文本词元各自对应的第一词元特征的第一词元特征序列;利用第一词元特征序列,通过路由层,确定各个词元对应的包括各个专家网络相对于该词元被激活的概率的概率集合;基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果;基于任务结果及任务指令对应的标签结果,调整任务网络。

Description

一种多模态模型的训练方法及装置
技术领域
本说明书涉及计算机技术领域,尤其涉及一种多模态模型的训练方法及装置。
背景技术
目前,可以将视觉模型通过桥接层接入语言模型,从而得到能够处理图像模态数据和文本模态数据的多模态模型,其中,桥接层用于对齐图像模态数据对应的特征和文本模态数据对应的特征。为了进一步提高多模态模型在下游任务上的性能,需要针对特定下游任务对多模态模型进行微调。
因此,期望能有改进的方案,更好地对多模态多任务的大模型进行微调。
发明内容
本说明书一个或多个实施例提供了一种多模态模型的训练方法及装置,以实现对多模态多任务的大模型进行微调,即实现对多模态模型的自适应微调,提高多模态模型在多种下游任务上的性能。
根据第一方面,提供一种多模态模型的训练方法,所述多模态模型包括预训练的编码网络以及可训练的任务网络,所述任务网络包括路由层,以及若干并行设置的专家网络,所述方法包括:
获取所述编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,所述第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征;
利用所述第一词元特征序列,通过所述路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率;
基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;
基于各个词元的第二词元特征,预测针对所述样本图像执行所述任务指令的任务结果;
基于所述任务结果以及所述任务指令对应的标签结果,调整所述任务网络。
根据第二方面,提供一种多模态模型的训练装置,所述多模态模型包括预训练的编码网络以及可训练的任务网络,所述任务网络包括路由层,以及若干并行设置的专家网络,所述装置包括:
获取模块,配置为获取所述编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,所述第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征;
确定模块,配置为利用所述第一词元特征序列,通过所述路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率;
得到模块,配置为基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;
预测模块,配置为基于各个词元的第二词元特征,预测针对所述样本图像执行所述任务指令的任务结果;
调整模块,配置为基于所述任务结果以及所述任务指令对应的标签结果,调整所述任务网络。
根据第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面所述的方法。
根据第四方面,提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。
根据本说明书实施例提供的多模态模型的训练方法及装置,多模态模型包括预训练的编码网络以及可训练的任务网络,且任务网络包括路由层以及若干并行设置的专家网络,在多模态模型的训练过程中,获取编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,该第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征;接着,利用第一词元特征序列,通过路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率;即通过多模态模型中的路由层自适应的确定对任务指令有利的专家网络;之后基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;并基于各个词元的第二词元特征,预测针对样本图像执行所述任务指令的任务结果;进而基于任务结果以及任务指令对应的标签结果,调整任务网络。
上述过程中,通过路由层,使多模态模型自适应地激活对任务指令所表示的任务有帮助的专家网络,可以实现对于参数调整方向相同的任务自适应地激活优化相同的专家网络,对于参数调整方向不同的任务自适应地激活优化不同的专家网络,以实现对多模态模型中的若干专家网络在多种下游任务下的联合训练和优化。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书披露的一个实施例的实施框架示意图;
图2为实施例提供的多模态模型的示例性结构的一种示意图;
图3为实施例提供的多模态模型的示例性结构的又一种示意图;
图4为实施例提供的多模态模型的示例性结构的又一种示意图;
图5为实施例提供的多模态模型的示例性结构的又一种示意图;
图6为实施例提供的多模态模型的训练方法的一种流程示意图;
图7为实施例提供的多模态模型的训练方法的又一种流程示意图;
图8为实施例提供的多模态模型的训练方法的又一种流程示意图;
图9为实施例提供的多模态模型的训练方法的又一种流程示意图;
图10为实施例提供的多模态模型的训练装置的一种示意性框图。
具体实施方式
下面将结合附图,详细描述本说明书实施例的技术方案。
本说明书实施例披露一种多模态模型的训练方法及装置,下面首先对方法的应用场景和技术构思进行介绍,具体如下:
如前所述,可以将视觉模型通过桥接层接入语言模型,从而得到能够处理图像模态数据和文本模态数据的多模态模型,其中,该桥接层用于对齐图像对应的特征和文本对应的特征。为了进一步提高多模态模型在下游任务上的性能,需要针对特定下游任务对多模态模型进行微调。
在一些相关技术中,为了降低对多模态模型在下游任务上的训练成本,可以针对所需执行的下游任务,在多模态模型中***专家网络,该专家网络例如可以通过LoRA网络和多层感知机等网络实现,之后,在训练多模态模型在各下游任务上的性能的过程中,仅针对该多模态模型中所***的专家网络和桥接层进行微调即可。鉴于此,为了更好的提高多模态模型在多种下游任务上的性能,需要设计出对多模态模型中的桥接层和所***若干专家网络的微调方法。
目前,在一种示例性的模型微调场景中,可以针对不同的下游任务,在多模态模型中添加各种下游任务对应的专家网络,其中,不同下游任务所对应的专家网络互相隔离,即不同下游任务之间的对应的专家网络的参数不共享。相应的,在针对不同的下游任务微调多模态模型时,仅微调桥接层以及各下游任务各自对应的专家网络。这种微调方案,各种下游任务所对应的专家网络互相隔离,使得多模态模型无法受益于多种下游任务进行联合训练而带来的有益效果。
在又一种示例性的模型微调场景中,针对不同的下游任务,在多模态模型中设置参数共享的专家网络,例如在多模态模型中嵌入一个专家网络。相应的,针对不同的下游任务,共同调整该专家网络。这种微调方案,对于一些参数的更新方向完全相反的下游任务,会使得多模态模型由于各下游任务之间的干扰,使得其对不同下游任务的性能下降,具体的例如,对于下游任务1,为了提高多模态模型针对下游任务1的性能,需要调大专家网络的某项参数;对于下游任务2,为了提高多模态模型针对下游任务2的性能,需要调小专家网络的该项参数,对于这种情况,由于下游任务1和下游任务2之间对专家网络的参数的更新方向完全相反,会导致多模态模型在下游任务1和下游任务2上的性能降低。
鉴于此,发明人提出一种多模态模型的训练方法,在多模态模型所***的若干并行设置的专家网络之前设置路由层,以在训练多模态模型的过程中,通过路由层,从若干并行设置的专家网络中,选择出对多模态模型所执行的任务的性能有利的专家网络,可以实现对于参数调整方向相同的任务自适应地激活优化相同的专家网络,对于参数调整方向不同的任务自适应地激活优化不同的专家网络,以实现对多模态模型中的若干专家网络在多种下游任务下的联合训练和优化。
图1示出根据本说明书披露的一个实施例的示例性的多模态模型的结构示意图,以及多模态模型的示意性训练过程,在该示例性的训练过程中,该多模态模型包括编码网络以及可训练的任务网络。如图1所示,该任务网络包括路由层以及若干并行设置的专家网络,例如包括专家网络1、专家网络2……专家网络N。其中,该路由层用于基于输入的各词元对应的特征,确定各词元可激活的专家网络。
在该示例性的训练过程中,电子设备获取样本图像T及其对应的任务指令R,并且获取与样本图像T和任务指令R对应的标签结果,其中,该任务指令以文本形式存在,该任务指令用于指示多模态模型针对样本图像所需执行的任务。接着,电子设备基于样本图像T和任务指令R,通过编码网络,得到第一词元特征序列,该第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征。
在一种实现方式中,如图1所示,该编码网络包括图像编码网络和文本编码网络,其中,图像编码网络包括编码层和图文空间映射层。该图文空间映射层用于将基于图像编码所得的图像编码结果从图像特征空间映射至文本特征空间,以对齐图像对应的特征和文本对应的特征,即对齐图像模态数据对应的特征和文本模态数据对应的特征。
具体的,一方面,电子设备基于样本图像T,通过图像编码网络的编码层,得到图像编码结果;并基于图像编码结果,通过图像编码网络的图文空间映射层,得到图像编码结果对应的映射至文本特征空间的各图像词元对应的第一词元特征。另一方面,电子设备基于任务指令R,通过文本编码网络,得到各文本词元对应的第一词元特征。之后,采用指定拼接方式,拼接各图像词元对应的第一词元特征和各文本词元对应的第一词元特征,得到第一词元特征序列。
接着,如图1所示,电子设备利用第一词元特征序列,通过路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率,例如各个词元中任意的词元i对应的概率集合包括,专家网络1相对于该词元i被激活的概率,专家网络2相对于该词元i被激活的概率……专家网络N相对于该词元i被激活的概率,i为正整数,i的最大取值等于各个词元的总个数。
接着,电子设备基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。在一种实现方式中,电子设备可以基于各个词元对应的概率集合,从若干专家网络中,确定出各个词元对应的激活专家网络;之后基于各个词元对应的第一词元特征,通过各词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。在一种情况,以各个词元中任意的词元i为例,对确定出各个词元对应的激活专家网络的过程进行说明,具体的:电子设备可以针对任意的词元i,基于该词元i对应的概率集合,从若干专家网络中,确定出所对应概率满足预设条件的专家网络,作为该词元i对应的激活专家网络,其中,该预设条件可以包括但不限于:单个概率集合中所对应概率最大的K个,或者,单个概率集合中所对应概率大于预设概率阈值,其中,K为正整数,其具体取值可以根据需求设置。举例而言,假设设置K为2,假设词元i对应的概率集合中专家网络1和专家网络2对应的概率最大,相应的专家网络1和专家网络2作为词元i对应的激活专家网络,后续的,可以基于词元i对应的第一词元特征,通过词元i对应的激活专家网络即专家网络1和专家网络2,得到词元i对应的第二词元特征。
在一种情况中,前述的得到词元i对应的第二词元特征的过程,可以包括:电子设备基于词元i对应的第一词元特征,通过专家网络1,得到词元i对应的第一中间特征;基于词元i对应的第一词元特征,通过专家网络2,得到词元i对应的第二中间特征;之后基于词元i对应的第一中间特征和第二中间特征,得到词元i对应的第二词元特征。其中,得到词元i对应的第二词元特征的过程,例如可以包括,将词元i对应的第一中间特征和第二中间特征的平均值,作为词元i对应的第二词元特征;或者将词元i对应的第一中间特征和第二中间特征基于指定融合方式融合所得的特征,作为词元i对应的第二词元特征,等。该指定融合方式可以是任意的对特征进行融合的方式,此处不做限定。
电子设备参照前述实现方式,得到各个词元对应的第二词元特征之后,基于各个词元对应的第二词元特征,预测针对样本图像T执行任务指令R的任务结果。在一种实现方式中,电子设备可以采用预设的任务预测策略,基于各个词元对应的第二词元特征,预测针对样本图像执行任务指令的任务结果。在一种情况中,不同的任务类型可以对应不同的任务预测策略,也可以共享相同的任务预测策略。在又一种实现方式中,电子设备可以采用预训练的任务预测网络,基于各个词元对应的第二词元特征,预测针对样本图像T执行任务指令R的任务结果,其中,该任务预测网络可以为可进行任务预测的基于深度学习的网络。
之后电子设备基于任务结果以及任务指令R对应的标签结果,调整任务网络。具体的,电子设备可以采用预设损失函数,基于任务结果以及该标签结果之间的差异,确定模型预测损失,并以最小化该模型预测损失,即以降低任务结果以及该标签结果之间的差异为目标,调整该任务网络,即调整任务网络的参数,直至多模态模型达到预设收敛条件,得到训练完成的多模态模型。
在一种实现方式中,在编码网络包括图像编码网络和文本编码网络的情况下,前述的调整任务网络,可以包括:基于任务结果以及任务指令R对应的标签结果,联合调整任务网络和图像编码网络中的图文空间映射层。
上述过程中,通过路由层,可以基于各个词元对应的第一词元特征,自主地确定需要激活的专家网络,使多模态模型可以自适应地激活对任务指令所表示的任务有帮助的专家网络,可以实现对于参数调整方向相同的任务自适应地激活优化相同的专家网络,对于参数调整方向不同的任务自适应地激活优化不同的专家网络,以实现对多模态模型中的若干专家网络在多种下游任务下的联合训练和优化。
可以理解的是,图1所示的多模态模型的示例性结构,仅是多模态模型的一种可能的结构示例。该多模态模型的结构还可以设置成多种多样,如图2所示,该多模态模型可以包括编码网络、可训练的任务网络以及若干特征处理层,该任务网络包括路由层,以及若干并行设置的专家网络,若干特征处理层包括注意力层和前馈神经网络。如图2所示,任务网络设置于注意力层和前馈神经网络之间。又例如如图3所示,该多模态模型可以包括编码网络、可训练的任务网络以及若干特征处理层,该任务网络包括路由层,以及若干并行设置的专家网络,若干特征处理层包括注意力层和前馈神经网络。如图3所示,任务网络还可以设置于前述的前馈神经网络之后。
在又一种实施例中,该多模态模型还可以设置多个任务网络,具体的,如图4所示,该多模态模型可以包括编码网络、可训练的任务网络以及若干特征处理层,前述的任务网络可以包括第一任务网络和第二任务网络,任一任务网络均包括路由层,以及若干并列设置的专家网络,如图4所示,第一任务网络包括路由层1和并列设置的专家网络11、专家网络12……专家网络N1,第二任务网络包括路由层1和并列设置的专家网络21、专家网络22……专家网络N2;若干特征处理层包括注意力层和前馈神经网络;第一任务网络可以设置于前述的注意力层和前馈神经网络之间,第二任务网络可以设置于前馈神经网络之后。其中,第一任务网络和第二任务网络之间所包括的专家网络的个数可以相同也可以不同。
在又一个实施例中,如图5所示,该多模态模型可以包括编码网络、可训练的任务网络以及若干特征处理层,若干特征处理层可以包括M组注意力层和前馈神经网络,该M组注意力层和前馈神经网络基于LLM(Large Language Model,大型语言模型)实现,其中,M为大于1的正整数,如图5所示,M组注意力层和前馈神经网络之间串行设置;前述的任务网络可以包括多个任务网络,任一任务网络均包括路由层,以及若干并列设置的专家网络。参考图1-图4所示的任务网络所设置的位置,M组注意力层和前馈神经网络中任意一组或多组注意力层和前馈神经网络中,均可以设置一个或多个任务网络。如图5所示,为多模态模型的又一种结构示意图,其中,第一组注意力层(如图注意力层1)和前馈神经网络(如图前馈神经网络1)中设置任务网络1和任务网络2,任务网络1设置于第一组注意力层和前馈神经网络之间,任务网络2设置于第一组的前馈神经网络之后;……第m组注意力层(如图注意力层m)和前馈神经网络(如图前馈神经网络m)中设置任务网络w,任务网络w设置于第m组注意力层和前馈神经网络之间,m为大于1且小于等于M的正整数。
上述内容示例性的描述了多模态模型的多种示例性结构,多模态模型还可以设置成其他结构,在此不在一一赘述。下面结合具体实施例,对本说明书提供的多模态模型的训练方法及装置进行详细阐述。
图6示出了本说明书一个实施例中多模态模型的训练方法的流程图。该方法通过电子设备执行,该电子设备可以通过任何具有计算、处理能力的装置、设备、平台、设备集群等来实现。如图1所示,该多模态模型包括编码网络以及可训练的任务网络,其中,该任务网络包括路由层,以及若干并行设置的专家网络。
在一种实现方式中,各专家网络可以通过如下任意网络实现:LoRA网络和多层感知机。在又一种实现方式中,专家网络还可以通过其他的可训练模块实现,例如可训练的词元特征、特征处理网络以及adapter(适配器)层等。可以理解,本说明书实施例并不对专家网络的具体结构进行限定,任意可训练的并有助于提高多模态模型在下游任务的性能的结构,均可应用于本实施例中。
在多模态模型的训练过程中,如图6所示,所述方法包括如下步骤S610- S650:
在步骤S610,获取编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,该第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征。
在一种实现方式中,电子设备可以获取样本图像及其对应的任务指令,其中,该任务指令以文本形式存在,该任务指令用于指示多模态模型针对该样本图像所需要执行的任务,该任务指令可以表示出其所指示的任务所属任务类型。在一种实现方式中,该任务类型可以包括但不限于:目标检测、实例分割、视觉定位、视觉问答以及图像标题生成等。举例而言,任务类型为目标检测,相应的任务指令可以指示多模态模型针对样本图像中的xx目标进行检测,预测得到xx目标所在位置信息;任务类型为实例分割,相应的任务指令可以指示多模态模型针对样本图像中的若干目标进行分割,预测得到样本图像中若干目标各自的所在区域;任务类型为图像标题生成,相应的任务指令可以指示多模态模型针对样本图像生成其标题,等。
在又一种实现方式中,电子设备还可以获取与样本图像和任务指令对应的标签结果,该标签结果可以是利用人工或特定程序,基于该任务指令,针对该样本图像所标注出的作为标签的任务标注结果。举例而言,任务指令指示多模态模型针对样本图像中的xx目标进行检测,预测得到xx目标所在位置信息的情况下,该标签结果可以包括在样本图像中所标注出的xx目标所在的标注位置信息;在任务指令指示多模态模型针对样本图像生成其标题的情况下,该标签结果可以包括该样本图像对应的标注标题。
电子设备得到样本图像以及任务指令之后,可以利用编码网络,处理样本图像以及任务指令,得到第一词元特征序列,其中,该第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征,在一种情况中,单个词元对应的第一词元特征以向量的形式存在。在一种实现方式中,文本词元可以指文本的基本单位,词元可以是分词、字、单词以及字符中的一种或多种。文本词元对应的第一词元特征可以指从文本形式的任务指令所拆解出的词元对应的特征。图像词元可以是图像的基本单位,例如按照预设大小或预设方式划分的图像块或图像元素。图像词元对应的第一词元特征可以指,将对样本图像的各个图像块或图像元素进行编码而得到的图像编码结果,从图像特征空间映射到文本特征空间所得到各词元对应的特征。
具体的,在一种实现方式中,该编码网络可以包括图像编码网络和文本编码网络,以利用编码网络分别对样本图像和文本形式的任务指令进行编码,得到其各自对应的特征;在步骤S610,可以包括如下步骤11-13:
在步骤11,基于样本图像,通过图像编码网络的编码层,得到图像编码结果。本步骤中,电子设备可以将样本图像,输入图像编码网络的编码层,以通过编码层对样本图像进行编码,得到图像编码结果,其中,该图像编码结果为图像特征空间的数据。该编码层为经过预训练的编码层,其可以通过相关技术中任意的可对图像进行编码的网络或视觉模型实现。
接着,为了保证多模态模型的训练,需要对不同模态数据即样本图像以及任务指令各自对应的特征进行对齐,相应的,在步骤12,基于图像编码结果,通过图像编码网络的图文空间映射层,得到图像编码结果对应的映射至文本特征空间的各图像词元对应的第一词元特征。本步骤中,电子设备将图像编码结果,输入图像编码网络的图文空间映射层,以通过图文空间映射层将图像编码结果,从图像特征空间映射至文本特征空间,以得到图像编码结果对应的各图像词元对应的处于文本特征空间的第一词元特征,实现对图像词元对应的特征与文本词元对应的特征之间的对齐。
然后,在步骤13,基于任务指令,通过文本编码网络,得到各文本词元对应的第一词元特征。本步骤中,电子设备将任务指令输入文本编码网络,以通过文本编码网络对任务指令进行编码,得到各文本词元对应的第一词元特征。该文本编码网络为经过预训练的编码网络。在一种实现方式中,该文本编码网络可以通过相关技术中任意类型的文本tokenizer(分词器)实现。
通过上述方式,可以将图像对应的特征和文本对应的特征对齐,保证后续训练过程的进行。电子设备得到对齐后的各图像词元对应的第一词元特征以及各文本词元对应的第一词元特征,可以按照指定拼接方式,拼接各图像词元对应的第一词元特征以及各文本词元对应的第一词元特征,得到第一词元特征序列。
接着,在步骤S620,利用第一词元特征序列,通过路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率。
在一种实现方式中,该路由层可以包括一系列预设的概率确定策略,以可以针对各个词元,利用各个词元对应的第一词元特征,通过预设的概率确定策略,自适应地确定各个词元对应的概率集合,即确定各个专家网络分别相对于各个词元被激活的概率。在又一种实现方式中,该路由层也可以为基于深度学习算法的网络层,其参数可调整。在一种情况中,该路由层可以为参数为W的线性层,其中,W的维度可以表示为D*N,N为专家网络的个数,D为输入路由层的特征的维度。
可以通过如下公式(1)表示路由层的处理过程;
Gate=softmax(R(x),W) (1);
其中,Gate表示各个词元对应的概率集合,R()表示路由层设置的路由策略,softmax()表示将各个词元对应的概率集合中的概率进行归一化的算法,x表示输入路由层的特征,该输入路由层的特征基于第一词元特征序列确定,在一种实现中,该输入路由层的特征可以为第一词元特征序列,在又一种实现方式中,该输入路由层的特征可以为第一词元特征序列经过指定处理后而得到,例如如图2所示的多模态模型的示例性结构,输入路由层的特征可以是第一词元特征序列经过注意力层的处理而得到,即为后续提到的各个词元对应的第一融合特征;又例如如图3所示的多模态模型的示例性结构,输入路由层的特征可以是第一词元特征序列经过注意力层和前馈神经网络的处理后而得到,即为后续提到的各个词元对应的中间词元特征。
理论上而言,对于单个词元,其对应的概率集合中,专家网络相对于该词元被激活的概率越大,可以表征该专家网络参与到该任务指令对应的任务预测过程中,对于提升该任务预测过程的任务预测结果的准确性的可能性越大,即越可以提升多模态模型在该任务指令所表示的任务上的性能。
为了更好的提升多模态模型在多种下游任务上的性能,路由层可以设置各种不同的路由策略,以从不同角度确定各个词元对应的概率集合,即从不同角度筛选确定对提升多模态模型在下游任务上的性能有利的专家网络。
在一种情况中,该路由层可以设置词元级的路由策略。相应的,在一个实施例中,在步骤S620,可以设置为:直接利用各个词元对应的第一词元特征,通过路由层,确定各个词元对应的概率集合。
在一种实现方式中,在路由层为参数为W的线性层时,W的维度D*N中,N为专家网络的个数,D为输入该路由层的特征的维度,本实现方式中,D的取值可以基于单个词元对应的词元特征的维度数量进行设置,具体的,可以等于单个词元对应的词元特征的维度数量。该实现方式中,可以使得不同词元对应的第一词元特征可以被路由到相应的专家网络,以实现对多模态模型中的若干专家网络在多种下游任务下的联合训练和优化,以更好的帮助提升多模态模型在不同下游任务上的性能。
在又一个实施例中,该路由层可以设置模态级的路由策略。相应的,在一个实施例中,该若干专家网络包括图像模态对应的若干第一专家网络和文本模态对应的若干第二专家网络;在步骤S620,可以设置为:分别利用各图像词元以及各文本词元各自对应的第一词元特征,通过路由层,确定各图像词元对应的第一子集合和各文本词元对应的第二子集合,其中,任一第一子集合中第一专家网络对应的概率大于第二专家网络对应的概率,任一第二子集合中第二专家网络对应的概率大于第一专家网络对应的概率。
本实现方式中,电子设备可以基于各词元对应的第一词元特征在第一词元特征序列中所处的位置或者各词元对应的模态标识,从第一词元特征序列中,确定出各个图像词元对应的第一词元特征,和各个文本词元对应的第一词元特征。进而,分别利用各图像词元以及各文本词元各自对应的第一词元特征,通过路由层,确定各图像词元对应的第一子集合和各文本词元对应的第二子集合。其中,任一第一子集合中第一专家网络对应的概率大于第二专家网络对应的概率,任一第二子集合中第二专家网络对应的概率大于第一专家网络对应的概率。
本实现方式,可以使得不同模态的词元对应的词元特征可以被路由到不同的专家网络即不同模态的词元激活不同的专家网络,以实现对多模态模型中的若干专家网络在多种下游任务下的联合训练和优化,以更好的帮助提升多模态模型在不同下游任务上的性能。
可以理解的,对于任一第一子集合,其中各个第一专家网络之间对应的概率可以相同也可以不同,举例而言,对于图像词元a对应的第一子集合,其中第一专家网络c1对应的概率与第一专家网络c2对应的概率可以相同也可以不同。对于不同第一子集合,任意两个第一子集合,同一第一专家网络被激活的概率可以相同也可以不同,举例而言,对于图像词元a对应的第一子集合和图像词元b对应的第一子集合而言,图像词元a对应的第一子集合中第一专家网络c1对应的概率,与图像词元b对应的第一子集合中第一专家网络c1对应的概率可以相同也可以不同。
同理的,对于任一第二子集合,其中各个第二专家网络之间对应的概率可以相同也可以不同。对于不同第二子集合,任意两个第二子集合,同一第二专家网络被激活的概率可以相同也可以不同。
在又一个实施例中,该路由层可以设置任务级的路由策略。相应的,该若干专家网络可以包括,多种任务类型分别对应的多个专家网络;相应的,在步骤S620,可以设置为:利用第一词元特征序列以及任务指令所表示的目标任务类型,通过路由层,得到各个词元对应的概率集合,任一词元对应的概率集合中,目标任务类型对应的目标专家网络对应的概率大于其他专家网络对应的概率。
本实现方式中,若干专家网络可以包括多种任务类型分别对应的专家网络,在路由层为参数为W的线性层时,W的维度D*N中,N为专家网络的个数,D为输入该路由层的特征的维度,本实现方式中,D的取值可以基于多种任务类型的数量进行设置,具体的,可以等于多种任务类型的数量。
电子设备可以基于任务指令确定其所表示的任务类型,作为目标任务类型,之后利用第一词元特征序列以及任务指令所表示的目标任务类型,通过路由层,得到各个词元对应的概率集合,任一词元对应的概率集合中,目标任务类型对应的目标专家网络对应的概率大于其他专家网络对应的概率,通过设置任务级的路由策略的路由层,可以使得不同任务类型的词元所对应的词元特征可以被路由到不同的专家网络即激活不同的专家网络,以实现对多模态模型中的若干专家网络在多种下游任务下的联合训练和优化,以更好的帮助提升多模态模型在不同下游任务上的性能。
可以理解的,对于任一词元对应的概率集合,该词元对应的概率集合中,各个目标专家网络之间对应的概率可以相同也可以不同,举例而言,对于词元A对应的概率集合,其中,目标专家网络x对应的概率与目标专家网络y对应的概率可以相同也可以不同。对于不同词元对应的概率集合,任意两个词元对应的概率集合中,同一目标专家网络被激活的概率可以相同也可以不同,举例而言,对于词元A和词元B而言,词元A对应的概率集合中目标专家网络x对应的概率,与词元B对应的概率集合中目标专家网络x对应的概率可以相同也可以不同。
一种情况中,不同任务类型可以对应不同的类型索引,相应的,电子设备可以基于任务指令对应的类型索引确定任务指令所表示的任务类型。
在又一个实施例中,该路由层可以设置上下文级的路由策略,该路由策略可以基于图像词元和文本词元之间的整体信息进行专家网络的选择。相应的,在步骤S620,可以包括如下步骤21-23:在步骤21,利用各图像词元对应的第一词元特征,确定第一平均特征。本步骤中,电子设备可以基于第一词元特征序列中各词元对应的第一词元特征所处的位置或者各词元对应的模态标识,从第一词元特征序列中,确定出各个图像词元对应的第一词元特征,和各个文本词元对应的第一词元特征。之后,利用各个图像词元对应的第一词元特征以及预设的平均值计算公式,确定第一平均特征。
接着,在步骤22,利用各文本词元对应的第一词元特征,确定第二平均特征。本步骤中,电子设备利用各文本词元对应的词元特征以及预设的平均值计算公式,确定第二平均特征。
然后在步骤23,利用第一平均特征和第二平均特征,通过路由层,得到各个词元对应的概率集合。本步骤中,电子设备可以根据预设的拼接方式,拼接第一平均特征和第二平均特征,得到拼接平均特征,进而利用拼接平均特征,通过路由层,得到各个词元对应的概率集合。其中,各个词元对应的概率集合可以相同。
本实现方式中,通过计算不同模态的词元对应的词元特征的平均特征,进而拼接不同模态的词元之间的平均特征的方式,可以实现对不同模态的词元对应的词元特征之间的融合,即实现对各个词元之间的整体信息的融合,得到融合有各模态的词元所对应特征的拼接平均特征,之后利用拼接平均特征,通过路由层,可以将各个词元路由到相应的专家网络,以实现对多模态模型中的若干专家网络在多种下游任务下的联合训练和优化,以更好的帮助提升多模态模型在不同下游任务上的性能。
在一种实现中,假设第一平均特征的维度表示为1*X1,第二平均特征的维度表示为1*X2,相应的,拼接平均特征的维度表示为1*(X1+X2),在路由层为参数为W的线性层时,W的维度D*N中,N为专家网络的个数,D为输入该路由层的特征的维度,D的具体取值可以根据拼接平均特征的维度进行设置,具体的,D可以等于X1+X2。
通过上述任意的实现方式,得到各个词元对应的概率集合之后,在步骤S630,基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。
单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率;相应的,电子设备基于各个词元对应的概率集合可以确定各个词元所能激活的专家网络,即各个词元对应的激活专家网络,进而电子设备基于各个词元对应的激活专家网络和各个词元对应的第一词元特征,得到各个词元对应的第二词元特征。具体的,在一种实现方式中,在步骤S630,包括如下步骤31-32:
在步骤31,基于各个词元对应的概率集合,从若干专家网络中,确定出各个词元对应的激活专家网络。本步骤中,电子设备基于各个词元对应的概率集合,从若干专家网络中,确定出各个词元对应的概率集合中所对应概率满足预设条件的专家网络,以得到各个词元对应的激活专家网络。具体的,以各个词元中任意的词元j为例,对得到各个词元对应的激活专家网络的过程进行说明,电子设备基于词元j对应的概率集合,从若干专家网络中,确定出对应概率满足预设条件的专家网络,作为该词元j对应的激活专家网络。
其中,该预设条件可以包括但不限于:单个词元对应的概率集合中所对应概率最大的K个,或者,单个词元对应的概率集合中所对应概率大于预设概率阈值,其中,K为正整数,其具体取值可以根据需求设置。举例而言,假设设置K为1,假设词元j对应的概率集合中专家网络r对应的概率最大,相应的专家网络r作为词元j对应的激活专家网络。又举例而言,假设设置K为2,假设词元j对应的概率集合中专家网络r1和r2对应的概率最大,相应的专家网络r1和r2作为词元j对应的激活专家网络。
得到各个词元对应的激活专家网络,在步骤32,基于各个词元对应的第一词元特征,通过各词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。
承接前述例子,以各个词元中任意的词元j为例,对得到各个词元对应的第二词元特征的过程进行介绍,具体的,在专家网络r作为词元j对应的激活专家网络的情况,电子设备可以基于词元j对应的第一词元特征,通过词元j对应的激活专家网络即专家网络r,得到词元j对应的第二词元特征。
在专家网络r1和r2作为词元j对应的激活专家网络的情况,电子设备基于词元j对应的第一词元特征,通过专家网络r1,得到词元j对应的第一中间特征;基于词元j对应的第一词元特征,通过专家网络r2,得到词元j对应的第二中间特征;之后基于词元j对应的第一中间特征和第二中间特征,得到词元j对应的第二词元特征;例如,可以将词元j对应的第一中间特征和第二中间特征的平均值,作为词元j对应的第二词元特征;或者可以将词元j对应的第一中间特征和第二中间特征基于指定融合方式融合所得的特征,作为词元j对应的第二词元特征,等。该指定融合方式可以是任意的对特征进行融合的方式,此处不做限定。
通过上述方式,得到各个词元对应的第二词元特征之后,在步骤S640,基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果。
在一种实现方式中,电子设备得到各个词元对应的第二词元特征之后,可以采用预设的任务预测策略,基于各个词元对应的第二词元特征,预测针对样本图像执行任务指令的任务结果。在一种情况中,不同的任务类型可以对应不同的任务预测策略,也可以共享相同的任务预测策略。
在又一种实现方式中,电子设备可以采用预训练的任务预测网络,基于各个词元对应的第二词元特征,预测针对样本图像执行任务指令的任务结果,其中,该任务预测网络可以为可进行任务预测的基于深度学习的网络。在一种情况中,该任务预测网络可以为基于LLM(Large Language Model,大型语言模型)实现的网络。
可以理解的,任务指令可以指示多模态模型针对样本图像所需要执行的任务。举例而言,在任务指令为指示多模态模型针对样本图像进行目标检测时,该任务结果可以包括多模态模型从样本图像中所预测出的目标所在位置信息;在任务指令为指示多模态模型针对样本图像生成图像标题时,该任务结果可以包括多模态模型针对样本图像所预测的图像标题x,等。
得到针对样本图像执行任务指令的任务结果之后,在步骤S650,基于任务结果以及任务指令对应的标签结果,调整该任务网络。本步骤中,电子设备得到针对样本图像执行任务指令的任务结果之后,可以从指定存储位置,获取到与样本图像和任务指令对应的标签结果,即获取到任务指令对应的标签结果,之后,采用预设损失函数,基于任务结果以及该标签结果之间的差异,确定模型预测损失,并以最小化该模型预测损失,即以降低任务结果以及该标签结果之间的差异为目标,调整该任务网络,即调整任务网络的参数。在一种实现方式中,该预设损失函数可以包括但不限于L2损失函数、MSE(均方误差)损失函数等等。
在一种实现方式中,在编码网络包括图像编码网络和文本编码网络的情况下,该调整任务网络的过程可以包括,基于任务结果以及任务指令对应的标签结果,联合调整任务网络的参数以及调整图文空间映射层的参数。
在一种情况中,在路由层包括一系列预设的概率确定策略的情况下,前述的调整任务网络的过程,可以包括调整各个词元对应的激活专家网络的参数。在路由层为基于深度学习算法的网络层的情况下,前述的调整任务网络的过程,可以包括调整各个词元对应的激活专家网络的参数以及路由层的参数。
可以理解的,图6所示流程仅示出的多模态模型的一次训练过程,在一种实现方式中,电子设备可以对多模态模型执行多次训练过程,直至多模态模型达到预设收敛条件,得到训练完成的多模态模型。其中,该预设收敛条件可以包括但不限于,参数调整次数不低于预设调整阈值,或所计算的模型预测损失低于预设损失阈值,或多模态模型的训练时长不低于预设训练时长。
可以理解的,在对多模态模型执行多次训练的过程中,可以使用多对存在对应关系的图像和文本形式的任务指令,以及与存在对应关系的图像和文本形式的任务指令对应的标签结果,采用图6所示流程,训练多模态模型。其中,多对存在对应关系的图像和文本形式的任务指令可以包括,对应不同任务类型的图像和任务指令,例如包括对应任务类型1的若干存在对应关系的图像和任务指令,对应任务类型2的若干存在对应关系的图像和任务指令,对应任务类型3的若干存在对应关系的图像和任务指令,等。以通过该多对存在对应关系的图像和任务指令训练多模态模型,使得多模态模型可以执行不同任务类型1-3的任务。
回顾一下前述的多模态模型的训练过程,上述实施例是以一个样本图像及其对应的任务指令为一个样本为例进行说明的。在另一实施例中,也可以针对一批样本即多个样本图像及其对应的任务指令执行上述训练过程,分别得到多模态模型针对每个样本图像执行该样本图像所对应的任务指令的任务结果,进而基于多模态模型针对每个样本图像执行该样本图像所对应的任务指令的任务结果、以及与每个样本图像和任务指令对应的标签结果,确定模型预测损失,接着以最小化模型预测损失为目标,调整任务网络。本实施例中,对一批样本确定模型预测损失,然后再调整任务网络,这样能够减少对任务网络的参数调整次数,更易于训练过程的实施。
上述实施例中,通过路由层,可以基于各个词元对应的第一词元特征,自主地确定需要激活的专家网络,使多模态模型可以自适应地激活对任务指令所表示的任务有帮助的专家网络,可以实现对于参数调整方向相同的任务自适应地激活优化相同的专家网络,对于参数调整方向不同的任务自适应地激活优化不同的专家网络,以实现对多模态模型中的若干专家网络在多种下游任务下的联合训练和优化。
可以理解的,多模态模型的结构可以多种多样,在一个实施例中,如图2所示的多模态模型的一种示例性结构中,该多模态模型包括编码网络、可训练的任务网络以及若干特征处理层,该任务网络包括路由层,以及若干并行设置的专家网络,若干特征处理层包括注意力层和前馈神经网络。该任务网络设置于前述的注意力层和前馈神经网络之间。下面基于如图2所示的多模态模型的示例性结构,对多模态模型的训练过程进行介绍。如图7所示,该多模态模型的训练过程,可以包括如下步骤S710-S760:
在步骤S710,获取编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,该第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征。其中,步骤S710与图6所示的步骤S610类似,其具体实现方式可以参见如图6所示的步骤S610的具体实现方式,在此不做赘述。
在步骤S720,利用第一词元特征序列,通过注意力层,得到各个词元对应的第一融合特征。在一种实现方式中,该注意力层可以是基于任意类型的注意力机制的网络层。该注意力层为预训练过的网络层。本步骤中,电子设备可以将第一词元特征序列输入注意力层,以通过注意力层处理各个词元对应的第一词元特征,得到各个词元对应的第一融合特征。
之后,在步骤S730,利用各个词元对应的第一融合特征,通过路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率。本步骤中,电子设备可以将各个词元对应的第一融合特征输入路由层,以通过路由层处理各个词元对应的第一融合特征,得到各个词元对应的概率集合。步骤S730与图6所示的步骤S620类似,其具体实现过程可以参见图6所示的步骤S620的实现过程,在此不做赘述。
接着,在步骤S740,基于各个词元对应的概率集合和第一融合特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。其中,步骤S740与图6所示的步骤S630类似,其具体实现过程可以参见如图6所示的步骤S630的具体实现方式,在此不做赘述。
之后,在步骤S750,基于各个词元的第二词元特征,通过前馈神经网络,预测针对样本图像执行任务指令的任务结果。本步骤中,电子设备得到各个词元对应的第二词元特征之后,可以将各个词元对应的第二词元特征,输入前馈神经网络,以通过前馈神经网络处理各个词元对应的第二词元特征,得到前馈神经网的输出,接着,基于前馈神经网络的输出,预测针对样本图像执行任务指令的任务结果。在一种实现方式中,该前馈神经网络之后还可以设置有至少一组注意力层和前馈神经网络,电子设备可以基于所得到的前馈神经网的输出,通过该前馈神经网络之后设置的至少一组注意力层和前馈神经网络,预测针对样本图像执行任务指令的任务结果。
然后,在步骤S760,基于任务结果以及任务指令对应的标签结果,调整任务网络。其中,步骤S760与图6所示的步骤S650类似,其具体实现过程可以参见如图6所示的步骤S650的具体实现方式,在此不做赘述。
在又一个实施例中,多模态模型的示例性结构还如图3所示,其中,该多模态模型包括编码网络、可训练的任务网络以及若干特征处理层,该任务网络包括路由层,以及若干并行设置的专家网络,若干特征处理层包括注意力层和前馈神经网络。该任务网络设置于前述的前馈神经网络之后。下面基于如图3所示的多模态模型的示例性结构,对多模态模型的训练过程进行介绍。如图8所示,该多模态模型的训练过程,可以包括如下步骤S810-S870:
在步骤S810,获取编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,该第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征。其中,步骤S810与图7所示的步骤S710类似,其具体实现方式可以参见如图7所示的步骤S710的具体实现方式,在此不做赘述。
在步骤S820,利用第一词元特征序列,通过注意力层,得到各个词元对应的第一融合特征。其中,步骤S820与图7所示的步骤S720类似,其具体实现方式可以参见如图7所示的步骤S720的具体实现方式,在此不做赘述。
之后,在步骤S830,利用各个词元对应的第一融合特征,通过前馈神经网络,确定各个词元对应的中间词元特征。本步骤中,电子设备将各个词元对应的第一融合特征,输入前馈神经网络,以通过前馈神经网络处理各个词元对应的第一融合特征,确定各个词元对应的中间词元特征。
接着在步骤S840,利用各个词元对应的中间词元特征,通过路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率。其中,步骤S840与图7所示的步骤S730类似,其具体实现过程可以参见如图7所示的步骤S730的具体实现方式,在此不做赘述。
之后,在步骤S850,基于各个词元对应的概率集合和中间词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。其中,步骤S850与图7所示的步骤S740类似,其具体实现过程可以参见如图7所示的步骤S740的具体实现方式,在此不做赘述。
接着,在步骤S860,基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果。步骤S860与图6所示的步骤S640类似,其具体实现过程可以参见如图6所示的步骤S640的具体实现方式,在此不做赘述。
然后,在步骤S870,基于任务结果以及任务指令对应的标签结果,调整任务网络。其中,步骤S870与图7所示的步骤S760类似,其具体实现过程可以参见如图7所示的步骤S760的具体实现方式,在此不做赘述。
在又一个实施例中,多模态模型中任务网络可以包括多个,其示例性结构还如图4所示,其中,该多模态模型包括编码网络、可训练的任务网络以及若干特征处理层,若干特征处理层包括注意力层和前馈神经网络,该任务网络包括第一任务网络和第二任务网络,任一任务网络均包括路由层,以及若干并列设置的专家网络;第一任务网络设置于前述的注意力层和前馈神经网络之间,第二任务网络设置于前述的前馈神经网络之后。下面基于如图4所示的多模态模型的示例性结构,对多模态模型的训练过程进行介绍。如图9所示,该多模态模型的训练过程,可以包括如下步骤S910-S990:
在步骤S910,获取编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,该第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征。其中,步骤S910与图8所示的步骤S810类似,其具体实现方式可以参见如图8所示的步骤S810的具体实现方式,在此不做赘述。
在步骤S920,利用第一词元特征序列,通过注意力层,得到各个词元对应的第二融合特征。其中,步骤S920与图8所示的步骤S820类似,其具体实现方式可以参见如图8所示的步骤S820的具体实现方式,在此不做赘述。
之后,在步骤S930,利用各个词元对应的第二融合特征,通过第一任务网络的路由层,确定各个词元对应的第一概率集合,单个词元对应的第一概率集合包括,第一任务网络的各个专家网络相对于该词元被激活的概率。其中,该步骤S930与图8所示的步骤S840类似,其具体实现过程可以参见如图8所示的步骤S840的具体实现方式,在此不做赘述。
接着,在步骤S940,利用各个词元对应的第一概率集合和第二融合特征,通过各个词元各自对应的第一任务网络中的激活专家网络,得到各个词元对应的激活词元特征。其中,该步骤S940与图8所示的步骤S850类似,其具体实现过程可以参见如图8所示的步骤S850的具体实现方式,在此不做赘述。
之后,在步骤S950,利用各个词元对应的激活词元特征,通过前馈神经网络,得到各个词元对应的处理后词元特征。其中,该步骤S950与图8所示的步骤S830类似,其具体实现过程可以参见如图8所示的步骤S830的具体实现方式,在此不做赘述。
接着,在步骤S960,利用各个词元对应的处理后词元特征,通过第二任务网络的路由层,确定各个词元对应的第二概率集合,单个词元对应的第二概率集合包括,第二任务网络的各个专家网络相对于该词元被激活的概率。其中,该步骤S960与图8所示的步骤S840类似,其具体实现过程可以参见如图8所示的步骤S840的具体实现方式,在此不做赘述。
之后,在步骤S970,基于各个词元对应的第二概率集合和处理后词元特征,通过各个词元各自对应的第二任务网络中的激活专家网络,得到各个词元对应的第二词元特征。其中,该步骤S970与图8所示的步骤S850类似,其具体实现过程可以参见如图8所示的步骤S850的具体实现方式,在此不做赘述。
接着,在步骤S980,基于各个词元的第二词元特征,预测针对样本图像执行任务指令的任务结果。其中,该步骤S980与图8所示的步骤S860类似,其具体实现过程可以参见如图8所示的步骤S860的具体实现方式,在此不做赘述。
然后,在步骤S990,基于任务结果以及任务指令对应的标签结果,调整任务网络。其中,该步骤S990与图8所示的步骤S870类似,其具体实现过程可以参见如图8所示的步骤S870的具体实现方式,在此不做赘述。
在一个实施例中,该多模态模型为基于LLM(Large Language Model,大型语言模型)架构的多模态模型,如图5所示,该若干特征处理层可以基于LLM实现,包括M组注意力层和前馈神经网络,其中,M为大于1的正整数,如图5所示,M组注意力层和前馈神经网络之间串行设置,前述的任务网络可以包括多个任务网络,任一任务网络均包括路由层,以及若干专家网络。M组注意力层和前馈神经网络中任意一组或多组注意力层和前馈神经网络中,均可以设置一个或多个任务网络。对于图5所示的多模态模型,其训练过程,与前述实施例中对各种示例性结构的多模态模型的训练过程类似,其训练过程,可以参见前述实施例对各种示例性结构的多模态模型的训练过程,在此不做赘述。
可以理解的,在多模态模型包括多个任务网络的情况下,不同任务网络中的路由层所设置的路由策略可以不同,也可以相同,不同任务网络中的并行设置的专家网络之间的数量可以相同也可以不同。在一种实现方式中,前述的若干特征处理层为预训练过的特征处理层。
上述内容对本说明书的特定实施例进行了描述,其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行,并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的,或者可能是有利的。
相应于上述方法实施例,本说明书实施例,提供了一种多模态模型的训练装置1000,所述多模态模型包括预训练的编码网络以及可训练的任务网络,所述任务网络包括路由层,以及若干并行设置的专家网络,其示意性框图如图10所示,包括:
获取模块1010,配置为获取所述编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,所述第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征;
确定模块1020,配置为利用所述第一词元特征序列,通过所述路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率;
得到模块1030,配置为基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;
预测模块1040,配置为基于各个词元的第二词元特征,预测针对所述样本图像执行所述任务指令的任务结果;
调整模块1050,配置为基于所述任务结果以及所述任务指令对应的标签结果,调整所述任务网络。
在一种可选实施方式中,所述得到模块1030,具体配置为基于各个词元对应的概率集合,从所述若干专家网络中,确定出各个词元对应的激活专家网络;
基于各个词元对应的第一词元特征,通过各词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。
在一种可选实施方式中,各专家网络通过如下任意网络实现:LoRA网络和多层感知机。
在一种可选实施方式中,所述多模态模型还包括若干特征处理层,所述若干特征处理层包括注意力层和前馈神经网络;所述任务网络设置于所述注意力层和前馈神经网络之间。
在一种可选实施方式中,所述确定模块1020,具体配置为利用所述第一词元特征序列,通过所述注意力层,得到各个词元对应的第一融合特征;
利用各个词元对应的第一融合特征,通过所述路由层,确定各个词元对应的概率集合。
在一种可选实施方式中,所述得到模块1030,具体配置为基于各个词元对应的概率集合和第一融合特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。
在一种可选实施方式中,所述多模态模型还包括若干特征处理层,所述若干特征处理层包括注意力层和前馈神经网络;所述任务网络设置于所述前馈神经网络之后。
在一种可选实施方式中,所述多模态模型还包括若干特征处理层,所述若干特征处理层包括注意力层和前馈神经网络;所述任务网络包括第一任务网络和第二任务网络,任一任务网络均包括路由层,以及若干并列设置的专家网络;
所述第一任务网络设置于所述注意力层和前馈神经网络之间,所述第二任务网络设置于所述前馈神经网络之后。
在一种可选实施方式中,所述若干专家网络包括图像模态对应的若干第一专家网络和文本模态对应的若干第二专家网络;
所述确定模块1020,具体配置为分别利用各图像词元以及各文本词元各自对应的第一词元特征,通过所述路由层,确定各图像词元对应的第一子集合和各文本词元对应的第二子集合,任一第一子集合中所述第一专家网络对应的概率大于所述第二专家网络对应的概率,任一第二子集合中所述第二专家网络对应的概率大于所述第一专家网络对应的概率。
在一种可选实施方式中,所述若干专家网络包括,多种任务类型分别对应的多个专家网络;
所述确定模块1020,具体配置为利用所述第一词元特征序列以及所述任务指令所表示的目标任务类型,通过所述路由层,得到各个词元对应的概率集合,任一词元对应的概率集合中,所述目标任务类型对应的目标专家网络对应的概率大于其他专家网络对应的概率。
在一种可选实施方式中,所述确定模块1020,具体配置为利用各图像词元对应的第一词元特征,确定第一平均特征;
利用各文本词元对应的第一词元特征,确定第二平均特征;
利用所述第一平均特征和所述第二平均特征,通过所述路由层,得到各个词元对应的概率集合。
在一种可选实施方式中,所述编码网络包括图像编码网络和文本编码网络;
所述获取模块1010,具体配置为基于所述样本图像,通过所述图像编码网络的编码层,得到图像编码结果;
基于所述图像编码结果,通过所述图像编码网络的图文空间映射层,得到所述图像编码结果对应的映射至文本特征空间的各图像词元对应的第一词元特征;
基于所述任务指令,通过所述文本编码网络,得到各文本词元对应的第一词元特征。
在一种可选实施方式中,所述调整模块1050,具体配置为基于所述任务结果以及所述任务指令对应的标签结果,联合调整所述任务网络和所述图文空间映射层。
上述装置实施例与方法实施例相对应,具体说明可以参见方法实施例部分的描述,此处不再赘述。装置实施例是基于对应的方法实施例得到,与对应的方法实施例具有同样的技术效果,具体说明可参见对应的方法实施例。
本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书所提供的所述多模态模型的训练方法。
本说明书实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书所提供的所述多模态模型的训练方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (13)

1.一种多模态模型的训练方法,所述多模态模型包括编码网络以及可训练的任务网络,所述任务网络包括路由层,以及若干并行设置的专家网络,所述多模态模型还包括若干特征处理层,所述若干特征处理层包括注意力层和前馈神经网络;所述任务网络设置于所述注意力层和前馈神经网络之间,或者,所述任务网络设置于所述前馈神经网络之后;所述方法包括:
获取所述编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,所述第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征;
利用所述第一词元特征序列,通过所述路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率;
基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;
基于各个词元的第二词元特征,预测针对所述样本图像执行所述任务指令的任务结果;
基于所述任务结果以及所述任务指令对应的标签结果,调整所述任务网络。
2.如权利要求1所述的方法,其中,所述得到各个词元对应的第二词元特征,包括:
基于各个词元对应的概率集合,从所述若干专家网络中,确定出各个词元对应的激活专家网络;
基于各个词元对应的第一词元特征,通过各词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。
3.如权利要求1所述的方法,其中,各专家网络通过如下任意网络实现:LoRA网络和多层感知机。
4.如权利要求1所述的方法,其中,所述任务网络设置于所述注意力层和前馈神经网络之间;所述确定各个词元对应的概率集合,包括:
利用所述第一词元特征序列,通过所述注意力层,得到各个词元对应的第一融合特征;
利用各个词元对应的第一融合特征,通过所述路由层,确定各个词元对应的概率集合。
5.如权利要求4所述的方法,其中,所述得到各个词元对应的第二词元特征,包括:
基于各个词元对应的概率集合和第一融合特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征。
6.如权利要求1所述的方法,其中,所述多模态模型还包括若干特征处理层,所述若干特征处理层包括注意力层和前馈神经网络;所述任务网络包括第一任务网络和第二任务网络,任一任务网络均包括路由层,以及若干并列设置的专家网络;
所述第一任务网络设置于所述注意力层和前馈神经网络之间,所述第二任务网络设置于所述前馈神经网络之后。
7.如权利要求1所述的方法,其中,所述若干专家网络包括图像模态对应的若干第一专家网络和文本模态对应的若干第二专家网络;
所述确定各个词元对应的概率集合,包括:
分别利用各图像词元以及各文本词元各自对应的第一词元特征,通过所述路由层,确定各图像词元对应的第一子集合和各文本词元对应的第二子集合,任一第一子集合中所述第一专家网络对应的概率大于所述第二专家网络对应的概率,任一第二子集合中所述第二专家网络对应的概率大于所述第一专家网络对应的概率。
8.如权利要求1所述的方法,其中,所述若干专家网络包括,多种任务类型分别对应的多个专家网络;
所述确定各个词元对应的概率集合,包括:
利用所述第一词元特征序列以及所述任务指令所表示的目标任务类型,通过所述路由层,得到各个词元对应的概率集合,任一词元对应的概率集合中,所述目标任务类型对应的目标专家网络对应的概率大于其他专家网络对应的概率。
9.如权利要求1所述的方法,其中,所述确定各个词元对应的概率集合,包括:
利用各图像词元对应的第一词元特征,确定第一平均特征;
利用各文本词元对应的第一词元特征,确定第二平均特征;
利用所述第一平均特征和所述第二平均特征,通过所述路由层,得到各个词元对应的概率集合。
10.如权利要求1-9任一项所述的方法,所述编码网络包括图像编码网络和文本编码网络;
所述获取所述编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,包括:
基于所述样本图像,通过所述图像编码网络的编码层,得到图像编码结果;
基于所述图像编码结果,通过所述图像编码网络的图文空间映射层,得到所述图像编码结果对应的映射至文本特征空间的各图像词元对应的第一词元特征;
基于所述任务指令,通过所述文本编码网络,得到各文本词元对应的第一词元特征。
11.如权利要求10所述的方法,所述调整所述任务网络,包括:
基于所述任务结果以及所述任务指令对应的标签结果,联合调整所述任务网络和所述图文空间映射层。
12.一种多模态模型的训练装置,所述多模态模型包括预训练的编码网络以及可训练的任务网络,所述任务网络包括路由层,以及若干并行设置的专家网络,所述多模态模型还包括若干特征处理层,所述若干特征处理层包括注意力层和前馈神经网络;所述任务网络设置于所述注意力层和前馈神经网络之间,或者,所述任务网络设置于所述前馈神经网络之后;所述装置包括:
获取模块,配置为获取所述编码网络处理样本图像以及文本形式的任务指令得到的第一词元特征序列,所述第一词元特征序列包括,各图像词元以及各文本词元各自对应的第一词元特征;
确定模块,配置为利用所述第一词元特征序列,通过所述路由层,确定各个词元对应的概率集合,单个词元对应的概率集合包括,各个专家网络相对于该词元被激活的概率;
得到模块,配置为基于各个词元对应的概率集合和第一词元特征,通过各个词元各自对应的激活专家网络,得到各个词元对应的第二词元特征;
预测模块,配置为基于各个词元的第二词元特征,预测针对所述样本图像执行所述任务指令的任务结果;
调整模块,配置为基于所述任务结果以及所述任务指令对应的标签结果,调整所述任务网络。
13.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。
CN202410017186.5A 2024-01-04 2024-01-04 一种多模态模型的训练方法及装置 Active CN117541894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410017186.5A CN117541894B (zh) 2024-01-04 2024-01-04 一种多模态模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410017186.5A CN117541894B (zh) 2024-01-04 2024-01-04 一种多模态模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN117541894A CN117541894A (zh) 2024-02-09
CN117541894B true CN117541894B (zh) 2024-04-16

Family

ID=89792289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410017186.5A Active CN117541894B (zh) 2024-01-04 2024-01-04 一种多模态模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN117541894B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118097686B (zh) * 2024-04-25 2024-08-16 支付宝(杭州)信息技术有限公司 多模态多任务医疗大模型训练方法及装置
CN118155023B (zh) * 2024-05-11 2024-08-20 腾讯科技(深圳)有限公司 一种文生图及模型训练方法、装置、电子设备和存储介质
CN118171111A (zh) * 2024-05-15 2024-06-11 杭州逸琨科技有限公司 多任务处理模型训练方法及装置、多任务处理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763933A (zh) * 2021-05-06 2021-12-07 腾讯科技(深圳)有限公司 语音识别方法、语音识别模型的训练方法、装置和设备
CN114170425A (zh) * 2021-11-02 2022-03-11 阿里巴巴(中国)有限公司 模型训练、图像分类方法、服务器及存储介质
CN114462539A (zh) * 2022-02-10 2022-05-10 腾讯科技(深圳)有限公司 一种内容分类模型的训练方法、内容分类的方法及装置
CN115221369A (zh) * 2022-06-13 2022-10-21 阿里巴巴(中国)有限公司 视觉问答的实现方法和基于视觉问答检验模型的方法
CN115906921A (zh) * 2022-11-30 2023-04-04 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN116341678A (zh) * 2023-03-10 2023-06-27 特斯联科技集团有限公司 多模态对比学习模型训练方法及装置、电子设备、介质
CN116522142A (zh) * 2023-04-27 2023-08-01 支付宝(杭州)信息技术有限公司 用于训练特征提取模型的方法、特征提取方法和装置
CN116997939A (zh) * 2021-05-28 2023-11-03 谷歌有限责任公司 使用专家混合来处理图像
CN117093692A (zh) * 2023-08-23 2023-11-21 广东技术师范大学 一种基于深度融合的多粒度图像-文本匹配方法及***
CN117218498A (zh) * 2023-11-08 2023-12-12 苏州大学 基于多模态编码器的多模态大语言模型训练方法及***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723966B (zh) * 2022-03-30 2023-04-07 北京百度网讯科技有限公司 多任务识别方法、训练方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763933A (zh) * 2021-05-06 2021-12-07 腾讯科技(深圳)有限公司 语音识别方法、语音识别模型的训练方法、装置和设备
CN116997939A (zh) * 2021-05-28 2023-11-03 谷歌有限责任公司 使用专家混合来处理图像
CN114170425A (zh) * 2021-11-02 2022-03-11 阿里巴巴(中国)有限公司 模型训练、图像分类方法、服务器及存储介质
CN114462539A (zh) * 2022-02-10 2022-05-10 腾讯科技(深圳)有限公司 一种内容分类模型的训练方法、内容分类的方法及装置
CN115221369A (zh) * 2022-06-13 2022-10-21 阿里巴巴(中国)有限公司 视觉问答的实现方法和基于视觉问答检验模型的方法
CN115906921A (zh) * 2022-11-30 2023-04-04 北京百度网讯科技有限公司 深度学习模型的训练方法、目标对象检测方法和装置
CN116341678A (zh) * 2023-03-10 2023-06-27 特斯联科技集团有限公司 多模态对比学习模型训练方法及装置、电子设备、介质
CN116522142A (zh) * 2023-04-27 2023-08-01 支付宝(杭州)信息技术有限公司 用于训练特征提取模型的方法、特征提取方法和装置
CN117093692A (zh) * 2023-08-23 2023-11-21 广东技术师范大学 一种基于深度融合的多粒度图像-文本匹配方法及***
CN117218498A (zh) * 2023-11-08 2023-12-12 苏州大学 基于多模态编码器的多模态大语言模型训练方法及***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Review of Sparse Expert Models in Deep Learning;William Fedus et al;arXiv:2209.01667v1;20220904;全文 *
Mixture-of-Expert Conformer for Streaming Multilingual ASR;Ke Hu et al;arXiv:2305.15663v1;20230525;全文 *
Multimodal Contrastive Learning with LIMoE:the Language-Image Mixture of Experts;Basil Mustafa et al;arXiv:2206.02770v1;20220606;第1-47页 *
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input;Qingpei Guo et al;arXiv:2306.14182v1;20230625;全文 *
大语言模型时代的材料信息提取和数据驱动研发;单斌 等;金属功能材料;20230522;第30卷(第03期);全文 *

Also Published As

Publication number Publication date
CN117541894A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN117541894B (zh) 一种多模态模型的训练方法及装置
US10635975B2 (en) Method and apparatus for machine learning
WO2018044633A1 (en) End-to-end learning of dialogue agents for information access
EP3857459A1 (en) System and method for a dialogue response generation system
CN108665506B (zh) 图像处理方法、装置、计算机存储介质及服务器
CN111368545B (zh) 一种基于多任务学习的命名实体识别方法和装置
KR20180073118A (ko) 컨볼루션 신경망 처리 방법 및 장치
CN114596553A (zh) 模型训练方法、轨迹预测方法、装置及自动驾驶车辆
US20180137410A1 (en) Pattern recognition apparatus, pattern recognition method, and computer program product
US20220207327A1 (en) Method for dividing processing capabilities of artificial intelligence between devices and servers in network environment
US20220310070A1 (en) Artificial Intelligence System for Capturing Context by Dilated Self-Attention
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN115578570A (zh) 图像处理方法、装置、可读介质及电子设备
CN116310582A (zh) 分类模型训练方法、图像分类方法、装置、介质及设备
CN112488172A (zh) 对抗攻击的方法、装置、可读介质和电子设备
Kong et al. Edge-assisted on-device model update for video analytics in adverse environments
CN113222827A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
Tanaka et al. Cross-modal transformer-based neural correction models for automatic speech recognition
EP4121904A1 (en) System and method for adapting to changing constraints
EP4006789A1 (en) Conversion device, conversion method, program, and information recording medium
CN117029838A (zh) 一种水下机器人导航控制方法和***
US11250573B2 (en) Human action recognition in drone videos
CN116306981A (zh) 策略确定方法、装置、介质及电子设备
US11921824B1 (en) Sensor data fusion using cross-modal transformer
EP3712785B1 (en) Operation method, apparatus and related products

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant