CN117094362A - 一种任务处理方法及相关装置 - Google Patents

一种任务处理方法及相关装置 Download PDF

Info

Publication number
CN117094362A
CN117094362A CN202311358507.XA CN202311358507A CN117094362A CN 117094362 A CN117094362 A CN 117094362A CN 202311358507 A CN202311358507 A CN 202311358507A CN 117094362 A CN117094362 A CN 117094362A
Authority
CN
China
Prior art keywords
task
feature
tasks
model
adapter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311358507.XA
Other languages
English (en)
Other versions
CN117094362B (zh
Inventor
辛毅
杜俊珑
鄢科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311358507.XA priority Critical patent/CN117094362B/zh
Publication of CN117094362A publication Critical patent/CN117094362A/zh
Application granted granted Critical
Publication of CN117094362B publication Critical patent/CN117094362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种人工智能领域的任务处理方法及相关装置,通过多任务处理模型中的预训练模型,根据获取的待处理数据确定目标通用特征;通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征,适配器中的共享投影结构用于提取参考通用特征,多个任务各自对应的知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果。如此,提高预训练模型在任务中的性能。

Description

一种任务处理方法及相关装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种任务处理方法及相关装置。
背景技术
如今,预训练微调范式已在很多领域取得了显著的成功。但是,随着预训练模型的模型参数越来越庞大,所应用的下游任务越来越多,为每个下游任务均单独微调预训练模型的所有模型参数所需耗费的成本极高,需要很高的算力和存储资源支持。
基于此,适配器(Adapter)应运而生,其是***到预训练模型中的一种可学习参数量极少的瓶颈结构。针对下游任务微调预训练模型时,可以只对适配器的模型参数进行训练调整,而保持预训练模型原有的模型参数不变,并且可以达到和微调预训练模型中所有模型参数相近、甚至更优的效果。
当将预训练模型同时应用于多个下游任务时,相关技术中基于适配器的预训练模型微调方案的实现效果普遍不够理想,***适配器的预训练模型在下游任务中的性能不佳。
发明内容
本申请实施例提供了一种任务处理方法及相关装置,以提高***有适配器的预训练模型在下游任务中的性能。
本申请第一方面提供了一种任务处理方法,该方法包括:
获取待处理数据;
通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征;多任务处理模型用于基于输入的数据执行多个任务;
通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征;适配器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;
通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果;多任务处理模型中包括多个任务各自对应的解码器。
本申请第二方面提供了一种任务处理装置,该装置包括:
数据获取模块,用于获取待处理数据;
第一特征提取模块,用于通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征;多任务处理模型用于基于输入的数据执行多个任务;
第二特征提取模块,用于通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征;适配器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;
解码模块,用于通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果;多任务处理模型中包括多个任务各自对应的解码器。
本申请第三方面提供了一种计算机设备,所述设备包括处理器和存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序,执行如上述第一方面所述的任务处理方法的步骤。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的任务处理方法的步骤。
本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的任务处理方法的步骤。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供的任务处理方法,通过用于基于输入的数据执行多个任务的多任务处理模型中的预训练模型,根据获取的待处理数据确定目标通用特征;然后通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征,适配器中包括共享投影结构和多个任务各自对应的知识提取结构,其中,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;然后通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果,多任务处理模型中包括多个任务各自对应的解码器。其中,适配器中的共享投影结构可以基于多个任务各自的训练样本进行训练,在训练过程中可以跨任务地进行信息交互,具备较优的参考通用特征学习能力,适配器中的知识提取结构可以在共享投影结构提取的参考通用特征的基础上,提取单个任务的参考私有特征,具备较优的参考私有特征学习能力,当将多任务处理模型(即***有适配器的预训练模型)应用于多个任务时,基于适配器的共享投影结构和知识提取结构可以更好地学习每个任务下的特征表示,从而提高该多任务处理模型在下游任务中的性能。
附图说明
图1a为相关技术提供的一种特定任务适配器的示意图;
图1b为相关技术提供的一种共享任务适配器的示意图;
图1c为本申请实施例提供的一种适配器的示意图;
图2为本申请实施例提供的一种任务处理方法的场景示意图;
图3为本申请实施例提供的一种任务处理方法的流程图;
图4为本申请实施例提供的一种多任务处理模型的示意图;
图5为本申请实施例提供的一种任务处理场景的示意图;
图6为本申请实施例提供的一种任务处理装置的结构示意图;
图7为本申请实施例提供的终端设备的结构示意图;
图8为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如今,预训练微调范式已在很多领域取得了显著的成功。但是,随着预训练模型的模型参数越来越庞大,所应用的下游任务越来越多,为每个下游任务均单独微调预训练模型的所有模型参数所需耗费的成本极高,需要很高的算力和存储资源支持。
作为一种示例,假设预训练模型对应的下游任务包括10个,若针对每个下游任务均单独微调预训练模型的所有模型参数,则需要针对预训练模型进行10次模型训练,在每次模型训练的过程中对预训练模型的所有模型参数进行调整,这样需要耗费的成本极高,同时还需要很高的算力和存储资源的支持。
基于此,适配器(Adapter)应运而生,其是***到预训练模型中的一种可学习参数量极少的瓶颈结构。针对下游任务微调预训练模型时,可以只对适配器的模型参数进行训练调整,而保持预训练模型原有的模型参数不变,并且可以达到和微调预训练模型中所有模型参数相近、甚至更优的效果。
参见图1a,该图为相关技术提供的一种特定任务适配器的示意图。
在一种假设的方式中,可以采用特定任务适配器对预训练模型进行微调,具体如图1a所示,该特定任务适配器的设计与任务数量关联密切,也即为每个下游任务在预训练模型中的每一层都添加一个独立的适配器,使得每个任务都有自己的独立通道,具体表示可以为:
其中,表示第i个任务适配器的输入数据,/>表示第i个任务的独有下采样投影层参数,/>表示第i个任务的独有上采样投影层参数,/>表示通过第i个任务适配器变换的输出结果。
在本假设方式中,通过特定任务适配器针对下游任务微调预训练模型时,所有的特定适配器之间是独立的,可以获取每个下游任务的私有表示信息。
但是,本假设方式提供的特定任务适配器的数量随下游任务的数量增加,从而可能会导致训练参数量较高;另一方面,由于针对每个下游任务均为独立通道,也即,仅能获取每个下游任务的独立的特征表示,多个下游任务对应的特征表示不能交互,可能会导致***特定任务适配器的预训练模型在下游任务中的性能不佳。
参见图1b,该图为相关技术提供的一种共享任务适配器的示意图。
在另一种假设的方式中,可以采用共享任务适配器对预训练模型进行微调,具体如图1b所示,该共享任务适配器的设计是与任务数量没有关联,也即为多个下游任务在预训练模型的每一层只添加一个共享任务适配器,所有的下游任务共享这个共享任务适配器,因此,所有的下游任务在经过预训练模型后有相同的表示,具体可以为:
其中,x表示单个任务的输入数据,表示多个任务共享下采样投影层参数,表示所有任务共享上采样投影层参数,x'为单个任务的输出结果。
在本假设方式中,通过共享任务适配器针对下游任务微调预训练模型时,所有下游任务共享一个共享任务适配器,任务的输入输出之间没有差异性,可以获取所有任务之间的通用表示信息。
本假设方式提供的共享任务适配器相比于特定任务适配器,虽然缩减了适配器的数量,减少了训练参数量,同时也促进了任务之间的交互;但是,该共享任务适配器只能提取多个下游任务的通用特征表示,针对每个下游任务的特定信息表示获取能力不足,导致***共享任务适配器的预训练模型在下游任务中的性能不佳。
也即,无论是特定任务适配器还是共享任务适配器,当将预训练模型同时应用于多个下游任务时,相关技术中基于适配器的预训练模型微调方案的实现效果普遍不够理想,***适配器的预训练模型在下游任务中的性能不佳。
为了解决上述技术问题,本申请实施例提供一种任务处理方法,该方法包括:通过用于基于输入的数据执行多个任务的多任务处理模型中的预训练模型,根据获取的待处理数据确定目标通用特征;然后通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征,适配器中包括共享投影结构和多个任务各自对应的知识提取结构,其中,共享投影结构用于提取参考通用特征,多个任务各自对应的知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;然后通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果,多任务处理模型中包括多个任务各自对应的解码器。
参见图1c,该图为本申请实施例提供的一种适配器的示意图。
结合图1c所示,本申请实施例提供的适配器,通过适配器中的共享投影结构提取参考通用特征,并通过多个任务各自对应的知识提取结构,基于参考通用特征提取其对应的任务的参考私有特征,进一步通过参考私有特征得到目标私有特征;同时通过预训练模型,根据获取的待处理数据确定目标通用特征;然后通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果。
本实施例提供的适配器可以通过共享投影结构提取到多个任务之间的参考通用特征,也可以通过每个任务对应的知识提取结构提取到每个任务对应的参考私有特征,即实现了多任务之间的通用特征以及单个任务的私有特征的兼顾提取,有利于提高***有该适配器的预训练模型在多个任务中的性能。
如此,适配器中的共享投影结构可以基于多个任务各自的训练样本进行训练,并在训练过程中可以跨任务地进行信息交互,具备较优的参考通用特征学习能力,适配器中的知识提取结构可以在共享投影结构提取的参考通用特征的基础上,提取单个任务的参考私有特征,具备较优的参考私有特征学习能力,当与训练模型应用于多个任务时,基于适配器的共享投影结构和知识提取结构可以更好地学习每个任务下的特征表示,从而提高该多任务处理模型在下游任务中的性能。
参见图2,该图为本申请实施例提供的一种任务处理方法的场景示意图,可以包括终端设备201或服务器202。
终端设备201或服务器202获取待处理数据。作为一种示例,待处理数据可以为图像、文字等等,在此不做具体限定。
终端设备201或服务器202通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征;多任务处理模型用于基于输入的数据执行多个任务。作为一种示例,假设待处理数据为图像数据,该多任务处理模型中的预训练模型可以根据该图像数据确定出图像数据对应的目标通用特征,该多任务处理模型可以基于输入的图像数据执行多个任务,比如语义分割任务、实例分割任务等等。
终端设备201或服务器202通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征;适配器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定。
作为一种示例,假设待处理数据为图像数据,多任务处理模型执行3个任务,分别为A、B、C,多任务处理模型中的适配器,根据该图像数据或者预训练模型处理该图像数据时生成的参考特征,确定出任务A、B、C各自对应的目标私有特征a、b、c。其中,适配器中的共享投影结构可以提取参考通用特征X;适配器中的任务A、B、C各自对应的知识提取结构,可以基于参考通用特征X提取任务A、B、C各自对应的参考私有特征x1、x2、x3;然后任务A、B、C各自对应的目标私有特征a、b、c可以根据参考私有特征x1、x2、x3确定。
终端设备201或服务器202通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果;多任务处理模型中包括多个任务各自对应的解码器。作为一种示例,多任务处理模型执行3个任务,分别为A、B、C,任务A、B、C各自对应的解码器根据任务A、B、C各自对应的目标私有特征以及目标通用特征,确定任务A、B、C各自对应的处理结果,比如,任务A对应的解码器根据任务A对应的目标私有特征a和目标通用特征Y,确定任务A的处理结果A-1,任务B对应的解码器根据任务B对应的目标私有特征b和目标通用特征Y,确定任务B的处理结果B-1,任务C对应的解码器根据任务C对应的目标私有特征c和目标通用特征Y,确定任务C的处理结果C-1。
如此,适配器中的共享投影结构可以基于多个任务各自的训练样本进行训练,并在训练过程中可以跨任务地进行信息交互,具备较优的参考通用特征学习能力,适配器中的知识提取结构可以在共享投影结构提取的参考通用特征的基础上,提取单个任务的参考私有特征,具备较优的参考私有特征学习能力,当多任务处理模型(即***有适配器的预训练模型)应用于多个任务时,基于适配器的共享投影结构和知识提取结构可以更好地学习每个任务下的特征表示,从而提高该多任务处理模型在下游任务中的性能。
本申请实施例提供的任务处理方法可应用于具备数据处理能力的终端设备或服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。该终端设备包括但不限于手机、平板、电脑、计算机、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例提供的任务处理方法涉及人工智能、计算机视觉技术以及预训练模型。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互***、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision, CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(finetune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
预训练模型(Pre-trainingmodel),也称基石模型、大模型,指具有大参量的深度神经网络(Deepneuralnetwork,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(finetune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT, CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
首先对本申请下文的实施例中可能涉及的若干个名词术语进行解释。
适配器意指***到具有大规模模型参数的网络结构中的一种可学习参数量极少的瓶颈结构(一般由两层全链接层组成,一层进行降维映射,一层进行长维映射),在下游某个任务微调时只对这些瓶颈结构参数进行训练,而保持预训练模型原有的参数不变。
Transformer是一个利用注意力机制来提高模型训练速度的模型,主要包括输入模块、编码模块、解码模块和输出模块,编码模块主要通过编码器实现,解码模块主要通过解码器实现。其中,编码器负责将输入转化为特征,也即,编码器的作用是把一个不定长的输入序列变换成一个定长的上下文变量,并在该上下文变量中编码输入序列信息;解码器是负责将特征转化为目标,也即解码器通过将上下文变量中的信息解码生成输出序列。
参见图3,该图为本申请实施例提供的一种任务处理方法的流程图。
结合图3所示,本申请实施例提供的任务处理方法,可以包括:
S301:获取待处理数据。
待处理数据意指执行本申请实施例中的多个任务时所依据的数据,其是输入多任务处理模型的数据,可以为图像、文本等等,在此不做具体限定。
S302:通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征。
其中,多任务处理模型用于基于输入的数据执行多个任务。
多任务处理模型意指可以处理多个任务的模型,其可以包括预训练模型和适配器。预训练模型意指多个任务对应的基础处理模型。其中,预训练模型可执行多个任务,该预训练模型的模型参数量较大,且该预训练模型经过多次迭代训练具有优异可靠的性能,预训练模型比如可以为transformer结构等。
任务意指用于基于待处理数据所需执行的任务,作为一种示例,当待处理数据为图像数据时,多任务处理模型执行的多个任务可以包括语义分割任务、实例分割任务、全景分割任务、人体分割任务、显著性检测任务中的至少两个。
语义分割的目的是用所表示的内容的类别来为图像中每个像素打标签。因为是对图像中每个像素打标签,这类任务通常被称为密集预测。也即,语义分割是在像素级别上的分类,属于同一类的像素都要被归为一类,因此,语义分割是从像素级别来理解图像的任务。作为一种示例,比如说包含有人、动物和背景的图像,属于人的像素都要分成一类,属于动物的像素也要分成一类,除此之外还有背景像素也被分为一类。
实例分割同时利用目标检测和语义分割的结果,通过目标检测提供的目标最高置信度类别的索引,将语义分割中目标对应的Mask抽取出来。简而言之,就是把一个类别里具体的一个个对象(具体的一个个实例)分割出来。
显著性检测意指通过智能算法模拟人的视觉特点,提取图像中的显著区域(即人类感兴趣的区域)。
人体分割,属于语义分割任务的子任务,旨在对人类图像进行像素级的是细粒度分割(例如,划分出身体部位和服装)。
目标通用特征意指多个任务之间的通用特征,目标通用特征能够反映执行多个任务时所依据的通用信息,即目标通用特征在多个任务的执行过程中均能起到相应作用。
S303:通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征。
其中,适配器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定。
目标私有特征意指每个任务对应的特有的特征,目标私有特征能够反映执行每个任务时所依据的特定的私有信息,即目标私有特征在对应的任务的执行过程中起到特定的作用,比如,目标私有特征a可以在执行对应的任务A时起到特定的作用,但是该目标私有特征a不能在执行任务B时起到作用。
共享投影结构意指用于提取待处理数据或预训练模型处理待处理数据时生成的参考特征中的参考通用特征的结构。
应理解的是,适配器中的共享投影结构可以基于多个任务各自的训练样本进行训练,并在训练过程中可以跨任务地进行信息交互,因此,具备较优的参考通用特征学习能力。
知识提取结构意指用于确定对应的任务的参考私有特征的结构。其中,该知识提取结构可以在共享投影结构提取的参考通用特征的基础上,提取单个任务的参考私有特征,具备较优的参考私有特征学习能力。
S304:通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果。
其中,多任务处理模型中包括多个任务各自对应的解码器。
应理解的是,通过将目标通用特征以及多个任务各自对应的目标私有特征输入到对应的解码器中,即可获取对应的任务的处理结果,由于处理过程中使用了多个任务之间的通用特征、以及多个任务各自的私有特征,因此可以充分获取任务的特定信息,以提高***适配器的预训练模型在下游任务中的性能。
本申请实施例提供的任务处理方法,适配器中的共享投影结构可以基于多个任务各自的训练样本进行训练,并在训练过程中可以跨任务地进行信息交互,具备较优的参考通用特征学习能力,适配器中的知识提取结构可以在共享投影结构提取的参考通用特征的基础上,提取单个任务的参考私有特征,具备较优的参考私有特征学习能力,当将多任务处理模型(即***有适配器的预训练模型)应用于多个任务时,基于适配器的共享投影结构和知识提取结构可以更好地学习每个任务下的特征表示,从而提高该多任务处理模型在下游任务中的性能。
基于上述实施例提供的任务处理方法,为了进一步说明通过适配器,根据待处理数据或参考特征确定目标私有特征的过程,在一些可能实现的实施方式中,步骤S303,可以包括:
A1:通过适配器中的共享投影结构,根据待处理数据或者参考特征,确定参考通用特征。
由于适配器可以***预训练模型中的任一位置,因此,适配器中的共享投影结构接收的数据可以为待处理数据,也可以为预训练模型对待处理数据处理时生成的参考特征。
应理解的是,通过适配器中的共享投影结构可以确定出多个任务之间的通用特征,实现多个任务之间的交互。
在一种可能实现的实施方式中,步骤A1,具体可以包括:
B1:通过共享投影结构中的下采样投影层,对待处理数据或者参考特征进行下采样处理,得到参考下采样特征。
下采样,又名降采样、缩小图像,其主要目的是使得图像符合显示区域的大小,以及生成对应图像的缩略图,下采样的方法可以为池化。B2:通过共享投影结构中的非线性层,对参考下采样特征进行非线性变换处理,得到参考变换特征。
在本实施例中,非线性层可以采用非线性激活函数进行非线性变换,在不同的任务中也可以换成不同的非线性激活函数,如ReLU、Sigmoid、Tanh等等。
在本申请实施例中,非线性层可以采用ReLU作为非线性激活函数进行非线性变换,其中,ReLU(Rectified Linear Unit,线性整流函数),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性激活函数。
其中,通过引入非线性激活函数的目的是提高适配器的非线性拟合能力,增强模型的表达能力。
B3:通过共享投影结构中的上采样投影层,对参考变换特征进行上采样处理,得到参考通用特征。
上采样,又名放大图像、图像插值,其主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上,上采样的方法可以为双线性插值,反卷积,反池化等等。
结合图1c所示,适配器中的共享投影结构可以包括下采样投影层W down 、非线性激活函数ReLU和上采样投影层W up ,通过共享投影结构可以促进多个任务之间的交互,具体可以表示为:
其中,F表示参考通用特征,表示待处理数据或预训练模型处理待处理数据时生成的参考特征,应理解的是,由于适配器可以***预训练模型中的任意一层的位置,因此,输入适配器的共享投影结构的数据可以为待处理数据,也可以为预训练模型处理该待处理数据时生成的参考特征。其中,参考特征可以为预训练模型中的某一层的输出结果,也可以为预训练模型的最终输出的结果,在此不做具体限定。
在本实施例中,共享投影结构具备较优的参考通用特征学习能力,可以较好的得到待处理数据或参考特征对应的参考通用特征,以促进多个任务之间的交互。
A2:通过适配器中的门控结构,根据参考通用特征,确定第一子参考通用特征和第二子参考通用特征。
应理解的是,为了更好的学习到多个任务之间的交互的通用的特征,以及多个任各自的独立的特征表示,在本实施例中,可以将参考通用特征分为两部分,一部分的参考通用特征作为多个任务之间的交互的通用特征,也即,第一子参考通用特征;一部分的参考通用特征用于确定每个任务对应的参考私有特征,也即第二子参考通用特征,根据第二子参考通用特征确定知识提取结构对应的任务的参考私有特征。
作为一种可能实现的实施方式,第一子参考通用特征可以表示为:
其中,表示第一子参考通用特征,s表示门控结构的比例系数,F表示参考通用特征。
A3:通过适配器中的每个知识提取结构,根据第二子参考通用特征,确定知识提取结构对应的任务的参考私有特征。
在一种可能实现的实施方式中,步骤A3可以表示为:
其中,表示第i个任务的参考私有特征,/>和/>分别表示第i个任务的比例因子和移位因子,/>表示点积操作,(1-sF表示第二子参考通用特征。
在另一种可能实现的实施方式中,步骤A3,具体可以包括:
C1:通过知识提取结构中的比例因子,对第二子参考通用特征进行缩放处理,得到参考缩放特征。
缩放处理意指改变特征的取值范围,缩放到特定的区间。
由于第二子参考通用特征可能包含大量信息,通过对第二子参考通用特征进行缩放处理,可以将其中包含的信息缩放至特定的任务区间,该特定任务区间内的信息对于执行对应的任务具有较高参考价值。
C2:通过知识提取结构中的移位因子,对参考缩放特征进行移位处理,得到任务的参考私有特征。
移位处理意指对参考缩放特征进行移动的操作。
对参考缩放特征进一步进行移位处理,使其与对应的任务更加匹配,为对应的任务的执行提供更具参考价值的信息。
在本实施例中,通知识提取结构中的比例因子对第二子参考通用特征进行缩放处理,得到参考缩放特征,并进一步通过知识提取结构中的移位因子对参考缩放特征进行以为处理,以得到参考私有特征,可以提高所确定的参考私有特征的准确性。
A4:针对每个任务,根据第一子参考通用特征以及任务的参考私有特征,确定任务的目标私有特征。
在一种可能实现的实施方式中,目标私有特征可以表示为:
/>
其中,表示任务对应的目标私有特征,/>表示第一子参考通用特征,/>表示参考私有特征。当然,在实际应用中,目标私有特征也可以按照特定权重系数对第一子参考通用特征和参考私有特征进行加权求和得到。
在本申请实施例中,通过适配器中的共享投影结构得到参考通用特征,并通过适配器中的门控结构得到第一子参考通用特征和第二子参考通用特征,进一步通过适配器中的知识提取结构,根据第二子参考通用特征确定参考私有特征,最后通过第一子参考通用特征和参考私有特征确定目标私有特征,使得多个任务之间的信息能够互补,且保留每个任务对应的独立信息,提高***适配器的预训练的参数在多个任务中的性能。
参见图4,该图为本申请实施例提供的一种多任务处理模型的示意图。
基于上述实施例提供的任务处理方法,在一种可能实现的实施方式中,预训练模型中包括多个子编码结构,如图4中的预训练模型中的四个块(block),多任务处理模型中包括多个子编码结构各自对应的适配器。
结合图4所示,在本实施例中,多任务处理模型包括预训练模型,该预训练模型可以为transformer模型,该transformer模型可以包括多个块(transformerblock),如图4中所示的4个block,多个block之间可以采用并行连接或串行连接,在本实施例中示例性的展示串行连接,每个block都连接有对应的解码器和适配器,每个block包括若干transformer层。
在本实施例中以block1为例,block1包括一个基于滑动窗口的多头自注意力模块(SW-MSA),设置在SW-MSA模块之前和之后的两个归一化模块(LayerNorm),以及一个多层感知机(MLP);其中,block1的适配器设置于MLP的两端,如图4所示。
多层感知机(MLP,Multilayer Perceptron)也叫人工神经网络(ANN,ArtificialNeural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构。
Layer normalization(LayerNorm,层归一化)是一种用于深度神经网络中的归一化技术。它可以对网络中的每个神经元的输出进行归一化,使得网络中每一层的输出都具有相似的分布。
在一种可能实现的实施方式中,步骤S302,可以包括:通过预训练模型中的每个子编码结构(指代本实施例中的transformer块),根据子编码结构的输入数据,确定子编码结构输出的目标通用特征。
其中,子编码结构的输入数据为待处理数据、或者其它子编码结构输出的目标通用特征。应理解的是,结合图4所示,若子编码结构为block1,则block1的输入数据为待处理数据,若子编码结构为block2,则block2的输入数据为block1输出的目标通用特征。
对应的,步骤S303,可以包括:通过每个适配器,根据适配器的输入数据,确定适配器输出的多个任务各自的目标私有特征。
其中,适配器的输入数据为适配器对应的子编码结构的输入数据、或者适配器对应的子编码结构生成的参考特征。
应理解的是,由于适配器可以***子编码结构中的不同的transformer层中,若适配器***子编码结构的第一层之前或者与第一层并行,则其输入数据可以为子编码结构的输入数据,若适配器***子编码结构的某两层之间或最后一层之后、或者与除第一层外的其它层并行,在其输入数据可以为子编码结构生成的参考特征。
作为一种示例,在每个transformer块中***与MLP层并行的适配器,在微调的过程中只更新该适配器的参数,具体如图4所示。对于多个任务,每个任务的解码器从不同的适配器接收其对应的目标私有特征。也即,适配器将其生成的目标私有特征直接传输到解码器。基于预训练模型得到的目标通用特征被添加到编码器并在每个block之后传输到解码器。
对应的,步骤S304,可以包括:通过每个解码器,根据各个子编码结构各自输出的目标通用特征、以及各个适配器各自输出的解码器对应的任务的目标私有特征,确定解码器对应的任务的处理结果。
对于第i个任务的解码器,从编码器接收到的包括目标私有特征和目标通用特征的多尺度信息,可以表示为:
其中,表示第i个任务的多尺度信息,/>和/>表示来自第j块的目标通用特征和目标私有特征。然后,将多尺度信息输入到设计的解码器中,以得到处理结果。其中,在多任务处理模型中,解码器一般为上采样结构,如Segformer的解码器,HRNet-V2的解码器等,可根据具体的任务而设置,在此不作具体限定。
应理解的是,在多个子编码结构串联时,也可以根据最后一个子编码结构机器对应的适配器的输出确定对应的任务处理结果,以提高任务处理的效率。
应理解的是,假设给定T个任务,相关技术中的特定任务适配器在每个transformer层中***T个适配器,若每个适配器由2kd参数组成,用于下采样投影和上采样投影,那么,具有L层的transformer模型的可训练参数总数为TL·2kd;相关技术中的共享适配器在每个具有L·2kd参数的transformer层中***单个适配器;本实施例提供的适配器包括指示提取结构,对于T个任务,该模块的参数为2Td,也即,可训练参数的总数为L(2kd+ 2Td),也即,本申请实施例所需的可训练参数的总数,相对于原来的transformer模型,仅仅是其1%左右的参数,减少了可训练参数的数量,降低成本。
此外,由于相关技术中的特定任务适配器在训练和推理过程中为每个任务建立了单独的路径,因此,每个输入数据必须通过编码器T次才能获得T个任务的预测,也即,特定适配器的训练和推理效率为O(T)。而本申请实施例提供的适配器,允许目标通用特征通过编码器,而目标私有特征需要通过适配器进行计算,减少了编码器的计算量,提高了训练和推理效率。
基于上述实施例提供的任务处理方法,多任务处理模型可以通过以下方式训练:
D1:获取多个任务各自对应的训练样本。
其中,训练样本中包括训练数据及其对应的标注结果。作为一种示例,假设需要确定图像是否为合规图像,此时,训练数据可以为多个训练图像,对应的标注结果可以为合规或违规,具体如图5所示,该图为本申请实施例提供的一种任务处理场景的示意图。
其中,不同任务可以包括相同或格式相同的训练样本,但是训练样本的标注结果不同,比如,假设包括任务A和任务B,任务A对应的训练样本可以包括训练数据X及其对应的标注结果Y,任务B对应的训练样本可以包括训练数据X及其对应的标注结果Z,虽然任务A对应的训练数据X和任务B对应的训练数据X相同,但是,任务A对应的训练数据的标注结果为Y,任务B对应的训练数据的标注结果为Z。
D2:针对每个任务,通过待训练的多任务处理模型,根据任务对应的训练样本中的训练数据,确定训练样本对应的训练处理结果。并根据训练处理结果和训练样本中的标注结果,调整多任务处理模型中适配器包括的共享投影结构和任务对应的知识提取结构的模型参数、以及任务对应的解码器的模型参数。
应理解的是,待训练的多任务处理模型在对训练样本中的训练数据进行处理的过程与上述实施例中的多任务处理模型对待处理数据的处理过程类似,因此不再赘述。
其中,在训练过程中,可以基于训练处理结果与标注结果之间的差异,确定损失值,进而根据该损失值构建损失函数,基于该损失函数调整适配器的参数,如此,基于不同的训练样本迭代执行上述操作,直至所训练的多任务处理模型满足训练结束条件为止,例如,直至对于多任务处理模型的训练次数达到预设次数,或者多任务处理模型的性能达到预设性能要求。
在本申请实施例中,通过对适配器的共享投影结构和知识提取结构进行训练,并调整多任务处理模型中适配器包括的共享投影结构和任务对应的知识提取结构的模型参数、以及任务对应的解码器的模型参数,可以在训练的过程中让多个任务之间进行交互,使得多个任务之间的信息能够互补,也即,可以通过适配器的共享投影结构得到目标通用特征,此外,可以通过训练使得知识提取结构获得各个任务对应的独立的特征信息,也即目标私有特征,以提高***训练好的适配器的预训练模型在多个任务中的性能。
参见图6,该图为本申请实施例提供的一种任务处理装置的结构示意图。
结合图6所示,本申请实施例提供的任务处理装置600,可以包括:
数据获取模块601,用于获取待处理数据;
第一特征提取模块602,用于通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征;多任务处理模型用于基于输入的数据执行多个任务;
第二特征提取模块603,用于通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征;适配器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;
解码模块604,用于通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果;多任务处理模型中包括多个任务各自对应的解码器。
作为一种示例,第二特征提取模块603,包括:
参考通用特征确定单元,用于通过适配器中的共享投影结构,根据待处理数据或者参考特征,确定参考通用特征;
门控单元,用于通过适配器中的门控结构,根据参考通用特征,确定第一子参考通用特征和第二子参考通用特征;
参考私有特征确定单元,用于通过适配器中的每个知识提取结构,根据第二子参考通用特征,确定知识提取结构对应的任务的参考私有特征;
第二特征提取单元,用于针对每个任务,根据第一子参考通用特征以及任务的参考私有特征,确定任务的目标私有特征。
作为一种示例,参考通用特征确定单元,包括:
第一处理子单元,用于通过共享投影结构中的下采样投影层,对待处理数据或者参考特征进行下采样处理,得到参考下采样特征;
第二处理子单元,用于通过共享投影结构中的非线性层,对参考下采样特征进行非线性变换处理,得到参考变换特征;
参考通用特征确定子单元,用于通过共享投影结构中的上采样投影层,对参考变换特征进行上采样处理,得到参考通用特征。
作为一种示例,参考私有特征确定单元,包括:
第三处理子单元,用于通过知识提取结构中的比例因子,对第二子参考通用特征进行缩放处理,得到参考缩放特征;
参考私有特征确定子单元,用于通过知识提取结构中的移位因子,对参考缩放特征进行移位处理,得到任务的参考私有特征。
作为一种示例,预训练模型中包括多个子编码结构,多任务处理模型中包括多个子编码结构各自对应的适配器;
第一特征提取模块602,具体用于:
通过预训练模型中的每个子编码结构,根据子编码结构的输入数据,确定子编码结构输出的目标通用特征;子编码结构的输入数据为待处理数据、或者其它子编码结构输出的目标通用特征;
第二特征提取模块603,具体用于:
通过每个适配器,根据适配器的输入数据,确定适配器输出的多个任务各自的目标私有特征;适配器的输入数据为适配器对应的子编码结构的输入数据、或者适配器对应的子编码结构生成的参考特征。
作为一种示例,解码模块604,具体用于:
通过每个解码器,根据各个子编码结构各自输出的目标通用特征、以及各个适配器各自输出的解码器对应的任务的目标私有特征,确定解码器对应的任务的处理结果。
作为一种示例,多任务处理模型通过以下方式训练:
训练获取模块,用于获取多个任务各自对应的训练样本;训练样本中包括训练数据及其对应的标注结果;
训练模块,用于针对每个任务,通过待训练的多任务处理模型,根据任务对应的训练样本中的训练数据,确定训练样本对应的训练处理结果;并根据训练处理结果和训练样本中的标注结果,调整多任务处理模型中适配器包括的共享投影结构和任务对应的知识提取结构的模型参数、以及任务对应的解码器的模型参数。
作为一种示例,当待处理数据为图像数据时,多任务处理模型执行的多个任务包括语义分割任务、实例分割任务、全景分割任务、人体分割任务、显著性检测任务中的至少两个。
本申请实施例提供的任务处理装置与上述实施例提供的任务处理方法具有相同的有益效果,因此不再赘述。
本申请实施例还提供了一种计算机设备,该计算机设备具体可以是终端设备或者服务器,下面将从硬件实体化的角度对本申请实施例提供的终端设备和服务器进行介绍。
参见图7,图7为本申请实施例提供的终端设备的结构示意图。如图7所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端(Point ofSales,POS)、车载电脑等任意终端设备,以终端为计算机为例:
图7示出的是与本申请实施例提供的终端相关的计算机的部分结构的框图。参考图7,计算机包括:射频(Radio Frequency,RF)电路1210、存储器1220、输入单元1230(其中包括触控面板1231和其他输入设备1232)、显示单元1240(其中包括显示面板1241)、传感器1250、音频电路1260(其可以连接扬声器1261和传声器1262)、无线保真(wirelessfidelity,WiFi)模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解,图7中示出的计算机结构并不构成对计算机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器1220可用于存储软件程序以及模块,处理器1280通过运行存储在存储器1220的软件程序以及模块,从而执行计算机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1280是计算机的控制中心,利用各种接口和线路连接整个计算机的各个部分,通过运行或执行存储在存储器1220内的软件程序和/或模块,以及调用存储在存储器1220内的数据,执行计算机的各种功能和处理数据。可选的,处理器1280可包括一个或多个处理单元;优选的,处理器1280可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1280中。
在本申请实施例中,该终端所包括的处理器1280还具有以下功能:
获取待处理数据;
通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征;多任务处理模型用于基于输入的数据执行多个任务;
通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征;适配器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;
通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果;多任务处理模型中包括多个任务各自对应的解码器。
可选的,所述处理器1280还用于执行本申请实施例提供的任务处理方法的任意一种实现方式的步骤。
参见图8,图8为本申请实施例提供的一种服务器1300的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processing units,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作***,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器结构。
其中,CPU 1322用于执行如下步骤:
获取待处理数据;
通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征;多任务处理模型用于基于输入的数据执行多个任务;
通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征;适配器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;
通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果;多任务处理模型中包括多个任务各自对应的解码器。
可选的,CPU 1322还可以用于执行本申请实施例提供的任务处理方法的任意一种实现方式的步骤。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的一种任务处理方法中的任意一种实施方式。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例所述的一种任务处理方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种任务处理方法,其特征在于,所述方法包括:
获取待处理数据;
通过多任务处理模型中的预训练模型,根据所述待处理数据,确定目标通用特征;所述多任务处理模型用于基于输入的数据执行多个任务;
通过所述多任务处理模型中的适配器,根据所述待处理数据或者所述预训练模型处理所述待处理数据时生成的参考特征,确定所述多个任务各自的目标私有特征;所述适配器中包括共享投影结构和所述多个任务各自对应的知识提取结构,所述共享投影结构用于提取参考通用特征,所述知识提取结构用于基于所述参考通用特征提取其对应的任务的参考私有特征,所述任务的目标私有特征根据所述任务的参考私有特征确定;
通过所述多任务处理模型中的每个解码器,根据所述解码器对应的任务的目标私有特征以及所述目标通用特征,确定所述解码器对应的任务的处理结果;所述多任务处理模型中包括所述多个任务各自对应的解码器。
2.根据权利要求1所述的方法,其特征在于,所述通过所述多任务处理模型中的适配器,根据所述待处理数据或者所述预训练模型处理所述待处理数据时生成的参考特征,确定所述多个任务各自的目标私有特征,包括:
通过所述适配器中的所述共享投影结构,根据所述待处理数据或者所述参考特征,确定所述参考通用特征;
通过所述适配器中的门控结构,根据所述参考通用特征,确定第一子参考通用特征和第二子参考通用特征;
通过所述适配器中的每个所述知识提取结构,根据所述第二子参考通用特征,确定所述知识提取结构对应的任务的参考私有特征;
针对每个所述任务,根据所述第一子参考通用特征以及所述任务的参考私有特征,确定所述任务的目标私有特征。
3.根据权利要求2所述的方法,其特征在于,所述通过所述适配器中的所述共享投影结构,根据所述待处理数据或者所述参考特征,确定所述参考通用特征,包括:
通过所述共享投影结构中的下采样投影层,对所述待处理数据或者所述参考特征进行下采样处理,得到参考下采样特征;
通过所述共享投影结构中的非线性层,对所述参考下采样特征进行非线性变换处理,得到参考变换特征;
通过所述共享投影结构中的上采样投影层,对所述参考变换特征进行上采样处理,得到所述参考通用特征。
4.根据权利要求2所述的方法,其特征在于,所述通过所述适配器中的每个所述知识提取结构,根据所述第二子参考通用特征,确定所述知识提取结构对应的任务的参考私有特征,包括:
通过所述知识提取结构中的比例因子,对所述第二子参考通用特征进行缩放处理,得到参考缩放特征;
通过所述知识提取结构中的移位因子,对所述参考缩放特征进行移位处理,得到所述任务的参考私有特征。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述预训练模型中包括多个子编码结构,所述多任务处理模型中包括所述多个子编码结构各自对应的适配器;
所述通过多任务处理模型中的预训练模型,根据所述待处理数据,确定目标通用特征,包括:
通过所述预训练模型中的每个所述子编码结构,根据所述子编码结构的输入数据,确定所述子编码结构输出的目标通用特征;所述子编码结构的输入数据为所述待处理数据、或者其它所述子编码结构输出的目标通用特征;
所述通过所述多任务处理模型中的适配器,根据所述待处理数据或者所述预训练模型处理所述待处理数据时生成的参考特征,确定所述多个任务各自的目标私有特征,包括:
通过每个所述适配器,根据所述适配器的输入数据,确定所述适配器输出的所述多个任务各自的目标私有特征;所述适配器的输入数据为所述适配器对应的子编码结构的输入数据、或者所述适配器对应的子编码结构生成的参考特征。
6.根据权利要求5所述的方法,其特征在于,所述通过所述多任务处理模型中的每个解码器,根据所述解码器对应的任务的目标私有特征以及所述目标通用特征,确定所述解码器对应的任务的处理结果,包括:
通过每个所述解码器,根据各个所述子编码结构各自输出的目标通用特征、以及各个所述适配器各自输出的所述解码器对应的任务的目标私有特征,确定所述解码器对应的任务的处理结果。
7.根据权利要求1所述的方法,其特征在于,所述多任务处理模型通过以下方式训练:
获取所述多个任务各自对应的训练样本;所述训练样本中包括训练数据及其对应的标注结果;
针对每个所述任务,通过待训练的所述多任务处理模型,根据所述任务对应的训练样本中的训练数据,确定所述训练样本对应的训练处理结果;并根据所述训练处理结果和所述训练样本中的标注结果,调整所述多任务处理模型中所述适配器包括的所述共享投影结构和所述任务对应的知识提取结构的模型参数、以及所述任务对应的解码器的模型参数。
8.根据权利要求1所述的方法,其特征在于,当所述待处理数据为图像数据时,所述多任务处理模型执行的所述多个任务包括语义分割任务、实例分割任务、全景分割任务、人体分割任务、显著性检测任务中的至少两个。
9.一种任务处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取待处理数据;
第一特征提取模块,用于通过多任务处理模型中的预训练模型,根据所述待处理数据,确定目标通用特征;所述多任务处理模型用于基于输入的数据执行多个任务;
第二特征提取模块,用于通过所述多任务处理模型中的适配器,根据所述待处理数据或者所述预训练模型处理所述待处理数据时生成的参考特征,确定所述多个任务各自的目标私有特征;所述适配器中包括共享投影结构和所述多个任务各自对应的知识提取结构,所述共享投影结构用于提取参考通用特征,所述知识提取结构用于基于所述参考通用特征提取其对应的任务的参考私有特征,所述任务的目标私有特征根据所述任务的参考私有特征确定;
解码模块,用于通过所述多任务处理模型中的每个解码器,根据所述解码器对应的任务的目标私有特征以及所述目标通用特征,确定所述解码器对应的任务的处理结果;所述多任务处理模型中包括所述多个任务各自对应的解码器。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器及存储器;
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1至8中任一项所述的任务处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1至8中任一项所述的任务处理方法。
CN202311358507.XA 2023-10-19 2023-10-19 一种任务处理方法及相关装置 Active CN117094362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311358507.XA CN117094362B (zh) 2023-10-19 2023-10-19 一种任务处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311358507.XA CN117094362B (zh) 2023-10-19 2023-10-19 一种任务处理方法及相关装置

Publications (2)

Publication Number Publication Date
CN117094362A true CN117094362A (zh) 2023-11-21
CN117094362B CN117094362B (zh) 2024-02-09

Family

ID=88780217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311358507.XA Active CN117094362B (zh) 2023-10-19 2023-10-19 一种任务处理方法及相关装置

Country Status (1)

Country Link
CN (1) CN117094362B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934451A (zh) * 2024-03-13 2024-04-26 中国水利水电第一工程局有限公司 应用于光伏电站的无人机巡检方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021151296A1 (zh) * 2020-07-22 2021-08-05 平安科技(深圳)有限公司 多任务分类方法、装置、计算机设备及存储介质
CN113704388A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 多任务预训练模型的训练方法、装置、电子设备和介质
WO2021259305A1 (zh) * 2020-06-24 2021-12-30 华为技术有限公司 一种多任务学习方法及装置
CN114282681A (zh) * 2021-08-11 2022-04-05 腾讯科技(深圳)有限公司 多任务处理及模型的训练方法、装置、介质及设备
CN114424215A (zh) * 2019-09-25 2022-04-29 谷歌有限责任公司 多任务适配器神经网络
US20220147721A1 (en) * 2020-11-10 2022-05-12 Naver Corporation Adapters for zero-shot multilingual neural machine translation
US20220343139A1 (en) * 2021-04-15 2022-10-27 Peyman PASSBAN Methods and systems for training a neural network model for mixed domain and multi-domain tasks
CN115269767A (zh) * 2021-04-14 2022-11-01 华为技术有限公司 模型训练方法、装置和存储介质
CN115391499A (zh) * 2022-07-22 2022-11-25 网易(杭州)网络有限公司 生成多任务生成模型的方法、问答对生成方法和相关装置
CN116524183A (zh) * 2023-04-16 2023-08-01 西北工业大学 一种基于多任务适配器微调的伪装目标检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114424215A (zh) * 2019-09-25 2022-04-29 谷歌有限责任公司 多任务适配器神经网络
WO2021259305A1 (zh) * 2020-06-24 2021-12-30 华为技术有限公司 一种多任务学习方法及装置
WO2021151296A1 (zh) * 2020-07-22 2021-08-05 平安科技(深圳)有限公司 多任务分类方法、装置、计算机设备及存储介质
US20220147721A1 (en) * 2020-11-10 2022-05-12 Naver Corporation Adapters for zero-shot multilingual neural machine translation
CN113704388A (zh) * 2021-03-05 2021-11-26 腾讯科技(深圳)有限公司 多任务预训练模型的训练方法、装置、电子设备和介质
CN115269767A (zh) * 2021-04-14 2022-11-01 华为技术有限公司 模型训练方法、装置和存储介质
US20220343139A1 (en) * 2021-04-15 2022-10-27 Peyman PASSBAN Methods and systems for training a neural network model for mixed domain and multi-domain tasks
CN114282681A (zh) * 2021-08-11 2022-04-05 腾讯科技(深圳)有限公司 多任务处理及模型的训练方法、装置、介质及设备
CN115391499A (zh) * 2022-07-22 2022-11-25 网易(杭州)网络有限公司 生成多任务生成模型的方法、问答对生成方法和相关装置
CN116524183A (zh) * 2023-04-16 2023-08-01 西北工业大学 一种基于多任务适配器微调的伪装目标检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117934451A (zh) * 2024-03-13 2024-04-26 中国水利水电第一工程局有限公司 应用于光伏电站的无人机巡检方法及***
CN117934451B (zh) * 2024-03-13 2024-06-21 中国水利水电第一工程局有限公司 应用于光伏电站的无人机巡检方法及***

Also Published As

Publication number Publication date
CN117094362B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN111898696B (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
JP7373554B2 (ja) クロスドメイン画像変換
Liu et al. Real-time robust vision-based hand gesture recognition using stereo images
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN112883149B (zh) 一种自然语言处理方法以及装置
US20220222925A1 (en) Artificial intelligence-based image processing method and apparatus, device, and storage medium
CN113435365B (zh) 人脸图像迁移方法及装置
CN109034206A (zh) 图像分类识别方法、装置、电子设备及计算机可读介质
Zhou et al. A lightweight hand gesture recognition in complex backgrounds
CN117094362B (zh) 一种任务处理方法及相关装置
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN114298997B (zh) 一种伪造图片检测方法、装置及存储介质
WO2022161302A1 (zh) 动作识别方法、装置、设备、存储介质及计算机程序产品
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
CN114495916B (zh) 背景音乐的***时间点确定方法、装置、设备和存储介质
WO2022222854A1 (zh) 一种数据处理方法及相关设备
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN112115744A (zh) 点云数据的处理方法及装置、计算机存储介质、电子设备
JP7479507B2 (ja) 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム
CN117011416A (zh) 一种图像处理方法、装置、设备、介质及程序产品
CN117036658A (zh) 一种图像处理方法及相关设备
CN114282543A (zh) 文本数据处理方法、装置、计算机设备及存储介质
CN114298961A (zh) 图像处理方法、装置、设备及存储介质
CN114692715A (zh) 一种样本标注方法及装置
CN117173731B (zh) 一种模型训练的方法、图像处理的方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant