CN116563660A - 一种基于预训练大模型的图像处理方法及相关装置 - Google Patents

一种基于预训练大模型的图像处理方法及相关装置 Download PDF

Info

Publication number
CN116563660A
CN116563660A CN202210109103.6A CN202210109103A CN116563660A CN 116563660 A CN116563660 A CN 116563660A CN 202210109103 A CN202210109103 A CN 202210109103A CN 116563660 A CN116563660 A CN 116563660A
Authority
CN
China
Prior art keywords
image
training
target image
large model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210109103.6A
Other languages
English (en)
Inventor
常建龙
张恒亨
陈鑫
史佳欣
王志宇
宁可
田奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Priority to CN202210109103.6A priority Critical patent/CN116563660A/zh
Priority to PCT/CN2023/070316 priority patent/WO2023142918A1/zh
Publication of CN116563660A publication Critical patent/CN116563660A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于预训练大模型的图像处理方法及相关装置,通过生成网络获取训练图像的特征图像,特征图像的分辨率与训练图像的分辨率相同;将训练图像和特征图像进行融合,得到目标图像;将目标图像输入到预训练大模型中,得到处理结果;根据处理结果,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新。本申请中,针对每个下游任务配置了生成网络,在训练过程中,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新,从而减少了在下游任务上部署预训练大模型时的训练开销,减少了模型训练难度与迭代更新的难度。

Description

一种基于预训练大模型的图像处理方法及相关装置
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种基于预训练大模型的图像处理方法及相关装置。
背景技术
预训练大模型的出现很大程度上改变了传统人工智能(artificialintelligence,AI)模型中针对单个任务场景专门设计网络的现状,预训练大模型凭借着自身庞大的规模与大量的计算资源,能够对海量数据中的数据进行挖掘,进而适用于多个碎片化AI任务实现通用AI的目的,最终解决AI落地中遇到的碎片化问题。随着算力的提升和视觉大模型容量的不断增加,如何高效地将视觉大模型迁移到下游任务中成为了该领域的重点。
在预训练大模型的视觉大模型的场景中,主要是基于下游任务的训练数据,来对整个视觉大模型的参数进行微调,将更新后的视觉大模型的参数进行存储,从而应用于下游任务。
由于需要针对每个下游任务来独立微调整个视觉大模型的所有参数,因此,在当前视觉大模型的容量不断增大的情况下,这类微调方法需要带来巨大的训练开销。
发明内容
本申请实施例提供了一种基于预训练大模型的图像处理方法及相关装置,用于减少在下游任务上部署预训练大模型时的训练开销。
第一方面,本申请实施例提供了一种基于预训练大模型的图像处理方法,针对每个下游任务,配置一个对应的生成网络。训练图像会先输入到生成网络中,通过生成网络生成训练图像对应的目标图像。生成网络也是一个神经网络单元,可以依据该下游任务的需求,进行特征提取、特征变换,从而生成针对于该下游任务的特定提示信息(即目标图像)。
目标图像输入到预训练大模型之后,便由该预训练大模型进行图像处理,并经过头部分类器,得到处理结果。
本申请中,对预训练大模型的参数进行冻结,即保持预训练大模型的参数不变,然后对生成网络的参数进行训练。待生成网络训练完毕之后,便投入到针对于该下游任务的实际应用当中。
具体的,整个训练流程中,除了预训练大模型外,其他神经网络单元的参数都是可更新的,包括生成网络的参数、上采样层的参数、卷积层的参数以及头部分类器的参数。本申请中,针对每个下游任务配置了生成网络,在训练过程中,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新,从而减少了在下游任务上部署预训练大模型时的训练开销,减少了模型训练难度与迭代更新的难度。另一方面,由于该生成网络是可训练的,因此,下游任务的输入图像先经过生成网络得到针对于该下游任务的特定提示信息(即目标图像),能够更加贴合下游任务的场景,使得整个基于预训练大模型的图像处理流程能够具备更好的泛化能力,适应不同下游任务的需求。
基于第一方面,一种可选的实施方式中,训练图像输入到生成网络之后,生成网络可以输出该训练图像的特征图像。然后将该特征图像与该训练图像进行融合,得到目标图像。需要说明的是,为了便于进行图像融合,该特征图像应当与训练图像的分辨率相同。
基于第一方面,一种可选的实施方式中,预训练大模型的对于输入图像的颜色通道数量是有一定规格的。而经过图像融合所生成的目标图像,其颜色通道的数量往往发生变化,此时,可以在该预训练大模型之前添加一个卷积层,用于对该目标图像进行卷积处理,从而更新后的目标图像便可以满足预训练大模型的对于颜色通道数量的规格,则更新后的目标图像便可以输入到预训练大模型当中。
基于第一方面,一种可选的实施方式中,生成网络可以是视觉转换器模型(visiontransformer model,VIT)、卷积神经网络(convosutionas neuras network,CNN)或者循环神经网络(recurrent neural network,RNN),也还可以是其他可训练的神经网络模型,具体此处不做限定。
进一步的,训练图像输入到生成网络之后,生成网络可以输出该训练图像的特征图像。然后将该特征图像与该训练图像进行融合,得到目标图像。需要说明的是,为了便于进行图像融合,该特征图像应当与训练图像的分辨率相同。在实际应用中,若生成网络所输出的图像的分辨率小于该训练图像时,可以对生成网络所输出的图像进行上采样,得到与训练图像的分辨率一致的特征图像,从而用于后续的图像融合。
基于第一方面,一种可选的实施方式中,通过一个轻量级的视觉转换器模型VIT来构建生成网络,该视觉转化器模型由线性投影层和三层(L=3)堆叠的转换器层组成。具体的,训练图像输入到该生成网络之后,采用线性投影层将训练图像切分成一系列局部的图像块,并对其附加位置编码信息作为图像块编码,最终视觉转换器模型输出针对于该训练图像的特征提取结果。经过视觉转换器模型输出的特征提取结果,其分辨率是相较于训练图像更低,因此,该生成网络中,还包括一个上采样层,用于对视觉转换器模型输出的特征提取结果进行上采样,从而得到与训练图像的分辨率一致的特征图像。
需要说明的是,本申请中,并不限定具体的上采样手段,即可以通过反卷积操作来完成上采样,也还可以是其他的上采样手段,例如,双线性插值(bilinear)或反池化(Unpooling)等,具体此处不做限定。
第二方面,本申请实施例提供了一种基于预训练大模型的图像处理方法,包括:
通过生成网络获取输入图像的目标图像;
将目标图像输入到预训练大模型中,得到处理结果。
基于第二方面,一种可选的实施方式中,通过生成网络获取输入图像的目标图像,包括:
通过生成网络获取输入图像的特征图像,特征图像的分辨率与输入图像的分辨率相同;
将输入图像和特征图像进行融合,得到目标图像。
本方面所示实施例的信息交互和执行过程等内容,与第一方面所示的实施例基于同一构思,因此,本方面所示的有益效果的说明,请详见上述第一方面所示,具体此处不做赘述。
基于第二方面,一种可选的实施方式中,将目标图像输入到预训练大模型中,得到处理结果之前,方法还包括:
对目标图像进行卷积处理,得到更新后的目标图像,更新后的目标图像用于输入到预训练大模型中。
基于第二方面,一种可选的实施方式中,生成网络包括视觉转换器ViT模型和上采样层,通过生成网络获取输入图像的特征图像包括:
通过ViT模型对输入图像进行特征提取,得到特征提取结果;
将特征提取结果输入到上采样层,得到特征图像。
基于第二方面,一种可选的实施方式中,生成网络为卷积神经网络CNN。
基于第二方面,一种可选的实施方式中,生成网络为循环神经网络RNN。
第三方面,本申请实施例提供了一种图像处理装置,其特征在于,包括:
获取单元,用于通过生成网络获取训练图像的目标图像;
输入单元,用于将目标图像输入到预训练大模型中,得到处理结果;
更新单元,用于根据处理结果,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新。
基于第三方面,一种可选的实施方式中,获取单元具体用于:
通过生成网络获取训练图像的特征图像,特征图像的分辨率与训练图像的分辨率相同;
将训练图像和特征图像进行融合,得到目标图像。
基于第三方面,一种可选的实施方式中,图像处理装置还包括:
卷积单元,用于对目标图像进行卷积处理,得到更新后的目标图像,更新后的目标图像用于输入到预训练大模型中。
基于第三方面,一种可选的实施方式中,获取单元具体用于:
通过ViT模型对训练图像进行特征提取,得到特征提取结果;
将特征提取结果输入到上采样层,得到特征图像。
基于第三方面,一种可选的实施方式中,生成网络为卷积神经网络CNN。
基于第三方面,一种可选的实施方式中,生成网络为循环神经网络RNN。
第四方面,本申请实施例提供了一种图像处理装置,其特征在于,包括:
获取单元,用于通过生成网络获取输入图像的目标图像;
输入单元,用于将目标图像输入到预训练大模型中,得到处理结果。
基于第四方面,一种可选的实施方式中,获取单元具体用于:
通过生成网络获取输入图像的特征图像,特征图像的分辨率与输入图像的分辨率相同;
将输入图像和特征图像进行融合,得到目标图像。
基于第四方面,一种可选的实施方式中,图像处理装置还包括:
卷积单元,用于对目标图像进行卷积处理,得到更新后的目标图像,更新后的目标图像用于输入到预训练大模型中。
基于第四方面,一种可选的实施方式中,获取单元具体用于:
通过ViT模型对输入图像进行特征提取,得到特征提取结果;
将特征提取结果输入到上采样层,得到特征图像。
基于第四方面,一种可选的实施方式中,生成网络为卷积神经网络CNN。
基于第四方面,一种可选的实施方式中,生成网络为循环神经网络RNN。
第五方面,本发明实施例提供了一种计算机设备,包括存储器、通信接口及与所述存储器和通信接口耦合的处理器;所述存储器用于存储指令,所述处理器用于执行所述指令,所述通信接口用于在所述处理器的控制下与其他设备进行通信;其中,所述处理器执行所述指令时执行上述任一方面所述的方法。
第六方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述任一方面所述的方法。
第七方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,当其在计算机上运行时,使得计算机执行上述任一方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请公开了一种基于预训练大模型的图像处理方法及相关装置,通过生成网络获取训练图像的特征图像,特征图像的分辨率与训练图像的分辨率相同;将训练图像和特征图像进行融合,得到目标图像;将目标图像输入到预训练大模型中,得到处理结果;根据处理结果,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新。本申请中,针对每个下游任务配置了生成网络,在训练过程中,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新,从而减少了在下游任务上部署预训练大模型时的训练开销,减少了模型训练难度与迭代更新的难度。另一方面,由于该生成网络是可训练的,因此,下游任务的输入图像先经过生成网络得到针对于该下游任务的特定提示信息(即目标图像),使得整个基于预训练大模型的图像处理流程能够具备更好的泛化能力,适应不同下游任务的需求。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为人工智能主体框架的一种结构示意图;
图2为现有的预训练大模型的一种微调方法的流程示意图;
图3为现有的预训练大模型的另一种微调方法的流程示意图;
图4为本申请实施例中基于预训练大模型的图像处理方法的流程示意图;
图5为本申请中通过transformer网络来生成目标图像的流程示意图;
图6为本申请中多个不同的下游任务共享预训练大模型的场景示意图;
图7为本申请实施例提供的一种图像处理装置的结构示意图;
图8为本申请实施例提供的另一种图像处理装置的结构示意图;
图9为本申请实施例提供的计算机设备一种结构示意图。
具体实施方式
本申请实施例提供了一种基于预训练大模型的图像处理方法及相关装置,用于减少在下游任务上部署预训练大模型时的训练开销。
下面结合本发明实施例中的附图对本发明实施例进行描述。本发明的实施方式部分使用的术语仅用于对本发明的具体实施例进行解释,而非旨在限定本发明。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先对人工智能***总体工作流程进行描述,请参见图1,图1示出的为人工智能主体框架的一种结构示意图,下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。其中,“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到***的产业生态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施。
基础设施为人工智能***提供计算能力支持,实现与外部世界的沟通,并通过基础平台实现支撑。通过传感器与外部沟通;计算能力由智能芯片来提供,例如,中央处理器(central processing units,CPU)、嵌入式神经网络处理器(neural-network processingunit,NPU)、图形处理器(graphics processing unit,GPU)、专用集成电路(applicationspecific integrated circuit,ASIC)、现场可编程逻辑门阵列(field programmablegate array,FPGA)等硬件加速芯片;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算***中的智能芯片进行计算。
(2)数据。
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本,还涉及到传统设备的物联网数据,包括已有***的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理。
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
推理是指在计算机或智能***中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力。
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用***,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用。
智能产品及行业应用指人工智能***在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能终端、智能交通、智能医疗、自动驾驶、智慧城市等。
本申请中所提供的基于预训练大模型的图像处理方法,所应用的场景,包括但不限于上述示例。具体的,可以应用于数据训练、机器学习、深度学习等数据处理方法,对训练数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到训练好的神经网络模型(如本申请实施例中的目标神经网络模型);并且目标神经网络模型可以用于进行模型推理,具体可以将输入数据输入到目标神经网络模型中,得到输出数据。
接下来,对预训练大模型进行介绍。
深度学习模型规模正朝着不断变深、变宽、参数量变大的方向发展。传统的人工智能(artificial intelligence,AI)模型基本上是针对特定应用场景需求进行训练的小模型。小模型用特定领域有标注的数据训练,通用性差,换到另外一个应用场景中往往不适用,需要重新训练。另外,传统AI模型的训练方式中,调参、调优的手动工作太多,需要大量的AI工程专业人员来完成。同时,传统AI模型训练需要大规模的标注数据,如果某些应用场景的数据量少,训练出的模型精度就会不理想。
预训练大模型的出现很大程度上改变了传统AI模型中针对单个任务场景专门设计网络的现状,预训练大模型凭借着自身庞大的规模与大量的计算资源,能够对海量数据中的数据进行挖掘,进而适用于多个碎片化AI任务实现通用AI的目的,最终解决AI落地中遇到的碎片化问题。随着算力的提升和视觉大模型容量的不断增加,如何高效地将视觉大模型迁移到下游任务中成为了该领域的重点。
目前主要有两种针对于预训练大模型的微调方法。
1:请参阅图2,图2为现有的预训练大模型的一种微调方法的流程示意图。如图2所示,预训练大模型和头部分类器的参数都是可调整的,该流程基于下游任务的训练数据,来执行端到端的训练,从而对整个视觉大模型的参数进行微调,将更新后的视觉大模型的参数进行存储,从而应用于下游任务。
由于需要针对每个下游任务来独立微调整个视觉大模型的所有参数,因此,在当前视觉大模型的容量不断增大的情况下,这类微调方法需要带来巨大的训练开销。另一方面,下游任务的数据量显著小于预训练大模型其自身训练过程的数据量,因此在下游任务上微调整个大模型会导致严重的过拟合风险,无法保证大模型对下游任务的泛化能力。
2:请参阅图3,图3为现有的预训练大模型的另一种微调方法的流程示意图。如图3所示,预训练大模型是被冻结的,不参与微调,头部分类器的参数是可调整的。该流程基于下游任务的训练数据,来执行端到端的训练,从而对头部分类器的参数进行微调。
这种微调方法中,由于仅仅在下游数据上微调头部分类器的参数,保持预训练大模型的参数冻结,预训练大模型无法充分地在下游任务上进行学习,很难将预训练大模型中的知识迁移到下游任务上。
有鉴于此,本申请提供了一种基于预训练大模型的图像处理方法,用于减少在下游任务上部署预训练大模型时的训练开销。请参阅图4,图4为本申请实施例中基于预训练大模型的图像处理方法的流程示意图,如图4所示,本申请实施例中基于预训练大模型的图像处理方法包括:
101.通过生成网络获取训练图像的目标图像。
本申请实施例中,针对每个下游任务,配置一个对应的生成网络。训练图像会先输入到生成网络中,通过生成网络生成训练图像对应的目标图像。生成网络也是一个神经网络单元,可以依据该下游任务的需求,进行特征提取、特征变换,从而生成针对于该下游任务的特定提示信息(即目标图像)。
具体的,生成网络可以是视觉转换器模型(vision transformer model,VIT)、卷积神经网络(convosutionas neuras network,CNN)或者循环神经网络(recurrent neuralnetwork,RNN),也还可以是其他可训练的神经网络模型,具体此处不做限定。
进一步的,训练图像输入到生成网络之后,生成网络可以输出该训练图像的特征图像。然后将该特征图像与该训练图像进行融合,得到目标图像。需要说明的是,为了便于进行图像融合,该特征图像应当与训练图像的分辨率相同。在实际应用中,若生成网络所输出的图像的分辨率小于该训练图像时,可以对生成网络所输出的图像进行上采样,得到与训练图像的分辨率一致的特征图像,从而用于后续的图像融合。
示例性的,请参阅图5,图5为本申请中通过transformer网络来生成目标图像的流程示意图。如图5所示,通过一个轻量级的视觉转换器模型VIT来构建生成网络,该视觉转化器模型由线性投影层和三层(L=3)堆叠的转换器层组成。具体的,训练图像输入到该生成网络之后,采用线性投影层将训练图像切分成一系列局部的图像块,并对其附加位置编码信息作为图像块编码,最终视觉转换器模型输出针对于该训练图像的特征提取结果。经过视觉转换器模型输出的特征提取结果,其分辨率是相较于训练图像更低,因此,该生成网络中,还包括一个上采样层,用于对视觉转换器模型输出的特征提取结果进行上采样(例如图5中的反卷积层),从而得到与训练图像的分辨率一致的特征图像。
需要说明的是,本申请中,并不限定具体的上采样手段,即可以通过图5中的反卷积操作来完成上采样,也还可以是其他的上采样手段,例如,双线性插值(bilinear)或反池化(Unpooling)等,具体此处不做限定。
进一步的,在实际应用中,预训练大模型的对于输入图像的颜色通道数量是有一定规格的。而经过图像融合所生成的目标图像,其颜色通道的数量往往发生变化,此时,可以在该预训练大模型之前添加一个卷积层,用于对该目标图像进行卷积处理,从而更新后的目标图像便可以满足预训练大模型的对于颜色通道数量的规格,则更新后的目标图像便可以输入到预训练大模型当中。
102.将目标图像输入到预训练大模型中,得到处理结果。
目标图像输入到预训练大模型之后,便由该预训练大模型进行图像处理,并经过头部分类器,得到处理结果。
103.根据处理结果,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新。
本申请中,对预训练大模型的参数进行冻结,即保持预训练大模型的参数不变,然后对生成网络的参数进行训练。待生成网络训练完毕之后,便投入到针对于该下游任务的实际应用当中。具体的模型推理流程,与上述步骤101至步骤102相类似,此处不再进行赘述。
具体的,整个训练流程中,除了预训练大模型外,其他神经网络单元的参数都是可更新的,包括生成网络的参数、上采样层的参数、卷积层的参数以及头部分类器的参数。本申请中,针对每个下游任务配置了生成网络,在训练过程中,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新,从而减少了在下游任务上部署预训练大模型时的训练开销,减少了模型训练难度与迭代更新的难度。另一方面,由于该生成网络是可训练的,因此,下游任务的输入图像先经过生成网络得到针对于该下游任务的特定提示信息(即目标图像),能够更加贴合下游任务的场景,使得整个基于预训练大模型的图像处理流程能够具备更好的泛化能力,适应不同下游任务的需求。
请参阅图6,图6为本申请中多个不同的下游任务共享预训练大模型的场景示意图。如图6所示,本申请的基于预训练大模型的图像处理方法中,预训练大模型的参数对于不同的下游任务是共享的,只需要针对每个下游任务训练特定的生成网络,不需要针对每个下游任务训练一个全新的模型,从而使参数冻结的预训练大模型可以适应实际场景中的不同下游任务。
下面,表1从多个维度分析对比了传统的预训练大模型的微调方法和本申请的预训练大模型的微调方法之间的差异:
表1
为了更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关设备。具体的,请参阅图7,图7为本申请实施例提供的一种图像处理装置的结构示意图,图像处理装置包括:
获取单元201,用于通过生成网络获取训练图像的目标图像;
输入单元202,用于将目标图像输入到预训练大模型中,得到处理结果;
更新单元203,用于根据处理结果,在保持预训练大模型的参数不变的情况下,对生成网络的参数进行更新。
在一种可能的设计中,获取单元201具体用于:
通过生成网络获取训练图像的特征图像,特征图像的分辨率与训练图像的分辨率相同;
将训练图像和特征图像进行融合,得到目标图像。
在一种可能的设计中,图像处理装置还包括:
卷积单元204,用于对目标图像进行卷积处理,得到更新后的目标图像,更新后的目标图像用于输入到预训练大模型中。
在一种可能的设计中,获取单元201具体用于:
通过ViT模型对训练图像进行特征提取,得到特征提取结果;
将特征提取结果输入到上采样层,得到特征图像。
在一种可能的设计中,生成网络为卷积神经网络CNN。
在一种可能的设计中,生成网络为循环神经网络RNN。
需要说明的是,图像处理装置中各模块/单元之间的信息交互、执行过程等内容,与本申请中图4对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
请参阅图8,图8为本申请实施例提供的另一种图像处理装置的结构示意图,图像处理装置包括:
获取单元301,用于通过生成网络获取输入图像的目标图像;
输入单元302,用于将目标图像输入到预训练大模型中,得到处理结果。
在一种可能的设计中,获取单元301具体用于:
通过生成网络获取输入图像的特征图像,特征图像的分辨率与输入图像的分辨率相同;
将输入图像和特征图像进行融合,得到目标图像。
在一种可能的设计中,图像处理装置还包括:
卷积单元303,用于对目标图像进行卷积处理,得到更新后的目标图像,更新后的目标图像用于输入到预训练大模型中。
在一种可能的设计中,获取单元301具体用于:
通过ViT模型对输入图像进行特征提取,得到特征提取结果;
将特征提取结果输入到上采样层,得到特征图像。
在一种可能的设计中,生成网络为卷积神经网络CNN。
在一种可能的设计中,生成网络为循环神经网络RNN。
需要说明的是,图像处理装置中各模块/单元之间的信息交互、执行过程等内容,与本申请中图4对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供了一种计算机设备,请参阅图9,图9为本申请实施例提供的计算机设备一种结构示意图,计算机设备400上可以部署有图7或图8对应实施例中所描述的图像处理装置,具体的,计算机设备400由一个或多个服务器实现,计算机设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(centralprocessing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对计算机设备中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在计算机设备400上执行存储介质430中的一系列指令操作。
计算机设备400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作***441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
需要说明的是,图像处理装置中各模块/单元之间的信息交互、执行过程等内容,与本申请中图4对应的方法实施例基于同一构思,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例中还提供一种包括计算机程序产品,当其在计算机上运行时,使得计算机执行如前述图5所示实施例描述的方法。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有用于进行信号处理的程序,当其在计算机上运行时,使得计算机执行如前述图5所示实施例描述的方法。
本申请实施例提供的图像处理装置具体可以为芯片,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使芯片执行上述图4所示实施例描述的方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述无线接入设备端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
所另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,训练设备,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。

Claims (27)

1.一种基于预训练大模型的图像处理方法,其特征在于,包括:
通过生成网络获取训练图像的目标图像;
将所述目标图像输入到预训练大模型中,得到处理结果;
根据所述处理结果,在保持所述预训练大模型的参数不变的情况下,对所述生成网络的参数进行更新。
2.根据权利要求1所述的方法,其特征在于,所述通过生成网络获取训练图像的目标图像,包括:
通过生成网络获取训练图像的特征图像,所述特征图像的分辨率与所述训练图像的分辨率相同;
将所述训练图像和所述特征图像进行融合,得到目标图像。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述目标图像输入到预训练大模型中,得到处理结果之前,所述方法还包括:
对所述目标图像进行卷积处理,得到更新后的目标图像,所述更新后的目标图像用于输入到所述预训练大模型中。
4.根据权利要求2所述的方法,其特征在于,所述生成网络包括视觉转换器ViT模型和上采样层,所述通过生成网络获取训练图像的特征图像包括:
通过所述ViT模型对所述训练图像进行特征提取,得到特征提取结果;
将所述特征提取结果输入到所述上采样层,得到特征图像。
5.根据权利要求1、2或3所述的方法,其特征在于,所述生成网络为卷积神经网络CNN。
6.根据权利要求1、2或3所述的方法,其特征在于,所述生成网络为循环神经网络RNN。
7.一种基于预训练大模型的图像处理方法,其特征在于,包括:
通过生成网络获取输入图像的目标图像;
将所述目标图像输入到预训练大模型中,得到处理结果。
8.根据权利要求7所述的方法,其特征在于,所述通过生成网络获取输入图像的目标图像,包括:
通过生成网络获取输入图像的特征图像,所述特征图像的分辨率与所述输入图像的分辨率相同;
将所述输入图像和所述特征图像进行融合,得到目标图像。
9.根据权利要求7或8所述的方法,其特征在于,所述将所述目标图像输入到预训练大模型中,得到处理结果之前,所述方法还包括:
对所述目标图像进行卷积处理,得到更新后的目标图像,所述更新后的目标图像用于输入到所述预训练大模型中。
10.根据权利要求8所述的方法,其特征在于,所述生成网络包括视觉转换器ViT模型和上采样层,所述通过生成网络获取输入图像的特征图像包括:
通过所述ViT模型对所述输入图像进行特征提取,得到特征提取结果;
将所述特征提取结果输入到所述上采样层,得到特征图像。
11.根据权利要求7、8或9所述的方法,其特征在于,所述生成网络为卷积神经网络CNN。
12.根据权利要求7、8或9所述的方法,其特征在于,所述生成网络为循环神经网络RNN。
13.一种图像处理装置,其特征在于,包括:
获取单元,用于通过生成网络获取训练图像的目标图像;
输入单元,用于将所述目标图像输入到预训练大模型中,得到处理结果;
更新单元,用于根据所述处理结果,在保持所述预训练大模型的参数不变的情况下,对所述生成网络的参数进行更新。
14.根据权利要求13所述的图像处理装置,其特征在于,所述获取单元具体用于:
通过生成网络获取训练图像的特征图像,所述特征图像的分辨率与所述训练图像的分辨率相同;
将所述训练图像和所述特征图像进行融合,得到目标图像。
15.根据权利要求13或14所述的图像处理装置,其特征在于,所述图像处理装置还包括:
卷积单元,用于对所述目标图像进行卷积处理,得到更新后的目标图像,所述更新后的目标图像用于输入到所述预训练大模型中。
16.根据权利要求14所述的图像处理装置,其特征在于,所述获取单元具体用于:
通过所述ViT模型对所述训练图像进行特征提取,得到特征提取结果;
将所述特征提取结果输入到所述上采样层,得到特征图像。
17.根据权利要求13、14或15所述的图像处理装置,其特征在于,所述生成网络为卷积神经网络CNN。
18.根据权利要求13、14或15所述的图像处理装置,其特征在于,所述生成网络为循环神经网络RNN。
19.一种图像处理装置,其特征在于,包括:
获取单元,用于通过生成网络获取输入图像的目标图像;
输入单元,用于将所述目标图像输入到预训练大模型中,得到处理结果。
20.根据权利要求19所述的图像处理装置,其特征在于,所述获取单元具体用于:
通过生成网络获取输入图像的特征图像,所述特征图像的分辨率与所述输入图像的分辨率相同;
将所述输入图像和所述特征图像进行融合,得到目标图像。
21.根据权利要求19或20所述的图像处理装置,其特征在于,所述图像处理装置还包括:
卷积单元,用于对所述目标图像进行卷积处理,得到更新后的目标图像,所述更新后的目标图像用于输入到所述预训练大模型中。
22.根据权利要求20所述的图像处理装置,其特征在于,所述获取单元具体用于:
通过所述ViT模型对所述输入图像进行特征提取,得到特征提取结果;
将所述特征提取结果输入到所述上采样层,得到特征图像。
23.根据权利要求19、20或21所述的图像处理装置,其特征在于,所述生成网络为卷积神经网络CNN。
24.根据权利要求19、20或21所述的图像处理装置,其特征在于,所述生成网络为循环神经网络RNN。
25.一种计算机设备,其特征在于,包括处理器和存储器,所述处理器与所述存储器耦合,
所述存储器,用于存储程序;
所述处理器,用于执行所述存储器中的程序,使得所述计算机设备执行如权利要求1至6中任一项所述的方法,或者,使得所述计算机设备执行如权利要求7至12中任一项所述的方法。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法,或者,所述计算机程序被处理器执行时实现如权利要求7至12中任一项所述的方法。
27.一种计算机程序产品,其特征在于,所述计算机程序产品中存储有计算机可读指令,当所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的方法,或者,当所述计算机可读指令被处理器执行时实现如权利要求7至12中任一项所述的方法。
CN202210109103.6A 2022-01-28 2022-01-28 一种基于预训练大模型的图像处理方法及相关装置 Pending CN116563660A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210109103.6A CN116563660A (zh) 2022-01-28 2022-01-28 一种基于预训练大模型的图像处理方法及相关装置
PCT/CN2023/070316 WO2023142918A1 (zh) 2022-01-28 2023-01-04 一种基于预训练大模型的图像处理方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210109103.6A CN116563660A (zh) 2022-01-28 2022-01-28 一种基于预训练大模型的图像处理方法及相关装置

Publications (1)

Publication Number Publication Date
CN116563660A true CN116563660A (zh) 2023-08-08

Family

ID=87470533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210109103.6A Pending CN116563660A (zh) 2022-01-28 2022-01-28 一种基于预训练大模型的图像处理方法及相关装置

Country Status (2)

Country Link
CN (1) CN116563660A (zh)
WO (1) WO2023142918A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557871B (zh) * 2024-01-11 2024-03-19 子亥科技(成都)有限公司 三维模型标注方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386302B2 (en) * 2020-04-13 2022-07-12 Google Llc Systems and methods for contrastive learning of visual representations
CN113065635A (zh) * 2021-02-27 2021-07-02 华为技术有限公司 一种模型的训练方法、图像增强方法及设备
CN113486162A (zh) * 2021-06-04 2021-10-08 北京大学 一种大规模预训练模型微调方法及装置
CN113947196A (zh) * 2021-10-25 2022-01-18 中兴通讯股份有限公司 网络模型训练方法、装置和计算机可读存储介质
CN114120032A (zh) * 2021-11-03 2022-03-01 奇酷软件(深圳)有限公司 半监督学习的图像分类方法、***、存储介质及计算机设备
CN114648650A (zh) * 2022-03-30 2022-06-21 北京市商汤科技开发有限公司 神经网络训练、目标检测的方法及装置、设备及存储介质

Also Published As

Publication number Publication date
WO2023142918A1 (zh) 2023-08-03

Similar Documents

Publication Publication Date Title
CN111401406B (zh) 一种神经网络训练方法、视频帧处理方法以及相关设备
WO2022001805A1 (zh) 一种神经网络蒸馏方法及装置
CN112418392A (zh) 一种神经网络构建方法以及装置
CN111797983A (zh) 一种神经网络构建方法以及装置
CN112651511A (zh) 一种训练模型的方法、数据处理的方法以及装置
CN112183718A (zh) 一种用于计算设备的深度学习训练方法和装置
CN110222717A (zh) 图像处理方法和装置
CN112541159A (zh) 一种模型训练方法及相关设备
CN113449859A (zh) 一种数据处理方法及其装置
CN113011568B (zh) 一种模型的训练方法、数据处理方法及设备
CN111797992A (zh) 一种机器学习优化方法以及装置
CN113191241A (zh) 一种模型训练方法及相关设备
CN111931901A (zh) 一种神经网络构建方法以及装置
CN115081588A (zh) 一种神经网络参数量化方法和装置
US11119507B2 (en) Hardware accelerator for online estimation
US20240135174A1 (en) Data processing method, and neural network model training method and apparatus
EP4401007A1 (en) Neural network acquisition method, data processing method and related device
CN111738403A (zh) 一种神经网络的优化方法及相关设备
CN114359289A (zh) 一种图像处理方法及相关装置
CN113627163A (zh) 一种注意力模型、特征提取方法及相关装置
CN113066018A (zh) 一种图像增强方法及相关装置
CN111652349A (zh) 一种神经网络的处理方法及相关设备
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
WO2022227024A1 (zh) 神经网络模型的运算方法、训练方法及装置
CN116563660A (zh) 一种基于预训练大模型的图像处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication