CN113468364B - 一种图像处理方法及装置 - Google Patents

一种图像处理方法及装置 Download PDF

Info

Publication number
CN113468364B
CN113468364B CN202110827137.4A CN202110827137A CN113468364B CN 113468364 B CN113468364 B CN 113468364B CN 202110827137 A CN202110827137 A CN 202110827137A CN 113468364 B CN113468364 B CN 113468364B
Authority
CN
China
Prior art keywords
image
training
image processing
key feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110827137.4A
Other languages
English (en)
Other versions
CN113468364A (zh
Inventor
王羽
潘滢炜
姚霆
梅涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202110827137.4A priority Critical patent/CN113468364B/zh
Publication of CN113468364A publication Critical patent/CN113468364A/zh
Application granted granted Critical
Publication of CN113468364B publication Critical patent/CN113468364B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/001Model-based coding, e.g. wire frame
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开提供一种图像处理方法,包括:获取待处理图像;将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;其中图像处理模型通过对联合学习网络进行训练得到;其中,所述联合学习网络包括所述图像处理模型与键特征编码模型;所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练。本公开通过使得图像处理模型与键特征编码模型形成联合学习网络,并通过生成多张增广图像对联合学习网络进行训练,实现快速收敛,从而使得图像处理模型获得较好地收敛效果,实现对输入图像良好的处理能力。

Description

一种图像处理方法及装置
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像处理方法及装置。
背景技术
自监督学习是一种重要的机器学习训练手段,自监督学习无需训练标签,利用数据自己的分布特征进行自训练,因而成为现如今最流行的预训练手段之一。
现有的自监督学习算法通常可以生成随机的增广数据,然后仅仅通过优化对单对“查询-键”图像特征进行独立的优化,从而达到学习语义特征的目的。在可以轻易获得大量增广数据的前提下,进行这样独立的单对学习效率很低,并且这样的学习和训练无法有效减少网络参数学习的自由度,增加了训练过程中可能卡在坏的局部最优解的可能性,造成对图像的处理效果较差的问题。
发明内容
本公开提供一种图像处理方法及装置,用以解决现有技术中联合学习网络形成局部最优解的缺陷,实现联合学习网络较快收敛到全局最优解。
本公开提供一种图像处理方法,包括:
获取待处理图像;
将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;
其中,所述图像处理模型通过对联合学习网络进行训练得到;其中,所述联合学习网络包括所述图像处理模型与键特征编码模型;所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练。
根据本公开提供的图像处理方法,所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练,具体包括:
将训练图像生成设定张数的增广图像;
将任一张所述增广图像作为键输入图像输入所述键特征编码模型,得到所述键特征编码模型输出的正键特征;
将剩余的所述增广图像作为查询输入图像分别输入所述图像处理模型,得到所述图像处理模型对应输出的查询特征;
将所述正键特征分别与各查询特征进行拼接得到低秩矩阵;
根据所述低秩矩阵使得所述键特征编码模型及图像处理模型形成联合学习网络,并进行优化训练。
根据本公开提供的图像处理方法,所述根据所述低秩矩阵使得所述键特征编码模型及图像处理模型形成联合学习网络,并进行优化训练,具体包括:
根据所述低秩矩阵处理得到核范数;
确定训练图像的负键特征集合;
通过所述低秩矩阵、核范数及所述负键特征集合进行联合学习直至所述联合学习网络收敛。
根据本公开提供的图像处理方法,所述确定训练图像的负键特征集合,具体包括:
将训练集中除第i张训练图像外的训练图像的增广图像作为第i张训练图像的负样本集合;
将第i张训练图像的负样本集合中的各图像输入所述键特征编码模型,分别得到所述键特征编码模型输出的第i张训练图像的负键特征,各负键特征形成所述负键特征集合。
根据本公开提供的图像处理方法,所述通过所述低秩矩阵、核范数及所述负键特征集合进行联合学习直至所述联合学习网络收敛,具体包括:
将所述核范数、正键特征、查询特征及负键特征分别作为参数变量形成联合学习网络的代价函数,通过调整各参数变量使得所述代价函数收敛。
根据本公开提供的图像处理方法,所述将所述核范数、正键特征、查询特征及负键特征分别作为参数变量形成联合学习网络的代价函数,具体包括:训练集中第i张训练图像的代价函数为:
其中,Li表示第i张训练图像的代价函数,表示查询特征,/>表示正键特征,表示负键特征,τ表示预设的超参数;
h(Q)表示定义函数:
h(Q)=exp(-‖Q‖*/(M·β·τ))
其中,‖Q‖*表示低秩矩阵Q的核范数,β表示预设的超参数。
根据本公开提供的图像处理方法,所述通过调整各参数变量使得所述代价函数收敛,具体包括:
根据所述代价函数通过所述查询特征对所述图像处理模型的模型参数进行参数优化和梯度回传;
根据所述图像处理模型的优化的模型参数处理得到所述键特征编码模型的优化模型参数。
本公开还提供一种图像处理装置,包括:
图像获取单元,用于获取待处理图像;
图像处理单元,用于将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;
其中,所述图像处理模型通过对联合学习网络进行训练得到;其中,所述联合学习网络包括所述图像处理模型与键特征编码模型;所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练。
本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像处理方法的步骤。
本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像处理方法的步骤。
本公开提供的图像处理方法及装置,通过使得图像处理模型与键特征编码模型形成联合学习网络,并通过生成多张增广图像,对联合学习网络进行训练,实现快速收敛,从而使得图像处理模型获得较好地收敛效果,实现对输入图像良好的处理能力。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开提供的图像处理方法的流程示意图;
图2是本公开提供的联合学习网络结构示意图;
图3是本公开提供的图1中步骤120的具体流程示意图;
图4是本公开提供的图3中步骤350的具体流程示意图;
图5是本公开提供的图像处理装置的结构示意图;
图6是本公开提供的电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开实施例一部分实施例,而不是全部的实施例。基于本公开实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开实施例保护的范围。
如图1所示,本公开实施例提供一种图像处理方法,包括:
步骤110:获取待处理图像;
步骤120:将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;
其中,所述图像处理模型通过对联合学习网络进行训练得到;其中,所述联合学习网络包括所述图像处理模型与键特征编码模型;所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练。
在对本公开实施例中的联合学习网络训练进行说明前,先对本公开实施例提供的模型训练所涉及的自监督学习进行简要介绍。
自监督学习是一种重要的机器学习训练手段,自监督学习无需训练标签,利用数据自己的分布特征进行自训练,因而成为现如今最流行的预训练手段之一。目前最流行的做法是用无监督学习算法对网络进行无标签的预训练,然后用该网络继续初始化基于有监督训练的下游任务。比如利用无监督学习进行预训练的网络,可以用来初始化下游任务的训练,这些下游任务包括图像分类任务,目标检测,图像分割等等计算机视觉任务。本公开实施例中,步骤110中的待处理图像可以是下游任务待处理的图像,图像处理模型经过本公开实施例的联合学习训练后的优化模型可联合下游任务的网络模型或者可直接应用于处理包括图像分类任务,目标检测,图像分割等等计算机视觉任务,从而实现较好地预期的图像处理效果。
本公开实施例中提供的图像处理模型适用于上述如图像分类任务,目标检测,图像分割等等计算机视觉任务。
自监督学习大致分为两个类别:基于前置任务的自监督学习和对比学习。基于前置任务的自监督学习利用自定义的一套训练规则来获取有效的训练特征;基于对比学习的自监督学习原理是通过拉近同一张图片的多个增广数据,推远不同图片之间的距离,来达到无标签数据自我学习具有语义信息特征的目的。
本公开实施例提供的基于低秩假设的自监督学习算法是一种对比学习算法。
现有的自监督学习算法通常可以生成随机的增广数据,然后仅通过优化对单对“查询-键”图像特征进行独立的优化,从而达到学习语义特征的目的。但是在可以轻易获得大量增广数据的前提下,进行这样独立的单对学习效率很低;并且,这样的学习和训练无法有效减少网络参数学习时的自由度,增加了训练过程中可能卡在坏的局部最优解的可能性。
本公开实施例中,自监督学习模型的联合学习网络共包括两个主要分支结构:“查询特征编码网络(query encoder)”也即图像处理模型f(·,θq)以及“键特征编码网络(keyencoder)”也即键特征编码模型g(·,θk)。
步骤120中的将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络进行训练,如图2及图3所示,其中图2为本公开实施例的联合学习网络结构示意图,其中“gradient”表示有梯度传输,“no gradient”表示无梯度传输,步骤120具体包括:
步骤310:将训练图像生成设定张数的增广图像;
具体地,根据训练集中的第i张训练图像,根据该原始图像产生M张数据增广图像,M为大于1的正整数。
步骤320:将任一张所述增广图像作为键输入图像输入所述键特征编码模型,得到所述键特征编码模型输出的正键特征;
具体地,例如将第M个增广图像定义为第i张训练图像的唯一的“键输入图像(key)”,并用符号表示。在训练过程中,将第i张训练图像所对应的键输入图像/>输入到键特征编码模型中,并得到对应的正键特征(key feature),表示为/>
步骤330:将剩余的所述增广图像作为查询输入图像分别输入所述图像处理模型,得到所述图像处理模型对应输出的查询特征;
具体地,例如对于前M-1张增广图像,将其中的第m张图像定义为第i张训练图像的第m个“查询输入图像(query)”,并用符号表示。
在训练过程中:针对第i张训练图像,将其对应的全部查询输入图像输入到图像处理模型中,并得到相应的M-1个查询特征(query feature),表示为/>
图2中的表示:对于第i张训练图像,共有M-1个查询输入图像。
步骤340:将所述正键特征分别与各查询特征进行拼接得到低秩矩阵;
本公开实施例中,将各查询特征分别和正键特征/>向量拼接起来,成为一个矩阵Q。本公开实施例中,该矩阵Q是低秩的(low rank),即来自于相同图像的不同增广图像都使用相同的一组基,基的维度r是小于输入数据的维度的。
步骤350:根据所述低秩矩阵使得所述键特征编码模型及图像处理模型形成联合学习网络,并进行优化训练。
本公开实施例中,如图4所示,步骤350具体包括:
步骤410:根据所述低秩矩阵处理得到核范数(nuclear norm);
步骤420:确定训练图像的负键特征集合;
步骤430:通过所述低秩矩阵、核范数及所述负键特征集合进行联合学习直至所述联合学习网络收敛。
本公开实施例中,步骤420具体包括:
将训练集中除第i张训练图像外的训练图像的增广图像作为第i张训练图像的负样本集合;也即在训练集中对于目标训练图像,训练集中除目标训练图像外的其他所有训练图像的相应的增广图像构成目标训练图像的负样本集合。
将第i张训练图像的负样本集合中的各图像输入所述键特征编码模型,分别得到所述键特征编码模型输出的第i张训练图像的负键特征,各负键特征形成所述负键特征集合;也即得到负样本集合后将其中随机抽取K个图像分别输入联合学习网络中的键特征编码模型中,分别得到键特征编码模型输出的键特征,并为了区别于目标训练图像的正键特征,将负样本集合得到的键特征命名为负键特征,将各负键特征组合形成负键特征集合,由于形成负键特征集合的图像是在负样本集合中随机抽取的,因而大概率可以构成任何目标训练图像的的负样本集合。
本公开实施例中,在训练过程中用到大量的负键特征,这些负键特征会定时地更新。每当一批新的训练数据输入进网络,将最新的一批正键特征入栈队列并成为负键特征采样池中的样本。同时,将最旧的一批负键特征出栈队列,并重复此过程,以持续更新负键特征集合(记忆池中)的样本。
本公开实施例中,步骤430具体包括:将所述核范数、正键特征、查询特征及负键特征分别作为参数变量形成联合学习网络的代价函数,通过调整各参数变量使得所述代价函数收敛。
为了与现有技术中的无监督学习网络中的对比学习的代价函数进行比较,现对现有技术中对比学习网络的代价函数进行说明,传统对比学习的目标函数利用属于同一个第i张输入图像的“键特征(key)”和该输入图片的“查询特征”计算softmax代价函数。假设在一个训练批次(batch)中一共有N个输入图像,即i=1,2,…N,每个输入图片只有2个数据增广图像M=2,其中一个用于生成单个查询特征qi,另一个生成当个键特征则代价函数为:
上述(1)式表示的传统对比学习代价函数,在取得最大值时,且/>取得最小值时达到最优。也就是当每一张图像的“正键特征(key)”/>和该输入图像的“查询特征”qi相似度最高,且来自其他图片的“负键特征”/>和该输入图片的“查询特征”qi相似度最低的时候,代价函数Lcontrastive取得最优值。这样,通过将第i张训练图像的增广图像和训练集中其他图像(i’≠i)的增广图像所对应的特征分开,以及将第i张训练图像的各增广图像之间的距离拉近,从而可以达成“对比学习”的训练目标。
本公开实施例中,所述将所述核范数、正键特征、查询特征及负键特征分别作为参数变量形成联合学习网络的代价函数,具体包括:本公开实施例中提新代价函数LLORAC,并将训练集中第i张训练图像的代价函数表示为:
其中,Li表示第i张训练图像的代价函数,表示第i张训练图像中的第m张查询输入图像得到的查询特征,/>表示第i张训练图像的正键特征,/>表示第i张训练图像的第j个负键特征,τ表示预设的超参数;
在(2)式中新定义了函数h(Q),h(Q)表示为:
h(Q)=exp(-‖Q‖*/(M·β·τ)) (3)
其中‖Q‖*表示低秩矩阵Q的核范数,β表示预设的超参数。
相应地,对于每一批样本(含有N个训练图像样本),总的代价函数为:
本公开实施例中,由于在惩罚代价函数LLORAC时,核范数‖Q‖*将会得到有效的惩罚。如果‖Q‖*上升,那么相应地,代价函数LLORAC也会上升。因此本公开实施例所提供的代价函数LLORAC不只可以有效达到如(1)式表示的传统对比学习代价函数Lcontrastive中对比学习的效果,还可以有效地惩罚来自于每个训练图像中不同增广图像的所构成的低秩矩阵Q的核范数。与传统的对比学习网络相对比,本公开实施例的联合学习网络可以有效地同时处理多个查询特征,通过惩罚多个向量所构建矩阵的核范数,达到针对某个图像的多个增广数据进行“联合学习(joint learning)”的效果。这种联合学习可以有效地减小深度学习网络中参数学习的自由度和复杂度,从而减轻训练中优化的难度,达到更好的预训练效果。实验表明,基于本公开实施例提出的基于低秩假设的自监督学习方法更有效地对网络实施预训练,其训练效果可以直接影响下游任务在图像分类等计算机实觉任务的分类准确度,可以极大地提升下游任务的准确率。
本公开实施例中,利用基于矩阵低秩假设的联合学习(joint learning)减少处理得到的坏的局部最优解的数量,使网络训练可以快速高效地收敛到一个适合下游任务的参数分布状态,并为下游任务提供一个稳定的初始化点。
本公开实施例中,在测试阶段,利用针对LLORAC代价函数进行优化得到的网络参数对下游任务的深度网络进行初始化。特别地,下游任务的训练数据可以完全不同于自监督学习的数据,并且这些下游任务的数据是有标签的。实验发现,利用LLORAC代价函数进行自监督学习网络预训练的方案比其他方法具有更高的下游任务检测准确率。具体来说,本公开实施例的代价函数LLORAC可以极大提升下游任务在ImageNet1K、CoCo等数据集上的图像分类及其他计算机实觉任务的准确度,有效提升模型的泛化能力。
本公开实施例提供的基于低秩假设的自监督学习方法,有效提升网络模型的泛化能力,通过联合学习训练的图像处理模型可提升图像处理模型的下游任务在ImageNet1K、CoCo等数据集上的图像分类及其他计算机实觉任务的准确度。与传统的对比学习方法相对比,本公开实施例提供的的网络框架可以有效地同时处理针对某一图像输入的多个查询特征,通过惩罚多个查询特征向量所构建矩阵的核范数,达到“联合学习(joint learning)”的效果。这种联合学习可以有效减小深度学习网络中参数学习的自由度,从而减轻训练中优化的难度,达到更好的训练效果。
本公开实施例中,在网络模型训练过程中,所述通过调整各参数变量使得所述代价函数收敛,具体包括:
根据所述代价函数通过所述查询特征对所述图像处理模型的模型参数进行参数优化和梯度回传;
具体地,代价函数Li通过联合学习网络中的梯度回传对参数进行训练,从而达到网络参数学习的最终目的。而且Li只通过查询特征qi,m以及其对应的图像处理模型f(·,θq)对图像处理模型参数θq进行参数优化和梯度回传。
根据所述图像处理模型的优化的模型参数处理得到所述键特征编码模型的优化模型参数;
具体地,键特征编码模型f(·,θk)根据图像处理模型的优化动态进行“动量更新(momentum update)”。这个更新过程可以用数学表示为:
θk←ρθk+(1-ρ)θq (5)
其中,ρ表示预定义的超参数。
如图5所示,对本公开实施例提供的图像生成装置进行描述,下文描述的图像生成装置与上文描述的图像生成方法可相互对应参照。本公开实施例提供一种图像处理装置,包括:
图像获取单元510,用于获取待处理图像;
图像处理单元520,用于将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;
其中,所述图像处理模型通过对联合学习网络进行训练得到;其中,所述联合学习网络包括所述图像处理模型与键特征编码模型;所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练。
本公开实施例中,待处理图像可以是下游任务待处理的图像,图像处理模型经过联合学习训练后的优化模型可联合下游任务的网络模型或者可直接应用于处理包括图像分类任务,目标检测,图像分割等等计算机视觉任务,从而实现较好地预期的图像处理效果。
本公开实施例中,所述图像处理单元520包括模型训练单元,所述模型训练单元包括:
图像生成子单元,用于将训练图像生成设定张数的增广图像;
具体地,通过图像生成子单元对训练集中的各训练分别生成相应的设定张数的增广图像,例如,对训练集中的第i张训练图像产生M张数据增广图像,M为大于1的正整数。
正键特征生成子单元,用于将任一张所述增广图像作为键输入图像输入所述键特征编码模型,得到所述键特征编码模型输出的正键特征;
具体地,正键特征生成子单元用于对训练集中的目标训练图像的增广图像生成正键特征,例如将训练集中第i张训练图像的第M个增广图像定义为第i张训练图像的唯一的键输入图像,并用符号表示,将其输入到键特征编码模型中,并得到对应的正键特征。
查询特征生成子单元,用于将剩余的所述增广图像作为查询输入图像分别输入所述图像处理模型,得到所述图像处理模型对应输出的查询特征;
具体地,查询特征生成子单元用于对训练集中的目标图像的增广图像中除键输入图像外的其余增广图像定义为查询输入图像,并用符号表示,并将其分别输入图像处理模型中,分别得到相应的查询特征。例如对于前M-1张增广图像,将其中的第m张图像定义为第i张训练图像的第m个查询输入图像,在训练过程中:针对第i张训练图像,将其对应的全部查询输入图像/>输入到图像处理模型中,并得到相应的M-1个查询特征,表示为/>
拼接子单元,用于将所述正键特征分别与各查询特征进行拼接得到低秩矩阵;
具体地,拼接子单元用于将目标训练图像的正键特征分别与各查询特征进行向量拼接得到低秩矩阵,例如将各查询特征分别和正键特征向量拼接起来,成为一个矩阵。本公开实施例中,该矩阵是低秩的,即来自于相同图像的不同增广图像都使用相同的一组基,基的维度是小于输入数据的维度的。
联合学习训练子单元,用于根据所述低秩矩阵使得所述键特征编码模型及图像处理模型形成联合学习网络,并进行优化训练。
具体地,联合学习训练子单元,具体包括:
核范数处理子单元,用于根据所述低秩矩阵处理得到核范数;
本公开实施例中,由于矩阵的核范数为数学概念,在此不再赘述其公式表达。
负键特征确定子单元,用于确定训练图像的负键特征集合;
本公开实施例中,负键特征集合是由多个负键特征构成的。
网络训练子单元,用于通过所述低秩矩阵、核范数及所述负键特征集合进行联合学习直至所述联合学习网络收敛。
本公开实施例中,负键特征确定子单元具体包括:
负样本集合确定子单元,用于将训练集中除第i张训练图像外的训练图像的增广图像作为第i张训练图像的负样本集合;也即在训练集中对于目标训练图像,训练集中除目标训练图像外的其他所有训练图像的相应的增广图像构成目标训练图像的负样本集合。
负键特征生成子单元,用于将第i张训练图像的负样本集合中的各图像输入所述键特征编码模型,分别得到所述键特征编码模型输出的第i张训练图像的负键特征,各负键特征形成所述负键特征集合;也即得到负样本集合后将其中随机抽取K个图像分别输入联合学习网络中的键特征编码模型中,分别得到键特征编码模型输出的键特征,并为了区别于目标训练图像的正键特征,将负样本集合得到的键特征命名为负键特征,将各负键特征组合形成负键特征集合,由于形成负键特征集合的图像是在负样本集合中随机抽取的,因而大概率可以构成任何目标训练图像的的负样本集合。
本公开实施例中,在训练过程中用到大量的负键特征,这些负键特征会定时地更新。每当一批新的训练数据输入进网络,将最新的一批正键特征入栈队列并成为负键特征采样池中的样本。同时,将最旧的一批负键特征出栈队列,并重复此过程,以持续更新负键特征集合(记忆池中)的样本。
本公开实施例中,网络训练子单元具体包括:
参数变量形成子单元,用于将所述核范数、正键特征、查询特征及负键特征联合作为参数变量形成联合学习网络的代价函数;
具体地,本公开实施例中,在代价函数优化过程中惩罚代价函数时,核范数将会得到有效的惩罚。如果核范数上升,那么相应地,代价函数也会上升。因此本公开实施例所提供的代价函数不只可以有效达到传统对比学习代价函数中对比学习的效果,还可以有效地惩罚来自于每个训练图像中不同增广图像的所构成的低秩矩阵的核范数。
与传统的对比学习网络相对比,本公开实施例的联合学习网络可以有效地同时处理多个查询特征,通过惩罚多个向量所构建矩阵的核范数,达到针对某个图像的多个增广数据进行联合学习的效果。
代价函数调整子单元,用于通过调整各参数变量使得所述代价函数收敛。
具体地,在网络模型训练过程中,代价函数调整子单元,具体包括:
图像处理模型模型参数优化子单元,用于根据所述代价函数通过所述查询特征对所述图像处理模型的模型参数进行参数优化和梯度回传;
具体地,代价函数通过联合学习网络中的梯度回传对参数进行训练,从而达到网络参数学习的最终目的。而且代价函数只通过查询特征以及其对应的图像处理模型对图像处理模型参数进行参数优化和梯度回传。
键特征编码模型参数优化子单元,用于根据所述图像处理模型的优化的模型参数处理得到所述键特征编码模型的优化模型参数。
具体地,键特征编码模型根据图像处理模型的优化动态进行动量更新。
本公开实施例中,自监督学习模型的联合学习网络共包括两个主要分支结构:“查询特征编码网络”也即图像处理模型以及“键特征编码网络”也即键特征编码模型,通过图像处理模型与键特征编码组成联合学习网络。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行图像处理方法,该方法包括:获取待处理图像;将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;其中,所述图像处理模型与键特征编码模型形成联合学习网络,将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络进行训练。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的图像处理方法,该方法包括:获取待处理图像;将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;其中,所述图像处理模型与键特征编码模型形成联合学习网络,将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络进行训练。
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的图像处理方法,该方法包括:获取待处理图像;将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;其中,所述图像处理模型与键特征编码模型形成联合学习网络,将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络进行训练。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims (9)

1.一种图像处理方法,其特征在于,包括:
获取待处理图像;
将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;
其中,所述图像处理模型通过对联合学习网络进行训练得到;其中,所述联合学习网络包括所述图像处理模型与键特征编码模型;所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练;
其中,所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练,具体包括:
将训练图像生成设定张数的增广图像;
将任一张所述增广图像作为键输入图像输入所述键特征编码模型,得到所述键特征编码模型输出的正键特征;
将剩余的所述增广图像作为查询输入图像分别输入所述图像处理模型,得到所述图像处理模型对应输出的查询特征;
将所述正键特征分别与各查询特征进行拼接得到低秩矩阵;
根据所述低秩矩阵使得所述键特征编码模型及图像处理模型形成联合学习网络,并进行优化训练。
2.根据权利要求1所述的图像处理方法,其特征在于,所述根据所述低秩矩阵使得所述键特征编码模型及图像处理模型形成联合学习网络,并进行优化训练,具体包括:
根据所述低秩矩阵处理得到核范数;
确定训练图像的负键特征集合;
通过所述低秩矩阵、核范数及所述负键特征集合进行联合学习直至所述联合学习网络收敛。
3.根据权利要求2所述的图像处理方法,其特征在于,所述确定训练图像的负键特征集合,具体包括:
将训练集中除第i张训练图像外的训练图像的增广图像作为第i张训练图像的负样本集合;
将第i张训练图像的负样本集合中的各图像输入所述键特征编码模型,分别得到所述键特征编码模型输出的第i张训练图像的负键特征,各负键特征形成所述负键特征集合。
4.根据权利要求3所述的图像处理方法,其特征在于,所述通过所述低秩矩阵、核范数及所述负键特征集合进行联合学习直至所述联合学习网络收敛,具体包括:
将所述核范数、正键特征、查询特征及负键特征分别作为参数变量形成联合学习网络的代价函数,通过调整各参数变量使得所述代价函数收敛。
5.根据权利要求4所述的图像处理方法,其特征在于,所述将所述核范数、正键特征、查询特征及负键特征分别作为参数变量形成联合学习网络的代价函数,具体包括:训练集中第i张训练图像的代价函数为:
其中,Li表示第i张训练图像的代价函数,表示查询特征,/>表示正键特征,/>表示负键特征,τ表示预设的超参数;
h(Q)表示定义函数:
h(Q)=exp(-||Q||*/(M·β·τ))
其中,||Q||*表示低秩矩阵Q的核范数,β表示预设的超参数。
6.根据权利要求4所述的图像处理方法,其特征在于,所述通过调整各参数变量使得所述代价函数收敛,具体包括:
根据所述代价函数通过所述查询特征对所述图像处理模型的模型参数进行参数优化和梯度回传;
根据所述图像处理模型的优化的模型参数处理得到所述键特征编码模型的优化模型参数。
7.一种图像处理装置,其特征在于,包括:
图像获取单元,用于获取待处理图像;
图像处理单元,用于将所述待处理图像输入图像处理模型,得到所述图像处理模型输出的任务图像;
其中,所述图像处理模型通过对联合学习网络进行训练得到;其中,所述联合学习网络包括所述图像处理模型与键特征编码模型;所述对联合学习网络进行训练,包括将训练图像生成多张增广图像,将各增广图像输入所述联合学习网络,以对所述联合学习网络进行训练;
其中,所述图像处理单元包括模型训练单元,所述模型训练单元包括:
图像生成子单元,用于将训练图像生成设定张数的增广图像;
正键特征生成子单元,用于将任一张所述增广图像作为键输入图像输入所述键特征编码模型,得到所述键特征编码模型输出的正键特征;
查询特征生成子单元,用于将剩余的所述增广图像作为查询输入图像分别输入所述图像处理模型,得到所述图像处理模型对应输出的查询特征;
拼接子单元,用于将所述正键特征分别与各查询特征进行拼接得到低秩矩阵;
联合学习训练子单元,用于根据所述低秩矩阵使得所述键特征编码模型及图像处理模型形成联合学习网络,并进行优化训练。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述图像处理方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述图像处理方法的步骤。
CN202110827137.4A 2021-07-21 2021-07-21 一种图像处理方法及装置 Active CN113468364B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110827137.4A CN113468364B (zh) 2021-07-21 2021-07-21 一种图像处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110827137.4A CN113468364B (zh) 2021-07-21 2021-07-21 一种图像处理方法及装置

Publications (2)

Publication Number Publication Date
CN113468364A CN113468364A (zh) 2021-10-01
CN113468364B true CN113468364B (zh) 2024-04-09

Family

ID=77881691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110827137.4A Active CN113468364B (zh) 2021-07-21 2021-07-21 一种图像处理方法及装置

Country Status (1)

Country Link
CN (1) CN113468364B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114119363A (zh) * 2021-10-15 2022-03-01 北京百度网讯科技有限公司 数据增广方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099684A1 (en) * 2017-11-15 2019-05-23 Google Llc Unsupervised learning of image depth and ego-motion prediction neural networks
CN111695421A (zh) * 2020-04-30 2020-09-22 北京迈格威科技有限公司 图像识别方法、装置及电子设备
CN112102266A (zh) * 2020-08-31 2020-12-18 清华大学 基于注意力机制的脑梗死医学影像分类模型的训练方法
CN112465786A (zh) * 2020-12-01 2021-03-09 平安科技(深圳)有限公司 模型训练方法、数据处理方法、装置、客户端及存储介质
CN112614131A (zh) * 2021-01-10 2021-04-06 复旦大学 基于形变表示学习的病理图像分析方法
CN112949750A (zh) * 2021-03-25 2021-06-11 清华大学深圳国际研究生院 一种图像分类方法及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074829B2 (en) * 2018-04-12 2021-07-27 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
EP3731154A1 (en) * 2019-04-26 2020-10-28 Naver Corporation Training a convolutional neural network for image retrieval with a listwise ranking loss function

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099684A1 (en) * 2017-11-15 2019-05-23 Google Llc Unsupervised learning of image depth and ego-motion prediction neural networks
CN111695421A (zh) * 2020-04-30 2020-09-22 北京迈格威科技有限公司 图像识别方法、装置及电子设备
CN112102266A (zh) * 2020-08-31 2020-12-18 清华大学 基于注意力机制的脑梗死医学影像分类模型的训练方法
CN112465786A (zh) * 2020-12-01 2021-03-09 平安科技(深圳)有限公司 模型训练方法、数据处理方法、装置、客户端及存储介质
CN112614131A (zh) * 2021-01-10 2021-04-06 复旦大学 基于形变表示学习的病理图像分析方法
CN112949750A (zh) * 2021-03-25 2021-06-11 清华大学深圳国际研究生院 一种图像分类方法及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向上下文注意力联合学习网络的方面级情感分类模型;杨玉亭;冯林;代磊超;苏菡;;模式识别与人工智能(第08期);全文 *

Also Published As

Publication number Publication date
CN113468364A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
Ding et al. Cogview: Mastering text-to-image generation via transformers
Wang et al. Low-shot learning from imaginary data
US20180336472A1 (en) Projection neural networks
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
US20210004676A1 (en) Population based training of neural networks
CN111046178B (zh) 一种文本序列生成方法及其***
CN114090780B (zh) 一种基于提示学习的快速图片分类方法
WO2023035904A9 (zh) 视频时序动作提名生成方法及***
EP3782080A1 (en) Neural networks for scalable continual learning in domains with sequentially learned tasks
CN113468364B (zh) 一种图像处理方法及装置
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN116522142A (zh) 用于训练特征提取模型的方法、特征提取方法和装置
Motwani et al. A novel framework for selection of GANs for an application
WO2020106871A1 (en) Image processing neural networks with dynamic filter activation
CN113869005A (zh) 一种基于语句相似度的预训练模型方法和***
CN112651242B (zh) 一种基于内外注意力机制和可变尺度卷积的文本分类方法
CN115080736A (zh) 一种判别式语言模型的模型调整方法及装置
Lee Accumulating conversational skills using continual learning
Zhang et al. Approximated orthonormal normalisation in training neural networks
CN113361543B (zh) Ct图像特征提取方法、装置、电子设备和存储介质
US20240161245A1 (en) Image optimization
Saifullah et al. Seeing in Words: Learning to Classify through Language Bottlenecks
CN112685558B (zh) 一种情感分类模型的训练方法及装置
US20240119257A1 (en) Systems and methods for visual question answering using image relevant textual prompts
US20240160853A1 (en) Systems and methods for a vision-language pretraining framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 601, 6 / F, building 2, No. 18, Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Information Technology Co.,Ltd.

Address before: 601, 6 / F, building 2, No. 18, Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Shuke Haiyi Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant