CN112989085A

CN112989085A - 图像处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112989085A
Application number: CN202110134769.2A
Authority: CN
Inventors: 杨思骞; 付彦伟; 刘宸; 张力; 汪铖杰; 徐程明; 李季檩; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-18
Anticipated expiration: 2041-01-29
Also published as: CN112989085B

Abstract

本申请公开了一种图像处理方法、装置、计算机设备及存储介质，属于计算机技术领域。本申请通过构建多个样本图像对，保证每个样本图像对中的两张样本图像属于不同的类别标签，再通过交换每个样本图像对中相同位置的目标区域，能够构造出经过数据增强后的新的目标图像对，能够在小样本学习场景下通过基于图像信息交换的方式对原始的样本图像进行数据增强，使得产生的每个目标图像中携带两个类别标签，从而能够显著提升基于小样本学习的图像分类模型的泛化能力，也即提升了图像分类模型的分类准确度。

Description

图像处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种图像处理方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术和人工智能(Artificial Intelligence，AI)技术的发展，小样本学习(Few-Shot Learning)逐渐成为未来AI的发展方向之一。小样本学习泛指从少量标注数据中学习的方法和场景，包括基于优化的算法、基于矩阵学习的算法等。在图像分类任务中，小样本学习场景下训练集中每个类别的样本数量很少，而测试集中还包括训练集中从未出现过的新类别，因此，基于小样本学习的图像分类模型的泛化能力较差，如何提升基于小样本学习的图像分类模型对新类别的识别准确度逐渐成为一个亟需解决的问题。

发明内容

本申请实施例提供了一种图像处理方法、装置、计算机设备及存储介质，能够提升图像分类模型在小样本场景下的图像分类准确度。该技术方案如下：

一方面，提供了一种图像处理方法，该方法包括：

获取多个样本图像对，所述多个样本图像对中任一样本图像对包括第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像属于不同的类别标签；

对于所述任一样本图像对，将所述第一样本图像中的第一目标区域与所述第二样本图像中的第二目标区域交换，得到一个目标图像对，所述第一目标区域和所述第二目标区域的位置相对应；

基于多个所述目标图像对，调整初始分类模型的参数，得到图像分类模型，所述图像分类模型用于识别输入图像所属的类别标签。

一方面，提供了一种图像处理装置，该装置包括：

获取模块，用于获取多个样本图像对，所述多个样本图像对中任一样本图像对包括第一样本图像和第二样本图像，所述第一样本图像和所述第二样本图像属于不同的类别标签；

交换模块，用于对于所述任一样本图像对，将所述第一样本图像中的第一目标区域与所述第二样本图像中的第二目标区域交换，得到一个目标图像对，所述第一目标区域和所述第二目标区域的位置相对应；

调整模块，用于基于多个所述目标图像对，调整初始分类模型的参数，得到图像分类模型，所述图像分类模型用于识别输入图像所属的类别标签。

在一种可能实施方式中，所述目标图像对包括第一目标图像和第二目标图像，所述交换模块用于：

从所述第一样本图像中裁剪所述第一目标区域；

从所述第二样本图像中裁剪所述第二目标区域；

将所述第二目标区域填充至裁剪后的第一样本图像中对应的位置，得到所述第一目标图像；

将所述第一目标区域填充至裁剪后的第二样本图像中对应的位置，得到所述第二目标图像。

在一种可能实施方式中，所述调整模块包括：

分块单元，用于对多个所述目标图像对进行图像分块，得到多个目标图像块对；

获取单元，用于获取所述多个目标图像块对各自所属的类别标签；

调整单元，用于基于所述多个目标图像块对以及所述多个目标图像块对各自所属的类别标签，调整所述初始分类模型的参数，得到所述图像分类模型。

在一种可能实施方式中，任一目标图像块对中的任一目标图像块所属的类别标签与所述任一目标图像块原本所在的样本图像的类别标签相同。

在一种可能实施方式中，所述调整单元包括：

筛选子单元，用于从所述多个目标图像块对中，筛选得到多个测试图像块；

第一获取子单元，用于调用所述初始分类模型，获取所述多个测试图像块所属的预测类别；

第二获取子单元，用于基于所述多个测试图像块所属的预测类别和所述多个测试图像块所属的类别标签，获取损失函数值；

迭代子单元，用于迭代执行获取所述损失函数值的步骤，直到所述损失函数值符合停止条件，停止迭代，得到所述图像分类模型。

在一种可能实施方式中，所述筛选子单元用于：

从待选的多个类别标签中，随机选取多个目标类别；

从所述多个目标图像块对中，随机选取属于所述多个目标类别的多个参考图像块，所述多个目标类别中不同的目标类别对应于相同数量的参考图像块；

从所述多个目标图像块对中，随机选取属于所述多个目标类别的、除了所述多个参考图像块之外的所述多个测试图像块。

在一种可能实施方式中，所述第一获取子单元用于：

调用所述初始分类模型，分别提取所述多个参考图像块的图像特征和所述多个测试图像块的图像特征；

基于所述多个参考图像块的图像特征和所述多个测试图像块的图像特征之间的相关度，获取所述多个测试图像块所属的预测类别。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器加载并执行以实现如上述图像处理方法。

一方面，提供了一种存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行以实现如上述图像处理方法。

一方面，提供一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得计算机设备能够执行上述图像处理方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过构建多个样本图像对，保证每个样本图像对中的两张样本图像属于不同的类别标签，再通过交换每个样本图像对中相同位置的目标区域，能够构造出经过数据增强后的新的目标图像对，能够在小样本学习场景下通过基于图像信息交换的方式对原始的样本图像进行数据增强，使得产生的每个目标图像中携带两个类别标签，从而能够显著提升基于小样本学习的图像分类模型的泛化能力，也即提升了图像分类模型的分类准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还能够根据这些附图获得其他的附图。

图1是本申请实施例提供的一种图像处理方法的实施环境示意图；

图2是本申请实施例提供的一种图像处理方法的流程图；

图3是本申请实施例提供的一种图像信息交换方式的原理性流程图；

图4是本申请实施例提供的一种图像分类模型的训练流程图；

图5是本申请实施例提供的一种图像处理装置的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个第一位置是指两个或两个以上的第一位置。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括音频处理技术、计算机视觉技术、自然语言处理技术以及机器学习/深度学习等几大方向。

让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术的研究和进步，人工智能在多个领域展开研究和应用，其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3Dimensional，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例涉及机器学习技术在图像分类领域中的应用，也即如何采用机器学习模型来对输入图像进行分类处理，从而能够智能识别出输入图像所属的类别标签，也即完成了对输入图像进行分类的任务。可选地，涉及到图像分类领域中的小样本学习(Few-Shot Learning)：泛指从少量标注数据中学习的方法和场景，包括基于优化的算法、基于矩阵学习的算法等，理想情况下，一个能进行小样本学习的模型，能够快速地应用到新领域上。讨论小样本学习时，一般会聚焦到某些特定的问题上，比如将小样本学习的训练模式应用到图像分类问题上时，这一任务称之为小样本分类(Few-Shot Classification)任务。以下，将对小样本学习的一些基本概念进行介绍。

人类非常擅长通过极少量的样本识别一个新物体，比如小孩只需要书中的一些图片就能够认识什么是“斑马”、什么是“犀牛”，在人类的快速学习能力的启发下，技术人员希望机器学习模型在学习了一定类别的样本数据后，对于新的类别，只需要少量的样本就能够快速学习，这就是小样本学习所要解决的问题，也即：在给定少量样本的前提下，尽可能提升机器学习模型对新类别的识别准确度，从而提升机器学习模型的泛化能力。

小样本学习是元学习(Meta Learning)在监督学习领域的应用，在元学习阶段将数据集分解为不同的元任务，去学习类别变化的情况下模型的泛化能力，在元测试阶段，面对全新的类别，不需要变动已有的模型，就可以完成分类。

在一个示例性场景中，假设小样本学习的训练数据集中包含了M个类别标签，每个类别标签中均包含多个样本。在训练阶段，会在训练数据集的共M个类别标签中随机抽取C(C≤M)个类别标签，并在C个类别标签中每个类别标签下随机选取K个样本(总共C*K个样本)，构建出一个元任务，作为模型的支撑集(Support Set)输入；再从这C个类别标签中的剩余样本中随机抽取一批(Batch)样本作为模型的预测对象(Query Set，即测试集)。每执行一次上述步骤，称为对模型训练一次(Episode)，每一次训练均要求模型能够从C*K个样本中学会如何区分这C个类别标签，这样的任务被称为C-way K-shot(C类K样本)问题。

有鉴于此，本申请实施例提供一种图像处理方法，通过构建支撑集(Support Set)和测试集(Query Set)进行对比学习，并在损失函数中融合了支撑集和测试集的特征，使得模型能够同时兼顾两个样本集上不同的特征分布，进一步地，利用图像信息交换的方式，从原始样本中构建出一些识别难度较大的困难样本，以提升对比学习的效果，最终能够提升基于小样本学习的图像分类模型的分类准确度。

图1是本申请实施例提供的一种图像处理方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。

终端101安装和运行有支持图像分类服务的应用程序，该应用程序包括但不限于：浏览器应用、社交应用、点餐应用、支付应用、打车应用、图像处理应用、短视频应用等。

终端101可以通过有线或无线通信方式与服务器102进行直接或间接地连接，本申请实施例在此不对连接方式进行限制。

服务器102用于为上述应用程序提供后台服务，服务器102包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。可选地，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101两者之间采用分布式计算架构进行协同计算。

在一个示例性场景中，服务器102使用大量的数据预训练得到一个初始分类模型，基于本申请实施例的图像处理方法，对初始分类模型进行参数调整，得到最终的图像分类模型，这一图像分类模型能适用于各类样本分布不均衡的图像分类任务中，例如，对人脸图像中人物发色类别的分类任务，黑发的样本很多，但其他发色的样本都相对很少，本申请实施例训练得到的图像分类模型，能够有效提升对仅有少量样本的类别标签的识别准确率，并且数据处理操作简单通俗，便于迁移应用到不同的任务中。

在一些实施例中，用户使用终端101登录该应用程序，并向服务器102上传一张待识别图像，服务器102在云端调用该图像分类模型对待识别图像进行分类处理，获取待识别图像所属的预测类别，向终端101返回模型输出的预测类别，能够保证即使待识别图像真实所属的类别标签中仅有少量样本及标注(比如，新类别的样本和标注通常都很少)，仍然保持较高的图像分类准确率。

在另一些实施例中，服务器102训练得到图像分类模型后，对图像分类模型进行压缩，将压缩后的图像分类模型下发至终端101，由终端101直接在本地利用图像分类模型来执行图像分类任务，无需在每次执行图像分类任务时都进行通信交互，能够节约终端101与服务器102之间的通信开销。

在一些实施例中，服务器102是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式***，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一些实施例中，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、电子书阅读器等，但并不局限于此。

本领域技术人员可以知晓，上述终端101的数量可以更多或更少。比如上述终端101可以仅为一个，或者上述终端101为几十个或几百个，或者更多数量。本申请实施例对终端101的数量和设备类型不加以限定。

在一些实施例中，如本申请实施例所公开的图像处理方法，可以由服务器102对初始分类模型进行迭代训练，得到最终的图像分类模型，图像分类模型可以存储于服务器102中，由服务器102实时处理终端101的图像分类请求，或者，也可以由服务器102在对图像分类模型进行压缩后，将压缩后的图像分类模型发送至终端101，由终端101本地调用图像分类模型进行图像分类操作。需要说明的是，在服务器102为分布式存储***或者多个服务器构成的服务器集群的情况下，该分布式存储***或者服务器集群可以组成为一个区块链***，该分布式存储***或者服务器集群中的每个服务器均为区块链***内的一个节点设备。

图2是本申请实施例提供的一种图像处理方法的流程图。参见图2，该实施例应用于计算机设备，以计算机设备为服务器为例进行说明，该实施例包括下述步骤：

201、服务器获取多个样本图像对，该多个样本图像对中任一样本图像对包括第一样本图像和第二样本图像，该第一样本图像和该第二样本图像属于不同的类别标签。

在一些实施例中，服务器将所有的样本图像构建一个原始样本集，从原始样本集中随机选取两张属于不同类别标签的样本图像，即可得到一个样本图像对，重复多次执行上述操作，即可得到多个样本图像对。

可选地，对该多个样本图像对中的每个样本图像对，将一张样本图像称为第一样本图像，将另一张样本图像称为第二样本图像，且需要保证第一样本图像和第二样本图像属于不同的类别标签。

202、服务器对于该任一样本图像对，将该第一样本图像中的第一目标区域与该第二样本图像中的第二目标区域交换，得到一个目标图像对，该第一目标区域和该第二目标区域的位置相对应。

其中，该目标图像对包括第一目标图像和第二目标图像。

在一些实施例中，服务器从该第一样本图像中裁剪该第一目标区域，从该第二样本图像中裁剪该第二目标区域，将该第二目标区域填充至裁剪后的第一样本图像中对应的位置，得到该第一目标图像，将该第一目标区域填充至裁剪后的第二样本图像中对应的位置，得到该第二目标图像，将该第一目标图像和该第二目标图像确定为一个目标图像对。

在上述过程中，服务器对该多个样本图像对中的每个样本图像对都执行上述操作，也即使得每个样本图像对中的两张样本图像交换位置相同的部分区域，使得一张完成的任一张目标图像中，不同的区域携带不同的类别标签，使得在已有样本的基础上，通过图像信息交换的方式构建出了难度较大的困难样本，有利于提升对比学习的效果。

图3是本申请实施例提供的一种图像信息交换方式的原理性流程图，请参考图3，假设一个样本图像对中包括第一样本图像301和第二样本图像302，第一样本图像301的物体类别是汽车，第二样本图像302的物体类别是沙漏，分别将第一样本图像301和第二样本图像302的左下角的方形区域确定为第一目标区域3011和第二目标区域3021，接下来在第一样本图像301中裁剪掉第一目标区域3011，并将第二目标区域3021填充到原本第一目标区域3011所在的位置，得到了第一目标图像303，并且可以看出，在第一目标图像303中，第二目标区域3021携带的类别标签为沙漏，除了第二目标区域3021之外的其他区域携带的类别标签为汽车。

在一些实施例中，服务器基于Cutmix(裁剪混合)的方式从第一样本图像中随机选取一个或多个区域作为第一目标区域，并根据第一目标区域的位置，将第二样本图像中与第一目标区域位置相对应的一个或多个区域作为第二目标区域，本申请实施例对此不进行具体限定。

在一些实施例中，除了随机选取第一目标区域之外，服务器还可以基于β分布对第一样本图像进行采样，得到一个采样中心点，将β分布产生的采样中心点作为第一目标区域的左上角坐标，并通过β分布产生的加权系数λ来生成第一目标区域的宽度(W)和高度(H)，使得第一目标区域与第一样本图像之间的面积之比为1-λ。

在一些实施例中，针对第一目标区域的选取方式，服务器还可以利用语义分割模型分割出第一样本图像中的具有不同语义的物体，然后将任意一个物体所在区域确定为第一目标区域，本申请实施例不对第一目标区域的选取方式进行具体限定。

在一些实施例中，服务器保证第一样本图像和第二样本图像的尺寸相同，比如，在上述步骤201中仅挑选尺寸相同且类别标签不同的样本图像生成样本图像对，又比如，即使在上述步骤201中获取的任一样本图像对中第一样本图像和第二样本图像的尺寸不同，但通过上采样、降采样、尺寸缩放等操作，能够将第一样本图像和第二样本图像转换成相同的尺寸。

在上述过程中，通过保证第一样本图像和第二样本图像的尺寸相同，能够使得那么由于第一目标区域和第二目标区域的位置相对应，从而间接保证了第一目标区域和第二目标区域的尺寸相同，这样方便了直接将第一目标区域和第二目标区域交换，简化了构建目标图像对的流程。

在一些实施例中，第一样本图像和第二样本图像具有不同的尺寸，但通过保证第一目标区域和第二目标区域具有相同的尺寸，同样能直接将第一目标区域和第二目标区域交换，简化了构建目标图像对的流程。

在一些实施例中，第一样本图像和第二样本图像具有不同的尺寸，且第一目标区域和第二目标区域也具有不同的尺寸，此时通过保证第一目标区域和第二目标区域具有相同的形状，能够将第一目标区域或者第二目标区域进行尺寸缩放、上采样、降采样等操作转换成相同的尺寸，然后再填充到第二样本图像或者第一样本图像中对应的区域，这样能够进一步丰富目标图像对的类型。

203、服务器基于多个该目标图像对，调整初始分类模型的参数，得到图像分类模型，该图像分类模型用于识别输入图像所属的类别标签。

在一些实施例中，服务器对多个该目标图像对进行图像分块，得到多个目标图像块对；获取该多个目标图像块对各自所属的类别标签；基于该多个目标图像块对以及该多个目标图像块对各自所属的类别标签，调整该初始分类模型的参数，得到该图像分类模型。

可选地，服务器从原始样本集中随机配对得到多个样本图像对，并利用图像信息交换的方式，在该多个样本图像对的基础上进行数据增强，生成了多个目标图像对。由于该多个目标图像对中的每个目标图像对都包含了两张目标图像(第一目标图像和第二目标图像)，因此该多个目标图像对也即是多个目标图像所构成的增强样本集，也即，该多个目标图像对能够视为在原始样本集上构建出的增强样本集，增强样本集中包含的每个目标图像都携带了两个类别标签，因此具有更大的分类难度。

可选地，对于该多个目标图像对中的每个目标图像对，服务器对每个目标图像对中的第一目标图像都进行图像分块(Patch)，得到多个第一目标图像块，对每个目标图像对中的第二目标图像同样进行图像分块，得到多个第二目标图像块，将该多个第一目标图像块和该多个第二目标图像块确定为一个目标图像块对，重复多次执行上述分块操作，直到遍历了所有的目标图像对，即可得到该多个目标图像块对。

在一些实施例中，在上述进行图像分块处理时，需要保证切分出的目标图像块仅对应于单一的类别标签，切分出的目标图像块具有单一的类别标签意味着该目标图像块中不会既包括裁剪后的样本图像的内容、又包括被填充的目标区域的内容，也即，要么该目标图像块全部来自于裁剪后的样本图像，要么该目标图像块全部来自于被填充的目标区域(当然，目标区域也是从另一张样本图像中裁剪掉的区域)。

在一些实施例中，对于该多个目标图像块对中的每个目标图像块对，每个目标图像块对中包括两个目标图像块(第一目标图像块和第二目标图像块)，服务器将每个目标图像块原本所在的样本图像的类别标签，设置为每个目标图像块自身所属的类别标签。也即是说，任一目标图像块对中的任一目标图像块所属的类别标签与该任一目标图像块原本所在的样本图像的类别标签相同。

在上述过程中，通过对增强样本集中的各个困难样本(目标图像)进行分块，并采用分块后的目标图像块来投入到模型训练中，能够增强模型对于图像的局部理解能力，使得模型能够对输入图像的每个区域具有更好的理解性能，从而有利于提升整体图像分类的准确率。

在一些实施例中，服务器在进行训练时执行下述操作：从该多个目标图像块对中，筛选得到多个测试图像块；调用该初始分类模型，获取该多个测试图像块所属的预测类别；基于该多个测试图像块所属的预测类别和该多个测试图像块所属的类别标签，获取损失函数值；迭代执行获取该损失函数值的步骤，直到该损失函数值符合停止条件，停止迭代，得到该图像分类模型。

在上述过程中，相当于服务器从分块后的增强样本集中，筛选出用于进行模型测试的测试集，将这些测试集中的各个测试图像块投入到训练过程中，并基于各个测试图像块的预测类别和真实类别来计算损失函数值。

在一些实施例中，服务器在筛选测试集时执行如下操作：从待选的多个图像类别中，随机选取多个目标类别；从该多个目标图像块对中，随机选取属于该多个目标类别的多个参考图像块，该多个目标类别中不同的目标类别对应于相同数量的参考图像块；从该多个目标图像块对中，随机选取属于该多个目标类别的、除了该多个参考图像块之外的该多个测试图像块。

在上述过程中，相当于服务器在分块后的增强样本集中，先筛选出C(C≥2)个目标类别，对C个类别中每个类别均随机选取K(K≥1)个参考图像块，综合最终筛选出的C*K个参考图像块，构建一个训练用的支撑集(Support Set)，然后从C个类别中剩余的目标图像块中，随机选取多个测试图像块，构建一个测试用的测试集(Query Set)，可知支撑集和测试集中不存在相同的样本，也即支撑集和测试集之间不存在交集。通过综合支撑集和测试集两者进行对比学习，能够使得模型兼顾在目标图像块在两个不同样本集中的特征分布，以提升模型的分类准确度。

在一些实施例中，服务器在获取预测类别时执行如下操作：调用该初始分类模型，分别提取该多个参考图像块的图像特征和该多个测试图像块的图像特征；基于该多个参考图像块的图像特征和该多个测试图像块的图像特征之间的相关度，获取该多个测试图像块所属的预测类别。

可选地，对于该多个测试图像块中的任一测试图像块，服务器获取该任一测试图像块的图像特征与每个参考图像块的图像特征之间的相关度，将相关度最大的参考图像块所属的类别标签确定为该任一测试图像块的预测类别。

在一些实施例中，上述相关度可以采取各种各样的计算方式，比如，上述相关度为两个图像特征之间的内积，或者，上述相关度为两个图像特征之间的余弦距离，或者，上述相关度与两个图像特征之间的欧氏距离呈负相关，本申请实施例对此不进行具体限定。

在一个示例中，以相关度为两个图像特征之间的内积为例进行说明，假设对于测试集q中的第i个测试图像块

调用初始分类模型提取到的

的图像特征表示为

那么服务器获取

与支撑集s中的每个参考图像块的图像特征

之间的内积(j大于或等于1且小于或等于支撑集的样本容量)，并选择内积最大的参考图像块所属的类别标签作为初始分类模型对

的预测类别j^*，j^*的表达式如下：

在上述基础上，初始分类模型在迭代时的损失函数L_iwh如下述公式所示，其中L的下标iwh表示对第i张目标图像切分出的一个宽为w高为h的测试图像块：

其中，e为自然底数，

表示对测试集q中的第i个、宽为w、高为h的测试图像块iwh识别所得到的预测类别，

表示支撑集s中与测试图像块iwh的预测类别具有相同类别标签的参考图像块j的类别标签，

表示对测试图像块iwh提取到的图像特征，

表示对参考图像块j提取到的图像特征，

表示支撑集s中与测试图像块iwh的预测类别具有不同类别标签的参考图像块k的类别标签，

表示对参考图像块k提取到的图像特征。

在一些实施例中，服务器也可以不对各个目标图像对进行图像分块，也即直接基于该多个目标图像对以及该多个目标图像对各自所属的类别标签，调整该初始分类模型的参数，得到该图像分类模型，基于整张图像的训练过程与上述基于分块后的图像的训练过程类似，这里不做赘述，这样能够简化模型的训练流程。

在不进行图像分块的情况下，初始分类模型对测试集q中的第i个测试图像

的损失函数L_i如下述公式所示：

其中，e为自然底数，

表示对测试集q中的测试图像i识别所得到的预测类别，

表示支撑集s中与测试图像i的预测类别具有相同类别标签的参考图像j的类别标签，

表示对测试图像i提取到的图像特征，

表示对参考图像j提取到的图像特征，

表示支撑集s中与测试图像i的预测类别具有不同类别标签的参考图像k的类别标签，

表示对参考图像k提取到的图像特征。

需要说明的是，上述图像分类模型可以具有各种类型的架构(Backbone)，该图像分类模型包括但不限于：卷积神经网络(Convolutional Neural Networks，CNN)、残差网络(Residual Networks，ResNet)、宽度残差网络(Wide Residual Networks，WRN)等，本申请实施例不对图像分类模型的架构进行具体限定。

上述所有可选技术方案，能够采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本申请实施例提供的方法，通过构建多个样本图像对，保证每个样本图像对中的两张样本图像属于不同的类别标签，再通过交换每个样本图像对中相同位置的目标区域，能够构造出经过数据增强后的新的目标图像对，能够在小样本学习场景下通过基于图像信息交换的方式对原始的样本图像进行数据增强，使得产生的每个目标图像中携带两个类别标签，从而能够显著提升基于小样本学习的图像分类模型的泛化能力，也即提升了图像分类模型的分类准确度。

图4是本申请实施例提供的一种图像分类模型的训练流程图，请参考图4，该图像分类模型的训练流程应用于服务器，该训练流程如下：

401、服务器获取多个样本图像对，该多个样本图像对中任一样本图像对包括第一样本图像和第二样本图像，该第一样本图像和该第二样本图像属于不同的类别标签。

上述步骤401与上述步骤201类似，这里不做赘述。

402、服务器对于该任一样本图像对，将该第一样本图像中的第一目标区域与该第二样本图像中的第二目标区域交换，得到一个目标图像对，该第一目标区域和该第二目标区域的位置相对应。

可选地，该目标图像对包括第一目标图像和第二目标图像。

在一些实施例中，服务器从该第一样本图像中裁剪该第一目标区域；从该第二样本图像中裁剪该第二目标区域；将该第二目标区域填充至裁剪后的第一样本图像中对应的位置，得到该第一目标图像；将该第一目标区域填充至裁剪后的第二样本图像中对应的位置，得到该第二目标图像。

上述步骤402与上述步骤202类似，这里不做赘述。

403、服务器对多个该目标图像对进行图像分块，得到多个目标图像块对。

在上述过程中，服务器从原始样本集中随机配对得到多个样本图像对，并利用图像信息交换的方式，在该多个样本图像对的基础上进行数据增强，生成了多个目标图像对。由于该多个目标图像对中的每个目标图像对都包含了两张目标图像(第一目标图像和第二目标图像)，因此该多个目标图像对也即是多个目标图像所构成的增强样本集，也即，该多个目标图像对能够视为在原始样本集上构建出的增强样本集，增强样本集中包含的每个目标图像都携带了两个类别标签，因此具有更大的分类难度。

404、服务器获取该多个目标图像块对各自所属的类别标签。

405、服务器从该多个目标图像块对所对应的待选的多个类别标签中，随机选取多个目标类别。

在一些实施例中，假设该多个目标图像块对应于待选的M(M≥2)个类别标签，那么服务器从所有的这M个类别标签中随机选取C(2≤C≤M)个目标类别，在随机选取时可采用各种随机算法，本申请实施例不对随机算法进行具体限定。

406、服务器从该多个目标图像块对中，随机选取属于该多个目标类别的多个参考图像块，该多个目标类别中不同的目标类别对应于相同数量的参考图像块。

在一些实施例中，该多个目标类别中不同的目标类别对应于相同数量的参考图像块，是指服务器对于每个目标类别所筛选出来的参考图像块的数量保持一致。例如，服务器从待选的M个类别标签中，随机筛选出C个目标类别，对C个类别中每个类别均随机选取K(K≥1)个参考图像块，最终能够筛选得到C*K个参考图像块，这C*K个参考图像块能够构成一个训练用的支撑集(Support Set)

407、服务器从该多个目标图像块对中，随机选取属于该多个目标类别的、除了该多个参考图像块之外的多个测试图像块。

在一些实施例中，对于C个目标类别中的每个目标类别，服务器仅仅从每个目标类别所对应的所有目标图像块中随机选取了K个目标图像块作为K个参考图像块，因此每个目标类别都会存在剩余的目标图像块，服务器可以从C个目标类别所有的剩余的目标图像块中，随机选取该多个测试图像块，这多个测试图像块能够构成一个测试用的测试集(QuerySet)。

需要说明的是，在筛选该多个测试图像块中，并不需要保持对C个目标类别中的每个目标类别都至少筛选一个测试图像块，也即，容许在该多个测试图像块中没有任何测试图像块属于C个目标类别中的某个目标类别，也即只需要保证测试集所对应的类别标签属于支撑集所对应的类别标签的子集即可。

显然，支撑集和测试集中不存在相同的样本，也即支撑集和测试集之间不存在交集。通过综合支撑集和测试集两者进行对比学习，能够使得模型兼顾在目标图像块在两个不同样本集中的特征分布，以提升模型的分类准确度。

在上述步骤405-407中，服务器从该多个目标图像块对中，筛选得到多个测试图像块。除了上述筛选方式之外，服务器也可以直接从该多个目标图像块对中随机筛选出多个目标图像块作为该多个测试图像块，并利用各个测试图像块的预测类别和真实类别进行损失函数值的计算，然后迭代调整初始分类模型的参数，此时相当于无需分别构建支撑集和测试集进行对比学习，能够大大简化模型训练的流程。

408、服务器调用初始分类模型，分别提取该多个参考图像块的图像特征和该多个测试图像块的图像特征。

在一些实施例中，服务器将该多个参考图像块输入该初始分类模型，通过该初始分类模型提取得到该多个参考图像块的图像特征，例如，该初始分类模型为CNN模型，则通过CNN的多个卷积层分别对该多个参考图像块进行卷积处理，将最后一个卷积层输出的特征图确定为该多个参考图像块的图像特征。

在一些实施例中，服务器将该多个测试图像块输入该初始分类模型，通过该初始分类模型提取得到该多个测试图像块的图像特征，例如，该初始分类模型为CNN模型，则通过CNN的多个卷积层分别对该多个测试图像块进行卷积处理，将最后一个卷积层输出的特征图确定为该多个测试图像块的图像特征。

需要说明的是，上述初始分类模型可以具有各种类型的架构(Backbone)，该初始分类模型包括但不限于：CNN、ResNet、WRN等，本申请实施例不对初始分类模型的架构进行具体限定。

409、服务器基于该多个参考图像块的图像特征和该多个测试图像块的图像特征之间的相关度，获取该多个测试图像块所属的预测类别。

调用初始分类模型提取到的

的图像特征表示为

那么服务器获取

与支撑集s中的每个参考图像块的图像特征

的预测类别j^*，j^*的表达式如下：

在上述步骤408-409中，服务器调用该初始分类模型，获取该多个测试图像块所属的预测类别。在一些实施例中，如果不采用对比学习的方式，那么对每个测试图像块，可以对提取到的每个测试图像块的图像特征进行指数归一化处理，从而分别得到每个测试图像块属于每个类别标签的预测概率，将具有最大预测概率的类别标签确定为每个测试图像块的预测类别。

410、服务器基于该多个测试图像块所属的预测类别和该多个测试图像块所属的类别标签，获取损失函数值。

在一些实施例中，初始分类模型在迭代时的损失函数L_iwh如下述公式所示，其中L的下标iwh表示对第i张目标图像切分出的一个宽为w高为h的测试图像块：

其中，e为自然底数，

表示对测试图像块iwh提取到的图像特征，

表示对参考图像块j提取到的图像特征，

表示对参考图像块k提取到的图像特征。

的损失函数L_i如下述公式所示：

其中，e为自然底数，

表示对测试集q中的测试图像i识别所得到的预测类别，

表示对测试图像i提取到的图像特征，

表示对参考图像j提取到的图像特征，

表示对参考图像k提取到的图像特征。

411、服务器迭代执行上述步骤405-410，直到该损失函数值符合停止条件，停止迭代，得到图像分类模型，该图像分类模型用于识别输入图像所属的类别标签。

可选地，该停止条件为迭代次数大于次数阈值，或者，该停止条件为损失函数值小于损失阈值，该损失阈值可以为任一大于或等于的数值。

在上述步骤405-411中，服务器基于该多个目标图像块对以及该多个目标图像块对各自所属的类别标签，调整该初始分类模型的参数，得到该图像分类模型。通过构造基于图像分块技术的对比学习训练和测试框架，能够顺利应用到小样本学习的任务中，且能够带来大幅的性能提升。

在上述步骤403-411中，服务器基于多个该目标图像对，调整初始分类模型的参数，得到图像分类模型。通过将支撑集与测试集进行对比学习方式，能够构建出小样本信息并植入到模型训练流程中，并整合入有效的数据增强算法进行数据增强，从而提升小样本场景下图像分类的准确率。

而在数据增强算法中，由于采用交互了样本图像中的目标区域，以构造目标图像，并对目标图像进行图像分块，使得切分出的目标图像块中能够引入噪声对比训练机制，这一机制可以称为infoPatch，能够深度挖掘每个目标图像块之间的关系，从而提升图像分类模型对噪声信息的估计能力。

在一个示例性场景中，以采用Res-12架构的初始分类模型为例，本申请实施例训练得到的具有Res-12架构的图像分类模型称为infoPatch模型，能够挖掘各个图像块之间的关系以提升噪声信息估计。通过分别在miniImageNet数据集和tieredImageNet数据集上对infoPatch模型进行测试，得到infoPatch模型分别在上述两个数据集上的测试结果。表1示出了infoPatch模型分别与ProtoNet(雏形网络)、MatchingNet(匹配网络)、RelationNet(关系网络)、MAML(Model-Agnostic Meta Learnings，模型无关元学习)、LEO(潜在嵌入优化网络)、PPA(预测激活参数网络)、Robust dist++(分类距离自适应网络)、wDAE(分类权重自编码网络)、CC+rot(紧密连接自监督网络)、Cross Domain(跨域迁移网络)、TapNet(任务自适应预测网络)、MetaOptNet(元操作网络)、CAN(交叉注意力机制网络)、FEAT(多任务元学习网络)、DeepEMD(深度Wasserstein距离网络)、Negative Margin(分类间距自适应网络)、Rethink-Distill(自蒸馏网络)在相同测试条件下的测试结果对比。其中，上述各个模型总体上分别属于4类模型架构：Conv4(CNN)、WRN-28(WRN)、Res-10(ResNet)、Res-12(ResNet)。

表1

通过表1可以看出，infoPatch模型在两个数据集上都具有非常显著的图像分类性能，尤其是1-shot(单样本)场景下，图像分类的准确率具有更加明显的大幅提升。

图5是本申请实施例提供的一种图像处理装置的结构示意图，请参考图5，该装置包括：

获取模块501，用于获取多个样本图像对，该多个样本图像对中任一样本图像对包括第一样本图像和第二样本图像，该第一样本图像和该第二样本图像属于不同的类别标签；

交换模块502，用于对于该任一样本图像对，将该第一样本图像中的第一目标区域与该第二样本图像中的第二目标区域交换，得到一个目标图像对，该第一目标区域和该第二目标区域的位置相对应；

调整模块503，用于基于多个该目标图像对，调整初始分类模型的参数，得到图像分类模型，该图像分类模型用于识别输入图像所属的类别标签。

本申请实施例提供的装置，通过构建多个样本图像对，保证每个样本图像对中的两张样本图像属于不同的类别标签，再通过交换每个样本图像对中相同位置的目标区域，能够构造出经过数据增强后的新的目标图像对，能够在小样本学习场景下通过基于图像信息交换的方式对原始的样本图像进行数据增强，使得产生的每个目标图像中携带两个类别标签，从而能够显著提升基于小样本学习的图像分类模型的泛化能力，也即提升了图像分类模型的分类准确度。

在一种可能实施方式中，该目标图像对包括第一目标图像和第二目标图像，该交换模块502用于：

从该第一样本图像中裁剪该第一目标区域；

从该第二样本图像中裁剪该第二目标区域；

将该第二目标区域填充至裁剪后的第一样本图像中对应的位置，得到该第一目标图像；

将该第一目标区域填充至裁剪后的第二样本图像中对应的位置，得到该第二目标图像。

在一种可能实施方式中，基于图5的装置组成，该调整模块503包括：

分块单元，用于对多个该目标图像对进行图像分块，得到多个目标图像块对；

获取单元，用于获取该多个目标图像块对各自所属的类别标签；

调整单元，用于基于该多个目标图像块对以及该多个目标图像块对各自所属的类别标签，调整该初始分类模型的参数，得到该图像分类模型。

在一种可能实施方式中，任一目标图像块对中的任一目标图像块所属的类别标签与该任一目标图像块原本所在的样本图像的类别标签相同。

在一种可能实施方式中，基于图5的装置组成，该调整单元包括：

筛选子单元，用于从该多个目标图像块对中，筛选得到多个测试图像块；

第一获取子单元，用于调用该初始分类模型，获取该多个测试图像块所属的预测类别；

第二获取子单元，用于基于该多个测试图像块所属的预测类别和该多个测试图像块所属的类别标签，获取损失函数值；

迭代子单元，用于迭代执行获取该损失函数值的步骤，直到该损失函数值符合停止条件，停止迭代，得到该图像分类模型。

在一种可能实施方式中，该筛选子单元用于：

从待选的多个类别标签中，随机选取多个目标类别；

从该多个目标图像块对中，随机选取属于该多个目标类别的多个参考图像块，该多个目标类别中不同的目标类别对应于相同数量的参考图像块；

从该多个目标图像块对中，随机选取属于该多个目标类别的、除了该多个参考图像块之外的该多个测试图像块。

在一种可能实施方式中，该第一获取子单元用于：

调用该初始分类模型，分别提取该多个参考图像块的图像特征和该多个测试图像块的图像特征；

基于该多个参考图像块的图像特征和该多个测试图像块的图像特征之间的相关度，获取该多个测试图像块所属的预测类别。

需要说明的是：上述实施例提供的图像处理装置在处理图像时，仅以上述各功能模块的划分进行举例说明，实际应用中，能够根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思，其具体实现过程详见图像处理方法实施例，这里不再赘述。

图6是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备600可因配置或性能不同而产生比较大的差异，该计算机设备600包括一个或一个以上处理器(Central Processing Units，CPU)601和一个或一个以上的存储器602，其中，该存储器602中存储有至少一条计算机程序，该至少一条计算机程序由该一个或一个以上处理器601加载并执行以实现上述各个实施例提供的图像处理方法。可选地，该计算机设备600还具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备600还包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条计算机程序的存储器，上述至少一条计算机程序可由终端中的处理器执行以完成上述各个实施例中图像处理方法。例如，该计算机可读存储介质包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得计算机设备能够执行以完成上述实施例中图像处理方法。

本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成，也能够通过程序来指令相关的硬件完成，可选地，该程序存储于一种计算机可读存储介质中，可选地，上述提到的存储介质是只读存储器、磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标图像对包括第一目标图像和第二目标图像，所述将所述第一样本图像中的第一目标区域与所述第二样本图像中的第二目标区域交换，得到一个目标图像对包括：

从所述第一样本图像中裁剪所述第一目标区域；

从所述第二样本图像中裁剪所述第二目标区域；

3.根据权利要求1所述的方法，其特征在于，所述基于多个所述目标图像对，调整初始分类模型的参数，得到图像分类模型包括：

对多个所述目标图像对进行图像分块，得到多个目标图像块对；

获取所述多个目标图像块对各自所属的类别标签；

基于所述多个目标图像块对以及所述多个目标图像块对各自所属的类别标签，调整所述初始分类模型的参数，得到所述图像分类模型。

4.根据权利要求3所述的方法，其特征在于，任一目标图像块对中的任一目标图像块所属的类别标签与所述任一目标图像块原本所在的样本图像的类别标签相同。

5.根据权利要求3所述的方法，其特征在于，所述基于所述多个目标图像块对以及所述多个目标图像块对各自所属的类别标签，调整所述初始分类模型的参数，得到所述图像分类模型包括：

从所述多个目标图像块对中，筛选得到多个测试图像块；

调用所述初始分类模型，获取所述多个测试图像块所属的预测类别；

基于所述多个测试图像块所属的预测类别和所述多个测试图像块所属的类别标签，获取损失函数值；

迭代执行获取所述损失函数值的步骤，直到所述损失函数值符合停止条件，停止迭代，得到所述图像分类模型。

6.根据权利要求5所述的方法，其特征在于，所述从所述多个目标图像块对中，筛选得到多个测试图像块包括：

从待选的多个类别标签中，随机选取多个目标类别；

7.根据权利要求6所述的方法，其特征在于，所述调用所述初始分类模型，获取所述多个测试图像块所属的预测类别包括：

8.一种图像处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的图像处理方法。

10.一种存储介质，其特征在于，所述存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的图像处理方法。