CN113077525A

CN113077525A - 一种基于频域对比学习的图像分类方法

Info

Publication number: CN113077525A
Application number: CN202110164693.8A
Authority: CN
Inventors: 袁召全; 邵焕; 吴晓
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-02-06
Filing date: 2021-02-06
Publication date: 2021-07-06

Abstract

一种基于频域对比学习的图像分类方法，包括以下步骤：S1：对训练集图像，分别做两次随机的数据增强，对同一张图像做两次随机数据增强会而到两张不同的增强后的图像；S2：将数据增强后的图像做离散余弦变换，得到转移到频域的图像；S3：将转移到频域的图像通过深度网络，通过对比学习任务，学习网络参数，得到图像的稳定特征；S5：利用参数已经优化的深度网络，对测试集中的图像进行分类。本发明能够学习到同一类物体在不同背景下的稳定特征，比传统的分类方法能更好地进行非独立同分布图像的分类。

Description

一种基于频域对比学习的图像分类方法

技术领域

本发明涉及图像分类领域，尤其涉及一种基于频域对比学习的图像分类方法。

背景技术

近年来，随着深度学习技术的不断发展，计算机已经在各种图像分类任务中取得相当高的精度。然而目前主流的图像分类方法的有效性都是建立在训练数据集和测试集满足独立同分布的前提之上的。在实际应用中，训练数据和测试数据往往难以严格满足独立同分布的假设，在这种情况下，用传统方法训练的模型，虽然在训练数据集上可以表现良好，但在测试数据上往往无法实现理想的分类效果。

针对非独立同分布图像提出的分类方法并不多，目前提出的方法主要基于因果推断理论。该类方法将图像输入深度模型提取特征，将特征的每一维轮流作为干预变量，同时将其他维的特征看作混杂因子。使模型学习一组样本权重，最小化每一维特征之间的关联，从而独立地估计每一维特征对分类结果的因果关系。然而，图像特征的每一维之间并不是完全没有关联的，且特征的不同维度对图像类别的因果关系也存在不同。这类方法将每一维特征同等看待，其分类效果仍不够理想。

训练数据和测试数据的非独立同分布主要是由图像中不同的上下文信息(包括分类目标所处背景、本身纹理、动作等)导致的，但分类目标本身始终具有一些在不同场景下保持不变的特征。学习目标本身的这些稳定特征可以有效解决非独立同分布图像的分类问题。然而，目标稳定特征的多样性和神经网络提取的高维特征的抽象性给稳定特征的学习带来了挑战。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于频域对比学习的图像分类方法。

(二)技术方案

为解决上述问题，本发明提出了一种基于频域对比学习的图像分类方法，包括以下步骤：

S1：对训练集图像，分别做两次随机的数据增强，数据增强操作包括裁剪调整大小、水平翻转、高斯模糊、色彩抖动、转灰度图；

每项数据增强操作是否执行由事先设置的概率决定的，以对同一张图像做两次随机数据增强会而到两张不同的增强后的图像；

S2：将数据增强后的图像做离散余弦变换，得到转移到频域的图像；

其中，图像采用RGB颜色表代码表示；提取图像的频域特征可以分为以下两个子步骤：

S201：依照下列公式将图像从RGB颜色空间转换到YCbCr颜色空间：

202：将转换到YCbCr颜色空间的图片分割成8×8的若干个小块，对每一块求其三个频道，根据公式F＝AfA^T求对应的离散余弦变换系数；转换矩阵公式如下：

其中，原图片划分为14个8×8的小块，每个小块含有有64个像素点，每个像素点有3个颜色通道的像素值，即，每个图像小块可以求得192个频域系数，从而得到维度为(192，14，14)的图像频域系数；

S3：将转移到频域的图像通过深度网络，通过对比学习任务，学习网络参数，得到图像的稳定特征；其包括以下几个子步骤：

S301：将图像频域系数分别输入深度网络的特征提取层，得到维度为(N，2048)的特征h_i和h_j，其网络结构采用残差神经网络；

S302：将h_i和h_j输入多层感知机，得到用于对比学习训练的(N，128)维特征z_i和z_j；

S303：将z_i和z_j按第0维进行拼接，得到用于计算对比学习损失的特征：

依据下列公式计算对比学习预训练的损失：

其中，σ为正数；

S304：通过最小化上述对比学习预训练的损失，反过来对深度网络进行参数调整，采用后向传播算法进行全局参数调整，直到对比学习预训练的损失不再下降，则模型收敛，对比学习预训练步骤结束；

S4：对训练集图像，利用提取的特征预测其分类结果，进一步学习网络参数，进行分类任务；

其中，将S301中提取的2018维特征输入全连接层和softmax层组成的分类器中，得到预测的分类结果：

N为一个批次中图像的数目，K为图像的类别数目，；

再利用分类结果计算交叉熵损失函数：

最后，通过后向传播算法进行全局参数调整，以最小化交叉熵损失函数为目标优化网络参数，直到该函数值不再下降。

S5：利用参数已经优化的深度网络，对测试集中的图像进行分类：

对测试图像做按照S1中的随机数据增强，再按照S2转换到频域；最后，将转换到频域后的图像输入深度网络的特征提取层，并输入由全连接层和softmax层组成的分类器中，得到预测结果。

优选的，在S2中，将频域图像输入卷积神经网络中提取特征。

优选的，在S3中，结合频域学习和对比学习框架，通过对比学习任务的预训练使模型学习稳定的特征。

本发明中，将每个类别的图像按上下文信息都做了二次分类，再划分相关数据集：训练集：包括图像以及该图像所对应的分类标签。测试集：包括图像以及该图像所对应的分类标签。但测试集中图像的上下文信息和训练集中的不同。

本发明中，将每一批次的图片做两次随机的数据增强再转换到频域，得到同一个图像的两个特征，训练模型分辨两个特征是否来自同一图像，从而学习图像的稳定特征，提高非独立同分布图像的分类效果。

本发明能够学习到同一类物体在不同背景下的稳定特征，比传统的分类方法能更好地进行非独立同分布图像的分类。

附图说明

图1为本发明中基于频域对比学习的非独立同分布图像分类方法流程图。

图2为本发明提出的基于频域对比学习的图像分类方法中频域对比学习的模型结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-2所示，本发明提出的一种基于频域对比学习的图像分类方法，包括以下步骤：

S1：对训练集图像[x₁，x₂，x₃，……x_N]，分别做两次随机的数据增强，数据增强操作包括裁剪调整大小、水平翻转、高斯模糊、色彩抖动、转灰度图；

S2：将数据增强后的图像做离散余弦变换，得到转移到频域的图像，即：

[x_i1，x_i2，x_i3，……x_iN]和[x_j1，x_j2，x_j3，……x_jN]；

其中，图像采用RGB颜色表代码表示；

增强后的图像维度为(3，112，112)，其中3代表图像有3个颜色通道，分别是R、G，B，112为事先设置的图像尺寸大小；

提取图像的频域特征可以分为以下两个子步骤：

其中，原图片(3，112，112)，可划分为14个8×8的小块，每个小块含有有64个像素点，每个像素点有3个颜色通道的像素值，即，每个图像小块可以求得192个频域系数，从而得到维度为(192，14，14)的图像频域系数：

[x’_i1，x’_i2，x’_i3，……x’_iN]和[x’_j1，x’_j2，x’_j3，……x’_jN]；

S301：将图像频域系数[x’_i1，x’_i2，x’_i3，……x’_iN]和[x’_j1，x’_j2，x’_j3，……x’_jN]分别输入深度网络的特征提取层，得到维度为(N，2048)的特征h_i和h_j，其网络结构采用残差神经网络；

依据下列公式计算对比学习预训练的损失：

其中，σ为正数；

N为一个批次中图像的数目，K为图像的类别数目，；

再利用分类结果计算交叉熵损失函数：

在一个可选的实施例中，在S2中，将频域图像输入卷积神经网络中提取特征。

在一个可选的实施例中，在S3中，结合频域学习和对比学习框架，通过对比学习任务的预训练使模型学习稳定的特征。

综上，本发明能够学习到同一类物体在不同背景下的稳定特征，比传统的分类方法能更好地进行非独立同分布图像的分类。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于频域对比学习的图像分类方法，其特征在于，包括以下步骤：

依据下列公式计算对比学习预训练的损失：

其中，σ为正数；

N为一个批次中图像的数目，K为图像的类别数目，；

再利用分类结果计算交叉熵损失函数：

最后，通过后向传播算法进行全局参数调整，以最小化交叉熵损失函数为目标优化网络参数，直到该函数值不再下降；

2.根据权利要求1所述的基于频域对比学习的图像分类方法，其特征在于，在S2中，将频域图像输入卷积神经网络中提取特征。

3.根据权利要求1所述的基于频域对比学习的图像分类方法，其特征在于，在S3中，结合频域学习和对比学习框架，通过对比学习任务的预训练使模型学习稳定的特征。