CN113077525A - 一种基于频域对比学习的图像分类方法 - Google Patents

一种基于频域对比学习的图像分类方法 Download PDF

Info

Publication number
CN113077525A
CN113077525A CN202110164693.8A CN202110164693A CN113077525A CN 113077525 A CN113077525 A CN 113077525A CN 202110164693 A CN202110164693 A CN 202110164693A CN 113077525 A CN113077525 A CN 113077525A
Authority
CN
China
Prior art keywords
image
frequency domain
learning
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110164693.8A
Other languages
English (en)
Inventor
袁召全
邵焕
吴晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202110164693.8A priority Critical patent/CN113077525A/zh
Publication of CN113077525A publication Critical patent/CN113077525A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Discrete Mathematics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于频域对比学习的图像分类方法,包括以下步骤:S1:对训练集图像,分别做两次随机的数据增强,对同一张图像做两次随机数据增强会而到两张不同的增强后的图像;S2:将数据增强后的图像做离散余弦变换,得到转移到频域的图像;S3:将转移到频域的图像通过深度网络,通过对比学习任务,学习网络参数,得到图像的稳定特征;S5:利用参数已经优化的深度网络,对测试集中的图像进行分类。本发明能够学习到同一类物体在不同背景下的稳定特征,比传统的分类方法能更好地进行非独立同分布图像的分类。

Description

一种基于频域对比学习的图像分类方法
技术领域
本发明涉及图像分类领域,尤其涉及一种基于频域对比学习的图像分类方法。
背景技术
近年来,随着深度学习技术的不断发展,计算机已经在各种图像分类任务中取得相当高的精度。然而目前主流的图像分类方法的有效性都是建立在训练数据集和测试集满足独立同分布的前提之上的。在实际应用中,训练数据和测试数据往往难以严格满足独立同分布的假设,在这种情况下,用传统方法训练的模型,虽然在训练数据集上可以表现良好,但在测试数据上往往无法实现理想的分类效果。
针对非独立同分布图像提出的分类方法并不多,目前提出的方法主要基于因果推断理论。该类方法将图像输入深度模型提取特征,将特征的每一维轮流作为干预变量,同时将其他维的特征看作混杂因子。使模型学习一组样本权重,最小化每一维特征之间的关联,从而独立地估计每一维特征对分类结果的因果关系。然而,图像特征的每一维之间并不是完全没有关联的,且特征的不同维度对图像类别的因果关系也存在不同。这类方法将每一维特征同等看待,其分类效果仍不够理想。
训练数据和测试数据的非独立同分布主要是由图像中不同的上下文信息(包括分类目标所处背景、本身纹理、动作等)导致的,但分类目标本身始终具有一些在不同场景下保持不变的特征。学习目标本身的这些稳定特征可以有效解决非独立同分布图像的分类问题。然而,目标稳定特征的多样性和神经网络提取的高维特征的抽象性给稳定特征的学习带来了挑战。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于频域对比学习的图像分类方法。
(二)技术方案
为解决上述问题,本发明提出了一种基于频域对比学习的图像分类方法,包括以下步骤:
S1:对训练集图像,分别做两次随机的数据增强,数据增强操作包括裁剪调整大小、水平翻转、高斯模糊、色彩抖动、转灰度图;
每项数据增强操作是否执行由事先设置的概率决定的,以对同一张图像做两次随机数据增强会而到两张不同的增强后的图像;
S2:将数据增强后的图像做离散余弦变换,得到转移到频域的图像;
其中,图像采用RGB颜色表代码表示;提取图像的频域特征可以分为以下两个子步骤:
S201:依照下列公式将图像从RGB颜色空间转换到YCbCr颜色空间:
Figure BDA0002937434440000021
202:将转换到YCbCr颜色空间的图片分割成8×8的若干个小块,对每一块求其三个频道,根据公式F=AfAT求对应的离散余弦变换系数;转换矩阵公式如下:
Figure BDA0002937434440000031
其中,原图片划分为14个8×8的小块,每个小块含有有64个像素点,每个像素点有3个颜色通道的像素值,即,每个图像小块可以求得192个频域系数,从而得到维度为(192,14,14)的图像频域系数;
S3:将转移到频域的图像通过深度网络,通过对比学习任务,学习网络参数,得到图像的稳定特征;其包括以下几个子步骤:
S301:将图像频域系数分别输入深度网络的特征提取层,得到维度为(N,2048)的特征hi和hj,其网络结构采用残差神经网络;
S302:将hi和hj输入多层感知机,得到用于对比学习训练的(N,128)维特征zi和zj
S303:将zi和zj按第0维进行拼接,得到用于计算对比学习损失的特征:
Figure BDA0002937434440000032
依据下列公式计算对比学习预训练的损失:
Figure BDA0002937434440000033
Figure BDA0002937434440000034
Figure BDA0002937434440000035
其中,σ为正数;
S304:通过最小化上述对比学习预训练的损失,反过来对深度网络进行参数调整,采用后向传播算法进行全局参数调整,直到对比学习预训练的损失不再下降,则模型收敛,对比学习预训练步骤结束;
S4:对训练集图像,利用提取的特征预测其分类结果,进一步学习网络参数,进行分类任务;
其中,将S301中提取的2018维特征输入全连接层和softmax层组成的分类器中,得到预测的分类结果:
Figure BDA0002937434440000041
N为一个批次中图像的数目,K为图像的类别数目,;
再利用分类结果计算交叉熵损失函数:
Figure BDA0002937434440000042
最后,通过后向传播算法进行全局参数调整,以最小化交叉熵损失函数为目标优化网络参数,直到该函数值不再下降。
S5:利用参数已经优化的深度网络,对测试集中的图像进行分类:
对测试图像做按照S1中的随机数据增强,再按照S2转换到频域;最后,将转换到频域后的图像输入深度网络的特征提取层,并输入由全连接层和softmax层组成的分类器中,得到预测结果。
优选的,在S2中,将频域图像输入卷积神经网络中提取特征。
优选的,在S3中,结合频域学习和对比学习框架,通过对比学习任务的预训练使模型学习稳定的特征。
本发明中,将每个类别的图像按上下文信息都做了二次分类,再划分相关数据集:训练集:包括图像以及该图像所对应的分类标签。测试集:包括图像以及该图像所对应的分类标签。但测试集中图像的上下文信息和训练集中的不同。
本发明中,将每一批次的图片做两次随机的数据增强再转换到频域,得到同一个图像的两个特征,训练模型分辨两个特征是否来自同一图像,从而学习图像的稳定特征,提高非独立同分布图像的分类效果。
本发明能够学习到同一类物体在不同背景下的稳定特征,比传统的分类方法能更好地进行非独立同分布图像的分类。
附图说明
图1为本发明中基于频域对比学习的非独立同分布图像分类方法流程图。
图2为本发明提出的基于频域对比学习的图像分类方法中频域对比学习的模型结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1-2所示,本发明提出的一种基于频域对比学习的图像分类方法,包括以下步骤:
S1:对训练集图像[x1,x2,x3,……xN],分别做两次随机的数据增强,数据增强操作包括裁剪调整大小、水平翻转、高斯模糊、色彩抖动、转灰度图;
每项数据增强操作是否执行由事先设置的概率决定的,以对同一张图像做两次随机数据增强会而到两张不同的增强后的图像;
S2:将数据增强后的图像做离散余弦变换,得到转移到频域的图像,即:
[xi1,xi2,xi3,……xiN]和[xj1,xj2,xj3,……xjN];
其中,图像采用RGB颜色表代码表示;
增强后的图像维度为(3,112,112),其中3代表图像有3个颜色通道,分别是R、G,B,112为事先设置的图像尺寸大小;
提取图像的频域特征可以分为以下两个子步骤:
S201:依照下列公式将图像从RGB颜色空间转换到YCbCr颜色空间:
Figure BDA0002937434440000061
202:将转换到YCbCr颜色空间的图片分割成8×8的若干个小块,对每一块求其三个频道,根据公式F=AfAT求对应的离散余弦变换系数;转换矩阵公式如下:
Figure BDA0002937434440000062
其中,原图片(3,112,112),可划分为14个8×8的小块,每个小块含有有64个像素点,每个像素点有3个颜色通道的像素值,即,每个图像小块可以求得192个频域系数,从而得到维度为(192,14,14)的图像频域系数:
[x’i1,x’i2,x’i3,……x’iN]和[x’j1,x’j2,x’j3,……x’jN];
S3:将转移到频域的图像通过深度网络,通过对比学习任务,学习网络参数,得到图像的稳定特征;其包括以下几个子步骤:
S301:将图像频域系数[x’i1,x’i2,x’i3,……x’iN]和[x’j1,x’j2,x’j3,……x’jN]分别输入深度网络的特征提取层,得到维度为(N,2048)的特征hi和hj,其网络结构采用残差神经网络;
S302:将hi和hj输入多层感知机,得到用于对比学习训练的(N,128)维特征zi和zj
S303:将zi和zj按第0维进行拼接,得到用于计算对比学习损失的特征:
Figure BDA0002937434440000071
依据下列公式计算对比学习预训练的损失:
Figure BDA0002937434440000072
Figure BDA0002937434440000073
Figure BDA0002937434440000074
其中,σ为正数;
S304:通过最小化上述对比学习预训练的损失,反过来对深度网络进行参数调整,采用后向传播算法进行全局参数调整,直到对比学习预训练的损失不再下降,则模型收敛,对比学习预训练步骤结束;
S4:对训练集图像,利用提取的特征预测其分类结果,进一步学习网络参数,进行分类任务;
其中,将S301中提取的2018维特征输入全连接层和softmax层组成的分类器中,得到预测的分类结果:
Figure BDA0002937434440000075
N为一个批次中图像的数目,K为图像的类别数目,;
再利用分类结果计算交叉熵损失函数:
Figure BDA0002937434440000076
最后,通过后向传播算法进行全局参数调整,以最小化交叉熵损失函数为目标优化网络参数,直到该函数值不再下降。
S5:利用参数已经优化的深度网络,对测试集中的图像进行分类:
对测试图像做按照S1中的随机数据增强,再按照S2转换到频域;最后,将转换到频域后的图像输入深度网络的特征提取层,并输入由全连接层和softmax层组成的分类器中,得到预测结果。
本发明中,将每个类别的图像按上下文信息都做了二次分类,再划分相关数据集:训练集:包括图像以及该图像所对应的分类标签。测试集:包括图像以及该图像所对应的分类标签。但测试集中图像的上下文信息和训练集中的不同。
本发明中,将每一批次的图片做两次随机的数据增强再转换到频域,得到同一个图像的两个特征,训练模型分辨两个特征是否来自同一图像,从而学习图像的稳定特征,提高非独立同分布图像的分类效果。
在一个可选的实施例中,在S2中,将频域图像输入卷积神经网络中提取特征。
在一个可选的实施例中,在S3中,结合频域学习和对比学习框架,通过对比学习任务的预训练使模型学习稳定的特征。
综上,本发明能够学习到同一类物体在不同背景下的稳定特征,比传统的分类方法能更好地进行非独立同分布图像的分类。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.一种基于频域对比学习的图像分类方法,其特征在于,包括以下步骤:
S1:对训练集图像,分别做两次随机的数据增强,数据增强操作包括裁剪调整大小、水平翻转、高斯模糊、色彩抖动、转灰度图;
每项数据增强操作是否执行由事先设置的概率决定的,以对同一张图像做两次随机数据增强会而到两张不同的增强后的图像;
S2:将数据增强后的图像做离散余弦变换,得到转移到频域的图像;
其中,图像采用RGB颜色表代码表示;提取图像的频域特征可以分为以下两个子步骤:
S201:依照下列公式将图像从RGB颜色空间转换到YCbCr颜色空间:
Figure FDA0002937434430000011
202:将转换到YCbCr颜色空间的图片分割成8×8的若干个小块,对每一块求其三个频道,根据公式F=AfAT求对应的离散余弦变换系数;转换矩阵公式如下:
Figure FDA0002937434430000012
其中,原图片划分为14个8×8的小块,每个小块含有有64个像素点,每个像素点有3个颜色通道的像素值,即,每个图像小块可以求得192个频域系数,从而得到维度为(192,14,14)的图像频域系数;
S3:将转移到频域的图像通过深度网络,通过对比学习任务,学习网络参数,得到图像的稳定特征;其包括以下几个子步骤:
S301:将图像频域系数分别输入深度网络的特征提取层,得到维度为(N,2048)的特征hi和hj,其网络结构采用残差神经网络;
S302:将hi和hj输入多层感知机,得到用于对比学习训练的(N,128)维特征zi和zj
S303:将zi和zj按第0维进行拼接,得到用于计算对比学习损失的特征:
Figure FDA0002937434430000021
依据下列公式计算对比学习预训练的损失:
Figure FDA0002937434430000022
Figure FDA0002937434430000023
Figure FDA0002937434430000024
其中,σ为正数;
S304:通过最小化上述对比学习预训练的损失,反过来对深度网络进行参数调整,采用后向传播算法进行全局参数调整,直到对比学习预训练的损失不再下降,则模型收敛,对比学习预训练步骤结束;
S4:对训练集图像,利用提取的特征预测其分类结果,进一步学习网络参数,进行分类任务;
其中,将S301中提取的2018维特征输入全连接层和softmax层组成的分类器中,得到预测的分类结果:
Figure FDA0002937434430000025
N为一个批次中图像的数目,K为图像的类别数目,;
再利用分类结果计算交叉熵损失函数:
Figure FDA0002937434430000031
最后,通过后向传播算法进行全局参数调整,以最小化交叉熵损失函数为目标优化网络参数,直到该函数值不再下降;
S5:利用参数已经优化的深度网络,对测试集中的图像进行分类:
对测试图像做按照S1中的随机数据增强,再按照S2转换到频域;最后,将转换到频域后的图像输入深度网络的特征提取层,并输入由全连接层和softmax层组成的分类器中,得到预测结果。
2.根据权利要求1所述的基于频域对比学习的图像分类方法,其特征在于,在S2中,将频域图像输入卷积神经网络中提取特征。
3.根据权利要求1所述的基于频域对比学习的图像分类方法,其特征在于,在S3中,结合频域学习和对比学习框架,通过对比学习任务的预训练使模型学习稳定的特征。
CN202110164693.8A 2021-02-06 2021-02-06 一种基于频域对比学习的图像分类方法 Pending CN113077525A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110164693.8A CN113077525A (zh) 2021-02-06 2021-02-06 一种基于频域对比学习的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110164693.8A CN113077525A (zh) 2021-02-06 2021-02-06 一种基于频域对比学习的图像分类方法

Publications (1)

Publication Number Publication Date
CN113077525A true CN113077525A (zh) 2021-07-06

Family

ID=76609296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110164693.8A Pending CN113077525A (zh) 2021-02-06 2021-02-06 一种基于频域对比学习的图像分类方法

Country Status (1)

Country Link
CN (1) CN113077525A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357221A (zh) * 2022-03-15 2022-04-15 南京航空航天大学 一种基于图像分类的自监督主动学习方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020186765A1 (en) * 2001-06-05 2002-12-12 Morley Steven A. Selective chrominance decimation for digital images
CN108009493A (zh) * 2017-11-30 2018-05-08 电子科技大学 基于动作增强的人脸防欺骗识别方法
CN111127360A (zh) * 2019-12-20 2020-05-08 东南大学 一种基于自动编码器的灰度图像迁移学习方法
CN111784633A (zh) * 2020-05-26 2020-10-16 西安理工大学 一种面向电力巡检视频的绝缘子缺损自动检测算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020186765A1 (en) * 2001-06-05 2002-12-12 Morley Steven A. Selective chrominance decimation for digital images
CN108009493A (zh) * 2017-11-30 2018-05-08 电子科技大学 基于动作增强的人脸防欺骗识别方法
CN111127360A (zh) * 2019-12-20 2020-05-08 东南大学 一种基于自动编码器的灰度图像迁移学习方法
CN111784633A (zh) * 2020-05-26 2020-10-16 西安理工大学 一种面向电力巡检视频的绝缘子缺损自动检测算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUAN SHAO,AND ETC: "Contrastive Learning in Frequency Domain for Non-I.I.D.Image Classification", 《SPRINGER LINK:INTERNATIONAL CONFERENCE ON MULTIMEDIA MODELING》 *
张晶主编: "《多媒体信息与通信》", 30 November 2017, 西安:西安电子科技大学出版社 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357221A (zh) * 2022-03-15 2022-04-15 南京航空航天大学 一种基于图像分类的自监督主动学习方法
CN114357221B (zh) * 2022-03-15 2022-08-05 南京航空航天大学 一种基于图像分类的自监督主动学习方法

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111046962B (zh) 基于稀疏注意力的卷积神经网络模型的特征可视化方法及***
CN110717953B (zh) 基于cnn-lstm组合模型的黑白图片的着色方法和***
JP7381942B2 (ja) 制御方法、情報処理装置および制御プログラム
CN110929099B (zh) 一种基于多任务学习的短视频帧语义提取方法及***
CN111126115A (zh) 暴力分拣行为识别方法和装置
CN111986125A (zh) 一种用于多目标任务实例分割的方法
WO2023206944A1 (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN111986126B (zh) 一种基于改进vgg16网络的多目标检测方法
JP2009140369A (ja) 集団学習装置及び集団学習方法、対象物検出装置及び対象物検出方法、並びにコンピュータ・プログラム
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及***
CN116563410A (zh) 基于两级生成对抗网络的电气设备电火花图像生成方法
CN113077525A (zh) 一种基于频域对比学习的图像分类方法
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN117523295A (zh) 基于类引导元学习的无源域适应的图像分类方法
CN111583259A (zh) 一种文档图像质量评价方法
CN113807194B (zh) 一种增强性电力传输线故障图像识别方法
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法
CN115862015A (zh) 文字识别***的训练方法及装置、文字识别方法及装置
Yuan et al. RM-IQA: A new no-reference image quality assessment framework based on range mapping method
Xu et al. Drhnet: a deep residual network based on heterogeneous kernel for steganalysis
CN115063732B (zh) 基于双流多分辨率综合建模的动作视频分类方法和***
CN116912496B (zh) 用于图像分割的解码器对比学习方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210706