CN117152752A - 一种自适应权重的视觉深度特征重建方法和装置 - Google Patents

一种自适应权重的视觉深度特征重建方法和装置 Download PDF

Info

Publication number
CN117152752A
CN117152752A CN202311415421.6A CN202311415421A CN117152752A CN 117152752 A CN117152752 A CN 117152752A CN 202311415421 A CN202311415421 A CN 202311415421A CN 117152752 A CN117152752 A CN 117152752A
Authority
CN
China
Prior art keywords
visual
feature
encoder
training
visual encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311415421.6A
Other languages
English (en)
Other versions
CN117152752B (zh
Inventor
王玉柱
段曼妮
王永恒
傅四维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311415421.6A priority Critical patent/CN117152752B/zh
Publication of CN117152752A publication Critical patent/CN117152752A/zh
Application granted granted Critical
Publication of CN117152752B publication Critical patent/CN117152752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种自适应权重的视觉深度特征重建方法和装置,将训练集图像分别输入视觉编码器E1和视觉编码器E2,以视觉编码器E2计算得到的重建特征目标作为视觉编码器E1的监督信号;根据监督特征自身的数值大小,构建特征重建损失,使视觉编码器E1在训练过程中,更加关注监督特征的重要信息,减弱无关冗余信息对特征学习的影响。实践表明,本发明能够简单有效的提升编码器对数据的表征能力,并且,相对于现有技术方法,不需要额外的训练成本,能够充分利用监督特征的有益知识信息。

Description

一种自适应权重的视觉深度特征重建方法和装置
技术领域
本发明涉及深度神经网络特征重建领域,尤其涉及一种自适应权重的视觉深度特征重建方法和装置。
背景技术
近年来,基于掩码图像建模(MAE)的视觉自监督学习范式在人工智能领域产生了深远的影响。MAE通过对输入图像数据随机高比例遮挡,经编码器(如ViT等)学习输入数据的深层表征,利用解码器重建出输入图像数据的遮挡部分。MAE的关键技术的视觉深度特征重建。
视觉深度特征重建是指输入的图像数据经深度神经网络压缩编码后,仍能近似恢复输入的图像数据,进而使深度神经网络学习对输入图像数据的语义信息的良好表征的一类方法。视觉深度特征重建技术在计算机视觉领域中有广泛的研究和应用,如在无监督视觉表征学习中,MAE通过编码器对掩码输入的图像或视频数据进行深度压缩后,再经解码器实现对掩码图像语义信息的高质量重建;在自编码器中,通过L2损失约束解码器对输入数据的重建,实现编码器对输入数据的语义表征学习;在教师-学生知识蒸馏范式中,通过让学生模型重建教师模型的中间特征和预测值,实现繁重模型到轻量化模型的深度压缩,且不会产生显著的性能损失,实现在计算资源和内存资源的限制条件下的高性能模型部署;在医疗CT领域,基于深度神经网络视觉特征重建的方法在图像质量上显著优于传统方法。
视觉深度特征重建大多数是基于L1/L2距离度量特征重建前后的差异。然而,在L1/L2距离约束中,对深度特征各个特征点的惩罚程度是相等的,度量的损失容易受到异常数值(如,L2损失对大的数值,其梯度也会很大)的影响等。另一方面,L1/L2距离不能加强关注更重要的特征数据,而这些特征数据一般反映着重要的语义信息。重建过程损失波动较大,从而使得特征重建效果较差。因此,如何能够有效利用重建目标(如输入数据或教师特征),设计简单高效、训练过程稳定的视觉特征重建方法,使之能够更加关注重要的重建特征,进一步提升重建质量,在深度神经网络特征重建领域仍是一个待解决的关键问题。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种自适应权重的视觉深度特征重建方法和装置。
本发明的目的是通过以下技术方案来实现的:一种自适应权重的视觉深度特征重建方法,包括以下步骤:
S1,收集与识别任务相关的标注图像数据,得到图像数据集;将所述图像数据集切分为训练集和验证集;
S2,调整所述图像数据集中所有图像的宽和高为同一尺寸;随后对训练集和验证集中每一个图像进行预处理操作;
S3,对视觉编码器E2加载公开可用的预训练权重后,将其网络参数设置为冻结模式;并对视觉编码器E1的网络参数随机初始化,并设为可训练模式;
S4,遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器E2,经深度神经网络前向传播过程,通过视觉编码器E2的骨干模块得到每一个训练集图像的重建特征目标
S5,将送入视觉编码器E2的同批次训练集图像送入视觉编码器E1,经神经网络前向传播过程,通过视觉编码器E1的骨干模块得到每一个训练集图像的初始深度特征
S6,对于同批次输入的训练集图像,计算同一个训练集图像的重建特征目标和初始深度特征/>的特征重建损失/>,通过减小特征重建损失/>实现初始深度特征/>与重建特征目标/>相等,进而实现视觉编码器E1达到视觉编码器E2的性能;
S7,用特征重建损失训练视觉编码器E1;根据视觉编码器E1在验证集上的最好结果选取训练超参数;
S8,将训练好的视觉编码器E1部署到终端设备上,终端设备将接收的新数据输入到训练好的视觉编码器E1,得到预测概率向量,进而完成相关任务。
进一步地,步骤S2中,所述对训练集和验证集中每一个图像进行预处理操作,具体为:对所述训练集图像进行随机裁剪、随机水平翻转、随机旋转、随机抖动、添加随机噪声、去均值操作;对所述验证集图像做中心裁剪、去均值操作。
进一步地,所述视觉编码器E1和视觉编码器E2分别由骨干模型和分类器构成。
进一步地,若步骤S5得到的初始深度特征与步骤S4得到的重建特征目标/>的维度不同,需在视觉编码器E1中的骨干模型之后加入一个参数可学习的全连接层。
进一步地,当初始深度特征为中间特征时,特征重建损失/>为:
其中,N为同批次输入的训练集图像的数量;为同批次中重建特征目标的最大值,/>为同批次中重建特征目标的最小值;/>和/>分别为训练超参数。
进一步地,当初始深度特征为预测逻辑值时,特征重建损失/>为:
其中,;/>;/>、/>和T分别为训练超参数。
进一步地,当所述图像数据集无标签时,仅通过步骤S6中的特征重建损失训练视觉编码器E1;当所述图像数据集有标签时,联合步骤S6中的特征重建损失与任务损失训练视觉编码器E1。
本发明还包括一种自适应权重的视觉深度特征重建装置,包括:
数据集构建模块,用于收集与识别任务相关的标注图像数据;将所述图像数据集切分为训练集和验证集;
数据预处理模块,用于调整所述图像数据集中所有图像的宽和高为同一尺寸;随后对训练集和验证集中每一个图像进行预处理操作;
编码器加载模块,用于对视觉编码器E2加载公开可用的预训练权重后,将其网络参数设置为冻结模式;并对视觉编码器E1的网络参数随机初始化,并设为可训练模式;
重建特征目标计算模块,用于遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器E2,经深度神经网络前向传播过程,通过视觉编码器E2的骨干模块得到每一个训练集图像的重建特征目标
原始特征提取模块,用于将送入视觉编码器E2的同批次训练集图像送入视觉编码器E1,经神经网络前向传播过程,通过视觉编码器E1的骨干模块得到每一个训练集图像的初始深度特征
自适应特征重建模块,用于对于同批次输入的训练集图像,计算同一个训练集图像的重建特征目标和初始深度特征/>的特征重建损失/>,通过减小特征重建损失实现初始深度特征/>与重建特征目标/>相等,进而实现视觉编码器E1达到视觉编码器E2的性能;
视觉编码器E1训练模块,用于用特征重建损失训练视觉编码器E1;根据视觉编码器E1在验证集上的最好结果选取训练超参数;
模型部署模块,用于将训练好的视觉编码器E1部署到终端设备上,终端设备将接收的新数据输入到训练好的视觉编码器E1,得到预测概率向量,进而完成相关任务。
本发明还包括一种自适应权重的视觉深度特征重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于上述的一种自适应权重的视觉深度特征重建方法。
本发明还包括一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的一种自适应权重的视觉深度特征重建方法。
本发明的有益效果是:在深度特征重建中,本发明根据待重建的特征目标,设计权重自适应的深度特征重建方法,通过调整和/>,使编码器模型在训练过程中,更加关注待重建特征目标的重要信息,减弱无关冗余信息对编码器参数学习的影响,能够简单有效的提升编码器对输入数据的表征能力,并且,本发明所设计的自适应权重特征重建方法,相对于现有方法,不需要引入额外的特征变换模块,不引入额外的计算成本,能够充分利用待重建的特征目标的有益知识信息。
附图说明
图1为一种自适应权重的视觉深度特征重建方法的流程图;
图2为特征重建损失的计算流程图;
图3是本发明用于知识蒸馏任务在CIFAR100数据集上的损失曲线图;
图4是本发明用于知识蒸馏任务在CIFAR100数据集上的准确率曲线图;
图5为实施例3中一种自适应权重的视觉深度特征重建装置的结构示意图;
图6为实施例3中一种自适应权重的视觉深度特征重建装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加明白清楚,结合附图和实施例,对本发明进一步的详细说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均在本发明保护范围。
实施例1:以交通场景识别任务为例,包括行人、车辆、红绿灯状态、占道、逆行等目标类别,本发明提供一种自适应权重的视觉深度特征重建方法,参阅图1,包括以下步骤:
S1,构建数据集:利用监控摄像头收集行人、车辆、红绿灯状态、占道、逆行等图像数据集,或收集网络公开的有标注的交通场景数据集,得到图像数据集;将所述图像数据集切分为训练集和验证集。
S2,数据预处理:调整所述图像数据集中所有图像的宽和高为同一尺寸,如224*224*3;随后对训练集和验证集中每一个图像进行预处理操作,即对所述训练集图像进行随机裁剪、随机水平翻转、随机旋转、随机抖动、添加随机噪声、去均值操作;对所述验证集图像做中心裁剪、去均值操作。
S3,编码器加载:对视觉编码器E2加载公开可用的预训练权重后,将其网络参数设置为冻结模式;并对视觉编码器E1的网络参数随机初始化,并设为可训练模式;所述视觉编码器E1和视觉编码器E2分别由骨干模型和分类器构成。
本实施例以“双塔”架构为例阐述特征重建过程,选择两个视觉编码器:ResNet和ViT。将视觉编码器ResNet记为视觉编码器E1,并将视觉编码器记为视觉编码器E2。视觉编码器E1与视觉编码器E2可以是相同架构,也可以是不同架构;不失一般性,所述视觉编码器E1与视觉编码器E2都是由两部分构成:骨干模型和分类器。对视觉编码器E2的骨干模型和分类器加载公开可用的预训练权重,并将视觉编码器E2设定为冻结模式,即视觉编码器E2的网络参数不可训练。而将视觉编码E1的网络参数进行随机初始化,并设为可训练模式。视觉深度特征重建就是使视觉编码器E1的某一层或多层特征与视觉编码器E2对应相等,从而实现小容量的视觉编码器E1能够达到大容量、高准确率的视觉编码器E2的性能。
不限制视觉编码器E1和视觉编码器E2的网络架构、层数和宽度等,视觉编码器E1和视觉编码器可以是相似的架构,也可以是不同的架构。
S4,计算重建特征目标:遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器E2,经深度神经网络前向传播过程,通过视觉编码器E2的骨干模块得到每一个训练集图像的重建特征目标;所述重建特征目标/>即为需要重建的目标。
S5,计算初始深度特征:将送入视觉编码器E2的同批次训练集图像送入视觉编码器E1,经神经网络前向传播过程,通过视觉编码器E1的骨干模块得到每一个训练集图像的初始深度特征
S6,自适应权重特征重建:对于同批次输入的训练集图像,计算同一个训练集图像的重建特征目标和初始深度特征/>的特征重建损失/>,通过减小特征重建损失实现初始深度特征/>与重建特征目标/>相等,进而实现视觉编码器E1达到视觉编码器E2的性能。特征重建损失/>的计算流程图如图2所示。
当初始深度特征为中间特征时,特征重建损失/>为:
其中,N为同批次输入的训练集图像的数量。为同批次中重建特征目标的最大值,/>为同批次中重建特征目标的最小值。/>和/>分别为训练超参数,用来控制自适应权重的尺度;如/>则大约有75%的数据点会分配大于1的权重损失系数,剩下25%的数据点的损失权重系数将小于1,从而实现视觉编码器E1的训练过程中更加关注数值更大的重建特征目标;根据视觉编码器E1在验证集上的性能调整/>和/>
或当初始深度特征为预测逻辑值时,特征重建损失/>为:
其中,;/>;/>、/>和T分别为训练超参数。对/>和T设置一个预定义的参数范围,可以采用/>,/>,/>,根据觉编码器E1在验证集上的性能调整/>、/>和T,即选择出最优的超参数组合。
本发明需要满足初始深度特征与重建特征目标具有相同的维度,若步骤S5得 到的初始深度特征与步骤S4得到的重建特征目标的维度不同,需在视觉编码器E1的骨 干模块之后加入一个参数可学习的全连接层(跟随的有批量标准化),以保证初始深度特征与重建特征目标具有相同的维度。
当所述图像数据集无标签时,仅通过步骤S6中的特征重建损失训练视觉编码器E1;当所述图像数据集有标签时,联合步骤S6中的特征重建损失/>与任务损失训练视觉编码器E1。
如在有监督的识别任务中,训练视觉编码器E1的总损失L为:
其中,为交叉熵损失,/>作为超参数用于平衡交叉熵损失/>和特征重建损失/>
S7,训练视觉编码器E1:用特征重建损失训练视觉编码器E1;根据视觉编码器E1在验证集上的最好结果选取训练超参数。
S8,模型部署:将训练好的视觉编码器E1部署到终端设备上,终端设备将接收的新数据输入到训练好的视觉编码器E1,得到预测概率向量,进而完成相关任务。
如表1所示,本发明用知识蒸馏方法,在CIFAR100数据集上与现有方法KD和ReviewKD的比较。在CIFAR100数据集上,设置教师网络 (E2) 和学生网络 (E1) 分别是DenseNet250和ResNet110,所有方法分别重复实验5次,并报告均值±标准差。可以看到,本发明相对于KD方法,准确率提升了2.04%;相对ReviewKD方法,准确率提升了0.94%。本发明方法的训练曲线如图3和图4所示。
表1:本发明方法与其他方法的比较
实施例2:如图5所示, 本发明提供了一种自适应权重的视觉深度特征重建装置,包括:
数据集构建模块,用于收集与识别任务相关的标注图像数据;将所述图像数据集切分为训练集和验证集;
数据预处理模块,用于调整所述图像数据集中所有图像的宽和高为同一尺寸;随后对训练集和验证集中每一个图像进行预处理操作;
编码器加载模块,用于对视觉编码器E2加载公开可用的预训练权重后,将其网络参数设置为冻结模式;并对视觉编码器E1的网络参数随机初始化,并设为可训练模式;
重建特征目标计算模块,用于遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器E2,经深度神经网络前向传播过程,通过视觉编码器E2的骨干模块得到每一个训练集图像的重建特征目标
原始特征提取模块,用于将送入视觉编码器E2的同批次训练集图像送入视觉编码器E1,经神经网络前向传播过程,通过视觉编码器E1的骨干模块得到每一个训练集图像的初始深度特征
自适应特征重建模块,用于对于同批次输入的训练集图像,计算同一个训练集图像的重建特征目标和初始深度特征/>的特征重建损失/>,通过减小特征重建损失实现初始深度特征/>与重建特征目标/>相等,进而实现视觉编码器E1达到视觉编码器E2的性能;
视觉编码器E1训练模块,用于用特征重建损失训练视觉编码器E1;根据视觉编码器E1在验证集上的最好结果选取训练超参数;
模型部署模块,用于将训练好的视觉编码器E1部署到终端设备上,终端设备将接收的新数据输入到训练好的视觉编码器E1,得到预测概率向量,进而完成相关任务。
实施例3:本实施例涉及一种自适应权重的视觉深度特征重建装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于上述实施例1的一种自适应权重的视觉深度特征重建方法;装置实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。
如图6,在硬件层面,该知识蒸馏装置包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所示的方法。当然,除了软件实现方式之外,本发明并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(ProgrammableLogic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware DescriptionLanguage,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced BooleanExpression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java HardwareDescription Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware DescriptionLanguage)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated CircuitHardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、***或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
实施例4:本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例1的一种自适应权重的视觉深度特征重建方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种自适应权重的视觉深度特征重建方法,其特征在于,包括以下步骤:
S1,收集与识别任务相关的标注图像数据,得到图像数据集;将所述图像数据集切分为训练集和验证集;
S2,调整所述图像数据集中所有图像的宽和高为同一尺寸;随后对训练集和验证集中每一个图像进行预处理操作;
S3,对视觉编码器E2加载公开可用的预训练权重后,将其网络参数设置为冻结模式;并对视觉编码器E1的网络参数随机初始化,并设为可训练模式;
S4,遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器E2,经深度神经网络前向传播过程,通过视觉编码器E2的骨干模块得到每一个训练集图像的重建特征目标
S5,将送入视觉编码器E2的同批次训练集图像送入视觉编码器E1,经神经网络前向传播过程,通过视觉编码器E1的骨干模块得到每一个训练集图像的初始深度特征
S6,对于同批次输入的训练集图像,计算同一个训练集图像的重建特征目标和初始深度特征/>的特征重建损失/>,通过减小特征重建损失/>实现初始深度特征/>与重建特征目标/>相等,进而实现视觉编码器E1达到视觉编码器E2的性能;
S7,用特征重建损失训练视觉编码器E1;根据视觉编码器E1在验证集上的最好结果选取训练超参数;
S8,将训练好的视觉编码器E1部署到终端设备上,终端设备将接收的新数据输入到训练好的视觉编码器E1,得到预测概率向量,进而完成相关任务。
2.根据权利要求1所述的一种自适应权重的视觉深度特征重建方法,其特征在于,步骤S2中,所述对训练集和验证集中每一个图像进行预处理操作,具体为:对所述训练集图像进行随机裁剪、随机水平翻转、随机旋转、随机抖动、添加随机噪声、去均值操作;对所述验证集图像做中心裁剪、去均值操作。
3.根据权利要求1所述的一种自适应权重的视觉深度特征重建方法,其特征在于,所述视觉编码器E1和视觉编码器E2分别由骨干模型和分类器构成。
4.根据权利要求3所述的一种自适应权重的视觉深度特征重建方法,其特征在于,若步骤S5得到的初始深度特征与步骤S4得到的重建特征目标/>的维度不同,需在视觉编码器E1中的骨干模型之后加入一个参数可学习的全连接层。
5.根据权利要求1所述的一种自适应权重的视觉深度特征重建方法,其特征在于,当初始深度特征为中间特征时,特征重建损失/>为:
其中,N为同批次输入的训练集图像的数量;为同批次中重建特征目标的最大值,为同批次中重建特征目标的最小值;/>和/>分别为训练超参数。
6.根据权利要求1所述的一种自适应权重的视觉深度特征重建方法,其特征在于,当初始深度特征为预测逻辑值时,特征重建损失/>为:
其中,;/>;/>、/>和T分别为训练超参数。
7.根据权利要求1所述的一种自适应权重的视觉深度特征重建方法,其特征在于,当所述图像数据集无标签时,仅通过步骤S6中的特征重建损失训练视觉编码器E1;当所述图像数据集有标签时,联合步骤S6中的特征重建损失/>与任务损失训练视觉编码器E1。
8.一种自适应权重的视觉深度特征重建装置,其特征在于,包括:
数据集构建模块,用于收集与识别任务相关的标注图像数据;将所述图像数据集切分为训练集和验证集;
数据预处理模块,用于调整所述图像数据集中所有图像的宽和高为同一尺寸;随后对训练集和验证集中每一个图像进行预处理操作;
编码器加载模块,用于对视觉编码器E2加载公开可用的预训练权重后,将其网络参数设置为冻结模式;并对视觉编码器E1的网络参数随机初始化,并设为可训练模式;
重建特征目标计算模块,用于遍历整个训练集,将经过预处理的训练集图像分批次送入视觉编码器E2,经深度神经网络前向传播过程,通过视觉编码器E2的骨干模块得到每一个训练集图像的重建特征目标
原始特征提取模块,用于将送入视觉编码器E2的同批次训练集图像送入视觉编码器E1,经神经网络前向传播过程,通过视觉编码器E1的骨干模块得到每一个训练集图像的初始深度特征
自适应特征重建模块,用于对于同批次输入的训练集图像,计算同一个训练集图像的重建特征目标和初始深度特征/>的特征重建损失/>,通过减小特征重建损失实现初始深度特征/>与重建特征目标/>相等,进而实现视觉编码器E1达到视觉编码器E2的性能;
视觉编码器E1训练模块,用于用特征重建损失训练视觉编码器E1;根据视觉编码器E1在验证集上的最好结果选取训练超参数;
模型部署模块,用于将训练好的视觉编码器E1部署到终端设备上,终端设备将接收的新数据输入到训练好的视觉编码器E1,得到预测概率向量,进而完成相关任务。
9.一种自适应权重的视觉深度特征重建装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-7任一项所述的一种自适应权重的视觉深度特征重建方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-7任一项所述的一种自适应权重的视觉深度特征重建方法。
CN202311415421.6A 2023-10-30 2023-10-30 一种自适应权重的视觉深度特征重建方法和装置 Active CN117152752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311415421.6A CN117152752B (zh) 2023-10-30 2023-10-30 一种自适应权重的视觉深度特征重建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311415421.6A CN117152752B (zh) 2023-10-30 2023-10-30 一种自适应权重的视觉深度特征重建方法和装置

Publications (2)

Publication Number Publication Date
CN117152752A true CN117152752A (zh) 2023-12-01
CN117152752B CN117152752B (zh) 2024-02-20

Family

ID=88884755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311415421.6A Active CN117152752B (zh) 2023-10-30 2023-10-30 一种自适应权重的视觉深度特征重建方法和装置

Country Status (1)

Country Link
CN (1) CN117152752B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078597A1 (en) * 2013-05-02 2016-03-17 Giesecke & Devrient Gmbh Method and System for Supplying Visually Encoded Image Data
CN109816630A (zh) * 2018-12-21 2019-05-28 中国人民解放军战略支援部队信息工程大学 基于迁移学习的fMRI视觉编码模型构建方法
US20200097771A1 (en) * 2018-09-25 2020-03-26 Nec Laboratories America, Inc. Deep group disentangled embedding and network weight generation for visual inspection
CN111984772A (zh) * 2020-07-23 2020-11-24 中山大学 一种基于深度学习的医疗影像问答方法及***
US20210203997A1 (en) * 2018-09-10 2021-07-01 Huawei Technologies Co., Ltd. Hybrid video and feature coding and decoding
CN113139591A (zh) * 2021-04-14 2021-07-20 广州大学 一种基于增强多模态对齐的广义零样本图像分类方法
CN114548281A (zh) * 2022-02-23 2022-05-27 重庆邮电大学 一种基于无监督自适应权重的心脏数据异常检测方法
US20220300585A1 (en) * 2021-03-22 2022-09-22 Servicenow, Inc. Cross-Modality Curiosity for Sparse-Reward Tasks
CN115761144A (zh) * 2022-12-08 2023-03-07 上海人工智能创新中心 一种基于自监督几何建模的自动驾驶策略预训练方法
CN116309022A (zh) * 2023-03-08 2023-06-23 湖南大学 一种基于视觉编码器的古建筑图像自适应风格迁移方法
CN116310667A (zh) * 2023-05-15 2023-06-23 鹏城实验室 联合对比损失和重建损失的自监督视觉表征学习方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078597A1 (en) * 2013-05-02 2016-03-17 Giesecke & Devrient Gmbh Method and System for Supplying Visually Encoded Image Data
US20210203997A1 (en) * 2018-09-10 2021-07-01 Huawei Technologies Co., Ltd. Hybrid video and feature coding and decoding
US20200097771A1 (en) * 2018-09-25 2020-03-26 Nec Laboratories America, Inc. Deep group disentangled embedding and network weight generation for visual inspection
CN109816630A (zh) * 2018-12-21 2019-05-28 中国人民解放军战略支援部队信息工程大学 基于迁移学习的fMRI视觉编码模型构建方法
CN111984772A (zh) * 2020-07-23 2020-11-24 中山大学 一种基于深度学习的医疗影像问答方法及***
US20220300585A1 (en) * 2021-03-22 2022-09-22 Servicenow, Inc. Cross-Modality Curiosity for Sparse-Reward Tasks
CN113139591A (zh) * 2021-04-14 2021-07-20 广州大学 一种基于增强多模态对齐的广义零样本图像分类方法
CN114548281A (zh) * 2022-02-23 2022-05-27 重庆邮电大学 一种基于无监督自适应权重的心脏数据异常检测方法
CN115761144A (zh) * 2022-12-08 2023-03-07 上海人工智能创新中心 一种基于自监督几何建模的自动驾驶策略预训练方法
CN116309022A (zh) * 2023-03-08 2023-06-23 湖南大学 一种基于视觉编码器的古建筑图像自适应风格迁移方法
CN116310667A (zh) * 2023-05-15 2023-06-23 鹏城实验室 联合对比损失和重建损失的自监督视觉表征学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YUZHU WANG 等: "Improving Knowledge Distillation via Regularizing Feature Norm and Direction", ARXIV, pages 1 - 16 *
何希平;张琼华;刘波;: "基于HOG的目标分类特征深度学习模型", 计算机工程, no. 12, pages 182 - 186 *
赵永威;李婷;蔺博宇;: "基于深度学习编码模型的图像分类方法", 工程科学与技术, no. 01, pages 217 - 224 *

Also Published As

Publication number Publication date
CN117152752B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN112101410B (zh) 一种基于多模态特征融合的图像像素语义分割方法及***
US11062210B2 (en) Method and apparatus for training a neural network used for denoising
CN111652351A (zh) 一种神经网络模型的部署方法、设备及介质
CN116205290A (zh) 一种基于中间特征知识融合的知识蒸馏方法和装置
CN117372631A (zh) 一种多视角图像生成模型的训练方法、应用方法
CN111753878A (zh) 一种网络模型部署方法、设备及介质
Verelst et al. SegBlocks: Block-based dynamic resolution networks for real-time segmentation
Uddin et al. A perceptually inspired new blind image denoising method using $ L_ {1} $ and perceptual loss
CN115240100A (zh) 基于视频帧的模型训练方法及装置
CN113688832B (zh) 一种模型训练及图像处理方法、装置
CN111639684B (zh) 一种数据处理模型的训练方法及装置
CN117152752B (zh) 一种自适应权重的视觉深度特征重建方法和装置
CN117671271A (zh) 模型训练方法、图像分割方法、装置、设备和介质
CN117036829A (zh) 一种基于原型学习实现标签增强的叶片细粒度识别方法和***
CN117009093A (zh) 降低神经网络推理所需内存占用量的重计算方法和***
CN115240099A (zh) 基于多模态关联数据的模型训练方法及装置
CN117808976B (zh) 一种三维模型构建方法、装置、存储介质及电子设备
CN114662706B (zh) 一种模型训练方法、装置及设备
CN117994470B (zh) 一种多模态层次自适应的数字网格重建方法及装置
CN117058525B (zh) 一种模型的训练方法、装置、存储介质及电子设备
CN113222934B (zh) 一种基于设备感知的显著性物体检测方法及***
CN116996397B (zh) 一种网络丢包优化的方法、装置、存储介质及电子设备
CN117372781A (zh) 一种基于持续学习的图像分类方法及装置
CN116402996A (zh) 图像分割方法、装置、存储介质及电子装置
CN115880491A (zh) 一种基于残差网络与往返采样的裂缝图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant