CN113989566A - 一种图像分类方法、装置、计算机设备和存储介质 - Google Patents

一种图像分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113989566A
CN113989566A CN202111275615.1A CN202111275615A CN113989566A CN 113989566 A CN113989566 A CN 113989566A CN 202111275615 A CN202111275615 A CN 202111275615A CN 113989566 A CN113989566 A CN 113989566A
Authority
CN
China
Prior art keywords
image
feature
determining
image block
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111275615.1A
Other languages
English (en)
Inventor
宗卓凡
黎昆昌
宋广录
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN202111275615.1A priority Critical patent/CN113989566A/zh
Publication of CN113989566A publication Critical patent/CN113989566A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种图像分类方法、装置、计算机设备和存储介质,其中,该方法包括:基于待处理的目标图像,确定目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征;针对每个初始图像块,基于初始图像块的图像块特征,确定初始图像块对应的重要度信息;基于每个初始图像块对应的重要度信息,对第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;第二数量小于第一数量;基于每个目标图像块对应的图像块特征,确定目标图像的图像分类结果。本公开实施例能够提高神经网络的推理速度。

Description

一种图像分类方法、装置、计算机设备和存储介质
技术领域
本公开涉及计算机视觉技术领域,具体而言,涉及一种图像分类方法、装置、计算机设备和存储介质。
背景技术
为了提高神经网络的网络推理速度,实现高效率的图像分类预测,现有技术中通常使用对神经网络进行剪枝的方式,例如,减少神经网络的网络层数或神经网络中的网络层提取的特征的数量,得到轻量的神经网络,并利用得到的轻量的神经网络对图像进行处理,以达到提高网络推理速度,实现高效率的图像分类预测的目的。
但是,通过对神经网络进行剪枝的方式来提高网络推理速度的效果并不明显,并且还会降低神经网络的预测精度。
发明内容
本公开实施例至少提供一种图像分类方法、装置、计算机设备和存储介质。
第一方面,本公开实施例提供了一种图像分类方法,包括:
基于待处理的目标图像,确定所述目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征;
针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息;
基于每个所述初始图像块对应的重要度信息,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;所述第二数量小于所述第一数量;
基于每个所述目标图像块对应的图像块特征,确定所述目标图像的图像分类结果。
该实施方式,通过确定能够表征每个初始图像块对输出的分类结果的影响程度的重要度信息,对第一数量的初始图像块分别对应的图像块特征进行聚合,能够实现对冗余的图像块特征的去除;例如,去除对输出的分类结果的影响程度极小或者不存在影响程度的图像块特征;从而,得到决定着输出的分类结果的第二数量的目标图像块对应的图像块特征。再利用第二数量的目标图像块对应的图像块特征,确定目标图像的图像分类结果;既有效保证确定的图像分类结果的准确性,还由于第二数量小于第一数量,所以减少了需要处理的图像块特征的数量,从而有效提高了推理速度,避免了剪枝操作带来的预测降低的缺陷。
在一种可能的实施方式中,所述针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息,包括:
针对每个所述初始图像块,对所述初始图像块对应的图像块特征进行编码处理,得到所述初始图像块对应的编码特征;
基于每个所述初始图像块对应的编码特征,确定所述初始图像块对应的重要度信息。
该实施方式,通过目标编码模块的编码处理,能够实现对图像块特征的降维处理,得到小数据量的、便于处理的编码特征,进一步的,基于对便于处理的编码特征的处理,有利于准确确定出初始图像块对应的重要度信息。
在一种可能的实施方式中,所述基于每个所述初始图像块对应的编码特征,确定所述初始图像块的重要度信息,包括:
对所述每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征;
对所述归一化处理后的编码特征进行全连接映射处理,得到第一中间特征;其中,所述第一中间特征对应的特征维度小于所述编码特征对应的特征维度;
基于每个所述初始图像块对应的第一中间特征,确定每个所述初始图像块对应的重要度信息。
该实施方式,通过对每个初始图像块对应的编码特征的归一化处理,能够实现对编码特征的标准化,也即,将编码特征对应的数据范围限定在目标区间(0,1)内,再通过全连接映射处理,能够实现对归一化处理后的编码特征的特征维度的降低,从而,降低后续确定初始图像块对应的重要度信息需要处理的数据量和难度。
在一种可能的实施方式中,所述对所述每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征,包括:
基于每个所述初始图像块对应的编码特征,确定每个所述初始图像块对应的归一化权重;
基于每个所述初始图像块对应的归一化权重,对所述每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征。
该实施方式,基于确定的归一化权重,能够实现对各个初始图像块对应的编码特征的加权处理,从而提高得到的每个归一化处理后的编码特征的精确性和合理性,有利于提高后续确定初始图像块对应的重要度信息的准确性。
在一种可能的实施方式中,所述对所述归一化处理后的编码特征进行全连接映射处理,得到第一中间特征,包括:
基于所述归一化处理后的编码特征,确定所述归一化处理后的编码特征对应的维度压缩权重;
按照所述维度压缩权重,对所述归一化处理后的编码特征进行全连接映射处理,得到所述第一中间特征。
该实施方式,利用维度压缩权重对归一化处理后的编码特征进行全连接映射处理,能够实现对不同归一化处理后的编码特征进行不同程度的维度压缩,得到减少了冗余特征的第一中间特征,提高了第一中间特征的精确性、降低了得到的第一中间特征的复杂性,从而有利于提高后续确定初始图像块对应的重要度信息的精确性,以及降低后续确定初始图像块对应的重要度信息的难度。
在一种可能的实施方式中,所述基于每个所述初始图像块对应的第一中间特征,确定每个所述初始图像块对应的重要度信息,包括:
对每个所述第一中间特征进行非线性变换,并对非线性变换后的所述第一中间特征进行全连接映射处理,得到每个所述第一中间特征对应的第二中间特征;
基于每个所述第二中间特征,确定每个所述初始图像块对应的重要度信息。
该实施方式,基于对第一中间特征进行的非线性变换,能够丰富特征空间,得到空间信息更丰富的第二中间特征,进而,基于空间信息更丰富的第二中间特征,能够提高确定的每个初始图像块对应的重要度信息的合理性和准确性。
在一种可能的实施方式中,所述基于每个所述初始图像块对应的重要度信息,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征,包括:
基于每个所述初始图像块对应的重要度信息,确定所述重要度信息对应的第一特征矩阵,所述第一特征矩阵对应的矩阵维度为N×M,N为所述第一数量,M为所述第二数量;
对所述第一特征矩阵执行矩阵维度转换操作,得到矩阵维度为M×N的第二特征矩阵;
基于所述第二特征矩阵和所述初始图像块的图像块特征对应的图像块矩阵,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到所述第二数量的目标图像块以及每个目标图像块对应的图像块特征。
该实施方式,基于矩阵维度转换操作,能够实现将第一特征矩阵中的各个重要度信息对应的特征数据的维度转换,得到和图像块矩阵能够进行矩阵乘法的第二特征矩阵;进而,基于矩阵乘法,对图像块矩阵中各个初始图像块分别对应的图像块特征对应的聚合处理,能够实现对冗余的图像块特征的去除,得到决定着输出的分类结果的第二数量的目标图像块对应的图像块特征,有效降低了后续需要处理的图像块特征的数据量,从而有效提高推理速度。
在一种可能的实施方式中,所述基于每个所述目标图像块对应的图像块特征,确定所述目标图像的图像分类结果,包括:
将所述目标图像块作为新的初始图像块,将新的初始图像块的数量作为新的第一数量,并返回所述针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息步骤,直到返回次数达到预设值的情况下,基于最后确定的各个目标图像块对应的图像块特征,确定所述目标图像对应的概率分类信息;
基于所述概率分类信息,确定所述目标图像的图像分类结果。
该实施方式,能够实现对目标图像对应的图像块特征进行多次去除冗余的图像块特征的操作,实现对冗余的图像块特征的高精度去除,从而,减少了最后确定的各个目标图像块对应的图像块特征中的冗余特征,得到决定着输出的分类结果的图像块特征;进而,基于确定的目标图像对应于每种图像类别的概率分类信息,能够确定出准确的图像分类结果。
在一种可能的实施方式中,基于所述待处理的目标图像,确定所述目标图像的图像分类结果的步骤为预先训练好的剪枝神经网络执行的;
所述方法还包括训练所述剪枝神经网络的步骤:
获取样本图像;
将所述样本图像输入至待训练的剪枝神经网络,利用所述待训练的剪枝神经网络对所述样本图像进行处理,确定每个数据处理区块输出的第一预测图像特征,以及确定所述样本图像对应的第一预测分类信息;所述数据处理区块用于基于样本图像对应的初始预测图像块的图像块特征,确定所述初始预测图像块的重要度信息,以及,基于每个所述初始预测图像块对应的重要度信息,对第三数量的初始预测图像块分别对应的图像块特征进行聚合,得到第四数量的目标预测图像块以及每个目标预测图像块对应的第一预测图像特征;
将所述样本图像输入至预先训练好的教师神经网络,并利用所述教师神经网络对所述样本图像进行处理,确定所述教师神经网络中的每个数据处理区块输出的第二预测图像特征,以及确定所述样本图像对应的第二预测分类信息;所述教师神经网络中的数据处理区块包括目标编码模块;
基于所述第一预测图像特征、所述第二预测图像特征、所述第一预测分类信息和所述第二预测分类信息,确定所述待训练的剪枝神经网络的预测损失,并利用所述预测损失对所述待训练的剪枝神经网络进行迭代训练,直至满足预设训练截止条件,得到训练好的剪枝神经网络。
该实施方式,基于预先训练好的教师神经网络输出的第二预测图像特征、第二预测分类信息,以及待训练的剪枝神经网络输出的第一预测图像特征、第一预测分类信息,能实现对待训练的剪枝神经网络的密集知识蒸馏,得到合理准确的预测损失,再利用预测损失对待训练的剪枝神经网络进行迭代训练,能够实现对待训练的剪枝神经网络的预测精度的提高,从而,保证最终训练好的剪枝神经网络具有可靠的预测精度,预测出准确的图像分类结果。
在一种可能的实施方式中,所述基于所述第一预测图像特征、所述第二预测图像特征、所述第一预测分类信息和所述第二预测分类信息,确定所述待训练的剪枝神经网络的预测损失,包括:
针对所述待训练的剪枝神经网络中的每个所述数据处理区块,基于所述数据处理区块对应的第一预测图像特征和第二预测图像特征,确定所述数据处理区块对应的第一损失;
基于所述第一预测分类信息和所述第二预测分类信息,确定所述待训练的剪枝神经网络的第二损失;
基于每个所述数据处理区块对应的第一损失和所述第二损失,确定所述预测损失。
该实施方式,基于数据处理区块对应的第一预测图像特征和第二预测图像特征,能够确定出数据处理区块在预测图像特征时的第一损失,基于第一预测分类信息和第二预测分类信息,能够确定出待训练的剪枝神经网在预测最终的分类信息时的第二损失,基于第一损失和第二损失,能够确定出既与数据处理区块相关、又与待训练的剪枝神经网络在预测最终的分类信息时相关的预测损失,利用该预测损失对待训练的剪枝神经网络进行迭代训练,能够提高训练好的待训练的剪枝神经网络中的数据处理区块的预测精度,以及提高训练好的待训练的剪枝神经网络在输出最终的分类信息时的预测精度,从而,提高训练好的剪枝神经网络输出的图像分类结果的准确性。
在一种可能的实施方式中,所述基于所述数据处理区块对应的第一预测图像特征和第二预测图像特征,确定所述数据处理区块对应的第一损失,包括:
基于各个第一预测图像特征,确定第三数量的还原预测图像特征;所述第三数量为所述样本图像对应的初始预测图像块的数量;
基于所述第三数量的还原预测图像特征和所述第二预测图像特征,确定所述数据处理区块对应的第一损失。
该实施方式,由于待训练的剪枝神经网络输出的第一预测图像特征为去除了冗余的图像块特征的预测图像特征,所以得到的第一预测图像特征的数量小于初始预测图像块的数量(第三数量)。而教师神经网络输出的第二预测图像特征的数量与初始预测图像块的数量相同,因此,基于得到的第三数量的还原预测图像特征,能够实现对待训练的剪枝神经网络输出的第一预测图像特征对应的特征的数量还原,实现与第二预测图像特征的数量匹配,从而,可以实现还原预测图像特征和第二预测图像特征之间的一对一比较,确定出每个还原预测图像特征和第二预测图像特征之间的损失,实现对待训练的剪枝神经网络的密集知识蒸馏,再利用每个还原预测图像特征和第二预测图像特征之间的损失,能够得到合理且准确的第一损失。
在一种可能的实施方式中,所述基于各个第一预测图像特征,确定第三数量的还原预测图像特征,包括:
对所述第一预测图像特征对应的第二特征矩阵进行归一化处理,得到归一化处理后的第一预测编码特征,并对所述第一预测编码特征对应的特征矩阵执行矩阵维度转换操作,得到转换后的第三特征矩阵;
对所述转换后的第三特征矩阵进行全连接映射处理,得到第二预测编码特征,并对所述第二预测编码特征进行非线性变换,得到第三预测编码特征;
对所述第三预测编码特征对应的特征矩阵进行全连接映射处理,以及对全连接映射处理后的特征矩阵执行矩阵维度转换操作,得到第四特征矩阵,并基于所述第四特征矩阵,确定所述第三数量的还原预测图像特征,其中,所述第四特征矩阵对应的矩阵维度中的特征数量为所述第三数量,所述第四特征矩阵对应的矩阵维度中的特征维度为:初始预测图像块的图像块特征对应的特征维度的数值。
该实施方式,基于归一化处理、矩阵维度转换操作、全连接映射处理等操作,能够实现对数据处理区块对初始预测图像块对应的图像块特征进行的各项操作的逆操作,从而实现对第一预测图像特征对应的数量的还原,得到第三数量的还原预测图像特征,实现还原预测图像特征和与第二预测图像特征的数量匹配。
在一种可能的实施方式中,所述基于所述第四特征矩阵,确定所述第三数量的还原预测图像特征,包括:
对所述第四特征矩阵进行归一化处理,并对归一化处理后的所述第四特征矩阵进行多次全连接映射,得到第五特征矩阵;
基于所述第五特征矩阵和所述第四特征矩阵,确定所述第三数量的还原预测图像特征。
该实施方式,基于对第四特征矩阵进行的归一化处理和多次全连接映射,能够实现对第四特征矩阵中的各个预测图像特征的语义信息的丰富,得到丰富的语义信息的第五特征矩阵,进而,基于对第五特征矩阵和第四特征矩阵两个特征矩阵中的预测图像特征的合并,能够实现对两个特征矩阵中的预测图像特征的残差连接,有效避免梯度消失,梯度***,网络过拟合等问题,从而,得到准确的还原预测图像特征。
在一种可能的实施方式中,所述基于所述第三数量的还原预测图像特征和所述第二预测图像特征,确定所述数据处理区块对应的第一损失,包括:
基于所述第三数量的还原预测图像特征和所述第二预测图像特征,确定第一子损失;
对所述还原预测图像特征进行特征处理操作,得到所述还原预测图像特征对应的第一目标预测特征,并确定所述第一目标预测特征对应的第三预测分类信息;
对所述第二预测图像特征进行特征处理操作,得到所述第二预测图像特征对应的第二目标预测特征,并确定所述第二目标预测特征对应的第四预测分类信息;
基于所述第三预测分类信息和所述第四预测分类信息,确定第二子损失;并基于所述第一子损失和所述第二子损失,确定所述第一损失。
该实施方式,基于第三数量的还原预测图像特征和第二预测图像特征,能够确定出数据处理区块在预测图像特征时第一子损失。基于对还原预测图像特征进行特征处理操作,能够实现对还原预测图像特征的鉴别,确定出每个还原预测图像特征属于教师网络的第一概率,以及确定出每个第二预测图像特征属于教师网络的第二概率。基于第一概率和第二概率,能够确定出学生网络在输出还原预测图像特征时关于合理性损失的对抗损失,即第二子损失;进而,基于第二子损失和第一子损失得到的第一损失对待训练的剪枝神经网络进行训练,能够提高数据处理区块输出的还原预测图像特征的准确性和合理性。
在一种可能的实施方式中,所述基于所述第三预测分类信息和所述第四预测分类信息,确定第二子损失,包括:
基于所述第三预测分类信息和所述第三预测分类信息对应的第一标准分类信息,确定第三子损失;
基于所述第四预测分类信息和所述第四预测分类信息对应的第二标准分类信息,确定第四子损失;
基于所述第三子损失和所述第四子损失,确定所述第二子损失。
该实施方式,教师网络和待训练的剪枝神经网络分别对应于不同的标准分类信息,对应输出的预测分类信息的目标不同,教师网络对应的第二预测图像特征属于教师网络的第二概率应该贴近于1,待训练的剪枝神经网络对应的还原预测图像特征属于教师网络的第一概率应该贴近于0。因此,利用不同的标准分类信息进行损失的确定,能够提高确定的第三子损失和第四子损失的准确性和合理性,进而可以得到合理且准确的第二子损失。
在一种可能的实施方式中,所述基于每个所述数据处理区块对应的第一损失和所述第二损失,确定所述预测损失,包括:
基于所述第一预测分类信息和所述样本图像对应的标准分类信息,确定所述待训练的剪枝神经网络对应的概率预测损失;
基于每个所述数据处理区块对应的第一损失、所述第二损失和所述概率预测损失,确定所述预测损失。
该实施方式,基于第一预测分类信息和样本图像对应的标准分类信息,能够确定出待训练的剪枝神经网络输出的第一预测分类信息和真实的标准分类信息之间的损失信息,即概率预测损失,利用该损失对待训练的剪枝神经网络进行训练,能够进一步提高训练好的剪枝神经网络输出的预测分类信息的精度。
在一种可能的实施方式中,所述基于每个所述数据处理区块对应的第一损失和所述第二损失,确定所述预测损失,包括:
利用预先训练好的卷积神经网络,对所述样本图像进行特征处理,确定样本图像对应的第五预测分类信息;
基于所述第五预测分类信息和所述第一预测分类信息,确定所述待训练的剪枝神经网络的第三损失;
基于所述第一损失、所述第二损失和所述第三损失,确定所述预测损失。
该实施方式,基于预先训练好的卷积神经网络确定的第五预测分类信息和第一预测分类信息,能够确定待训练的剪枝神经网络输出的预测分类信息和现有技术中训练好的卷积神经网络之间的第三损失,提高了确定训练所用的损失的方式的灵活性和多样性,进而,提高了对待训练的剪枝神经网络进行训练的灵活性。
第二方面,本公开实施例还提供一种图像分类装置,包括:
第一确定模块,用于基于待处理的目标图像,确定所述目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征;
第二确定模块,用于针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息;
聚合模块,用于基于每个所述初始图像块对应的重要度信息,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;所述第二数量小于所述第一数量;
第三确定模块,用于基于每个所述目标图像块对应的图像块特征,确定所述目标图像的图像分类结果。
第三方面,本公开可选实现方式还提供一种计算机设备,处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开可选实现方式还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
关于上述图像分类装置、计算机设备、及计算机可读存储介质的效果描述参见上述图像分类方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种图像分类方法的流程图;
图2示出了本公开实施例所提供的一种训练好的剪枝神经网络的网络结构示意图;
图3示出了本公开实施例所提供的一种利用数据处理区块确定目标图像对应的目标图像块以及目标图像块对应的图像块特征的初始示意图;
图4示出了本公开实施例所提供的一种训练剪枝神经网络的方法的流程图;
图5示出了本公开实施例所提供的一种利用教师神经网络对剪枝神经网络进行训练的示意图;
图6示出了本公开实施例所提供的一种数据还原区块的结构示意图;
图7示出了本公开实施例所提供的一种图像分类装置的示意图;
图8示出了本公开实施例所提供的一种计算机设备结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
另外,本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
经研究发现,在决策智能技术领域中,通常需要利用预先训练好的神经网络对数据、图像等进行分析,神经网络可以基于分析的结果,帮助用户做出合理的决策。比如,针对智能驾驶,基于神经网络对行车图像的分析,自动实现车辆速度和方向的控制;或者,针对人脸支付,基于神经网络对人脸图像的处理,确定出人脸图像的图像分析结果,进而,可以确定出人脸图像是否能够通过验证,从而,决定是否可以完成支付。因此,决策智能的应用,给用户带来了极大的便利。
为了提高神经网络的网络推理速度,实现高效率的图像分类预测以达到决策智能的及时性,以及高效率的决策智能,现有技术中通常使用对神经网络进行剪枝的方式,例如,减少神经网络的网络层数或神经网络中的网络层提取的特征的数量,得到轻量的神经网络,并利用得到的轻量的神经网络对图像进行处理,以达到提高网络推理速度,实现高效率的图像分类预测的目的。
但是,通过对神经网络进行剪枝的方式来提高网络推理速度的效果并不明显,并且还会降低神经网络的预测精度。
基于上述研究,本公开提供了一种图像分类方法、装置、计算机设备和存储介质,通过确定能够表征每个初始图像块对输出的分类结果的影响程度的重要度信息,对第一数量的初始图像块分别对应的图像块特征进行聚合,能够实现对冗余的图像块特征的去除;例如,去除对输出的分类结果的影响程度极小或者不存在影响程度的图像块特征;从而,得到决定着输出的分类结果的第二数量的目标图像块对应的图像块特征。再利用第二数量的目标图像块对应的图像块特征,确定目标图像的图像分类结果;既有效保证确定的图像分类结果的准确性,还由于第二数量小于第一数量,所以减少了需要处理的图像块特征的数量,从而有效提高了推理速度,避免了剪枝操作带来的预测降低的缺陷。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,本公开实施例中所提到的特定名词包括:
Norm函数:具有可以在向量空间里对特征向量赋予长度和大小的功能的函数;
linear模块:线性模型,试图学得一个通过属性的线性组合来进行预测的函数,用于回归任务和分类任务,可以对向量空间里中的特征向量进行线性变化;
GELU:Gaussian error linear units,高斯误差线性单元,是一种高性能的神经网络激活函数,其非线性变化是一种符合预期的随机正则变换方式,能够给网络模型加入非线性因子,从而实现对网络模型中的特征的非线性变换;
Softmax函数:在多分类的场景中使用广泛,用于第二中间特征映射为0-1之间的实数,以得到每个第二中间特征对应的重要度信息,并且各个第二中间特征映射得到的实数之和为1。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种图像分类方法进行详细介绍,本公开实施例所提供的图像分类方法的执行主体一般为具有一定计算能力的计算机设备,在一些可能的实现方式中,该图像分类方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面对本公开实施例提供的图像分类方法加以详细说明。
如图1所示,为本公开实施例提供的一种图像分类方法的流程图,可以包括以下步骤:
S101:基于待处理的目标图像,确定目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征。
这里,待处理的目标图像可以为摄像装置拍摄的图像,具体可以为包括目标人物的图像、包括目标动物的图像、包括目标风景的图像等等。初始图像块的可以为对目标图像进行图像分割之后得到的子图像,一个图像块对应于目标图像中一部分区域,例如,图像块A对应于目标图像的左上角区域,图像块B对应于目标图像的右上角区域,图像块C对应于目标图像的中间区域。
第一数量可以根据目标图像的图像尺寸确定,不同的目标图像对应的初始图像块的第一数量可以不同,例如,目标图像的图像尺寸越大,初始图像块的第一数量越多,反之则越少。或者,第一数量也可以为预先确定的数量,针对获取的任一目标图像,其对应的初始图像块的第一数量都是该预先确定的数量。第一数量的初始图像块拼接后可以还原目标图像。初始图像块的数量和初始图像块对应的图像块特征的数量相同,均为第一数量。
每个初始图像块对应的图像块特征为该初始图像块所对应的目标图像的区域的图像特征,各个初始图像块对应的图像块特征拼接后即为目标图像对应的图像特征。具体的,图像块特征可以为特征向量。
具体实施时,当存在对目标图像进行图像分类的需求时,可以获取待处理的目标图像,之后对目标图像进行分割处理,得到目标图像对应的第一数量的初始图像块,以及基于对目标图像的图像识别,确定每个初始图像块对应的图像块特征。
这里,确定目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征可以是利用计算机设备直接执行的,也可以是利用训练好的剪枝神经网络执行的。其中,训练好的剪枝神经网络为一个用于对图像进行图像分类的神经网络,训练好的剪枝神经网络可以为一种transform模型。如图2所示,为本公开实施例所提供的一种训练好的剪枝神经网络的网络结构示意图。其中,剪枝神经网络中包括多个数据处理区块(在图2中示出了3个)和一个分类器,数据处理区块用于对图像块特征进行聚合处理,得到目标图像块对应的图像块特征,分类器用于确定目标图像对应的概率分类信息(将在后文进行介绍)。数据处理区块中包括一个目标编码模块和一个图像块剪枝模块(Token SlimmingModule,以下简称TSM),具体的,一个数据处理区块可以称之为一个block,目标编码模块可以为一个Encoder(编码器)。另外,在剪枝神经网络中,除了数据处理区块中的Encoder,还可以包括至少一个其他编码器Encoder,图2中仅示出一个其他Encoder,该Encoder用于对最后一个数据处理区块输出的目标图像块对应的图像块特征进行处理,得到目标分类图像特征(也在后文中进行具体介绍)。
具体实施时,在获取到待处理的目标图像之后,可以将目标图像输入至训练好的剪枝神经网络,利用剪枝神经网络对目标图像进行图像处理,得到目标图像对应的第一数量的初始图像块,以及每个初始图像块对应的图像块特征。
S102:针对每个初始图像块,基于初始图像块的图像块特征,确定初始图像块对应的重要度信息。
这里,重要度信息用于表征每个初始图像块对输出的分类结果的影响程度,一个初始图像块对应于一个重要度信息。具体的,重要度信息可以为重要度分数,重要度分数越高,初始图像块对输出的分类结果的影响越高。
例如,目标图像为一个包括猫的图像,若目标图像对应的一个初始图像块的图像块特征均为猫对应的像素点的特征,则可以确定该初始图像块对输出的分类结果的影响较高,则该初始图像块对应的重要度分数将相对较高;若目标图像对应的一个初始图像块的图像块特征均为图像背景对应的像素点的特征,则可以确定该初始图像块对输出的分类结果的影响较低,并可以确定该初始图像块对应的图像特征为冗余的图像特征,因此,该初始图像块对应的重要度分数将相对较低,甚至可以为0。
具体实施时,针对每个初始图像块,可以对该初始图像块的图像块特征进行特征识别,基于特征识别的结果,确定该初始图像块的图像块特征对输出的分类结果的影响,进而,基于确定的该初始图像块的图像块特征对输出的分类结果的影响大小,确定该初始图像块对应的重要度信息。进而,基于每个初始图像块对应的图像块特征,可以确定出每个初始图像块对应的重要度信息。
或者,在利用剪枝神经网络对目标图像进行处理的情况下,剪枝神经网络在确定每个初始图像块对应的图像块特征之后,可以利用数据处理区块分别对第一数量的初始图像块中每个初始图像块对应的图像块特征进行多次线性变换,基于线性变换的结果,确定出每个初始图像块对应的重要度权重,基于每个初始图像块对应的重要度权重,再利用数据处理区块对每个初始图像块对应的图像块特征进行进一步的多次线性变换,确定出每个初始图像块对应的重要度信息。
S103:基于每个初始图像块对应的重要度信息,对第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;第二数量小于第一数量。
这里,第二数量小于第一数量,第二数量为得到的目标图像块及目标图像块对应的图像块特征的数量。目标图像块为基于每个初始图像块对应的重要度信息,对初始图像块对应的图像块特征去除冗余的图像特征后得到的图像块。第二数量可以与第一数量相关,具体的,第二数量可以为第一数量的一半。例如,在初始图像块对应的第一数量为200的情况下,得到的目标图像块对应的第二数量可以为100。
各个目标图像块对应的图像块特征均为去除了冗余的图像特征的图像块特征。例如,若目标图像对应的一个初始图像块D的图像块特征均为图像背景对应的像素点的特征,则得到的目标图像块的图像块特征可以为去除了初始图像块D的图像块特征的图像块特征。
具体实施时,在确定每个初始图像块对应的重要度信息之后,可以基于每个初始图像块对应的重要度信息,确定出第一数量的初始图像块分别对应的图像块特征中的冗余的图像块特征,之后,可以基于确定的冗余的图像块特征,对第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征。
或者,在利用剪枝神经网络对目标图像进行处理的情况下,在剪枝神经网络得到每个初始图像块对应的重要度信息之后,可以按照上述步骤,基于每个初始图像块对应的重要度信息,对第一数量的初始图像块分别对应的图像块特征进行聚合,从而得到第二数量的目标图像块以及每个目标图像块对应的图像块特征。
并且,在利用剪枝神经网络对目标图像进行处理的情况下,由于目标神经网路中包括多个数据处理区块,每个数据处理区块都可以按照上述S102和S103的步骤,具体的,第一个数据处理区块在对初始图像块对应的图像块特征进行聚合之后,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;然后,可以将目标图像块作为新的初始图像块,并将该目标图像块对应的第二数量作为新的第一数量,再第二个数据处理区块继续对第一个数据处理区块输出的每个目标图像块对应的图像块特征进行进一步的聚合,也即,对新的第一数量的新的初始图像块对应的图像块特征进行进一步的聚合,从而,得到新的第二数量的目标图像块及每个新的第二数量的目标图像块对应的图像块特征;再进一步的,可以利用第三个数据处理区块继续对第二个数据处理区块输出的每个目标图像块对应的图像块特征进行进一步的聚合,得到新的目标图像块及每个新的目标图像块对应的图像块特征。具体的,每个数据处理区块输出的目标图像块的数量以及输出的目标图像块对应的图像块特征的数量,要小于前一个数据处理区块输出的目标图像块的数量以及输出的目标图像块对应的图像块特征的数量。
例如,在目标图像对应的初始图像块的数量,以及初始图像块对应的图像块特征的数量为200的情况下,第一个数据处理区块输出的目标图像块的数量,以及目标图像块对应的图像块特征的数量均可以为100,第二个数据处理区块输出的目标图像块的数量,以及目标图像块对应的图像块特征的数量均可以为50,第三个数据处理区块输出的目标图像块的数量,以及目标图像块对应的图像块特征的数量均可以为25。
这样,基于多个数据处理区块的处理,可以实现对目标图像中的冗余的图像特征的充分去除,得到决定着输出的分类结果的图像块特征。
S104:基于每个目标图像块对应的图像块特征,确定目标图像的图像分类结果。
这里,图像分类结果用于表征目标图像的图像类别,例如,目标图像的图像类别可以为动物图像,比如,目标图像为猫的图像,目标图像为松鼠的图像等等;又例如,目标图像的图像类别可以为人物图像,或者为风景图像等。
具体实施时,可以对最终的每个目标图像块对应的图像块特征进行特征识别,基于特征识别的结果确定目标图像的图像类别,从而得到目标图像的图像分类结果。同样的,S104也可以为利用剪枝神经网络执行的,这里不再赘述。
这样,通过确定能够表征每个初始图像块对输出的分类结果的影响程度的重要度信息,对第一数量的初始图像块分别对应的图像块特征进行聚合,能够实现对冗余的图像块特征的去除;例如,去除对输出的分类结果的影响程度极小或者不影响影响程度的图像块特征;从而,得到决定着输出的分类结果的第二数量的目标图像块对应的图像块特征。再利用第二数量的目标图像块对应的图像块特征,确定目标图像的图像分类结果;既有效保证确定的图像分类结果的准确性,还由于第二数量小于第一数量,所以减少了需要处理的图像块特征的数量,从而有效提高了推理速度。
在一种实施例中,针对S102,下面以利用剪枝神经网络中的一个数据处理区块执行该步骤为例进行说明:
S102-1:针对每个初始图像块,利用目标编码模块,对初始图像块对应的图像块特征进行编码处理,得到初始图像块对应的编码特征。
具体实施时,针对每个初始图像块,可以利用剪枝神经网络中的数据处理区块中的Encoder,先对该初始图像块对应的图像块特征进行编码处理,得到初始图像块对应的编码特征;进而,可以得到每个初始图像块对应的编码特征。
这里,目标图像在经过剪枝神经网络处理之后,得到的各个初始图像块对应的图像块特征可以为特征矩阵形式的特征数据,其中,特征矩阵中一个特征数据对应于一个初始图像块的图像块特征(特征向量)。
具体的,初始图像块对应的特征矩阵对应的矩阵维度可以为N×M,其中N表征图像块特征的数量,具体的,N为第一数量;C表示剪枝神经网络对目标图像进行处理之后,得到的图像块特征对应的特征维度。并且,N一般小于C。
具体实施时,Encoder可以对N×C的特征矩阵中的各个图像块特征进行编码处理,得到每个初始图像块对应的编码特征。这里,编码特征对应的数量与初始图像块对应的图像块特征的数量相同。
S102-2:基于每个初始图像块对应的编码特征,确定初始图像块对应的重要度信息。
具体实施时,在得到每个初始图像块对应的编码特征之后,可以利用数据处理区块中的图像块剪枝模块TSM对每个初始图像块对应的编码特征进行进一步的特征处理,从而确定初始图像块对应的重要度信息。
在一种实施例中,针对S102-2,可以按照以下步骤实施:
S102-2-1:对每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征。
具体实施时,在得到Encoder输出的每个初始图像块对应的编码特征之后,可以利用TSM中的归一化模块对每个初始图像块对应的编码特征进行归一化处理,得到每个编码特征对应的归一化处理后的编码特征。这里,得到的归一化处理后的编码特征的数量与初始图像块对应的编码特征的数量相同。
具体的,归一化模块可以为Norm模块,其中,Norm模块中包含Norm函数。
在一种实施例中,针对S102-2-1,可以按照以下步骤实施:
S102-2-1-1:基于每个初始图像块对应的编码特征,确定每个初始图像块对应的归一化权重。
这里,归一化权重用于对初始图像块对应的编码特征进行归一化加权处理。具体实施时,归一化模块在得到每个初始图像块对应的编码特征,可以先对每个初始图像块对应的编码特征进行特征识别处理,确定每个编码特征中冗余的特征,再根据每个编码特征中冗余的特征,确定每个编码特征对应的归一化权重。
S102-2-1-2:基于每个初始图像块对应的归一化权重,对每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征。
具体实施时,可以利用归一化模块基于每个初始图像块对应的归一化权重,对每个初始图像块对应的编码特征进行归一化加权处理,从而得到归一化处理后的编码特征。
S102-2-2:对归一化处理后的编码特征进行全连接映射处理,得到第一中间特征;其中,第一中间特征对应的特征维度小于编码特征对应的特征维度。
这里,第一中间特征为进行全连接映射处理之后得到的特征。具体实施时,可以利用数据处理区块中的全连接模块,对Norm模块输出的每个归一化处理后的编码特征进行全连接映射处理,从而,得到每个归一化处理后的编码特征对应的第一中间特征。具体的,全连接模块可以为linear模块。
这里,得到的第一中间特征的数量与归一化处理后的编码特征的数量相同,但每个第一中间特征对应的特征维度的数值小于该第一中间特征对应的图像块特征的特征维度的数值,具体的,第一中间特征对应的特征维度的数值可以为该第一中间特征对应的图像块特征的特征维度的数值的一半。
以初始图像块对应的特征矩阵的矩阵维度为N×C为例,也即,每个图像块特征对应的特征维度的数值为C,利用TSM对初始图像块对应的特征矩阵进行处理之后,得到的第一中间特征的数量为N,得到的各个第一中间特征对应的特征维度的数值为C/2,也即,全连接模块输出的各个第一中间特征对应的特征矩阵的矩阵维度可以为N×C/2。其中,C/2可以为第二数量。
在一种实施例中,针对S102-2-2,可以按照以下步骤实施:
S102-2-2-1:基于归一化处理后的编码特征,确定归一化处理后的编码特征对应的维度压缩权重。
这里,维度压缩权重为对编码特征对应的特征维度进行维度压缩时的压缩程度。
具体实施时,全连接模块可以先对各个归一化处理后的编码特征进行特征识别处理,确定出每个归一化处理后的编码特征中冗余的编码特征,再根据每个归一化处理后的编码特征中冗余的编码特征,确定每个归一化处理后的编码特征对应的维度压缩权重。
S102-2-2-2:按照维度压缩权重,对归一化处理后的编码特征进行全连接映射处理,得到第一中间特征。
具体实施时,可以利用全连接模块基于每个归一化处理后的编码特征对应的维度压缩权重,对每个初始图像块对应的编码特征进行特征维度的压缩处理,从而得到每个归一化处理后的编码特征对应的第一中间特征。
S102-2-3:基于每个初始图像块对应的第一中间特征,确定每个初始图像块对应的重要度信息。
具体实施时,基于每个初始图像块对应的第一中间特征,可以对每个第一中间特征进行进一步的特征变换处理,从而得到每个初始图像块对应的重要度信息。
在一种实施例中,针对S102-2-3,可以按照以下步骤实施:
S102-2-3-1:对每个第一中间特征进行非线性变换,并对非线性变换后的第一中间特征进行全连接映射处理,得到每个第一中间特征对应的第二中间特征。
具体实施时,可以利用TSM中的非线性变换模块中的激活函数GELU对每个第一中间特征进行非线性变换,之后,在利用TSM中一个全连接模块(具体的,该全连接模块也可以为linear模块),对非线性变换后的第一中间特征进行全连接映射处理,得到每个第一中间特征对应的第二中间特征。
这里,得到的第二中间特征对应的特征维度的数值小于该第二中间特征对应的第一中间特征的对应的特征维度的数值,具体的,第二中间特征对应的特征维度的数值可以为第一数量的一半。例如,在第一数量为N的情况下,第二中间特征对应的特征维度的数值可以为N/2。
以初始图像块对应的特征矩阵的矩阵维度为N×C,全连接模块输出的各个第一中间特征对应的特征矩阵的矩阵维度可以为N×C/2为例,得到的各个第二中间特征对应的特征矩阵的矩阵维度为N×N/2。
S102-2-3-2:基于每个第二中间特征,确定每个初始图像块对应的重要度信息。
具体实施时,在得到第二中间特征对应的特征矩阵之后,可以将其输入中TSM中的分类模块,利用分类模块中的softmax函数,对第二中间特征中的每个第二中间特征进行分类处理,确定出每个第二中间特征对应的实数值,将每个第二中间特征对应的实数值作为该第二中间特征对应的重要度分数,也即,得到每个第二中间特征对应的重要度信息。其中,重要度信息可以用特征向量进行表征。
这里,得到的重要度信息可以对应于一个特征矩阵,特征矩阵中包括每个初始图像块对应的重要度信息。具体实施时,在得到的各个第二中间特征对应的特征矩阵的矩阵维度为N×N/2的情况下,重要度信息对应的特征矩阵的矩阵维度也为N×N/2。
在一种实施例中,针对S103,可以按照以下步骤实施:
S103-1:基于每个初始图像块对应的重要度信息,确定重要度信息对应的第一特征矩阵;
其中,第一特征矩阵对应的矩阵维度为N×M,N为第一数量,M为第二数量。
这里,第一特征矩阵中包括每个初始图像块对应的重要度信息,由上述实施例可知,得到的重要度信息对应的特征矩阵的矩阵维度也为N×N/2,其中,N可以为第一数量,N/2可以为第二数量,而该特征矩阵即为第一特征矩阵,因此,可知M为N/2。
具体实施时,TSM中的分类模块在得到每个第二中间特征对应的重要度信息之后,可以直接基于每个重要度信息对应的特征向量,确定由各个重要度信息组成的第一特征矩阵。
S103-2:对第一特征矩阵执行矩阵维度转换操作,得到矩阵维度为M×N的第二特征矩阵。
这里,矩阵维度转换操作可以为对特征矩阵中的各个重要度信息对应的特征向量的位置进行转换的操作。具体的,矩阵维度转换操作可以为reshape操作,例如,N×M的特征矩阵经过reshape操作之后,可以变为M×N的特征矩阵。
具体实施时,可以对第一特征矩阵执行矩阵维度转换操作,将第一特征矩阵对应的行数变为列数,将第一特征矩阵的列数变为行数,也即,得到矩阵维度为M×N的第二特征矩阵。
在这里,在对第一特征矩阵执行矩阵维度转换操作的过程中,可以将依次将每一行的重要度信息对应的特征向量依次更改为每一列的重要度信息对应的特征向量,从而得到第二特征矩阵。例如,第一矩阵为
Figure BDA0003329915910000141
转换后得到的第二特征矩阵为
Figure BDA0003329915910000142
或者,也可以预设的转换关系,将第一矩阵中的每个特征向量的位置转换为在第二矩阵中对应的位置。例如,该转换关系可以为将第一行的每个特征向量变为第二列的特征向量,将第二行的每个特征向量变为第三列的特征向量,依次类推,最后将第一行的每个特征向量变为第一列的特征向量,从而,得到转换后得到的第二特征矩阵。关于具有的转换关系,可以根据开发需要进行设置,这里不进行限定。
S103-3:基于第二特征矩阵和初始图像块的图像块特征对应的图像块矩阵,对第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征。
这里,每个目标图像块对应的图像块特征可以以特征向量的形式表征;初始图像块的图像块特征对应的图像块矩阵可以为编码处理后的编码特征对应的特征矩阵。
具体实施时,可以对第二特征矩阵和初始图像块的图像块特征对应的图像块矩阵做矩阵乘法,实现对第一数量的初始图像块分别对应的图像块特征的聚合,从而,得到的第二数量的目标图像块以及每个目标图像块对应的图像块特征。
示例性的,以初始图像块的图像块特征对应的图像块矩阵为N×C的特征矩阵,第二特征矩阵为M×N的特征矩阵,其中,M为N/2为例,对第二特征矩阵和图像块矩阵做矩阵乘法,可以得到M×C的特征矩阵,继而,可以将M×C的特征矩阵中的每个特征向量作为每个目标图像块对应的图像块特征。
如图3所示,为本公开实施例所提供的一种利用数据处理区块确定目标图像对应的目标图像块以及目标图像块对应的图像块特征的初始示意图,其中,初始图像块的图像块特征对应的特征矩阵为N×C的特征矩阵,也即,目标图像对应的特征矩阵为N×C的特征矩阵,数据处理区块在得到目标图像对应的N×C的特征矩阵之后,利用目标编码模块对初始图像块的图像块特征进行编码处理,得到的编码特征,编码特征对应的特征矩阵可以为N×C的特征矩阵。之后,将编码特征对应的特征矩阵可以为N×C的特征矩阵输入至数据处理区块中的图像块剪枝网络,图像块剪枝网络在得到目标图像对应的N×C的特征矩阵之后,可以依次利用归一化模块对N×C的特征矩阵中的每个特征向量进行归一化处理;继而,利用第一个全连接模块进行全连接映射处理,得到N×C/2的特征矩阵;再利用非线性变换模块中的激活函数对N×C/2的特征矩阵进行非线性变换,之后,利用第二个全连接模块进行全连接映射处理,得到N×N/2的特征矩阵;再利用分类模块中的softmax函数进行分类处理,得到重要度信息对应的N×N/2的第一特征矩阵;对将重要度信息对应的N×N/2的特征矩阵进行矩阵维度转换操作,得到矩阵维度为N/2×N的第二特征矩阵;最后,将N/2×N的第二特征矩阵和编码特征对应的特征矩阵可以为N×C的特征矩阵做矩阵乘法,得到N/2×C的特征矩阵,将该特征矩阵中的每个特征向量作为每个目标图像块对应的图像块特征,也即,得到了目标图像块的图像块特征对应的N/2×C的特征矩阵。
在一种实施例中,针对S104,由于剪枝神经网络中包括多个数据处理区块,在利用第一个数据处理区块对目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征进行聚合处理,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征之后,可以将第一个数据处理区块输出的目标图像块作为新的初始图像块,将新的初始图像块的数量作为新的第一数量,并返回针对每个初始图像块,基于初始图像块的图像块特征,确定初始图像块对应的重要度信息步骤。直到返回次数达到预设值的情况下,这里,针对图2中所示的3个数据处理区块,在预设值可以为2,也即,在进行三次聚合处理之后,基于最后确定的各个目标图像块对应的图像块特征,确定目标图像的图像分类结果。具体的,预设值可以根据数据处理区块的数量进行设置,这里不进行限定。
这里,针对图2而言,也就是先用第一个数据处理区块对目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征进行聚合处理,得到第一个数据处理区块的输出;之后,将该输出作为第二个数据处理区块的输入,利用第二个数据处理区块对该输入进行聚合处理,得到第二个数据处理区块的输出;最后将第二个数据处理区块的输出作为第三个数据处理区块的输入,利用第三个数据处理区块对该输入进行聚合处理,得到第三个数据处理区块对应的输出,将第三个数据处理区块对应的输出作为最后确定的各个目标图像块对应的图像块特征。
然后,可以基于最后确定的各个目标图像块对应的图像块特征,确定目标图像的对应的概率分类信息,并基于概率分类信息,确定目标图像的图像分类结果。
具体的,在确定目标图像的对应的概率分类信息的过程中,可以先基于最后确定的各个目标图像块的图像块特征,确定目标图像对应的目标分类图像特征。
这里,在图2中,最后确定的各个目标图像块的图像块特征,即为第三个数据处理区块输出的各个目标图像块的图像块特征。目标分类图像特征为对最后确定的各个目标图像块的图像块特征进行编码处理后得到的一个图像特征,目标分类图像特征融合了各个目标图像块的图像块特征。
具体实施时,在得到最后确定的各个目标图像块的图像块特征之后,可以利用剪枝神经网络中的其他的Encoder对最后确定的各个目标图像块的图像块特征进行进一步的特征编码处理,得到目标分类图像特征。
在图2中,可以利用剪枝神经网络中所示出的一个其他Encoder对最后确定的各个目标图像块的图像块特征进行进一步的特征编码处理,得到目标分类图像特征。但在具体实施时,剪枝神经网络中的其他Encoder可以包括多个,在其他Encoder包括多个的情况下,可以依次利用每个其他Encoder对最后确定的各个目标图像块的图像块特征进行进一步的特征编码处理,将最后一个其他Encoder输出的图像特征作为目标分类图像特征。
进一步的,可以基于目标分类图像特征,确定目标图像的对应的概率分类信息。
这里,概率分类信息用于表征目标图像对应于每一种图像类别的概率值,例如,目标图像的对应的概率分类信息可以为:目标图像对应于为a类图像的概率值为0.85,目标图像对应于为b类的图像的概率值为0.1,目标图像对应于为c类图像的概率值为0.05。
具体实施时,可以将目标分类图像特征输入至剪枝神经网络中的分类器,利用分类器对目标分类图像特征进行特征分类处理,输出目标图像的对应的概率分类信息。
最终,可以基于概率分类信息,确定目标图像的图像分类结果。
具体实施时,可以概率分类信息对应的概率值最大的分类结果,作为目标图像的图像分类结果。
延续上述针对目标图像的对应的概率分类信息的举例,可以将概率值为0.85的分类结果,作为目标图像的图像分类结果,也即,可以确定目标图像对应于为a类图像。
在一种实施例中,由上述实施例可知,基于待处理的目标图像,确定目标图像的图像分类结果的步骤为预先训练好的剪枝神经网络执行的,所以本公开实施例还提供了一种训练剪枝神经网络的方法,如图4所示,为本公开实施例所提供的一种训练剪枝神经网络的方法的流程图,可以包括以下步骤:
S401:获取样本图像。
这里,样本图像可以为获取对应于任一图像类别的图像,用于对剪枝神经网络进行训练。具体实施时,获取的样本图像可以包括多张,每张样本图像对应的图像类别可以相同也可以不同,每张样本图像对应的图像内容可以不同。
S402:将样本图像输入至待训练的剪枝神经网络,利用待训练的剪枝神经网络对样本图像进行处理,确定每个数据处理区块输出的第一预测图像特征,以及确定样本图像对应的第一预测分类信息。
其中,数据处理区块用于基于样本图像对应的初始预测图像块的图像块特征,确定初始预测图像块的重要度信息,以及,基于每个初始预测图像块对应的重要度信息,对第三数量的初始预测图像块分别对应的图像块特征进行聚合,得到第四数量的目标预测图像块以及每个目标预测图像块对应的第一预测图像特征。
这里,第一预测分类信息用于表征样本图像对应于每一种图像类别的预测概率值,第一图像预测特征为每个数据处理区块输出的各个目标预测图像块对应的预测特征,一个数据处理区块对应输出一个第一图像预测特征。
具体实施时,在将样本图像输入至待训练的剪枝神经网络之后,待训练的剪枝神经网络可以先对样本图像进行分割处理以及识别处理,得到样本图像对应的第三数量的初始预测图像块,以及确定每个初始预测图像块对应的图像块特征。
之后,可以利用待训练的剪枝神经网络中的各个数据处理区块对每个初始预测图像块对应的图像块特征依次进行处理,确定每个数据处理区块输出的第一预测图像特征,并基于最后一个数据处理区块输出的第一预测图像特征,确定样本图像对应的第一预测分类信息。
具体的,确定每个数据处理区块输出的第一预测图像特征与上述各实施例中每个数据处理区块确定目标图像对应的目标图像对眼的图像块特征的步骤相同,确定第一预测分类信息与上述实施例中确定目标图像对应的概率分类信息的步骤相同,此处均不再赘述。
S403:将样本图像输入至预先训练好的教师神经网络,并利用教师神经网络对样本图像进行处理,确定教师神经网络中的每个数据处理区块输出的第二预测图像特征,以及确定样本图像对应的第二预测分类信息。
其中,教师神经网络中的数据处理区块包括目标编码模块。
这里,教师神经网络可以为基于剪枝神经网络生成的、预先训练好的神经网络,为一种用于对图像进行图像分类的神经网络,具体的,教师神经网络可以为一种transform模型。这里,待训练的剪枝神经网络可以作为学生网络。
教师神经网络中包括的数据处理区块的数量与剪枝神经网络中的数据处理区块的数量相同,但每个教师神经网络中的数据处理区块仅包括一个目标编码模块,不包括TSM,也即,教师神经网络无法减少样本图像对应的图像块特征的特征维度。如图5所示,为本公开实施例所提供的一种利用教师神经网络对剪枝神经网络进行训练的示意图,其中,图5中的剪枝神经网络还可以包括数据还原区块(Reverse Token Slimming Module,以下简称RTSM),用于对数据处理区块输出的图像块特征进行还原,在剪枝神经网络中,一个数据处理区块对应于一个数据还原区块,具体的,数据还原区块将在后文进行介绍。并且,数据还原区块进行对剪枝神经网络进行训练的过程中使用,训练好的剪枝神经网络中不包括数据还原区块,仅包括数据处理区块。并在图5中还示出了教师神经网络的网络结构、各种训练损失,具体包括第一损失、第二损失、第三损失、第二子损失、第三子损失和第四子损失,以及图5中还示出了用于确定还原预测图像特征对应的第三预测分类信息和确定第二预测图像特征对应的第四预测分类信息的鉴别网络,关于各种训练损失以及鉴别网络将在后文进行详细介绍。
第二预测图像特征为教师神经网络中的数据处理区块输出的预测特征,教师神经网络中的一个数据处理区块也对应于第二预测图像特征,第二预测分类信息为教师神经网络输出的、能够表征样本图像对应于每一种图像类别的预测概率值的信息。
具体实施时,在将样本图像输入至教师神经网络之后,教师神经网络可以先对样本图像进行分割处理以及识别处理,得到样本图像对应的第三数量的初始预测图像块,以及确定每个初始预测图像块对应的图像块特征。
之后,可以利用教师神经网络中的各个数据处理区块,具体的,可以利用各个数据处理区块中的目标编码模块,对第三数量的初始预测图像块中的每个初始预测图像块对应的图像块特征依次进行编码处理,确定每个数据处理区块输出的第二预测图像特征,并基于最后一个数据处理区块输出的第二预测图像特征,确定样本图像对应的第二预测分类信息。其中,每个数据处理区块输出的第二预测图像特征的数量为第三数量。
S404:基于第一预测图像特征、第二预测图像特征、第一预测分类信息和第二预测分类信息,确定待训练的剪枝神经网络的预测损失,并利用预测损失对待训练的剪枝神经网络进行迭代训练,直至满足预设训练截止条件,得到训练好的剪枝神经网络。
这里,训练截止条件可以为迭代训练的轮数达到预设轮数和/或训练得到的剪枝神经网络的预测精度达到目标精度。
具体实施时,可以基于每个第一预测图像特征和每个第二预测图像特征,确定预测图像特征对应的损失。以及,可以根据第一预测分类信息和第二预测分类信息,确定两个预测分类信息之间的损失。
之后,可以基于预测图像特征对应的损失和两个预测分类信息之间的损失,确定待训练的剪枝神经网络的预测损失,并利用预测损失对待训练的剪枝神经网络进行迭代训练,直至满足预设训练截止条件,得到训练的剪枝神经网络。
在一种实施例中,针对S404,可以按照以下步骤实施:
S404-1:针对待训练的剪枝神经网络中的每个数据处理区块,基于数据处理区块对应的第一预测图像特征和第二预测图像特征,确定数据处理区块对应的第一损失。
这里,针对待训练的剪枝神经网络中的每个数据处理区块,可以确定出该数据处理区块,在教师神经网络中对应的匹配数据处理区块,然后基于数据处理区块对应的第一预测图像特征和匹配数据处理区块对应的第二预测图像特征,确定该第一预测图像特征和该第二预测图像特征之间的损失,将该损失作为该数据处理区块对应的第一损失。
进而,基于本步骤,可以确定待训练的剪枝神经网络中的每个数据处理区块对应的第一损失。
S404-2:基于第一预测分类信息和第二预测分类信息,确定待训练的剪枝神经网络的第二损失。
具体实施时,可以基于第一预测分类信息和第二预测分类信息,确定两个预测分类信息之间的损失,将该损失作为待训练的剪枝神经网络的第二损失。具体的,在图5中示出了第二损失。
S404-3:基于每个数据处理区块对应的第一损失和第二损失,确定预测损失。
本步骤中,可以直接将每个数据处理区块对应的第一损失和第二损失,作为预测损失。
在一种实施例中,针对S404-1,可以按照以下步骤实施:
S404-1-1:基于各个第一预测图像特征,确定第三数量的还原预测图像特征;第三数量为样本图像对应的初始预测图像块的数量。
这里,还原预测图像特征为对第一预测图像特征进行数量维度的还原之后得到的预测图像特征,还原预测图像特征对应的数量大于第一预测图像特征对应的数量。
由上述各实施例可知,由于待训练的剪枝神经网络中的每个数据处理区块包括TSM,所以每个数据处理区块输出的第一预测图像特征的数量要小于初始预测图像块的图像块特征的数量,而教师神经网络中的每个数据处理区块不具备TSM,所以教师神经网络中的每个数据处理区块输出的第二预测图像特征的数量等于初始预测图像块的图像块特征的数量。
因此,需要在得到各个第一预测图像特征之后,可以利用每个第一预测图像特征对应的RTSM,分别对每个第一预测图像特征进行数量还原,得到每个第一预测图像特征对应的第三数量的还原预测图像特征。这样,可以实现还原预测图像特征的数量与第二预测图像特征的数量相匹配。
S404-1-2:基于第三数量的还原预测图像特征和第二预测图像特征,确定数据处理区块对应的第一损失。
具体实施时,针对第三数量的每个还原预测图像特征,可以先确定与该还原预测图像特征对应的第二预测图像特征;进而,可以确定该还原预测图像特征和该第二预测图像特征之间的损失;之后,可以基于每两个预测图像特征(还原预测图像特征和其对应的第二预测图像特征)之间的损失,确定第一损失,将该第一损失作为该还原预测图像特征对应于待训练的剪枝神经网络中的数据处理区块的第一损失。
基于S404-1-1和S404-1-2,可以分别确定出待训练的剪枝神经网络中的每个数据处理区块对应的第一损失,在图5中示出了每个数据处理区块对应的第一损失。
在一种实施例中,针对S404-1-1,可以按照以下步骤实施:
S404-1-1-1:对第一预测图像特征对应的第二特征矩阵进行归一化处理,得到归一化处理后的第一预测编码特征,并对第一预测编码特征对应的特征矩阵执行矩阵维度转换操作,得到转换后的第三特征矩阵。
以初始预测图像块的图像块特征对应的特征矩阵的矩阵维度为L×K为例,其中,L等于第三数量,K为每个初始预测图像块的图像块特征对应的特征维度的数值。由上述确定目标图像对应的目标图像块的图像块特征的各实施例可知,待训练的剪枝神经网络中的第一个数据处理区块输出的第一预测编码特征对应的第二特征矩阵的矩阵维度为L/2×K,第二个数据处理区块输出的第一预测编码特征对应的第二特征矩阵的矩阵维度为L/4×K,第三个数据处理区块输出的第一预测编码特征对应的第二特征矩阵的矩阵维度为L/8×K。其中,每个数据处理区块对应的第二特征矩阵中,包括该数据处理区块输出的各个第一预测图像特征,各个第一预测图像特征可以用特征向量的形式表征。
如图6所示,为本公开实施例所提供的一种数据还原区块的结构示意图,其中,数据还原区块包括两个归一化模块,四个全连接模块,一个非线性变换模块,关于各个模块的具体作用,将在下述各实施例进行介绍。且在图6中还示出有对第一个数据处理区块输出的L/2×K的第二特征矩阵进行还原得到还原预测图像特征的示意图,具体的还原步骤也将在下文进行陈述。
下面以对待训练的剪枝神经网络中的第一个数据处理区块输出的第一预测图像特征进行还原为例进行说明。具体的,可以将第一个数据处理区块输出的L/2×K的第二特征矩阵输入至第一个数据处理区块(第一个TSM)对应的RTSM,利用如图6所示的RTSM中的第一个归一化模块(具体可以为包含Norm函数的Norm模块)对L/2×K的第二特征矩阵进行归一化处理,得到归一化处理后的L/2×K的第二特征矩阵。其中,归一化处理后的L/2×K的第二特征矩阵中包括:各个第一预测编码特征对应的归一化处理后的第一预测编码特征。
然后,可以对归一化处理后的L/2×K的第二特征矩阵执行矩阵维度转换操作,也即,对归一化处理后的L/2×K的第二特征矩阵执行reshape操作,从而得到转换后的第三特征矩阵。其中,第三特征矩阵对应的矩阵维度可以为K L/2。
S404-1-1-2:对转换后的第三特征矩阵进行全连接映射处理,得到第二预测编码特征,并对第二预测编码特征进行非线性变换,得到第三预测编码特征。
以第三特征矩阵对应的矩阵维度可以为K×L/2为例对本步骤进行说明,具体实施时,可以利用如图6所示的RTSM中的第一个全连接模块(具体可以为linear模块)对K×L/2的第三特征矩阵进行全连接映射处理,得到K×(X×L)的特征矩阵,该特征矩阵中包括对第三特征矩阵中的各个归一化处理后的第一预测编码特征对应的第二预测编码特征,其中,第二预测编码特征对应的特征维度的数值(X×L)大于归一化处理后的第一预测编码特征对应的特征维度的数值预测编码特征(L/2)。在具体实施时,(X×L)中的X可以为4,也即对K×L/2的第三特征矩阵进行全连接映射处理,得到K×4L的特征矩阵。
进一步的,可以利用如图6所示的RTSM中的包括激活函数GELU的非线性变换模块,对K×4L的特征矩阵中的每个第二预测编码特征进行非线性变换,得到新的K×4L的特征矩阵,其中,新的K×4L的特征矩阵中包括对每个第二预测编码特征进行非线性变换得到的第三预测编码特征。
S404-1-1-3:对第三预测编码特征对应的特征矩阵进行全连接映射处理,并对全连接映射处理后的特征矩阵执行矩阵维度转换操作,得到第四特征矩阵,并基于第四特征矩阵,确定第三数量的还原预测图像特征。
其中,第四特征矩阵对应的矩阵维度中的特征数量为第三数量,第四特征矩阵对应的矩阵维度中的特征维度的数值为:初始预测图像块的图像块特征对应的特征维度的数值。
这里,以第三预测编码特征对应的特征矩阵为得到的新的K×4L的特征矩阵为例继续进行说明:
具体实施时,可以利用如图6所示的RTSM中的第二个全连接模块(具体可以为linear模块)对新的K×4L的特征矩阵进行全连接映射处理,也即,对第三预测编码特征对应的特征矩阵进行全连接映射处理,得到的全连接映射处理后的特征矩阵。其中,该全连接映射处理后的特征矩阵对应的矩阵维度为K×L,该K×L的特征矩阵中包括对每个第三预测编码特征进行全连接映射处理之后,得到的每个第三预测编码特征对应的全连接映射处理之后的预测编码特征,每个全连接映射处理之后的预测编码特征对应的特征维度的数值(4L)小于第三预测编码特征对应的特征维度的数值(L)。
进一步的,可以利用如图6所示的RTSM可以对该全连接映射处理后的K×L的特征矩阵进行矩阵维度转换操作,具体的,可以利用如图6所示的RTSM可以对该全连接映射处理后的K×L的特征矩阵进行resahpe操作,得到L×K的第四特征矩阵。
然后,可以利用RTSM,基于K×L的第四特征矩阵确定第一个数据处理区块对应的还原预测图像特征,这里,由于第一个数据处理区块对应的还原预测图像特征的数量为第三数量,从而,可以实现第一个数据处理区块对应的还原预测图像特征的数量与第二预测图像特征的数量的匹配。
关于对待训练的剪枝神经网络中的第二个数据处理区块输出的第一预测图像特征、以及第三个数据处理区块输出的第一预测图像特征进行还原的步骤,可以操作上述对第一个数据处理区块输出的第一预测图像特征进行还原的步骤,此处不再赘述。
在一种实施例中,针对S404-1-1-3中的基于第四特征矩阵,确定第三数量的还原预测图像特征的步骤,可以按照以下步骤实施:
S404-1-1-3-1:对第四特征矩阵进行归一化处理,并对归一化处理后的第四特征矩阵进行多次全连接映射,得到第五特征矩阵。
以第四特征矩阵为L×K的第四特征矩阵为例继续进行说明:
具体实施时,可以利用如图6所示的RTSM中的第二个归一化模块(具体可以为包含Norm函数的Norm模块),对第四特征矩阵进行归一化处理,再利用RTSM中的连续两个全连接模块(均可以为linear模块),依次对归一化处理后的第四特征矩阵进行两次的全连接映射处理,得到第五特征矩阵。其中,第五特征矩阵的矩阵维度为L×K。
S404-1-1-3-2:基于第五特征矩阵和第四特征矩阵,确定第三数量的还原预测图像特征。
具体实施时,可以对L×K的第五特征矩阵和L×K的第四特征矩阵进行矩阵相加操作,得到第六特征矩阵,将第六特征矩阵中包括的各个图像特征作为还原预测图像特征,由于第五特征矩阵和四特征矩阵中的图像特征的数量均为第三数量L,所以矩阵相加后的得到的六特征矩阵中包括的图像特征的数量也均为第三数量L,从而,得到的还原预测图像特征的数量也均为第三数量L。
在一种实施例中,针对基于第三数量的还原预测图像特征和第二预测图像特征,确定数据处理区块对应的第一损失的步骤,还可以按照以下步骤实施:
步骤一、基于第三数量的还原预测图像特征和第二预测图像特征,确定第一子损失。
这里,第一子损失可以为S404-1-1和S404-1-2中所介绍的损失,关于第一子损失,可以参照S404-1-1和S404-1-2,这里不再赘述。
步骤二、对还原预测图像特征进行特征处理操作,得到还原预测图像特征对应的第一目标预测特征,并确定第一目标预测特征对应的第三预测分类信息。
这里,本公开实施例还提供了一种鉴别网络,用于对还原预测图像特征和第二预测特征进行鉴别,确定还原预测图像特征对应于为教师神经网络输出的预测图像特征的概率,以及确定第二预测特征对应于为教师神经网络输出的预测图像特征的概率。
第一目标预测特征为对还原预测图像特征对应的特征维度进行降低后得到的预测特征。第三分类信息用于表征每个第一目标预测特征(或第一目标预测特征对应的还原预测图像特征)对应于为教师神经网络输出的预测图像特征的概率,而还原预测图像特征为基于第一预测图像特征得到的,所以第三分类信息能够表征第一预测图像特征对应于为教师神经网络输出的预测图像特征的概率。
本步骤在具体实施时,在得到的待训练的剪枝神经网络中的各个数据处理区块对应的各个还原预测图像特征之后,可以将各个还原预测图像特征输入至鉴别网络,利用鉴别网络分别对各个还原预测图像特征进行特征处理操作,具体的,可以对各个还原预测图像特征对应的特征维度进行维度降低操作,将每个还原预测图像特征对应的特征维度的数值降为1,从而得到每个还原预测图像特征对应的第一目标预测特征。其中,每个第一目标预测特征对应的特征维度的数值为1。
例如,在还原预测图像特征对应的特征维度的数值K(K大于1)的情况下,利用鉴别网络对该还原预测图像特征进行特征处理操作之后,该还原预测图像特征对应的特征维度的数值变为1。在还原预测图像特征对应的特征矩阵的矩阵维度为L×K的情况下,利用鉴别网络对该L×K的特征矩阵进行特征处理操作之后,可以得到L×1的特征矩阵。
进一步的,可以利用鉴别网络对每个第一目标预测特征进行分类处理,确定出每个第一目标预测特征对应于为教师神经网络输出的预测图像特征的概率,将该概率作为该第一目标预测特征对应的第三预测分类信息。
步骤三、对第二预测图像特征进行特征处理操作,得到第二预测图像特征对应的第二目标预测特征,并确定第二目标预测特征对应的第四预测分类信息。
这里,第二目标预测特征为对第二预测图像特征对应的特征维度进行降低后得到的预测特征。第四分类信息用于表征每个第二目标预测特征(或第二目标预测特征对应的第二预测图像特征)对应于为教师神经网络输出的预测图像特征的概率。
具体实施时,在得到的教师神经网络中的各个数据处理区块对应的各个第二预测图像特征之后,可以将各个第二预测图像特征输入至鉴别网络,利用鉴别网络分别对各个第二预测图像特征进行特征处理操作,具体的,可以对各个第二预测图像特征对应的特征维度进行维度降低操作,将每个第二预测图像特征对应的特征维度的数值降为1,从而得到每个第二预测图像特征对应的第二目标预测特征。其中,每个第二目标预测特征对应的特征维度的数值为1。
进一步的,可以利用鉴别网络对每个第二目标预测特征进行分类处理,确定出每个第二目标预测特征对应于为教师神经网络输出的预测图像特征的概率,将该概率作为该第二目标预测特征对应的第四预测分类信息。
步骤四、基于第三预测分类信息和第四预测分类信息,确定第二子损失;并基于第一子损失和第二子损失,确定第一损失。
在一种实施例中,基于第三预测分类信息和第四预测分类信息,确定第二子损失的步骤可以按照以下步骤实施:
S1:基于第三预测分类信息和第三预测分类信息对应的第一标准分类信息,确定第三子损失。
这里,第三预测分类信息对应的第一标准分类信息可以为标签0。由于第三预测分类信息用于表征每个第一目标预测特征对应于为教师神经网络输出的预测图像特征的概率,而每个第一目标预测特征为基于待训练的剪枝神经网络中的数据处理区块输出的第一预测图像特征得到的,所以第一目标预测特征对应于为教师神经网络输出的预测图像特征的概率应该贴近于0,因此,利用标签0作为第一标准分类信息,和第三预测分类信息做损失,并基于得到损失确定第一损失,再利用第一损失对待训练的剪枝神经网络中的数据处理区块进行训练,可以保证数据处理区块输出的第一预测图像特征的合理性。
具体实施时,可以将每个第三预测分类信息对应的每个概率和标签0做损失,确定出每个第三预测分类信息对应的损失,之后,可以将第三预测分类信息对应的损失作为第三子损失。其中,在图5中示出了待训练的剪枝神经网络的第一个数据处理区块对应的第三子损失,关于待训练的剪枝神经网络中其他的数据处理区块对应的第三子损失,未一一示出,但待训练的剪枝神经网络中的每个数据处理区块都可以对应于一个第三子损失。
S2:基于第四预测分类信息和第四预测分类信息对应的第二标准分类信息,确定第四子损失。
这里,第四预测分类信息对应的第二标准分类信息可以为标签1。由于第四预测分类信息用于表征每个第二目标预测特征对应于为教师神经网络输出的预测图像特征的概率,而每个第二目标预测特征为基于教师神经网络中的数据处理区块输出的第二预测图像特征得到的,所以第二目标预测特征对应于为教师神经网络输出的预测图像特征的概率应该贴近于1,因此,利用标签0作为第二标准分类信息,和第四预测分类信息做损失,并基于得到损失确定第一损失,再利用第一损失对待训练的剪枝神经网络中的数据处理区块进行训练,可是实现对待训练的剪枝神经网络中的数据处理区块的输出进行监督,从而提高数据处理区块输出的第一预测图像特征的合理性。
具体实施时,可以将每个第四预测分类信息对应的每个概率和标签1做损失,确定出每个第四预测分类信息对应的损失,之后,可以将第四预测分类信息对应的损失作为第四子损失。其中,在图5中示出了教师神经网络的第一个数据处理区块对应的第四子损失,关于教师神经网络中其他的数据处理区块对应的第四子损失,未一一示出,但教师神经网络中的每个数据处理区块都可以对应于一个第四子损失。
S3:基于第三子损失和第四子损失,确定第二子损失。
这里,可以对第三子损失和第四子损失进行合并,将合并后的损失作为第二子损失。其中,在图5中示出了教师神经网络的第一个数据处理区块和待训练的剪枝神经网络的第一个数据处理区块之间对应的第二子损失,但关于教师神经网络和待训练的剪枝神经网络中其他的数据处理区块之间对应的第二子损失未一一示出,但教师神经网络和待训练的剪枝神经网络中的每个数据处理区块之间都可以对应于一个第二子损失。
进一步的,在步骤四中,在得到第二子损失和第一子损失之后,可以将该第二子损失和该第一子损失作为第一损失。或者,可以对第二子损失和第一子损失进行合并,将合并后的损失作为第一损失。
另外,可以基于上述步骤一、步骤二、步骤三和步骤四,确定出待训练的剪枝神经网络中的每个数据处理区块分别对应的第一损失,之后,可以利用每个数据处理区块对应的第一损失,对该数据处理区块进行迭代训练。
在一种实施例中,针对基于每个数据处理区块对应的第一损失和第二损失,确定预测损失的步骤,还可以按照以下步骤实施:
T1:基于第一预测分类信息和样本图像对应的标准分类信息,确定待训练的剪枝神经网络对应的概率预测损失。
这里,预测损失还可以包括第一预测分类信息和样本图像对应的标准分类信息之间的概率预测损失。概率预测损失用于表征待训练的剪枝神经网络输出的第一预测分类信息和样本图像对应的标准分类信息之间的损失。样本图像对应的标准分类信息为样本图像对应的真实分类信息。
具体实施时,可以利用第一预测分类信息和样本图像对应的标准分类信息做损失,从而确定出待训练的剪枝神经网络对应的概率预测损失。
T2:基于每个数据处理区块对应的第一损失、第二损失和概率预测损失,确定预测损失。
这里,可以将待训练的剪枝神经网络中的每个数据处理区块对应的第一损失、确定的第二损失和确定的概率预测损失,作为预测损失。或者,也可以对上述各个损失进行合并,确定一个总损失,利用该总损失对待训练的剪枝神经网络进行训练。
在一种实施例中,针对基于每个数据处理区块对应的第一损失和第二损失,确定预测损失的步骤,还可以按照以下步骤实施:
P1:利用预先训练好的卷积神经网络,对样本图像进行特征处理,确定样本图像对应的第五预测分类信息。
这里,预先训练好的卷积神经网络可以为利用现有技术训练好的卷积神经网络,该卷积网络为能够对图像进行图像分类的神经网络。第五预测分类信息用于表征样本图像对应于每一种图像类别的预测概率值。
具体实施时,可以利用预先训练好的卷积神经网络,对样本图像进行特征处理,确定出预先训练好的卷积神经网络输出的样本图像对应的第五预测分类信息。
P2:基于第五预测分类信息和第一预测分类信息,确定待训练的剪枝神经网络的第三损失。
具体实施时,可以利用第五预测分类信息和第一预测分类信息做损失,将得到的损失作为待训练的剪枝神经网络的第三损失。具体的,在图5中示出了待训练的剪枝神经网络对应的第三损失。
P3:基于第一损失、第二损失和第三损失,确定预测损失。
具体实施时,可以将第一损失、第二损失和第三损失作为预测损失;或者,可以将第一损失、第二损失、第三损失和上述实施例中的概率预测损失一起作为预测损失;再或者,可以将第一损失、第二损失、第三损失和概率预测损失进行合并,将合并后的损失作为预测损失。
另外,在具体实施时,可以利用上述实施例所提及的各种损失(第一损失、第二损失、第三损失和概率预测损失)中的至少部分损失作为预测损失,对待训练的剪枝神经网络进行训练,关于具体使用的损失,本公开实施例不进行具体限定。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与图像分类方法对应的图像分类装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像分类方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图7所示,为本公开实施例提供的一种图像分类装置的示意图,包括:
第一确定模块701,用于基于待处理的目标图像,确定所述目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征;
第二确定模块702,用于针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息;
聚合模块703,用于基于每个所述初始图像块对应的重要度信息,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;所述第二数量小于所述第一数量;
第三确定模块704,用于基于每个所述目标图像块对应的图像块特征,确定所述目标图像的图像分类结果。
在一种可能的实施方式中,所述第二确定模块702,用于针对每个所述初始图像块,对所述初始图像块对应的图像块特征进行编码处理,得到所述初始图像块对应的编码特征;
基于每个所述初始图像块对应的编码特征,确定所述初始图像块对应的重要度信息。
在一种可能的实施方式中,所述第二确定模块702,用于对所述每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征;
对所述归一化处理后的编码特征进行全连接映射处理,得到第一中间特征;其中,所述第一中间特征对应的特征维度小于所述编码特征对应的特征维度;
基于每个所述初始图像块对应的第一中间特征,确定每个所述初始图像块对应的重要度信息。
在一种可能的实施方式中,所述第二确定模块702,用于基于每个所述初始图像块对应的编码特征,确定每个所述初始图像块对应的归一化权重;
基于每个所述初始图像块对应的归一化权重,对所述每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征。
在一种可能的实施方式中,所述第二确定模块702,用于基于所述归一化处理后的编码特征,确定所述归一化处理后的编码特征对应的维度压缩权重;
按照所述维度压缩权重,对所述归一化处理后的编码特征进行全连接映射处理,得到所述第一中间特征。
在一种可能的实施方式中,所述第二确定模块702,用于对每个所述第一中间特征进行非线性变换,并对非线性变换后的所述第一中间特征进行全连接映射处理,得到每个所述第一中间特征对应的第二中间特征;
基于每个所述第二中间特征,确定每个所述初始图像块对应的重要度信息。
在一种可能的实施方式中,所述聚合模块703,用于基于每个所述初始图像块对应的重要度信息,确定所述重要度信息对应的第一特征矩阵,所述第一特征矩阵对应的矩阵维度为N×M,N为所述第一数量,M为所述第二数量;
对所述第一特征矩阵执行矩阵维度转换操作,得到矩阵维度为M×N的第二特征矩阵;
基于所述第二特征矩阵和所述初始图像块的图像块特征对应的图像块矩阵,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到所述第二数量的目标图像块以及每个目标图像块对应的图像块特征。
在一种可能的实施方式中,所述第三确定模块704,用于将所述目标图像块作为新的初始图像块,将新的初始图像块的数量作为新的第一数量,并返回所述针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息步骤,直到返回次数达到预设值的情况下,基于最后确定的各个目标图像块对应的图像块特征,确定所述目标图像对应的概率分类信息;
基于所述概率分类信息,确定所述目标图像的图像分类结果。
在一种可能的实施方式中,基于所述待处理的目标图像,确定所述目标图像的图像分类结果的步骤为预先训练好的剪枝神经网络执行的;所述装置还包括:
训练模块705,用于按照以下步骤训练所述剪枝神经网络:
获取样本图像;
将所述样本图像输入至待训练的剪枝神经网络,利用所述待训练的剪枝神经网络对所述样本图像进行处理,确定每个数据处理区块输出的第一预测图像特征,以及确定所述样本图像对应的第一预测分类信息;所述数据处理区块用于基于样本图像对应的初始预测图像块的图像块特征,确定所述初始预测图像块的重要度信息,以及,基于每个所述初始预测图像块对应的重要度信息,对第三数量的初始预测图像块分别对应的图像块特征进行聚合,得到第四数量的目标预测图像块以及每个目标预测图像块对应的第一预测图像特征;
将所述样本图像输入至预先训练好的教师神经网络,并利用所述教师神经网络对所述样本图像进行处理,确定所述教师神经网络中的每个数据处理区块输出的第二预测图像特征,以及确定所述样本图像对应的第二预测分类信息;所述教师神经网络中的数据处理区块包括目标编码模块;
基于所述第一预测图像特征、所述第二预测图像特征、所述第一预测分类信息和所述第二预测分类信息,确定所述待训练的剪枝神经网络的预测损失,并利用所述预测损失对所述待训练的剪枝神经网络进行迭代训练,直至满足预设训练截止条件,得到训练好的剪枝神经网络。
在一种可能的实施方式中,所述训练模块705,用于针对所述待训练的剪枝神经网络中的每个所述数据处理区块,基于所述数据处理区块对应的第一预测图像特征和第二预测图像特征,确定所述数据处理区块对应的第一损失;
基于所述第一预测分类信息和所述第二预测分类信息,确定所述待训练的剪枝神经网络的第二损失;
基于每个所述数据处理区块对应的第一损失和所述第二损失,确定所述预测损失。
在一种可能的实施方式中,所述训练模块705,用于基于各个第一预测图像特征,确定第三数量的还原预测图像特征;所述第三数量为所述样本图像对应的初始预测图像块的数量;
基于所述第三数量的还原预测图像特征和所述第二预测图像特征,确定所述数据处理区块对应的第一损失。
在一种可能的实施方式中,所述训练模块705,用于对所述第一预测图像特征对应的第二特征矩阵进行归一化处理,得到归一化处理后的第一预测编码特征,并对所述第一预测编码特征对应的特征矩阵执行矩阵维度转换操作,得到转换后的第三特征矩阵;
对所述转换后的第三特征矩阵进行全连接映射处理,得到第二预测编码特征,并对所述第二预测编码特征进行非线性变换,得到第三预测编码特征;
对所述第三预测编码特征对应的特征矩阵进行全连接映射处理,以及对全连接映射处理后的特征矩阵执行矩阵维度转换操作,得到第四特征矩阵,并基于所述第四特征矩阵,确定所述第三数量的还原预测图像特征,其中,所述第四特征矩阵对应的矩阵维度中的特征数量为所述第三数量,所述第四特征矩阵对应的矩阵维度中的特征维度为:初始预测图像块的图像块特征对应的特征维度的数值。
在一种可能的实施方式中,所述训练模块705,用于对所述第四特征矩阵进行归一化处理,并对归一化处理后的所述第四特征矩阵进行多次全连接映射,得到第五特征矩阵;
基于所述第五特征矩阵和所述第四特征矩阵,确定所述第三数量的还原预测图像特征。
在一种可能的实施方式中,所述训练模块705,用于基于所述第三数量的还原预测图像特征和所述第二预测图像特征,确定第一子损失;
对所述还原预测图像特征进行特征处理操作,得到所述还原预测图像特征对应的第一目标预测特征,并确定所述第一目标预测特征对应的第三预测分类信息;
对所述第二预测图像特征进行特征处理操作,得到所述第二预测图像特征对应的第二目标预测特征,并确定所述第二目标预测特征对应的第四预测分类信息;
基于所述第三预测分类信息和所述第四预测分类信息,确定第二子损失;并基于所述第一子损失和所述第二子损失,确定所述第一损失。
在一种可能的实施方式中,所述训练模块705,用于基于所述第三预测分类信息和所述第三预测分类信息对应的第一标准分类信息,确定第三子损失;
基于所述第四预测分类信息和所述第四预测分类信息对应的第二标准分类信息,确定第四子损失;
基于所述第三子损失和所述第四子损失,确定所述第二子损失。
在一种可能的实施方式中,所述训练模块705,用于基于所述第一预测分类信息和所述样本图像对应的标准分类信息,确定所述待训练的剪枝神经网络对应的概率预测损失;
基于每个所述数据处理区块对应的第一损失、所述第二损失和所述概率预测损失,确定所述预测损失。
在一种可能的实施方式中,所述训练模块705,用于利用预先训练好的卷积神经网络,对所述样本图像进行特征处理,确定样本图像对应的第五预测分类信息;
基于所述第五预测分类信息和所述第一预测分类信息,确定所述待训练的剪枝神经网络的第三损失;
基于所述第一损失、所述第二损失和所述第三损失,确定所述预测损失。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例还提供了一种计算机设备,如图8所示,为本公开实施例提供的一种计算机设备结构示意图,包括:
处理器81和存储器82;所述存储器82存储有处理器81可执行的机器可读指令,处理器81用于执行存储器82中存储的机器可读指令,所述机器可读指令被处理器81执行时,处理器81执行下述步骤:S101:基于待处理的目标图像,确定目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征;S102:针对每个初始图像块,基于初始图像块的图像块特征,确定初始图像块对应的重要度信息;S103:基于每个初始图像块对应的重要度信息,对第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;第二数量小于第一数量以及S104:基于每个目标图像块对应的图像块特征,确定目标图像的图像分类结果。
上述存储器82包括内存821和外部存储器822;这里的内存821也称内存储器,用于暂时存放处理器81中的运算数据,以及与硬盘等外部存储器822交换的数据,处理器81通过内存821与外部存储器822进行数据交换。
上述指令的具体执行过程可以参考本公开实施例中所述的图像分类方法的步骤,此处不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的图像分类方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的图像分类方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的图像分类方法的步骤,具体可参见上述方法实施例,在此不再赘述。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (20)

1.一种图像分类方法,其特征在于,包括:
基于待处理的目标图像,确定所述目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征;
针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息;
基于每个所述初始图像块对应的重要度信息,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;所述第二数量小于所述第一数量;
基于每个所述目标图像块对应的图像块特征,确定所述目标图像的图像分类结果。
2.根据权利要求1所述的方法,其特征在于,所述针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息,包括:
针对每个所述初始图像块,对所述初始图像块对应的图像块特征进行编码处理,得到所述初始图像块对应的编码特征;
基于每个所述初始图像块对应的编码特征,确定所述初始图像块对应的重要度信息。
3.根据权利要求2所述的方法,其特征在于,所述基于每个所述初始图像块对应的编码特征,确定所述初始图像块的重要度信息,包括:
对所述每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征;
对所述归一化处理后的编码特征进行全连接映射处理,得到第一中间特征;其中,所述第一中间特征对应的特征维度小于所述编码特征对应的特征维度;
基于每个所述初始图像块对应的第一中间特征,确定每个所述初始图像块对应的重要度信息。
4.根据权利要求3所述的方法,其特征在于,所述对所述每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征,包括:
基于每个所述初始图像块对应的编码特征,确定每个所述初始图像块对应的归一化权重;
基于每个所述初始图像块对应的归一化权重,对所述每个初始图像块对应的编码特征进行归一化处理,得到归一化处理后的编码特征。
5.根据权利要求3或4所述的方法,其特征在于,所述对所述归一化处理后的编码特征进行全连接映射处理,得到第一中间特征,包括:
基于所述归一化处理后的编码特征,确定所述归一化处理后的编码特征对应的维度压缩权重;
按照所述维度压缩权重,对所述归一化处理后的编码特征进行全连接映射处理,得到所述第一中间特征。
6.根据权利要求3至5任一项所述的方法,其特征在于,所述基于每个所述初始图像块对应的第一中间特征,确定每个所述初始图像块对应的重要度信息,包括:
对每个所述第一中间特征进行非线性变换,并对非线性变换后的所述第一中间特征进行全连接映射处理,得到每个所述第一中间特征对应的第二中间特征;
基于每个所述第二中间特征,确定每个所述初始图像块对应的重要度信息。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述基于每个所述初始图像块对应的重要度信息,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征,包括:
基于每个所述初始图像块对应的重要度信息,确定所述重要度信息对应的第一特征矩阵,所述第一特征矩阵对应的矩阵维度为N×M,N为所述第一数量,M为所述第二数量;
对所述第一特征矩阵执行矩阵维度转换操作,得到矩阵维度为M×N的第二特征矩阵;
基于所述第二特征矩阵和所述初始图像块的图像块特征对应的图像块矩阵,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到所述第二数量的目标图像块以及每个目标图像块对应的图像块特征。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述基于每个所述目标图像块对应的图像块特征,确定所述目标图像的图像分类结果,包括:
将所述目标图像块作为新的初始图像块,将新的初始图像块的数量作为新的第一数量,并返回所述针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息步骤,直到返回次数达到预设值的情况下,基于最后确定的各个目标图像块对应的图像块特征,确定所述目标图像对应的概率分类信息;
基于所述概率分类信息,确定所述目标图像的图像分类结果。
9.根据权利要求8所述的方法,其特征在于,基于所述待处理的目标图像,确定所述目标图像的图像分类结果的步骤为预先训练好的剪枝神经网络执行的;
所述方法还包括:
获取样本图像;
将所述样本图像输入至待训练的剪枝神经网络,利用所述待训练的剪枝神经网络对所述样本图像进行处理,确定每个数据处理区块输出的第一预测图像特征,以及确定所述样本图像对应的第一预测分类信息;所述数据处理区块用于基于样本图像对应的初始预测图像块的图像块特征,确定所述初始预测图像块的重要度信息,以及,基于每个所述初始预测图像块对应的重要度信息,对第三数量的初始预测图像块分别对应的图像块特征进行聚合,得到第四数量的目标预测图像块以及每个目标预测图像块对应的第一预测图像特征;
将所述样本图像输入至预先训练好的教师神经网络,并利用所述教师神经网络对所述样本图像进行处理,确定所述教师神经网络中的每个数据处理区块输出的第二预测图像特征,以及确定所述样本图像对应的第二预测分类信息;所述教师神经网络中的数据处理区块包括目标编码模块;
基于所述第一预测图像特征、所述第二预测图像特征、所述第一预测分类信息和所述第二预测分类信息,确定所述待训练的剪枝神经网络的预测损失,并利用所述预测损失对所述待训练的剪枝神经网络进行迭代训练,直至满足预设训练截止条件,得到训练好的剪枝神经网络。
10.根据权利要求9所述的方法,其特征在于,所述基于所述第一预测图像特征、所述第二预测图像特征、所述第一预测分类信息和所述第二预测分类信息,确定所述待训练的剪枝神经网络的预测损失,包括:
针对所述待训练的剪枝神经网络中的每个所述数据处理区块,基于所述数据处理区块对应的第一预测图像特征和第二预测图像特征,确定所述数据处理区块对应的第一损失;
基于所述第一预测分类信息和所述第二预测分类信息,确定所述待训练的剪枝神经网络的第二损失;
基于每个所述数据处理区块对应的第一损失和所述第二损失,确定所述预测损失。
11.根据权利要求10所述的方法,其特征在于,所述基于所述数据处理区块对应的第一预测图像特征和第二预测图像特征,确定所述数据处理区块对应的第一损失,包括:
基于各个第一预测图像特征,确定第三数量的还原预测图像特征;所述第三数量为所述样本图像对应的初始预测图像块的数量;
基于所述第三数量的还原预测图像特征和所述第二预测图像特征,确定所述数据处理区块对应的第一损失。
12.根据权利要求11所述的方法,其特征在于,所述基于各个第一预测图像特征,确定第三数量的还原预测图像特征,包括:
对所述第一预测图像特征对应的第二特征矩阵进行归一化处理,得到归一化处理后的第一预测编码特征,并对所述第一预测编码特征对应的特征矩阵执行矩阵维度转换操作,得到转换后的第三特征矩阵;
对所述转换后的第三特征矩阵进行全连接映射处理,得到第二预测编码特征,并对所述第二预测编码特征进行非线性变换,得到第三预测编码特征;
对所述第三预测编码特征对应的特征矩阵进行全连接映射处理,以及对全连接映射处理后的特征矩阵执行矩阵维度转换操作,得到第四特征矩阵,并基于所述第四特征矩阵,确定所述第三数量的还原预测图像特征,其中,所述第四特征矩阵对应的矩阵维度中的特征数量为所述第三数量,所述第四特征矩阵对应的矩阵维度中的特征维度为:初始预测图像块的图像块特征对应的特征维度的数值。
13.根据权利要求12所述的方法,其特征在于,所述基于所述第四特征矩阵,确定所述第三数量的还原预测图像特征,包括:
对所述第四特征矩阵进行归一化处理,并对归一化处理后的所述第四特征矩阵进行多次全连接映射,得到第五特征矩阵;
基于所述第五特征矩阵和所述第四特征矩阵,确定所述第三数量的还原预测图像特征。
14.根据权利要求11至13任一项所述的方法,其特征在于,所述基于所述第三数量的还原预测图像特征和所述第二预测图像特征,确定所述数据处理区块对应的第一损失,包括:
基于所述第三数量的还原预测图像特征和所述第二预测图像特征,确定第一子损失;
对所述还原预测图像特征进行特征处理操作,得到所述还原预测图像特征对应的第一目标预测特征,并确定所述第一目标预测特征对应的第三预测分类信息;
对所述第二预测图像特征进行特征处理操作,得到所述第二预测图像特征对应的第二目标预测特征,并确定所述第二目标预测特征对应的第四预测分类信息;
基于所述第三预测分类信息和所述第四预测分类信息,确定第二子损失;并基于所述第一子损失和所述第二子损失,确定所述第一损失。
15.根据权利要求14所述的方法,其特征在于,所述基于所述第三预测分类信息和所述第四预测分类信息,确定第二子损失,包括:
基于所述第三预测分类信息和所述第三预测分类信息对应的第一标准分类信息,确定第三子损失;
基于所述第四预测分类信息和所述第四预测分类信息对应的第二标准分类信息,确定第四子损失;
基于所述第三子损失和所述第四子损失,确定所述第二子损失。
16.根据权利要求10至15任一项所述的方法,其特征在于,所述基于每个所述数据处理区块对应的第一损失和所述第二损失,确定所述预测损失,包括:
基于所述第一预测分类信息和所述样本图像对应的标准分类信息,确定所述待训练的剪枝神经网络对应的概率预测损失;
基于每个所述数据处理区块对应的第一损失、所述第二损失和所述概率预测损失,确定所述预测损失。
17.根据权利要求10至16任一项所述的方法,其特征在于,所述基于每个所述数据处理区块对应的第一损失和所述第二损失,确定所述预测损失,包括:
利用预先训练好的卷积神经网络,对所述样本图像进行特征处理,确定样本图像对应的第五预测分类信息;
基于所述第五预测分类信息和所述第一预测分类信息,确定所述待训练的剪枝神经网络的第三损失;
基于所述第一损失、所述第二损失和所述第三损失,确定所述预测损失。
18.一种图像分类装置,其特征在于,包括:
第一确定模块,用于基于待处理的目标图像,确定所述目标图像对应的第一数量的初始图像块以及每个初始图像块对应的图像块特征;
第二确定模块,用于针对每个所述初始图像块,基于所述初始图像块的图像块特征,确定所述初始图像块对应的重要度信息;
聚合模块,用于基于每个所述初始图像块对应的重要度信息,对所述第一数量的初始图像块分别对应的图像块特征进行聚合,得到第二数量的目标图像块以及每个目标图像块对应的图像块特征;所述第二数量小于所述第一数量;
第三确定模块,用于基于每个所述目标图像块对应的图像块特征,确定所述目标图像的图像分类结果。
19.一种计算机设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述处理器用于执行所述存储器中存储的机器可读指令,所述机器可读指令被所述处理器执行时,所述处理器执行如权利要求1至17任意一项所述的图像分类方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机设备运行时,所述计算机设备执行如权利要求1至17任意一项所述的图像分类方法的步骤。
CN202111275615.1A 2021-10-29 2021-10-29 一种图像分类方法、装置、计算机设备和存储介质 Pending CN113989566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111275615.1A CN113989566A (zh) 2021-10-29 2021-10-29 一种图像分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111275615.1A CN113989566A (zh) 2021-10-29 2021-10-29 一种图像分类方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113989566A true CN113989566A (zh) 2022-01-28

Family

ID=79744745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111275615.1A Pending CN113989566A (zh) 2021-10-29 2021-10-29 一种图像分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113989566A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998634A (zh) * 2022-08-03 2022-09-02 广州此声网络科技有限公司 图像处理方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998634A (zh) * 2022-08-03 2022-09-02 广州此声网络科技有限公司 图像处理方法、装置、计算机设备和存储介质
CN114998634B (zh) * 2022-08-03 2022-11-15 广州此声网络科技有限公司 图像处理方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN110070183B (zh) 一种弱标注数据的神经网络模型训练方法及装置
Gao et al. Global second-order pooling convolutional networks
CN110084216B (zh) 人脸识别模型训练和人脸识别方法、***、设备及介质
Zhang et al. Self-supervised convolutional subspace clustering network
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
WO2021042828A1 (zh) 神经网络模型压缩的方法、装置、存储介质和芯片
CN108780519B (zh) 卷积神经网络的结构学习
KR102545128B1 (ko) 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
Zhou et al. Stacked extreme learning machines
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN111507378A (zh) 训练图像处理模型的方法和装置
CN107844784A (zh) 人脸识别方法、装置、计算机设备和可读存储介质
CN110929622A (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
CN110222718B (zh) 图像处理的方法及装置
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
CN112288086A (zh) 一种神经网络的训练方法、装置以及计算机设备
CN112138403B (zh) 交互行为的识别方法和装置、存储介质及电子设备
Chu et al. Stacked Similarity-Aware Autoencoders.
CN113128287A (zh) 训练跨域人脸表情识别模型、人脸表情识别的方法及***
CN113536970A (zh) 一种视频分类模型的训练方法及相关装置
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
EP4318322A1 (en) Data processing method and related device
CN116844041A (zh) 一种基于双向卷积时间自注意力机制的耕地提取方法
WO2022063076A1 (zh) 对抗样本的识别方法及装置
CN113989566A (zh) 一种图像分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination