CN117611933A - 基于分类网络模型的图像处理方法、装置、设备和介质 - Google Patents
基于分类网络模型的图像处理方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN117611933A CN117611933A CN202410095417.4A CN202410095417A CN117611933A CN 117611933 A CN117611933 A CN 117611933A CN 202410095417 A CN202410095417 A CN 202410095417A CN 117611933 A CN117611933 A CN 117611933A
- Authority
- CN
- China
- Prior art keywords
- network model
- training
- image
- classification network
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 191
- 238000012545 processing Methods 0.000 claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000010276 construction Methods 0.000 claims abstract description 27
- 238000012795 verification Methods 0.000 claims description 47
- 238000012360 testing method Methods 0.000 claims description 36
- 238000012546 transfer Methods 0.000 claims description 27
- 230000000750 progressive effect Effects 0.000 claims description 24
- 238000003062 neural network model Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 description 14
- 241000894007 species Species 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 241000271566 Aves Species 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000003746 feather Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000272201 Columbiformes Species 0.000 description 1
- 241001137251 Corvidae Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请属于工业互联网技术领域,具体涉及一种基于分类网络模型的图像处理方法、装置、设备和介质。根据获取到的模型构建参数集和历史训练数据集,先构建具有多个先后顺序阶段的分类网络模型,然后使用分类网络模型对重新获取到的原始图像进行处理,得到原始图像的处理结果。该方法解决了Vision Transformer模型在图像分类任务中无法准确区分同一类别中不同物种的图像元素的问题,从而提高了图像分类处理的准确率。同时,该方法还提高了分类网络模型的泛化能力,从而使其能够适应各种不同的图像处理任务。
Description
技术领域
本申请属于工业互联网技术领域,具体涉及一种基于分类网络模型的图像处理方法、装置、设备和介质。
背景技术
随着深度学习技术的不断进步,基于CNN的图像分类方法取得了显著的成果。然而,CNN在处理图像的空间信息方面存在局限性,对于细粒度图像分类任务存在一定的挑战。为了解决这个问题,基于Vision Transformer(简称“ViT”)的细粒度图像分类方法应运而生。Vision Transformer模型采用自注意力机制,能够全面地考虑图像中的上下文信息,从而在细粒度图像分类任务中表现出色。
然而,尽管基于Vision Transformer的细粒度图像分类方法在某些任务中展现出了一定的优势,但它们仍然存在一些不足之处。例如,由于Vision Transformer模型中的自注意力机制对图像中的像素位置信息并不敏感,因此在细粒度图像分类中可能会忽略一些关键的细微差别,从而导致错误的识别。
因此,如何解决Vision Transformer模型在图像分类任务中无法准确区分同一类别中不同物种的图像元素的问题。
发明内容
本申请提供了一种基于分类网络模型的图像处理方法、装置、设备和介质,用于解决Vision Transformer模型在图像分类任务中无法准确区分同一类别中不同物种的图像元素的问题。
第一方面,本申请提供一种基于分类网络模型的图像处理方法,包括:
获取模型构建数据集,所述模型构建数据集包括:模型构建参数集、历史训练数据集;
根据所述模型构建参数集和所述历史训练数据集,构建分类网络模型,所述分类网络模型包括:多个具有先后顺序的训练阶段;
实时获取原始图像,并根据所述多个训练阶段,对所述原始图像进行像素处理,得到多个待处理图像;
根据所述多个待处理图像和所述分类网络模型,确定所述原始图像的处理结果。
可选的,所述根据所述模型构建参数集和所述历史训练数据集,构建分类网络模型,包括:
根据所述模型构建参数集,确定多个候选模型参数,所述候选模型参数包括:通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法;
根据所述通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法,构建待训练的分类网络模型;
根据所述历史训练数据集,对所述待训练的分类网络模型进行训练,得到训练完成的分类网络模型。
可选的,所述历史训练数据集包括:多个训练图像和与每个训练图像对应的图像参数,所述根据所述历史训练数据集,对所述待训练的分类网络模型进行训练,得到训练完成的分类网络模型,包括:
对所述待训练的分类网络模型进行解析处理,得到与所述分类网络模型对应的多个训练阶段;
根据所述多个训练阶段和多个图像参数,对所述待训练的分类网络模型进行训练,得到所述训练完成的分类网络模型。
可选的,所述根据所述多个训练阶段和多个图像参数,对所述待训练的分类网络模型进行训练,得到所述训练完成的分类网络模型之后,所述方法还包括:
获取测试数据集,所述测试数据集包括:多个测试图像;
将所述多个测试图像依次输入至所述训练完成的分类网络模型,得到与每个验证图像对应的验证结果;
判断多个验证结果是否均达到预设验证结果;
在所述多个验证结果均达到预设验证结果时,确定所述训练完成的分类网络模型的使用状态为可用状态。
可选的,所述根据所述多个训练阶段,对所述原始图像进行像素处理,得到多个待处理图像,包括:
根据所述多个训练阶段,确定每个训练阶段的图像参数标准;
根据所述原始图像,确定所述原始图像的目标图像参数;
根据多个图像参数标准,对所述目标图像参数进行像素处理,得到所述多个待处理图像。
可选的,所述根据所述多个待处理图像和所述分类网络模型,确定所述原始图像的处理结果,包括:
根据所述渐进式训练算法,对所述多个待处理图像分别进行特征处理,得到与所述每个待处理图像对应的特征结果;
根据所述注意力转移算法,对多个特征结果分别进行区分处理,得到与所述每个训练阶段对应的目标特征结果;
采用所述目标分类器,对多个目标特征结果分别进行解析处理,得到与每个目标特征结果对应的分类损失;
根据所述多个分类损失和所述多个目标特征结果,确定所述处理结果。
可选的,所述根据所述注意力转移算法,对多个特征结果分别进行区分处理,得到与所述每个训练阶段对应的目标特征结果,所述方法还包括:
根据多个特征结果,确定与所述每个阶段对应的特征向量;
根据所述注意力转移算法,对多个特征向量进行区分处理,得到所述目标特征结果。
第二方面,本申请提供一种基于分类网络模型的图像处理装置,包括:
获取模块,用于获取模型构建数据集,所述模型构建数据集包括:模型构建参数集、历史训练数据集;
构建模块,用于根据所述模型构建参数集和所述历史训练数据集,构建分类网络模型,所述分类网络模型包括:多个具有先后顺序的训练阶段;
所述获取模块,还用于获取原始图像;
处理模块,用于根据所述多个训练阶段,对所述原始图像进行像素处理,得到多个待处理图像;
确定模块,用于根据所述多个待处理图像和所述分类网络模型,确定所述原始图像的处理结果。
可选的,所述确定模块,还用于根据所述模型构建参数集,确定多个候选模型参数,所述候选模型参数包括:通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法;
所述构建模块,具体用于根据所述通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法,构建待训练的分类网络模型;
所述装置还包括:训练模块;
所述训练模块,用于根据所述历史训练数据集,对所述待训练的分类网络模型进行训练,得到训练完成的分类网络模型。
可选的,所述处理模块,还用于对所述待训练的分类网络模型进行解析处理,得到与所述分类网络模型对应的多个训练阶段;
所述训练模块,还用于根据所述多个训练阶段和多个图像参数,对所述待训练的分类网络模型进行训练,得到所述训练完成的分类网络模型。
可选的,所述获取模块,还用于获取测试数据集,所述测试数据集包括:多个测试图像;
所述装置还包括:输入模块;
所述输入模块,用于将所述多个测试图像依次输入至所述训练完成的分类网络模型,得到与每个验证图像对应的验证结果;
所述装置还包括:判断模块;
所述判断模块,用于判断多个验证结果是否均达到预设验证结果;
所述确定模块,用于在所述多个验证结果均达到预设验证结果时,确定所述训练完成的分类网络模型的使用状态为可用状态。
可选的,所述确定模块,还用于根据所述多个训练阶段,确定每个训练阶段的图像参数标准;
所述确定模块,还用于根据所述原始图像,确定所述原始图像的目标图像参数;
所述处理模块,具体用于根据多个图像参数标准,对所述目标图像参数进行像素处理,得到所述多个待处理图像。
可选的,所述处理模块,还用于根据所述渐进式训练算法,对所述多个待处理图像分别进行特征处理,得到与所述每个待处理图像对应的特征结果;
所述处理模块,还用于根据所述注意力转移算法,对多个特征结果分别进行区分处理,得到与所述每个训练阶段对应的目标特征结果;
所述处理模块,还用于采用所述目标分类器,对多个目标特征结果分别进行解析处理,得到与每个目标特征结果对应的分类损失;
所述确定模块,具体用于根据所述多个分类损失和所述多个目标特征结果,确定所述处理结果。
可选的,所述确定模块,还用于根据多个特征结果,确定与所述每个阶段对应的特征向量;
所述处理模块,具体用于根据所述注意力转移算法,对多个特征向量进行区分处理,得到所述目标特征结果。
第三方面,本申请提供一种基于分类网络模型的图像处理设备,包括:
存储器;
处理器;
其中,所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如上述第一方面及第一方面各种可能的实现方式所述的基于分类网络模型的图像处理方法。
第四方面,本申请提供一种计算机存储介质,其上存储有计算机执行指令,所述计算机执行指令被处理器执行以实现如上述第一方面及第一方面各种可能的实现方式所述的基于分类网络模型的图像处理方法。
本申请提供的基于分类网络模型的图像处理方法,根据获取到的模型构建参数集和历史训练数据集,先构建具有多个先后顺序阶段的分类网络模型,然后使用分类网络模型对重新获取到的原始图像进行处理,得到原始图像的处理结果。该方法解决了VisionTransformer模型在图像分类任务中无法准确区分同一类别中不同物种的图像元素的问题,从而提高了图像分类处理的准确率。同时,该方法还提高了分类网络模型的泛化能力,从而使其能够适应各种不同的图像处理任务。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请提供的基于分类网络模型的图像处理方法的流程图一;
图2为本申请提供的基于分类网络模型的图像处理方法的流程图二;
图3为本申请提供的基于分类网络模型的图像处理方法的流程图三;
图4是本申请提供的基于分类网络模型的图像处理装置的结构示意图;
图5是本申请提供的基于分类网络模型的图像处理设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。
本申请实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
首先,对本申请涉及的名称进行解释说明。
Vision Transformer模型:简称ViT模型,ViT模型是一种应用于视觉任务的Transformer模型。它直接将标准的Transformer结构应用于图像,并对整个图像分类流程进行最少的修改。Vision Transformer模型将整幅图像拆分成小图像块,然后将这些小图像块的线性嵌入序列作为Transformer的输入送入网络,使用监督学习的方式进行图像分类的训练。
Softmax分类器:用于将输入的特征向量映射到预设类别上的概率分布。softmax函数的作用是将原始的得分或概率值转换成归一化的概率分布,使得每个类别的概率之和为1。在图像分类任务中,softmax分类器可以将图像特征映射到不同的类别上,根据图像特征与各个类别的相似度,计算出每个类别的概率值,最终将图像分类到概率值最大的类别上。在Vision Transformer中,softmax分类器可以对图像进行分类,并根据不同的特征提取方法和训练策略,提高分类的准确率和泛化能力。
渐进式算法(Progressive Algorithm):通常指的是一类能够逐步、递进地解决问题或优化目标的算法。渐进式算法在训练神经网络时,可以按照一定的规律和策略,逐步调整网络结构或训练数据,使得模型能够逐步学习到更加复杂和细致的特征表示。这种方法可以有效地避免在训练初期就出现过拟合或梯度消失等问题,同时也可以在计算资源和时间有限的情况下,实现更加高效的模型训练。
注意力算法:用于帮助神经网络模型在处理大量数据时更好地聚焦于相关信息。在Vision Transformer中,注意力转移模块可以被视为一种特殊的注意力算法。它通过获取当前阶段网络关注的最显著部分的特征图,然后将特征图最显著部分抑制或遮挡后输入到下一阶段,强迫后续阶段去关注其他不显眼但有辨别性的部分。这样可以有效地提取到对细粒度图像分类有帮助的不显著特征。
随着深度学习技术的不断进步,基于卷积神经网络(CNN)的图像分类方法取得了显著的成果。然而,CNN在处理图像的空间信息方面存在局限性,使其在细粒度图像分类任务中面临挑战。为了解决这一问题,基于Vision Transformer的细粒度图像分类方法应运而生。由于采用了自注意力机制,Vision Transformer能够全面地考虑图像中的上下文信息,从而在细粒度图像分类任务中展现出优秀的性能。
然而,尽管基于Vision Transformer的细粒度图像分类方法在某些任务中展现出了一定的优势,但它们仍然存在一些不足之处。例如,由于Vision Transformer模型中的自注意力机制对图像中的像素位置信息并不敏感,因此在细粒度图像分类中可能会忽略一些关键的细微差别,从而导致错误的识别。
因此,如何解决Vision Transformer模型在图像分类任务中无法准确区分同一类别中不同物种的图像元素的问题。
针对上述问题,本申请提供一种基于分类网络模型的图像处理方法。根据获取到的模型构建参数集和历史训练数据集,先构建具有多个先后顺序阶段的分类网络模型,然后使用分类网络模型对重新获取到的原始图像进行处理,得到原始图像的处理结果。该方法解决了Vision Transformer模型在图像分类任务中无法准确区分同一类别中不同物种的图像元素的问题,从而提高了图像分类处理的准确率。同时,该方法还提高了分类网络模型的泛化能力,从而使其能够适应各种不同的图像处理任务。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的基于分类网络模型的图像处理方法的流程图一。如图1所示,本实施例提供的基于分类网络模型的图像处理方法,包括:
S101:获取模型构建数据集,所述模型构建数据集包括:模型构建参数集、历史训练数据集。
其中,由于模型构建数据集包括了模型构建参数集和历史训练数据集,因此,通过获取模型构建数据集,就意味着可以得到模型训练所需的各种参数配置和已有的训练数据集。这些参数配置和训练数据集可以用来构建一个具有图像分类处理功能的分类网络模型。
可以理解的,获取模型构建数据集是构建新分类网络模型的前提,它提供了必要的参数和数据支持,以便能够快速地构建出性能良好的分类网络模型,进而可以节省大量的时间和成本,同时也可以利用已有的训练数据来提高模型的处理性能。
不同的获取目标会存在多种形式的获取方式。当获取目标为模型构建参数集时,获取方式例如可以是通过访问在线资源平台(例如GitHub、Kaggle、OpenAI等)后,从平台推荐结果中确定得到的,也可以是询问专家后获取到的,还可以是访问在线开源项目后获取到的。
而当获取目标为历史训练数据集时,获取方式例如可以是从数据存储库中得到的,还可以是从在线资源平台中得到的。
在该步骤中,例如可以先分别获取模型构建参数集和历史训练数据集,然后,将模型构建参数集和历史训练数据集统一归纳到模型构建数据集。
S102:根据所述模型构建参数集和所述历史训练数据集,构建分类网络模型,所述分类网络模型包括:多个具有先后顺序的训练阶段。
其中,在获得了模型构建参数集和历史训练数据集之后,可以将这两个数据集结合起来,进行一系列的处理和分析,从而构建出可以使用的分类模型网络。
可以理解的,由于模型构建参数集包括了模型训练所需的各种参数配置(例如参数配置包括,神经网络模型结构、分类器以及模型处理算法等)和已有的训练数据(例如,已有的训练数据包括:多个历史训练数据),因此,通过综合考虑模型构建参数集中的各种参数配置和多个历史训练数据,可以共同构建出具有图像分类处理功能的分类网络模型。
由于分类网络模型是根据多个配置参数构建的,因此当多个配置参数中包括了具有多个训练阶段的神经网络模型时,就可以确定分类网络模型同样也包括对多个具有先后顺序的训练阶段。
S103:实时获取原始图像,并根据所述多个训练阶段,对所述原始图像进行像素处理,得到多个待处理图像。
其中,通过获取原始图像,就意味着需要根据当前得到的图像,确定出图像中各种具体的图像元素的分类结果。
获取原始图像的方式例如可以是通过摄像装置获取到的,还可以是通过扫描装置获取到的,也可以是使用由分类网络模型集成的图像应用APP获取到的。本申请对此不做特殊限制。
由于训练完成的分类网络模型不仅具有多个训练阶段,还具有对输入图像进行准确分类处理的功能,因此,还需要在确定原始图像之后,还根据分类网络模型的多个训练阶段,对原始图像进行像素处理,得到与每个训练阶段对应的多个待处理图像。
可以理解的,当确定了训练完成的分类网络模型具有多个训练阶段,就可以确定不同的训练阶段具有不同的图像处理像素,因此,当得到了原始图像时,还应该根据每个训练阶段的图像处理像素,对分类网络模型需要接收到的原始图像进行像素处理,得到多个待处理图像,以对输入的原始图像进行准确识别和分类处理。
S104:根据所述多个待处理图像和所述分类网络模型,确定所述原始图像的处理结果。
其中,在得到了多个待处理图像时,通过将多个待处理图像和分类网络模型进行综合考虑,就可以得到对原始图像的分类结果。
可以理解的,由于原始图像中可能包含多个图像元素,每个都有其独特的特征。这些特征可能是颜色、形状、纹理、大小等。而在某些情况下,这些图像元素可能具有一些相似的特征,但它们之间仍然存在细微的差异。
因此,为了得到原始图像中多个图像元素的准确分类结果,需要在得到了多个待处理图像时,将多个待处理图像输入到分类网络模型中,从而实现对原始图像中的多个图像元素进行准确分类。
例如,假设当前有一张动物图片,其中包含了多种不同的鸟类,如鹰、鸽子和喜鹊。这些鸟类都属于鸟类这个大类,但它们是不同的物种。因此,为了准确地将这些鸟类进行分类,需要先根据动物图片确定多个待处理动物图像,然后将多个待处理动物图像输入到预先训练好的分类网络模型中。该模型会根据图像的特征和模式,将每一种鸟类正确地分类到对应的类别中,从而输出准确的分类结果,以便展示给用户。
本实施例提供的基于分类网络模型的图像处理方法,首先,获取模型构建参数集和历史训练数据集,其次,根据获取到的模型构建参数集和历史训练数据集,构建具有多个先后顺序阶段的分类网络模型,然后,对重新获取到的原始图像进行像素处理,得到多个待处理图像,最后,使用分类网络模型对多个待处理图像进行处理,得到原始图像的处理结果。该方法解决的了现有技术存在的Vision Transformer模型无法对输入图像进行准确细粒度分类的问题。同时,该方法还提高了分类网络模型的泛化能力,从而使其能够适应各种不同的图像处理任务。
图2为本申请实施例提供的基于分类网络模型的图像处理方法的流程图二。如图2所示,本实施例是在图1实施例的基础上,对分类网络模型的训练过程进行详细说明,本实施例提供的基于分类网络模型的图像处理方法,包括:
S201:获取模型构建数据集,所述模型构建数据集包括:模型构建参数集、历史训练数据集。
其中,步骤S201的解释说明和上述步骤S101类似,在此不再赘述。
S202:根据所述模型构建参数集,确定多个候选模型参数,所述候选模型参数包括:通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法。
其中,通用神经网络模型例如可以为vision Transformer神经网络模型。目标分类器例如可以为softmax分类器。
通过模型构建参数集来确定多个候选模型参数的目的是为了能够得到对图像进行分类处理的模型。
可以理解的,通用神经网络模型(如Vision Transformer神经网络模型)提供了对图像数据的强大表示能力,而目标分类器(如softmax分类器)则用于将图像分类到预定的类别中。注意力转移算法和渐进式训练算法等其他参数可以帮助优化模型的性能,提高图像分类的准确性和效率。
因此,在得到了模型构建参数集时,为了能够得到对图像进行分类处理的模型,需要根据模型构建参数集,确定多个候选模型参数。
S203:根据所述通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法,构建待训练的分类网络模型。
其中,构建一个待训练的分类网络模型目的是为了训练出一个适合对图像进行准确分类的网络模型。
可以理解的,通用神经网络模型为图像数据提供了强大的表示能力。它们可以从原始图像中提取复杂的特征,使模型能够更好地理解和分类图像内容。目标分类器则负责将图像分类到预定的类别中,确保模型能够根据输入的图像数据进行准确的分类。
注意力转移算法有助于模型更好地聚焦于图像中的关键区域,突出重要的特征,从而提高分类的准确性。而渐进式训练算法则用于优化模型的训练过程,使模型能够逐步适应不同的数据分布,提高分类的鲁棒性。
因此,通过结合通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法,就可以训练出一个适合对图像进行准确分类的网络模型。
S204:对所述待训练的分类网络模型进行解析处理,得到与所述分类网络模型对应的多个训练阶段。
其中,当确定了分类网络模型的组成部分包括通用神经网络模型时,可以根据通用神经网络模型本身具有多个训练阶段的特点,来规划分类网络模型的训练阶段。
可以理解的,通用神经网络模型(如Vision Transformer模型)在模型训练过程中通常会包含多个阶段。因此,通过将这些通用模型的训练阶段映射到分类网络模型的训练过程中,就可以确定分类网络模型的训练过程被划分为多个训练阶段。
S205:所述历史训练数据集包括:多个训练图像和与每个训练图像对应的图像参数,根据所述多个训练阶段和多个图像参数,对所述待训练的分类网络模型进行训练,得到所述训练完成的分类网络模型。
其中,训练的目的是为了使分类网络模型能够根据输入的数据自动学习到分类的规则和特征,从而在未知数据上进行有效的分类。
可以理解的,在得到了待训练的分类网络模型时,由于该模型还没有从任何数据中学习过,所以它还不具备对图像进行准确分类的能力。因此,需要使用历史训练数据集对待训练的分类网络模型进行训练,以使分类网络模型能够在未知数据上进行有效分类。
而在利用历史训练数据集对待训练的模型进行训练时,待训练模型会不断地学习历史数据中的模式和规律,逐步优化自身的参数设置,从而更好地对未知数据进行分类,直至得到训练完成的分类网络模型。
S206:获取测试数据集,所述测试数据集包括:多个测试图像。
其中,测试数据集是用于评估分类网络模型性能的一组测试数据。
获取测试数据集的目的是为了,在确定了分类网络模型训练完成时,对分类网络模型在未知数据上的性能进行评估,以提高分类网络模型的准确性和有效性。
可以理解的,测试数据集包含了与训练数据集不同的数据,可以用来评估模型在未知数据上的性能。因此,通过在测试数据集上评估分类网络模型的分类准确率、精度等指标,可以确定分类网络模型对图像的分类处理能力。
获取测试数据集的获取方式例如可以是从数据存储库中得到的,还可以是从在线资源平台中得到的。本申请对此不做特殊限制。
S207:将所述多个测试图像依次输入至所述训练完成的分类网络模型,得到与每个验证图像对应的验证结果。
其中,验证结果可以用来评估分类网络模型在测试数据集上的性能表现。
在分类网络模型训练完成后,可以将多个测试图像依次输入到已经训练完成的分类网络模型中,每个测试图像都会得到一个与之对应的验证结果,以便根据每个验证结果对分类网络模型的性能进行评估。
可以理解的,由于测试数据集是用于评估分类网络模型性能的一组未知数据,所以将测试数据集的多个测试图像输入到已经训练完成的分类网络模型中,分类网络模型会对每个图像进行分类,并输出相应的分类结果。
S208:判断多个验证结果是否均达到预设验证结果;若是,则执行步骤S209;若否,则执行步骤S208。
其中,分类网络模型的使用状态包括:可用状态、不可用状态。可用状态指的是分类网络模型能够根据其训练的参数和结构,对输入的图像进行分类,并输出准确的分类结果。不可用状态指的是分类网络模型无法输出准确的分类结果。
判断多个验证结果是否均达到预设验证结果的目的是为了确定当前的分类网络模型是否在测试数据集上的性能表现是否良好。
可以理解的,通过将每个验证结果与预设验证结果进行比较,可以评估分类网络模型的稳定性和可靠性。如果所有的验证结果均达到预设验证结果,说明分类网络模型在不同测试数据集上的性能表现是可靠的。相反,如果存在任意一个或多个验证结果未达到预设验证结果,说明分类网络模型的分类处理能力存在不足。
因此,通过多个验证结果和预设验证结果,可以用于对分类网络模型的性能和稳定性进行评估,以便对分类网络模型的分类处理能力进行评估。
若多个验证结果均达到预设验证结果,则表明当前的分类网络模型在测试数据集上的性能表现良好,此时,可以确定训练完成的分类网络模型的使用状态为可用状态。
若存在任意一个或多个验证结果未达到预设验证结果,则表明当前的分类网络模型在测试数据集上性能表现不佳,此时,可以确定训练完成的分类网络模型的使用状态为不可用状态。
可以理解的,当确定了分类网络模型的使用状态为可用状态时,就说明分类网络模型在测试数据集上的性能表现良好。这意味着分类网络模型在分类任务中具有较高的准确性和可靠性。因此在这种情况下,可以将训练完成的分类网络模型视为可用状态。
相反,当确定了分类网络模型的使用状态为不可用状态时,就说明分类网络模型在测试数据集上的性能表现不佳。这可能意味着分类网络模型存在一些问题或不足,如过拟合、欠拟合或其他训练错误,所以它可能无法提供准确的分类结果。因此在这种情况下,训练完成的分类网络模型处于不可用状态。
S209:确定所述训练完成的分类网络模型的使用状态为可用状态。
本实施例提供的基于分类网络模型的图像处理方法,首先,根据获取到的模型构建参数集确定分类网络模型的多个候选模型参数,然后,根据多个候选模型参数确定待训练的分类网络模型,其次,对待训练的分类网络模型进行解析处理,得到与待分类网络模型对应的多个训练阶段,然后,根据获取到的历史训练数据集,确定多个训练图像和与每个训练图像对应的图像参数,接着,根据多个训练阶段和多个图像参数,对待训练的分类网络模型进行训练,得到训练完成的分类网络模型,最后,获取测试数据集对训练完成的分类网络模型进行验证,直至在多个验证结果达到预设验证结果时,确定训练完成的分类网络模型的使用状态为可用状态。该方法通过模型构建参数集确定多个候选模型参数,增加了模型构建的灵活性,使得模型可以适应不同的数据分布和任务需求。同时,该方法通过使用多个训练图像进行训练,可以提高模型的泛化能力,使其能够更好地适应不同的图像特征。
图3为本申请实施例提供的基于分类网络模型的图像处理方法的流程图三。如图3所示,本实施例是在图1实施例的基础上,对采用分类网络模型对原始图像进行分类处理的过程进行详细说明,本实施例提供的基于分类网络模型的图像处理方法,包括:
S301:实时获取原始图像。
其中,步骤S301的解释说明和上述步骤类似,在此不再赘述。
S302:根据所述多个训练阶段,确定每个训练阶段的图像参数标准。
其中,确定每个训练阶段的图像参数标准的目的是为了确保输入图像在每个训练阶段都能满足每个训练阶段的图像参数标准。
可以理解的,由于不同的训练阶段具有不同的图像处理像素,因此,当得到了分类网络模型的多个训练阶段时,为了确保输入图像能够满足每个训练阶段的图像参数标准,需要获取每个训练阶段的图像参数标准,以便分类网络模型对输入图像的准确处理,从而提高分类网络模型的准确性。
S303:根据所述原始图像,确定所述原始图像的目标图像参数。
其中,通过确定原始图像的目标分类参数,就意味着可以得到与该图像相关的图像参数信息。
可以理解的,当得到了未处理的原始图像时,由于这些图像通常具有自身的参数,如尺寸、分辨率和色彩空间等。而不同的训练阶段可能需要不同的图像参数标准,因为不同的分类任务可能对图像的尺寸、分辨率和色彩空间有不同的要求。因此为了满足每个训练阶段的要求,需要对原始图像的目标图像参数进行确定,以便对目标图像参数进行调整。
S304:根据多个图像参数标准,对所述目标图像参数进行像素处理,得到所述多个待处理图像。
其中,对目标图像参数进行像素处理的目的是为了确保输入图像与训练阶段的参数标准相匹配。
可以理解的,由于每个训练阶段的图像参数标准不同,因此,还需要在确定了原始图像的目标图像参数时,按照每个训练阶段的图像参数标准对目标图像参数进行像素处理,以确保图像满足该阶段的特定参数标准。这些参数标准可能包括图像的大小、分辨率、色彩空间和对比度等。
S305:根据所述渐进式训练算法,对所述多个待处理图像分别进行特征处理,得到与所述每个待处理图像对应的特征结果。
其中,通过对每个待处理图像进行特征提取,可以得到更加具体和细致的特征结果。这些特征结果能够更直接地反映出原始图像的内容,从而可以帮助分类网络模型更好地理解图像内容,减少误判和混淆的可能性。
可以理解的,通过将多个待处理图像转化为特征向量,可以提高图像数据的分类处理速度和分类处理准确度。同时,特征处理可以减少光照、角度、噪声等因素对图像识别的影响,从而提高分类网络模型的鲁棒性。
S306:根据所述注意力转移算法,对多个特征结果分别进行区分处理,得到与所述每个训练阶段对应的目标特征结果。
其中,在得到了待处理图像的多个特征结果时,由于这些特征结果包含了图像的各种信息,包括显著特征和不显著特征。因此,为了将不显著但有区分性特征的特征提取出来,需要使用注意力转移算法。
可以理解的,不显著的特征可能具有更好的区分性,能够使分类网络模型对其更好地分类。而注意力转移算法能够让分类网络模型更加关注那些不太显著但重要的特征,从而更好地对原始图像进行分类处理。
因此,将注意力转移算法和多个特征结果结合起来,就可以将分类网络模型的注意力从那些显而易见的特征转移到不太显著但有区分性的特征上,从而更全面地理解图像内容,提高分类和识别的准确性。
S307:采用所述目标分类器,对多个目标特征结果分别进行解析处理,得到与每个目标特征结果对应的分类损失。
其中,在得到了每个阶段的目标特征结果后,通过将目标分类器和多个目标特征结果结合起来进行使用,可以得到每个目标特征结果在分类任务上的分类损失,以便根据多个分类损失确定出原始图像的具体分类结果。
可以理解的,在分类网络模型的处理过程中,每个阶段都会产生一组特征结果,这些特征结果旨在为后续的分类任务提供有用的信息。而通过使用多个特征结果和分类器来共同确定图像的最终分类,就可以确保图像分类的准确性。
S308:根据所述多个分类损失和所述多个目标特征结果,确定所述处理结果。
其中,由于原始图像中可能包含多个同一类别但不同物种的图像元素。因此,为了得到这些图像元素的准确分类结果,需要综合考虑多个分类损失和目标特征结果。
可以理解的, 在处理图像分类任务时,原始图像中可能包含多个图像元素,每个都有其独特的特征。这些特征可能是颜色、形状、纹理、大小等。而在某些情况下,这些图像元素可能具有一些相似的特征,但它们之间仍然存在细微的差异。例如,两种不同的鸟类可能都有翅膀和羽毛,这是它们的相似之处。但在细节上,它们的羽毛颜色、形状、大小等可能有所不同。
因此,不能单一的使用分类损失或目标特征结果可能不足以准确地区分这些图像元素。而需要综合考虑多个分类损失和目标特征结果,以便更好地确定出原始图像的具体分类结果。
可选的,根据注意力转移算法,对多个特征结果分别进行区分处理,得到与每个训练阶段对应的目标特征结果的具体实现过程例如可以为:根据多个特征结果,确定与所述每个阶段对应的特征向量;根据所述注意力转移算法,对多个特征向量进行区分处理,得到目标特征结果。
其中,由于每个训练阶段的特征结果包括多个位置层的特征结果,而在分类网络模型训练过程中,每个训练阶段的最后一层位置更能体现每个阶段的特征,因此,在得到了多个特征结果时,可以采用线性映射层的方式来获取的每个阶段的特征向量。
可以理解的,在分类网络模型训练过程中,由于Transformer结构中的自注意力机制和位置编码方式,使得每个位置的特征结果都包含了图像的上下文信息和空间位置信息。因此,在得到了多个特征结果后,可以通过线性映射层的方式将原始的特征结果进行降维处理,提取出每个阶段的特征向量,从而得到最后一层位置的特征向量。
在得到了每个阶段的特征向量之后,由于这些特征向量包含了原始图像中的各种信息,包括显著和不太显著的特征。虽然这些特征向量都包含了图像的重要信息,但其中有些特征向量是不太显著的,但这些不显著的特征向量具有很好的区分性,能够使分类网络模型对其更好地分类。因此,为了将不显著但有区分性特征的特征向量提取出来,需要使用注意力转移算法。
可以理解的,通过注意力转移算法,可以将分类网络模型的注意力从那些显而易见的特征转移到不太显著但有区分性的特征上,从而更全面地理解图像内容,提高分类和识别的准确性。
本实施例提供的基于分类网络模型的图像处理方法,首先,在获取到原始图像之后,根据分类网络模型的多个训练阶段,确定每个训练阶段的参数标准,同时,根据原始图像,确定原始图像的目标参数,然后,根据多个参数标准,对目标参数进行像素处理,得到多个待处理图像,其次,根据渐进式训练算法,对多个待处理图像分类进行特征处理,得到与每个待处理图像对应的特征结果,然后,根据注意力转移算法,对多个特征结果分别进行区分处理,得到与每个训练阶段对应的目标特征结果,最后,在采用目标分类器对多个目标特征结果分别进行解析处理,得到与每个目标特征结果对应的分类损失之后,根据多个分类损失和多个目标特征结果,确定原始图像的处理结果。该方法通过对原始图像的目标参数进行像素处理,得到了多个待处理图像。再对这些图像进行特征处理,可以提取到图像中的重要特征,提高分类的准确率。同时,该方法通过渐进式训练算法、注意力转移算法和目标分类器,对多个待处理图像分类进行特征处理,并根据对多个特征结果进行区分处理,使得分类网络模型更加关注与分类任务相关的特征,提高了分类的准确性。
图4为本申请提供的基于分类网络模型的图像处理装置的结构示意图。如图4所示,本申请提供一种基于分类网络模型的图像处理装置,该基于分类网络模型的图像处理装置400包括:
获取模块401,用于获取模型构建数据集,所述模型构建数据集包括:模型构建参数集、历史训练数据集;
构建模块402,用于根据所述模型构建参数集和所述历史训练数据集,构建分类网络模型,所述分类网络模型包括:多个具有先后顺序的训练阶段;
所述获取模块401,还用于获取原始图像;
处理模块403,用于根据所述多个训练阶段,对所述原始图像进行像素处理,得到多个待处理图像;
确定模块404,用于根据所述多个待处理图像和所述分类网络模型,确定所述原始图像的处理结果。
可选的,所述确定模块404,还用于根据所述模型构建参数集,确定多个候选模型参数,所述候选模型参数包括:通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法;
所述构建模块402,具体用于根据所述通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法,构建待训练的分类网络模型;
所述装置还包括:训练模块405;
所述训练模块405,用于根据所述历史训练数据集,对所述待训练的分类网络模型进行训练,得到训练完成的分类网络模型。
可选的,所述处理模块403,还用于对所述待训练的分类网络模型进行解析处理,得到与所述分类网络模型对应的多个训练阶段;
所述训练模块405,还用于根据所述多个训练阶段和多个图像参数,对所述待训练的分类网络模型进行训练,得到所述训练完成的分类网络模型。
可选的,所述获取模块401,还用于获取测试数据集,所述测试数据集包括:多个测试图像;
所述装置还包括:输入模块406;
所述输入模块406,用于将所述多个测试图像依次输入至所述训练完成的分类网络模型,得到与每个验证图像对应的验证结果;
所述装置还包括:判断模块407;
所述判断模块407,用于判断多个验证结果是否均达到预设验证结果;
所述确定模块404,用于在所述多个验证结果均达到预设验证结果时,确定所述训练完成的分类网络模型的使用状态为可用状态。
可选的,所述确定模块404,还用于根据所述多个训练阶段,确定每个训练阶段的图像参数标准;
所述确定模块404,还用于根据所述原始图像,确定所述原始图像的目标图像参数;
所述处理模块403,具体用于根据多个图像参数标准,对所述目标图像参数进行像素处理,得到所述多个待处理图像。
可选的,所述处理模块403,还用于根据所述渐进式训练算法,对所述多个待处理图像分别进行特征处理,得到与所述每个待处理图像对应的特征结果;
所述处理模块403,还用于根据所述注意力转移算法,对多个特征结果分别进行区分处理,得到与所述每个训练阶段对应的目标特征结果;
所述处理模块403,还用于采用所述目标分类器,对多个目标特征结果分别进行解析处理,得到与每个目标特征结果对应的分类损失;
所述确定模块404,具体用于根据所述多个分类损失和所述多个目标特征结果,确定所述处理结果。
可选的,所述确定模块404,还用于根据多个特征结果,确定与所述每个阶段对应的特征向量;
所述处理模块403,具体用于根据所述注意力转移算法,对多个特征向量进行区分处理,得到所述目标特征结果。
图5为本申请提供的基于分类网络模型的图像处理设备的结构示意图。如图5所示,本申请提供一种基于分类网络模型的图像处理设备,该基于分类网络模型的图像处理设备500包括:接收器501、发送器502、处理器503以及存储器504。
接收器501,用于接收指令和数据;
发送器502,用于发送指令和数据;
存储器504,用于存储计算机执行指令;
处理器503,用于执行存储器504存储的计算机执行指令,以实现上述实施例中基于分类网络模型的图像处理方法所执行的各个步骤。具体可以参见前述基于分类网络模型的图像处理方法实施例中的相关描述。
可选的,上述存储器504既可以是独立的,也可以跟处理器503集成在一起。
当存储器504独立设置时,该电子设备还包括总线,用于连接存储器504和处理器503。
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上述基于分类网络模型的图像处理设备所执行的基于分类网络模型的图像处理方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
至此,已经结合附图所示的优选实施方式描述了本申请的技术方案,但是,本领域技术人员容易理解的是,本申请的保护范围显然不局限于这些具体实施方式,以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (10)
1.一种基于分类网络模型的图像处理方法,其特征在于,所述方法还包括:
获取模型构建数据集,所述模型构建数据集包括:模型构建参数集、历史训练数据集;
根据所述模型构建参数集和所述历史训练数据集,构建分类网络模型,所述分类网络模型包括:多个具有先后顺序的训练阶段;
实时获取原始图像,并根据所述多个训练阶段,对所述原始图像进行像素处理,得到多个待处理图像;
根据所述多个待处理图像和所述分类网络模型,确定所述原始图像的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述模型构建参数集和所述历史训练数据集,构建分类网络模型,包括:
根据所述模型构建参数集,确定多个候选模型参数,所述候选模型参数包括:通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法;
根据所述通用神经网络模型、目标分类器、注意力转移算法和渐进式训练算法,构建待训练的分类网络模型;
根据所述历史训练数据集,对所述待训练的分类网络模型进行训练,得到训练完成的分类网络模型。
3.根据权利要求2所述的方法,其特征在于,所述历史训练数据集包括:多个训练图像和与每个训练图像对应的图像参数,所述根据所述历史训练数据集,对所述待训练的分类网络模型进行训练,得到训练完成的分类网络模型,包括:
对所述待训练的分类网络模型进行解析处理,得到与所述分类网络模型对应的多个训练阶段;
根据所述多个训练阶段和多个图像参数,对所述待训练的分类网络模型进行训练,得到所述训练完成的分类网络模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个训练阶段和多个图像参数,对所述待训练的分类网络模型进行训练,得到所述训练完成的分类网络模型之后,所述方法还包括:
获取测试数据集,所述测试数据集包括:多个测试图像;
将所述多个测试图像依次输入至所述训练完成的分类网络模型,得到与每个验证图像对应的验证结果;
判断多个验证结果是否均达到预设验证结果;
在所述多个验证结果均达到预设验证结果时,确定所述训练完成的分类网络模型的使用状态为可用状态。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多个训练阶段,对所述原始图像进行像素处理,得到多个待处理图像,包括:
根据所述多个训练阶段,确定每个训练阶段的图像参数标准;
根据所述原始图像,确定所述原始图像的目标图像参数;
根据多个图像参数标准,对所述目标图像参数进行像素处理,得到所述多个待处理图像。
6.根据权利要求3所述的方法,其特征在于,所述根据所述多个待处理图像和所述分类网络模型,确定所述原始图像的处理结果,包括:
根据所述渐进式训练算法,对所述多个待处理图像分别进行特征处理,得到与所述每个待处理图像对应的特征结果;
根据所述注意力转移算法,对多个特征结果分别进行区分处理,得到与所述每个训练阶段对应的目标特征结果;
采用所述目标分类器,对多个目标特征结果分别进行解析处理,得到与每个目标特征结果对应的分类损失;
根据所述多个分类损失和所述多个目标特征结果,确定所述处理结果。
7.根据权利要求6所述的方法,其特征在于,所述根据所述注意力转移算法,对多个特征结果分别进行区分处理,得到与所述每个训练阶段对应的目标特征结果,所述方法还包括:
根据多个特征结果,确定与所述每个阶段对应的特征向量;
根据所述注意力转移算法,对多个特征向量进行区分处理,得到所述目标特征结果。
8.一种基于分类网络模型的图像处理装置,其特征在于,包括:
获取模块,用于获取模型构建数据集,所述模型构建数据集包括:模型构建参数集、历史训练数据集;
构建模块,用于根据所述模型构建参数集和所述历史训练数据集,构建分类网络模型,所述分类网络模型包括:多个具有先后顺序的训练阶段;
所述获取模块,还用于获取原始图像;
处理模块,用于根据所述多个训练阶段,对所述原始图像进行像素处理,得到多个待处理图像;
确定模块,用于根据所述多个待处理图像和所述分类网络模型,确定所述原始图像的处理结果。
9.一种基于分类网络模型的图像处理设备,其特征在于,包括:
存储器;
处理器;
其中,所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-7中任一项所述的基于分类网络模型的图像处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的基于分类网络模型的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410095417.4A CN117611933A (zh) | 2024-01-24 | 2024-01-24 | 基于分类网络模型的图像处理方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410095417.4A CN117611933A (zh) | 2024-01-24 | 2024-01-24 | 基于分类网络模型的图像处理方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117611933A true CN117611933A (zh) | 2024-02-27 |
Family
ID=89960211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410095417.4A Pending CN117611933A (zh) | 2024-01-24 | 2024-01-24 | 基于分类网络模型的图像处理方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117611933A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN114882497A (zh) * | 2022-05-06 | 2022-08-09 | 东北石油大学 | 一种基于深度学习算法实现水果分类识别的方法 |
CN115131671A (zh) * | 2022-04-21 | 2022-09-30 | 河南工业大学 | 一种跨域高分辨率遥感图像典型目标细粒度识别方法 |
CN115240037A (zh) * | 2022-09-23 | 2022-10-25 | 卡奥斯工业智能研究院(青岛)有限公司 | 模型训练方法、图像处理方法、设备及存储介质 |
CN115497005A (zh) * | 2022-09-05 | 2022-12-20 | 重庆邮电大学 | 一种融合特征转移与注意力机制的yolov4遥感目标检测方法 |
CN115759226A (zh) * | 2022-11-02 | 2023-03-07 | 厦门美图之家科技有限公司 | 一种视觉网络模型的训练方法、装置、设备及存储介质 |
WO2023098912A1 (zh) * | 2021-12-02 | 2023-06-08 | 新东方教育科技集团有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN116259060A (zh) * | 2023-02-17 | 2023-06-13 | 马上消费金融股份有限公司 | 图像分类模型的训练方法及装置 |
CN116503918A (zh) * | 2022-01-21 | 2023-07-28 | 广州麦仑信息科技有限公司 | 基于ViT网络的掌静脉图像分类方法、装置、设备及介质 |
CN117078930A (zh) * | 2023-08-11 | 2023-11-17 | 河南大学 | 基于边界感知和注意力机制的医学图像分割方法 |
-
2024
- 2024-01-24 CN CN202410095417.4A patent/CN117611933A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
WO2023098912A1 (zh) * | 2021-12-02 | 2023-06-08 | 新东方教育科技集团有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN116503918A (zh) * | 2022-01-21 | 2023-07-28 | 广州麦仑信息科技有限公司 | 基于ViT网络的掌静脉图像分类方法、装置、设备及介质 |
CN115131671A (zh) * | 2022-04-21 | 2022-09-30 | 河南工业大学 | 一种跨域高分辨率遥感图像典型目标细粒度识别方法 |
CN114882497A (zh) * | 2022-05-06 | 2022-08-09 | 东北石油大学 | 一种基于深度学习算法实现水果分类识别的方法 |
CN115497005A (zh) * | 2022-09-05 | 2022-12-20 | 重庆邮电大学 | 一种融合特征转移与注意力机制的yolov4遥感目标检测方法 |
CN115240037A (zh) * | 2022-09-23 | 2022-10-25 | 卡奥斯工业智能研究院(青岛)有限公司 | 模型训练方法、图像处理方法、设备及存储介质 |
CN115759226A (zh) * | 2022-11-02 | 2023-03-07 | 厦门美图之家科技有限公司 | 一种视觉网络模型的训练方法、装置、设备及存储介质 |
CN116259060A (zh) * | 2023-02-17 | 2023-06-13 | 马上消费金融股份有限公司 | 图像分类模型的训练方法及装置 |
CN117078930A (zh) * | 2023-08-11 | 2023-11-17 | 河南大学 | 基于边界感知和注意力机制的医学图像分割方法 |
Non-Patent Citations (2)
Title |
---|
CHANGLIN LI ET.AL: "Automated Progressive Learning for Efficient Training of Vision Transformers", 《2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 27 September 2022 (2022-09-27), pages 12476 - 12486 * |
罗会兰;易慧;: "基于迭代训练和集成学习的图像分类方法", 计算机工程与设计, no. 05, 16 May 2020 (2020-05-16), pages 109 - 115 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860573B (zh) | 模型训练方法、图像类别检测方法、装置和电子设备 | |
CN109003390B (zh) | 一种商品识别方法、无人售货机及计算机可读存储介质 | |
CN109840531A (zh) | 训练多标签分类模型的方法和装置 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN109389096B (zh) | 检测方法和装置 | |
US11410327B2 (en) | Location determination apparatus, location determination method and computer program | |
CN113095370A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN111539456B (zh) | 一种目标识别方法及设备 | |
CN115953643A (zh) | 基于知识蒸馏的模型训练方法、装置及电子设备 | |
CN116151319A (zh) | 搜索神经网络集成模型的方法、装置和电子设备 | |
CN109978058B (zh) | 确定图像分类的方法、装置、终端及存储介质 | |
CN102713974A (zh) | 学习装置、识别装置、学习识别***和学习识别装置 | |
KR101334858B1 (ko) | 나비종 자동분류 시스템 및 방법, 이를 이용한 나비종 자동분류 기능이 구비된 휴대 단말기 | |
JP4983539B2 (ja) | 情報処理装置および方法、並びにプログラム | |
JP2016224821A (ja) | 学習装置、学習装置の制御方法及びプログラム | |
CN112287905A (zh) | 车辆损伤识别方法、装置、设备及存储介质 | |
US9299000B2 (en) | Object region extraction system, method and program | |
CN111652320A (zh) | 一种样本分类方法、装置、电子设备及存储介质 | |
CN111798376A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN117611933A (zh) | 基于分类网络模型的图像处理方法、装置、设备和介质 | |
CN113255766B (zh) | 一种图像分类方法、装置、设备和存储介质 | |
CN115512428A (zh) | 一种人脸活体判别方法、***、装置和存储介质 | |
CN111898465B (zh) | 一种人脸识别模型的获取方法和装置 | |
CN112613341A (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |