CN113688893A - 一种图片分类的方法、装置、电子设备及存储介质 - Google Patents

一种图片分类的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113688893A
CN113688893A CN202110952977.3A CN202110952977A CN113688893A CN 113688893 A CN113688893 A CN 113688893A CN 202110952977 A CN202110952977 A CN 202110952977A CN 113688893 A CN113688893 A CN 113688893A
Authority
CN
China
Prior art keywords
picture
classified
classification
target
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110952977.3A
Other languages
English (en)
Inventor
黄开竹
朱嘉奕
闫毓垚
杨曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Zero Spring Technology Co ltd
Xian Jiaotong Liverpool University
Original Assignee
Suzhou Zero Spring Technology Co ltd
Xian Jiaotong Liverpool University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Zero Spring Technology Co ltd, Xian Jiaotong Liverpool University filed Critical Suzhou Zero Spring Technology Co ltd
Priority to CN202110952977.3A priority Critical patent/CN113688893A/zh
Publication of CN113688893A publication Critical patent/CN113688893A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种图片分类的方法、装置、电子设备及存储介质。其中,该方法包括:获取原始待分类图片,将原始待分类图片转换为张量数据;将原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下原始待分类图片对应的分类概率;判断原始待分类图片是否存在等于或大于预设概率阈值的分类概率,若是,则确定原始待分类图片为目标待分类图片;根据目标待分类图片的分类概率,确定目标待分类图片的候选图片类别,判断候选图片类别是否为预设待确认图片类别;若是,则将目标待分类图片的张量数据输入至预先训练的二分类器中,得到目标分类图片的目标图片类别,实现提高图片分类精度。

Description

一种图片分类的方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及图像处理技术,尤其涉及一种图片分类的方法、装置、电子设备及存储介质。
背景技术
图片分类可以根据图片中所反映的不同特征,对图片进行类别划分,以代替人的视觉判读。
不同类别的图片之间存在相似的特征,现有的图片分类方法采用神经网络模型提取图片特征,但现有技术无法准确识别不同类型的图片之间的区别。例如,图片类别为立面图、平面图和剖面图,在进行图片分类时,立面图、平面图和剖面图很容易出现互相错分的情况,导致图片分类的精度较低。
发明内容
本发明实施例提供一种图片分类的方法、装置、电子设备及存储介质,以提高图片分类的精度。
第一方面,本发明实施例提供了一种图片分类的方法,该方法包括:
获取原始待分类图片,将所述原始待分类图片转换为张量数据;
将所述原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下所述原始待分类图片对应的分类概率;
判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定所述原始待分类图片为目标待分类图片;
根据所述目标待分类图片的分类概率,确定所述目标待分类图片的候选图片类别,判断所述候选图片类别是否为预设的待确认图片类别;
若是,则将所述目标待分类图片的张量数据输入至预先训练的二分类器中,得到所述目标分类图片的目标图片类别。
第二方面,本发明实施例还提供了一种图片分类的装置,该装置包括:
数据转换模块,用于获取原始待分类图片,将所述原始待分类图片转换为张量数据;
概率获得模块,用于将所述原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下所述原始待分类图片对应的分类概率;
目标图片确定模块,用于判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定所述原始待分类图片为目标待分类图片;
候选类别确定模块,用于根据所述目标待分类图片的分类概率,确定所述目标待分类图片的候选图片类别,判断所述候选图片类别是否为预设的待确认图片类别;
目标类别二分类模块,用于若是,则将所述目标待分类图片的张量数据输入至预先训练的二分类器中,得到所述目标分类图片的目标图片类别。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的图片分类的方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的图片分类的方法。
本发明实施例通过对原始待分类图片进行转换,得到张量数据。将张量数据输入到预先训练好的图片分类模型中,图片分类模型中预先设置了多种图片类别,可以输出一张待分类图片属于各个图片类别的分类概率。判断分类概率是否等于或大于预设的概率阈值,若是,则确定原始待分类图片为目标待分类图片。根据目标待分类图片的分类概率,确定目标待分类图片可能属于的候选图片类别,判断候选图片类别是否为预设的待确认图片类别,待确认类别是特征相似的两种图片类别。若是,则可以将目标待分类图片的张量数据输入至预先训练好的二分类器中,二分类器只能输出两种图片类别的分类概率,根据分类概率大小,确定目标分类图片的目标图片类别。解决了现有技术中,特征相似的图片类别无法准确区分的问题。通过比较分类概率和概率阈值,将原始待分类图片的范围缩小为目标待分类图片。通过二次分类,有效提高图片分类的精度。
附图说明
图1是本发明实施例一中的一种图片分类的方法的流程示意图;
图2是本发明实施例二中的一种图片分类的方法的流程示意图;
图3是本发明实施例三中的一种图片分类的装置的结构框图;
图4是本发明实施例四中的一种图片分类的设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所提供的一种图片分类的方法的流程示意图,本实施例可适用于对图片进行分类的情况,该方法可以由一种图片分类的装置来执行。如图1所示,该方法具体包括如下步骤:
步骤110、获取原始待分类图片,将原始待分类图片转换为张量数据。
其中,获取预先采集的待分类图片,作为原始待分类图片,例如,可以获取建筑物图片。根据原始待分类图片的分辨率和像素值,可以将原始待分类图片转换为张量,得到张量数据。原始待分类图片的张量数据可以表明分辨率大小和各个像素点的像素值等。
在将原始待分类图片转换为张量数据时,可以先对原始待分类图片进行大小调整,将原始待分类图片调整为统一的预设大小,例如,可以将预设大小设置为224×224或224×320,预设的大小可以在图片分类模型训练时确定。将调整大小后的原始待分类图片确定为初始待分类图片。可以对初始待分类图片进行随机地水平裁剪操作,取裁剪后的任意一块。例如,可以将初始待分类图片划分为上下两块,取上面的图片块。将裁剪后得到的初始待分类图片确定为候选待分类图片,候选待分类图片的大小与初始待分类图片的大小一致。也可以不对初始待分类图片进行裁剪,或裁剪得到初始待分类图片中待分类内容所在的部分,减少待识别内容周围的无关内容的影响,提高分类精度。将初始待分类图片或裁剪后的候选待分类图片转换成张量,得到张量数据,所得到的张量数据与原始待分类图片一一对应。
步骤120、将原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下原始待分类图片对应的分类概率。
其中,图片分类模型为预先训练的神经网络模型,例如,可以采用残差神经网络作为网络结构,模型中可以包括一层全连接层和三层卷积层。图片分类模型中可以设置多种图片类别,图片类别大于或等于三种。输入数据为待分类图片的张量数据,输出数据为待分类图片的分类概率,分类概率为原始待分类图片属于各种图片类别的可能性概率。对于一张原始待分类图片,图片分类模型输出的分类概率的数量为图片类别的数量,一张原始待分类图片的各个分类概率的加和为1。分类概率越大,表明该图片属于该分类概率对应的图片类别的可能性越大。
本实施例中,预设的图片类别可以包括立面图、剖面图、平面图和照片这四类。因此,对于一张原始待分类图片,图片分类模型可以输出四个分类概率。例如,对于一张原始待分类图片,输出四个分类概率,分别为立面图的分类概率5%,剖面图的分类概率10%,平面图的分类概率10%,照片的分类概率75%,则该原始待分类图片的图片类别是照片。
步骤130、判断原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定原始待分类图片为目标待分类图片。
其中,预先设置一个概率阈值,在得到原始待分类图片的各个分类概率后,将各个分类概率与概率阈值进行比较。判断原始待分类图片是否存在至少一个分类概率,该分类概率的值大于或等于预设的概率阈值。若存在,则确定该原始待分类图片为目标待分类图片。还可以在得到原始待分类图片的至少三个分类概率后,确定这几个分类概率中的最大概率值,即,确定原始待分类图片的至少三个分类概率中的最大概率值。判断该最大概率值是否等于或大于预设的概率阈值,不需要将除最大概率值以外的其他分类概率值与概率阈值比较。若最大概率值等于或大于预设的概率阈值,则确定原始待分类图片为目标待分类图片。
本实施例中,可选的,在判断原始待分类图片是否存在等于或大于预设的概率阈值的分类概率之后,还包括:若不存在等于或大于预设的概率阈值的分类概率,则确定原始待分类图片为异常图片,停止对异常图片分类。
具体的,若原始待分类图片的分类概率中不存在等于或大于预设的概率阈值的分类概率,或者,原始待分类图片的最大概率值小于预设的概率阈值,则确定原始待分类图片不是预设的图片类别中的任何一种,将原始待分类图片确定为异常图片,舍弃该原始待分类图片,停止对该原始待分类图片的分类过程。例如,预设的概率阈值为50%,有四种图片类别,原始待分类图片的分类概率分别为40%、30%、15%和15%,则确定该原始待分类图片为异常图片。这样设置的有益效果在于,可以通过比较分类概率和概率阈值,淘汰明显不属于预设图片类别的原始待分类图片,避免异常图片的干扰,提高图片分类的精度。
步骤140、根据目标待分类图片的分类概率,确定目标待分类图片的候选图片类别,判断候选图片类别是否为预设的待确认图片类别。
其中,比较目标待分类图片的各个分类概率,将分类概率由大到小进行排序,确定分类概率排在前面的图片类别,例如,可以确定排在前两位的分类概率对应的图片类别。将预设排序位置的分类概率对应的图片类别确定为候选图片类别,例如,将前两位分类概率对应的图片类别确定为候选图片类别。即,排在前两位的分类概率对应的图片类别都可能是目标待分类图片的目标图片类别。
预先设置一种或多种图片类别作为待确认图片类别,例如,图片类别包括立面图、剖面图、平面图和照片,待确认图片类别为立面图和剖面图。可以将图片特征相近的图片类别作为待确认图片类别,便于再对待确认图片类别进行精确判断,例如,立面图和剖面图之间存在相似的特征,很容易导致互相错分,因此,将立面图和剖面图设置为待确认图片类别。在得到目标待分类图片的候选图片类别后,确定候选图片类别是否均为待确认图片类别。若候选图片类别中存在一个图片类别不是待确认图片类别,则认为候选图片类别不是预设的待确认图片类别。例如,待确认图片类别为立面图和剖面图,候选图片类别为排序前两位的分类概率对应的图片类别。排序第一的分类概率对应的图片类别为剖面图,排序第二的分类概率对应的图片类别为立面图,则确定候选图片类别为待确认图片类别。
本实施例中,可选的,根据目标待分类图片的分类概率,确定目标待分类图片的候选图片类别,包括:判断目标待分类图片的分类概率中是否存在至少两个分类概率等于或大于预设的概率阈值;若是,则确定目标待分类图片的分类概率中的最大值分类概率对应的第一图片类别,以及第二大值分类概率对应的第二图片类别;将第一图片类别和第二图片类别确定为目标待分类图片的候选图片类别。
具体的,可以将分类概率排序在预设位次的分类概率对应的图片类别确定为候选图片类别,例如,将前两名分类概率对应的图片类别作为候选图片类别。候选图片类别为至少两种图片类别,在确定候选图片类别时,可以先将目标待分类图片的分类概率与预设的概率阈值进行比较。可以判断目标待分类图片的分类概率中是否存在至少两个分类概率等于或大于预设的概率阈值,即,至少需要判断分类概率排序在前两位的分类概率是否等于或大于预设的概率阈值。在步骤130中已经确定目标待分类图片的分类概率中至少存在一个分类概率大于或等于概率阈值,因此,可以判断目标待分类图片排在第二位的分类概率是否等于或大于概率阈值。
若只有第一个最大值分类概率等于或大于概率阈值,则不需要确定候选图片类别,直接将最大值分类概率对应的图片类别作为目标待分类图片的目标图片类别。若目标待分类图片存在至少两个分类概率等于或大于预设的概率阈值,即最大值分类概率和第二大值分类概率一定均大于或等于概率阈值,则确定最大值分类概率对应的第一图片类别,以及第二大值分类概率对应的第二图片类别。本实施例中,待确认图片类别为两种图片类别,因此,可以只确定前两位分类概率的图片类别。将第一图片类别和第二图片类别确定为目标待分类图片的候选图片类别,判断候选图片类别是否均为待确认图片类别。这样设置的有益效果在于,待确认图片类别为两种,因此先判断分类概率中是否存在至少两个分类概率等于或大于预设的概率阈值,若只有一个,则不论前两名分类概率对应的图片类别是不是待确认图片类别,都将最大值分类概率对应的图片类别确定为目标图片类别。因为最大值分类概率就是等于或大于概率阈值的那个分类概率,减少图片分类操作,提高图片分类效率。若存在至少两个分类概率等于或大于预设的概率阈值,则再进一步对目标图片类别进行确认,提高图片分类精度。
本实施例中,可选的,在判断候选图片类别是否为预设的待确认图片类别之后,还包括:若候选图片类别不是预设的待确认图片类别,则确定目标待分类图片的最大值分类概率;将最大值分类概率对应的图片类别,确定为目标分类图片的目标图片类别。
具体的,待确认图片类别是容易互相分错的图片类别,若候选图片类别不是预设的待确认图片类别,则直接确定目标待分类图片的分类概率中的最大值分类概率,将最大值分类概率对应的图片类别,确定为目标分类图片的目标图片类别。例如,待确认图片类别为立面图和剖面图,候选图片类别为立面图和平面图,立面图对应的分类概率大于平面图,由于立面图与平面图分错的可能性较小,因此,可以直接将立面图作为目标图片类别。这样设置的有益效果在于,在候选图片类别不是待确认图片类别时,可以直接确定目标图片类别,提高图片分类的效率。
步骤150、若是,则将目标待分类图片的张量数据输入至预先训练的二分类器中,得到目标分类图片的目标图片类别。
其中,在确定候选图片类别是预设的待确认图片类别后,若将最大值分类概率对应的图片类别作为目标待分类图片的目标图片类别,则可能出现图片分类错误的情况,即,真正的目标图片类别可能是第二大值分类概率对应的图片类别。因此,需要对待确认图片类别即候选图片类别进行再次确认。可以将该目标待分类图片的张量数据输入至预先训练好的二分类器中,二分类器与图片分类模型的网络结构可以一致,二者的区别在于,图片分类模型可以输出至少三种图片类别的分类概率,二分类器可以输出两种图片类别的分类概率,二分类器输出的分类概率对应的图片类别为待确认图片类别。二分类器在接收到目标待分类图片的张量数据后,可以输出目标待分类图片对两种待确认图片类别的分类概率,比较两个分类概率的大小,将较大值分类概率对应的图片类别确定为目标图片类别,完成图片分类过程。
本实施例的技术方案,通过对原始待分类图片进行转换,得到张量数据。将张量数据输入到预先训练好的图片分类模型中,图片分类模型中预先设置了多种图片类别,可以输出一张待分类图片属于各个图片类别的分类概率。判断分类概率是否等于或大于预设的概率阈值,若是,则确定原始待分类图片为目标待分类图片。根据目标待分类图片的分类概率,确定目标待分类图片可能属于的候选图片类别,判断候选图片类别是否为预设的待确认图片类别,待确认类别是特征相似的两种图片类别。若是,则可以将目标待分类图片的张量数据输入至预先训练好的二分类器中,二分类器只能输出两种图片类别的分类概率,根据分类概率大小,确定目标分类图片的目标图片类别。解决了现有技术中,特征相似的图片类别无法准确区分的问题。通过比较分类概率和概率阈值,将原始待分类图片的范围缩小为目标待分类图片。通过二次分类,有效提高图片分类的精度。
实施例二
图2为本发明实施例二所提供的一种图片分类的方法的流程示意图,本实施例以上述实施例为基础进行进一步的优化,该方法可以由一种图片分类的装置来执行。如图2所示,该方法具体包括如下步骤:
步骤210、获取原始待训练图片,将原始待训练图片转换为张量数据。
其中,获取预先采集的原始待训练图片,例如,可以预先采集不同类别的建筑图片,图片类别可以包括立面图、剖面图、平面图和照片。将每一张原始待训练图片都转换为张量数据,张量数据可以表示原始待训练图片的分辨率大小和像素值大小等信息。
本实施例中,可选的,将原始待训练图片转换为张量数据,包括:将原始待训练图片的图片大小调整为预设大小,得到初始待训练图片;对初始待训练图片进行随机地水平裁剪操作,将裁剪后的初始待训练图片确定为候选待训练图片;将候选待训练图片转换成张量,得到张量数据。
具体的,由于原始待训练图片大小或太大,若直接输入模型将会产生巨大的内存使用率,因此,在将原始待训练图片转换为张量数据时,可以先对原始待训练图片进行大小调整,将原始待训练图片调整为统一的预设大小,例如,可以将预设大小设置为224×224或224×320。本实施例中,可以将预设大小确定为224×320。将调整大小后的原始待训练图片确定为初始待训练图片。可以对初始待训练图片进行随机地水平裁剪操作,取裁剪后的任意一块作为候选待训练图片。例如,可以将初始待训练图片划分为上下两块,取上面的图片块。将裁剪后得到的初始待训练图片确定为候选待训练图片,候选待训练图片的大小与初始待训练图片的大小一致。将裁剪后的候选待训练图片转换成张量,得到张量数据,所得到的张量数据与原始待训练图片一一对应。这样设置的有益效果在于,减小内存使用率,通过水平裁剪操作,提高训练精度,进而提高图片分类的效率和精度。
步骤220、将原始待训练图片的张量数据输入至待训练的图片分类模型中,得到输出结果。
其中,待训练的图片分类模型可以是以Resnet101(残差神经网络)作为网络结构,包括一层全连接层和三层卷积层。图片分类模型可以输出原始待训练图片为任一图片类别的分类概率,确定最大值分类概率,将最大值分类概率对应的图片类别作为输出结果。
本实施例中,可选的,将原始待训练图片的张量数据输入至待训练的图片分类模型中,包括:随机抽取至少两张候选待训练图片,对抽取出的候选待训练图片进行融合,得到目标待训练图片;将目标待训练图片转换成张量数据;将候选待训练图片的张量数据和目标待训练图片的张量数据输入至待训练的图片分类模型中。
具体的,由于算力的限制,可以设置输入图片分类模型的图片数量,即批量大小,例如,可以设置批量大小为80,一次可以输入80张原始待训练图片的张量数据。在将数据输入模型之前,可以采用mix up(混合)方法对数据提前进行处理。Mix up方法是指将两张候选待训练图片进行融合,例如,可以随机抽取两张候选待训练图片,降低候选待训练图片的透明度,将抽取出的候选待训练图片进行融合,得到目标待训练图片。即,目标待训练图片上存在两张候选待训练图片的特征。抽取的候选待训练图片可以是两种不同的图片类别,可以抽取多组候选待训练图片,每组候选待训练图片中包括两张图片。在得到目标待训练图片后,可以将目标待训练图片的张量数据输入到图片分类模型中。这样设置的有益效果在于,通过mix up方法可以提升邻域的平滑性,从而人为创造一些易错样本,让模型学到更好的特征空间,提高图片分类精度。
步骤230、判断输出结果与预设的目标结果是否一致,若否,则将输出结果与预设的目标结果输入至预设的损失函数中。
其中,在得到输出结果后,将输出结果与预设的目标结果进行比较,判断输出结果与预设的目标结果是否一致,若一致,则确定本轮训练成功。若不一致,则将输出结果与预设的目标结果输入至预设的损失函数中。预设的目标结果为,在获取原始待训练图片时就确定的每张原始待训练图片的图片类别。损失函数可以是Cross entropy loss(交叉熵损失函数)、Focal loss(焦点损失函数)或Label smoothing(标签平滑)。Label Smoothing作为损失函数,可以让类别之间的cluster(簇)更加紧凑,增加类间距离,减少类内距离,提高图片分类精度。
步骤240、根据损失函数的计算结果,对图片分类模型的神经网络参数进行更新,以对图片分类模型进行训练。
其中,根据损失函数的计算结果,可以反向传播计算出本轮训练的神经网络参数,例如,可以是卷积层参数。对图片分类模型进行参数更新,直至损失函数值满足预设的训练要求,完成图片分类模型的训练。本实施例中,图片分类模型的图片预设大小为224×320,损失函数为Label Smoothing,优化函数可以是Adam(Adaptive moment estimation,自适应矩估计)和SGD+Momentum(随机梯度下降算法+动量)两种,优先采用SGD+Momentum。
步骤250、根据预设的二分类器训练规则,对二分类器进行训练。
其中,二分类器的训练方式与图片分类模型的训练方式一致,只是二分类器识别的图片类别只有两种,二分类器可以专门用来训练特征相似的图片类别。例如,立面图和剖面图的互相分错的概率较高,因此,可以为立面图和剖面图单独训练一个二分类器。二分类器的训练可以在图片分类器的训练之前或之后,本实施例中,对这两个模型的训练顺序不做限定。
二分类器的训练过程为,获取二分类器的原始待训练图片,将原始待训练图片转换为张量数据。将原始待训练图片的张量数据输入至待训练的二分类器模型中,得到输出结果。判断输出结果与预设的目标结果是否一致,若否,则将输出结果与预设的目标结果输入至预设的损失函数中。根据损失函数的计算结果,对二分类器的神经网络参数进行更新,以对二分类器进行训练。二分类器对图片的预设大小为224×320,损失函数为LabelSmoothing,优化函数为SGD+Momentum。在向二分类器进行数据输入时,也可以批量输入。
步骤260、获取原始待分类图片,将原始待分类图片转换为张量数据。
步骤270、将原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下原始待分类图片对应的分类概率。
步骤280、判断原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定原始待分类图片为目标待分类图片。
步骤290、根据目标待分类图片的分类概率,确定目标待分类图片的候选图片类别,判断候选图片类别是否为预设的待确认图片类别。
步骤211、若是,则将目标待分类图片的张量数据输入至预先训练的二分类器中,得到目标分类图片的目标图片类别。
本发明实施例对图片分类模型和二分类器进行训练,将原始待分类图片进行转换,得到张量数据。将张量数据输入到预先训练好的图片分类模型中,图片分类模型中预先设置了多种图片类别,可以输出一张待分类图片属于各个图片类别的分类概率。判断分类概率是否等于或大于预设的概率阈值,若是,则确定原始待分类图片为目标待分类图片。根据目标待分类图片的分类概率,确定目标待分类图片可能属于的候选图片类别,判断候选图片类别是否为预设的待确认图片类别,待确认类别是特征相似的两种图片类别。若是,则可以将目标待分类图片的张量数据输入至预先训练好的二分类器中,二分类器只能输出两种图片类别的分类概率,根据分类概率大小,确定目标分类图片的目标图片类别。解决了现有技术中,特征相似的图片类别无法准确区分的问题。通过比较分类概率和概率阈值,将原始待分类图片的范围缩小为目标待分类图片。通过二次分类,有效提高图片分类的精度。
实施例三
图3为本发明实施例三所提供的图片分类的装置的结构框图,可执行本发明任意实施例所提供的图片分类的方法,具备执行方法相应的功能模块和有益效果。如图3所示,该装置具体包括:
数据转换模块301,用于获取原始待分类图片,将所述原始待分类图片转换为张量数据;
概率获得模块302,用于将所述原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下所述原始待分类图片对应的分类概率;
目标图片确定模块303,用于判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定所述原始待分类图片为目标待分类图片;
候选类别确定模块304,用于根据所述目标待分类图片的分类概率,确定所述目标待分类图片的候选图片类别,判断所述候选图片类别是否为预设的待确认图片类别;
二分类器分类模块305,用于若是,则将所述目标待分类图片的张量数据输入至预先训练的二分类器中,得到所述目标分类图片的目标图片类别。
可选的,该装置还包括:
待训练图片转换模块,用于在获取原始待分类图片,将所述原始待分类图片转换为张量数据之前,获取原始待训练图片,将所述原始待训练图片转换为张量数据;
待训练结果输出模块,用于将所述原始待训练图片的张量数据输入至待训练的图片分类模型中,得到输出结果;
损失函数计算模块,用于判断所述输出结果与预设的目标结果是否一致,若否,则将所述输出结果与预设的目标结果输入至预设的损失函数中;
模型更新模块,用于根据损失函数的计算结果,对所述图片分类模型的神经网络参数进行更新,以对所述图片分类模型进行训练。
可选的,待训练图片转换模块,具体用于:
将所述原始待训练图片的图片大小调整为预设大小,得到初始待训练图片;
对所述初始待训练图片进行随机地水平裁剪操作,将裁剪后的初始待训练图片确定为候选待训练图片;
将所述候选待训练图片转换成张量,得到张量数据。
可选的,待训练结果输出模块,具体用于:
随机抽取至少两张候选待训练图片,对抽取出的候选待训练图片进行融合,得到目标待训练图片;
将所述目标待训练图片转换成张量数据;
将所述候选待训练图片的张量数据和所述目标待训练图片的张量数据输入至待训练的图片分类模型中。
可选的,该装置还包括:
异常图片确定模块,用于在判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率之后,若不存在等于或大于预设的概率阈值的分类概率,则确定所述原始待分类图片为异常图片,停止对所述异常图片分类。
可选的,候选类别确定模块304,具体用于:
判断所述目标待分类图片的分类概率中是否存在至少两个分类概率等于或大于预设的概率阈值;
若是,则确定所述目标待分类图片的分类概率中的最大值分类概率对应的第一图片类别,以及第二大值分类概率对应的第二图片类别;
将所述第一图片类别和所述第二图片类别确定为所述目标待分类图片的候选图片类别。
可选的,该装置还包括:
最大值确定模块,用于在判断所述候选图片类别是否为预设的待确认图片类别之后,若所述候选图片类别不是预设的待确认图片类别,则确定所述目标待分类图片的最大值分类概率;
类别确定模块,用于将所述最大值分类概率对应的图片类别,确定为所述目标分类图片的目标图片类别。
本发明实施例通过对原始待分类图片进行转换,得到张量数据。将张量数据输入到预先训练好的图片分类模型中,图片分类模型中预先设置了多种图片类别,可以输出一张待分类图片属于各个图片类别的分类概率。判断分类概率是否等于或大于预设的概率阈值,若是,则确定原始待分类图片为目标待分类图片。根据目标待分类图片的分类概率,确定目标待分类图片可能属于的候选图片类别,判断候选图片类别是否为预设的待确认图片类别,待确认类别是特征相似的两种图片类别。若是,则可以将目标待分类图片的张量数据输入至预先训练好的二分类器中,二分类器只能输出两种图片类别的分类概率,根据分类概率大小,确定目标分类图片的目标图片类别。解决了现有技术中,特征相似的图片类别无法准确区分的问题。通过比较分类概率和概率阈值,将原始待分类图片的范围缩小为目标待分类图片。通过二次分类,有效提高图片分类的精度。
实施例四
图4是本发明实施例四提供的一种图片分类的设备的结构示意图。图片分类的设备是一种电子设备,图4示出了适于用来实现本发明实施方式的示例性电子设备400的框图。图4显示的电子设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于:一个或者多个处理器或者处理单元401,***存储器402,连接不同***组件(包括***存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
电子设备400典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备400访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器402可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。电子设备400可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***406可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
电子设备400也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该电子设备400交互的设备通信,和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,电子设备400还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器412通过总线403与电子设备400的其它模块通信。应当明白,尽管图4中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元401通过运行存储在***存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种图片分类的方法,包括:
获取原始待分类图片,将所述原始待分类图片转换为张量数据;
将所述原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下所述原始待分类图片对应的分类概率;
判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定所述原始待分类图片为目标待分类图片;
根据所述目标待分类图片的分类概率,确定所述目标待分类图片的候选图片类别,判断所述候选图片类别是否为预设的待确认图片类别;
若是,则将所述目标待分类图片的张量数据输入至预先训练的二分类器中,得到所述目标分类图片的目标图片类别。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种图片分类的方法,包括:
获取原始待分类图片,将所述原始待分类图片转换为张量数据;
将所述原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下所述原始待分类图片对应的分类概率;
判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定所述原始待分类图片为目标待分类图片;
根据所述目标待分类图片的分类概率,确定所述目标待分类图片的候选图片类别,判断所述候选图片类别是否为预设的待确认图片类别;
若是,则将所述目标待分类图片的张量数据输入至预先训练的二分类器中,得到所述目标分类图片的目标图片类别。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种图片分类的方法,其特征在于,包括:
获取原始待分类图片,将所述原始待分类图片转换为张量数据;
将所述原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下所述原始待分类图片对应的分类概率;
判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定所述原始待分类图片为目标待分类图片;
根据所述目标待分类图片的分类概率,确定所述目标待分类图片的候选图片类别,判断所述候选图片类别是否为预设的待确认图片类别;
若是,则将所述目标待分类图片的张量数据输入至预先训练的二分类器中,得到所述目标分类图片的目标图片类别。
2.根据权利要求1所述的方法,其特征在于,在获取原始待分类图片,将所述原始待分类图片转换为张量数据之前,还包括:
获取原始待训练图片,将所述原始待训练图片转换为张量数据;
将所述原始待训练图片的张量数据输入至待训练的图片分类模型中,得到输出结果;
判断所述输出结果与预设的目标结果是否一致,若否,则将所述输出结果与预设的目标结果输入至预设的损失函数中;
根据损失函数的计算结果,对所述图片分类模型的神经网络参数进行更新,以对所述图片分类模型进行训练。
3.根据权利要求2所述的方法,其特征在于,将所述原始待训练图片转换为张量数据,包括:
将所述原始待训练图片的图片大小调整为预设大小,得到初始待训练图片;
对所述初始待训练图片进行随机地水平裁剪操作,将裁剪后的初始待训练图片确定为候选待训练图片;
将所述候选待训练图片转换成张量,得到张量数据。
4.根据权利要求3所述的方法,其特征在于,将所述原始待训练图片的张量数据输入至待训练的图片分类模型中,包括:
随机抽取至少两张候选待训练图片,对抽取出的候选待训练图片进行融合,得到目标待训练图片;
将所述目标待训练图片转换成张量数据;
将所述候选待训练图片的张量数据和所述目标待训练图片的张量数据输入至待训练的图片分类模型中。
5.根据权利要求1所述的方法,其特征在于,在判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率之后,还包括:
若不存在等于或大于预设的概率阈值的分类概率,则确定所述原始待分类图片为异常图片,停止对所述异常图片分类。
6.根据权利要求1所述的方法,其特征在于,根据所述目标待分类图片的分类概率,确定所述目标待分类图片的候选图片类别,包括:
判断所述目标待分类图片的分类概率中是否存在至少两个分类概率等于或大于预设的概率阈值;
若是,则确定所述目标待分类图片的分类概率中的最大值分类概率对应的第一图片类别,以及第二大值分类概率对应的第二图片类别;
将所述第一图片类别和所述第二图片类别确定为所述目标待分类图片的候选图片类别。
7.根据权利要求1所述的方法,其特征在于,在判断所述候选图片类别是否为预设的待确认图片类别之后,还包括:
若所述候选图片类别不是预设的待确认图片类别,则确定所述目标待分类图片的最大值分类概率;
将所述最大值分类概率对应的图片类别,确定为所述目标分类图片的目标图片类别。
8.一种图片分类的装置,其特征在于,包括:
数据转换模块,用于获取原始待分类图片,将所述原始待分类图片转换为张量数据;
概率获得模块,用于将所述原始待分类图片的张量数据输入至预先训练的图片分类模型中,得到预设的至少三种图片类别下所述原始待分类图片对应的分类概率;
目标图片确定模块,用于判断所述原始待分类图片是否存在等于或大于预设的概率阈值的分类概率,若是,则确定所述原始待分类图片为目标待分类图片;
候选类别确定模块,用于根据所述目标待分类图片的分类概率,确定所述目标待分类图片的候选图片类别,判断所述候选图片类别是否为预设的待确认图片类别;
二分类器分类模块,用于若是,则将所述目标待分类图片的张量数据输入至预先训练的二分类器中,得到所述目标分类图片的目标图片类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的图片分类的方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的图片分类的方法。
CN202110952977.3A 2021-08-19 2021-08-19 一种图片分类的方法、装置、电子设备及存储介质 Pending CN113688893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110952977.3A CN113688893A (zh) 2021-08-19 2021-08-19 一种图片分类的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110952977.3A CN113688893A (zh) 2021-08-19 2021-08-19 一种图片分类的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113688893A true CN113688893A (zh) 2021-11-23

Family

ID=78580945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110952977.3A Pending CN113688893A (zh) 2021-08-19 2021-08-19 一种图片分类的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113688893A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665457A (zh) * 2018-05-16 2018-10-16 腾讯科技(深圳)有限公司 图像识别方法、装置、存储介质及计算机设备
CN109242042A (zh) * 2018-09-28 2019-01-18 百度在线网络技术(北京)有限公司 图片训练样本挖掘方法、装置、终端及计算机可读存储介质
CN109299715A (zh) * 2017-07-24 2019-02-01 图灵通诺(北京)科技有限公司 基于卷积神经网络的图像识别技术的结算方法和装置
US20190073588A1 (en) * 2017-09-06 2019-03-07 Panasonic Intellectual Property Management Co., Ltd. Learning apparatus, learning method, estimation apparatus, estimation method, and computer-readable storage medium
CN111104832A (zh) * 2018-10-29 2020-05-05 百度在线网络技术(北京)有限公司 图像标签获取方法、图像标签获取装置以及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299715A (zh) * 2017-07-24 2019-02-01 图灵通诺(北京)科技有限公司 基于卷积神经网络的图像识别技术的结算方法和装置
US20190073588A1 (en) * 2017-09-06 2019-03-07 Panasonic Intellectual Property Management Co., Ltd. Learning apparatus, learning method, estimation apparatus, estimation method, and computer-readable storage medium
CN108665457A (zh) * 2018-05-16 2018-10-16 腾讯科技(深圳)有限公司 图像识别方法、装置、存储介质及计算机设备
CN109242042A (zh) * 2018-09-28 2019-01-18 百度在线网络技术(北京)有限公司 图片训练样本挖掘方法、装置、终端及计算机可读存储介质
CN111104832A (zh) * 2018-10-29 2020-05-05 百度在线网络技术(北京)有限公司 图像标签获取方法、图像标签获取装置以及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘芳;刘玉坤;林森;郭文忠;徐凡;张白;: "基于改进型YOLO的复杂环境下番茄果实快速识别方法", 农业机械学报, no. 06 *

Similar Documents

Publication Publication Date Title
US11610384B2 (en) Zero-shot object detection
US10832096B2 (en) Representative-based metric learning for classification and few-shot object detection
CN109583332B (zh) 人脸识别方法、人脸识别***、介质及电子设备
US11804069B2 (en) Image clustering method and apparatus, and storage medium
US20200004815A1 (en) Text entity detection and recognition from images
CN112016638B (zh) 一种钢筋簇的识别方法、装置、设备及存储介质
CN111368878B (zh) 一种基于ssd目标检测的优化方法、计算机设备和介质
CN112906823B (zh) 目标对象识别模型训练方法、识别方法及识别装置
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN115578735B (zh) 文本检测方法和文本检测模型的训练方法、装置
CN111626291A (zh) 一种图像视觉关系检测方法、***及终端
CN114863229A (zh) 图像分类方法和图像分类模型的训练方法、装置
US20230096921A1 (en) Image recognition method and apparatus, electronic device and readable storage medium
CN114549904B (zh) 视觉处理及模型训练方法、设备、存储介质及程序产品
EP4273737A1 (en) Language labeling method and apparatus, and computer device and storage medium
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
CN113902899A (zh) 训练方法、目标检测方法、装置、电子设备以及存储介质
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN113887630A (zh) 图像分类方法、装置、电子设备和存储介质
CN113239883A (zh) 分类模型的训练方法、装置、电子设备以及存储介质
CN113223011A (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN113762455A (zh) 检测模型训练方法、单字检测方法、装置、设备及介质
CN113688893A (zh) 一种图片分类的方法、装置、电子设备及存储介质
CN114419327B (zh) 图像检测方法和图像检测模型的训练方法、装置
CN114416990B (zh) 对象关系网络的构建方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination