CN110674854B - 一种图像分类模型训练方法、图像分类方法、装置及设备 - Google Patents

一种图像分类模型训练方法、图像分类方法、装置及设备 Download PDF

Info

Publication number
CN110674854B
CN110674854B CN201910848857.1A CN201910848857A CN110674854B CN 110674854 B CN110674854 B CN 110674854B CN 201910848857 A CN201910848857 A CN 201910848857A CN 110674854 B CN110674854 B CN 110674854B
Authority
CN
China
Prior art keywords
image
sample set
classification model
sample
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910848857.1A
Other languages
English (en)
Other versions
CN110674854A (zh
Inventor
许志浩
纪勇
黄治纲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201910848857.1A priority Critical patent/CN110674854B/zh
Publication of CN110674854A publication Critical patent/CN110674854A/zh
Application granted granted Critical
Publication of CN110674854B publication Critical patent/CN110674854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开一种图像分类模型训练方法、装置及设备,该方法包括:基于有标签样本集和无标签样本集中各个图像样本分别属于各个类别的概率,从有标签样本集和无标签样本集中选择图像样本构造T个新样本集;利用T个新样本集分别对向量提取模型进行训练,得到T个经过训练的向量提取模型;将有标签样本集中的图像样本分别输入到所述T个经过训练的向量提取模型,得到的结果组成各图像样本的集成向量;利用有标签样本集中的各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型。本申请能够在保证模型精度的前提下,利用数量相对较少的有标签样本完成对图像分类模型的训练。本申请还提供了一种图像分类方法、装置及设备。

Description

一种图像分类模型训练方法、图像分类方法、装置及设备
技术领域
本申请涉及数据处理领域,具体涉及一种图像分类模型训练方法、图像分类方法、装置及设备。
背景技术
目前,大多数模型的精度严重依赖于有标签训练样本的数量,通常,有标签训练样本的数量越多,则利用该训练样本进行训练得到的模型的精度越高。尤其是对于图像分类模型,其分类精度严重依赖于有标签训练样本的数量。
实际应用中,一般是由人工标记训练样本的标签,显然,对大规模的训练样本进行人工标记无疑是耗时又耗力的。
因此,越来越多的人在思考,如何在保证图像分类模型精度的前提下,能够利用相对数量较少的有标签的训练样本完成对图像分类模型的训练。
发明内容
有鉴于此,本申请提供了一种图像分类模型训练方法、图像分类方法、装置及设备,能够在保证图像分类模型精度的前提下,利用数量相对较少的有标签样本完成对图像分类模型的训练。
第一方面,为实现上述发明目的,本申请提供了一种图像分类模型训练方法,所述方法包括:
基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集;
利用所述T个新样本集分别对预先构建的T个向量提取模型进行训练,得到T个经过训练的向量提取模型;
将有标签样本集中的图像样本分别输入到所述T个经过训练的向量提取模型,得到的结果组成所述有标签样本集中各图像样本的集成向量;
利用所述有标签样本集中的各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型。
一种可选的实施方式中,基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集之前,还包括
分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
一种可选的实施方式中,所述分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率之前,还包括:
从所述有标签样本集中的图像样本的特征向量随机抽取的m维特征构成随机特征向量;
通过所述有标签样本集中各个图像样本的随机特征向量和标签,对分类模型进行训练,得到经过训练的分类模型;
所述分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率,包括:
利用所述经过训练的分类模型,分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
一种可选的实施方式中,所述基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集,包括:
针对每个类别,对属于所述类别的概率进行从大到小的排名,确定排名前n个的概率分别对应的所述有标签样本集和所述无标签样本集中的图像样本;
利用所述图像样本构造新样本集。
一种可选的实施方式中,所述将有标签样本集中的图像样本分别输入到T个向量提取模型,得到的结果组成所述有标签样本集中各图像样本的集成向量,包括:
在提取到所述有标签样本集中的图像样本的特征向量后,将所述图像样本的特征向量分别作为T个向量提取模型的输入,经过所述T个向量提取模型的处理后,输出T个向量;
将所述T个向量集成为一个向量,作为所述图像样本的集成向量;其中,所述集成向量的标签为所述图像样本的标签。
第二方面,本申请还提供了一种图像分类方法,所述方法包括:
利用基于上述任一项所述的图像分类模型训练方法得到的T个向量提取模型,提取任一待分类图像的集成向量;
将所述集成向量作为基于上述任一项所述的图像分类模型训练方法得到的经过训练的图像分类模型的输入,经过所述经过训练的图像分类模型的分类处理后,输出所述待分类图像的分类结果。
第三方面,本申请还提供了一种图像分类模型训练装置,所述装置包括:
构造模块,用于基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集;
第一训练模块,用于利用所述T个新样本集分别对预先构建的T个向量提取模型进行训练,得到T个经过训练的向量提取模型;
第一向量提取模块,用于将有标签样本集中的图像样本分别输入到所述T个经过训练的向量提取模型,得到的结果组成所述有标签样本集中各图像样本的集成向量;
第二训练模块,用于利用所述有标签样本集中的各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型。
一种可选的实施方式中,所述装置还包括
第一分类模块,用于分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
一种可选的实施方式中,所述装置还包括:
随机模块,用于从所述有标签样本集中的图像样本的特征向量随机抽取的m维特征构成随机特征向量;
第三训练模块,用于通过所述有标签样本集中各个图像样本的随机特征向量和标签,对分类模型进行训练,得到经过训练的分类模型;
所述分类模块,具体用于:
利用所述经过训练的分类模型,分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
一种可选的实施方式中,所述构造模块,包括:
排名子模块,用于针对每个类别,对属于所述类别的概率进行从大到小的排名,确定排名前n个的概率分别对应的所述有标签样本集和所述无标签样本集中的图像样本;
构造子模块,用于利用所述图像样本构造新样本集。
一种可选的实施方式中,所述第一向量提取模块,包括:
向量提取子模块,用于在提取到所述有标签样本集中的图像样本的特征向量后,将所述图像样本的特征向量分别作为T个向量提取模型的输入,经过所述T个向量提取模型的处理后,输出T个向量;
集成子模块,用于将所述T个向量集成为一个向量,作为所述图像样本的集成向量;其中,所述集成向量的标签为所述图像样本的标签。
第四方面,本申请还提供了一种图像分类装置,所述装置包括:
第二向量提取模块,用于利用基于上述任一项所述的图像分类模型训练装置得到的T个向量提取模型,提取任一待分类图像的集成向量;
第二分类模块,用于将所述集成向量作为基于上述任一项所述的图像分类模型训练装置得到的经过训练的图像分类模型的输入,经过所述经过训练的图像分类模型的分类处理后,输出所述待分类图像的分类结果。
第五方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述任一项所述的方法。
第六方面,本申请还提供了一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述任一项所述的方法。
本申请提供了一种图像分类模型训练方法,首先,基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,构造T个新样本集,其次,对T个新样本集分别进行训练得到T个向量提取模型,并利用T个向量提取模型对有标签样本集中的各图像样本进行处理,得到对应的集成向量。最终,利用有标签样本集中各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型,完成对图像分类模型的训练。
可见,本申请提供的图像分类模型训练方法能够有效利用有标签样本集中的图像样本,并充分挖掘无标签样本集中图像样本的信息,重新构建T个新样本集,用于图像分类模型的训练,保证了图像样本的多样性。
另外,基于T个新样本集对T个向量提取模型分别进行训练,保证了T个向量提取模型准确性。
另外,基于有标签样本集中的各个图像样本经过T个向量提取模型处理得到的集成向量和对应的图像样本的标签,对图像分类模型进行训练。由于集成向量集合了图像样本被T个向量提取模型从各个角度提取到的特征,因此,利用样本的集合向量训练得到的图像分类模型的多样性和准确性能够得到保证。
综上,本申请提供的图像分类模型训练方法,能够在保证图像分类模型精度的前提下,利用数量相对较少的有标签的训练样本完成对模型的训练。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像分类模型训练方法的流程图;
图2为本申请实施例提供的一种向量提取子模型的训练示意图;
图3为本申请实施例提供的一种向量提取模型的示意图;
图4为本申请实施例提供的一种图像分类方法流程图;
图5为本申请实施例提供的一种图像分类过程的示意图;
图6为本申请实施例提供的一种图像分类模型训练装置的结构示意图;
图7为本申请实施例提供的一种图像分类装置结构示意图;
图8为本申请实施例提供的一种图像分类模型训练设备的结构示意图;
图9为本申请实施例提供的一种图像分类设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
由于人工完成对大量训练样本的标记是一项耗时又耗力的任务,因此,在有限数量的有标签的训练样本的应用场景下,本申请结合有限数量的有标签的训练样本与无标签的训练样本,实现对图像分类模型的训练。
具体的,本申请提供的图像分类模型训练方法中,首先,基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,构造T个新样本集,其次,对T个新样本集分别进行训练得到T个向量提取模型,并利用T个向量提取模型对有标签样本集中的各图像样本进行处理,得到对应的集成向量。最终,利用有标签样本集中各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型,完成对图像分类模型的训练。
可见,本申请提供的图像分类模型训练方法能够有效利用有标签样本集中的图像样本,并充分挖掘无标签样本集中图像样本的信息,重新构建T个新样本集,用于图像分类模型的训练,保证了图像样本的多样性。
另外,基于T个新样本集对T个向量提取模型分别进行训练,保证了T个向量提取模型准确性。
另外,基于有标签样本集中的各个图像样本经过T个向量提取模型处理得到的集成向量和对应的图像样本的标签,对图像分类模型进行训练。由于集成向量集合了图像样本被T个向量提取模型从各个角度提取到的特征,因此,利用样本的集合向量训练得到的图像分类模型的多样性和准确性能够得到保证。
以下本申请实施例提供了一种图像分类模型训练方法,参考图1,为本申请实施例提供的一种图像分类模型训练方法的流程图,该方法包括:
S101:基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集。
本申请实施例中,首先分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。其次,基于各个图像样本分别属于各个类别的概率,从该有标签样本集和该无标签样本集中选择图像样本构造T个新样本集。
一种可选的实施方式中,利用经过训练的分类模型,分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
本申请实施例对上述分类模型的训练方法可以包括:首先,从预先构建的有标签样本集中的图像样本的特征向量随机抽取的m维特征构成随机特征向量;其次,通过有标签样本集中各个图像样本的随机特征向量和标签,对分类模型进行训练,得到经过训练的分类模型。
一种可选的实施方式中,从有标签样本集中的各个图像样本中提取到的特征向量包括100维特征,本申请实施例可以从100维特征中随机抽取到20维特征重新构成向量,作为对应的图像样本的随机特征向量。
一种可选的实施方式中,为了有效利用有标签样本集中有限数量的有标签的训练样本,可以通过多次从各个图像样本的特征向量中随机抽取m维特征,分别构成该图像样本的随机特征向量,得到为有标签样本集中图像样本数量几倍的训练样本,以丰富用于训练分类模型的样本多样性。
本申请实施例中,在完成对分类模型的训练后,利用经过训练的分类模型重新对有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。具体的,将各个图像样本的特征向量随机抽取m维特征构成的随机特征向量作为经过训练的分类模型的输入,经过分类模型的分类处理后,得到各个图像样本分别属于各个类别的概率。
一种可选的实施方式中,分类模型不仅输出各个图像样本分别属于各个类别的概率,还可以输出各个图像样本所属的类别,通常各个类别中最大概率对应的类别即为该图像样本所属的类别。后续可以基于各个图像样本分别属于各个类别的概率构造新样本集,新样本集中的图像样本的标签即为该图像样本所属的类别。
一种可选的实施方式中,由于图像样本属于哪个类别的概率越大,说明该图像样本属于该类别的分类结果越准确,因此,本申请实施例为了优化新样本集中的图像样本,可以将属于每个类别的图像样本中按照概率排名的前n个图像样本构造成新样本集。具体的,首先,针对每个类别,对属于该类别的概率进行从大到小的排名,确定排名前n个的概率分别对应的有标签样本集和无标签样本集中的图像样本;然后利用上述确定出的图像样本构造新样本集。
实际应用中,利用经过训练的分类模型,对有标签样本集和无标签样本集中的各个图像样本进行T次分类处理,得到T组各个图像样本分别属于各个类别的概率。分别基于T组各个图像样本分别属于各个类别的概率,构造T个新样本集。
S102:利用所述T个新样本集分别对T个向量提取模型进行训练,得到T个经过训练的向量提取模型。
本申请实施例中,在得到T个新样本集后,利用T个新样本集以一对一的形式分别对预先建立的T个向量提取模型进行训练,得到T个经过训练的向量提取模型;其中,每个经过训练的向量提取模型的输出为向量。
参考图2,为本申请实施例提供的一种向量提取模型的训练示意图。具体的,预先构建T个向量提取模型,将得到的T个新样本集以一对一的形式,分别对T个向量提取模型进行训练。其中,各个向量提取模型的输入为对应的新样本集中图像样本的特征向量和标签;输出为对应的图像样本的向量,该向量为对向量提取模型中的分类算法的结果进行逻辑回归后得到的,该向量用于表示该图像样本分别属于各个类别的概率,具体的,该向量的任一维度的数值用于表示该图像样本属于该维度对应的类别的概率。
一种可选的实施方式中,向量提取模型中的分类算法可以是基于映射函数实现的。
实际应用中,对于每个新样本集,首先提取该新样本集中每个图像样本的特征向量,然后利用该新样本集中每个图像样本的特征向量和标签,对预先建立的向量提取模型进行训练,得到经过训练的向量提取模型。基于上述方式,利用T个新样本集以一对一的形式分别对T个向量提取模型进行训练,得到T个经过训练的向量提取模型。
一种可选的实施方式中,可以利用T个新样本集并行的分别对T个向量提取模型进行训练,也可以通过其他执行方式完成训练,本申请实施例对此不作限制。
本申请实施例中,利用T个新样本集分别对T个向量提取模型进行训练,使得T个向量提取模型能够从不同的角度学习到本申请提供的有标签样本集和无标签样本集中图像样本的特征,保证了由T个向量提取模型的结果构成的集成向量能够最大化体现图像样本的特征。
S103:将有标签样本集中的图像样本分别输入到所述T个经过训练的向量提取模型,得到的结果组成所述有标签样本集中各图像样本的集成向量。
如图3所示,为本申请实施例提供的一种集成向量获取过程的示意图。具体的,对于有标签样本集中的每一个图像样本,首先提取该图像样本的特征向量,其次,将该图像样本的特征向量分别作为T个向量提取模型的输入,经过T个向量提取模型的处理后,得到T个向量,由向量集成模块对T个向量进行集成后,得到该图像样本的集成向量;其中,集成向量的标签为该图像样本的标签。
一种可选的实施方式中,将T个向量集成为一个向量,具体可以为,将T个向量首尾连接成为一个向量,使得得到的集成向量最大化的体现对应的图像样本的特征。
本申请实施例中,利用T个向量提取模型分别对有标签样本集中的图像样本进行处理,得到各个图像样本的集成向量,以便利用各个图像样本的集成向量和标签构成图像分类模型的训练样本集。
S104:利用所述有标签样本集中的各个图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型。
本申请实施例中,在利用经过训练的T个向量提取模型得到有标签样本集中各个图像样本的集成向量后,利用有标签样本集中的图像样本的集成向量和对应的标签构成图像分类模型的训练样本集,并利用训练样本集中的集成向量和标签对图像分类模型进行训练,得到经过训练的图像分类模型。
本申请实施例提供的图像分类模型训练方法中,首先,基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,构造T个新样本集,其次,对T个新样本集分别进行训练得到T个向量提取模型,并利用T个向量提取模型对有标签样本集中的各图像样本进行处理,得到对应的集成向量。最终,利用有标签样本集中各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型,完成对图像分类模型的训练。
可见,本申请提供的图像分类模型训练方法能够有效利用有标签样本集中的图像样本,并充分挖掘无标签样本集中图像样本的信息,重新构建T个新样本集,用于图像分类模型的训练,保证了图像样本的多样性。
另外,基于T个新样本集对T个向量提取模型分别进行训练,保证了T个向量提取模型准确性。
另外,基于有标签样本集中的各个图像样本经过T个向量提取模型处理得到的集成向量和对应的图像样本的标签,对图像分类模型进行训练。由于集成向量集合了图像样本被T个向量提取模型从各个角度提取到的特征,因此,利用样本的集合向量训练得到的图像分类模型的多样性和准确性能够得到保证。
综上,本申请实施例提供的图像分类模型训练方法,能够在保证图像分类模型精度的前提下,利用数量相对较少的有标签样本完成对图像分类模型的训练。
基于上述图像分类模型训练方法,本申请提供了一种图像分类方法,参考图4,为本申请实施例提供的一种图像分类方法流程图,该方法包括:
S401:利用向量提取模型,提取任一待分类图象的集成向量。
本申请实施例中,用于提取待分类对象的集成向量的向量提取模型为基于上述图像分类模型训练方法得到的,具体的向量提取模型的介绍可参照上述图像分类模型训练方法进行理解,在此不再赘述。
S402:将所述集成向量作为经过训练的图像分类模型的输入,经过所述经过训练的图像分类模型的分类处理后,输出所述待分类图象的分类结果。
本申请实施例中,集成向量能够最大化的体现出待分类图象的特征,为此,本申请实施例基于待分类图象的集成向量对待分类图象进行分类,能够保证待分类图象的分类结果的准确性。
参考图5,为本申请实施例提供的一种图像分类过程的示意图,其中,首先提取待分类图象的特征向量,其次,将待分类图象的特征向量分别输入至T个向量提取模型中,T个向量提取模型分别对其进行处理后输出向量1-T,然后由向量集成模块将向量1-T连接成一个向量,作为待分类图象的集成向量。最终,将待分类图象的集成向量输入至图像分类模型中,经过图像分类模型的分类处理后,输出待分类图象的分类结果。
本申请实施例提供的图像分类方法中,由于向量提取模型提取到的集成向量能够最大化的表现出待分类图象的特征,因此,基于T个向量提取模型提取到的集成向量,对待分类图象进行分类,能够提高分类结果的准确性。
与上述方法实施例相对应的,本申请还提供了一种图像分类模型训练装置,参考图6,为本申请实施例提供的一种图像分类模型训练装置的结构示意图,所述装置包括:
构造模块601,用于基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集;
第一训练模块602,用于利用所述T个新样本集分别对预先构建的T个向量提取模型进行训练,得到T个经过训练的向量提取模型;
第一向量提取模块603,用于将有标签样本集中的图像样本分别输入到所述T个经过训练的向量提取模型,得到的结果组成所述有标签样本集中各图像样本的集成向量;
第二训练模块604,用于利用所述有标签样本集中的各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型。
一种可选的实施方式中,所述装置还包括
第一分类模块,用于分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
一种可选的实施方式中,所述装置还包括:
随机模块,用于从所述有标签样本集中的图像样本的特征向量随机抽取的m维特征构成随机特征向量;
第三训练模块,用于通过所述有标签样本集中各个图像样本的随机特征向量和标签,对分类模型进行训练,得到经过训练的分类模型;
所述分类模块,具体用于:
利用所述经过训练的分类模型,分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
一种可选的实施方式中,所述构造模块,包括:
排名子模块,用于针对每个类别,对属于所述类别的概率进行从大到小的排名,确定排名前n个的概率分别对应的所述有标签样本集和所述无标签样本集中的图像样本;
构造子模块,用于利用所述图像样本构造新样本集。
一种可选的实施方式中,所述第一向量提取模块,包括:
向量提取子模块,用于在提取到所述有标签样本集中的图像样本的特征向量后,将所述图像样本的特征向量分别作为T个向量提取模型的输入,经过所述T个向量提取模型的处理后,输出T个向量;
集成子模块,用于将所述T个向量集成为一个向量,作为所述图像样本的集成向量;其中,所述集成向量的标签为所述图像样本的标签。
本申请实施例提供的图像分类模型训练装置,首先,基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,构造T个新样本集,其次,对T个新样本集分别进行训练得到T个向量提取模型,并利用T个向量提取模型对有标签样本集中的各图像样本进行处理,得到对应的集成向量。最终,利用有标签样本集中各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型,完成对图像分类模型的训练。
可见,本申请提供的图像分类模型训练装置能够有效利用有标签样本集中的图像样本,并充分挖掘无标签样本集中图像样本的信息,重新构建T个新样本集,用于图像分类模型的训练,保证了图像样本的多样性。
另外,基于T个新样本集对T个向量提取模型分别进行训练,保证了T个向量提取模型准确性。
另外,基于有标签样本集中的各个图像样本经过T个向量提取模型处理得到的集成向量和对应的图像样本的标签,对图像分类模型进行训练。由于集成向量集合了图像样本被T个向量提取模型从各个角度提取到的特征,因此,利用样本的集合向量训练得到的图像分类模型的多样性和准确性能够得到保证。
综上,本申请实施例提供的图像分类模型训练装置,能够在保证模型精度的前提下,利用数量相对较少的有标签的训练样本完成对模型的训练。
另外,基于上述图像分类模型训练装置,本申请还提供了一种图像分类装置,参考图7,为本申请实施例提供的一种图像分类装置结构示意图,所述装置包括:
第二向量提取模块701,用于利用基于上述任一项所述的图像分类模型训练装置得到的向量提取模型,提取任一待分类图象的集成向量;
第二分类模块702,用于将所述集成向量作为基于上述任一项所述的图像分类模型训练装置得到的经过训练的图像分类模型的输入,经过所述经过训练的图像分类模型的分类处理后,输出所述待分类图象的分类结果。
本申请实施例提供的图像分类装置中,由于向量提取模型提取到的集成向量能够最大化的表现出待分类图象的特征,因此,基于向量提取模型提取到的集成向量,对待分类图象进行分类,能够提高分类结果的准确性。
另外,本申请实施例还提供了一种图像分类模型训练设备,参见图8所示,可以包括:
处理器801、存储器802、输入装置803和输出装置804。图像分类模型训练设备中的处理器801的数量可以一个或多个,图8中以一个处理器为例。在本发明的一些实施例中,处理器801、存储器802、输入装置803和输出装置804可通过总线或其它方式连接,其中,图8中以通过总线连接为例。
存储器802可用于存储软件程序以及模块,处理器801通过运行存储在存储器802的软件程序以及模块,从而执行图像分类模型训练设备的各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置803可用于接收输入的数字或字符信息,以及产生与图像分类模型训练设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器801会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器801来运行存储在存储器802中的应用程序,从而实现上述图像分类模型训练方法中的各种功能。
另外,本申请实施例还提供了一种图像分类设备,参见图9所示,可以包括:
处理器901、存储器902、输入装置903和输出装置904。图像分类设备中的处理器901的数量可以一个或多个,图9中以一个处理器为例。在本发明的一些实施例中,处理器901、存储器902、输入装置903和输出装置904可通过总线或其它方式连接,其中,图9中以通过总线连接为例。
存储器902可用于存储软件程序以及模块,处理器901通过运行存储在存储器902的软件程序以及模块,从而执行图像分类设备的各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置903可用于接收输入的数字或字符信息,以及产生与图像分类设备的用户设置以及功能控制有关的信号输入。
具体在本实施例中,处理器901会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中,并由处理器901来运行存储在存储器902中的应用程序,从而实现上述图像分类方法中的各种功能。
另外,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述的图像分类模型训练方法或图像分类方法。
可以理解的是,对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请实施例所提供的一种图像分类模型训练方法、图像分类方法、装置及设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种图像分类模型训练方法,其特征在于,所述方法包括:
基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集;
利用所述T个新样本集以一对一的形式分别对预先构建的T个向量提取模型进行训练,得到T个经过训练的向量提取模型;
将有标签样本集中的图像样本分别输入到所述T个经过训练的向量提取模型以输出T个向量,基于所述T个向量组成所述有标签样本集中各图像样本的集成向量;
利用所述有标签样本集中的各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型。
2.根据权利要求1所述的方法,其特征在于,基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集之前,还包括
分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
3.根据权利要求2所述的方法,其特征在于,所述分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率之前,还包括:
从所述有标签样本集中的图像样本的特征向量随机抽取的m维特征构成随机特征向量;
通过所述有标签样本集中各个图像样本的随机特征向量和标签,对分类模型进行训练,得到经过训练的分类模型;
所述分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率,包括:
利用所述经过训练的分类模型,分别对预先构建的有标签样本集和无标签样本集中的各个图像样本进行分类处理,得到各个图像样本分别属于各个类别的概率。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集,包括:
针对每个类别,对属于所述类别的概率进行从大到小的排名,确定排名前n个的概率分别对应的所述有标签样本集和所述无标签样本集中的图像样本;
利用所述图像样本构造新样本集。
5.根据权利要求1-3中任一项所述的方法,其特征在于,所述将有标签样本集中的图像样本分别输入到T个向量提取模型以输出T个向量,基于所述T个向量组成所述有标签样本集中各图像样本的集成向量,包括:
在提取到所述有标签样本集中的图像样本的特征向量后,将所述图像样本的特征向量分别作为T个向量提取模型的输入,经过所述T个向量提取模型的处理后,输出T个向量;
将所述T个向量集成为一个向量,作为所述图像样本的集成向量;其中,所述集成向量的标签为所述图像样本的标签。
6.一种图像分类方法,其特征在于,所述方法包括:
利用基于权利要求1-5中任一项所述的图像分类模型训练方法得到的T个向量提取模型,提取任一待分类图像的集成向量;
将所述集成向量作为基于权利要求1-5中任一项所述的图像分类模型训练方法得到的经过训练的图像分类模型的输入,经过所述经过训练的图像分类模型的分类处理后,输出所述待分类图像的分类结果。
7.一种图像分类模型训练装置,其特征在于,所述装置包括:
构造模块,用于基于有标签样本集和无标签样本集中的各个图像样本分别属于各个类别的概率,从所述有标签样本集和所述无标签样本集中选择图像样本构造T个新样本集;
第一训练模块,用于利用所述T个新样本集以一对一的形式分别对预先构建的T个向量提取模型进行训练,得到T个经过训练的向量提取模型;
第一向量提取模块,用于将有标签样本集中的图像样本分别输入到所述T个经过训练的向量提取模型以输出T个向量,基于所述T个向量组成所述有标签样本集中各图像样本的集成向量;
第二训练模块,用于利用所述有标签样本集中的各图像样本的集成向量和标签,对图像分类模型进行训练,得到经过训练的图像分类模型。
8.一种图像分类装置,其特征在于,所述装置包括:
第二向量提取模块,用于利用基于权利要求7所述的图像分类模型训练装置得到的T个向量提取模型,提取任一待分类图像的集成向量;
第二分类模块,用于将所述集成向量作为基于权利要求7所述的图像分类模型训练装置得到的经过训练的图像分类模型的输入,经过所述经过训练的图像分类模型的分类处理后,输出所述待分类图像的分类结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行如权利要求1-6任一项所述的方法。
10.一种设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-6任一项所述的方法。
CN201910848857.1A 2019-09-09 2019-09-09 一种图像分类模型训练方法、图像分类方法、装置及设备 Active CN110674854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910848857.1A CN110674854B (zh) 2019-09-09 2019-09-09 一种图像分类模型训练方法、图像分类方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910848857.1A CN110674854B (zh) 2019-09-09 2019-09-09 一种图像分类模型训练方法、图像分类方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110674854A CN110674854A (zh) 2020-01-10
CN110674854B true CN110674854B (zh) 2022-05-17

Family

ID=69076695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910848857.1A Active CN110674854B (zh) 2019-09-09 2019-09-09 一种图像分类模型训练方法、图像分类方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110674854B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111352965B (zh) * 2020-02-18 2023-09-08 腾讯科技(深圳)有限公司 序列挖掘模型的训练方法、序列数据的处理方法及设备
CN111931865B (zh) * 2020-09-17 2021-01-26 平安科技(深圳)有限公司 图像分类模型的训练方法、装置、计算机设备及存储介质
CN113065533B (zh) * 2021-06-01 2021-11-02 北京达佳互联信息技术有限公司 一种特征提取模型生成方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909540A (zh) * 2015-12-23 2017-06-30 神州数码信息***有限公司 一种基于协同学习的智慧城市市民偏好发现技术
CN107038252A (zh) * 2017-05-04 2017-08-11 沈阳航空航天大学 一种基于多模态数据的路由度量的生成方法
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法
CN109886343A (zh) * 2019-02-26 2019-06-14 深圳市商汤科技有限公司 图像分类方法及装置、设备、存储介质
CN110163301A (zh) * 2019-05-31 2019-08-23 北京金山云网络技术有限公司 一种图像的分类方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018052586A1 (en) * 2016-09-14 2018-03-22 Konica Minolta Laboratory U.S.A., Inc. Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
CN109858505B (zh) * 2017-11-30 2023-04-07 厦门大学 分类识别方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909540A (zh) * 2015-12-23 2017-06-30 神州数码信息***有限公司 一种基于协同学习的智慧城市市民偏好发现技术
CN107038252A (zh) * 2017-05-04 2017-08-11 沈阳航空航天大学 一种基于多模态数据的路由度量的生成方法
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
CN108881196A (zh) * 2018-06-07 2018-11-23 中国民航大学 基于深度生成模型的半监督入侵检测方法
CN109886343A (zh) * 2019-02-26 2019-06-14 深圳市商汤科技有限公司 图像分类方法及装置、设备、存储介质
CN110163301A (zh) * 2019-05-31 2019-08-23 北京金山云网络技术有限公司 一种图像的分类方法及装置

Also Published As

Publication number Publication date
CN110674854A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN110674854B (zh) 一种图像分类模型训练方法、图像分类方法、装置及设备
CN109471915B (zh) 一种文本评价方法、装置、设备以及可读存储介质
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN110442718A (zh) 语句处理方法、装置及服务器和存储介质
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
CN111914159B (zh) 一种信息推荐方法及终端
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN108984555B (zh) 用户状态挖掘和信息推荐方法、装置以及设备
CN110490237B (zh) 数据处理方法、装置、存储介质及电子设备
CN105069129A (zh) 自适应多标签预测方法
CN110232128A (zh) 题目文本分类方法及装置
CN110543603A (zh) 基于用户行为的协同过滤推荐方法、装置、设备和介质
CN105164672A (zh) 内容分类
CN110516164B (zh) 一种信息推荐方法、装置、设备及存储介质
CN110472246A (zh) 工单分类方法、装置及存储介质
CN114692889A (zh) 用于机器学习算法的元特征训练模型
CN112948526A (zh) 用户画像的生成方法及装置、电子设备、存储介质
CN113515620A (zh) 电力设备技术标准文档排序方法、装置、电子设备和介质
CN117077679A (zh) 命名实体识别方法和装置
CN103544500B (zh) 多用户自然场景标记排序方法
CN115878891A (zh) 直播内容生成方法、装置、设备以及计算机存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant