CN112508078B - 图像多任务多标签识别方法、***、设备及介质 - Google Patents
图像多任务多标签识别方法、***、设备及介质 Download PDFInfo
- Publication number
- CN112508078B CN112508078B CN202011394086.2A CN202011394086A CN112508078B CN 112508078 B CN112508078 B CN 112508078B CN 202011394086 A CN202011394086 A CN 202011394086A CN 112508078 B CN112508078 B CN 112508078B
- Authority
- CN
- China
- Prior art keywords
- label
- training
- image
- tag
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 139
- 238000000605 extraction Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 12
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种图像多任务多标签识别方法、***、设备及介质,所述图像多任务多标签识别方法包括步骤:基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;基于第二训练集对所述初始单标签识别模型进行训练,生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集中的标签标注生成;基于所述多个目标单标签识别模型,获得一多标签识别模型;本申请避免了需要收集多标签数据集,导致数据集收集难度大的问题,降低了训练数据集的获取难度;并且利用单标签数据集训练模型,有利于提高模型的训练效果。
Description
技术领域
本发明涉及图像识别技术领域,具体地说,涉及一种图像多任务多标签识别方法、***、设备及介质。
背景技术
图像可直观表示与传达信息,因此在互联网的信息传播中大规模应用,有效准确地展示图像能极大地提升用户体验。由于网络图像来源广泛,内容通常比较复杂,单幅图像往往含有多个语义,具有多个标签属性。当前这些标签的维护极大程度依赖于运营人工维护,人工成本高昂,且不同的运营人员对图像的理解有偏差,因此人工标签往往不全面且内容难以统一规范。因此通过图像识别算法来自动化提取标签成为一种必然趋势,可极大地节省人力成本,提高图像标注效率。
当前图像识别领域常规的方法是通过单标签识别模型来识别图像的信息,而单标签识别模型对于单幅图像来说只能预测得到一个标签,难以满足更复杂且个性化的图像识别要求。另一种常见方法是利用多标签数据集训练多标签识别模型,即训练集的每一张图片标注有多个标签,然而多标签数据集的收集难度成本较高,并且模型训练计算复杂度高。
如果利用多个归属于不同属性的单标签数据集训练多个单标签识别模型,来联合预测图像的不同标签。则会存在多个模型的部署计算成本较高,并含有大量的冗余计算的问题。
如果利用多个归属于不同属性的单标签数据集训练一个多标签识别模型,则无法得到准确的模型参数,模型训练效果较差。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种图像多任务多标签识别方法、***、设备及介质,不仅能够对图像进行多标签标注,而且避免了需要收集多标签数据集,导致数据集收集难度大的问题,降低了训练数据集的获取难度。
为实现上述目的,本发明提供了一种图像多任务多标签识别方法,所述方法包括以下步骤:
S20,基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;
S30,基于第二训练集对所述初始单标签识别模型进行训练,生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集中的标签标注生成;
S40,基于所述多个目标单标签识别模型,获得一多标签识别模型;
S50,利用所述多标签识别模型对待测图像进行识别,输出待测图像对应的多个标签。
可选地,用于训练所有所述预设单标签识别模型的所述第一训练集相同;训练每一个所述初始单标签识别模型的所述第二训练集均不同;
所述第二训练集具有多个,所述第二训练集的数量与所述初始单标签识别模型的数量相同;所述第二训练集中的每一图像均标注有一所述标签,每一所述标签归属于一属性;每一所述第二训练集中的所有图像标注的标签归属于同一属性。
可选地,所述预设单标签识别模型中包含多个残差层;所述步骤S30还包括:
在训练过程中,保持所述初始单标签识别模型中前m个残差层的参数不变,对其他所述残差层的参数进行更新;m为预设整数。
可选地,所述基于所述多个目标单标签识别模型,获得一多标签识别模型,包括:
对所述多个目标单标签识别模型进行合成,获得一多标签识别模型。
可选地,所述对所述多个目标单标签识别模型进行合成,获得一多标签识别模型,包括:
对所述前m个残差层进行合并,获得一多标签识别模型。
可选地,所述预设标签集中的每一所述标签归属于一属性;所述多标签识别模型具有N个特征提取分支网络,每一所述特征提取分支网络用于对一个所述属性进行提取,N为所述属性的数量,所述属性的数量与所述初始单标签识别模型的数量相同。
可选地,在所述步骤S20之前,所述方法还包括步骤:
S10,构建损失函数;
所述步骤S20包括:
基于第一训练集和所述损失函数对多个预设单标签识别模型分别进行训练;
所述步骤S30包括:
基于第二训练集和所述损失函数对所述初始单标签识别模型进行训练;
所述损失函数为:
其中,zk为所述特征提取分支网络输出的特征向量中的第k个元素,Q为所述特征提取分支网络提取的所述属性中包含的标签数量,zi为所述特征提取分支网络输出的特征向量中的第i个元素,pi表示所述特征提取分支网络提取的所述属性中第i个标签的输出概率;yi表示所述特征提取分支网络提取的所述属性中第i个标签的真实概率值;yi为0或1;Loss表示所述损失函数。
可选地,所述预设单标签识别模型均基于Resnet50卷积神经网络构建。
本发明还提供了一种图像多任务多标签识别***,用于实现上述图像多任务多标签识别方法,所述***包括:
第一训练模块,基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;
第二训练模块,基于第二训练集对所述初始单标签识别模型进行训练,生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集中的标签标注生成;
多标签识别模型获取模块,基于所述多个目标单标签识别模型,获得一多标签识别模型;
识别模块,利用所述多标签识别模型对待测图像进行识别,输出待测图像对应的多个标签。
本发明还提供了一种图像多任务多标签识别设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项图像多任务多标签识别方法的步骤。
本发明还提供了一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现上述任意一项图像多任务多标签识别方法的步骤。
本发明与现有技术相比,具有以下优点及突出性效果:
本发明提供的图像多任务多标签识别方法、***、设备及介质通过先利用开源数据集训练模型形成初始单标签识别模型,然后只需利用小数据量的第二训练集训练初始单标签识别模型,即可达到较佳的训练效果;减小了模型训练所需数据量,同时避免了需要收集多标签数据集,导致数据集收集难度大的问题,降低了训练数据集的获取难度;并且利用单标签数据集训练模型,有利于提升模型的训练效果,从而提高模型识别的准确率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1为本发明一实施例公开的一种图像多任务多标签识别方法的示意图;
图2为本发明一实施例公开的多标签识别模型的结构示意图;
图3为本发明另一实施例公开的一种图像多任务多标签识别方法的示意图;
图4为本发明一实施例公开的一种图像多任务多标签识别***的结构示意图;
图5为本发明一实施例公开的一种图像多任务多标签识别设备的结构示意图;
图6为本发明一实施例公开的一种计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
如图1所示,本发明实施例公开了一种图像多任务多标签识别方法,该方法包括以下步骤:
S20,基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型。上述第一训练集为开源数据集。比如,开源数据集可以为ImageNet数据集。上述预设单标签识别模型均基于Resnet50卷积神经网络构建。用于训练所有上述预设单标签识别模型的第一训练集相同。也即,基于同一第一训练集对上述多个预设单标签识别模型分别进行训练。
其中,第一训练集包含有多个图像,每个图像标注有预设标签集中的一个标签。预设标签集中的每一个标签归属于一个属性。每一个属性可以包含多个标签。比如,属性为“时段”时,对应包含的标签可以有:“白天”、“黄昏”以及“黑夜”。在其他实施例中,多个预设单标签识别模型也可以采用不同的卷积神经网络构建。也即,第一训练集为单标签数据集。需要说明的是,本申请对上述开源数据集的选择、卷积神经网络的选择均不作限定。
S30,基于第二训练集对上述初始单标签识别模型进行训练,生成多个目标单标签识别模型。上述第二训练集为对预设数据集依据预设标签集中的标签标注生成。其中,上述预设单标签识别模型、初始单标签识别模型以及目标单标签识别模型对图像进行识别后,均只能输出一个标签。
本实施例中,基于不同的第二训练集对上述初始单标签识别模型进行训练。并且,训练每一个初始单标签识别模型的上述第二训练集均不同。也即,上述第二训练集具有多个。且上述第二训练集的数量与上述初始单标签识别模型的数量相同。每一个第二训练集用来训练一个初始单标签识别模型。
上述第二训练集中的每一图像均标注有归属于预设标签集中的一标签。也即,第二训练集也是单标签数据集。每一个第二训练集中的所有图像标注的标签归属于同一属性。不同第二训练集中的标签归属的属性是不同的。也即,每两个第二训练集标注的标签归属的属性是不同的。上述属性的数量与上述初始单标签识别模型的数量相同。
本实施例中,上述预设单标签识别模型中包含多个残差层。
在其他实施例中,在上述步骤S30的基础上,步骤S30还可以包括:
在训练过程中,保持上述初始单标签识别模型中前m个残差层的参数不变,仅对其他上述残差层的参数进行更新。m为预设整数。具体来说,可以根据得到的预设单标签识别模型的训练效果,确定前m个残差层的参数固定不变。也即,前m个残差层的参数不随初始单标签识别模型的训练过程进行更新,仅对除了前m个残差层之外的其他残差层的参数进行更新。并且前m个残差层的参数是共享的,可以保证在具有较佳训练效果的前提下,降低模型训练的计算量,提高模型训练速度。
S40,基于上述多个目标单标签识别模型,获得一多标签识别模型。也即,对上述多个目标单标签识别模型进行合成,获得一个多标签识别模型。具体来说,对N个目标单标签识别模型中的前m个残差层进行合并,形成多标签识别模型的主干网络。主干网络的前m个残差层的参数完全相同,所以可以直接合并。对各个目标单标签识别模型除前m个残差层之外的其它层保留下来,作为多标签识别模型的各个分支网络,也即形成N个特征提取分支网络。
所以,作为主干网络的前m个残差层的参数是经过第一训练集训练后确定的。N个特征提取分支网络的各层参数是依次经过第一训练集和第二训练集训练后确定的。这样实现了利用较小数据量的第二训练集来训练,即可达到良好的训练效果。
以及S50,利用所述多标签识别模型对待测图像进行识别,输出待测图像对应的多个标签。其中,多标签识别模型中的每一个特征提取分支网络输出一个标签。每一特征提取分支网络输出的标签匹配一个属性。
图2为本实施例公开的多标签识别模型的结构示意图。如图2所示,上述多标签识别模型具有N个特征提取分支网络。每一上述特征提取分支网络用于对一个上述属性进行提取,得到归属于该属性下的一个标签。这样多标签识别模型可以提取到N个属性各自包含的标签,也即提取出N个标签。N为上述属性的数量,也是初始单标签识别模型的数量,也是目标单标签识别模型的数量,也是多标签识别模型输出的标签数量。
这样使得后续利用多标签识别模型对待测图像进行识别时,每个特征提取分支网络只负责提取一个属性包含的一个标签即可。多个特征提取分支网络可以实现多任务并行推理,同时提取N个属性各自对应的标签。这样利用多个单标签数据集即可训练生成一个较佳的多标签识别模型,解决了多标签数据集获取困难的问题,并且并非直接利用多标签数据集来训练多标签识别模型,降低了模型训练计算量以及复杂度,提高模型训练效率。
另一方面,将训练后的多个单标签识别模型重组形成一多标签识别模型,相比于直接利用训练后的多个单标签识别模型进行后续预测推理的方案,一是可以避免多个模型的部署计算成本较高,并含有大量的冗余计算的问题;二是可以提高模型对利用单幅图像标注多个标签情况下的推理速度。
参考图2,示例性地,input image为输入图像,即待测图像。Resblock_a和Resblock_b形成主干网络,分别表示第1个、第2个残差层。Resblock_c_1、Resblock_d_1、Task_specific_layers_1和Output_1分别表示第一个特征提取分支网络的第3个残差层、第4个残差层、任务适应层和输出层。Resblock_c_2、Resblock_d_2、Task_specific_layers_2和Output_2分别表示第二个特征提取分支网络的第3个残差层、第4个残差层、任务适应层和输出层。Resblock_c_N、Resblock_d_N、Task_specific_layers_N和Output_N分别表示第N个特征提取分支网络的第3个残差层、第4个残差层、任务适应层和输出层。
其中,任务适应层为全连接层。输出层输出每一个特征提取分支网络提取得到的标签。需要说明的是,本实施例中,主干网络具有2个残差层,但本申请不以此为限,本领域技术人员可以根据模型训练效果确定其他数量的残差层作为主干网络。
构建损失函数。具体而言,损失函数用于计算训练结果中的数据与属性标签信息中标注的数据之间的差异。步骤S30包括:
分别构建上述属性预测分支网络以及上述特征提取分支网络各自对应的损失函数。
其中,属性预测分支网络对应的损失函数用于计算属性预测分支网络训练结果的损失。特征提取分支网络对应的损失函数用于计算特征提取分支网络训练结果的损失。构建属性预测分支网络对应的损失函数利用现有技术即可实现,比如Softmax(一种逻辑回归模型)分类损失函数等。
如图3所示,在本申请的另一实施例中,在上述实施例的基础上,在上述步骤S20之前,上述方法还包括步骤:
S10,构建损失函数。损失函数用于计算训练结果中的数据与预设的真实概率值之间的差异。
上述步骤S20包括:基于第一训练集和上述损失函数对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型。
上述步骤S30包括:基于第二训练集和上述损失函数对上述初始单标签识别模型进行训练,生成多个目标单标签识别模型。
上述损失函数为:
其中,zk为上述特征提取分支网络输出的特征向量中的第k个元素。Q为特征提取分支网络提取的在某一属性中包含的标签数量。zi为特征提取分支网络输出的特征向量中的第i个元素。pi表示特征提取分支网络提取的某一属性中第i个标签的输出概率。yi表示特征提取分支网络提取的某一属性中第i个标签的预设的真实概率值。yi取值0或1。Loss表示上述损失函数。
如图4所示,本发明实施例还公开了一种图像多任务多标签识别***4,该***包括:
第一训练模块41,基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;上述第一训练集为开源数据集。
第二训练模块42,基于第二训练集对上述初始单标签识别模型进行训练,生成多个目标单标签识别模型;上述第二训练集为对预设数据集依据预设标签集中的标签标注生成。
多标签识别模型获取模块43,基于上述多个目标单标签识别模型,获得一多标签识别模型;
识别模块44,利用所述多标签识别模型对待测图像进行识别,输出待测图像对应的多个标签。
可以理解的是,本发明的图像多任务多标签识别***还包括其他支持图像多任务多标签识别***运行的现有功能模块。图4显示的图像多任务多标签识别***仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
本实施例中的图像多任务多标签识别***用于实现上述的图像多任务多标签识别方法,因此对于图像多任务多标签识别***的具体实施步骤可以参照上述对图像多任务多标签识别方法的描述,此处不再赘述。
本发明实施例还公开了一种图像多任务多标签识别设备,包括处理器和存储器,其中存储器存储有所述处理器的可执行指令;处理器配置为经由执行可执行指令来执行上述图像多任务多标签识别方法中的步骤。图5是本发明公开的图像多任务多标签识别设备的结构示意图。下面参照图5来描述根据本发明的这种实施方式的电子设备600。图5显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述图像多任务多标签识别方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。
本发明还公开了一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述图像多任务多标签识别方法中的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述图像多任务多标签识别方法中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例的计算机可读存储介质的程序在执行时,通过先利用开源数据集训练模型形成初始单标签识别模型,然后只需利用小数据量的第二训练集训练初始单标签识别模型,即可达到较佳的训练效果;减小了模型训练所需数据量的同时,降低了多标签识别模型训练过程的复杂度,提高模型对多标签预测过程的推理速度。
图6是本发明的计算机可读存储介质的结构示意图。参考图6所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明实施例提供的图像多任务多标签识别方法、***、设备及介质通过先利用开源数据集训练模型形成初始单标签识别模型,然后只需利用小数据量的第二训练集训练初始单标签识别模型,即可达到较佳的训练效果;减小了模型训练所需数据量,同时避免了需要收集多标签数据集,导致数据集收集难度大的问题,降低了训练数据集的获取难度;并且利用单标签数据集训练模型,有利于提升模型的训练效果,从而提高模型识别的准确率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (9)
1.一种图像多任务多标签识别方法,其特征在于,包括以下步骤:
S20,基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;
S30,基于第二训练集对所述初始单标签识别模型进行训练,生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集中的标签标注生成;
S40,基于所述多个目标单标签识别模型,获得一多标签识别模型;
S50,利用所述多标签识别模型对待测图像进行识别,输出待测图像对应的多个标签;
所述预设标签集中的每一所述标签归属于一属性;所述多标签识别模型具有N个特征提取分支网络,每一所述特征提取分支网络用于对一个所述属性进行提取,N为所述属性的数量,所述属性的数量与所述初始单标签识别模型的数量相同;
在所述步骤S20之前,所述方法还包括步骤:
S10,构建损失函数;
所述步骤S20包括:
基于第一训练集和所述损失函数对多个预设单标签识别模型分别进行训练;
所述步骤S30包括:
基于第二训练集和所述损失函数对所述初始单标签识别模型进行训练;
所述损失函数为:
其中,zk为所述特征提取分支网络输出的特征向量中的第k个元素,Q为所述特征提取分支网络提取的所述属性中包含的标签数量,zi为所述特征提取分支网络输出的特征向量中的第i个元素,pi表示所述特征提取分支网络提取的所述属性中第i个标签的输出概率;yi表示所述特征提取分支网络提取的所述属性中第i个标签的真实概率值;yi为0或1;Loss表示所述损失函数。
2.如权利要求1所述的图像多任务多标签识别方法,其特征在于,用于训练所有所述预设单标签识别模型的所述第一训练集相同;训练每一个所述初始单标签识别模型的所述第二训练集均不同;
所述第二训练集具有多个,所述第二训练集的数量与所述初始单标签识别模型的数量相同;所述第二训练集中的每一图像均标注有一所述标签,每一所述标签归属于一属性;每一所述第二训练集中的所有图像标注的标签归属于同一属性。
3.如权利要求1所述的图像多任务多标签识别方法,其特征在于,所述预设单标签识别模型中包含多个残差层;所述步骤S30还包括:
在训练过程中,保持所述初始单标签识别模型中前m个残差层的参数不变,对其他所述残差层的参数进行更新;m为预设整数。
4.如权利要求3所述的图像多任务多标签识别方法,其特征在于,所述基于所述多个目标单标签识别模型,获得一多标签识别模型,包括:
对所述多个目标单标签识别模型进行合成,获得一多标签识别模型。
5.如权利要求4所述的图像多任务多标签识别方法,其特征在于,所述对所述多个目标单标签识别模型进行合成,获得一多标签识别模型,包括:
对所述前m个残差层进行合并,获得一多标签识别模型。
6.如权利要求1所述的图像多任务多标签识别方法,其特征在于,所述预设单标签识别模型均基于Resnet50卷积神经网络构建。
7.一种图像多任务多标签识别***,用于实现如权利要求1所述的图像多任务多标签识别方法,其特征在于,所述***包括:
第一训练模块,基于第一训练集对多个预设单标签识别模型分别进行训练,生成多个初始单标签识别模型;所述第一训练集为开源数据集;
第二训练模块,基于第二训练集对所述初始单标签识别模型进行训练,生成多个目标单标签识别模型;所述第二训练集为对预设数据集依据预设标签集中的标签标注生成;
多标签识别模型获取模块,基于所述多个目标单标签识别模型,获得一多标签识别模型;
识别模块,利用所述多标签识别模型对待测图像进行识别,输出待测图像对应的多个标签。
8.一种图像多任务多标签识别设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任意一项所述图像多任务多标签识别方法的步骤。
9.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至6中任意一项所述图像多任务多标签识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011394086.2A CN112508078B (zh) | 2020-12-02 | 2020-12-02 | 图像多任务多标签识别方法、***、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011394086.2A CN112508078B (zh) | 2020-12-02 | 2020-12-02 | 图像多任务多标签识别方法、***、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112508078A CN112508078A (zh) | 2021-03-16 |
CN112508078B true CN112508078B (zh) | 2024-06-14 |
Family
ID=74969369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011394086.2A Active CN112508078B (zh) | 2020-12-02 | 2020-12-02 | 图像多任务多标签识别方法、***、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508078B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627477A (zh) * | 2021-07-07 | 2021-11-09 | 武汉魅瞳科技有限公司 | 车辆多属性识别方法及*** |
CN113723341B (zh) * | 2021-09-08 | 2023-09-01 | 北京有竹居网络技术有限公司 | 视频的识别方法、装置、可读介质和电子设备 |
CN114005166A (zh) * | 2021-11-25 | 2022-02-01 | 浩云科技股份有限公司 | 一种基于多任务学习的人脸识别方法和装置 |
CN116070119B (zh) * | 2023-03-31 | 2023-10-27 | 北京数慧时空信息技术有限公司 | 基于小样本的多任务组合模型的训练方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
CN110378410A (zh) * | 2019-07-16 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 多标签场景分类方法、装置及电子设备 |
WO2020083073A1 (zh) * | 2018-10-23 | 2020-04-30 | 苏州科达科技股份有限公司 | 非机动车图像多标签分类方法、***、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108140143B (zh) * | 2015-11-06 | 2022-06-14 | 谷歌有限责任公司 | 训练神经网络的方法、***及存储介质 |
CN107679552A (zh) * | 2017-09-11 | 2018-02-09 | 北京飞搜科技有限公司 | 一种基于多分支训练的场景分类方法以及*** |
CN110163234B (zh) * | 2018-10-10 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置和存储介质 |
CA3061717A1 (en) * | 2018-11-16 | 2020-05-16 | Royal Bank Of Canada | System and method for a convolutional neural network for multi-label classification with partial annotations |
CN111753966A (zh) * | 2020-07-02 | 2020-10-09 | 成都睿码科技有限责任公司 | 利用缺失多标签数据实现多标签模型训练框架的实现方法 |
-
2020
- 2020-12-02 CN CN202011394086.2A patent/CN112508078B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019169816A1 (zh) * | 2018-03-09 | 2019-09-12 | 中山大学 | 一种用于精细化识别车辆属性的深度神经网络及训练方法 |
WO2020083073A1 (zh) * | 2018-10-23 | 2020-04-30 | 苏州科达科技股份有限公司 | 非机动车图像多标签分类方法、***、设备及存储介质 |
CN110378410A (zh) * | 2019-07-16 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 多标签场景分类方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112508078A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508078B (zh) | 图像多任务多标签识别方法、***、设备及介质 | |
CN109104620B (zh) | 一种短视频推荐方法、装置和可读介质 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN110059734B (zh) | 一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质 | |
EP3637310A1 (en) | Method and apparatus for generating vehicle damage information | |
CN108171260B (zh) | 一种图片识别方法及*** | |
CN113158909B (zh) | 基于多目标跟踪的行为识别轻量化方法、***、设备 | |
CN111753746B (zh) | 属性识别模型训练方法、识别方法、电子设备、存储介质 | |
CN110781818B (zh) | 视频分类方法、模型训练方法、装置及设备 | |
CN113705733A (zh) | 医疗票据图像处理方法及装置、电子设备、存储介质 | |
CA3052846A1 (en) | Character recognition method, device, electronic device and storage medium | |
CN112287144B (zh) | 图片检索方法、设备及存储介质 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN115019314A (zh) | 一种商品价格识别方法、装置、设备及存储介质 | |
CN114359582B (zh) | 一种基于神经网络的小样本特征提取方法及相关设备 | |
CN110909578A (zh) | 一种低分辨率图像识别方法、装置和存储介质 | |
CN112070093B (zh) | 生成图像分类模型的方法、图像分类方法、装置和设备 | |
CN111126054A (zh) | 确定相似文本的方法、装置、存储介质及电子设备 | |
CN112837466B (zh) | 票据识别方法、装置、设备以及存储介质 | |
CN113312457B (zh) | 用于问题解决的方法、计算***和计算机可读介质 | |
CN116863116A (zh) | 基于人工智能的图像识别方法、装置、设备及介质 | |
CN112749293A (zh) | 一种图像分类方法、装置及存储介质 | |
CN116958512A (zh) | 目标检测方法、装置、计算机可读介质及电子设备 | |
CN110704650A (zh) | Ota图片标签的识别方法、电子设备和介质 | |
CN114241411B (zh) | 基于目标检测的计数模型处理方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |