CN113723513A - 多标签图像分类方法、装置及相关设备 - Google Patents
多标签图像分类方法、装置及相关设备 Download PDFInfo
- Publication number
- CN113723513A CN113723513A CN202111011719.1A CN202111011719A CN113723513A CN 113723513 A CN113723513 A CN 113723513A CN 202111011719 A CN202111011719 A CN 202111011719A CN 113723513 A CN113723513 A CN 113723513A
- Authority
- CN
- China
- Prior art keywords
- label
- semantic
- target
- classified
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 239000013598 vector Substances 0.000 claims abstract description 190
- 230000008569 process Effects 0.000 claims abstract description 64
- 238000006243 chemical reaction Methods 0.000 claims abstract description 48
- 238000013145 classification model Methods 0.000 claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 74
- 230000006870 function Effects 0.000 claims description 54
- 238000012360 testing method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 241000282326 Felis catus Species 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能及数字医疗技术领域,提供一种多标签图像分类方法、装置、计算机设备与存储介质,包括:调用语义转换模型处理标签,得到标签对应的标签语义向量;调用特征提取模型处理已分类图像,得到特征语义向量;根据标签语义向量与特征语义向量计算实际相关性值,将已分类图像作为输入向量,已分类图像对应的标签作为输出向量训练多标签图像分类模型;调用多标签图像分类模型处理待分类图像,得到初始标签集;调用语义转换模型处理初始标签集,得到初始标签集中每一初始标签对应的目标标签语义向量;获取每一目标标签语义向量间的语义关系,并根据语义关系输出待分类图像对应的目标标签集。本申请能够提高多标签图像分类的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种多标签图像分类方法、装置、计算机设备及介质。
背景技术
随着计算机视觉技术的发展,图像分类已经得到了广泛应用。多标签图像分类是非常常见的一种视觉计算问题,其用于对单张图片自动生成包含多种标签的描述,例如,在一张包含复杂场景的图像中自动识别出其中的多种物体(例如,行人、动物、树木等)以及场景相关的描述(例如,蓝天、白云、日出等)。
在实现本申请的过程中,申请人发现现有技术存在如下问题:现有的多标签图像分类是将多标签图像分类模型转换为目标检测问题来解决,这样不仅需要大量的图片样本,极大的增加了数据标注的困难性,也会在实际场景中缺乏图片样本的情况下,无法保证模型训练效果,导致多标签图像分类的准确性较低;此外,上述方法还会存在无法将多标签图片分类转换成目标检测问题的情况,例如需要分辩的属性是一种状态或者一种风格的时候,往往这样的类别是需要结合整张图像才能判定,而不是在目标检测模型中结合图片的一部分,导致多标签图像分类的准确性较低。
因此,有必要提供一种多标签图像分类方法,能够提高多标签图像分类的准确性。
发明内容
鉴于以上内容,有必要提出一种多标签图像分类方法、多标签图像分类装置、计算机设备及介质,能够提高多标签图像分类的准确性。
本申请实施例第一方面提供一种多标签图像分类方法,所述多标签图像分类方法包括:
获取预先标注好标签的已分类图像中的标签,并调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量;
调用预先训练好的特征提取模型处理所述已分类图像,得到所述已分类图像对应的特征语义向量;
根据所述标签语义向量与所述特征语义向量计算实际相关性值;
将所述已分类图像作为输入向量,所述已分类图像对应的标签作为输出向量训练多标签图像分类模型,其中,根据所述实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数,以收敛所述损失函数为目标,直至所述多标签图像分类模型训练完成;
调用所述多标签图像分类模型处理待分类图像,得到所述待分类图像包含的初始标签集;
调用所述语义转换模型处理所述初始标签集,得到所述初始标签集中每一初始标签对应的目标标签语义向量;
获取每一所述目标标签语义向量间的语义关系,并根据所述语义关系输出所述待分类图像对应的目标标签集。
进一步地,在本申请实施例提供的上述多标签图像分类方法中,所述调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量包括:
获取所述标签对应的目标属性,所述目标属性包括标签名称以及标签在所述已分类图像中的空间位置;
将所述目标属性按照预设数据格式进行组合,得到目标属性序列;
调用预先训练好的语义转换模型处理所述目标属性序列,得到所述标签对应的目标维度的标签语义向量。
进一步地,在本申请实施例提供的上述多标签图像分类方法中,在所述调用预先训练好的特征提取模型处理所述已分类图像,得到所述已分类图像对应的特征语义向量之前,所述方法还包括:
灰度处理所述已分类图像,得到目标已分类图像;
获取所述目标已分类图像对应的预先标记好的若干区域标号,并根据所述区域标号确定所述目标已分类图像的目标区域集;
提取所述目标区域集中各个所述目标区域对应的特征语料,并将所述特征语料转换为所述目标维度的特征语义向量;
以所述已分类图像为输入向量,所述已分类图像对应的特征语义向量为输出向量训练初始神经网络,得到训练好的特征提取模型。
进一步地,在本申请实施例提供的上述多标签图像分类方法中,所述根据所述标签语义向量与所述特征语义向量计算实际相关性值包括:
乘积处理所述标签语义向量与所述特征语义向量,得到初始值;
调用预设函数处理所述初始值,得到实际相关性值。
进一步地,在本申请实施例提供的上述多标签图像分类方法中,所述获取每一所述目标标签语义向量间的语义关系包括:
计算每一所述目标标签语义向量间的相似度值;
获取所述相似度值所属的目标区间;
根据所述目标区间遍历预先设置的区间与语义关系的映射关系,得到所述目标区间对应的目标语义关系。
进一步地,在本申请实施例提供的上述多标签图像分类方法中,所述语义转换模型的训练过程包括:
获取以标签对应的目标属性为输入数据,以所述标签对应的标签语义向量为输出数据的训练样本;
按照预设拆分比例将所述训练样本拆分为训练集与测试集;
将所述训练集输入至初始神经网络模型中,得到初始语义转换模型;
将所述测试集输入至所述初始语义转换模型中,计算模型的准确率;
检测所述准确率是否超过预设准确率阈值;
当检测结果为所述准确率超过所述预设准确率阈值时,确定所述语义转换模型训练完成。
进一步地,在本申请实施例提供的上述多标签图像分类方法中,所述根据所述语义关系输出所述待分类图像对应的目标标签包括:
获取所述语义关系对应的标签集;
获取所述语义关系对应的预设标签格式;
按照所述预设标签格式排列所述标签集得到目标标签集;
输出所述目标标签集。
本申请实施例第二方面还提供一种多标签图像分类装置,所述多标签图像分类装置包括:
标签获取模块,用于获取预先标注好标签的已分类图像中的标签,并调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量;
图像处理模块,用于调用预先训练好的特征提取模型处理所述已分类图像,得到所述已分类图像对应的特征语义向量;
相关性计算模块,用于根据所述标签语义向量与所述特征语义向量计算实际相关性值;
模型训练模块,用于将所述已分类图像作为输入向量,所述已分类图像对应的标签作为输出向量训练多标签图像分类模型,其中,根据所述实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数,以收敛所述损失函数为目标,直至所述多标签图像分类模型训练完成;
标签确定模块,用于调用所述多标签图像分类模型处理待分类图像,得到所述待分类图像包含的初始标签集;
标签调用模块,用于调用所述语义转换模型处理所述初始标签集,得到所述初始标签集中每一初始标签对应的目标标签语义向量;
标签输出模块,用于获取每一所述目标标签语义向量间的语义关系,并根据所述语义关系输出所述待分类图像对应的目标标签集。
本申请实施例第三方面还提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述多标签图像分类方法。
本申请实施例第四方面还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述多标签图像分类方法。
本申请实施例提供的上述多标签图像分类方法、多标签图像分类装置、计算机设备以及计算机可读存储介质,通过在多标签图像分类模型的训练过程中以所述标签语义向量与所述特征语义向量计算得到的实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数,以收敛所述损失函数为目标,直至所述多标签图像分类模型训练完成。将图像的标签语义向量与图像的特征语义向量融合,能够缓解实际场景中需要大量的图片样本,数据标注难度大导致的模型训练效果差的问题,提高了多标签图像分类的准确性;此外,通过将图像的标签语义向量与图像的特征语义向量融合,通过标签语义向量能够确定标签与标签间的语义关系,并根据语义关系输出标签,能够更加清楚直观的表现标签间的语义关系。本申请可应用于数字医疗、智慧交通等智慧城市的各个功能模块中,比如智慧政务的多标签图像分类模块等,能够促进智慧城市的快速发展。
附图说明
图1是本申请实施例一提供的多标签图像分类方法的流程图。
图2是本申请实施例二提供的多标签图像分类装置的结构图。
图3是本申请实施例三提供的计算机设备的结构示意图。
如下具体实施方式将结合上述附图进一步说明本申请。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例提供的多标签图像分类方法由计算机设备执行,相应地,多标签图像分类装置运行于计算机设备中。
图1是本申请第一实施方式的多标签图像分类方法的流程图。如图1所示,所述多标签图像分类方法可以包括如下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略:
S11,获取预先标注好标签的已分类图像中的标签,并调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量。
在本申请的至少一实施例中,预先设置训练集,用于训练初始神经网络模型,得到多标签图像分类模型,所述训练集为预先标注好标签的已分类图像,所述训练集的数量可根据模型训练需求设定。所述训练集存储于预设数据库中,考虑到数据存储的隐私性与可靠性,所述预设数据库可以为区块链中的某一目标节点。所述标签可以是指单张图像中包含的标准化处理后的图像特征,例如,一张图像中包含的标签可以为猫,人,小孩,凳子,长袖,树,春天,冬天等;又例如,当图像为医疗图像时,医疗图像包含的标签可以为医生、患者、医疗仪器、身体器官等,在此不做限制。一张图像中包含的标签的数量可以为单个,也可以为多个,本申请以一张图像中包含的标签数量为多个为例进行说明。所述语义转换模型用于将标签转换为目标维度的embedding向量,所述目标维度为预先设置的维度。所述语义转换模型可以为Bert模型或者Word2vec模型等。
可选地,所述调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量包括:
获取所述标签对应的目标属性,所述目标属性包括标签名称以及标签在所述已分类图像中的空间位置;
将所述目标属性按照预设数据格式进行组合,得到目标属性序列;
调用预先训练好的语义转换模型处理所述目标属性序列,得到所述标签对应的目标维度的标签语义向量。
其中,所述目标属性为***人员预先设置的用于标识标签的属性,所述目标属性包括但不限于标签名称以及标签在所述已分类图像中的空间位置,其中,所述标签名称可以为人、猫、树、长袖等名称;所述标签在所述已分类图像中的空间位置为所述标签对应对象在图像中的位置信息,例如,通过二维坐标的方式标识所述标签在所述已分类图像中的空间位置。所述预设数据格式为预先设置的用于组合所述目标属性的格式,例如,按照所述标签类别、标签长度以及标签在所述已分类图像中的空间位置的排列顺序组合,得到目标属性序列。
可选地,所述语义转换模型的训练过程包括:
获取以标签对应的目标属性为输入数据,以所述标签对应的标签语义向量为输出数据的训练样本;
按照预设拆分比例将所述训练样本拆分为训练集与测试集;
将所述训练集输入至初始神经网络模型中,得到初始语义转换模型;
将所述测试集输入至所述初始语义转换模型中,计算所述初始语义转换模型的准确率;
检测所述准确率是否超过预设准确率阈值;
当检测结果为所述准确率超过所述预设准确率阈值时,确定所述语义转换模型训练完成。
其中,所述预设拆分比例为预先设置的拆分所述训练集与所述测试集的比例,例如,所述预设拆分比例可以为8:2,在此不做限制。所述预设准确率阈值为预先设置的用于评估模型准确性的阈值,例如,所述预设准确率阈值可以为85%,在此不做限制。
S12,调用预先训练好的特征提取模型处理所述已分类图像,得到所述已分类图像对应的特征语义向量。
在本申请的至少一实施例中,所述特征提取模型用于提取所述已分类图像中的图像特征,所述特征提取模型可以为Resnet模型或者Efficientnet模型。所述特征语义向量为图像中的特征对应的embedding向量。所述特征语义向量与所述标签语义向量的维度相同。在一实施例中,可以通过在所述特征提取模型例如Resnet模型或者Efficientnet模型中加入一个全连接层,所述全连接层用于控制所述特征语义向量与所述标签语义向量的维度相同。
可选地,所述特征提取模型的训练过程包括:
灰度处理所述已分类图像,得到目标已分类图像;
获取所述目标已分类图像对应的预先标记好的若干区域标号,并根据所述区域标号确定所述目标已分类图像的目标区域集;
提取所述目标区域集中各个所述目标区域对应的特征语料,并将所述特征语料转换为所述目标维度的特征语义向量;
以所述已分类图像为输入向量,所述已分类图像对应的特征语义向量为输出向量训练初始神经网络,得到训练好的特征提取模型。
其中,灰度处理所述已分类图像,能够解决已分类图像明暗分布不均的问题,实现增加已分类图像清晰度的效果。所述目标已分类图像包含若干预先标记好的区域标号,所述区域标号可以为数字标号、字母标号或者颜色标号,在此不做限制。每个所述区域标号均表示一个区域,当所述目标已分类图像中包含3个区域标号时,所述目标已分类图像中包含3个区域。所述已分类图像可以是由不同目标区域组成的图像,每个目标区域可以表示图片的不同特征,所述目标区域可以是猫,小孩,凳子,树等区域。对于每一所述目标区域,均存在对应的特征语料,所述特征语料可以指目标区域中实体的比例特征语料、几何特征语料以及位置特征语料等。示例性地,当所述目标区域为猫时,所述特征语料可以是猫的各部位比例特征、猫的各形状特征以及猫在所述已分类图像中的位置特征。对所述特征语料进行转换,得到特征语义向量。示例性地,调用Bert模型或者Word2vec模型处理所述特征语料,能够得到特征语义向量。
其中,以所述已分类图像为输入向量,所述已分类图像对应的特征语义向量为输出向量作为训练数据与测试数据训练初始神经网络,能够得到训练好的特征提取模型。以所述初始神经网络模型为ResNet模型举例,模型的训练过程可将该训练数据输入到该ResNet模型中,经过该初始神经网络模型的多次卷积、多次池化、多次激活后得到训练好的特征提取模型,调用所述特征提取模型处理所述已分类图像,能够得到所述已分类图像对应的特征语义向量图像对应的特征语义向量。
S13,根据所述标签语义向量与所述特征语义向量计算实际相关性值。
在本申请的至少一实施例中,所述实际相关性值用于评估所述标签语义向量与所述特征语义向量的相关性程度,在一实施例中,当所述实际相关性值大于0.5时,确定所述标签语义向量与所述特征语义向量的相关性程度高,也即所述已分类图像中包含所述标签语义向量对应的标签;当所述实际相关性值小于0.5时,确定所述标签语义向量与所述特征语义向量的相关性程度低,也即所述已分类图像中不包含所述标签语义向量对应的标签。所述损失函数为由所述实际相关性值与所述目标相关性值组成的交叉熵函数。
可选地,所述根据所述标签语义向量与所述特征语义向量计算实际相关性值包括:
乘积处理所述标签语义向量与所述特征语义向量,得到初始值;
调用预设函数处理所述初始值,得到实际相关性值。
其中,所述预设函数可以为Sigmod函数,Sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1)。示例性地,以所述标签语义向量为512维向量为例,所述标签语义向量可以为a=(x1,y1,z1,…,n1),所述特征语义向量与所述标签语义向量的维度相同,所述特征语义向量可以为b=(x2,y2,z2,…,n2),乘积处理a与b,得到初始值c=x1x2+y1y2+z1z2+…+n1n2。调用所述Sigmod函数处理所述初始值,能够得到实际相关性值。
S14,将所述已分类图像作为输入向量,所述已分类图像对应的标签作为输出向量训练多标签图像分类模型,其中,根据所述实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数,以收敛所述损失函数为目标,直至所述多标签图像分类模型训练完成。
在本申请的至少一实施例中,以所述已分类图像为输入向量,所述已分类图像对应的标签为输出向量生成训练数据与测试数据,将所述训练数据输入至初始神经网络模型中进行训练,得到初始多标签图像分类模型;将所述测试数据输入至所述初始多标签图像分类模型中进行测试,根据所述测试数据对应的实际相关性值与预先设置的目标相关性值计算模型的损失函数;判断所述损失函数是否收敛;当所述损失函数收敛时,确定多标签图像分类模型训练完成;当所述损失函数未收敛时,增加训练数据重新训练所述初始多标签图像分类模型,直至所述损失函数收敛。其中,判断所述损失函数是否收敛属于现有技术,在此不再赘述。
S15,调用所述多标签图像分类模型处理待分类图像,得到所述待分类图像包含的初始标签集。
在本申请的至少一实施例中,所述待分类图像为未标注标签的图像,调用所述多标签图像分类模型处理所述待分类图像,能够得到所述待分类图像中包含的初始标签集,所述初始标签集中的初始标签的数量可以为一个,也可以为多个。所述初始标签集中的每一初始标签均包含对应的目标属性,所述目标属性可以通过添加标记的方式表示,所述目标属性包括标签名称以及标签在所述已分类图像中的空间位置。
S16,调用所述语义转换模型处理所述初始标签集,得到所述初始标签集中每一初始标签对应的目标标签语义向量。
在本申请的至少一实施例中,所述调用所述语义转换模型处理所述初始标签集,得到所述初始标签集中每一初始标签对应的目标标签语义向量包括:
获取所述初始标签集中每一初始标签对应的目标属性,所述目标属性包括标签名称以及标签在所述已分类图像中的空间位置;
将所述目标属性按照预设数据格式进行组合,得到目标属性序列;
调用预先训练好的语义转换模型处理所述目标属性序列,得到所述标签对应的目标维度的标签语义向量。
其中,通过查询所述初始标签集中每一初始标签携带的标记,可以得到每一初始标签对应的目标属性。
S17,获取每一所述目标标签语义向量间的语义关系,并根据所述语义关系输出所述待分类图像对应的目标标签集。
在本申请的至少一实施例中,以标签猫,人,小孩,凳子,长袖,休闲,树,春天,冬天为例,标签与标签间存在语义关系,例如,“小孩”为“人”的一个子类,“春天”和“冬天”为对立的类别,“长袖”一般会和“人”一起出现。所述语义关系可以为标签间的从属关系、对立关系以及关联关系。本申请通过解析多个所述初始标签语义向量间的语义关系,从而对待分类图像的初始标签进行语义描述,得到标签分类信息,能够提高多标签图像分类的准确性。
可选地,所述获取每一所述目标标签语义向量间的语义关系包括:
计算每一所述目标标签语义向量间的相似度值;
获取所述相似度值所属的目标区间;
根据所述目标区间遍历预先设置的区间与语义关系的映射关系,得到所述目标区间对应的目标语义关系。
其中,所述相似度值的范围为(0,1)。所述区间与所述语义关系间存在映射关系,通过查询所述映射关系能够得到所述目标区间对应的目标语义关系。
可选地,所述根据所述语义关系输出所述待分类图像对应的目标标签集包括:
获取所述语义关系对应的标签集;
获取所述语义关系对应的预设标签格式;
按照所述预设标签格式排列所述标签集得到目标标签集;
输出所述目标标签集。
其中,对于不同的语义关系,存在与之对应的预设标签格式。所述预设标签格式为预先设置的标签与标签之间排列的数据格式,通过将存在语义关系的标签按照预设标签格式进行排列,能够直观表现标签间的语义关系。
本申请实施例提供的上述多标签图像分类方法,通过在多标签图像分类模型的训练过程中以所述标签语义向量与所述特征语义向量计算得到的实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数,以收敛所述损失函数为目标,直至所述多标签图像分类模型训练完成。将图像的标签语义向量与图像的特征语义向量融合,能够缓解实际场景中需要大量的图片样本,数据标注难度大导致的模型训练效果差的问题,提高了多标签图像分类的准确性;此外,通过将图像的标签语义向量与图像的特征语义向量融合,通过标签语义向量能够确定标签与标签间的语义关系,并根据语义关系输出标签,能够更加清楚直观的表现标签间的语义关系。本申请可应用于数字医疗、智慧交通等智慧城市的各个功能模块中,比如智慧政务的多标签图像分类模块等,能够促进智慧城市的快速发展。
图2是本申请实施例二提供的多标签图像分类装置的结构图。
在一些实施例中,所述多标签图像分类装置20可以包括多个由计算机程序段所组成的功能模块。所述多标签图像分类装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)多标签图像分类的功能。
本实施例中,所述多标签图像分类装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:标签获取模块201、图像处理模块202、相关性计算模块203、模型训练模块204、标签确定模块205、标签调用模块206以及标签输出模块207。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述标签获取模块201可以用于获取预先标注好标签的已分类图像中的标签,并调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量。
在本申请的至少一实施例中,预先设置训练集,用于训练初始神经网络模型,得到多标签图像分类模型,所述训练集为预先标注好标签的已分类图像,所述训练集的数量可根据模型训练需求设定。所述训练集存储于预设数据库中,考虑到数据存储的隐私性与可靠性,所述预设数据库可以为区块链中的某一目标节点。所述标签可以是指单张图像中包含的标准化处理后的图像特征,例如,一张图像中包含的标签可以为猫,人,小孩,凳子,长袖,树,春天,冬天等;又例如,当图像为医疗图像时,医疗图像包含的标签可以为医生、患者、医疗仪器、身体器官等,在此不做限制。一张图像中包含的标签的数量可以为单个,也可以为多个,本申请以一张图像中包含的标签数量为多个为例进行说明。所述语义转换模型用于将标签转换为目标维度的embedding向量,所述目标维度为预先设置的维度。所述语义转换模型可以为Bert模型或者Word2vec模型等。
可选地,所述调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量包括:
获取所述标签对应的目标属性,所述目标属性包括标签名称以及标签在所述已分类图像中的空间位置;
将所述目标属性按照预设数据格式进行组合,得到目标属性序列;
调用预先训练好的语义转换模型处理所述目标属性序列,得到所述标签对应的目标维度的标签语义向量。
其中,所述目标属性为***人员预先设置的用于标识标签的属性,所述目标属性包括但不限于标签名称以及标签在所述已分类图像中的空间位置,其中,所述标签名称可以为人、猫、树、长袖等名称;所述标签在所述已分类图像中的空间位置为所述标签对应对象在图像中的位置信息,例如,通过二维坐标的方式标识所述标签在所述已分类图像中的空间位置。所述预设数据格式为预先设置的用于组合所述目标属性的格式,例如,按照所述标签类别、标签长度以及标签在所述已分类图像中的空间位置的排列顺序组合,得到目标属性序列。
可选地,所述语义转换模型的训练过程包括:
获取以标签对应的目标属性为输入数据,以所述标签对应的标签语义向量为输出数据的训练样本;
按照预设拆分比例将所述训练样本拆分为训练集与测试集;
将所述训练集输入至初始神经网络模型中,得到初始语义转换模型;
将所述测试集输入至所述初始语义转换模型中,计算所述初始语义转换模型的准确率;
检测所述准确率是否超过预设准确率阈值;
当检测结果为所述准确率超过所述预设准确率阈值时,确定所述语义转换模型训练完成。
其中,所述预设拆分比例为预先设置的拆分所述训练集与所述测试集的比例,例如,所述预设拆分比例可以为8:2,在此不做限制。所述预设准确率阈值为预先设置的用于评估模型准确性的阈值,例如,所述预设准确率阈值可以为85%,在此不做限制。
所述图像处理模块202可以用于调用预先训练好的特征提取模型处理所述已分类图像,得到所述已分类图像对应的特征语义向量。
在本申请的至少一实施例中,所述特征提取模型用于提取所述已分类图像中的图像特征,所述特征提取模型可以为Resnet模型或者Efficientnet模型。所述特征语义向量为图像中的特征对应的embedding向量。所述特征语义向量与所述标签语义向量的维度相同。在一实施例中,可以通过在所述特征提取模型例如Resnet模型或者Efficientnet模型中加入一个全连接层,所述全连接层用于控制所述特征语义向量与所述标签语义向量的维度相同。
可选地,所述特征提取模型的训练过程包括:
灰度处理所述已分类图像,得到目标已分类图像;
获取所述目标已分类图像对应的预先标记好的若干区域标号,并根据所述区域标号确定所述目标已分类图像的目标区域集;
提取所述目标区域集中各个所述目标区域对应的特征语料,并将所述特征语料转换为所述目标维度的特征语义向量;
以所述已分类图像为输入向量,所述已分类图像对应的特征语义向量为输出向量训练初始神经网络,得到训练好的特征提取模型。
其中,灰度处理所述已分类图像,能够解决已分类图像明暗分布不均的问题,实现增加已分类图像清晰度的效果。所述目标已分类图像包含若干预先标记好的区域标号,所述区域标号可以为数字标号、字母标号或者颜色标号,在此不做限制。每个所述区域标号均表示一个区域,当所述目标已分类图像中包含3个区域标号时,所述目标已分类图像中包含3个区域。所述已分类图像可以是由不同目标区域组成的图像,每个目标区域可以表示图片的不同特征,所述目标区域可以是猫,小孩,凳子,树等区域。对于每一所述目标区域,均存在对应的特征语料,所述特征语料可以指目标区域中实体的比例特征语料、几何特征语料以及位置特征语料等。示例性地,当所述目标区域为猫时,所述特征语料可以是猫的各部位比例特征、猫的各形状特征以及猫在所述已分类图像中的位置特征。对所述特征语料进行转换,得到特征语义向量。示例性地,调用Bert模型或者Word2vec模型处理所述特征语料,能够得到特征语义向量。
其中,以所述已分类图像为输入向量,所述已分类图像对应的特征语义向量为输出向量作为训练数据与测试数据训练初始神经网络,能够得到训练好的特征提取模型。以所述初始神经网络模型为ResNet模型举例,模型的训练过程可将该训练数据输入到该ResNet模型中,经过该初始神经网络模型的多次卷积、多次池化、多次激活后得到训练好的特征提取模型,调用所述特征提取模型处理所述已分类图像,能够得到所述已分类图像对应的特征语义向量图像对应的特征语义向量。
所述相关性计算模块203可以用于根据所述标签语义向量与所述特征语义向量计算实际相关性值。
在本申请的至少一实施例中,所述实际相关性值用于评估所述标签语义向量与所述特征语义向量的相关性程度,在一实施例中,当所述实际相关性值大于0.5时,确定所述标签语义向量与所述特征语义向量的相关性程度高,也即所述已分类图像中包含所述标签语义向量对应的标签;当所述实际相关性值小于0.5时,确定所述标签语义向量与所述特征语义向量的相关性程度低,也即所述已分类图像中不包含所述标签语义向量对应的标签。所述损失函数为由所述实际相关性值与所述目标相关性值组成的交叉熵函数。
可选地,所述根据所述标签语义向量与所述特征语义向量计算实际相关性值包括:
乘积处理所述标签语义向量与所述特征语义向量,得到初始值;
调用预设函数处理所述初始值,得到实际相关性值。
其中,所述预设函数可以为Sigmod函数,Sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1)。示例性地,以所述标签语义向量为512维向量为例,所述标签语义向量可以为a=(x1,y1,z1,…,n1),所述特征语义向量与所述标签语义向量的维度相同,所述特征语义向量可以为b=(x2,y2,z2,…,n2),乘积处理a与b,得到初始值c=x1x2+y1y2+z1z2+…+n1n2。调用所述Sigmod函数处理所述初始值,能够得到实际相关性值。
所述模型训练模块204可以用于将所述已分类图像作为输入向量,所述已分类图像对应的标签作为输出向量训练多标签图像分类模型,其中,根据所述实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数,以收敛所述损失函数为目标,直至所述多标签图像分类模型训练完成。
在本申请的至少一实施例中,以所述已分类图像为输入向量,所述已分类图像对应的标签为输出向量生成训练数据与测试数据,将所述训练数据输入至初始神经网络模型中进行训练,得到初始多标签图像分类模型;将所述测试数据输入至所述初始多标签图像分类模型中进行测试,根据所述测试数据对应的实际相关性值与预先设置的目标相关性值计算模型的损失函数;判断所述损失函数是否收敛;当所述损失函数收敛时,确定多标签图像分类模型训练完成;当所述损失函数未收敛时,增加训练数据重新训练所述初始多标签图像分类模型,直至所述损失函数收敛。其中,判断所述损失函数是否收敛属于现有技术,在此不再赘述。
所述标签确定模块205可以用于调用所述多标签图像分类模型处理待分类图像,得到所述待分类图像包含的初始标签集。
在本申请的至少一实施例中,所述待分类图像为未标注标签的图像,调用所述多标签图像分类模型处理所述待分类图像,能够得到所述待分类图像中包含的初始标签集,所述初始标签集中的初始标签的数量可以为一个,也可以为多个。所述初始标签集中的每一初始标签均包含对应的目标属性,所述目标属性可以通过添加标记的方式表示,所述目标属性包括标签类别、标签长度以及标签在所述已分类图像中的空间位置。
所述标签调用模块206可以用于调用所述语义转换模型处理所述初始标签集,得到所述初始标签集中每一初始标签对应的目标标签语义向量。
在本申请的至少一实施例中,所述调用所述语义转换模型处理所述初始标签集,得到所述初始标签集中每一初始标签对应的目标标签语义向量包括:
获取所述初始标签集中每一初始标签对应的目标属性,所述目标属性包括标签名称以及标签在所述已分类图像中的空间位置;
将所述目标属性按照预设数据格式进行组合,得到目标属性序列;
调用预先训练好的语义转换模型处理所述目标属性序列,得到所述标签对应的目标维度的标签语义向量。
其中,通过查询所述初始标签集中每一初始标签携带的标记,可以得到每一初始标签对应的目标属性。
所述标签输出模块207可以用于获取每一所述目标标签语义向量间的语义关系,并根据所述语义关系输出所述待分类图像对应的目标标签集。
在本申请的至少一实施例中,以标签猫,人,小孩,凳子,长袖,休闲,树,春天,冬天为例,标签与标签间存在语义关系,例如,“小孩”为“人”的一个子类,“春天”和“冬天”为对立的类别,“长袖”一般会和“人”一起出现。所述语义关系可以为标签间的从属关系、对立关系以及关联关系。本申请通过解析多个所述初始标签语义向量间的语义关系,从而对待分类图像的初始标签进行语义描述,得到标签分类信息,能够提高多标签图像分类的准确性。
可选地,所述获取每一所述目标标签语义向量间的语义关系包括:
计算每一所述目标标签语义向量间的相似度值;
获取所述相似度值所属的目标区间;
根据所述目标区间遍历预先设置的区间与语义关系的映射关系,得到所述目标区间对应的目标语义关系。
其中,所述相似度值的范围为(0,1)。所述区间与所述语义关系间存在映射关系,通过查询所述映射关系能够得到所述目标区间对应的目标语义关系。
可选地,所述根据所述语义关系输出所述待分类图像对应的目标标签集包括:
获取所述语义关系对应的标签集;
获取所述语义关系对应的预设标签格式;
按照所述预设标签格式排列所述标签集得到目标标签集;
输出所述目标标签集。
其中,对于不同的语义关系,存在与之对应的预设标签格式。所述预设标签格式为预先设置的标签与标签之间排列的数据格式,通过将存在语义关系的标签按照预设标签格式进行排列,能够直观表现标签间的语义关系。
参阅图3所示,为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中,所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的计算机设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31中存储有计算机程序,所述计算机程序被所述至少一个处理器32执行时实现如所述的多标签图像分类方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableRead-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机设备3的各种功能和处理数据。例如,所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的多标签图像分类方法的全部或者部分步骤;或者实现多标签图像分类装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种多标签图像分类方法,其特征在于,所述多标签图像分类方法包括:
获取预先标注好标签的已分类图像中的标签,并调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量;
调用预先训练好的特征提取模型处理所述已分类图像,得到所述已分类图像对应的特征语义向量;
根据所述标签语义向量与所述特征语义向量计算实际相关性值;
将所述已分类图像作为输入向量,所述已分类图像对应的标签作为输出向量训练多标签图像分类模型,其中,根据所述实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数,以收敛所述损失函数为目标,直至所述多标签图像分类模型训练完成;
调用所述多标签图像分类模型处理待分类图像,得到所述待分类图像包含的初始标签集;
调用所述语义转换模型处理所述初始标签集,得到所述初始标签集中每一初始标签对应的目标标签语义向量;
获取每一所述目标标签语义向量间的语义关系,并根据所述语义关系输出所述待分类图像对应的目标标签集。
2.根据权利要求1所述的多标签图像分类方法,其特征在于,所述调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量包括:
获取所述标签对应的目标属性,所述目标属性包括标签名称以及标签在所述已分类图像中的空间位置;
将所述目标属性按照预设数据格式进行组合,得到目标属性序列;
调用预先训练好的语义转换模型处理所述目标属性序列,得到所述标签对应的目标维度的标签语义向量。
3.根据权利要求2所述的多标签图像分类方法,其特征在于,在所述调用预先训练好的特征提取模型处理所述已分类图像,得到所述已分类图像对应的特征语义向量之前,所述方法还包括:
灰度处理所述已分类图像,得到目标已分类图像;
获取所述目标已分类图像对应的预先标记好的若干区域标号,并根据所述区域标号确定所述目标已分类图像的目标区域集;
提取所述目标区域集中各个所述目标区域对应的特征语料,并将所述特征语料转换为所述目标维度的特征语义向量;
以所述已分类图像为输入向量,所述已分类图像对应的特征语义向量为输出向量训练初始神经网络,得到训练好的特征提取模型。
4.根据权利要求1所述的多标签图像分类方法,其特征在于,所述根据所述标签语义向量与所述特征语义向量计算实际相关性值包括:
乘积处理所述标签语义向量与所述特征语义向量,得到初始值;
调用预设函数处理所述初始值,得到实际相关性值。
5.根据权利要求1所述的多标签图像分类方法,其特征在于,所述获取每一所述目标标签语义向量间的语义关系包括:
计算每一所述目标标签语义向量间的相似度值;
获取所述相似度值所属的目标区间;
根据所述目标区间遍历预先设置的区间与语义关系的映射关系,得到所述目标区间对应的目标语义关系。
6.根据权利要求1所述的多标签图像分类方法,其特征在于,所述语义转换模型的训练过程包括:
获取以标签对应的目标属性为输入数据,以所述标签对应的标签语义向量为输出数据的训练样本;
按照预设拆分比例将所述训练样本拆分为训练集与测试集;
将所述训练集输入至初始神经网络模型中,得到初始语义转换模型;
将所述测试集输入至所述初始语义转换模型中,计算模型的准确率;
检测所述准确率是否超过预设准确率阈值;
当检测结果为所述准确率超过所述预设准确率阈值时,确定所述语义转换模型训练完成。
7.根据权利要求1所述的多标签图像分类方法,其特征在于,所述根据所述语义关系输出所述待分类图像对应的目标标签集包括:
获取所述语义关系对应的标签集;
获取所述语义关系对应的预设标签格式;
按照所述预设标签格式排列所述标签集得到目标标签集;
输出所述目标标签集。
8.一种多标签图像分类装置,其特征在于,所述多标签图像分类装置包括:
标签获取模块,用于获取预先标注好标签的已分类图像中的标签,并调用预先训练好的语义转换模型处理所述标签,得到所述标签对应的标签语义向量;
图像处理模块,用于调用预先训练好的特征提取模型处理所述已分类图像,得到所述已分类图像对应的特征语义向量;
相关性计算模块,用于根据所述标签语义向量与所述特征语义向量计算实际相关性值;
模型训练模块,用于将所述已分类图像作为输入向量,所述已分类图像对应的标签作为输出向量训练多标签图像分类模型,其中,根据所述实际相关性值与预先设置的目标相关性值确定所述多标签图像分类模型的损失函数,以收敛所述损失函数为目标,直至所述多标签图像分类模型训练完成;
标签确定模块,用于调用所述多标签图像分类模型处理待分类图像,得到所述待分类图像包含的初始标签集;
标签调用模块,用于调用所述语义转换模型处理所述初始标签集,得到所述初始标签集中每一初始标签对应的目标标签语义向量;
标签输出模块,用于获取每一所述目标标签语义向量间的语义关系,并根据所述语义关系输出所述待分类图像对应的目标标签集。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述多标签图像分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述多标签图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111011719.1A CN113723513B (zh) | 2021-08-31 | 2021-08-31 | 多标签图像分类方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111011719.1A CN113723513B (zh) | 2021-08-31 | 2021-08-31 | 多标签图像分类方法、装置及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723513A true CN113723513A (zh) | 2021-11-30 |
CN113723513B CN113723513B (zh) | 2024-05-03 |
Family
ID=78679651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111011719.1A Active CN113723513B (zh) | 2021-08-31 | 2021-08-31 | 多标签图像分类方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723513B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114582470A (zh) * | 2022-04-29 | 2022-06-03 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种模型的训练方法、训练装置及医学影像报告标注方法 |
CN115841596A (zh) * | 2022-12-16 | 2023-03-24 | 华院计算技术(上海)股份有限公司 | 多标签图像分类方法及其模型的训练方法、装置 |
CN116824305A (zh) * | 2023-08-09 | 2023-09-29 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及*** |
CN117876797A (zh) * | 2024-03-11 | 2024-04-12 | 中国地质大学(武汉) | 图像多标签分类方法、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644047A (zh) * | 2016-07-22 | 2018-01-30 | 华为技术有限公司 | 标签预测生成方法及装置 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN111626362A (zh) * | 2020-05-28 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111783712A (zh) * | 2020-07-09 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置、设备及介质 |
CN112465071A (zh) * | 2020-12-18 | 2021-03-09 | 深圳赛安特技术服务有限公司 | 图像多标签分类方法、装置、电子设备及介质 |
WO2021151296A1 (zh) * | 2020-07-22 | 2021-08-05 | 平安科技(深圳)有限公司 | 多任务分类方法、装置、计算机设备及存储介质 |
-
2021
- 2021-08-31 CN CN202111011719.1A patent/CN113723513B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644047A (zh) * | 2016-07-22 | 2018-01-30 | 华为技术有限公司 | 标签预测生成方法及装置 |
CN110147499A (zh) * | 2019-05-21 | 2019-08-20 | 智者四海(北京)技术有限公司 | 打标签方法、推荐方法及记录介质 |
CN111626362A (zh) * | 2020-05-28 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN111783712A (zh) * | 2020-07-09 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置、设备及介质 |
WO2021151296A1 (zh) * | 2020-07-22 | 2021-08-05 | 平安科技(深圳)有限公司 | 多任务分类方法、装置、计算机设备及存储介质 |
CN112465071A (zh) * | 2020-12-18 | 2021-03-09 | 深圳赛安特技术服务有限公司 | 图像多标签分类方法、装置、电子设备及介质 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114582470A (zh) * | 2022-04-29 | 2022-06-03 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种模型的训练方法、训练装置及医学影像报告标注方法 |
CN115841596A (zh) * | 2022-12-16 | 2023-03-24 | 华院计算技术(上海)股份有限公司 | 多标签图像分类方法及其模型的训练方法、装置 |
CN115841596B (zh) * | 2022-12-16 | 2023-09-15 | 华院计算技术(上海)股份有限公司 | 多标签图像分类方法及其模型的训练方法、装置 |
WO2024124770A1 (zh) * | 2022-12-16 | 2024-06-20 | 华院计算技术(上海)股份有限公司 | 多标签图像分类方法及其模型的训练方法、装置 |
CN116824305A (zh) * | 2023-08-09 | 2023-09-29 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及*** |
CN116824305B (zh) * | 2023-08-09 | 2024-06-04 | 中国气象服务协会 | 应用于云计算的生态环境监测数据处理方法及*** |
CN117876797A (zh) * | 2024-03-11 | 2024-04-12 | 中国地质大学(武汉) | 图像多标签分类方法、装置及存储介质 |
CN117876797B (zh) * | 2024-03-11 | 2024-06-04 | 中国地质大学(武汉) | 图像多标签分类方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113723513B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197664B (zh) | 模型获取方法、装置、电子设备及计算机可读存储介质 | |
CN113723513B (zh) | 多标签图像分类方法、装置及相关设备 | |
CN112183101A (zh) | 文本意图识别方法、装置、电子设备及存储介质 | |
CN112380870A (zh) | 用户意图分析方法、装置、电子设备及计算机存储介质 | |
EP3968337A1 (en) | Target object attribute prediction method based on machine learning and related device | |
CN113903469A (zh) | 基于人工智能的心理测评方法、装置、电子设备及介质 | |
CN114663223A (zh) | 基于人工智能的信用风险评估方法、装置及相关设备 | |
CN112801236A (zh) | 图像识别模型的迁移方法、装置、设备及存储介质 | |
CN113569627A (zh) | 人体姿态预测模型训练方法、人体姿态预测方法及装置 | |
CN113705687B (zh) | 基于人工智能的图像实例标注方法及相关设备 | |
CN114519397B (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN114840684A (zh) | 基于医疗实体的图谱构建方法、装置、设备及存储介质 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN114880449A (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN114220536A (zh) | 基于机器学习的疾病分析方法、装置、设备及存储介质 | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN114020892A (zh) | 基于人工智能的答案选取方法、装置、电子设备及介质 | |
CN113052236A (zh) | 一种基于NASNet的肺炎图像分类方法 | |
CN115658858A (zh) | 基于人工智能的对话推荐方法及相关设备 | |
CN116705345A (zh) | 医疗实体标注方法、装置、设备及存储介质 | |
CN113420847B (zh) | 基于人工智能的目标对象匹配方法及相关设备 | |
CN113570286B (zh) | 基于人工智能的资源分配方法、装置、电子设备及介质 | |
CN114595321A (zh) | 问题标注方法、装置、电子设备及存储介质 | |
CN111582404B (zh) | 内容分类方法、装置及可读存储介质 | |
CN114881313A (zh) | 基于人工智能的行为预测方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |