CN109711481A - 用于画作多标签识别的神经网络、相关方法、介质和设备 - Google Patents

用于画作多标签识别的神经网络、相关方法、介质和设备 Download PDF

Info

Publication number
CN109711481A
CN109711481A CN201910001328.8A CN201910001328A CN109711481A CN 109711481 A CN109711481 A CN 109711481A CN 201910001328 A CN201910001328 A CN 201910001328A CN 109711481 A CN109711481 A CN 109711481A
Authority
CN
China
Prior art keywords
rank
characteristic pattern
network
label
class label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910001328.8A
Other languages
English (en)
Other versions
CN109711481B (zh
Inventor
李月
王婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Art Cloud Technology Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201910001328.8A priority Critical patent/CN109711481B/zh
Publication of CN109711481A publication Critical patent/CN109711481A/zh
Priority to US16/551,278 priority patent/US20200210773A1/en
Application granted granted Critical
Publication of CN109711481B publication Critical patent/CN109711481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种用于画作多标签识别的神经网络及相关方法和装置。该网络包括:卷积网络;多特征层融合网络,融合高阶卷积层和低阶卷积层输出的特征图并输出融合后的特征图;空间正则化网络,接收融合后的特征图;第一内容标签全连接层,接收空间正则化网络输出的特征图并输出内容标签的第一预测概率;第二内容标签全连接层,接收第N阶卷积层输出的第N阶特征图并输出内容标签的第二预测概率,内容标签的第一预测概率和第二预测概率进行求和平均得到内容标签预测概率;题材标签全连接层,接收第N阶卷积层输出的第N阶特征图并输出题材标签预测概率;类别标签全连接层,接收第N阶卷积层输出的第N阶特征图并输出类别标签预测概率,1<n≤N。

Description

用于画作多标签识别的神经网络、相关方法、介质和设备
技术领域
本发明涉及图像处理技术领域,特别涉及用于画作多标签识别的神经网络、利用该神经网络进行训练的方法、利用该神经网络进行多标签识别的方法、存储介质以及计算机设备。
背景技术
神经网络是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。在ImageNet数据集上,ResNet的top-5 error仅为3.75%,与传统识别方法相比指标得到了大大的提高。卷积神经网络具有强大的学习能力和高效的特征表达能力,在单标签识别中获得了很好效果。
画作的标签可以归为单标签和多标签两种:一种是单标签,即每张图片仅对应一类,如画作的类别标签(国画、油画、素描、水粉水彩等),类别标签是针对整幅图片的特征进行判断与分类,倾向于整体的区分;另一种是多标签,即每张图片对应多个标签,如内容标签(天空、房子、山、水、马等)和题材标签等。内容标签和题材标签侧重图片的局部特征,多基于注意力机制,通过局部关键特征和位置信息进行标签的识别,适用于对两个相似的主题通过各个局部比较来识别标签。
目前已有的方法均是基于普通照片图片、生成对应的内容标签或者场景标签,没有针对艺术画作的特点(需要多类标签,包括多标签和单标签;而普通照片图片识别不需要类似画作的多类标签)生成标签的方法,也没有将单标签与多标签的生成放在一个网络、同时生成标签的方法。
此外,现有的多标签识别方法,均是基于顶层特征进行预测,忽略了低层特征的信息,而这会导致对小目标识别的效果变差,同时,由于标签之间的空间关系有助于提升标签识别效果,利用低层特征可取得较为准确的目标位置,从而有助于提升标签识别效果。
因此,需要提供一种解决上述问题的网络、方法和装置。
发明内容
本发明的目的在于提供一种用于画作多标签识别的神经网络以及相关方法、介质和设备,以解决现有技术存在的问题中的至少之一。
为达到上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种用于画作多标签识别的神经网络,包括:
卷积网络,包括N阶卷积层,其中第1阶卷积层接收画作图片并输出第1阶特征图,第n阶卷积层接收第(n-1)阶卷积层输出的第(n-1)阶特征图并输出第n阶特征图;
多特征层融合网络,用于融合至少一个高阶卷积层和至少一个低阶卷积层输出的特征图并输出融合后的特征图;
空间正则化网络,用于接收所述融合后的特征图;
第一内容标签全连接层,用于接收空间正则化网络输出的特征图并输出内容标签的第一预测概率;
第二内容标签全连接层,用于接收第N阶卷积层输出的第N阶特征图并输出内容标签的第二预测概率,其中内容标签的第一预测概率和第二预测概率进行求和平均得到内容标签预测概率;
题材标签全连接层,用于接收第N阶卷积层输出的第N阶特征图并输出题材标签预测概率;
类别标签全连接层,用于接收第N阶卷积层输出的第N阶特征图并输出类别标签预测概率,
其中1<n≤N。
可选地,所述网络还包括:
加权全连接层,用于在将第N阶特征图输入到所述类别标签全连接层之前对所述第N阶特征图的每个通道用所述内容标签预测概率进行加权。
可选地,所述多特征层融合网络采用高阶特征图融合相邻低阶特征图的方式逐层进行融合。
可选地,所述卷积网络为GoogleNet网络,包括5阶卷积层,所述第1-5阶特征图均被输入到所述多特征层融合网络;
所述多特征层融合网络用于使得:
所述第5阶特征图经过1×1卷积并进行2倍上采样后与第4阶特征图融合生成第4阶融合特征图;
所述第4阶融合特征图经过1×1卷积并进行2倍上采样后与第3阶特征图融合生成第3阶融合特征图;
所述第3阶融合特征层经过1×1卷积并进行2倍上采样后与第2阶特征图融合生成第2阶融合特征图;以及
所述第2阶融合特征层经过1×1卷积并进行2倍上采样后与第1阶特征图融合生成第1阶融合特征图,
所述多特征层融合网络输出第1融合特征图到所述空间正则化网络。
可选地,所述卷积网络为Resnet 101网络,包括5阶卷积层,所述第2-4阶特征图均被输入到所述多特征层融合网络;
所述多特征层融合网络用于使得:
所述第4阶特征图经过1×1卷积得到卷积后的第4阶特征图;
所述卷积后的第4阶融合特征图经过2倍上采样后与第3阶特征图融合生成第3阶融合特征图;以及
所述第3阶融合特征图经过1×1卷积并进行2倍上采样后与第2阶特征图融合生成第2阶融合特征图,
所述多特征层融合网络输出1×1卷积后的第4阶特征图、第3阶融合特征图和第2阶融合特征图到所述空间正则化网络。
可选地,所述多特征层融合网络还包括:
第一3×3卷积层,用于对所述1×1卷积后的第4阶特征图进行卷积;
第二3×3卷积层,用于对第3阶融合特征图进行卷积;以及
第三3×3卷积层,用于对第2阶融合特征图进行卷积,
其中多特征层融合网络输出经过3×3卷积后的第2阶融合特征图、第3阶融合特征图和第4阶特征图到所述空间正则化网络,所述空间正则化网络对卷积后的3个特征图分别进行预测并将预测结果求和平均。
本发明第二方面提供了一种利用本发明第一方面提供的神经网络进行多标签识别的训练方法,包括:
利用类别标签训练数据集,仅训练所述卷积网络和类别标签全连接层,输出类别标签预测概率,并且仅保存所述卷积网络的参数;
利用内容标签训练数据集,仅训练所述卷积网络和第二内容标签全连接层,输出内容标签的第二预测概率;
保持所述卷积网络的参数不变,利用内容标签训练数据集训练多特征层融合网络和空间正则化网络并输出所述第一预测概率;
保持所述卷积网络的参数不变,利用题材标签训练数据集,仅训练所述题材标签全连接层,输出所述题材标签预测概率。
可选地,所述网络包括加权全连接层,用于在将第N阶特征图输入到所述类别标签全连接层之前对所述第N阶特征图的每个通道用所述内容标签预测概率进行加权;
所述训练方法还包括利用类别标签训练数据集,仅训练加权全连接层和类别标签全连接层。
可选地,所述类别标签训练数据集、内容标签训练数据集和题材标签训练数据集各自的训练样本数量不同。
可选地,对于类别标签训练数据集,对每张类别标签训练图片进行随机裁剪出局部图,并将所述局部图的尺寸调整到所述类别标签训练图片大小,所述局部图和所述类别标签训练图片构成类别标签训练样本;
对于题材标签训练数据集,对每张题材标签训练图片进行水平翻转,并将所述题材标签训练图片和水平翻转后图片构成题材标签训练样本;
对于内容标签训练数据集,对每张内容标签训练图片进行水平翻转,并将所述内容标签训练图片和水平翻转后图片构成内容标签训练样本。
本发明第三方面提供了一种用于画作多标签识别方法,包括:
将画作图片进输入根据本发明第二方面的方法训练过的神经网络,输出所述内容标签预测概率、题材标签预测概率和类别标签预测概率。
可选地,
对所述图片进行随机截取放大,将所述图片和放大后的图片输入所述神经网络,输出类别标签第一预测向量;
将所述图片输入所述训练过的神经网络,输出类别标签第二预测向量、题材标签预测向量和内容标签预测向量;
将类别标签第一预测向量与类别标签第二预测向量进行求和平均,得到类别标签平均向量;
将类别标签平均向量中经过softmax函数计算后数值最高的类作为所述画作的所述类别标签预测概率,将题材标签预测向量和内容标签预测向量经过sigmoid激活函数,得到所述题材标签预测概率和内容标签预测概率。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现:
如本发明第二方面所述的训练方法;或者
如本发明第三方面所述的识别方法。
本发明第五方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现:
如本发明第二方面所述的训练方法;或者
如本发明第三方面所述的识别方法。
本发明的有益效果如下:
本发明所述网络、方法、介质以及设备可实现针对画作图片的多标签识别,实现了将单标签与多标签的生成在一个网络、同时生成标签的目的,并且通过高低层特征融合提升了标签识别效果。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明;
图1示出根据本发明的一个实施例的用于画作多标签识别的神经网络的网络模型示意图。
图2示出以GoogleNet网络为例的本发明的神经网络的局部示意图。
图3示出根据图2所示的神经网络中的多特征层融合网络的示意图。
图4示出以ResNet 101网络为例的本发明的神经网络的局部示意图。
图5示出根据图4所示的神经网络中的多特征层融合网络的示意图。
图6示出图5所示多特征层融合网络的替换实施例。
图7示出根据本发明的另一个实施例的用于画作多标签识别的神经网络的网络模型示意图。
图8示出神经网络进行多标签识别的训练方法的流程图。
图9示出本发明一个实施例提供的计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
神经网络
本发明的一个实施例提供一种用于画作多标签识别的神经网络,如图1所示,包括:
卷积网络1,包括N阶卷积层,其中第1阶卷积层接收画作图片并输出第1阶特征图,第n阶卷积层接收第(n-1)阶卷积层输出的第(n-1)阶特征图并输出第n阶特征图;
多特征层融合网络2,用于融合至少一个高阶卷积层和至少一个低阶卷积层输出的特征图并输出融合后的特征图;
空间正则化网络3,用于接收所述融合后的特征图;
第一内容标签全连接层4,用于接收空间正则化网络3输出的特征图并输出内容标签的第一预测概率;
第二内容标签全连接层5,用于接收第N阶卷积层输出的第N阶特征图并输出内容标签的第二预测概率,其中内容标签的第一预测概率和第二预测概率进行求和平均得到内容标签预测概率;
题材标签全连接层6,用于接收第N阶卷积层输出的第N阶特征图并输出题材标签预测概率;
类别标签全连接层7,用于接收第N阶卷积层输出的第N阶特征图并输出类别标签预测概率,
其中1<n≤N。
通过本发明实施例的深度网络,可实现针对画作图片的多标签识别,单标签(类别标签)与多标签(内容标签、题材标签)生成在一个网络,并且通过内容标签的高低层特征融合提升了内容标签的识别效果。
在图像识别领域,已有大量经过1000类分类图像数据库(ImageNet数据库)的各类型预训练神经网络模型,比如GoogLeNet、VGG-16、ResNet 101等。
在本发明的一个具体示例中,以输入尺寸为224×224像素,通道数为3(以RGB三通道为例)的画作图片为例输入卷积网络。
以GoogLeNet为例,包括第1-5阶卷积层,依次提取的特征图大小为:64个112×112大小的第1阶特征图C1、192个56×56大小的第2阶特征图C2、480个28×28大小的第3阶特征图C3、832个14×14大小的第4阶特征图C4、1024个7×7大小的第5阶特征图C5。
如图2,所述第1到5阶特征图均被输入到多特征层融合网络2中。图3为本示例中的多特征层融合网络1的融合结构。
如图3所示,本示例在融合多个尺度特征的时候,采用相邻两阶特征逐层融合的方式,先融合较高阶两个尺度的特征为一个尺度的特征,在用融合后的高阶特征图像融合较低阶的特征图像。
在融合相邻两阶特征图像的时候,先要在维度上将两阶特征统一,利用卷积核大小为1×1的卷积层实现高阶特征的降维,使高阶特征的维度降低到与低阶特征的维度一样。
以融合第3、4、5阶特征图像为例,如图3所示,第5阶特征图C5为7×7×1024大小,先通过卷积核为1×1大小的卷积层将特征图转化为7×7×832大小的P5,再利用双线性插值将特征图转化为14×14×832大小;将转化后的第5阶特征和第4阶特征进行融合,在对应的维度上进行逐个像素的累加,得到融合后的第4阶特征图P4,大小为14×14×832。同样,利用卷积核为1×1大小的卷积层和双线性插值层将融合后的第4阶特征图P4转化为28×28×480大小,再与第3阶特征进行对应维度上逐个像素的累加,得到融合后的第3阶特征图P3,大小为28×28×480;
同样的操作,得到融合后的第2阶特征图P2,大小为56×56×192以及融合后的第1阶特征图P1,大小为112×112×64。融合后的第1阶特征图P1被输出到空间正则化网络3。
本发明的实施例也包含低阶特征通过1×1大小的卷积层达到升维的效果,从而与高阶特征融合的方式。
再回到图2,融合后的第1阶特征图P1被输出到空间正则化网络3。
SRN Net分为两个分支:一个分支抽取特征层(112×112×64),经过注意力网络31(3个卷积层1×1×512;3×3×512;1×1×C)得到注意力图A,其中C为总标签数目。另一分支通过置信度网络32得到分类置信度图S,再经Sigmoid函数(图中以表示)与A图进行加权;加权结果经fsr网络(3个卷积1×1×C;1×1×512,2048个14×14×1大小并且分为512组每组4个卷积核)学习得到标签之间的语义联系。
在本发明的一个另一个具体示例中,仍以输入尺寸为224×224像素,通道数为3(以RGB三通道为例)的画作图片为例输入卷积网络。
如图4所示,在本示例中,卷积网络为ResNet 101,包括第1-5阶卷积层,依次提取的特征图大小为:128个112×112大小的第1阶特征图C1、256个56×56大小的第2阶特征图C2、512个28×28大小的第3阶特征图C3、1024个14×14大小的第4阶特征图C4、2048个7×7大小的第5阶特征图C5。
由于低阶特征语义信息较少,在本示例中,如图4所示,仅第2到4阶特征图被输入到多特征层融合网络1中。
图5为本示例中的多特征层融合网络1的融合结构。如图所示,第4阶特征图C4为14×14×1024大小,先通过卷积核为1×1大小的卷积层将特征图转化为14×14×512大小的P4,再利用2倍上采样将特征图转化为28×28×512大小;将转化后的第4阶特征和第3阶特征进行融合,在对应的维度上进行逐个像素的累加,得到第3阶融合特征图P3,大小为28×28×512。同样,利用卷积核为1×1大小的卷积层和双线性插值层将第3阶融合特征图P3转化为56×56×256大小,再与第2阶特征进行对应维度上逐个像素的累加,得到第2阶特征图P2,大小为56×56×256。
本发明的实施例也包含低阶特征通过1×1大小的卷积层达到升维的效果,从而与高阶特征融合的方式。
相比于上述GoogleNet网络的示例,本示例将通过1×1卷积层转化后的第4阶特征图P4、第3阶融合特征图P3以及第2阶融合特征图P2输出到空间正则化网络3。
转回图4,在本示例中,空间正则化网络3包括注意力网络33和置信度网络34,用于接收通过1×1卷积层转化后的第4阶特征图P4;注意力网络35和置信度网络36,用于接收第3阶融合特征图P3;以及注意力网络37和置信度网络38,用于接收第2阶融合特征图P2。
注意力网络和置信度网络分别在这3层上做独立预测,得到的预测结果进行求和平均后,再输入fsr网络。
在本示例中,可选地,如图6所示,所述多特征层融合网络还包括:
第一3×3卷积层,用于对所述1×1卷积后的第4阶特征图进行卷积得到Q4;
第二3×3卷积层,用于对第3阶融合特征图进行卷积得到Q3;以及
第三3×3卷积层,用于对第3阶融合特征图进行卷积得到Q2,
多特征层融合网络输出Q2、Q3和Q4至空间正则化网络3。
由于艺术画作的类别不容易判断,而内容标签和类别标签具有一定的语义相关性,如竹子、葡萄、虾等常出现在国画中,而花瓶、水果等经常出现在油画中,因此本发明利用内容标签对类别特征进行加强和关联。
具体地,本发明实施例的神经网络还包括加权全连接层8,用于在将第N阶特征图(在Resnet 101网络的示例中是第5阶特征图)输入到所述类别标签全连接层7之前对所述第N阶特征图的每个通道用所述内容标签预测概率进行加权。在Resnet 101网络的示例中加权全连接层8是2048维全连接层。通过对每个通道加权,可以增强出现内容标签相关性高的类别特征,然后再连接类别标签全连接层7,得到类别标签预测概率。
训练方法
本发明的另一个实施例提供一种利用上述实施例中的神经网络进行画作多标签识别的训练方法,如图8所示,包括:
S1、利用类别标签训练数据集,仅训练所述卷积网络和类别标签全连接层,输出类别标签预测概率,并且仅保存所述卷积网络的参数。
仍以Resnet 101网络的示例做说明,具体地,仅训练图1中的主干网络Resnet101的块1-4(blockl-block4),块5(block5)、类别标签全连接层7,输出是预测的类别标签loss1=lossclass,其中类别标签损失函数lossclass按照softmax cross entropyloss方式计算。然后仅保存主干网络Resnet101 block1-block4,block5的网络参数。
S2、利用内容标签训练数据集,仅训练所述卷积网络和第二内容标签全连接层,输出内容标签的第二预测概率。
具体地,仅训练图1中的主干网络Resnet101 block1-block4,block5和第二内容标签全连接层5,输出是预测的内容标签loss2=losscontent_1,其中内容标签损失函数losscontent_1按照sigmoid cross entropy loss方式计算。
S3、保持所述卷积网络的参数不变,利用内容标签训练数据集训练多特征层融合网络和空间正则化网络并输出所述内容标签的第一预测概率。
具体地,固定Resnet主干网络参数,用内容标签训练数据集训练图1中下部的网络,由多特征层融合网络2和空间正则化网络3。训练过程类似于现有SRN网络中注意力网络和空间正则化网络的训练过程,得到对应的内容标签的第一预测概率其中loss3=losscontent_2,按照sigmoid cross entropy loss方式计算。
最终内容标签的预测概率是将S2中对应结果与S3的结果进行平均得到。
S4、保持所述卷积网络的参数不变,利用题材标签训练数据集,仅训练所述题材标签全连接层,输出所述题材标签预测概率。
具体地,固定Resnet主干网络参数,仅训练图1中题材标签全连接层6,输出是题材标签预测概率loss4=losstheme,其中题材标签损失函数losstheme按照sigmoidcross entropy loss方式计算。
本发明采用的非整体训练方法,是分步骤训练的方法,相比于整体训练方法,本发明的训练可以加快收敛、提高准确率。
在本发明的神经网络包括加权全连接层8的情况下,所述训练方法还包括利用类别标签训练数据集,仅训练加权全连接层8和类别标签全连接层7。
具体地,将前面所有网络参数固定,利用类别标签训练数据集,仅训练加权全连接层8和类别标签全连接层7,从而提高了类别标签的识别效果。其中loss5=lossclass,类别标签损失函数lossclass按照softmax cross entropy loss方式计算。
在本发明的神经网络包括加权全连接层8的情况下,在步骤S1中,需要将加权全连接层8中值全设为1,即不增加权重部分。
另外,由于有些类别的画作内容标签多(如油画),有些类别的内容标签少(如素描),如果一个模型用同一个数据集同时训练类别、题材和内容标签,难以保证训练样本均衡,因此采用分别制作数据集、分步训练的方法,将数据集分成了类别、题材和内容3个数据集,这3个数据集的训练样本数量可以彼此不同,只要保证每个数据集中的每类样本数量均衡即可,从而能够减少数据标注量。
相比于现有的照片标签识别,画作的类别标签识别存在一些画作类别难以区分的问题,如油画和水粉、写实油画和摄影作品等,如果仅用拍摄的、低分辨率的图片,无法看出颜料纹理、笔触、材质等,往往难以区分;为了对类别进行区分,不仅需要整幅图像的特征,还需要局部放大的纹理图片,以进行区分。
因此,本发明的一个实施例提供一种针对不同的标签的训练数据集的增强处理方法,具体地:
对于类别标签训练数据集,对每张类别标签训练图片进行随机裁剪出局部图,并将所述局部图的尺寸调整到所述类别标签训练图片大小,所述局部图和所述类别标签训练图片构成类别标签训练样本。
例如,对于油画、水粉、水彩和摄影等容易混淆的图片,需要通过纹理来区分,因此增加局部纹理图片扩充,对每张训练图片随机裁剪出4张,裁剪比例为原图的50%-70%,然后将裁剪后的图片尺寸调整到原图片大小,相当于局部放大的图片。每张图片扩充后算上原图共计5张,作为训练样本。
对于题材标签训练数据集,对每张题材标签训练图片进行水平翻转,并将所述题材标签训练图片和翻转后图片构成题材标签训练样本。
对于内容标签训练数据集,对每张内容标签训练图片进行水平翻转,并将所述内容标签训练图片和水平翻转后图片构成内容标签训练样本。
例如,题材和内容标签的训练并不适合用局部裁剪的图片,因为会破坏其局部内容完整性,因此仅利用原图和水平翻转的图片进行数据扩充。
画作多标签识别方法
本发明的另一个实施例提供利用神经网络进行多标签识别的方法,包括:
将画作图片进输入根据本发明的方法训练过的神经网络,输出所述内容标签预测概率、题材标签预测概率和类别标签预测概率。
本发明的一个具体实施例中,该识别方法还包括:
对画作图片进行随机截取放大,将所述画作图片和放大后的图片输入根据本发明的实施例训练过的神经网络,输出类别标签第一预测向量;
将所述画作图片输入所述训练过的神经网络,输出类别标签第二预测向量、题材标签预测向量和内容标签预测向量;
将类别标签第一预测向量与类别标签第二预测向量进行求和平均,得到类别标签平均向量;
将类别标签平均向量中经过softmax函数计算后数值最高的类作为所述画作的所述类别标签预测概率,将题材标签预测向量和内容标签预测向量经过sigmoid激活函数,得到所述题材标签预测概率和内容标签预测概率。
计算机可读介质和电子设备
如图9所示,适于用来实现上述训练方法、测试方法、数据集增强方法以及识别方法的计算机设备,包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有计算机***操作所需的各种程序和数据。CPU、ROM以及RAM通过总线被此相连。输入/输入(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
特别地,根据本实施例,上文流程图描述的过程可以被实现为计算机软件程序。例如,本实施例包括一种计算机程序产品,其包括有形地包含在计算机可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。
附图中的流程图和示意图,图示了本实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或示意图中的每个方框可以代表一个模块、程序段或代码的一部分,上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,示意图和/或流程图中的每个方框、以及示意和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括卷积网络单元、多特征层融合网络单元等。
作为另一方面,本实施例还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质,也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备实现上述训练方法或者识别方法。
需要说明的是,在本发明的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于本领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (14)

1.一种用于画作多标签识别的神经网络网络,其特征在于,包括:
卷积网络,包括N阶卷积层,其中第1阶卷积层接收画作图片并输出第1阶特征图,第n阶卷积层接收第(n-1)阶卷积层输出的第(n-1)阶特征图并输出第n阶特征图;
多特征层融合网络,用于融合至少一个高阶卷积层和至少一个低阶卷积层输出的特征图并输出融合后的特征图;
空间正则化网络,用于接收所述融合后的特征图;
第一内容标签全连接层,用于接收空间正则化网络输出的特征图并输出内容标签的第一预测概率;
第二内容标签全连接层,用于接收第N阶卷积层输出的第N阶特征图并输出内容标签的第二预测概率,其中内容标签的第一预测概率和第二预测概率进行求和平均得到内容标签预测概率;
题材标签全连接层,用于接收第N阶卷积层输出的第N阶特征图并输出题材标签预测概率;
类别标签全连接层,用于接收第N阶卷积层输出的第N阶特征图并输出类别标签预测概率,
其中1<n≤N。
2.根据权利要求1所述的神经网络,其特征在于,还包括:
加权全连接层,用于在将第N阶特征图输入到所述类别标签全连接层之前对所述第N阶特征图的每个通道用所述内容标签预测概率进行加权。
3.根据权利要求1或2所述的神经网络,其特征在于,
所述多特征层融合网络采用高阶特征图融合相邻低阶特征图的方式逐层进行融合。
4.根据权利要求3所述的神经网络,其特征在于,
所述卷积网络为GoogleNet网络,包括5阶卷积层,所述第1-5阶特征图均被输入到所述多特征层融合网络;
所述多特征层融合网络用于使得:
所述第5阶特征图经过1×1卷积并进行2倍上采样后与第4阶特征图融合生成第4阶融合特征图;
所述第4阶融合特征图经过1×1卷积并进行2倍上采样后与第3阶特征图融合生成第3阶融合特征图;
所述第3阶融合特征层经过1×1卷积并进行2倍上采样后与第2阶特征图融合生成第2阶融合特征图;以及
所述第2阶融合特征层经过1×1卷积并进行2倍上采样后与第1阶特征图融合生成第1阶融合特征图,
所述多特征层融合网络输出第1融合特征图到所述空间正则化网络。
5.根据权利要求3所述的神经网络,其特征在于,
所述卷积网络为Resnet 101网络,包括5阶卷积层,所述第2-4阶特征图均被输入到所述多特征层融合网络;
所述多特征层融合网络用于使得:
所述第4阶特征图经过1×1卷积得到卷积后的第4阶特征图;
所述卷积后的第4阶融合特征图经过2倍上采样后与第3阶特征图融合生成第3阶融合特征图;以及
所述第3阶融合特征图经过1×1卷积并进行2倍上采样后与第2阶特征图融合生成第2阶融合特征图,
所述多特征层融合网络输出1×1卷积后的第4阶特征图、第3阶融合特征图和第2阶融合特征图到所述空间正则化网络。
6.根据权利要求5所述的神经网络,其特征在于,所述多特征层融合网络还包括:
第一3×3卷积层,用于对所述1×1卷积后的第4阶特征图进行卷积;
第二3×3卷积层,用于对第3阶融合特征图进行卷积;以及
第三3×3卷积层,用于对第2阶融合特征图进行卷积,
其中多特征层融合网络输出经过3×3卷积后的第2阶融合特征图、第3阶融合特征图和第4阶特征图到所述空间正则化网络,所述空间正则化网络对卷积后的3个特征图分别进行预测并将预测结果求和平均。
7.一种利用权利要求1-6中任一项神经网络进行训练的方法,其特征在于,包括:
利用类别标签训练数据集,仅训练所述卷积网络和类别标签全连接层,输出类别标签预测概率,并且仅保存所述卷积网络的参数;
利用内容标签训练数据集,仅训练所述卷积网络和第二内容标签全连接层,输出内容标签的第二预测概率;
保持所述卷积网络的参数不变,利用内容标签训练数据集训练多特征层融合网络和空间正则化网络并输出所述内容标签的第一预测概率;
保持所述卷积网络的参数不变,利用题材标签训练数据集,仅训练所述题材标签全连接层,输出所述题材标签预测概率。
8.根据权利要求7所述的训练方法,其特征在于,
所述网络包括加权全连接层,用于在将第N阶特征图输入到所述类别标签全连接层之前对所述第N阶特征图的每个通道用所述内容标签预测概率进行加权;
所述训练方法还包括:
利用类别标签训练数据集,仅训练加权全连接层和类别标签全连接层。
9.根据权利要求7或8所述的训练方法,其特征在于,
所述类别标签训练数据集、内容标签训练数据集和题材标签训练数据集各自的训练样本数量不同。
10.根据权利要求7或8所述的训练方法,其特征在于,
对于类别标签训练数据集,对每张类别标签训练图片进行随机裁剪出局部图,并将所述局部图的尺寸调整到所述类别标签训练图片大小,所述局部图和所述类别标签训练图片构成类别标签训练样本;
对于题材标签训练数据集,对每张题材标签训练图片进行水平翻转,并将所述题材标签训练图片和水平翻转后图片构成题材标签训练样本;
对于内容标签训练数据集,对每张内容标签训练图片进行水平翻转,并将所述内容标签训练图片和水平翻转后图片构成内容标签训练样本。
11.一种用于画作多标签识别方法,其特征在于,包括:
将画作图片进输入根据权利要求7-10中任一项的方法训练过的神经网络,输出所述内容标签预测概率、题材标签预测概率和类别标签预测概率。
12.根据权利要求11所述的识别方法,其特征在于,
对所述图片进行随机截取放大,将所述图片和放大后的图片输入所述神经网络,输出类别标签第一预测向量;
将所述图片输入所述训练过的神经网络,输出类别标签第二预测向量、题材标签预测向量和内容标签预测向量;
将类别标签第一预测向量与类别标签第二预测向量进行求和平均,得到类别标签平均向量;
将类别标签平均向量中经过softmax函数计算后数值最高的类作为所述画作的所述类别标签预测概率,将题材标签预测向量和内容标签预测向量经过sigmoid激活函数,得到所述题材标签预测概率和内容标签预测概率。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现:
如权利要求7-10中任一项所述的训练方法;或者
如权利要求11或12所述的识别方法。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现:
如权利要求7-10中任一项所述的训练方法;或者
如权利要求11或12所述的识别方法。
CN201910001328.8A 2019-01-02 2019-01-02 用于画作多标签识别的神经网络、相关方法、介质和设备 Active CN109711481B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910001328.8A CN109711481B (zh) 2019-01-02 2019-01-02 用于画作多标签识别的神经网络、相关方法、介质和设备
US16/551,278 US20200210773A1 (en) 2019-01-02 2019-08-26 Neural network for image multi-label identification, related method, medium and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910001328.8A CN109711481B (zh) 2019-01-02 2019-01-02 用于画作多标签识别的神经网络、相关方法、介质和设备

Publications (2)

Publication Number Publication Date
CN109711481A true CN109711481A (zh) 2019-05-03
CN109711481B CN109711481B (zh) 2021-09-10

Family

ID=66259906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910001328.8A Active CN109711481B (zh) 2019-01-02 2019-01-02 用于画作多标签识别的神经网络、相关方法、介质和设备

Country Status (2)

Country Link
US (1) US20200210773A1 (zh)
CN (1) CN109711481B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378215A (zh) * 2019-06-12 2019-10-25 北京大学 基于第一人称视角购物视频的购物分析方法
CN110390350A (zh) * 2019-06-24 2019-10-29 西北大学 一种基于双线性结构的层级分类方法
CN110427990A (zh) * 2019-07-22 2019-11-08 浙江理工大学 一种基于卷积神经网络的艺术图像分类方法
CN110689071A (zh) * 2019-09-25 2020-01-14 哈尔滨工业大学 一种基于结构化高阶特征的目标检测***及方法
CN112733918A (zh) * 2020-12-31 2021-04-30 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN112836076A (zh) * 2021-01-27 2021-05-25 京东方科技集团股份有限公司 一种图像标签生成方法、装置及设备
CN113610739A (zh) * 2021-08-10 2021-11-05 平安国际智慧城市科技股份有限公司 图像数据增强方法、装置、设备及存储介质

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666960B (zh) * 2019-03-06 2024-01-19 南京地平线机器人技术有限公司 图像识别方法、装置、电子设备及可读存储介质
US11763450B1 (en) * 2019-11-14 2023-09-19 University Of South Florida Mitigating adversarial attacks on medical imaging understanding systems
CN112907503B (zh) * 2020-07-24 2024-02-13 嘉兴学院 基于自适应卷积神经网络的南美白对虾品质检测方法
CN111985484A (zh) * 2020-08-11 2020-11-24 云南电网有限责任公司电力科学研究院 基于cnn-lstm的温度仪表数字识别的方法及装置
CN112906730B (zh) * 2020-08-27 2023-11-28 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112288018B (zh) * 2020-10-30 2023-06-30 北京市商汤科技开发有限公司 文字识别网络的训练方法、文字识别方法和装置
CN112488990B (zh) * 2020-11-02 2024-06-07 东南大学 一种基于注意力正则化机制的桥梁支座病害识别方法
CN112529068B (zh) * 2020-12-08 2023-11-28 广州大学华软软件学院 一种多视图图像分类方法、***、计算机设备和存储介质
CN112651438A (zh) * 2020-12-24 2021-04-13 世纪龙信息网络有限责任公司 多类别图像的分类方法、装置、终端设备和存储介质
CN112598080B (zh) * 2020-12-30 2023-10-13 广州大学华软软件学院 基于注意力的宽度图卷积神经网络模型***及训练方法
CN112633482B (zh) * 2020-12-30 2023-11-28 广州大学华软软件学院 一种高效宽度图卷积神经网络模型***及训练方法
CN112766143B (zh) * 2021-01-15 2023-08-25 湖南大学 一种基于多情绪的人脸老化处理方法和***
CN112712082B (zh) * 2021-01-19 2022-08-09 南京南瑞信息通信科技有限公司 一种基于多级图像信息的刀闸开合状态识别方法及装置
CN112949832B (zh) * 2021-03-25 2024-04-16 鼎富智能科技有限公司 一种网络结构搜索方法、装置、电子设备及存储介质
CN113204659B (zh) * 2021-03-26 2024-01-19 北京达佳互联信息技术有限公司 多媒体资源的标签分类方法、装置、电子设备及存储介质
CN112927783B (zh) * 2021-03-30 2023-12-26 泰康同济(武汉)医院 图像检索方法及装置
CN113255432B (zh) * 2021-04-02 2023-03-31 中国船舶重工集团公司第七0三研究所 基于深度神经网络与流形对齐的汽轮机振动故障诊断方法
CN113177498B (zh) * 2021-05-10 2022-08-09 清华大学 基于物体真实大小和物体特征的图像识别方法和装置
CN113159001A (zh) * 2021-05-26 2021-07-23 国网信息通信产业集团有限公司 一种图像检测方法、***、存储介质及电子设备
CN113222068B (zh) * 2021-06-03 2022-12-27 西安电子科技大学 基于邻接矩阵指导标签嵌入的遥感图像多标签分类方法
CN113361593B (zh) * 2021-06-03 2023-12-19 阿波罗智联(北京)科技有限公司 生成图像分类模型的方法、路侧设备及云控平台
CN113762175B (zh) * 2021-09-10 2024-04-26 复旦大学 一种基于图卷积网络的两阶段行为识别细分类方法
CN113902010A (zh) * 2021-09-30 2022-01-07 北京百度网讯科技有限公司 分类模型的训练方法和图像分类方法、装置、设备和介质
CN113902980B (zh) * 2021-11-24 2024-02-20 河南大学 基于内容感知的遥感目标检测方法
CN114297940B (zh) * 2021-12-31 2024-05-07 合肥工业大学 确定非稳态储层参数的方法及装置
CN114139656B (zh) * 2022-01-27 2022-04-26 成都橙视传媒科技股份公司 一种基于深度卷积分析的图片归类方法及播控平台
CN114612681A (zh) * 2022-01-30 2022-06-10 西北大学 基于gcn的多标签图像分类方法、模型构建方法及装置
CN114548132A (zh) * 2022-02-22 2022-05-27 广东奥普特科技股份有限公司 条形码检测模型的训练方法、装置及条形码检测方法、装置
CN114648635B (zh) * 2022-03-15 2024-07-09 安徽工业大学 一种融合标签间强相关性的多标签图像分类方法
CN114742204B (zh) * 2022-04-08 2024-07-16 黑龙江惠达科技股份有限公司 检测秸秆覆盖率的方法和装置
CN114726870B (zh) * 2022-04-14 2024-05-14 福建福清核电有限公司 基于可视化拖拽的混合云资源编排方法、***和电子设备
CN114580484B (zh) * 2022-04-28 2022-08-12 西安电子科技大学 一种基于增量学习的小样本通信信号自动调制识别方法
CN114998620A (zh) * 2022-05-16 2022-09-02 电子科技大学 一种基于张量分解的RNNPool网络目标识别方法
CN116091875B (zh) * 2023-04-11 2023-08-29 合肥的卢深视科技有限公司 模型训练方法、活体检测方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106257496A (zh) * 2016-07-12 2016-12-28 华中科技大学 海量网络文本与非文本图像分类方法
CN107145902A (zh) * 2017-04-27 2017-09-08 厦门美图之家科技有限公司 一种基于卷积神经网络的图像处理方法、装置及移动终端
CN107316042A (zh) * 2017-07-18 2017-11-03 盛世贞观(北京)科技有限公司 一种绘画图像检索方法及装置
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN108710919A (zh) * 2018-05-25 2018-10-26 东南大学 一种基于多尺度特征融合深度学习的裂缝自动化勾画方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106257496A (zh) * 2016-07-12 2016-12-28 华中科技大学 海量网络文本与非文本图像分类方法
WO2018035805A1 (en) * 2016-08-25 2018-03-01 Intel Corporation Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
CN107145902A (zh) * 2017-04-27 2017-09-08 厦门美图之家科技有限公司 一种基于卷积神经网络的图像处理方法、装置及移动终端
CN107316042A (zh) * 2017-07-18 2017-11-03 盛世贞观(北京)科技有限公司 一种绘画图像检索方法及装置
CN108710919A (zh) * 2018-05-25 2018-10-26 东南大学 一种基于多尺度特征融合深度学习的裂缝自动化勾画方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FENG ZHU等: "Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification", 《ARXIV:1702.05891V2[CS.CV]》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378215A (zh) * 2019-06-12 2019-10-25 北京大学 基于第一人称视角购物视频的购物分析方法
CN110378215B (zh) * 2019-06-12 2021-11-02 北京大学 基于第一人称视角购物视频的购物分析方法
CN110390350A (zh) * 2019-06-24 2019-10-29 西北大学 一种基于双线性结构的层级分类方法
CN110427990A (zh) * 2019-07-22 2019-11-08 浙江理工大学 一种基于卷积神经网络的艺术图像分类方法
CN110689071A (zh) * 2019-09-25 2020-01-14 哈尔滨工业大学 一种基于结构化高阶特征的目标检测***及方法
CN110689071B (zh) * 2019-09-25 2023-03-24 哈尔滨工业大学 一种基于结构化高阶特征的目标检测***及方法
CN112733918A (zh) * 2020-12-31 2021-04-30 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN112733918B (zh) * 2020-12-31 2023-08-29 中南大学 基于注意力机制的图分类方法及化合物毒性预测方法
CN112836076A (zh) * 2021-01-27 2021-05-25 京东方科技集团股份有限公司 一种图像标签生成方法、装置及设备
CN112836076B (zh) * 2021-01-27 2024-07-19 京东方科技集团股份有限公司 一种图像标签生成方法、装置及设备
CN113610739A (zh) * 2021-08-10 2021-11-05 平安国际智慧城市科技股份有限公司 图像数据增强方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US20200210773A1 (en) 2020-07-02
CN109711481B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN109711481A (zh) 用于画作多标签识别的神经网络、相关方法、介质和设备
CN109754015A (zh) 用于画作多标签识别的神经网络及相关方法、介质和设备
CN103984959B (zh) 一种基于数据与任务驱动的图像分类方法
CN102314614B (zh) 一种基于类共享多核学习的图像语义分类方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN108229474A (zh) 车牌识别方法、装置及电子设备
CN112651438A (zh) 多类别图像的分类方法、装置、终端设备和存储介质
CN109711448A (zh) 基于判别关键域和深度学习的植物图像细粒度分类方法
CN111191654B (zh) 道路数据生成方法、装置、电子设备及存储介质
WO2020077940A1 (en) Method and device for automatic identification of labels of image
CN113256649B (zh) 一种基于深度学习的遥感图像选站选线语义分割方法
CN107967480A (zh) 一种基于标签语义的显著对象提取方法
CN110457677A (zh) 实体关系识别方法及装置、存储介质、计算机设备
CN115761222B (zh) 图像分割方法、遥感图像分割方法以及装置
CN113569852A (zh) 语义分割模型的训练方法、装置、电子设备及存储介质
CN104504368A (zh) 一种图像场景识别方法及***
CN103440651B (zh) 一种基于秩最小化的多标签图像标注结果融合方法
CN114861842B (zh) 少样本目标检测方法、装置和电子设备
Thakkar Beginning machine learning in ios: CoreML framework
CN108154153A (zh) 场景分析方法和***、电子设备
Oluwasanmi et al. Attentively conditioned generative adversarial network for semantic segmentation
Golyadkin et al. Semi-automatic manga colorization using conditional adversarial networks
US20240249547A1 (en) Pedestrian attribute recognition method based on a pedestrian attribute recognition system and method for training the same
CN115205624A (zh) 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质
Do et al. Exploiting domain transferability for collaborative inter-level domain adaptive object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210621

Address after: Room 2305, luguyuyuan venture building, 27 Wenxuan Road, high tech Development Zone, Changsha City, Hunan Province, 410005

Applicant after: BOE Yiyun Technology Co.,Ltd.

Address before: 100015 No. 10, Jiuxianqiao Road, Beijing, Chaoyang District

Applicant before: BOE TECHNOLOGY GROUP Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant