CN105631479A - 基于非平衡学习的深度卷积网络图像标注方法及装置 - Google Patents
基于非平衡学习的深度卷积网络图像标注方法及装置 Download PDFInfo
- Publication number
- CN105631479A CN105631479A CN201511021328.2A CN201511021328A CN105631479A CN 105631479 A CN105631479 A CN 105631479A CN 201511021328 A CN201511021328 A CN 201511021328A CN 105631479 A CN105631479 A CN 105631479A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- degree
- neural networks
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000009826 distribution Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 73
- 238000013527 convolutional neural network Methods 0.000 claims description 64
- 238000002372 labelling Methods 0.000 claims description 20
- 238000002203 pretreatment Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims description 2
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims description 2
- 210000000299 nuclear matrix Anatomy 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 239000002689 soil Substances 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000009828 non-uniform distribution Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于非平衡学习的深度卷积网络图像标注方法及装置,该方法包括:步骤1、对于待识别图像做预处理,以获得待识别图像的原始像素;步骤2、将所述待识别图像的原始像素输入至深度卷积神经网络中,得到所述待识别图像的深度特征表示信息;步骤3、利用所述深度特征表示信息预测所述待识别图像的标注信息。本发明所述的图像标注方法,不仅考虑到了图像字典词汇的分布,而且通过深度卷积网络对图像的原始像素进行逐层提取,比传统的标注方法更加精确。
Description
技术领域
本发明涉及图像标注技术领域,尤其涉及一种基于非平衡学习的深度卷积网络图像标注方法。
背景技术
大数据时代,人们可以访问获取的信息资源呈现出***式的增长,互联网上每天都诞生海量的图像和视频信息。为了有效地组织、查询与浏览如此大规模的图像资源,图像检索技术应运而生。基于文本的图像检索(Text-BasedImageRetrieval,TBIR)是一种重要的图像检索方法。对TBIR来说,它要求用户提交文本作为查询,因此,图像检索需要事先获取图像的文本语义信息。图像的标签是一种有效获取图像的语义信息的方法,它应用广泛,例如在社交媒体中大量的图像被用户标记信息。然而互联网上同时存在大量的图像未被标记信息,因此人们期望利用含有标签图像通过某种算法自动生成缺失信息图像的标签。因此如何对海量的社交图像进行标注成为网络多媒体领域重要的研究内容。
目前主流的图像标注方法主要集中在基于视觉信息的方法,该类方法首先进行底层特征提取,如图像的SIFT特征,然后利用机器学习模型(聚类,支撑向量机等)来对基于特征表示的图像进行分类。虽然该类方法在一定程度上取得了较好的效果,然而当前图像标注方法依旧存在两个不足。首先,图像标注的效果强烈的依赖于人工特征提取的特征表示能力。图像标注是通过特定的方法图像的底层特征与高层语义特征的映射关系,当获取的图像底层特征表示能力不足时,无法准确的建立上述映射关系。其次,图像的标注词汇通常是分布不均匀的,一些通用词汇如“动物”或者“植物”等出现的频率较高,而一些抽象的词汇如“倒影”或者“打架”等出现频率较低。传统的图像标注算法在标注过程中容易忽略低频词汇而造成对图像的描述不完备。
图像标注的核心在于如何提取图像的更本质的特征表示,图像的更本质的特征拥有更强的表示能力的图像特征,对社交图像的理解有重要的促进作用。然而,如何设计更强大的图像特征,并考虑到图像类别标签的分布非均匀性,一直是图像标注领域的难点。本发明提出的基于非平衡学习的深度卷积网络图像标注方法,通过逐层特征提取的方法从图像的原始像素信息获得图像的深度特征,同时依据图像标签的词频解决了图像标签的分布非均匀性,对互联网图像标注有着重要作用。
发明内容
针对上述问题,为了解决现有技术中存在的上述问题,本发明提出了一种基于非平衡学习的深度卷积网络图像标注方法及装置。本发明主要解决了现有技术中的两个难题:特征提取与词汇非均匀分布。
根据本发明一方面,提供了一种基于非平衡学习的深度卷积网络图像标注方法,该方法包括以下步骤:
步骤1、对于待识别图像做预处理,以获得待识别图像的原始像素;
步骤2、将所述待识别图像的原始像素输入至深度卷积神经网络中,得到所述待识别图像的深度特征表示信息;
步骤3、利用所述深度特征表示信息预测所述待识别图像的标注信息;
其中,步骤2中所述深度卷积神经网络为预先训练好的,其通过下述方式训练得到:
步骤201、对于训练集中的训练图像做预处理;
步骤202、对于所述训练集中所述训练图像对应的标签计算词频,依据词频获取每幅训练图像所对应标签的监督信息;
步骤203、构建深度卷积神经网络,所述深度卷积神经网络包括多个隐层,所述隐层包括卷积层、降采样层和全连接层;
步骤204、将所述训练集中的训练图像作为所述深度卷积神经网络的输入,通过反向传播算法有监督的学习所述深度卷积神经网络的网络模型参数;
其中,所述网络模型参数包括所述深度卷积神经网络中每层的网络权重和偏置参数,所述网络权重和所述偏置参数根据每次训练得到的深度卷积神经网络预测的标签分布和本次训练输入的训练图像所对应标签的监督信息确定的目标函数迭代更新。
根据本发明另一方面,提供了一种基于非平衡学习的深度卷积网络图像标注装置,包括:
预处理模块,对于待识别图像做预处理,以获得待识别图像的原始像素;
识别模块,将所述待识别图像的原始像素输入至深度卷积神经网络中,得到所述待识别图像的深度特征表示信息;
标注信息输出模块,利用所述深度特征表示信息预测所述待识别图像的标注信息;
其中,识别模块中所述深度卷积神经网络为预先训练好的,其通过下述方式训练得到:
对于训练集中的训练图像做预处理;
对于所述训练集中所述训练图像对应的标签计算词频,依据词频获取每幅训练图像所对应标签的监督信息;
构建深度卷积神经网络,所述深度卷积神经网络包括多个隐层,所述隐层包括卷积层、降采样层和全连接层;
将所述训练集中的训练图像作为所述深度卷积神经网络的输入,通过反向传播算法有监督的学习所述深度卷积神经网络的网络模型参数;
其中,所述网络模型参数包括所述深度卷积神经网络中每层的网络权重和偏置参数,所述网络权重和所述偏置参数根据每次训练得到的深度卷积神经网络预测的标签分布和本次训练输入的训练图像所对应标签的监督信息确定的目标函数迭代更新。
互联网图像标注在很多重要的相关领域已经有了广泛的应用。由于视觉顶层信息与高层语义之间的语义鸿沟的存在,基于视觉的图像标注是一个具有挑战性的难题。本发明提出的上述基于非平衡学习的深度卷积网络图像标注方法能够自动对社交图像进行标注,另外本发明的标注方法比传统的标注方法更加精确。通过逐层特征提取的方法从图像的原始像素信息获得图像的深度特征,同时依据图像标签的词频解决了图像标签的分布非均匀性,对互联网图像标注有着重要作用。
附图说明
图1是根据本发明一实施例的基于非平衡学习的深度卷积网络图像标注方法的流程图;
图2是根据本发明一实施例的深度卷积网络的模型结构图;
图3是根据本发明一实施例的降采样池化过程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图1,对本发明进一步详细说明。
本发明提出了一种基于非平衡学习的深度卷积网络图像标注方法及装置。
首先,本发明构建深度卷积网络提取图像的深度特征。深度卷积网络主要包括三个组成部分:卷积层,降采样层和全连接层。卷积层用可训练的卷积核去卷积输入的图像(第一阶段是输入的图像,后面的阶段就是特征图了),然后加一个偏置,得到卷积层。卷积层在同一特征映射面上的神经元权值相同,降低了网络的复杂性。降采样层将每邻域n个像素通过池化(pooling)步骤变为一个像素。降采样可以获得某种程度的位移、尺度、形变鲁棒性。通过全连接层的非线性变换,可以对图像的特征做进一步的抽取。最后考虑到图像标注词汇之间的相关性,选用Logistic分类器预测图像标签的概率分布。深度卷积网络避免了对图像显式的特征提取,通过训练数据隐式的学习图像特征。同时深度卷积网络的结构与图像的拓扑结构相吻合,在处理图像问题上有着独特的优势。
其次,本发明利用图像的标签词汇的频率优化卷积神经网络的目标函数。传统图像标注方法对不同词频的词汇同等对待,造成低频词汇在标注过程中容易丢失。本发明通过计算图像标签词典中所有词汇的出现频率,优化深度卷积网络的目标函数,对低频的词汇给予更大的损失权重。这样保证了在整个训练集中,不同词频的词汇造成的损失是平衡的。
本发明所提出的方法所涉及的相关数据集包括:1)训练集,其中包括图像以及该图像所对应的社交标签;2)测试集,仅包括待标注的测试图像,而没有标签信息。
考虑到图像底层视觉信息和社交标签信息的异构性,本发明提出了一种基于逐层标签融合深度网络的图像标注方法。该方法的核心思想是在深度网络的框架下,逐层地进行标签信息和视觉信息的融合,从而学习图像的层级特征,为图像的标注提供特征表示。
图1示出了本发明提出的基于非平衡学习的深度卷积网络图像标注方法的流程图,如图1所示,所述方法包括:
步骤1、对于待识别图像做预处理,以获得待识别图像的原始像素;所述预处理包括尺度变换和标准化,用于提取图像的底层像素特征;其中,所述训练集中包括多个训练图像以及所述多个训练图像对应的标签;所述底层像素特征包括:图像的灰度值或者RGB三通道数值等;
步骤2、将所述待识别图像的原始像素输入至深度卷积神经网络中,得到所述待识别图像的深度特征表示信息;
步骤3、利用所述深度特征表示信息预测所述待识别图像的标注信息。
其中,步骤2中所述深度卷积神经网络为预先训练好的,其包括卷积层、降采样层和全连接层,其中所述深度卷积神经网络通过下述方式获得:
步骤201、对于训练集中的训练图像做预处理,所述预处理包括尺度变换和标准化,用于提取图像的底层像素特征;其中,所述训练集中包括多个训练图像以及所述多个训练图像对应的标签;所述底层像素特征包括:图像的灰度值或者RGB三通道数值等;
步骤202、对于所述训练集中所述训练图像对应的标签计算词频,依据词频获取每幅训练图像所对应标签的监督信息;
步骤203、构建深度卷积神经网络,所述深度卷积神经网络包括多个隐层,所述隐层包括卷积层、降采样层和全连接层;
步骤204、将所述训练集图像中的训练图像作为所述深度卷积神经网络,通过反向传播算法学习所述深度卷积神经网络的网络模型参数。
下面详细介绍上述步骤的具体执行过程。
对于步骤1和201中,对待识别图像和训练集中的训练图像进行同样的预处理。优选地。所述预处理包括:对图像进行尺度变换和标准化处理,可尺度变换和标准化要求将图像的尺度变换为标准尺度(如256×256),和对图像的像素值做标准化(训练集中的每幅图像像素值减去所有图像的均值并除以方差)。本发明优选图像的原始像素点作为所述深度卷积神经网络的输入,保存了图像最完整的信息,图像的像素特征用X表示。
步骤202中,对训练集中的训练图像对应的所有标签构成的标签字典统计词频。
假设训练集中图像数目为N,图像标签字典的长度为M,定义Ti,j(i=1,2,...,N;j=1,2,...,M)为第i幅图像的标签信息,其中Ti,j=1表示第i幅图像包含图像标签字典中第j个标签。第j个标签的出现次数为那么第i幅图像的监督信息,可由下式计算
其中在训练深度卷积网络的时候,监督信息用来计算网络输出与监督信息的偏差。
所述步骤203为利用训练图像,训练深度卷积神经网络的模型参数。
步骤203中,构建包含L层隐藏层的深度卷积神经网络,其中包括LC层卷积层,LS层降采样层和LF层全连接层,一般的LC=LS且L=LC+LS+LF。然后,使步骤203中的监督信息对应为深度卷积网络的监督层(此处所谓的对应指的是将监督信息赋值到监督层上,计算监督信息Y与网络输出hL+1的偏差)。设深度卷积网络各层的变量表示为h={h0,h1...,hL,hL+1},其中h0表示输入图像的底层视觉特征X,即获取的图像原始像素特征,表示矩阵特征,表示一维向量特征,hL+1表示深度卷积网络输出的图像标签信息。
该步骤是本发明的重要组成部分,图2为根据本发明实施的逐层特征提取的深度卷积网络的模型结构图,参照图2,图2为卷积神经网络的通用示意图,所述步骤203包括以下步骤
步骤3.1:通过卷积计算提取输入图像的局部特征。所述卷积神经网络中,从h1层向上到层,在h2k与h2k+1层之间构建一个卷积层,其中k=0,...,LC-1。通过所述卷积变换可由下层的表示得到上一层表示的映射。
比如,基于h2k与h2k+1层之间的卷积变换,由h2k层表示可映射得到h2k+1层的表示:
其中,为第2k+1层第j个卷积核矩阵(C2k+1×C2k+1的方阵),b2k+1,j为第2k+1层第j个偏置参数,Nk表示第2k+1层卷积核的个数。σ()表示ReLU函数,形式为σ(x)=max(0,x)。
这样由h2k层的表示通过映射就可以得到h2k+1的表示。
步骤3.2:通过池化对图像的局部特征做降采样。所述卷积神经网络总从h2层向上到层,在h2k+1与h2k+2层之间构建有一个降采样层,其中k=0,...,LS-1。通过所述池化变换可由下层的表示得到上一层表示的映射。
比如,基于h2k+1与h2k+2层之间的池化变换。设池化步长为S2k+2,如图所示,对输入矩阵h2k+1(假定维数为B×C),每隔S2k+2个元素选取S2k+2×S2k+2区域内的最大值为该区域的输出,那么输出矩阵h2k+2的维数为其中表示向上取整。
这样由h2k+1层表示可映射得到h2k+2层的表示。具体如图3所示,图3为根据本发明实施例的降采样池化过程实例示意图。
重复执行步骤3.1和3.2中的所述卷积操作和降采样操作,最终输出输入图像的局部特征;
步骤3.3:通过全连接层对所提取的局部特征做进一步的逐层特征提取。所述卷积神经网络从层到层,在每相邻两层之间构建一个非线性变换,通过所述非线性变换可由下一层的表示得到上一层表示的映射;
比如,基于和层之间的非线性变换,由层的表示可映射得到层的表示:
其中,为第LC+LS+k+1层的变换权重,为第LC+LS+k+1层的偏置参数,σ()表示ReLU函数,形式如步骤3.2所示。
这样由层的表示通过映射就可以得到的表示。
步骤3.4:通过分类器层预测图像的标签分布。从hL层到hL+1层构建一个logistic(逻辑斯蒂克)分类器,通过所述分类器可以得到网络的输出hL+1:
hL+1=f(hL×WL+1+bL+1)
其中,WL+1为第L+1层的变换权重,bL+1为第L+1层的偏置参数,f()表示logistic函数,具体形式为f(x)=1/(1+e-x)
这样hL+1层网络可以看出图像标签的分布概率。
所述步骤204中定义深度卷积网络的目标函数J,并通过反向传播算法有监督的最小化该目标函数,即利用前面得到的监督信息来最小化所述目标函数,从而整体优化整个卷积网络的参数。
网络的目标函数J定义为步骤202中计算得到的监督信息Y与深度卷积网络预测的标签分布hL+1的交叉熵:
J=-[(Ylog(hL+1))+(1-Y)log(1-hL+1)]
其中,利用梯度下降算法来最小化目标函数J,从而以迭代的方式对(W,b)进行调整:
其中,λ为参数更新的学习率,Wl为卷积层和全连接层中的权重,bl为卷积层和全连接层中的偏置。对于上式的求解方法在Rumelhart等人1986年发表在Nature上的文章"Learningrepresentationsbyback-propagatingerrors"中有具体介绍。
步骤2中,利用训练好的深度卷积神经网络,获得待识别图像的深度特征表示信息(h1,...,hL)。
步骤3中,利用所述深度卷积神经网络得到的待识别图像的深度特征表示信息,作为分类器的输出得到测试图像的标签信息的分布:hL+1=f(hL×WL+1+bL+1)。
之后对待识别图像的标签信息的概率分布hL+1进行排序,将前K个且的词汇作为待识别图像的标签,其中,ξ为标签生成的概率阈值,一般设为0.1。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于非平衡学习的深度卷积网络图像标注方法,其特征在于,该方法包括以下步骤:
步骤1、对于待识别图像做预处理,以获得待识别图像的原始像素;
步骤2、将所述待识别图像的原始像素输入至深度卷积神经网络中,得到所述待识别图像的深度特征表示信息;
步骤3、利用所述深度特征表示信息预测所述待识别图像的标注信息;
其中,步骤2中所述深度卷积神经网络为预先训练好的,其通过下述方式训练得到:
步骤201、对于训练集中的训练图像做预处理;
步骤202、对于所述训练集中所述训练图像对应的标签计算词频,依据词频获取每幅训练图像所对应标签的监督信息;
步骤203、构建深度卷积神经网络,所述深度卷积神经网络包括多个隐层,所述隐层包括卷积层、降采样层和全连接层;
步骤204、将所述训练集中的训练图像作为所述深度卷积神经网络的输入,通过反向传播算法有监督的学习所述深度卷积神经网络的网络模型参数;
其中,所述网络模型参数包括所述深度卷积神经网络中每层的网络权重和偏置参数,所述网络权重和所述偏置参数根据每次训练得到的深度卷积神经网络预测的标签分布和本次训练输入的训练图像所对应标签的监督信息确定的目标函数迭代更新。
2.如权利要求1所述的方法,其中步骤202中每幅训练图像所对应标签的监督信息如下计算:
假设训练集中训练图像数目为N,图像标签字典的长度为M,定义Ti,j(i=1,2,...,N;j=1,2,...,M)为第i幅图像的标签信息,其中Ti,j=1表示第i幅图像包含标图像标签字典中第j个标签,第j个标签的出现次数为那么第i幅图像的监督信息,可由下式计算:
3.如权利要求1所述的方法,其中,步骤203中所构建的深度卷积神经网络包括LC层卷积层,LS层降采样层和LF层全连接层,其中LC=LS,所构建的深度卷积神经网络的中间层数L=LC+LS+LF;深度卷积网络各层的变量表示为h={h0,h1...,hL,hL+1},其中h0表示输入图像的图像原始像素特征,表示矩阵特征,表示一维向量特征,hL+1表示深度卷积神经网络输出的图像标签信息。
4.如权利要求3所述的方法,其中,步骤203具体包括:
步骤2031:在h2k与h2k+1层之间构建卷积映射,其中k=0,...,LC-1,所述卷积映射如下表示:
其中,为第2k+1层第j个卷积核矩阵,b2k+1,j为第2k+1层第j个偏置参数,Nk表示第2k+1层卷积核的个数;σ()表示ReLU函数,形式为σ(x)=max(0,x);
步骤2032:在h2k+1与h2k+2层之间构建池化映射,以将h2k+1层表示映射得到h2k+2层的表示,其中k=0,...,LS-1;
步骤2033:从层到层,在每相邻两层之间构建一个非线性变换,通过所述非线性变换由层的表示得到的表示,其中k=0,...,LS-1;
步骤2034:从hL层到hL+1层构建一个分类器,通过所述分类器得到深度卷积神经网络的输出hL+1:
hL+1=f(hL×WL+1+bL+1)
其中,WL+1为第L+1层的变换权重,bL+1为第L+1层的偏置参数,f(x)=1/(1+e-x)。
5.如权利要求1所述的方法,其中,步骤2中所述深度卷积神经网络对所输入的待识别图像进行如下的识别过程:
利用所述深度卷积神经网络中的卷积层和降采样层对所输入的待识别图像逐层提取输入图像的局部特征;
步骤2032;将所提取的局部特征利用所述深度卷积神经网络中的多个全连接层做进一步的特征提取;
步骤2033:将最后一个全连接层输出的特征作为所述深度卷积神经网络的输出,即所述待识别图像的深度特征表示信息。
6.如权利要求1所述的方法,其中,所述步骤204包括:
步骤2041:应用所述深度卷积神经网络输出的预测标签与训练图像的真实标签之间的交叉熵损失来定义所述深度卷积神经网络的目标函数;
步骤2042:通过反向传播算法,最小化所述深度卷积神经网络的目标函数,更新网络模型参数。
7.如权利要求6所述的方法,其中,步骤2014中所述目标函数定义为所述监督信息与所述深度卷积神经网络输出的预测标签的交叉墒:
J=-[(Ylog(hL+1))+(1-Y)log(1-hL+1)]
其中,J为目标函数,hL+1为所述深度卷积神经网络输出的预测标签,Y为所述监督信息;
步骤2042中利用梯度下降算法最小化所述目标函数,从而迭代的方式对所述网络模型参数进行如下更新:
其中,λ为参数更新的学习率,Wl为所述深度卷积神经网络中卷积层和全连接层中的权重,bl为所述深度卷积神经网络中卷积层和全连接层中的偏置。
8.一种基于非平衡学习的深度卷积网络图像标注装置,其特征在于,包括:
预处理模块,对于待识别图像做预处理,以获得待识别图像的原始像素;
识别模块,将所述待识别图像的原始像素输入至深度卷积神经网络中,得到所述待识别图像的深度特征表示信息;
标注信息输出模块,利用所述深度特征表示信息预测所述待识别图像的标注信息;
其中,识别模块中所述深度卷积神经网络为预先训练好的,其通过下述方式训练得到:
对于训练集中的训练图像做预处理;
对于所述训练集中所述训练图像对应的标签计算词频,依据词频获取每幅训练图像所对应标签的监督信息;
构建深度卷积神经网络,所述深度卷积神经网络包括多个隐层,所述隐层包括卷积层、降采样层和全连接层;
将所述训练集中的训练图像作为所述深度卷积神经网络的输入,通过反向传播算法有监督的学习所述深度卷积神经网络的网络模型参数;
其中,所述网络模型参数包括所述深度卷积神经网络中每层的网络权重和偏置参数,所述网络权重和所述偏置参数根据每次训练得到的深度卷积神经网络预测的标签分布和本次训练输入的训练图像所对应标签的监督信息确定的目标函数迭代更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511021328.2A CN105631479B (zh) | 2015-12-30 | 2015-12-30 | 基于非平衡学习的深度卷积网络图像标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201511021328.2A CN105631479B (zh) | 2015-12-30 | 2015-12-30 | 基于非平衡学习的深度卷积网络图像标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105631479A true CN105631479A (zh) | 2016-06-01 |
CN105631479B CN105631479B (zh) | 2019-05-17 |
Family
ID=56046391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201511021328.2A Active CN105631479B (zh) | 2015-12-30 | 2015-12-30 | 基于非平衡学习的深度卷积网络图像标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105631479B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295547A (zh) * | 2016-08-05 | 2017-01-04 | 深圳市商汤科技有限公司 | 一种图像比对方法及图像比对装置 |
CN106650813A (zh) * | 2016-12-27 | 2017-05-10 | 华南理工大学 | 一种基于深度残差网络和lstm的图像理解方法 |
CN106778682A (zh) * | 2017-01-11 | 2017-05-31 | 厦门中控生物识别信息技术有限公司 | 一种卷积神经网络模型的训练方法及其设备 |
CN107169028A (zh) * | 2017-04-13 | 2017-09-15 | 南京信息工程大学 | 海报搜索方法及用户终端 |
CN107203598A (zh) * | 2017-05-08 | 2017-09-26 | 广州智慧城市发展研究院 | 一种实现图像转换标签的方法及*** |
CN107463960A (zh) * | 2017-08-07 | 2017-12-12 | 石林星 | 一种图像识别方法及装置 |
CN107729992A (zh) * | 2017-10-27 | 2018-02-23 | 深圳市未来媒体技术研究院 | 一种基于反向传播的深度学习方法 |
CN107833209A (zh) * | 2017-10-27 | 2018-03-23 | 浙江大华技术股份有限公司 | 一种x光图像检测方法、装置、电子设备及存储介质 |
CN107862387A (zh) * | 2017-12-05 | 2018-03-30 | 深圳地平线机器人科技有限公司 | 训练有监督机器学习的模型的方法和装置 |
CN107909114A (zh) * | 2017-11-30 | 2018-04-13 | 深圳地平线机器人科技有限公司 | 训练有监督机器学习的模型的方法和装置 |
CN108805196A (zh) * | 2018-06-05 | 2018-11-13 | 西安交通大学 | 用于图像识别的自动增量学习方法 |
CN109086463A (zh) * | 2018-09-28 | 2018-12-25 | 武汉大学 | 一种基于区域卷积神经网络的问答社区标签推荐方法 |
CN109191515A (zh) * | 2018-07-25 | 2019-01-11 | 北京市商汤科技开发有限公司 | 一种图像视差估计方法及装置、存储介质 |
CN109299291A (zh) * | 2018-09-28 | 2019-02-01 | 武汉大学 | 一种基于卷积神经网络的问答社区标签推荐方法 |
CN109472360A (zh) * | 2018-10-30 | 2019-03-15 | 北京地平线机器人技术研发有限公司 | 神经网络的更新方法、更新装置和电子设备 |
CN109583583A (zh) * | 2017-09-29 | 2019-04-05 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置、计算机设备及可读介质 |
CN109727238A (zh) * | 2018-12-27 | 2019-05-07 | 贵阳朗玛信息技术股份有限公司 | X光胸片的识别方法及装置 |
CN110163208A (zh) * | 2019-05-22 | 2019-08-23 | 长沙学院 | 一种基于深度学习的场景文字检测方法和*** |
CN110794254A (zh) * | 2018-08-01 | 2020-02-14 | 北京映翰通网络技术股份有限公司 | 一种基于强化学习的配电网故障预测方法及*** |
CN111105389A (zh) * | 2019-11-21 | 2020-05-05 | 天津大学 | 融合Gabor滤波器与卷积神经网络的路面裂缝的检测方法 |
CN111125396A (zh) * | 2019-12-07 | 2020-05-08 | 复旦大学 | 一种单模型多分支结构的图像检索方法 |
US10685263B2 (en) | 2018-02-26 | 2020-06-16 | Industrial Technology Research Institute | System and method for object labeling |
CN112633287A (zh) * | 2020-12-25 | 2021-04-09 | 中国矿业大学 | 一种面向矿井多源异构图文信息的文本识别方法及装置 |
WO2021128230A1 (zh) * | 2019-12-27 | 2021-07-01 | 上海昕健医疗技术有限公司 | 基于深度学习的医学图像处理方法、***以及计算机设备 |
CN116405100A (zh) * | 2023-05-29 | 2023-07-07 | 武汉能钠智能装备技术股份有限公司 | 一种基于先验知识的失真信号还原方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021224A (zh) * | 2014-06-25 | 2014-09-03 | 中国科学院自动化研究所 | 基于逐层标签融合深度网络的图像标注方法 |
CN104361363A (zh) * | 2014-11-25 | 2015-02-18 | 中国科学院自动化研究所 | 深度反卷积特征学习网络、生成方法及图像分类方法 |
US20150139485A1 (en) * | 2013-11-15 | 2015-05-21 | Facebook, Inc. | Pose-aligned networks for deep attribute modeling |
CN105046272A (zh) * | 2015-06-29 | 2015-11-11 | 电子科技大学 | 一种基于简洁非监督式卷积网络的图像分类方法 |
-
2015
- 2015-12-30 CN CN201511021328.2A patent/CN105631479B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150139485A1 (en) * | 2013-11-15 | 2015-05-21 | Facebook, Inc. | Pose-aligned networks for deep attribute modeling |
CN104021224A (zh) * | 2014-06-25 | 2014-09-03 | 中国科学院自动化研究所 | 基于逐层标签融合深度网络的图像标注方法 |
CN104361363A (zh) * | 2014-11-25 | 2015-02-18 | 中国科学院自动化研究所 | 深度反卷积特征学习网络、生成方法及图像分类方法 |
CN105046272A (zh) * | 2015-06-29 | 2015-11-11 | 电子科技大学 | 一种基于简洁非监督式卷积网络的图像分类方法 |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295547A (zh) * | 2016-08-05 | 2017-01-04 | 深圳市商汤科技有限公司 | 一种图像比对方法及图像比对装置 |
CN106650813A (zh) * | 2016-12-27 | 2017-05-10 | 华南理工大学 | 一种基于深度残差网络和lstm的图像理解方法 |
CN106778682A (zh) * | 2017-01-11 | 2017-05-31 | 厦门中控生物识别信息技术有限公司 | 一种卷积神经网络模型的训练方法及其设备 |
CN106778682B (zh) * | 2017-01-11 | 2019-07-09 | 厦门中控智慧信息技术有限公司 | 一种卷积神经网络模型的训练方法及其设备 |
CN107169028A (zh) * | 2017-04-13 | 2017-09-15 | 南京信息工程大学 | 海报搜索方法及用户终端 |
CN107203598A (zh) * | 2017-05-08 | 2017-09-26 | 广州智慧城市发展研究院 | 一种实现图像转换标签的方法及*** |
CN107463960A (zh) * | 2017-08-07 | 2017-12-12 | 石林星 | 一种图像识别方法及装置 |
CN109583583B (zh) * | 2017-09-29 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置、计算机设备及可读介质 |
CN109583583A (zh) * | 2017-09-29 | 2019-04-05 | 腾讯科技(深圳)有限公司 | 神经网络训练方法、装置、计算机设备及可读介质 |
CN107729992A (zh) * | 2017-10-27 | 2018-02-23 | 深圳市未来媒体技术研究院 | 一种基于反向传播的深度学习方法 |
CN107833209B (zh) * | 2017-10-27 | 2020-05-26 | 浙江大华技术股份有限公司 | 一种x光图像检测方法、装置、电子设备及存储介质 |
CN107729992B (zh) * | 2017-10-27 | 2020-12-29 | 深圳市未来媒体技术研究院 | 一种基于反向传播的深度学习方法 |
CN107833209A (zh) * | 2017-10-27 | 2018-03-23 | 浙江大华技术股份有限公司 | 一种x光图像检测方法、装置、电子设备及存储介质 |
CN107909114B (zh) * | 2017-11-30 | 2020-07-17 | 深圳地平线机器人科技有限公司 | 训练有监督机器学习的模型的方法和装置 |
CN107909114A (zh) * | 2017-11-30 | 2018-04-13 | 深圳地平线机器人科技有限公司 | 训练有监督机器学习的模型的方法和装置 |
CN107862387B (zh) * | 2017-12-05 | 2022-07-08 | 深圳地平线机器人科技有限公司 | 训练有监督机器学习的模型的方法和装置 |
CN107862387A (zh) * | 2017-12-05 | 2018-03-30 | 深圳地平线机器人科技有限公司 | 训练有监督机器学习的模型的方法和装置 |
US10685263B2 (en) | 2018-02-26 | 2020-06-16 | Industrial Technology Research Institute | System and method for object labeling |
CN108805196A (zh) * | 2018-06-05 | 2018-11-13 | 西安交通大学 | 用于图像识别的自动增量学习方法 |
CN109191515A (zh) * | 2018-07-25 | 2019-01-11 | 北京市商汤科技开发有限公司 | 一种图像视差估计方法及装置、存储介质 |
CN110794254B (zh) * | 2018-08-01 | 2022-04-15 | 北京映翰通网络技术股份有限公司 | 一种基于强化学习的配电网故障预测方法及*** |
CN110794254A (zh) * | 2018-08-01 | 2020-02-14 | 北京映翰通网络技术股份有限公司 | 一种基于强化学习的配电网故障预测方法及*** |
CN109086463A (zh) * | 2018-09-28 | 2018-12-25 | 武汉大学 | 一种基于区域卷积神经网络的问答社区标签推荐方法 |
CN109299291B (zh) * | 2018-09-28 | 2022-04-29 | 武汉大学 | 一种基于卷积神经网络的问答社区标签推荐方法 |
CN109299291A (zh) * | 2018-09-28 | 2019-02-01 | 武汉大学 | 一种基于卷积神经网络的问答社区标签推荐方法 |
CN109086463B (zh) * | 2018-09-28 | 2022-04-29 | 武汉大学 | 一种基于区域卷积神经网络的问答社区标签推荐方法 |
CN109472360B (zh) * | 2018-10-30 | 2020-09-04 | 北京地平线机器人技术研发有限公司 | 神经网络的更新方法、更新装置和电子设备 |
US11328180B2 (en) | 2018-10-30 | 2022-05-10 | Beijing Horizon Robotics Technology Research And Development Co., Ltd. | Method for updating neural network and electronic device |
CN109472360A (zh) * | 2018-10-30 | 2019-03-15 | 北京地平线机器人技术研发有限公司 | 神经网络的更新方法、更新装置和电子设备 |
CN109727238A (zh) * | 2018-12-27 | 2019-05-07 | 贵阳朗玛信息技术股份有限公司 | X光胸片的识别方法及装置 |
CN110163208A (zh) * | 2019-05-22 | 2019-08-23 | 长沙学院 | 一种基于深度学习的场景文字检测方法和*** |
CN111105389A (zh) * | 2019-11-21 | 2020-05-05 | 天津大学 | 融合Gabor滤波器与卷积神经网络的路面裂缝的检测方法 |
CN111105389B (zh) * | 2019-11-21 | 2023-12-05 | 天津大学 | 融合Gabor滤波器与卷积神经网络的路面裂缝的检测方法 |
CN111125396A (zh) * | 2019-12-07 | 2020-05-08 | 复旦大学 | 一种单模型多分支结构的图像检索方法 |
WO2021128230A1 (zh) * | 2019-12-27 | 2021-07-01 | 上海昕健医疗技术有限公司 | 基于深度学习的医学图像处理方法、***以及计算机设备 |
CN112633287A (zh) * | 2020-12-25 | 2021-04-09 | 中国矿业大学 | 一种面向矿井多源异构图文信息的文本识别方法及装置 |
CN112633287B (zh) * | 2020-12-25 | 2024-04-26 | 中国矿业大学 | 一种面向矿井多源异构图文信息的文本识别方法及装置 |
CN116405100A (zh) * | 2023-05-29 | 2023-07-07 | 武汉能钠智能装备技术股份有限公司 | 一种基于先验知识的失真信号还原方法 |
CN116405100B (zh) * | 2023-05-29 | 2023-08-22 | 武汉能钠智能装备技术股份有限公司 | 一种基于先验知识的失真信号还原方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105631479B (zh) | 2019-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN104318340B (zh) | 基于文本履历信息的信息可视化方法及智能可视分析*** | |
CN110110080A (zh) | 文本分类模型训练方法、装置、计算机设备及存储介质 | |
CN108182295A (zh) | 一种企业知识图谱属性抽取方法及*** | |
CN107908671A (zh) | 基于法律数据的知识图谱构建方法及*** | |
CN107832458B (zh) | 一种字符级的基于嵌套深度网络的文本分类方法 | |
CN105117429A (zh) | 基于主动学习和多标签多示例学习的场景图像标注方法 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN108629367A (zh) | 一种基于深度网络增强服装属性识别精度的方法 | |
CN107346327A (zh) | 基于监督转移的零样本哈希图片检索方法 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN103778407A (zh) | 一种迁移学习框架下基于条件随机场的手势识别算法 | |
CN116541911B (zh) | 一种基于人工智能的包装设计*** | |
CN111523420A (zh) | 基于多任务深度神经网络的表头分类与表头列语义识别方法 | |
CN107590262A (zh) | 大数据分析的半监督学习方法 | |
CN111209362A (zh) | 基于深度学习的地址数据解析方法 | |
CN116796810A (zh) | 一种基于知识蒸馏的深度神经网络模型压缩方法及装置 | |
CN113128233A (zh) | 一种心理疾病知识图谱的构建方法及*** | |
CN114238524B (zh) | 基于增强样本模型的卫星频轨数据信息抽取方法 | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN103440651A (zh) | 一种基于秩最小化的多标签图像标注结果融合方法 | |
CN117725222A (zh) | 融合知识图谱与大语言模型的文献复杂知识对象抽取方法 | |
CN102034102B (zh) | 图像显著对象提取方法、互补显著度图学习方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |