CN107463953B - 在标签含噪情况下基于质量嵌入的图像分类方法及*** - Google Patents

在标签含噪情况下基于质量嵌入的图像分类方法及*** Download PDF

Info

Publication number
CN107463953B
CN107463953B CN201710599924.1A CN201710599924A CN107463953B CN 107463953 B CN107463953 B CN 107463953B CN 201710599924 A CN201710599924 A CN 201710599924A CN 107463953 B CN107463953 B CN 107463953B
Authority
CN
China
Prior art keywords
label
model
picture
network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710599924.1A
Other languages
English (en)
Other versions
CN107463953A (zh
Inventor
张娅
姚江超
王嘉杰
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Media Intelligence Co ltd
Original Assignee
Shanghai Media Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Media Intelligence Technology Co Ltd filed Critical Shanghai Media Intelligence Technology Co Ltd
Priority to CN201710599924.1A priority Critical patent/CN107463953B/zh
Publication of CN107463953A publication Critical patent/CN107463953A/zh
Application granted granted Critical
Publication of CN107463953B publication Critical patent/CN107463953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种在标签含噪情况下基于质量嵌入的图像分类方法及***,包括:网络图片标签收集步骤;标签质量因子嵌入步骤:在有监督的图像分类模型中引入标签质量因子,用于控制带噪标签的预测值生成和吸收来自错误标签的误差回传信息;利用最大化对数似然函数,设计加入标签质量因子之后的优化目标函数;网络模型构建步骤:利用深度神经网络对优化目标函数进行建模;网络参数训练步骤:将训练图片和带噪声的标签输入网络模型,使用变种的随机梯度下降法端到端的联动训练模型,同时更新模型参数;图像分类步骤。本发明将图片真实标签、用户提供标签和图片标签质量三个变量统一建模,形成对含噪标签的监督学习,能得到较为准确的图像分类结果。

Description

在标签含噪情况下基于质量嵌入的图像分类方法及***
技术领域
本发明涉及计算机视觉和数据挖掘领域,具体地,特别涉及标签含有噪声情况下的图片标签学习方法及***。
背景技术
图像识别是人工智能领域的一项基础而重要的任务,其应用跨越了自然科学,医药学,工业等多个领域。随着深度学习的迅猛发展,利用卷积神经网络训练得到的图像分类器获得了空前成功。然而深度学习框架下的图像分类学习依赖于大规模高品质的训练数据,包括清晰的图像和精确的标签。这样的训练数据往往来自于人工收集和标注,这将消耗大量的人力物力,使得处理新领域的图像识别问题变得相对昂贵和低效。
由于网络技术,社交媒体的迅速发展以及人们对网络自媒体的热爱,互联网络中存在数不胜数的图片数据。图片社交平台如Flickr和网易LOFTER拥有近千百万的用户提供的图片数据以及标签信息。如果能将这些图片和标签数据用于深度神经网络模型的训练,将大大提升数据集的种类和数量,帮助深度神经网络更快速的迁移到不同领域的图像识别问题中。
使用互联网用户上传的图片和标签作为训练数据可以很好的解决人工标记数据的局限,但是也会带来相应的问题和挑战。大型人工标记数据集提供的图片数据品质好且标签完备,因此基于此类数据集训练得到的神经网络分类器模型准确率高。相比之下,网络图片以及用户标签存在质量不佳标签不准确的特性。如果利用存在大量噪声的图片标签数据,会大大降低模型的预测可靠度。因此,研究如何充分利用网络图片以及用户提供标签这一取之不尽的数据资源,进行有效的图片标签学习得到了更多的关注。
传统的利用带噪标签进行图片标签学习的方法有设计鲁棒的损失函数、统计查询、模拟噪声特性等等。其中一些方法需要一部分干净的标签数据来辅助训练图像分类器;另外一些尝试建立模型模拟数据噪声的分布,图片中真实标签与用户提供标签之间的差异带来的噪声,却没有考虑的图片质量好坏,以及用户提供标签的准确程度,其分类识别的的效果达不到预期。
发明内容
本发明的目的是克服现有技术的不足,提供一种在标签含噪情况下基于质量嵌入的图像分类方法及***,以解决现有技术中使用带噪声的标签图片训练图像分类器时不考虑图片标签本身质量的问题。
根据本发明的一个方面,提供一种在标签含噪情况下基于质量嵌入的图像分类方法,包括:
网络图片标签收集步骤:从网络图片分享平台上获取大量图片和用户提供的标签信息,按照所需种类进行过滤和整理,以便用于图像分类器的训练;
标签质量因子嵌入步骤:在有监督的图像分类模型中引入标签质量因子,用于控制带噪标签的预测值生成和吸收来自错误标签的误差回传信息;利用最大化对数似然函数,设计加入标签质量因子之后的优化目标函数;
网络模型构建步骤:利用深度神经网络对优化目标函数进行建模,得到整体网络模型,其包括四个子模型,分别为编码模型、采样模型、解码模型和分类模型;
网络参数训练步骤:将网络图片标签收集步骤得到的训练图片和带噪声的标签输入网络模型构建步骤得到的整体网络模型,使用变种的随机梯度下降法端到端的联动训练上述四个子模型,同时更新四个子模型的模型参数;
图像分类步骤:对于要求分类的新图片,输入至训练好的分类模型,得到对图片真实标签的预测。
优选地,所述网络图片标签收集步骤,运用了网络爬虫技术,在图片社交网站上收集所需要的大量图片以及用户标注的标签,并按照所需种类对标签和图片进行过滤和整理,比如保留含有总数m类中一个或一个以上标签的图片。
优选地,所述标签质量因子嵌入步骤,在现有的有监督的图像分类模型中,加入图片标签质量因子的嵌入,使新的优化目标函数为:
其中xm和ym分别是第m张图片的像素集合和相应用户提供的噪声标签,zm和sm分别是代表图片真实标签和标签质量的隐藏变量,M代表用于训练的图片总数。新的优化目标函数由于加入了标签质量因子,对训练数据集中错误的标签造成的不良影响有吸收作用。同时,由于该目标函数的梯度函数难以计算,因此首先转而优化其证据下界(ELBO),同时利用重参技巧简化训练所需的计算资源,得到最终的优化目标函数公式组合。
优选地,所述网络模型构建步骤,利用深度神经网络对最终的优化目标函数公式组合分别进行建模,得到整体网络模型,其包括四个子模型:编码模型、采样模型、解码模型和分类模型;
其中,所述编码模型,采用卷积神经网络,用于从图片内容X生成噪声标签的先验预测并联合噪声标签y对标签质量分布q(S|X,Y)和真实标签分布q(Z|X,Y)进行预测。
其中,所述采样模型,用于将编码模型生成的标签质量分布q(S|X,Y)和真实标签分布q(Z|X,Y)映射为确切值S和Z。
其中,所述解码模型,所采用的方法为神经网络,其输入为采样模型的输出标签质量S和真实标签Z,用于生成对噪声标签的后验预测q(Y|Z,S)。
其中,所述分类模型,所采用的方法为卷积神经网络,其利用图片生成对真实标签Z的预测。
优选地,所述网络参数训练步骤,利用解码模型恢复的噪声标签后验预测q(Y|Z,S)进行有监督的模型训练,计算编码模型、采样模型、解码模型的回传梯度,更新这三个子模型的参数,同时,利用在编码模型中得到的真实标签分布q(Z|X,Y)对分类模型进行有监督的模型训练,计算神经网络回传梯度,更新分类模型的参数。
优选地,所述图像分类步骤,将所需要进行图像分类的图片输入训练好的分类模型中,得到对图像真实标签的预测,同时产生图像的分类结果。
根据本发明的第二方面,提供一种在标签含噪情况下基于质量嵌入的图像分类***,包括:
网络图片标签收集模块:从网络图片分享平台上获取大量图片和用户提供的标签信息并按照所需种类进行过滤和整理;
标签质量因子嵌入模块:在传统有监督的图像分类模型中引入标签质量因子来控制带噪标签的预测值生成和吸收来自错误标签的误差回传信息,计算图像分类模型对应的对数似然函数作为训练的优化目标函数;
网络模型构建模块:用于利用深度神经网络对所述优化目标函数进行建模,分别得到编码模型、采样模型和解码模型和分类模型四个子模型;
网络参数训练模块:将训练图片和带噪声的标签输入整体网络模型,使用变种的随机梯度下降法端到端的联动训练四个子模型,同时更新这四个子模型的参数;
新图像分类任务处理模块:对于要求分类的新图片,输入至训练好的分类模型,得到对图片真实标签的预测。
优选地,所述标签质量因子嵌入模块,在现有的有监督的图像分类模型中,加入图片标签质量因子的嵌入,使新的优化目标函数为:
其中xm和ym分别是第m张图片的像素集合和相应用户提供的噪声标签,zm和sm分别是代表图片真实标签和标签质量的隐藏变量,M代表用于训练的图片总数;
新的优化目标函数由于加入了标签质量因子,对训练数据集中错误的标签造成的不良影响有吸收作用,同时,该新的优化目标函数的梯度函数难以计算,因此首先转而优化其证据下界,同时利用重参技巧简化训练所需的计算资源,得到最终的优化目标函数公式组合。
优选地,所述网络模型构建模块,利用深度神经网络对最终的优化目标函数公式组合分别进行建模,得到四个模型:编码模型、采样模型、解码模型和分类模型;其中:
所述编码模型,采用卷积神经网络,用于从图片内容X生成噪声标签的先验预测并联合噪声标签y对标签质量分布q(S|X,Y)和真实标签分布q(Z|X,Y)进行预测;
所述采样模型,用于将编码模型生成的标签质量分布q(S|X,Y)和真实标签分布q(Z|X,Y)映射为确切值S和Z;
所述解码模型,所采用的方法为神经网络,其输入为采样模型的输出标签质量S和真实标签Z,用于生成对噪声标签的后验预测q(Y|Z,S);
所述分类模型,采用卷积神经网络,其利用图片生成对真实标签Z的预测。
优选地,所述网络参数训练模块,利用解码模型恢复的噪声标签后验预测q(Y|Z,S)进行有监督的模型训练,计算编码模型、采样模型、解码模型的回传梯度,更新这三个子模型的参数,同时,利用在编码模型中得到的真实标签分布q(Z|X,Y)对分类模型进行有监督的模型训练,计算神经网络回传梯度,更新分类模型的参数。
优选地,所述网络图片标签收集模块,运用了网络爬虫技术,在图片社交网站上收集所需要的大量图片以及用户标注的标签。
本发明是将图片真实标签、用户提供标签、图片标签质量三个变量统一建模,训练分类器时不仅预测每次输入图片数据的真实标签,而且推测出用户所上传的图片标签的质量,进而形成对含噪标签的监督学习,不断迭代直到训练收敛,得到所需的图像分类器,用于新的图像的分类任务。
与现有技术相比,本发明具有如下的有益效果:
本发明通过深入挖掘社交媒体上的图片标签数据,在图像分类模型中嵌入代表标签质量的隐藏变量,改进了现有使用带噪标签的分类器学习模式。通过重新设计误差回传梯度公式并且构造相应的神经网络模型,对真实标签、图片标签质量和用户提供的含噪标签同时进行预测,从而有效的吸收标签噪声引起的神经网络训练中的错误回传信息,有利于图片分类器的正确学习。
使用本发明将有助于将社交媒体上大量存在并低廉可得的图片标签数据用于图像分类器的训练,从而有效节省专业标注所需的人力物力,同时避免标签噪声对分类器训练的影响,得到较为准确的图像分类结果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例中的方法流程图;
图2为本发明一实施例引入标签质量因子的有监督图像分类模型;
图3为本发明一实施例所用的深度神经网络模型各个模块的构造图;
图4为本发明一实施例中***框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明综合考虑将图片真实标签、用户提供标签、图片标签质量三个变量,提出在标签含噪情况下基于质量嵌入的图像分类技术。按照总体技术的实现来划分,主要分四部分:
(一)网络图片标签收集;
(二)标签质量因子嵌入;
(三)网络模型构建与参数训练;
(四)新的图像分类任务处理。
上述四部分构成了本发明中图像分类方法和***,为了能更好的理解本发明,以下结合实施例对本发明的方法和***实现进行介绍。
如图1所示,为本实施例提供的分类方法的流程图,其中:
(一)网络图片标签收集;
在基于照片分享网站Flickr公开的数据集YFCC100M上筛选带有所需的分类标签的图片,并利用网络爬虫技术进行收集下载和整理,总共获得M张图片。
(二)标签质量因子嵌入;
如图2所示,在现有有监督的图像分类模型中引入标签质量因子S,建立标签质量因子与其他变量的关系。根据图模型理论,将对数似然函数lnP(Y|X)重写为:
其中X代表图片内容集合,Y代表用户提供的噪声标签集合,xm和ym分别是图片m的内容和相应用户提供的噪声标签,zm和sm分别是代表图片真实标签和标签质量的隐藏变量,E代表期望。
本步骤中,将标签质量和真实标签以及用户提供标签统一建模,有利于正确理解噪声标签和真实标签之间的关联,降低噪声标签对图片分类器训练的影响,进而提高在标签带噪声情况下训练得到图片分类器的准确度。由该对数似然函数计算需要优化的目标函数:
1.根据变分推断的思想,并利用琴生不等式(Jensen's inequality)计算需要优化的目标函数的证据下界(ELBO),共有三项,分别是以及从而简化训练分类器所需的计算量;
其中xm和ym分别是图片m的内容和相应用户提供的噪声标签,zm和sm分别是代表图片真实标签和标签质量的隐藏变量,DKL[·||·]代表相对熵,E代表期望。
2.计算两个相对熵表达式的显式表达式,假设真实标签变量服从q(zm|xm,ym)和P(zm|xm)的K维多项式分布,标签质量变量概率P(sm),服从均值为μ(xm,ym),协方差为diag(σ(xm,ym))的多元高斯分布;
3.利用重参技巧构建真实标签zm和标签质量sm到补充随机变量γm和ζm的映射,可以解决传统蒙特卡洛采样方法带来的采样方差过大问题,提高训练分类器的稳定性。
利用(耿贝尔-归一化指数函数,Gumbel-SoftMax Function)函数构造真实标签zm到耿贝尔变量γm的映射,zm=g(γm);
构造标签质量sm到标准正态变量ζm~N(0,1)的映射,sm=μ(xm,ym)+σ2(xm,ym)eζm
其中μ(xm,ym)是标签质量sm的均值,σ2(xm,ym)是标签质量sm的方差。
据此,计算证据下界中期望项的显式表达式,将此作为需要优化的目标函数。
(三)网络模型构建与参数训练;
1.如图3所示,根据需要优化的目标函数的证据下界表达式,利用神经网络进行整体建模,得到的网络模型包括四个子模型,共分为4个子模型:编码模型,采样模型,解码模型,分类模型。当一张图片及其含噪标签输入整体网络模型,整体网络模型首先开始正向传播:
a)编码模型根据图片内容x和带噪标签y对真实标签z和标签质量s的分布q(z|x,y)和q(s|x,y)做出预测。
b)采样模型根据编码模型给出的概率分布q(z|x,y)和q(s|x,y),采样出真实标签z和标签质量s的具体值。
c)解码模型将采样模型得到的真实标签z和标签质量s的具体值输入神经网络,得到对噪声标签的预测,从而与图片给出的含噪标签计算交叉熵损失。
d)独立训练一个神经网络分类模型,用于预测图片的真实标签P(z),并计算与编码模型给出的真实标签z分布q(z|x,y)之间的相对熵,从而耦合上述其余三个子模型。
其中,所述编码模型,采用卷积神经网络,用于由图片内容x生成标签的先验预测P(y),并联合噪声标签y对标签质量分布q(s|x,y)和真实标签分布q(z|x,y)进行预测。其中,生成标签质量的分布由对比层实现,生成真实标签的分布由相加层实现。
其中,所述采样模型,用于将编码模型生成的标签质量分布q(s|x,y)和真实标签分布q(z|x,y)映射为确切值,包括标签质量s和真实标签z。采样模型中采取了重参技巧,从而降低采样结果的方差,使得模型训练更加稳定。
其中,所述解码模型,采用神经网络,其输入为采样模型的输出标签质量s和真实标签z,用于由噪声层来恢复噪声标签的预测
其中,所述神经网络分类模型,采用卷积神经网络,其输入是图片内容x,输出是对图片真实标签的预测P(z),并利用在编码模型、解码模型运行过程中得到的真实标签分布q(z|x,y)计算得到相对熵,进行有监督的训练,得到所需的图像分类器。
2.由解码模型的输出,即带噪标签预测和用户提供带噪标签y,一起输入损失层计算损失,并利用随机梯度下降法更新各个子模型的网络参数。
3.经过多轮反馈迭代,直至神经网络收敛,训练完成。
(四)新的图像分类任务处理。
运用(三)中训练完成的神经网络图像分类模型,当有需要分类的未标记的新图片时,将其输入至训练好的分类模型,得到对图片真实标签的预测。
如图4所示,在另一实施例中,对应于上述方法,一种在标签含噪情况下基于质量嵌入的图像分类***的实施例,包括:
网络图片标签收集模块:从网络图片分享平台上获取大量图片和用户提供的标签信息并按照所需种类进行过滤和整理;
标签质量因子嵌入模块:用于在传统有监督的图像分类模型中引入标签质量因子来控制带噪标签的预测值生成和吸收来自错误标签的误差回传信息,计算整体网络模型(嵌入质量因子之后的图像分类模型)对应的对数似然函数作为训练的优化目标函数;
网络模型构建模块:用于利用深度神经网络对优化目标函数进行建模,分别得到编码模型、采样模型和解码模型和分类模型四个子模型;
网络参数训练模块:将训练图片和带噪声的标签输入整体网络模型,使用变种的随机梯度下降法端到端的联动训练四个子模型,同时更新四个子模型的参数;
新的图像分类任务处理模块:对于要求分类的新图片,输入至训练好的分类模型,得到对图片真实标签的预测。
上述在标签含噪情况下基于质量嵌入的图像分类******的具体模块的实现技术特征与在标签含噪情况下基于质量嵌入的图像分类方法的各步骤对应。
需要说明的是,本发明提供的方法中的步骤,可以利用所述***中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述***的技术方案实现所述方法的步骤流程,即,所述***中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的***及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (6)

1.一种在标签含噪情况下基于质量嵌入的图像分类方法,其特征在于:包括:
网络图片标签收集步骤:从网络图片分享平台上获取图片和用户提供的标签信息,按照所需种类进行过滤和整理,以便用于图像分类器的训练;
标签质量因子嵌入步骤:在有监督的图像分类模型中引入标签质量因子,用于控制带噪标签的预测值生成和吸收来自错误标签的误差回传信息;利用最大化对数似然函数,设计加入标签质量因子之后的优化目标函数;
网络模型构建步骤:利用深度神经网络对优化目标函数进行建模,得到四个模型,分别为编码模型、采样模型、解码模型和分类模型;
网络参数训练步骤:将网络图片标签收集步骤得到的训练图片和带噪声的标签输入网络模型构建步骤得到的上述网络模型,使用变种的随机梯度下降法端到端的联动训练上述四个模型,同时更新模型参数,得到训练好的网络模型;
图像分类步骤:对于要求分类的新图片,输入至训练好的分类模型,得到对图片真实标签的预测,同时产生图像的分类结果;
所述标签质量因子嵌入步骤中,在现有的有监督的图像分类模型中,加入图片标签质量因子的嵌入,使新的优化目标函数为:
其中xm和ym分别是第m张图片的像素集合和相应用户提供的噪声标签,zm和sm分别是代表图片真实标签和标签质量的隐藏变量,M代表用于训练的图片总数;
新的优化目标函数由于加入了标签质量因子,对训练数据集中错误的标签造成的不良影响有吸收作用,同时,该新的优化目标函数的梯度函数难以计算,因此首先转而优化其证据下界,同时利用重参技巧简化训练所需的计算资源,得到最终的优化目标函数公式组合;
所述网络模型构建步骤,利用深度神经网络对最终的优化目标函数公式组合分别进行建模,得到四个模型:编码模型、采样模型、解码模型和分类模型;其中:
所述编码模型,采用卷积神经网络,用于从图片内容X生成噪声标签的先验预测并联合噪声标签y对标签质量分布q(S|X,Y)和真实标签分布q(Z|X,Y)进行预测;
所述采样模型,用于将编码模型生成的标签质量分布q(S|X,Y)和真实标签分布q(Z|X,Y)映射为确切值S和Z;
所述解码模型,采用神经网络,其输入为采样模型的输出标签质量S和真实标签Z,用于生成对噪声标签的后验预测q(Y|Z,S);
所述分类模型,采用卷积神经网络,其利用图片生成对真实标签Z的预测。
2.根据权利要求1所述在标签含噪情况下基于质量嵌入的图像分类方法,其特征在于:所述网络参数训练步骤,利用解码模型恢复的噪声标签后验预测q(Y|Z,S)进行有监督的模型训练,计算编码模型、采样模型、解码模型的回传梯度,更新模型参数,同时,利用在编码模型中得到的真实标签分布q(Z|X,Y)对分类模型进行有监督的模型训练,计算神经网络回传梯度,更新模型参数。
3.根据权利要求1-2任一项所述在标签含噪情况下基于质量嵌入的图像分类方法,其特征在于:所述网络图片标签收集步骤中,运用了网络爬虫技术,在图片社交网站上收集所需要的图片以及用户标注的标签。
4.一种在标签含噪情况下基于质量嵌入的图像分类***,其特征在于:包括:
网络图片标签收集模块:从网络图片分享平台上获取图片和用户提供的标签信息并按照所需种类进行过滤和整理;
标签质量因子嵌入模块:在传统有监督的图像分类模型中引入标签质量因子来控制带噪标签的预测值生成和吸收来自错误标签的误差回传信息,计算图像分类模型对应的对数似然函数作为训练的优化目标函数;
网络模型构建模块:用于利用深度神经网络对所述优化目标函数进行建模,分别得到编码模型、采样模型和解码模型和分类模型四个模型;
网络参数训练模块:将训练图片和带噪声的标签输入网络模型,使用变种的随机梯度下降法端到端的联动训练四个模型,同时更新模型参数;
新图像分类任务处理模块:对于要求分类的新图片,输入至训练好的分类模型,得到对图片真实标签的预测;
所述标签质量因子嵌入模块,在现有的有监督的图像分类模型中,加入图片标签质量因子的嵌入,使新的优化目标函数为:
其中xm和ym分别是第m张图片的像素集合和相应用户提供的噪声标签,zm和sm分别是代表图片真实标签和标签质量的隐藏变量,M代表用于训练的图片总数;
新的优化目标函数由于加入了标签质量因子,对训练数据集中错误的标签造成的不良影响有吸收作用,同时,该新的优化目标函数的梯度函数难以计算,因此首先转而优化其证据下界,同时利用重参技巧简化训练所需的计算资源,得到最终的优化目标函数公式组合;
所述网络模型构建模块,利用深度神经网络对最终的优化目标函数公式组合分别进行建模,得到四个模型:编码模型、采样模型、解码模型和分类模型;其中:
所述编码模型,采用卷积神经网络,用于从图片内容X生成噪声标签的先验预测并联合噪声标签y对标签质量分布q(S|X,Y)和真实标签分布q(Z|X,Y)进行预测;
所述采样模型,用于将编码模型生成的标签质量分布q(S|X,Y)和真实标签分布q(Z|X,Y)映射为确切值S和Z;
所述解码模型,所采用的方法为神经网络,其输入为采样模型的输出标签质量S和真实标签Z,用于生成对噪声标签的后验预测q(Y|Z,S);
所述分类模型,所采用的方法为卷积神经网络,其利用图片生成对真实标签Z的预测。
5.根据权利要求4所述在标签含噪情况下基于质量嵌入的图像分类***,其特征在于:所述网络参数训练模块,利用解码模型恢复的噪声标签后验预测q(Y|Z,S)进行有监督的模型训练,计算编码模型、采样模型、解码模型的回传梯度,更新模型参数,同时,利用在编码模型中得到的真实标签分布q(Z|X,Y)对分类模型进行有监督的模型训练,计算神经网络回传梯度,更新模型参数。
6.根据权利要求4-5任一项所述在标签含噪情况下基于质量嵌入的图像分类***,其特征在于:所述网络图片标签收集模块,运用了网络爬虫技术,在图片社交网站上收集所需要的图片以及用户标注的标签。
CN201710599924.1A 2017-07-21 2017-07-21 在标签含噪情况下基于质量嵌入的图像分类方法及*** Active CN107463953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710599924.1A CN107463953B (zh) 2017-07-21 2017-07-21 在标签含噪情况下基于质量嵌入的图像分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710599924.1A CN107463953B (zh) 2017-07-21 2017-07-21 在标签含噪情况下基于质量嵌入的图像分类方法及***

Publications (2)

Publication Number Publication Date
CN107463953A CN107463953A (zh) 2017-12-12
CN107463953B true CN107463953B (zh) 2019-11-19

Family

ID=60543879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710599924.1A Active CN107463953B (zh) 2017-07-21 2017-07-21 在标签含噪情况下基于质量嵌入的图像分类方法及***

Country Status (1)

Country Link
CN (1) CN107463953B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734227A (zh) * 2018-06-13 2018-11-02 北京宏岸图升网络技术有限公司 一种图片的分类方法及装置
KR102631031B1 (ko) * 2018-07-27 2024-01-29 삼성전자주식회사 반도체 장치의 불량 검출 방법
CN109189767B (zh) * 2018-08-01 2021-07-23 北京三快在线科技有限公司 数据处理方法、装置、电子设备及存储介质
CN109242106B (zh) * 2018-09-07 2022-07-26 百度在线网络技术(北京)有限公司 样本处理方法、装置、设备和存储介质
CN111406263A (zh) * 2018-11-28 2020-07-10 深圳市大疆创新科技有限公司 神经网络架构搜索的方法与装置
CN109976153B (zh) * 2019-03-01 2021-03-26 北京三快在线科技有限公司 控制无人驾驶设备及模型训练的方法、装置及电子设备
CN111797854B (zh) * 2019-04-09 2023-12-15 Oppo广东移动通信有限公司 场景模型建立方法、装置、存储介质及电子设备
CN110188791B (zh) * 2019-04-18 2023-07-07 南开大学 基于自动估计的视觉情感标签分布预测方法
CN110110780B (zh) * 2019-04-30 2023-04-07 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法
CN110415094A (zh) * 2019-06-18 2019-11-05 重庆金融资产交易所有限责任公司 资产负债智能管理方法、装置及计算机可读存储介质
CN110751170A (zh) * 2019-09-06 2020-02-04 武汉精立电子技术有限公司 面板质量检测方法、***、终端设备及计算机可读介质
EP3798911A1 (en) * 2019-09-24 2021-03-31 Robert Bosch GmbH Method and system to classify sensor data with improved training robustness
CN110738264A (zh) * 2019-10-18 2020-01-31 上海眼控科技股份有限公司 异常样本筛选、清洗、训练方法、装置、设备和存储介质
CN110837926B (zh) * 2019-11-04 2022-08-12 四川省烟草公司广元市公司 一种基于大数据的烟草主要病虫害预测方法
CN110910356A (zh) * 2019-11-08 2020-03-24 北京华宇信息技术有限公司 生成图像噪声检测模型的方法、图像噪声检测方法及装置
CN111507419B (zh) * 2020-04-22 2022-09-30 腾讯科技(深圳)有限公司 图像分类模型的训练方法及装置
CN112149608A (zh) * 2020-10-09 2020-12-29 腾讯科技(深圳)有限公司 图像识别方法、装置和存储介质
CN112418327A (zh) * 2020-11-25 2021-02-26 Oppo广东移动通信有限公司 图像分类模型的训练方法、装置、电子设备以及存储介质
CN112364993B (zh) * 2021-01-13 2021-04-30 深圳市友杰智新科技有限公司 模型联合训练方法、装置、计算机设备和存储介质
CN113206824B (zh) * 2021-03-23 2022-06-24 中国科学院信息工程研究所 动态网络异常攻击检测方法、装置、电子设备和存储介质
CN113284142B (zh) * 2021-07-16 2021-10-29 腾讯科技(深圳)有限公司 图像检测方法、装置、计算机可读存储介质及计算机设备
CN113673591B (zh) * 2021-08-13 2023-12-01 上海交通大学 一种自调整采样优化的图像分类方法、设备及介质
CN114769072A (zh) * 2022-06-16 2022-07-22 深圳徕科技术有限公司 高速喷射阀控制方法、装置、电子设备及存储介质
CN116047987B (zh) * 2023-03-31 2023-06-16 福建天甫电子材料有限公司 用于电子级缓冲氧化物蚀刻液生产的智能控制***
CN117523213B (zh) * 2024-01-04 2024-03-29 南京航空航天大学 一种基于元去噪和负学习的噪声标签识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657102B2 (en) * 2003-08-27 2010-02-02 Microsoft Corp. System and method for fast on-line learning of transformed hidden Markov models
CN105160866A (zh) * 2015-08-07 2015-12-16 浙江高速信息工程技术有限公司 一种基于深度学习神经网络结构的交通流预测方法
CN105224948A (zh) * 2015-09-22 2016-01-06 清华大学 一种基于图像处理的最大间隔深度生成模型的生成方法
CN105612514A (zh) * 2013-08-05 2016-05-25 脸谱公司 通过将语境线索与图像关联进行图像分类的***和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657102B2 (en) * 2003-08-27 2010-02-02 Microsoft Corp. System and method for fast on-line learning of transformed hidden Markov models
CN105612514A (zh) * 2013-08-05 2016-05-25 脸谱公司 通过将语境线索与图像关联进行图像分类的***和方法
CN105160866A (zh) * 2015-08-07 2015-12-16 浙江高速信息工程技术有限公司 一种基于深度学习神经网络结构的交通流预测方法
CN105224948A (zh) * 2015-09-22 2016-01-06 清华大学 一种基于图像处理的最大间隔深度生成模型的生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Improved Variational Autoencoders for Text Modeling using Dilated Convolutions;Zichao Yang 等;《arXiv》;20170618;第1-12页 *
Minimax Optimal Convergence Rates for Estimating Ground Truth from Crowdsourced Labels;Chao Gao 等;《arXiv》;20160530;第1-38页 *
基于Vague融合的图像分类方法;虎晓红 等;《计算机工程》;20090630;第35卷(第11期);第226-227、230页 *
基于稀疏自编码器的手写体数字识别;余涛;《数字技术与应用》;20170131;第66、68页 *

Also Published As

Publication number Publication date
CN107463953A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463953B (zh) 在标签含噪情况下基于质量嵌入的图像分类方法及***
Ullah et al. Short-term prediction of residential power energy consumption via CNN and multi-layer bi-directional LSTM networks
Zeng et al. Outlier-Robust Matrix Completion via $\ell _p $-Minimization
Cordeiro et al. The type I half-logistic family of distributions
Li et al. Efficient convolutional hierarchical autoencoder for human motion prediction
CN111523051A (zh) 基于图卷积矩阵分解的社交兴趣推荐方法及***
CN105868829A (zh) 用于数据项生成的循环神经网络
CN110826698A (zh) 一种通过上下文相关的图嵌入表示人群移动模式的方法
CN108647226A (zh) 一种基于变分自动编码器的混合推荐方法
Pyle et al. Domain-driven models yield better predictions at lower cost than reservoir computers in Lorenz systems
Yang et al. Mini-batch algorithms with Barzilai–Borwein update step
CN108536844A (zh) 一种文本增强的网络表示学习方法
Xu et al. A review of image inpainting methods based on deep learning
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备
Toghani et al. PersA-FL: personalized asynchronous federated learning
Yi et al. Differential evolutionary cuckoo-search-integrated tabu-adaptive pattern search (DECS-TAPS): a novel multihybrid variant of swarm intelligence and evolutionary algorithm in architectural design optimization and automation
CN117370578A (zh) 一种基于多模态信息进行食品安全知识图谱补全的方法
He et al. Generative Structural Design Integrating BIM and Diffusion Model
Chen et al. Physics-informed Convolutional Recurrent Surrogate Model for Reservoir Simulation with Well Controls
Xu et al. Simultaneous recovery of a series of low-rank matrices by locally weighted matrix smoothing
CN106250873A (zh) 运动目标提取方法及装置
CN113065336B (zh) 一种基于深度学习和内容规划的文本自动生成方法及装置
Biey et al. Complex dynamic phenomena in space-invariant cellular neural networks
Li et al. D‐Cloth: Skinning‐based Cloth Dynamic Prediction with a Three‐stage Network
Martin et al. Backward importance sampling for online estimation of state space models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20181016

Address after: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant after: Zhang Ya

Applicant after: Wang Yanfeng

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Shanghai Jiao Tong University

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181121

Address after: Room 387, Building 333, Hongqiao Road, Xuhui District, Shanghai 200030

Applicant after: SHANGHAI MEDIA INTELLIGENCE Co.,Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Zhang Ya

Applicant before: Wang Yanfeng

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Image Classification Method and System Based on Quality Embedding in Noisy Tags

Effective date of registration: 20230329

Granted publication date: 20191119

Pledgee: The Bank of Shanghai branch Caohejing Limited by Share Ltd.

Pledgor: SHANGHAI MEDIA INTELLIGENCE Co.,Ltd.

Registration number: Y2023310000098

PE01 Entry into force of the registration of the contract for pledge of patent right