CN107644235A - 基于半监督学习的图像自动标注方法 - Google Patents
基于半监督学习的图像自动标注方法 Download PDFInfo
- Publication number
- CN107644235A CN107644235A CN201711002595.4A CN201711002595A CN107644235A CN 107644235 A CN107644235 A CN 107644235A CN 201711002595 A CN201711002595 A CN 201711002595A CN 107644235 A CN107644235 A CN 107644235A
- Authority
- CN
- China
- Prior art keywords
- image
- training
- mark
- sample
- lda
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种基于半监督学习的图像自动标注方法,首先将数据集划分为训练数据集、未标记数据集和测试集。接着提取训练样本的SIFT特征和HOG特征来训练LDA_SVM分类器;提取颜色和纹理特征来训练神经网络。之后利用未标记数据,让两个分类器同时对同一未标记样本进行标记预测,并根据分类器对未标记样本分类精度的贡献,用自适应加权融合策略对两个分类器的分类结果进行加权融合,得到样本的最终预测标记概率向量。最后用置信度高的样本及其预测标记对两个分类器进行更新,直到达到预设的最大迭代次数。本发明可以充分利用未标记样本挖掘图像特征的内在规律,有效地减少分类器训练时所需的标注样本数量,并获得较好的标注效果。
Description
技术领域
本发明涉及图像检索技术领域,具体涉及一种基于半监督学习的图像自动标注方法。
背景技术
随着网络和数码设备的普及,各种媒体图像数据飞速增长,如何对它们进行有效的组织和管理,给用户高效率的浏览和检索成为研究者广泛研究的问题。
图像检索自上个世纪70年代开始就成为非常活跃的研究领域,目前应用比较广泛的图像检索技术有基于文本的图像检索技术(Text-based Image Retrieval,TBIR)和基于内容的图像检索技术(Content-basedImage Retrieval,CBIR)。由于TBIR技术存在着明显的缺陷,特别是在图像的数量非常多时,手工标注图像所需的工作量非常大,而且手工标注的主观性和不精确性很可能导致图像在检索过程失配;而CBIR技术存在着突出的低层特征与高层语义之间的“语义鸿沟”问题,因而这两种方法都很难应用于目前大规模的图像数据库管理。
图像自动标注就是让计算机自动地学习已标注图像语义概念空间与视觉特征空间之间潜在的关系来给未标注图像加上能够反映其内容的语义关键词。图像自动标注可以有效改善目前图像检索的困境,使检索在保留基本文本关键词搜索的同时,减少了手工标注的巨大工作量,也在一定程度上缩小了“语义鸿沟”,因此,图像自动标注技术一直以来备受人们的研究关注。
尽管研究者在图像自动标注方面已经取得了很大的进步,但是传统的图像自动标注方法通常需要利用大量的训练样本对分类器进行训练,而在实际应用中,标记样本的获得比较困难,未标记样本却很容易获得,如何充分利用已标记样本和未标记样本之间的联系构造标注模型,提高分类器的准确率和性能,是一个极具挑战的问题。
发明内容
本发明针对传统图像自动标注仍然需要大量手工标注的训练样本,在标记样本数据较少的情况下,自动标注效果不理想的问题,提供一种基于半监督学习的图像自动标注方法,其可以充分利用未标记样本挖掘图像特征的内在规律,有效地减少分类器训练时所需的标注样本数量,并获得较好的标注效果。
本发明的原理是:在训练样本数据较少的情况下,为充分利用无标记样本挖掘图像特征的内在规律,从而得到较好的图像自动标注效果,本发明提出一种基于半监督学习的图像自动标注方法:首先,将数据集划分为训练数据集、未标记数据集和测试集。接着,提取训练样本的SIFT特征和HOG特征作为特征集A,用来训练LDA_SVM分类器;提取颜色和纹理特征作为特征集B,用来训练神经网络。由于此时训练数据较少,得到的分类器性能较弱,因此,可通过两个分类器协同训练,利用大量的未标记数据来提升分类器的分类性能。之后,再利用未标记数据,让两个分类器同时对同一未标记样本进行标记预测,并根据分类器对未标记样本分类精度的贡献,用自适应加权融合策略对两个分类器的分类结果进行加权融合,得到样本的最终预测标记概率向量。最后用置信度高的样本及其预测标记对两个分类器进行更新,直到达到预设的最大迭代次数,退出算法。
基于半监督学习的图像自动标注方法,包括步骤如下:
步骤1、将给定的数据集划分为3个子数据集,即训练数据集、未标记数据集和测试数据集;
步骤2、LDA_SVM分类器训练阶段;
步骤2.1、提取训练数据集中的训练图像的SIFT特征和HOG特征作为第一特征集,采用词袋法量化其视觉特征,得到每幅训练图像的词袋表示;
步骤2.2、应用LDA建模训练图像的视觉特征,得到训练图像的各个视觉单词主题分布与每幅训练图像的视觉主题分布;
步骤2.3、用步骤2.2所得的视觉主题分布和它们的原始标注构造SVM多类分类器,得到当前训练好的LDA_SVM分类器;
步骤3、神经网络分类器训练阶段;
步骤3.1、提取训练数据集中的训练图像的颜色特征和纹理特征作为第二特征集;
步骤3.2、用第二特征集和对应的标签信息一起输入到神经网络进行训练,得到当前训练好的神经网络分类器;
步骤4、协同训练阶段;
步骤4.1、提取未标记数据集中的未标记图像的SIFT特征和HOG特征,并采用词袋法量化其视觉特征,得到每幅未标记图像的词袋表示;
步骤4.2、用步骤2.2所得到的视觉单词主题分布学习未标记图像的视觉主题分布;
步骤4.3、将学习到的图像视觉主题分布输入当前训练好的LDA_SVM分类器,得到未标记图像的第一标记预测概率向量;
步骤4.4、用当前训练好的神经网络分类器对未标记数据集中的未标记图像进行标记预测,得到未标记图像的第二标记预测概率向量;
步骤4.5、根据给定的自适应加权融合策略融合未标记图像的第一标记预测概率向量和第二标记预测概率向量,得出未标记图像的最终标记预测概率向量;
步骤4.6、选择置信度高的未标记图像及其预测标记加入到训练数据集,重新交给LDA_SVM分类器和神经网络分类器进行训练更新,即返回步骤2,直到达到预设的最大迭代次数,得到最终训练好的LDA_SVM分类器和神经网络分类器;
步骤5、测试图像的标注阶段;
步骤5.1、分别提取测试数据集中的测试图像的第一特征集和第二特征集;
步骤5.2、用最终训练好的LDA_SVM分类器对测试图像的第一特征集进行标记预测,得到测试图像的第一标记预测概率向量;
步骤5.3、用最终训练好的神经网络分类器对测试图像的第二特征集进行标记预测,得到测试图像的第二标记预测概率向量;
步骤5.4、根据给定的自适应加权融合策略融合测试图像的第一标记预测概率向量和第二标记预测概率向量,得出测试图像的最终标记预测概率向量;
步骤5.5、选取置信度最高的n个标记作为测试图像的标记集合,其中n为人为设置的值。
虽然上述3个子数据集中3个子数据集图像的数量可以根据需要进行设定,但是3个子数据集中相应图像的数量最好为:未标记数据集>测试数据集>训练数据集。
上述步骤4.5和步骤5.4中,自适应加权融合策略根据LDA_SVM分类器和神经网络分类器对同一未标记数据预测精度的贡献而确定。
与现有技术相比,本发明具有如下特点:
(1)在特征提取阶段,分别提取图像的两个不同特征集A和特征集B,其中特征集A为SIFT特征和HOG特征,特征集B为颜色和纹理特征,提取不同的特征集是为了从不同的角度描述图像。
(2)LDA将图像从特征集A的表示转换为一个K维的主题向量表示,而这个主题向量还隐含着图像的语义信息。能够对高维的向量起到有效的降维作用并且能更好地表达图像。
(3)用LDA_SVM分类器和神经网络两个不同的分类器进行协同训练,从不同的角度训练图像,最终融合两个分类器的预测结果,得到更好的标注效果。
(4)采用协同训练的半监督学习方法,充分利用无标记样本挖掘图像特征的内在规律,大大减少了人工标注的工作量又提高了标注的精确度。
附图说明
图1基于半监督学习的图像自动标注整体框架。
图2LDA_SVM分类器训练与标注算法流程图。
图3LDA图模型。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本发明进一步详细说明。
一种基于半监督学习的图像自动标注方法的整体框架如图1所示,其具体包括如下步骤:
步骤(1)划分数据集,把数据划分为三个子数据集,分别为训练数据集、未标记数据集和测试数据集。三个子数据集的比例可人为设置,设置原则为未标记数据集>测试数据集>训练数据集。
步骤(2)训练图像的训练过程分为几个阶段,分别是LDA_SVM分类器训练阶段、神经网络训练阶段和协同训练阶段。
步骤(2.1)LDA_SVM分类器训练阶段。
步骤(2.1.1)分别提取训练样本图像的SIFT特征和HOG特征作为特征集A,采用“词袋”法量化其视觉特征,得到每幅图像的“词袋”表示。
步骤(2.1.2)应用LDA建模训练图像的视觉特征,得到训练图像的各个视觉单词主题分布与每幅图像的视觉主题分布θd。应用LDA模型时,主题个数设置为60,超参数初始值为α=0.1,β=0.01。
步骤(2.1.3)用得到的视觉主题分布θd和它们的原始标注构造SVM多类分类模型。
步骤(2.2)神经网络训练阶段。训练神经网络时,学习速率η=0.01,隐含神经元数目取值为9。
步骤(2.2.1)分别提取训练样本图像的颜色特征和纹理特征作为特征集B。
步骤(2.2.2)用特征集B和对应的标签信息一起输入到神经网络进行训练。
步骤(2.3)协同训练阶段。
步骤(2.3.1)对于未标记样本集中的图像,执行步骤(2.1.1),得到图像的“词袋”表示。用步骤(2.1.2)中得到的视觉单词主题分布学习未标记样本的视觉主题分布θd。
步骤(2.3.2)将学习到的图像视觉主题分布θd输入训练好的SVM多类分类器,得到未标记样本的标记预测概率向量CL。
步骤(2.3.3)用训练好的神经网络对未标记样本集中的图像进行标记预测,得到标记预测概率向量CN。
步骤(2.3.4)根据这两个分类器对同一未标记数据预测精度的贡献,通过一个自适应加权融合策略融合CL和CN得出最后的标记预测概率向量,选择置信度高的预测标记及其样本重新交给两个分类器训练,直到达到预设的最大迭代次数,退出算法。
步骤(3)待标注图像(测试图像)的标注阶段。
步骤(3.1)分别提取测试样本图像的特征集A和特征集B。
步骤(3.2)用训练好的LDA_SVM分类器对测试图像的特征集A进行标记预测,得到标记预测概率向量CL。
步骤(3.3)用训练好的神经网络对测试图像特征集B进行标记预测,得到标记预测概率向量CN。
步骤(3.4)通过自适应加权融合策略融合CL和CN得出最后的标记预测概率向量,选取置信度最高的n个标记作为测试样本的标记集合,其中n为人为设置的值。参数n设为5,即将置信度最高的5个标记作为该测试图像的标记集合。
对于训练样本图像的训练过程分为三个阶段:LDA_SVM分类器训练阶段、神经网络训练阶段和协同训练阶段。(1)训练LDA_SVM阶段,先分别提取训练图像的SIFT特征和HOG特征作为特征集A,然后采用“词袋”法来量化视觉特征,接着用LDA模型建模训练图像的视觉特征,得到各个视觉单词的主题分布和每幅训练图像的视觉主题分布θd,将这个视觉主题分布作为每幅图像的中间表示向量,用视觉主题分布θd以及它们标记信息一起构造SVM多类分类器。(2)神经网络的训练阶段,先提取训练图像的颜色和纹理特征作为特征集B,再用特征集B构造神经网络。(3)协同训练阶段,同样提取未标记图像的特征集A,用“词袋”法量化视觉特征,使用LDA_SVM训练阶段得到的视觉单词主题分布作为未标记图像的视觉单词主题分布,利用未标记图像的视觉特征和视觉单词分布学习每幅未标记图像主题分布θd,以主题分布θ作为各图像中间向量,利用训练得到的SVM多类分类器对该中间向量分类,得到未标记样本的标记预测概率向量CL。提取未标记图像的特征集B,用训练好的神经网络对未标记图像进行标记预测,得到标记预测概率向量CN。根据这两个分类器对同一未标记数据预测精度的贡献,通过一个自适应加权融合策略融合CL和CN得出最后的标记预测概率向量,选择置信度高的预测标记及其样本重新交给两个分类器训练,直到达到预设的最大迭代次数,退出算法。
对测试图像的标注过程分为四个阶段:(1)分别提取测试样本图像的特征集A和特征集B。(2)用训练好的LDA_SVM分类器对测试图像的特征集A进行标记预测,得到标记预测概率向量CL。(3)用训练好的神经网络对测试图像特征集B进行标记预测,得到标记预测概率向量CN。(4)通过自适应加权融合策略融合CL和CN得出最后的标记预测概率向量,选取置信度最高的若干个标记作为测试样本的标记集合。
本发明的特征集A的提取方法首先将数据集中的每幅图像采用稠密块采样的方法划分为规则方块,方块为16×16,按照10个像素的步长遍历整幅图像,将窗口覆盖区域作为一个特征区域分别提取图像的SIFT特征和HOG特征。然后采用“词袋”法来表示图像,步骤如下:
步骤1)构造视觉词典。随机取每类训练数据的部分图像,采用k-means算法对图像的SIFT特征和HOG特征分别聚类,假设SIFT特征经过聚类得到NS个视觉单词,HOG特征经过聚类得到的视觉单词个数为NH,则最终视觉字典的大小为两者视觉单词之和为NS+NH。
步骤2)视觉特征量化。将每幅图像的视觉特征映射到视觉词典上,并对每幅图像的视觉单词进行直方图统计,则一幅图像可用(1)式所示的NS+NH维视觉直方图来表示:
v(di)={n(di,v1),n(di,v2)…n(di,vNS),n(di,vNS+1),n(di,vNS+NH)}
本发明的特征集B的提取方法是首先将数据集中的每幅图像划分为规则方块,方块大小为16×16,然后为每个方块提取一个18维的特征向量,包含9维的颜色特征和9维的纹理特征,颜色特征是用颜色直方图来描述的,将图像的HSV颜色空间量化成9个bin,并通过计算颜色落在每个bin内的像素数量则可得到每幅图像的颜色直方图;纹理特征是使用3个尺度的Gabor滤波器组在3个方向(分别为0°,60°,120°)上计算的。
半监督学习是指在有少量标记样本的情况下,让分类器以从训练样本获得的知识为基础,自动地利用未标记样本来提升分类器的性能。协同训练(Co-Training)是一种半监督学习方法,该方法需要利用两个或多个分类器,在不同的数据特征集上进行独立的训练,并通过结合所有分类器的分类决策来提高分类器的精度,未标记的数据被分类器逐步预测并给予标记,然后选择置信度较高的数据加入到训练集,不断迭代,直到未标记的数据全部被标记为止。
本发明使用两个独立的特征集,构造两个不同的分类器LDA_SVM分类器和神经网络,通过两个分类器的协同训练,利用大量未标记数据来提升图像自动标注的性能。
LDA_SVM分类器训练与标注算法流程图如图2所示。
对于提取的特征集A,采用“词袋”法量化其视觉特征,得到每幅图像的“词袋”表示。然后对所有训练样本使用LDA建模,将得到的图像视觉主题分布θ作为各图像的特征,用来训练SVM多类分类器。
LDA(Latent dirichlet allocation)是一种主题模型,可对文本和图像进行建模。在对图像进行建模时,可以把图像看成是文档,把视觉词看成是文档中的词,再通过LDA建模来挖掘图像的潜在主题分布,得到图像的中间表示向量,使得图像的特征维数大大降低,并且能更好地表示图像。
假设D={d1,d2,...dM}代表一个图像数据集,w={w11,w22,...wmn}是第m幅图像中第n个视觉单词,该模型假定每幅图像由K维隐含主题变量Z={z1,z2,…zk}混合生成,而每个主题zk是由参数θ生成的一个在视觉词典上概率分布。参数θ和参数分别服从参数为α,β的狄利克雷分布,θ表示图像主题分布的混合比例,表示在给定主题zk条件下视觉单词的分布。w则表示图像的视觉单词。该模型由这6个主要参数决定,LDA图模型如图3所示,其中除了w为可观测变量外,其余均为不可观测的隐变量。由上述可知,LDA的关键步骤就是要求出最优的超参数α和β,这两个参数的最优解根据可观测变量w通过变分EM算法求得。
支持向量机(SVM)由于其能有效地解决高维数据问题,并在训练样本较少的情况下也能得到较好的效果而被广泛地使用,其核心思想是通过在特征空间中找到最优的分类超平面将不同的数据样本分开。图像自动标注可以看作是一个多类分类问题,而传统的SVM是二值分类器,为了使SVM能解决多分类问题,最常用的策略有“one vs.all”简称“OVA”策略(用给定的类与其他所有类进行比较)和“one vs one”(采用成对比较的方式),本发明采用“OVA”策略来实现多分类,在为每个语义概念训练分类器时,属于特定语义概念的训练样本被认为是正样本,而其他的所有样本都认为是负样本。这样,假设数据集中有n类图像则会产生n个SVM分类器。测试阶段,每个分类器对每个未标记样本产生一个预测概率,预测概率最大的类别被认为是未标记样本最可能的类别。
LDA_SVM训练算法过程如下:
(1)对于训练图像集,采用密集块采样的方法将每幅图像划分为16×16的规则方块,采样间隔为10个像素。
(2)分别提取每个方块的SIFT和HOG特征,采用“词袋”法量化其视觉特征,得到每幅图像的“词袋”表示。
(3)应用LDA建模训练图像的视觉特征,得到训练图像的各个视觉单词的主题分布与每幅图像的视觉主题分布θd。
(4)用得到的视觉主题分布θd和它们的原始标注构造SVM多类分类模型。
LDA_SVM标注算法具体步骤如下:
(1)对于每幅新图像dnew,执行训练算法的步骤(1)和(2)。
(2)根据训练算法得到的视觉单词主题分布来学习新图像的视觉主题分布θnew。
(3)将学习到的新图像的视觉主题分布θnew输入训练好的SVM多类分类器,得到新图像的标记预测概率向量。
对于提取的特征集B,本发明使用神经网络进行处理。人工神经网络(ANN)简称神经网络(NN),在解决多类分类问题中有强大的能力。本发明使用具有三层网络结构的多层前馈神经网络进行样本的训练与预测,第一层接收来自样本的输入信号,拥有与样本特征维数相同的神经元数目;中间层为隐含层,如何选择最优的隐含层神经元数目迄今为止还是个难题,通常根据经验来确定隐含层的数目;最后一层为输出层,包含与样本类别数相同的神经元数目。不同层之间的神经元通过带权重的边连接,通常采用sigmoid函数作为激活函数,产生层间神经元的输出,神经网络的训练过程就是根据训练样本来调整不同神经元之间的“连接权”和阈值。
假设有数据集D={(x1,y1),(x2,y2)…(xi,yi)},即每个样本由n维特征向量描述,输出为m维的实值向量,对于每个输入样本(xi,yi),对应的网络输出为即
其中为输出层第k个神经元接收到的输入,wlk为样本xi在隐含单元l与输出层单元k之间的连接权值,vl为隐含层第l个神经元的输出,为输出层第k个神经元的阈值,则神经网络在样本xi上第k个类的实际输出与目标输出的误差为
当k∈yi,yik的值为1,否则其值为-1。
根据梯度下降策略,给定学习率η,每个隐含层到输出层的权值更新公式为:
wlk←wlk+Δwlk (3)
其中结合式(1)和(2)可推出
则输出层神经元的阈值
类似的,可推出输入层与隐含层的权值与阈值更新公式为
神经网络的训练过程主要分为两个阶段:前向传播(计算误差)与误差逆传播(修改权值),具体过程如下:
(1)首先构建与样本特征维数相同的n个输入单元,l个隐藏单元和m个输出单元。
(2)随机初始化所有网络权值,范围在(0,1)。
(3)网络前向传播过程,把样本输入网络,并计算网络中每个单元k的输出由公式(1)计算,其中αk表示输出层第k个神经元接收到的总输入值,表示为输出层第k个神经元的阈值,函数f为s型激活函数。则样本xi的网络误差由公式(2)计算,其中,为样本的实际输出,yik样本的目标输出。
(4)在误差逆传播阶段对于网络的每个输出单元m,计算它的误差项
对网络的每个隐藏单元l,计算它的误差项
最后更新网络的权值,当神经网络达到预设的迭代次数或者训练精度时停止迭代。
由于在有标记的训练样本比较少的情况下,训练得到的每个分类器的分类精度较弱,按照传统的co-training方法,仅仅把某一个弱分类器认为置信度高的样本及其标记交给对方进行更新训练,很容易出现较大的误差,本发明通过综合考虑两个分类器对同一训练数据的标记置信度的影响,采用自适应加权融合的方法对两个分类器的标记概率预测向量进行加权融合,融合权值由它们各自对图像分类精度的贡献决定。
自适应加权融合(Adaptive weighted fusion,AWF)公式如下:
其中为最终的标记预测概率向量,分别为LDA_SVM分类器和神经网络对同一样本的标记预测概率向量,*是内积操作符,是LDA_SVM分类器的融合权重向量,其大小由LDA_SVM分类器对图像分类精度的贡献决定。由似然归一化方法计算得到,计算过程如下:
(1)首先分别构造两个似然矩阵Ll,Lg,分别表示LDA_SVM分类器和神经网络的输出似然,矩阵大小为N*M,N为待标记样本总数,M是预测类别数。
(2)通过下式分别计算LDA_SVM和神经网络的权值向量和
其中wl,m和wg,m,m=1,2,3,...,M,分别为两个分类器关于类别m的归一化输出似然,可由下面的公式计算
其中,Ll(n,c),Lg(n,c)表示两个分类器关于第n幅图像被预测为类别c的概率,分母为类别m的平均似然,分子为M类总的平均似然,得到和后,最终的权重向量由下面的公式计算:
协同训练(Co-Training)算法假设数据集有两个不同的“视图”。也就是说当训练数据足够多时,每个特征子集都能训练出强分类器,并且在给定标记时,每个特征子集条件独立于另一个特征子集。因此,本发明将图像数据划分为两个独立的特征子集,然后构造两个不同的分类器LDA_SVM分类器和神经网络,再通过两个分类器的协同训练,利用大量未标记数据来提升图像自动标注的性能。假设一个数据集中除了测试集外包含D=m+n个图像数据,其中m为有标记数据个数,n为无标记数据。(x,Y)表示有标记的训练样本,其中x=(xA,xB)表示样本的特征向量,xA为样本特征集A的特征向量,xB为样本特征集B的特征向量,Y表示该样本的标记集合,L为所有图像的标记集合,L=(l1,l2,...,lI),I为数据集的类别数;用C={ci|i=1,2,...,I}表示一幅图像被标注为类别i的概率,(x)表示无标记样本,则两个分类器协同训练的训练过程如表1所示:
传统图像自动标注仍然需要大量手工标注的训练样本,在标记样本数据较少的情况下,训练得到的分类器较弱,按照传统的co-training方法,仅仅把某一个弱分类器认为置信度高的样本及其标记交给对方进行更新训练,很容易出现较大的误差,本发明通过综合考虑两个分类器LDA_SVM和神经网络对同一训练数据的标记置信度的影响,采用自适应加权融合的方法对两个分类器的标记概率预测向量进行加权融合,再用置信度高的样本及其预测标记对两个分类器进行更新,既有效地减少分类器训练时所需的标注样本数量,又能获得较好的标注效果。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。
Claims (3)
1.基于半监督学习的图像自动标注方法,其特征是,包括步骤如下:
步骤1、将给定的数据集划分为3个子数据集,即训练数据集、未标记数据集和测试数据集;
步骤2、LDA_SVM分类器训练阶段;
步骤2.1、提取训练数据集中的训练图像的SIFT特征和HOG特征作为第一特征集,采用词袋法量化其视觉特征,得到每幅训练图像的词袋表示;
步骤2.2、应用LDA建模训练图像的视觉特征,得到训练图像的各个视觉单词主题分布与每幅训练图像的视觉主题分布;
步骤2.3、用步骤2.2所得的视觉主题分布和它们的原始标注构造SVM多类分类器,得到当前训练好的LDA_SVM分类器;
步骤3、神经网络分类器训练阶段;
步骤3.1、提取训练数据集中的训练图像的颜色特征和纹理特征作为第二特征集;
步骤3.2、用第二特征集和对应的标签信息一起输入到神经网络进行训练,得到当前训练好的神经网络分类器;
步骤4、协同训练阶段;
步骤4.1、提取未标记数据集中的未标记图像的SIFT特征和HOG特征,并采用词袋法量化其视觉特征,得到每幅未标记图像的词袋表示;
步骤4.2、用步骤2.2所得到的视觉单词主题分布学习未标记图像的视觉主题分布;
步骤4.3、将学习到的图像视觉主题分布输入当前训练好的LDA_SVM分类器,得到未标记图像的第一标记预测概率向量;
步骤4.4、用当前训练好的神经网络分类器对未标记数据集中的未标记图像进行标记预测,得到未标记图像的第二标记预测概率向量;
步骤4.5、根据给定的自适应加权融合策略融合未标记图像的第一标记预测概率向量和第二标记预测概率向量,得出未标记图像的最终标记预测概率向量;
步骤4.6、选择置信度高的未标记图像及其预测标记加入到训练数据集,并返回步骤2,直到达到预设的最大迭代次数,得到最终训练好的LDA_SVM分类器和神经网络分类器;
步骤5、测试图像的标注阶段;
步骤5.1、分别提取测试数据集中的测试图像的第一特征集和第二特征集;
步骤5.2、用最终训练好的LDA_SVM分类器对测试图像的第一特征集进行标记预测,得到测试图像的第一标记预测概率向量;
步骤5.3、用最终训练好的神经网络分类器对测试图像的第二特征集进行标记预测,得到测试图像的第二标记预测概率向量;
步骤5.4、根据给定的自适应加权融合策略融合测试图像的第一标记预测概率向量和第二标记预测概率向量,得出测试图像的最终标记预测概率向量;
步骤5.5、选取置信度最高的n个标记作为测试图像的标记集合,其中n为人为设置的值。
2.根据权利要求1所述基于半监督学习的图像自动标注方法,其特征是,步骤1中,3个子数据集中相应图像的数量为:未标记数据集>测试数据集>训练数据集。
3.根据权利要求1所述基于半监督学习的图像自动标注方法,其特征是,步骤4.5和步骤5.4中,自适应加权融合策略根据LDA_SVM分类器和神经网络分类器对同一未标记数据预测精度的贡献而确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711002595.4A CN107644235A (zh) | 2017-10-24 | 2017-10-24 | 基于半监督学习的图像自动标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711002595.4A CN107644235A (zh) | 2017-10-24 | 2017-10-24 | 基于半监督学习的图像自动标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107644235A true CN107644235A (zh) | 2018-01-30 |
Family
ID=61123785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711002595.4A Pending CN107644235A (zh) | 2017-10-24 | 2017-10-24 | 基于半监督学习的图像自动标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107644235A (zh) |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416382A (zh) * | 2018-03-01 | 2018-08-17 | 南开大学 | 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法 |
CN108647264A (zh) * | 2018-04-28 | 2018-10-12 | 北京邮电大学 | 一种基于支持向量机的图像自动标注方法及装置 |
CN108830466A (zh) * | 2018-05-31 | 2018-11-16 | 长春博立电子科技有限公司 | 一种基于云平台的图像内容语义标注***和方法 |
CN108959431A (zh) * | 2018-06-11 | 2018-12-07 | 中国科学院上海高等研究院 | 标签自动生成方法、***、计算机可读存储介质及设备 |
CN108960409A (zh) * | 2018-06-13 | 2018-12-07 | 南昌黑鲨科技有限公司 | 标注数据生成方法、设备及计算机可读存储介质 |
CN109214463A (zh) * | 2018-09-25 | 2019-01-15 | 合肥优控科技有限公司 | 一种基于协同训练的地形分类方法 |
CN109325434A (zh) * | 2018-09-15 | 2019-02-12 | 天津大学 | 一种多特征的概率主题模型的图像场景分类方法 |
CN109359697A (zh) * | 2018-10-30 | 2019-02-19 | 国网四川省电力公司广元供电公司 | 一种电力设备巡检中使用的图形图像识别方法及巡查*** |
CN109389180A (zh) * | 2018-10-30 | 2019-02-26 | 国网四川省电力公司广元供电公司 | 一款基于深度学习的电力设备图像识别方法及巡查机器人 |
CN109460914A (zh) * | 2018-11-05 | 2019-03-12 | 云南大学 | 基于半监督的纠错学习的桥梁健康等级确定方法 |
CN109657087A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种数据批量标注方法、装置及计算机可读存储介质 |
CN109784392A (zh) * | 2019-01-07 | 2019-05-21 | 华南理工大学 | 一种基于综合置信的高光谱图像半监督分类方法 |
CN110008924A (zh) * | 2019-04-15 | 2019-07-12 | 中国石油大学(华东) | 一种面向高光谱影像中地物的半监督自动标记方法与装置 |
CN110059217A (zh) * | 2019-04-29 | 2019-07-26 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN110084289A (zh) * | 2019-04-11 | 2019-08-02 | 北京百度网讯科技有限公司 | 图像标注方法、装置、电子设备及存储介质 |
CN110110795A (zh) * | 2019-05-10 | 2019-08-09 | 厦门美图之家科技有限公司 | 图像分类方法及装置 |
CN110222171A (zh) * | 2019-05-08 | 2019-09-10 | 新华三大数据技术有限公司 | 一种分类模型应用、分类模型训练方法及装置 |
CN110427542A (zh) * | 2018-04-26 | 2019-11-08 | 北京市商汤科技开发有限公司 | 分类网络训练及数据标注方法和装置、设备、介质 |
CN110542819A (zh) * | 2019-09-25 | 2019-12-06 | 贵州电网有限责任公司 | 一种基于半监督dbnc的变压器故障类型诊断方法 |
CN110674854A (zh) * | 2019-09-09 | 2020-01-10 | 东软集团股份有限公司 | 一种图像分类模型训练方法、图像分类方法、装置及设备 |
CN110765855A (zh) * | 2019-09-12 | 2020-02-07 | 杭州迪英加科技有限公司 | 一种病理图像处理方法及*** |
CN110858327A (zh) * | 2018-08-24 | 2020-03-03 | 宏达国际电子股份有限公司 | 验证训练数据的方法、训练***以及计算机程序产品 |
CN110909803A (zh) * | 2019-11-26 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置和计算机可读存储介质 |
CN111126592A (zh) * | 2018-10-30 | 2020-05-08 | 三星电子株式会社 | 输出预测结果、生成神经网络的方法及装置和存储介质 |
CN111160373A (zh) * | 2019-12-30 | 2020-05-15 | 重庆邮电大学 | 一种变速鼓零件缺陷图像特征提取以及检测分类方法 |
CN111340261A (zh) * | 2018-12-03 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 判定订单违规行为的方法、***、计算机设备及存储介质 |
CN111382758A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN111489792A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 一种基于半监督学习框架的t细胞受体序列分类方法 |
CN111506757A (zh) * | 2020-04-10 | 2020-08-07 | 复旦大学 | 基于增量迭代的语音标记装置及方法 |
CN111563590A (zh) * | 2020-04-30 | 2020-08-21 | 华南理工大学 | 一种基于生成对抗模型的主动学习方法 |
CN111768007A (zh) * | 2020-06-28 | 2020-10-13 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN111861103A (zh) * | 2020-06-05 | 2020-10-30 | 中南民族大学 | 一种基于多特征与多分类器的鲜茶叶分类方法 |
CN112418304A (zh) * | 2020-11-19 | 2021-02-26 | 北京云从科技有限公司 | Ocr模型训练方法、***及装置 |
CN112580673A (zh) * | 2019-09-27 | 2021-03-30 | 中国石油化工股份有限公司 | 基于空间概率分布的地震储层样本扩展方法和装置 |
CN112668657A (zh) * | 2020-12-30 | 2021-04-16 | 中山大学 | 基于分类器预测不确定性的注意力增强分布外图像检测法 |
CN113407713A (zh) * | 2020-10-22 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于主动学习的语料挖掘方法、装置及电子设备 |
CN113554627A (zh) * | 2021-07-27 | 2021-10-26 | 广西师范大学 | 一种基于计算机视觉半监督伪标签学习的小麦头检测方法 |
CN114155412A (zh) * | 2022-02-09 | 2022-03-08 | 北京阿丘科技有限公司 | 深度学习模型迭代方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096825A (zh) * | 2011-03-23 | 2011-06-15 | 西安电子科技大学 | 基于图的半监督高光谱遥感图像分类方法 |
CN104036021A (zh) * | 2014-06-26 | 2014-09-10 | 广西师范大学 | 混合生成式和判别式学习模型的图像语义标注方法 |
CN105279519A (zh) * | 2015-09-24 | 2016-01-27 | 四川航天***工程研究所 | 基于协同训练半监督学习的遥感影像水体提取方法及*** |
CN106778832A (zh) * | 2016-11-28 | 2017-05-31 | 华南理工大学 | 基于多目标优化的高维数据半监督集成分类方法 |
-
2017
- 2017-10-24 CN CN201711002595.4A patent/CN107644235A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096825A (zh) * | 2011-03-23 | 2011-06-15 | 西安电子科技大学 | 基于图的半监督高光谱遥感图像分类方法 |
CN104036021A (zh) * | 2014-06-26 | 2014-09-10 | 广西师范大学 | 混合生成式和判别式学习模型的图像语义标注方法 |
CN105279519A (zh) * | 2015-09-24 | 2016-01-27 | 四川航天***工程研究所 | 基于协同训练半监督学习的遥感影像水体提取方法及*** |
CN106778832A (zh) * | 2016-11-28 | 2017-05-31 | 华南理工大学 | 基于多目标优化的高维数据半监督集成分类方法 |
Non-Patent Citations (3)
Title |
---|
张辰: "《复杂环境中运动目标检测与跟踪研究》", 31 August 2014, 《中国矿业大学出版社》 * |
徐美香: ""基于半监督的多标签图像分类技术研究"", 《中国优秀硕士学位论文全文数据库,信息科技辑》 * |
蔡晰 等,: ""基于半监督技术的多分类器融合策略研究"", 《计算机工程与应用》 * |
Cited By (56)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108416382B (zh) * | 2018-03-01 | 2022-04-19 | 南开大学 | 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法 |
CN108416382A (zh) * | 2018-03-01 | 2018-08-17 | 南开大学 | 一种基于迭代采样和一对多标签修正的Web图像训练卷积神经网络方法 |
CN110427542A (zh) * | 2018-04-26 | 2019-11-08 | 北京市商汤科技开发有限公司 | 分类网络训练及数据标注方法和装置、设备、介质 |
CN108647264A (zh) * | 2018-04-28 | 2018-10-12 | 北京邮电大学 | 一种基于支持向量机的图像自动标注方法及装置 |
CN108647264B (zh) * | 2018-04-28 | 2020-10-13 | 北京邮电大学 | 一种基于支持向量机的图像自动标注方法及装置 |
CN108830466A (zh) * | 2018-05-31 | 2018-11-16 | 长春博立电子科技有限公司 | 一种基于云平台的图像内容语义标注***和方法 |
CN108959431A (zh) * | 2018-06-11 | 2018-12-07 | 中国科学院上海高等研究院 | 标签自动生成方法、***、计算机可读存储介质及设备 |
CN108960409A (zh) * | 2018-06-13 | 2018-12-07 | 南昌黑鲨科技有限公司 | 标注数据生成方法、设备及计算机可读存储介质 |
CN108960409B (zh) * | 2018-06-13 | 2021-08-03 | 南昌黑鲨科技有限公司 | 标注数据生成方法、设备及计算机可读存储介质 |
CN110858327A (zh) * | 2018-08-24 | 2020-03-03 | 宏达国际电子股份有限公司 | 验证训练数据的方法、训练***以及计算机程序产品 |
CN109325434A (zh) * | 2018-09-15 | 2019-02-12 | 天津大学 | 一种多特征的概率主题模型的图像场景分类方法 |
CN109214463A (zh) * | 2018-09-25 | 2019-01-15 | 合肥优控科技有限公司 | 一种基于协同训练的地形分类方法 |
CN109389180A (zh) * | 2018-10-30 | 2019-02-26 | 国网四川省电力公司广元供电公司 | 一款基于深度学习的电力设备图像识别方法及巡查机器人 |
CN109359697A (zh) * | 2018-10-30 | 2019-02-19 | 国网四川省电力公司广元供电公司 | 一种电力设备巡检中使用的图形图像识别方法及巡查*** |
CN111126592A (zh) * | 2018-10-30 | 2020-05-08 | 三星电子株式会社 | 输出预测结果、生成神经网络的方法及装置和存储介质 |
CN109460914A (zh) * | 2018-11-05 | 2019-03-12 | 云南大学 | 基于半监督的纠错学习的桥梁健康等级确定方法 |
CN109657087A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 一种数据批量标注方法、装置及计算机可读存储介质 |
CN111340261A (zh) * | 2018-12-03 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 判定订单违规行为的方法、***、计算机设备及存储介质 |
CN111340261B (zh) * | 2018-12-03 | 2023-07-18 | 北京嘀嘀无限科技发展有限公司 | 判定订单违规行为的方法、***、计算机设备及存储介质 |
CN111382758B (zh) * | 2018-12-28 | 2023-12-26 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN111382758A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN109784392A (zh) * | 2019-01-07 | 2019-05-21 | 华南理工大学 | 一种基于综合置信的高光谱图像半监督分类方法 |
CN110084289B (zh) * | 2019-04-11 | 2021-07-27 | 北京百度网讯科技有限公司 | 图像标注方法、装置、电子设备及存储介质 |
CN110084289A (zh) * | 2019-04-11 | 2019-08-02 | 北京百度网讯科技有限公司 | 图像标注方法、装置、电子设备及存储介质 |
CN110008924A (zh) * | 2019-04-15 | 2019-07-12 | 中国石油大学(华东) | 一种面向高光谱影像中地物的半监督自动标记方法与装置 |
CN110059217B (zh) * | 2019-04-29 | 2022-11-04 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN110059217A (zh) * | 2019-04-29 | 2019-07-26 | 广西师范大学 | 一种两级网络的图像文本跨媒体检索方法 |
CN110222171A (zh) * | 2019-05-08 | 2019-09-10 | 新华三大数据技术有限公司 | 一种分类模型应用、分类模型训练方法及装置 |
CN110110795B (zh) * | 2019-05-10 | 2021-04-20 | 厦门美图之家科技有限公司 | 图像分类方法及装置 |
CN110110795A (zh) * | 2019-05-10 | 2019-08-09 | 厦门美图之家科技有限公司 | 图像分类方法及装置 |
CN110674854B (zh) * | 2019-09-09 | 2022-05-17 | 东软集团股份有限公司 | 一种图像分类模型训练方法、图像分类方法、装置及设备 |
CN110674854A (zh) * | 2019-09-09 | 2020-01-10 | 东软集团股份有限公司 | 一种图像分类模型训练方法、图像分类方法、装置及设备 |
CN110765855B (zh) * | 2019-09-12 | 2023-04-18 | 杭州迪英加科技有限公司 | 一种病理图像处理方法及*** |
CN110765855A (zh) * | 2019-09-12 | 2020-02-07 | 杭州迪英加科技有限公司 | 一种病理图像处理方法及*** |
CN110542819B (zh) * | 2019-09-25 | 2022-03-22 | 贵州电网有限责任公司 | 一种基于半监督dbnc的变压器故障类型诊断方法 |
CN110542819A (zh) * | 2019-09-25 | 2019-12-06 | 贵州电网有限责任公司 | 一种基于半监督dbnc的变压器故障类型诊断方法 |
CN112580673A (zh) * | 2019-09-27 | 2021-03-30 | 中国石油化工股份有限公司 | 基于空间概率分布的地震储层样本扩展方法和装置 |
CN112580673B (zh) * | 2019-09-27 | 2024-04-12 | 中国石油化工股份有限公司 | 基于空间概率分布的地震储层样本扩展方法和装置 |
CN110909803A (zh) * | 2019-11-26 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置和计算机可读存储介质 |
CN110909803B (zh) * | 2019-11-26 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 图像识别模型训练方法、装置和计算机可读存储介质 |
CN111160373A (zh) * | 2019-12-30 | 2020-05-15 | 重庆邮电大学 | 一种变速鼓零件缺陷图像特征提取以及检测分类方法 |
CN111506757A (zh) * | 2020-04-10 | 2020-08-07 | 复旦大学 | 基于增量迭代的语音标记装置及方法 |
CN111489792A (zh) * | 2020-04-14 | 2020-08-04 | 西安交通大学 | 一种基于半监督学习框架的t细胞受体序列分类方法 |
CN111563590A (zh) * | 2020-04-30 | 2020-08-21 | 华南理工大学 | 一种基于生成对抗模型的主动学习方法 |
CN111861103A (zh) * | 2020-06-05 | 2020-10-30 | 中南民族大学 | 一种基于多特征与多分类器的鲜茶叶分类方法 |
CN111861103B (zh) * | 2020-06-05 | 2024-01-12 | 中南民族大学 | 一种基于多特征与多分类器的鲜茶叶分类方法 |
CN111768007B (zh) * | 2020-06-28 | 2023-08-08 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN111768007A (zh) * | 2020-06-28 | 2020-10-13 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN113407713A (zh) * | 2020-10-22 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 基于主动学习的语料挖掘方法、装置及电子设备 |
CN113407713B (zh) * | 2020-10-22 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 基于主动学习的语料挖掘方法、装置及电子设备 |
CN112418304A (zh) * | 2020-11-19 | 2021-02-26 | 北京云从科技有限公司 | Ocr模型训练方法、***及装置 |
CN112668657A (zh) * | 2020-12-30 | 2021-04-16 | 中山大学 | 基于分类器预测不确定性的注意力增强分布外图像检测法 |
CN112668657B (zh) * | 2020-12-30 | 2023-08-29 | 中山大学 | 基于分类器预测不确定性的注意力增强分布外图像检测法 |
CN113554627B (zh) * | 2021-07-27 | 2022-04-29 | 广西师范大学 | 一种基于计算机视觉半监督伪标签学习的小麦头检测方法 |
CN113554627A (zh) * | 2021-07-27 | 2021-10-26 | 广西师范大学 | 一种基于计算机视觉半监督伪标签学习的小麦头检测方法 |
CN114155412A (zh) * | 2022-02-09 | 2022-03-08 | 北京阿丘科技有限公司 | 深度学习模型迭代方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644235A (zh) | 基于半监督学习的图像自动标注方法 | |
Bharadiya | Convolutional neural networks for image classification | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
Zheng et al. | Topic modeling of multimodal data: an autoregressive approach | |
Eigen et al. | Nonparametric image parsing using adaptive neighbor sets | |
Farabet et al. | Scene parsing with multiscale feature learning, purity trees, and optimal covers | |
Sun et al. | Scene image classification method based on Alex-Net model | |
Wan et al. | A hybrid neural network-latent topic model | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN108154156B (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN109886161A (zh) | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 | |
Li et al. | Multiple VLAD encoding of CNNs for image classification | |
CN110263174A (zh) | —基于焦点关注的主题类别分析方法 | |
Li et al. | Latent semantic representation learning for scene classification | |
CN113688894A (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
Nguyen et al. | Adaptive nonparametric image parsing | |
Xin et al. | Hybrid dilated multilayer faster RCNN for object detection | |
CN103440332B (zh) | 一种基于关系矩阵正则化增强表示的图像检索方法 | |
Gao et al. | An improved XGBoost based on weighted column subsampling for object classification | |
Foumani et al. | A probabilistic topic model using deep visual word representation for simultaneous image classification and annotation | |
Hu et al. | Learning salient features for flower classification using convolutional neural network | |
CN111768214A (zh) | 产品属性的预测方法、***、设备和存储介质 | |
Guo | Deep learning for visual understanding | |
Wu et al. | Supervised Contrastive Representation Embedding Based on Transformer for Few-Shot Classification | |
Zhou et al. | An improved convolutional neural network model with adversarial net for multi-label image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180130 |