CN110046668A - 一种高性能的多域图像分类方法 - Google Patents
一种高性能的多域图像分类方法 Download PDFInfo
- Publication number
- CN110046668A CN110046668A CN201910324538.0A CN201910324538A CN110046668A CN 110046668 A CN110046668 A CN 110046668A CN 201910324538 A CN201910324538 A CN 201910324538A CN 110046668 A CN110046668 A CN 110046668A
- Authority
- CN
- China
- Prior art keywords
- domain
- feature
- privately owned
- publicly
- owned feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种高性能的多域图像分类方法,该方法全面考虑了网络中出现的特征冗余和类别之间特征的混淆情况。从全局上看,本发明实现了不同的公有特征空间和私有特征空间之间,私有特征空间和私有空间之间完全正交,避免了特征的重复学习和浪费;更进一步的,在公有特征学习过程中联合分布的匹配将不同类别之间的特征分隔开,避免了类别之间特征的混淆,更优的公有特征和私有特征的结合达到了更好的多域图像分类的效果。
Description
技术领域
本发明涉及计算机视觉与模式识别技术领域,尤其涉及一种高性能的多域图像分类方法。
背景技术
图像分类任务是目前计算机视觉的基础任务之一。伴随着深度学习的发展,图像分类任务也在迅速的发展。然而,由于多种外部因素例如真实世界视角变化和背景噪声的影响,在一个域上训练得到的分类器可能在另外一个域上有较差的分类性能。在每个域上都标注大量的样本会耗费大量的人力物力。为了解决此问题,多域图像分类任务希望利用不同域的所有训练数据,提升在每个域上图像分类的性能。
过去研究(F.Wu and Y.Huang.Collaborative multi-domain sentimentclassification.In 2015 IEEE International Conference on Data Mining(ICDM),pages 459–468.IEEE,2015.)将每个域的分类器分为域公有部分和域私有部分,希望保持域特有性质的同时利用不同域之间的共享信息,从而提升多域图像分类的效果。然而,此研究没有考虑到不同域之间共享特征分布的匹配。因此,共享特征不能充分发挥它在多域分类任务内的作用。
伴随着深度对抗网络的发展,(P.Liu,X.Qiu,and X.Huang.Adversarial multi-task learning for text classification.arXiv preprint arXiv:1704.05742,2017.)希望可以利用对抗训练的方式提取更好的域公有信息。此文献在网络中加入了一个域判别器,使得域判别器和特征提取网络之间形成最大最小域分类损失函数的对抗,最终实现不同域之间特征分布的真假难分,进而提取域不变信息。然而,这种对抗训练将一个域内不同类别的数据视为一个分布,然后去匹配这些域之间的分布。这种训练只考虑到了不同域之间边缘分布的匹配,会导致不同类别的数据混合在一起,降低分类的性能。
在另一方面,目前的方法(X.Chen and C.Cardie.Multinomial adversarialnet-works for multi-domain text classification.arXiv preprint arXiv:1802.05694,2018.)希望能够通过加入公有特征和私有特征正交的约束促进网络私有特征和公有特征独立的学习。然而网络私有特征之间的正交性质并没有被保证。这使得网络的公有特征会同时出现于不同域的私有网络内。这种冗余的特征学习使得网络没有充分利用其学习能力,降低了学习得到特征的分类性能,增加了样本分类的难度。
发明内容
本发明的目的是提供一种高性能的多域图像分类方法,可以获得较好的多域图像分类的效果。
本发明的目的是通过以下技术方案实现的:
一种高性能的多域图像分类方法,包括:
将所有域的训练数据分别输入至公有特征提取网络以及不同的私有特征提取网络中,其中,每一个域对应一个私有特征提取网络;
利用域共享类别分类器和域判别器来保证不同域公有特征之间联合分布的匹配;
在提取不同域私有特征时加入私有特征和公有特征之间的正交约束以及私有特征之间的正交约束来确保每个公有特征和私有特征子空间的独立性;
将提取到的每个域的私有特征和公有特征拼接,再输入每个域独有的分类网络中进行分类,得到分类结果。
由上述本发明提供的技术方案可以看出,本发明全面考虑了网络中出现的特征冗余和类别之间特征的混淆情况。从全局上看,本发明实现了不同的公有特征空间和私有特征空间之间,私有特征空间和私有特征空间之间完全正交,避免了特征的重复学习和浪费;更进一步的,在公有特征学习过程中联合分布的匹配将不同类别之间的特征分隔开,避免了类别之间特征的混淆,更优的公有特征和私有特征的结合达到了更好的多域图像分类的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种高性能的多域图像分类方法的流程图;
图2为本发明实施例提供的不同情况下对MNIST和MNIST-M中私有特征和公有特征可视化结果。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种高性能的多域图像分类方法,紧凑特征学习考虑到不同域之间公有特征联合分布的匹配和不同域私有网络特征间存在的冗余问题,希望网络能够学习到独立紧凑的特征子空间,使得不同性质的特征更好的分隔开,达到更好的多域图像分类的效果。
本发明所要解决的技术问题是利用不同域的所有训练数据,提升在每个域上图像分类的性能。利用X,Y分别表示特征和类别空间,一个域的联合分布用P(X,Y)来表示,Pm(X,Y)表示第m个域数据集的联合分布,Pm(X)表示第m个域数据集的边缘分布;每个数据集由单个样本组成,其中Nm表示第m个域样本的数量。给定C个相关的域P1(X,Y),P2(X,Y)…PC(X,Y),以及他们的数据集 表示第m个域内第i个训练样本及其对应的类别;域图像分类方法的目标是学习一个如图1所示的多分枝模型f:Xm→Ym,m={1,2,…,C},以实现所有域内图像的正确分类。
如图1所示,为本发明实施例提供的一种高性能的多域图像分类方法的流程图,其主要包括:
1、将所有域的训练数据分别输入至公有特征提取网络以及不同的私有特征提取网络中。
如图1所示,中间部分为公有特征提取网络(shared network),其两侧为私有特征提取网络(private network),每一个域(Domain)对应一个私有特征提取网络,为了便于图形的绘制,图1仅示例性的给出了两个域(Domain1、Domain2)及对应的私有特征提取网络。
如图1所示,这两种特征提取网络内部均设有多个卷积层(Convolution Layer),最后连接有一个全连接层(Fully Convolution Layer),两个域的数据集(The dataset inDomain1&2)均输入至公有特征提取网络,并输出至对应的私有特征提取网络,提取得到两个域的公有特征(The shared feature in Domain1&2)、两个域的私有特征(The privatefeature in Domain1&2)。
2、利用域共享类别分类器(shared classifier)和域判别器(Discriminator)来保证不同域公有特征之间联合分布的匹配。
本发明实施例中,约束损失函数为:
上式中,Fs代表公有特征提取网络,表示针对训练样本提取的公有特征,Cs为域共享分类网络,dm代表第m个域的域判别器。
在最优的域共享类别分类器假设的基础上,不同域之间的条件分布达到了匹配。同时,本发明采用文献(Y.Ganin,E.Ustinova,H.Ajakan,P.Germain,H.Larochelle,F.Laviolette,M.Marchand,and V.Lempitsky.Domain-adversarial training of neuralnetworks.The Journal of Machine Learning Research,17(1):2096–2030,2016.)的方案,利用梯度反传层(gradient reversal layer,GRL)连接域判别器和特征提取网络。梯度反传层将特征信息前传,但在反传过程中将梯度进行取负。在这种负梯度的基础上,特征提取网络希望提取到的特征误导域判别器的域判别结果,但域判别器又尽可能正确区分不同域的特征。因此,网络中形成了最大最小游戏,最终使得不同域之间的特征达到了混淆。训练最终会达到每个网络都难以提升性能的平衡点,实现不同域特征之间联合分布的匹配。
3、在提取不同域私有特征时加入私有特征和公有特征之间的正交约束以及私有特征之间的正交约束来确保每个公有特征和私有特征子空间的独立性。
为了保证每个域内特征的特有性质,本发明对不同域训练了不同的域私有网络。如图1中公有网络两侧的网络所示,每个域的数据独立输入不同的私有网络。同时,网络加入公有特征和私有特征之间的正交约束,保证公有特征子空间和私有特征子空间的正交性,公式如下:
上式中,上标T为矩阵转置符号;Sm和Hm为两个矩阵,分别代表了第m个域的公有特征和私有特征,矩阵中的每一行分别对应训练样本的公有特征和私有特征
注意到网络私有特征之间的正交性质并没有被保证。这使得网络的公有特征会同时出现于不同域的私有网络内;这种冗余的特征学习使得网络没有充分利用其学习能力,降低了学习得到特征的分类性能,增加了样本分类的难度。因此,本发明加入了私有特征之间的正交约束:
上式中,和为两个矩阵,分别代表了第m1和第m2个域的私有特征,矩阵中的每一行分别对应训练样本私有特征这种私有特征之间的约束使网络学习到了更加独立的子空间,达到了更好的多域分类性能。
本发明实施例中,为了提升网络私有特征和网络公有特征的独立性,在公有特征与私有特征拼接之前,本发明加入了独立训练私有特征的训练过程,该过程中,将私有特征和零向量拼接,输入到相应域独有的分类网络进行训练,训练过程中将域独有的分类网络固定,仅训练私有特征。公式表示为:
上式中,zeros表示零向量,Fp表示私有特征提取网络,表示针对训练样本提取的私有特征,Cm代表第m个域独有的分类网络,Lp表示独立训练私有特征分类损失。
4、将提取到的每个域的私有特征和公有特征拼接,再输入每个域独有的分类网络(Domain 1 classifier、Domain 2 classifier)中进行分类,得到分类结果。
如图1所示,每个域独有的分类网络主要包含了多个全连接层。
本步骤的上述过程表示为:
上式中,Fs代表公有特征提取网络,Fp表示私有特征提取网络,和分别表示针对训练样本提取的公有特征和私有特征,Ldomain表示多域分类损失,Cm代表第m个域独有的分类网络。
上述方式,私有特征和公有特征的结合弥补了彼此的不足,使网络保持每个域独有性质的同时利用到了所有域中的共享信息。
为了测试该本发明上述方法的有效性,在合成数据集MNIST和真实数据集VLCS,以及具有较大子数据集差异性的PACS上进行了试验。对比试验所涉及的方法如下:
·Indiv:应用不同的网络来处理不同的域。每个网络都是单独训练的,不需要与相关域的网络连接。
·Indiv l2:每个域都有一个单独的网络,并且在不同域的网络参数之间加入l2范式正则化。
·Cross_stitch:应用不同的网络来处理不同的域。不同域相同层输出的特征进行线性组合输入下一层,以实现域之间的特征共享。
·Cross_connect:应用不同的网络来处理不同的域。不同域相同层之间应用1×1卷积层连接来实现域之间的特征共享。
·Share:使用单个网络同时处理所有相关域。
·MAN:(Multinomial adversarial networks):应用对抗性训练来获取域不变信息,并应用正交正则化来消除私有和公有特征空间之间的冗余信息。
·JARN(Joint adversarial restriction network):应用联合对抗性损失来实现不同域公有特征之间的联合分布匹配,并应用正交正则化来消除私有和公有特征空间之间的冗余信息。
·JOARN(joint orthogonal adversarial restriction network):采用本发明上述方案。应用联合对抗性损失来实现不同域公有特征之间的联合分布匹配,并应用正交正则化来消除私有和公有特征空间之间以及私有特征和私有特征之间的冗余信息。
对于合成数据集MNIST,在MNIST和MNIST-M中随机选择1000个训练样本。使用每个数据集中所有10000个测试样本。如表1所示,可以看到不同域的提升幅度是不平衡的,这是因为共享特征在不同的域内占有不同的重要性。传统方案如Indiv l2,Cross_stitch和Cross_connect由于没有考虑公有信息分布的匹配,只能获得有限的提升。MAN通过对抗训练获得域不变特征,同时单独提取了域不变信息和域特有信息,因此可以获得更好的性能。JARN中加入共享分类器以获得不同域之间域不变特征的联合分布匹配,因此优于MAN。JOARN获得了更好的结果,并且优于所有其他方法。
表1传统方案和本方案在MNIST数据集进行测试之后的多域分类性能
为了直观地观察本发明提出的约束在网络中的影响,使用t-SNE(t-distributedstochastic neighbor embedding)投影来显示不同情况下,在MNIST和MNIST-M数据集上域不变特征和域私有特征的可视化结果。从图2的(a)部分中,可以看到在没有限制情况下的共享特征有两个缺点,一个缺点是网络只能实现不同域公有特征的分布之间的部分匹配。另一个是相同类别的跨域特征在类别分界处的混淆导致了分类的困难。如图2的(b)部分所示,本发明加入对抗训练和共享分类器,实现了不同域之间公有特征联合分布的匹配,同时不同类别特征之间具有清晰且可区分的边界。另一方面,通过图2的(c)部分与(d)部分的对比,不同域之间私有特征通过正交约束保证了域私有特征的唯一性,并保证了类别间的可区分性。
VLCS是真实世界的图像分类数据集。本次试验中选择了3种不同类型的子数据集:PASCAL VOC2007(V),LabelMe(L)和SUN09(S)。PACS是具有更大域间差异的数据集。本次试验选择了3种不同类型的子数据集:art-painting(A),cartoon(C),sketch(S).我们将PACS和VLCS内每个子数据集随机分为两部分:70%用于训练,30%用于测试。如表2与表3所示,可以得出和MNIST和MNIST-M的实验中类似的结论。注意到,MAN的结果有时比以前的方案差,这种结果是因为MAN中的公有特征仅实现了边缘分布的匹配,由于不同域之间的条件分布的变化,训练过程具有不稳定性。此外,不同域私有网络间的冗余导致私有特征的可区分度降低。本通过匹配不同域间的联合特征分布来提取共享特征,并且在私有特征间加入正交约束,获得了比其他方法更好的结果。
表2传统方案和本方案在VLCS数据集进行测试之后的多域分类性能
表3传统方案和本方案在PACS数据集进行测试之后的多域分类性能
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (7)
1.一种高性能的多域图像分类方法,其特征在于,包括:
将所有域的训练数据分别输入至公有特征提取网络以及不同的私有特征提取网络中,其中,每一个域对应一个私有特征提取网络;
利用域共享类别分类器和域判别器来保证不同域公有特征之间联合分布的匹配;
在提取不同域私有特征时加入私有特征和公有特征之间的正交约束以及私有特征之间的正交约束来确保每个公有特征和私有特征子空间的独立性;
将提取到的每个域的私有特征和公有特征拼接,再输入每个域独有的分类网络中进行分类,得到分类结果。
2.根据权利要求1所述的一种高性能的多域图像分类方法,其特征在于,利用X,Y分别表示特征和类别空间,一个域的联合分布用P(X,Y)来表示,Pm(X,Y)表示第m个域数据集的联合分布,Pm(X)表示第m个域数据集的边缘分布;每个数据集由单个样本组成,其中Nm表示第m个域样本的数量;给定C个相关的域P1(X,Y),P2(X,Y)…PC(X,Y),以及他们的数据集 表示第m个域内第i个训练样本及其对应的类别;域图像分类方法的目标是学习一个多分枝模型f:Xm→Ym,m={1,2,…,C},以实现所有域内图像的正确分类。
3.根据权利要求2所述的一种高性能的多域图像分类方法,其特征在于,所述利用域共享类别分类器和域判别器来保证不同域公有特征之间联合分布的匹配时的损失函数为:
上式中,Fs代表公有特征提取网络,表示针对训练样本提取的公有特征,Cs为域共享分类网络,dm代表第m个域的域判别器。
4.根据权利要求2所述的一种高性能的多域图像分类方法,其特征在于,所述私有特征和公有特征之间的正交约束表示为:
上式中,上标T为矩阵转置符号;Sm和Hm为两个矩阵,分别代表了第m个域的公有特征和私有特征,矩阵中的每一行分别对应训练样本的公有特征和私有特征
5.根据权利要求2所述的一种高性能的多域图像分类方法,其特征在于,所述私有特征之间的正交约束表示为:
上式中,上标T为矩阵转置符号;和为两个矩阵,分别代表了第m1和第m2个域的私有特征,矩阵中的每一行分别对应训练样本私有特征
6.根据权利要求2所述的一种高性能的多域图像分类方法,其特征在于,该方法还包括:在公有特征与私有特征拼接之前独立训练私有特征的过程,该过程中,将私有特征和零向量拼接,输入到相应域独有的分类网络进行训练,训练过程中将域独有的分类网络固定,仅训练私有特征,公式表示为:
上式中,zeros表示零向量,Fp表示私有特征提取网络,表示针对训练样本提取的私有特征,Cm代表第m个域独有的分类网络,Lp表示独立训练私有特征分类损失。
7.根据权利要求2或6所述的一种高性能的多域图像分类方法,其特征在于,所述将提取到的每个域的私有特征和公有特征拼接,再输入每个域独有的分类网络中进行分类表示为:
上式中,Fs代表公有特征提取网络,Fp表示私有特征提取网络,和分别表示针对训练样本提取的公有特征和私有特征,Ldomain表示多域分类损失,Cm代表第m个域独有的分类网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910324538.0A CN110046668A (zh) | 2019-04-22 | 2019-04-22 | 一种高性能的多域图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910324538.0A CN110046668A (zh) | 2019-04-22 | 2019-04-22 | 一种高性能的多域图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110046668A true CN110046668A (zh) | 2019-07-23 |
Family
ID=67278321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910324538.0A Pending CN110046668A (zh) | 2019-04-22 | 2019-04-22 | 一种高性能的多域图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046668A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929624A (zh) * | 2019-11-18 | 2020-03-27 | 西北工业大学 | 一种基于正交损失函数的多任务分类网络的构建方法 |
-
2019
- 2019-04-22 CN CN201910324538.0A patent/CN110046668A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929624A (zh) * | 2019-11-18 | 2020-03-27 | 西北工业大学 | 一种基于正交损失函数的多任务分类网络的构建方法 |
CN110929624B (zh) * | 2019-11-18 | 2021-09-14 | 西北工业大学 | 一种基于正交损失函数的多任务分类网络的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rubinstein et al. | A comparative study of image retargeting | |
CN108399431A (zh) | 分类模型训练方法以及分类方法 | |
CN110188760A (zh) | 一种图像处理模型训练方法、图像处理方法及电子设备 | |
CN107851197B (zh) | 自适应增强(AdaBoost)分类器中的高效决策树遍历 | |
Liu et al. | Compact feature learning for multi-domain image classification | |
CN106067024A (zh) | 特征点提取装置及方法和利用其的图像匹配*** | |
Asghar et al. | Edge–texture feature-based image forgery detection with cross-dataset evaluation | |
Stroebel et al. | A systematic literature review on the effectiveness of deepfake detection techniques | |
Simon et al. | Scene segmentation using the wisdom of crowds | |
Sun et al. | An information theoretic approach for attention-driven face forgery detection | |
JPWO2017131184A1 (ja) | 書物電子化方法および書物電子化装置 | |
Jia et al. | Model attribution of face-swap deepfake videos | |
CN109523452A (zh) | 一种基于通道差分残差的彩色图像隐写检测方法 | |
Nowroozi et al. | Detecting high-quality GAN-generated face images using neural networks | |
CN110046668A (zh) | 一种高性能的多域图像分类方法 | |
Atzori et al. | Demographic bias in low-resolution deep face recognition in the wild | |
Rao et al. | Color contribution to part-based person detection in different types of scenarios | |
Qiu et al. | Scratch Each Other's Back: Incomplete Multi-Modal Brain Tumor Segmentation via Category Aware Group Self-Support Learning | |
Martinez Pandiani et al. | Hypericons for interpretability: decoding abstract concepts in visual data | |
Zou et al. | Unified deep neural network for segmentation and labeling of multipanel biomedical figures | |
Li et al. | Comic image understanding based on polygon detection | |
Rahman et al. | SMIFD: novel social media image forgery detection database | |
Annadani et al. | Augment and adapt: A simple approach to image tampering detection | |
CN109461153A (zh) | 数据处理方法和装置 | |
Nguyen et al. | Multilingual Diversity Improves Vision-Language Representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190723 |
|
RJ01 | Rejection of invention patent application after publication |