CN113205522A - 一种基于对抗域适应的图像智能裁剪方法及*** - Google Patents

一种基于对抗域适应的图像智能裁剪方法及*** Download PDF

Info

Publication number
CN113205522A
CN113205522A CN202110466563.XA CN202110466563A CN113205522A CN 113205522 A CN113205522 A CN 113205522A CN 202110466563 A CN202110466563 A CN 202110466563A CN 113205522 A CN113205522 A CN 113205522A
Authority
CN
China
Prior art keywords
aesthetic
domain
loss
sample
feature extractor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110466563.XA
Other languages
English (en)
Other versions
CN113205522B (zh
Inventor
桑农
王皓文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202110466563.XA priority Critical patent/CN113205522B/zh
Publication of CN113205522A publication Critical patent/CN113205522A/zh
Application granted granted Critical
Publication of CN113205522B publication Critical patent/CN113205522B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于对抗域适应的图像智能裁剪方法及***,属于计算机视觉领域,方法具体为:将目标应用场景下待裁剪的目标域图像输入至训练后的特征提取器,获取全局特征;按照预设的裁剪方式,对全局特征进行重采样;区域特征输入至美学分类器进行美学评分,筛选裁剪结果;特征提取器的训练过程为:将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本全局特征的能力;并根据美学损失调节自身参数,学习美学分析能力;美学分类器的训练是根据美学损失调节自身参数。本发明解决了现有智能裁剪方法在跨域测试时性能显著下降的问题。

Description

一种基于对抗域适应的图像智能裁剪方法及***
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于对抗域适应的图像智能裁剪方法及***。
背景技术
智能裁剪任务是从原始图像中裁剪出构图更合理的区域作为新的生成图,用高质量的生成图代替低质量的原图。因为其只涉及裁剪,操作简便,却能显著提升图像的美学质量,图像裁剪作为一项图像编辑操作被广泛运用。然而手工裁剪需要一定的技术门槛,不仅耗费时间,也不是所有人都能掌握的技能。因此,利用智能算法自动裁剪就变得很有意义。相比于手工裁剪,智能裁剪既不需要使用者具有极高的美学素养,也不需要了解诸如三分法、对角线法等构图法则,可以快速地对大量图像做出相对合理的裁剪,并呈现给用户自己筛选。
目前的智能裁剪方法从训练和测试数据分布上分为两大类,第一类是在测试域上有美学监督的裁剪算法,其监督信息包含每个裁剪子图的美学标签;第二类在测试域上无监督的构图算法,这类算法需要依靠训练域标签学习美学鉴赏能力,并在测试域泛化和推理。对于第二类问题,通常将训练样本所在的域称为源域,测试样本所在域称为目标域。在实际应用中,研究者无法预测待裁剪样本所属的域,也无法针对每一种场景准备一套训练集。训练样本所在的源域和测试样本所在的目标域往往存在差异,而这种差异将导致训练完毕的模型在目标域场景中性能下降,该现象被称作域偏移。
现有智能裁剪算法没有针对解决域偏移问题,大部分裁剪算法都是在单一数据集上训练,并认为训练好的模型可以适应大多数情况。但事实上,智能裁剪任务中也存在明显的域偏移问题,在跨域和跨数据集测试的过程中,现有的裁剪模型性能会显著下降。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于对抗域适应的图像智能裁剪方法及***,旨在解决现有的智能构图方法由于未考虑域迁移问题而造成的在跨域跨数据集测试时,裁剪模型性能显著下降的问题。
为实现上述目的,一方面,本发明提供了一种基于对抗域适应的图像智能裁剪方法,包括以下步骤:
将目标应用场景下待裁剪的目标域图像输入至训练后的特征提取器,获取全局特征;
按照预设的裁剪方式,对所述全局特征进行重采样,获取的区域特征输入至训练完毕的美学分类器中进行美学评分,筛选出裁剪结果;
其中,特征提取器的训练过程为:将基于目标域样本计算的域适应损失反传的梯度反转后传输至特征提取器,保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本的全局特征的能力;且根据美学损失调节自身参数,学习美学分析能力;美学分类器的训练过程是根据美学损失调节自身参数;
目标域样本为目标应用场景下任一无标签图像,源域样本为另一场景下有裁剪子图和美学标签的图像;域适应损失为基于样本域标签与域判别结果获取;域判别结果为全局特征输入域判别器获取;美学损失为结合美学分数和美学标签计算获取。
优选地,训练特征提取器和美学分类器的方法,包括以下步骤:
将目标域样本和源域样本输入至特征提取器提取全局特征;
将全局特征输入至域判别器,输出的域判别结果与样本域标签相结合,计算域适应损失;且对全局特征进行重采样获取区域特征;其中,区域特征的通道维度与裁剪子图对应;
将区域特征传输至美学分类器获取美学分数后,结合美学标签,计算美学损失;
将域适应损失函数反传至域判别器进行自身参数优化;
将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,并保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本的全局特征的能力;
同时将美学损失反传至美学分类器和特征提取器进行自身参数优化。
优选地,获取美学分数的方法为:
将区域特征传输至若干美学分类器,分别获取美学评分;
将美学评分的均值作为美学分数;
或将区域特征传输至单个美学分类器,获取美学分数。
优选地,当美学分类器存在多个时,基于各个美学分类器获取的美学评分,计算各美学分类器间的一致性损失;
且基于各美学分类器的参数,获取各美学分类器间的权重损失;
利用一致性损失、权重损失和美学损失构建美学相关损失函数,反传至美学分类器和特征提取器进行自身参数优化。
优选地,域适应损失为:
Ld=-(y'log y+(1-y')log(1-y))
其中,y'为当前样本I对应的域标签,当当前样本I来自源域时,y'=0;当当前样本I来自目标域时,y'=1;y为域判别器的输出结果,经过softmax归一化后数值介于0~1之间。
优选地,美学损失为:
Figure BDA0003044276120000031
Figure BDA0003044276120000032
其中,Sc为裁剪子图的美学标签序列;P代表归一化后的美学分数序列;i为裁剪方式编号;n为裁剪方式的总数;Xdis为美学评分和美学标签的误差;
美学分类器间的一致性损失为:
Figure BDA0003044276120000041
其中,美学分类器设置有两个,P1,P2为两个美学分类器预测的裁剪子图美学评分序列;
美学分类器间的权重损失为:
Figure BDA0003044276120000042
其中,美学分类器设置有两个,W1与W2为两个美学分类器的参数;m为分类器参数展开之后的长度,j为当前分类器参数位置。
另一方面,本发明提供了一种基于对抗域适应的图像智能裁剪***,包括对抗域适应模块、特征提取器、重采样结构和美学评分模块;
特征提取器一端口与抗域适应模块双向数据传输,且另一端口通过重采样结构与美学评分模块双向数据传输;
特征提取器用于提取目标域图像和源域图像的全局特征;将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本的全局特征的能力;且根据美学损失调节自身参数,学习美学分析能力;
重采样结构用于按照预设的裁剪方式,对全局特征进行重采样,获取区域特征;
美学评分模块用于基于区域特征进行美学评分,筛选出裁剪结果;且根据美学损失调节美学评分模块中美学分类器的自身参数;
对抗域适应模块用于根据全局特征,判断当前样本是目标域样本或源域样本,输出域判别结果;基于域判别结果与样本的域标签计算域适应损失;将域适应损失反传至域判别器调节自身参数;且将基于目标域计算的域适应损失梯度反转传输至特征提取器,保持基于源域样本计算的域适应损失梯度不变传输至特征提取器;
其中,目标域样本为目标应用场景下任一无标签图像,源域样本为另一场景下有裁剪子图和美学标签的图像;
其中,重采样结构包含两个ROIAlign层,分别用于提取裁剪区域的前景特征和背景特征,前景特征和背景特征将按维度叠加生成区域特征。
优选地,对抗域适应模块包括自适应梯度反转层、域判别器和判别计算单元;
域判别器用于根据全局特征,判断当前样本是目标域样本或源域样本,输出域判别结果;且根据域适应损失调节自身参数;
判别计算单元用于基于域判别结果与样本的域标签计算域适应损失;将域适应损失反传至域判别器和自适应梯度反转层;
自适应梯度反转层用于将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器。
优选地,美学评分模块包括美学分类器和美学计算单元;
若存在一个美学分类器,则美学分类器与重采样结构相连;若存在多个美学分类器,则多个美学分类器并联后,一端与重采样结构相连;其另一端与美学计算单元相连;
美学分类器用于根据区域特征进行美学评分;
美学计算单元用于计算美学评分的均值,输出美学分数;基于各个美学分类器获取的美学评分,计算各美学分类器间的一致性损失;且基于各美学分类器的参数,获取各美学分类器间的权重损失;利用一致性损失、权重损失和美学损失构建美学相关损失函数,反传至美学分类器和特征提取器进行自身参数优化。
优选地,美学损失为:
Figure BDA0003044276120000061
Figure BDA0003044276120000062
其中,Sc为裁剪子图的美学标签序列;P代表归一化后的美学分数序列;i为裁剪方式编号;n为裁剪方式的总数;Xdis为美学评分和美学标签的误差;
美学分类器间的一致性损失为:
Figure BDA0003044276120000063
其中,美学分类器设置有两个,P1,P2为两个美学分类器预测的裁剪子图美学评分序列;
美学分类器间的权重损失为:
Figure BDA0003044276120000064
其中,美学分类器设置有两个,W1与W2为两个美学分类器的参数;m为分类器参数展开之后的长度,j为当前分类器参数位置。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
本发明提供的图像智能裁剪方法中的特征提取器是通过设置自适应梯度反转层和域判别器实现训练的。按照域适应损失,判别器可以将源域和目标域样本进行区分,通过域适应损失可以不断调节域判别器自身的参数,使域适应损失减小;域适应损失越小,说明域判别器识别源域样本和目标域样本的能力越强;而自适应梯度反转层会反转基于目标域样本计算的域适应损失回传的梯度,使特征提取器对齐对齐源域和目标域样本的全局特征,经过上述方法,特征提取器可以减小源域图像与目标域图像特征的差异,将训练完毕的特征提取器应用于目标域场景中可以保证基本的性能,在不需要目标域标签的情况下,在仅依靠源域数据和部分无标注的目标域图像实现了跨域的智能裁剪学习,解决了现有智能裁剪方法在跨域跨数据集测试时,裁剪模型性能显著下降的问题。
本发明提供的基于对抗域适应的图像智能裁剪方法,支持多个不同参数相同结构的美学分类器构建美学评分模块;一方面用美学评分模块预测每个裁剪子图的美学评分,另一方面采用美学分类器间的一致性损失约束多个美学分类器的输出结果趋于一致,辅助提取裁剪子图的不变特征;同时采用美学分类器间的权重损失调节各个美学分类器的参数,最大限度地确保不同参数的美学分类器可以输出一致的结果,增强了裁剪模型对不同输入图像的适应能力。
附图说明
图1是本发明实施例提供的基于对抗域适应的图像智能裁剪方法流程图;
图2是本发明实施例提供的对抗域适应的图像智能裁剪***的结构示意图;
图3是本发明实施例提供的网络CNN结构及数据流向示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一方面,如图1所示,本发明提供了一种基于对抗域适应的图像智能裁剪方法,包括以下步骤:
将目标应用场景下待裁剪的目标域图像输入至训练后的特征提取器,获取全局特征;
按照预设的裁剪方式,对所述全局特征进行重采样,获取的区域特征输入至训练完毕的美学分类器中进行美学评分,筛选出裁剪结果;
其中,特征提取器的训练过程为:将待裁剪的目标域图像输入至训练后的特征提取器,获取全局特征;
按照预设的裁剪子图,对全局特征进行重采样,获取的区域特征输入至训练完毕的美学分类器中进行美学评分,筛选出裁剪结果;
其中,特征提取器的训练过程为:将基于目标域样本计算的域适应损失反传的梯度反转后传输至特征提取器,保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本的全局特征的能力;且根据美学损失调节自身参数,学习美学分析能力;美学分类器的训练过程是根据美学损失调节自身参数;
目标域样本为目标应用场景下任一无标签图像,源域样本为另一场景下有裁剪子图和美学标签的图像;域适应损失为基于样本域标签与域判别结果获取;域判别结果为全局特征输入域判别器获取;美学损失为结合美学分数和美学标签计算获取。
优选地,训练特征提取器和美学分类器的方法,包括以下步骤:
将目标域图像和源域图像输入至特征提取器提取全局特征;
将全局特征输入至域判别器,输出的域判别结果与样本的域标签相结合,计算域适应损失;且对全局特征进行重采样获取区域特征;其中,区域特征的通道维度与裁剪子图对应;
将区域特征传输至美学分类器获取美学分数后,结合美学标签,计算美学损失;
将适应损失函数反传至域判别器进行自身参数优化;
将基于目标域样本计算的适应损失梯度反转后传输至特征提取器,保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本的全局特征的能力;
同时将美学损失反传至美学分类器和特征提取器进行自身参数优化。
优选地,获取美学分数的方法为:
将区域特征传输至若干美学分类器,分别获取美学评分;
将美学评分的均值作为美学分数;
或将区域特征传输至单个美学分类器,获取美学分数。
优选地,当美学分类器存在多个时,基于各个美学分类器获取的美学评分,计算各美学分类器间的一致性损失;
且基于各美学分类器的参数,获取各美学分类器间的权重损失;
利用一致性损失、权重损失和美学损失构建美学相关损失函数,反传至美学分类器和特征提取器进行自身参数优化。
优选地,域适应损失为:
Ld=-(y'log y+(1-y')log(1-y))
其中,y'为当前样本I对应的域标签,当当前样本I来自源域时,y'=0;当当前样本I来自目标域时,y'=1;y为域判别器的输出结果,经过softmax归一化后数值介于0~1之间。
优选地,美学损失为:
Figure BDA0003044276120000091
Figure BDA0003044276120000092
其中,Sc为裁剪子图的美学标签序列;P代表归一化后的美学分数序列;i为裁剪方式编号;n为裁剪方式的总数;Xdis为美学评分和美学标签的误差;
美学分类器间的一致性损失为:
Figure BDA0003044276120000093
其中,美学分类器设置有两个,P1,P2为两个美学分类器预测的裁剪子图美学评分序列;
美学分类器间的权重损失为:
Figure BDA0003044276120000101
其中,美学分类器设置有两个,W1与W2为两个美学分类器的参数;m为分类器参数展开之后的长度,j为当前分类器参数位置。
另一方面,如图2和图3所示,本发明提供了一种基于对抗域适应的图像智能裁剪***,包括对抗域适应模块、特征提取器、重采样结构和美学评分模块;
特征提取器一端口与抗域适应模块双向数据传输,且另一端口通过重采样结构与美学评分模块双向数据传输;
特征提取器用于提取目标域图像和源域图像的全局特征;将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本的全局特征的能力;且根据美学损失调节自身参数,学习美学分析能力;
重采样结构用于按照预设的裁剪方式,对全局特征进行重采样,获取区域特征;
美学评分模块用于基于区域特征进行美学评分,筛选出裁剪结果;且根据美学损失调节美学评分模块中美学分类器的自身参数;
对抗域适应模块用于根据全局特征,判断当前样本是目标域样本或源域样本,输出域判别结果;基于域判别结果与样本的域标签计算域适应损失;将域适应损失反传至域判别器调节自身参数;且将基于目标域计算的域适应损失梯度反转传输至特征提取器,保持基于源域样本计算的域适应损失梯度不变传输至特征提取器;
其中,目标域样本为目标应用场景下任一无标签图像,源域样本为另一场景下有裁剪子图和美学标签的图像;
其中,重采样结构包含两个ROIAlign层,分别用于提取裁剪区域的前景特征和背景特征,前景特征和背景特征将按维度叠加生成区域特征。
优选地,对抗域适应模块包括自适应梯度反转层、域判别器和判别计算单元;
域判别器用于根据全局特征,判断当前样本是目标域样本或源域样本,输出判别结果;且根据域适应损失调节自身参数;
判别计算单元用于基于判别结果与样本的域标签计算域适应损失;将域适应损失反传至域判别器和自适应梯度反转层;
自适应梯度反转层用于将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器。
优选地,美学评分模块包括美学分类器和美学计算单元;
若存在一个美学分类器,则美学分类器与重采样结构相连;若存在多个美学分类器,则多个美学分类器并联后,一端与重采样结构相连;其另一端与美学计算单元相连;
美学分类器用于根据区域特征进行美学评分;
美学计算单元用于计算美学评分的均值,输出美学分数;基于各个美学分类器获取的美学评分,计算各美学分类器间的一致性损失;且基于各美学分类器的参数,获取各美学分类器间的权重损失;利用一致性损失、权重损失和美学损失构建美学相关损失函数,反传至美学分类器和特征提取器进行自身参数优化。
优选地,美学损失为:
Figure BDA0003044276120000121
Figure BDA0003044276120000122
其中,Sc为裁剪子图的美学标签序列;P代表归一化后的美学分数序列;i为裁剪方式编号;n为裁剪方式的总数;Xdis为美学评分和美学标签的误差;
美学分类器间的一致性损失为:
Figure BDA0003044276120000123
其中,美学分类器设置有两个,P1,P2为两个美学分类器预测的裁剪子图美学评分序列;
美学分类器间的权重损失为:
Figure BDA0003044276120000124
其中,美学分类器设置有两个,W1与W2为两个美学分类器的参数;m为分类器参数展开之后的长度,j为当前分类器参数位置。实施例
如图1所示,本发明提供了一种基于对抗域适应的图像智能裁剪方法,包括以下步骤:
训练阶段:
(1)将目标应用场景下采集的无标签RGB(彩色)图像作为目标域样本,将另一场景下有裁剪子图和美学标签的RGB图像作为源域样本;
具体地,假设有一个源域样本,包括一张源域图像Is和一组美学标签as={as(0),...,as(n)};n个美学标签对应n个裁剪子图;裁剪子图由源域图像裁剪而成,对应了n种预设的裁剪方式B={B(0),...,B(n)};
一个目标域样本只包含一张目标域图像It,不包含美学标签at,但n种预设的裁剪方式B={B(0),...,B(n)}已知,目标域样本的裁剪方式与源域样本的裁剪方式相同;
(2)将成对的源域图像和目标域图像输入特征提取器,提取源域图像和目标域图像的全局特征;将全局特征传输至重采样结构,获取区域特征;
具体地,将一个源域样本和一个目标域样本组合,作为一次迭代优化的基本单位;
将源域样本和目标域样本输入至特征提取器中,获取源域样本和目标域样本的全局特征
Figure BDA0003044276120000131
根据裁剪子图的位置,对全局特征
Figure BDA0003044276120000132
进行重采样,获取源域样本和目标域样本的区域特征
Figure BDA0003044276120000133
其中,区域特征的通道维度与裁剪子图对应;
(3)将源域样本和目标域样本的全局特征送入域判别器,根据图像标签计算域适应损失;
具体地,域判别器Ddomain用于预测当前样本属于哪个域,由卷积堆叠而成,输入为样本的全局特征,输出y=Ddomain(F)代表当前样本域的预测结果,Fglobal为当前样本的全局特征;
域判别器计算的域适应损失为:
Ld=-(y'log y+(1-y')log(1-y))
其中,y'为输入图像I对应的域标签,当输入图像I来自源域时,y'=0;当输入图像I来自目标域时,y'=1;y为域判别器的输出结果,经过softmax归一化后数值介于0~1之间;
在特征提取器与域判别器之间,嵌入一个自适应梯度反转层;该层的功能是将目标域样本计算的域适应损失梯度反转;当域判别器将源域样本和目标域样本辨别开时,特征提取器接收到源域样本的梯度方向和目标域样本的梯度方向是相同的,特征提取器将学习对齐源域和目标域样本特征的能力;
(4)将源域的区域特征和目标域的区域特征传输至美学评分模块,计算美学相关损失函数;
样本的区域特征Farea将作为美学评分模块的输入,美学评分模块的输出为P∈RK ×1,每个维度对应一个裁剪子图的美学评分;
美学评分模块包括两个结构相同参数不同的美学分类器,两个美学分类器是并联结构,两个美学分类器将同时接收Farea,并独立预测出各裁剪子图的美学评分,而两个美学分类器的均值将作为美学评分模块的美学分数;
为了使美学分类器拥有美学鉴赏能力,以美学标签作为监督,按照美学损失LA,调节美学分类器和特征提取器的参数,使美学损失减小至最小,美学损失越小说明美学分类器的预测值越精准,具体不断调节LA为:
Figure BDA0003044276120000141
Figure BDA0003044276120000142
其中,Sc为裁剪子图的美学标签序列;P代表归一化后的美学分数序列;i为裁剪方式编号;n为裁剪方式的总数;Xdis为美学评分和美学标签的误差;减小LA使预测值序列与美学标签序列趋于一致;
为了约束两个美学分类器在拥有不同美学分类器参数的前提下预测出相同的结果,将Lc和Lw分别作为一致性损失和权重损失以优化美学分类器和特征提取器的参数;
Figure BDA0003044276120000143
Figure BDA0003044276120000151
其中,Lc代表对不同美学分类器设置不同的参数,对裁剪子图的美学分数预测一致的大小;Lc越小,代表两个美学分类器一致性越强;Lw代表不同美学分类器的参数设置的相似性;Lw越大,代表两个美学分类器的参数差异越大;本发明优化美学分类器的目标是为了使Lc变小,Lw变大;P1和P2分别为两个美学分类器预测的裁剪子图美学分数序列;W1与W2为两个美学分类器的参数;
基于上述的美学损失、一致性损失函数和权重损失函数,构建美学分类器的美学相关损失函数为:
L1=LA2(Lc+μLw)
其中,LA为美学损失;Lc为一致性损失;Lw为分类器的权重损失;λ2和μ为折衷参数,可以根据实际应用场景去调节;
应用阶段:
(5)将待裁剪的目标域图像输入至训练完毕的图像智能裁剪***,按照预设的裁剪子图进行美学评分;
具体地,智能裁剪模型由L=LA1Ld2(Lc+μLw)作为总损失函数进行训练特征提取器、域判别器和美学评分模块,训练完成后将无标签的待裁剪的目标域图像输入至图像智能裁剪***中,该目标域图像将经过特征提取器和美学评分器,输出当前目标域图像每个裁剪子图的美学评分P∈RK×1;其中,Ld为域判别器的域适应损失函数;λ1为折衷参数;
(6)根据所有裁剪子图的美学分数,筛选出符合条件的裁剪结果;
具体地,根据用户的需求和预测出的结果从裁剪子图集合中挑选合适的结果输出;用户可能要求生成图像包含某目标或某区域,可能要求生成图像符合特定大小或纵横比,但在所有符合要求的裁剪集合里,均将美学质量更高的结果先输出。
综上所述,本发明与现有技术相比,存在以下优势:
本发明提供的图像智能裁剪方法中的特征提取器是通过设置自适应梯度反转层和域判别器实现训练的。按照域适应损失,判别器可以将源域和目标域样本进行区分,通过域适应损失可以不断调节域判别器自身的参数,使域适应损失减小,域适应损失越小,说明域判别器识别源域样本和目标域样本的能力越强;而自适应梯度反转层会反转基于目标域样本计算的域适应损失回传的梯度,使特征提取器对齐源域和目标域样本的全局特征,经过上述方法,特征提取器可以减小源域图像与目标域图像的差异,将训练完毕的特征提取器应用于目标域场景时可以保证基本的性能,在不需要目标域标签的情况下,在仅依靠源域数据和部分无标注的目标域图像实现了跨域的智能裁剪学习,解决了现有智能构图方法在跨域、跨数据集测试时,构图模型性能显著下降的问题。
本发明提供的基于对抗域适应的图像智能裁剪方法,支持多个不同参数相同结构的美学分类器构建美学评分模块;一方面用美学评分模块预测每个裁剪子图的美学评分,另一方面采用美学分类器间的一致性损失约束多个美学分类器的输出结果趋于一致,辅助提取裁剪子图的不变特征;同时采用美学分类器间的权重损失调节各个美学分类器的参数,最大限度地确保不同参数的美学分类器可以输出一致的结果,增强了裁剪模型对不同输入图像的适应能力。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于对抗域适应的图像智能裁剪方法,其特征在于,包括以下步骤:
将目标应用场景下待裁剪的目标域图像输入至训练后的特征提取器,获取全局特征;
按照预设的裁剪方式,对所述全局特征进行重采样,获取的区域特征输入至训练完毕的美学分类器中进行美学评分,筛选出裁剪结果;
其中,特征提取器的训练过程为:将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本全局特征的能力;且根据美学损失调节自身参数,学习美学分析能力;美学分类器的训练过程是根据美学损失调节自身参数;
目标域样本为目标应用场景下任一无标签图像,源域样本为另一场景下有裁剪子图和美学标签的图像;域适应损失为基于样本的域标签与域判别结果获取;域判别结果为全局特征输入域判别器获取;美学损失为结合美学分数和美学标签计算获取。
2.根据权利要求1所述的图像智能裁剪方法,其特征在于,所述训练特征提取器和美学分类器的方法,包括以下步骤:
将目标域样本和源域样本输入至特征提取器提取全局特征;
将全局特征输入至域判别器,输出的域判别结果与样本的域标签相结合,计算域适应损失;且对全局特征进行重采样获取区域特征;其中,区域特征的通道维度与裁剪子图对应;
将区域特征传输至美学分类器获取美学分数后,结合美学标签,计算美学损失;
将适应损失函数反传至域判别器进行自身参数优化;
将基于目标域样本计算的适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本的全局特征的能力;
同时将美学损失反传至美学分类器和特征提取器进行自身参数优化。
3.根据权利要求1所述的图像智能裁剪方法,其特征在于,获取美学分数的方法为:
将区域特征传输至若干美学分类器,分别获取美学评分;
将美学评分的均值作为美学分数;
或将区域特征传输至单个美学分类器,获取美学分数。
4.根据权利要求1或2所述的图像智能裁剪方法,其特征在于,当美学分类器存在多个时,基于各个美学分类器获取的美学评分,计算各美学分类器间的一致性损失;
且基于各美学分类器的参数,获取各美学分类器间的权重损失;
利用一致性损失、权重损失和美学损失构建美学相关损失函数,反传至美学分类器和特征提取器进行自身参数优化。
5.根据权利要求1所述的图像智能裁剪方法,其特征在于,所述域适应损失为:
Ld=-(y'log y+(1-y')log(1-y))
其中,y'为当前样本I对应的域标签,当当前样本I来自源域时,y'=0;当当前样本I来自目标域时,y'=1;y为域判别器的输出结果,经过softmax归一化后数值介于0~1之间。
6.根据权利要求4所述的图像智能裁剪方法,其特征在于,所述美学损失为:
Figure FDA0003044276110000031
Figure FDA0003044276110000032
其中,Sc为裁剪子图的美学标签序列;P代表归一化后的美学分数序列;i为裁剪方式编号;n为裁剪方式的总数;Xdis为美学评分和美学标签的误差;
所述美学分类器间的一致性损失为:
Figure FDA0003044276110000033
其中,美学分类器设置有两个,P1,P2为两个美学分类器预测的裁剪子图美学评分序列;
美学分类器间的权重损失为:
Figure FDA0003044276110000034
其中,美学分类器设置有两个,W1与W2为两个美学分类器的参数;m为美学分类器参数展开之后的长度,j为当前分类器参数位置。
7.一种基于对抗域适应的图像智能裁剪***,其特征在于,包括对抗域适应模块、特征提取器、重采样结构和美学评分模块;
所述特征提取器一端口与所述抗域适应模块双向数据传输,且另一端口通过所述重采样结构与所述美学评分模块双向数据传输;
所述特征提取器用于提取目标域图像和源域图像的全局特征;将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器,特征提取器学习对齐源域和目标域样本的全局特征的能力;且根据美学损失调节自身参数,学习美学分析能力;
所述重采样结构用于按照预设的裁剪方式,对所述全局特征进行重采样,获取区域特征;
所述美学评分模块用于基于区域特征进行美学评分,筛选出裁剪结果;且根据美学损失调节美学评分模块中美学分类器的自身参数;
所述对抗域适应模块用于根据全局特征,判断当前样本是目标域样本或源域样本,输出域判别结果;基于域判别结果与样本的域标签计算域适应损失;将域适应损失反传至域判别器调节自身参数;且将基于目标域计算的域适应损失梯度反转传输至特征提取器,并保持基于源域样本计算的域适应损失梯度不变传输至特征提取器;
其中,所述目标域样本为目标应用场景下任一无标签图像,所述源域样本为另一场景下有裁剪子图和美学标签的图像;
其中,所述重采样结构包含两个ROIAlign层,分别用于提取裁剪区域的前景特征和背景特征,前景特征和背景特征将按维度叠加生成区域特征。
8.根据权利要求7所述的图像智能裁剪***,其特征在于,所述对抗域适应模块包括自适应梯度反转层、域判别器和判别计算单元;
所述域判别器用于根据全局特征,判断当前样本是目标域样本或源域样本,输出域判别结果;且根据域适应损失调节自身参数;
所述判别计算单元用于基于域判别结果与样本的域标签计算域适应损失;将域适应损失反传至域判别器和自适应梯度反转层;
所述自适应梯度反转层用于将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器,且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器。
9.根据权利要求7或8所述的图像智能裁剪***,其特征在于,所述美学评分模块包括美学分类器和美学计算单元;
若存在一个美学分类器,则美学分类器与重采样结构相连;若存在多个美学分类器,则多个美学分类器并联后,一端与重采样结构相连;其另一端与美学计算单元相连;
美学分类器用于根据区域特征进行美学评分;
美学计算单元用于计算美学评分的均值,输出美学分数;基于各个美学分类器获取的美学评分,计算各美学分类器间的一致性损失;且基于各美学分类器的参数,获取各美学分类器间的权重损失;利用一致性损失、权重损失和美学损失构建美学相关损失函数,反传至美学分类器和特征提取器进行自身参数优化。
10.根据权利要求9所述的图像智能裁剪***,其特征在于,所述美学损失为:
Figure FDA0003044276110000051
Figure FDA0003044276110000052
其中,Sc为裁剪子图的美学标签序列;P代表归一化后的美学分数序列;i为裁剪方式编号;n为裁剪方式的总数;Xdis为美学评分和美学标签的误差;
所述美学分类器间的一致性损失为:
Figure FDA0003044276110000053
其中,美学分类器设置有两个,P1,P2为两个美学分类器预测的裁剪子图美学评分序列;
美学分类器间的权重损失为:
Figure FDA0003044276110000061
其中,美学分类器设置有两个,W1与W2为两个美学分类器的参数;m为分类器参数展开之后的长度,j为当前分类器参数位置。
CN202110466563.XA 2021-04-28 2021-04-28 一种基于对抗域适应的图像智能裁剪方法及*** Expired - Fee Related CN113205522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110466563.XA CN113205522B (zh) 2021-04-28 2021-04-28 一种基于对抗域适应的图像智能裁剪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110466563.XA CN113205522B (zh) 2021-04-28 2021-04-28 一种基于对抗域适应的图像智能裁剪方法及***

Publications (2)

Publication Number Publication Date
CN113205522A true CN113205522A (zh) 2021-08-03
CN113205522B CN113205522B (zh) 2022-05-13

Family

ID=77029216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110466563.XA Expired - Fee Related CN113205522B (zh) 2021-04-28 2021-04-28 一种基于对抗域适应的图像智能裁剪方法及***

Country Status (1)

Country Link
CN (1) CN113205522B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100061A (zh) * 2022-06-28 2022-09-23 重庆长安汽车股份有限公司 图像美化方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146198A (zh) * 2017-04-19 2017-09-08 中国电子科技集团公司电子科学研究院 一种照片智能裁剪方法及装置
CN109146892A (zh) * 2018-07-23 2019-01-04 北京邮电大学 一种基于美学的图像裁剪方法及装置
CN111476805A (zh) * 2020-05-22 2020-07-31 南京大学 一种基于多重约束的跨源无监督域适应分割模型
CN111696112A (zh) * 2020-06-15 2020-09-22 携程计算机技术(上海)有限公司 图像自动裁剪方法、***、电子设备及存储介质
CN112132042A (zh) * 2020-09-24 2020-12-25 西安电子科技大学 基于对抗域适应的sar图像目标检测方法
CN112434754A (zh) * 2020-12-14 2021-03-02 前线智能科技(南京)有限公司 一种基于图神经网络的跨模态医学影像域适应分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146198A (zh) * 2017-04-19 2017-09-08 中国电子科技集团公司电子科学研究院 一种照片智能裁剪方法及装置
CN109146892A (zh) * 2018-07-23 2019-01-04 北京邮电大学 一种基于美学的图像裁剪方法及装置
CN111476805A (zh) * 2020-05-22 2020-07-31 南京大学 一种基于多重约束的跨源无监督域适应分割模型
CN111696112A (zh) * 2020-06-15 2020-09-22 携程计算机技术(上海)有限公司 图像自动裁剪方法、***、电子设备及存储介质
CN112132042A (zh) * 2020-09-24 2020-12-25 西安电子科技大学 基于对抗域适应的sar图像目标检测方法
CN112434754A (zh) * 2020-12-14 2021-03-02 前线智能科技(南京)有限公司 一种基于图神经网络的跨模态医学影像域适应分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PENGFEI GE 等: "Domain Adaptation and Image Classification via Deep Conditional Adaptation Network", 《HTTPS://ARXIV.ORG/PDF/2006.07776V1.PDF》 *
孙俏等: "基于域间相似度序数的迁移学习源领域的选择", 《科学技术与工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115100061A (zh) * 2022-06-28 2022-09-23 重庆长安汽车股份有限公司 图像美化方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113205522B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN108090902B (zh) 一种基于多尺度生成对抗网络的无参考图像质量客观评价方法
CN108537215B (zh) 一种基于图像目标检测的火焰检测方法
CN109949317A (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110781829A (zh) 一种轻量级深度学习的智慧营业厅人脸识别方法
CN112287941B (zh) 一种基于自动字符区域感知的车牌识别方法
CN112766334A (zh) 一种基于伪标签域适应的跨域图像分类方法
CN113569882A (zh) 一种基于知识蒸馏的快速行人检测方法
CN115035371B (zh) 基于多尺度特征融合神经网络的井壁裂缝识别方法
Han et al. Research on multiple jellyfish classification and detection based on deep learning
CN113205522B (zh) 一种基于对抗域适应的图像智能裁剪方法及***
CN110381392A (zh) 一种视频摘要提取方法及其***、装置、存储介质
CN110738132A (zh) 一种具备判别性感知能力的目标检测质量盲评价方法
CN115131747A (zh) 基于知识蒸馏的输电通道工程车辆目标检测方法及***
CN117152746B (zh) 一种基于yolov5网络的宫颈细胞分类参数获取方法
CN111126155A (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN117496436A (zh) 一种基于深浅层特征融合的浮选过程工况识别方法
CN117456167A (zh) 一种基于改进YOLOv8s的目标检测算法
CN110136098B (zh) 一种基于深度学习的线缆顺序检测方法
CN111488806A (zh) 一种基于并行分支神经网络的多尺度人脸识别方法
CN114677670B (zh) 一种身份证篡改自动识别与定位的方法
CN113034940A (zh) 一种基于Fisher有序聚类的单点信号交叉口优化配时方法
CN114973240A (zh) 一种基于改进YOLOv5的番茄病害检测方法
CN114821174A (zh) 一种基于内容感知的输电线路航拍图像数据清洗方法
CN115311494A (zh) 一种利用分层训练结合标签平滑的文化资源图像分类方法
CN114694090A (zh) 一种基于改进PBAS算法与YOLOv5的校园异常行为检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220513

CF01 Termination of patent right due to non-payment of annual fee