CN113205522A

CN113205522A - 一种基于对抗域适应的图像智能裁剪方法及***

Info

Publication number: CN113205522A
Application number: CN202110466563.XA
Authority: CN
Inventors: 桑农; 王皓文
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-03
Anticipated expiration: 2041-04-28
Also published as: CN113205522B

Abstract

本发明提供了一种基于对抗域适应的图像智能裁剪方法及***，属于计算机视觉领域，方法具体为：将目标应用场景下待裁剪的目标域图像输入至训练后的特征提取器，获取全局特征；按照预设的裁剪方式，对全局特征进行重采样；区域特征输入至美学分类器进行美学评分，筛选裁剪结果；特征提取器的训练过程为：将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器，且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器，特征提取器学习对齐源域和目标域样本全局特征的能力；并根据美学损失调节自身参数，学习美学分析能力；美学分类器的训练是根据美学损失调节自身参数。本发明解决了现有智能裁剪方法在跨域测试时性能显著下降的问题。

Description

一种基于对抗域适应的图像智能裁剪方法及***

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于对抗域适应的图像智能裁剪方法及***。

背景技术

智能裁剪任务是从原始图像中裁剪出构图更合理的区域作为新的生成图，用高质量的生成图代替低质量的原图。因为其只涉及裁剪，操作简便，却能显著提升图像的美学质量，图像裁剪作为一项图像编辑操作被广泛运用。然而手工裁剪需要一定的技术门槛，不仅耗费时间，也不是所有人都能掌握的技能。因此，利用智能算法自动裁剪就变得很有意义。相比于手工裁剪，智能裁剪既不需要使用者具有极高的美学素养，也不需要了解诸如三分法、对角线法等构图法则，可以快速地对大量图像做出相对合理的裁剪，并呈现给用户自己筛选。

目前的智能裁剪方法从训练和测试数据分布上分为两大类，第一类是在测试域上有美学监督的裁剪算法，其监督信息包含每个裁剪子图的美学标签；第二类在测试域上无监督的构图算法，这类算法需要依靠训练域标签学习美学鉴赏能力，并在测试域泛化和推理。对于第二类问题，通常将训练样本所在的域称为源域，测试样本所在域称为目标域。在实际应用中，研究者无法预测待裁剪样本所属的域，也无法针对每一种场景准备一套训练集。训练样本所在的源域和测试样本所在的目标域往往存在差异，而这种差异将导致训练完毕的模型在目标域场景中性能下降，该现象被称作域偏移。

现有智能裁剪算法没有针对解决域偏移问题，大部分裁剪算法都是在单一数据集上训练，并认为训练好的模型可以适应大多数情况。但事实上，智能裁剪任务中也存在明显的域偏移问题，在跨域和跨数据集测试的过程中，现有的裁剪模型性能会显著下降。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于对抗域适应的图像智能裁剪方法及***，旨在解决现有的智能构图方法由于未考虑域迁移问题而造成的在跨域跨数据集测试时，裁剪模型性能显著下降的问题。

为实现上述目的，一方面，本发明提供了一种基于对抗域适应的图像智能裁剪方法，包括以下步骤：

将目标应用场景下待裁剪的目标域图像输入至训练后的特征提取器，获取全局特征；

按照预设的裁剪方式，对所述全局特征进行重采样，获取的区域特征输入至训练完毕的美学分类器中进行美学评分，筛选出裁剪结果；

其中，特征提取器的训练过程为：将基于目标域样本计算的域适应损失反传的梯度反转后传输至特征提取器，保持基于源域样本计算的域适应损失梯度不变传输至特征提取器，特征提取器学习对齐源域和目标域样本的全局特征的能力；且根据美学损失调节自身参数，学习美学分析能力；美学分类器的训练过程是根据美学损失调节自身参数；

目标域样本为目标应用场景下任一无标签图像，源域样本为另一场景下有裁剪子图和美学标签的图像；域适应损失为基于样本域标签与域判别结果获取；域判别结果为全局特征输入域判别器获取；美学损失为结合美学分数和美学标签计算获取。

优选地，训练特征提取器和美学分类器的方法，包括以下步骤：

将目标域样本和源域样本输入至特征提取器提取全局特征；

将全局特征输入至域判别器，输出的域判别结果与样本域标签相结合，计算域适应损失；且对全局特征进行重采样获取区域特征；其中，区域特征的通道维度与裁剪子图对应；

将区域特征传输至美学分类器获取美学分数后，结合美学标签，计算美学损失；

将域适应损失函数反传至域判别器进行自身参数优化；

将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器，并保持基于源域样本计算的域适应损失梯度不变传输至特征提取器，特征提取器学习对齐源域和目标域样本的全局特征的能力；

同时将美学损失反传至美学分类器和特征提取器进行自身参数优化。

优选地，获取美学分数的方法为：

将区域特征传输至若干美学分类器，分别获取美学评分；

将美学评分的均值作为美学分数；

或将区域特征传输至单个美学分类器，获取美学分数。

优选地，当美学分类器存在多个时，基于各个美学分类器获取的美学评分，计算各美学分类器间的一致性损失；

且基于各美学分类器的参数，获取各美学分类器间的权重损失；

利用一致性损失、权重损失和美学损失构建美学相关损失函数，反传至美学分类器和特征提取器进行自身参数优化。

优选地，域适应损失为：

L_d＝-(y'log y+(1-y')log(1-y))

其中，y'为当前样本I对应的域标签，当当前样本I来自源域时，y'＝0；当当前样本I来自目标域时，y'＝1；y为域判别器的输出结果，经过softmax归一化后数值介于0～1之间。

优选地，美学损失为：

其中，Sc为裁剪子图的美学标签序列；P代表归一化后的美学分数序列；i为裁剪方式编号；n为裁剪方式的总数；X_dis为美学评分和美学标签的误差；

美学分类器间的一致性损失为：

其中，美学分类器设置有两个，P₁，P₂为两个美学分类器预测的裁剪子图美学评分序列；

美学分类器间的权重损失为：

其中，美学分类器设置有两个，W₁与W₂为两个美学分类器的参数；m为分类器参数展开之后的长度，j为当前分类器参数位置。

另一方面，本发明提供了一种基于对抗域适应的图像智能裁剪***，包括对抗域适应模块、特征提取器、重采样结构和美学评分模块；

特征提取器一端口与抗域适应模块双向数据传输，且另一端口通过重采样结构与美学评分模块双向数据传输；

特征提取器用于提取目标域图像和源域图像的全局特征；将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器，且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器，特征提取器学习对齐源域和目标域样本的全局特征的能力；且根据美学损失调节自身参数，学习美学分析能力；

重采样结构用于按照预设的裁剪方式，对全局特征进行重采样，获取区域特征；

美学评分模块用于基于区域特征进行美学评分，筛选出裁剪结果；且根据美学损失调节美学评分模块中美学分类器的自身参数；

对抗域适应模块用于根据全局特征，判断当前样本是目标域样本或源域样本，输出域判别结果；基于域判别结果与样本的域标签计算域适应损失；将域适应损失反传至域判别器调节自身参数；且将基于目标域计算的域适应损失梯度反转传输至特征提取器，保持基于源域样本计算的域适应损失梯度不变传输至特征提取器；

其中，目标域样本为目标应用场景下任一无标签图像，源域样本为另一场景下有裁剪子图和美学标签的图像；

其中，重采样结构包含两个ROIAlign层，分别用于提取裁剪区域的前景特征和背景特征，前景特征和背景特征将按维度叠加生成区域特征。

优选地，对抗域适应模块包括自适应梯度反转层、域判别器和判别计算单元；

域判别器用于根据全局特征，判断当前样本是目标域样本或源域样本，输出域判别结果；且根据域适应损失调节自身参数；

判别计算单元用于基于域判别结果与样本的域标签计算域适应损失；将域适应损失反传至域判别器和自适应梯度反转层；

自适应梯度反转层用于将基于目标域样本计算的域适应损失梯度反转后传输至特征提取器，且保持基于源域样本计算的域适应损失梯度不变传输至特征提取器。

优选地，美学评分模块包括美学分类器和美学计算单元；

若存在一个美学分类器，则美学分类器与重采样结构相连；若存在多个美学分类器，则多个美学分类器并联后，一端与重采样结构相连；其另一端与美学计算单元相连；

美学分类器用于根据区域特征进行美学评分；

美学计算单元用于计算美学评分的均值，输出美学分数；基于各个美学分类器获取的美学评分，计算各美学分类器间的一致性损失；且基于各美学分类器的参数，获取各美学分类器间的权重损失；利用一致性损失、权重损失和美学损失构建美学相关损失函数，反传至美学分类器和特征提取器进行自身参数优化。

优选地，美学损失为：

美学分类器间的一致性损失为：

美学分类器间的权重损失为：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供的图像智能裁剪方法中的特征提取器是通过设置自适应梯度反转层和域判别器实现训练的。按照域适应损失，判别器可以将源域和目标域样本进行区分，通过域适应损失可以不断调节域判别器自身的参数，使域适应损失减小；域适应损失越小，说明域判别器识别源域样本和目标域样本的能力越强；而自适应梯度反转层会反转基于目标域样本计算的域适应损失回传的梯度，使特征提取器对齐对齐源域和目标域样本的全局特征，经过上述方法，特征提取器可以减小源域图像与目标域图像特征的差异，将训练完毕的特征提取器应用于目标域场景中可以保证基本的性能，在不需要目标域标签的情况下，在仅依靠源域数据和部分无标注的目标域图像实现了跨域的智能裁剪学习，解决了现有智能裁剪方法在跨域跨数据集测试时，裁剪模型性能显著下降的问题。

本发明提供的基于对抗域适应的图像智能裁剪方法，支持多个不同参数相同结构的美学分类器构建美学评分模块；一方面用美学评分模块预测每个裁剪子图的美学评分，另一方面采用美学分类器间的一致性损失约束多个美学分类器的输出结果趋于一致，辅助提取裁剪子图的不变特征；同时采用美学分类器间的权重损失调节各个美学分类器的参数，最大限度地确保不同参数的美学分类器可以输出一致的结果，增强了裁剪模型对不同输入图像的适应能力。

附图说明

图1是本发明实施例提供的基于对抗域适应的图像智能裁剪方法流程图；

图2是本发明实施例提供的对抗域适应的图像智能裁剪***的结构示意图；

图3是本发明实施例提供的网络CNN结构及数据流向示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一方面，如图1所示，本发明提供了一种基于对抗域适应的图像智能裁剪方法，包括以下步骤：

其中，特征提取器的训练过程为：将待裁剪的目标域图像输入至训练后的特征提取器，获取全局特征；

按照预设的裁剪子图，对全局特征进行重采样，获取的区域特征输入至训练完毕的美学分类器中进行美学评分，筛选出裁剪结果；

将目标域图像和源域图像输入至特征提取器提取全局特征；

将全局特征输入至域判别器，输出的域判别结果与样本的域标签相结合，计算域适应损失；且对全局特征进行重采样获取区域特征；其中，区域特征的通道维度与裁剪子图对应；

将适应损失函数反传至域判别器进行自身参数优化；

将基于目标域样本计算的适应损失梯度反转后传输至特征提取器，保持基于源域样本计算的域适应损失梯度不变传输至特征提取器，特征提取器学习对齐源域和目标域样本的全局特征的能力；

优选地，获取美学分数的方法为：

将区域特征传输至若干美学分类器，分别获取美学评分；

将美学评分的均值作为美学分数；

或将区域特征传输至单个美学分类器，获取美学分数。

优选地，域适应损失为：

L_d＝-(y'log y+(1-y')log(1-y))

优选地，美学损失为：

美学分类器间的一致性损失为：

美学分类器间的权重损失为：

另一方面，如图2和图3所示，本发明提供了一种基于对抗域适应的图像智能裁剪***，包括对抗域适应模块、特征提取器、重采样结构和美学评分模块；

域判别器用于根据全局特征，判断当前样本是目标域样本或源域样本，输出判别结果；且根据域适应损失调节自身参数；

判别计算单元用于基于判别结果与样本的域标签计算域适应损失；将域适应损失反传至域判别器和自适应梯度反转层；

优选地，美学评分模块包括美学分类器和美学计算单元；

美学分类器用于根据区域特征进行美学评分；

优选地，美学损失为：

美学分类器间的一致性损失为：

美学分类器间的权重损失为：

其中，美学分类器设置有两个，W₁与W₂为两个美学分类器的参数；m为分类器参数展开之后的长度，j为当前分类器参数位置。实施例

如图1所示，本发明提供了一种基于对抗域适应的图像智能裁剪方法，包括以下步骤：

训练阶段：

(1)将目标应用场景下采集的无标签RGB(彩色)图像作为目标域样本，将另一场景下有裁剪子图和美学标签的RGB图像作为源域样本；

具体地，假设有一个源域样本，包括一张源域图像I_s和一组美学标签a_s＝{a_s(0),...,a_s(n)}；n个美学标签对应n个裁剪子图；裁剪子图由源域图像裁剪而成，对应了n种预设的裁剪方式B＝{B(0),...,B(n)}；

一个目标域样本只包含一张目标域图像I_t，不包含美学标签a_t，但n种预设的裁剪方式B＝{B(0),...,B(n)}已知，目标域样本的裁剪方式与源域样本的裁剪方式相同；

(2)将成对的源域图像和目标域图像输入特征提取器，提取源域图像和目标域图像的全局特征；将全局特征传输至重采样结构，获取区域特征；

具体地，将一个源域样本和一个目标域样本组合，作为一次迭代优化的基本单位；

将源域样本和目标域样本输入至特征提取器中，获取源域样本和目标域样本的全局特征

根据裁剪子图的位置，对全局特征

进行重采样，获取源域样本和目标域样本的区域特征

其中，区域特征的通道维度与裁剪子图对应；

(3)将源域样本和目标域样本的全局特征送入域判别器，根据图像标签计算域适应损失；

具体地，域判别器D_domain用于预测当前样本属于哪个域，由卷积堆叠而成，输入为样本的全局特征，输出y＝D_domain(F)代表当前样本域的预测结果，F_global为当前样本的全局特征；

域判别器计算的域适应损失为：

L_d＝-(y'log y+(1-y')log(1-y))

其中，y'为输入图像I对应的域标签，当输入图像I来自源域时，y'＝0；当输入图像I来自目标域时，y'＝1；y为域判别器的输出结果，经过softmax归一化后数值介于0～1之间；

在特征提取器与域判别器之间，嵌入一个自适应梯度反转层；该层的功能是将目标域样本计算的域适应损失梯度反转；当域判别器将源域样本和目标域样本辨别开时，特征提取器接收到源域样本的梯度方向和目标域样本的梯度方向是相同的，特征提取器将学习对齐源域和目标域样本特征的能力；

(4)将源域的区域特征和目标域的区域特征传输至美学评分模块，计算美学相关损失函数；

样本的区域特征F_area将作为美学评分模块的输入，美学评分模块的输出为P∈R^K ^×1，每个维度对应一个裁剪子图的美学评分；

美学评分模块包括两个结构相同参数不同的美学分类器，两个美学分类器是并联结构，两个美学分类器将同时接收F_area，并独立预测出各裁剪子图的美学评分，而两个美学分类器的均值将作为美学评分模块的美学分数；

为了使美学分类器拥有美学鉴赏能力，以美学标签作为监督，按照美学损失L_A，调节美学分类器和特征提取器的参数，使美学损失减小至最小，美学损失越小说明美学分类器的预测值越精准，具体不断调节L_A为：

其中，Sc为裁剪子图的美学标签序列；P代表归一化后的美学分数序列；i为裁剪方式编号；n为裁剪方式的总数；X_dis为美学评分和美学标签的误差；减小L_A使预测值序列与美学标签序列趋于一致；

为了约束两个美学分类器在拥有不同美学分类器参数的前提下预测出相同的结果，将Lc和Lw分别作为一致性损失和权重损失以优化美学分类器和特征提取器的参数；

其中，Lc代表对不同美学分类器设置不同的参数，对裁剪子图的美学分数预测一致的大小；Lc越小，代表两个美学分类器一致性越强；Lw代表不同美学分类器的参数设置的相似性；Lw越大，代表两个美学分类器的参数差异越大；本发明优化美学分类器的目标是为了使Lc变小，Lw变大；P₁和P₂分别为两个美学分类器预测的裁剪子图美学分数序列；W₁与W₂为两个美学分类器的参数；

基于上述的美学损失、一致性损失函数和权重损失函数，构建美学分类器的美学相关损失函数为：

L₁＝L_A+λ₂(L_c+μL_w)

其中，L_A为美学损失；L_c为一致性损失；L_w为分类器的权重损失；λ₂和μ为折衷参数，可以根据实际应用场景去调节；

应用阶段：

(5)将待裁剪的目标域图像输入至训练完毕的图像智能裁剪***，按照预设的裁剪子图进行美学评分；

具体地，智能裁剪模型由L＝L_A+λ₁L_d+λ₂(L_c+μL_w)作为总损失函数进行训练特征提取器、域判别器和美学评分模块，训练完成后将无标签的待裁剪的目标域图像输入至图像智能裁剪***中，该目标域图像将经过特征提取器和美学评分器，输出当前目标域图像每个裁剪子图的美学评分P∈R^K×1；其中，L_d为域判别器的域适应损失函数；λ₁为折衷参数；

(6)根据所有裁剪子图的美学分数，筛选出符合条件的裁剪结果；

具体地，根据用户的需求和预测出的结果从裁剪子图集合中挑选合适的结果输出；用户可能要求生成图像包含某目标或某区域，可能要求生成图像符合特定大小或纵横比，但在所有符合要求的裁剪集合里，均将美学质量更高的结果先输出。

综上所述，本发明与现有技术相比，存在以下优势：

本发明提供的图像智能裁剪方法中的特征提取器是通过设置自适应梯度反转层和域判别器实现训练的。按照域适应损失，判别器可以将源域和目标域样本进行区分，通过域适应损失可以不断调节域判别器自身的参数，使域适应损失减小，域适应损失越小，说明域判别器识别源域样本和目标域样本的能力越强；而自适应梯度反转层会反转基于目标域样本计算的域适应损失回传的梯度，使特征提取器对齐源域和目标域样本的全局特征，经过上述方法，特征提取器可以减小源域图像与目标域图像的差异，将训练完毕的特征提取器应用于目标域场景时可以保证基本的性能，在不需要目标域标签的情况下，在仅依靠源域数据和部分无标注的目标域图像实现了跨域的智能裁剪学习，解决了现有智能构图方法在跨域、跨数据集测试时，构图模型性能显著下降的问题。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。