CN112598662A

CN112598662A - 一种基于隐藏信息学习的图像美学描述生成方法

Info

Publication number: CN112598662A
Application number: CN202011609603.3A
Authority: CN
Inventors: 俞俊; 李相�; 高飞
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-02
Anticipated expiration: 2040-12-30
Also published as: CN112598662B

Abstract

本发明公开了一种基于隐藏信息学习的图像美学描述生成的方法。本发明步骤如下：(1)模型预处理。采用目标检测网络Enc_v和Transformer网络Enc_t分别从图像和文本评论中提取多尺度特征表达；(2)基于对抗学习的跨模态一致性特征提取。利用对抗学习思想，构建特征模态判别器；(3)多因素控制的美学评论生成。以美学因素标记作为辅助信息，利用美学因素编码器Enc_f提取美学因素标记对应的语义特征，并将该语义特征输入到评论解码器中，生成文本评论；(4)基于多任务约束判别网络，实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性；(5)基于隐藏信息学习的对抗损失。本发明生成文本与输入图像的美学质量相匹配，从而提升模型的鲁棒性和精确性。

Description

一种基于隐藏信息学习的图像美学描述生成方法

技术领域

本发明提出了一种基于隐藏信息学习的图像美学描述生成的方法，主要涉及一种生成对抗学习框架，针对标记数据规模小、噪声大的问题，利用隐藏信息学习(LearningUsing Privilidged Information,LUPI)的思想，对噪声数据进行可信度估计，作为对抗损失函数的松弛项，提升模型训练效率和性能。

背景技术

图像美学质量评价(Photo QualityAssessment)是基于对图像的艺术理解通过计算方式准确的评估图片的美学质量。相关研究任务大致可以分为五类，即质量二分类(专业/业余，美/丑，好/坏)、质量分数预测(如利用0-10分的分数描述美观程度)、质量分数分布预测(同一幅图像，不同观测者主观标记分数的概率分布)、美学因素预测(构图、光影、配色等各个因素的优劣等级)和美学描述(对图像美学进行文字评论，论述图像为什么好/坏)。当前关于图像美学质量的研究主要集中在前三类任务，对应的美学数据库标记数据质量高、规模大。相比之下，美学因素预测和美学描述对于图像美学的理解意义重大，但相关研究还处于起步阶段，而且标记数据质量低、规模少，难以满足大规模深度网络对训练样本的需求。

现有的绝大部分方法只基于图像提取特征，且集中在美学质量的分类或分数预测任务。近年来，出现了少量工作研究图像美学因素分析及文本评论/描述生成问题。例如，Chang等人利用卷积神经网络与长短时记忆网络，并构建美学因素引导及混合机制，进行图像美学描述，不过对于生成文本缺少可靠的指导。文本评论信息对于理解图像美学机理意义重大。然而，现有图像美学评论数据噪声大、数据量小，难以满足深度网络的训练需求。因此，如何利用有限、有噪声数据学习文本与图像之间的关联关系，探索图像美学质量评价的因果推理机制，是目前的研究热点及难点。

在图像美学描述方法中，存在两方面技术难点。其一为小样本下的模型学习问题，考虑到现有的图像描述模型对于大规模标准样本的需求，如何设计有效的学习策略，基于小样本进行训练；同时，标记样本中存在大量噪声，现有对抗学习中的判别机制对真实样本与生成样本进行硬性划分，必然会引入错误信息，如何设计一种非对称联合学习方法，获取有效信息并避免引入噪声信息。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于隐藏信息学习的图像美学描述生成的方法。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)模型预处理

模型采用预训练好的目标检测网络Enc_v和Transformer网络Enc_t为基准，目标检测网络Enc_v用于从输入图像中提取多尺度图像特征，Transformer网络Enc_t用于从真实文本评论中提取多尺度文本特征。

步骤(2)基于对抗学习的跨模态一致性特征提取

利用对抗学习思想，构建特征模态判别器，将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器。使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似。

步骤(3)生成多因素控制的美学文本评论

以美学因素标记作为辅助信息，利用美学因素编码器Enc_f提取美学因素标记对应的语义特征，并将该语义特征输入到评论解码器中，生成文本评论。

步骤(4)基于多任务约束判别网络，实现美学因素标记和文本质量的特征准确性。

该多任务约束判别网络采用文本质量预测损失和美学因素预测损失。基于文本质量预测和美学因素预测以多任务学习形式，实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性。对文本质量预测损失和美学因素预测损失进行加权求和，用于指导模型的训练。

步骤(5)基于隐藏信息学习的对抗损失

基于隐藏信息学习的思想，依据真实文本评论与美学质量之间的相关性强弱，在对抗损失函数中引入可学习的松弛因子，指导模型的训练。

进一步的，所述的步骤(1)所述的模型预处理：

1-1对目标检测网络Enc_v和Transformer网络Enc_t进行预训练，目标检测网络Enc_v通过大规模图像目标检测数据集进行预训练，Transformer网络Enc_t通过自然语言处理数据集进行预训练。

1-2将预训练好的目标检测网络Enc_v和Transformer网络Enc_t在美学质量评价数据集上进行微调，以获取较好的特征提取能力。在微调阶段采用半监督学习的形式。在“美学因素编码器Enc_f-视觉编码器Enc_v-文本解码器Dec_t-多个判别网络”支路，目标检测网络Enc_v按照标准对抗生成学习思路进行学习。在“美学因素编码器Enc_f-文本编码器Enc_t-文本解码器Dec_t-多个判别网络”支路，Transformer网络Enc_t采用循环生成对抗网络的思想，对文本生成增加重构一致性约束。

1-3将输入图像输入到微调好的目标检测网络Enc_v，用于从中提取多尺度图像特征；将真实文本评论输入到Transformer网络Enc_t，用于从真实文本评论中提取多尺度文本特征。

进一步的，所述的步骤(2)所述的基于对抗学习的跨模态一致性特征提取：

2-1利用对抗学习思想，构建特征模态判别器D_m。D_m需要判断输入特征的模态。将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器。使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似，从而欺骗D_m。

2-2所提取的多尺度图像特征和多尺度文本特征需要精确表征美学质量。因此采用模态判别损失L_m：

其中，D_m(·)为表示特征的概率函数，f_v表示多尺度图像特征，f_t表示多尺度文本特征。

进一步的，步骤(3)所述的生成多因素控制的美学评论：

3-1以美学因素标记作为辅助信息，利用美学因素编码器Enc_f提取美学因素标记对应的语义特征，并将该语义特征输入到评论解码器Dec_t中，生成文本评论。

3-2在评论解码器Dec_t中利用协同注意力模块挖掘多尺度图像特征和多尺度文本特征的关联关系，并利用协同注意力模块输出文本聚合特征，用于文本评论的生成。

进一步的，所步骤(4)所述的基于多任务约束判别网络，实现美学因素标记和文本质量的特征准确性，具体是如下：

4-1质量预测损失L_a：质量预测损失包含多尺度图像特征和多尺度文本特征，采用L2损失，用于多尺度图像特征和多尺度文本特征的有效性。

4-2美学因素预测损失L_fact：美学因素预测损失包含真实文本评论和生成文本评论，采用交叉熵损失，用于约束生成文本评论的合理性。

4-3.对文本质量预测损失和美学因素预测损失进行加权求和，用于指导模型的训练。

进一步的，步骤(5)所述的基于隐藏信息学习的对抗损失：

基于隐藏信息学习的思想，依据真实文本评论与美学质量之间的相关性强弱，在损失函数中引入可学习的松弛因子指导模型的训练。具体而言，在判别网络中引入两组参数w和w^*，对抗损失拟采用HingeLoss形式，需要求解以下问题：

s.t.

其中，w和w^*为网络权重参数，b和b^*为网络偏置量，γ和C为权重系数，y_i为x_i样本所对应的标签，x_i∈R^d为Transformer判别网络提取的特征，

为预训练好的美学质量评价模型提取的特征，

为两层全连接层，输出为文本特征引入的松弛因子。当文本噪声比较大时，基于文本预测质量误差较大，对应的松弛因子也需要较大，即生成的文本评论不需要与真实文本评论过于相近；当文本噪声较小时，松弛因子也较小，生成文本评论也应逼近真实文本评论。这里，w和w^*为网络权重参数，可以利用改进的SMO算法进行求解，与整个网络一起进行迭代优化。

在测试阶段，只需要将测试图像及拟生成的美学因素标记(可以是多个)向量输入到训练好的模型中，就能得到对应的美学描述。

本发明有益效果如下：

针对标记信息规模小、噪声大的学习问题，基于生成对抗学习思想研究图像美学描述生成任务，拟将真实文本标记数据作为隐藏信息，根据真实文本标记数据对图像美学质量表达能力，自动学习描述生成判别损失函数中的松弛项。即真实文本标记数据与图像美学质量高度相关时，松弛量小，从而生成描述需要与其接近；反之，松弛量大，生成描述可以与真实标记差异较大。此外，为了约束生成文本的合理性，引入基于文本的质量预测损失和因素分类损失，使得生成文本与输入图像的美学质量相匹配，从而提升模型的鲁棒性和精确性。

附图说明

图1是基于隐藏信息学习的图像美学描述生成基本框架图；

具体实施方式

下面结合附图对本发明做进一步说明。

如图1，本发明基于对抗学习思想，包含三个编码器、一个解码器，以及多个判别网络。其中，编码器有美学因素编码器Enc_f，视觉编码器Enc_v和文本编码器Enc_t，分别从美学因素标记控制向量、输入图像和真实文本评论中提取高层语义特征。之后，美学因素特征和视觉特征一起输入到解码器Dec_t中，用于生成文本评论。

例如图1所示，一张输入图像包含夕阳西下人飞扬着丝巾，船只在湖面上划行，将该图像输入到目标检测网络Enc_v可以提取多尺度图像特征，同时我们将对应该图像的“excellent composition,five factors happening all at once.”真实文本评论输入到Transformer网络Enc_t提取多尺度文本特征，将美学因素标记作为辅助信息，利用美学因素编码器Enc_f提取美学因素标记对应的语义特征，并将该语义特征以及多尺度图像特征输入到评论解码器中，生成该图像的文本评论“excellent composition,five factorshappening ll at once.”其中利用模态判别损失使得多尺度图像特征和多尺度文本特征尽可能相似，利用文本质量预测损失和美学因素预测损失使得多尺度图像特征和多尺度文本特征更加准确，生成的文本评论更加合理。依据真实文本评论与美学质量之间的相关性强弱，在损失函数中引入可学习的松弛因子，使得生成文本评论与输入图像的美学因素或质量相匹配，从而提升样本生成的鲁棒性。

具体包括如下步骤：

步骤(1)模型预处理

步骤(2)基于对抗学习的跨模态一致性特征提取

步骤(3)生成多因素控制的美学文本评论

步骤(5)基于隐藏信息学习的对抗损失

进一步的，所述的步骤(1)所述的模型预处理：

1-4对目标检测网络Enc_v和Transformer网络Enc_t进行预训练，目标检测网络Enc_v通过大规模图像目标检测数据集进行预训练，Transformer网络Enc_t通过自然语言处理数据集进行预训练。

1-5将预训练好的目标检测网络Enc_v和Transformer网络Enc_t在美学质量评价数据集上进行微调，以获取较好的特征提取能力。在微调阶段采用半监督学习的形式。在“美学因素编码器Enc_f-视觉编码器Enc_v-文本解码器Dec_t-多个判别网络”支路，目标检测网络Enc_v按照标准对抗生成学习思路进行学习。在“美学因素编码器Enc_f-文本编码器Enc_t-文本解码器Dec_t-多个判别网络”支路，Transformer网络Enc_t采用循环生成对抗网络的思想，对文本生成增加重构一致性约束。

1-6将输入图像输入到微调好的目标检测网络Enc_v，用于从中提取多尺度图像特征；将真实文本评论输入到Transformer网络Enc_t，用于从真实文本评论中提取多尺度文本特征。

进一步的，步骤(3)所述的生成多因素控制的美学评论：

进一步的，步骤(5)所述的基于隐藏信息学习的对抗损失：

s.t.

为预训练好的美学质量评价模型提取的特征，

Claims

1.一种基于隐藏信息学习的图像美学描述生成的方法，其特征在于包括如下步骤：

步骤(1)模型预处理

模型采用预训练好的目标检测网络Enc_v和Transformer网络Enc_t为基准，目标检测网络Enc_v用于从输入图像中提取多尺度图像特征，Transformer网络Enc_t用于从真实文本评论中提取多尺度文本特征；

步骤(2)基于对抗学习的跨模态一致性特征提取

利用对抗学习思想，构建特征模态判别器，将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器；使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似；

步骤(3)生成多因素控制的美学文本评论

以美学因素标记作为辅助信息，利用美学因素编码器Enc_f提取美学因素标记对应的语义特征，并将该语义特征输入到评论解码器中，生成文本评论；

步骤(4)基于多任务约束判别网络，实现多尺度图像特征和多尺度文本特征的有效性和生成的文本评论的合理性；

该多任务约束判别网络采用文本质量预测损失和美学因素预测损失；基于文本质量预测和美学因素预测以多任务学习形式，对文本质量预测损失和美学因素预测损失进行加权求和，用于指导模型的训练；

步骤(5)基于隐藏信息学习的对抗损失

2.根据权利要求1所述的一种基于隐藏信息学习的图像美学描述生成的方法，其特征在于所述的步骤(1)所述的模型预处理，具体实现如下：

1-1对目标检测网络Enc_v和Transformer网络Enc_t进行预训练，目标检测网络Enc_v通过大规模图像目标检测数据集进行预训练，Transformer网络Enc_t通过自然语言处理数据集进行预训练；

1-2将预训练好的目标检测网络Enc_v和Transformer网络Enc_t在美学质量评价数据集上进行微调，以获取更好的特征提取能力；在微调阶段采用半监督学习的形式；在“美学因素编码器Enc_f-视觉编码器Enc_v-文本解码器Dec_t-多个判别网络”支路，目标检测网络Enc_v按照标准对抗生成学习思路进行学习；在“美学因素编码器Enc_f-文本编码器Enc_t-文本解码器Dec_t-多个判别网络”支路，Transformer网络Enc_t采用循环生成对抗网络的思想，对文本生成增加重构一致性约束；

3.根据权利要求2所述的一种基于隐藏信息学习的图像美学描述生成的方法，其特征在于所述的步骤(2)所述的基于对抗学习的跨模态一致性特征提取，具体实现如下：

2-1利用对抗学习思想，构建特征模态判别器D_m；D_m需要判断输入特征的模态；将步骤1提取的多尺度图像特征和多尺度文本特征输入特征模态判别器；使得特征模态判别器输出的多尺度图像特征和多尺度文本特征尽可能相似；

2-2所提取的多尺度图像特征和多尺度文本特征需要精确表征美学质量；因此采用模态判别损失L_m：

4.根据权利要求3所述的一种基于隐藏信息学习的图像美学描述生成的方法，其特征在于步骤(3)所述的生成多因素控制的美学评论，具体实现如下：

3-1以美学因素标记作为辅助信息，利用美学因素编码器Enc_f提取美学因素标记对应的语义特征，并将该语义特征输入到评论解码器Dec_t中，生成文本评论；

5.根据权利要求4所述的一种基于隐藏信息学习的图像美学描述生成的方法，其特征在于所述的步骤(4)具体实现如下：

4-1质量预测损失L_a：质量预测损失包含多尺度图像特征和多尺度文本特征，采用L2损失实现多尺度图像特征和多尺度文本特征的有效性；

4-2美学因素预测损失L_fact：美学因素预测损失包含真实文本评论和生成文本评论，采用交叉熵损失约束生成文本评论的合理性；

6.根据权利要求5所述的一种基于隐藏信息学习的图像美学描述生成的方法，其特征在于步骤(5)所述的基于隐藏信息学习的对抗损失，具体实现如下：

基于隐藏信息学习的思想，依据真实文本评论与美学质量之间的相关性强弱，在损失函数中引入可学习的松弛因子指导模型的训练；具体而言，在判别网络中引入两组参数w和w^*，对抗损失拟采用Hinge Loss形式，需要求解以下问题：

s.t.

为预训练好的美学质量评价模型提取的特征，

为两层全连接层，输出为文本特征引入的松弛因子；当文本噪声比较大时，基于文本预测质量误差较大，对应的松弛因子也需要较大，即生成的文本评论不需要与真实文本评论过于相近；当文本噪声较小时，松弛因子也较小，生成文本评论也应逼近真实文本评论；其中w和w^*为网络权重参数，能够利用改进的SMO算法进行求解，与整个网络一起进行迭代优化；

在测试阶段，只需要将测试图像及拟生成的美学因素标记输入到训练好的模型中，就能得到对应的美学描述。