CN109886317B

CN109886317B - 基于注意力机制的通用图像美学评估方法、***及设备

Info

Publication number: CN109886317B
Application number: CN201910086789.XA
Authority: CN
Inventors: 盛柯恺; 董未名; 马重阳; 梅星; 胡包钢
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2021-04-27
Anticipated expiration: 2039-01-29
Also published as: CN109886317A

Abstract

本发明涉及图像识别以及机器学习技术领域，具体涉及一种基于注意力机制的通用图像美学评估方法、***及设备，目的在于提高评估结果的正确率。本发明的评估方法包括：将待评估的图像进行尺寸缩放，令缩放后的图像最短边长等于预设的第一长度；在缩放后的图像上随机裁剪预设个数的正方形图像块，令正方形图像块的边长等于预设的第二长度；将每个正方形图像块输入到训练好的卷积神经网络模型中，输出一个对应的二维美感等级置信度向量；计算预设个数的二维美感等级置信度向量的均值；根据该均值对待评估图像进行美学评估。本发明的正确率明显高于现有的技术方案；无需借助图像的额外信息；评估过程耗时少，模型占用空间小。

Description

基于注意力机制的通用图像美学评估方法、***及设备

技术领域

本发明涉及图像识别以及机器学习技术领域，具体涉及一种基于注意力机制的通用图像美学评估方法、***及设备。

背景技术

通用图像美学评估，旨在利用计算机***，智能化地判别输入图像美感程度的高低，要求***给出的判断与具有良好美学品位的人类专家做出的判断具有较高一致性。通用图像美学评估是图像推荐、图像后处理等多项技术的基础之一，而且也是一个交叉学科课题(包括认知心理学、计算机视觉、机器学习等)，因此，有效评估任意输入图像美感程度的高低是一个值得注意与投入的重要问题。

目前主流的通用图像美学评估方法均借助对图像额外信息的利用(如，图像中所含物体类别、图像场景类别、图像属性信息等)，有如下两种技术方案：

技术方案一：结合图像美学等级标签和图像额外信息，将网络模型设计成多任务输出的模式(即，Multi-task learning)。

技术方案二：给定了图像美学等级标签和额外信息的情况下，首先训练图像美学评估的模型和多个相关任务的模型；而后将这些模型某一隐藏层的表示以某种经设计过的方式拼接在一起，并以此为基础来训练一个针对美学评估任务的模型。

上述方案一采取多任务训练的设计方案，旨在通过多任务训练模式来提升数据的利用率，将更多与图像美学评估相关的信息注入到模型中。这类训练方法需要权衡多个任务之间的主次关系，而且无法保证多任务模式一定可以达到目的。

上述方案二采用基于表征聚合的模块(如，取表征向量的统计值作为美学评估模块的输入)，旨在通过有效地结合关于图像的多种属性信息(如，图像的场景信息、图像所包含的物体信息等)，提高图像美学评估的效果。这类设计方法会带来较大的训练量，而且不是一种端到端(End-to-End)的训练模式，无法有效地从数据层面出发完成训练任务。

上述两种方案都需要大量人力对图像额外信息进行标注，且额外信息种类依赖于专家设计，不但耗时耗力，而且不易于维护和扩展。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于注意力机制的通用图像美学评估方法、***及设备，不但提高了分类正确率，而且评估速度更快。

本发明的第一方面，提出一种基于注意力机制的通用图像美学评估方法，所述评估方法包括：

步骤A1，将待评估的图像进行尺寸缩放，令缩放后的图像最短边长等于预设的第一长度；

步骤A2，在所述缩放后的图像上随机裁剪预设个数的正方形图像块，所述正方形图像块的边长等于预设的第二长度；

步骤A3，将每个所述正方形图像块输入到训练好的卷积神经网络模型中，输出一个对应的二维美感等级置信度向量；

步骤A4，计算所述预设个数的所述二维美感等级置信度向量的均值；

步骤A5，根据所述均值，对所述待评估图像进行美学评估。

优选地，所述卷积神经网络模型包括依次连接的主干网络、全连接层和softmax模块；

其中，

所述主干网络用于接收正方形图像块，并输出该正方形图像块对应的维度为H×1的表征向量；

所述全连接层的维度为(2+K)×H，用于根据所述表征向量计算出维度为(2+K)×1的美学语义向量；

所述softmax模块用于根据所述美学语义向量计算出维度为(2+K)×1的美学判别置信度向量；所述美学判别置信度向量的第一和第二维度的值组成所述二维美感等级置信度向量；

K为添加的随机向量行数，预设值；H为所述表征向量的行数。

优选地，所述卷积神经网络模型的训练方法包括：

步骤B1，从训练集中随机抽取预设张数的图像，将每张图像按照最短边长等于所述预设的第一长度的要求进行尺寸缩放，并从缩放后的每张图像上随机裁剪一个边长为所述预设的第二长度的正方形图像块；

步骤B2，将裁剪得到的每个正方形图像块分别输入到所述卷积神经网络模型中，得到该正方形图像块对应的二维美感等级置信度向量；

步骤B3，根据每个正方形图像块对应的二维美感等级置信度向量，分别按照下式计算该正方形图像块对应的训练权重ω_p：

其中，

表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测；

表示正方形图像块p所对应的人工标注的美学类别；

表示给定模型参数θ和输入正方形图像块p时，

的概率；β表示权重控制因子；

步骤B4，根据每个正方形图像块对应的所述训练权重ω_p，分别按照下式计算加权的交叉熵损失：

步骤B5，根据所述加权的交叉熵损失，进行梯度回传和模型参数更新；

步骤B6，重复执行步骤B1至B5的迭代训练步骤，直至完成预设的优化迭代回合数，或者优化过程达到收敛状态。

优选地，步骤B5中“根据所述加权的交叉熵损失，进行梯度回传和模型参数更新”的步骤包括：

根据所述加权的交叉熵损失，按照下式计算待更新的模型参数：

其中，θ′为待更新的模型参数；λ表示学习率，用于控制每次参数更新的步长；B表示裁减得到的预设张数的正方形图像块的集合；

根据所述待更新的模型参数，进行梯度回传并更新所述卷积神经网络模型的参数。

优选地，所述人工标注的美学类别有两种取值：0表示该图像的美感低，1表示该图像的美感高；

相应地，所述二维美感等级置信度向量表示为：

其中，

表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测，θ为所述卷积神经网络模型的参数；第一维元素

和第二维元素

分别表示给定模型参数θ和输入正方形图像块p时，

的概率和

的概率。

优选地，所述正方形图像块的数值矩阵都需要进行归一化、白化操作，并除以方差。

本发明的第二方面，提出一种基于注意力机制的通用图像美学评估***，所述评估***包括：

缩放模块，配置为：将待评估的图像进行尺寸缩放，令缩放后的图像最短边长等于预设的第一长度；

裁剪模块，配置为：在所述缩放后的图像上随机裁剪预设个数的正方形图像块，所述正方形图像块的边长等于预设的第二长度；

置信度向量生成模块，配置为：将每个所述正方形图像块输入到训练好的卷积神经网络模型中，输出一个对应的二维美感等级置信度向量；

均值计算模块，配置为：计算所述预设个数的所述二维美感等级置信度向量的均值；

评估模块，配置为：根据所述均值，对所述待评估图像进行美学评估。

其中，

优选地，所述评估***还包括：

训练模块，配置为对所述卷积神经网络模型进行训练；

所述训练模块包括：

缩放与裁剪单元，配置为：从训练集中随机抽取预设张数的图像，将每张图像按照最短边长等于所述预设的第一长度的要求进行尺寸缩放，并从缩放后的每张图像上随机裁剪一个边长为所述预设的第二长度的正方形图像块；

置信度向量生成单元，配置为：将裁剪得到的每个正方形图像块分别输入到所述卷积神经网络模型中，得到该正方形图像块对应的二维美感等级置信度向量；

权重计算单元，配置为：根据每个正方形图像块对应的二维美感等级置信度向量，分别按照下式计算该正方形图像块对应的训练权重ω_p：

其中，

表示正方形图像块p所对应的人工标注的美学类别；

表示给定模型参数θ和输入正方形图像块p时，

的概率；β表示权重控制因子；

交叉熵损失计算单元，配置为：根据每个正方形图像块对应的所述训练权重ω_p，分别按照下式计算加权的交叉熵损失：

参数更新单元，配置为：根据所述加权的交叉熵损失，进行梯度回传和模型参数更新；

控制单元，配置为：重复调用所述缩放与裁剪单元、所述置信度向量生成单元、所述权重计算单元、所述交叉熵损失计算单元和所述参数更新单元，进行迭代训练，直至完成预设的优化迭代回合数，或者优化过程达到收敛状态。

优选地，所述参数更新单元包括：

参数计算子单元，配置为根据所述加权的交叉熵损失，按照下式计算待更新的模型参数：

参数更新子单元，配置为根据所述待更新的模型参数，进行梯度回传并更新所述卷积神经网络模型的参数。

相应地，所述二维美感等级置信度向量表示为：

其中，

表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测，θ为所述卷积神经网络模型的参数；

和

分别表示给定模型参数θ和输入正方形图像块p时，

的概率和

的概率。

优选地，每个所述正方形图像块的数值矩阵均需要进行归一化、白化操作，并除以方差。

本发明的第三方面，提出一种存储设备，其中存储有多条程序，所述程序适于由处理器加载并执行，以实现上面所述的基于注意力机制的通用图像美学评估方法。

本发明的第四方面，提出一种控制设备，包括：

处理器，适于加载程序；

存储器，适于存储所述程序；

所述程序适于由所述处理器加载并执行，以实现上面所述的基于注意力机制的通用图像美学评估方法。

与最接近的现有技术相比，本发明具有如下有益效果：

(1)本发明在图像美学评估的正确率方面明显高于现有的技术方案；

(2)本发明无需借助图像的额外信息，直接从图像级别的美学等级标注出发来训练卷积神经网络；

(3)通过在全连接层中增加随机向量行，有效地避免了美学二分类学习过程中会出现的置信度过饱和的问题；

(4)***在单张图像上的美学评估功能耗时在0.1毫秒以内，且模型所占的空间(约合40MB)是现有技术方案中较小的。

附图说明

图1是本发明的基于注意力机制的通用图像美学评估方法实施例的主要步骤示意图；

图2是本发明实施例中卷积神经网络模型的构成示意图；

图3是本发明的卷积神经网络模型的训练方法实施例的主要步骤示意图；

图4是本发明的评估方法实施例在AVA数据集上的美学评估结果示例；

图5是本发明的评估方法实施例对不同缩放方法得到的图像进行美学评估的结果示意图；

图6是本发明的基于注意力机制的通用图像美学评估***实施例的主要构成示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“第一”、“第二”仅仅是为了便于描述，而不是指示或暗示所述装置、元件或参数的相对重要性，因此不能理解为对本发明的限制。

本发明通过机器学习方法以及神经网络算法，通过对模型进行训练的过程中，根据不同正方形图像块的预期类别置信度来赋予对应的训练权重，从而达到在无需额外图像信息的情况下快捷地、高效地优化网络参数，得到美学评估效果良好的卷积神经网络模型的目的。

为实现上述目的，本发明基于深度学习中的卷积神经网络模型和基于注意力机制的损失函数，通过在训练过程中，给同一幅图像的不同正方形图像块赋予不同训练权重的方法，帮助用户在缺失图像额外信息标签的情况下，仍然能够高效地训练得到判别性能良好的通用图像美学评估模型。

本发明实施例中，人工标注的美学类别有0和1两种取值，其中，0表示该图像的美感低，1表示该图像的美感高。相应地，由卷积神经网络输出的二维美感等级置信度向量如公式(1)所示：

其中，

表示卷积神经网络模型对正方形图像块p所做出的美学类别预测，θ为卷积神经网络模型的参数；第一维元素

和第二维元素

分别表示给定模型参数θ和输入正方形图像块p时，

的概率和

的概率。

图1是本发明的基于注意力机制的通用图像美学评估方法实施例的主要步骤示意图。如图1所示，本实施例的评估方法包括步骤A1-A5：

步骤A1，将待评估的图像进行尺寸缩放，令缩放后的图像最短边长等于预设的第一长度(本实施例中为256)。

步骤A2，在缩放后的图像上随机裁剪预设个数(本实施例中为10)的正方形图像块，正方形图像块的边长等于预设的第二长度(本实施例中为224)，且预设的第二长度小于等于预设的第一长度。

步骤A3，将每个正方形图像块输入到训练好的卷积神经网络模型中，输出一个对应的二维美感等级置信度向量。

步骤A4，计算预设个数的二维美感等级置信度向量的均值。

步骤A5，根据该均值，对待评估图像进行美学评估。

本步骤中，取均值向量中的第二维元素的数值，即可得到判定待评估图像为美感程度高的决策置信度。若第二维元素的数值大于等于第一维元素的数值，则认为待评估图像的美感程度高，否则认为待评估图像的美感程度低。而且，第二维元素的数值比第一维元素的数值越大，意味着待评估图像的美感程度越高。

图2是本发明实施例中卷积神经网络模型的构成示意图。如图2所示，本发明实施例中的卷积神经网络模型包括依次连接的主干网络、全连接层和softmax模块。

其中，主干网络(Back-bone network，常见的实现方案如VGG，或ResNet等)用于接收正方形图像块，并输出该正方形图像块对应的维度为H×1的表征向量(Representationvector)；全连接层(Fully connected layer)的维度为(2+K)×H，用于根据表征向量计算出维度为(2+K)×1的美学语义向量(Aesthetics vector)：{z₁,z₂,…,z_2+K}；softmax模块用于根据美学语义向量计算出维度为(2+K)×1的美学判别置信度向量(Confidences)。softmax模块每一维输出值的计算方法如公式(2)所示：

z_i为全连接层输出的美学语义向量中的第i个维度的值，σ(z)_i为softmax模块输出的美学判别置信度向量中第i个维度的值，i＝1,2,…,K。

将美学判别置信度向量的第一维度的值和第二维度的值组成该正方形图像块对应的二维美感等级置信度向量。其中，第一维度的值表示美感程度低的判别置信度；第二维度的值表示美感程度高的判别置信度；K为添加的随机向量行数，预设值；H为表征向量的行数。

需要注意的是：与常规的二分类美学评估模型设计不同，我们在全连接层引入了K个随机向量，常规的二分类模型如公式(3)所示：

加入K个随机向量以后，如公式(4)所示：

通过上述方法削弱美学判别置信度向量前两维的数值大小，从而一定程度上防止美学二分类学习过程中会出现的置信度过饱和的问题(over confidence issue)。这一设计的有效性已经得到了我们实验结果的验证。

图3是本发明的卷积神经网络模型的训练方法实施例主要步骤示意图。如图3所示，本实施例的训练方法包括步骤B1-B5：

步骤B1，从训练集中随机抽取预设张数(本实施例中为32)的图像，将每张图像按照最短边长等于预设的第一长度(本实施例中为256)的要求进行尺寸缩放，并从缩放后的每张图像上随机裁剪一个边长为预设的第二长度(本实施例中为224)的正方形图像块。

步骤B2，将裁剪得到的每个正方形图像块分别输入到卷积神经网络模型中，得到该正方形图像块对应的二维美感等级置信度向量，如公式(1)所示。

步骤B3，根据每个正方形图像块对应的二维美感等级置信度向量，分别按照公式(5)计算该正方形图像块对应的训练权重ω_p：

其中，

表示卷积神经网络模型对正方形图像块p所做出的美学类别预测；

表示正方形图像块p所对应的人工标注的美学类别，人工标注的美学类别有两种取值：0表示该图像的美感低，1表示该图像的美感高；

表示给定模型参数θ和输入正方形图像块p时，

的概率；β表示权重控制因子。

步骤B4，根据每个正方形图像块对应的训练权重ω_p，分别按照公式(6)计算加权的交叉熵损失：

步骤B5，根据加权的交叉熵损失，进行梯度回传和模型参数更新。该步骤具体包括：

步骤B51，根据加权的交叉熵损失，按照公式(7)计算待更新的模型参数：

步骤B52，根据待更新的模型参数，进行梯度回传并更新卷积神经网络模型的参数。

上述步骤A3和步骤B2中输入的正方形图像块数值矩阵都需要先除以255，以便将数值范围归一化到[0，1]区间内，而后进行白化操作，即减去每个图像通道的均值，并除以方差，使之均值为零、方差为一。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

图4是本发明评估方法实施例在AVA(Atomic Visual Actions)数据集上的美学评估结果示例。如图4所示，虚线左边是模型判断为美感低的图像，虚线右边是模型判断为美感高的图像，而且步骤A4计算出的二维美感等级置信度向量的均值中，第一维元素的数值越高，代表美感程度越低，第二维元素的数值越高，代表美感程度越高。

图5是本发明的评估方法实施例对不同缩放方法得到的图像进行美学评估的结果示意图。如图5所示，在每个图像对中，左边图像是通过均匀缩放得到的(即保持图像的长宽比例不变的前提下，将较短的那条边缩放成目标数值)，右边图像是通过全局缩放的得到的(即将图像的长和宽都缩放成目标数值)。每张图片下边标有用“/”隔开的两个数值，第一个数值表示本发明的评估类别，第二个数值表示该评估类别的置信度。例如，第一行的第一个图像对，左、右两个图像下面分别标有“1/0.740”、“1/0.562”，说明采用两种缩放方法后模型最后给出的评估类别都是美感程度“高”，但是右边图像因为产生了上下被压缩的情况，其置信度相对要低。如有，第一行的第二个图像对，左、右两个图像下面分别标有“1/0.670”、“0/0.521”，说明左边图像预测出的美感程度为“高”，而右边图像因严重变形所以美感程度变为“低”。

从图5中可以看出：即便在模型训练阶段没有输入全局缩放后的图像样本，但训练好的模型却可以合理地察觉到均匀缩放和全局缩放所带来的不同的图像美感损失：通过给出不同的评估类别或不同的置信度来体现。

本发明与其他评估方法在AVA数据集上的统计实验结果(分类正确率)对比，如表1所示：

表1

方法名称	在AVA数据集上的实验结果
		VGG-Scale	73.8
VGG-Pad	72.9
		VGG-Crop	71.2
SPP	76.0
		DMA-Net	75.41
MNA-CNN	77.1
		RAPID	75.42
A&C CNN	74.51
		MTCNN	78.56
MTRLCNN	79.08
		BDN	78.08
A-Lamp	82.5
		NIMA	81.51
本发明	83.03

表1所列出的对比方法均为图像美学评估研究领域的代表性方法，因此其对比结果具有重要意义。对比方法有：VGG-Scale(Very Deep CNN with Scaled Image)，VGG-Pad(Very Deep CNN with Padded Image)，VGG-Crop(Very Deep CNN with Cropped Image)，SPP(CNN with Spatial Pyramid Pooling)，DMA-Net(Deep Multi-patch AggregationNetwork)，MNA-CNN(Multi-Net Adaptive spatial pooling Convolutional NeuralNetwork)，RAPID(Two-column CNN for Rating Pictorial Aesthetics)，A&C CNN(Aesthetic Quality Regression with Simultaneous Image Categorization)，MTCNN(Multi-task CNN)，MTRLCNN(Multi-Task Relationship Learning CNN)，BDN(Brain-inspired Deep Network)，A-Lamp(Adaptive Layout-aware Multi-patch CNN)，NIMA(Neural Image Assessment)。由表1的实验结果可知，本发明的分类正确率明显高于其他对比方法。

与上面的评估方法基于同样的技术构思，本发明还提出一种评估***，下面进行具体说明。

图6是本发明的基于注意力机制的通用图像美学评估***实施例的主要构成示意图。如图6所示，本实施例的评估***1包括：缩放模块10、裁剪模块20、置信度向量生成模块30、均值计算模块40、评估模块50和训练模块60。

其中，缩放模块10配置为：将待评估的图像进行尺寸缩放，令缩放后的图像最短边长等于预设的第一长度；裁剪模块20配置为：在缩放后的图像上随机裁剪预设个数的正方形图像块，这些正方形图像块的边长等于预设的第二长度；置信度向量生成模块30配置为：将每个正方形图像块输入到训练好的卷积神经网络模型中，输出一个对应的二维美感等级置信度向量；均值计算模块40配置为：计算预设个数的二维美感等级置信度向量的均值；评估模块50配置为：根据该均值，对待评估图像进行美学评估；训练模块60配置为对卷积神经网络模型进行训练。

本实施例中，训练模块60包括：缩放与裁剪单元、置信度向量生成单元、权重计算单元、交叉熵损失计算单元、参数更新单元和控制单元。

其中，缩放与裁剪单元配置为：从训练集中随机抽取预设张数的图像，将每张图像按照最短边长等于预设的第一长度的要求进行尺寸缩放，并从缩放后的每张图像上随机裁剪一个边长为预设的第二长度的正方形图像块；置信度向量生成单元配置为：将裁剪得到的每个正方形图像块分别输入到卷积神经网络模型中，得到该正方形图像块对应的二维美感等级置信度向量；权重计算单元配置为：根据每个正方形图像块对应的二维美感等级置信度向量，分别按照公式(5)计算该正方形图像块对应的训练权重ω_p；交叉熵损失计算单元配置为：根据每个正方形图像块对应的训练权重ω_p，分别按照公式(6)计算加权的交叉熵损失；参数更新单元配置为：根据加权的交叉熵损失，进行梯度回传和模型参数更新；控制单元配置为：重复调用缩放与裁剪单元、置信度向量生成单元、权重计算单元、交叉熵损失计算单元和参数更新单元，进行迭代训练，直至完成预设的优化迭代回合数，或者优化过程达到收敛状态。

具体地，本实施例中参数更新单元包括：参数计算子单元和参数更新子单元。

其中，参数计算子单元配置为根据加权的交叉熵损失，按照公式(7)计算待更新的模型参数；参数更新子单元配置为根据待更新的模型参数，进行梯度回传并更新卷积神经网络模型的参数。

进一步地，本发明还提出一种存储设备的实施例，其中存储有多条程序，所述程序适于由处理器加载并执行，以实现上面所述的基于注意力机制的通用图像美学评估方法。

进一步地，本发明还提出一种控制设备的实施例，包括处理器和存储器。其中，处理器适于加载程序，存储器适于存储所述程序，所述程序适于由所述处理器加载并执行，以实现上面所述的基于注意力机制的通用图像美学评估方法。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤、模块、单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。