CN109886317B - 基于注意力机制的通用图像美学评估方法、***及设备 - Google Patents

基于注意力机制的通用图像美学评估方法、***及设备 Download PDF

Info

Publication number
CN109886317B
CN109886317B CN201910086789.XA CN201910086789A CN109886317B CN 109886317 B CN109886317 B CN 109886317B CN 201910086789 A CN201910086789 A CN 201910086789A CN 109886317 B CN109886317 B CN 109886317B
Authority
CN
China
Prior art keywords
aesthetic
image
square image
image block
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910086789.XA
Other languages
English (en)
Other versions
CN109886317A (zh
Inventor
盛柯恺
董未名
马重阳
梅星
胡包钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201910086789.XA priority Critical patent/CN109886317B/zh
Publication of CN109886317A publication Critical patent/CN109886317A/zh
Application granted granted Critical
Publication of CN109886317B publication Critical patent/CN109886317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及图像识别以及机器学习技术领域,具体涉及一种基于注意力机制的通用图像美学评估方法、***及设备,目的在于提高评估结果的正确率。本发明的评估方法包括:将待评估的图像进行尺寸缩放,令缩放后的图像最短边长等于预设的第一长度;在缩放后的图像上随机裁剪预设个数的正方形图像块,令正方形图像块的边长等于预设的第二长度;将每个正方形图像块输入到训练好的卷积神经网络模型中,输出一个对应的二维美感等级置信度向量;计算预设个数的二维美感等级置信度向量的均值;根据该均值对待评估图像进行美学评估。本发明的正确率明显高于现有的技术方案;无需借助图像的额外信息;评估过程耗时少,模型占用空间小。

Description

基于注意力机制的通用图像美学评估方法、***及设备
技术领域
本发明涉及图像识别以及机器学习技术领域,具体涉及一种基于注意力机制的通用图像美学评估方法、***及设备。
背景技术
通用图像美学评估,旨在利用计算机***,智能化地判别输入图像美感程度的高低,要求***给出的判断与具有良好美学品位的人类专家做出的判断具有较高一致性。通用图像美学评估是图像推荐、图像后处理等多项技术的基础之一,而且也是一个交叉学科课题(包括认知心理学、计算机视觉、机器学习等),因此,有效评估任意输入图像美感程度的高低是一个值得注意与投入的重要问题。
目前主流的通用图像美学评估方法均借助对图像额外信息的利用(如,图像中所含物体类别、图像场景类别、图像属性信息等),有如下两种技术方案:
技术方案一:结合图像美学等级标签和图像额外信息,将网络模型设计成多任务输出的模式(即,Multi-task learning)。
技术方案二:给定了图像美学等级标签和额外信息的情况下,首先训练图像美学评估的模型和多个相关任务的模型;而后将这些模型某一隐藏层的表示以某种经设计过的方式拼接在一起,并以此为基础来训练一个针对美学评估任务的模型。
上述方案一采取多任务训练的设计方案,旨在通过多任务训练模式来提升数据的利用率,将更多与图像美学评估相关的信息注入到模型中。这类训练方法需要权衡多个任务之间的主次关系,而且无法保证多任务模式一定可以达到目的。
上述方案二采用基于表征聚合的模块(如,取表征向量的统计值作为美学评估模块的输入),旨在通过有效地结合关于图像的多种属性信息(如,图像的场景信息、图像所包含的物体信息等),提高图像美学评估的效果。这类设计方法会带来较大的训练量,而且不是一种端到端(End-to-End)的训练模式,无法有效地从数据层面出发完成训练任务。
上述两种方案都需要大量人力对图像额外信息进行标注,且额外信息种类依赖于专家设计,不但耗时耗力,而且不易于维护和扩展。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种基于注意力机制的通用图像美学评估方法、***及设备,不但提高了分类正确率,而且评估速度更快。
本发明的第一方面,提出一种基于注意力机制的通用图像美学评估方法,所述评估方法包括:
步骤A1,将待评估的图像进行尺寸缩放,令缩放后的图像最短边长等于预设的第一长度;
步骤A2,在所述缩放后的图像上随机裁剪预设个数的正方形图像块,所述正方形图像块的边长等于预设的第二长度;
步骤A3,将每个所述正方形图像块输入到训练好的卷积神经网络模型中,输出一个对应的二维美感等级置信度向量;
步骤A4,计算所述预设个数的所述二维美感等级置信度向量的均值;
步骤A5,根据所述均值,对所述待评估图像进行美学评估。
优选地,所述卷积神经网络模型包括依次连接的主干网络、全连接层和softmax模块;
其中,
所述主干网络用于接收正方形图像块,并输出该正方形图像块对应的维度为H×1的表征向量;
所述全连接层的维度为(2+K)×H,用于根据所述表征向量计算出维度为(2+K)×1的美学语义向量;
所述softmax模块用于根据所述美学语义向量计算出维度为(2+K)×1的美学判别置信度向量;所述美学判别置信度向量的第一和第二维度的值组成所述二维美感等级置信度向量;
K为添加的随机向量行数,预设值;H为所述表征向量的行数。
优选地,所述卷积神经网络模型的训练方法包括:
步骤B1,从训练集中随机抽取预设张数的图像,将每张图像按照最短边长等于所述预设的第一长度的要求进行尺寸缩放,并从缩放后的每张图像上随机裁剪一个边长为所述预设的第二长度的正方形图像块;
步骤B2,将裁剪得到的每个正方形图像块分别输入到所述卷积神经网络模型中,得到该正方形图像块对应的二维美感等级置信度向量;
步骤B3,根据每个正方形图像块对应的二维美感等级置信度向量,分别按照下式计算该正方形图像块对应的训练权重ωp
Figure BDA0001962045660000031
其中,
Figure BDA0001962045660000032
表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测;
Figure BDA0001962045660000033
表示正方形图像块p所对应的人工标注的美学类别;
Figure BDA0001962045660000034
表示给定模型参数θ和输入正方形图像块p时,
Figure BDA0001962045660000035
的概率;β表示权重控制因子;
步骤B4,根据每个正方形图像块对应的所述训练权重ωp,分别按照下式计算加权的交叉熵损失:
Figure BDA0001962045660000036
步骤B5,根据所述加权的交叉熵损失,进行梯度回传和模型参数更新;
步骤B6,重复执行步骤B1至B5的迭代训练步骤,直至完成预设的优化迭代回合数,或者优化过程达到收敛状态。
优选地,步骤B5中“根据所述加权的交叉熵损失,进行梯度回传和模型参数更新”的步骤包括:
根据所述加权的交叉熵损失,按照下式计算待更新的模型参数:
Figure BDA0001962045660000041
其中,θ′为待更新的模型参数;λ表示学习率,用于控制每次参数更新的步长;B表示裁减得到的预设张数的正方形图像块的集合;
根据所述待更新的模型参数,进行梯度回传并更新所述卷积神经网络模型的参数。
优选地,所述人工标注的美学类别有两种取值:0表示该图像的美感低,1表示该图像的美感高;
相应地,所述二维美感等级置信度向量表示为:
Figure BDA0001962045660000042
其中,
Figure BDA0001962045660000043
表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测,θ为所述卷积神经网络模型的参数;第一维元素
Figure BDA0001962045660000044
和第二维元素
Figure BDA0001962045660000045
分别表示给定模型参数θ和输入正方形图像块p时,
Figure BDA0001962045660000046
的概率和
Figure BDA0001962045660000047
的概率。
优选地,所述正方形图像块的数值矩阵都需要进行归一化、白化操作,并除以方差。
本发明的第二方面,提出一种基于注意力机制的通用图像美学评估***,所述评估***包括:
缩放模块,配置为:将待评估的图像进行尺寸缩放,令缩放后的图像最短边长等于预设的第一长度;
裁剪模块,配置为:在所述缩放后的图像上随机裁剪预设个数的正方形图像块,所述正方形图像块的边长等于预设的第二长度;
置信度向量生成模块,配置为:将每个所述正方形图像块输入到训练好的卷积神经网络模型中,输出一个对应的二维美感等级置信度向量;
均值计算模块,配置为:计算所述预设个数的所述二维美感等级置信度向量的均值;
评估模块,配置为:根据所述均值,对所述待评估图像进行美学评估。
优选地,所述卷积神经网络模型包括依次连接的主干网络、全连接层和softmax模块;
其中,
所述主干网络用于接收正方形图像块,并输出该正方形图像块对应的维度为H×1的表征向量;
所述全连接层的维度为(2+K)×H,用于根据所述表征向量计算出维度为(2+K)×1的美学语义向量;
所述softmax模块用于根据所述美学语义向量计算出维度为(2+K)×1的美学判别置信度向量;所述美学判别置信度向量的第一和第二维度的值组成所述二维美感等级置信度向量;
K为添加的随机向量行数,预设值;H为所述表征向量的行数。
优选地,所述评估***还包括:
训练模块,配置为对所述卷积神经网络模型进行训练;
所述训练模块包括:
缩放与裁剪单元,配置为:从训练集中随机抽取预设张数的图像,将每张图像按照最短边长等于所述预设的第一长度的要求进行尺寸缩放,并从缩放后的每张图像上随机裁剪一个边长为所述预设的第二长度的正方形图像块;
置信度向量生成单元,配置为:将裁剪得到的每个正方形图像块分别输入到所述卷积神经网络模型中,得到该正方形图像块对应的二维美感等级置信度向量;
权重计算单元,配置为:根据每个正方形图像块对应的二维美感等级置信度向量,分别按照下式计算该正方形图像块对应的训练权重ωp
Figure BDA0001962045660000051
其中,
Figure BDA0001962045660000052
表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测;
Figure BDA0001962045660000053
表示正方形图像块p所对应的人工标注的美学类别;
Figure BDA0001962045660000054
表示给定模型参数θ和输入正方形图像块p时,
Figure BDA0001962045660000055
的概率;β表示权重控制因子;
交叉熵损失计算单元,配置为:根据每个正方形图像块对应的所述训练权重ωp,分别按照下式计算加权的交叉熵损失:
Figure BDA0001962045660000061
参数更新单元,配置为:根据所述加权的交叉熵损失,进行梯度回传和模型参数更新;
控制单元,配置为:重复调用所述缩放与裁剪单元、所述置信度向量生成单元、所述权重计算单元、所述交叉熵损失计算单元和所述参数更新单元,进行迭代训练,直至完成预设的优化迭代回合数,或者优化过程达到收敛状态。
优选地,所述参数更新单元包括:
参数计算子单元,配置为根据所述加权的交叉熵损失,按照下式计算待更新的模型参数:
Figure BDA0001962045660000062
其中,θ′为待更新的模型参数;λ表示学习率,用于控制每次参数更新的步长;B表示裁减得到的预设张数的正方形图像块的集合;
参数更新子单元,配置为根据所述待更新的模型参数,进行梯度回传并更新所述卷积神经网络模型的参数。
优选地,所述人工标注的美学类别有两种取值:0表示该图像的美感低,1表示该图像的美感高;
相应地,所述二维美感等级置信度向量表示为:
Figure BDA0001962045660000063
其中,
Figure BDA0001962045660000064
表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测,θ为所述卷积神经网络模型的参数;
Figure BDA0001962045660000065
Figure BDA0001962045660000066
分别表示给定模型参数θ和输入正方形图像块p时,
Figure BDA0001962045660000067
的概率和
Figure BDA0001962045660000068
的概率。
优选地,每个所述正方形图像块的数值矩阵均需要进行归一化、白化操作,并除以方差。
本发明的第三方面,提出一种存储设备,其中存储有多条程序,所述程序适于由处理器加载并执行,以实现上面所述的基于注意力机制的通用图像美学评估方法。
本发明的第四方面,提出一种控制设备,包括:
处理器,适于加载程序;
存储器,适于存储所述程序;
所述程序适于由所述处理器加载并执行,以实现上面所述的基于注意力机制的通用图像美学评估方法。
与最接近的现有技术相比,本发明具有如下有益效果:
(1)本发明在图像美学评估的正确率方面明显高于现有的技术方案;
(2)本发明无需借助图像的额外信息,直接从图像级别的美学等级标注出发来训练卷积神经网络;
(3)通过在全连接层中增加随机向量行,有效地避免了美学二分类学习过程中会出现的置信度过饱和的问题;
(4)***在单张图像上的美学评估功能耗时在0.1毫秒以内,且模型所占的空间(约合40MB)是现有技术方案中较小的。
附图说明
图1是本发明的基于注意力机制的通用图像美学评估方法实施例的主要步骤示意图;
图2是本发明实施例中卷积神经网络模型的构成示意图;
图3是本发明的卷积神经网络模型的训练方法实施例的主要步骤示意图;
图4是本发明的评估方法实施例在AVA数据集上的美学评估结果示例;
图5是本发明的评估方法实施例对不同缩放方法得到的图像进行美学评估的结果示意图;
图6是本发明的基于注意力机制的通用图像美学评估***实施例的主要构成示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“第一”、“第二”仅仅是为了便于描述,而不是指示或暗示所述装置、元件或参数的相对重要性,因此不能理解为对本发明的限制。
本发明通过机器学习方法以及神经网络算法,通过对模型进行训练的过程中,根据不同正方形图像块的预期类别置信度来赋予对应的训练权重,从而达到在无需额外图像信息的情况下快捷地、高效地优化网络参数,得到美学评估效果良好的卷积神经网络模型的目的。
为实现上述目的,本发明基于深度学习中的卷积神经网络模型和基于注意力机制的损失函数,通过在训练过程中,给同一幅图像的不同正方形图像块赋予不同训练权重的方法,帮助用户在缺失图像额外信息标签的情况下,仍然能够高效地训练得到判别性能良好的通用图像美学评估模型。
本发明实施例中,人工标注的美学类别有0和1两种取值,其中,0表示该图像的美感低,1表示该图像的美感高。相应地,由卷积神经网络输出的二维美感等级置信度向量如公式(1)所示:
Figure BDA0001962045660000081
其中,
Figure BDA0001962045660000082
表示卷积神经网络模型对正方形图像块p所做出的美学类别预测,θ为卷积神经网络模型的参数;第一维元素
Figure BDA0001962045660000083
和第二维元素
Figure BDA0001962045660000084
分别表示给定模型参数θ和输入正方形图像块p时,
Figure BDA0001962045660000085
的概率和
Figure BDA0001962045660000086
的概率。
图1是本发明的基于注意力机制的通用图像美学评估方法实施例的主要步骤示意图。如图1所示,本实施例的评估方法包括步骤A1-A5:
步骤A1,将待评估的图像进行尺寸缩放,令缩放后的图像最短边长等于预设的第一长度(本实施例中为256)。
步骤A2,在缩放后的图像上随机裁剪预设个数(本实施例中为10)的正方形图像块,正方形图像块的边长等于预设的第二长度(本实施例中为224),且预设的第二长度小于等于预设的第一长度。
步骤A3,将每个正方形图像块输入到训练好的卷积神经网络模型中,输出一个对应的二维美感等级置信度向量。
步骤A4,计算预设个数的二维美感等级置信度向量的均值。
步骤A5,根据该均值,对待评估图像进行美学评估。
本步骤中,取均值向量中的第二维元素的数值,即可得到判定待评估图像为美感程度高的决策置信度。若第二维元素的数值大于等于第一维元素的数值,则认为待评估图像的美感程度高,否则认为待评估图像的美感程度低。而且,第二维元素的数值比第一维元素的数值越大,意味着待评估图像的美感程度越高。
图2是本发明实施例中卷积神经网络模型的构成示意图。如图2所示,本发明实施例中的卷积神经网络模型包括依次连接的主干网络、全连接层和softmax模块。
其中,主干网络(Back-bone network,常见的实现方案如VGG,或ResNet等)用于接收正方形图像块,并输出该正方形图像块对应的维度为H×1的表征向量(Representationvector);全连接层(Fully connected layer)的维度为(2+K)×H,用于根据表征向量计算出维度为(2+K)×1的美学语义向量(Aesthetics vector):{z1,z2,…,z2+K};softmax模块用于根据美学语义向量计算出维度为(2+K)×1的美学判别置信度向量(Confidences)。softmax模块每一维输出值的计算方法如公式(2)所示:
Figure BDA0001962045660000091
zi为全连接层输出的美学语义向量中的第i个维度的值,σ(z)i为softmax模块输出的美学判别置信度向量中第i个维度的值,i=1,2,…,K。
将美学判别置信度向量的第一维度的值和第二维度的值组成该正方形图像块对应的二维美感等级置信度向量。其中,第一维度的值表示美感程度低的判别置信度;第二维度的值表示美感程度高的判别置信度;K为添加的随机向量行数,预设值;H为表征向量的行数。
需要注意的是:与常规的二分类美学评估模型设计不同,我们在全连接层引入了K个随机向量,常规的二分类模型如公式(3)所示:
Figure BDA0001962045660000092
加入K个随机向量以后,如公式(4)所示:
Figure BDA0001962045660000101
通过上述方法削弱美学判别置信度向量前两维的数值大小,从而一定程度上防止美学二分类学习过程中会出现的置信度过饱和的问题(over confidence issue)。这一设计的有效性已经得到了我们实验结果的验证。
图3是本发明的卷积神经网络模型的训练方法实施例主要步骤示意图。如图3所示,本实施例的训练方法包括步骤B1-B5:
步骤B1,从训练集中随机抽取预设张数(本实施例中为32)的图像,将每张图像按照最短边长等于预设的第一长度(本实施例中为256)的要求进行尺寸缩放,并从缩放后的每张图像上随机裁剪一个边长为预设的第二长度(本实施例中为224)的正方形图像块。
步骤B2,将裁剪得到的每个正方形图像块分别输入到卷积神经网络模型中,得到该正方形图像块对应的二维美感等级置信度向量,如公式(1)所示。
步骤B3,根据每个正方形图像块对应的二维美感等级置信度向量,分别按照公式(5)计算该正方形图像块对应的训练权重ωp
Figure BDA0001962045660000102
其中,
Figure BDA0001962045660000103
表示卷积神经网络模型对正方形图像块p所做出的美学类别预测;
Figure BDA0001962045660000104
表示正方形图像块p所对应的人工标注的美学类别,人工标注的美学类别有两种取值:0表示该图像的美感低,1表示该图像的美感高;
Figure BDA0001962045660000105
表示给定模型参数θ和输入正方形图像块p时,
Figure BDA0001962045660000106
的概率;β表示权重控制因子。
步骤B4,根据每个正方形图像块对应的训练权重ωp,分别按照公式(6)计算加权的交叉熵损失:
Figure BDA0001962045660000107
步骤B5,根据加权的交叉熵损失,进行梯度回传和模型参数更新。该步骤具体包括:
步骤B51,根据加权的交叉熵损失,按照公式(7)计算待更新的模型参数:
Figure BDA0001962045660000111
其中,θ′为待更新的模型参数;λ表示学习率,用于控制每次参数更新的步长;B表示裁减得到的预设张数的正方形图像块的集合;
步骤B52,根据待更新的模型参数,进行梯度回传并更新卷积神经网络模型的参数。
步骤B6,重复执行步骤B1至B5的迭代训练步骤,直至完成预设的优化迭代回合数,或者优化过程达到收敛状态。
上述步骤A3和步骤B2中输入的正方形图像块数值矩阵都需要先除以255,以便将数值范围归一化到[0,1]区间内,而后进行白化操作,即减去每个图像通道的均值,并除以方差,使之均值为零、方差为一。
上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
图4是本发明评估方法实施例在AVA(Atomic Visual Actions)数据集上的美学评估结果示例。如图4所示,虚线左边是模型判断为美感低的图像,虚线右边是模型判断为美感高的图像,而且步骤A4计算出的二维美感等级置信度向量的均值中,第一维元素的数值越高,代表美感程度越低,第二维元素的数值越高,代表美感程度越高。
图5是本发明的评估方法实施例对不同缩放方法得到的图像进行美学评估的结果示意图。如图5所示,在每个图像对中,左边图像是通过均匀缩放得到的(即保持图像的长宽比例不变的前提下,将较短的那条边缩放成目标数值),右边图像是通过全局缩放的得到的(即将图像的长和宽都缩放成目标数值)。每张图片下边标有用“/”隔开的两个数值,第一个数值表示本发明的评估类别,第二个数值表示该评估类别的置信度。例如,第一行的第一个图像对,左、右两个图像下面分别标有“1/0.740”、“1/0.562”,说明采用两种缩放方法后模型最后给出的评估类别都是美感程度“高”,但是右边图像因为产生了上下被压缩的情况,其置信度相对要低。如有,第一行的第二个图像对,左、右两个图像下面分别标有“1/0.670”、“0/0.521”,说明左边图像预测出的美感程度为“高”,而右边图像因严重变形所以美感程度变为“低”。
从图5中可以看出:即便在模型训练阶段没有输入全局缩放后的图像样本,但训练好的模型却可以合理地察觉到均匀缩放和全局缩放所带来的不同的图像美感损失:通过给出不同的评估类别或不同的置信度来体现。
本发明与其他评估方法在AVA数据集上的统计实验结果(分类正确率)对比,如表1所示:
表1
方法名称 在AVA数据集上的实验结果
VGG-Scale 73.8
VGG-Pad 72.9
VGG-Crop 71.2
SPP 76.0
DMA-Net 75.41
MNA-CNN 77.1
RAPID 75.42
A&C CNN 74.51
MTCNN 78.56
MTRLCNN 79.08
BDN 78.08
A-Lamp 82.5
NIMA 81.51
本发明 83.03
表1所列出的对比方法均为图像美学评估研究领域的代表性方法,因此其对比结果具有重要意义。对比方法有:VGG-Scale(Very Deep CNN with Scaled Image),VGG-Pad(Very Deep CNN with Padded Image),VGG-Crop(Very Deep CNN with Cropped Image),SPP(CNN with Spatial Pyramid Pooling),DMA-Net(Deep Multi-patch AggregationNetwork),MNA-CNN(Multi-Net Adaptive spatial pooling Convolutional NeuralNetwork),RAPID(Two-column CNN for Rating Pictorial Aesthetics),A&C CNN(Aesthetic Quality Regression with Simultaneous Image Categorization),MTCNN(Multi-task CNN),MTRLCNN(Multi-Task Relationship Learning CNN),BDN(Brain-inspired Deep Network),A-Lamp(Adaptive Layout-aware Multi-patch CNN),NIMA(Neural Image Assessment)。由表1的实验结果可知,本发明的分类正确率明显高于其他对比方法。
与上面的评估方法基于同样的技术构思,本发明还提出一种评估***,下面进行具体说明。
图6是本发明的基于注意力机制的通用图像美学评估***实施例的主要构成示意图。如图6所示,本实施例的评估***1包括:缩放模块10、裁剪模块20、置信度向量生成模块30、均值计算模块40、评估模块50和训练模块60。
其中,缩放模块10配置为:将待评估的图像进行尺寸缩放,令缩放后的图像最短边长等于预设的第一长度;裁剪模块20配置为:在缩放后的图像上随机裁剪预设个数的正方形图像块,这些正方形图像块的边长等于预设的第二长度;置信度向量生成模块30配置为:将每个正方形图像块输入到训练好的卷积神经网络模型中,输出一个对应的二维美感等级置信度向量;均值计算模块40配置为:计算预设个数的二维美感等级置信度向量的均值;评估模块50配置为:根据该均值,对待评估图像进行美学评估;训练模块60配置为对卷积神经网络模型进行训练。
本实施例中,训练模块60包括:缩放与裁剪单元、置信度向量生成单元、权重计算单元、交叉熵损失计算单元、参数更新单元和控制单元。
其中,缩放与裁剪单元配置为:从训练集中随机抽取预设张数的图像,将每张图像按照最短边长等于预设的第一长度的要求进行尺寸缩放,并从缩放后的每张图像上随机裁剪一个边长为预设的第二长度的正方形图像块;置信度向量生成单元配置为:将裁剪得到的每个正方形图像块分别输入到卷积神经网络模型中,得到该正方形图像块对应的二维美感等级置信度向量;权重计算单元配置为:根据每个正方形图像块对应的二维美感等级置信度向量,分别按照公式(5)计算该正方形图像块对应的训练权重ωp;交叉熵损失计算单元配置为:根据每个正方形图像块对应的训练权重ωp,分别按照公式(6)计算加权的交叉熵损失;参数更新单元配置为:根据加权的交叉熵损失,进行梯度回传和模型参数更新;控制单元配置为:重复调用缩放与裁剪单元、置信度向量生成单元、权重计算单元、交叉熵损失计算单元和参数更新单元,进行迭代训练,直至完成预设的优化迭代回合数,或者优化过程达到收敛状态。
具体地,本实施例中参数更新单元包括:参数计算子单元和参数更新子单元。
其中,参数计算子单元配置为根据加权的交叉熵损失,按照公式(7)计算待更新的模型参数;参数更新子单元配置为根据待更新的模型参数,进行梯度回传并更新卷积神经网络模型的参数。
进一步地,本发明还提出一种存储设备的实施例,其中存储有多条程序,所述程序适于由处理器加载并执行,以实现上面所述的基于注意力机制的通用图像美学评估方法。
进一步地,本发明还提出一种控制设备的实施例,包括处理器和存储器。其中,处理器适于加载程序,存储器适于存储所述程序,所述程序适于由所述处理器加载并执行,以实现上面所述的基于注意力机制的通用图像美学评估方法。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤、模块、单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (12)

1.一种基于注意力机制的通用图像美学评估方法,其特征在于,所述评估方法包括:
步骤A1,将待评估的图像进行尺寸缩放,令缩放后的图像最短边长等于预设的第一长度;
步骤A2,在所述缩放后的图像上随机裁剪预设个数的正方形图像块,所述正方形图像块的边长等于预设的第二长度;
步骤A3,将每个所述正方形图像块输入到训练好的卷积神经网络模型中,输出一个对应的二维美感等级置信度向量;
步骤A4,计算所述预设个数的所述二维美感等级置信度向量的均值;
步骤A5,根据所述均值,对所述待评估图像进行美学评估;
所述卷积神经网络模型包括依次连接的主干网络、全连接层和softmax模块;
其中,
所述主干网络用于接收正方形图像块,并输出该正方形图像块对应的维度为H×1的表征向量;
所述全连接层的维度为(2+K)×H,用于根据所述表征向量计算出维度为(2+K)×1的美学语义向量;
所述softmax模块用于根据所述美学语义向量计算出维度为(2+K)×1的美学判别置信度向量;所述美学判别置信度向量的第一和第二维度的值组成所述二维美感等级置信度向量;
K为添加的随机向量行数,预设值;H为所述表征向量的行数。
2.根据权利要求1所述的基于注意力机制的通用图像美学评估方法,其特征在于,所述卷积神经网络模型的训练方法包括:
步骤B1,从训练集中随机抽取预设张数的图像,将每张图像按照最短边长等于所述预设的第一长度的要求进行尺寸缩放,并从缩放后的每张图像上随机裁剪一个边长为所述预设的第二长度的正方形图像块;
步骤B2,将裁剪得到的每个正方形图像块分别输入到所述卷积神经网络模型中,得到该正方形图像块对应的二维美感等级置信度向量;
步骤B3,根据每个正方形图像块对应的二维美感等级置信度向量,分别按照下式计算该正方形图像块对应的训练权重ωp
Figure FDA0002797428340000021
其中,
Figure FDA0002797428340000022
表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测;
Figure FDA0002797428340000023
表示正方形图像块p所对应的人工标注的美学类别;
Figure FDA0002797428340000024
Figure FDA0002797428340000025
表示给定模型参数θ和输入正方形图像块p时,
Figure FDA0002797428340000026
的概率;β表示权重控制因子;
步骤B4,根据每个正方形图像块对应的所述训练权重ωp,分别按照下式计算加权的交叉熵损失:
Figure FDA0002797428340000027
步骤B5,根据所述加权的交叉熵损失,进行梯度回传和模型参数更新;
步骤B6,重复执行步骤B1至B5的迭代训练步骤,直至完成预设的优化迭代回合数,或者优化过程达到收敛状态。
3.根据权利要求2所述的基于注意力机制的通用图像美学评估方法,其特征在于,步骤B5中“根据所述加权的交叉熵损失,进行梯度回传和模型参数更新”的步骤包括:
根据所述加权的交叉熵损失,按照下式计算待更新的模型参数:
Figure FDA0002797428340000028
其中,θ′为待更新的模型参数;λ表示学习率,用于控制每次参数更新的步长;B表示裁减得到的预设张数的正方形图像块的集合;
根据所述待更新的模型参数,进行梯度回传并更新所述卷积神经网络模型的参数。
4.根据权利要求2所述的基于注意力机制的通用图像美学评估方法,其特征在于,所述人工标注的美学类别有两种取值:0表示该图像的美感低,1表示该图像的美感高;
相应地,所述二维美感等级置信度向量表示为:
Figure FDA0002797428340000031
其中,
Figure FDA0002797428340000032
表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测,θ为所述卷积神经网络模型的参数;第一维元素
Figure FDA0002797428340000033
和第二维元素
Figure FDA0002797428340000034
分别表示给定模型参数θ和输入正方形图像块p时,
Figure FDA0002797428340000035
的概率和
Figure FDA0002797428340000036
的概率。
5.根据权利要求1-4中任一项所述的基于注意力机制的通用图像美学评估方法,其特征在于,所述正方形图像块的数值矩阵都需要进行归一化、白化操作,并除以方差。
6.一种基于注意力机制的通用图像美学评估***,其特征在于,所述评估***包括:
缩放模块,配置为:将待评估的图像进行尺寸缩放,令缩放后的图像最短边长等于预设的第一长度;
裁剪模块,配置为:在所述缩放后的图像上随机裁剪预设个数的正方形图像块,所述正方形图像块的边长等于预设的第二长度;
置信度向量生成模块,配置为:将每个所述正方形图像块输入到训练好的卷积神经网络模型中,输出一个对应的二维美感等级置信度向量;
均值计算模块,配置为:计算所述预设个数的所述二维美感等级置信度向量的均值;
评估模块,配置为:根据所述均值,对所述待评估图像进行美学评估;
所述卷积神经网络模型包括依次连接的主干网络、全连接层和softmax模块;
其中,
所述主干网络用于接收正方形图像块,并输出该正方形图像块对应的维度为H×1的表征向量;
所述全连接层的维度为(2+K)×H,用于根据所述表征向量计算出维度为(2+K)×1的美学语义向量;
所述softmax模块用于根据所述美学语义向量计算出维度为(2+K)×1的美学判别置信度向量;所述美学判别置信度向量的第一和第二维度的值组成所述二维美感等级置信度向量;
K为添加的随机向量行数,预设值;H为所述表征向量的行数。
7.根据权利要求6所述的基于注意力机制的通用图像美学评估***,其特征在于,所述评估***还包括:
训练模块,配置为对所述卷积神经网络模型进行训练;
所述训练模块包括:
缩放与裁剪单元,配置为:从训练集中随机抽取预设张数的图像,将每张图像按照最短边长等于所述预设的第一长度的要求进行尺寸缩放,并从缩放后的每张图像上随机裁剪一个边长为所述预设的第二长度的正方形图像块;
置信度向量生成单元,配置为:将裁剪得到的每个正方形图像块分别输入到所述卷积神经网络模型中,得到该正方形图像块对应的二维美感等级置信度向量;
权重计算单元,配置为:根据每个正方形图像块对应的二维美感等级置信度向量,分别按照下式计算该正方形图像块对应的训练权重ωp
Figure FDA0002797428340000041
其中,
Figure FDA0002797428340000042
表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测;
Figure FDA0002797428340000043
表示正方形图像块p所对应的人工标注的美学类别;
Figure FDA0002797428340000044
Figure FDA0002797428340000045
表示给定模型参数θ和输入正方形图像块p时,
Figure FDA0002797428340000046
的概率;β表示权重控制因子;
交叉熵损失计算单元,配置为:根据每个正方形图像块对应的所述训练权重ωp,分别按照下式计算加权的交叉熵损失:
Figure FDA0002797428340000047
参数更新单元,配置为:根据所述加权的交叉熵损失,进行梯度回传和模型参数更新;
控制单元,配置为:重复调用所述缩放与裁剪单元、所述置信度向量生成单元、所述权重计算单元、所述交叉熵损失计算单元和所述参数更新单元,进行迭代训练,直至完成预设的优化迭代回合数,或者优化过程达到收敛状态。
8.根据权利要求7所述的基于注意力机制的通用图像美学评估***,其特征在于,所述参数更新单元包括:
参数计算子单元,配置为根据所述加权的交叉熵损失,按照下式计算待更新的模型参数:
Figure FDA0002797428340000051
其中,θ′为待更新的模型参数;λ表示学习率,用于控制每次参数更新的步长;B表示裁减得到的预设张数的正方形图像块的集合;
参数更新子单元,配置为根据所述待更新的模型参数,进行梯度回传并更新所述卷积神经网络模型的参数。
9.根据权利要求7所述的基于注意力机制的通用图像美学评估***,其特征在于,所述人工标注的美学类别有两种取值:0表示该图像的美感低,1表示该图像的美感高;
相应地,所述二维美感等级置信度向量表示为:
Figure FDA0002797428340000052
其中,
Figure FDA0002797428340000053
表示所述卷积神经网络模型对正方形图像块p所做出的美学类别预测,θ为所述卷积神经网络模型的参数;
Figure FDA0002797428340000054
Figure FDA0002797428340000055
Figure FDA0002797428340000056
分别表示给定模型参数θ和输入正方形图像块p时,
Figure FDA0002797428340000057
的概率和
Figure FDA0002797428340000058
的概率。
10.根据权利要求6-9中任一项所述的基于注意力机制的通用图像美学评估***,其特征在于,每个所述正方形图像块的数值矩阵均需要进行归一化、白化操作,并除以方差。
11.一种存储设备,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行,以实现权利要求1-5中任一项所述的基于注意力机制的通用图像美学评估方法。
12.一种控制设备,包括:
处理器,适于加载程序;
存储器,适于存储所述程序;
其特征在于,所述程序适于由所述处理器加载并执行,以实现权利要求1-5中任一项所述的基于注意力机制的通用图像美学评估方法。
CN201910086789.XA 2019-01-29 2019-01-29 基于注意力机制的通用图像美学评估方法、***及设备 Active CN109886317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910086789.XA CN109886317B (zh) 2019-01-29 2019-01-29 基于注意力机制的通用图像美学评估方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910086789.XA CN109886317B (zh) 2019-01-29 2019-01-29 基于注意力机制的通用图像美学评估方法、***及设备

Publications (2)

Publication Number Publication Date
CN109886317A CN109886317A (zh) 2019-06-14
CN109886317B true CN109886317B (zh) 2021-04-27

Family

ID=66927190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910086789.XA Active CN109886317B (zh) 2019-01-29 2019-01-29 基于注意力机制的通用图像美学评估方法、***及设备

Country Status (1)

Country Link
CN (1) CN109886317B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242176B (zh) * 2019-12-31 2023-10-13 北京迈格威科技有限公司 计算机视觉任务的处理方法、装置及电子***
CN112287965A (zh) * 2020-09-21 2021-01-29 卓尔智联(武汉)研究院有限公司 图像质量检测模型训练方法、装置和计算机设备
CN116681583A (zh) * 2023-06-13 2023-09-01 上海数莅科技有限公司 一种基于深度美学网络的图片自动构图方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650737A (zh) * 2016-11-21 2017-05-10 中国科学院自动化研究所 图像自动裁剪方法
CN106803067A (zh) * 2016-12-28 2017-06-06 浙江大华技术股份有限公司 一种人脸图像质量评估方法及装置
WO2017166137A1 (zh) * 2016-03-30 2017-10-05 中国科学院自动化研究所 基于多任务深度学习的自然图像美感质量评估方法
CN107330455A (zh) * 2017-06-23 2017-11-07 云南大学 图像评价方法
CN107392244A (zh) * 2017-07-18 2017-11-24 厦门大学 基于深度神经网络与级联回归的图像美感增强方法
CN109146892A (zh) * 2018-07-23 2019-01-04 北京邮电大学 一种基于美学的图像裁剪方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894025A (zh) * 2016-03-30 2016-08-24 中国科学院自动化研究所 基于多任务深度学习的自然图像美感质量评估方法
CN106651830A (zh) * 2016-09-28 2017-05-10 华南理工大学 一种基于并行卷积神经网络的图像质量测试方法
CN106920229B (zh) * 2017-01-22 2021-01-05 北京奇艺世纪科技有限公司 图像模糊区域自动检测方法及***
KR101880901B1 (ko) * 2017-08-09 2018-07-23 펜타시큐리티시스템 주식회사 기계 학습 방법 및 장치
CN107610123A (zh) * 2017-10-11 2018-01-19 中共中央办公厅电子科技学院 一种基于深度卷积神经网络的图像美学质量评价方法
CN108417201B (zh) * 2018-01-19 2020-11-06 苏州思必驰信息科技有限公司 单信道多说话人身份识别方法及***
CN108388925A (zh) * 2018-03-06 2018-08-10 天津工业大学 基于新型条件对抗生成网络的抗模式崩溃鲁棒图像生成方法
CN108492294B (zh) * 2018-03-23 2022-04-12 北京邮电大学 一种图像色彩和谐程度的评估方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166137A1 (zh) * 2016-03-30 2017-10-05 中国科学院自动化研究所 基于多任务深度学习的自然图像美感质量评估方法
CN106650737A (zh) * 2016-11-21 2017-05-10 中国科学院自动化研究所 图像自动裁剪方法
CN106803067A (zh) * 2016-12-28 2017-06-06 浙江大华技术股份有限公司 一种人脸图像质量评估方法及装置
CN107330455A (zh) * 2017-06-23 2017-11-07 云南大学 图像评价方法
CN107392244A (zh) * 2017-07-18 2017-11-24 厦门大学 基于深度神经网络与级联回归的图像美感增强方法
CN109146892A (zh) * 2018-07-23 2019-01-04 北京邮电大学 一种基于美学的图像裁剪方法及装置

Also Published As

Publication number Publication date
CN109886317A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
Bucak et al. Incremental subspace learning via non-negative matrix factorization
CN111242841B (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
CN109886317B (zh) 基于注意力机制的通用图像美学评估方法、***及设备
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
US20220222796A1 (en) Image processing method and apparatus, server, and storage medium
CN109816438B (zh) 信息推送方法及装置
CN111488985A (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
WO2015062209A1 (zh) 随机森林分类模型的可视化优化处理方法及装置
CN107506792B (zh) 一种半监督的显著对象检测方法
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN112613552A (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN112560967A (zh) 一种多源遥感图像分类方法、存储介质及计算设备
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN114419406A (zh) 图像变化检测方法、训练方法、装置和计算机设备
CN115564194A (zh) 智能电网的计量异常诊断信息生成模型构建方法及***
CN114782742A (zh) 基于教师模型分类层权重的输出正则化方法
CN117788629A (zh) 一种具有风格个性化的图像生成方法、装置及存储介质
CN112767038B (zh) 基于美学特征的海报ctr预测方法及装置
Li et al. Real-time crowd density estimation based on convolutional neural networks
CN112785479B (zh) 一种基于少样本学习的图像隐形水印通用检测方法
CN115953330B (zh) 虚拟场景图像的纹理优化方法、装置、设备和存储介质
CN116541593B (zh) 一种基于超图神经网络的课程推荐方法
CN116820762A (zh) 一种基于电力边缘芯片的边云协同计算方法
CN115035408A (zh) 基于迁移学习和注意力机制的无人机影像树种分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant