CN114170411A

CN114170411A - 一种融合多尺度信息的图片情感识别方法

Info

Publication number: CN114170411A
Application number: CN202111481080.3A
Authority: CN
Inventors: 李光华; 杨军; 何亚东; 罗玮; 杨东; 张宇
Original assignee: Guoneng Daduhe Big Data Service Co ltd; Guoneng Dadu River Dagangshan Power Generation Co ltd
Current assignee: Guoneng Daduhe Big Data Service Co ltd; Guoneng Dadu River Dagangshan Power Generation Co ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-03-11

Abstract

本发明提出了一种融合多尺度信息的图片情感识别方法，主要涉及深度学习中提取和融合多尺度特征进行图片情感识别的问题。此方法将局部特征和全局特征融合，进行多任务情感识别，并利用KL损失函数和交叉熵进行图片情感识别学习，完善了识别的信息。首先，使用两个网络分别提取局部特征和全局特征：利用ViT网络来进行局部特征提取，有利于获得小尺度的情感特征；利用ResNet网络进行全局特征提取，以获得深层情感特征。在将局部特征和全局特征融合后，将其送入全连接层进行分类，在完成主导情绪识别的同时进行了标签分布学习预测，解决了视觉特征提取不够充分的问题，能够合理地实现实例到情感空间的映射。

Description

一种融合多尺度信息的图片情感识别方法

技术领域

本发明涉及深度学习领域中的图片情感分析问题，尤其是涉及一种融合多尺度信息的图片情感识别方法。

背景技术

随着互联网技术的飞速发展，人们更多地使用图片来表达自己的情感。因此，对于图片的情感分析是一个迫切且有研究价值的问题。现有的研究大多通过单标签或多标签学习完成图片标注、卷积神经网络进行特征提取，并且都取得了不错的效果。近年来，随着ViT网络在自然语言处理领域大放异彩和标签分布学习的逐步普及应用，图片情感分析领域也开始借鉴相关思想，来更好地预测图片中的情绪分布，对其进行充分表征。目前，图片情感分析在美学分析、智能广告和社交媒体舆情检测等领域都有着广泛应用和更深的研究需求。

现有的方法较少将图片所表达的不同情绪的相对重要性纳入考虑，并且只能对主导情绪进行识别。实际上，情绪具有较强的主观性，同一张图片可能会激起不同个体不同的情绪，所以学习图片的情绪分布十分重要。鉴于此，本专利将局部特征和全局特征进行融合，运用多尺度的信息来同时完成主导情绪的识别和情绪分布的预测。首先，使用ViT网络来进行局部特征提取，这些特征学习了局部信息与局部之间的关联信息，有利于表征图片的情感区域，获得小尺度的情感特征。其次，对于整体特征，利用ResNet网络来进行提取，使结果更加鲁棒。同时，使用KL损失函数和交叉熵进行学习，有利于衡量由于预测分布与标记分布不一致而导致的信息损失。

发明内容

本发明的目的是提供一种融合多尺度信息的图片情感识别方法，它使用了标签分布学习的方法来标注图片，并将图片的局部特征和全局特征融合来进行多任务情感识别，解决了图片情感分析中标签模糊及情绪分布得不到充分展现的问题。

为了方便说明，首先引入一下概念：

视觉转换器（VisionTransformer，ViT）：一种基于多头自注意力机制的一种神经网络。

残差网络(ResNets)：通过引入恒等映射来解决网络的退化问题。常见的网络类型有ResNet-18、ResNet-34、ResNet-50、ResNet-101以及ResNet-152。

标签分布学习（LabelDistribution Learning, LDL）：一种标签分配方式，用情绪分布来表征图片。

Kullback-Leibler (KL)损失函数：用于分布学习的损失函数，能衡量由于预测分布与标记分布不一致而导致的信息损失。

本发明具体采用如下技术方案：

一种融合多尺度信息的图片情感识别方法，其特征在于：

a. 通过ViT网络提取图片局部与局部之间的相关性的小尺度情感特征；

b. 通过ResNet网络提取图片的深度全局情感特征；

c. 采用KL损失函数和交叉熵进行图片情感识别学习；

d. 将局部特征和全局特征融合进行多任务情感识别，包括主导情绪识别任务和标签分布学习预测任务；

该方法主要包括以下步骤：

（1）图片预处理：将数据集中的图像统一尺寸，然后使用随机裁剪和水平翻转等数据增强方法进行数据增扩；

（2）标签预处理：使用标签分布表征图片数据，将数据集中的原始多人投票分值进行归一化等处理，作为分布学习真实值；主导情绪标签作为分类学习真实值；

（3）局部特征提取：采用在ImageNet上预训练的ViT网络进行小尺度情感特征的提取；

（4）全局特征提取：采用基于残差结构的ResNet卷积架构进行全局大尺度情感特征的提取；

（5）特征融合：将步骤（3）中提取的1024维特征和步骤（4）提取的1024维特征进行特征层融合，拼接成2048维特征；

（6）图片情感识别：将（5）中融合后的特征输入全连接层，获得图片的主导情绪识别结果和标签分布预测结果；

（7）模型训练：以端到端方式训练，使用KL损失函数和交叉熵进行学习；

（8）结果验证：在大型公开数据集进行验证，与各项指标相比得出实验结果，并进行消融实验证明方法的合理性。

本发明的有益效果是：

（1）利用ViT网络提取局部特征，有利于表征图片的情感区域，获得小尺度的情感特征。

（2）采用ResNet网络提取全局特征，避免因网络过深造成的梯度消失或梯度***。

（3）使用KL损失函数和交叉熵进行学习，有利于衡量由于预测分布与标记分布不一致而导致的信息损失。

（4）通过融合多尺度信息进行多任务情感识别，包括主导情绪识别任务和标签分布学习预测任务。

附图说明

图1为模型结构。

图2为本发明在Flickr_LDL数据集上的结果。

图3为本发明在Twitter_LDL数据集上的结果。

图4为消融实验结果。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细说明，有必要指出的是，以下的实施例只用于对本发明做进一步的说明，不能理解为对本发明保护范围的限制，所属领域技术熟悉人员根据上述发明内容，对本发明做出一些非本质的改进和调整进行具体实施，应仍属于本发明的保护范围。

融合多尺度信息的图片情感识别方法，具体包括以下步骤：

（1）图片预处理

将Flickr_LDL和Twitter_LDL数据集随机分割为训练集(80%)和测试集(20%)，并将图像统一调整尺寸为500*500，并进行随机裁剪为224*224尺寸，同时以0.5的概率进行水平翻转，10%自动对比度改变图像颜色，增强数据，提高训练效果。

（2）标签预处理

将数据集的多人对八类情绪的投票的原始数据进行归一化处理，获得图片情感分布标签，进行标签分布学习；将八类情绪中投票最多的类别作为主导情绪，进行情绪分类。

（3）局部特征提取

将在ImageNet上预训练的ViT网络作为特征提取的骨干网络。在特征提取过程中，ViT网络首先将原始图片进行分块，再将其展开成一维的序列输入到原始Transformer模型的编码器部分，在其中经过多头注意力等方法处理，最后将输出特征更改为1024维。学习局部信息与局部之间的相关性，表征图片的情感区域，获得小尺度的情感特征。

（4）全局特征提取

采用基于残差结构的ResNet卷积架构进行全局深层情感特征的提取，并取消最后一层输出分类的全连接层。ResNet网络结构可以通过堆叠基本残差单元来加深网络的深度，同时避免因网络过深造成的梯度消失或梯度***，进行图片整体视觉特征的学习，增加表征的深度，获得大尺度全局特征。

（5）特征融合

特征融合方式如图1所示，将步骤（2）中提取的1024维特征和步骤（3）提取的1024

维特征拼接成2048维特征。将局部特征和全局特征在输入全连接层前进行特征层融合，拼接成包含多尺度信息的情感特征向量，增加图片情感识别准确率。

（6）图片情感识别

将步骤（5）中拼接后的2048维特征输入全连接层，完成多任务情感识别，得到最终的主导情绪识别结果和标签分布学习预测结果。如图1中的DominantLabel和DistributionLabel所示。

（7）模型训练

以端到端方式训练，初始学习率为0.001，每10个回合除以10，总回合数为50，输入为数据集图片，直接输出图片情感识别的结果，减少人工操作的复杂度。使用相对熵KL损失函数和交叉熵Cross Entropy损失进行学习。KL损失函数是用于分布学习的损失函数，能衡量由于预测分布与标记分布不一致而导致的信息损失，其公式如（1）式所示：

（1）

其中y表示从数据集标记的情绪分布，

表示预测的情绪分布，N表示特定数据集中图片的数量，C表示所涉及的情感类别。通过优化KL损失学习视觉情感的分布，通过优化Cross Entropy损失学习主导情绪分类，实现多任务的同时优化提升。

（7）结果验证

使用了六种常用的分布学***方根，将Canberra度量除以情绪类别数。此外，进一步引入top-1准确度作为评价指标，对主导情绪的预测情况进行比较。图2和图3所示的分别是在Flickr_LDL和Twitter_LDL数据集的验证结果，其中向下的箭头表示越低越好，向上的箭头表示越高越好。可以看出，在综合考虑了全局深层特征和局部特征与其之前的相关性后，本发明在两个广泛使用的数据集上都获得了比基线方法更好的分类和分布结果，证明了本发明的优越性。

消融实验的结果如图4所示，仅使用ResNet网络进行特征提取和学习时结果是最差的，分布学习的六个指标和主导情绪分类的准确率指标都很不好。在融入ViT模块进行特征提取和利用KL损失模块后，主导情绪分类和分布学习指标的准确率都有所提升，表明了ViT对全局特征不足的弥补和KL损失模块对于分布学习的有效性。最终提出的模型取得了最好的分布学习和分类结果，证明了模型的有效性和模型各部分的必要性。

Claims

1.一种融合多尺度信息的图片情感识别方法，其特征在于：

通过ViT网络提取图片局部与局部之间的相关性的小尺度情感特征；

通过ResNet网络提取图片的深度全局情感特征；

采用KL损失函数和交叉熵进行图片情感识别学习；

将局部特征和全局特征融合进行多任务情感识别，包括主导情绪识别任务和标签分布学习预测任务；

该方法主要包括以下步骤：

图片预处理：将数据集中的图像统一尺寸，然后使用随机裁剪和水平翻转数据增强方法进行数据增扩；

标签预处理：使用标签分布表征图片数据，将数据集中的原始多人投票分值进行归一化等处理，作为分布学习真实值；主导情绪标签作为分类学习真实值；

局部特征提取：采用在ImageNet上预训练的ViT网络进行小尺度情感特征的提取；

全局特征提取：采用基于残差结构的ResNet卷积架构进行全局大尺度情感特征的提取；

特征融合：将步骤（3）中提取的1024维特征和步骤（4）提取的1024维特征进行特征层融合，拼接成2048维特征；

图片情感识别：将（5）中融合后的特征输入全连接层，获得图片的主导情绪识别结果和标签分布预测结果；

模型训练：以端到端方式训练，使用KL损失函数和交叉熵进行学习；

结果验证：在大型公开数据集进行验证，与各项指标相比得出实验结果，并进行消融实验证明方法的合理性。

2.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（1）中，将数据集图像统一尺寸为500*500，并进行随机裁剪为224*244尺寸，同时以0.5的概率进行水平翻转，10%自动对比度改变图像颜色，增强数据，提高训练效果。

3.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（2）中将数据集的多人对八类情绪的投票的原始数据进行归一化处理，获得图片情感分布标签，进行标签分布学习；将八类情绪中投票最多的类别作为主导情绪，进行情绪分类。

4.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（3）中，特征提取的局部通道使用ViT网络进行特征提取，从而能够学习到局部信息与局部之间的相关性，表征图片的情感区域，获得小尺度的情感特征。

5.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（4）中，特征提取的全局通道使用基于残差结构的ResNet卷积架构进行图片整体视觉特征的学习，增加表征的深度，获得大尺度全局特征。

6.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（5）中，将局部特征和全局特征在输入全连接层前进行特征层融合，拼接成包含多尺度信息的情感特征向量，增加图片情感识别准确率。

7.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（6）中，由融合的2048维特征经过全连接层，同时获取情感识别多任务结果，包括主导情绪识别结果和标签分布预测结果。

8.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（7）中，使用端到端的训练方式，初始学习率为0.001，每10个回合除以10，总回合数为50，输入为数据集图片，直接输出图片情感识别的结果，减少人工操作的复杂度。

9.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（7）中，使用衡量预测分布与标记分布不一致导致的信息损失的相对熵KL损失和交叉熵CrossEntropy损失进行学习，通过优化KL损失学习视觉情感的分布，通过优化Cross Entropy损失学习主导情绪分类，实现多任务的同时优化提升。

10.如权利要求1所述的融合多尺度信息的图片情感识别方法，其特征在于在步骤（8）中，在两个大型公开数据集上进行测试，分别使用距离度量指标和相似性度量指标进行验证，包括Chebyshev距离、Clark距离、Canberra度量、KL散度、Cosine系数和Intersection相似性；并进行消融实验验证有效性。