CN111026898A - 一种基于交叉空间池化策略的弱监督图像情感分类与定位方法 - Google Patents

一种基于交叉空间池化策略的弱监督图像情感分类与定位方法 Download PDF

Info

Publication number
CN111026898A
CN111026898A CN201911259699.2A CN201911259699A CN111026898A CN 111026898 A CN111026898 A CN 111026898A CN 201911259699 A CN201911259699 A CN 201911259699A CN 111026898 A CN111026898 A CN 111026898A
Authority
CN
China
Prior art keywords
emotion
image
representing
classification
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911259699.2A
Other languages
English (en)
Inventor
徐丹
彭国琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201911259699.2A priority Critical patent/CN111026898A/zh
Publication of CN111026898A publication Critical patent/CN111026898A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于交叉空间池化策略的弱监督图像情感分类与定位方法,包括基于ResNet‑101采用交叉空间池化策略最后生成一个维度为类别数的特征向量;然后通过聚合所有的情感类别的特征图来捕获图像中诱发情感的区域。本发明利用交叉空间池化策略使得卷积神经网络为每类情感学习到更具有鉴别力的信息,从而提高了情感分类性能,使得分类的准确率都有了很大的提升。

Description

一种基于交叉空间池化策略的弱监督图像情感分类与定位 方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于交叉空间池化策略的弱监督图像情感分类与定位方法。
背景技术
人们越来越喜欢通过上传图片到社交媒介如Twitter、微博等来主动表达情感,同时在一些安防、监控、教育等领域,也需要通过了解人们的情绪,因此图像的视觉情感分析研究越来越受关注,随着人工智能在各领域的深入,人们对计算机理解图像所传达情感的期望越来越高.深度学习在图像分类[1-3]、对象识别[4-6]和语义分割[7-9]等视觉识别任务中都取得了不错的效果,因此,深度学习的方法也被应用在图像情感分析[10-13].在图像情感分析中,基于深度特征的机器学习的效果已经优于传统手工设计特征的方法[14-17],传统手工设计特征主要考虑颜色、纹理和主成分等.
Borth等[18-19]通过形容词-名词对(ANPs)为元素,定义了用于描述图像的视觉情感本体,基于视觉底层特征提出了SentiBank来检测图像中情感的描述,在分类方面构建了视觉情感概念.Ali等[20]提出在情感分析中考虑对象和场景两种高层语义概念(High-Level Concepts),图像的情感分析同时与高层语义和低层特征相关,并且不同的情感类别与不同的高层语义概念有关,首先构建高层语义与情感之间的关系,然后通过支持向量回归(SVR)实现情感的预测.Kosti等[21]提出了在情感预测中考虑上下文来分析图像中的人物情感,训练两个卷积神经网络,最后把两个神经网络的特征融合.Peng等[17]提出了EmotionROI数据集,这个数据集标注了图像中诱发情感的区域,使用欧几里德损失的全卷积网络(FCNEL)预测图像情感刺激图(MSE).这些基于高层语义的方法都试图从图像中情感相关的因素中学习特征来提高分类性能,图像情感相关因素的选择成为关键.通过考虑更多的因素(更多的人工注释或是检测方法)有利于分类的性能的提高,但是考虑哪些因素对情感分类是最有效的,还没有一个定论,同时也需要更大的代价来获取这些相关的因素.
卷积神经网络中的弱监督对象定位任务是指在只有图像类别的粗粒度标签情况下标注出图像中的对象(如:猫或狗),实现细粒度的标注.随着深度学***均池化层来聚集特定类的激活图.Selvaraju等[25]提出了梯度类激活图(Grad_CAM),通过反向传播来计算梯度,再与特征图相融合,计算出特定类的激活图,可以实现任意层的反向传播,但是通常都在最后一个卷积层来计算.梯度类激活图是类激活图的一个泛化,但是类激活图需要修改网络的结构.Duran等[26]提出了WILDCAT方法,学习与类别相关的多个形态信息(如狗的头或腿),模型中明确设计了与不同类模态相关的局部特征,提出的模型能完成图像分类和弱监督的对象定位与分割.考虑对象客观信息,Zhu等[27]提出了区域候选(SPN)方法,首先通过图形传播算法生成候选区域,再与卷积层的特征图融合,卷积神经网络不断迭代优化,最终学到更多具有鉴别力的信息,压制噪声的干扰,在弱监督对象定位和分类性能上都有所提高.这些方法都是针对一般的分类任务,检测出图像中特定对象相关的区域,都倾向于标注出图像中的前景对象区域,其实是一个识别问题(识别图像中的猫或狗).
在观测一幅图像时,人类的情感会被激发,不同区域对诱发情感的贡献是不同的,如何自动定位图像中激发人类情感的区域就是图像情感区域定位问题.相较于对象区域定位,更加具有挑战性,因为图像的情感语义不仅仅与图像中的显著对象(前景)区域有关,还和图像所传达的整体语义信息相关.Yang等[28]提出了WSCNet网络架构,通过训练两个分支来完成情感检测和分类,分类的时候使用了第一个分支情感检测的结果.Fan等[29]利用眼动数据来定位图像中人类关注的区域,通过设计一个卷积神经网络来实现情感显著性预测,其中包含了一个子网络用来学习图像场景的语义和空间信息.
[1]Krizhevsky A,Sutskever I,Hinton G.Imagenet classification withdeep convolutional neural networks[C]//Proceedings of the 25th InternationalConference on Neural Information Processing Systems.Lake Tahoe,ACM Press,2012:1097-1105.
[2]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[C]//Proceedings of the 3rd International Conferenceon Learning Representations.San Diego:ACM Press,2015.
[3]He K,Zhang X,Ren S,et al.Deep residual learning for imagerecognition[C]//Proceedings of the 2016IEEE Conference on Computer Vision andPattern Recognition.Las Vegas:IEEE Press,2016:770-778.
[4]Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchiesfor accurate object detection and semantic segmentation[C]//Proceedings ofthe 2014IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE Press,2014:580-587.
[5]Girshick R.Fast R-CNN[C]//Proceedings of the 2015IEEEInternational Conference on Computer Vision.Washington:IEEE Press,2015:1440-1448
[6]Dai J.,Li Y,He,K,Sun J.R-FCN:Object detection via region-basedfully convolutional networks[C]//Proceedings of 30th International Conferenceon Neural Information Processing Systems.Barcelona:IEEE Press,2016:379-387.
[7]Chen L C,Papandreou G,Kokkinos I,et al.Semantic Image Segmentationwith Deep Convolutional Nets and Fully Connected CRFs[C]//Proceedings of the3rd International Conference on Learning Representations.San Diego,2015:357-361.
[8]Long J,Shelhamer E,Darrell T.Fully Convolutional Networks forSemantic Segmentation[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.Boston:IEEE Press,2015:3431-3440.
[9]Dai J,He K,Li Y,et al.Instance-sensitive fully convolutionalnetworks[C]//Proceedings of the 14th European Conference of ComputerVision.Amsterdam:Springer,Cham,2016:534-549.
[10]Peng K C,Chen T,Sadovnik A,et al.A mixed bag of emotions:model,predict,and transfer emotion distributions[C]//Proceedings of the 2015 IEEEConference on Computer Vision and Pattern Recognition.Boston:IEEE Press,2015:860-868.
[11]You Q,Luo J,Jin H,et al.Building a large scale dataset for imageemotion recognition:The Fine Print and The Benchmark[C]//Proceeding of the30th Conference on Artificial Intelligence.Phoenix:ACM Press,2016:308-314.
[12]You Q,Luo J,Jin H,et al.Quanzeng You,Jiebo Luo,Hailin Jin,Jianchao Yang.Robust image sentiment analysis using progressively trained anddomain transferred deep networks[C]//Proceedings of the 29th Conference onArtificial Intelligence.Austin:ACM Press,2015:381-388.
[13]Víctor C,Brendan J,Xavier Giró-i-Nieto.From pixels to sentiment:Fine-tuning CNNs for visual sentiment prediction.Image Vision Computing,2017(65):15–22.
[14]Yanulevskaya V,Gemert J C V,Roth K,et al.Emotional valencecategorization using holistic image features[C]//Proceedings of the 2008 IEEEInternational Conference on Image Processing.San Diego:IEEE Press,2008:101-104.
[15]Zhao S,Gao Y,Jiang X,et al.Exploring principles-of-art featuresfor image emotion recognition[C]//Proceedings of the 2014ACM InternationalConference on Multimedia.Orlando:ACM Press,2014:47-56.
[16]Machajdik J,Hanbury A.Affective image classification usingfeatures inspired by psychology and art theory[C]//Proceedings of the 2010ACMInternational Conference on Multimedia.Firenze:ACM Press,2010:83-92.
[17]Peng K C,Sadovnik A,Gallagher A,et al.Where do emotions comefrom?predicting the emotion stimuli map[C]//Proceedings of the 2016 IEEEInternational Conference on Image Processing.Phoenix:IEEE Press,2016:614-618.
[18]Borth D,Ji R,Chen T,et al.Large-scale visual sentiment ontologyand detectors using adjective noun pairs[C]//Proceedings of the 2013ACMMultimedia Conference.Barcelona:ACM Press,2013:223-232.
[19]Chen T,Borth D,Darrell T,et al.DeepSentibank:Visual sentimentconcept classification with deep convolutional neural networks[J].ComputerScience,2014.
[20]Ali A R,Shahid U,Ali M,et al.High-level concepts for affectiveunderstanding of images[C]//Proceedings of 2017 IEEE Winter ConferenceonApplications of Computer Vision.Santa Rosa:IEEE Press,2017:678-687.
[21]Kosti R,Alvarez J M,Recasens A,et al.Emotion Recognition inContext[C]//Proceedings of the 2017 IEEE Conference on Computer Vision andPattern Recognition.Honolulu:IEEE Press,2017:1960-1968.
[22]Bilen H,Vedaldi A.Weakly supervised deep detection networks[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and PatternRecognition.Las Vegas:IEEE Press,2016:2846-2854.
[23]Cinbis R.G,Verbeek J,and Schmid C.Weakly supervised objectlocalization with multi-fold multiple instance learning[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,2017,39(1):189–203.
[24]Zhou B,Khosla A,Lapedriza A,et al.Learning Deep Features forDiscriminative Localization[C]//Proceedings of the 2016 IEEE Conference onComputer Vision and Pattern Recognition.Las Vegas:IEEE Press,2016:2921-2929.
[25]Selvaraju R R,Cogswell M,Das A,et al.Grad-CAM:Visual Explanationsfrom Deep Networks via Gradient-Based Localization[C]//Proceedings of the2017 IEEE International Conference on Computer Vision.Venice:IEEE Press,2017:618-626.
[26]Durand T,Mordan T,Thome N,et al.Wildcat:Weakly supervisedlearning ofdeep convnets for image classification,pointwise localization andsegmentation[C]//Proceedings of the 2017 IEEE Conference on Computer Visionand Pattern Recognition.Honolulu:IEEE Press,2017:5957-5966.
[27]Zhu Y,Zhou Y,Ye Q,et al.Soft proposal networks for weaklysupervised object localization[C]//Proceedings of the 2017 IEEE InternationalConference on Computer Vision.Venice:IEEE Press,2017:1859-1868.
[28]Yang J F,She D Y,Lai Y K,et al.Weakly Supervised Coupled Networksfor Visual Sentiment Analysis[C]//Proceedings of the 2018IEEE Conference onComputer Vision and Pattern Recognition.Salt Lake City:IEEE Press.2018:7584-7592.
[29]Fan S J,Shen Z Q,Jiang M,et al.Emotional Attention:A Study ofImage Sentiment and Visual Attention[C]//Proceedings of the 2018IEEEConference on Computer Vision and Pattern Recognition.Salt Lake City:IEEEPress,2018:7521-7531。
发明内容
本发明的目的在于解决上述现有技术存在的缺陷,提供一种图像感情分类准确率高的基于交叉空间池化策略的弱监督图像情感分类与定位方法。
一种基于交叉空间池化策略的弱监督图像情感分类与定位方法,包括:
步骤1:基于全卷积网络ResNet-101,删除该全卷积网络的池化层和全连接层,利用1×1的卷积核对ResNet-101中conv5生成的特征图进行卷积操作,为每一个类别生成特定数量(k)的特征图;
步骤2:利用全局平均池化来提取每个特征图的全局信息;
步骤3:再通过最大池化操作来找到最大响应的特征图,最后生成一个维度为类别数的特征向量,每一个向量的值记为Sc
Figure BDA0002311277160000081
其中,
Figure BDA0002311277160000082
表示F′中第c类的第j通道的特征,k表示每一个类别生成特征通道的数量,c表示第c类情感,总的情感类别数为C,Gave表示全局平均池化;通过1×1的卷积后的特征记为F′;
步骤4:在ImageNet上视觉识别的预训练模型权重值,分别设置全卷积层、交叉空间策略的学***翻转和裁剪扩充数据来降低过拟合,最终,模型输入的图片大小为448×448;
步骤5:在每个batch的前向过程中,计算交叉熵损失值
Figure BDA0002311277160000091
其中
Figure BDA0002311277160000092
N是指batch的大小,表示一次前项过程中训练的样本数,yi代表第i个训练样本的真实情感标注;Sl是步骤3中定义的特征向量第l个元素的值,代表第l个类别在网络中的得分;
步骤6:根据计算的损失函数值,在反向传递中使用随机梯度下降来更新权重参数;
步骤7:重复步骤5到步骤6,直到完成一轮训练,根据测试数据集,进行模型测试;
步骤8:重复步骤7,直到模型达到最优或完成总迭代轮数;
步骤9:生成图像情感激活图
Figure BDA0002311277160000093
有益效果:
本发明提供的基于交叉空间池化策略的弱监督图像情感分类与定位方法,利用1×1的卷积核、全局平均池化操作、最大池化操作使得卷积神经网络为每类情感学习到更具有鉴别力的信息,从而提高了情感分类性能,使得分类的准确率都有了很大的提升。
本发明在一个简单的卷积神经网络架构下,仅使用图像级别标注信息,通过提出的交叉空间池化策略,使得卷积神经网络学到更多有鉴别能力的信息,提高图像情感分类的性能,从图像的语义中理解情感,更好地实现情感相关的情感区域定位,标记出图像中每个像素对诱发图像情感的影响和贡献大小。
附图说明
图1为情感激活图的生成模型;
图2为情感区域定位性能对比图;
图3为几种对象定位方法应用到情感区域定位的结果和本发明提出方法的情感区域定位结果对比图;
图4为WSCNET方法和本发明方法在情感区域定位性能上的对比图;
图5为生成的情感激活图和预测情感类别的情感特征图的对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种图像情感分类和情感区域定位的方法,以解决现有图像情感分类准确率不高的问题,以及现有研究中没有涉及情感区域定位的问题。
本发明所采用的技术方案包括以下两部分:
一,交叉空间池化策略:基于全卷积网络ResNet-101,删除RestNet-101的后两层(全局池化层和全连接层),用本申请提出的交叉空间池化来代替ResNet101中的最后两层,首先用1×1的卷积核来实现跨通道的信息整合,降低特征的通道数,为每一个类别生成特定数量的特征图,然后利用全局平均池化来提取每个特征图的全局信息,接着再通过最大池化操作来找到最大响应的特征图,最后生成一个维度为类别数的特征向量,每一个向量的值记为Sc
二,情感区域定位,本申请通过聚合所有的情感类别的特征图来捕获图像中诱发情感的区域.首先,针对每类情感,生成具有类别意识的响应特征图,假设情感类别数为C,则有C个响应特征图;然后,再与之对应的Sc权重相结合,获取综合的定位信息,而不是从特定类的最大响应特征图获取情感区域的定位信息。
本发明在一个统一框架中实现图像情感分类和情感区域定位,生成表示诱发情感相关区域的情感激活图,在只需要图像级的标注下,就能获得一个细粒度、像素级的图像标注,表示每个像素点对图像情感分类的贡献。本发明进一步说明了图像情感激活图与图像情感类别预测结果的关系,与最后生成的情感激活图越接近的情感特征图对分类的贡献越大,在情感分类中起到了主导作用。
下面对本申请基于交叉空间池化策略的弱监督图像情感分类与定位方法进行详细的阐述,具体包括以下步骤:
步骤1:基于ResNet-101,删除该网络的最后两层,用本申请提出的交叉空间池化策略取代,即首先用1×1的卷积核对ResNet-101中conv5生成的特征图进行卷积操作,实现跨通道的信息整合,降低特征的通道数,为每一个类别生成特定数量(k)的特征图。通过1×1的卷积后的特征记为F′。然后利用全局平均池化来提取每个特征图的全局信息,接着再通过最大池化操作来找到最大响应的特征图,最后生成一个维度为类别数的特征向量,每一个向量的值记为Sc
Figure BDA0002311277160000121
其中,
Figure BDA0002311277160000122
表示F′中第c类的第j通道的特征,k表示每一个类别生成特征通道的数量,c表示第c类情感,总的情感类别数为C,Gave表示全局平均池化;
步骤2:初始化步骤1中提出的深度模型。初始化卷积神经网络权重参数为在ImageNet上视觉识别的预训练模型权重值,分别设置全卷积层、交叉空间策略的学***翻转和裁剪扩充数据来降低过拟合,最终,模型输入的图片大小为448×448.
步骤3:在每个batch的前向过程中,计算交叉熵损失值
Figure BDA0002311277160000131
其中
Figure BDA0002311277160000132
N是指batch的大小,表示一次前项过程中训练的样本数,yi代表第i个训练样本的真实情感标注;Sl
步骤3中定义的特征向量第l个元素的值,代表第l个类别在网络中的得分;
步骤4:根据计算的损失函数值,在反向传递中使用随机梯度下降(SGD)来更新权重参数.
步骤5:重复步骤3到步骤4,直到完成一轮训练,根据测试数据集,进行模型测试.
步骤6:重复步骤5,直到模型达到最优或完成总迭代轮数.
步骤7:生成图像情感激活图
Figure BDA0002311277160000141
实验例1:
本发明提出的交叉空间池化策略使得卷积神经网络为没类情感学习到更具与鉴别力的信息,提高情感分类性能,如表1所示,本发明方法相较于其他方法,分类的准确率都有了很大的提升。
表1分类准确率(%)对比
Figure BDA0002311277160000142
实验例2:
在本发明的交叉空间池化策略中,全局平均池化操作比较于一般的平均池化操作,它增大了卷积核的感受野,更能抓取到图像中的全局语义信息,对空间转换更加鲁棒.再通过最大池化操作,为情感分类生成了一个情感向量,向量中的每一个元素和卷积层之间的特征图之间的关系更加直接,即类别与特征图之间的关系更为直接,如图1中的对应关系,用本申请提出的交叉空间池化策略代替原网络架构中的池化层和全连接层能避免ResNet-101中原有的全连接层会忽略目标在图像中的空间信息,在CNN的提取特征图中,每一个特征表示了整个网络的部分特征,通过交叉空间池化策略能更好地将对象和上下文语义信息在不同特征图的信息利用起来,提取出更多对分类有鉴别力的信息,同时更好地定位图像中和情感诱发相关的区域.图2为情感区域定位性能对比图,分别对比了平均绝对误差(MAE)、精确度(precision)、召回率(recall)和F1,MAE越小越好,precision、recall和F1越大越好。图2中通过在几种评价机制上的数值,说明本发明的方法在弱监督学习方法中具有最佳的定位性能。
图3对比了几种对象定位方法应用到情感区域定位的结果和本发明结果的对比,在热度图上标记了几种评价机制的值,结果表明本发明方法能定位到更多与情感相关的区域,评价机制上也是recall最高,表明真实标注的情感区域更多地被定位到。图4对比了WSCNET方法和本发明方法的情感区域定位,WSCNet方法的precision为0.94,但是recall为0.15,本申请的方法中的precision为0.82和recall为0.85,通常presicion和recall都是矛盾的,这时使用F1(F1=(2*precision*recall)/(precision+recall))作为综合评价指标,本申请的方法的F1值为0.83,而WSCNet方法的F1值为0.26,明显高于WSCNet方法中F1的值.说明真实标注中的更多区域被定位为情感区域了,本申请方法在诱发情感区域上的定位性能更好。
图5对比了情感类别的情感特征图与情感激活图,5c中同时标注出了情感预测的结果和概率,5d中标注处了图像的precesion(p)和recall(r),情感激活图中的突显区域就是对情感分类贡献最大的区域,这些区域直接影响了分类的结果.与情感激活图越接近的情感特征图,在分类中的贡献越大,对分类起到了主导作用,所以对应的在情感分类中的预测值也是最高的。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (1)

1.一种基于交叉空间池化策略的弱监督图像情感分类与定位方法,其特征在于,包括:
步骤1:基于全卷积网络ResNet-101,删除该全卷积网络的池化层和全连接层,利用1×1的卷积核对ResNet-101中conv5生成的特征图进行卷积操作,为每一个类别生成特定数量(k)的特征图;
步骤2:利用全局平均池化来提取每个特征图的全局信息;
步骤3:再通过最大池化操作来找到最大响应的特征图,最后生成一个维度为类别数的特征向量,每一个向量的值记为Sc
Figure FDA0002311277150000011
其中,
Figure FDA0002311277150000012
表示F′中第c类的第j通道的特征,F′为通过1×1的卷积后的特征;k表示每一个类别生成特征通道的数量,c表示第c类情感,总的情感类别数为C,Gave表示全局平均池化;
步骤4:初始化卷积神经网络权重参数,即在ImageNet上视觉识别的预训练模型权重值,分别设置全卷积层、交叉空间策略的学***翻转和裁剪扩充数据来降低过拟合,最终,模型输入的图片大小为448×448;
步骤5:在每个batch的前向过程中,计算交叉熵损失值
Figure FDA0002311277150000013
其中
Figure FDA0002311277150000014
N是指batch的大小,表示一次前项过程中训练的样本数,yi代表第i个训练样本的真实情感标注;Sl是步骤3中定义的特征向量第l个元素的值,代表第l个类别在网络中的得分;
步骤6:根据计算的损失函数值,在反向传递中使用随机梯度下降来更新权重参数;
步骤7:重复步骤5到步骤6,直到完成一轮训练,根据测试数据集,进行模型测试;
步骤8:重复步骤7,直到模型达到最优或完成总迭代轮数;
步骤9:生成图像情感激活图
Figure FDA0002311277150000021
CN201911259699.2A 2019-12-10 2019-12-10 一种基于交叉空间池化策略的弱监督图像情感分类与定位方法 Pending CN111026898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911259699.2A CN111026898A (zh) 2019-12-10 2019-12-10 一种基于交叉空间池化策略的弱监督图像情感分类与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911259699.2A CN111026898A (zh) 2019-12-10 2019-12-10 一种基于交叉空间池化策略的弱监督图像情感分类与定位方法

Publications (1)

Publication Number Publication Date
CN111026898A true CN111026898A (zh) 2020-04-17

Family

ID=70205332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911259699.2A Pending CN111026898A (zh) 2019-12-10 2019-12-10 一种基于交叉空间池化策略的弱监督图像情感分类与定位方法

Country Status (1)

Country Link
CN (1) CN111026898A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797936A (zh) * 2020-07-13 2020-10-20 长沙理工大学 基于显著性检测和多层次特征融合的图像情感分类方法及装置
CN112329680A (zh) * 2020-11-13 2021-02-05 重庆邮电大学 基于类激活图的半监督遥感影像目标检测和分割方法
CN113191381A (zh) * 2020-12-04 2021-07-30 云南大学 一种基于交叉知识的图像零次分类模型及其分类方法
CN113408511A (zh) * 2021-08-23 2021-09-17 南开大学 一种确定注视目标的方法、***、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及***
CN108960140A (zh) * 2018-07-04 2018-12-07 国家新闻出版广电总局广播科学研究院 基于多区域特征提取和融合的行人再识别方法
CN109165692A (zh) * 2018-09-06 2019-01-08 中国矿业大学 一种基于弱监督学习的用户性格预测装置及方法
CN110119688A (zh) * 2019-04-18 2019-08-13 南开大学 一种利用视觉注意力协同网络的图像情感分类方法
CN110322509A (zh) * 2019-06-26 2019-10-11 重庆邮电大学 基于层级类激活图的目标定位方法、***及计算机设备
CN110334584A (zh) * 2019-05-20 2019-10-15 广东工业大学 一种基于区域全卷积网络的手势识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399406A (zh) * 2018-01-15 2018-08-14 中山大学 基于深度学习的弱监督显著性物体检测的方法及***
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN108960140A (zh) * 2018-07-04 2018-12-07 国家新闻出版广电总局广播科学研究院 基于多区域特征提取和融合的行人再识别方法
CN109165692A (zh) * 2018-09-06 2019-01-08 中国矿业大学 一种基于弱监督学习的用户性格预测装置及方法
CN110119688A (zh) * 2019-04-18 2019-08-13 南开大学 一种利用视觉注意力协同网络的图像情感分类方法
CN110334584A (zh) * 2019-05-20 2019-10-15 广东工业大学 一种基于区域全卷积网络的手势识别方法
CN110322509A (zh) * 2019-06-26 2019-10-11 重庆邮电大学 基于层级类激活图的目标定位方法、***及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张景莲等: "基于特征融合的恶意代码分类研究", 《计算机工程》 *
杨珂等: "基于机器学习的分布式光伏电站投建人信用风险评估模型研究", 《征信》 *
王忠珂等: "一种PE文件特征提取方法研究与实现", 《第十届中国通信学会学术年会论文集中国通信学会青年工作委员会会议论文集》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797936A (zh) * 2020-07-13 2020-10-20 长沙理工大学 基于显著性检测和多层次特征融合的图像情感分类方法及装置
CN111797936B (zh) * 2020-07-13 2023-08-08 长沙理工大学 基于显著性检测和多层次特征融合的图像情感分类方法及装置
CN112329680A (zh) * 2020-11-13 2021-02-05 重庆邮电大学 基于类激活图的半监督遥感影像目标检测和分割方法
CN112329680B (zh) * 2020-11-13 2022-05-03 重庆邮电大学 基于类激活图的半监督遥感影像目标检测和分割方法
CN113191381A (zh) * 2020-12-04 2021-07-30 云南大学 一种基于交叉知识的图像零次分类模型及其分类方法
CN113408511A (zh) * 2021-08-23 2021-09-17 南开大学 一种确定注视目标的方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
US11195051B2 (en) Method for person re-identification based on deep model with multi-loss fusion training strategy
CN109344736B (zh) 一种基于联合学习的静态图像人群计数方法
CN111026898A (zh) 一种基于交叉空间池化策略的弱监督图像情感分类与定位方法
CN109410168B (zh) 用于确定图像中的子图块类别的卷积神经网络的建模方法
Pan et al. Image aesthetic assessment assisted by attributes through adversarial learning
CN109614921B (zh) 一种基于对抗生成网络的半监督学习的细胞分割方法
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
Sajanraj et al. Indian sign language numeral recognition using region of interest convolutional neural network
CN110827304A (zh) 一种基于深度卷积网络与水平集方法的中医舌像定位方法和***
CN104966052A (zh) 基于属性特征表示的群体行为识别方法
Fan Research and realization of video target detection system based on deep learning
WO2020119624A1 (zh) 一种基于深度学习的类别敏感型边缘检测方法
Takimoto et al. Image aesthetics assessment based on multi-stream CNN architecture and saliency features
Zhu et al. NAGNet: A novel framework for real‐time students' sentiment analysis in the wisdom classroom
CN113283334B (zh) 一种课堂专注度分析方法、装置和存储介质
Li et al. Image aesthetic quality evaluation using convolution neural network embedded learning
CN110751005A (zh) 融合深度感知特征和核极限学习机的行人检测方法
Wang et al. Single shot multibox detector with deconvolutional region magnification procedure
Lai et al. Robust text line detection in equipment nameplate images
Aghera et al. MnasNet based lightweight CNN for facial expression recognition
Chen et al. Saliency detection via topological feature modulated deep learning
Liu et al. ABSNet: Aesthetics-based saliency network using multi-task convolutional network
CN111401225B (zh) 基于改进逻辑回归分类的人群异常行为检测方法
Kadar et al. Scenenet: A perceptual ontology for scene understanding
Yang et al. Video system for human attribute analysis using compact convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417

RJ01 Rejection of invention patent application after publication