CN115169440A - 一种对社交媒体多模态信息中讽刺情感识别的方法 - Google Patents

一种对社交媒体多模态信息中讽刺情感识别的方法 Download PDF

Info

Publication number
CN115169440A
CN115169440A CN202210682483.2A CN202210682483A CN115169440A CN 115169440 A CN115169440 A CN 115169440A CN 202210682483 A CN202210682483 A CN 202210682483A CN 115169440 A CN115169440 A CN 115169440A
Authority
CN
China
Prior art keywords
image
text
vector
mode
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210682483.2A
Other languages
English (en)
Inventor
王语涵
林鸿飞
杨亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210682483.2A priority Critical patent/CN115169440A/zh
Publication of CN115169440A publication Critical patent/CN115169440A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种对社交媒体多模态信息中讽刺情感识别的方法,充分利用文本、图像和图像属性三种模态来解决具有挑战性的多模态讽刺检测任务。首先提取图像特征和图像属性特征,接着利用图像属性特征与基于RoBERTa的文本预训练网络连接提取文本特征,从而将文本模态、图像模态和图像属性模态的特征重构并融合为一个特征向量对讽刺情感进行预测。本发明在社交媒体的图文信息数据集上有超过1%的准确率提升和超过3%的F1值提升,证明了多模态分层融合模型的有效性和三种模态的实用性,从而充分发挥文本的上下文信息和不同模态间的相互作用。

Description

一种对社交媒体多模态信息中讽刺情感识别的方法
技术领域
本发明属于情感识别技术领域,特别涉及一种对社交媒体多模态信息中讽刺情感识别的方法。
背景技术
讽刺在日常生活中是一种常见的情感表达方式,人们通常会用其来传达轻蔑、为难和嘲笑等情绪。在社交网络和影视作品中,恰当地使用讽刺也是幽默性与艺术性的体现。
现有的讽刺识别技术主要针对文本,研究方法主要分为基于特征工程的方法和基于深度学***台允许用户创建多模式消息包括文本和图像等,所以仅基于文本信息的检测讽刺是远远不够的。
多模态讽刺识别技术大多使用深度卷积神经网络内层的激活值提取不同模态下的特征,再将这些特征组合成为一种组合特征向量来训练一个基于多核学习的分类器进行分类。现有的多模态特征融合方法令文本的上下文信息作用和不同模态间的相互作用未得到充分的发挥。
发明内容
为了克服现有技术中存在的不足,本发明提供了一种对社交媒体多模态信息中讽刺情感识别的方法。根据社交媒体中的图文信息建模,在文本和图像模态的基础上引入了图像属性信息,将文本、图像和图像属性作为三种模态,引入了Attention机制的RoBERTa-LSTM神经网络提取文本特征和图像属性特征,并使用现有的ResNet网络提取图像特征,最终构建了一种多模态分层融合模型。克服了现有方法中,文本的上下文信息作用和不同模态间的相互作用未得到充分发挥的缺陷。
本发明通过一种多模态分层融合模型,充分利用文本、图像和图像属性三种模态来解决具有挑战性的多模态讽刺检测任务。首先提取图像特征和图像属性特征,接着利用图像属性特征与基于RoBERTa的文本预训练网络连接提取文本特征,从而将文本模态、图像模态和图像属性模态的特征重构并融合为一个特征向量对讽刺情感进行预测。
本发明的技术方案为:
一种对社交媒体多模态信息中讽刺情感识别的方法,包括步骤如下:
步骤1,获得数据元组包括文本和图像,其中文本信息进行文本特征提取;图像信息进行图像特征和图像属性特征提取;
步骤2,将步骤1中的文本特与图像属性特征融合,进行重构文本-图像属性向量;重构步骤1中的图像特征向量;重构步骤1中的图像属性特征向量;
步骤3,将步骤2中重构后的文本-图像属性特征向量、图像特征向量、图像属性特征向量融合;
步骤4,将步骤3融合三种模态的特征向量进行分类器分类。
进一步地,所述步骤1中文本特征提取具体为:首先通过RoBERTa预训练模型获取包含上下文语义信息的词向量,然后利用长短时记忆网络LSTM提取上下文相关特征进行深度学习,最后引入注意力机制对提取出的信息分配权重,突出重点信息进行文本情感分析并进行特征提取,得到结果矩阵z;
文本的特征向量vt由结果矩阵z中每个向量的算数平均得到,如公式(1)所示,
Figure RE-GDA0003818525370000021
其中L代表文本长度。
进一步地,所述步骤1中图像特征提取具体为:以ResNet-50V2网络为基础使用ResNet50_innovation层提取特征,进而获得推文图像的区域原始向量vi,图像的特征向量va是所有区域原始向量vi的平均值,见公式(2),
Figure RE-GDA0003818525370000031
其中N表示每张图片区域个数。
进一步地,所述步骤1中图像属性特征提取具体为:为每张图像预测5个属性标签ai(i=1,2,3,4,5),5个属性标签构成一张图像的属性原始向量v(ai),将原始向量放入两层神经网络中获得注意力权值αi,最后将权值进行加权平均获得图片属性的特征向量vatt,见公式(3),
Figure RE-GDA0003818525370000032
其中W1和W2是权重矩阵,b1和b2是偏差,Na是属性的数量为5。
进一步地,所述步骤2中,将文本与图像属性特征融合:
将图像属性特征向量vatt作为Bi-LSTM网络的初始状态,如公式(4)所示;
Figure RE-GDA0003818525370000033
其中
Figure RE-GDA0003818525370000034
分别代表正向LSTM网络的隐层状态和细胞状态,
Figure RE-GDA0003818525370000035
分别代表负向LSTM网络的隐层状态和细胞状态,分号代表向量串联,ReLu表示激活函数,W和b代表权重矩阵和偏置系数;
经公式(4)的融合后,将包含文本与图像属性信息的特征向量记作文本-图像属向量v't
进一步地,所述步骤2中,重构三种模态下的特征向量:
Figure RE-GDA0003818525370000036
是模态m的第i个原始向量,所述m为文本-图像属性模态、图像模态或图像属性模态中的一种;其中,文本-图像属性模态下的原始向量为在LSTM 层t时刻的隐藏状态ht、图像模态下的原始向量为vi和图像属性模态下的原始向量为v(ai);
利用双层神经网络学***均,得到模态m下的重构特征向量vm
进一步地,所述步骤3中,使用双层前馈神经网络计算步骤2得到的不同模态下重构向量的权值分配,最终得到一个恒长的融合向量vf
进一步地,所述步骤4中,将步骤3得到的融合向量输入由两层全连接神经网络构成的分类器进行讽刺情感的判断。
本发明的效果为,与现有技术相比本发明在社交媒体的图文信息数据集上有超过1%的准确率提升和超过3%的F1值提升,证明了多模态分层融合模型的有效性和三种模态的实用性,从而充分发挥文本的上下文信息和不同模态间的相互作用。
附图说明
图1是本发明技术方案的流程图。
图2为本发明技术方案的结构框图。
图3为本发明实施例真正例。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
在公开的Twitter数据集中,对于包含2464个实例的测试集。
采用如图1所示,对社交媒体多模态信息中讽刺情感识别的方法,包括步骤如下:
文本特征:如图2所示,使用RoBERTa、长短时记忆网络LSTM以及多头注意力机制搭建神经网络来解决文本分类问题。首先通过RoBERTa预训练模型获取包含上下文语义信息的词向量,然后利用长短时记忆网络LSTM提取上下文相关特征进行深度学习,最后引入注意力机制对提取出的信息分配权重,突出重点信息进行文本情感分析并进行特征提取。
文本的特征向量vt由如上网络的结果矩阵z中每个向量的算数平均得到,如公式(1)所示,其中L代表文本长度。
Figure RE-GDA0003818525370000051
图像特征:以ResNet-50V2网络为基础使用ResNet50_innovation层提取特征,进而获得推文图像的区域原始向量vi,图像的特征向量va是所有区域原始向量vi的平均值,其中N表示每张图片区域个数,见公式(2)。
Figure RE-GDA0003818525370000052
图像属性特征:为每张图像预测5个属性标签ai(i=1,2,3,4,5),5个属性标签构成一张图像的属性原始向量v(ai),接着将原始向量放入两层神经网络中获得注意力权值αi,最后将权值进行加权平均获得图片属性的特征向量vatt,见公式(3)。
Figure RE-GDA0003818525370000053
其中W1和W2是权重矩阵,b1和b2是偏差,Na是属性的数量,也就是5。
将文本与图像属性特征融合:
将图像属性特征向量vatt作为Bi-LSTM网络的初始状态,如公式(4)所示;
Figure RE-GDA0003818525370000054
其中
Figure RE-GDA0003818525370000055
分别代表正向LSTM网络的隐层状态和细胞状态,
Figure RE-GDA0003818525370000056
分别代表负向LSTM网络的隐层状态和细胞状态,分号代表向量串联,ReLu表示激活函数,W和b代表权重矩阵和偏置系数;
经公式(4)的融合后,将包含文本与图像属性信息的特征向量记作文本-图像属向量v't
重构三种模态下的特征向量:
Figure RE-GDA0003818525370000057
是模态m的第i个原始向量,所述m为文本-图像属性模态、图像模态或图像属性模态中的一种;其中,文本-图像属性模态下的原始向量为在LSTM 层t时刻的隐藏状态ht、图像模态下的原始向量为vi(每张图像有14*14个)和图像属性模态下的原始向量为v(ai)(每张图像有5个);
利用双层神经网络学***均,得到模态m下的重构特征向量vm
使用双层前馈神经网络计算不同模态下重构向量的权值分配,最终得到一个恒长的融合向量vf
将融合向量vf输入由两层全连接神经网络构成的分类器进行讽刺情感的判断。
本实施例讽刺识别的准确率达到约83%,其中真正例834个,真负例1212 个,假正例184个,假负例234个。如图3为真正例,模型通过#eyeroll这个关键词标签文本和社交媒体言论的截图识别出了讽刺情感。
表1
Figure RE-GDA0003818525370000062
如表1所示,基于社交媒体的图文信息数据集,与现有模型CNN、Bi-LSTM,本实施例的技术方案在准确率、精准率、召回率、F值均有所提升,证明了多模态分层融合模型的有效性和三种模态融合的实用性,从而充分发挥文本的上下文信息和不同模态间的相互作用。
本文中采用了具体个例对本发明的原理及实施方案进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种对社交媒体多模态信息中讽刺情感识别的方法,其特征在于,包括步骤如下:
步骤1,获得数据元组包括文本和图像,其中文本信息进行文本特征提取;图像信息进行图像特征和图像属性特征提取;
步骤2,将步骤1中的文本特与图像属性特征融合,进行重构文本-图像属性向量;重构步骤1中的图像特征向量;重构步骤1中的图像属性特征向量;
步骤3,将步骤2中重构后的文本-图像属性特征向量、图像特征向量、图像属性特征向量融合;
步骤4,将步骤3融合三种模态的特征向量进行分类器分类。
2.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法,其特征在于,所述步骤1中文本特征提取具体为:首先通过RoBERTa预训练模型获取包含上下文语义信息的词向量,然后利用长短时记忆网络LSTM提取上下文相关特征进行深度学习,最后引入注意力机制对提取出的信息分配权重,突出重点信息进行文本情感分析并进行特征提取,得到结果矩阵z;
文本的特征向量vt由结果矩阵z中每个向量的算数平均得到,如公式(1)所示,
Figure FDA0003698878280000011
其中L代表文本长度。
3.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法,其特征在于,所述步骤1中图像特征提取具体为:以ResNet-50 V2网络为基础使用ResNet50_innovation层提取特征,进而获得推文图像的区域原始向量vi,图像的特征向量va是所有区域原始向量vi的平均值,见公式(2),
Figure FDA0003698878280000012
其中N表示每张图片区域个数。
4.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法,其特征在于,所述步骤1中图像属性特征提取具体为:为每张图像预测5个属性标签ai(i=1,2,3,4,5),5个属性标签构成一张图像的属性原始向量v(ai),将原始向量放入两层神经网络中获得注意力权值αi,最后将权值进行加权平均获得图片属性的特征向量vatt,见公式(3),
Figure FDA0003698878280000021
其中W1和W2是权重矩阵,b1和b2是偏差,Na是属性的数量为5。
5.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法,其特征在于,所述步骤2中,将文本与图像属性特征融合:
将图像属性特征向量vatt作为Bi-LSTM网络的初始状态,如公式(4)所示;
Figure FDA0003698878280000022
其中
Figure FDA0003698878280000023
分别代表正向LSTM网络的隐层状态和细胞状态,
Figure FDA0003698878280000024
分别代表负向LSTM网络的隐层状态和细胞状态,分号代表向量串联,ReLu表示激活函数,W和b代表权重矩阵和偏置系数;
经公式(4)的融合后,将包含文本与图像属性信息的特征向量记作文本-图像属向量vt'。
6.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法,其特征在于,所述步骤2中,重构三种模态下的特征向量:
Figure FDA0003698878280000025
是模态m的第i个原始向量,所述m为文本-图像属性模态、图像模态或图像属性模态中的一种;其中,文本-图像属性模态下的原始向量为在LSTM层t时刻的隐藏状态ht、图像模态下的原始向量为vi和图像属性模态下的原始向量为v(ai);
利用双层神经网络学***均,得到模态m下的重构特征向量vm
7.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法,其特征在于,所述步骤3中,使用双层前馈神经网络计算步骤2得到的不同模态下重构向量的权值分配,最终得到一个恒长的融合向量vf
8.根据权利要求1所述对社交媒体多模态信息中讽刺情感识别的方法,其特征在于,所述步骤4中,将步骤3得到的融合向量输入由两层全连接神经网络构成的分类器进行讽刺情感的判断。
CN202210682483.2A 2022-06-16 2022-06-16 一种对社交媒体多模态信息中讽刺情感识别的方法 Pending CN115169440A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210682483.2A CN115169440A (zh) 2022-06-16 2022-06-16 一种对社交媒体多模态信息中讽刺情感识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210682483.2A CN115169440A (zh) 2022-06-16 2022-06-16 一种对社交媒体多模态信息中讽刺情感识别的方法

Publications (1)

Publication Number Publication Date
CN115169440A true CN115169440A (zh) 2022-10-11

Family

ID=83485261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210682483.2A Pending CN115169440A (zh) 2022-06-16 2022-06-16 一种对社交媒体多模态信息中讽刺情感识别的方法

Country Status (1)

Country Link
CN (1) CN115169440A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371456A (zh) * 2023-10-10 2024-01-09 国网江苏省电力有限公司南通供电分公司 一种基于特征融合的多模态讽刺检测方法及***
CN117540023A (zh) * 2024-01-08 2024-02-09 南京信息工程大学 基于模态融合图卷积网络的图像联合文本情感分析方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371456A (zh) * 2023-10-10 2024-01-09 国网江苏省电力有限公司南通供电分公司 一种基于特征融合的多模态讽刺检测方法及***
CN117371456B (zh) * 2023-10-10 2024-07-16 国网江苏省电力有限公司南通供电分公司 一种基于特征融合的多模态讽刺检测方法及***
CN117540023A (zh) * 2024-01-08 2024-02-09 南京信息工程大学 基于模态融合图卷积网络的图像联合文本情感分析方法

Similar Documents

Publication Publication Date Title
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
Poria et al. Context-dependent sentiment analysis in user-generated videos
CN111767741B (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
CN112651448B (zh) 一种面向社交平台表情包的多模态情感分析方法
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN115169440A (zh) 一种对社交媒体多模态信息中讽刺情感识别的方法
CN115329779B (zh) 一种多人对话情感识别方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及***
CN110457466A (zh) 生成访谈报告的方法、计算机可读存储介质和终端设备
Wang et al. Learning Mutual Correlation in Multimodal Transformer for Speech Emotion Recognition.
CN110119443B (zh) 一种面向推荐服务的情感分析方法
CN109829499A (zh) 基于同一特征空间的图文数据融合情感分类方法和装置
Geng Evaluation model of college english multimedia teaching effect based on deep convolutional neural networks
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN114973044A (zh) 一种基于双模态信息增强多头注意力的视频情感分析方法
CN114036993A (zh) 基于多尺度跨模态神经网络的多模态讽刺对象检测方法
CN112800225A (zh) 一种微博评论情绪分类方法和***
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN115392232A (zh) 一种融合主题和多模态的突发事件情感分析方法
Gandhi et al. Multimodal sentiment analysis: review, application domains and future directions
CN114416969A (zh) 一种基于背景增强的lstm-cnn在线评论情感分类方法及***
CN117150320A (zh) 对话数字人情感风格相似度评价方法及***
CN108228779A (zh) 一种基于学习社区对话流的成绩预测方法
CN116484872A (zh) 基于预训练与注意力的多模态方面级情感判断方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination