CN115631504A - 一种基于双模态图网络信息瓶颈的情感识别方法 - Google Patents

一种基于双模态图网络信息瓶颈的情感识别方法 Download PDF

Info

Publication number
CN115631504A
CN115631504A CN202211645853.1A CN202211645853A CN115631504A CN 115631504 A CN115631504 A CN 115631504A CN 202211645853 A CN202211645853 A CN 202211645853A CN 115631504 A CN115631504 A CN 115631504A
Authority
CN
China
Prior art keywords
graph
bimodal
text
image
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211645853.1A
Other languages
English (en)
Other versions
CN115631504B (zh
Inventor
李丽
李平
苟丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202211645853.1A priority Critical patent/CN115631504B/zh
Publication of CN115631504A publication Critical patent/CN115631504A/zh
Application granted granted Critical
Publication of CN115631504B publication Critical patent/CN115631504B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于双模态图网络信息瓶颈的情感识别方法,包括数据预处理,通过相应的预训练模型分别对图文进行编码;使用长短期记忆网络和前馈神经网络分别进行文本和图像的特征提取;基于语法依赖关系和视觉块相邻位置关系的模态内拓扑图的构建,基于完全二部图的双模态拓扑图的构建;设计基于双模态图网络的模态交互模块,利用图卷积网络实现模态内和模态间的信息交互;通过图池化技术将双模态拓扑图的节点表示转化为图表示;采用多层感知机进行双模态情感识别。此外,建立信息瓶颈模块,提升方法的泛化能力。本发明提供的一种基于双模态图网络信息瓶颈的情感识别方法,能够有效地融合模态信息,并用于指导情感识别。

Description

一种基于双模态图网络信息瓶颈的情感识别方法
技术领域
本发明属于自然语言处理、视觉交叉领域内的双模态情感识别领域,具体涉及一种基于双模态图网络信息瓶颈的情感识别方法。
背景技术
情感识别的目的是利用自然语言处理技术挖掘数据中的主观信息,它在各大领域被广泛应用,如:金融市场预测、商业评论分析等。随着互联网技术的快速发展,互联网中的信息逐渐从纯文本向双模态转变,导致现有的情感分析方法面临着新的挑战和机遇。如何有效地从双模态数据中提取和融合特征是双模态情感表征的关键。
一般的双模态情感识别可通过将所有单模态特征拼接、加和、计算哈达玛积等方式实现,但这类方式无法获得模态之间的相关性。最近,引入交叉注意力机制的方法增强了双模态数据的特征融合;然而,交叉注意力仅仅建立了一种模态的全局语义与另一模态上的局部特征的关联,不足以反映各个模态在局部特征上的对齐关系,将模态的整体特征表示用于语义对齐会产生较大噪声。此外,基于注意力机制的方法还有另一个弊端,这类方法通常需要精心设计注意力方式,如:多层/多次的注意力,多层注意力将会引入较多参数,从而提高过拟合的可能性。
发明内容
本发明的目的在于克服现有技术中的缺点与不足,提供一种基于双模态图网络信息瓶颈的情感识别方法,将各模态的数据分解为细粒度的语义单元,如:文本词和图像视觉块,利用各个模态内和模态间的关联性,建立双模态细粒度语义单元之间的联系,从而使双模态特征融合直接在细粒度语义单元之间进行,即采用局部对齐局部的方式为各模态的表征信息建立映射关系,从而可以充分融合文本的语义信息和图像的局部信息。此外,加入信息瓶颈机制,可以有效提升方法的泛化能力。
为实现上述目的,本发明采用以下技术方案:
S1:数据预处理,采用词嵌入技术Glove处理文本,得到文本嵌入矩阵
Figure 861635DEST_PATH_IMAGE001
;采用图像处理技术ResNet152处理图像,图像在处理之前先切割成
Figure 944998DEST_PATH_IMAGE002
个视觉块,得到图像表示矩阵
Figure 944178DEST_PATH_IMAGE003
;其中,
Figure 759687DEST_PATH_IMAGE002
表示视觉块的个数。
S2:对预处理后的嵌入表示进行特征提取,使用双向长短期记忆网络提取文本特征
Figure 80203DEST_PATH_IMAGE004
,使用前馈神经网络提取图像特征
Figure 373781DEST_PATH_IMAGE005
S3:利用文本中的语法依赖关系和图像中的空间位置关系构造拓扑图。具体操作为:
S31:以文本中的词作为节点,依存树中的语法依赖关系作为无向边,构造一个文本模态内的拓扑图
Figure 961889DEST_PATH_IMAGE006
S32:以图像中的视觉块作为节点,视觉块之间的空间位置关系作为无向边,构造一个图像模态内的拓扑图
Figure 213879DEST_PATH_IMAGE007
S33:以文本中的词和图像中的视觉块作为两组节点,词中的任一节点与视觉块中每一个节点均形成一条无向边,构造一个完全二部图作为双模态拓扑图
Figure 35073DEST_PATH_IMAGE008
S4:设计基于双模态图网络的模态交互模块,利用图卷积网络的消息传递机制进行表示学习,实现模态内和模态间的信息交互和特征融合。具体操作为:
S41:以文本模态内的拓扑图
Figure 538867DEST_PATH_IMAGE009
为邻接矩阵,S2提取的文本特征为词节点特征向量,通过图卷积网络进行词节点的表示学习,实现文本模态内的信息交互,计算公式如下:
Figure 732213DEST_PATH_IMAGE010
上式中,
Figure 155104DEST_PATH_IMAGE011
为可训练参数,
Figure 948747DEST_PATH_IMAGE012
为sigmoid激活函数。
S42:以图像模态内的拓扑图
Figure 584128DEST_PATH_IMAGE013
为邻接矩阵,S2提取的图像特征为视觉块节点特征向量,通过图卷积网络进行视觉块节点的表示学习,实现图像模态内的信息交互,计算公式如下:
Figure 661674DEST_PATH_IMAGE014
上式中,
Figure 865254DEST_PATH_IMAGE015
为可训练参数,
Figure 5248DEST_PATH_IMAGE012
为sigmoid激活函数。
S43:以双模态拓扑图
Figure 444320DEST_PATH_IMAGE008
作为邻接矩阵,拼接S2提取的文本和图像特征为节点特征向量
Figure 612258DEST_PATH_IMAGE016
,通过图卷积网络进行信息的聚合,实现模态间的信息融合,计算公式如下:
Figure 111373DEST_PATH_IMAGE017
上式中,
Figure 348450DEST_PATH_IMAGE018
为可训练参数,
Figure 591213DEST_PATH_IMAGE012
为sigmoid激活函数。
S44:根据模型的具体参数设置循环S41-S43。
S5:建立信息瓶颈模块,提升方法的泛化能力。具体操作为:
S51:将S1数据预处理之后的文本嵌入和图像嵌入进行拼接,得到信息瓶颈模块的输入特征
Figure 377772DEST_PATH_IMAGE019
S52:将S2提取到的文本特征和图像特征进行拼接,得到信息瓶颈模块的中间特征
Figure 188733DEST_PATH_IMAGE020
S53:将S4基于双模态图网络的模态交互之后的文本表示和图像表示进行拼接,作为信息瓶颈模块的输出特征
Figure 568899DEST_PATH_IMAGE021
S54:信息瓶颈的目标是减少
Figure 913555DEST_PATH_IMAGE022
Figure 85779DEST_PATH_IMAGE020
之间的互信息,增加
Figure 552795DEST_PATH_IMAGE020
Figure 30043DEST_PATH_IMAGE021
之间的互信息,计算公式如下:
Figure 614609DEST_PATH_IMAGE023
上式中,
Figure 110181DEST_PATH_IMAGE024
为信息瓶颈模块需要优化的目标,
Figure 262945DEST_PATH_IMAGE025
为基于双模态图网络信息瓶颈的情感识别方法的参数,
Figure 86544DEST_PATH_IMAGE026
Figure 209221DEST_PATH_IMAGE020
Figure 60764DEST_PATH_IMAGE021
之间的互信息,
Figure 977905DEST_PATH_IMAGE027
Figure 429746DEST_PATH_IMAGE019
Figure 356114DEST_PATH_IMAGE020
之间的互信息,
Figure 560699DEST_PATH_IMAGE028
为可调节的系数。
S6:采用拼接双模态拓扑图中所有节点表示的图池化技术得到图表示向量,计算公式如下:
Figure DEST_PATH_IMAGE029
上式中,
Figure 586424DEST_PATH_IMAGE030
表示拼接文本和视觉块所有节点表示得到的图表示向量,
Figure 119036DEST_PATH_IMAGE031
为双模态拓扑图中的所有节点,
Figure 583516DEST_PATH_IMAGE032
为S4之后节点
Figure 397933DEST_PATH_IMAGE031
的表示。
S7:通过多层感知机作为分类器,识别双模态的情感倾向。
S8:通过双模态数据对模型进行训练,使用交叉熵损失函数加上信息瓶颈目标函数作为模型训练目标,并使用带有热启动的Adam优化器训练模型。模型的训练目标如下:
Figure 922455DEST_PATH_IMAGE033
上式中,
Figure 817730DEST_PATH_IMAGE034
为训练集中的一个样本,
Figure 85900DEST_PATH_IMAGE035
为所有训练样本的集合,
Figure 530657DEST_PATH_IMAGE028
为可调节的系数,
Figure 226080DEST_PATH_IMAGE036
为基于双模态图网络信息瓶颈的情感识别方法的参数,
Figure 874230DEST_PATH_IMAGE037
为样本的真实值,
Figure 680512DEST_PATH_IMAGE038
为预测值。
S9:通过训练好的模型对待分类的双模态数据进行分类,得到情感识别结果。
本发明的一种基于双模态图网络信息瓶颈的情感识别方法,相比于现有的双模态情感识别方法,具有以下有益效果:
1、将文本词和视觉块形成一个双模态拓扑图,利用了文本的语法信息及图像的空间位置信息;
2、双模态拓扑图建立双模态细粒度语义单元之间的联系,从而使多模态特征融合直接在细粒度语义单元之间进行,可以充分融合文本的语义信息和图像的局部信息,比较大的补充了现有方法的不足;
3、利用信息瓶颈机制,有效提升了方法的泛化能力。
附图说明
图 1 为本发明的整体流程图;
图 2 为本发明的***模型图;
图 3 为本发明的双模态拓扑图的构建模块。
具体实施方式
为了使公众对本发明有更好的了解,以下将结合附图阐述本发明的具体实施方式。其中,附图仅用于示例性说明,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明提供的一种基于双模态图网络信息瓶颈的情感识别方法,包括以下步骤:
S1:数据预处理,通过相应的预训练模型分别对文本和图像进行预处理。
如图1所示,先分离双模态数据中的文本和图像,然后分别对文本和图像进行预处理。对于文本,在预训练的Glove中查找单词的表示,将每个单词映射为一个300维的向量,得到文本嵌入矩阵
Figure 589563DEST_PATH_IMAGE001
;对于图像,先切割成
Figure 347565DEST_PATH_IMAGE002
个视觉块,然后采用图像处理技术ResNet152处理每一个视觉块,将每个视觉块处理为1024维的表示向量,最后得到图像嵌入矩阵
Figure 76487DEST_PATH_IMAGE003
;其中,
Figure 827405DEST_PATH_IMAGE002
表示视觉块的个数。
S2:对预处理后的嵌入表示进行特征提取。
如图1所示,分别对S1获得的文本嵌入和图像嵌入进行特征提取。
由于文本中存在前后顺序关系,为了将更多的上下文信息整合到词嵌入中,采用双向长短前期记忆网络进行上下文语义依赖学习,提取文本特征
Figure 856541DEST_PATH_IMAGE039
。具体计算公式图下:
Figure 628188DEST_PATH_IMAGE040
Figure 500198DEST_PATH_IMAGE041
Figure 648283DEST_PATH_IMAGE042
Figure 407291DEST_PATH_IMAGE043
Figure 349839DEST_PATH_IMAGE044
Figure 318932DEST_PATH_IMAGE045
上式中,
Figure 162386DEST_PATH_IMAGE046
为遗忘门,
Figure 634955DEST_PATH_IMAGE047
为输入门,
Figure 154930DEST_PATH_IMAGE048
为输出门,
Figure 611319DEST_PATH_IMAGE049
为候选值向量,
Figure 101206DEST_PATH_IMAGE050
为上一时刻的记忆细胞,
Figure 84074DEST_PATH_IMAGE051
为当前时刻的记忆细胞,
Figure 634004DEST_PATH_IMAGE052
为上一时刻的隐藏状态表示,
Figure 187476DEST_PATH_IMAGE053
为当前时刻的隐藏状态表示,
Figure 100002_DEST_PATH_IMAGE054
Figure 12213DEST_PATH_IMAGE055
Figure 351053DEST_PATH_IMAGE056
Figure 337463DEST_PATH_IMAGE057
Figure 100002_DEST_PATH_IMAGE058
Figure 909390DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE060
Figure 396872DEST_PATH_IMAGE061
表示长短期记忆网络的可训练参数,下标
Figure DEST_PATH_IMAGE062
表示当前词在文本中的位置索引。
由于图像的视觉块之间不存在序列特征,因此采用前馈神经网络提取图像特征
Figure 105065DEST_PATH_IMAGE005
。具体计算公式如下:
Figure 262377DEST_PATH_IMAGE063
上式中,
Figure DEST_PATH_IMAGE064
表示前馈神经网络的可训练参数。
为了方便后续特征融合的实现,文本特征
Figure 806753DEST_PATH_IMAGE039
和图像特征
Figure 707713DEST_PATH_IMAGE005
的维度都设置成128。
S3:利用文本中的语法依赖关系和图像中的空间位置关系构造拓扑图。
为了解决现有技术的不足,反映各个模态在局部特征上的对齐关系。如图3所示,这一步将构造三个拓扑图,即:两个模态内拓扑图和一个双模态拓扑图,具体操作如下。
S31:对于文本模态,由于单词之间存在复杂的语法依赖关系,且建模语法依赖有助于文本信息的学习。因此,以文本中的词作为节点,依存树中的语法依赖关系作为无向边,构造一个文本模态内的拓扑图
Figure 270412DEST_PATH_IMAGE006
S32:以图像中的视觉块作为节点,视觉块之间的空间位置关系作为无向边,构造一个图像模态内的拓扑图
Figure 333046DEST_PATH_IMAGE007
S33:建立双模态细粒度语义单元之间的联系,可以使双模态特征融合直接在细粒度语义单元之间进行,即:采用局部对齐局部的方式为各模态的表征信息建立映射关系,从而充分融合文本的语义信息和图像的局部信息。因此,以文本中的词和图像中的视觉块作为两组节点,词中的任一节点与视觉块中每一个节点均形成一条无向边,构造一个完全二部图作为双模态拓扑图
Figure 597674DEST_PATH_IMAGE008
S4:设计基于双模态图网络的模态交互模块,利用图卷积网络的消息传递机制进行表示学习,实现模态内和模态间的信息交互和特征融合。
如图2所示,将S2提取到的文本特征
Figure 771167DEST_PATH_IMAGE039
和图像特征
Figure 313007DEST_PATH_IMAGE005
送入到双模态图网络,基于S3构造的拓扑图通过图卷积网络进行信息交互和特征融合,具体操作如下。
S41:以文本模态内的拓扑图
Figure 687487DEST_PATH_IMAGE009
为邻接矩阵,
Figure 49198DEST_PATH_IMAGE039
为词节点特征向量,通过图卷积网络进行词节点的表示学习,各词节点将信息传递给与之有语法依赖关系的邻居词节点,实现文本模态内的信息交互,计算公式如下:
Figure 918060DEST_PATH_IMAGE010
上式中,
Figure 579985DEST_PATH_IMAGE011
为可训练参数,
Figure 125367DEST_PATH_IMAGE012
为sigmoid激活函数。
S42:以图像模态内的拓扑图
Figure 974374DEST_PATH_IMAGE013
为邻接矩阵,
Figure 145462DEST_PATH_IMAGE005
为视觉块节点特征向量,通过图卷积网络进行视觉块节点的表示学习,位置相邻的视觉块之间进行消息传递,实现图像模态内的信息交互,计算公式如下:
Figure 396314DEST_PATH_IMAGE014
上式中,
Figure 237231DEST_PATH_IMAGE015
为可训练参数,
Figure 448901DEST_PATH_IMAGE012
为sigmoid激活函数。
S43:以双模态拓扑图
Figure 33466DEST_PATH_IMAGE008
作为邻接矩阵,拼接S2提取的文本和图像特征为节点特征向量
Figure 30503DEST_PATH_IMAGE016
,通过图卷积网络进行信息的聚合,各节点的所有邻居节点均属于另一种模态节点,从而实现模态间的信息融合,计算公式如下:
Figure 776742DEST_PATH_IMAGE017
上式中,
Figure 741287DEST_PATH_IMAGE018
为可训练参数,
Figure 598385DEST_PATH_IMAGE012
为sigmoid激活函数。
S44:如图2所示,S41-S43构成了图卷积网络块,在对模型进行调参之后,会得到一个较优的图卷积网络块层数的参数值,根据具体参数值循环S41-S43。
S5:建立信息瓶颈模块,提升方法的泛化能力。
信息瓶颈模块贯穿了方法的整个过程,具体操作如下。
S51:将S1数据预处理之后的文本嵌入和图像嵌入进行拼接,得到信息瓶颈模块的输入特征
Figure 89409DEST_PATH_IMAGE019
S52:将S2提取到的文本特征和图像特征进行拼接,得到信息瓶颈模块的中间特征
Figure 131183DEST_PATH_IMAGE020
S53:将S4基于双模态图网络的模态交互之后的文本表示和图像表示进行拼接,作为信息瓶颈模块的输出特征
Figure 442079DEST_PATH_IMAGE021
S54:信息瓶颈的目标是减少
Figure 243813DEST_PATH_IMAGE022
Figure 323764DEST_PATH_IMAGE020
之间的互信息,增加
Figure 677385DEST_PATH_IMAGE020
Figure 101676DEST_PATH_IMAGE021
之间的互信息,计算公式如下:
Figure 566155DEST_PATH_IMAGE023
上式中,
Figure 641558DEST_PATH_IMAGE024
为信息瓶颈模块需要优化的目标,
Figure 900501DEST_PATH_IMAGE025
为基于双模态图网络信息瓶颈的情感识别方法的参数,
Figure 185989DEST_PATH_IMAGE026
Figure 844373DEST_PATH_IMAGE020
Figure 633337DEST_PATH_IMAGE021
之间的互信息,
Figure 204127DEST_PATH_IMAGE027
Figure 976911DEST_PATH_IMAGE019
Figure 783193DEST_PATH_IMAGE020
之间的互信息,
Figure 330060DEST_PATH_IMAGE028
为可调节的系数。
S6:采用图池化技术将双模态拓扑图的节点表示转化为图表示。
双模态情感识别是对数据的整体情感倾向进行分类,需要结合双模态拓扑图中所有节点的特征信息。因此,采用拼接双模态拓扑图中所有节点表示的图池化技术得到图表示向量,计算公式如下:
Figure 461964DEST_PATH_IMAGE029
上式中,
Figure 66252DEST_PATH_IMAGE030
表示拼接文本和视觉块所有节点表示得到的图表示向量,
Figure 941804DEST_PATH_IMAGE031
为双模态拓扑图中的所有节点,
Figure 829995DEST_PATH_IMAGE032
为S4之后节点
Figure 132800DEST_PATH_IMAGE031
的表示。
S7:通过S6得到的图表示向量,利用多层感知机作为分类器,识别双模态的情感倾向,计算公式如下:
Figure 755542DEST_PATH_IMAGE065
Figure 169206DEST_PATH_IMAGE066
上式中,
Figure 413368DEST_PATH_IMAGE067
为最终学习到的双模态表征,
Figure 887075DEST_PATH_IMAGE068
为模型预测的情感倾向,
Figure DEST_PATH_IMAGE069
Figure 262692DEST_PATH_IMAGE070
代表可训练的权重,
Figure DEST_PATH_IMAGE071
Figure 870260DEST_PATH_IMAGE072
为可训练的偏置。
S8:通过双模态数据对模型进行训练。
训练过程中,使用交叉熵损失函数加上信息瓶颈目标函数作为模型训练目标,并使用带有热启动的Adam优化器训练模型。其中,模型的训练目标如下:
Figure 608409DEST_PATH_IMAGE033
上式中,
Figure 862804DEST_PATH_IMAGE034
为训练集中的一个样本,
Figure 319193DEST_PATH_IMAGE035
为所有训练样本的集合,
Figure 809080DEST_PATH_IMAGE028
为可调节的系数,
Figure 293413DEST_PATH_IMAGE036
为基于双模态图网络信息瓶颈的情感识别方法的参数,
Figure 577764DEST_PATH_IMAGE037
为样本的真实值,
Figure 396816DEST_PATH_IMAGE038
为预测值。
S9:通过训练好的模型对待分类的双模态数据进行分类,得到情感识别结果。
本发明所述的实施例仅仅是对本发明的优选实施方式进行的描述,并非对本发明构思和范围进行限定,在不脱离本发明设计思想的前提下,本领域中技术人员对本发明的技术方案作出的各种变型和改进,均应落入本发明的保护范围,本发明请求保护的技术内容,已经全部记载在权利要求书中。

Claims (7)

1.一种基于双模态图网络信息瓶颈的情感识别方法,其特征在于,包括以下步骤:
S1:数据预处理,通过相应的预训练模型分别对文本和图像进行预处理;
S2:对预处理后的嵌入表示进行特征提取,使用双向长短期记忆网络提取文本特征
Figure 371805DEST_PATH_IMAGE002
,使用前馈神经网络提取图像特征
Figure 959913DEST_PATH_IMAGE004
S3:利用文本中的语法依赖关系和图像中的空间位置关系构造拓扑图;
S4:设计基于双模态图网络的模态交互模块,利用图卷积网络的消息传递机制进行表示学习,实现模态内和模态间的信息交互和特征融合;
S5:建立信息瓶颈模块,提升方法的泛化能力;
S6:采用图池化技术将双模态拓扑图的节点表示转化为图表示;
S7:通过多层感知机作为分类器,识别双模态的情感倾向;
S8:通过双模态数据对模型进行训练;
S9:通过训练好的模型对待分类的双模态数据进行分类,得到情感识别结果。
2.根据权利要求1所述的一种基于双模态图网络信息瓶颈的情感识别方法,其特征在于,所述S1具体为:采用词嵌入技术Glove处理文本,得到文本嵌入矩阵
Figure 211902DEST_PATH_IMAGE006
;采用图像处理技术ResNet152处理图像,图像在处理之前先切割成
Figure 501938DEST_PATH_IMAGE008
个视觉块,得到图像表示矩阵
Figure 599207DEST_PATH_IMAGE010
;其中,
Figure 307400DEST_PATH_IMAGE008
代表视觉块的个数。
3.根据权利要求1所述的一种基于双模态图网络信息瓶颈的情感识别方法,其特征在于,所述S3的具体步骤包括:
S31:以文本中的词作为节点,依存树中的语法依赖关系作为无向边,构造一个文本模态内的拓扑图
Figure 667975DEST_PATH_IMAGE012
S32:以图像中的视觉块作为节点,视觉块之间的空间位置关系作为无向边,构造一个图像模态内的拓扑图
Figure 320673DEST_PATH_IMAGE014
S33:以文本中的词和图像中的视觉块作为两组节点,词中的任一节点与视觉块中每一个节点均形成一条无向边,构造一个完全二部图作为双模态拓扑图
Figure 113311DEST_PATH_IMAGE016
4.根据权利要求1所述的一种基于双模态图网络信息瓶颈的情感识别方法,其特征在于,所述S4的具体步骤包括:
S41:以文本模态内的拓扑图
Figure 800644DEST_PATH_IMAGE012
为邻接矩阵,S2提取的文本特征为词节点特征向量,通过图卷积网络进行词节点的表示学习,实现文本模态内的信息交互;
S42:以图像模态内的拓扑图
Figure 4223DEST_PATH_IMAGE017
为邻接矩阵,S2提取的图像特征为视觉块节点特征向量,通过图卷积网络进行视觉块节点的表示学习,实现图像模态内的信息交互;
S43:以双模态拓扑图
Figure 144218DEST_PATH_IMAGE016
作为邻接矩阵,拼接S2提取的文本和图像特征为节点特征向量
Figure 786551DEST_PATH_IMAGE019
,通过图卷积网络进行信息的聚合,实现模态间的信息融合;
S44:根据模型的具体参数设置循环S41-S43。
5.根据权利要求1所述的一种基于双模态图网络信息瓶颈的情感识别方法,其特征在于,所述S5的具体步骤包括:
S51:将S1数据预处理之后的文本嵌入和图像嵌入进行拼接,得到信息瓶颈模块的输入特征
Figure 453025DEST_PATH_IMAGE021
S52:将S2提取到的文本特征和图像特征进行拼接,得到信息瓶颈模块的中间特征
Figure 217719DEST_PATH_IMAGE023
S53:将S4基于双模态图网络的模态交互之后的文本表示和图像表示进行拼接,作为信息瓶颈模块的输出特征
Figure 720375DEST_PATH_IMAGE025
S54:信息瓶颈的目标是减少
Figure DEST_PATH_IMAGE026
Figure 697559DEST_PATH_IMAGE023
之间的互信息,增加
Figure 720004DEST_PATH_IMAGE023
Figure 655599DEST_PATH_IMAGE025
之间的互信息,计算公式如下:
Figure DEST_PATH_IMAGE028
上式中,
Figure DEST_PATH_IMAGE030
为信息瓶颈模块需要优化的目标,
Figure DEST_PATH_IMAGE032
为基于双模态图网络信息瓶颈的情感识别方法的参数,
Figure DEST_PATH_IMAGE034
Figure 363660DEST_PATH_IMAGE023
Figure 285480DEST_PATH_IMAGE025
之间的互信息,
Figure 739595DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
Figure 3348DEST_PATH_IMAGE023
之间的互信息,
Figure DEST_PATH_IMAGE039
为可调节的系数。
6.根据权利要求1所述的一种基于双模态图网络信息瓶颈的情感识别方法,其特征在于,所述S6具体为:采用拼接双模态拓扑图中所有节点表示的图池化技术得到图表示向量,计算公式如下:
Figure DEST_PATH_IMAGE041
上式中,
Figure DEST_PATH_IMAGE043
表示拼接文本和视觉块所有节点表示得到的图表示向量,
Figure DEST_PATH_IMAGE045
为双模态拓扑图中的所有节点,
Figure DEST_PATH_IMAGE047
为S4之后节点
Figure 464286DEST_PATH_IMAGE045
的表示。
7.根据权利要求1所述的一种基于双模态图网络信息瓶颈的情感识别方法,其特征在于,所述S8具体为:使用交叉熵损失函数加上信息瓶颈目标函数作为模型训练目标,并使用带有热启动的Adam优化器训练模型;其中,模型的训练目标如下:
Figure 189796DEST_PATH_IMAGE049
上式中,
Figure 763997DEST_PATH_IMAGE051
为训练集中的一个样本,
Figure 775815DEST_PATH_IMAGE053
为所有训练样本的集合,
Figure 491093DEST_PATH_IMAGE039
为可调节的系数,
Figure DEST_PATH_IMAGE054
为基于双模态图网络信息瓶颈的情感识别方法的参数,
Figure DEST_PATH_IMAGE056
为样本的真实值,
Figure DEST_PATH_IMAGE058
为预测值。
CN202211645853.1A 2022-12-21 2022-12-21 一种基于双模态图网络信息瓶颈的情感识别方法 Active CN115631504B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211645853.1A CN115631504B (zh) 2022-12-21 2022-12-21 一种基于双模态图网络信息瓶颈的情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211645853.1A CN115631504B (zh) 2022-12-21 2022-12-21 一种基于双模态图网络信息瓶颈的情感识别方法

Publications (2)

Publication Number Publication Date
CN115631504A true CN115631504A (zh) 2023-01-20
CN115631504B CN115631504B (zh) 2023-04-07

Family

ID=84910557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211645853.1A Active CN115631504B (zh) 2022-12-21 2022-12-21 一种基于双模态图网络信息瓶颈的情感识别方法

Country Status (1)

Country Link
CN (1) CN115631504B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304984A (zh) * 2023-03-14 2023-06-23 烟台大学 基于对比学习的多模态意图识别方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379336A1 (en) * 2014-06-27 2015-12-31 Fujitsu Limited Handwriting input conversion apparatus, computer-readable medium, and conversion method
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN115363531A (zh) * 2022-08-22 2022-11-22 山东师范大学 基于双模态脑电信号信息瓶颈的癫痫检测***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379336A1 (en) * 2014-06-27 2015-12-31 Fujitsu Limited Handwriting input conversion apparatus, computer-readable medium, and conversion method
CN112860888A (zh) * 2021-01-26 2021-05-28 中山大学 一种基于注意力机制的双模态情感分析方法
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN115363531A (zh) * 2022-08-22 2022-11-22 山东师范大学 基于双模态脑电信号信息瓶颈的癫痫检测***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
范习健等: "一种融合视觉和听觉信息的双模态情感识别算法" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304984A (zh) * 2023-03-14 2023-06-23 烟台大学 基于对比学习的多模态意图识别方法及***

Also Published As

Publication number Publication date
CN115631504B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
US20220147836A1 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN111274398A (zh) 一种方面级用户产品评论情感分析方法及***
CN115034224A (zh) 一种融合多种文本语义结构图表示的新闻事件检测方法和***
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN114444516B (zh) 一种基于深度语义感知图卷积网络的粤语谣言检测方法
CN113535904A (zh) 一种基于图神经网络的方面级情感分析方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN115221325A (zh) 一种基于标签语义学习和注意力调整机制的文本分类方法
CN111598183A (zh) 一种多特征融合图像描述方法
CN114528374A (zh) 一种基于图神经网络的电影评论情感分类方法及装置
CN114648031A (zh) 基于双向lstm和多头注意力机制的文本方面级情感识别方法
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN115631504B (zh) 一种基于双模态图网络信息瓶颈的情感识别方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及***
CN111930981A (zh) 一种草图检索的数据处理方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN114818719A (zh) 一种基于复合网络与图注意力机制的社区话题分类方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN113268592B (zh) 基于多层次交互注意力机制的短文本对象情感分类方法
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置
CN116562286A (zh) 一种基于混合图注意力的智能配置事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant