CN117911929A - 一种视觉情感识别方法、装置、设备及可读存储介质 - Google Patents

一种视觉情感识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN117911929A
CN117911929A CN202410186654.1A CN202410186654A CN117911929A CN 117911929 A CN117911929 A CN 117911929A CN 202410186654 A CN202410186654 A CN 202410186654A CN 117911929 A CN117911929 A CN 117911929A
Authority
CN
China
Prior art keywords
text
visual
mode
video
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410186654.1A
Other languages
English (en)
Inventor
赵雅倩
金良
贾麒
范宝余
郭振华
尹云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202410186654.1A priority Critical patent/CN117911929A/zh
Publication of CN117911929A publication Critical patent/CN117911929A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及计算机视觉领域,具体公开了一种视觉情感识别方法、装置、设备及可读存储介质,通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,将视觉文本跨模态编码配置为基于视觉文本跨模态共识信息进行编码,相较于对齐编码增强了视觉文本跨模态编码表达能力,在初始视觉模型中配置文本情感评价编码、视觉文本跨模态编码以及融合编码的多头注意力机制,利用样本数据集、任务目标和各注意力头的损失值训练模型中各注意力头的权重,使视觉情感识别模型更准确地理解跨模态情感共识,进而调用视觉情感识别模型执行待处理视觉情感识别任务,实现更为准确的视觉情感识别。

Description

一种视觉情感识别方法、装置、设备及可读存储介质
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种视觉情感识别方法、装置、设备及可读存储介质。
背景技术
随着社交网络平台的发展,网络信息交互的方式已经不限于文字、图片、视频等多种形式,给用户带来丰富的情感互动体验,其表现为,发布至网络平台的图像或视频等会传达出情感信息,而用户在观看这些图像或视频时也会产生主观的情感信息,乃至通过评论等方式实现与图像或视频的发布方进行情感互动。因此,有必要对图像信息或视频信息所携带的情感进行识别,以实现如视频图像分类、基于图像或视频的问答、图像或视频的检索与推荐等诸多相关亟需解决的任务。
为实现对图像情感特征和视频情感特征的学习,相关领域技术人员提出了采用视觉模态和文本模态的跨模态融合学习方法,以强化对图像或视频的理解,以此来提高对图像或视频情感分析的准确性。然而,图像或视频所携带的文本注释往往是与图像或视频语义不对齐的,这成为视觉情感识别的难点和瓶颈。
提升计算机视觉的视觉情感识别能力,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种视觉情感识别方法、装置、设备及可读存储介质,用于提升计算机视觉的视觉情感识别能力,提升对图像情感的识别能力和对视频情感的识别能力。
为解决上述技术问题,本发明提供一种视觉情感识别方法,包括:
获取初始视觉模型和样本数据集;
为所述初始视觉模型配置基于文本情感评价编码的第一注意力头、基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头以及融合所述文本情感评价编码和所述视觉文本跨模态编码的第三注意力头,并将各注意力头的损失值拼接为所述初始视觉模型的模型损失值后,利用所述样本数据集、待处理视觉情感识别任务的任务目标以及各所述注意力头的损失值训练所述初始视觉模型中各所述注意力头的权重,输出视觉情感识别模型;
响应于所述待处理视觉情感识别任务,调用所述视觉情感识别模型对输入的待识别数据进行情感识别处理,得到视觉情感识别结果;
其中,根据所述待处理视觉情感识别任务的任务目标,所述样本数据集包括带有注释文本的图像数据或带有注释文本的视频数据;所述视觉文本跨模态共识信息通过视觉模态和文本模态之间的互信息构建。
一方面,所述待处理视觉情感识别任务为视频情感识别任务;
所述第二注意力头包括基于视频帧文本跨模态共识信息的视频帧文本跨模态编码的第四注意力头以及基于视频文本跨模态共识信息的视频文本跨模态编码的第五注意力头。
另一方面,所述模型损失值通过下式表示:
其中,为第i个所述注意力头的模型参数,λi(i=0,1,2,3)为第i个所述注意力头的权重,/>为第i个所述注意力头的损失值,为所述模型损失值;
所述注意力头包括所述第一注意力头、所述第四注意力头、所述第五注意力头和所述第三注意力头。
另一方面,所述注意力头的损失值通过下式表示:
所述视觉情感识别模型的输出结果通过下式表示:
其中,β01=1,L=(Loss0(x),Loss1(x));
其中,β0为情感分类损失权重,β1为观点分类损失权重,Loss0(x)为情感分类损失值,Loss1(x)为观点分类损失值,为损失权重计算函数,L为所述情感分类损失值和所述观点分类损失值的拼接值,FFN(·)为全连接层,σ(·)为激活函数,θ(·)为回归函数,p0为情感分类结果,p1为观点分类结果,model(video,text)为所述视频情感识别模型根据输入的视频数据和文本数据输出的模型计算结果。
另一方面,所述待处理视觉情感识别任务为视频情感识别任务;
所述利用所述样本数据集、待处理视觉情感识别任务的任务目标以及各所述注意力头的损失值训练所述初始视觉模型中各所述注意力头的权重,输出视觉情感识别模型,包括:
对所述样本数据集中的视频样本,自所述视频样本中提取多个视频帧,获取所述视频帧的帧视觉特征并根据所述视频帧在所述视频样本中的顺序为所述帧视觉特征添加时间维度信息;
根据与所述视频样本对应的注释文本提取文本特征;
对添加时间维度信息的所述帧视觉特征和所述文本特征进行编码后,得到所述视频样本的视频特征;
将所述视频特征输入所述初始视觉模型,并根据各所述注意力头的损失值调整所述初始视觉模型中各所述注意力头的权重,输出视觉情感识别模型。
另一方面,所述根据与所述视频样本对应的注释文本提取文本特征,包括:
自与所述视频样本对应的注释文本中提取主语和宾语;
将所述主语和所述宾语与获取所述视频样本的搜索关键词进行拼接,得到所述文本特征。
另一方面,所述根据与所述视频样本对应的注释文本提取文本特征,包括:
若所述视频样本对应有视频分段信息和分段事件描述,则根据所述视频分段信息将所述视频样本切分为多个子视频样本,并将对应的所述分段事件描述作为所述子视频样本的注释文本;
调用视频动作识别模型识别得到所述子视频样本的动作预测结果;
自所述子视频样本的注释文本提取视频描述关键词后,将所述子视频样本的动作预测结果与所述子视频样本的视频描述关键词进行拼接,得到所述子视频样本的所述文本特征;
整合各所述子视频样本的所述文本特征为所述视频样本的所述文本特征。
另一方面,所述根据与所述视频样本对应的注释文本提取文本特征,包括:
若所述视频样本对应有视频分段信息和分段动作描述,则根据所述视频分段信息将所述视频样本切分为多个子视频样本;
调用视频描述模型生成各所述子视频样本的描述文本;
自所述分段动作描述中提取动作关键词,自所述描述文本中提取视频描述关键词后,将所述子视频样本的动作关键词和所述子视频样本的视频描述关键词进行拼接,得到所述子视频样本的所述文本特征;
整合各所述子视频样本的所述文本特征为所述视频样本的所述文本特征。
另一方面,所述初始视觉模型,通过下述步骤得到:
基于视觉文本匹配任务、掩码文本预测任务和共识信息筛选任务构建损失函数,预训练得到所述初始视觉模型;
其中,所述视觉文本匹配任务用于识别视觉样本与文本样本的匹配情况,所述掩码文本预测任务用于识别根据未被掩码的上下文信息预测被掩码的信息,所述共识信息筛选任务用于自先验字典筛选视觉模态和文本模态的共识信息。
另一方面,所述视觉文本匹配任务对应的损失函数为:
其中,Lvtm为所述视觉文本匹配任务的损失值,S为视觉模态与文本模态的匹配对的数目,为符号函数,当视觉模态与文本模态匹配时/>为1,当视觉模态与文本模态不匹配时/>为0,Vi为第i个视觉模态,Ti为第i个文本模态,/>为视觉模态与文本模态匹配预测的概率。
另一方面,所述掩码文本预测任务对应的损失函数为:
其中,lmlm1为第一掩码文本预测损失值,S为视觉模态与文本模态的匹配对的数目,V为文本模态的词典大小,为符号函数,当根据第v个视觉模态预测的视觉标签符合第i个文本模态中被掩码的视觉标签时/>为1,当根据第v个视觉模态预测的视觉标签不符合第i个文本模态中被掩码的视觉标签时/>为0,Vi为第i个视觉模态,Ti为第i个文本模态,/>为根据输入的视觉模态和文本模态预测被掩码的视觉标签的概率;
lmlm2为第二掩码文本预测损失值,为符号函数,当根据第v个视觉模态预测的注释文本符合第i个文本模态中被掩码的注释文本时/>为1,当根据第v个视觉模态预测的注释文本不符合第i个文本模态中被掩码的注释文本时/>为0,Thashtag为第i个视觉模态的视觉标签,/>为第i个文本模态中被掩码的注释文本,/>为根据输入的视觉模态、视觉标签、剩余文本模态预测被掩码的文本模态的概率。
另一方面,所述共识信息筛选任务对应的损失函数为:
其中,LPD为共识信息筛选任务对应的损失函数,K为目标先验知识的数量,sg(·)为向量化函数,β为权重参数,Vi为第i个视觉特征,Tj为第j个文本特征,Zidx为关联第i个视觉模态和第j个文本模态的相关信息,PD(Vi,Tj,Zidx)为第i个视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值,Zk为视觉模态和文本模态之间的相关信息,PD(Vi,Tj,Zk)为第i个视觉模态、第j个文本模态以及视觉模态和文本模态之间的相关信息的条件互信息字典值,PD(V,Tj,Zidx)为所有视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值,Ei为先验字典中每个特征的向量。
另一方面,基于所述视觉文本跨模态共识信息的所述视觉文本跨模态编码,通过下述步骤得到:
初始化先验字典;
根据所述待处理视觉情感识别任务的任务目标确定目标模态;
基于所述样本数据集,自所述先验字典中筛选与所述目标模态适配的目标先验知识;
基于所述目标先验知识对所述样本数据集中的视觉模态和所述样本数据集中的文本模态进行跨模态信息融合,提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息;
根据所述视觉文本跨模态共识信息对应的视觉特征、文本特征和所述目标先验知识进行跨模态融合编码,得到所述视觉文本跨模态编码;
其中,所述目标模态为视觉模态、文本模态和视觉文本联合模态中的一个,所述视觉特征为图像特征或视频特征。
另一方面,当所述待处理视觉情感识别任务为基于评论的视觉情感识别任务时,所述目标模态为文本模态;
所述基于所述样本数据集,自所述先验字典中筛选与所述目标模态适配的目标先验知识,包括:
计算所述先验字典中的先验知识与所述样本数据集中的文本模态的第二条件互信息;
建立所述先验知识与所述第二条件互信息的一一映射关系,得到第二先验知识-条件互信息字典;
根据所述第二先验知识-条件互信息字典中的第二先验知识-条件互信息字典值从大到小的顺序,选出与所述样本数据集中的文本模态相关性最高的第三预设数量先验知识;
自与所述样本数据集中的各文本模态相关性最高的第三预设数量先验知识中选出相关性最高的第四预设数量先验知识为所述目标先验知识。
另一方面,所述基于所述目标先验知识对所述样本数据集中的视觉模态和所述样本数据集中的文本模态进行跨模态信息融合,提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息,包括:
分别对所述样本数据集中的视觉模态和所述样本数据集中的文本模态进行模态内信息整合以及跨模态信息整合,得到模态内信息整合结果和全局共识信息整合结果;
基于所述模态内信息整合结果和所述全局共识信息整合结果,构建文本交叉注意力模块以基于所述目标先验知识搜索视觉模态中与文本模态关联的视觉信息;
基于所述模态内信息整合结果和所述全局共识信息整合结果,构建视觉交叉注意力模块以基于所述目标先验知识搜索文本模态中与视觉模态关联的文本信息;
基于视觉模态中与文本模态关联的视觉信息、文本模态中与视觉模态关联的文本信息以及所述目标先验知识,构建注意力模块进行所述视觉文本跨模态共识信息的融合和提炼。
另一方面,所述分别对所述样本数据集中的视觉模态和所述样本数据集中的文本模态进行模态内信息整合以及跨模态信息整合,得到模态内信息整合结果和全局共识信息整合结果,包括:
对所述样本数据集中的视觉模态进行模态内信息整合,得到视觉模态信息;
对所述样本数据集中的文本模态进行模态内信息整合,得到文本模态信息;
对所述目标先验知识进行模态内信息整合,得到目标先验知识模态信息;
以所述视觉模态信息、所述文本模态信息和所述目标先验知识模态信息为所述模态内信息整合结果;
基于所述目标先验知识对视觉模态和文本模态进行跨模态信息整合,建立所述视觉模态信息、所述文本模态信息和所述目标先验知识模态信息的跨模态信息关联交互模型;
基于所述跨模态信息关联交互模型,调用转换编码器模型对视觉特征、文本特征和所述目标先验知识进行整合处理,得到所述全局共识信息整合结果;
其中,在处理所述视觉特征时,对所述文本特征和所述目标先验知识进行掩膜处理;在处理所述文本特征时,对所述视觉特征和所述目标先验知识进行掩膜处理;在处理所述目标先验知识时,不对所述视觉特征、所述文本特征及所述目标先验知识设置掩膜。
另一方面,所述基于所述模态内信息整合结果和所述全局共识信息整合结果,构建文本交叉注意力模块以基于所述目标先验知识搜索视觉模态中与文本模态关联的视觉信息,包括:
合并所述模态内信息整合结果中的视觉模态信息和所述目标先验知识为所述文本交叉注意力模块的键值数据,以所述模态内信息整合结果中的文本模态信息为所述文本交叉注意力模块的查询语句,以利用所述文本交叉注意力模块基于查询语句查询对应的键值数据,得到视觉模态中与文本模态关联的视觉信息;
所述基于所述模态内信息整合结果和所述全局共识信息整合结果,构建视觉交叉注意力模块以基于所述目标先验知识搜索文本模态中与视觉模态关联的文本信息,包括:
合并所述模态内信息整合结果中的所述文本模态信息和所述目标先验知识为所述视觉交叉注意力模块的键值数据,以所述模态内信息整合结果中的所述视觉模态信息为所述视觉交叉注意力模块的查询语句,以利用所述视觉交叉注意力模块基于查询语句查询对应的键值数据,得到文本模态中与视觉模态关联的文本信息。
另一方面,所述基于视觉模态中与文本模态关联的视觉信息、文本模态中与视觉模态关联的文本信息以及所述目标先验知识,构建注意力模块进行所述视觉文本跨模态共识信息的融合和提炼,包括:
以视觉模态中与文本模态关联的视觉信息为文本标记,以文本模态中与视觉模态关联的文本信息为视觉标记,以所述目标先验知识为先验知识标记;
拼接所述视觉标记、所述先验知识标记和所述文本标记后,输入所述注意力模块进行所述视觉文本跨模态共识信息的融合和提炼;
在所述注意力模块中,分别合并所述视觉标记和所述先验知识标记为键值数据,以所述文本标记为查询语句,以及合并所述文本标记和所述先验知识标记为键值数据,以所述视觉标记为查询语句,输出所述视觉文本跨模态共识信息。
另一方面,所述视觉特征为图像特征;
所述根据所述视觉文本跨模态共识信息对应的视觉特征、文本特征和所述目标先验知识进行跨模态融合编码,得到所述视觉文本跨模态编码,包括:
采用残差结构融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息之后的输出结果并进行编码,得到所述视觉文本跨模态编码;
其中,当前次的所述输出结果为下一次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息的输入数据。
另一方面,所述采用残差结构融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息之后的输出结果并进行编码,得到所述视觉文本跨模态编码,包括:
利用对第i次所述输出结果中的图像特征编码进行特征融合处理,得到第i次所述输出结果对应的图像特征融合结果;
利用对第i次所述输出结果中的文本特征编码进行特征融合处理,得到第i次所述输出结果对应的文本特征融合结果;
利用对第i次所述输出结果中的先验知识编码进行融合处理,得到第i次所述输出结果对应的先验知识融合结果;
拼接第i次所述输出结果对应的图像特征融合结果、第i次所述输出结果对应的文本特征融合结果和第i次所述输出结果对应的先验知识融合结果,得到第i次所述输出结果对应的特征融合结果;
若i不为N,则对第i次所述输出结果对应的特征融合结果执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息,得到第i+1次所述输出结果;
若i为N,则以第i次所述输出结果对应的特征融合结果为所述视觉文本跨模态编码;
其中,为第i次所述输出结果对应的图像特征融合结果,λ为残差系数,/>为第i次所述输出结果中的图像特征编码,featurevf为输入的图像特征,/>为第i次所述输出结果对应的文本特征融合结果,/>为第i次所述输出结果中的文本特征编码,featuretext为输入的文本特征,/>为第i次所述输出结果对应的先验知识融合结果,为第i次所述输出结果中的先验知识编码,/>为输入的目标先验知识。
另一方面,所述视觉特征为视频特征;
所述根据所述视觉文本跨模态共识信息对应的视觉特征、文本特征和所述目标先验知识进行跨模态融合编码,得到所述视觉文本跨模态编码,包括:
采用可学习的残差参数融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息之后的输出结果并进行编码,得到所述视觉文本跨模态编码;
其中,当前次的所述输出结果为下一次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息的输入数据。
另一方面,所述采用可学习的残差参数融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息之后的输出结果并进行编码,得到所述视觉文本跨模态编码,包括:
对第i次所述输出结果中的视频特征,将其中各视频帧分别设置对应的帧系数,根据所述帧系数和所述视频帧的帧特征得到视频残差块特征,将所述视频残差块特征与第i次所述输出结果中的视频特征融合,得到第i次所述输出结果对应的视频特征融合结果;
对第i次所述输出结果中的文本特征,将其中各文本标记分别设置对应的文本标记系数,根据所述文本标记系数和所述文本标记得到文本残差块特征,将所述文本残差块特征与第i次所述输出结果中的文本特征融合,得到第i次所述输出结果对应的文本特征融合结果;
对第i次所述输出结果中的所述目标先验知识,将其中的各先验知识标记分别设置对应的先验知识标记系数,根据所述先验知识标记系数和所述先验知识标记得到先验知识残差块特征,将所述先验知识残差块特征与第i次所述输出结果中的所述目标先验知识融合,得到第i次所述输出结果对应的先验知识融合结果;
拼接第i次所述输出结果对应的视频特征融合结果、第i次所述输出结果对应的文本特征融合结果和第i次所述输出结果对应的先验知识融合结果,得到第i次所述输出结果对应的特征融合结果;
若i不为N,则对第i次所述输出结果对应的特征融合结果执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息,得到第i+1次所述输出结果;
若i为N,则以第i次所述输出结果对应的特征融合结果为所述视觉文本跨模态编码。
为解决上述技术问题,本发明还提供一种视觉情感识别装置,包括:
第一获取单元,用于获取初始视觉模型和样本数据集;
第一训练单元,用于为所述初始视觉模型配置基于文本情感评价编码的第一注意力头、基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头以及融合所述文本情感评价编码和所述视觉文本跨模态编码的第三注意力头,并将各注意力头的损失值拼接为所述初始视觉模型的模型损失值后,利用所述样本数据集、待处理视觉情感识别任务的任务目标以及各所述注意力头的损失值训练所述初始视觉模型中各所述注意力头的权重,输出视觉情感识别模型;
第一计算单元,用于响应于所述待处理视觉情感识别任务,调用所述视觉情感识别模型对输入的待识别数据进行情感识别处理,得到视觉情感识别结果;
其中,根据所述待处理视觉情感识别任务的任务目标,所述样本数据集包括带有注释文本的图像数据或带有注释文本的视频数据;所述视觉文本跨模态共识信息通过视觉模态和文本模态之间的互信息构建。
为解决上述技术问题,本发明还提供一种视觉情感识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述视觉情感识别方法的步骤。
为解决上述技术问题,本发明还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述视觉情感识别方法的步骤。
本发明所提供的视觉情感识别方法,在初始视觉模型中配置文本情感评价编码、视觉文本跨模态编码以及融合编码的多头注意力机制,通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,并将视觉文本跨模态编码配置为基于视觉文本跨模态共识信息进行编码,通过共识编码而不是对齐编码的形式来降低跨模态编码损失,增强了视觉文本跨模态编码表达能力;将各注意力头的损失值拼接为模型损失值,利用样本数据集、任务目标和各注意力头的损失值训练模型中各注意力头的权重,使视觉情感识别模型更准确地理解跨模态情感共识,进而调用视觉情感识别模型执行待处理视觉情感识别任务,实现更为准确的视觉情感识别,根据样本数据集和任务目标,可以图像情感识别和视频情感识别中获得更为准确的识别结果。
本发明所提供的视觉情感识别方法,还通过在视频情感识别任务采用基于视频帧文本跨模态共识信息的视频帧文本跨模态编码的注意力头以及基于视频文本跨模态共识信息的视频文本跨模态编码的注意力头,实现了对视频的局部特征的学习以及对视频的全局特征的学习,进而提高了对视频情感识别的准确性。
本发明所提供的视觉情感识别方法,还提供了对文本情感评价编码、基于视频帧文本跨模态共识信息的视频帧文本跨模态编码、基于视频文本跨模态共识信息的视频文本跨模态编码以及融合编码的多头注意力机制设计的模型损失值计算公式,还可以将注意力头的损失值氛围情感分类损失和观点分类损失,分别训练情感分类损失权重和观点分类损失权重,进一步提高了模型的情感识别能力,进而提高对视频情感识别的准确性。
本发明所提供的视觉情感识别方法,还通过在训练视觉情感识别模型时,基于注释文本中的文本特征自视频样本中提取视频特征,可以采用注释文本中的主语和宾语以及获取视频样本的搜索关键词进行拼接得到文本特征,相较于传统的视频特征提取方案,在不同层面上为视觉情感识别模型提供了丰富的上下文信息,帮助视觉情感识别模型更好地理解视频内容,提高视频特征提取的效果。
本发明所提供的视觉情感识别方法,还通过对长视频进行基于视频分段信息的视频动作获取,如通过调用视频动作识别模型识别得到分段后的子视频样本的动作预测结果,或通过调用视频描述模型生成各子视频样本的描述文本,以解决视觉情感识别模型在处理长视频时凸显的理解能力不足的问题。
本发明所提供的视觉情感识别方法,还通过基于视觉文本匹配任务、掩码文本预测任务和共识信息筛选任务构建损失函数预训练得到初始视觉模型,以分别实现识别视觉样本与文本样本的匹配情况、识别根据未被掩码的上下文信息预测被掩码的信息以及自先验字典筛选视觉模态和文本模态的共识信息,从而在针对不同的任务目标训练视觉情感识别模型时均可以显著提升训练效率。
本发明所提供的视觉情感识别方法,还提供了一种基于自先验字典筛选目标先验知识以构建视觉文本跨模态共识信息的方案,通过将图像语言数据或视频语言数据中蕴含的知识和信息学习到模型的先验字典中,有助于模型更好地理解图像或视频的内容或上下文信息,同时快速引导模型聚焦图像或视频与其对应的语言信息中的重要部分;继而通过根据视觉文本跨模态共识信息进行视觉文本跨模态编码,以目标先验知识为桥梁,解决了视觉模态和文本模态弱相关的问题,相较于传统的跨模态特征提取方法有效降低了因强行语义对齐造成的损失。
本发明还提供了一种视觉情感识别装置、设备及可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视觉情感识别方法的流程图;
图2为本发明实施例提供的一种视频情感识别模型的训练框架示意图;
图3为本发明实施例提供的一种视频特征提取方法的流程图;
图4为本发明实施例提供的一种接地编码器的架构图;
图5为本发明实施例提供的一种视频帧-文本跨模态编码的流程图;
图6为本发明实施例提供的一种视频-文本跨模态编码的流程图;
图7为本发明实施例提供的一种视觉情感识别装置的结构示意图;
图8为本发明实施例提供的一种视觉情感识别设备的结构示意图。
具体实施方式
本发明的核心是提供一种视觉情感识别方法、装置、设备及可读存储介质,用于提升计算机视觉的视觉情感识别能力,提升对图像情感的识别能力和对视频情感的识别能力。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于理解本发明实施例提供的技术方案,这里先对本发明实施例使用的一些关键名词进行解释:
计算机视觉(computer vision,CV)技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
转换编码器模型(Transformer)是一种自然语言处理(NLP)模型,其采用自注意力(Self-Attention)机制,使得模型可以并行化训练,而且能够拥有全局信息。转换编码器模型主要由编码器(Encoder)和解码器(Decoder)两部分组成,编码器和解码器都包括6个模块,其工作流程主要包括:获取输入句子的每一个单词的表示向量(由单词向量和单词位置向量相加得到),具体得到单词表示向量矩阵输入编码器中,经过6个编码器模块后可以得到句子所有单词的编码信息矩阵,每一个编码器模块的输出的矩阵维度与输入完全一致;将编码器输出的编码信息矩阵传递至解码器中,解码器会依次根据当前翻译过的单词1~i翻译下一个单词i,在使用过程中,翻译到单词i+1时需要通过掩盖(Mask)操作遮盖住i+1之后的单词,以此类推。
视觉-文本匹配(Vision-Text Matching,VTM)包括图像-文本匹配和视频-文本匹配,通过迫使视觉文本对在语义上靠近,并且不配对实例相互远离,学习了一个联合表示空间,实现了跨模态的语义对齐及跨模态的语义传播。
掩码语言模型(masked Language Modeling,MLM)是一种基于神经网络的语言模型,它可以在预训练阶段使用海量的未标注语料库进行训练,然后在有监督的任务中进行微调,如文本分类、序列标注等。
全连接层(Fully Connected,FC)是卷积神经术语,在卷积神经网络(ConvNet或CNN)结构中,经多个卷积层和池化层后,连接着1个或1个以上的全连接层,与多层感知机(Multilayer Perceptron,MLP)类似,全连接层中的每个神经元与其前一层的所有神经元进行全连接。全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。为了提升CNN网络性能,全连接层每个神经元的激励函数一般采用神经网络激活函数(RectifiedLinear Unit,ReLU)函数,最后一层全连接层的输出值被传递给一个输出,可以采用归一化指数函数(softmax)逻辑回归(softmax regression)进行分类,该层也可称为归一化指数函数层(softmax layer)。对于一个具体的分类任务,选择一个合适的损失函数是十分重要的,卷积神经网络有几种常用的损失函数,各自都有不同的特点。通常,卷积神经网络的全连接层与多层感知机的结构一样,卷积神经网络的训练算法也多采用误差反向传播(ErrorBack Propagation,BP)算法。
对比语言-图像预训练(Contrastive Language-Image Pretraining,CLIP)模型是一个预训练模型。它旨在学习图像和文本之间的相互关系,以便于进行文本图像检索和其他相关应用。对比语言-图像预训练模型包含两个主要模态:文本模态和视觉模态,分别由文本编码器(Text Encoder)和图像编码器(Image Encoder)处理。这两个模态输出的都是固定长度的向量表示,即Embedding。在训练过程中,对比语言-图像预训练模型会使用大量互联网上的文本和图像对作为训练数据。每个文本图像对被视为一个正样本,因为它是一对配对的,而与之相对的其他图像则作为负样本。这样的设计使得对比语言-图像预训练模型能够学习到图像和文本之间的高层次语义特征,而不是仅仅依赖于像素级的监督信息。
基于转换编码器模型的双向编码器表示(Bidirectional EncoderRepresentations from Transformers,BERT)模型是一个预训练的语言表征模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(masked Language Modeling,MLM)以致能生成深度的双向语言表征。
接地编码器(grounding encoder)是接地语言模型(Grounding语言模型)中的编码器,Grounding即将语言模型与具体的环境(数据/API/服务/物理世界等等)相连接,这是解决众多实际任务的根本。
随着计算机视觉技术的不断发展革新,基于视觉模型对图像或视频进行与相应文本模态间的跨模态学习,可以实现计算机视觉对图像或视频携带的情感进行识别,从而执行图像或视频的情感分类、基于图像或视频的问答任务、图像或视频的检索与推荐等任务。
在社交平台中,用户会在观看图像或视频时发布评论,这些评论携带了丰富的情感信息,是社交平台信息传递的重要途径。而传统的视觉-文本的跨模态学习模型都是通过视觉骨干网络和语言骨干网络提取视觉模态和文本模态对应的特征输入到不同类型的转换编码器模型中,但由于两个模态的弱相关性以及模态之间的语义差异,若强制关联视觉模态和文本模态,会一定程度上降低模型的跨模态能力。而现今基于计算机视觉理解图像或视频的情感的方案中缺少基于评论的跨模态学习方案,而评论往往相较于图像或视频所携带的介绍文字具有更强的主观色彩,例如某些评论包含难以捕捉的情感或微妙的情绪,比如讽刺或暗示,以及由于不同用户关注的重点不同,进一步导致评论内容与图像或视频语义的弱相关性,并且由于评论往往较短,导致评论缺乏足够的上下文信息,更加大了情感分析的难度。
对此,本发明实施例提供的视觉情感识别方法旨在针对当前主流视觉模型强制关联视觉模态和文本模态、文本模态对视觉模态聚焦范围不同、视觉模态和文本模态弱相关等问题,提供一种有效的基于评论分析视觉模态的情感信息的方案。
在***架构上,本发明实施例提供的视觉情感识别方法可以基于单台计算设备或由多台计算设备构成的计算***实现,所采用的计算设备可以采用但不限于图形处理器(Graphics Processing Unit,GPU)、现场可编程逻辑门阵列设备(Field ProgrammableGate Array,FPGA)、专用集成电路设备(Application Specific Integrated Circuit,ASIC)和处理器分散处理单元设备(Data Processing Unit,DPU),或采用其中一种或多种作为加速器的计算设备,也可以采用其他类型的计算设备。
本发明实施例提供的视觉情感识别方法可以进一步应用于一个包含计算***、存储***和客户端设备的视觉情感识别***,其中,存储***用于存储用于进行视觉情感识别模型训练的样本数据集;计算***用于自存储***读取样本数据集并根据待处理视觉情感识别任务的任务目标执行视觉情感识别模型的训练任务;客户端设备用于响应用户输出的待处理视觉情感识别任务,从中解析出待识别数据及其相关的视频情感识别任务参数传递至计算***,由计算***进一步响应于待处理视觉情感识别任务以调用视觉情感识别模型对输入的待识别数据进行情感识别处理,得到视觉情感识别结果,并通过客户端设备将视觉情感识别结果以待处理视觉情感识别任务所需的形式进行展示。
本发明实施例提供的视觉情感识别方法可以用于解决图像情感识别任务和视频情感识别任务,例如基于评论对社交平台上发布的图像或视频所引发群体用户对具体内容的情感反应进行识别。
在上述架构的基础上,下面结合附图对本发明实施例提供的视觉情感识别方法进行说明。
图1为本发明实施例提供的一种视觉情感识别方法的流程图。
如图1所示,本发明实施例提供的视觉情感识别方法,可以包括:
S101:获取初始视觉模型和样本数据集。
S102:为初始视觉模型配置基于文本情感评价编码的第一注意力头、基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头以及融合文本情感评价编码和视觉文本跨模态编码的第三注意力头,并将各注意力头的损失值拼接为初始视觉模型的模型损失值后,利用样本数据集、待处理视觉情感识别任务的任务目标以及各注意力头的损失值训练初始视觉模型中各注意力头的权重,输出视觉情感识别模型。
S103:响应于待处理视觉情感识别任务,调用视觉情感识别模型对输入的待识别数据进行情感识别处理,得到视觉情感识别结果。
其中,根据待处理视觉情感识别任务的任务目标,样本数据集包括带有注释文本的图像数据或带有注释文本的视频数据;视觉文本跨模态共识信息通过视觉模态和文本模态之间的互信息构建。
在本发明实施例中,对于S101,根据待处理视觉情感识别任务的任务目标为图像情感识别还是视频情感识别,获取相应的初始视觉模型为初始图像语言模型或初始视频语言模型。初始视觉模型可以采用传统视觉模型中的通用视觉理解模型,也可以基于另外的样本数据训练得到。根据待处理视觉情感识别任务的任务目标为图像情感识别还是视频情感识别,获取相应的图像-文本样本集或视频-文本样本集。其中,文本样本中包含图像或视频的评论。
对于S102,传统的视觉模型在视觉情感识别这一下游任务重表现一般,为提升视觉情感识别的精度,需要对初始视觉模型进行进一步调参。
由于评论中常常带有强烈的情感信息。这些信息是用户对视频的内容的情感反应,如“这太有趣了”、“这真令人伤心”,故为初始视觉模型配置基于文本情感评价编码的第一注意力头。由于视觉模态和文本模态存在语义不对齐的问题,故为初始视觉模型配置基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头。由于视觉模态的情感色彩有时不能从视觉中获取,需要结合特定语境,以及需要结合文本评价帮助模型理解难以捕捉的视觉信息以及视觉模态中需要重要关注的内容,故除了基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头外,还为初始视觉模型配置融合文本情感评价编码和视觉文本跨模态编码的第三注意力头。
在本发明实施例的一些可选的实施方式中,注意力头(header)由全连接层组成,如Y=FFN1(relu(FFN0(X))),其中X为输入特征,Y为最终输出的类别概率,FFN0将将输入特征转换到指定维度,随后经由神经网络激活函数(Rectified Linear Unit,ReLU)函数、FFN1从指定维度映射到与分类类别。
本发明实施例通过为初始视觉模型配置基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头而不是对齐编码的形式来降低跨模态编码损失,增强视觉文本跨模态编码表达能力。视觉文本跨模态共识信息通过视觉模态和文本模态之间的互信息构建,通过基于视觉文本跨模态共识信息来勾联视觉模态与文本模态高层语义之间的信息,可以从视觉模态的角度或从文本模态的角度进行筛选得到,也可以从视觉-文本联合模态的角度筛选得到。
在基于评论的视觉情感识别任务中,由于评论内容常在视觉情感分析占主导地位,故可以将基于视觉文本跨模态共识信息的视觉文本跨模态编码配置为基于文本模态筛选视觉文本跨模态共识信息,使筛选得到的视觉文本跨模态共识信息更靠近文本模态,更有利于视觉情感分析。
在训练视觉情感识别模型时,通过模型自己学习预测任务的不确定性,自动地发现任务之间的最佳权衡,减少分支之间和任务之间超参数手动调整,可以采用训练不同注意力头的权重的方式,来实现从初始视觉模型到视觉情感识别模型的优化。
对于S103,对于社交平台上的图像或视频,收集图像及其携带的评论或视频及其携带的评论,输入视觉情感识别模型进行基于文本情感评价编码、基于视觉文本跨模态共识信息的视觉文本跨模态编码以及融合编码后,计算得到图像或视频的情感识别结果。情感识别结果可以为积极情感或消极情感,乃至在积极情感或消极情感之下进行不同类别的情感细分,或将不同的情感与对应的视觉内容进行关联,如对于风景图像表达出向往的情感,对一场篮球赛的视频表达出激动的情感或对其中某个或某些视频帧表达出愤怒的情感。
本发明实施例提供的视觉情感识别方法,在初始视觉模型中配置文本情感评价编码、视觉文本跨模态编码以及融合编码的多头注意力机制,通过视觉模态和文本模态之间的互信息构建视觉文本跨模态共识信息,并将视觉文本跨模态编码配置为基于视觉文本跨模态共识信息进行编码,通过共识编码而不是对齐编码的形式来降低跨模态编码损失,增强了视觉文本跨模态编码表达能力;将各注意力头的损失值拼接为模型损失值,利用样本数据集、任务目标和各注意力头的损失值训练模型中各注意力头的权重,使视觉情感识别模型更准确地理解跨模态情感共识,进而调用视觉情感识别模型执行待处理视觉情感识别任务,实现更为准确的视觉情感识别,根据样本数据集和任务目标,可以图像情感识别和视频情感识别中获得更为准确的识别结果。
图2为本发明实施例提供的一种视频情感识别模型的训练框架示意图。
在本发明实施例的另一些可选的实施方式中,以待处理视觉情感识别任务为视频情感识别任务进行进一步说明,要训练的视觉情感识别模型为视频情感识别模型。当待处理视觉情感识别任务为视频情感识别任务时,第二注意力头可以包括基于视频帧文本跨模态共识信息的视频帧文本跨模态编码的第四注意力头以及基于视频文本跨模态共识信息的视频文本跨模态编码的第五注意力头。
请参考图2,可以设置四个注意力头,包括:基于文本情感评价编码(可以基于语言骨干网络language backbone实现)的第一注意力头(图2中编号为注意力头0,header 0),此注意力头用来学习文本评价中带有强烈情感信息的评价,可以通过语言骨干网络得到;基于视频帧文本跨模态共识信息的视频帧文本跨模态编码的第四注意力头(图2中编号为注意力头1,header 1),此注意力头用于学习文本与视频帧乃至短视频的关联和对齐问题,可以通过视频帧-文本跨模态编码器得到;基于视频文本跨模态共识信息的视频文本跨模态编码的第五注意力头(图2中编号为注意力头2,header 2),此注意力头用于学习文本评价与整个视频关联和对齐问题,可以通过视频-文本跨模态编码器得到;融合文本情感评价编码和视觉文本跨模态编码的第三注意力头(图2中编号为注意力头3,header 3),此注意力头用于融合上面三种不同类型的视觉和语言信息,进一步帮助模型将视觉信息和语言文本信息进行关联与对齐,可以通过转换编码器模型得到。
对于视频情感识别任务,由于文本评价常常占据情感分析的主导地位,因此将筛选视觉文本跨模态共识信息的方式配置为基于文本模态筛选视觉文本跨模态共识信息,如图2所示,这样可以筛选出视觉文本跨模态共识信息更靠近文本模态,更有利于视频情感分析。
基于上述四个注意力头进行动态调整的多任务学习训练视频情感识别模型,模型损失值可以通过下式表示:
其中,为第i个注意力头的模型参数,λi(i=0,1,2,3)为第i个注意力头的权重,/>为第i个注意力头的损失值,为模型损失值;
注意力头包括第一注意力头、第四注意力头、第五注意力头和第三注意力头,可以记第一注意力头为第0个注意力头L0(注意力头0),可以记第四注意力头为第1个注意力头L1(注意力头1),可以记第五注意力头为第2个注意力头L2(注意力头2),可以记第三注意力头为第3个注意力头L3(注意力头3)。
可以设置各注意力头的权重满足还可以设置/>可以设计FFN(·)为全连接层,σ(·)为激活函数,如神经网络激活函数(Rectified Linear Unit,ReLU),θ(·)为回归函数。将四个注意力头的输出损失值进行拼接,即/>
在此基础上,还可以进一步将注意力头的权重划分为情感分类权重和观点分类权重,以满足丰富的情感识别需求。则注意力头的损失值可以通过下式表示:
视觉情感识别模型的输出结果通过下式表示:
其中,β01=1,L=(Loss0(x),Loss1(x));
其中,β0为情感分类损失权重,β1为观点分类损失权重,Loss0(x)为情感分类损失值,Loss1(x)为观点分类损失值,为损失权重计算函数,L为情感分类损失值和观点分类损失值的拼接值,FFN(·)为全连接层,σ(·)为激活函数,θ(·)为回归函数,p0为情感分类结果,p1为观点分类结果,model(video,text)为视频情感识别模型根据输入的视频数据和文本数据输出的模型计算结果。
在初始视觉模型中,可以设置λ0、λ1、λ2、λ3为0.25,β0、β1为0.5,模型根据样本数据集、待处理视觉情感识别任务的任务目标以及模型损失函数去学习合适权重,最终视频情感识别模型输出的情感分类结果和观点分类结果为:
其中,p0为情感分类结果,p1为观点分类结果,model(video,text)为视频情感识别模型根据输入的待识别视频数据(video)及其携带的评论数据(text)输出的结果。
则如图2所示,当待处理视觉情感识别任务为视频情感识别任务时,本发明实施例提供一种视觉情感识别模型的训练框架,通过视频进行视频帧特征提取得到帧视觉特征(0,1,……N),利用语言骨干网络从文本样本中提取文本特征(0,1,……M),利用视频帧-文本跨模态编码器根据帧视觉特征和文本特征进行视频帧-文本跨模态编码,利用视频特征提取模块根据帧视觉特征和文本特征提取视频特征,利用视频-文本跨模态编码器根据视频特征和文本特征进行视频-文本跨模态编码,最后通过转换编码器模型将视频帧-文本跨模态编码和视频-文本跨模态编码进行训练输出。
当待处理视觉情感识别任务为图像情感识别任务时,与图2区别的是,可以仅设置一个第二注意力头以进行图像-文本跨模态编码。
本发明实施例提供的视觉情感识别方法,还通过在视频情感识别任务采用基于视频帧文本跨模态共识信息的视频帧文本跨模态编码的注意力头以及基于视频文本跨模态共识信息的视频文本跨模态编码的注意力头,实现了对视频的局部特征的学习以及对视频的全局特征的学习,进而提高了对视频情感识别的准确性。
本发明实施例提供的视觉情感识别方法,还提供了对文本情感评价编码、基于视频帧文本跨模态共识信息的视频帧文本跨模态编码、基于视频文本跨模态共识信息的视频文本跨模态编码以及融合编码的多头注意力机制设计的模型损失值计算公式,还可以将注意力头的损失值氛围情感分类损失和观点分类损失,分别训练情感分类损失权重和观点分类损失权重,进一步提高了模型的情感识别能力,进而提高对视频情感识别的准确性。
图3为本发明实施例提供的一种视频特征提取方法的流程图。
在上述实施例的基础上,本发明实施例对提取视觉特征及文本特征的方法进行说明。
在训练图像情感识别模型的过程中,需要提取的视觉特征为图像特征。在训练视频情感识别模型的过程中,需要提取的视觉特征为帧视觉特征或视频特征。
视频可以看成在时间维度上的一组图像。本发明实施例首先对提取帧视觉特征的步骤进行说明。
如图3所示,帧视觉特征的提取主要分为拆帧和提取帧视觉特征两个步骤。对于拆帧的步骤,可以采用均匀采样方式在视频中选取N帧。将单个视频采样后结果记为fi={fi 1,fi 2,...,fi N},其中N为采样数目,fi为当前视频抽帧之后的结果。
对于提取帧视觉特征的步骤,可以记视觉模态的视觉特征为其中/>为单个视频的所有帧视觉特征。选取的视频帧即为图像,可采用图像相关骨干网络(vision backbone)提取对应图像特征,如Resnet、ViT等。此处以对比语言-图像预训练模型中的ViT为例提取视觉特征,将图像无重叠分块成16x16大小的块(patch),然后将这些二维的块(patch)线性映射到一维,并叠加对应的位置向量(position embedding),通过12层的转换编码器(transformer encoder)的自注意力机制整合上下文信息,去建模全局信息,并实现特征交互和融合,随后通过多层感知机(MLP)提取图像特征,同时促进不同位置的特征信息传递,最终输出的图像特征维度为197x768,其中197=196+1,196为块(patch)序列长度,1为特殊字符(分类标记cls),768为块(patch)维度。
需要说明的是,在图3中,各层编码器输出的视觉特征(0,1,……N)及文本特征(0,1,……M)采用了相同的三元组图形表示,并不代表各层编码器输出的特征都是一样的,仅为指示该特征为视觉特征的三元组数据或文本特征的三元组数据。
至此,可以获得各单个视频帧的视觉特征。提取图像模态的视觉特征的步骤可以参考该提取单个视频帧的帧视觉特征的步骤。
而在视频中,视频帧之间往往存在关联关系,如表征一个动作的不同步骤。则在上述步骤的基础上,可以通过自注意力机制实现视频帧之间的交互,最终输出视频帧之间的表征,具体步骤可以包括:
采用featurevf=ReLU(FC(reshape(FCseq(featurevf))))对帧视觉特征的维度进行调整,其中FCseq为输入维度768输出1024的维度全连接层,reshape为将特征维度b×numclip转换为[b,numclip],FC为输入维度1024输出维度1024的全连接层,numclip为每个视频帧数;
通过转换编码器(transformer encoder)提取视频特征,即featurevf=transformer_encode(featurevf),其中transformer_encode为隐藏层维度为1024,深度为4,header为8,块(path_size)大小为6×10的自注意力模块featurevf最终的输出维度为[b,numclip,1024],其中b为批次数据大小(batch size),numclip为每个视频帧数。
而在训练视频情感识别模型时,由于需要往往需要对整个视频的内容进行理解,因此不能局限于帧维度的特征。在本发明实施例的另一些可选的实施方式中,当待处理视觉情感识别任务为视频情感识别任务时,S102中利用样本数据集、待处理视觉情感识别任务的任务目标以及各注意力头的损失值训练初始视觉模型中各注意力头的权重,输出视觉情感识别模型,可以包括:
对样本数据集中的视频样本,自视频样本中提取多个视频帧,获取视频帧的帧视觉特征并根据视频帧在视频样本中的顺序为帧视觉特征添加时间维度信息;
根据与视频样本对应的注释文本提取文本特征;
对添加时间维度信息的帧视觉特征和文本特征进行编码后,得到视频样本的视频特征;
将视频特征输入初始视觉模型,并根据各注意力头的损失值调整初始视觉模型中各注意力头的权重,输出视觉情感识别模型。
在训练针对视频情感识别任务的视觉情感识别模型时,所需获取的样本数据集包括视频样本及其对应的文本样本。获取的样本数据集可以来源于公开的数据集,如视频-本文检索、动作分类和识别、视频描述,或待处理视觉情感识别任务的用户提供的样本数据集。
其中,视频-本文检索类样本数据集可以包括MSR-VTT,每个视频有多达20个描述,而且每个视频提供对应的类别,如音乐等。此类数据集将对应的类别作为本方案的hashtag,而视频描述、视频保持不变。
动作分类和识别样本数据集可以包括UCF101,此类数据集包含101个动作类别的视频片段,每个视频提供对于动作类别已经发生的起始时间和结束时间。此类数据集将动作类别作为本方案的hashtag,由于此类数据集缺少对应的描述,可根据现有视频描述模型,如Vid2Seq,基于视频内容、动作类别已经动作发生的开始和结束,生成多个对于当前视频的描述。
视频描述类样本数据集可以包括MSVD,每个视频片段都附带了多个人工生成的英文描述,共计约70,000个描述。这些描述被设计用于准确地描述视频片段中正在发生的事件和场景。由于此类数据集缺少对应的类别,可通过动作分类和识别相关模型直接生成对应类别,如TSN、BSN、R2Plus1D等,随后结合视频描述剔除掉相似度的类别,并将最终类别作为本发明实施例所采用的话题标签(hashtag)。
为了使得视频内容更契合文本或者任务,同时加速任务的收敛,本发明实施例将采取基于话题标签(hashtag)的交叉编码器(cross encoder)。
在利用本发明实施例提供的视频帧的帧视觉特征的提取方法提取帧视觉特征后,由于视频帧特征仅是空间维度上视觉特征,缺少时间维度上信息,为了能够表达视频特征,需要将在帧视觉特征附加时间维度信息。时间维度信息有相对时间维度和绝对时间维度,相对时间维度是根据抽取帧的顺序依次添加时间顺序,而绝对时间维度是当前帧在整个视频中位置,通常会精确到毫秒。本方案仅需对视频内容进行理解,不需要绝对时间维度。而后,利用本发明实施例提供的基于话题标签(hashtag)的交叉编码器(cross encoder)进一步提取视频特征。
在此,需要对本发明实施例训练视觉情感识别模型所采用的话题标签(hashtag)进行说明。在社交平台中,话题标签(hashtag)也称聚合标签,通常采用井号“#”单词或短语来表示数据类别,在社交平台中用于组织话题讨论。而在本发明实施例中,定义话题标签(hashtag)作为提取视频特征的导向,以帮助模型提供更多的语境信息,增强视觉模态和语言模态的联合表征学习能力,进而提升模型泛化能力。
则在本发明实施例的一些可选的实施方式中,根据与视频样本对应的注释文本提取文本特征,可以包括:根据与视频样本对应的注释文本和视频样本的话题标签构建与视频样本对应的文本样本后,自文本样本中提取与视频样本对应的文本特征。话题标签可以采用但不限于获取视频样本时的搜索关键词、视频样本携带的视频分段信息。
其中,搜索关键词为爬取视频时会采用关键词的形式进行搜索,检索结果会根据相关性从高至低进行排序,通常数据收集者会采集高相关性的视频,因此这些关键词与视频内容强相关。如搜索关键词为“篮球”,得到的视频皆是篮球的相关视频。
视频分段信息则是在某些视频尤其是篇幅较长的视频中携带的划分视频章节的信息,例如该视频的每十分钟被分为一段,每段视频对应该视频的一个章节,则“十分钟”在视频中的相对时间位置即为视频分段信息。
若以搜索关键词作为话题标签,在本发明实施例的一些可选的实施方式中,根据与视频样本对应的注释文本提取文本特征,可以包括:
自与视频样本对应的注释文本中提取主语和宾语;
将主语和宾语与获取视频样本的搜索关键词进行拼接,得到文本特征。
视频内容通常表达一个观点或描述一个事实,而这些内容通常有对应的客体和主体,以文本主语和宾语为导向针对是单个视频,如“小男孩在公园里遛狗”。
则如图3所示,假设视频样本的注释文本(评论)为“姚和麦在篮球队中表现最为出彩”,视频样本的搜索关键词为“篮球”,对注释文本(评论)进行句法分析,提取主语和宾语分别为“姚”和“麦”,以“篮球”为话题标签,拼接得到“[分类标记][篮球][姚][麦][序列终止标签][补全字符]”的句子,其中,“[分类标记]”表示为“cls”,“[序列终止标签]”表示为“eos”,“[补全字符]”表示为“pad”。将拼接得到的句子输入语言骨干网络进一步提取文本特征0,1,……M。
若以视频分段信息作为话题标签,根据与视频样本对应的注释文本提取文本特征,可以包括:
若视频样本对应有视频分段信息和分段事件描述,则根据视频分段信息将视频样本切分为多个子视频样本,并将对应的分段事件描述作为子视频样本的注释文本;
调用视频动作识别模型识别得到子视频样本的动作预测结果;
自子视频样本的注释文本提取视频描述关键词后,将子视频样本的动作预测结果与子视频样本的视频描述关键词进行拼接,得到子视频样本的文本特征;
整合各子视频样本的文本特征为视频样本的文本特征。
其中,自子视频样本的注释文本提取视频描述关键词,可以包括:采用自然语言处理(NLP)模型提取核心关键词的方式自子视频样本的注释文本提取视频描述关键词。
若以视频分段信息作为话题标签,根据与视频样本对应的注释文本提取文本特征,还包括:
若视频样本对应有视频分段信息和分段动作描述,则根据视频分段信息将视频样本切分为多个子视频样本;
调用视频描述模型生成各子视频样本的描述文本;
自分段动作描述中提取动作关键词,自描述文本中提取视频描述关键词后,将子视频样本的动作关键词和子视频样本的视频描述关键词进行拼接,得到子视频样本的文本特征;
整合各子视频样本的文本特征为视频样本的文本特征。
其中,自描述文本中提取视频描述关键词,可以包括:采用自然语言处理(NLP)模型提取核心关键词的方式自描述文本中提取视频描述关键词。
在本发明实施例的另一些可选的实施方式中,根据与视频样本对应的注释文本提取文本特征,可以包括:
若视频样本不包括视频分段信息,则自与视频样本对应的注释文本中提取主语和宾语;将主语和宾语与获取视频样本的搜索关键词进行拼接,得到文本特征;
若视频样本对应有视频分段信息和分段事件描述,则根据视频分段信息将视频样本切分为多个子视频样本,并将对应的分段事件描述作为子视频样本的注释文本;调用视频动作识别模型识别得到子视频样本的动作预测结果;自子视频样本的注释文本提取视频描述关键词后,将子视频样本的动作预测结果与子视频样本的视频描述关键词进行拼接,得到子视频样本的文本特征;整合各子视频样本的文本特征为视频样本的文本特征;
若视频样本对应有视频分段信息和分段动作描述,则根据视频分段信息将视频样本切分为多个子视频样本;调用视频描述模型生成各子视频样本的描述文本;自分段动作描述中提取动作关键词,自描述文本中提取视频描述关键词后,将子视频样本的动作关键词和子视频样本的视频描述关键词进行拼接,得到子视频样本的文本特征;整合各子视频样本的文本特征为视频样本的文本特征。
继而执行对添加时间维度信息的帧视觉特征和文本特征进行编码后,得到视频样本的视频特征的步骤。如图3所示,利用本发明实施例提供的基于话题标签(hashtag)的交叉编码器(cross encoder),基于话题标签(hashtag)及注释文本提取视频特征的步骤包括:
获取视频样本对应的话题标签以及注释文本中的主语和宾语。话题标签可以通过标注文件直接获取,而注释文本中的主语和宾语通过句法分析加依存关系确定,如可以给定输入的文本,首先进行句法分析来确定句子中的结构和成分,通过句法分析将给定的文本分解为短语、句子和词汇,并确定它们之间的关系;
根据句法分析结果,确定依存关系,得到注释文本中的主语或宾语;通过分析句子中的依存关系,确定动词和其他成分之间的关系,找到与动词直接或间接依赖关系的成分,从而确定句子的主语和宾语;
拼接话题标签(hashtag)和注释文本中的主语和宾语,并基于语言骨干网络提取特征令话题标签(hashtag)数目为n,注释文本中的主语为m,宾语数目为l,且n+m+l<10,拼接过程可以包括:拼接话题标签(hashtag)和注释文本中的主语和宾语,拼接后的记为tagtext={h0,h1...,hn,z0,z1...,zm,b0,b1,b2...,bl};选择语言骨干模型对文本特征进行标记(token)化,并提取向量(embedding),设置最大长度为10,长度不足10将用补全字符(pad)补齐,加上前后分类标记(cls)和序列终止标签(eos),这样输出维度为12x768;
拼接帧视觉特征featurevf与文本特征并输入到基于话题标签(hashtag)的交叉编码器(cross encoder)进行编码得到视频特征,可以包括:
拼接帧视觉特征featurevf与文本特征首先按照视频帧的顺序,依次添加对应位置编码framepos,作为视频帧的时间维度信息,另外添加视频类型编码frametype(例如,若该数据为视频数据则用0表示,若该数据为文本数据则用1表示),如此将每个视频帧的帧视觉特征表征为帧特征三元组(对应图3中视觉特征三元组数据);基于话题标签(hashtag)和主语宾语的/>添加位置编码/>和类型编码/>如此将每个文本特征表征为文本特征三元组/>(对应图3中文本特征三元组数据);拼接帧特征三元组与文本特征三元组,得到输入特征其中/>为帧特征三元组,/>为文本特征三元组,N和M为帧数目和文本长度;
将拼接之后的帧视觉特征featurevf与文本特征输入到基于话题标签(hashtag)的交叉编码器(cross encoder)进行编码,随后经过多层感知机得到视频特征featurevideo;其中,基于话题标签(hashtag)的交叉编码器(cross encoder)可以由四层转换编码器模型构成,隐藏层维数为512,交叉注意力头(cross-attention head)的数目为4,下降速度(drop)可以设置为0.1,权重初始化可采用对比语言-图像预训练模型的文本编码器(text-encoder);为了充分利用图文预训练模型的知识,在视觉特征与跨模态表征之间采用残差结构,即/>其中ρ为池化(pool)层,λ为权重;通过含有多个全连接层的多层感知机得到最终的视频特征,featurevideo=MLP(featurevideo),最终的维度[b,128],其中b为批次数据大小(batch size),128为多层感知机的输出维度。本发明实施例提供的视觉情感识别方法,还通过在训练视觉情感识别模型时,基于注释文本中的文本特征自视频样本中提取视频特征,可以采用注释文本中的主语和宾语以及获取视频样本的搜索关键词进行拼接得到文本特征,相较于传统的视频特征提取方案,在不同层面上为视觉情感识别模型提供了丰富的上下文信息,帮助视觉情感识别模型更好地理解视频内容,提高视频特征提取的效果。
本发明实施例提供的视觉情感识别方法,还通过对长视频进行基于视频分段信息的视频动作获取,如通过调用视频动作识别模型识别得到分段后的子视频样本的动作预测结果,或通过调用视频描述模型生成各子视频样本的描述文本,以解决视觉情感识别模型在处理长视频时凸显的理解能力不足的问题。
为进一步提高视觉情感识别模型的泛化能力,本发明实施例进一步提供一种作为通用视觉模型的初始视觉模型的预训练方案。
在本发明实施例中,初始视觉模型,通过下述步骤得到:
基于视觉文本匹配任务、掩码文本预测任务和共识信息筛选任务构建损失函数,预训练得到初始视觉模型;
其中,视觉文本匹配任务用于识别视觉样本与文本样本的匹配情况,掩码文本预测任务用于识别根据未被掩码的上下文信息预测被掩码的信息,共识信息筛选任务用于自先验字典筛选视觉模态和文本模态的共识信息。
训练初始视觉模型也需要样本数据集。样本数据集的收集方式可以采用上述训练视觉情感识别模型过程中的样本数据集的收集方式。需要说明的是,为了适配更多的下游任务,初始视觉模型可以采用更加通用的样本数据集,例如仅包括图像样本及其对应的文本样本或视频样本及其对应的文本样本,文本样本可以不限于评论,也可以为图像样本或视频样本自带的注释文本,该注释文本可以包括但不限于图像或视频的题目、摘要、字幕或其他描述文字,还可以包括通过图像识别模型或视频识别模型自图像或视频中识别得到的文字信息。
在本发明实施例中,通过融合视觉和语言信息预训练初始视觉模型,实现跨模态的理解和生成,可以通过无监督学习方式,大规模利用无标签数据,学习丰富的视觉和语言知识。初始视觉模型的训练框架也可以参考图2提供的视频情感识别模型的训练框架,将转换编码器模型的输出输入到视觉文本匹配模型和掩码语言模型执行视觉文本匹配任务和掩码文本预测任务。通过设置三种损失函数,实现视觉模态和文本模态的匹配、掩码预测以及获取跨模态共识信息。
在本发明实施例中,视觉文本匹配任务用于识别视觉样本与文本样本的匹配情况,例如可以设置匹配为1,不匹配为0。以本发明上述实施例列举的训练视觉情感识别模型时的三种样本数据集为例,在适配视频与文本的匹配任务中,针对视频-文本检索和视频描述,由于不存在同类视频,因此做匹配时,随机选择其他视频或者其他视频对应的文本;而对于动作分类和识别类数据集,存在不同视频同类现象,需要从其他类视频或者其他类视频对应的文本中随机选择。视觉文本匹配任务对应的损失函数可以为:
其中,Lvtm为视觉文本匹配任务的损失值,S为视觉模态与文本模态的匹配对的数目,为符号函数,当视觉模态与文本模态匹配时/>为1,当视觉模态与文本模态不匹配时/>为0,Vi为第i个视觉模态,Ti为第i个文本模态,/>为视觉模态与文本模态匹配预测的概率。
在本发明实施例中,掩码文本预测任务用于识别根据未被掩码的上下文信息预测被掩码的信息。采用掩码语言模型(masked Language Modeling,MLM)实现无监督的预训练,根据剩余未被掩码的上下文信息预测这些被掩码的单词。具体而言,是掩码文本中一部分词,基于输入的图像数据或视频数据和其他未被掩码的词,去预测被掩码掉部分内容。
基于本发明上述实施例介绍的在提取视觉特征时,可以通过构建话题标签的方式丰富视觉模态的除注释文本之外的语境。以话题标签为视觉标签,则掩码文本预测任务分为两种情况:第一种掩码文本预测任务为将视觉标签掩码,基于输入的视觉数据和文本数据预测被掩码的视觉标签。第二种掩码文本预测任务为将注释文本掩码,基于输入的视觉数据和话题标签去预测被掩码的注释文本。
则掩码文本预测任务对应的损失函数可以为:
其中,Lmlm1为第一掩码文本预测损失值,S为视觉模态与文本模态的匹配对的数目,V为文本模态的词典大小,为符号函数,当根据第v个视觉模态预测的视觉标签符合第i个文本模态中被掩码的视觉标签时/>为1,当根据第v个视觉模态预测的视觉标签不符合第i个文本模态中被掩码的视觉标签时/>为0,Vi为第i个视觉模态,Ti为第i个文本模态,/>为根据输入的视觉模态和文本模态预测被掩码的视觉标签的概率;
Lmlm2为第二掩码文本预测损失值,为符号函数,当根据第v个视觉模态预测的注释文本符合第i个文本模态中被掩码的注释文本时/>为1,当根据第v个视觉模态预测的注释文本不符合第i个文本模态中被掩码的注释文本时/>为0,Thashtag为第i个视觉模态的视觉标签,/>为第i个文本模态中被掩码的注释文本,/>为根据输入的视觉模态、视觉标签、剩余文本模态预测被掩码的文本模态的概率。
在训练初始视觉模型时,掩码语言模型可以进行15%的掩码。
在本发明实施例中,共识信息筛选任务用于自先验字典筛选视觉模态和文本模态的共识信息。在本发明实施例的一些实施方式中,可以采用构建新字典的方式来使模型学习视觉模态到文本模态的跨模态共识信息。通过随机初始化先验字典,在预训练初始视觉模型时对先验字典进行迭代更新,使模型将跨模态共识信息学习到字典中。共识信息筛选任务对应的损失函数可以为:
其中,LPD为共识信息筛选任务对应的损失函数,K为目标先验知识的数量,sg(·)为向量化函数,β为权重参数,Vi为第i个视觉特征,Tj为第j个文本特征,Zidx为关联第i个视觉模态和第j个文本模态的相关信息,PD(Vi,Tj,Zidx)为第i个视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值,Zk为视觉模态和文本模态之间的相关信息,PD(Vi,Tj,Zk)为第i个视觉模态、第j个文本模态以及视觉模态和文本模态之间的相关信息的条件互信息字典值,PD(V,Tj,Zidx)为所有视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值,Ei为先验字典中每个特征的向量。
在共识信息筛选任务对应的损失函数中,第一项为L2损失函数(又称为欧几里得损失函数或均方误差(MSE)损失函数),使得Ei映射到目标先验知识表达;第二项也同样是L2损失函数,用来约束先验字典的向量(embedding)空间,防止其过快增长。
本发明实施例提供的视觉情感识别方法,还通过基于视觉文本匹配任务、掩码文本预测任务和共识信息筛选任务构建损失函数预训练得到初始视觉模型,以分别实现识别视觉样本与文本样本的匹配情况、识别根据未被掩码的上下文信息预测被掩码的信息以及自先验字典筛选视觉模态和文本模态的共识信息,从而在针对不同的任务目标训练视觉情感识别模型时均可以显著提升训练效率。
在上述实施例的基础上,本发明实施例进一步对建立视觉文本跨模态共识信息的步骤进行说明。
在本发明实施例中,S102中的基于视觉文本跨模态共识信息的视觉文本跨模态编码,可以通过下述步骤得到:
初始化先验字典;
根据待处理视觉情感识别任务的任务目标确定目标模态;
基于样本数据集,自先验字典中筛选与目标模态适配的目标先验知识;
基于目标先验知识对样本数据集中的视觉模态和样本数据集中的文本模态进行跨模态信息融合,提炼视觉模态和文本模态之间的视觉文本跨模态共识信息;
根据视觉文本跨模态共识信息对应的视觉特征、文本特征和目标先验知识进行跨模态融合编码,得到视觉文本跨模态编码;
其中,目标模态为视觉模态、文本模态和视觉文本联合模态中的一个,视觉特征为图像特征或视频特征。
在本发明实施例中,先验字典初始时为一组随机变量,通过视觉与文本跨模态学习,将先验知识引入到先验字典中,起到桥接视觉内容与文本内容语义不对齐的部分。进而言之,为了解决视觉模态和文本模态之间不对齐现象,在视觉模态和文本模态之间搭建桥梁,通过该桥梁分别与视觉模态和文本模态进行多次交互,以在先验字典中挑选最适配视觉模态和文本模态的目标先验知识,通过后续的跨模态编码,来对齐视觉模态和文本模态。
在本发明实施例中,首先构建先验字典(Prior knowledge Dictionary)。令先验字典矩阵为其中C为向量(embedding)长度,D为向量(embedding)维度,采用随机初始化方式构建先验字典。
而后自先验字典中筛选目标先验知识。先验字典经过视觉模态和文本模态的跨模态学习之后,会将相关的知识学习到先验字典中,而这些相关的知识可以作为先验知识,这些目标先验知识通过视觉内容和文本信息进行筛选,将筛选结果称为目标先验知识。由于不同的待处理视觉情感识别任务所侧重的模态不同,根据待处理视觉情感识别任务的任务目标确定目标模态后,再基于样本数据集自先验字典中筛选与目标模态适配的目标先验知识。
当目标模态为视觉文本联合模态时,令视觉模态为V={V0,V1,...,Vn},文本模态为T={T0,T1,...,Tm},其中Vi为视觉模态中第i个模态,Tj为文本模态中的第j个模态,需要从C维的先验字典U中选择出最适配联合目标{Vi,Tj}的K个目标先验知识。当目标模态为视觉文本联合模态时,基于样本数据集,自先验字典中筛选与目标模态适配的目标先验知识,可以包括:
根据样本数据集构建视觉文本模态对,计算先验字典中的先验知识与视觉文本模态对之间的第一条件互信息;
建立先验知识与第一条件互信息的一一映射关系,得到第一先验知识-条件互信息字典;
根据第一先验知识-条件互信息字典中的第一先验知识-条件互信息字典值从大到小的顺序,选出与视觉文本模态对相关性最高的第一预设数量先验知识;
自所有视觉文本模态对相关性最高的第一预设数量先验知识中选出相关性最高的第二预设数量先验知识为目标先验知识;
其中,一个视觉文本模态对包括样本数据中的一个视觉模态和样本数据中的一个文本模态。
其中,第一条件互信息,可以通过下式计算得到:
其中,I(Vi;Tj|Z)为第一条件互信息的值,p(v,t,z)为先验知识z、文本模态t与视觉模态v的联合概率分布函数,p(z)为先验知识z的概率分布函数,p(v,z)为视觉模态v与先验知识z的联合概率分布函数,p(t,z)为文本模态t与先验知识z的联合概率分布函数,Vi为视觉模态中的第i个模态,Tj为文本模态中的第j个模态,Z为先验字典。
第一先验知识-条件互信息字典值,可以通过下式计算得到:
其中,PD(Zidx)为第一先验知识-条件互信息字典值,I(V;T|Zidx)为第一条件互信息的值,len(V)为视觉模态长度,len(T)为文本模态长度。
将第一先验知识-条件互信息字典值按照从大到小排序,选择与联合目标{Ti,Tj}相关性最高的k个先验知识。为降低后续编码计算量,在遍历上述步骤选择出视觉模态与文本模态所有组合的相关性最高的k的先验知识后,统计所有组合的先验知识,按照出现次数排序这些先验知识,从中选择出次数最多的K个先验知识作为最终筛选出的目标先验知识。
而在另一些视觉情感识别任务中,需要更侧重于视觉模态或更侧重于文本模态,即联合目标{V,T}变为单目标处理流程类似。
由于评论中带有丰富的情感和观点信息,这些情感和观点是观看者对视频内容的直接反映,如情感状态、观点等,这些信息可以为任务提供更直接、丰富的线索,在进行视频情感识别时,通过根据视频与评论的内容去做情感分析与观点分析,尤其是通过同一视频的不同评论之间相互补充,可以多角度获取到视频信息、消除视频内容的歧义、捕获更多的情感细节,例如,不同的评论反映了观看者多样化的情感和观点,通过分析这些不同的评论,可以获得更全面的情感理解,从而对同一视频获取多角度的视频信息;有时视频内容本身可能模糊不清或多义,评论可以提供额外的上下文信息,帮助解释视频内容,减少误解;评论中的细节可以揭示视频中不易察觉的情感细节,如微妙的幽默、讽刺或情绪转变等。此外,通过获取评论中共同的价值取向,即通过分析视频评论,有助于理解观看者对于某一类视频的普遍态度,同时有助于模型学习到特定文化或社会群体的价值观和偏好。因此,对于基于评论的视频情感识别任务,通过将用于筛选目标先验知识的目标模态设置为文本模态,以侧重于从文本模态侧获取跨模态共识信息,更有助于模型理解视频的情感信息。
则在本发明实施例的另一些可能的实施方式中,当待处理视觉情感识别任务为基于评论的视觉情感识别任务时,目标模态为文本模态;
基于样本数据集,自先验字典中筛选与目标模态适配的目标先验知识,包括:
计算先验字典中的先验知识与样本数据集中的文本模态的第二条件互信息;
建立先验知识与第二条件互信息的一一映射关系,得到第二先验知识-条件互信息字典;
根据第二先验知识-条件互信息字典中的第二先验知识-条件互信息字典值从大到小的顺序,选出与样本数据集中的文本模态相关性最高的第三预设数量先验知识;
自与样本数据集中的各文本模态相关性最高的第三预设数量先验知识中选出相关性最高的第四预设数量先验知识为目标先验知识。
当目标模态为视觉模态时,实现方式与目标模态为文本模态时的实现方式类似。
图4为本发明实施例提供的一种接地编码器的架构图。
基于上述实施例提供的任意一种跨模态共识信息的建立方法,本发明实施例进一步对基于视觉文本跨模态共识信息的视觉文本跨模态编码的实现步骤进行说明。需要说明的是,本发明实施例提供的基于视觉文本跨模态共识信息的视觉文本跨模态编码的步骤不仅可以应用于视觉情感识别模型的训练过程中,也可以应用于初始视觉模型的训练过程中以提升模型的跨模态编码能力,进而提高模型泛化能力。
多模态模型中通常将两个模态特征直接输入到转换编码器模型中,利用转换编码器模型的自注意力机制促进不同模态在同一表征空间的对比与关联,进而提升模型的性能。但由于两个模态常常存在语义鸿沟,如果强制关联视觉模态和文本模态,会减弱模型性能。为了提升跨模态之间的融合,本发明实施例基于两个模态或单个模态从先验字典中获取相关的先验知识,以它作为桥梁提升跨模态融合能力,如图4所示,本发明实施例提供一种接地编码器(grounding encoder)用于实现基于目标先验知识对样本数据集中的视觉模态和样本数据集中的文本模态进行跨模态信息融合,提炼视觉模态和文本模态之间的视觉文本跨模态共识信息的步骤。
在本发明实施例中,基于目标先验知识对样本数据集中的视觉模态和样本数据集中的文本模态进行跨模态信息融合,提炼视觉模态和文本模态之间的视觉文本跨模态共识信息,可以包括:
分别对样本数据集中的视觉模态和样本数据集中的文本模态进行模态内信息整合以及跨模态信息整合,得到模态内信息整合结果和全局共识信息整合结果;
基于模态内信息整合结果和全局共识信息整合结果,构建文本交叉注意力模块以基于目标先验知识搜索视觉模态中与文本模态关联的视觉信息;
基于模态内信息整合结果和全局共识信息整合结果,构建视觉交叉注意力模块以基于目标先验知识搜索文本模态中与视觉模态关联的文本信息;
基于视觉模态中与文本模态关联的视觉信息、文本模态中与视觉模态关联的文本信息以及目标先验知识,构建注意力模块进行视觉文本跨模态共识信息的融合和提炼。
其中,分别对样本数据集中的视觉模态和样本数据集中的文本模态进行模态内信息整合以及跨模态信息整合,得到模态内信息整合结果和全局共识信息整合结果,可以包括:
对样本数据集中的视觉模态进行模态内信息整合,得到视觉模态信息;
对样本数据集中的文本模态进行模态内信息整合,得到文本模态信息;
对目标先验知识进行模态内信息整合,得到目标先验知识模态信息;
以视觉模态信息、文本模态信息和目标先验知识模态信息为模态内信息整合结果;
基于目标先验知识对视觉模态和文本模态进行跨模态信息整合,建立视觉模态信息、文本模态信息和目标先验知识模态信息的跨模态信息关联交互模型;
基于跨模态信息关联交互模型,调用转换编码器模型对视觉特征、文本特征和目标先验知识进行整合处理,得到全局共识信息整合结果;
其中,在处理视觉特征时,对文本特征和目标先验知识进行掩膜处理;在处理文本特征时,对视觉特征和目标先验知识进行掩膜处理;在处理目标先验知识时,不对视觉特征、文本特征及目标先验知识设置掩膜。
如图4中下方三个方框所示,分别对视觉模态的视觉标记、文本模态的文本标记和目标先验知识的先验知识标记进行模态内信息整合,用来整合关键信息和全局信息。由于一些关键的信息可能分布在不同的位置,通过模态内信息整合可获取这些关键信息;另外,自注意机制本身可以就捕获到全局的语义信息。
而后如图4下方三个方框的交叉示意,基于先验知识标记整合所有模态信息,即视觉标记、文本标记和先验知识标记。由于先验知识标记是基于视觉特征和文本特征筛选出来的,因此先验知识标记之间除了自身连接之外,同时连接视觉标记和文本标记,来提升不同模态信息之间的关联和交互。
如图4所示,使用同一个转换编码器模型处理视觉标记、文本标记和先验知识标记,此处转换编码器模型可以采用多头注意力模型、基于转换编码器模型的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)模型或对比语言-图像预训练(Contrastive Language-Image Pretraining,CLIP)模型,将模型记为TE0,令视觉特征为V={v0,v1,...,vn},文本特征为T={t0,t1,...,tm},筛选出的先验知识的特征为P={p0,p1,...,pk},对应的标记(token)类型为token_type={typev,typep,typet},其中typev、typet、typep为视觉标记、文本标记和先验知识标记对应的标记(token)类型,其中/>为视觉标记、文本标记和先验知识标记对应的掩码(mask),输入为input_id={v0,v1,...,vn,p0,p1,...,pk,t0,t1,...,tm},包括下述三种掩码类型:
视觉特征掩码(mask),当处理视觉特征时,遮住其他两个模态,即令为1,为0,记为attention_maskvideo
文本特征掩码(mask),当处理文本特征时,遮住其他两个模态,即令为1,为0,记为attention_masktext
基于目标先验知识整合所有模态信息的掩码(mask),当处理目标先验知识时,由于需要关注到所有模态信息,即令为1,记为attention_maskp
整合以上三种掩码(mask),得到attention_mask={attention_maskvideo,attention_maskp,attention_masktext},经由转换编码器模型处理得到视觉模态信息、文本模态信息和目标先验知识模态信息的跨模态信息关联交互模型,即跨模态信息整合结果为X=TE0(input_id,attention_mask,token_type)。
经过上述信息整合步骤,已完成关键信息和全局共性信息整合,为了进一步完善共识信息,基于目标先验知识为桥梁的基础上,视觉模态与文本模态分别互相交互,建立视觉信息和语言信息之间的关系,使每种模态均考虑另一种模态的上下文,提高模型对于每种模态内部信息理解。基于模态内信息整合结果和全局共识信息整合结果,构建文本交叉注意力模块以基于目标先验知识搜索视觉模态中与文本模态关联的视觉信息,可以包括:
合并模态内信息整合结果中的视觉模态信息和目标先验知识为文本交叉注意力模块的键值数据,以模态内信息整合结果中的文本模态信息为文本交叉注意力模块的查询语句,以利用文本交叉注意力模块基于查询语句查询对应的键值数据,得到视觉模态中与文本模态关联的视觉信息;
基于模态内信息整合结果和全局共识信息整合结果,构建视觉交叉注意力模块以基于目标先验知识搜索文本模态中与视觉模态关联的文本信息,包括:
合并模态内信息整合结果中的文本模态信息和目标先验知识为视觉交叉注意力模块的键值数据,以模态内信息整合结果中的视觉模态信息为视觉交叉注意力模块的查询语句,以利用视觉交叉注意力模块基于查询语句查询对应的键值数据,得到文本模态中与视觉模态关联的文本信息。
如图4所示,构建文本交叉注意力(Text cross attention)模块来获取文本对应的视觉信息,有助于模型理解图像或视频中的具体内容。通过构建文本交叉注意力模块中的查询语句(query)、关键字(key)和值(value),合并视觉模态和目标先验知识,并作为关键字(key)和值(value),即key=value={v0,v1,...,vn,p0,...,pk},其中vi和pi分别为视觉模态和目标先验知识,将文本模态作为query={t0,t1,...,tm};以文本模态作为查询语句(query),视觉模态和先验知识作为关键字(key)和值(value),获取与文本模态相关的视觉信息。此处可以采用多头注意力机制作为文本交叉注意力模块,textatt=text_cross_attention(query,key,value),输出维度与查询语句(query)维度相同,注意力头(header)为3。
如图4所示,构建视觉交叉注意力(Vision cross attention)模块来获取视觉对应的文本信息,有助于模型理解描述或文本的具体语境。构建视觉交叉注意力模块的查询语句(query)、关键字(key)和值(value),此处将视觉模态作为查询语句(query),文本模态和目标先验知识作为关键字(key)和值(value)。即合并文本模态和目标先验知识,key=value={t0,t1,...,tm,p0,...,pk},其中ti和pi分别为文本模态和目标先验知识,将视觉模态作为query={v0,v1,...,vn}去获取与视觉模态相关的文本信息;此处可以采用多头注意力机制作为视觉交叉注意力模块,visionatt=vision_cross_attention(query,key,value),输出维度与查询语句(query)维度相同,注意力头(header)为3。
上述步骤虽从不同的层面获取其他模态的信息,但这些信息离散化,需要对这些信息进行融合并加以提炼,从而使得模型能够更好的处理和理解同时包含两种模态的复杂任务。则基于视觉模态中与文本模态关联的视觉信息、文本模态中与视觉模态关联的文本信息以及目标先验知识,构建注意力模块进行视觉文本跨模态共识信息的融合和提炼,可以包括:
以视觉模态中与文本模态关联的视觉信息为文本标记,以文本模态中与视觉模态关联的文本信息为视觉标记,以目标先验知识为先验知识标记;
拼接视觉标记、先验知识标记和文本标记后,输入注意力模块进行视觉文本跨模态共识信息的融合和提炼;
在注意力模块中,分别合并视觉标记和先验知识标记为键值数据,以文本标记为查询语句,以及合并文本标记和先验知识标记为键值数据,以视觉标记为查询语句,输出视觉文本跨模态共识信息。
如图4所示,拼接视觉标记、先验知识标记和文本标记,即input={Vision,Prior,Text},其中Vision为视觉交叉注意力模块输出结果,Text为文本交叉注意力模块输出结果,Prior为经过模型TE0处理后的先验知识标记。基于注意力机制进一步融合和提炼共识信息,此处仍可以采用多头注意力机制作为注意力模块,其中查询语句(query)、关键字(key)和值(value)相同,输入维度和输出维度相同,encode=attention(input)。
图5为本发明实施例提供的一种视频帧-文本跨模态编码的流程图。
由于每个人关注点不一样,导致同样的图像或视频帧出现不同的文本内容(即评论),通过构建视频帧视觉特征与文本特征关系,来解决文本关注视频中某一帧或某些帧情况,但由于两者之间存在语义不一致情况,为了缓解这一现象,通过基于文本语义与视频帧视觉语义去筛选先验字典相近的目标先验知识以作为视频帧(图像)-文本的跨模态共识信息并实现跨模态共识编码。
如图5所示,当视觉特征为图像特征(或视频帧特征)时,根据视觉文本跨模态共识信息对应的视觉特征、文本特征和目标先验知识进行跨模态融合编码,得到视觉文本跨模态编码,可以包括:
采用残差结构融合多次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码,得到视觉文本跨模态编码;
其中,当前次的输出结果为下一次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息的输入数据。
如图5所示,在本发明实施例中,参考本发明上述实施例的说明,对于输入的视频数据进行视频拆帧后通过视频帧特征提取模块提取帧视觉特征featurevf(0,1,……N)。
获取视频样本对应的文本样本,并采用语言骨干模型提取文本特征featuretext=backboneL(text)(0,1,……M),其中backboneL(·)为语言骨干模型,如基于转换编码器模型的双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)模型,大型语言模型(RoBERTa)等。例如,文本样本为评价“最后一个镜头是多么美丽,侧身滑下,多么惊人的技术”,则提取到句子“[分类标记][多么]……[惊人][序列终止标签][补全字符]”,利用语言骨干网络提取句子中的文本特征。
初始化先验字典(1,2……,C),将帧视觉特征与文本特征联合起来,采用先验字典中基于视觉模态和文本模态的去筛选先验字典中最相近的K个先验知识,记为其中Vi为视觉模态/>中第i帧模态,Tj为文本模/>的第j个模态。
拼接帧视觉特征featurevf、文本特征featuretext、K个目标先验知识,记为C0,通过本发明上述实施例提供的接地编码器(grounding encoder)模块进行编码,得到
获取编码后的视频帧特征文本特征/>输入到先验字典模块中,再次筛选先验字典中最相近的K个目标先验知识,记为/>
采用残差结构融合多次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码,得到视觉文本跨模态编码,可以包括:
利用对第i次输出结果中的图像特征编码进行特征融合处理,得到第i次输出结果对应的图像特征融合结果;
利用对第i次输出结果中的文本特征编码进行特征融合处理,得到第i次输出结果对应的文本特征融合结果;
利用对第i次输出结果中的先验知识编码进行融合处理,得到第i次输出结果对应的先验知识融合结果;
拼接第i次输出结果对应的图像特征融合结果、第i次输出结果对应的文本特征融合结果和第i次输出结果对应的先验知识融合结果,得到第i次输出结果对应的特征融合结果;
若i不为N,则对第i次输出结果对应的特征融合结果执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息,得到第i+1次输出结果;
若i为N,则以第i次输出结果对应的特征融合结果为视觉文本跨模态编码;
其中,为第i次输出结果对应的图像特征融合结果,λ为残差系数,/>为第i次输出结果中的图像特征编码,featurevf为输入的图像特征,/>为第i次输出结果对应的文本特征融合结果,/>为第i次输出结果中的文本特征编码,featuretext为输入的文本特征,/>为第i次输出结果对应的先验知识融合结果,/>为第i次输出结果中的先验知识编码,/>为输入的目标先验知识。
即是说,利用本发明实施例提供的接地编码器(grounding encoder)重复执行基于视频帧特征(或图像特征)及文本特征筛选目标先验知识及进行视觉文本跨模态编码的步骤,以上一次接地编码器(grounding encoder)的输出结果为当前接地编码器(grounding encoder)的输入数据,如此执行N次。
例如,采用残差结构融合得到将拼接之后的F1输入到接地编码器(grounding encoder)模块再次进行编码,得到F2。重复该步骤N次,得到最终编码结果FN
需要说明的是,本发明实施例提供的视频帧-文本跨模态编码方法可以应用于本发明实施例提供的视觉情感识别模型的训练过程中,也可以应用于本发明实施例提供的初始视觉模型的训练过程中。
本发明实施例提供的视觉情感识别方法,还通过基于残差结构在图像层面跨模态编码,解决文本模态聚焦图像全局及局部信息的问题,有助于模型捕捉图像细节信息,从而增强模型对视觉模态和文本模态两种模态间语义对应关系的理解,提高其在图像语言理解等相关任务上的表现。
图6为本发明实施例提供的一种视频-文本跨模态编码的流程图。
视频帧-文本跨模态编码解决了评论关注的视频的某一帧或者某几帧问题,针对评论关注的是某一段或者某几段,甚至整个视频,视频帧级别的处理就显得力不从心。为解决这一问题,需要建立视频特征与文本关系,同样为了解决两者语义不一致问题,通过基于文本语义和视频语义共同去筛选先验字典中的目标先验知识。如图6所示,当视觉特征为视频特征时,根据视觉文本跨模态共识信息对应的视觉特征、文本特征和目标先验知识进行跨模态融合编码,得到视觉文本跨模态编码,可以包括:
采用可学习的残差参数融合多次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码,得到视觉文本跨模态编码;
其中,当前次的输出结果为下一次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息的输入数据。
如图6所示,在本发明实施例中,参考本发明上述实施例的说明,对于输入的视频数据进行视频拆帧后通过视频帧特征提取模块提取帧视觉特征featurevf(0,1,……N)。
获取与视频样本对应的话题标签(hashtag)及注释文本(评价)中的主语和宾语,通过语言骨干模型提取文本特征featuretext=backboneL(text)(0,1,……M)。其中主语和宾语通过句法分析和依存关系获取。
通过基于话题标签(hashtag)的交叉编码器(cross encoder)对输入视频帧特征与文本特征(话题标签和主语、宾语)进行编码,在通过多层感知机得到视频特征featurevideo
采用语言骨干模型提取视频对应评价文本的文本特征featuretext,即
例如,注释文本为“姚和麦在篮球队中表现最为出彩”,采用搜索关键词“篮球”作为话题标签(hashtag),通过句法分析得到话题标签、主语和宾语拼接后的句子为“[分类标记][篮球][姚][麦][序列终止标签][补全字符]”,同时将注释文本转换为句子“[分类标记][姚]……[队][序列终标签][补全字符]”。将“[分类标记][篮球][姚][麦][序列终止标签][补全字符]”通过语言骨干网络提取特征后,通过本发明实施例提供的基于话题标签的交叉编码器基于“[分类标记][篮球][姚][麦][序列终止标签][补全字符]”提取的文本特征进行视频特征提取,并通过多层感知机输出得到视频特征。将“[分类标记][姚]……[队][序列终标签][补全字符]”通过语言骨干网络提取文本特征。
以视频特征featurevideo和文本特征featuretext为联合目标,从帧先验字典集中选择最相近的K个先验token。由于视频由帧组成,每帧都从一定程度上反映视频相关信息,因此此处采用所有帧已选择的目标先验知识作为视频的先验知识字典的候选集,此候选集为先验字典的子集。具体如下:
获取所有帧筛选的top-k先验知识,记为集合A,且A={P0,P1,...,PN},Pi为第i帧筛选的目标先验知识,/>其中/>为输入到第i个接地编码器(grounding encoder)筛选的top-k的目标先验知识。
采用先验知识-条件互信息字典值的大小从A中筛选最相近的K个目标先验,记为top_K_0=argmax_k(O(Vi;Tj|A),k),其中Vi为视觉模态featurevideo的第i个模态,Tj为文本模态featuretext的第j个模态。
拼接视频特征featurevideo、文本特征featuretext、K个目标先验知识,记为C1,通过接地编码器(grounding encoder)模块进行编码,得到编码
分别获取编码后的视频特征文本特征/>并组成成联合目标,从所有帧筛选的先验token集A中再次筛选最相近的K个目标先验知识,记为/>
采用可学习的残差参数融合多次执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息之后的输出结果并进行编码,得到视觉文本跨模态编码,可以包括:
对第i次输出结果中的视频特征,将其中各视频帧分别设置对应的帧系数,根据帧系数和视频帧的帧特征得到视频残差块特征,将视频残差块特征与第i次输出结果中的视频特征融合,得到第i次输出结果对应的视频特征融合结果;
对第i次输出结果中的文本特征,将其中各文本标记分别设置对应的文本标记系数,根据文本标记系数和文本标记得到文本残差块特征,将文本残差块特征与第i次输出结果中的文本特征融合,得到第i次输出结果对应的文本特征融合结果;
对第i次输出结果中的目标先验知识,将其中的各先验知识标记分别设置对应的先验知识标记系数,根据先验知识标记系数和先验知识标记得到先验知识残差块特征,将先验知识残差块特征与第i次输出结果中的目标先验知识融合,得到第i次输出结果对应的先验知识融合结果;
拼接第i次输出结果对应的视频特征融合结果、第i次输出结果对应的文本特征融合结果和第i次输出结果对应的先验知识融合结果,得到第i次输出结果对应的特征融合结果;
若i不为N,则对第i次输出结果对应的特征融合结果执行自先验字典中筛选与目标模态适配的目标先验知识以及提炼视觉模态和文本模态之间的视觉文本跨模态共识信息,得到第i+1次输出结果;
若i为N,则以第i次输出结果对应的特征融合结果为视觉文本跨模态编码。
如图6所示,通过可学习的残差系数对视频特征、文本特征以及目标先验知识特征进行融合。即给予每帧去学习对应的系数,通过帧系数以及帧特征得到残差块特征,随后通过残差结构融合。令视频帧的特征为F,维数为N×w×h,N为视频帧数,w和h分别为宽和高,此处可以为192、768。上述视频特征融合可以包括:
采用在帧数维度上计算全局平均值;
构建门控机制计算每帧的残差系数,γN=θ(FFN1(σ(FFN0(SN)))),其中FFNi为全连接网络,σ为激活函数,如神经网络激活函数(Rectified Linear Unit,ReLU)函数,θ为归一化(sigmoid)函数;
计算残差块的视频特征,ResF=γN×F;
通过残差结构融合视频特征,
文本特征融合和目标先验知识特征融合,在标记(token)个数上去学习对应系数,随后通过与视频特征融合策略相同的方法融合,得到和/>
拼接视频特征融合结果、文本特征融合结果和先验知识融合结果,得到特征融合结果
重复上述步骤N次,得到最终编码结果
即是说,利用本发明实施例提供的接地编码器(grounding encoder)重复执行基于视频特征及文本特征筛选目标先验知识及进行视觉文本跨模态编码的步骤,以上一次接地编码器(grounding encoder)的输出结果为当前接地编码器(grounding encoder)的输入数据,如此执行N次。
需要说明的是,本发明实施例提供的视频-文本跨模态编码方法可以应用于本发明实施例提供的视觉情感识别模型的训练过程中,也可以应用于本发明实施例提供的初始视觉模型的训练过程中。
本发明实施例提供的视觉情感识别方法,还通过基于可学习的残差系数在视频层面进行跨模态编码,通过学习得到不同视频帧的残差系数,助力模型处理更加复杂的视频语言理解任务,同时也深层次构建了视觉和语言两个模态之间的关系,提升视觉情感识别模型的模型泛化能力。
需要说明的是,在本发明各视觉情感识别方法的实施例中,各步骤或特征中的部分可以忽略或不执行。为方便说明所划分的硬件或软件功能模块,也并非实现本发明实施例提供的视觉情感识别方法的唯一实现形式。
上文详述了视觉情感识别方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的视觉情感识别装置、设备及可读存储介质。
图7为本发明实施例提供的一种视觉情感识别装置的结构示意图。
如图7所示,本发明实施例提供的视觉情感识别装置包括:
第一获取单元701,用于获取初始视觉模型和样本数据集;
第一训练单元702,用于为初始视觉模型配置基于文本情感评价编码的第一注意力头、基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头以及融合文本情感评价编码和视觉文本跨模态编码的第三注意力头,并将各注意力头的损失值拼接为初始视觉模型的模型损失值后,利用样本数据集、待处理视觉情感识别任务的任务目标以及各注意力头的损失值训练初始视觉模型中各注意力头的权重,输出视觉情感识别模型;
第一计算单元703,用于响应于待处理视觉情感识别任务,调用视觉情感识别模型对输入的待识别数据进行情感识别处理,得到视觉情感识别结果;
其中,根据待处理视觉情感识别任务的任务目标,样本数据集包括带有注释文本的图像数据或带有注释文本的视频数据;视觉文本跨模态共识信息通过视觉模态和文本模态之间的互信息构建。
需要说明的是,本发明实施例提供的视觉情感识别装置的各实施方式中,单元的划分仅为一种逻辑功能上的划分,可以采用其他的划分方式。不同单元之间的连接方式可以采用电性、机械或其他连接方式。分离的单元可以位于同一物理位置或分布在多个网络节点上。各单元可以以硬件的形式实现,也可以采用软件功能单元的形式实现。即可以根据实际需要选择本发明实施例提供的各单元的部分或全部并采用相应的连接方式或集成方式来实现本发明实施例方案的目的。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图8为本发明实施例提供的一种视觉情感识别设备的结构示意图。
如图8所示,本发明实施例提供的视觉情感识别设备包括:
存储器810,用于存储计算机程序811;
处理器820,用于执行计算机程序811,该计算机程序811被处理器820执行时实现如上述任意一项实施例所述视觉情感识别方法的步骤。
其中,处理器820可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器820可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器820也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器820可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器820还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器810可以包括一个或多个可读存储介质,该可读存储介质可以是非暂态的。存储器810还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器810至少用于存储以下计算机程序811,其中,该计算机程序811被处理器820加载并执行之后,能够实现前述任一实施例公开的视觉情感识别方法中的相关步骤。另外,存储器810所存储的资源还可以包括操作***812和数据813等,存储方式可以是短暂存储或者永久存储。其中,操作***812可以为Windows、Lunux或其他类型的操作***。数据813可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,视觉情感识别设备还可包括有显示屏830、电源840、通信接口850、输入输出接口860、传感器870以及通信总线880。
本领域技术人员可以理解,图8中示出的结构并不构成对视觉情感识别设备的限定,可以包括比图示更多或更少的组件。
本发明实施例提供的视觉情感识别设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的视觉情感识别方法,效果同上。
本发明实施例提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可以实现如上述任意一项实施例所述视觉情感识别方法的步骤。
该可读存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-Only Memory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明实施例提供的可读存储介质的介绍请参照上述方法实施例,且其所起到的效果同本发明实施例提供的视觉情感识别方法,本发明在此不做赘述。
以上对本发明所提供的一种视觉情感识别方法、装置、设备及可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (25)

1.一种视觉情感识别方法,其特征在于,包括:
获取初始视觉模型和样本数据集;
为所述初始视觉模型配置基于文本情感评价编码的第一注意力头、基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头以及融合所述文本情感评价编码和所述视觉文本跨模态编码的第三注意力头,并将各注意力头的损失值拼接为所述初始视觉模型的模型损失值后,利用所述样本数据集、待处理视觉情感识别任务的任务目标以及各所述注意力头的损失值训练所述初始视觉模型中各所述注意力头的权重,输出视觉情感识别模型;
响应于所述待处理视觉情感识别任务,调用所述视觉情感识别模型对输入的待识别数据进行情感识别处理,得到视觉情感识别结果;
其中,根据所述待处理视觉情感识别任务的任务目标,所述样本数据集包括带有注释文本的图像数据或带有注释文本的视频数据;所述视觉文本跨模态共识信息通过视觉模态和文本模态之间的互信息构建。
2.根据权利要求1所述的视觉情感识别方法,其特征在于,所述待处理视觉情感识别任务为视频情感识别任务;
所述第二注意力头包括基于视频帧文本跨模态共识信息的视频帧文本跨模态编码的第四注意力头以及基于视频文本跨模态共识信息的视频文本跨模态编码的第五注意力头。
3.根据权利要求2所述的视觉情感识别方法,其特征在于,所述模型损失值通过下式表示:
其中,为第i个所述注意力头的模型参数,λi(i=0,1,2,3)为第i个所述注意力头的权重,/>为第i个所述注意力头的损失值,为所述模型损失值;
所述注意力头包括所述第一注意力头、所述第四注意力头、所述第五注意力头和所述第三注意力头。
4.根据权利要求3所述的视觉情感识别方法,其特征在于,所述注意力头的损失值通过下式表示:
所述视觉情感识别模型的输出结果通过下式表示:
其中,β01=1,L=(Loss0(x),Loss1(x));
其中,β0为情感分类损失权重,β1为观点分类损失权重,Loss0(x)为情感分类损失值,Loss1(x)为观点分类损失值,为损失权重计算函数,L为所述情感分类损失值和所述观点分类损失值的拼接值,FFN(·)为全连接层,σ(·)为激活函数,θ(·)为回归函数,p0为情感分类结果,p1为观点分类结果,model(video,text)为所述视频情感识别模型根据输入的视频数据和文本数据输出的模型计算结果。
5.根据权利要求1所述的视觉情感识别方法,其特征在于,所述待处理视觉情感识别任务为视频情感识别任务;
所述利用所述样本数据集、待处理视觉情感识别任务的任务目标以及各所述注意力头的损失值训练所述初始视觉模型中各所述注意力头的权重,输出视觉情感识别模型,包括:
对所述样本数据集中的视频样本,自所述视频样本中提取多个视频帧,获取所述视频帧的帧视觉特征并根据所述视频帧在所述视频样本中的顺序为所述帧视觉特征添加时间维度信息;
根据与所述视频样本对应的注释文本提取文本特征;
对添加时间维度信息的所述帧视觉特征和所述文本特征进行编码后,得到所述视频样本的视频特征;
将所述视频特征输入所述初始视觉模型,并根据各所述注意力头的损失值调整所述初始视觉模型中各所述注意力头的权重,输出视觉情感识别模型。
6.根据权利要求5所述的视觉情感识别方法,其特征在于,所述根据与所述视频样本对应的注释文本提取文本特征,包括:
自与所述视频样本对应的注释文本中提取主语和宾语;
将所述主语和所述宾语与获取所述视频样本的搜索关键词进行拼接,得到所述文本特征。
7.根据权利要求5所述的视觉情感识别方法,其特征在于,所述根据与所述视频样本对应的注释文本提取文本特征,包括:
若所述视频样本对应有视频分段信息和分段事件描述,则根据所述视频分段信息将所述视频样本切分为多个子视频样本,并将对应的所述分段事件描述作为所述子视频样本的注释文本;
调用视频动作识别模型识别得到所述子视频样本的动作预测结果;
自所述子视频样本的注释文本提取视频描述关键词后,将所述子视频样本的动作预测结果与所述子视频样本的视频描述关键词进行拼接,得到所述子视频样本的所述文本特征;
整合各所述子视频样本的所述文本特征为所述视频样本的所述文本特征。
8.根据权利要求5所述的视觉情感识别方法,其特征在于,所述根据与所述视频样本对应的注释文本提取文本特征,包括:
若所述视频样本对应有视频分段信息和分段动作描述,则根据所述视频分段信息将所述视频样本切分为多个子视频样本;
调用视频描述模型生成各所述子视频样本的描述文本;
自所述分段动作描述中提取动作关键词,自所述描述文本中提取视频描述关键词后,将所述子视频样本的动作关键词和所述子视频样本的视频描述关键词进行拼接,得到所述子视频样本的所述文本特征;
整合各所述子视频样本的所述文本特征为所述视频样本的所述文本特征。
9.根据权利要求1所述的视觉情感识别方法,其特征在于,所述初始视觉模型,通过下述步骤得到:
基于视觉文本匹配任务、掩码文本预测任务和共识信息筛选任务构建损失函数,预训练得到所述初始视觉模型;
其中,所述视觉文本匹配任务用于识别视觉样本与文本样本的匹配情况,所述掩码文本预测任务用于识别根据未被掩码的上下文信息预测被掩码的信息,所述共识信息筛选任务用于自先验字典筛选视觉模态和文本模态的共识信息。
10.根据权利要求9所述的视觉情感识别方法,其特征在于,所述视觉文本匹配任务对应的损失函数为:
其中,Lvtm为所述视觉文本匹配任务的损失值,S为视觉模态与文本模态的匹配对的数目,为符号函数,当视觉模态与文本模态匹配时/>为1,当视觉模态与文本模态不匹配时/>为0,Vi为第i个视觉模态,Ti为第i个文本模态,/>为视觉模态与文本模态匹配预测的概率。
11.根据权利要求9所述的视觉情感识别方法,其特征在于,所述掩码文本预测任务对应的损失函数为:
其中,Lmlm1为第一掩码文本预测损失值,S为视觉模态与文本模态的匹配对的数目,V为文本模态的词典大小,为符号函数,当根据第v个视觉模态预测的视觉标签符合第i个文本模态中被掩码的视觉标签时/>为1,当根据第v个视觉模态预测的视觉标签不符合第i个文本模态中被掩码的视觉标签时/>为0,Vi为第i个视觉模态,Ti为第i个文本模态,/>为根据输入的视觉模态和文本模态预测被掩码的视觉标签的概率;
Lmlm2为第二掩码文本预测损失值,为符号函数,当根据第v个视觉模态预测的注释文本符合第i个文本模态中被掩码的注释文本时/>为1,当根据第v个视觉模态预测的注释文本不符合第i个文本模态中被掩码的注释文本时/>为0,Thashtag为第i个视觉模态的视觉标签,/>为第i个文本模态中被掩码的注释文本,/>为根据输入的视觉模态、视觉标签、剩余文本模态预测被掩码的文本模态的概率。
12.根据权利要求9所述的视觉情感识别方法,其特征在于,所述共识信息筛选任务对应的损失函数为:
其中,LPD为所述共识信息筛选任务对应的损失函数,K为目标先验知识的数量,sg(·)为向量化函数,β为权重参数,Vi为第i个视觉特征,Tj为第j个文本特征,Zidx为关联第i个视觉模态和第j个文本模态的相关信息,PD(Vi,Tj,Zidx)为第i个视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值,Zk为视觉模态和文本模态之间的相关信息,PD(Vi,Tj,Zk)为第i个视觉模态、第j个文本模态以及视觉模态和文本模态之间的相关信息的条件互信息字典值,PD(V,Tj,Zidx)为所有视觉模态、第j个文本模态以及关联第i个视觉模态和第j个文本模态的相关信息之间的条件互信息字典值,Ei为先验字典中每个特征的向量。
13.根据权利要求1所述的视觉情感识别方法,其特征在于,基于所述视觉文本跨模态共识信息的所述视觉文本跨模态编码,通过下述步骤得到:
初始化先验字典;
根据所述待处理视觉情感识别任务的任务目标确定目标模态;
基于所述样本数据集,自所述先验字典中筛选与所述目标模态适配的目标先验知识;
基于所述目标先验知识对所述样本数据集中的视觉模态和所述样本数据集中的文本模态进行跨模态信息融合,提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息;
根据所述视觉文本跨模态共识信息对应的视觉特征、文本特征和所述目标先验知识进行跨模态融合编码,得到所述视觉文本跨模态编码;
其中,所述目标模态为视觉模态、文本模态和视觉文本联合模态中的一个,所述视觉特征为图像特征或视频特征。
14.根据权利要求13所述的视觉情感识别方法,其特征在于,当所述待处理视觉情感识别任务为基于评论的视觉情感识别任务时,所述目标模态为文本模态;
所述基于所述样本数据集,自所述先验字典中筛选与所述目标模态适配的目标先验知识,包括:
计算所述先验字典中的先验知识与所述样本数据集中的文本模态的第二条件互信息;
建立所述先验知识与所述第二条件互信息的一一映射关系,得到第二先验知识-条件互信息字典;
根据所述第二先验知识-条件互信息字典中的第二先验知识-条件互信息字典值从大到小的顺序,选出与所述样本数据集中的文本模态相关性最高的第三预设数量先验知识;
自与所述样本数据集中的各文本模态相关性最高的第三预设数量先验知识中选出相关性最高的第四预设数量先验知识为所述目标先验知识。
15.根据权利要求13所述的视觉情感识别方法,其特征在于,所述基于所述目标先验知识对所述样本数据集中的视觉模态和所述样本数据集中的文本模态进行跨模态信息融合,提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息,包括:
分别对所述样本数据集中的视觉模态和所述样本数据集中的文本模态进行模态内信息整合以及跨模态信息整合,得到模态内信息整合结果和全局共识信息整合结果;
基于所述模态内信息整合结果和所述全局共识信息整合结果,构建文本交叉注意力模块以基于所述目标先验知识搜索视觉模态中与文本模态关联的视觉信息;
基于所述模态内信息整合结果和所述全局共识信息整合结果,构建视觉交叉注意力模块以基于所述目标先验知识搜索文本模态中与视觉模态关联的文本信息;
基于视觉模态中与文本模态关联的视觉信息、文本模态中与视觉模态关联的文本信息以及所述目标先验知识,构建注意力模块进行所述视觉文本跨模态共识信息的融合和提炼。
16.根据权利要求15所述的视觉情感识别方法,其特征在于,所述分别对所述样本数据集中的视觉模态和所述样本数据集中的文本模态进行模态内信息整合以及跨模态信息整合,得到模态内信息整合结果和全局共识信息整合结果,包括:
对所述样本数据集中的视觉模态进行模态内信息整合,得到视觉模态信息;
对所述样本数据集中的文本模态进行模态内信息整合,得到文本模态信息;
对所述目标先验知识进行模态内信息整合,得到目标先验知识模态信息;
以所述视觉模态信息、所述文本模态信息和所述目标先验知识模态信息为所述模态内信息整合结果;
基于所述目标先验知识对视觉模态和文本模态进行跨模态信息整合,建立所述视觉模态信息、所述文本模态信息和所述目标先验知识模态信息的跨模态信息关联交互模型;
基于所述跨模态信息关联交互模型,调用转换编码器模型对视觉特征、文本特征和所述目标先验知识进行整合处理,得到所述全局共识信息整合结果;
其中,在处理所述视觉特征时,对所述文本特征和所述目标先验知识进行掩膜处理;在处理所述文本特征时,对所述视觉特征和所述目标先验知识进行掩膜处理;在处理所述目标先验知识时,不对所述视觉特征、所述文本特征及所述目标先验知识设置掩膜。
17.根据权利要求15所述的视觉情感识别方法,其特征在于,所述基于所述模态内信息整合结果和所述全局共识信息整合结果,构建文本交叉注意力模块以基于所述目标先验知识搜索视觉模态中与文本模态关联的视觉信息,包括:
合并所述模态内信息整合结果中的视觉模态信息和所述目标先验知识为所述文本交叉注意力模块的键值数据,以所述模态内信息整合结果中的文本模态信息为所述文本交叉注意力模块的查询语句,以利用所述文本交叉注意力模块基于查询语句查询对应的键值数据,得到视觉模态中与文本模态关联的视觉信息;
所述基于所述模态内信息整合结果和所述全局共识信息整合结果,构建视觉交叉注意力模块以基于所述目标先验知识搜索文本模态中与视觉模态关联的文本信息,包括:
合并所述模态内信息整合结果中的所述文本模态信息和所述目标先验知识为所述视觉交叉注意力模块的键值数据,以所述模态内信息整合结果中的所述视觉模态信息为所述视觉交叉注意力模块的查询语句,以利用所述视觉交叉注意力模块基于查询语句查询对应的键值数据,得到文本模态中与视觉模态关联的文本信息。
18.根据权利要求15所述的视觉情感识别方法,其特征在于,所述基于视觉模态中与文本模态关联的视觉信息、文本模态中与视觉模态关联的文本信息以及所述目标先验知识,构建注意力模块进行所述视觉文本跨模态共识信息的融合和提炼,包括:
以视觉模态中与文本模态关联的视觉信息为文本标记,以文本模态中与视觉模态关联的文本信息为视觉标记,以所述目标先验知识为先验知识标记;
拼接所述视觉标记、所述先验知识标记和所述文本标记后,输入所述注意力模块进行所述视觉文本跨模态共识信息的融合和提炼;
在所述注意力模块中,分别合并所述视觉标记和所述先验知识标记为键值数据,以所述文本标记为查询语句,以及合并所述文本标记和所述先验知识标记为键值数据,以所述视觉标记为查询语句,输出所述视觉文本跨模态共识信息。
19.根据权利要求13所述的视觉情感识别方法,其特征在于,所述视觉特征为图像特征;
所述根据所述视觉文本跨模态共识信息对应的视觉特征、文本特征和所述目标先验知识进行跨模态融合编码,得到所述视觉文本跨模态编码,包括:
采用残差结构融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息之后的输出结果并进行编码,得到所述视觉文本跨模态编码;
其中,当前次的所述输出结果为下一次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息的输入数据。
20.根据权利要求19所述的视觉情感识别方法,其特征在于,所述采用残差结构融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息之后的输出结果并进行编码,得到所述视觉文本跨模态编码,包括:
利用对第i次所述输出结果中的图像特征编码进行特征融合处理,得到第i次所述输出结果对应的图像特征融合结果;
利用对第i次所述输出结果中的文本特征编码进行特征融合处理,得到第i次所述输出结果对应的文本特征融合结果;
利用对第i次所述输出结果中的先验知识编码进行融合处理,得到第i次所述输出结果对应的先验知识融合结果;
拼接第i次所述输出结果对应的图像特征融合结果、第i次所述输出结果对应的文本特征融合结果和第i次所述输出结果对应的先验知识融合结果,得到第i次所述输出结果对应的特征融合结果;
若i不为N,则对第i次所述输出结果对应的特征融合结果执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息,得到第i+1次所述输出结果;
若i为N,则以第i次所述输出结果对应的特征融合结果为所述视觉文本跨模态编码;
其中,Fvfmixi为第i次所述输出结果对应的图像特征融合结果,λ为残差系数,为第i次所述输出结果中的图像特征编码,featurevf为输入的图像特征,/>为第i次所述输出结果对应的文本特征融合结果,/>为第i次所述输出结果中的文本特征编码,featuretext为输入的文本特征,/>为第i次所述输出结果对应的先验知识融合结果,为第i次所述输出结果中的先验知识编码,/>为输入的目标先验知识。
21.根据权利要求13所述的视觉情感识别方法,其特征在于,所述视觉特征为视频特征;
所述根据所述视觉文本跨模态共识信息对应的视觉特征、文本特征和所述目标先验知识进行跨模态融合编码,得到所述视觉文本跨模态编码,包括:
采用可学习的残差参数融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息之后的输出结果并进行编码,得到所述视觉文本跨模态编码;
其中,当前次的所述输出结果为下一次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息的输入数据。
22.根据权利要求21所述的视觉情感识别方法,其特征在于,所述采用可学习的残差参数融合多次执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息之后的输出结果并进行编码,得到所述视觉文本跨模态编码,包括:
对第i次所述输出结果中的视频特征,将其中各视频帧分别设置对应的帧系数,根据所述帧系数和所述视频帧的帧特征得到视频残差块特征,将所述视频残差块特征与第i次所述输出结果中的视频特征融合,得到第i次所述输出结果对应的视频特征融合结果;
对第i次所述输出结果中的文本特征,将其中各文本标记分别设置对应的文本标记系数,根据所述文本标记系数和所述文本标记得到文本残差块特征,将所述文本残差块特征与第i次所述输出结果中的文本特征融合,得到第i次所述输出结果对应的文本特征融合结果;
对第i次所述输出结果中的所述目标先验知识,将其中的各先验知识标记分别设置对应的先验知识标记系数,根据所述先验知识标记系数和所述先验知识标记得到先验知识残差块特征,将所述先验知识残差块特征与第i次所述输出结果中的所述目标先验知识融合,得到第i次所述输出结果对应的先验知识融合结果;
拼接第i次所述输出结果对应的视频特征融合结果、第i次所述输出结果对应的文本特征融合结果和第i次所述输出结果对应的先验知识融合结果,得到第i次所述输出结果对应的特征融合结果;
若i不为N,则对第i次所述输出结果对应的特征融合结果执行所述自所述先验字典中筛选与所述目标模态适配的目标先验知识以及所述提炼视觉模态和文本模态之间的所述视觉文本跨模态共识信息,得到第i+1次所述输出结果;
若i为N,则以第i次所述输出结果对应的特征融合结果为所述视觉文本跨模态编码。
23.一种视觉情感识别装置,其特征在于,包括:
第一获取单元,用于获取初始视觉模型和样本数据集;
第一训练单元,用于为所述初始视觉模型配置基于文本情感评价编码的第一注意力头、基于视觉文本跨模态共识信息的视觉文本跨模态编码的第二注意力头以及融合所述文本情感评价编码和所述视觉文本跨模态编码的第三注意力头,并将各注意力头的损失值拼接为所述初始视觉模型的模型损失值后,利用所述样本数据集、待处理视觉情感识别任务的任务目标以及各所述注意力头的损失值训练所述初始视觉模型中各所述注意力头的权重,输出视觉情感识别模型;
第一计算单元,用于响应于所述待处理视觉情感识别任务,调用所述视觉情感识别模型对输入的待识别数据进行情感识别处理,得到视觉情感识别结果;
其中,根据所述待处理视觉情感识别任务的任务目标,所述样本数据集包括带有注释文本的图像数据或带有注释文本的视频数据;所述视觉文本跨模态共识信息通过视觉模态和文本模态之间的互信息构建。
24.一种视觉情感识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至22任意一项所述视觉情感识别方法的步骤。
25.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至22任意一项所述视觉情感识别方法的步骤。
CN202410186654.1A 2024-02-20 2024-02-20 一种视觉情感识别方法、装置、设备及可读存储介质 Pending CN117911929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410186654.1A CN117911929A (zh) 2024-02-20 2024-02-20 一种视觉情感识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410186654.1A CN117911929A (zh) 2024-02-20 2024-02-20 一种视觉情感识别方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117911929A true CN117911929A (zh) 2024-04-19

Family

ID=90696938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410186654.1A Pending CN117911929A (zh) 2024-02-20 2024-02-20 一种视觉情感识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117911929A (zh)

Similar Documents

Publication Publication Date Title
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
Karpathy et al. Deep visual-semantic alignments for generating image descriptions
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和***
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN116434023A (zh) 基于多模态交叉注意力网络的情感识别方法、***及设备
CN117313728A (zh) 实体识别方法、模型训练方法、装置、设备和存储介质
CN114817564A (zh) 一种属性抽取方法、装置及存储介质
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN117033804A (zh) 一种主客观视角引导下的点击诱导检测方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN117216536A (zh) 一种模型训练的方法、装置和设备及存储介质
CN114020871B (zh) 基于特征融合的多模态社交媒体情感分析方法
CN117746441B (zh) 一种视觉语言理解方法、装置、设备及可读存储介质
CN114693949A (zh) 一种基于区域感知对齐网络的多模态评价对象抽取方法
CN117911929A (zh) 一种视觉情感识别方法、装置、设备及可读存储介质
Lei et al. Multimodal Sentiment Analysis Based on Composite Hierarchical Fusion
CN117876940B (zh) 视频语言任务执行及其模型训练方法、装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination