CN107066583B - 一种基于紧凑双线性融合的图文跨模态情感分类方法 - Google Patents

一种基于紧凑双线性融合的图文跨模态情感分类方法 Download PDF

Info

Publication number
CN107066583B
CN107066583B CN201710243764.7A CN201710243764A CN107066583B CN 107066583 B CN107066583 B CN 107066583B CN 201710243764 A CN201710243764 A CN 201710243764A CN 107066583 B CN107066583 B CN 107066583B
Authority
CN
China
Prior art keywords
image
text
mrow
picture
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710243764.7A
Other languages
English (en)
Other versions
CN107066583A (zh
Inventor
陈锻生
吴琼
吴扬扬
雷庆
张洪博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN201710243764.7A priority Critical patent/CN107066583B/zh
Publication of CN107066583A publication Critical patent/CN107066583A/zh
Application granted granted Critical
Publication of CN107066583B publication Critical patent/CN107066583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于紧凑双线性融合的图文跨模态情感分类方法,包括如下6个步骤:(1)图像特征表示的提取;(2)文本特征表示的提取;(3)软注意力图的生成;(4)图像注意力特征表示的生成;(5)多模态紧凑双线性融合算法融合图像注意力特征表示和文本特征表示;(6)图文情感分类。本发明方法中软注意力图和多模态紧凑双线性融合算法的使用,能够有效提高情感分类的准确率。

Description

一种基于紧凑双线性融合的图文跨模态情感分类方法
技术领域
本发明涉及图文结合的跨模态情感分类方法,特别涉及一种基于紧凑双线性融合的图文跨模态情感分类方法。
背景技术
图文跨模态情感分类研究的对象是:在Twitter、、Facebook、微博、电商等平台下,根据用户发送的图像和及其对应的文字信息,判断出发送者是积极还是消极的情感态度。图文跨模态情感分类的应用领域主要包括:舆情监测、用户行为分析、商品属性评判等等。随着科技的进步与发展,软硬件水平的不断提高,很多平台都可以支持用户同时发送语音、图像、视频等多媒体信息,其中大多数用户选择同时发送图像与文本两种媒体信息,因为相对于视频和语音,图像和文本能够更加简洁、直观的传达出发送者的情感态度。通过对图文跨模态情感分类的研究,不仅可以指导其他跨模态情感分类的研究,并且有着重大的现实意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。
总得来说,多模态情感分类的研究主要可以分为三部分。首先,如何利用现有的算法模型,提取出各种模态数据较好的情感特征;接着,研究如何更加高效、完整的将不同模态的特征融合;最后,就是对于损失函数的设计,如何快速高效的学习出所需参数,如果避免模型过拟合,如何添加在模态融合部分的惩罚项,使得模态融合部分的参数调整更加准确。
图文多模态情感分类的研究工作相对较晚,在早期,研究者们主要提取文本的情感词、词频等信息作为文本的情感特征,使用图像的SIFT、HOG、颜色直方图等特征作为图像的情感特征,使用传统的机器学习方法进行图文跨模态的情感分类研究。由于提取的文本和图像情感特征都属于低级的特征,而情感又是主观且抽象的,这样的研究方法的准确率很低。后来有研究者通过构建形容词名词对的方法获取图像的中等特征,虽然准确率有了很大的提升,但是仍然不高,很难能够真实的应用。随着深度学习在计算机视觉任务上的不断突破,研究者可以使用深度学习获取到图像更深层次的语义级特征。同时,包含语义及句法信息的词向量的出现,使自然语言处理各项任务有了很大的提升。因此,研究者开始使用深度学习模型进行图文跨模态情感分类的研究,并取得了不错的研究成果。但是,研究者只是注重模型的研究,不能很好地进行图文跨模态情感分类。
发明内容
本发明目的在于克服以往对低照度图像存在的缺陷,提出一种基于紧凑双线性融合的图文跨模态情感分类方法,使用深度学习模型,从获取更好的情感特征表示与融合算法的研究两个角度,进行图文跨模态情感分类,实现较高的分类精度。
本发明解决其技术问题所采用的技术方案是:
一种基于紧凑双线性融合的图文跨模态情感分类方法,包括:
从图文标注情感训练数据集中,逐一提取出图像及其对应的文字信息,将图像调整为448*448大小,将调整好的图像输入到经过ImageNet数据集上预训练好的152层的残差网络中,提取出图像经过152层残差网络计算后,其中最后一层卷积层的输出,大小为2048*14*14,作为图像的特征表示;
使用GloVe模型生成的300维词向量,将图像对应的文字信息转化计算机可以处理的矩阵表示,输入到双层LSTM网络中,每层LSTM网络包含100个单元,每层的输出向量为1024维,最后将每层LSTM的输出拼接,组成2048维的向量,作为文本的特征表示;
根据得到的图像与文本特征表示,先将得到的2048维的文本特征表示,复制14*14=256次,组合成2048*14*14的大小,再与之前得到的大小为2048*14*14的图像特征表示进行拼接,组合成4096*14*14大小的特征,接着经过两层卷积层,得到1*14*14大小的输出,接着使用softmax分类器得到1*14*14大小的每个空间位置的注意力权重,即软注意力图,根据得到的软注意力图,与之前提取到的2048个14*14大小的图像特征表示进行逐个逐元素的相乘并求和,最终得到2048维的图像注意力特征表示;
将得到的2048维的文本特征表示和图像注意力特征表示,使用多模态紧凑双线性融合算法(MCB)进行特征融合得到16k融合特征,MCB算法根据式(1)进行特征融合,
其中I表示提取得到的2048维图像注意力特征表示,C表示提取得到的2048维文本特征表示,代表外积,[]代表将外积的计算结果线性化为一个向量来表示,W用来筛选外积计算结果并得到固定大小的融合特征,当I和C的维度很高时,W需要很多的参数,从而导致内存的消耗,更高的计算时间和参数的不稳定性;
所以需要一种方法,能够让我们在计算外积的时候,可以使向量降低在较低的维度上,降低W所需参数。那么在计算外积时,使用Count Sketch投影函数ψ,可以将向量x∈Rn投影到y∈Rd。首先初始化两个向量h∈{-1,1}n和g∈{1,...,d}n,h每个位置只取1或-1,g使得输入x的索引i变化成输出y的索引j。h和g使用均匀分布随机生成,并始终保持不变。对于每个元素x[i],它的最终索引j=h[i],最终输出y[j]=h[i]·x[i];
通过上述算法,我们就可以将外积映射到低维空间当中,从而减少了W的参数,为了避免直接的计算外积,使用Count Sketch函数计算两个向量的外积可以表示成两个向量的Count Sketch函数进行卷积的形式,如式(2),
其中,*表示卷积操作,I和C分别代表提取得到的2048维图像注意力特征表示和提取得到的2048维文本特征表示;
另外,根据卷积定理,在时域下的卷积,等价于频率域中逐元素相乘。那么,令I′=ψ(I,g,h),C′=ψ(C,g,h),上述式(2)的I′*C′就改写成FFT-1(FFT(I′)⊙FFT(C′))的形式,⊙代表逐元素相乘,这样就完成了MCB融合算法,就可以简单高效完成外积的计算,并且该算法也支持更多模态作为输入;
在得到融合特征后,后面一层是全连接层,最后使用softmax分类器对图文跨模态数据进行积极、消极二类的情感预测,接着对比真实的情感标签,对该紧凑双线性融合的图文跨模态情感分类模型(MCBC)模型进行训练;
训练采用Adam(adaptive moment estimation,自适应矩估计;一种基于一阶梯度来优化随机目标函数的算法)方法进行梯度更新,在最大迭代次数内,如果终止条件能满足,则整个训练过程结束;
从图文标注情感测试数据集中抽取出图像及其对应的文字信息,送入到训练好的模型中,得到其相应的情感倾向,根据真实的情感标签,得到测试集的情感分类准确率。
与现有技术相比,本发明具有如下有益效果:
(1)以往的图文跨模态情感分类方法,在图像特征提取时,没有注意到文本对于图像之间的对应关系可以帮助到提取更好的图像特征,在融合方式上,不同模态之间的融合只是使用传统的形式,并没有能够使不同模态特征元素之间更加频繁交互;
(2)本发明提出使用软注意力图,产生图像的注意力特征表示,使图像与文本之间的对应关系显现出来,获得更好的图像情感特征,在特征融合上,采用与以往不同的外积形式的融合方式,使得特征元素之间的交流交互频繁,而不只是对应坐标之间的交互;
(3)在图文标注情感测试数据集上的测试结果证明了该分类模型的有效性;在不同融合方式的对比中,该模型的融合算法的准确率要比其他方式高2%-4%(如图3),在模型自身结构之间的对比中,该模型的结构获得的准确率要比其他结构高1%-3%(如图5),在与其他深度学习模型和使用图像中等情感特征方法的对比中,该模型的准确率要高出6%-13%(如图6)。
附图说明
图1是本发明的整体结构图;
图2是本发明的MCB融合算法模型图;
图3是本发明的融合算法对比使用其他融合算法的情感分类结果图;
图4是本发明在去掉软注意力机制后的图文跨模态情感分类模型图;
图5是本发明自身模型结构之间情感分类结果图;
图6是本发明与其他模型的图文跨模态情感分类结果图;
图7是本发明部分正确与错误情感分类的样本展示图。
具体实施方式
如图1所示是本发明的整体结构图。在图1中,使用预训练好的152层残差网络提取出图像的特征表示,使用双层LSTM模型提取文本的特征表示,然后拼接两种特征,经过两层卷积层、softmax产生软注意力图,通过软注意力图与图像特征表示对应位置的乘积并求和,得到图像的注意力特征表示,接着使用MCB算法融合图像注意力特征表示与文本特征表示,最后使用softmax分类器完成图文的跨模态情感分类。
如图2所示是本发明的MCB融合算法模型图。该图说明了MCB融合算法的过程,首先将图像特征与文本特征使用Count Sketch函数降低在较低的维度上,然后转换成两个向量的Count Sketch函数种子频率域中逐元素相乘的形式,从而简单高效完成外积的计算。
如图3所示是本发明的融合算法对比使用其他融合算法的情感分类结果图。在图3中,分别对比了对应元素相加(Element-wise Sum),对应元素相乘(Element-wiseProduct),直接拼接(Concatenation)三种融合算法,并且得了更好的分类效果。
如图4所示是本发明在去掉软注意力机制的图文跨模态情感分类模型图。在图4中,为了对比不同模型结构对分类结果的影响,去掉了生成软注意力图,从而生成图像注意力特征表示的过程,直接提取15层残差网络的全局均值池化层的输出作为图像的特征,大小为2048维,然后直接使用MCB算法与文本特征融合,进行情感分类。
如图5所示是本发明在去掉软注意力机制的图文跨模态情感分类模型图。在图5中,为了突出模型各部分的作用,对比分析模型在无GloVe词向量(MCBC-noglove),无软注意力机制(MCBC-noatten)、在分类前加两层的全连接层(MCBC-2fc)和三层全连接层(MCBC-3fc)、使用SVM作为分类器(MCBC-SVM)五种结构下,对情感分类结果产生的影响。
如图6所示是本发明与其他模型的图文跨模态情感分类结果图。在图6中,该发明对测试集的情感分类准确率比其他模型如:基于图像中等特征的情感分类模型(SentiBankLR)、基于卷积神经网络的多媒体情感分类模型(Multi CNN)、结合CBOW和负采样技术及去噪自动编码器的情感分类模型(CBOW-DA-LR)对测试集的情感分类准确率更高。
如图7所示是本发明部分正确与错误的情感分类的样本展示图。通过观察图7中被错分的样本,可以发现对于文本与图像表达情感不同或者文本和图像都没有明确情感倾向的样本,比较容易发生错误的情感分类。
本实施例的训练数据来源于Flickr网站的Flickr情感图像数据集,该数据集包含近50万张图像及其相应的图像描述。为了能够更好的训练网络,去除数据集中图像描述太长和太短的数据以及图像分辨率较低的数据,得到大约20万左右的新的Flickr数据集。测试数据集来源于Twitter网站,该数据集包含470条积极和133条消级图文Twitter数据。所有的数据均属于两个类别,分别表示情感积极和消极。为了提高模型速度,先将所有图像转化成448*448大小。
本实施例中,具体步骤如下:
步骤1:从图文标注情感训练数据集中,逐一提取出图像及其对应的文字信息,将图像调整为448*448大小,将调整好的图像输入到经过ImageNet数据集上预训练好的152层的残差网络中,提取出图像经过152层残差网络计算后,其中最后一层卷积层的输出,大小为2048*14*14,作为图像的特征表示;
步骤2:使用GloVe模型生成的300维词向量,将图像对应的文字信息转化计算机可以处理的矩阵表示,输入到双层LSTM网络中,每层LSTM网络包含100个单元,每层的输出向量为1024维,最后将每层LSTM的输出拼接,组成2048维的向量,作为文本的特征表示;
步骤3:根据得到的图像与文本特征表示,先将得到的2048维的文本特征表示,复制14*14=256次,组合成2048*14*14的大小,再与之前得到的大小为2048*14*14的图像特征表示进行拼接,组合成4096*14*14大小的特征,接着经过两层卷积层,得到1*14*14大小的输出,接着使用softmax分类器得到1*14*14大小的每个空间位置的注意力权重,即软注意力图,根据得到的软注意力图,与之前提取到的2048个14*14大小的图像特征表示进行逐个逐元素的相乘并求和,最终得到2048维的图像注意力特征表示;
步骤4:将得到的2048维的文本特征表示和图像注意力特征表示,使用MCB融合算法进行特征融合得到16k融合特征:
步骤5:在得到融合特征后,后面一层是全连接层,最后使用softmax分类器对图文跨模态数据进行积极、消极二类的情感预测,接着对比真实的情感标签,对该MCBC模型进行训练,训练采用Adam方法进行梯度更新,在最大迭代次数内,如果终止条件能满足,则整个训练过程结束;
步骤6:在测试数据集下,采用本发明所提出的方法对图文跨模态数据进行情感分类,并与其它模型进行对比分析。从图3中可以看出,MCB融合方法获得了更好的实验结果。从图5中可以看出,GloVe词向量携带着语义信息,具有更好的分类效果,增加全连接层的数量,会使得网络分类的效果下降,软注意机制对网络的分类结果影响很大,采用注意力机制后可以使得文本与图像要表达的区域更加突出,从而增加情感分类效果,softmax分类器更适合对网络中提取的特征进行情感分类。从图6中可以看出,MCBC模型取得了最好的实验结果,SentiBankLR模型由于使用图像的中级特征与低级的文本特征结合做图文情感分类,相比其他三种使用深度学习模型来提取文本和图像深层次情感特征的模型有一定的差距,可以看出情感表达抽象主观,对于情感特征的提取,需要尽可能提取图像及文本的语义特征。在三种使用深度学习模型的实验对比中,MCBC模型首先利用在图像分类任务中取得优异成绩的残差网络来提取图像特征,相比其它两种模型,可以获得更好的图像特征。由于图像的内容是与文本信息存在联系,软注意力机制也使得文本与图像要表达的区域更加突出,而另外两种模型并没有利用图像与文本之间的匹配关系。最后MCBC模型使用MCB算法,使得图像与文本特征之间的元素交互更加频繁,使得特征的融合也更加紧凑,相比其他使用特征之间的直接拼接进行分类,取得了更好的分类结果。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (2)

1.一种基于紧凑双线性融合的图文跨模态情感分类方法,其特征在于,包括:
从图文标注情感训练数据集中,逐一提取出图像及其对应的文字信息,将图像调整为448*448大小,将调整好的图像输入到经过ImageNet数据集上预训练好的152层的残差网络中,提取出图像经过152层残差网络计算后,其中最后一层卷积层的输出,大小为2048*14*14,作为图像的特征表示;
使用GloVe模型生成的300维词向量,将图像对应的文字信息转化计算机可以处理的矩阵表示,输入到双层LSTM网络中,每层LSTM网络包含100个单元,每层的输出向量为1024维,最后将每层LSTM的输出拼接,组成2048维的向量,作为文本的特征表示;
根据得到的图像与文本特征表示,生成每个空间位置的注意力权重,即软注意力图,根据得到的软注意力图,与之前提取到的图像的特征表示进行权重相乘,再求和,得到2048维的图像注意力特征表示;
将得到的2048维的文本特征表示和图像注意力特征表示,使用多模态紧凑双线性融合算法MCB进行特征融合,得到16k融合特征,在得到融合特征后,后面一层是全连接层,最后使用softmax分类器对图文跨模态数据进行积极和消极二类的情感预测,接着对比真实的情感标签,对该紧凑双线性融合的图文跨模态情感分类模型MCBC进行训练;
从图文标注情感测试数据集中抽取出图像及其对应的文字信息,送入到训练好的模型中,得到其相应的情感倾向,根据真实的情感标签,得到测试集的情感分类准确率;
所述软注意力图的生成方法,包括:
将得到的2048维的文本特征表示,复制14*14=256次,组合成2048*14*14的大小,再与之前得到的大小为2048*14*14的图像特征表示进行拼接,组合成4096*14*14大小的特征,接着经过两层卷积层,得到1*14*14大小的输出,接着使用softmax分类器得到1*14*14大小的软注意力图;
所述图像注意力特征表示的获取方法,包括:
将得到的1*14*14的软注意力图,分别与提取到的2048个14*14大小的图像特征表示进行逐个逐元素相乘并求和,得到2048维的图像注意力特征表示;
所述使用多模态紧凑双线性融合算法MCB进行特征融合,包括:
a、使用式(1)进行特征融合,如下:
<mrow> <mi>Z</mi> <mo>=</mo> <mi>W</mi> <mo>&amp;CenterDot;</mo> <mo>&amp;lsqb;</mo> <mi>I</mi> <mo>&amp;CircleTimes;</mo> <mi>C</mi> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,I表示提取得到的2048维图像注意力特征表示,C表示提取得到的2048维文本特征表示,代表外积,[]代表将外积的计算结果线性化为一个向量来表示,W用来筛选外积计算结果并得到固定大小的融合特征,Z表示融合之后的特征;
b、降低W所需参数:
使用Count Sketch投影函数ψ,将向量x∈Rn投影到y∈Rd:首先初始化两个向量h∈{-1,1}n和g∈{1,...,d}n,h每个位置只取1或-1,g使得输入x的索引i变化成输出y的索引j;其中,h和g使用均匀分布随机生成,并始终保持不变;对于每个元素x[i],它的最终索引j=h[i],最终输出y[j]=h[i]·x[i];
通过上述方法,将外积映射到低维空间当中,从而降低了W的参数;由于外积计算的复杂性,为了避免直接的计算外积,使用Count Sketch函数计算两个向量的外积可以表示成两个向量的Count Sketch函数进行卷积的形式,如式(2),
<mrow> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <mi>I</mi> <mo>&amp;CircleTimes;</mo> <mi>C</mi> <mo>,</mo> <mi>g</mi> <mo>,</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <mi>I</mi> <mo>,</mo> <mi>g</mi> <mo>,</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>*</mo> <mi>&amp;psi;</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <mi>g</mi> <mo>,</mo> <mi>h</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中,*表示卷积操作;
c、使用逐元素相乘完成MCB融合算法:
根据卷积理论,在时域下的卷积,等价于频率域中逐元素相乘;因此,令I′=ψ(I,g,h),C′=ψ(C,g,h),上述式(2)的I′*C′就改写成FFT-1(FFT(I′)e FFT(C′))的形式,e代表逐元素相乘,以此完成MCB融合算法,完成外积的计算,并且MCB融合算法支持更多模态作为输入。
2.根据权利要求1所述的基于紧凑双线性融合的图文跨模态情感分类方法,其特征在于,对MCBC模型进行训练的方法,包括:
采用Adam方法进行梯度更新,在最大迭代次数内,如果终止条件能满足,则整个训练过程结束。
CN201710243764.7A 2017-04-14 2017-04-14 一种基于紧凑双线性融合的图文跨模态情感分类方法 Active CN107066583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710243764.7A CN107066583B (zh) 2017-04-14 2017-04-14 一种基于紧凑双线性融合的图文跨模态情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710243764.7A CN107066583B (zh) 2017-04-14 2017-04-14 一种基于紧凑双线性融合的图文跨模态情感分类方法

Publications (2)

Publication Number Publication Date
CN107066583A CN107066583A (zh) 2017-08-18
CN107066583B true CN107066583B (zh) 2018-05-25

Family

ID=59600703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710243764.7A Active CN107066583B (zh) 2017-04-14 2017-04-14 一种基于紧凑双线性融合的图文跨模态情感分类方法

Country Status (1)

Country Link
CN (1) CN107066583B (zh)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491541B (zh) * 2017-08-24 2021-03-02 北京丁牛科技有限公司 文本分类方法及装置
CN107862322B (zh) * 2017-09-15 2022-01-07 广州品唯软件有限公司 结合图片和文本进行图片属性分类的方法、装置及***
CN107832663B (zh) * 2017-09-30 2020-03-06 天津大学 一种基于量子理论的多模态情感分析方法
CN107818084B (zh) * 2017-10-11 2021-03-09 北京众荟信息技术股份有限公司 一种融合点评配图的情感分析方法
CN108038501B (zh) * 2017-12-08 2021-06-11 桂林电子科技大学 基于多模态压缩双线性池化的高光谱图像分类方法
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108319977B (zh) * 2018-01-30 2020-11-10 浙江大学 基于通道信息多模态网络的宫颈活检区域识别方法及装置
CN108388544A (zh) * 2018-02-10 2018-08-10 桂林电子科技大学 一种基于深度学习的图文融合微博情感分析方法
CN110019812B (zh) * 2018-02-27 2021-08-20 中国科学院计算技术研究所 一种用户自生产内容检测方法和***
CN108364028A (zh) * 2018-03-06 2018-08-03 中国科学院信息工程研究所 一种基于深度学习的互联网网站自动分类方法
CN108460366A (zh) * 2018-03-27 2018-08-28 百度在线网络技术(北京)有限公司 身份认证方法和装置
CN108717439A (zh) * 2018-05-16 2018-10-30 哈尔滨理工大学 一种基于注意力机制和特征强化融合的中文文本分类方法
CN108734210B (zh) * 2018-05-17 2021-10-15 浙江工业大学 一种基于跨模态多尺度特征融合的对象检测方法
CN108876643A (zh) * 2018-05-24 2018-11-23 北京工业大学 一种社交策展网络上采集(Pin)的多模态表示方法
CN109002852B (zh) * 2018-07-11 2023-05-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN110851641B (zh) * 2018-08-01 2022-09-16 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN109190683A (zh) * 2018-08-14 2019-01-11 电子科技大学 一种基于注意力机制和双模态图像的分类方法
CN109346102B (zh) * 2018-09-18 2022-05-06 腾讯音乐娱乐科技(深圳)有限公司 音频开头爆音的检测方法、装置及存储介质
CN109543714B (zh) * 2018-10-16 2020-03-27 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答***及方法
CN109740515B (zh) * 2018-12-29 2021-08-17 科大讯飞股份有限公司 一种评阅方法及装置
CN109785409B (zh) * 2018-12-29 2020-09-08 武汉大学 一种基于注意力机制的图像-文本数据融合方法和***
CN109815903B (zh) * 2019-01-24 2020-10-02 同济大学 一种基于自适应融合网络的视频情感分类方法
CN111488503A (zh) * 2019-01-29 2020-08-04 阿里巴巴集团控股有限公司 案件分类方法及装置
CN109934260A (zh) * 2019-01-31 2019-06-25 中国科学院信息工程研究所 基于随机森林的图文数据融合情感分类方法和装置
CN109829499B (zh) * 2019-01-31 2020-10-27 中国科学院信息工程研究所 基于同一特征空间的图文数据融合情感分类方法和装置
CN109858034B (zh) * 2019-02-25 2023-02-03 武汉大学 一种基于注意力模型和情感词典的文本情感分类方法
CN109948691B (zh) * 2019-03-14 2022-02-18 齐鲁工业大学 基于深度残差网络及注意力的图像描述生成方法和装置
CN110046264A (zh) * 2019-04-02 2019-07-23 云南大学 一种面向手机文档的自动分类方法
CN110135461B (zh) * 2019-04-18 2023-05-05 南开大学 基于分层注意感知深度度量学习的情感图像检索的方法
CN110070511B (zh) * 2019-04-30 2022-01-28 北京市商汤科技开发有限公司 图像处理方法和装置、电子设备及存储介质
CN110263808B (zh) * 2019-05-13 2023-07-25 广东工业大学 一种基于lstm网络和注意力机制的图像情感分类方法
CN110210608B (zh) * 2019-06-05 2021-03-26 国家广播电视总局广播电视科学研究院 基于注意力机制和多层次特征融合的低照度图像增强方法
CN110516085B (zh) * 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN112231275B (zh) * 2019-07-14 2024-02-27 阿里巴巴集团控股有限公司 多媒体文件分类、信息处理与模型训练方法、***及设备
CN110597965B (zh) * 2019-09-29 2024-04-16 深圳市雅阅科技有限公司 文章的情感极性分析方法、装置、电子设备及存储介质
CN111160452A (zh) * 2019-12-25 2020-05-15 北京中科研究院 一种基于预训练语言模型的多模态网络谣言检测方法
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、***、介质及电子设备
CN111563551B (zh) * 2020-04-30 2022-08-30 支付宝(杭州)信息技术有限公司 一种多模态信息融合方法、装置及电子设备
CN111640500B (zh) * 2020-04-30 2023-09-05 西北大学 基于双线性融合与注意力机制的脑龄预测模型及方法
US11373057B2 (en) 2020-05-12 2022-06-28 Kyndryl, Inc. Artificial intelligence driven image retrieval
CN111612090B (zh) * 2020-05-29 2022-09-06 中国科学技术大学 基于内容颜色交叉相关的图像情感分类方法
CN111985369B (zh) * 2020-08-07 2021-09-17 西北工业大学 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN112148997B (zh) * 2020-08-07 2023-11-28 江汉大学 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
CN112508077B (zh) * 2020-12-02 2023-01-03 齐鲁工业大学 一种基于多模态特征融合的社交媒体情感分析方法及***
CN112801219B (zh) * 2021-03-22 2021-06-18 华南师范大学 一种多模态情感分类方法、装置及设备
CN113486833B (zh) * 2021-07-15 2022-10-04 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN113642332B (zh) * 2021-08-11 2023-11-14 福州大学 一种融合多级语义信息的多模态讽刺识别***方法
CN115146057B (zh) * 2022-05-27 2024-06-28 电子科技大学 基于交互注意力的供应链生态区图文融合情感识别方法
CN115239937B (zh) * 2022-09-23 2022-12-20 西南交通大学 一种跨模态情感预测方法
CN116994069B (zh) * 2023-09-22 2023-12-22 武汉纺织大学 一种基于多模态信息的图像解析方法及***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063683B (zh) * 2014-06-06 2017-05-17 北京搜狗科技发展有限公司 一种基于人脸识别的表情输入方法和装置
JP2016048457A (ja) * 2014-08-27 2016-04-07 MoneySmart株式会社 情報処理装置、情報処理方法、及びプログラム
CN104200804B (zh) * 2014-09-19 2017-05-17 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法

Also Published As

Publication number Publication date
CN107066583A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107066583B (zh) 一种基于紧凑双线性融合的图文跨模态情感分类方法
Liu et al. SCCGAN: style and characters inpainting based on CGAN
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN106973244A (zh) 使用弱监督为图像配字幕
Gao et al. Self-attention driven adversarial similarity learning network
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及***
CN111949886B (zh) 一种用于信息推荐的样本数据生成方法和相关装置
Natarajan et al. Dynamic GAN for high-quality sign language video generation from skeletal poses using generative adversarial networks
Lin et al. Font generation based on least squares conditional generative adversarial nets
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN114528374A (zh) 一种基于图神经网络的电影评论情感分类方法及装置
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及***
Kumar et al. A comprehensive survey on generative adversarial networks used for synthesizing multimedia content
Naseri et al. Novel CNN with investigation on accuracy by modifying stride, padding, kernel size and filter numbers
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
Zhang et al. Online modeling of esthetic communities using deep perception graph analytics
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Pande et al. Development and deployment of a generative model-based framework for text to photorealistic image generation
Shehada et al. A lightweight facial emotion recognition system using partial transfer learning for visually impaired people
Zhu et al. Image manipulation with natural language using two-sided attentive conditional generative adversarial network
Tsao et al. Autovp: An automated visual prompting framework and benchmark
Suchecki et al. Understanding aesthetics in photography using deep convolutional neural networks
CN117011875A (zh) 多媒体页面的生成方法、装置、设备、介质和程序产品
Zhu et al. Fine-grained bidirectional attentional generation and knowledge-assisted networks for cross-modal retrieval
Wang Improved facial expression recognition method based on gan

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant