CN110276396B - 基于物体显著性和跨模态融合特征的图片描述生成方法 - Google Patents
基于物体显著性和跨模态融合特征的图片描述生成方法 Download PDFInfo
- Publication number
- CN110276396B CN110276396B CN201910544985.7A CN201910544985A CN110276396B CN 110276396 B CN110276396 B CN 110276396B CN 201910544985 A CN201910544985 A CN 201910544985A CN 110276396 B CN110276396 B CN 110276396B
- Authority
- CN
- China
- Prior art keywords
- picture
- time
- word
- network
- long
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 title claims abstract description 23
- 230000000007 visual effect Effects 0.000 claims abstract description 49
- 230000015654 memory Effects 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 20
- 238000012795 verification Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 13
- 210000002569 neuron Anatomy 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 2
- 230000007787 long-term memory Effects 0.000 claims 1
- 230000001343 mnemonic effect Effects 0.000 claims 1
- 230000006403 short-term memory Effects 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 238000007796 conventional method Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 235000019987 cider Nutrition 0.000 description 3
- 235000013599 spices Nutrition 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于物体显著性和跨模态融合特征的图片描述生成方法,主要解决现有方法生成图片描述时物体类别表述不够准确以及图片和文字特征跨模态的问题,其实现步骤为:1.采用Faster R‑CNN+ResNet‑101网络,检测图片显著性区域的视觉特征和物体类别信息;2.采用特征融合算法生成文字特征和图片视觉特征的融合特征;3.注意力长短时记忆网络利用融合特征对图片的视觉特征及其物体类别信息进行加权;4.译码器长短时记忆网络利用加权后的视觉特征和物体类别信息时序地生成图片的自然语言描述。本发明具有生成图片描述物体类别表述准确,语句流畅的优点,可用于社交多媒体检索、盲人读图和辅助视频监控。
Description
技术领域
本发明属于图像处理技术领域,更进一步是一种图片描述生成方法,可用于社交多媒体检索、盲人读图和辅助视频监控。
背景技术
随着社交多媒体的发展,以图片为载体的信息传递方式占越来越重要的比重。图片描述生成利用图像中丰富的视觉信息,生成语义明确、语法准确的文字描述,在很大程度上可以完善社交多媒体网络。
相较于传统的计算机视觉问题,图片描述生成问题涉及图片与自然语言多模态信息的融合。这是人工智能时代发展的必然产物,它教会机器‘交流’。
目前,图片自然语言生成主要包括两类:一类是基于模板或者检索的传统图片描述生成方法,第二类方法是基于深度学习的图片描述生成方式。其中:
基于模板的方法,是一类利用图片信息填充有固定格式的语句模板生成图片描述的方法。2011年,Siming Li等人基于此思路进行研究,提出一种利用图片中物体信息,生成位置短语填补模板生成图片描述的方法。
基于检索的图片描述生成方法,检索数据库中的图片,并根据图片相似性使用已有的语句生成图片的描述。传统的图片描述生成方式生成的语句虽然方法简单,但其生成语句结构单一,描述刻板,并且准确率不高。
近几年,基于深度学习的图片描述生成方法逐渐被广泛应用。编码器-译码器网络结构是基于深度学习的图片描述生成方法的一种通用结构。编码器网络通常指的是卷积神经网络,卷积神经网络的作用是提取图片中丰富的视觉语义信息。译码器网络通常使用循环神经网络,循环神经网络利用编码器所提供的信息时序地生成准确的自然语言描述。谷歌研究院首先提出使用这种结构的方法,利用卷积神经网络得到的图片的特征向量编码图片视觉信息,利用长短时记忆网络生成相应的文字描述。在此之后,为使网络更加接近人类视觉***,Kelvin Xu等在编码器-译码器网络中加入注意力模块模拟人眼视觉注意力机制。注意力机制的引入使得网络在生成图片描述时选择性关注图片的不同区域,使得描述更准确。另外考虑到生成描述时存在非视觉词语例如冠词、介词等,在生成这类词语时并不需要图片信息的辅助。基于此思路,Jiasen Lu等提出了一种基于哨兵的图片描述生成方式,主要思想是利用哨兵决定是否需要图片信息辅助描述生成。目前基于深度学习的方法虽然是图片描述生成领域的主流方法,但它仍然存在需要改进的地方。缺点之一,在提取图片特征的时候,物体类别信息不够明确,导致描述类别时不够准确。另外在生成描述的过程中,网络需要涉及图片和文字处于不同模态的两类信息,其跨模态融合问题有待进一步研究。
综上所述,现有技术存在两方面问题:一是在生成描述时不能准确识别图片中的物体,二是在生成描述时不能充分利用网络中的文字特征和图片视觉特征信息,造成生成的图片描述存在语义不明确,语句不流畅的不足。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于物体显著性和跨模态特征融合的图片描述生成方法,以通过利用物体类别信息,并改进图片特征信息与文字特征的跨模态融合,提高生成语句物体描述的准确性和语言的流畅性。
为实现上述目的,本发明目的技术方案如下:
(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;
(2)统计MSCOCO数据库中所有单词出现次数,用出现次数大于5次的单词构建词典并将其表示成独热编码形式,词典中单词总数记为L;
(3)对数据库中的图片,生成其对应的内容描述A:
(3a)针对一张图片,采用时序的方式生成当前图片对应的文字描述A={y1,…,yt-1,...,yT},其中yt表示t时刻生成的单词,T表示该幅图片对应的描述的总单词数;
(3b)使用Faster R-CNN+ResNet-101网络检测该图片的显著性区域,提取这些域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(3d)采用跨模态特征融合算法,利用该图片的视觉特征S和t-1时刻生成单词wt-1计算当前时刻的融合特征zt;
(3e)将t-1时刻译码器长短时记忆网络LSTM隐藏层状态向量和t时刻融合特征zt与视觉特征S及其对应的物体类别B的词嵌入向量C级联,计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量和t时刻视觉特征S与词嵌入向量C的共享权重αt;
(3g)将t时刻加权平均视觉特征加权平均物体类别的词嵌入向量和注意力长短时记忆网络LSTM的隐藏层状态向量级联作为译码器的输入,计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量和t时刻译码器生成的单词yt;
(4)将训练集中图片每10张划分为一组,以组为单位按照(3)生成训练集Q图片描述,并与数据库中该组图片对应的人工标注的描述进行对比,使用交叉熵函数计算损失,优化网络参数;
(5)按照(3)生成验证集V所有图片对应的描述,并与数据库中对应人工标注的描述对比,利用验证指标,测试当前网络的性能;
(6)重复(4)-(5),直到前后两次网络性能的指标值变化在±0.2%的范围内时,得到训练好的网络;
(7)将测试集E所有图片输入到训练好的网络中,时序地生成对图片的自然语言描述。
本发明与现有技术相比具有以下优点:
第一、本发明结合Faster R-CNN+ResNet-101网络,检测图片中显著性区域的视觉特征及其对应的物体类别信息,并对图片的视觉特征及物体类别进行加权,提高网络对图片物体的表征能力,生成图片描述更加准确。
第二、本发明考虑到文字特征与图片视觉特征的融合问题,使用跨模态特征融合算法生成文字/图片融合特征,使得网络能够更好地利用文字特征与图片视觉特征,提高了网络的图片描述能力,生成的图片描述更加流畅。
综上,本发明在图片描述生成网络中加入物体类别信息,并设计跨模态特征融合算法,通过这两个手段有效地提高了生成语句物体描述的准确性和语言的流畅性。实验仿真结果表明:本发明与谷歌基于卷积神经网络和长短时记忆网络的图片描述算法和基于Hard-Attention的算法相比,在各指标上均有很大的提升。具体结果对比如表1所示。
表1不同方法结果对比
评价指标 | Bleu_1 | Bleu_4 | CIDEr | METEOR | SPICE |
Google NIC | - | 32.1 | 99.8 | 25.7 | 6.3 |
Hard-Attention | 71.8 | 25 | - | 23.9 | 6.1 |
本发明 | 76.9 | 36.5 | 114.0 | 27.3 | 20.3 |
附图说明
图1是本发明的实现流程图;
图2是本发明中图片描述生成的流程示意图。
具体实施方式:
下面结合附图对本发明实施例作进一步的描述。
参照图1,本实例的实现步骤如下:
步骤1,统计MSCOCO单词,建立词典。
统计MSCOCO数据库中所有单词出现次数,统计出现次数大于5次的单词,使用这些单词构成词典;并将词典中的单词表示成独热编码形式,记词典中单词总数为L。
步骤2,将MSCOCO数据集划分为训练集、验证集和测试集。
MSCOCO数据库原始训练集包含82,783张图片,验证集包含40,504张图片,依据‘Karpathy’Splits规则,对MSCOCO数据库验证集图片重新划分,即随机不重复地取验证集5,000张图片作为测试集E,将30,504张图片加入现有训练集Q,保留剩余5,000张图片作为验证集V,划分后,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;
步骤3,生成训练集图片的自然语言描述,训练网络。
参照图2,本步骤具体实现如下:
(3.1)取训练集10张图片为一组训练网络,使用Faster R-CNN+ResNet-101网络检测第m张图片的显著性区域,提取这些区域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数s,m的取值范围是1到10;
(3.2)设第m张图片生成文字描述为Am={y1,...,yt-1,...,yT},则t-1时刻生成单词为yt-1,将单词yt-1转化成其对应的独热编码,并将该独热编码输入到一个有512个神经元的全连接层,得到该单词的词嵌入向量Πt-1,其中,T表示该幅图片生成描述的总单词数;
其中,表示对图片全局特征和单词的词嵌入向量Πt-1外积,表示对图片全局特征进行傅里叶变换,FFT(Πt-1)表示对单词的词嵌入向量Πt-1进行傅里叶变换,表示对和FFT(Πt-1)相乘的结果进行逆傅里叶变换;
(3.5)将图片物体类别B的第i个区域的类别bi使用它对应的独热编码表示,并输入到一个有512个神经元的全连接层生成第i个区域的词嵌入向量oi,用所有词嵌入向量构成词嵌入集合:C={o1,o2,...,oi,…,on};
其中,Wv、Wo、Wha、Wa分别表示四个神经元个数均为512的全连接层,tanh(·)表示正切函数;
(3.8)用softmax分类器将权重ai,t归一化,得到t时刻第i个区域归一化权重βi,t:
βi,t=softmax(ai,t);
该译码器长短时记忆网络是一个隐藏层神经元个数是512,层数为2的长短时记忆网络;
(3.11)计算t时刻生成各单词yq,t的条件概率:
其中,y1:t-1表示1到t-1时刻生成的t-1个单词,Wp表示一个神经元个数为词典长度L的全连接层,q的取值范围是1到L;
(3.13)将(3.13)中条件概率最大位置对应的单词作为t时刻生成的单词yt;
(3.14)计算第m张图片的交叉熵损失Lm(θ):
(3.16)利用梯度下降算法,反向传播更新网络参数θ;
(3.17)重复(3.1)-(3.16),使用训练集全部图片更新网络参数θ,得到更新后的网络。
步骤4,生成验证集图片的自然语言描述
(4.1)使用Faster R-CNN+ResNet-101网络检测,验证集图片的显著性区域,提取这些区域的视觉特征信息S={v1,v2,…,vi,…,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(4.2)将提取的图片视觉特征信息S及其对应的物体类别信息B,输入到参数更新后的网络中,时序地生成对测试集图片的自然语言描述。
步骤5,根据性能指标,判断网络是否终止训练。
(5.1)根据当前网络生成的验证集V所有图片的自然语言描述,根据论文《Bleu:amethod for automatic evaluation of machine translation》、《Cider:Consensus-based image description evaluation》、《Meteor universal:Language specifictranslation evaluation for any target language》、《Spice:Semantic propositionalimage caption evaluation》所述方法,分别计算当前网络的性能指标Bleu_1/Bleu_4、CIDEr、METEOR、SPICE;
(5.2)比较前后两次指标值变化情况,当所有指标值变化在±0.2%的范围内时,停止训练,得到训练好的网络;否则,重复步骤3继续训练网络。
步骤6,使用训练好的网络,生成测试集E图片的自然语言描述。
(6.1)使用Faster R-CNN+ResNet-101网络,检测测试集E图片的显著性区域提取这些区域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(6.2)将提取的图片视觉特征信息S及其对应的物体类别信息B,输入到训练好的网络中,时序地生成对测试集图片的自然语言描述。
以上所述仅为本发明的较佳实施案例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于物体显著性和跨模态融合特征的图片描述生成方法,其特征在于,包括如下:
(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分,得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E;
(2)统计MSCOCO数据库中所有单词出现次数,用出现次数大于5次的单词建词典并将其表示成独热编码形式,词典中单词总数记为L;
(3)对数据库中的图片,生成其对应的内容描述A:
(3a)针对一张图片,采用时序的方式生成当前图片对应的文字描述A={y1,...,yt-1,...,yT},其中yt表示t时刻生成的单词,T表示该幅图片对应的描述的总单词数;
(3b)使用Faster R-CNN+ResNet-101网络检测该图片的显著性区域,提取这些区域的视觉特征信息S={v1,v2,...,vi,...,vn}及其对应的物体类别信息B={b1,b2,...,bi,...,bn},其中vi表示第i个显著性区域的视觉特征,bi表示第i个显著性区域的对应的物体类别,i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量;
(3d)采用跨模态特征融合算法,利用该图片的视觉特征S和t-1时刻生成单词wt-1计算当前时刻的融合特征zt;
(3e)将t-1时刻译码器长短时记忆网络LSTM隐藏层状态向量和t时刻融合特征zt与视觉特征S及其对应的物体类别B的词嵌入向量C级联,计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量和t时刻视觉特征S与词嵌入向量C的共享权重αt;
(3g)将t时刻加权平均视觉特征加权平均物体类别的词嵌入向量和注意力长短时记忆网络LSTM的隐藏层状态向量级联作为译码器的输入,计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量和t时刻译码器生成的单词yt;
(4)将训练集中图片每10张划分为一组,以组为单位按照(3)生成训练集Q图片描述,并与数据库中该组图片对应的人工标注的描述进行对比,使用交叉熵函数计算损失,优化网络参数;
(5)按照(3)生成验证集V所有图片对应的描述,并与数据库中对应人工标注的描述对比,利用验证指标,测试当前网络的性能;
(6)重复(4)-(5),直到前后两次网络性能的指标值变化在±0.2%的范围内时,得到训练好的网络;
(7)将测试集E所有图片输入到训练好的网络中,时序地生成对图片的自然语言描述。
3.如权利要求1所述的方法,其中于(3e)中计算t时刻共享权重αt,实现如下:
(3e1)将图片物体类别B的第i个区域的类别bi使用它对应的独热编码表示,并输入到一个有512个神经元的全连接层生成第i个区域的词嵌入向量oi,用所有词嵌入向量构成词嵌入集合:C={o1,o2,…,oi,...,on};
(3e3)将t时刻的融合特征zt和t-1时刻译码器长短时记忆网络隐藏层状态向量级联作为注意力长短时记忆网络的输入,并与t-1时刻的注意力长短时记忆网络隐藏层状态向量共同计算当前时刻注意力长短时记忆网络的隐藏层状态向量
所述注意力长短时记忆网络,是一个两层的长短时记忆网络,每层神经元个数均为512;
其中,Wv、Wo、Wha、Wa表示四个神经元个数均为512的全连接层,tanh(·)表示正切函数;
(3e5)用softmax分类器将权重ai,t归一化,得到t时刻第i个区域归一化权重βi,t:
βi,t=soft max(ai,t)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910544985.7A CN110276396B (zh) | 2019-06-21 | 2019-06-21 | 基于物体显著性和跨模态融合特征的图片描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910544985.7A CN110276396B (zh) | 2019-06-21 | 2019-06-21 | 基于物体显著性和跨模态融合特征的图片描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110276396A CN110276396A (zh) | 2019-09-24 |
CN110276396B true CN110276396B (zh) | 2022-12-06 |
Family
ID=67961721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910544985.7A Active CN110276396B (zh) | 2019-06-21 | 2019-06-21 | 基于物体显著性和跨模态融合特征的图片描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276396B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750663B (zh) * | 2019-10-08 | 2021-11-23 | 浙江工业大学 | 一种面向生活记录的跨模态图像检索方法 |
CN112926616B (zh) * | 2019-12-06 | 2024-03-05 | 顺丰科技有限公司 | 图像匹配方法和装置、电子设备、计算机可读存储介质 |
CN111191715A (zh) * | 2019-12-27 | 2020-05-22 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113298748B (zh) * | 2020-02-21 | 2022-11-18 | 安徽大学 | 一种基于注意力机制的图像协同显著目标检测模型 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963782B2 (en) * | 2016-11-04 | 2021-03-30 | Salesforce.Com, Inc. | Dynamic coattention network for question answering |
-
2019
- 2019-06-21 CN CN201910544985.7A patent/CN110276396B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110276396A (zh) | 2019-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502749B (zh) | 一种基于双层注意力机制与双向gru的文本关系抽取方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、***及介质 | |
CN107291795B (zh) | 一种结合动态词嵌入和词性标注的文本分类方法 | |
Zhu et al. | Image captioning with triple-attention and stack parallel LSTM | |
CN109977199B (zh) | 一种基于注意力池化机制的阅读理解方法 | |
CN109711465B (zh) | 基于mll和asca-fr的图像字幕生成方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN111291556B (zh) | 基于实体义项的字和词特征融合的中文实体关系抽取方法 | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN112487807A (zh) | 一种基于膨胀门卷积神经网络的文本关系抽取方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及*** | |
CN111241816A (zh) | 一种新闻标题自动生成方法 | |
CN111125367A (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN112784041B (zh) | 一种中文短文本情感倾向性分析方法 | |
CN112232053A (zh) | 一种基于多关键词对匹配的文本相似度计算***、方法、及存储介质 | |
CN112000809A (zh) | 一种文本类别的增量学习方法及装置、可读存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、***及存储介质 | |
CN115687609A (zh) | 一种基于Prompt多模板融合的零样本关系抽取方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN112528168B (zh) | 基于可形变自注意力机制的社交网络文本情感分析方法 | |
CN111723572B (zh) | 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |