CN116912599A - 基于条件变分自编码和对比学习的图像多样化描述方法 - Google Patents

基于条件变分自编码和对比学习的图像多样化描述方法 Download PDF

Info

Publication number
CN116912599A
CN116912599A CN202311009413.1A CN202311009413A CN116912599A CN 116912599 A CN116912599 A CN 116912599A CN 202311009413 A CN202311009413 A CN 202311009413A CN 116912599 A CN116912599 A CN 116912599A
Authority
CN
China
Prior art keywords
image
description
hidden variable
model
variation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311009413.1A
Other languages
English (en)
Inventor
刘明明
刘兵
徐静
张海燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Institute of Architectural Technology
Original Assignee
Jiangsu Institute of Architectural Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Institute of Architectural Technology filed Critical Jiangsu Institute of Architectural Technology
Priority to CN202311009413.1A priority Critical patent/CN116912599A/zh
Publication of CN116912599A publication Critical patent/CN116912599A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于条件变分自编码和对比学习的图像多样化描述方法,包括:将训练集中的每一个图像‑描述对输入至一个单支路条件变分自编码器和解码器网络模型进行预训练,获得预训练后的序列隐变量;引入另一单支路条件变分自编码器和解码器网络,计算变分下界损失函数,通过该支路条件变分自编码器获得编码的序列隐变量;引入单词级双向对比学习损失函数,提升序列隐变量zc的单词级判别能力;获得全局对比学习目标函数;获得联合优化目标,提升图像多样化模型的隐表示判别能力和细粒度的描述语句解码能力,从而获得高质量的多样化描述语句。

Description

基于条件变分自编码和对比学习的图像多样化描述方法
技术领域
本发明涉及一种数字数据处理技术,特别是一种基于条件变分自编码和对比学习的图像多样化描述方法。
背景技术
图像描述任务是计算机视觉和自然语言处理交叉领域的一项基础多模态任务。早期的图像描述模型忽略了生成描述的多样性,只关注精确性,从而导致生成的描述具有简单重复的特点,不符合人类语言的丰富性特征。因此,图像多样化描述已经成为越来越多的研究者们关注的研究热点,该任务的目标是对于给定的一张图像,在保证生成准确描述的前提下,生成单词多样、句式多样的多个描述语句。申请号为202211628528.4的专利提供了一种基于双路编码器的可解释性文本分类***,改专利公开了通过融合多头注意力与双向门控循环单元的语义表述,解决查询和注意力结果不匹配问题;但该专利中每个隐变量都是直接由不同的单支路生成,因此这些模型生成的隐变量缺乏成对和不成对的图像-描述间的区分性,导致即使是不同的图像生成的描述也都大同小异。
发明内容
本发明的目的在于提供一种基于条件变分自编码和对比学习的图像多样化描述方法,包括:
步骤S100,将训练集中的每一个图像-描述对输入至一个单支路条件变分自编码器和解码器网络模型进行预训练,获得预训练后的序列隐变量zb
步骤S200,引入另一单支路条件变分自编码器和解码器网络,计算变分下界损失函数L1(x,I),通过该支路条件变分自编码器获得编码的序列隐变量zc
步骤S300,引入单词级双向对比学习损失函数Lr(zb,zc),提升序列隐变量zc的单词级判别能力;
步骤S400,利用预训练的序列隐变量zb生成对应的描述语句CN,利用序列隐变量zc生成对应的描述语句CG,利用真实语句CT和交叉熵损失函数对CG进行句子级的全局对比学习,获得全局对比学习目标函数L2(x,I);
步骤S500,获得联合优化目标Ltotal=λ1L1(x,I)+λ2L2(x,I)+λ3Lr(zb,zc),提升图像多样化模型的隐表示判别能力和细粒度的描述语句解码能力,从而获得高质量的多样化描述语句,其中λ1、λ2和λ3为平衡每部分损失的权重参数。
进一步地,步骤S200中,变分下界损失函数L1(x,I)通过下式获得
其中,表示解码器生成语句的对数条件似然的期望,/>表示在所有时间步中先验模型/>和后验模型pθ(ztz<t,x<t,I)的KL散度,θ为模型参数,x表示T长度的描述,xt为第t步生成的单词,z为隐变量,zt为第t步的隐变量,t∈T,I表示图像。
进一步地,步骤S300中,单词级双向对比学习损失函数Lr(zb,zc)通过下式获得
其中,m表示正向边界,(zb,zc)表示分别从双支路的条件变分自编码器对同一批次中相同的图像-描述对编码而获得的成对隐变量,(zb',zc)和(zb,zc')则是同一批次中非成对的隐变量。
进一步地,步骤S400中,全局对比学习目标函数L2(x,I)通过下式获得
其中,LXE代表交叉熵损失,K表示批次大小,α为超参数。
本发明与现有技术相比,具有以下优点:本发明提供的双支路条件变分自编码器,通过将序列变分自编码与对比学习相结合,在保证模型生成描述精确性的前提下,显著提升了多样性
附图说明
图1为本发明的方法示意图。
图2为本发明序列隐空间中单词生成的图形化模型示意图。
图3为不同图像描述模型生成描述的定性比较示意图。
图4为DS-CVAE基于测试集生成描述的定性示例示意图。
具体实施方式
结合图1,一种基于条件变分自编码和对比学习的图像多样化描述方法,包括以下步骤:
步骤S100,将训练集中的每一个图像-描述对输入至一个单支路条件变分自编码器和解码器网络模型进行预训练,获得预训练后的序列隐变量zb
步骤S200,引入另一单支路条件变分自编码器和解码器网络,计算变分下界损失函数L1(x,I),通过该支路条件变分自编码器获得编码的序列隐变量zc
步骤S300,将同一训练批次中的图像-描述对分别输入两个支路对应的条件变分自编码器,获得序列隐变量zb和zc,引入单词级双向对比学习损失函数Lr(zb,zc),提升序列隐变量zc的单词级判别能力;
步骤S400,利用预训练的序列隐变量zb生成对应的描述语句CN,利用序列隐变量zc生成对应的描述语句CG,利用真实语句CT和交叉熵损失函数对CG进行句子级的全局对比学习,获得全局对比学习目标函数L2(x,I);
步骤S500,获得联合优化目标Ltotal=λ1L1(x,I)+λ2L2(x,I)+λ3Lr(zb,zc),其中λ1、λ2和λ3为平衡每部分损失的权重参数,通过单词级对比损失、句子级对比损失和变分下界损失函数,提升图像多样化模型的隐表示判别能力和细粒度的描述语句解码能力,从而获得高质量的多样化描述语句。
具体地,本发明的目的在于对于给定的图像I,条件变分自编码器生成多种不同的描述集合X。通过最大化条件概率pθ(x,z|I)实现该目标。
其中,θ为模型参数,x表示T长度的描述,xt为第t步生成的单词,z为隐变量,zt为第t步的隐变量,t∈T。
实践中,利用长短时神经网络LSTM建立条件概率分布pθ(x|I)
其中隐藏层状态ht-1中包含了当前时间步之前的所有x<t的信息,并且xt-1会直接影响当前时间步xt的生成。然而利用当前时间步前生成的单词序列和条件概率分布pθ(xt|x<t,I)仅能实现图像到描述间的一对一的映射,无法生成多样化的描述语句。为此,本实施例引入隐变量zt,该隐变量在每个时间步为模型提供更多样的生成单词选择。同时,条件变分自编码器所需要的变分下界
式(5)中,第一项表示解码器生成语句的对数条件似然的期望,第二项表示在所有时间步中先验模型/>和后验模型pθ(zt|z<t,x<t,I)的KL散度。先验模型和后验模型分别对应双支路条件变分自编码器的编码网络。
步骤S100中,通过最大化条件概率分布的变分下界,即下界损失函数L1(x,I)来训练条件变分自编码和解码器网络,使得先验网络向后验网络进行逼近,输出预训练的隐变量zb。给定一张图像I,先验模型可以被参数化为一系列条件的乘积pθ(zt|z<t,x<t,I)。在测试阶段本实施例提出条件变分自编码器(DS-CVAE)的从先验模型中采样隐变量zt作为解码器生成对应单词的条件。具体而言,在每一个时间步t,隐变量zt的采样依据之前所有时间步的x<t和z<t,随后采样获得的隐变量z<t同所有的x<t共同预测当前时间步的单词x<t。因此,DS-CVAE可以从pθ(zt|z<t,x<t,I)中采样一系列多样的隐变量zt并输入到解码器pθ(xt|x<t,z<t,I)中实现生成描述的多样性,如图2所示。
进一步地,预训练隐变量zb缺乏成对和不成对的图像-描述间的区分性。因此,本实施例对于训练集中的每一个图像-描述对,都将其输入至双支路条件变分自编码器中进行编码,通过两个支路间的对比学习来提高隐变量的多样性及可区分性。在此基础上,步骤S300采用式(7)进行联合训练
其中,m表示正向边界;(zb,zc)表示分别从双支路的条件变分自编码器对同一批次中相同的图像-描述对编码而获得的成对隐变量,(zb',zc)和(zb,zc')则是同一批次中非成对的隐变量。式(7)中的第一个max项,zc采样自图2中下支路Seq-CVAE的后验模型,zb和zb'则是采样自预训练的上支路Seq-CVAE中的后验模型;zb表示与zc采样自同一成对的图像-描述对的正样本,而zb'表示随机采样自当前批次中非成对的图像-描述对。式(7)中的后一max项与之相反。
步骤S300的对比学习实质上是一种局部对比学习,旨在提高隐空间中每个单词对应隐变量的可区分性。
为了进一步消除图像描述中重读的单词和短语,缓解训练和测试阶段存在的偏差,本实施例采用交叉熵损失法进行全局对比学习,步骤S400的具体过程为:
步骤S401,将解码器预测生成的描述被视为正样本,由预训练的解码器中采样的描述定义为负样本;
步骤S402,利用正负样本对,结合全局对比学习和交叉熵损失设计全局对比损失L2(x,I)进行全局对比学习;
其中,LXE代表交叉熵损失;K表示批次大小;α为超参数;CT和CN分别表示每张给定图像I的真实语句和预训练模型生成的负样本语句;CG是由当前模型解码器通过贪婪策略生成的描述语句。贪婪策略将生成的单词一个接一个地提供给解码器,并根据交叉熵损失依次预测概率值最大的下一个单词;从句子层级看,L2(x,I)使用混合训练目标减少解码器对于常见单词的生成,并同时促使解码器生成正样本中包含的准确且多样的单词。
实施例一
DS-CVAE使用Faster-RCNN为每张图像提取2048-D的目标特征。然后对Seq-CVAE编码网络和解码器进行1630个迭代的预训练。在联合训练阶段,双支路的Seq-CVAE进行20375次的迭代训练。其中,隐变量z的维度被设置为128。解码器在每个时间步上以图像特征和序列隐变量的拼接向量作为输入。DS-CVAE使用SGD优化器,其中学习率设置为0.015,动量设置为0.9,权重衰减设置为0.001。为进一步突出全局对比学习的作用,式6中的m设置为0.2,式7中α设置为1.5。联合优化目标函数中的λ1、λ2和λ3分别设置为1、1、1.2。
(1)Best-1精确性
表1所示为DS-CVAE在MSCOCO数据集“M-RNN”测试集上使用Oracle重新排序后精确性的性能对比(在采样20和采样100的对比)。DS-CVAE在采样100时的性能显著优于当前的图像多样化描述方法,并且在采样20时与当前性能最优的基线模型COS-CVAE不相上下。在SPICE指标上,DS-CVAE和别的模型相比取得了最好的效果,如采样20和100时分别达到了0.294和0.337的分数,这表明DS-CVAE相对于常见的单词或短语更倾向于生成具备细粒度和区分性的单词或短语。
表1
(2)多样性评价
为更全面地对DS-CVAE模型进行评估,本实施例将DS-CVAE模型进行了如表2所示的多样性指标对比。对于每一种多样性评价指标,都基于Consensus重新排序选出的最好的五个句子。
从表2可是看出,DS-CVAE取得的较好的多样性评价结果。DS-CVAE在采样20和100个样本时的性能都优于AG-CVAE和POS方法。在采样20个样本时,DS-CVAE在除了mBleu之外的指标都优于基线模型Seq-CVAE和COS-CVAE。在采样100个样本时,DS-CVAE在所有五个多样性指标中取得了三个指标的最优结果。特别的是,对于Div-1和Div-2指标,DS-CVAE的表现明显优于其他所有模型。对于采样20和100个样本时,DS-CVAE相比于COS-CVAE模型在Div-2分数上各自提高了25%和10%。Div-1和Div-2的分数表明DS-CVAE能够生成细粒度更强和更多样的单词及单词组合。
表2
(3)消融实验分析
本实施例对DS-CVAE模型的每个组成部分进行了有效性分析。具体而言,分别对编码阶段的双向对比学习和解码阶段的全局对比学习进行了实验验证。表3和表4分别是采样20和100个样本的情况下进行的精确性和多样性的消融实验结果,其中基线模型为没有引入对比学习的预训练Seq-CVAE模型。
表3
表4
从表中可以看出,与基线模型相比,在编码阶段所采用的双向对比学***衡。
(4)模型性能的定性分析
为了更全面地评估DS-CVAE模型的多样性和精确性,本实施例将其与现有的图像多样化描述方法生成的描述进行了对比。
如图3所示,对于第一幅图像,COS-CVAE生成了常见的n-gram,例如“on the topof”,但对于图像中的细节描述中却没有体现,如描述中没有体现出猫的颜色。尽管AG-CVAE描述了图像的一些细节信息,如“small gray and white”,但其仍不能避免生成常见的单词或短语。Div-BS、Seq CVAE和POS也更倾向于生成准确和常见的单词与短语,无法在多样性和精确性之间达到平衡。
本实施例提出的DS-CVAE方法生成的描述不仅语法正确而且包含了图像的更多细节,如“white cat”和“red suitcase”。特别是,DS-CVAE生成了数据集中出现频率较少但更具备实际意义的动词,如“resting”和“looking”,而不是较为频繁出现的动词,例如“sit”和“laying”。对于图3中的第二幅图像,Seq-CVAE生成的描述中出现了一些重复短语,如“some water near water”,而且缺少对图像细节的描述。POS和Div-BS对图像的描述非常相似。本实施例提出的DS-CVAE模型不仅用正确的语法描述了图像,而且生成了更加多样和准确的描述。具体地说,DS-CVAE甚至生成了复合句,比如“that”从句,这样的表述显然更符合人类的语言***衡方面优于基线模型。
在图4中,本实施例进一步展示了DS-CVAE为各种测试集图像生成的一些示例。从图中可以看出,对于给定图像,DS-CVAE生成的大多数描述都是自然、流畅和多样的。DS-CVAE能够描述给定图像的具体细节,例如“blue jacket”、“holding a pair of skis”等。对于其中飞机的图像,DS-CVAE给出了相应的多样化和详细描述,例如,“black airplane”、“military airplane”、“small fighter jet”和“black fighter”。对同一物体的不同描述也更符合人类自然语言的多样性特征。此外,与图3中的示例相同,DS-CVAE生成了更有意义和更灵活的动词,如“holding”、“wearing”、“permit”和“arrange”,这使得描述更具备区别性。尽于此,基于定量和定性的实验分析,本实施例所提出的DS-CVAE在多样性和精确性方面都优于现有图像多样化描述方法。

Claims (5)

1.一种基于条件变分自编码和对比学习的图像多样化描述方法,其特征在于,包括:
步骤S100,将训练集中的每一个图像-描述对输入至一个单支路条件变分自编码器和解码器网络模型进行预训练,获得预训练后的序列隐变量zb
步骤S200,引入另一单支路条件变分自编码器和解码器网络,计算变分下界损失函数L1(x,I),通过该支路条件变分自编码器获得编码的序列隐变量zc
步骤S300,引入单词级双向对比学习损失函数Lr(zb,zc),提升序列隐变量zc的单词级判别能力;
步骤S400,利用预训练的序列隐变量zb生成对应的描述语句CN,利用序列隐变量zc生成对应的描述语句CG,利用真实语句CT和交叉熵损失函数对CG进行句子级的全局对比学习,获得全局对比学习目标函数L2(x,I);
步骤S500,获得联合优化目标Ltotal=λ1L1(x,I)+λ2L2(x,I)+λ3Lr(zb,zc),提升图像多样化模型的隐表示判别能力和细粒度的描述语句解码能力,从而获得高质量的多样化描述语句,其中λ1、λ2和λ3为平衡每部分损失的权重参数。
2.根据权利要求1所述的方法,其特征在于,步骤S200中,变分下界损失函数L1(x,I)通过下式获得
其中,表示解码器生成语句的对数条件似然的期望,/>表示在所有时间步中先验模型/>和后验模型pθ(zt|z<t,x<t,I)的KL散度,θ为模型参数,x表示T长度的描述,xt为第t步生成的单词,z为隐变量,zt为第t步的隐变量,t∈T,I表示图像。
3.根据权利要求2所述的方法,其特征在于,步骤S300中,单词级双向对比学习损失函数Lr(zb,zc)通过下式获得
其中,m表示正向边界,(zb,zc)表示分别从双支路的条件变分自编码器对同一批次中相同的图像-描述对编码而获得的成对隐变量,(zb',zc)和(zb,zc')则是同一批次中非成对的隐变量。
4.根据权利要3所述的方法,其特征在于,步骤S400中,全局对比学习目标函数L2(x,I)通过下式获得
其中,LXE代表交叉熵损失,K表示批次大小,α为超参数。
5.根据权利要求4所述的方法,其特征在于,联合优化目标为
Ltotal=λ1L1(x,I)+λ2L2(x,I)+λ3Lr(zb,zc)
其中λ1、λ2和λ3为平衡每部分损失的权重参数。
CN202311009413.1A 2023-08-11 2023-08-11 基于条件变分自编码和对比学习的图像多样化描述方法 Pending CN116912599A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311009413.1A CN116912599A (zh) 2023-08-11 2023-08-11 基于条件变分自编码和对比学习的图像多样化描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311009413.1A CN116912599A (zh) 2023-08-11 2023-08-11 基于条件变分自编码和对比学习的图像多样化描述方法

Publications (1)

Publication Number Publication Date
CN116912599A true CN116912599A (zh) 2023-10-20

Family

ID=88354836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311009413.1A Pending CN116912599A (zh) 2023-08-11 2023-08-11 基于条件变分自编码和对比学习的图像多样化描述方法

Country Status (1)

Country Link
CN (1) CN116912599A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118015389A (zh) * 2023-10-30 2024-05-10 江苏建筑职业技术学院 基于混合条件变分自编码的多样化图像描述生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021058710A1 (en) * 2019-09-25 2021-04-01 Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Modelling method using a conditional variational autoencoder
CN112765317A (zh) * 2021-01-19 2021-05-07 东南大学 一种引入类信息的文本生成图像方法及装置
CN114896983A (zh) * 2022-05-12 2022-08-12 支付宝(杭州)信息技术有限公司 模型训练方法、文本处理方法、装置和计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021058710A1 (en) * 2019-09-25 2021-04-01 Helmholtz Zentrum München - Deutsches Forschungszentrum für Gesundheit und Umwelt (GmbH) Modelling method using a conditional variational autoencoder
CN112765317A (zh) * 2021-01-19 2021-05-07 东南大学 一种引入类信息的文本生成图像方法及装置
CN114896983A (zh) * 2022-05-12 2022-08-12 支付宝(杭州)信息技术有限公司 模型训练方法、文本处理方法、装置和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李琪琦: "基于深度学习和多指标强化学习的图像描述生成", 中国优秀硕士学位论文全文数据库, no. 2021, 15 May 2021 (2021-05-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118015389A (zh) * 2023-10-30 2024-05-10 江苏建筑职业技术学院 基于混合条件变分自编码的多样化图像描述生成方法
CN118015389B (zh) * 2023-10-30 2024-06-25 江苏建筑职业技术学院 基于混合条件变分自编码的多样化图像描述生成方法

Similar Documents

Publication Publication Date Title
Zhang et al. Neural machine translation with deep attention
CN106569618B (zh) 基于循环神经网络模型的滑动输入方法及***
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN111178074A (zh) 一种基于深度学习的中文命名实体识别方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN107076567A (zh) 多语言图像问答
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述***及方法
CN116912599A (zh) 基于条件变分自编码和对比学习的图像多样化描述方法
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
CN117708339B (zh) 一种基于预训练语言模型的icd自动编码方法
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN114238636A (zh) 一种基于翻译匹配的跨语言属性级情感分类方法
Yang et al. ATT-BM-SOM: a framework of effectively choosing image information and optimizing syntax for image captioning
CN112906820A (zh) 基于遗传算法的对抗卷积神经网络句子相似度计算方法
CN116910272B (zh) 基于预训练模型t5的学术知识图谱补全方法
Huang et al. Summarization with self-aware context selecting mechanism
CN116956940A (zh) 一种基于多向式遍历与提示学习的文本事件抽取方法
CN111414762A (zh) 基于dcu编码和自注意力机制的机器阅读理解方法
CN113392629B (zh) 基于预训练模型的人称代词消解方法
CN115588486A (zh) 一种基于Transformer的中医诊断生成装置及其应用
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN114648024A (zh) 基于多类型词信息引导的汉越跨语言摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination