CN113673349A - 基于反馈机制的图像生成中文文本方法、***及装置 - Google Patents

基于反馈机制的图像生成中文文本方法、***及装置 Download PDF

Info

Publication number
CN113673349A
CN113673349A CN202110823453.4A CN202110823453A CN113673349A CN 113673349 A CN113673349 A CN 113673349A CN 202110823453 A CN202110823453 A CN 202110823453A CN 113673349 A CN113673349 A CN 113673349A
Authority
CN
China
Prior art keywords
chinese text
discriminator
generator
loss function
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110823453.4A
Other languages
English (en)
Other versions
CN113673349B (zh
Inventor
陈志华
刘斌
徐省华
魏文国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202110823453.4A priority Critical patent/CN113673349B/zh
Publication of CN113673349A publication Critical patent/CN113673349A/zh
Application granted granted Critical
Publication of CN113673349B publication Critical patent/CN113673349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明申请涉及文本生成技术领域,公开了基于反馈机制的图像生成中文文本方法、***及装置,其中该方法在训练生成式对抗网络模型时运用反馈机制,利用生成器输出的中文文本描述获取对应的参考图像,并将参考图像和样本图像的距离反馈回对抗网络,以使生成式对抗网络模型在训练过程中被逐渐优化,从而提高图像生成中文文本的准确度。

Description

基于反馈机制的图像生成中文文本方法、***及装置
技术领域
本发明申请涉及文本生成技术领域,尤其涉及基于反馈机制的图像生成中文文本方法、***及装置。
背景技术
作为自然语言处理领域的一个重要研究方向,文本生成技术极具应用前景。相关技术中采用生成式对抗网络模型对图像进行处理,以生成该图像对应的文本描述。生成式对抗网络(Generative Adversarial Network,GAN)包含两个子模型:生成器G和判别器D。生成器的作用是模拟真实数据的分布,判别器的作用是判断一个样本是真实样本还是生成样本,网络的训练目标是让生成器完美拟合真实数据的分布,使得判别器无法区分。
然而,现有的生成式对抗网络模型仅是采用样本图像对生成式对抗网络模型进行训练,训练好的生成式对抗网络模型生成的文本描述的准确度较差。
发明内容
本发明申请实施例的目的在于,提供一种基于反馈机制的图像生成中文文本方法、***及装置,能够使得图像生成中文文本描述的生成式对抗网络模型在训练过程中被逐渐优化,从而提高图像生成中文文本的准确度。
为达到上述目的,本发明采用如下技术方案:
本申请第一方面提供了基于反馈机制的图像生成中文文本方法,所述方法包括:
构建通过图像生成中文文本描述的生成式对抗网络模型,所述生成式对抗网络模型包括生成器和判别器;
将已知中文文本描述信息的样本图像输入所述生成器,获得所述生成器输出的中文文本描述,基于所述输出的中文文本描述获取对应的参考图像,所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同;
将所述参考图像反馈至所述判别器,以使所述判别器计算所述样本图像与所述参考图像的距离;
若计算得到的所述距离不小于预设距离阈值,将所述距离加入到所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和判别器进行调整,从而引导所述生成器生成更加贴近真值的向量。
根据本申请第一方面提供的一种能够实现的方式,所述方法还包括:
根据所述距离构建所述生成器的第一损失函数,确定所述第一损失函数的第一加权值;
根据所述判别器判别所述输出的中文文本为假的第一概率信息构建所述生成器的第二损失函数,确定所述第二损失函数的第二加权值;
基于所述第一损失函数、所述第二损失函数、第一加权值和第二加权值构建所述生成器的损失函数。
根据本申请第一方面提供的一种能够实现的方式,所述方法还包括:
根据所述判别器判别所述输出的中文文本为真的概率信息构建所述判别器的损失函数,根据所述生成器的损失函数和所述判别器的损失函数构建所述目标函数。
根据本申请第一方面提供的一种能够实现的方式,所述方法还包括:
所述判别器采用卷积神经网络提取最强语义信息,并在其输入层添加注意力机制以提取包含上下文的语义信息,进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。
本申请第二方面提供了基于反馈机制的图像生成中文文本***,所述***包括:
模型构建模块,用于构建通过图像生成中文文本描述的生成式对抗网络模型,所述生成式对抗网络模型包括生成器和判别器;
生成模块,用于将已知中文文本描述信息的样本图像输入所述生成器,获得所述生成器输出的中文文本描述,基于所述输出的中文文本描述获取对应的参考图像,所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同;
反馈模块,用于将所述参考图像反馈至所述判别器,以使所述判别器计算所述样本图像与所述参考图像的距离;
调整模块,用于在计算得到的所述距离不小于预设距离阈值时,将所述距离加入到所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和判别器进行调整,从而引导所述生成器生成更加贴近真值的向量。
根据本申请第二方面的一种能够实现的方式,所述调整模块包括:
第一函数构建单元,用于根据所述距离构建所述生成器的第一损失函数,确定所述第一损失函数的第一加权值;
第二函数构建单元,用于根据所述判别器判别所述输出的中文文本为假的第一概率信息构建所述生成器的第二损失函数,确定所述第二损失函数的第二加权值;
第三函数构建单元,用于基于所述第一损失函数、所述第二损失函数、第一加权值和第二加权值构建所述生成器的损失函数。
根据本申请第二方面的一种能够实现的方式,所述调整模块还包括:
目标函数构建单元,用于根据所述判别器判别所述输出的中文文本为真的概率信息构建所述判别器的损失函数,根据所述生成器的损失函数和所述判别器的损失函数构建所述目标函数。
根据本申请第二方面的一种能够实现的方式,所述判别器采用卷积神经网络提取最强语义信息,并在其输入层添加注意力机制以提取包含上下文的语义信息,进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。
本申请第三方面提供了一种基于反馈机制的图像生成中文文本装置,该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的基于反馈机制的图像生成中文文本方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现如上述任一项实施例所述的基于反馈机制的图像生成中文文本方法。
本申请所公开的实施例至少具有以下优点:
能够使得图像生成中文文本描述的生成式对抗网络模型在训练过程中被逐渐优化,从而提高图像生成中文文本的准确度。
附图说明
图1是本发明申请提供的基于反馈机制的图像生成中文文本方法的一个优选实施例的流程示意图;
图2是本发明申请提供的基于反馈机制的图像生成中文文本***的一个优选实施例的结构示意图。
附图标记:
模型构建模块1、生成模块2、反馈模块3、调整模块4。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1所示为本发明申请提供的基于反馈机制的图像生成中文文本方法的一个优选实施例的流程示意图。
如图1所示,所述方法包括:
S1构建通过图像生成中文文本描述的生成式对抗网络模型,所述生成式对抗网络模型包括生成器和判别器。
在申请实施例中,生成器和判别器可以不限定为神经网络,仅限定两者具有能够拟合相应的生成和判断的函数即可,但最好为神经网络网络模型。
S2将已知中文文本描述信息的样本图像输入所述生成器,获得所述生成器输出的中文文本描述,基于所述输出的中文文本描述获取对应的参考图像,所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同。
其中,所述的已知中文文本描述信息的样本图像可以从预设的训练集中提取。构建训练集时,可以获取带有中文文本描述信息的图像。
其中,在将已知中文文本描述信息的样本图像输入到生成器之前,可以对样本图像进行必要的去噪处理,以避免样本图像的噪声影响生成式对抗网络模型的训练。
具体地,基于所述输出的中文文本描述获取对应的参考图像,包括:将所述输出的中文文本描述输入到已训练好的文本生成图像模型,进而由所述文本生成图像模型生成所述参考图像。其中,该文本生成图像模型可以是基于生成式对抗网络的模型,例如现有的StackGAN模型、StackGAN++模型、AttnGAN模型等等。
S3将所述参考图像反馈至所述判别器,以使所述判别器计算所述样本图像与所述参考图像的距离。
本实施例中,所述距离可以为余弦距离或者欧式距离。
S4若计算得到的所述距离不小于预设距离阈值,将所述距离加入到所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和判别器进行调整,从而引导所述生成器生成更加贴近真值的向量。
需要说明的是,当计算得到的所述距离小于预设距离阈值时,可以按照预置的目标函数作为生成式对抗网络模型的目标函数。
需要说明的是,上述的中文文本描述为用于描述图像的中文文本。例如,样本图像为两只犬的图像,用于描述该图像的中文文本为描述两只犬的文本,可以为“草地上两只法国斗牛犬”。
其中,判别器相当于一个二分类器,可以区分输入的中文文本是来自于真实问文本还是生成器生成的文本,可以判别输出的中文文本是否为真实的中文文本的概率等。目标函数可以基于生成器、判别器的损失函数进行确定。可以通过现有的迭代训练对生成器和判别器进行调整训练,提高图像生成中文文本描述的生成式对抗网络模型的精度。
需要说明的是,基于目标函数对生成器和判别器进行调整可以采用现有的多种方法,进行调整后获得满足期望值的生成器,本发明实施例对此不作限定。
对于图像描述而言,将图像的中文文本描述再生成图像,若前后两图像的距离最小(相似度最高)时,意味着该图像的中文文本描述最准确。本发明基于该原理构建相应的反馈机制,该反馈机制根据基于样本图像生成的中文文本描述获取对应的参考图像,进而计算参考图像与该样本图像的距离,通过该距离在没达到较优时加入到所述生成式对抗网络模型的目标函数。通过上述的反馈机制,本申请能够使得图像生成中文文本描述的生成式对抗网络模型在训练过程中被逐渐优化,从而提高图像生成中文文本的准确度。
利用上述方法训练好生成式对抗网络模型后,可以将需要生成中文文本描述的目标图像输入到训练好的生成器中,从而得到该目标图像的中文文本描述。
在一种实施方式中,所述方法还包括:
根据所述距离构建所述生成器的第一损失函数,确定所述第一损失函数的第一加权值;
根据所述判别器判别所述输出的中文文本为假的第一概率信息构建所述生成器的第二损失函数,确定所述第二损失函数的第二加权值;
基于所述第一损失函数、所述第二损失函数、第一加权值和第二加权值构建所述生成器的损失函数。
本申请实施例通过对所述第一损失函数和所述第二损失函数进行加权求和的方式来确定生成器的损失函数。
其中,第一加权值和第二加权值的具体取值皆满足大于0且小于1。在一些实施例中,第一加权值和第二加权值的具体取值皆为0.5。
在一种实施方式中,所述方法还包括:
根据所述判别器判别所述输出的中文文本为真的概率信息构建所述判别器的损失函数,根据所述生成器的损失函数和所述判别器的损失函数构建所述目标函数。
其中,所述判别器判别所述输出的中文文本为真或假时,具体执行:
所述判别器对生成器输出的中文文本描述和对应样本图像的已知中文文本描述进行比较,若确定生成器输出的中文文本描述为该已知中文文本描述,则判定所述输出的中文文本为真,若确定生成器输出的中文文本描述并非该已知中文文本描述,则判定所述输出的中文文本为假。
在一种实施方式中,所述判别器采用卷积神经网络提取最强语义信息,并在其输入层添加注意力机制以提取包含上下文的语义信息,进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。本发明实施例通过该设置,使得判别网络能够获得更加丰富的语义及上下文信息,从而优化判别网络的性能。
本申请第二方面实施例提供了一种基于反馈机制的图像生成中文文本***。
图2所示是本发明提供的基于反馈机制的图像生成中文文本***的一个优选实施例的结构示意图,所述***能够实现上述任一实施例所述的基于反馈机制的图像生成中文文本方法的全部流程。
如图2所示,该***包括:
模型构建模块1,用于构建通过图像生成中文文本描述的生成式对抗网络模型,所述生成式对抗网络模型包括生成器和判别器;
生成模块2,用于将已知中文文本描述信息的样本图像输入所述生成器,获得所述生成器输出的中文文本描述,基于所述输出的中文文本描述获取对应的参考图像,所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同;
反馈模块3,用于将所述参考图像反馈至所述判别器,以使所述判别器计算所述样本图像与所述参考图像的距离;
调整模块4,用于在计算得到的所述距离不小于预设距离阈值时,将所述距离加入到所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和判别器进行调整,从而引导所述生成器生成更加贴近真值的向量。
根据本申请实施例第二方面的一种能够实现的方式,所述调整模块包括:
第一函数构建单元,用于根据所述距离构建所述生成器的第一损失函数,确定所述第一损失函数的第一加权值;
第二函数构建单元,用于根据所述判别器判别所述输出的中文文本为假的第一概率信息构建所述生成器的第二损失函数,确定所述第二损失函数的第二加权值;
第三函数构建单元,用于基于所述第一损失函数、所述第二损失函数、第一加权值和第二加权值构建所述生成器的损失函数。
根据本申请实施例第二方面的一种能够实现的方式,所述调整模块还包括:
目标函数构建单元,用于根据所述判别器判别所述输出的中文文本为真的概率信息构建所述判别器的损失函数,根据所述生成器的损失函数和所述判别器的损失函数构建所述目标函数。
根据本申请实施例第二方面的一种能够实现的方式,所述判别器采用卷积神经网络提取最强语义信息,并在其输入层添加注意力机制以提取包含上下文的语义信息,进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。
本发明***上述实施例各模块的功能及实现方式与上述基于反馈机制的图像生成中文文本方法的实施例相同,具体解析可以参照上述基于反馈机制的图像生成中文文本方法的实施例,为了避免重复,在此不再赘述。
本申请还提供了一种基于反馈机制的图像生成中文文本装置,该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项实施例所述的基于反馈机制的图像生成中文文本方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现如上述任一项实施例所述的基于反馈机制的图像生成中文文本方法。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述基于反馈机制的图像生成中文文本装置的控制中心,利用各种接口和线路连接整个基于反馈机制的图像生成中文文本装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述基于反馈机制的图像生成中文文本装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述基于反馈机制的图像生成中文文本装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。

Claims (10)

1.基于反馈机制的图像生成中文文本方法,其特征在于,所述方法包括:
构建通过图像生成中文文本描述的生成式对抗网络模型,所述生成式对抗网络模型包括生成器和判别器;
将已知中文文本描述信息的样本图像输入所述生成器,获得所述生成器输出的中文文本描述,基于所述输出的中文文本描述获取对应的参考图像,所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同;
将所述参考图像反馈至所述判别器,以使所述判别器计算所述样本图像与所述参考图像的距离;
若计算得到的所述距离不小于预设距离阈值,将所述距离加入到所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和判别器进行调整,从而引导所述生成器生成更加贴近真值的向量。
2.根据权利要求1所述的基于反馈机制的图像生成中文文本方法,其特征在于,所述方法还包括:
根据所述距离构建所述生成器的第一损失函数,确定所述第一损失函数的第一加权值;
根据所述判别器判别所述输出的中文文本为假的第一概率信息构建所述生成器的第二损失函数,确定所述第二损失函数的第二加权值;
基于所述第一损失函数、所述第二损失函数、第一加权值和第二加权值构建所述生成器的损失函数。
3.根据权利要求2所述的基于反馈机制的图像生成中文文本方法,其特征在于,所述方法还包括:
根据所述判别器判别所述输出的中文文本为真的概率信息构建所述判别器的损失函数,根据所述生成器的损失函数和所述判别器的损失函数构建所述目标函数。
4.根据权利要求3所述的基于反馈机制的图像生成中文文本方法,其特征在于,所述方法还包括:
所述判别器采用卷积神经网络提取最强语义信息,并在其输入层添加注意力机制以提取包含上下文的语义信息,进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。
5.基于反馈机制的图像生成中文文本***,其特征在于,所述***包括:
模型构建模块,用于构建通过图像生成中文文本描述的生成式对抗网络模型,所述生成式对抗网络模型包括生成器和判别器;
生成模块,用于将已知中文文本描述信息的样本图像输入所述生成器,获得所述生成器输出的中文文本描述,基于所述输出的中文文本描述获取对应的参考图像,所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同;
反馈模块,用于将所述参考图像反馈至所述判别器,以使所述判别器计算所述样本图像与所述参考图像的距离;
调整模块,用于在计算得到的所述距离不小于预设距离阈值时,将所述距离加入到所述生成式对抗网络模型的目标函数,基于所述目标函数对所述生成器和判别器进行调整,从而引导所述生成器生成更加贴近真值的向量。
6.根据权利要求5所述的基于反馈机制的图像生成中文文本***,其特征在于,所述调整模块包括:
第一函数构建单元,用于根据所述距离构建所述生成器的第一损失函数,确定所述第一损失函数的第一加权值;
第二函数构建单元,用于根据所述判别器判别所述输出的中文文本为假的第一概率信息构建所述生成器的第二损失函数,确定所述第二损失函数的第二加权值;
第三函数构建单元,用于基于所述第一损失函数、所述第二损失函数、第一加权值和第二加权值构建所述生成器的损失函数。
7.根据权利要求6所述的基于反馈机制的图像生成中文文本***,其特征在于,所述调整模块还包括:
目标函数构建单元,用于根据所述判别器判别所述输出的中文文本为真的概率信息构建所述判别器的损失函数,根据所述生成器的损失函数和所述判别器的损失函数构建所述目标函数。
8.根据权利要求7所述的基于反馈机制的图像生成中文文本***,其特征在于:
所述判别器采用卷积神经网络提取最强语义信息,并在其输入层添加注意力机制以提取包含上下文的语义信息,进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。
9.基于反馈机制的图像生成中文文本装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的基于反馈机制的图像生成中文文本方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现如权利要求1-4任一项所述的基于反馈机制的图像生成中文文本方法。
CN202110823453.4A 2021-07-20 2021-07-20 基于反馈机制的图像生成中文文本方法、***及装置 Active CN113673349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110823453.4A CN113673349B (zh) 2021-07-20 2021-07-20 基于反馈机制的图像生成中文文本方法、***及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110823453.4A CN113673349B (zh) 2021-07-20 2021-07-20 基于反馈机制的图像生成中文文本方法、***及装置

Publications (2)

Publication Number Publication Date
CN113673349A true CN113673349A (zh) 2021-11-19
CN113673349B CN113673349B (zh) 2022-03-11

Family

ID=78539735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110823453.4A Active CN113673349B (zh) 2021-07-20 2021-07-20 基于反馈机制的图像生成中文文本方法、***及装置

Country Status (1)

Country Link
CN (1) CN113673349B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023221363A1 (zh) * 2022-05-20 2023-11-23 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989067A (zh) * 2015-02-09 2016-10-05 华为技术有限公司 从图片生成文本摘要的方法、用户设备及训练服务器
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN110287357A (zh) * 2019-05-31 2019-09-27 浙江工业大学 一种基于条件生成对抗网络的图像描述生成方法
US20190377979A1 (en) * 2017-08-30 2019-12-12 Tencent Technology (Shenzhen) Company Limited Image description generation method, model training method, device and storage medium
CN111046904A (zh) * 2019-10-30 2020-04-21 中国科学院深圳先进技术研究院 一种图像描述方法、图像描述装置及计算机存储介质
CN111860555A (zh) * 2019-04-30 2020-10-30 北京京东尚科信息技术有限公司 图像处理方法、装置以及存储介质
CN112560438A (zh) * 2020-11-27 2021-03-26 同济大学 一种基于生成对抗网络的文本生成方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989067A (zh) * 2015-02-09 2016-10-05 华为技术有限公司 从图片生成文本摘要的方法、用户设备及训练服务器
US20190377979A1 (en) * 2017-08-30 2019-12-12 Tencent Technology (Shenzhen) Company Limited Image description generation method, model training method, device and storage medium
CN109685116A (zh) * 2018-11-30 2019-04-26 腾讯科技(深圳)有限公司 图像描述信息生成方法和装置及电子装置
CN111860555A (zh) * 2019-04-30 2020-10-30 北京京东尚科信息技术有限公司 图像处理方法、装置以及存储介质
CN110287357A (zh) * 2019-05-31 2019-09-27 浙江工业大学 一种基于条件生成对抗网络的图像描述生成方法
CN111046904A (zh) * 2019-10-30 2020-04-21 中国科学院深圳先进技术研究院 一种图像描述方法、图像描述装置及计算机存储介质
CN112560438A (zh) * 2020-11-27 2021-03-26 同济大学 一种基于生成对抗网络的文本生成方法
CN112905822A (zh) * 2021-02-02 2021-06-04 华侨大学 一种基于注意力机制的深度监督跨模态对抗学习方法
CN112818159A (zh) * 2021-02-24 2021-05-18 上海交通大学 一种基于生成对抗网络的图像描述文本生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许昊 等: "深度神经网络图像描述综述", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023221363A1 (zh) * 2022-05-20 2023-11-23 浪潮电子信息产业股份有限公司 一种图像生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113673349B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
US10360899B2 (en) Method and device for processing speech based on artificial intelligence
CN109272989B (zh) 语音唤醒方法、装置和计算机可读存储介质
Li et al. Toward convolutional neural networks on pulse repetition interval modulation recognition
CN107393542B (zh) 一种基于双通道神经网络的鸟类物种识别方法
Sprengel et al. Audio based bird species identification using deep learning techniques
CN110706692B (zh) 儿童语音识别模型的训练方法及***
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、***及装置
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及***
CN108735199B (zh) 一种声学模型的自适应训练方法及***
US10984793B2 (en) Voice interaction method and device
CN110717027B (zh) 多轮智能问答方法、***以及控制器和介质
Aravind et al. Audio spoofing verification using deep convolutional neural networks by transfer learning
CN111563161B (zh) 一种语句识别方法、语句识别装置及智能设备
CN111010356A (zh) 一种基于支持向量机的水声通信信号调制方式识别方法
CN113673349B (zh) 基于反馈机制的图像生成中文文本方法、***及装置
Esmaeilpour et al. Multidiscriminator sobolev defense-GAN against adversarial attacks for end-to-end speech systems
CN112786028B (zh) 声学模型处理方法、装置、设备和可读存储介质
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN113674374A (zh) 基于生成式对抗网络的中文文本生成图像方法及装置
CN113591733A (zh) 基于集成神经网络模型的水声通信调制模式分类识别方法
CN117370832A (zh) 基于贝叶斯神经网络的水声目标识别方法及装置
CN117648990A (zh) 一种用于黑盒攻击的语音对抗样本生成方法及其***
Lu et al. Detecting Unknown Speech Spoofing Algorithms with Nearest Neighbors.
Bui et al. A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant