CN113673349A

CN113673349A - 基于反馈机制的图像生成中文文本方法、***及装置

Info

Publication number: CN113673349A
Application number: CN202110823453.4A
Authority: CN
Inventors: 陈志华; 刘斌; 徐省华; 魏文国
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-11-19
Anticipated expiration: 2041-07-20
Also published as: CN113673349B

Abstract

本发明申请涉及文本生成技术领域，公开了基于反馈机制的图像生成中文文本方法、***及装置，其中该方法在训练生成式对抗网络模型时运用反馈机制，利用生成器输出的中文文本描述获取对应的参考图像，并将参考图像和样本图像的距离反馈回对抗网络，以使生成式对抗网络模型在训练过程中被逐渐优化，从而提高图像生成中文文本的准确度。

Description

基于反馈机制的图像生成中文文本方法、***及装置

技术领域

本发明申请涉及文本生成技术领域，尤其涉及基于反馈机制的图像生成中文文本方法、***及装置。

背景技术

作为自然语言处理领域的一个重要研究方向，文本生成技术极具应用前景。相关技术中采用生成式对抗网络模型对图像进行处理，以生成该图像对应的文本描述。生成式对抗网络(Generative Adversarial Network，GAN)包含两个子模型：生成器G和判别器D。生成器的作用是模拟真实数据的分布，判别器的作用是判断一个样本是真实样本还是生成样本，网络的训练目标是让生成器完美拟合真实数据的分布，使得判别器无法区分。

然而，现有的生成式对抗网络模型仅是采用样本图像对生成式对抗网络模型进行训练，训练好的生成式对抗网络模型生成的文本描述的准确度较差。

发明内容

本发明申请实施例的目的在于，提供一种基于反馈机制的图像生成中文文本方法、***及装置，能够使得图像生成中文文本描述的生成式对抗网络模型在训练过程中被逐渐优化，从而提高图像生成中文文本的准确度。

为达到上述目的，本发明采用如下技术方案：

本申请第一方面提供了基于反馈机制的图像生成中文文本方法，所述方法包括：

构建通过图像生成中文文本描述的生成式对抗网络模型，所述生成式对抗网络模型包括生成器和判别器；

将已知中文文本描述信息的样本图像输入所述生成器，获得所述生成器输出的中文文本描述，基于所述输出的中文文本描述获取对应的参考图像，所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同；

将所述参考图像反馈至所述判别器，以使所述判别器计算所述样本图像与所述参考图像的距离；

若计算得到的所述距离不小于预设距离阈值，将所述距离加入到所述生成式对抗网络模型的目标函数，基于所述目标函数对所述生成器和判别器进行调整，从而引导所述生成器生成更加贴近真值的向量。

根据本申请第一方面提供的一种能够实现的方式，所述方法还包括：

根据所述距离构建所述生成器的第一损失函数，确定所述第一损失函数的第一加权值；

根据所述判别器判别所述输出的中文文本为假的第一概率信息构建所述生成器的第二损失函数，确定所述第二损失函数的第二加权值；

基于所述第一损失函数、所述第二损失函数、第一加权值和第二加权值构建所述生成器的损失函数。

根据所述判别器判别所述输出的中文文本为真的概率信息构建所述判别器的损失函数，根据所述生成器的损失函数和所述判别器的损失函数构建所述目标函数。

所述判别器采用卷积神经网络提取最强语义信息，并在其输入层添加注意力机制以提取包含上下文的语义信息，进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。

本申请第二方面提供了基于反馈机制的图像生成中文文本***，所述***包括：

模型构建模块，用于构建通过图像生成中文文本描述的生成式对抗网络模型，所述生成式对抗网络模型包括生成器和判别器；

生成模块，用于将已知中文文本描述信息的样本图像输入所述生成器，获得所述生成器输出的中文文本描述，基于所述输出的中文文本描述获取对应的参考图像，所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同；

反馈模块，用于将所述参考图像反馈至所述判别器，以使所述判别器计算所述样本图像与所述参考图像的距离；

调整模块，用于在计算得到的所述距离不小于预设距离阈值时，将所述距离加入到所述生成式对抗网络模型的目标函数，基于所述目标函数对所述生成器和判别器进行调整，从而引导所述生成器生成更加贴近真值的向量。

根据本申请第二方面的一种能够实现的方式，所述调整模块包括：

第一函数构建单元，用于根据所述距离构建所述生成器的第一损失函数，确定所述第一损失函数的第一加权值；

第二函数构建单元，用于根据所述判别器判别所述输出的中文文本为假的第一概率信息构建所述生成器的第二损失函数，确定所述第二损失函数的第二加权值；

第三函数构建单元，用于基于所述第一损失函数、所述第二损失函数、第一加权值和第二加权值构建所述生成器的损失函数。

根据本申请第二方面的一种能够实现的方式，所述调整模块还包括：

目标函数构建单元，用于根据所述判别器判别所述输出的中文文本为真的概率信息构建所述判别器的损失函数，根据所述生成器的损失函数和所述判别器的损失函数构建所述目标函数。

根据本申请第二方面的一种能够实现的方式，所述判别器采用卷积神经网络提取最强语义信息，并在其输入层添加注意力机制以提取包含上下文的语义信息，进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。

本申请第三方面提供了一种基于反馈机制的图像生成中文文本装置，该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项实施例所述的基于反馈机制的图像生成中文文本方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现如上述任一项实施例所述的基于反馈机制的图像生成中文文本方法。

本申请所公开的实施例至少具有以下优点：

能够使得图像生成中文文本描述的生成式对抗网络模型在训练过程中被逐渐优化，从而提高图像生成中文文本的准确度。

附图说明

图1是本发明申请提供的基于反馈机制的图像生成中文文本方法的一个优选实施例的流程示意图；

图2是本发明申请提供的基于反馈机制的图像生成中文文本***的一个优选实施例的结构示意图。

附图标记：

模型构建模块1、生成模块2、反馈模块3、调整模块4。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示为本发明申请提供的基于反馈机制的图像生成中文文本方法的一个优选实施例的流程示意图。

如图1所示，所述方法包括：

S1构建通过图像生成中文文本描述的生成式对抗网络模型，所述生成式对抗网络模型包括生成器和判别器。

在申请实施例中，生成器和判别器可以不限定为神经网络，仅限定两者具有能够拟合相应的生成和判断的函数即可，但最好为神经网络网络模型。

S2将已知中文文本描述信息的样本图像输入所述生成器，获得所述生成器输出的中文文本描述，基于所述输出的中文文本描述获取对应的参考图像，所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同。

其中，所述的已知中文文本描述信息的样本图像可以从预设的训练集中提取。构建训练集时，可以获取带有中文文本描述信息的图像。

其中，在将已知中文文本描述信息的样本图像输入到生成器之前，可以对样本图像进行必要的去噪处理，以避免样本图像的噪声影响生成式对抗网络模型的训练。

具体地，基于所述输出的中文文本描述获取对应的参考图像，包括：将所述输出的中文文本描述输入到已训练好的文本生成图像模型，进而由所述文本生成图像模型生成所述参考图像。其中，该文本生成图像模型可以是基于生成式对抗网络的模型，例如现有的StackGAN模型、StackGAN++模型、AttnGAN模型等等。

S3将所述参考图像反馈至所述判别器，以使所述判别器计算所述样本图像与所述参考图像的距离。

本实施例中，所述距离可以为余弦距离或者欧式距离。

S4若计算得到的所述距离不小于预设距离阈值，将所述距离加入到所述生成式对抗网络模型的目标函数，基于所述目标函数对所述生成器和判别器进行调整，从而引导所述生成器生成更加贴近真值的向量。

需要说明的是，当计算得到的所述距离小于预设距离阈值时，可以按照预置的目标函数作为生成式对抗网络模型的目标函数。

需要说明的是，上述的中文文本描述为用于描述图像的中文文本。例如，样本图像为两只犬的图像，用于描述该图像的中文文本为描述两只犬的文本，可以为“草地上两只法国斗牛犬”。

其中，判别器相当于一个二分类器，可以区分输入的中文文本是来自于真实问文本还是生成器生成的文本，可以判别输出的中文文本是否为真实的中文文本的概率等。目标函数可以基于生成器、判别器的损失函数进行确定。可以通过现有的迭代训练对生成器和判别器进行调整训练，提高图像生成中文文本描述的生成式对抗网络模型的精度。

需要说明的是，基于目标函数对生成器和判别器进行调整可以采用现有的多种方法，进行调整后获得满足期望值的生成器，本发明实施例对此不作限定。

对于图像描述而言，将图像的中文文本描述再生成图像，若前后两图像的距离最小(相似度最高)时，意味着该图像的中文文本描述最准确。本发明基于该原理构建相应的反馈机制，该反馈机制根据基于样本图像生成的中文文本描述获取对应的参考图像，进而计算参考图像与该样本图像的距离，通过该距离在没达到较优时加入到所述生成式对抗网络模型的目标函数。通过上述的反馈机制，本申请能够使得图像生成中文文本描述的生成式对抗网络模型在训练过程中被逐渐优化，从而提高图像生成中文文本的准确度。

利用上述方法训练好生成式对抗网络模型后，可以将需要生成中文文本描述的目标图像输入到训练好的生成器中，从而得到该目标图像的中文文本描述。

在一种实施方式中，所述方法还包括：

本申请实施例通过对所述第一损失函数和所述第二损失函数进行加权求和的方式来确定生成器的损失函数。

其中，第一加权值和第二加权值的具体取值皆满足大于0且小于1。在一些实施例中，第一加权值和第二加权值的具体取值皆为0.5。

在一种实施方式中，所述方法还包括：

其中，所述判别器判别所述输出的中文文本为真或假时，具体执行：

所述判别器对生成器输出的中文文本描述和对应样本图像的已知中文文本描述进行比较，若确定生成器输出的中文文本描述为该已知中文文本描述，则判定所述输出的中文文本为真，若确定生成器输出的中文文本描述并非该已知中文文本描述，则判定所述输出的中文文本为假。

在一种实施方式中，所述判别器采用卷积神经网络提取最强语义信息，并在其输入层添加注意力机制以提取包含上下文的语义信息，进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。本发明实施例通过该设置，使得判别网络能够获得更加丰富的语义及上下文信息，从而优化判别网络的性能。

本申请第二方面实施例提供了一种基于反馈机制的图像生成中文文本***。

图2所示是本发明提供的基于反馈机制的图像生成中文文本***的一个优选实施例的结构示意图，所述***能够实现上述任一实施例所述的基于反馈机制的图像生成中文文本方法的全部流程。

如图2所示，该***包括：

模型构建模块1，用于构建通过图像生成中文文本描述的生成式对抗网络模型，所述生成式对抗网络模型包括生成器和判别器；

生成模块2，用于将已知中文文本描述信息的样本图像输入所述生成器，获得所述生成器输出的中文文本描述，基于所述输出的中文文本描述获取对应的参考图像，所述参考图像对应的图像特征与所述中文文本描述信息对应的图像特征相同；

反馈模块3，用于将所述参考图像反馈至所述判别器，以使所述判别器计算所述样本图像与所述参考图像的距离；

调整模块4，用于在计算得到的所述距离不小于预设距离阈值时，将所述距离加入到所述生成式对抗网络模型的目标函数，基于所述目标函数对所述生成器和判别器进行调整，从而引导所述生成器生成更加贴近真值的向量。

根据本申请实施例第二方面的一种能够实现的方式，所述调整模块包括：

根据本申请实施例第二方面的一种能够实现的方式，所述调整模块还包括：

根据本申请实施例第二方面的一种能够实现的方式，所述判别器采用卷积神经网络提取最强语义信息，并在其输入层添加注意力机制以提取包含上下文的语义信息，进而根据所述最强语义信息和所述包含上下文的语义信息来确定判别所述输出的中文文本为真的概率。

本发明***上述实施例各模块的功能及实现方式与上述基于反馈机制的图像生成中文文本方法的实施例相同，具体解析可以参照上述基于反馈机制的图像生成中文文本方法的实施例，为了避免重复，在此不再赘述。

本申请还提供了一种基于反馈机制的图像生成中文文本装置，该装置包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项实施例所述的基于反馈机制的图像生成中文文本方法。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现如上述任一项实施例所述的基于反馈机制的图像生成中文文本方法。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于反馈机制的图像生成中文文本装置的控制中心，利用各种接口和线路连接整个基于反馈机制的图像生成中文文本装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于反馈机制的图像生成中文文本装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述基于反馈机制的图像生成中文文本装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本申请的保护范围。

Claims

1.基于反馈机制的图像生成中文文本方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于反馈机制的图像生成中文文本方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于反馈机制的图像生成中文文本方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的基于反馈机制的图像生成中文文本方法，其特征在于，所述方法还包括：

5.基于反馈机制的图像生成中文文本***，其特征在于，所述***包括：

6.根据权利要求5所述的基于反馈机制的图像生成中文文本***，其特征在于，所述调整模块包括：

7.根据权利要求6所述的基于反馈机制的图像生成中文文本***，其特征在于，所述调整模块还包括：

8.根据权利要求7所述的基于反馈机制的图像生成中文文本***，其特征在于：

9.基于反馈机制的图像生成中文文本装置，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述的基于反馈机制的图像生成中文文本方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被执行时实现如权利要求1-4任一项所述的基于反馈机制的图像生成中文文本方法。