CN117830451A

CN117830451A - 文本插图生成方法、装置、设备及存储介质

Info

Publication number: CN117830451A
Application number: CN202311871939.0A
Authority: CN
Inventors: 苏朋杨
Original assignee: Shenzhen Flash Scissor Intelligent Technology Co ltd
Current assignee: Shenzhen Flash Scissor Intelligent Technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-05

Abstract

本发明涉及计算机领域，公开了一种文本插图生成方法、装置、设备及存储介质。该方法包括：接收文本插图生成请求，根据文本插图生成请求，获取输入文本；获取输入的提示词，根据输入文本及提示词，通过训练的大语言模型，对输入文本进行语义提取，得到目标文本，提示词是生成目标文本满足的条件；通过预训练神经网络模型的编码器，对目标文本进行编码，得到文本编码；根据文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图。在本发明实施例中，能简化文本配图的过程，自动生成文本插图，提高文本插图生成效率。

Description

文本插图生成方法、装置、设备及存储介质

技术领域

本发明涉及计算机领域，尤其涉及一种文本插图生成方法、装置、设备及存储介质。

背景技术

内容创新速度是流量规模的重要影响因素。在多种多媒体信息媒介中，图像信息相对于文本信息更直观且更具备视觉冲击力，也更容易带来传播效应，因此，基于文本生成图像的人工智能技术成为研究热点。

现在自媒体的视频创作的流程基本分为两步：第一步文本创作，第二步文本配图。当前的文本配图，基本都是人工的过程，依靠内容文案创作者对文案的理解，手动去互联网上寻找与文案相关的配图，并利用剪辑软件将配图和文案做成视频。这个过程十分耗费时间和精力，导致文本插图生成效率低。

发明内容

本发明的主要目的在于解决文本插图生成效率低的技术问题。

本发明第一方面提供了一种文本插图生成方法，所述文本插图生成方法包括：

接收文本插图生成请求，根据所述文本插图生成请求，获取输入文本；

获取输入的提示词，根据所述输入文本及所述提示词，通过训练的大语言模型，对所述输入文本进行语义提取，得到目标文本，所述提示词是生成所述目标文本满足的条件；

通过预训练神经网络模型的编码器，对所述目标文本进行编码，得到文本编码；

根据所述文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图。

可选的，在本发明第一方面的第一种实现方式中，所述根据所述文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图包括：

通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间；

使用训练的扩散模型，将所述文本编码映射到图像编码；

根据所述图像编码，通过训练的文本图像生成模型，将文本编码从所述表示空间映射到图像空间，传递所述目标文本的语义信息，并通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图。

可选的，在本发明第一方面的第二种实现方式中，所述通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间包括：

获取多个文本-图像对，通过图像编码器及文本编码器，将每个文本-图像对进行编码；

计算每个编码后的文本-图像对的余弦相似度；

训练迭代最小化不正确的文本-图像对之间的余弦相似度，并最大化正确的文本-图像对之间的余弦相似度，得到预训练神经网络模型；

通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间。

可选的，在本发明第一方面的第三种实现方式中，文本插图生成方法还包括：

获取训练文本，将所述训练文本编码为标记序列；

将所述标记序列输入到Transformer模型中，得到最终标记嵌入；

将所述最终标记嵌入投影连接到所述扩散模型的扩散过程中每一层的注意力上下文，进行模型训练，得到训练的文本图像生成模型。

可选的，在本发明第一方面的第四种实现方式中，获取输入的提示词，根据所述输入文本及所述提示词，通过训练的大语言模型，对所述输入文本进行语义提取，得到目标文本包括：

获取输入的提示词，根据所述输入文本及所述提示词，通过训练的大语言模型，预测首个单词，并将所述首个单词添加到预设生成文本中；

通过自回归方式，根据所述输入文本，预测下一个单词，将所述下一个单词添加到所述预设生成文本中；

循环预测下一个单词，直至生成满足所述提示词中条件的目标文本。可选的，在本发明第一方面的第五种实现方式中，所述获取输入的提示词，根据所述输入文本及所述提示词，通过训练的大语言模型，预测首个单词，并将所述首个单词添加到预设生成文本中包括：

获取训练数据集，所述训练数据集由多个问答文本构成；

根据所述多个问答文本对初始大语言模型进行训练，得到训练的大语言模型；

获取输入的提示词，将所述输入文本及所述提示词输入到训练的大语言模型中，生成对应的文本响应；

根据所述文本响应，预测首个单词，并将所述首个单词添加到预设生成文本中。

可选的，在本发明第一方面的第六种实现方式中，所述接收文本插图生成请求，根据所述文本插图生成请求，获取输入文本之前，还包括：

推送文本输入菜单；

获取文本文档，将所述文本文档发送至所述文本输入菜单；

对所述文本文档进行解析，得到输入文本。

本发明第二方面提供了一种文本插图生成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述文本插图生成设备执行上述的文本插图生成方法。

本发明的第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的文本插图生成方法。

在本发明实施例中，接收文本插图生成请求，根据所述文本插图生成请求，获取输入文本；获取输入的提示词，根据所述输入文本及所述提示词，通过训练的大语言模型，对所述输入文本进行语义提取，得到目标文本，所述提示词是生成所述目标文本满足的条件；通过预训练神经网络模型的编码器，对所述目标文本进行编码，得到文本编码；根据所述文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图。本发明中，通过训练的大语言模型，对输入文本进行语义提取，得到目标文本，并通过预训练神经网络模型的编码器，对目标文本进行编码，然后使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图，能简化文本配图的过程，自动生成文本插图，提高文本插图生成效率。

附图说明

图1为本发明实施例中文本插图生成方法的一个实施例示意图；

图2为本发明实施例中文本插图生成装置的一个实施例示意图；

图3为本发明实施例中文本插图生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种文本插图生成方法、装置、设备及存储介质。

下面将参照附图更详细地描述本发明公开的实施例。虽然附图中显示了本发明公开的某些实施例，然而应当理解的是，本发明公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本发明公开的附图及实施例仅用于示例性作用，并非用于限制本发明公开的保护范围。

在本发明公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中文本插图生成方法的一个实施例包括：

S100，接收文本插图生成请求，根据文本插图生成请求，获取输入文本。

在本实施例中，用户需准备一段用于内容创作的文本文案，将文本文案输入至终端，通过终端生成文本插图生成请求，并将文本插图生成请求发送至服务器，服务器加载文本插图生成***，根据文本插图生成请求，获取输入文本，其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

S200，获取输入的提示词，根据输入文本及提示词，通过训练的大语言模型，对输入文本进行语义提取，得到目标文本。

在本实施例中，大语言模型有很多，本发明采用通问千义模型(Qwen)。让大语言模型归纳总结文本内容需要一段自己编写的提示词，告诉模型按固定格式来回答问题。对于大语言模型LLM，输入提示词就可以获得回答，提示词决定了回答的格式和质量。因此，对提示词做了优化。例如，要求模型必须回复英文，必须用5句话分点归纳总结，不能出现诸如“他”这类字，因为这类字会误导“SD文生图”的语义理解。根据提示词，大语言模型会输出满足提示词条件的目标文本。

S300，通过预训练神经网络模型的编码器，对目标文本进行编码，得到文本编码。

在本实施例中，将目标文本输入预训练神经网络模型的编码器，得到文本编码，其中，预训练神经网络模型可以是CLIP模型，CLIP模型是一种基于对比文本-图像对的预训练模型，该模型结构包括两个部分，即文本编码器(Text Encoder)和图像编码器(ImageEncoder)。

S400，根据文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图。

在本实施例中，扩散模型是生成模型，这意味着它们用于生成与训练数据相似的数据。从根本上讲，扩散模型的工作原理是通过连续添加高斯噪声破坏训练数据，然后通过学习反转这个噪声过程来恢复数据，具体地，噪声处理过程被视为一个参数化的马尔可夫链，它逐渐向图像添加噪声使其被破坏，最终(渐近地)导致纯高斯噪声。扩散模型学习沿着这条链向后走去，在一系列步骤中逐渐去除噪声，以逆转这一过程。训练后，可以使用扩散模型通过简单地通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图。在本发明中，使用SDXL扩散模型，通过SDXL来进行文生图的操作，SDXL的优点是输入少量的提示词，就可以生成和文本相关的配图。正常的视频制作过程中，找一张与文本匹配的图片需要几十分钟，而SDXL的文生图只需要10s不到。

在本发明第一方面一种可选的实施方式中，根据文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图包括：

通过预训练神经网络模型的编码器将文本编码映射到表示空间；使用训练的扩散模型，将文本编码映射到图像编码；根据图像编码，通过训练的文本图像生成模型，将文本编码从表示空间映射到图像空间，传递目标文本的语义信息，并通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图。

在本实施例中，训练过的预训练神经网络模型的编码器将文本编码映射到表示空间，然后训练的扩散模型将文本编码映射到相应的图像编码，图像编码捕获文本编码中包含的提示的语义信息，文本图像生成模型通过反向扩散，将文本编码从表示空间映射到图像空间，传达文本的语义信息，生成目标文本对应的文本插图。其中，文本图像生成模型可以是GLIDE模型，该模型在ADM模型架构的基础上增加了文本条件信息。

在本发明第一方面一种可选的实施方式中，通过预训练神经网络模型的编码器将文本编码映射到表示空间包括：

获取多个文本-图像对，通过图像编码器及文本编码器，将每个文本-图像对进行编码；计算每个编码后的文本-图像对的余弦相似度；训练迭代最小化不正确的文本-图像对之间的余弦相似度，并最大化正确的文本-图像对之间的余弦相似度，得到预训练神经网络模型；通过预训练神经网络模型的编码器将文本编码映射到表示空间。

在本实施例中，对于一个包含N个文本-图像对的训练batch，使用Text Encoder和Image Encoder提取N个文本特征和N个图像特征。这里共有N个正样本，即真正属于一对的文本和图像，而剩余的N²-N个文本-图像对为负样本。将N个文本特征和N个图像特征两两组合，预训练神经网络模型会预测出N²个可能的文本-图像对的相似度，这里的相似度直接计算文本特征和图像特征的余弦相似性(cosine similarity)，预训练神经网络模型训练的目的是最小化不正确的文本-图像对之间的余弦相似度，并最大化正确的文本-图像对之间的余弦相似度。

在本发明第一方面一种可选的实施方式中，文本插图生成方法还包括：

获取训练文本，将训练文本编码为标记序列；将标记序列输入到Transformer模型中，得到最终标记嵌入；将最终标记嵌入投影连接到扩散模型的扩散过程中每一层的注意力上下文，进行模型训练，得到训练的文本图像生成模型。

在本实施例中，通过增加额外的文本信息来增强训练过程，最终生成文本条件图像。首先获取训练文本，为了以文本为条件，将训练文本编码为K个标记序列，并将这些标记输入到Transformer模型中。该转换器输出最终标记嵌入，将最终标记嵌入(一系列K个特征向量)分别投影到整个扩散模型中每个注意力层的维度，然后连接到每一层的注意力上下文，进行模型训练，得到训练的文本图像生成模型。

在本发明第一方面一种可选的实施方式中，获取输入的提示词，根据输入文本及提示词，通过训练的大语言模型，对输入文本进行语义提取，得到目标文本包括：

获取输入的提示词，根据输入文本及提示词，通过训练的大语言模型，预测首个单词，并将首个单词添加到预设生成文本中；通过自回归方式，根据输入文本，预测下一个单词，将下一个单词添加到预设生成文本中；循环预测下一个单词，直至生成满足提示词中条件的目标文本。

在本实施例中，目标文本生成的过程通常是使用“自回归”方式进行的，大语言模型根据输入文本及提示词，预测首个单词，将首个单词添加到预设生成文本中，然后预测下一个单词，然后将其添加到生成的文本中，这个过程一直持续下去，直到生成满足预期长度或条件的目标文本。

在本发明第一方面一种可选的实施方式中，获取输入的提示词，根据输入文本及提示词，通过训练的大语言模型，预测首个单词，并将首个单词添加到预设生成文本中包括：

获取训练数据集，训练数据集由多个问答文本构成；根据多个问答文本对初始大语言模型进行训练，得到训练的大语言模型；获取输入的提示词，将所述输入文本及提示词输入到训练的大语言模型中，生成对应的文本响应；根据文本响应，预测首个单词，并将首个单词添加到预设生成文本中。

在本实施例中，获取一问一答的文本作为数据集训练，将多个问答文本输入初始大语言模型进行训练，得到训练的大语言模型，当模型训练完成后，它可以接收一个初始输入文本(称为"prompt")并生成相关的文本响应，通过文本响应，模型开始预测首个单词。

在本发明第一方面一种可选的实施方式中，接收文本插图生成请求，根据文本插图生成请求，获取输入文本之前，还包括：

推送文本输入菜单；获取文本文档，将文本文档发送至文本输入菜单；对文本文档进行解析，得到输入文本。

在本实施例中，用户创建文本文档，文本文档中包括创作的内容，***会推送文本输入菜单，通过选择按钮，将文本文档发送至文本输入菜单，***对文本文档进行解析，得到输入文本，可选地，用户可以直接在文本输入菜单的文本框中直接输入文本内容。

参见图2，本发明第二方面提供了一种文本插图生成装置，所述文本插图生成装置包括：

输入文本获取模块100，用于接收文本插图生成请求，根据文本插图生成请求，获取输入文本；

目标文本获取模块200，用于获取输入的提示词，根据输入文本及提示词，通过训练的大语言模型，对输入文本进行语义提取，得到目标文本，提示词是生成目标文本满足的条件；

文本编码获取模块300，用于通过预训练神经网络模型的编码器，对目标文本进行编码，得到文本编码；

文本插图生成模块400，用于根据文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图。

在本发明第二方面一种可选的实施方式中，文本插图生成模块400还用于通过预训练神经网络模型的编码器将文本编码映射到表示空间；使用训练的扩散模型，将文本编码映射到图像编码；根据图像编码，通过训练的文本图像生成模型，将文本编码从表示空间映射到图像空间，传递目标文本的语义信息，并通过学习的去噪过程传递随机采样的噪声来生成目标文本对应的文本插图。

在本发明第二方面一种可选的实施方式中，文本插图生成模块400还用于获取多个文本-图像对，通过图像编码器及文本编码器，将每个文本-图像对进行编码；计算每个编码后的文本-图像对的余弦相似度；训练迭代最小化不正确的文本-图像对之间的余弦相似度，并最大化正确的文本-图像对之间的余弦相似度，得到预训练神经网络模型；通过预训练神经网络模型的编码器将文本编码映射到表示空间。

在本发明第二方面一种可选的实施方式中，文本插图生成装置还包括：

模型训练模块，用于获取训练文本，将训练文本编码为标记序列；将标记序列输入到Transformer模型中，得到最终标记嵌入；将最终标记嵌入投影连接到扩散模型的扩散过程中每一层的注意力上下文，进行模型训练，得到训练的文本图像生成模型。

在本发明第二方面一种可选的实施方式中，目标文本获取模块200还用于获取输入的提示词，根据输入文本及所述提示词，通过训练的大语言模型，预测首个单词，并将首个单词添加到预设生成文本中；通过自回归方式，根据输入文本，预测下一个单词，将下一个单词添加到预设生成文本中；循环预测下一个单词，直至生成满足所述提示词中条件的目标文本。

在本发明第二方面一种可选的实施方式中，目标文本获取模块200还用于获取训练数据集，训练数据集由多个问答文本构成；根据多个问答文本对初始大语言模型进行训练，得到训练的大语言模型；获取输入的提示词，将输入文本及提示词输入到训练的大语言模型中，生成对应的文本响应；根据文本响应，预测首个单词，并将首个单词添加到预设生成文本中。

文本输入模块，用于推送文本输入菜单；获取文本文档，将文本文档发送至文本输入菜单；对文本文档进行解析，得到输入文本。

图3是本发明实施例提供的一种文本插图生成设备的结构示意图，该文本插图生成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对文本插图生成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在文本插图生成设备500上执行存储介质530中的一系列指令操作。

基于文本插图生成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作***531，例如Windows Serve，Mac OS X，Unix，Linux，Free BSD等等。本领域技术人员可以理解，图3示出的文本插图生成设备结构并不构成对基于文本插图生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述文本插图生成方法的步骤。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种文本插图生成方法，其特征在于，所述文本插图生成方法包括：

2.根据权利要求1所述的文本插图生成方法，其特征在于，所述根据所述文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图包括：

使用训练的扩散模型，将所述文本编码映射到图像编码；

3.根据权利要求2所述的文本插图生成方法，其特征在于，所述通过所述预训练神经网络模型的编码器将所述文本编码映射到表示空间包括：

计算每个编码后的文本-图像对的余弦相似度；

4.根据权利要求2所述的文本插图生成方法，其特征在于，还包括：

获取训练文本，将所述训练文本编码为标记序列；

5.根据权利要求1所述的文本插图生成方法，其特征在于，所述获取输入的提示词，根据所述输入文本及所述提示词，通过训练的大语言模型，对所述输入文本进行语义提取，得到目标文本包括：

循环预测下一个单词，直至生成满足所述提示词中条件的目标文本。

6.根据权利要求5所述的文本插图生成方法，其特征在于，所述获取输入的提示词，根据所述输入文本及所述提示词，通过训练的大语言模型，预测首个单词，并将所述首个单词添加到预设生成文本中包括：

获取训练数据集，所述训练数据集由多个问答文本构成；

7.根据权利要求1所述的文本插图生成方法，其特征在于，所述接收文本插图生成请求，根据所述文本插图生成请求，获取输入文本之前，还包括：

推送文本输入菜单；

获取文本文档，将所述文本文档发送至所述文本输入菜单；

对所述文本文档进行解析，得到输入文本。

8.一种文本插图生成装置，其特征在于，所述文本插图生成装置包括：

输入文本获取模块，用于接收文本插图生成请求，根据所述文本插图生成请求，获取输入文本；

目标文本获取模块，用于获取输入的提示词，根据所述输入文本及所述提示词，通过训练的大语言模型，对所述输入文本进行语义提取，得到目标文本，所述提示词是生成所述目标文本满足的条件；

文本编码获取模块，用于通过预训练神经网络模型的编码器，对所述目标文本进行编码，得到文本编码；

文本插图生成模块，用于根据所述文本编码，使用训练的扩散模型，通过学习的去噪过程传递随机采样的噪声来生成所述目标文本对应的文本插图。

9.一种文本插图生成设备，其特征在于，所述文本插图生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述文本插图生成设备执行如权利要求1-7中任一项所述的文本插图生成方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文本插图生成方法。