CN117475086A

CN117475086A - 一种基于扩散模型的科技文献附图生成方法及***

Info

Publication number: CN117475086A
Application number: CN202311773821.4A
Authority: CN
Inventors: 尤元岳; 杜寅辰; 仓浩; 徐青伟; 严长春; 裴非; 范娥媚
Original assignee: Zhiguagua Tianjin Big Data Technology Co ltd
Current assignee: Zhiguagua Tianjin Big Data Technology Co ltd
Priority date: 2023-12-22
Filing date: 2023-12-22
Publication date: 2024-01-30

Abstract

本申请公开了一种基于扩散模型的科技文献附图生成方法及***，方法包括通过获取目标文献中的图片文本描述以及对应图片，并形成训练数据对；然后利用训练数据，对扩散模型进行训练；最后将训练数据当中的图片描述性文本当中的各个组件以及各组件直接的联系给提取出来，并且将提取出来的组件以及关系融合至图片生成的过程当中。本方法能够理解附图说明内容并生成匹配的附图，帮助提高科研人员检索和阅读分析文献的效率，还能帮助科研人员更好地表达和呈现研究成果。

Description

一种基于扩散模型的科技文献附图生成方法及***

技术领域

本申请涉及多模态文本生成图像技术领域，具体涉及一种基于扩散模型的科技文献附图生成方法及***。

背景技术

近年来，随着科技的迅速发展，科学研究领域涌现出大量的科技论文和专利。然而，高效地检索、阅读分析和理解这些文献，以及准确地呈现研究成果，仍然是一个挑战。此外，在技术人员进行绘制科技附图时，也需要花费大量的时间进行图片绘制，此过程耗费了大量的时间。

现有的文本生成图像模型如扩散模型，可以实现从文本生成大致的图像，但是这些图像可能会丢失一些具体的部件，比如在生成机械图时，文本描述为“一个套着螺母的螺钉放置在木桌上”以这个文本作为指令让扩散模型进行图片生成，有可能就会丢失某些部件，可能螺钉就没有被生成出来，尤其是当图片描述性文本更加复杂的时候，这种情况更加明显。

发明内容

本申请提供一种基于扩散模型的科技文献附图生成方法及***，可以极大的降低模型在扩散生成过程当中丢失组件的情况。

第一方面，一种基于扩散模型的科技文献附图生成方法，所述方法包括S1数据处理、S2科技领域文生图扩散模型训练以及S3组件关系提取及图片生成，其具体包括：

S1数据处理，获取目标文献中的图片文本描述以及对应图片，并形成训练数据对；其中，图片文本描述用于模型训练的输入，对应图片用于模型训练的输出；

S2科技领域文生图扩散模型训练，构建文生图扩散模型，并通过数据处理形成的训练数据对进行训练；

S3组件关系提取及图片生成，将训练数据对中的图片文本描述进行句法分析，提取出图片文本描述中的各个组件以及组件间关系；基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵，并将调整后的文生图扩散模型作为目标科技文献附图生成模型。

可选地，所述S1数据处理具体包括：

使用在公开的数据科技文献数据库下载的部分相关的文献；

使用自然语言处理技术从科技文献中提取附图的图片文本描述信息；其中，自然语言处理技术至少包括分词、词性标注、命名实体识别以及正则表达式；

使用图像检测技术从科技文献中提取图片文本描述信息相匹配的附图；其中，图像检测技术至少包括目标检测技术以及语义分割技术。

可选地，所述S2科技领域文生图扩散模型训练中，构建文生图扩散模型具体包括通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型，然后进行科技文献垂直领域进行微调。

可选地，通过微调多模态CLIP模型具体包括：

批次加载科技文献的数据集；其中，数据集包括科技文献的附图及对应附图说明；

将科技文献的附图输入到CLIP模型的图像编码器中得到图像编码特征；

将科技文献的附图说明输入到CLIP模型的文本编码器中得到文本编码特征；

计算图像编码特征和文本编码特征之间的余弦相似度损失；

以最大化正样本之间的余弦相似度，并且最小化负样本之间的余弦相似度作为目标进行调整；其中附图说明和附图匹配的样本对作为训练的正样本，反之不匹配的样本对作为负样本。

可选地，通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型，具体包括：

加载公开开源的图文对数据集，从其中进行随机采样数据，首先利用预训练的VAE模型中的encoder模块将图像压缩到latent空间，得到图像向量表征；

然后利用微调后的CLIP模型中的text encoder模块文本进行编码，得到相对应匹配的文本向量；

通过设定的采样步数进行前向训练直到收敛。

可选地，通过设定的采样步数进行前向训练直到收敛中，优化的目标具体为：

其中，t是设定的采样步长，α_t是设定的一组超参数；T₀是使用预训练CLIP的TextEmbedding 得到的文本向量，ε是从标准正态分布N中采样的噪音，M₀是图像向量表征；ε_θ用于预测每一步的噪音，使用U-Net网络进行拟合。

可选地，所述S3组件关系提取及图片生成中，具体包括：

将训练数据对中的图片文本描述通过文本分析器进行句法分析，提取出名词性短语以及各个名词性短语之间的依存关系；

再将提取出来的名词性短语通过clip文本编码器编码成向量，同时对整段附图说明用clip文本编码器编码成向量；

将提取出来的名词短语对应的向量与整段附图说明的向量进行对齐，获得新的文本向量；

将新的文本向量送至交叉注意力层部分进行注意力计算。

第二方面，一种基于扩散模型的科技文献附图生成***，所述***包括数据处理模块、科技领域文生图扩散模型训练模块以及组件关系提取及图片生成模块，其具体包括：

数据处理模块，用于获取目标文献中的图片文本描述以及对应图片，并形成训练数据对；其中，图片文本描述用于模型训练的输入，对应图片用于模型训练的输出；

科技领域文生图扩散模型训练模块，用于构建文生图扩散模型，并通过数据处理形成的训练数据对进行训练；

组件关系提取及图片生成模块，用于将训练数据对中的图片文本描述进行句法分析，提取出图片文本描述中的各个组件以及组件间关系；基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵，并将调整后的文生图扩散模型作为目标科技文献附图生成模型。

第三方面，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的基于扩散模型的科技文献附图生成方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的基于扩散模型的科技文献附图生成方法。

相比现有技术，本申请至少具有以下有益效果：

结合了自然语言处理和图像处理技术，能够自动分析科技文献的摘要内容，并根据摘要内容生成相应的高质量附图，为科技文献提供更加丰富和多样的摘要，这不仅能够提高科研人员检索和阅读分析文献的效率，还能帮助科研人员更好地表达和呈现研究成果。此外，其还支持多种语言的文献摘要附图生成以及在不同特定垂直领域的微调，具有很好的适用性和通用性。主要应用于多模态科技文献附图生成场景。

在科技文献的摘要附图生成中能够利用提示文本生成内容正确、结构清楚、清晰度高的目标摘要附图。

此外，相比现有基于像素的扩散生成模型，大大减少了采样推理的时间和生成的质量，可以提升***生成附图的速度。同时极大的降低组件在扩散生成过程中的丢失现象，保证了附图生成的质量与完整性。

附图说明

图1为本申请实施例提供的整体流程图；

图2为CLIP模型的具体模型结构图；

图3为本实施例中扩散模型具体模型结构图；

图4为附图说明“一个套着螺母的螺钉放置在木桌上”提取的依存树示例图；

图5为提取附图说明依存树生成附图的流程图；

图6为现有扩散模型所生成的附图；

图7为本实施例中得到的目标科技文献附图生成模型所生成的附图；

图8为本申请一个实施例提供的基于扩散模型的科技文献附图生成***的模块架构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的描述中：术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、***、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

现有的文本生成图像模型如扩散模型，可以实现从文本生成大致的图像，但是这些图像可能会丢失一些具体的部件，比如在生成机械图时，文本描述为“一个套着螺母的螺钉放置在木桌上”以这个文本作为指令让扩散模型进行图片生成，有可能就会丢失某些部件，可能螺钉就没有被生成出来，尤其是当图片描述性文本更加复杂的时候，这种情况更加明显。因此基于当前技术的确定，本发明提出了一种更加关注组件以及之间的关联关系的扩散模型生成方式，这种方式可以将文本描述当中的各个组件以及这些组件之间的联系提取出来，基于这些特征对扩散模型进行控制生成图像，通过这种方法可以极大的降低模型在扩散生成过程当中丢失组件的情况。该***结合了自然语言处理和图像处理技术，能够自动对图片描述性文本进行分析，并根据附图说明内容生成与描述性文本相对应的附图，这不仅提高了科研人员检索和阅读分析文献的效率，此外还可以辅助科技人员以更好地呈现研究成果。

本发明是一种基于扩散模型的科技文献附图生成方法与***，能够根据科技文献中提取的图片描述（以下也称附图说明），生成相应匹配的摘要附图，并且通过提取其中的组件以及组件之间的联系控制扩散模型生成图像，这不仅能够提高科研人员检索和阅读分析文献的效率，还能帮助科技人员更好地表达和呈现研究成果，辅助科技人员绘制图片节约时间。主要应用于多模态科技文献附图生成场景。

在一个实施例中，如图1所示，提供了一种基于扩散模型的科技文献附图生成方法，该方法可以应用于服务器中，方法包括S1数据处理、S2科技领域文生图扩散模型训练以及S3组件关系提取及图片生成，其具体包括：

S1数据处理，获取目标文献中的图片文本描述以及对应图片，并形成训练数据对。

其中，图片文本描述用于模型训练的输入，对应图片用于模型训练的输出。首先是数据处理过程，该过程主要内容就是收集科技领域的数据，此部分数据可以是科技文献或者专利，将科技文献当中的图片说明，或者专利中的附图说明以及对应的图片提取出来，并且以这些文本内容以及对应的图片，这些文本内容以及图片的数据对即为下一阶段扩散模型训练过程的训练数据，其中文本内容作为中文生图扩散模型的输入，对应图片为文生图扩散模型对应的输出。

在本步骤中，主要是获取图片的文本描述以及对应的图片作为输入输出的训练数据对。而此部分的数据作为下一阶段文生图扩散模型训练过程的数据。具体数据获取的详细过程可依据下面流程：

（1）使用在公开的数据科技文献数据库下载的部分相关的文献。

（2）使用自然语言处理技术，包括分词、词性标注、命名实体识别，正则表达式等方式，从科技文献中提取附图描述的文本信息。

（3）使用图像检测相关技术，包括目标检测、语义分割等技术，从上述对应的科技文献中检测和文本摘要相匹配的附图。

基于上述操作，构建科技文献图文数据集，图文数据集中包括科技文献的附图描述性文本（之后以附图说明代指）和相匹配的附图，记为Dataset={(Text_i, Image_i)，i = 1,2,...,N},其中Text_i表示训练集中第i个训练样本的附图说明，Image_i表示训练集中第i个训练样本的附图，i 表示每个训练样本的下标，N表示训练集的大小。

S2科技领域文生图扩散模型训练，构建文生图扩散模型，并通过数据处理形成的训练数据对进行训练。

科技领域文生图扩散模型训练，此过程是利用数据处理过程收集到的图片描述性文本以及对应的图片作为训练数据，对扩散模型进行训练，让文生图扩散模型在科技领域有更换的生成效果。此过程包括扩散模型的加噪，去噪的过程。

本步骤中主要用于微调多模态CLIP模型以及构建基于扩散模型的附图生成大模型，最后进行科技文献垂直领域微调。其中，多模态CLIP模型的微调步骤如下：

（1）批次加载数据处理模块中构建的科技文献的数据集DataSet{(Text_i,Image_i)}。

（2）将科技文献的附图Image_i输入到CLIP的图像编码器中得到图像的编码特征I_i。

（3）将科技文献的附图说明Text_i输入到CLIP的文本编码器中得到文本的编码特征T_i。

（4）计算图像特征和文本特征之间的余弦相似度损失，其中附图说明和附图匹配的样本对作为训练的正样本，反之不匹配的样本对作为负样本。

训练的目标就是最大化正样本之间的余弦相似度，并且最小化负样本之间的余弦相似度。训练目标如下：

TrainObject ~ Cos(T_{i_pos}，I_{i_pos})-Cos(T_{i_neg}，I_{i_neg})

其中，T_{i_pos}，I_{i_pos}为文本和附图的正样本对，T_{i_neg}，I_{i_neg}为文本和附图的负样本对。本申请实施例中，多模态CLIP的具体模型结构图如图2所示。

得到微调多模态CLIP模型之后构建扩散模型，具体建模步骤如下：

加载公开开源的图文对数据集，从其中进行随机采样数据，首先利用预训练的VAE模型中的encoder模块将图像压缩到latent空间，得到图像向量表征M_i= VAE.encoder(Image_i)；然后利用预训练CLIP中的text encoder模块文本进行编码，得到相对应匹配的文本向量T_i = CLIP.text_encoder(Text_i)。

给定一组采样步数T，具体的前向训练步骤如下：

重复训练

从Mi中采样M0：

M0~Mi=VAE.encoder(Imagei)

采样一个步数t：

t~Uniform({1,2,3,4,5,...,T})

从标准正态分布N中采样一组噪音：

ε~N(0,1)

优化如下目标：

直到收敛。

其中，t是设定的采样步长，αt是设定的一组超参数；T₀是使用预训练CLIP的TextEmbedding得到的文本向量，将其与图像特征隐编码进行（Query，Key，Value）的交叉注意力计算操作，将文本信息和图像信息进行深度交叉融合，提高生成模型对文本信息的理解；ε是从标准正态分布N中采样的噪音，M₀是图像向量表征；ε_θ用于预测每一步的噪音，使用U-Net网络进行拟合，优化目标就是最小化该步真实噪音和预测噪音之间的差异损失，重复训练直到收敛。

经过此过程的训练，由于训练语料为科技领域的附图说明和附图，因此经过训练的文生图扩散模型对应科技领域的文生图任务会有着更加优秀的表现。所生成附图的风格会更加偏向于科技文献类型的附图。注意，此时经过训练好的扩散模型已经可以将输入的文本内容扩散生成为与输入的文本内容相对应的图片，只不过当输入内容组件较多，关系较复杂时，会出现组件丢失或者组件关系不对的情况，并且这种情况会经常出现。如图3所示，给出了扩散模型具体模型结构图。

组件关系提取以及图片生成，此过程是将训练数据当中的图片描述性文本当中的各个组件以及各组件直接的联系给提取出来，并且将提取出来的组件以及关系融合至图片生成的过程当中，以组件和关系当做控制信号，让扩散模型更加关注各个组件以及其中的关系，从而生成更加精确的图片，降低扩散过程当中丢失组件的概率。

为了解决上述当附图说明比较复杂，通过上述训练好的扩散模型可能在生成对应图像时丢失部分组件，此部分主要使用附图生成模型根据输入的一段附图说明来提取附图说明中的依存关系，根据依存关系生成符合附图说明要求的图像，并且不丢失附图说明当中的组件信息。

首先对附图说明通过文本分析器ξ，对附图说明进行句法分析，提取出里面的名词性短语（NP，Noun Phrase）以及各个名词性短语之间的依存关系，再将提取出来的名词性短语通过clip文本编码器编码成向量，同时对整段附图说明用clip文本编码器编码成向量。将提取出来的名词短语对应的向量与整段附图说明的向量进行对齐，获得新的文本向量。将新的文本向量送至交叉注意力层部分进行注意力计算。从而可以让最后的算得的注意力可以更加关注名词性短语，从而令该名词性短语不会被遗忘，从而在clip图像解码器阶段，避免该组件没有生成的情况。即，此过程是对上一过程中降噪过程的优化，其中上一步的U-Net降噪网络可由本步骤完全替换。如图4，给出了附图说明“一个套着螺母的螺钉放置在木桌上”提取的依存树示例图；

步骤1：依存关系提取以及编码：

在此例中，假设某一个附图说明为“一个套着螺母的螺钉放置在木桌上”，此附图说明记作prompt，首先将该附图说明通过分词以及句法分析，提取该文本各个词之间的依存关系。此例中，该附图说明的依存关系最后会识别为：如图4所示附图说明“一个套着螺母的螺钉放置在木桌上”提取的依存树示例。

为了各个组件的得到更多的关注度，在上述获得的依存树中提取里面的NP，此例中提取到的NP分别为，螺母，螺钉，木桌，一个套着螺母的螺钉，并且分别将这些提取到的NP标记为C = {c1, c2, . . . , ck}, 其中c1，c2为每一个NP，C为NP的集合。此例中C ={c1, c2, c3, c4}，并且c1为螺母，c2为螺钉，c3为木桌，c4为一个套着螺母的螺钉。

接下来对每一个NP用clip的文本编码器将每一个名词短语编码成向量。此过程记作Wi= CLIPtext(ci), i = 1, . . . k. Wi为经过clip文本编码器编码之后的向量，CLIPtext为文本编码器标识。此外还将整句话进行clip文本编码器进行编码，此过程记作Wp = CLIPtext(prompt)。在对整句附图说明文本已经名词短语进行编码之后，可得W =[Wp,W1, W2, . . . , Wk]。

步骤2：名词短语向量与附图说明向量重对齐：

将Wi与Wp进行重对齐。在a中得到W = [Wp,W1, W2, . . . , Wk]后，需要对每一个名词短语向量Wi与整句文本向量Wp进行重新对齐，而具体过程就是将名词短语向量替换在原名词短语在附图说明位置中对应的向量位置，从而得到新的向量如下图中间部分所示。经过对齐以及向量替换之后，可获得新的文本编码/>。

步骤3：注意力计算：

将得到的新的文本编码送入至线性层当做注意力层中的value。此过程可记作：

其中fv(.)代表了基于value的映射函数，当前为一层线性层。同理fq(.)，fk(.)分别为基于query和key的映射函数，且分别对应一层线性层。令Wp通过fk(.)映射至Kp，令上一时间步的特征图X^t通过fq(.)映射至Q^t，获得了Kp和Q^t即可获得注意力图M^t，记作fM(.)。

获取到注意力图之后，经过与value乘积之后的累加，即可获得当前时间步的输出。公式如下V_i：

整个扩散模型生成过程如以下算法所示，组件关系提取及扩散模型生成算法：

输入：附图说明prompt，句法依存分析器ξ，图像解码器ψ，训练好的扩散模型φ

输出：生成好的图像Image x

通过句法依存分析器ξ对prompt进行提取NP集C = {c1, c2, . . . , ck}

通过clip文本编码器编码Ci和附图说明prompt，Wi = CLIPtext(ci)，

Wp = CLIPtext(prompt)

降噪扩散过程：

For t = T, T-1, ..., 1 do

For 每一个注意力层 in 扩散模型φ do

获取前一层的输出X^t

Q^t=fq(X^t)，Kp=fk(Wp), Vi=fv();

获取注意力图

通过M^t，V_i获取O^t，并输送至下一层的扩散模型

End For

经过T步的降噪扩散得到z₀，注意z₀为在t=0时的输出O⁰，z为扩散模型的各个隐层状态。将z₀为输送至图像解码器ψ，从而生成图像x。如图5给出了提取附图说明依存树生成附图的流程图。

如图6给出了现有扩散模型所生成的附图，其具体文本描述为“一个套着螺母的螺钉放置在木桌上”以这个文本作为指令让扩散模型进行图片生成，螺钉没有被生成出来。

如图7所示，为本申请实施例中将附图说明提取依存关系，并且影响注意力矩阵后，扩散模型基于“一个套着螺母的螺钉放置在木桌上”这条指令所生成的附图，可以看出相比于图6生成了螺钉。

综上可以看出，本发明提出了一种基于扩散模型的科技文献附图生成方法。它结合了自然语言处理和图像处理技术，能够自动分析科技文献的摘要内容，并根据摘要内容生成相应的高质量附图，为科技文献提供更加丰富和多样的摘要，这不仅能够提高科研人员检索和阅读分析文献的效率，还能帮助科研人员更好地表达和呈现研究成果。此外，其还支持多种语言的文献摘要附图生成以及在不同特定垂直领域的微调，具有很好的适用性和通用性。主要应用于多模态科技文献附图生成场景。

在科技文献的摘要附图生成中，扩散模型是目前支持文生图任务的最先进的范式之一，主要表现在基于多模态预训练模型Open-CLIP强大的文本语义的理解和基于变分自编码器的强大的生图能力，能够利用提示文本生成内容正确、结构清楚、清晰度高的目标摘要附图。

此外，本方法是基于隐特征向量的进行的扩散生成，相比基于像素的扩散生成模型，大大减少了采样推理的时间和生成的质量，可以提升***生成附图的速度。同时经过对说明文本的依存关系的提取，并且将其中的名词性短语进行文本编码，可以让扩散模型在扩散过程中更加关注其中的名词性短语以及对应的组件，极大的降低组件在扩散生成过程中的丢失现象，保证了附图生成的质量与完整性。

总的来说，本申请提出的技术方法能够理解附图说明内容并生成匹配的附图，帮助提高科研人员检索和阅读分析文献的效率，还能帮助科研人员更好地表达和呈现研究成果。

在一个实施例中，如图8所示，提供了一种基于扩散模型的科技文献附图生成***，***包括数据处理模块、科技领域文生图扩散模型训练模块以及组件关系提取及图片生成模块，其具体包括：

其中各模块具体实现内容可以参见上文中对于基于扩散模型的科技文献附图生成***方法的限定，在此不再赘述。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，该计算机设备通过加载运行计算机程序以实现上述一种专利多领域知识抽取方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于扩散模型的科技文献附图生成方法，其特征在于，所述方法包括S1数据处理、S2科技领域文生图扩散模型训练以及S3组件关系提取及图片生成，其具体包括：

2.根据权利要求1所述的方法，其特征在于，所述S1数据处理具体包括：

使用在公开的数据科技文献数据库下载的部分相关的文献；

3.根据权利要求1所述的方法，其特征在于，所述S2科技领域文生图扩散模型训练中，构建文生图扩散模型具体包括通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型，然后进行科技文献垂直领域进行微调。

4.根据权利要求3所述的方法，其特征在于，通过微调多模态CLIP模型具体包括：

计算图像编码特征和文本编码特征之间的余弦相似度损失；

5.根据权利要求3所述的方法，其特征在于，通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型，具体包括：

通过设定的采样步数进行前向训练直到收敛。

6.根据权利要求5所述的方法，其特征在于，通过设定的采样步数进行前向训练直到收敛中，优化的目标具体为：

其中，t是设定的采样步长，α_t是设定的一组超参数；T₀是使用预训练CLIP的Text Embedding得到的文本向量，ε是从标准正态分布N中采样的噪音，M₀是图像向量表征；ε_θ用于预测每一步的噪音，使用U-Net网络进行拟合。

7.根据权利要求1所述的方法，其特征在于，所述S3组件关系提取及图片生成中，具体包括：

将新的文本向量送至交叉注意力层部分进行注意力计算。

8.一种基于扩散模型的科技文献附图生成***，其特征在于，***包括数据处理模块、科技领域文生图扩散模型训练模块以及组件关系提取及图片生成模块，其具体包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。