CN117475086A - 一种基于扩散模型的科技文献附图生成方法及*** - Google Patents

一种基于扩散模型的科技文献附图生成方法及*** Download PDF

Info

Publication number
CN117475086A
CN117475086A CN202311773821.4A CN202311773821A CN117475086A CN 117475086 A CN117475086 A CN 117475086A CN 202311773821 A CN202311773821 A CN 202311773821A CN 117475086 A CN117475086 A CN 117475086A
Authority
CN
China
Prior art keywords
text
model
training
picture
literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311773821.4A
Other languages
English (en)
Inventor
尤元岳
杜寅辰
仓浩
徐青伟
严长春
裴非
范娥媚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhiguagua Tianjin Big Data Technology Co ltd
Original Assignee
Zhiguagua Tianjin Big Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiguagua Tianjin Big Data Technology Co ltd filed Critical Zhiguagua Tianjin Big Data Technology Co ltd
Priority to CN202311773821.4A priority Critical patent/CN117475086A/zh
Publication of CN117475086A publication Critical patent/CN117475086A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于扩散模型的科技文献附图生成方法及***,方法包括通过获取目标文献中的图片文本描述以及对应图片,并形成训练数据对;然后利用训练数据,对扩散模型进行训练;最后将训练数据当中的图片描述性文本当中的各个组件以及各组件直接的联系给提取出来,并且将提取出来的组件以及关系融合至图片生成的过程当中。本方法能够理解附图说明内容并生成匹配的附图,帮助提高科研人员检索和阅读分析文献的效率,还能帮助科研人员更好地表达和呈现研究成果。

Description

一种基于扩散模型的科技文献附图生成方法及***
技术领域
本申请涉及多模态文本生成图像技术领域,具体涉及一种基于扩散模型的科技文献附图生成方法及***。
背景技术
近年来,随着科技的迅速发展,科学研究领域涌现出大量的科技论文和专利。然而,高效地检索、阅读分析和理解这些文献,以及准确地呈现研究成果,仍然是一个挑战。此外,在技术人员进行绘制科技附图时,也需要花费大量的时间进行图片绘制,此过程耗费了大量的时间。
现有的文本生成图像模型如扩散模型,可以实现从文本生成大致的图像,但是这些图像可能会丢失一些具体的部件,比如在生成机械图时,文本描述为“一个套着螺母的螺钉放置在木桌上”以这个文本作为指令让扩散模型进行图片生成,有可能就会丢失某些部件,可能螺钉就没有被生成出来,尤其是当图片描述性文本更加复杂的时候,这种情况更加明显。
发明内容
本申请提供一种基于扩散模型的科技文献附图生成方法及***,可以极大的降低模型在扩散生成过程当中丢失组件的情况。
第一方面,一种基于扩散模型的科技文献附图生成方法,所述方法包括S1数据处理、S2科技领域文生图扩散模型训练以及S3组件关系提取及图片生成,其具体包括:
S1数据处理,获取目标文献中的图片文本描述以及对应图片,并形成训练数据对;其中,图片文本描述用于模型训练的输入,对应图片用于模型训练的输出;
S2科技领域文生图扩散模型训练,构建文生图扩散模型,并通过数据处理形成的训练数据对进行训练;
S3组件关系提取及图片生成,将训练数据对中的图片文本描述进行句法分析,提取出图片文本描述中的各个组件以及组件间关系;基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵,并将调整后的文生图扩散模型作为目标科技文献附图生成模型。
可选地,所述S1数据处理具体包括:
使用在公开的数据科技文献数据库下载的部分相关的文献;
使用自然语言处理技术从科技文献中提取附图的图片文本描述信息;其中,自然语言处理技术至少包括分词、词性标注、命名实体识别以及正则表达式;
使用图像检测技术从科技文献中提取图片文本描述信息相匹配的附图;其中,图像检测技术至少包括目标检测技术以及语义分割技术。
可选地,所述S2科技领域文生图扩散模型训练中,构建文生图扩散模型具体包括通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型,然后进行科技文献垂直领域进行微调。
可选地,通过微调多模态CLIP模型具体包括:
批次加载科技文献的数据集;其中,数据集包括科技文献的附图及对应附图说明;
将科技文献的附图输入到CLIP模型的图像编码器中得到图像编码特征;
将科技文献的附图说明输入到CLIP模型的文本编码器中得到文本编码特征;
计算图像编码特征和文本编码特征之间的余弦相似度损失;
以最大化正样本之间的余弦相似度,并且最小化负样本之间的余弦相似度作为目标进行调整;其中附图说明和附图匹配的样本对作为训练的正样本,反之不匹配的样本对作为负样本。
可选地,通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型,具体包括:
加载公开开源的图文对数据集,从其中进行随机采样数据,首先利用预训练的VAE模型中的encoder模块将图像压缩到latent空间,得到图像向量表征;
然后利用微调后的CLIP模型中的text encoder模块文本进行编码,得到相对应匹配的文本向量;
通过设定的采样步数进行前向训练直到收敛。
可选地,通过设定的采样步数进行前向训练直到收敛中,优化的目标具体为:
其中,t是设定的采样步长,αt是设定的一组超参数;T0是使用预训练CLIP的TextEmbedding 得到的文本向量,ε是从标准正态分布N中采样的噪音,M0是图像向量表征;εθ用于预测每一步的噪音,使用U-Net网络进行拟合。
可选地,所述S3组件关系提取及图片生成中,具体包括:
将训练数据对中的图片文本描述通过文本分析器进行句法分析,提取出名词性短语以及各个名词性短语之间的依存关系;
再将提取出来的名词性短语通过clip文本编码器编码成向量,同时对整段附图说明用clip文本编码器编码成向量;
将提取出来的名词短语对应的向量与整段附图说明的向量进行对齐,获得新的文本向量;
将新的文本向量送至交叉注意力层部分进行注意力计算。
第二方面,一种基于扩散模型的科技文献附图生成***,所述***包括数据处理模块、科技领域文生图扩散模型训练模块以及组件关系提取及图片生成模块,其具体包括:
数据处理模块,用于获取目标文献中的图片文本描述以及对应图片,并形成训练数据对;其中,图片文本描述用于模型训练的输入,对应图片用于模型训练的输出;
科技领域文生图扩散模型训练模块,用于构建文生图扩散模型,并通过数据处理形成的训练数据对进行训练;
组件关系提取及图片生成模块,用于将训练数据对中的图片文本描述进行句法分析,提取出图片文本描述中的各个组件以及组件间关系;基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵,并将调整后的文生图扩散模型作为目标科技文献附图生成模型。
第三方面,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述第一方面任一所述的基于扩散模型的科技文献附图生成方法。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面任一所述的基于扩散模型的科技文献附图生成方法。
相比现有技术,本申请至少具有以下有益效果:
结合了自然语言处理和图像处理技术,能够自动分析科技文献的摘要内容,并根据摘要内容生成相应的高质量附图,为科技文献提供更加丰富和多样的摘要,这不仅能够提高科研人员检索和阅读分析文献的效率,还能帮助科研人员更好地表达和呈现研究成果。此外,其还支持多种语言的文献摘要附图生成以及在不同特定垂直领域的微调,具有很好的适用性和通用性。主要应用于多模态科技文献附图生成场景。
在科技文献的摘要附图生成中能够利用提示文本生成内容正确、结构清楚、清晰度高的目标摘要附图。
此外,相比现有基于像素的扩散生成模型,大大减少了采样推理的时间和生成的质量,可以提升***生成附图的速度。同时极大的降低组件在扩散生成过程中的丢失现象,保证了附图生成的质量与完整性。
附图说明
图1为本申请实施例提供的整体流程图;
图2为CLIP模型的具体模型结构图;
图3为本实施例中扩散模型具体模型结构图;
图4为附图说明“一个套着螺母的螺钉放置在木桌上”提取的依存树示例图;
图5为提取附图说明依存树生成附图的流程图;
图6为现有扩散模型所生成的附图;
图7为本实施例中得到的目标科技文献附图生成模型所生成的附图;
图8为本申请一个实施例提供的基于扩散模型的科技文献附图生成***的模块架构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本申请的描述中:术语“包括”、“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包括了一系列步骤或单元的过程、方法、***、产品或设备不必限于已明确列出的那些步骤或单元,而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元,或者基于本发明构思进一步的优化方案所增加的步骤或单元。
现有的文本生成图像模型如扩散模型,可以实现从文本生成大致的图像,但是这些图像可能会丢失一些具体的部件,比如在生成机械图时,文本描述为“一个套着螺母的螺钉放置在木桌上”以这个文本作为指令让扩散模型进行图片生成,有可能就会丢失某些部件,可能螺钉就没有被生成出来,尤其是当图片描述性文本更加复杂的时候,这种情况更加明显。因此基于当前技术的确定,本发明提出了一种更加关注组件以及之间的关联关系的扩散模型生成方式,这种方式可以将文本描述当中的各个组件以及这些组件之间的联系提取出来,基于这些特征对扩散模型进行控制生成图像,通过这种方法可以极大的降低模型在扩散生成过程当中丢失组件的情况。该***结合了自然语言处理和图像处理技术,能够自动对图片描述性文本进行分析,并根据附图说明内容生成与描述性文本相对应的附图,这不仅提高了科研人员检索和阅读分析文献的效率,此外还可以辅助科技人员以更好地呈现研究成果。
本发明是一种基于扩散模型的科技文献附图生成方法与***,能够根据科技文献中提取的图片描述(以下也称附图说明),生成相应匹配的摘要附图,并且通过提取其中的组件以及组件之间的联系控制扩散模型生成图像,这不仅能够提高科研人员检索和阅读分析文献的效率,还能帮助科技人员更好地表达和呈现研究成果,辅助科技人员绘制图片节约时间。主要应用于多模态科技文献附图生成场景。
在一个实施例中,如图1所示,提供了一种基于扩散模型的科技文献附图生成方法,该方法可以应用于服务器中,方法包括S1数据处理、S2科技领域文生图扩散模型训练以及S3组件关系提取及图片生成,其具体包括:
S1数据处理,获取目标文献中的图片文本描述以及对应图片,并形成训练数据对。
其中,图片文本描述用于模型训练的输入,对应图片用于模型训练的输出。首先是数据处理过程,该过程主要内容就是收集科技领域的数据,此部分数据可以是科技文献或者专利,将科技文献当中的图片说明,或者专利中的附图说明以及对应的图片提取出来,并且以这些文本内容以及对应的图片,这些文本内容以及图片的数据对即为下一阶段扩散模型训练过程的训练数据,其中文本内容作为中文生图扩散模型的输入,对应图片为文生图扩散模型对应的输出。
在本步骤中,主要是获取图片的文本描述以及对应的图片作为输入输出的训练数据对。而此部分的数据作为下一阶段文生图扩散模型训练过程的数据。具体数据获取的详细过程可依据下面流程:
(1)使用在公开的数据科技文献数据库下载的部分相关的文献。
(2)使用自然语言处理技术,包括分词、词性标注、命名实体识别,正则表达式等方式,从科技文献中提取附图描述的文本信息。
(3)使用图像检测相关技术,包括目标检测、语义分割等技术,从上述对应的科技文献中检测和文本摘要相匹配的附图。
基于上述操作,构建科技文献图文数据集,图文数据集中包括科技文献的附图描述性文本(之后以附图说明代指)和相匹配的附图,记为Dataset={(Texti, Imagei),i = 1,2,...,N},其中Texti表示训练集中第i个训练样本的附图说明,Imagei表示训练集中第i个训练样本的附图,i 表示每个训练样本的下标,N表示训练集的大小。
S2科技领域文生图扩散模型训练,构建文生图扩散模型,并通过数据处理形成的训练数据对进行训练。
科技领域文生图扩散模型训练,此过程是利用数据处理过程收集到的图片描述性文本以及对应的图片作为训练数据,对扩散模型进行训练,让文生图扩散模型在科技领域有更换的生成效果。此过程包括扩散模型的加噪,去噪的过程。
本步骤中主要用于微调多模态CLIP模型以及构建基于扩散模型的附图生成大模型,最后进行科技文献垂直领域微调。其中,多模态CLIP模型的微调步骤如下:
(1)批次加载数据处理模块中构建的科技文献的数据集DataSet{(Texti,Imagei)}。
(2)将科技文献的附图Imagei输入到CLIP的图像编码器中得到图像的编码特征Ii
(3)将科技文献的附图说明Texti输入到CLIP的文本编码器中得到文本的编码特征Ti
(4)计算图像特征和文本特征之间的余弦相似度损失,其中附图说明和附图匹配的样本对作为训练的正样本,反之不匹配的样本对作为负样本。
训练的目标就是最大化正样本之间的余弦相似度,并且最小化负样本之间的余弦相似度。训练目标如下:
TrainObject ~ Cos(Ti_pos,Ii_pos)-Cos(Ti_neg,Ii_neg)
其中,Ti_pos,Ii_pos为文本和附图的正样本对,Ti_neg,Ii_neg为文本和附图的负样本对。本申请实施例中,多模态CLIP的具体模型结构图如图2所示。
得到微调多模态CLIP模型之后构建扩散模型,具体建模步骤如下:
加载公开开源的图文对数据集,从其中进行随机采样数据,首先利用预训练的VAE模型中的encoder模块将图像压缩到latent空间,得到图像向量表征Mi = VAE.encoder(Imagei);然后利用预训练CLIP中的text encoder模块文本进行编码,得到相对应匹配的文本向量Ti = CLIP.text_encoder(Texti)。
给定一组采样步数T,具体的前向训练步骤如下:
重复训练
从Mi中采样M0:
M0~Mi=VAE.encoder(Imagei)
采样一个步数t:
t~Uniform({1,2,3,4,5,...,T})
从标准正态分布N中采样一组噪音:
ε~N(0,1)
优化如下目标:
直到收敛。
其中,t是设定的采样步长,αt是设定的一组超参数;T0是使用预训练CLIP的TextEmbedding得到的文本向量,将其与图像特征隐编码进行(Query,Key,Value)的交叉注意力计算操作,将文本信息和图像信息进行深度交叉融合,提高生成模型对文本信息的理解;ε是从标准正态分布N中采样的噪音,M0是图像向量表征;εθ用于预测每一步的噪音,使用U-Net网络进行拟合,优化目标就是最小化该步真实噪音和预测噪音之间的差异损失,重复训练直到收敛。
经过此过程的训练,由于训练语料为科技领域的附图说明和附图,因此经过训练的文生图扩散模型对应科技领域的文生图任务会有着更加优秀的表现。所生成附图的风格会更加偏向于科技文献类型的附图。注意,此时经过训练好的扩散模型已经可以将输入的文本内容扩散生成为与输入的文本内容相对应的图片,只不过当输入内容组件较多,关系较复杂时,会出现组件丢失或者组件关系不对的情况,并且这种情况会经常出现。如图3所示,给出了扩散模型具体模型结构图。
S3组件关系提取及图片生成,将训练数据对中的图片文本描述进行句法分析,提取出图片文本描述中的各个组件以及组件间关系;基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵,并将调整后的文生图扩散模型作为目标科技文献附图生成模型。
组件关系提取以及图片生成,此过程是将训练数据当中的图片描述性文本当中的各个组件以及各组件直接的联系给提取出来,并且将提取出来的组件以及关系融合至图片生成的过程当中,以组件和关系当做控制信号,让扩散模型更加关注各个组件以及其中的关系,从而生成更加精确的图片,降低扩散过程当中丢失组件的概率。
为了解决上述当附图说明比较复杂,通过上述训练好的扩散模型可能在生成对应图像时丢失部分组件,此部分主要使用附图生成模型根据输入的一段附图说明来提取附图说明中的依存关系,根据依存关系生成符合附图说明要求的图像,并且不丢失附图说明当中的组件信息。
首先对附图说明通过文本分析器ξ,对附图说明进行句法分析,提取出里面的名词性短语(NP,Noun Phrase)以及各个名词性短语之间的依存关系,再将提取出来的名词性短语通过clip文本编码器编码成向量,同时对整段附图说明用clip文本编码器编码成向量。将提取出来的名词短语对应的向量与整段附图说明的向量进行对齐,获得新的文本向量。将新的文本向量送至交叉注意力层部分进行注意力计算。从而可以让最后的算得的注意力可以更加关注名词性短语,从而令该名词性短语不会被遗忘,从而在clip图像解码器阶段,避免该组件没有生成的情况。即,此过程是对上一过程中降噪过程的优化,其中上一步的U-Net降噪网络可由本步骤完全替换。如图4,给出了附图说明“一个套着螺母的螺钉放置在木桌上”提取的依存树示例图;
步骤1:依存关系提取以及编码:
在此例中,假设某一个附图说明为“一个套着螺母的螺钉放置在木桌上”,此附图说明记作prompt,首先将该附图说明通过分词以及句法分析,提取该文本各个词之间的依存关系。此例中,该附图说明的依存关系最后会识别为:如图4所示附图说明“一个套着螺母的螺钉放置在木桌上”提取的依存树示例。
为了各个组件的得到更多的关注度,在上述获得的依存树中提取里面的NP,此例中提取到的NP分别为,螺母,螺钉,木桌,一个套着螺母的螺钉,并且分别将这些提取到的NP标记为C = {c1, c2, . . . , ck}, 其中c1,c2为每一个NP,C为NP的集合。此例中C ={c1, c2, c3, c4},并且c1为螺母,c2为螺钉,c3为木桌,c4为一个套着螺母的螺钉。
接下来对每一个NP用clip的文本编码器将每一个名词短语编码成向量。此过程记作Wi= CLIPtext(ci), i = 1, . . . k. Wi为经过clip文本编码器编码之后的向量,CLIPtext为文本编码器标识。此外还将整句话进行clip文本编码器进行编码,此过程记作Wp = CLIPtext(prompt)。在对整句附图说明文本已经名词短语进行编码之后,可得W =[Wp,W1, W2, . . . , Wk]。
步骤2:名词短语向量与附图说明向量重对齐:
将Wi与Wp进行重对齐。在a中得到W = [Wp,W1, W2, . . . , Wk]后,需要对每一个名词短语向量Wi与整句文本向量Wp进行重新对齐,而具体过程就是将名词短语向量替换在原名词短语在附图说明位置中对应的向量位置,从而得到新的向量如下图中间部分所示。经过对齐以及向量替换之后,可获得新的文本编码/>
步骤3:注意力计算:
将得到的新的文本编码送入至线性层当做注意力层中的value。此过程可记作:
其中fv(.)代表了基于value的映射函数,当前为一层线性层。同理fq(.),fk(.)分别为基于query和key的映射函数,且分别对应一层线性层。令Wp通过fk(.)映射至Kp,令上一时间步的特征图Xt通过fq(.)映射至Qt,获得了Kp和Qt即可获得注意力图Mt,记作fM(.)。
获取到注意力图之后,经过与value乘积之后的累加,即可获得当前时间步的输出。公式如下Vi
整个扩散模型生成过程如以下算法所示,组件关系提取及扩散模型生成算法:
输入:附图说明prompt,句法依存分析器ξ,图像解码器ψ,训练好的扩散模型φ
输出:生成好的图像Image x
通过句法依存分析器ξ对prompt进行提取NP集C = {c1, c2, . . . , ck}
通过clip文本编码器编码Ci和附图说明prompt,Wi = CLIPtext(ci),
Wp = CLIPtext(prompt)
降噪扩散过程:
For t = T, T-1, ..., 1 do
For 每一个注意力层 in 扩散模型φ do
获取前一层的输出Xt
Qt=fq(Xt),Kp=fk(Wp), Vi=fv();
获取注意力图
通过Mt,Vi获取Ot,并输送至下一层的扩散模型
End For
End For
经过T步的降噪扩散得到z0,注意z0为在t=0时的输出O0,z为扩散模型的各个隐层状态。将z0为输送至图像解码器ψ,从而生成图像x。如图5给出了提取附图说明依存树生成附图的流程图。
如图6给出了现有扩散模型所生成的附图,其具体文本描述为“一个套着螺母的螺钉放置在木桌上”以这个文本作为指令让扩散模型进行图片生成,螺钉没有被生成出来。
如图7所示,为本申请实施例中将附图说明提取依存关系,并且影响注意力矩阵后,扩散模型基于“一个套着螺母的螺钉放置在木桌上”这条指令所生成的附图,可以看出相比于图6生成了螺钉。
综上可以看出,本发明提出了一种基于扩散模型的科技文献附图生成方法。它结合了自然语言处理和图像处理技术,能够自动分析科技文献的摘要内容,并根据摘要内容生成相应的高质量附图,为科技文献提供更加丰富和多样的摘要,这不仅能够提高科研人员检索和阅读分析文献的效率,还能帮助科研人员更好地表达和呈现研究成果。此外,其还支持多种语言的文献摘要附图生成以及在不同特定垂直领域的微调,具有很好的适用性和通用性。主要应用于多模态科技文献附图生成场景。
在科技文献的摘要附图生成中,扩散模型是目前支持文生图任务的最先进的范式之一,主要表现在基于多模态预训练模型Open-CLIP强大的文本语义的理解和基于变分自编码器的强大的生图能力,能够利用提示文本生成内容正确、结构清楚、清晰度高的目标摘要附图。
此外,本方法是基于隐特征向量的进行的扩散生成,相比基于像素的扩散生成模型,大大减少了采样推理的时间和生成的质量,可以提升***生成附图的速度。同时经过对说明文本的依存关系的提取,并且将其中的名词性短语进行文本编码,可以让扩散模型在扩散过程中更加关注其中的名词性短语以及对应的组件,极大的降低组件在扩散生成过程中的丢失现象,保证了附图生成的质量与完整性。
总的来说,本申请提出的技术方法能够理解附图说明内容并生成匹配的附图,帮助提高科研人员检索和阅读分析文献的效率,还能帮助科研人员更好地表达和呈现研究成果。
在一个实施例中,如图8所示,提供了一种基于扩散模型的科技文献附图生成***,***包括数据处理模块、科技领域文生图扩散模型训练模块以及组件关系提取及图片生成模块,其具体包括:
数据处理模块,用于获取目标文献中的图片文本描述以及对应图片,并形成训练数据对;其中,图片文本描述用于模型训练的输入,对应图片用于模型训练的输出;
科技领域文生图扩散模型训练模块,用于构建文生图扩散模型,并通过数据处理形成的训练数据对进行训练;
组件关系提取及图片生成模块,用于将训练数据对中的图片文本描述进行句法分析,提取出图片文本描述中的各个组件以及组件间关系;基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵,并将调整后的文生图扩散模型作为目标科技文献附图生成模型。
其中各模块具体实现内容可以参见上文中对于基于扩散模型的科技文献附图生成***方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,该计算机设备通过加载运行计算机程序以实现上述一种专利多领域知识抽取方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,涉及上述实施例方法中的全部或部分流程。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (10)

1.一种基于扩散模型的科技文献附图生成方法,其特征在于,所述方法包括S1数据处理、S2科技领域文生图扩散模型训练以及S3组件关系提取及图片生成,其具体包括:
S1数据处理,获取目标文献中的图片文本描述以及对应图片,并形成训练数据对;其中,图片文本描述用于模型训练的输入,对应图片用于模型训练的输出;
S2科技领域文生图扩散模型训练,构建文生图扩散模型,并通过数据处理形成的训练数据对进行训练;
S3组件关系提取及图片生成,将训练数据对中的图片文本描述进行句法分析,提取出图片文本描述中的各个组件以及组件间关系;基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵,并将调整后的文生图扩散模型作为目标科技文献附图生成模型。
2.根据权利要求1所述的方法,其特征在于,所述S1数据处理具体包括:
使用在公开的数据科技文献数据库下载的部分相关的文献;
使用自然语言处理技术从科技文献中提取附图的图片文本描述信息;其中,自然语言处理技术至少包括分词、词性标注、命名实体识别以及正则表达式;
使用图像检测技术从科技文献中提取图片文本描述信息相匹配的附图;其中,图像检测技术至少包括目标检测技术以及语义分割技术。
3.根据权利要求1所述的方法,其特征在于,所述S2科技领域文生图扩散模型训练中,构建文生图扩散模型具体包括通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型,然后进行科技文献垂直领域进行微调。
4.根据权利要求3所述的方法,其特征在于,通过微调多模态CLIP模型具体包括:
批次加载科技文献的数据集;其中,数据集包括科技文献的附图及对应附图说明;
将科技文献的附图输入到CLIP模型的图像编码器中得到图像编码特征;
将科技文献的附图说明输入到CLIP模型的文本编码器中得到文本编码特征;
计算图像编码特征和文本编码特征之间的余弦相似度损失;
以最大化正样本之间的余弦相似度,并且最小化负样本之间的余弦相似度作为目标进行调整;其中附图说明和附图匹配的样本对作为训练的正样本,反之不匹配的样本对作为负样本。
5.根据权利要求3所述的方法,其特征在于,通过微调多模态CLIP模型构建基于扩散模型的文生图扩散模型,具体包括:
加载公开开源的图文对数据集,从其中进行随机采样数据,首先利用预训练的VAE模型中的encoder模块将图像压缩到latent空间,得到图像向量表征;
然后利用微调后的CLIP模型中的text encoder模块文本进行编码,得到相对应匹配的文本向量;
通过设定的采样步数进行前向训练直到收敛。
6.根据权利要求5所述的方法,其特征在于,通过设定的采样步数进行前向训练直到收敛中,优化的目标具体为:
其中,t是设定的采样步长,αt是设定的一组超参数;T0是使用预训练CLIP的Text Embedding得到的文本向量,ε是从标准正态分布N中采样的噪音,M0是图像向量表征;εθ用于预测每一步的噪音,使用U-Net网络进行拟合。
7.根据权利要求1所述的方法,其特征在于,所述S3组件关系提取及图片生成中,具体包括:
将训练数据对中的图片文本描述通过文本分析器进行句法分析,提取出名词性短语以及各个名词性短语之间的依存关系;
再将提取出来的名词性短语通过clip文本编码器编码成向量,同时对整段附图说明用clip文本编码器编码成向量;
将提取出来的名词短语对应的向量与整段附图说明的向量进行对齐,获得新的文本向量;
将新的文本向量送至交叉注意力层部分进行注意力计算。
8.一种基于扩散模型的科技文献附图生成***,其特征在于,***包括数据处理模块、科技领域文生图扩散模型训练模块以及组件关系提取及图片生成模块,其具体包括:
数据处理模块,用于获取目标文献中的图片文本描述以及对应图片,并形成训练数据对;其中,图片文本描述用于模型训练的输入,对应图片用于模型训练的输出;
科技领域文生图扩散模型训练模块,用于构建文生图扩散模型,并通过数据处理形成的训练数据对进行训练;
组件关系提取及图片生成模块,用于将训练数据对中的图片文本描述进行句法分析,提取出图片文本描述中的各个组件以及组件间关系;基于提取出的各个组件以及组件间关系形成文本向量调整在训练后的文生图扩散模型的注意力矩阵,并将调整后的文生图扩散模型作为目标科技文献附图生成模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202311773821.4A 2023-12-22 2023-12-22 一种基于扩散模型的科技文献附图生成方法及*** Pending CN117475086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311773821.4A CN117475086A (zh) 2023-12-22 2023-12-22 一种基于扩散模型的科技文献附图生成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311773821.4A CN117475086A (zh) 2023-12-22 2023-12-22 一种基于扩散模型的科技文献附图生成方法及***

Publications (1)

Publication Number Publication Date
CN117475086A true CN117475086A (zh) 2024-01-30

Family

ID=89634951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311773821.4A Pending CN117475086A (zh) 2023-12-22 2023-12-22 一种基于扩散模型的科技文献附图生成方法及***

Country Status (1)

Country Link
CN (1) CN117475086A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581953A (zh) * 2019-01-30 2020-08-25 武汉慧人信息科技有限公司 一种自动解析英文文本语法现象的方法
CN111897970A (zh) * 2020-07-27 2020-11-06 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN113268591A (zh) * 2021-04-17 2021-08-17 中国人民解放军战略支援部队信息工程大学 基于事理图谱的空中目标意图判证方法及***
CN114970513A (zh) * 2022-04-22 2022-08-30 武汉轻工大学 图像生成方法、装置、设备及存储介质
CN116051668A (zh) * 2022-12-30 2023-05-02 北京百度网讯科技有限公司 文生图扩散模型的训练方法和基于文本的图像生成方法
CN116168411A (zh) * 2022-12-30 2023-05-26 企知道科技有限公司 一种专利智能附图生成方法和***
CN116935169A (zh) * 2023-09-13 2023-10-24 腾讯科技(深圳)有限公司 文生图模型训练方法以及文生图方法
CN117151098A (zh) * 2023-06-09 2023-12-01 阳光保险集团股份有限公司 关系抽取方法、装置及电子设备
CN117252957A (zh) * 2023-09-14 2023-12-19 上海焕泽信息技术有限公司 根据文字描述生成带精确文字图片的方法、装置及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581953A (zh) * 2019-01-30 2020-08-25 武汉慧人信息科技有限公司 一种自动解析英文文本语法现象的方法
CN111897970A (zh) * 2020-07-27 2020-11-06 平安科技(深圳)有限公司 基于知识图谱的文本比对方法、装置、设备及存储介质
CN113268591A (zh) * 2021-04-17 2021-08-17 中国人民解放军战略支援部队信息工程大学 基于事理图谱的空中目标意图判证方法及***
CN114970513A (zh) * 2022-04-22 2022-08-30 武汉轻工大学 图像生成方法、装置、设备及存储介质
CN116051668A (zh) * 2022-12-30 2023-05-02 北京百度网讯科技有限公司 文生图扩散模型的训练方法和基于文本的图像生成方法
CN116168411A (zh) * 2022-12-30 2023-05-26 企知道科技有限公司 一种专利智能附图生成方法和***
CN117151098A (zh) * 2023-06-09 2023-12-01 阳光保险集团股份有限公司 关系抽取方法、装置及电子设备
CN116935169A (zh) * 2023-09-13 2023-10-24 腾讯科技(深圳)有限公司 文生图模型训练方法以及文生图方法
CN117252957A (zh) * 2023-09-14 2023-12-19 上海焕泽信息技术有限公司 根据文字描述生成带精确文字图片的方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEC RADFORD ET AL.: "Learning Transferable Visual Models From Natural Language Supervision", 《ARXIV:2103.00020V1 [CS.CV]》, 26 February 2021 (2021-02-26), pages 1 *
DEEPHUB: "Diffusion 和Stable Diffusion的数学和工作原理详细解释", 《知乎》, 2 May 2023 (2023-05-02), pages 10 *

Similar Documents

Publication Publication Date Title
He et al. Vd-san: visual-densely semantic attention network for image caption generation
WO2019118256A1 (en) Generation of text from structured data
CN110866129A (zh) 一种基于跨媒体统一表征模型的跨媒体检索方法
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、***、介质和设备
Liang et al. Adapting language-audio models as few-shot audio learners
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
Hafeth et al. Semantic representations with attention networks for boosting image captioning
CN115827815B (zh) 基于小样本学习的关键词提取方法及装置
CN116737919A (zh) 一种基于对比学习的文本摘要生成方法及***
CN116682110A (zh) 图像处理方法、装置、设备及介质
CN117475086A (zh) 一种基于扩散模型的科技文献附图生成方法及***
CN116204622A (zh) 一种跨语言稠密检索中的查询表示增强方法
CN115292533A (zh) 视觉定位驱动的跨模态行人检索方法
Hu et al. Dual-spatial normalized transformer for image captioning
CN112199531A (zh) 一种基于哈希算法和邻域图的跨模态检索方法及装置
Xie et al. Enhancing multimodal deep representation learning by fixed model reuse
CN118227802B (zh) 一种基于大语言模型的标准数字化处理方法及***
CN116050391B (zh) 基于细分行业纠错词表的语音识别纠错方法及装置
CN116383339A (zh) 基于关系抽取的能源文本数据结构化方法及装置
CN117931858B (zh) 数据查询方法、装置、计算机设备和存储介质
CN114328978B (zh) 关系抽取方法、装置、设备及可读存储介质
CN118133808A (zh) 基于大模型的文档解析方法及***
Mei et al. An External Denoising Framework for Magnetic Resonance Imaging: Leveraging Anatomical Similarities Across Subjects with Fast Searches
Wan et al. Progress of image caption: modelling, datasets, and evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination