CN115794999B - 一种基于扩散模型的专利文档查询方法及计算机设备 - Google Patents

一种基于扩散模型的专利文档查询方法及计算机设备 Download PDF

Info

Publication number
CN115794999B
CN115794999B CN202310048755.8A CN202310048755A CN115794999B CN 115794999 B CN115794999 B CN 115794999B CN 202310048755 A CN202310048755 A CN 202310048755A CN 115794999 B CN115794999 B CN 115794999B
Authority
CN
China
Prior art keywords
diffusion
model
diffusion model
retrieval
patent documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310048755.8A
Other languages
English (en)
Other versions
CN115794999A (zh
Inventor
尤元岳
徐青伟
严长春
裴非
范娥媚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinghe Zhiyuan Technology Co ltd
Zhiguagua Tianjin Big Data Technology Co ltd
Original Assignee
Zhiguagua Tianjin Big Data Technology Co ltd
Beijing Zhiguquan Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiguagua Tianjin Big Data Technology Co ltd, Beijing Zhiguquan Technology Service Co ltd filed Critical Zhiguagua Tianjin Big Data Technology Co ltd
Priority to CN202310048755.8A priority Critical patent/CN115794999B/zh
Publication of CN115794999A publication Critical patent/CN115794999A/zh
Application granted granted Critical
Publication of CN115794999B publication Critical patent/CN115794999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于扩散模型的专利文档查询方法及计算机设备,旨在解决目前专利检索的完整性和准确率不够理想的问题。本申请对于用户检索输入的较短文本,经分词得到若干关键词,分别送入三个扩散模型进行扩散生成,其中,将分词结果中各个关键词的聚类共同作为扩散模型的控制信号以限制扩散生成方向;三个扩散模型的训练语料分别来源于摘要、权利要求书和说明书,用于相应生成分别与摘要、权利要求、说明书语句表达形式相似的句子;进行检索后,将得到的三组专利文档进行加权整合,选取加权后相似度最高的若干篇专利文档作为用户的意图检索结果并输出;从而使检索的结果全面并更符合用户的真实检索意图,提高了专利检索的完整性和准确率。

Description

一种基于扩散模型的专利文档查询方法及计算机设备
技术领域
本申请属于文献检索技术领域,具体涉及一种专利文档查询方法及计算机设备。
背景技术
使用专利检索进行专利查重和侵权检测是专利申请和维权过程中的一个关键核心环节,如何实现精准高效检索已经成为专利***建设中的一项重要内容。
目前常见的专利检索方法一般基于用户输入的检索关键词短语与专利文本间的匹配排名实现,尤其对于“简单检索”、“语义检索”等场景,用户输入检索的关键词中可能存在多主题关联,因而用户输入的短文本无法完整表达的用户的真实检索意图,短文本有限的信息量与专利文档丰富的语义内容不匹配,导致最终专利检索的完整性和准确率不够理想。
同时,传统的查询扩展应用通用领域的近似词表、词向量等方式实现,然而,通用领域的近似词无法有效捕获专利领域的专业用语之间的语义相似度。这些方法无法适应专利检索动态未知(Zero Shot)场景下的多样性高效检索,也导致专利检索查询扩展自动生成的检索文本对于提升检索的整体准确性效果不佳。
发明内容
本申请提供一种基于扩散模型的专利文档查询方法及计算机设备,旨在解决目前专利检索的完整性和准确率不够理想的问题。
为此,本申请提出以下技术方案:
一种基于扩散模型的专利文档查询方法,包括以下步骤:
接收用户检索输入的文本内容;
若用户检索输入的文本内容超过预先设定的长度阈值,则对所述文本内容进行分词,然后将分词结果分别送入三个扩散模型进行扩散生成,其中,将分词结果中各个关键词的聚类共同作为扩散模型的控制信号,以限制扩散模型的生成方向;所述三个扩散模型分别记为第一扩散模型、第二扩散模型和第三扩散模型,三个扩散模型的训练语料分别来源于摘要、权利要求书和说明书,用于相应生成分别与摘要、权利要求、说明书语句表达形式相似的句子;
将三个扩散模型生成的句子送入检索***中,分别相应以摘要、权利要求书、说明书作为检索范围进行专利文档的检索,得到三组专利文档;
将所述三组专利文档进行加权整合,选取加权后相似度最高的若干篇专利文档作为用户的意图检索结果并输出。
可选地,该专利文档查询方法还包括:
若用户检索输入的文本内容未超过预先设定的长度阈值,则将用户检索输入的文本内容直接送入检索***中,分别以摘要、权利要求书、说明书作为检索范围进行专利文档的检索,得到三组专利文档。
可选地,所述三组专利文档的篇数相同。当然,也可以不同。
优选地,所述三个扩散模型的训练方法均包括以下步骤:
将训练语料逐渐加入噪声,不断破坏语料信息,期间保存每一步破坏过程的语料信息,直到原始的语料信息被破坏成为完全随机的高斯噪音,这个过程记为加噪过程;然后,将所述完全随机的高斯噪音进行降噪,通过所述加噪过程中保存的被破坏的语料信息作为标签数据,用生成式的模型不断降噪,最终得到原始的语料信息,从而通过降噪的过程,所述生成式的模型学习到生成对应语料的能力。
可选地,所述生成式的模型采用Transformer模型或GPT模型。
优选地,所述训练语料的生成方法包括:
从已公开的专利文档的摘要、权利要求书和说明书中分别提取句子,记为第一句子、第二句子和第三句子;
将所述第一句子、第二句子和第三句子分别采用文本分词器进行分词,相应的分词结果即为用于第一扩散模型、第二扩散模型和第三扩散模型的训练语料。
优选地,三个扩散模型中,每个扩散模型进行扩散生成的过程,具体包括:
将用户检索输入的文本内容进行分词和去停用词,得到若干关键词;
分别查找包含每个关键词的领域词表;所述领域词表是基于聚类算法预先生成的;
将每个关键词所属的领域词表中的其他词都当作与该关键词语义近似的目标词,通过训练对应于领域词表类别的分类器,获得扩散模型对当前在领域词表中的每一个目标词的概率,进而对扩散模型的隐变量进行梯度更新,重复多步扩散,将最终生成的隐变量通过softmax函数进行隐变量到文本的映射,得到关键词控制方向的句子。
优选地,所述检索***采用bm25模型或者bert模型词向量表征的方式,对第一扩散模型生成的句子与专利文档的摘要文本向量进行相似度计算、对第二扩散模型生成的句子与专利文档的权利要求文本向量进行相似度计算、对第三扩散模型生成的句子与专利文档的说明书文本向量进行相似度计算,并各返回相似度最高的N篇专利文档。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特殊之处在于,所述处理器执行所述计算机程序时实现上述基于扩散模型的专利文档查询方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现上述基于扩散模型的专利文档查询方法的步骤。
本申请至少具有以下有益效果:
本申请对于用户检索输入的较短文本,经分词得到若干关键词,分别送入三个扩散模型进行扩散生成,其中,将分词结果中各个关键词的聚类共同作为扩散模型的控制信号,以限制扩散模型的生成方向;三个扩散模型的训练语料分别来源于摘要、权利要求书和说明书,用于相应生成分别与摘要、权利要求、说明书语句表达形式相似的句子;送入检索***进行检索后得到三组专利文档,再将三组专利文档进行加权整合,选取加权后相似度最高的若干篇专利文档作为用户的意图检索结果并输出;从而使检索的结果更加全面并更符合用户的真实检索意图,提高了专利检索的完整性和准确率。
附图说明
图1为本申请一个实施例提供的一种基于扩散模型的专利文档查询方法的基本原理示意图;
图2为本申请一个实施例中扩散模型的训练过程的示意图(以摘要扩散模型为例);
图3为本申请一个实施例中三个扩散模型的训练方法示意图;
图4为本申请一个实施例中扩散模型的句子生成过程的示意图(以摘要扩散模型为例);
图5为本申请一个实施例中三个扩散模型的句子生成方法示意图;
图6为本申请一个实施例中扩展检索及整合过程的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,应用场景例如用户在提供专利检索服务的网站、APP上,以“简单检索”方式(通常首页呈现的检索框)或选择“语义检索”(支持更长的文本内容)方式,输入检索语句。
如图1所示,提供了一种基于扩散模型的专利文档查询方法,包括以下步骤:
接收用户检索输入的文本内容;
若用户检索输入的文本内容未超过预先设定的长度阈值,则将用户检索输入的文本内容直接送入检索***中(也可以进行适当的预处理),分别以摘要、权利要求书、说明书作为检索范围进行专利文档的检索,得到三组专利文档;
若用户检索输入的文本内容超过预先设定的长度阈值,则对所述文本内容进行分词,然后将分词结果分别送入三个扩散模型(摘要扩散模型、权利要求扩散模型和说明书扩散模型)进行扩散生成,其中,将分词结果中各个关键词的聚类共同作为扩散模型的控制信号,以限制扩散模型的生成方向;三个扩散模型可简记为第一扩散模型、第二扩散模型和第三扩散模型,三个扩散模型的训练语料分别来源于摘要、权利要求书和说明书,用于相应生成分别与摘要、权利要求、说明书语句表达形式相似的句子;将三个扩散模型生成的句子送入检索***中,分别相应以摘要、权利要求书、说明书作为检索范围进行专利文档的检索;
注意,这里提到的“权利要求”、“权利要求书”是不同的概念,前者强调的是各项权利要求(每一项权利要求表达独立的含义,可生成文本向量;同样的语义,权利要求的语句表达形式与摘要、说明书中的语句表达形式可能有差异),后者是专利文档的基本组成之一(进行相似度计算的目标范围);
另外,“语句表达形式相似”与专利文档检索时的相似度计算也是不同的概念,前者关注的是语句表达形式,旨在使三个模型生成的句子分别更像摘要句子、权利要求句子、说明书句子,而后者关注的是语义近似;
将所述三组专利文档进行加权整合,选取加权后相似度最高的K篇专利文档作为用户的意图检索结果并输出;K为预先设定的篇数,K小于3N。
具体的,以上所说的分别相应以摘要、权利要求书、说明书作为检索范围进行专利文档的检索,是对第一扩散模型生成的句子与专利库中专利文档的摘要文本向量进行相似度计算、对第二扩散模型生成的句子与专利库中专利文档的权利要求文本向量进行相似度计算、对第三扩散模型生成的句子与专利库中专利文档的说明书文本向量进行相似度计算,并各返回相似度最高的N篇专利文档),得到三组专利文档(3N篇专利文档)。当然,三组专利文档的数量也可以不同,例如:第一组专利文档设定为100篇,第二组专利文档设定为80篇,第三组专利文档设定为50篇,最终得到三组专利文档共计230篇;将这三组专利文档进行加权整合,选取加权后相似度最高的150篇专利。
其中,以确定的检索范围(摘要、权利要求书或说明书)作为检索范围进行专利文档的检索技术(近似检索)本身,属于本领域的现有技术。
扩散模型是一种深度生成模型,以输入为条件的查询扩展自动生成具有鲁棒性强、采样效率高、语义近似、样本多样性等优点,同时生成结果具有一定的可解释性。通过扩散模型对查询内容进行增量生成可以使检索结果覆盖更全、提高召回率。遗漏相关专利的代价高、查全率指标至关重要。此外专利中的新词术语更新速度快,扩散模型能够生成多样性覆盖广泛的可解释性扩展查询,有利于用户的直观理解。整个流程中,扩散模型起着十分重要的步骤,本实施例主要就是通过训练出一个可通过关键词控制的扩散模型,并将可控性扩散模型应用到专利领域的扩展检索***当中。
第一步训练部分的目的是让扩散模型通过训练数据和训练方法获得生成随机文本方向的句子的能力,比如通过了各个领域的训练数据的训练,扩散模型可以生成各种领域方向的句子,其中包括了人工智能、计算机、交通等领域,但是当前这一步的扩散模型没有办法控制具体生成句子的领域方向,该模型此步可能生成人工智能领域的句子,也有可能生成计算机领域的句子,完全都是随机的,第一步只是让模型拥有生成所有领域句子的能力。并且在这一步,为了让专利扩展检索的结果更加准确,使用训练扩散模型的语料可以分别使用摘要、权利要求书、说明书三个部分的语料来训练三个模型,从而,这三个模型所生成的句子会更像摘要、权利要求书、说明书中的句子。
本实施例的扩散模型的训练方法主要包括以下步骤:
从已公开的专利文档的摘要、权利要求书和说明书中分别提取句子,可记为第一句子、第二句子和第三句子;将第一句子、第二句子和第三句子分别采用文本分词器进行分词,相应的分词结果即为用于第一扩散模型、第二扩散模型和第三扩散模型的训练语料;
针对各个扩散模型,将相应的训练语料逐渐加入噪声,不断破坏语料信息,期间保存每一步破坏过程的语料信息,直到原始的语料信息被破坏成为完全随机的高斯噪音,这个过程记为加噪过程;然后,将前述完全随机的高斯噪音进行降噪,通过前述加噪过程中保存的被破坏的语料信息作为标签数据,用生成式的模型不断降噪,最终得到原始的语料信息,从而通过降噪的过程,模型学习到生成对应语料的能力。
第二步生成部分则是通过用户输入的关键词来限制扩散模型的生成方向,从而使扩散模型可以生成固定文本方向的句子。例如用户想扩展检索一个人工智能领域的句子,从而输入一个“人工智能”的关键词,那么在第二步生成过程当中,模型就会依据用户输入的这个关键词逐步将自己生成句子方向向人工智能这一领域慢慢迁移,从而最终生成出一个人工智能领域的一个句子。而这个人工智能领域的句子就可以作为用户输入的“人工智能”的关键词的扩展查询的内容更加丰富的检索条件。基于第一步分别用摘要、权利要求、说明书训练出来的模型,分别对用户输入的关键词“人工智能”进行扩展生成,这三个扩散模型就会生成三种“人工智能”领域的摘要、权利要求、说明书句子。
本实施例中扩散模型进行扩散生成的具体过程,主要包括:
将用户检索输入的文本内容进行分词和去停用词,得到若干关键词;分别查找包含每个关键词的领域词表(各个领域词表均是基于聚类算法预先生成的);将每个关键词所属的领域词表中的其他词都当作与该关键词语义近似的目标词,通过训练对应于领域词表类别的分类器,获得扩散模型对当前在领域词表中的每一个目标词的概率,进而对扩散模型的隐变量进行梯度更新,重复多步扩散,将最终生成的隐变量通过softmax函数进行隐变量到文本的映射,得到关键词控制方向的句子。
第三步检索部分,该部分将生成部分所得到的三种“人工智能”领域的摘要、权利要求、说明书句子分别对检索***当中的专利文档的摘要、权利要求书、说明书进行检索。也即,将扩散模型生成的人工智能领域的摘要句子与检索***中专利文档的摘要信息进行对比检索,检索***会基于专利文档中的摘要和扩散模型生成的句子的相似度返回前N篇专利。同理,权利要求句子和说明书句子也分别对搜索引擎中专利文档的权利要求书和说明书进行检索,同样分别返回相似度前N篇专利。然后再将这3N篇专利进行加权统计,找出与用户输入“人工智能”最相关的前K篇专利,作为用户输入“人工智能”关键词,检索***返回K篇专利的结果。
因此,整个过程可总结为以下三个步骤:
一、扩散模型训练过程,该过程是让扩散模型获得生成随机方向句子的能力,并且分别用不同专利部分的语料来训练扩散模型,从而使扩散模型可以生成专利对应部分的句子。该过程并未进入扩展检索的整个流程当中,是扩展检索的功能的前置条件。
二、扩散模型生成句子过程,该过程为扩展检索流程中的一部分,该过程就是让扩散模型逐渐生成用户所输入的关键词方向的句子,并且依照训练好的针对专利不同部分的扩散模型分别生成关键词方向的摘要、权利要求、说明书的句子。
三、扩展检索及整合过程,将生成好的三个部分的同一领域句子输送至检索***分别对这专利的三个部分进行检索,将检索结果进行加权统计找出最相似的前K篇专利,从而实现扩展检索的流程。
以下对这三个步骤作进一步详细说明。
一、扩散模型训练过程,目的是使扩散模型获得生成随机领域方向的句子的能力。扩散模型训练步骤包括:语料构造、摘要扩散模型训练、权利要求扩散模型训练、说明书扩散模型训练。
步骤1. 语料构造:由于是针对于专利领域的扩展查找,并且最终的目标是模型可以生成与摘要、权利要求、说明书相关的句子,因此在收集的专利文档中提取专利的摘要、权利要求、说明书文本内容,并且将摘要、权利要求、说明书的内容通过句号、分号等进行分句,将分得的句子作为三种扩散模型的预备训练语料。以此三个部分的训练语料来准备训练三个不同的扩散模型。
为了避免重复说明,以下过程均以摘要句子语料为例,并且训练摘要相关的扩散模型,而权利要求扩散模型和说明书的扩散模型也是需要训练出来作为下一步生成过程的前置条件。
步骤2. 摘要扩散模型训练:如图2所示,该训练过程的整体思路就是将收集到的摘要语料逐渐加入噪声,不断破坏整个语料的信息,期间保存每一步破坏过程的信息,直到这些语料信息被破坏成为完全随机的高斯噪音。这个过程称之为前向传播,也即加噪过程。加噪过程之后,得到了随机的高斯噪音,我们需要不断的将这个高斯噪音进行降噪,通过加噪过程当中的保存的被破坏的语料信息作为标签数据,用生成式的模型如Transformer或GPT模型不断的降噪,最终降噪成为最初的语料信息,通过降噪的过程,生成式模型就可以学习到生成对应语料的能力。具体训练过程如图2:
(1)将语料构造部分获取到的摘要语句作为扩散模型的输入数据,此例中摘要的句子“一种人工智能汽车,包括自动寻路方法和危险预测模块”为输入文本。然后将输入文本分词,其中文本分词器可通过预先训练或者直接使用已经训练好的分词器进行分词如hanlp分词器或jieba分词器等。得到的分词结果为w,其中w为输入数据的句子分词后的单词列表。假设该输入数据的句子分词后共有n个词,则
Figure SMS_1
,此例中的分词结果可能就为:
Figure SMS_2
(2)将分词结果w传入到一个词向量嵌入层EMB,从而将离散的单词映射到连续的空间当中,得到的词嵌入结果为:
Figure SMS_3
,将n个单词映射成了n个d维度的向量。
(3)然后将经过嵌入的词向量通过一个马尔科夫链变换为扩散模型中的隐变量,并且通过概率模型
Figure SMS_8
生成对应的隐变量
Figure SMS_5
,其中
Figure SMS_14
是给定
Figure SMS_6
之后,通过词向量编码和马尔科夫链生成
Figure SMS_15
的概率。
Figure SMS_9
代表的是以
Figure SMS_16
为均值,
Figure SMS_11
为方差的正态分布,
Figure SMS_18
的值就是在这个正态分布当中采样取得的值。在逆向过程中,添加一个可训练的近似模型步骤,将
Figure SMS_7
再次映射回原本的文本分词内容,这个映射关系为:
Figure SMS_12
,其中
Figure SMS_4
为一个softmax分布,而
Figure SMS_13
的含义就是在给定
Figure SMS_19
的前提下通过softmax分布得到
Figure SMS_20
的概率。以下为了方便理解,把
Figure SMS_10
作为前馈传播的概率表示,把
Figure SMS_17
作为逆向去噪过程的概率表示。
(4)在前馈传播过程当中,构建了中间的隐变量
Figure SMS_23
,这个前馈传播逐步向
Figure SMS_25
中添加高斯噪音直到添加到T步,并且在T步时,
Figure SMS_27
接近高斯噪音,每一步的转移由
Figure SMS_21
Figure SMS_24
都是通过
Figure SMS_26
的正态分布采样得到的。其中
Figure SMS_28
为在t步时添加高斯噪音的数量,
Figure SMS_22
为一个超参数这个前馈过程q并不包含可训练的参数并且可以定义一个训练目标,包括根据预定义的前馈过程q生成有噪声的数据,并训练一个模型来逆转该过程和重建数据。
(5)在逆向传播中,扩散模型通过逆向由
Figure SMS_31
的高斯噪音逐步去噪,从而逐步重构出
Figure SMS_40
。整体流程就是在重构过程当中,模型从
Figure SMS_47
高斯噪音开始逐步的去噪,从而生成一系列的隐变量
Figure SMS_30
从而接近目标分布的采样
Figure SMS_38
。初始状态为
Figure SMS_44
,并且每一步的去噪过程
Figure SMS_52
Figure SMS_33
都是由
Figure SMS_42
得到,其中
Figure SMS_50
Figure SMS_54
可通过
Figure SMS_35
或者
Figure SMS_41
计算与学习得到。其中这个训练过程的数据为,输入是
Figure SMS_48
,输出是通过扩散的前向过程中得到的
Figure SMS_56
Figure SMS_32
模型就是用来学习前馈传播中分布的均值以及方差,其中以
Figure SMS_37
为例,在去噪过程中,
Figure SMS_45
的输入为
Figure SMS_51
,输出为去噪过程通过
Figure SMS_29
预测出的
Figure SMS_43
,而这个
Figure SMS_49
要逼近前馈传播中的
Figure SMS_55
,以前馈传播的
Figure SMS_34
和去噪过程的
Figure SMS_39
的差距作为
Figure SMS_46
的损失函数,通过反向传播更新
Figure SMS_53
中的参数,从而使
Figure SMS_36
学习到当前分布中的均值与方差。
(6)扩散模型通过最大化数据
Figure SMS_59
的边界似然值从而得到训练,而这个标准化目标就是
Figure SMS_60
的变分下界,因此,扩散模型的损失函数就变成了:
Figure SMS_63
,然而这个训练目标并不稳定,并且需要大量的优化技巧,因此设计了一个简单的替代目标,对
Figure SMS_58
中的每一个KL散度项进行扩展和重新加权以获得均方误差损失,因此扩散模型的损失函数就变成
Figure SMS_62
,其中
Figure SMS_64
是后验概率
Figure SMS_65
的均值,这个后验概率是接近于高斯噪声的。
Figure SMS_57
是通过神经网络预测的
Figure SMS_61
的均值。
(7)将以上步骤(3)中的词向量映射为隐变量
Figure SMS_66
的过程
Figure SMS_67
以及将重构的
Figure SMS_68
重新映射回词的过程
Figure SMS_69
带入到步骤(6)中的损失函数中,最终得到了端到端的训练损失函数:
Figure SMS_70
;也可以优化为:
Figure SMS_71
Figure SMS_72
这两个训练损失函数起始都是等效的;
通过损失函数对扩散模型进行训练,并且进行反向传播,完成单个扩散模型的训练。
步骤3. 为了提升检索的准确性,再按照步骤2中的(1)-(7)过程再训练权利要求扩散模型和说明书扩散模型,而语料信息则对应着权利要求和说明书部分的句子;从而得到三个扩散模型,如图3所示。
二、扩散模型生成句子过程,此过程的目的是将训练好的三个扩散模型分别针对于用户输入的关键词进行关键词方向的内容扩散生成,从而生成出对应专利三个部分的并且从属于关键词领域方向的句子。扩散模型生成句子过程可分为扩散模型预准备、扩散模型生成摘要句子、扩散模型生成权利要求以及扩散模型生成说明书句子。
步骤1. 扩散模型预准备:首先预训练出一个领域词表或者使用已经预训练好的领域词表,比如人工智能领域下可能就包含了人工智能,神经网络等关键词。然后将这一个个领域词表看做为nbow的词袋。该领域词表可通过将所有中国专利的文本内容进行分词,去重以及去除停用词之后,将每一个词编码成向量,编码向量的过程可使用已有的词向量库或者通过bert等模型将词编码成词向量。将编码后的词向量通过KNN或者Kmeans的聚类方式将所有的中国专利中所包含的词都进行聚类,得到的聚类即为图4中的聚类词,而通过聚类得到的一个个聚类词表则被看做领域词表。
步骤2.扩散模型生成摘要句子。该步骤主要的目的就是通过用户输入的短语,控制摘要扩散模型生成有关用户输入短语的方向的句子。该阶段一共有两个输入,第一个输入为用户输入的关键词短语,这个关键词短语用作控制信息,控制扩散模型生成关键词方向的句子文本,第二个输入为随机的高斯噪音,扩散模型以高斯噪音为基础,不断对噪音进行去噪,从而生成流利的句子。
生成阶段的整体流程如图4:首先,将用户输入的短语文本如用户输入了“人工智能图像”,用户可能就想要检索一些人工智能方向的内容并且涉及到了一些人工智能图像识别或图像处理的方法,将用户输入的短语进行分词和去停用词之后得到了“人工智能”,“图像”两个关键词,将这两个关键词分别去聚类中查找,查找出包含这两个关键词的聚类;如图4中所示,聚类1中包含了人工智能,聚类2中包含了图像,那么就将这聚类1和聚类2作为扩散模型的控制信号,控制扩散模型向这两个聚类中的词进行生成,而控制过程就是通过训练一个分类器,分类器的类别为聚类的类别,将扩散模型每一步去噪的结果都用一个分类器进行预测,预测结果与用户输入的关键词聚类结果会有一定的偏差,然后通过这个偏差形成损失函数,通过反向传播的方式梯度更新,从而修改摘要扩散模型当前这一步的隐变量,通过反向传播修改之后的隐变量就会更加偏向于聚类1和聚类2的方向。但是一步的扩散以及反向传播并不能立刻生成出比较流利且与聚类1聚类2方向高度相关的句子,因此需要重复这个过程多步,使隐变量逐步的向聚类1聚类2的方向迁移,并且生成出流利的语句。这个步骤为一个超参数,该发明定位200步。通过200步的扩散生成以及方向迁移,将生成好的隐变量再通过softmax函数进行隐变量到文本的映射,从而得到生成好的句子。生成好的句子即为该步骤的输出,也即摘要扩散模型成功生成出了有关于“人工智能”和“图像”相关的与摘要相似的句子。而具体的实现方式以及公式逻辑如下。
扩散模型生成阶段是从高斯噪音
Figure SMS_76
逐步去噪然后生成流利的句子隐变量
Figure SMS_84
,然后再通过前述扩散模型训练过程的步骤(3)中的近似模型将
Figure SMS_89
重新映射回文本句子,这个过程就是一般扩散模型的生成过程。但是也可以看出,整个过程是从高斯噪音开始,并且不加控制随机生成的句子,因此一般扩散模型所生成的句子并没有办法控制这个句子的方向。所以,本实施例控制扩散模型生成出关键词方向的句子,就是要控制扩散模型中的隐变量的生成方向,也即控制
Figure SMS_74
隐变量的值。本实施例这里的特点就是通过领域词表来控制
Figure SMS_80
的值,而这个领域词表就是在步骤1中预先生成好的一个个聚类词表,因此这个控制过程可以通过这个概率公式来表示,
Figure SMS_86
,其中c代表控制条件,也就是关键词,而这个概率公式代表的意思就是在给定关键词的条件下,生成出隐变量
Figure SMS_92
的概率值。而对于每一步的扩散过程中隐变量
Figure SMS_75
是根据上一步的
Figure SMS_83
和控制条件(关键词)联合生成的,而通过贝叶斯公式,又可以得到
Figure SMS_90
,通过条件独立的假设,可以简化为
Figure SMS_96
。以
Figure SMS_78
生成
Figure SMS_81
为例,首先将
Figure SMS_87
传入到扩散模型训练好的模型当中(通常为Transformer),并且通过这个Transformer来预测
Figure SMS_94
的词向量,然后将
Figure SMS_79
输入到分类器当中,通过分类器来预测
Figure SMS_85
的分类结果,然后将
Figure SMS_91
的分类结果通过反向传播的过程更新
Figure SMS_95
的值,此时
Figure SMS_73
就向着目标方向偏移了一步。然后将偏移后的
Figure SMS_82
再次输入到Transformer去预测
Figure SMS_88
以此类推,重复上述步骤,直到重复T步得到
Figure SMS_93
,将
Figure SMS_77
通过softmax进行文本预测,得到对应的文本结果。这时得到的文本结果就是通过目标方向控制之后得到的文本结果。
因此,对于扩散过程的第t步,可以通过下面的公式更新
Figure SMS_97
的值:
Figure SMS_98
,其中
Figure SMS_99
是通过扩散模型得到的,这一项的主要功能是可以生成出流利的文本,
Figure SMS_100
是通过一个神经网络的分类器得到的,这一项的主要功能是可以生成出控制条件方向(关键词)的文本,此外,为了生成更加流畅的文本,添加一个
Figure SMS_101
超参数来平衡文本的流畅性和文本的方向,因此这个梯度更新可变为
Figure SMS_102
Figure SMS_103
前文所述的
Figure SMS_106
是可以通过扩散模型训练过程中训练好的扩散模型得到,而
Figure SMS_109
则需要一个分类器来获得对应的概率值。对于
Figure SMS_113
的含义,其实就是给定一个隐变量
Figure SMS_105
,判断该隐变量为控制条件
Figure SMS_110
的概率。通常需要训练一个分类器来获得这个概率值,但是由于可能出现的关键词太多,很难通过将所有的关键词作为标签,输出隐变量
Figure SMS_114
可能对应某个关键词的概率值,因此本实施例采取一个nbow模型来计算这个概率值,通过步骤1中的得到的领域词表当作nbow。首先查找关键词属于哪个或者哪几个领域,然后将这些领域中的词都当做与关键词语义近似的目标词,因此这个概率值为扩散语言模型对当前在领域词表中的每一个词的概率值相加并且取对数:
Figure SMS_116
,其中
Figure SMS_104
为领域词表当中的词,p为重构过程当中生成
Figure SMS_108
词的概率值。因此由这一步可以得到当前隐变量
Figure SMS_112
输入至分类器得到的概率值。通过领域词表以及扩散模型的概率值对扩散模型的隐变量进行梯度更新,然后下一步的
Figure SMS_115
就是更加接近控制条件的隐向量。通过扩散T步,生成出的
Figure SMS_107
就是最终的隐变量,将得到的
Figure SMS_111
输入到扩散模型中的近似模型中,就可以得到对应的句子文本从而生成出对应的句子。T是一个超参数可以设置为200。
步骤3.扩散模型生成权利要求、说明书句子,按照步骤2中的内容,重复对权利要求扩散模型以及说明书扩散模型进行语句生成,最终获得了与“人工智能”和“图像”相关的摘要、权利要求、说明书语句,如图5所示。
三、扩展检索及整合,如图6所示:
扩展检索:将扩散模型生成的摘要、权利要求、说明书句子分别送入检索***中检索,同时分别于检索***中的专利库中专利的摘要、权利要求书、说明书范围内进行对比。以摘要句子为例,将该摘要句子与检索***中专利的摘要部分进行检索对比,返回前N篇与输入的摘要句子相似的专利。其中,检索***可以通过bm25模型或者bert模型词向量表征的方式对扩散模型当中生成出的句子与专利的摘要、权利要求、说明书部分文本向量进行相似度计算并且返回相似度较高的topN篇专利。
整合:将这三部分获取到的3N篇专利通过对其中相似度加权的方式来选取权重最高的前K篇专利作为扩展检索。权重系数可根据需要设定,例如,加权方式可以采用将各部分的返回的专利相似度赋以相同的权重,那么前K篇的专利文档就是将这前3N篇专利按照专利相似度由高到低的方式进行排序取前K篇。
本实施例对用户输入较短的查询关键词进行了扩散生成,从而生成出更长以及更加多样的句子,并且这些句子还能对应到专利的摘要、权利要求、说明书这些部分,让检索***可以更加精确的检索,针对于专利的这三个部分进行相似度比对,因此专利检索***可以获得用户更加精确的信息,并且利于检索***检索出用户想要得到的内容,结合用户交互机制迭代补充生成与专利摘要近似的检索文本,结合多阶段的文本相似度匹配排序算法实现专利检索,解决了现有技术的缺乏精细化检索的缺陷,提升了专利标签检索的准确率,达到解放人力、降本增效的目的。
本实施例可通过软件实现,产品形式可以是加载有相应软件的计算机设备、也可以是计算机可读存储介质。例如:
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,其特殊之处在于,该处理器执行所述计算机程序时实现上述基于扩散模型的专利文档查询方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,该计算机程序被处理器执行时实现上述基于扩散模型的专利文档查询方法的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于扩散模型的专利文档查询方法,其特征在于,包括以下步骤:
接收用户检索输入的文本内容;
若用户检索输入的文本内容超过预先设定的长度阈值,则对所述文本内容进行分词,然后将分词结果分别送入三个扩散模型进行扩散生成,其中,将分词结果中各个关键词的聚类共同作为扩散模型的控制信号,以限制扩散模型的生成方向;所述三个扩散模型分别记为第一扩散模型、第二扩散模型和第三扩散模型,三个扩散模型的训练语料分别来源于摘要、权利要求书和说明书,用于相应生成分别与摘要、权利要求、说明书语句表达形式相似的句子;
将三个扩散模型生成的句子送入检索***中,分别相应以摘要、权利要求书、说明书作为检索范围进行专利文档的检索,得到三组专利文档;
将所述三组专利文档进行加权整合,选取加权后相似度最高的若干篇专利文档作为用户的意图检索结果并输出;
所述三个扩散模型的训练方法均包括以下步骤:将训练语料逐渐加入噪声,不断破坏语料信息,期间保存每一步破坏过程的语料信息,直到原始的语料信息被破坏成为完全随机的高斯噪音,这个过程记为加噪过程;然后,将所述完全随机的高斯噪音进行降噪,通过所述加噪过程中保存的被破坏的语料信息作为标签数据,用生成式的模型不断降噪,最终得到原始的语料信息,从而通过降噪的过程,所述生成式的模型学习到生成对应语料的能力;
三个扩散模型中,每个扩散模型进行扩散生成的过程,具体包括:
将用户检索输入的文本内容进行分词和去停用词,得到若干关键词;
分别查找包含每个关键词的领域词表;所述领域词表是基于聚类算法预先生成的;
将每个关键词所属的领域词表中的其他词都当作与该关键词语义近似的目标词,通过训练对应于领域词表类别的分类器,获得扩散模型对当前在领域词表中的每一个目标词的概率,进而对扩散模型的隐变量进行梯度更新,重复多步扩散,将最终生成的隐变量通过softmax函数进行隐变量到文本的映射,得到关键词控制方向的句子。
2.根据权利要求1所述的基于扩散模型的专利文档查询方法,其特征在于,还包括:
若用户检索输入的文本内容未超过预先设定的长度阈值,则将用户检索输入的文本内容直接送入检索***中,分别以摘要、权利要求书、说明书作为检索范围进行专利文档的检索,得到三组专利文档。
3.根据权利要求2所述的基于扩散模型的专利文档查询方法,其特征在于,所述三组专利文档的篇数相同。
4.根据权利要求1所述的基于扩散模型的专利文档查询方法,其特征在于,所述生成式的模型采用Transformer模型或GPT模型。
5.根据权利要求1所述的基于扩散模型的专利文档查询方法,其特征在于,所述训练语料的生成方法包括:
从已公开的专利文档的摘要、权利要求书和说明书中分别提取句子,记为第一句子、第二句子和第三句子;
将所述第一句子、第二句子和第三句子分别采用文本分词器进行分词,相应的分词结果即为用于第一扩散模型、第二扩散模型和第三扩散模型的训练语料。
6.根据权利要求1所述的基于扩散模型的专利文档查询方法,其特征在于,
所述检索***采用bm25模型或者bert模型词向量表征的方式,对第一扩散模型生成的句子与专利文档的摘要文本向量进行相似度计算、对第二扩散模型生成的句子与专利文档的权利要求文本向量进行相似度计算、对第三扩散模型生成的句子与专利文档的说明书文本向量进行相似度计算,并各返回相似度最高的N篇专利文档。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述基于扩散模型的专利文档查询方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述基于扩散模型的专利文档查询方法的步骤。
CN202310048755.8A 2023-02-01 2023-02-01 一种基于扩散模型的专利文档查询方法及计算机设备 Active CN115794999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310048755.8A CN115794999B (zh) 2023-02-01 2023-02-01 一种基于扩散模型的专利文档查询方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310048755.8A CN115794999B (zh) 2023-02-01 2023-02-01 一种基于扩散模型的专利文档查询方法及计算机设备

Publications (2)

Publication Number Publication Date
CN115794999A CN115794999A (zh) 2023-03-14
CN115794999B true CN115794999B (zh) 2023-04-11

Family

ID=85429384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310048755.8A Active CN115794999B (zh) 2023-02-01 2023-02-01 一种基于扩散模型的专利文档查询方法及计算机设备

Country Status (1)

Country Link
CN (1) CN115794999B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115951883B (zh) * 2023-03-15 2023-05-23 日照市德衡信息技术有限公司 分布式微服务架构的服务组件管理***及其方法
CN116431838B (zh) * 2023-06-15 2024-01-30 北京墨丘科技有限公司 文献检索方法、装置、***及存储介质
CN116501899A (zh) * 2023-06-30 2023-07-28 粤港澳大湾区数字经济研究院(福田) 基于扩散模型的事件骨架图生成方法、***、终端及介质
CN117251539B (zh) * 2023-08-11 2024-04-02 北京中知智慧科技有限公司 使用生成式人工智能的专利智能检索***
CN117131187B (zh) * 2023-10-26 2024-02-09 中国科学技术大学 一种基于噪声绑定扩散模型的对话摘要方法
CN117421393B (zh) * 2023-12-18 2024-04-09 知呱呱(天津)大数据技术有限公司 一种用于专利的生成式检索方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法
CN107609142A (zh) * 2017-09-21 2018-01-19 合肥集知网知识产权运营有限公司 一种基于扩展布尔检索模型的大数据专利检索方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156111B (zh) * 2015-04-03 2021-10-19 北京中知智慧科技有限公司 专利文件检索方法、装置和***
CN112036177A (zh) * 2020-07-28 2020-12-04 中译语通科技股份有限公司 基于多模型融合的文本语义相似度信息处理方法及***
CN112507109A (zh) * 2020-12-11 2021-03-16 重庆知识产权大数据研究院有限公司 一种基于语义分析与关键词识别的检索方法和装置
CN112667800A (zh) * 2020-12-21 2021-04-16 深圳壹账通智能科技有限公司 关键词生成方法、装置、电子设备及计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765779A (zh) * 2015-03-20 2015-07-08 浙江大学 一种基于YAGO2s的专利文档查询扩展方法
CN107609142A (zh) * 2017-09-21 2018-01-19 合肥集知网知识产权运营有限公司 一种基于扩展布尔检索模型的大数据专利检索方法

Also Published As

Publication number Publication date
CN115794999A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN115794999B (zh) 一种基于扩散模型的专利文档查询方法及计算机设备
CN109800437B (zh) 一种基于特征融合的命名实体识别方法
CN111046179B (zh) 一种面向特定领域开放网络问句的文本分类方法
CN110263325B (zh) 中文分词***
CN109858041B (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN107832306A (zh) 一种基于Doc2vec的相似实体挖掘方法
CN110619034A (zh) 基于Transformer模型的文本关键词生成方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Shalaby et al. An lstm approach to patent classification based on fixed hierarchy vectors
CN116662582B (zh) 基于自然语言的特定领域业务知识检索方法及检索装置
CN114428850B (zh) 一种文本检索匹配方法和***
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
Li et al. Chinese text classification based on hybrid model of CNN and LSTM
CN112560438A (zh) 一种基于生成对抗网络的文本生成方法
CN111651602A (zh) 一种文本分类方法及***
Yi et al. Exploring hierarchical graph representation for large-scale zero-shot image classification
Tao et al. News text classification based on an improved convolutional neural network
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Pasad et al. On the contributions of visual and textual supervision in low-resource semantic speech retrieval
CN113962228A (zh) 一种基于记忆网络语义融合的长文档检索方法
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN114547245A (zh) 一种基于法律要素的类案检索方法及***
Chen et al. Multi-Label Text Classification Based on BERT and Label Attention Mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Zhiguagua Technology Co.,Ltd.

Patentee after: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguquan Technology Service Co.,Ltd.

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Patentee after: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguagua Technology Co.,Ltd.

Country or region before: China

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

CP03 Change of name, title or address
TR01 Transfer of patent right

Effective date of registration: 20240514

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region before: China

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

TR01 Transfer of patent right