发明内容
本申请提供了一种基于图注意力机制的专利多层级分类方法及计算机设备,解决了现有技术缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率。
为了实现以上目的,本申请给出以下解决方案:
基于图注意力机制的专利多层级分类方法,包括:
步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构;
步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;
步骤S3、图注意力机制编码:基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;
步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。
可选地,所述标签定义树形数据结构的构建方法包括:
获取专利分类标准规范文档;
读取文档,得到标签以及对应的定义;
对各个标签的定义文本进行清洗、转换、补全和/或合并处理;
根据标签定义的层次化关系生成标签定义树形数据结构。
可选地,所述专利分类标准规范为国际专利分类(IPC)、欧洲专利分类(ECLA)、美国专利分类(CCL)或日本专利分类(FI/F-term)。
可选地,记专利文本树形数据结构为,其中表示专利文本树形数据结构的顶点集合,表示专利文本树形数据结构的边集合;记标签定义树形数据结构为,其中为标签定义树形数据结构的顶点集合,为标签定义树形数据结构的边集合;则步骤S2具体包括:
将和合并为图,其中,表示图的顶点集合,表示图的边集合;
计算图中节点所对应的文本相似度,如果图中专利文本树形数据结构的节点(专利文本的每一篇章、每一段落及每一句子分别对应图中的一个节点)与标签定义树形数据结构的节点(专利分类标准规范每一层级的每个分类号分别对应图中的一个节点)所对应的文本相似度超过设定阈值,则通过在这两个节点之间添加一条边(连线)实现所述关联标记。
可选地,所述计算图中节点所对应的文本相似度包括分别基于VSM的相似度计算和基于Bert预训练模型的相似度计算,只要VSM和Bert预训练模型任一计算出的相似度大于0.9,则在对应节点之间添加一条边。其中,VSM用于计算语法相似度,Bert用于计算语义相似度,结合两者能够覆盖语法和语义两种情况。
可选地,所述基于VSM的相似度计算,具体包括:
下载并安装python的jieba包,使用jieba包中的cut函数对文本进行分词,从nltk.corpus包加载中文停用词表,删除文本中的停用词,得到文本的特征项序列,其中m为词向量的维度;
对于每个特征词,计算其在文本中出现的频率、在文档集中出现的逆频率;
计算特征词的权重,其中tfi为该特征词在文本中出现的频率,idfi为该特征词在文档集中出现的逆频率;得到权重向量;
使用余弦相似度计算权重向量的相似度,作为文本的相似度。
可选地,所述基于Bert预训练模型的相似度计算,具体包括:
使用Bert预训练模型对两个节点的文本进行编码表示,得到相应的句向量 和 ,其中l为句向量的维度;再使用余弦相似度,计算句向量之间的相似度,作为文本的相似度。
可选地,步骤S3中,图注意力机制编码的输入为步骤S2中基于Bert预训练模型得到的节点句向量,输出为图注意力机制编码后得到的特征向量,具体计算过程如下:
设为节点特征的集合,其中N为节点数目,为节点i编码所得的句向量,F为每个节点的特征数目,即句向量的维度;对特征作线性变换,其中线性变换的权重矩阵为,,为输出特征向量的维度;随机初始化;通过注意力机制,计算得到节点j对节点i的重要性;其中,为单层前馈神经网络,使用LeakyReLU作为激活函数,神经网络的参数向量为,那么,其中表示转置操作,||表示连接操作;为了保留图的结构信息,只计算与节点i相邻的节点对节点i的重要性,即为与节点i相邻的所有节点的集合;为了使不同节点的重要性具有可比性,使用softmax函数对j作归一化,得到注意力系数;将sigmod函数作用于整合后的注意力机制特征,得到节点i的输出特征。
可选地,步骤S4中所述全连接神经网络分类器,其最后一层使用softmax激活函数,将每个类别的预测得分转化为概率输出;使用神经网络的概率输出以及真实标签类别的one-hot形式进行多分类交叉熵损失函数的计算;多分类交叉熵损失函数,其中n为样本数,K为标签类别总数,yic为真实标签的one-hot表示,如果样本i的真实类别为c则,否则;为神经网络输出的样本i属于类别c的预测概率;对于所述全连接神经网络分类器的训练,是采用有监督的模型训练方式,以多分类交叉熵损失函数为模型训练目标执行优化。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特殊之处在于,所述处理器执行所述计算机程序时实现上述基于图注意力机制的专利多层级分类方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现上述基于图注意力机制的专利多层级分类方法的步骤。
本申请至少具有以下有益效果:
本申请通过将专利文本内部篇章、段落等结构信息和各层级标签定义进行编码后构建为一个整体图,充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式编码文本和标签之间的交互关系,解决了现有技术缺乏精细化信息利用的缺陷,克服了传统的独立编码方式导致的文本片段和标签语义表征割裂的问题,提升了专利标签分类的准确率,达到解放人力、降本增效的目的。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,本申请提供的一种基于图注意力机制的专利多层级分类方法,包括:
步骤S1、获取待分类专利文本,根据专利文本的格式规范分割篇章及段落,再将各段落内部文本拆分为句子,根据所述格式规范以及句子之间的关联关系构建专利文本树形数据结构;
这里所说的专利文本的格式规范,以中国专利文献为例,通常规定依次由说明书摘要(abstract)、摘要附图、权利要求书(Claims)、说明书(description)以及说明书附图这五个部分组成(本申请所说的专利文本主要指文字内容,因而可暂不考虑对摘要附图和说明书附图作处理),其中说明书第一行标题为专利名称(Title);进一步的,权利要求引用关系以及引用基础可体现独立权利要求与从属权利要求以及各从属权利要求之间的逻辑关系;说明书又具体分为技术领域、背景技术、发明内容(或实用新型内容)、附图说明、具体实施方式。
步骤S2、基于所述专利文本树形数据结构和预先构建的标签定义树形数据结构,构建统一的图结构,并通过相似度计算,将专利文本的篇章、段落及句子对应的节点与标签定义对应的节点进行关联标记;所述标签定义树形数据结构是根据专利分类标准规范及其层次化关系构建得到,每一层级的每个分类号分别作为一个标签;
这里所说的专利分类标准规范,可以是国际专利分类(IPC)、欧洲专利分类(ECLA)、美国专利分类(CCL)、日本专利分类(FI/F-term)等标准规范中的任意一种,具体实现本申请方案时可根据用户的需求选择。例如,中国用户(包括专利审查机构、专利数据服务机构等)对于中国专利文献的分类需求,通常选择国际专利分类(IPC)作为上述专利分类标准规范。
步骤S3、基于所述统一的图结构的邻接关系,应用注意力机制对节点进行统一编码,得到节点的特征向量;
由于将专利文本内部组成结构和标签层级关***一在一个整体图的方式进行表示,能够将语义相似的文本片段和标签进行有效关联,克服了传统的独立编码方式导致的文本片段和标签语义表征割裂的缺陷;以统一表征的整体图为基础,基于图传播机制和邻接关系的图注意力机制的增强表征学习,充分挖掘和利用图的多级关联关系,进一步加强了文本片段和标签之间的语义耦合度,有利于提升专利标签分类场景下的整体准确率。
步骤S4、将待分类专利文本的所有节点的特征向量输入到预先构建并完成训练的全连接神经网络分类器中,输出专利分类的预测结果。
上述基于图注意力机制的专利多层级分类方法,通过将专利文本和标签内部篇章、段落等结构信息进行编码后构建为图,充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式对文本和标签进行增强的向量编码,实现了多层级的专利分类,解决了现有技术的缺乏精细化信息利用的缺陷,提升了专利标签分类的准确率,达到解放人力、降本增效的目的。
以下以中国发明专利文献执行IPC分类为例,进一步详述实施例。
在一个实施例中,提供了一种基于图注意力机制的专利多层级分类方法,如图2所示,主要包括文本片段分割、图构建、注意力机制编码、标签分类等环节。具体来说:
A.文本片段分割包括专利文本篇章段落分割和标签定义提取及预处理,即分别对专利文本的标题、摘要、权利要求书、说明书部分中的篇章段落进行分割,对5级标签定义文本(IPC分类表)进行预处理,生成以句子为最小单元的结构树。
专利文本篇章段落分割首先是将专利的标题、摘要、权利要求书、说明书部分拆分为段落,再将各段落内部文本拆分为句子,根据文档结构以及句子之间的关联关系构建专利文本树形数据结构为,其中表示专利文本树形数据结构的顶点集合,表示专利文本树形数据结构的边集合;
标签定义提取首先是从国家知识产权局官网下载国际专利分类表,以2022年版国际专利分类表为例,下载国际专利分类表word文档,下载并安装python-docx包。
步骤1.import docx(导入docx包)
步骤2.doc = docx.Document(fn)(加载文档)
步骤3.table = doc.tables[0],nrow = len(table.rows)(将文档转化为表格,并获取文档行数)
步骤4.for temp_row in range(nrow):(遍历文档的每一行)
row = table.rows[temp_row](获取表示当前行元素的列表)
label = row.cells[0].text(获取标签,并将其转化为字符串格式)
text = row.cells[2].text(获取标签定义,并将其转化为字符串格式)
按照上述方法逐行读取文档,得到标签以及对应的定义。然后对标签定义的文本进行清洗、转换、补全、合并,根据标签定义的层次化关系生成标签定义树形数据结构为,其中为标签定义树形数据结构的顶点集合,为标签定义树形数据结构的边集合。其中,清洗是对定义中无关内容的删除,例如A01B3/74的定义为“电力驱动犁(集电器入B60L5/00)[2006.01]”,则删去与内容无关的标识“[2006.01]”;转换是将当前定义中属于其他标签定义的部分转移到其他标签的定义中,例如在A01B3/74的定义中出现了“xxx入xxx”这样的句子,那么删除“(集电器入B60L5/00)”,并将“集电器”补充到B60L5/00的定义中;补全是对长度小于5的定义通过上级标签定义进行补充完善,例如D01H5/12的定义为“零件”,查找其上级D01H5/00的定义,将D01H5/00的定义“牵伸设备或机构”补充到D01H5/12的定义中。
B.图构建是根据篇章、段落、句子间的关系,将专利文本与标签统一构建为一个整体的图。其中,通过专利文本及各组成部分篇章、段落、句子和标签定义进行固有结构的关联(专利文本固有结构中的位置和所属关系,如同一个权利要求中的句子之间的关系),构建图结构,通过基于Bert预训练模型的句向量计算文本相似度,当相似度超过一定阈值后在图中添加关联关系(语法、语义相似度之间的关联,其可能没有距离很远、不存在前后和从属关系)。
具体来说,首先将树形结构和合并为图,其中,表示图的顶点集合,E为图的边集合;合并时,保持专利文档内部结构和标签定义的原始关系不变,即。接下来,通过文档和标签定义的关联关系在图中添加边(连线);计算图中节点所对应的文本相似度,如果相似度超过一定阈值,那么在两个节点之间添加一条边(连线)。其中,文本相似度通过VSM和基于Bert预训练模型的句向量进行计算,只要VSM或Bert预训练模型所计算出的相似度大于0.9,则在对应节点之间连一条边。其中:
基于VSM(Vector Space Model)的相似度计算,首先下载并安装python的jieba包,使用jieba包中的cut函数对文本进行分词,从nltk.corpus包加载中文停用词表,删除文本中的停用词,得到文本的特征项序列,其中m为词向量的维度;对于每个特征词,计算其在文本中出现的频率、在文档集中出现的逆频率;计算特征词的权重,其中tfi为该特征词在文本中出现的频率,idfi为该特征词在文档集中出现的逆频率;得到权重向量;使用余弦相似度计算权重向量的相似度,作为文本的相似度。
基于Bert预训练模型的相似度计算,首先使用Bert预训练模型对两个节点的文本进行编码表示,得到相应的句向量和,其中l为句向量的维度;再使用余弦相似度,计算句向量之间的相似度,作为文本的相似度。基于Bert预训练模型进行相似度计算时,将Bert模型编码后的所有向量存储到Faiss向量库中,通过向量库阈值检索的方式,查找出与当前向量相似度大于0.9的候选向量,添加向量所述节点间的关联关系。例如,专利的摘要部分包含“本发明涉及农业工具领域,且公开了一种旋耕机,包括车体、移动装置以及深耕装置”这样一句话,而经过处理得到的A01B的标签定义为“农业或林业的整地;一般农业机械或农具的部件、零件或附件”,摘要文本片段与A01B的标签定义所对应的Bert模型编码的句向量之间的余弦相似度大于0.9,那么就在该摘要文本片段所对应的节点与标签A01B所对应的节点之间添加一条边。
VSM用于计算语法相似度,Bert用于计算语义相似度,结合两者能够覆盖语法和语义两种情况。
C.图注意力机制编码,是根据图上的邻接关系,应用注意力机制对节点进行统一编码。
图注意力机制编码的输入为所述图构建过程中基于Bert预训练模型得到的节点文本编码表示(即句向量),输出为图注意力机制编码后得到的特征向量,具体计算过程如下:
设为节点特征的集合,其中N为节点数目,为节点i编码所得的句向量,F为每个节点的特征数目,即句向量的维度;对特征作线性变换,其中线性变换的权重矩阵为,,为输出特征向量的维度;随机初始化;通过注意力机制,计算得到节点j对节点i的重要性;其中,为单层前馈神经网络,使用LeakyReLU作为激活函数(LeakyReLU中的参数α取0.2),神经网络的参数向量为,那么,其中表示转置操作,||表示连接操作;为了保留图的结构信息,只计算与节点i相邻的节点对节点i的重要性,即为与节点i相邻的所有节点的集合;为了使不同节点的重要性具有可比性,使用softmax函数对j作归一化,得到注意力系数;将sigmod函数作用于整合后的注意力机制特征,得到节点i的输出特征。
D.标签分类,应用全连接神经网络分类器,对编码后专利文本标签进行有监督的模型训练。执行专利标签预测时,通过上述的文本片段分割、图构建、注意力机制编码、标签分类等过程输出预测结果。
标签分类是将注意力机制编码得到的文档节点向量输入到多层全连接神经网络中,其中神经网络的最后一层使用softmax激活函数,将每个类别的预测得分转化为概率输出;使用神经网络的概率输出以及真实标签类别的one-hot形式进行多分类交叉熵损失函数的计算;多分类交叉熵损失函数,其中n为样本数,K为标签类别总数,yic为真实标签的one-hot表示,如果样本i的真实类别为c则,否则;为神经网络输出的样本i属于类别c的预测概率。对神经网络分类器进行有监督的模型训练,以多分类交叉熵损失函数为模型训练目标执行优化。
执行专利标签预测时,首先通过专利文本片段分割,生成专利文本树形结构;基于专利文本树形结构和预先构建的标签定义树形结构,构建统一的图结构;然后通过节点文本相似度计算,查找相似向量,在对应节点之间添加边;再利用注意力机制得到节点的编码向量;最后,把编码向量输入到神经网络中,得到预测结果。
以下通过与现有的多项专利分类技术进行对比分析及测试,来验证本发明实施例的效果。
试验内容:
分别针对2017年到2021年的中文专利1500万数据集和2021年的140万数据集,应用了朴素贝叶斯(NaiveBayes)、FastText、Bert以及本发明实施例等模型进行了试验,结果如表1和表2所示。
表 不同模型的标签分类对比试验结果
表 不同文本部分上的标签分类对比试验结果
对比例1:专利文献CN115238076A
该专利文献方案基于BERT-ALMG模型进行多层级专利文本分类,通过构建专利分类所对应的标签集合、建立标签特征向量、专利文本特征向量,利用BERT预训练模型充分捕获长文本的上下文语义特征,实现多层级专利文本分类。该方法采用了北京大学开放研究数据平台专利数据集中摘要文本,共12000条,实现部、类两级IPC分类,其文本词平均数量为256,编码模型使用Bert(输入不超过512)。
而本发明实施例则采用中文专利库1500万数据、覆盖标题、摘要、权利要求书、说明书等所有文本内容,平均长度从几千到几万不等,远远超过Bert模型要求的512长度限制。因而,本发明实施例既不受专利文本长度限制、又能充分捕获专利文档标题、摘要、权利要求书、说明书各部分以及标签定义之间的语义信息,实现了635个小类(第三级,难度高与对比专利)ipc定义的层次化分类。
从对比试验结果可知:从选择专利文本内容上看,本发明实施例融合专利多部分文本的模型明显优于对比例1单独摘要文本的分类准确率;从数据量上看,增加训练数据量明显提升模型准确率(目前中文专利2000万篇的数据量远远多于对比专利的12000篇)。
对比例2:专利文献CN113254656A
该专利文献方案利用卷积神经网络、长短时记忆网络,将专利文本的短语特征和上下文特征结合,对专利文本分类。
本发明实施例与对比例2的主要区别在于,额外利用了外部标签定义文本,与专利文本的篇章、段落、句子的不同粒度进行融合,通过图注意力机制对专利文本结构显示表达其交互关系。标签定义的层次化体系,通过标签树中的最短路径,有效表达了不同专利文本标签间的相似度度量;图注意力机制同时融合了专利文档结构的相似度和语法语义相似度。
通常而言,基于Transformer的Bert模型在文本理解任务上的表现一般要由于卷积神经网络和长短时记忆网络。从对比试验结果上来看,本发明实施例使用的图注意力机制模型结果要优于Bert模型,本发明实施例采用的标签定义文本和图注意力机制有效补充了现有神经网络,如卷积神经网络、长短时记忆网络、Bert模型的不足。
对比例3:专利文献CN113468291A
该专利文献方案基于专利网络表示学习的专利自动分类,通过引入多视角学习与网络表示学习两个领域的方法对专利进行分类。其通过专利的文本内容构造的语义视图网络仅包括专利和词两类节点,缺失本专利的篇章、段落、句子级别的结构信息。
本发明实施例聚焦解决专利页面冗长、结构复杂等困难,针对专利分类体系的层次化结构复杂、类别标签集巨大等问题,以专利文本和标签定义文本为处理对象,基于图注意力机制的专利多层级分类方法,通过将标签和专利文本内部篇章、段落等结构信息进行编码后构建为图,充分利用了专利文档的固有结构和标签定义的层次化关系的先验知识,以图注意力机制的模式编码文本和标签之间的交互关系,提升了专利标签分类的准确率。
对比例4:专利文献CN114491041A
该专利文献方案结合标签、发明人网络、权利人网络等专利节点特征,实现专利自动分类方法,其利用专利的文本内容、发明人信息与专利权人信息各自构造语义视图网络、发明人视图网络与专利权人视图网络,结合不同视图网络之间的相关性对专利节点表征向量进行增强,再通过注意力机制将增强后的三个视图网络的专利节点表征向量进行融合,将融合结果作为最终的专利节点表征向量并进行分类预测,以提升专利分类结果的准确率。然而,这类优化的分类方法,在专利领域专业性强、结构关系复杂场景下的自动分类效果并不理想。
对比例4通过图卷积神经网络获取层次标签嵌入的语义特征表示,通过Bi-LSTM对专利文本特征表示,与本发明实施例使用的图注意力机制在技术上存在显著差异。
如前所述,本申请的发明人认识到,现有技术没有充分利用专利文本和标签的内部组成部分及关联结构信息,导致专利分类准确率整体不高。对比例4的分类方法就是将专利文本作为一个整体进行模型训练和预测,没有充分利用专利中已有的标题、摘要、权利要求书、说明书及其内部组成部分之间的固有结构知识,缺乏对于标签定义的层次化结构及其与专利文本各部分之间的关联关系的有效使用,其结合外部发明人网络、权利人网络等外部结构信息的专利分类方法,没有深入挖掘和充分利用专利和标签本身的内部结构和关联关系,导致专利领域专业性强、结构关系复杂场景下的自动分类效果不佳。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特殊之处在于,所述处理器执行所述计算机程序时实现上述基于图注意力机制的专利多层级分类方法的步骤。
在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,其特殊之处在于,所述计算机程序被处理器执行时实现上述基于图注意力机制的专利多层级分类方法的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。