CN113836896A - 一种基于深度学习的专利文本摘要生成方法和装置 - Google Patents

一种基于深度学习的专利文本摘要生成方法和装置 Download PDF

Info

Publication number
CN113836896A
CN113836896A CN202111009517.3A CN202111009517A CN113836896A CN 113836896 A CN113836896 A CN 113836896A CN 202111009517 A CN202111009517 A CN 202111009517A CN 113836896 A CN113836896 A CN 113836896A
Authority
CN
China
Prior art keywords
abstract
word
text
vocabulary
patent text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111009517.3A
Other languages
English (en)
Inventor
石振锋
竺彦秀
孙赟星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Yangguang Huiyuan Information Technology Co ltd
Original Assignee
Heilongjiang Yangguang Huiyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang Yangguang Huiyuan Information Technology Co ltd filed Critical Heilongjiang Yangguang Huiyuan Information Technology Co ltd
Priority to CN202111009517.3A priority Critical patent/CN113836896A/zh
Publication of CN113836896A publication Critical patent/CN113836896A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于深度学习的专利文本摘要生成方法和装置,涉及计算机数据处理技术领域,所述方法包括:数据采集步骤:对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;深度学习步骤:对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;半监督学习步骤:将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。能够生成一段能覆盖原文信息的新词新句。

Description

一种基于深度学习的专利文本摘要生成方法和装置
技术领域
本申请涉及计算机数据处理技术领域,特别是涉及一种基于深度学习的专利文本摘要生成方法和装置。
背景技术
现有的研究专利内容、提高专利技术逐渐成为人们越来越想实现的目标。专利代理师在专利检索、专利文本阅读过程中会面临严重的信息过载问题,在海量的专利数据中,如何快速获取核心专利,如何准确提取出专利的关键信息,如何预测核心专利的申请趋势,已经成为企业甚至整个国家渴望探求的目标。
专利分析师通过专利数据库寻找目标需求的专利时,大多都是基于关键词相似度来获取相关专利,并且可以根据相似度进行排序。目前这种方式的检索结果中包含了一些相关度较低的专利,这给检索出的专利数据造成了很大的噪声。另外,许多专利的摘要都是人工撰写的,它们大多没有完全描述出其核心思想,这给专利分析师和代理师的后期工作带来了极大不便。如何有效筛选出目标需求的核心专利,提高检索结果中专利的质量,降低检索成本是专利检索领域面临的重大问题。为了快速阅览和消化专利检索出的海量数据,
在自动摘要技术领域,得到摘要结果可分为抽取式摘要(ExtractiveSummarization)和生成式摘要(Abstractive Summarization),抽取式摘要是依照一定的原则或算法从原文档中抽取部分句子内容作为摘要,这些句子全部都出自原文档。生成式摘要是基于原文本中的关键词和关键短语,获取主要思想后用不同的方式表达出来构成摘要,且摘要的词语、语序等内容与原文本存在差异。
抽取式摘要生成的摘要只考虑了文本的表面信息而忽视了上下文语境,且没有将文本信息全部归纳;因此,得到摘要中的句子之间关联性不强且信息冗长。生成式文本摘要在对数据集训练的过程中,模仿文本的语言特征从而生成连接性强的摘要,能够防止生成冗长的摘要,但对长文本的学习能力并不突出。目前,自动生成摘要的技术还处于成长阶段。因此,目前专利检索时需要阅览大量的专利文本才能获取专利文本的核心内容,是当前专利分析领域正面临的问题。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于深度学习的专利文本摘要生成方法,包括:
数据采集步骤:对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
深度学习步骤:对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
半监督学习步骤:将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
优选地,所述方法还包括:
摘要评价步骤:采用如下方式之一确定生成的摘要的质量:
通过统计生成的摘要与专利文本参考摘要之间的重复词的ROUGE系列指标的数值,确定生成的摘要的质量;
将生成的摘要中的句子进行向量化,计算其与专利文本参考摘要的句子的相似度,确定生成的摘要的质量。
优选地,获得所述专利文本参考摘要的方式包括:
权重提取步骤:根据专利文本的各个词语的属性,计算所述专利文本原文句子的权重;
参考摘要生成步骤:根据所述专利文本中各个原文句子的权重的排序,提取所述专利文本的参考摘要。
优选地,所述属性包括:词语长度、词性、词频。
优选地,所述基于RNN的Seq2Seq模型包括:
编码器:将输入的词汇表中的每个词汇编码成一个对应于当前所要输出序列的上下文信息长度的语义向量;和
解码器:将所述语义向量根据注意力机制的分布,生成概率最大的词语序列。
优选地,所述基于RNN的Seq2Seq模型采用以下步骤进行训练:
将每个词汇编码成一个序列;
将所述序列按照每一时刻的隐层状态,通过隐藏层向量计算所述序列对应的语义向量;
根据所述词汇表中每个词语的权重,确定每个输出词项的分布;
根据每个词语的隐藏层状态的关注程度,得到概率最大的词语序列。
优选地,所述半监督学习的自训练算法训练的深度学习网络采用以下步骤进行训练:
对有标签的训练数据进行训练得到一个自训练模型;
使用所述自训练模型预测所有未标记数据实例的类标签;在这些预测的类标签中,使用正确率最高的类标签作为未标记数据实例的伪标签;
将标记伪标签数据与有标签的训练数据组合后重新进行训练获得基于RNN的Seq2Seq模型。
优选地,对所述基于RNN的Seq2Seq模型进行训练后,还包括:
使用获得的基于RNN的Seq2Seq模型预测有标签的训练数据实例的类标签,根据预测的类标签与原有标签是否一致评估所述基于RNN的Seq2Seq模型的性能。
优选地,所述基于RNN的Seq2Seq模型采用以下步骤进行训练包括:
将每个词汇编码成一个序列,表示为X={x1,x2,...,xn},其中,所有词汇表中的词语中最长序列的长度作为统一长度,长度不够的序列在后面用标记补齐;
将输入序列X=(x1,x2,...,xn)输入到编码器端映射生成语义向量c,解码器在t时刻,当前时刻的输出yt是由语义向量c和t时刻之前的输出序列决定的,具体计算过程为:
c=f(x1,x2,...,xn)
yt=g(c,y1,y2,...,yt-1)
编码器根据当前时刻输入的词向量xi以及上一时刻的隐藏层状态hi-1来计算当前时刻的隐藏层状态hi
hi=l(xi,hi-1)
通过隐藏层向量计算语义向量c:
c=q({h1,…,hm})
其中,m为隐藏层状态的总数;
在解码端,由编码器生成的语义向量c和上一次生成的输出序列{y0,y1,...,yt-1}来计算当前时刻的输出yt,其解码过程具体如下:
在解码时刻t,根据语义向量c、上一时刻的隐藏层状态st-1和生成的上一个词项yt-1,计算当前隐藏层状态st
st=r(yt-1,st-1,c)
根据语义向量c、当前隐藏层状态st和生成的上一个词项yt-1,推导当前输出序列yt的分布:
P(yt/y<t,X)=g(yt-1,st,c)
其中,f(·)、l(·)q(·)和r(·)为非线性激活函数,P(·)为概率分布函数,表示生成每个yt的概率,g(·)是softmax函数,输出当前时刻生成的词项在词汇表中的概率分布,输出概率最大的对应词项;
计算h1~hm各个隐藏状态向量与解码器隐藏层状态v之间的相关程度,并通过softmax函数处理,得到每个隐层向量的权重:
Figure BDA0003238136520000041
eti=score(hi,st-1)
其中,eti是注意力得分,表示编码过程中时刻i附近的输入与解码过程中时刻t的输出之间的匹配程度,αti是注意力分布,表示在解码时刻t,解码器对编码输入每个词项的隐藏层状态hi的关注程度,所述αti为一个概率分布,输入序列的信息越重要,对应的词汇会被分到越高的权重,αti的值就越大;
对h1~hm进行加权求和得到此次解码所对应的语义向量ct:
Figure BDA0003238136520000042
每个输出词项的分布为:
p(yt/y<t,X)=g(yt-1,st,ct);
得到词语序列Z,公式如下:
Z=∑iαtihi,t=1,2...,n。
第二方面,本发明提供一种基于深度学习的专利文本摘要生成装置,包括:
数据采集模块:设置为对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
深度学习模块:设置为对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
半监督学习模块:设置为将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
本申请提出将半监督学习与深度学习相结合的自动摘要技术,即用有标签数据和无标签数据结合,训练基于RNN的Seq2Seq+Attention模型,生成的文本摘要不再仅仅是来自原文本的原词原句;重新生成一段能覆盖原文信息的新词新句;
本申请采用ROUGE系列指标作为摘要结果的评价标准,在此基础上,考虑到ROUGE指标依赖于参考摘要的优劣,本申请提出通过Word2Vec模型将生成摘要和重要句子向量化,计算其句子相似度,进而评价摘要质量,验证本申请所提出的模型的可行性和合理性。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的基于深度学习的专利文本摘要生成方法的示意性流程图;
图2是根据本申请一个实施例的Seq2Seq模型的框架示意图;
图3是根据本申请一个实施例的半监督学习的自训练Self-Training算法的示意性流程图;
图4是根据本申请一个实施例的基于半监督深度学习的自动文本摘要的示意性流程图;
图5是根据本申请一个实施例的编码端流程图;
图6是根据本申请一个实施例的解码端流程图;
图7是根据本申请一个实施例的基于深度学习的专利文本摘要生成装置的结构示意图;
图8是根据本申请实施例的第一种计算机可读存储介质的示意性结构框图;
图9是根据本申请实施例的第二种计算机可读存储介质的示意性结构框图。
具体实施方式
图1是根据本申请一个实施例的基于深度学习的专利文本摘要生成方法,一般性的可以包括步骤S101至步骤S103:
S101、数据采集步骤:对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
S102、深度学习步骤:对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
S103、半监督学习步骤:将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
本申请提供一种针对专利数据的摘要生成方法,可以发掘出专利文本中的实用内容;可以准确获取专利文本的重要信息,可以帮助专利人员或技术研发人员了解专利核心技术。本申请可以生成较高质量的摘要。
一般文本摘要生成方法可分为有监督学习、无监督学习和半监督学习。其中,有监督学习都是用包含实例和标签的数据对来学习特征的,无监督方法不需要任何训练数据,仅通过检索文档即可生成摘要,半监督方法同时需要有标签数据和无标签数据,在训练过程中逐步将无标签数据加入训练集中。本申请利用半监督方法进行训练。
本发明实施例中,所述方法还包括:
S104、摘要评价步骤:采用如下方式之一确定生成的摘要的质量:
通过统计生成的摘要与专利文本参考摘要之间的重复词的ROUGE系列指标的数值,确定生成的摘要的质量;
将生成的摘要中的句子进行向量化,计算其与专利文本参考摘要的句子的相似度,确定生成的摘要的质量。
本申请采用ROUGE系列指标作为摘要结果的评价标准,在此基础上,本申请还可以通过Word2Vec模型将生成的摘要和参考摘要的重要句子向量化,计算其句子相似度,进而评价摘要质量。
本发明实施例中,步骤S104中获得所述专利文本参考摘要的方式包括:
权重提取步骤:根据专利文本的各个词语的属性,计算所述专利文本原文句子的权重;
参考摘要生成步骤:根据所述专利文本中各个原文句子的权重的排序,提取所述专利文本的参考摘要。
本申请中,专利文本参考摘要获取的过程采用无监督学习的方式,其中,无监督学习(Unsupervised Learning)是人工智能的一种算法,它直接对原始数据进行处理,学习数据内部特征。无监督学习并不知道预测结果是否正确,其特点是仅对训练网络提供输入实例,而它会自己主动从这些实例中找出其潜在特征。本申请把句子作为节点,根据节点间的连接关系计算各个句子的权值,权值用句子相似度来表示,通过循环迭代计算句子的权值,根据权值大小降序排列,选取排名靠前的句子组成文本的参考摘要。
本发明实施例中,权重提取所需的所述属性包括:词语长度、词性、词频。
如图2所示,本发明实施例中,所述基于RNN的Seq2Seq模型包括:
编码器:将输入的词汇表中的每个词汇编码成一个对应于当前所要输出序列的上下文信息长度的语义向量;和
解码器:将所述语义向量根据注意力机制的分布,生成概率最大的词语序列。
本申请中,基于RNN的Seq2Seq模型主要包含两个模块:编码器(Encoder)和解码器(Decoder),其中编码器是指将输入序列编码成一个能够映射出它的大致内容的向量,这里被称为语义向量,解码器是将语义向量再还原成对应的输出。
本发明实施例中,步骤S102中的所述基于RNN的Seq2Seq模型采用以下步骤进行训练:
将每个词汇编码成一个序列;
将所述序列按照每一时刻的隐层状态,通过隐藏层向量计算所述序列对应的语义向量;
根据所述词汇表中每个词语的权重,确定每个输出词项的分布;
根据每个词语的隐藏层状态的关注程度,得到概率最大的词语序列。
如图3所示,本发明实施例中,步骤S103中的所述半监督学习的自训练算法训练的深度学习网络采用以下步骤进行训练:
对有标签的训练数据进行训练得到一个自训练模型;
使用所述自训练模型预测所有未标记数据实例的类标签;在这些预测的类标签中,使用正确率最高的类标签作为未标记数据实例的伪标签;
将标记伪标签数据与有标签的训练数据组合后重新进行训练获得基于RNN的Seq2Seq模型。
本发明实施例,对所述基于RNN的Seq2Seq模型进行训练后,还包括:
使用获得的基于RNN的Seq2Seq模型预测有标签的训练数据实例的类标签,根据预测的类标签与原有标签是否一致评估所述基于RNN的Seq2Seq模型的性能。
本申请采用半监督学习的自训练算法训练的深度学习网络,其中半监督学习是综合有监督学习和无监督学习的训练方法,有监督学习是机器学习中经常使用的方法,它是基于有标签样本训练的,而无监督学习都是基于无标签样本的,也就是说,直接对样本处理即可。在实际问题中,给定的样本集可能是不知道标签分类结果的,半监督学习可以忽视这些问题,同时有效结合有标签数据和无标签数据的信息来学习。
其中,有监督学习可以从已知数据集中学到或建立一个模型,并根据模型推测出新数据对应的输出。有监督学习数据集中的每个样本都是成对存在的,每对包含一个实例和一个标签,由已知特征和预期输出所组成。
半监督学习(Semi-Supervised Learning)是结合有标签和无标签数据如何改变学习行为,并设计利用这种结合的算法。当有标记的数据稀缺或昂贵时,半监督学习可以使用现成的无标记数据来改善监督学习任务。半监督学习也显示出了作为类别学习的量化工具的潜力。
本申请半监督学习的自训练算法训练的深度学习网络训练时,首先利用有标签数据训练出一个模型,然后用这个模型预测无标签数据的“伪标签”,挑选出预测结果置信度最高的无标签样本,与它们的预测标记一起加入训练集。然后模型重新训练,迭代这个过程。具体地:
(1)对有标签的训练数据进行模型训练得到一个模型;
(2)使用经过训练得到的模型来预测所有未标记数据实例的类标签;在这些预测的类标签中,正确率最高的被认为是“伪标签”,所有预测的标签可以同时作为“伪标签”使用;
(3)将“伪标签”数据与正确标记的训练数据连接起来,在组合的“伪标签”和正确标记训练数据上重新训练模型;
(4)使用经过训练的模型来预测已标记的测试数据实例的类标签,并根据一定的度量来评估模型的性能。
本发明实施例中,步骤S103中所述基于RNN的Seq2Seq模型采用以下步骤进行训练包括:
将每个词汇编码成一个序列,表示为X={x1,x2,...,xn},其中,所有词汇表中的词语中最长序列的长度作为统一长度,长度不够的序列在后面用标记补齐;
将输入序列X=(x1,x2,...,xn)输入到编码器端映射生成语义向量c,解码器在t时刻,当前时刻的输出yt是由语义向量c和t时刻之前的输出序列决定的,具体计算过程为:
c=f(x1,x2,...,xn)
yt=g(c,y1,y2,...,yt-1)
编码器根据当前时刻输入的词向量xi以及上一时刻的隐藏层状态hi-1来计算当前时刻的隐藏层状态hi
hi=l(xi,hi-1)
通过隐藏层向量计算语义向量c:
c=q({h1,…,hm})
其中,m为隐藏层状态的总数;
在解码端,由编码器生成的语义向量c和上一次生成的输出序列{y0,y1,...,yt-1}来计算当前时刻的输出yt,其解码过程具体如下:
在解码时刻t,根据语义向量c、上一时刻的隐藏层状态st-1和生成的上一个词项yt-1,计算当前隐藏层状态st
st=r(yt-1,st-1,c)
根据语义向量c、当前隐藏层状态st和生成的上一个词项yt-1,推导当前输出序列yt的分布:
P(yt/y<t,X)=g(yt-1,st,c)
其中,f(·)、l(·)q(·)和r(·)为非线性激活函数,P(·)为概率分布函数,表示生成每个yt的概率,g(·)是softmax函数,输出当前时刻生成的词项在词汇表中的概率分布,输出概率最大的对应词项;
计算h1~hm各个隐藏状态向量与解码器隐藏层状态v之间的相关程度,并通过softmax函数处理,得到每个隐层向量的权重:
Figure BDA0003238136520000091
eti=score(hi,st-1)
其中,eti是注意力得分,表示编码过程中时刻i附近的输入与解码过程中时刻t的输出之间的匹配程度,αti是注意力分布,表示在解码时刻t,解码器对编码输入每个词项的隐藏层状态hi的关注程度,所述αti为一个概率分布,输入序列的信息越重要,对应的词汇会被分到越高的权重,αti的值就越大;
对h1~hm进行加权求和得到此次解码所对应的语义向量ct:
Figure BDA0003238136520000101
每个输出词项的分布为:
p(yt/y<t,X)=g(yt-1,st,ct);
得到词语序列Z,公式如下:
Z=∑iαtihi,t=1,2...,n。
如图4所示,本申请的基于半监督深度学习的自动文本摘要技术主要包含数据采集及预处理、关键词及重要句子提取、半监督算法训练网络、模型评估、摘要质量评价。其中,数据采集及预处理,主要包含收集某一领域的专利文本数据,分别整理专利数据的正文文本和摘要文本,然后对其进行文本分词,过滤掉停用词后建立词汇表,将处理好的正文文本和摘要文本作为训练语料;关键词及重要句子提取,计算正文文本中各个词语的权重,依据权重大小筛选关键词,然后根据句子中关键词的数量及质量衡量每个句子的权重,进而从正文中提取出若干个重要句子;构建深度学习网络,采用序列到序列模型,编码器和解码器均由多层RNN构成,同时引入注意力机制,从而学习专利正文文本及摘要文本的特征;半监督算法训练网络,深度学习网络是由RNN构成,网络的训练方法采用自训练算法,经过不断训练后得到最终的模型;模型评估及摘要质量评价,通过生成一个最大概率的词语序列作为生成的摘要结果,并用ROUGE和句子相似度等指标对生成的摘要进行质量评价,通过生成摘要的质量评估模型的好坏。
本申请采用Seq2Seq+Attention模型,创建基于RNN的深度学习模型,主要步骤如下:
(1)文本嵌入:在专利文本数据输入Seq2Seq模型前,要将专利文本转化为向量的形式。数据预处理阶段已经完成分词并建立了词汇表,并将不在词汇表中的词语和每个文本的末尾分别用UNK和EOS标记。将一个序列X=(x1,x2,...,xn)作为一个批量,其中最长序列的长度作为它们的统一长度,长度不够的序列在后面用PAD标记补齐。假设当前的最大序列长度为500,批量大小为20,输入一个文本序列(c1,c2,...,cn,0≤n≤500),则一个批量可表示为:
Figure BDA0003238136520000111
其中,每个文本序列n的取值根据文本长度有所不同。
(2)将(1)得到的文本向量输入编码端,在这个过程中会计算每一时刻的隐层状态,由公式hi=l(xi,hi-1)可以得到。编码端流程如图5所示。解码端经过公式
Figure BDA0003238136520000112
eti=score(hi,st-1)
Figure BDA0003238136520000113
计算得到可变的语义向量ct,其中,eti是注意力得分,表示编码过程中时刻i附近的输入与解码过程中时刻t的输出之间的匹配程度,αti是注意力分布,表示在解码时刻t,解码器对编码输入每个词项的隐藏层状态hi的关注程度,可以把αti看作一个概率分布,输入序列的信息越重要,它就会被分到越高的权重,αti的值就越大。
对的输出结果再进行归一化操作,最终通过公式p(yt/y<t,X)=g(yt-1,st,ct)计算得到生成词表中每个词语的权重,其中g(·)通常是softmax函数。解码端流程如图6所示。
(3)注意力机制根据隐层状态{h1,…,hm}和语义向量ct,最终得到向量Z,Z是隐藏层状态hi的加权平均值,其中hi是编码端i时刻的隐藏层状态,接着,通过公式eti=score(hi,st-1)得到序列{e1i,e2i,...,eti},公式
Figure BDA0003238136520000114
计算后,就得到注意力的概率分布,则最终得到输出值Z,公式如下:
Z=∑iαtihi,t=1,2...,n
其中,αti表示解码器对编码输入每个词项的隐藏层状态hi的关注程度。
(4)Self-Training算法训练网络。主要是用有标签数据作为训练集训练模型,然后预测无标签数据,将预测结果置信度较高的无标签数据与有标签数据结合重新作为训练集,更新训练模型,直到没有无标签数据加入训练集为止,最后一步后即可得到最终的模型。
如图7所示,本发明实施例还提供一种基于深度学习的专利文本摘要生成装置,包括:
数据采集模块100:设置为对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
深度学习模块200:设置为对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
半监督学习模块300:设置为将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
本申请实施例还提供了一种计算设备,参照图8,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图9,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于深度学习的专利文本摘要生成方法,包括:
数据采集步骤:对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
深度学习步骤:对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
半监督学习步骤:将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
摘要评价步骤:采用如下方式之一确定生成的摘要的质量:
通过统计生成的摘要与专利文本参考摘要之间的重复词的ROUGE系列指标的数值,确定生成的摘要的质量;
将生成的摘要中的句子进行向量化,计算其与专利文本参考摘要的句子的相似度,确定生成的摘要的质量。
3.根据权利要求2所述的方法,其特征在于,获得所述专利文本参考摘要的方式包括:
权重提取步骤:根据专利文本的各个词语的属性,计算所述专利文本原文句子的权重;
参考摘要生成步骤:根据所述专利文本中各个原文句子的权重的排序,提取所述专利文本的参考摘要。
4.根据权利要求3所述的方法,其特征在于,所述属性包括:词语长度、词性、词频。
5.根据权利要求1所述的方法,其特征在于,所述基于RNN的Seq2Seq模型包括:
编码器:将输入的词汇表中的每个词汇编码成一个对应于当前所要输出序列的上下文信息长度的语义向量;和
解码器:将所述语义向量根据注意力机制的分布,生成概率最大的词语序列。
6.根据权利要求1所述的方法,其特征在于,所述基于RNN的Seq2Seq模型采用以下步骤进行训练:
将每个词汇编码成一个序列;
将所述序列按照每一时刻的隐层状态,通过隐藏层向量计算所述序列对应的语义向量;
根据所述词汇表中每个词语的权重,确定每个输出词项的分布;
根据每个词语的隐藏层状态的关注程度,得到概率最大的词语序列。
7.根据权利要求1所述的方法,其特征在于,所述半监督学习的自训练算法训练的深度学习网络采用以下步骤进行训练:
对有标签的训练数据进行训练得到一个自训练模型;
使用所述自训练模型预测所有未标记数据实例的类标签;在这些预测的类标签中,使用正确率最高的类标签作为未标记数据实例的伪标签;
将标记伪标签数据与有标签的训练数据组合后重新进行训练获得基于RNN的Seq2Seq模型。
8.根据权利要求7所述的方法,其特征在于,对所述基于RNN的Seq2Seq模型进行训练后,还包括:
使用获得的基于RNN的Seq2Seq模型预测有标签的训练数据实例的类标签,根据预测的类标签与原有标签是否一致评估所述基于RNN的Seq2Seq模型的性能。
9.根据权利要求6所述的方法,其特征在于,所述基于RNN的Seq2Seq模型采用以下步骤进行训练包括:
将每个词汇编码成一个序列,表示为X={x1,x2,...,xn},其中,所有词汇表中的词语中最长序列的长度作为统一长度,长度不够的序列在后面用标记补齐;
将输入序列X=(x1,x2,...,xn)输入到编码器端映射生成语义向量c,解码器在t时刻,当前时刻的输出yt是由语义向量c和t时刻之前的输出序列决定的,具体计算过程为:
c=f(x1,x2,...,xn)
yt=g(c,y1,y2,...,yt-1)
编码器根据当前时刻输入的词向量xi以及上一时刻的隐藏层状态hi-1来计算当前时刻的隐藏层状态hi
hi=l(xi,hi-1)
通过隐藏层向量计算语义向量c:
c=q({h1,…,hm})
其中,m为隐藏层状态的总数;
在解码端,由编码器生成的语义向量c和上一次生成的输出序列{y0,y1,…,yt-1}来计算当前时刻的输出yt,其解码过程具体如下:
在解码时刻t,根据语义向量c、上一时刻的隐藏层状态st-1和生成的上一个词项yt-1,计算当前隐藏层状态st
st=r(yt-1,st-1,c)
根据语义向量c、当前隐藏层状态st和生成的上一个词项yt-1,推导当前输出序列yt的分布:
P(yt/y<t,X)=g(yt-1,st,c)
其中,f(·)、l(·)q(·)和r(·)为非线性激活函数,P(·)为概率分布函数,表示生成每个yt的概率,g(·)是softmax函数,输出当前时刻生成的词项在词汇表中的概率分布,输出概率最大的对应词项;
计算h1~hm各个隐藏状态向量与解码器隐藏层状态v之间的相关程度,并通过softmax函数处理,得到每个隐层向量的权重:
Figure FDA0003238136510000031
eti=score(hi,st-1)
其中,eti是注意力得分,表示编码过程中时刻i附近的输入与解码过程中时刻t的输出之间的匹配程度,αti是注意力分布,表示在解码时刻t,解码器对编码输入每个词项的隐藏层状态hi的关注程度,所述αti为一个概率分布,输入序列的信息越重要,对应的词汇会被分到越高的权重,αti的值就越大;
对h1~hm进行加权求和得到此次解码所对应的语义向量ct:
Figure FDA0003238136510000032
每个输出词项的分布为:
p(yt/y<t,X)=g(yt-1,st,ct);
得到词语序列Z,公式如下:
Z=∑iαtihi,t=1,2...,n。
10.一种基于深度学习的专利文本摘要生成装置,包括:
数据采集模块:设置为对所述专利文本进行文本分词,过滤掉停用词后建立词汇表;
深度学习模块:设置为对于每个词汇表中的词汇,通过词嵌入将分词后的词语以向量的形式表示,输入到基于RNN的Seq2Seq模型中,并引入注意力机制,根据输入序列的文本特征得到组成所述专利文本摘要的词语序列;
半监督学习模块:设置为将组成所述专利文本摘要的词语序列,输入半监督学习的自训练算法训练的深度学习网络,输出生成概率最大的词语序,进而组成所述专利文本的摘要结果。
CN202111009517.3A 2021-08-31 2021-08-31 一种基于深度学习的专利文本摘要生成方法和装置 Pending CN113836896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111009517.3A CN113836896A (zh) 2021-08-31 2021-08-31 一种基于深度学习的专利文本摘要生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111009517.3A CN113836896A (zh) 2021-08-31 2021-08-31 一种基于深度学习的专利文本摘要生成方法和装置

Publications (1)

Publication Number Publication Date
CN113836896A true CN113836896A (zh) 2021-12-24

Family

ID=78961687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111009517.3A Pending CN113836896A (zh) 2021-08-31 2021-08-31 一种基于深度学习的专利文本摘要生成方法和装置

Country Status (1)

Country Link
CN (1) CN113836896A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028620A (zh) * 2023-02-20 2023-04-28 知呱呱(天津)大数据技术有限公司 一种基于多任务特征协同的生成专利摘要的方法及***
CN116167344A (zh) * 2023-02-17 2023-05-26 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法
CN117391082A (zh) * 2023-12-11 2024-01-12 中水北方勘测设计研究有限责任公司 一种长篇工程设计报告中综合说明自动生成方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116167344A (zh) * 2023-02-17 2023-05-26 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法
CN116167344B (zh) * 2023-02-17 2023-10-27 广州市奇之信息技术有限公司 一种深度学习创造性科学技术文本自动生成方法
CN116028620A (zh) * 2023-02-20 2023-04-28 知呱呱(天津)大数据技术有限公司 一种基于多任务特征协同的生成专利摘要的方法及***
CN116028620B (zh) * 2023-02-20 2023-06-09 知呱呱(天津)大数据技术有限公司 一种基于多任务特征协同的生成专利摘要的方法及***
CN117391082A (zh) * 2023-12-11 2024-01-12 中水北方勘测设计研究有限责任公司 一种长篇工程设计报告中综合说明自动生成方法及***
CN117391082B (zh) * 2023-12-11 2024-02-13 中水北方勘测设计研究有限责任公司 一种长篇工程设计报告中综合说明自动生成方法及***

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111291188B (zh) 一种智能信息抽取方法及***
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN111914062B (zh) 一种基于关键词的长文本问答对生成***
CN110688836A (zh) 基于监督学习的领域词典自动化构建方法
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及***
CN111738007A (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及***
CN113722494A (zh) 一种基于自然语言理解的设备故障定位方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及***
CN115600602A (zh) 一种长文本的关键要素抽取方法、***及终端设备
CN115544999A (zh) 一种面向领域的并行大规模文本查重方法
CN115017260A (zh) 一种基于子主题建模的关键词生成方法
CN110717015B (zh) 一种基于神经网络的多义词识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination