CN115525757A - 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法 - Google Patents

合同摘要的生成方法和装置、合同关键信息提取模型的训练方法 Download PDF

Info

Publication number
CN115525757A
CN115525757A CN202211230711.9A CN202211230711A CN115525757A CN 115525757 A CN115525757 A CN 115525757A CN 202211230711 A CN202211230711 A CN 202211230711A CN 115525757 A CN115525757 A CN 115525757A
Authority
CN
China
Prior art keywords
contract
text
key information
target
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211230711.9A
Other languages
English (en)
Inventor
赵欢
邢振
孙晓韩
刘备
夏昌吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Agilestar Technology Co ltd
Original Assignee
Beijing Agilestar Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Agilestar Technology Co ltd filed Critical Beijing Agilestar Technology Co ltd
Priority to CN202211230711.9A priority Critical patent/CN115525757A/zh
Publication of CN115525757A publication Critical patent/CN115525757A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种合同摘要的生成方法和装置、合同关键信息提取模型的训练方法。该方法包括:获取目标合同文本以及针对目标合同文本的问题文本;根据目标合同文本的合同实体,从语料库中获取与所述目标合同文本相关的关键信息文档;根据所述关键信息文档,对所述目标合同文本进行段落筛选处理,获取所述目标合同文本的多个文档段落;采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息;根据所述目标合同关键信息,生成针对所述目标合同文本的合同摘要。本申请实施例按用户所喜闻乐见的格式生成合同摘要,很大程度降低了人工提炼合同摘要的成本,提高了效率,进而能够提高用户阅读合同的效率。

Description

合同摘要的生成方法和装置、合同关键信息提取模型的训练 方法
技术领域
本申请涉及数据处理技术领域,尤其涉及一种合同摘要的生成方法和装置、合同关键信息提取模型的训练方法。
背景技术
随着无纸化的推行,越来越多的文档以电子文档的方式展现在我们生活、工作中。电子合同的产生,简化了合同签约流程,提供了签约效率,帮助企业降低了成本。
当用户查看电子合同时,同时需要快速了解合同的主要内容,因此需要针对合同生成合同摘要,即,针对合同内容中签订合同的目的、依据的原则、合同概况等主要内容简单扼要的描述。
目前,一般采取人工的方式对合同内容进行提炼,人工撰写合同摘要,效率非常低。
发明内容
本申请实施例提供一种合同摘要的生成方法和装置、合同关键信息提取模型的训练方法,以解决现有技术中人工撰写合同摘要效率低的缺陷。
为达到上述目的,本申请实施例提供了一种合同摘要的生成方法,包括:
获取目标合同文本以及针对所述目标合同文本的问题文本,其中,所述问题文本为用户针对所述目标合同文本欲获取的信息要求;
根据所述目标合同文本的合同实体,从语料库中获取与所述目标合同文本相关的关键信息文档;
根据所述关键信息文档,对所述目标合同文本进行段落筛选处理,获取所述目标合同文本的多个文档段落;
采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息;
根据所述目标合同关键信息,生成针对所述目标合同文本的合同摘要。
本申请实施例还提供了一种合同摘要的生成装置,包括:
预处理模块,用于获取目标合同文本以及针对所述目标合同文本的问题文本,其中,所述问题文本为用户针对所述目标合同文本欲获取的信息要求;
文档召回模块,用于根据所述目标合同文本的合同实体,从语料库中获取与所述目标合同文本相关的关键信息文档;
段落筛选模块,用于根据所述关键信息文档,对所述目标合同文本进行段落筛选处理,获取所述目标合同文本的多个文档段落;
阅读理解模块,用于采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息;
摘要生成模块,用于根据所述目标合同关键信息,生成针对所述目标合同文本的合同摘要。
本申请实施例还提供了一种合同关键信息提取模型的训练方法,包括:
获取训练数据,其中,所述训练数据包括多组合同文本及与所述合同文本对应的问题文本,且所述合同文本中标注有与所述问题文本对应的目标关键信息;
针对所述训练数据进行下述迭代操作:
根据所述合同文本的合同实体,从语料库中获取与所述合同文本相关的关键信息文档;
根据所述关键信息文档,对所述合同文本进行段落筛选处理,获取所述合同文本的多个文档段落;
采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述合同文本的候选关键信息;
计算所述候选关键信息与所述目标关键信息的匹配度;
当所述匹配度低于所述训练阈值,调整所述神经网络模型的参数;
当所述匹配度不低于所述训练阈值,和/或迭代次数超过预设次数阈值时,结束所述迭代操作;
将采用最后一轮迭代操作所使用的参数的所述神经网络模型,确定为所述合同关键信息提取模型。
本申请实施例还提供了一种合同摘要的生成方法,包括:
获取目标合同文本以及针对所述目标合同文本的问题文本,其中,所述问题文本为用户针对所述目标合同文本欲获取的信息要求;
对所述目标合同文本进行解析,以确定所述目标合同文本的合同类型;
根据所述合同类型获取对应的合同关键信息提取模型,其中所述对应的合同关键信息提取模型是使用上述的合同关键信息提取模型的训练方法获得的;
根据所述目标合同文本的合同实体,从语料库中获取与所述目标合同文本相关的关键信息文档;
根据所述关键信息文档,对所述目标合同文本进行段落筛选处理,获取所述目标合同文本的多个文档段落;
采用所述对应的合同关键信息提取模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息;
根据所述目标合同关键信息,生成针对所述目标合同文本的合同摘要。
本申请实施例还提供了一种电子设备,包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,所述程序运行时执行本申请实施例提供的合同摘要的生成方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有可被处理器执行的计算机程序,其中,该程序被处理器执行时实现如本申请实施例提供的合同摘要的生成方法。
本申请实施例提供的合同摘要的生成方法和装置、合同关键信息提取模型的训练方法,通过采用基于阅读理解的神经网络模型,按照问答的方式,根据用户特定的信息要求,组织目标合同的关键信息,从而按用户所喜闻乐见的格式生成合同摘要,很大程度降低了人工提炼合同摘要的成本,提高了效率,进而能够提高用户阅读合同的效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请提供的合同摘要的生成方法一个实施例的流程图;
图2为本申请实施例提供的合同摘要生成方案的框架示意图;
图3为本申请提供的合同摘要的生成装置的一个实施例的结构示意图;
图4为本申请提供的电子设备实施例的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
实施例一
图1为本申请提供的合同摘要的生成方法一个实施例的流程图。该方法的执行主体可以为具有数据处理能力的服务器设备,也可以为集成在这些设备上的装置或芯片。如图1所示,该合同摘要的生成方法包括如下步骤:
S101,获取目标合同文本以及针对目标合同文本的问题文本。
在本申请实施例中,问题文本为用户针对目标合同文本欲获取的信息要求。当用户欲针对目标合同生成合同摘要时,首先,确定用户想要获取哪些方面的信息,即,获取用户针对目标合同文本的问题文本。
S102,根据目标合同文本的合同实体,从语料库中获取与目标合同文本相关的关键信息文档。
在本申请实施例中,当用户输入目标合同文本和问题文本后,可以对目标合同文本进行实体抽取处理,以获取目标合同中的各合同实体。然后,根据抽取到的各合同实体,从预先设置的语料库中获取与目标合同文本相关的关键信息文档。
在本申请实施例中,语料库可以预先构建,例如,可以预先获取多个合同文件数据。然后,对各个合同文件数据进行解析,得到文本信息。进而,对文本信息进行标注处理,得到标注后的语料,从而形成语料库。同时,语料库中还标注有多个合同实体,以及与各合同实体所相关的关键信息文档。因此,在步骤S102中,可以根据目标合同文本中抽取出的文本实体,从语料库中获取与该目标合同文本相关的关键信息文档。
S103,根据关键信息文档,对目标合同文本进行段落筛选处理,获取目标合同文本的多个文档段落。
在本申请实施例中,可以按条款文档结构对长篇幅的目标合同文本进行段落划分,进一步地,根据从语料库中获取到的关键信息文档,对划分后的段落进行匹配筛选,从而筛选出多个有关的文档段落,以减少阅读理解模型的计算量。
S104,采用神经网络模型对文档段落和问题文本进行处理,以获取针对目标合同文本的目标合同关键信息。
在本申请实施例中,可以采用基于阅读理解的神经网络模型对文档段落和问题文本进行处理,以输出针对目标合同文本的目标合同关键信息。该基于阅读理解的神经网络模型可以由上述预先构建的语料库中的语料进行训练而获得。例如,可以将70%的语料作为训练集,将30%的语料作为验证集,从而不断对神经网络模型的训练结果进行修正,以提高模型输出的准确度。本申请实施例中,在将文档段落和问题文本输入训练好的神经网络模型后,模型通过计算将输出针对该目标合同文本的关键信息。
具体地,神经网络模型对文档进行处理时,所执行的操作可以包括如下步骤:
对文档段落和问题文本分别进行向量化处理,生成文档向量和问题向量;
对文档向量和问题向量分别进行特征提取处理,生成文档特征向量和问题特征向量;
对文档特征向量和问题特征向量进行注意力计算,获取文档段落和问题文本中每个词之间的相关度信息;
根据相关度信息,采用边界模型预测目标合同文本的目标合同关键信息。
在本申请实施例中,神经网络模型可以包括表示层、编码层、交互层和预测层。其中,表示层对文档段落和问题文本分别进行向量化处理,生成文档向量和问题向量。即,在表示层中,将合同自然语言文本序列转为固定维度的向量表示,以便模型进行后续处理。常见的嵌入表示有one-hot表示和word2vec、gloVe等词向量表示,这类表示方法可以有效表示高维空间汇总词语的语义信息,但无法捕捉词语的上下文信息。
每个词都假设只有一个特定的嵌入向量表示,这显然还是不太符合人们的语言习惯,因为有时候同一个词语会有不同的意思,也就是一词多义,不论是中文英文都有这现象。例如单独看一个词语Apple,读者无法确定这个词语含义是“苹果”还是“苹果公司”,单词表示固然重要,但是必须的结合上下文才能具体表达含义。也就是该词向量一旦训练完成,词向量都是不会变化了的,不论将来使用的上下文如何变化,词向量依然保持数值不变。这个数值不变,带来的影响就是词向量没有很好携带上下文的信息,是独立于上下文的存在。
因此,本申请实施例采用ElMo表示方法,使每个词蕴含上下文语义信息。另外,也将一些词性、句法特征引入至模型中,进一步增强语义表征。
然后,编码层对文档向量和问题向量分别进行特征提取处理,生成文档特征向量和问题特征向量。即,在编码层中,进一步赋予每一个词更丰富的上下文信息,本申请实施例中编码层可以由卷积神经网络、循环神经网络及其变体和基于多头注意力机制的Transformer结构构成。虽然CNN结构能捕捉序列的局部特征,但处理长距离依赖关系具有局限性,RNN结构具有处理序列数据优势,为了解决梯度***/消失问题和并行计算缺陷,Transformer结构兼具并行计算和长距离特征捕获能力,因此可以选用Transformer特征提取器对合同文档特征进行特征捕获。
然后,交互层对文档特征向量和问题特征向量进行注意力计算,获取文档段落和问题文本中每个词之间的相关度信息。即,在交互层中,捕获文档和问题的关系,按交互范式分为一维匹配模型和二维匹配模式。一维匹配模型,将文档每个词上下文编码,保留每一时间步输出,对问题则进行整体语义编码,按匹配函数计算文档每一词义和问题整体语义的匹配程度,如Attention Sum Reader。二维匹配模型则同时保留文档和问题每一时间步的语义,通过匹配函数得出二维匹配矩阵,再按行或列进行Attention计算,刻画文档和问题每一词之间的语义相关程度,如BiDAF模型。
然后,预测层根据相关度信息,采用边界模型预测目标合同文本的目标合同关键信息。即,在预测层中,预测答案的边界。预测层一般采用序列模型或边界模型预测,其中序列模型对文档序列每一个词进行BIO预测,而边界模型使用两个分类器独立预测答案开始和结束位置。相比而言,边界模型搜索空间更小,故本申请实施例可以采用边界模型进行预测。
具体地,预测层在采用边界模型预测目标合同文本的目标合同关键信息时,可以具体包括如下操作:
根据相关度信息,采用边界模型预测目标合同文本的候选答案片段;
计算文档段落的段落得分;
计算神经网络模型的模型得分;
计算问题文本与候选答案片段的问答相关度得分;
根据段落得分、模型得分和问答相关度得分,对候选答案片段进行排序;
根据排序结果,生成目标合同关键信息。
在本申请实施例中,可以基于BERT的阅读理解模型和语言学规则完成答案片段定位,得到候选答案片段。然后,融合段落得分、阅读理解模型得分、问题和答案语义相关度得分进行候选答案排序。根据标注的相关关键信息,输出最终答案,即得到用户想要提取的目标合同关键信息。
另外,在步骤S104采用神经网络模型对文档段落和所述问题文本进行处理之前,还可以从问题文本中抽取关键词;然后,根据关键词,采用标准问题库对问题文本进行标准化处理。也就是说,在本申请实施例中,可以预先构建标准问题库,设置标准化的问题文本。当用户输入非结构化的问题文本时,首先抽取其中的关键词,采用关键词匹配的方式,在标准问题库中获取与用户输入的问题文本相匹配的标准化文本,从而将用户自定义的问题文本归一化,以降低阅读理解难度。
S105,根据目标合同关键信息,生成针对目标合同文本的合同摘要。
在本申请实施例中,在获取到目标合同文本的目标合同关键信息后,可以根据目标合同文本的合同类型信息,获取与该合同类型信息对应的合同摘要模板。然后,将目标合同关键信息填入该合同摘要模板,从而得到合同摘要。在本申请实施例中,可以根据不同类型的合同,制定不同内容的合同摘要模板。最后,调用阅读理解模型,将提取出来的目标合同关键信息填入合同摘要摸板中,得到不同类型合同的合同摘要。
图2为本申请实施例提供的合同摘要生成方案的框架示意图。如图2所示,当用户输入目标合同文本及相应的问题文本后,可以在预处理阶段执行针对目标合同文本的实体抽取操作,针对问题文本的关键词提取操作,以及针对问题文本的问句归一化处理。
在预先构建语料库时,可以构建标准问题集和文档集,其中标准问题集用于设置标准化的问题文本,以用于将用户输入非结构化的问题文本转化为相应的标准化文本,从而将用户自定义的问题文本归一化,以降低阅读理解难度。另一方面,文档集中包含有针对多个合同文件数据的文本信息进行标注的语料,以用于对神经网络模型进行训练和验证,以提高模型输出的准确度。另外,文档集中还包含有多个合同实体,以及与各合同实体所相关的关键信息文档,以用于提供与目标合同文本相关的关键信息文档。
在预处理之后,进行文档召回操作,也就是说,根据预处理阶段抽取到的合同实体,从语料库中获取与目标合同文本相关的关键信息文档。然后,对获取到的关键信息文档进行分词、关键字提取等相关操作。
然后,进行段落筛选操作,具体地,可以按条款文档结构对长篇幅的目标合同文本进行段落划分,进一步地,根据从语料库中获取到的关键信息文档,对划分后的段落进行匹配筛选,例如,可以通过对用户输入的问题文本的关键词和段落内的关键词进行相关度匹配,从而筛选出多个有关的文档段落,以减少阅读理解模型的计算量。
在进行完上述操作后,将标准化的问题文本和筛选出的文档段落输入到神经网络模型进行处理。具体地,可以采用基于BERT或ALBERT的阅读理解模型,并采用语言学规则进行规则裁剪,从而完成答案片段定位,得到候选答案片段。然后,融合段落得分、阅读理解模型得分、问题和答案语义相关度得分进行候选答案排序。根据标注的相关关键信息,输出最终答案,即得到用户想要提取的目标合同关键信息。
最后,获取与目标合同文本的合同类型对应的合同摘要模板。然后,将目标合同关键信息填入该合同摘要模板,从而得到合同摘要。
本申请实施例提供的合同摘要的生成方法,通过采用基于阅读理解的神经网络模型,按照问答的方式,根据用户特定的信息要求,组织目标合同的关键信息,从而按用户所喜闻乐见的格式生成合同摘要,很大程度降低了人工提炼合同摘要的成本,提高了效率,进而能够提高用户阅读合同的效率。
实施例二
图3为本申请提供的合同摘要的生成装置的一个实施例的结构示意图。如图3所示,本申请实施例提供的合同摘要的生成装置包括:预处理模块31、文档召回模块32、段落筛选模块33、阅读理解模块34和摘要生成模块35。
其中,预处理模块31用于获取目标合同文本以及针对目标合同文本的问题文本;
文档召回模块32用于根据目标合同文本的合同实体,从语料库中获取与目标合同文本相关的关键信息文档;
段落筛选模块33用于根据关键信息文档,对目标合同文本进行段落筛选处理,获取目标合同文本的多个文档段落;
阅读理解模块34用于采用神经网络模型对文档段落和问题文本进行处理,以获取针对目标合同文本的目标合同关键信息;
摘要生成模块35用于根据目标合同关键信息,生成针对目标合同文本的合同摘要。
在本申请实施例中,问题文本为用户针对目标合同文本欲获取的信息要求。当用户欲针对目标合同生成合同摘要时,首先,确定用户想要获取哪些方面的信息,即,获取用户针对目标合同文本的问题文本。因此,预处理模块31首先获取目标合同文本以及针对目标合同文本的问题文本。预处理模块31可以对目标合同文本进行实体抽取处理,以获取目标合同中的各合同实体。然后,文档召回模块32根据抽取到的各合同实体,从预先设置的语料库中获取与目标合同文本相关的关键信息文档。
在本申请实施例中,语料库可以预先构建,例如,可以预先获取多个合同文件数据。然后,对各个合同文件数据进行解析,得到文本信息。进而,对文本信息进行标注处理,得到标注后的语料,从而形成语料库。同时,语料库中还标注有多个合同实体,以及与各合同实体所相关的关键信息文档。因此,文档召回模块32可以根据预处理模块31在目标合同文本中抽取出的文本实体,从语料库中获取与该目标合同文本相关的关键信息文档。
然后,段落筛选模块33可以按条款文档结构对长篇幅的目标合同文本进行段落划分,进一步地,根据文档召回模块32从语料库中获取到的关键信息文档,段落筛选模块33可以对划分后的段落进行匹配筛选,从而筛选出多个有关的文档段落,以减少阅读理解模型的计算量。
在本申请实施例中,阅读理解模块34可以采用基于阅读理解的神经网络模型对文档段落和问题文本进行处理,以输出针对目标合同文本的目标合同关键信息。该基于阅读理解的神经网络模型可以由上述预先构建的语料库中的语料进行训练而获得。例如,可以将70%的语料作为训练集,将30%的语料作为验证集,从而不断对神经网络模型的训练结果进行修正,以提高模型输出的准确度。本申请实施例中,在将文档段落和问题文本输入训练好的神经网络模型后,模型通过计算将输出针对该目标合同文本的关键信息。
具体地,阅读理解模块34对文档进行处理时,所执行的操作可以包括如下步骤:
对文档段落和问题文本分别进行向量化处理,生成文档向量和问题向量;
对文档向量和问题向量分别进行特征提取处理,生成文档特征向量和问题特征向量;
对文档特征向量和问题特征向量进行注意力计算,获取文档段落和问题文本中每个词之间的相关度信息;
根据相关度信息,采用边界模型预测目标合同文本的目标合同关键信息。
在本申请实施例中,阅读理解模块34可以包括表示层、编码层、交互层和预测层。其中,表示层对文档段落和问题文本分别进行向量化处理,生成文档向量和问题向量。即,在表示层中,将合同自然语言文本序列转为固定维度的向量表示,以便模型进行后续处理。常见的嵌入表示有one-hot表示和word2vec、gloVe等词向量表示,这类表示方法可以有效表示高维空间汇总词语的语义信息,但无法捕捉词语的上下文信息。
每个词都假设只有一个特定的嵌入向量表示,这显然还是不太符合人们的语言习惯,因为有时候同一个词语会有不同的意思,也就是一词多义,不论是中文英文都有这现象。例如单独看一个词语Apple,读者无法确定这个词语含义是“苹果”还是“苹果公司”,单词表示固然重要,但是必须的结合上下文才能具体表达含义。也就是该词向量一旦训练完成,词向量都是不会变化了的,不论将来使用的上下文如何变化,词向量依然保持数值不变。这个数值不变,带来的影响就是词向量没有很好携带上下文的信息,是独立于上下文的存在。
因此,本申请实施例采用ElMo表示方法,使每个词蕴含上下文语义信息。另外,也将一些词性、句法特征引入至模型中,进一步增强语义表征。
然后,编码层对文档向量和问题向量分别进行特征提取处理,生成文档特征向量和问题特征向量。即,在编码层中,进一步赋予每一个词更丰富的上下文信息,本申请实施例中编码层可以由卷积神经网络、循环神经网络及其变体和基于多头注意力机制的Transformer结构构成。虽然CNN结构能捕捉序列的局部特征,但处理长距离依赖关系具有局限性,RNN结构具有处理序列数据优势,为了解决梯度***/消失问题和并行计算缺陷,Transformer结构兼具并行计算和长距离特征捕获能力,因此可以选用Transformer特征提取器对合同文档特征进行特征捕获。
然后,交互层对文档特征向量和问题特征向量进行注意力计算,获取文档段落和问题文本中每个词之间的相关度信息。即,在交互层中,捕获文档和问题的关系,按交互范式分为一维匹配模型和二维匹配模式。一维匹配模型,将文档每个词上下文编码,保留每一时间步输出,对问题则进行整体语义编码,按匹配函数计算文档每一词义和问题整体语义的匹配程度,如Attention Sum Reader。二维匹配模型则同时保留文档和问题每一时间步的语义,通过匹配函数得出二维匹配矩阵,再按行或列进行Attention计算,刻画文档和问题每一词之间的语义相关程度,如BiDAF模型。
然后,预测层根据相关度信息,采用边界模型预测目标合同文本的目标合同关键信息。即,在预测层中,预测答案的边界。预测层一般采用序列模型或边界模型预测,其中序列模型对文档序列每一个词进行BIO预测,而边界模型使用两个分类器独立预测答案开始和结束位置。相比而言,边界模型搜索空间更小,故本申请实施例可以采用边界模型进行预测。
具体地,预测层在采用边界模型预测目标合同文本的目标合同关键信息时,可以具体包括如下操作:
根据相关度信息,采用边界模型预测目标合同文本的候选答案片段;
计算文档段落的段落得分;
计算神经网络模型的模型得分;
计算问题文本与候选答案片段的问答相关度得分;
根据段落得分、模型得分和问答相关度得分,对候选答案片段进行排序;
根据排序结果,生成目标合同关键信息。
在本申请实施例中,可以基于BERT的阅读理解模型和语言学规则完成答案片段定位,得到候选答案片段。然后,融合段落得分、阅读理解模型得分、问题和答案语义相关度得分进行候选答案排序。根据标注的相关关键信息,输出最终答案,即得到用户想要提取的目标合同关键信息。
另外,在阅读理解模块34采用神经网络模型对文档段落和所述问题文本进行处理之前,预处理模块31还可以从问题文本中抽取关键词;然后,根据关键词,采用标准问题库对问题文本进行标准化处理。也就是说,在本申请实施例中,可以预先构建标准问题库,设置标准化的问题文本。当用户输入非结构化的问题文本时,预处理模块31首先抽取其中的关键词,采用关键词匹配的方式,在标准问题库中获取与用户输入的问题文本相匹配的标准化文本,从而将用户自定义的问题文本归一化,以降低阅读理解难度。
在本申请实施例中,在阅读理解模块34获取到目标合同文本的目标合同关键信息后,摘要生成模块35可以根据目标合同文本的合同类型信息,获取与该合同类型信息对应的合同摘要模板。然后,摘要生成模块35将目标合同关键信息填入该合同摘要模板,从而得到合同摘要。在本申请实施例中,可以根据不同类型的合同,制定不同内容的合同摘要模板。最后,调用阅读理解模型,将提取出来的目标合同关键信息填入合同摘要摸板中,得到不同类型合同的合同摘要。
本申请实施例提供的合同摘要的生成装置,通过采用基于阅读理解的神经网络模型,按照问答的方式,根据用户特定的信息要求,组织目标合同的关键信息,从而按用户所喜闻乐见的格式生成合同摘要,很大程度降低了人工提炼合同摘要的成本,提高了效率,进而能够提高用户阅读合同的效率。
实施例三
以上描述了合同摘要的生成装置的内部功能和结构,该装置可实现为一种电子设备。图4为本申请提供的电子设备实施例的结构示意图。如图4所示,该电子设备包括存储器41和处理器42。
存储器41,用于存储程序。除上述程序之外,存储器41还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器41可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器42,不仅仅局限于中央处理器(CPU),还可能为图形处理器(GPU)、现场可编辑门阵列(FPGA)、嵌入式神经网络处理器(NPU)或人工智能(AI)芯片等处理芯片。处理器42,与存储器41耦合,执行存储器41所存储的程序,该程序运行时执行上述实施例一的合同摘要的生成方法。
进一步,如图4所示,电子设备还可以包括:通信组件43、电源组件44、音频组件45、显示器46等其它组件。图4中仅示意性给出部分组件,并不意味着电子设备只包括图4所示组件。
通信组件43被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi、3G、4G或5G,或它们的组合。在一个示例性实施例中,通信组件43经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件43还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件44,为电子设备的各种组件提供电力。电源组件44可以包括电源管理***,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件45被配置为输出和/或输入音频信号。例如,音频组件45包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器41或经由通信组件43发送。在一些实施例中,音频组件45还包括一个扬声器,用于输出音频信号。
显示器46包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅检测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种合同摘要的生成方法,包括:
获取目标合同文本以及针对所述目标合同文本的问题文本,其中,所述问题文本为用户针对所述目标合同文本欲获取的信息要求;
根据所述目标合同文本的合同实体,从语料库中获取与所述目标合同文本相关的关键信息文档;
根据所述关键信息文档,对所述目标合同文本进行段落筛选处理,获取所述目标合同文本的多个文档段落;
采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息;
根据所述目标合同关键信息,生成针对所述目标合同文本的合同摘要。
2.根据权利要求1所述的合同摘要的生成方法,其中,在所述采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息之前,所述方法还包括:
从所述问题文本中抽取关键词;
根据所述关键词,采用标准问题库对所述问题文本进行标准化处理。
3.根据权利要求1所述的合同摘要的生成方法,其中,所述采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息,包括:
对所述文档段落和所述问题文本分别进行向量化处理,生成文档向量和问题向量;
对所述文档向量和所述问题向量分别进行特征提取处理,生成文档特征向量和问题特征向量;
对所述文档特征向量和所述问题特征向量进行注意力计算,获取所述文档段落和所述问题文本中每个词之间的相关度信息;
根据所述相关度信息,采用边界模型预测所述目标合同文本的目标合同关键信息。
4.根据权利要求3所述的合同摘要的生成方法,其中,所述根据所述相关度信息,采用边界模型预测所述目标合同文本的目标合同关键信息,包括:
根据所述相关度信息,采用边界模型预测所述目标合同文本的候选答案片段;
计算所述文档段落的段落得分;
计算所述神经网络模型的模型得分;
计算所述问题文本与所述候选答案片段的问答相关度得分;
根据所述段落得分、所述模型得分和所述问答相关度得分,对所述候选答案片段进行排序;
根据排序结果,生成所述目标合同关键信息。
5.根据权利要求1所述的合同摘要的生成方法,其中,所述方法还包括:
获取多个合同文件数据;
对所述合同文件数据进行解析,得到文本信息;
对所述文本信息进行标注处理,得到标注后的语料,形成所述语料库。
6.根据权利要求1所述的合同摘要的生成方法,其中,所述方法还包括:
采用所述语料库中的语料对所述神经网络模型进行训练。
7.根据权利要求1所述的合同摘要的生成方法,其中,所述根据所述目标合同关键信息,生成针对所述目标合同文本的合同摘要,包括:
根据所述目标合同文本的合同类型信息,获取与所述合同类型信息对应的合同摘要模板;
将所述目标合同关键信息填入所述合同摘要模板,得到所述合同摘要。
8.一种合同摘要的生成装置,包括:
预处理模块,用于获取目标合同文本以及针对所述目标合同文本的问题文本,其中,所述问题文本为用户针对所述目标合同文本欲获取的信息要求;
文档召回模块,用于根据所述目标合同文本的合同实体,从语料库中获取与所述目标合同文本相关的关键信息文档;
段落筛选模块,用于根据所述关键信息文档,对所述目标合同文本进行段落筛选处理,获取所述目标合同文本的多个文档段落;
阅读理解模块,用于采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息;
摘要生成模块,用于根据所述目标合同关键信息,生成针对所述目标合同文本的合同摘要。
9.一种合同关键信息提取模型的训练方法,包括:
获取训练数据,其中,所述训练数据包括多组合同文本及与所述合同文本对应的问题文本,且所述合同文本中标注有与所述问题文本对应的目标关键信息;
针对所述训练数据进行下述迭代操作:
根据所述合同文本的合同实体,从语料库中获取与所述合同文本相关的关键信息文档;
根据所述关键信息文档,对所述合同文本进行段落筛选处理,获取所述合同文本的多个文档段落;
采用神经网络模型对所述文档段落和所述问题文本进行处理,以获取针对所述合同文本的候选关键信息;
计算所述候选关键信息与所述目标关键信息的匹配度;
当所述匹配度低于所述训练阈值,调整所述神经网络模型的参数;
当所述匹配度不低于所述训练阈值,和/或迭代次数超过预设次数阈值时,结束所述迭代操作;
将采用最后一轮迭代操作所使用的参数的所述神经网络模型,确定为所述合同关键信息提取模型。
10.一种合同摘要的生成方法,包括:
获取目标合同文本以及针对所述目标合同文本的问题文本,其中,所述问题文本为用户针对所述目标合同文本欲获取的信息要求;
对所述目标合同文本进行解析,以确定所述目标合同文本的合同类型;
根据所述合同类型获取对应的合同关键信息提取模型,其中所述对应的合同关键信息提取模型是使用根据权利要求9所述的合同关键信息提取模型的训练方法获得的;
根据所述目标合同文本的合同实体,从语料库中获取与所述目标合同文本相关的关键信息文档;
根据所述关键信息文档,对所述目标合同文本进行段落筛选处理,获取所述目标合同文本的多个文档段落;
采用所述对应的合同关键信息提取模型对所述文档段落和所述问题文本进行处理,以获取针对所述目标合同文本的目标合同关键信息;
根据所述目标合同关键信息,生成针对所述目标合同文本的合同摘要。
CN202211230711.9A 2022-10-09 2022-10-09 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法 Pending CN115525757A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211230711.9A CN115525757A (zh) 2022-10-09 2022-10-09 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211230711.9A CN115525757A (zh) 2022-10-09 2022-10-09 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法

Publications (1)

Publication Number Publication Date
CN115525757A true CN115525757A (zh) 2022-12-27

Family

ID=84701106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211230711.9A Pending CN115525757A (zh) 2022-10-09 2022-10-09 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法

Country Status (1)

Country Link
CN (1) CN115525757A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384381A (zh) * 2023-01-04 2023-07-04 深圳擎盾信息科技有限公司 一种基于知识图谱的自动化合同要素识别方法及装置
US11928438B1 (en) 2023-07-07 2024-03-12 Northern Trust Corporation Computing technologies for large language models

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384381A (zh) * 2023-01-04 2023-07-04 深圳擎盾信息科技有限公司 一种基于知识图谱的自动化合同要素识别方法及装置
US11928438B1 (en) 2023-07-07 2024-03-12 Northern Trust Corporation Computing technologies for large language models

Similar Documents

Publication Publication Date Title
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
KR102155768B1 (ko) 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법
CN115525757A (zh) 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
US10963647B2 (en) Predicting probability of occurrence of a string using sequence of vectors
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN112614559A (zh) 病历文本处理方法、装置、计算机设备和存储介质
CN114090776A (zh) 文档解析方法、***及装置
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN114638914A (zh) 图像生成方法、装置、计算机设备和存储介质
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
US11640233B2 (en) Foreign language machine translation of documents in a variety of formats
CN109710751A (zh) 法律文件的智能推荐方法、装置、设备及存储介质
CN114692610A (zh) 关键词确定方法及装置
CN113535970A (zh) 信息处理方法和装置、电子设备以及计算机可读存储介质
CN117931858B (zh) 数据查询方法、装置、计算机设备和存储介质
CN113111656B (zh) 实体识别方法、装置、计算机可读存储介质和计算机设备
US20240143941A1 (en) Generating subject lines from keywords utilizing a machine-learning model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination