CN114548072A

CN114548072A - 用于合同类文件的自动内容解析与信息评测方法及***

Info

Publication number: CN114548072A
Application number: CN202210436411.XA
Authority: CN
Inventors: 严鹏; 孙林君
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-05-27

Abstract

本发明属于人工智能技术领域，具体涉及用于合同类文件的自动内容解析与信息评测方法及***。方法包括S1，判断合同文件格式，并采用不同的工具对合同文件内的文本进行提取；S2，将提取出的文本进行拆分，并输入已建立的合同类Bert模型，解析出关键信息；S3，利用评分模型对解析出的关键信息进行信息风险评测；S4，将信息风险评测结果在可视化界面端进行展示。***包括合同文本提取模块、合同文本解析模块、合同文本评测模块和可视化展示模块。本发明具有消耗资源少，能自动高效抽取关键信息，且能够处理各类格式文档的特点。

Description

用于合同类文件的自动内容解析与信息评测方法及***

技术领域

本发明属于人工智能技术领域，具体涉及用于合同类文件的自动内容解析与信息评测方法及***。

背景技术

合同文本是一种典型的非结构化数据，通常需要人工将结构化信息录入到合同管理***中，例如：“合同名称”、“合同甲方乙方”、“合同签订日期”、“合同金额”、“合同支付方式”、“争议解决方式”等。最初是通过人工进行信息抽取，后续转变为基于规则或者关键词的信息提取。现如今通过人工智能领域的自然语言处理技术手段，能够将上述所需关键信息智能抽取，不仅节省了人工的成本，还降低了因操作失误可能带来的风险。结构化的信息也对后续的业务规则应用、数据分析带来了极大的便利性。

目前合同解析一般有以下几种方法：

1.针对大量合同，人工将合同拆解，并且将关键信息归纳到数据库中，该类方法目前已较少使用；

2.正则表达式或SQL语言(Structured Query Language，结构化查询语言)结合句法依赖及语法规则将合同中固定表达拆解，提取出关键信息。专利《技术合同判定方法、电子装置、计算机设备和存储介质》中根据预设规则库抽取与成果相关的所述句词模型和所述条目，对其进行规则判断以得到判定结果；

3.穷举所有待抽取关键信息做词典匹配，匹配出合同中出现的关键信息。

4.基于自然语言处理技术，对合同文本进行语义解析，提取出关键信息。

然而现有合同解析方法存在以下缺点：

1.人工解析费时费力，且需要一定的专家知识，人工成本过高。

2.正则表达式或者SQL语言准确性极为依赖句法和语法规则的完备性，若合同中存在未包含在句法和语法规则中的表达式，则无法准确解析出关键信息，当句法和语法规则库存在规则冲突时，则会造成解析冲突导致失败。

3.穷举所有待抽取关键信息需花费大量时间和资源，且不一定能完全列举出，若某关键信息不存在则会导致解析不成功。

4.基于自然语言处理技术的语义解析方法优于句法和语法规则的自动解析方法。当前所使用的语义解析方法较为基础，常用的为RNN(Recurrent Neural Network，循环神经网络)和CNN(Convolutional Neural Network，卷积神经网络)，该类模型因本身结构限制不具备较强泛化能力，在合同解析任务中速率与效果无法令人满意。现有的基于深度学习或自然语言处理技术，是将整个合同文本或合同内大段的权利或义务条款进行特征向量提取，并对此全文或大段内容的特征向量进行分类或者风险评估，没有针对合同的具体关键信息如合同甲乙方、签约日期、支付方式等进行提取和风险判别。

基于上述问题，设计一种消耗资源少，能自动高效抽取关键信息，且能够处理各类格式文档的用于合同类文件的自动内容解析与信息评测方法及***，就显得十分重要。

例如，申请号为CN201910025071.X的中国专利文献描述的一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法，包括步骤：1)标注保险合同中的关键信息生成保险合同知识库；2)设计感兴趣文本域的卷积神经网络，包括卷积层、感兴趣文本域(TOI)池化层、全连接层与最终输出层；3)网络的训练需要两类样本；4)训练好的感兴趣文本域卷积神经网络在使用时还需要非极大值抑制算法(NMS)。虽然提出的感兴趣文本域卷积神经网络可以有效的解决保险合同标记中的元素重叠问题，显著优于基于概率图模型的现有方法，同时表明了所提出的保险合同标注方法的优越性，但是其缺点在于，没有针对合同的具体关键信息如合同甲乙方、签约日期、支付方式等进行提取和风险判别。

发明内容

本发明是为了克服现有技术中，现有合同解析方法存在消耗资源大，抽取合同文件关键信息低效的问题，提供了一种消耗资源少，能自动高效抽取关键信息，且能够处理各类格式文档的用于合同类文件的自动内容解析与信息评测方法及***。

为了达到上述发明目的，本发明采用以下技术方案：

用于合同类文件的自动内容解析与信息评测方法，包括如下步骤；

S1，判断合同文件格式，并采用不同的工具对合同文件内的文本进行提取；

S2，将提取出的文本进行拆分，并输入已建立的合同类Bert模型，解析出关键信息；

S3，利用评分模型对解析出的关键信息进行信息风险评测；

S4，将信息风险评测结果在可视化界面端进行展示。

作为优选，步骤S1包括如下步骤；

S11，若合同文件格式为图片，则利用OCR技术将文本提取出来；

S12，若合同文件格式为PDF，则使用PDF解析工具包抓取合同文件中的文本；

S13，若合同文件格式为docx，则使用WORD解析工具包提取出合同文件中的文本；

S14，若合同文件格式为doc，则使用转换工具将合同文件转变为docx文件再进行步骤S13过程的处理。

作为优选，所述合同类Bert模型的构建过程包括如下步骤：

采用大量真实合同文本作为语料，对Bert模型进行预训练，并同时使用简体和繁体中文，通过子任务掩盖机制和下句预测任务对Bert模型进行训练，使Bert模型具备通用语义特征。

作为优选，步骤S2包括如下步骤：

S21，设定“句号”为提前切分符，同时将文本按长度500进行拆分；

S22，将拆分后的文本输入合同类Bert模型，获得文本信息的词向量、句向量和位置向量；

S23，使用自编码器与条件随机场对词向量、句向量和位置向量进行关键信息解析，并对解析出的关键信息进行校验。

作为优选，所述评分模型的构建过程如下：

使用逻辑回归模型根据各类信息对合同文本的影响程度，训练出对关键信息风险进行判断的评分模型。

作为优选，步骤S3包括如下步骤：

S31，将合同类Bert模型所解析出的关键信息，根据评分模型归类为低、中、高三类风险，并赋予相应分值；合同文件评测满分为100分，若出现一个风险，则减去相应分值，获得最终分值；

S32，通过最终分值，得出合同类Bert模型在对应合同文件解析中的效果；最终分值越低，则合同文件中解析出的信息越少，越重要的关键性信息越少。

作为优选，步骤S4包括如下步骤：

S41，将步骤S32获得的最终分值以及高风险、中风险、低风险关键信息条数在可视化界面端展示。

本发明还提供了用于合同类文件的自动内容解析与信息评测***，包括：

合同文本提取模块，用于判断合同文件格式，并采用不同的工具对合同文件内的文本进行提取；

合同文本解析模块，用于将提取出的文本进行拆分，并输入已建立的合同类Bert模型，解析出关键信息；

合同文本评测模块，用于利用评分模型对解析出的关键信息进行信息风险评测；

可视化展示模块，用于将信息风险评测结果在可视化界面端进行展示。

作为优选，所述合同文本解析模块还包括；

合同类Bert模型构建模块，用于采用大量真实合同文本作为语料，对Bert模型进行预训练，并同时使用简体和繁体中文，通过子任务掩盖机制和下句预测任务对Bert模型进行训练，使Bert模型具备通用语义特征。

作为优选，所述合同文本评测模块还包括：

评分模型构建模块，用于使用逻辑回归模型根据各类信息对合同文本的影响程度，训练出对关键信息风险进行判断的评分模型。

本发明与现有技术相比，有益效果是：（1）本发明通过构建合同类Bert模型来自动解析合同类文档，尤其是对合同文档中的具体实体关键信息进行了提取，取代现有技术中只对整体合同风险进行分类，或对特定的权利或义务等条款类信息进行风险评估的方式，使得合同的信息抽取和评估更为细致；不仅解决了当前方法需消耗过多资源的问题，能自动高效抽取关键信息，还可处理各类格式文档；（2）本发明基于OCR等相关工具可多样性解析各类格式合同，不单一局限于doc文档，解决合同格式带来的限制问题；（3）本发明将基于大数据集所训练出的Bert模型进行改进，结合合同类文本对模型进行再训练，使得合同类Bert模型既具备通用语义特征，又包含合同类语义特征，能准确高效识别出合同类文本中关键信息；（4）本发明通过独有评分模型，将关键信息按重要程度划分等级，根据最终分数可得知该合同重要性与合同类Bert模型在该份合同解析中的效果；（5）本发明通过可视化方式，将合同类文本中信息进行可视化展示，既能较快查阅合同类文本所包含信息，还能快速定位关键信息在文本中所在位置与出现次数。

附图说明

图1为本发明中合同类Bert模型的一种结构示意图；

图2为本发明用于合同类文件的自动内容解析与信息评测方法的一种流程图；

图3为本发明实施例所提供的一种审核评分图；

图4为本发明实施例所提供的一种信息可视化图；

图5为本发明实施例所提供的某公司合同的一种切分结果图；

图6为本发明实施例所提供的某公司合同“乙方”的一种程序结果示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图2所示，用于合同类文件的自动内容解析与信息评测方法，包括如下步骤；

步骤S1具体包括如下步骤；

因提取出的文本由于格式问题可能存在各种空白字符，为避免空白字符对合同类Bert模型解析合同文本关键性信息产生影响，需预先去除文本中各类空白字符，并保留空白字符位置信息，以供后续展示时使用。

其中，合同类Bert模型的构建过程包括如下步骤：

Bert模型通过使用子任务掩盖机制和下句预测任务在大数据集上进行训练，因此具备通用语义特征。在合同类文本自动解析任务中，通过对Bert模型进行改进，合同类文本作为模型输入，将文本对应的词向量、句向量、位置向量进行拼接处理后输入进Bert模型，经过transformer层再学习，以此得到合同类Bert模型。对Bert模型进行合同类文本适应性训练，使得合同类Bert模型既具备通用语义特征，又包含合同类语义特征，能准确识别出合同类文本中关键信息，如“乙方”、“总金额”、“支付方式”、“履约保证金”等。

合同类Bert模型的结构如图1所示。图1中：

Trm：Transformer是一个利用注意力机制来提高模型训练速度的模型，为Bert模型基本组成结构。

步骤S2具体包括如下步骤：

保证合同类文本解析效率和效果，需将文本切分后输入进模型。文本切分长度设定为500，该长度既能保证文本解析速率又能保证文本解析准确性。为避免出现文本句子被截断的情况，以句号为标记，将500字符内最后一个句号作为截断记号。如图5所示，为某公司合同切分后结果的展示。

S3，利用评分模型对解析出的关键信息进行信息风险评测；

所述评分模型的构建过程如下：

根据各类信息对合同文本的影响程度确定相关特征，使用逻辑回归模型对所得特征及其数据训练出对关键信息风险进行判断的评分模型，通过调参对评分模型优化。

步骤S3具体包括如下步骤：

具体的审核评分图，如图3所示。

若合同不规范，抽出信息不符合打分标准则分数也会越低，因此传入合同类文本前需预先进行判别，甄选出不合规范的合同。

如图6所示，“name”为类别信息，“match”为文中匹配信息，“level”为风险等级信息。为保证可视化展示能准确定位，需将识别出关键信息进行文本定位，记录其在文本中的开始和结束位置，分别为“start”和“end”信息。

S4，将信息风险评测结果在可视化界面端进行展示。

步骤S4具体包括如下步骤

S41，将步骤S32获得的最终分值以及高风险、中风险、低风险关键信息条数在可视化界面端展示。具体如图4所示。

将分析结果进行可视化展示，通过审核分数与高风险、中风险和低风险条数，可清晰看出该合同重要性。通过上一步解析出的关键信息可在界面端展示审核分数与高风险、中风险、低风险条数。通过使用关键信息在文本中起始位置可精准在前端展示关键信息位置。

进一步的，所述合同文本解析模块还包括；

进一步的，所述合同文本评测模块还包括：

本发明独创性地结合通用文本解析模块、基于深度自然语言处理技术的命名实体识别模块和基于机器学习的风险评分模块，实现了对各类格式合同文本的解析，以及快速、高效、细粒度地信息抽取，能够更精准地对合同内容进行结构化和风险评估，同时整个方法和***的可操作性更强，节省资源、提高效率、避免在合同审核中花费大量人力物力。具体为：

1.本发明提出了一个通用文本解析模块，结合OCR技术和PDF、DOC解析工具，能够实现对各类格式文本的统一处理，解决合同格式带来的限制；

2.本发明通过构建合同类BERT模型自动解析合同类文档，并针对更细粒度的实体类信息进行了提取，其中合同类BERT模型不仅具备通用语义特征，还具备合同场景下独有的语义特征，能更精准地识别不同表述下的关键信息，避免传统规则方法、现有NLP方法的抽取粒度较粗糙、抽取精度不高的问题；

3.本发明创新性地提出了一个基于机器学习的评分模型，将关键信息按照重要度划分等级，并结合模型输出的最终分数可得知合同和风险评估结果，并且采用白盒的逻辑回归模型能更直接地看出不同关键信息的侧重程度，便于可视化查看；

4.本发明通过可视化方式，将合同类文本中信息进行展示，既能快速查阅合同类文本所包含信息，又能快速定位关键信息在文本中所在位置和出现次数。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.用于合同类文件的自动内容解析与信息评测方法，其特征在于，包括如下步骤；

S3，利用评分模型对解析出的关键信息进行信息风险评测；

S4，将信息风险评测结果在可视化界面端进行展示。

2.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法，其特征在于，步骤S1包括如下步骤；

3.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法，其特征在于，所述合同类Bert模型的构建过程包括如下步骤：

4.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法，其特征在于，步骤S2包括如下步骤：

5.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法，其特征在于，所述评分模型的构建过程如下：

6.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法，其特征在于，步骤S3包括如下步骤：

7.根据权利要求6所述的用于合同类文件的自动内容解析与信息评测方法，其特征在于，步骤S4包括如下步骤：

8.用于合同类文件的自动内容解析与信息评测***，其特征在于，包括：

9.根据权利要求8所述的用于合同类文件的自动内容解析与信息评测***，其特征在于，所述合同文本解析模块还包括；

10.根据权利要求8所述的用于合同类文件的自动内容解析与信息评测***，其特征在于，所述合同文本评测模块还包括：