CN110705225A - 一种合同标注方法及装置 - Google Patents

一种合同标注方法及装置 Download PDF

Info

Publication number
CN110705225A
CN110705225A CN201910752445.8A CN201910752445A CN110705225A CN 110705225 A CN110705225 A CN 110705225A CN 201910752445 A CN201910752445 A CN 201910752445A CN 110705225 A CN110705225 A CN 110705225A
Authority
CN
China
Prior art keywords
contract
sample
model
labeling
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910752445.8A
Other languages
English (en)
Inventor
郭于丹
肖丰阳
陈卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Trust Co Ltd
Original Assignee
Ping An Trust Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Trust Co Ltd filed Critical Ping An Trust Co Ltd
Priority to CN201910752445.8A priority Critical patent/CN110705225A/zh
Publication of CN110705225A publication Critical patent/CN110705225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种合同标注方法及装置,本发明涉及人工智能技术领域,方法包括:从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集;基于每个业务类型的合同样本构建并训练初始标注模型;获取预存的各个业务类型的多份合同,并分为样本扩充集和测试集;利用初始标注模型标注样本扩充集中的合同中的合同要素;将标注后的样本扩充集与初始样本集合并为训练样本集,并利用训练样本集优化训练初始标注模型,得到标注模型;将测试集输入标注模型,并获取标注模型输出的测试集中的合同的标注结果;根据测试集的标注结果判断是否需要继续优化标注模型。本发明实施例提供的技术方案能够解决现有技术中合同要素的标注准确率低的问题。

Description

一种合同标注方法及装置
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种合同标注方法及装置。
【背景技术】
目前,企业中需要用到的合同越来越多,合同在审核的时候主要需要审核合同要素是否填写正确,然而人工查找合同要素往往需要耗费大量人力,合同要素分布复杂,审核人员需要清晰准确的获取合同要素之间的关联关系,因此如何提高合同中合同要素的标注准确率,使得审核合同时能够快速获取合同要素成为目前亟待解决的问题。
【发明内容】
有鉴于此,本发明实施例提供了一种合同标注方法及装置,用以解决现有技术中合同要素的标注准确率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种合同标注方法,所述方法包括:
从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,所述合同样本中包括多个人工标注的合同要素;基于每个所述业务类型的合同样本构建并训练初始标注模型;获取预存的各个所述业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集;利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素;将标注后的所述样本扩充集与所述初始样本集合并为训练样本集,并利用所述训练样本集优化训练所述初始标注模型,得到标注模型;将所述测试集输入所述标注模型,并获取所述标注模型输出的所述测试集中的合同的标注结果;根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值。
进一步地,所述基于每个所述业务类型的合同样本构建并训练初始标注模型,包括:构建初始标注模型,所述初始标注模型为长短时记忆神经网络模型;向所述初始标注模型输入所述初始样本集,其中,所述长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与所述合同要素关联的标签的类别向量;通过误差最小化的策略训练所述初始标注模型。
进一步地,所述合同要素包括层级分布的一级要素、二级要素及三级要素,所述标签也呈现层级关系,所述标签包括一级标签、所述一级标签下的二级标签、所述二级标签下的三级标签;所述基于每个所述业务类型的合同样本构建并训练初始标注模型,包括:构建初始标注模型;向所述初始标注模型输入所述初始样本集,其中,所述深度卷积神经网络提取每个合同样本中与所述一级标签关联的一级要素的向量序列、与所述二级标签关联的二级要素的向量序列、与所述三级标签关联的三级要素的向量序列;基于所述一级要素的向量序列、所述二级要素的向量序列、所述三级要素的向量序列与所述标签的类型向量,通过误差最小化的策略训练所述初始标注模型。
进一步地,所述利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素,包括:所述初始标注模型依据所述一级标签对所述样本扩充集中的合同进行标注,得到一级要素;根据所述一级标签获取至少一个二级标签,并根据所述二级标签对所述合同进行标注,得到与所述一级要素关联的至少一个二级要素;根据所述二级标签获取至少一个三级标签,并根据所述三级标签对所述合同进行标注,得到与所述二级要素关联的至少一个三级要素。
进一步地,所述根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值,包括:将所述测试集中的合同的人工标注结果与所述标注模型输出的标注结果相比较,得到所述标注模型的关于每个所述业务类型的合同的标注准确率;判断每个所述业务类型的标注准确率是否大于所述预设值;剔除多个所述业务类型中所述标注准确率大于所述预设值的业务类型,得到需要继续优化的目标业务类型;基于所述用户的修正指令修正所述目标业务类型的合同的标注结果;用修正后的所述目标业务类型的合同优化训练所述标注模型,直至所述标注模型的标注准确率大于预设值。
进一步地,在所述利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素之前,所述方法还包括:筛选出所述样本扩充集中的待处理的合同样本,其中,所述待处理的合同样本的格式为图档;通过霍夫变换方法找到各个所述待处理的合同样本的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待处理的合同样本进行旋转矫正;识别所述旋转矫正后的合同样本,得到合同文本;用所述合同文本替换所述样本扩充集中的所述待处理的合同样本。
为了实现上述目的,根据本发明的一个方面,提供了一种合同标注装置,所述装置包括:抽取单元,用于从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,所述合同样本中包括多个人工标注的合同要素;构建单元,用于基于每个所述业务类型的合同样本构建并训练初始标注模型;获取单元,用于获取预存的各个所述业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集;标注单元,用于利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素;优化训练单元,用于将标注后的所述样本扩充集与所述初始样本集合并为训练样本集,并利用所述训练样本集优化训练所述初始标注模型,得到标注模型;输入单元,用于将所述测试集输入所述标注模型,并获取所述标注模型输出的所述测试集中的合同的标注结果;判断单元,用于根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值。
进一步地,所述构建单元包括:构建子单元,用于构建初始标注模型,所述初始标注模型为长短时记忆神经网络模型;输入子单元,用于向所述初始标注模型输入所述初始样本集,其中,所述长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与所述合同要素关联的标签的类别向量;训练子单元,用于通过误差最小化的策略训练所述初始标注模型。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机非易失性存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在设备执行上述的合同标注方法。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的合同标注方法的步骤。
在本方案中,通过将每个业务类型的合同中抽取至少一份合同样本,先利用合同样本建立初始标注模型,再用每个业务类型的更多历史合同来扩充训练集,用扩充后的训练集来训练初始标注模型,提高模型的标注能力。接着,在用测试集测试模型的标注准确度,根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值,通过不断优化模型,从而提高合同要素标注的效率及准确率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种可选的合同标注方法的流程图;
图2是本发明实施例提供的一种可选的合同标注装置的示意图;
图3是本发明实施例提供的一种可选的计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一终端也可以被称为第二终端,类似地,第二终端也可以被称为第一终端。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种合同标注方法的流程图,如图1所示,该方法包括:
步骤S101,从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,合同样本中包括多个人工标注的合同要素。
步骤S102,基于每个业务类型的合同样本构建并训练初始标注模型。
步骤S103,获取预存的各个业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集。
步骤S104,利用初始标注模型标注样本扩充集中的合同中的合同要素。
步骤S105,将标注后的样本扩充集与初始样本集合并为训练样本集,并利用训练样本集优化训练初始标注模型,得到标注模型。
步骤S106,将测试集输入标注模型,并获取标注模型输出的测试集中的合同的标注结果。
步骤S107,根据测试集的标注结果判断是否需要继续优化标注模型,直至标注模型的标注准确率大于预设值。
可以理解地,业务类型包括房屋买卖合同、房屋租赁合同、贷款合同、借款合同等,合同要素可以是当事人信息(名称、住所、联系方式等)、合同标的、合同价款、履行期限、违约责任等等。
在本方案中,通过将每个业务类型的合同中抽取至少一份合同样本,先利用合同样本建立初始标注模型,再用每个业务类型的更多历史合同来扩充训练集,用扩充后的训练集来训练初始标注模型,提高模型的标注能力。接着,在用测试集测试模型的标注准确度,根据测试集的标注结果判断是否需要继续优化标注模型,直至标注模型的标注准确率大于预设值,通过不断优化模型,从而提高合同要素标注的准确率。
在一种实施方式中,每个业务类型抽取5份合同样本,并通过人工对合同文本进行要素标注,例如可以通过批注的方式在合同文本上进行标注。
可以理解地,用每种业务类型的合同样本来训练初始标注模型,能够使得初始标注模型能够对各种业务类型的合同具有初步的标注能力。
在一种实施方式中,初始标注模型为长短时记忆神经网络模型时,LSTM神经网络模型可以是多层长短时记忆神经网络模型,或双向长短时记忆神经网络模型。LSTM(longshort-term memory)神经网络模型是一种时间递归神经网络机器学习算法,输入为向量,给予一定量的数据可以获得模型完成分类、标注、预测等任务。GRU神经网络模型是与LSTM类似的一种循环神经网络模型。可以理解地,在构建并训练初始标注模型之前,需要将合同样本进行序列化处理,再将序列化处理后的合同样本导入到初始标注模型中,LSTM神经网络模型进一步提取序列向量。
可选地,步骤S102,包括:构建初始标注模型,初始标注模型为长短时记忆神经网络模型;向初始标注模型输入初始样本集,其中,长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与合同要素关联的标签的类别向量;通过误差最小化的策略训练初始标注模型。
当然,LSTM神经网络模型可以有多种模型结构,例如双层LSTM神经网络模型,三层LSTM神经网络模型,双向LSTM神经网络模型等等,本发明实施例对此不加以限制。此外,上述神经网络模型只是作为示例,在实施本发明实施例时,可以根据实际情况使用其他类型的神经网络模型,神经网络模型还可以进行多种模型结构和参数的调整。
可选地,合同要素包括层级分布的一级要素、二级要素及三级要素,标签也呈现层级关系,标签包括一级标签、一级标签下的二级标签、二级标签下的三级标签。例如:一级标签为产品名称要素(家庭财产保险合同),该要素下面存在3个类别的受益分类(即二级要素分别为房屋主体、室内财产、房屋装修等),在每个受益分类下面则分别存在不同的细分要素(即三级要素),三级要素可以相同,也可以不同,例如位置信息、生效日期;标注模型在识别合同要素的同时能够利用标签将合同要素之间的层级关系识别出来。
可选地,基于每个业务类型的合同样本构建并训练初始标注模型,包括:构建初始标注模型;向初始标注模型输入初始样本集,其中,长短时记忆神经网络提取每个合同样本中与一级标签关联的一级要素的向量序列、与二级标签关联的二级要素的向量序列、与三级标签关联的三级要素的向量序列;基于一级要素的向量序列、二级要素的向量序列、三级要素的向量序列与标签的类型向量,通过误差最小化的策略训练初始标注模型。
在一种实施方式中,样本扩充集和测试集的分配比例为8:2或7:3。而初始样本集中的合同样本数量是较少的,例如为样本扩充集和测试集总和的十分之一。而初始样本集中的合同样本上的标注是人工进行标注的,其准确性可以得到保障。
可选地,利用初始标注模型标注样本扩充集中的合同中的合同要素,包括:初始标注模型依据一级标注对样本扩充集中的合同进行标注,得到一级要素;根据一级标签获取至少一个二级标签,并根据二级标签对合同进行标注,得到与一级要素关联的至少一个二级要素;根据二级标签获取至少一个三级标签,并根据三级标签对合同进行标注,得到与二级要素关联的至少一个三级要素。
例如,标签可以是A-A1-a1,其中A表示家庭财产保险,A1表示房屋主体、a1表示房屋主体的位置信息;标签可以是A-A1-a2,其中A表示产品名称要素,A1表示房屋主体、a2表示房屋主体的楼龄。当识别到一级要素为家庭财产保险时,标注模型即可获取一级要素下的二级要素有哪些,例如二级要素包括房屋主体、室内财产、房屋装修;当二级要素标注时确认为室内财产时,标注模型即可获取这个二级要素下的三级要素有哪些,例如财产金额、贵金属估值等。
可以理解地,在初始标注模型训练后,其具备每个业务类型的合同标注能力,从而使得初始标注模型根据层级配置的标签对样本扩充集中的合同进行合同要素的标注。
在一种实施方式中,样本扩充集中的合同例如可以是各个业务类型的已签约的合同,可以从各个业务部门收集得到。
当然,这些合同可能是PDF版本、照片版本、扫描版本等各种形式。因此在利用他们作为样本扩充集之前,还需要对其进行预处理。
具体地,在利用初始标注模型标注样本扩充集中的合同中的合同要素之前,方法还包括:筛选出样本扩充集中的待处理的合同样本,其中,待处理的合同样本的格式为图档;通过霍夫变换方法找到各个待处理的合同样本的倾斜角度,并基于倾斜角度采用双线性插值对待处理的合同样本进行旋转矫正;识别旋转矫正后的合同样本,得到合同文本;用合同文本替换样本扩充集中的待处理的合同样本。
在其他实施方式中,还可以对样本扩充集中的合同进行二值化处理及滤波处理。其中,二值化处理,是将图档的像素点的值处理为两种像素值,255或0,其中,255为白色,0为黑色,这样使得字符颜色相对于背景颜色更加鲜明。对合同进行滤波处理可以采用均值滤波、自适应维纳滤波、小波滤波等方式。可以理解地,通过二值化处理及滤波处理后,合同中的字符会更加清晰,在进一步识别字符时能够提高识别的准确率。
进一步地,根据测试集的标注结果判断是否需要继续优化标注模型,直至标注模型的标注准确率大于预设值,包括:将测试集中的合同的人工标注结果与标注模型输出的标注结果相比较,得到标注模型的关于每个业务类型的合同的标注准确率;判断每个业务类型的标注准确率是否大于预设值;剔除多个业务类型中标注准确率大于预设值的业务类型,得到需要继续优化的目标业务类型;基于用户的修正指令修正目标业务类型的合同的标注结果;用修正后的目标业务类型的合同优化训练标注模型,直至标注模型的标注准确率大于预设值。
具体地,计算标注准确率,包括:
根据合同的人工标注结果与标注模型输出的标注结果,计算一级标签的标注准确率、二级标签的标注准确率及三级标签的标注准确率;
根据预设的层级标签的权重计算总的标注准确率。例如:Ψ1*Q12*Q23*Q3=Q,其中,Ψ1为一级标签的标注准确率Q1的权重,Ψ2为二级标签的标注准确率Q2的权重,Ψ3为三级标签的标注准确率Q3的权重。Ψ1>Ψ2>Ψ3
例如:Ψ1、Ψ2、Ψ3的分配为50%、30%、20%,人工标签为A-A1-a1,而模型输出的标注结果A-A2-b1,这样一级标签的准确率为100%,二级标签的准确率为0%,三级标签的准确率为0%。
在本方案中,通过将每个业务类型的合同中抽取至少一份合同样本,先利用合同样本建立初始标注模型,再用每个业务类型的更多历史合同来扩充训练集,用扩充后的训练集来训练初始标注模型,提高模型的标注能力。接着,在用测试集测试模型的标注准确度,根据测试集的标注结果判断是否需要继续优化标注模型,直至标注模型的标注准确率大于预设值,通过不断优化模型,从而提高合同要素标注的准确率。
本发明实施例提供了一种合同标注装置,该装置用于执行上述合同标注方法,如图2所示,该装置包括:抽取单元10、构建单元20、获取单元30、标注单元40、优化训练单元50、输入单元60、判断单元70。
抽取单元10,用于从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,合同样本中包括多个人工标注的合同要素;
构建单元20,用于基于每个业务类型的合同样本构建并训练初始标注模型;
获取单元30,用于获取预存的各个业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集;
标注单元40,用于利用初始标注模型标注样本扩充集中的合同中的合同要素;
优化训练单元50,用于将标注后的样本扩充集与初始样本集合并为训练样本集,并利用训练样本集优化训练初始标注模型,得到标注模型;
输入单元60,用于将测试集输入标注模型,并获取标注模型输出的测试集中的合同的标注结果;
判断单元70,用于根据测试集的标注结果判断是否需要继续优化标注模型,直至标注模型的标注准确率大于预设值。
可以理解地,业务类型包括房屋买卖合同、房屋租赁合同、贷款合同、借款合同等,合同要素可以是当事人信息(名称、住所、联系方式等)、合同标的、合同价款、履行期限、违约责任等等。
在本方案中,通过将每个业务类型的合同中抽取至少一份合同样本,先利用合同样本建立初始标注模型,再用每个业务类型的更多历史合同来扩充训练集,用扩充后的训练集来训练初始标注模型,提高模型的标注能力。接着,在用测试集测试模型的标注准确度,根据测试集的标注结果判断是否需要继续优化标注模型,直至标注模型的标注准确率大于预设值,通过不断优化模型,从而提高合同要素标注的准确率。
在一种实施方式中,每个业务类型抽取5份合同样本,并通过人工对合同文本进行要素标注,例如可以通过批注的方式在合同文本上进行标注。
可以理解地,用每种业务类型的合同样本来训练初始标注模型,能够使得初始标注模型能够对各种业务类型的合同具有初步的标注能力。
在一种实施方式中,初始标注模型为长短时记忆神经网络模型时,LSTM神经网络模型可以是多层长短时记忆神经网络模型,或双向长短时记忆神经网络模型。LSTM(longshort-term memory)神经网络模型是一种时间递归神经网络机器学习算法,输入为向量,给予一定量的数据可以获得模型完成分类、标注、预测等任务。GRU神经网络模型是与LSTM类似的一种循环神经网络模型。可以理解地,在构建并训练初始标注模型之前,需要将合同样本进行序列化处理,再将序列化处理后的合同样本导入到初始标注模型中,LSTM神经网络模型进一步提取序列向量。
构建单元包括构建子单元、输入子单元、训练子单元。
构建子单元,用于构建初始标注模型,初始标注模型为长短时记忆神经网络模型;输入子单元,用于向初始标注模型输入初始样本集,其中,长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与合同要素关联的标签的类别向量;训练子单元,用于通过误差最小化的策略训练初始标注模型。
当然,LSTM神经网络模型可以有多种模型结构,例如双层LSTM神经网络模型,三层LSTM神经网络模型,双向LSTM神经网络模型等等,本发明实施例对此不加以限制。此外,上述神经网络模型只是作为示例,在实施本发明实施例时,可以根据实际情况使用其他类型的神经网络模型,神经网络模型还可以进行多种模型结构和参数的调整。
可选地,合同要素包括层级分布的一级要素、二级要素及三级要素,标签也呈现层级关系,标签包括一级标签、一级标签下的二级标签、二级标签下的三级标签。例如:一级标签为产品名称要素(家庭财产保险合同),该要素下面存在3个类别的受益分类(即二级要素分别为房屋主体、室内财产、房屋装修等),在每个受益分类下面则分别存在不同的细分要素(即三级要素),三级要素可以相同,也可以不同,例如位置信息、生效日期;标注模型在识别合同要素的同时能够利用标签将合同要素之间的层级关系识别出来。
可选地,输入子单元,还用于向初始标注模型输入初始样本集,其中,长短时记忆神经网络提取每个合同样本中与一级标签关联的一级要素的向量序列、与二级标签关联的二级要素的向量序列、与三级标签关联的三级要素的向量序列;
训练子单元,还用于基于一级要素的向量序列、二级要素的向量序列、三级要素的向量序列与标签的类型向量,通过误差最小化的策略训练初始标注模型。
在一种实施方式中,样本扩充集和测试集的分配比例为8:2或7:3。而初始样本集中的合同样本数量是较少的,例如为样本扩充集和测试集总和的十分之一。而初始样本集中的合同样本上的标注是人工进行标注的,其准确性可以得到保障。
可选地,利用初始标注模型标注样本扩充集中的合同中的合同要素时,初始标注模型依据一级标注对样本扩充集中的合同进行标注,得到一级要素;根据一级标签获取至少一个二级标签,并根据二级标签对合同进行标注,得到与一级要素关联的至少一个二级要素;根据二级标签获取至少一个三级标签,并根据三级标签对合同进行标注,得到与二级要素关联的至少一个三级要素。
例如,标签可以是A-A1-a1,其中A表示家庭财产保险,A1表示房屋主体、a1表示房屋主体的位置信息;标签可以是A-A1-a2,其中A表示产品名称要素,A1表示房屋主体、a2表示房屋主体的楼龄。当识别到一级要素为家庭财产保险时,标注模型即可获取一级要素下的二级要素有哪些,例如二级要素包括房屋主体、室内财产、房屋装修;当二级要素标注时确认为室内财产时,标注模型即可获取这个二级要素下的三级要素有哪些,例如财产金额、贵金属估值等。
可以理解地,在初始标注模型训练后,其具备每个业务类型的合同标注能力,从而使得初始标注模型根据层级配置的标签对样本扩充集中的合同进行合同要素的标注。
在一种实施方式中,样本扩充集中的合同例如可以是各个业务类型的已签约的合同,可以从各个业务部门收集得到。
当然,这些合同可能是PDF版本、照片版本、扫描版本等各种形式。因此在利用他们作为样本扩充集之前,还需要对其进行预处理。
具体地,装置还包括筛选单元、处理单元、识别单元、替换单元。
筛选单元,用于筛选出样本扩充集中的待处理的合同样本,其中,待处理的合同样本的格式为图档;处理单元,用于通过霍夫变换方法找到各个待处理的合同样本的倾斜角度,并基于倾斜角度采用双线性插值对待处理的合同样本进行旋转矫正;识别单元,用于识别旋转矫正后的合同样本,得到合同文本;替换单元,用于用合同文本替换样本扩充集中的待处理的合同样本。
在其他实施方式中,还可以对样本扩充集中的合同进行二值化处理及滤波处理。其中,二值化处理,是将图档的像素点的值处理为两种像素值,255或0,其中,255为白色,0为黑色,这样使得字符颜色相对于背景颜色更加鲜明。对合同进行滤波处理可以采用均值滤波、自适应维纳滤波、小波滤波等方式。可以理解地,通过二值化处理及滤波处理后,合同中的字符会更加清晰,在进一步识别字符时能够提高识别的准确率。
进一步地,判断单元包括计算子单元、判断子单元、剔除子单元、修正子单元、优化子单元。
计算子单元,用于将测试集中的合同的人工标注结果与标注模型输出的标注结果相比较,得到标注模型的关于每个业务类型的合同的标注准确率;判断子单元,用于判断每个业务类型的标注准确率是否大于预设值;剔除子单元,用于剔除多个业务类型中标注准确率大于预设值的业务类型,得到需要继续优化的目标业务类型;修正子单元,用于基于用户的修正指令修正目标业务类型的合同的标注结果;优化子单元,用于用修正后的目标业务类型的合同优化训练标注模型,直至标注模型的标注准确率大于预设值。
具体地,计算标注准确率,包括:根据合同的人工标注结果与标注模型输出的标注结果,计算一级标签的标注准确率、二级标签的标注准确率及三级标签的标注准确率;
根据预设的层级标签的权重计算总的标注准确率。例如:Ψ1*Q12*Q23*Q3=Q,其中,Ψ1为一级标签的标注准确率Q1的权重,Ψ2为二级标签的标注准确率Q2的权重,Ψ3为三级标签的标注准确率Q3的权重。Ψ1>Ψ2>Ψ3
例如:Ψ1、Ψ2、Ψ3的分配为50%、30%、20%,人工标签为A-A1-a1,而模型输出的标注结果A-A2-b1,这样一级标签的准确率为100%,二级标签的准确率为0%,三级标签的准确率为0%。
在本方案中,通过将每个业务类型的合同中抽取至少一份合同样本,先利用合同样本建立初始标注模型,再用每个业务类型的更多历史合同来扩充训练集,用扩充后的训练集来训练初始标注模型,提高模型的标注能力。接着,在用测试集测试模型的标注准确度,根据测试集的标注结果判断是否需要继续优化标注模型,直至标注模型的标注准确率大于预设值,通过不断优化模型,从而提高合同要素标注的准确率。
本发明实施例提供了一种计算机非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,合同样本中包括多个人工标注的合同要素;基于每个业务类型的合同样本构建并训练初始标注模型;获取预存的各个业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集;利用初始标注模型标注样本扩充集中的合同中的合同要素;将标注后的样本扩充集与初始样本集合并为训练样本集,并利用训练样本集优化训练初始标注模型,得到标注模型;将测试集输入标注模型,并获取标注模型输出的测试集中的合同的标注结果;根据测试集的标注结果判断是否需要继续优化标注模型,直至标注模型的标注准确率大于预设值。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:构建初始标注模型,初始标注模型为长短时记忆神经网络模型;向初始标注模型输入初始样本集,其中,长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与合同要素关联的标签的类别向量;通过误差最小化的策略训练初始标注模型。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:构建初始标注模型;向初始标注模型输入初始样本集,其中,深度卷积神经网络提取每个合同样本中与一级标签关联的一级要素的向量序列、与二级标签关联的二级要素的向量序列、与三级标签关联的三级要素的向量序列;基于一级要素的向量序列、二级要素的向量序列、三级要素的向量序列与标签的类型向量,通过误差最小化的策略训练初始标注模型。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:初始标注模型依据一级标签对样本扩充集中的合同进行标注,得到一级要素;根据一级标签获取至少一个二级标签,并根据二级标签对合同进行标注,得到与一级要素关联的至少一个二级要素;根据二级标签获取至少一个三级标签,并根据三级标签对合同进行标注,得到与二级要素关联的至少一个三级要素。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:将测试集中的合同的人工标注结果与标注模型输出的标注结果相比较,得到标注模型的关于每个业务类型的合同的标注准确率;判断每个业务类型的标注准确率是否大于预设值;剔除多个业务类型中标注准确率大于预设值的业务类型,得到需要继续优化的目标业务类型;基于用户的修正指令修正目标业务类型的合同的标注结果;用修正后的目标业务类型的合同优化训练标注模型,直至标注模型的标注准确率大于预设值。
图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备100包括:处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时实现实施例中的合同标注方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器101执行时实现实施例中合同标注装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器101、存储器102。本领域技术人员可以理解,图3仅仅是计算机设备100的示例,并不构成对计算机设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器101可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以是计算机设备100的内部存储单元,例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备,例如计算机设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种合同标注方法,其特征在于,所述方法包括:
从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,所述合同样本中包括多个人工标注的合同要素;
基于每个所述业务类型的合同样本构建并训练初始标注模型;
获取预存的各个所述业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集;
利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素;
将标注后的所述样本扩充集与所述初始样本集合并为训练样本集,并利用所述训练样本集优化训练所述初始标注模型,得到标注模型;
将所述测试集输入所述标注模型,并获取所述标注模型输出的所述测试集中的合同的标注结果;
根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值。
2.根据权利要求1所述的方法,其特征在于,所述基于每个所述业务类型的合同样本构建并训练初始标注模型,包括:
构建初始标注模型,所述初始标注模型为长短时记忆神经网络模型;
向所述初始标注模型输入所述初始样本集,其中,所述长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与所述合同要素关联的标签的类别向量;
通过误差最小化的策略训练所述初始标注模型。
3.根据权利要求2所述的方法,其特征在于,所述合同要素包括层级分布的一级要素、二级要素及三级要素,所述标签也呈现层级关系,所述标签包括一级标签、所述一级标签下的二级标签、所述二级标签下的三级标签;所述基于每个所述业务类型的合同样本构建并训练初始标注模型,包括:
构建初始标注模型;
向所述初始标注模型输入所述初始样本集,其中,所述长短时记忆神经网络提取每个合同样本中与所述一级标签关联的一级要素的向量序列、与所述二级标签关联的二级要素的向量序列、与所述三级标签关联的三级要素的向量序列;
基于所述一级要素的向量序列、所述二级要素的向量序列、所述三级要素的向量序列与所述标签的类型向量,通过误差最小化的策略训练所述初始标注模型。
4.根据权利要求3所述的方法,其特征在于,所述利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素,包括:
所述初始标注模型依据所述一级标签对所述样本扩充集中的合同进行标注,得到一级要素;
根据所述一级标签获取至少一个二级标签,并根据所述二级标签对所述合同进行标注,得到与所述一级要素关联的至少一个二级要素;
根据所述二级标签获取至少一个三级标签,并根据所述三级标签对所述合同进行标注,得到与所述二级要素关联的至少一个三级要素。
5.根据权利要求1所述的方法,其特征在于,所述根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值,包括:
将所述测试集中的合同的人工标注结果与所述标注模型输出的标注结果相比较,得到所述标注模型的关于每个所述业务类型的合同的标注准确率;
判断每个所述业务类型的标注准确率是否大于所述预设值;
剔除多个所述业务类型中所述标注准确率大于所述预设值的业务类型,得到需要继续优化的目标业务类型;
基于所述用户的修正指令修正所述目标业务类型的合同的标注结果;
用修正后的所述目标业务类型的合同优化训练所述标注模型,直至所述标注模型的标注准确率大于预设值。
6.根据权利要求1~5任意一项所述的方法,其特征在于,在所述利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素之前,所述方法还包括:
筛选出所述样本扩充集中的待处理的合同样本,其中,所述待处理的合同样本的格式为图档;
通过霍夫变换方法找到各个所述待处理的合同样本的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待处理的合同样本进行旋转矫正;
识别所述旋转矫正后的合同样本,得到合同文本;
用所述合同文本替换所述样本扩充集中的所述待处理的合同样本。
7.一种合同标注装置,其特征在于,所述装置包括:
抽取单元,用于从每个业务类型的合同中抽取至少一份合同样本,得到初始样本集,所述合同样本中包括多个人工标注的合同要素;
构建单元,用于基于每个所述业务类型的合同样本构建并训练初始标注模型;
获取单元,用于获取预存的各个所述业务类型的多份合同,并按照预设的比例分为样本扩充集和测试集;
标注单元,用于利用所述初始标注模型标注所述样本扩充集中的合同中的合同要素;
优化训练单元,用于将标注后的所述样本扩充集与所述初始样本集合并为训练样本集,并利用所述训练样本集优化训练所述初始标注模型,得到标注模型;
输入单元,用于将所述测试集输入所述标注模型,并获取所述标注模型输出的所述测试集中的合同的标注结果;
判断单元,用于根据所述测试集的标注结果判断是否需要继续优化所述标注模型,直至所述标注模型的标注准确率大于预设值。
8.根据权利要求7所述的装置,其特征在于,所述构建单元包括:
构建子单元,用于构建初始标注模型,所述初始标注模型为长短时记忆神经网络模型;
输入子单元,用于向所述初始标注模型输入所述初始样本集,其中,所述长短时记忆神经网络学习每个合同样本中人工标注的合同要素的向量序列及与所述合同要素关联的标签的类别向量;
训练子单元,用于通过误差最小化的策略训练所述初始标注模型。
9.一种计算机非易失性存储介质,所述存储介质包括存储的程序,其特征在于,在所述程序运行时控制所述存储介质所在设备执行权利要求1至6任意一项所述的合同标注方法。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的合同标注方法的步骤。
CN201910752445.8A 2019-08-15 2019-08-15 一种合同标注方法及装置 Pending CN110705225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910752445.8A CN110705225A (zh) 2019-08-15 2019-08-15 一种合同标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910752445.8A CN110705225A (zh) 2019-08-15 2019-08-15 一种合同标注方法及装置

Publications (1)

Publication Number Publication Date
CN110705225A true CN110705225A (zh) 2020-01-17

Family

ID=69194055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910752445.8A Pending CN110705225A (zh) 2019-08-15 2019-08-15 一种合同标注方法及装置

Country Status (1)

Country Link
CN (1) CN110705225A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723870A (zh) * 2020-06-22 2020-09-29 中国平安人寿保险股份有限公司 基于人工智能的数据集获取方法、装置、设备和介质
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN112214595A (zh) * 2020-08-21 2021-01-12 中国建设银行股份有限公司 类别确定方法、装置、设备及介质
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951925A (zh) * 2017-03-27 2017-07-14 成都小多科技有限公司 数据处理方法、装置、服务器及***
CN109902157A (zh) * 2019-01-10 2019-06-18 平安科技(深圳)有限公司 一种训练样本有效性检测方法及装置
CN110110086A (zh) * 2019-05-13 2019-08-09 湖南星汉数智科技有限公司 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106951925A (zh) * 2017-03-27 2017-07-14 成都小多科技有限公司 数据处理方法、装置、服务器及***
CN109902157A (zh) * 2019-01-10 2019-06-18 平安科技(深圳)有限公司 一种训练样本有效性检测方法及装置
CN110110086A (zh) * 2019-05-13 2019-08-09 湖南星汉数智科技有限公司 一种中文语义角色标注方法、装置、计算机装置及计算机可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723870A (zh) * 2020-06-22 2020-09-29 中国平安人寿保险股份有限公司 基于人工智能的数据集获取方法、装置、设备和介质
CN111723870B (zh) * 2020-06-22 2024-04-09 中国平安人寿保险股份有限公司 基于人工智能的数据集获取方法、装置、设备和介质
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN112214595A (zh) * 2020-08-21 2021-01-12 中国建设银行股份有限公司 类别确定方法、装置、设备及介质
CN113239205A (zh) * 2021-06-10 2021-08-10 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质
CN113239205B (zh) * 2021-06-10 2023-09-01 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110705225A (zh) 一种合同标注方法及装置
CN108304775B (zh) 遥感图像识别方法、装置、存储介质以及电子设备
CN112016438B (zh) 一种基于图神经网络识别证件的方法及***
CN108399386A (zh) 饼图中的信息提取方法及装置
CN110427932B (zh) 一种识别图像中多个票据区域的方法及装置
CN106980856B (zh) 公式识别方法及***和符号推理计算方法及***
CN110705952A (zh) 一种合同审核方法及装置
CN110059750A (zh) 户型形状识别方法、装置和设备
CN110598686B (zh) ***的识别方法、***、电子设备和介质
CN110909618B (zh) 一种宠物身份的识别方法及装置
CN110807491A (zh) 车牌图像清晰度模型训练方法、清晰度检测方法及装置
CN110503103B (zh) 一种基于全卷积神经网络的文本行中的字符切分方法
WO2014070145A1 (en) Object segmentation
US11023720B1 (en) Document parsing using multistage machine learning
CN113449046A (zh) 基于企业知识图谱的模型训练方法、***及相关装置
CN113592886A (zh) 建筑图纸的审图方法、装置、电子设备及介质
CN111626177A (zh) 一种pcb元件识别方法及装置
CN110796210A (zh) 一种标签信息的识别方法及装置
CN113128536A (zh) 无监督学习方法、***、计算机设备及可读存储介质
CN113011961B (zh) 公司关联信息风险监测方法、装置、设备及存储介质
CN112329735B (zh) 人脸识别模型的训练方法及在线教育***
CN113378852A (zh) 关键点检测方法、装置、电子设备及存储介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN111198943B (zh) 一种简历筛选方法、装置及终端设备
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200117