CN110765765A - 基于人工智能的合同关键条款提取方法、装置及存储介质 - Google Patents
基于人工智能的合同关键条款提取方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110765765A CN110765765A CN201910873470.1A CN201910873470A CN110765765A CN 110765765 A CN110765765 A CN 110765765A CN 201910873470 A CN201910873470 A CN 201910873470A CN 110765765 A CN110765765 A CN 110765765A
- Authority
- CN
- China
- Prior art keywords
- contract
- text
- word
- vector set
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 112
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 195
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 8
- 238000013016 damping Methods 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 description 23
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种人工智能技术,揭露了一种基于人工智能的合同关键条款提取方法,包括:接收合同文本,对所述合同文本进行预处理操作,得到标准合同文本,提取所述标准合同文本中的关键词集,将所述关键词集转换为词向量集,得到关键词向量集;获取预先确定的关键合同条款的文本集,将所述文本集转换为文本词向量集;将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款。本发明还提出一种基于人工智能的合同关键条款提取装置以及一种计算机可读存储介质。本发明实现了合同关键条款的高效提取。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于人工智能的合同关键条款提取方法、装置及存储介质。
背景技术
随着网络时代的到来,在线合同文本开始涌现且其数量每天仍在急剧增加,面对如此浩大的合同文本的信息资源,有效地提取所述合同文本的关键条款显得十分重要。而在当前的商业合同中,其合同条款众多,但大多数都是格式化或者模板化的条款,对于合同中的重要信息条款没有突出显示,不利于合同的理解和认知。因此如何更高效地对合同文本的关键条款进行提取成为当今一大难题。
发明内容
本发明提供一种基于人工智能的合同关键条款提取方法、装置及存储介质,其主要目的在于当用户在进行合同关键条款提取时,给用户呈现高效的提取结果。
为实现上述目的,本发明提供的一种基于人工智能的合同关键条款提取方法,包括:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
可选地,所述对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本,包括:
通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本中的停用词,并将所述停用词删除;
通过预设的匹配策略将去停用词后的所述合同文本中的字词与词典中的词条进行匹配,得到去停用词后的所述合同文本集的特征词,并将所述特征词用空格符号隔开,从而得到所述标准合同文本。
可选地,所述利用关键词提取算法提取出所述标准合同文本中的关键词集,包括:
计算所述标准合同文本中任意两个特征词Wi和Wj的依存关联度:
其中,Dep(Wi,Wj)表示所述特征词Wi和Wj的依存关联度,len(Wi,Wj)表示所述特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,fgrav(Wi,Wj)表示特征词Wi和Wj的引力,tfidf(Wi)表示特征词Wi的TF-IDF值,tfidf(Wj)表示特征词Wj的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
根据所述关联强度计算出所述特征词Wi的重要度得分:
根据所述特征词的重要度得分,从而得到所述标准合同文本中的关键词集。
可选地,所述将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,包括:
通过所述智能合同关键条款提取模型中的卷积层对所述关键词向量集与所述文本词向量集进行降维处理;
利用所述智能合同关键条款提取模型中的池化层对降维处理后的所述标关键词向量集与所述文本词向量集进行特征向量的提取;
通过所述智能合同关键条款提取模型中的全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。
可选地,所述计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度包括:
Simtopic=Pearson(TPS,TPT)
其中,TPS为所述关键词向量集中的特征向量,TPT为所述文本词向量集中的特征向量。
此外,为实现上述目的,本发明还提供一种基于人工智能的合同关键条款提取装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序被所述处理器执行时实现如下步骤:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
可选地,所述对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本,包括:
通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本中的停用词,并将所述停用词删除;
通过预设的匹配策略将去停用词后的所述合同文本中的字词与词典中的词条进行匹配,得到去停用词后的所述合同文本集的特征词,并将所述特征词用空格符号隔开,从而得到所述标准合同文本。
可选地,所述利用关键词提取算法提取出所述标准合同文本中的关键词集,包括:
计算所述标准合同文本中任意两个特征词Wi和Wj的依存关联度:
其中,Dep(Wi,Wj)表示所述特征词Wi和Wj的依存关联度,len(Wi,Wj)表示所述特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,fgrav(Wi,Wj)表示特征词Wi和Wj的引力,tfidf(Wi)表示特征词Wi的TF-IDF值,tfidf(Wj)表示特征词Wj的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
根据所述关联强度计算出所述特征词Wi的重要度得分:
其中,是与顶点Wi有关的集合,η为阻尼系数;
根据所述特征词的重要度得分,从而得到所述标准合同文本中的关键词集。
可选地,所述将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,包括:
通过所述智能合同关键条款提取模型中的卷积层对所述关键词向量集与所述文本词向量集进行降维处理;
利用所述智能合同关键条款提取模型中的池化层对降维处理后的所述标关键词向量集与所述文本词向量集进行特征向量的提取;
通过所述智能合同关键条款提取模型中的全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。
可选地,所述计算提取特征向量后的所述标准关键词向量集与所述文本词向量集之间的相似度包括:
Simtopic=Pearson(TPS,TPT)
其中,TPS为所述关键词向量集中的特征向量,TPT为所述文本词向量集中的特征向量。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序可被一个或者多个处理器执行,以实现如上所述的基于人工智能的合同关键条款提取方法的步骤。
本发明提出的基于人工智能的合同关键条款提取方法、装置及计算机可读存储介质,在用户进行基于人工智能的合同关键条款提取时,接收用户的合同文本,对所述合同文本进行预处理操作,并结合从合同条款信息库获取的关键条款以及预先构建的智能合同关键条款提取模型,获得所述用户的合同文本的关键条款,可以给用户呈现出高效的基于人工智能的合同关键条款提取结果。
附图说明
图1为本发明一实施例提供的基于人工智能的合同关键条款提取方法的流程示意图;
图2为本发明一实施例提供的基于人工智能的合同关键条款提取装置的内部结构示意图;
图3为本发明一实施例提供的基于人工智能的合同关键条款提取装置中基于人工智能的合同关键条款提取程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于人工智能的合同关键条款提取方法。参照图1所示,为本发明一实施例提供的基于人工智能的合同关键条款提取方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于人工智能的合同关键条款提取方法包括:
S1、接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本。
所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中所述停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。较佳地,本发明通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本及中的停用词,并将所述停用词删除,所述预先构建好的停用词表通过网页下载得到。
进一步地,本发明中所述分词包括:通过预设的策略将去停用词后的所述合同文本的字词与词典中的词条进行匹配,得到所述合同文本的特征词,并将所述特征词用空格符号隔开,完成所述分词操作,从而得到所述标准合同文本。优选地,所述预设的策略为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配成功,则切分出一个词。
S2、利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集。
本发明较佳实施例中,所述关键词提取算法包括:
计算所述标准合同文本中任意两个特征词Wi和Wj的依存关联度:
其中,Dep(Wi,Wj)表示所述特征词Wi和Wj的依存关联度,len(Wi,Wj)表示所述特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,fgrav(Wi,Wj)表示特征词Wi和Wj的引力,tfidf(Wi)表示特征词Wi的TF-IDF值,tfidf(Wj)表示特征词Wj的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
根据所述关联强度计算出所述特征词Wi的重要度得分:
根据所述特征词的重要度得分,从而得到所述标准合同文本集中的关键词集。
较佳地,本发明通过利用独热表示(one hot)将所述关键词集转换为词向量进行表示。其中,所述独热表示是词的向量表示的一种基本方法,通过提取语料库中所有的词构建一个词典,其中的每个词都用一个词向量表示,该向量的维度和词典规模相等,并且向量中只有当前词对应的维度的值是1,其余维度的值全部为0,据此,本发明将所有关键词集的维度转化为1,其余词的维度为0,从而进行词向量表示,得到所述关键词向量集。
S3、从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集。
本发明较佳实施例中,所述合同条款信息库是由从不同企业获取的合同资料以及从专业合同网站下载的合同资料所组合而成的数据库。所述预先确定的关键合同条款包括:交易金额、交易时间、交易方式以及交易对象等等。较佳地,本发明中采用上述关键词集转换为词向量集的方式,将关键合同条款的文本集转换为所述文本词向量集。
S4、将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本发明较佳实施例中,所述预先构建的智能合同关键条款提取模型包括:输入层、卷积神经网络(Convolutional Neural Networks,CNN)以及输出层。所述CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,其基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。较佳地,本发明中,所述CNN包括:卷积层、池化层以及全连接层。
较佳地,本发明中将所述关键词向量集与所述文本词向量集输入至所述输入层中,通过所述卷积层对所述关键词向量集与所述文本词向量集进行降维处理,利用所述池化层对降维处理后的所述关键词向量集与所述文本词向量集进行特征向量的提取,并通过所述全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。其中,当关键词向量与文本词向量的相似度大于预设阈值的相似度时,本发明将对应的关键词向量作为合同文本的关键条款,并通过所述输出层输出所述对应的关键词向量,从而完成所述合同文本关键条款的提取。较佳地,本发明中所述预设阈值的相似度为0.8,其中,所述相似度的计算方法包括:
Simtopic=Pearson(TPS,TPT)
其中,TPS为所述标准关键词向量集中的特征向量,TPT为所述文本词向量集中的特征向量。
所述预设方式突出显示所述关键条款可以包括例如,将所述关键条款加粗显示、加下划线显示、标注不同的颜色显示等。
发明还提供一种基于人工智能的合同关键条款提取装置。参照图2所示,为本发明一实施例提供的基于人工智能的合同关键条款提取装置的内部结构示意图。
在本实施例中,所述基于人工智能的合同关键条款提取装置1可以是PC(PersonalComputer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该基于人工智能的合同关键条款提取装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于人工智能的合同关键条款提取装置1的内部存储单元,例如该基于人工智能的合同关键条款提取装置1的硬盘。存储器11在另一些实施例中也可以是基于人工智能的合同关键条款提取装置1的外部存储设备,例如基于人工智能的合同关键条款提取装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括基于人工智能的合同关键条款提取装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于人工智能的合同关键条款提取装置1的应用软件及各类数据,例如基于人工智能的合同关键条款提取程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于人工智能的合同关键条款提取程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于人工智能的合同关键条款提取装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及基于人工智能的合同关键条款提取程序01的基于人工智能的合同关键条款提取装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对基于人工智能的合同关键条款提取装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有基于人工智能的合同关键条款提取程序01;处理器12执行存储器11中存储的基于人工智能的合同关键条款提取程序01时实现如下步骤:
步骤一、接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本。
所述停用词是文本数据功能词中没有什么实际意义的词,对文本的分类没有什么影响,但是出现频率高,于是,会造成文本分类的效果,其中所述停用词包括常用的代词、介词等,例如常用的停用词为“的”、“在”、“不过”等等。较佳地,本发明通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本及中的停用词,并将所述停用词删除,所述预先构建好的停用词表通过网页下载得到。
进一步地,本发明中所述分词包括:通过预设的策略将去停用词后的所述合同文本的字词与词典中的词条进行匹配,得到所述合同文本的特征词,并将所述特征词用空格符号隔开,完成所述分词操作,从而得到所述标准合同文本。优选地,所述预设的策略为正向最大匹配法,所述正向最大匹配法的思想为从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配成功,则切分出一个词。
步骤二、利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集。
本发明较佳实施例中,所述关键词提取算法包括:
计算所述标准合同文本中任意两个特征词Wi和Wj的依存关联度:
其中,Dep(Wi,Wj)表示所述特征词Wi和Wj的依存关联度,len(Wi,Wj)表示所述特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,fgrav(Wi,Wj)表示特征词Wi和Wj的引力,tfidf(Wi)表示特征词Wi的TF-IDF值,tfidf(Wj)表示特征词Wj的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
根据所述关联强度计算出所述特征词Wi的重要度得分:
根据所述特征词的重要度得分,从而得到所述标准合同文本集中的关键词集。
较佳地,本发明通过利用独热表示(one hot)将所述关键词集转换为词向量进行表示。其中,所述独热表示是词的向量表示的一种基本方法,通过提取语料库中所有的词构建一个词典,其中的每个词都用一个词向量表示,该向量的维度和词典规模相等,并且向量中只有当前词对应的维度的值是1,其余维度的值全部为0,据此,本发明将所有关键词集的维度转化为1,其余词的维度为0,从而进行词向量表示,得到所述关键词向量集。
步骤三、从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集。
本发明较佳实施例中,所述合同条款信息库是由从不同企业获取的合同资料以及从专业合同网站下载的合同资料所组合而成的数据库。所述预先确定的关键合同条款包括:交易金额、交易时间、交易方式以及交易对象等等。较佳地,本发明中采用上述关键词集转换为词向量集的方式,将关键合同条款的文本集转换为所述文本词向量集。
步骤四、将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本发明较佳实施例中,所述预先构建的智能合同关键条款提取模型包括:输入层、卷积神经网络(Convolutional Neural Networks,CNN)以及输出层。所述CNN是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,其基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。较佳地,本发明中,所述CNN包括:卷积层、池化层以及全连接层。
较佳地,本发明中将所述关键词向量集与所述文本词向量集输入至所述输入层中,通过所述卷积层对所述关键词向量集与所述文本词向量集进行降维处理,利用所述池化层对降维处理后的所述关键词向量集与所述文本词向量集进行特征向量的提取,并通过所述全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。其中,当关键词向量与文本词向量的相似度大于预设阈值的相似度时,本发明将对应的关键词向量作为合同文本的关键条款,并通过所述输出层输出所述对应的关键词向量,从而完成所述合同文本关键条款的提取。较佳地,本发明中所述预设阈值的相似度为0.8,其中,所述相似度的计算方法包括:
Simtopic=Pearson(TPS,TPT)
其中,TPS为所述标准关键词向量集中的特征向量,TPT为所述文本词向量集中的特征向量。
所述预设方式突出显示所述关键条款可以包括例如,将所述关键条款加粗显示、加下划线显示、标注不同的颜色显示等。
可选地,在其他实施例中,基于人工智能的合同关键条款提取程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述基于人工智能的合同关键条款提取程序在基于人工智能的合同关键条款提取装置中的执行过程。
例如,参照图3所示,为本发明基于人工智能的合同关键条款提取装置一实施例中的基于人工智能的合同关键条款提取程序的程序模块示意图,该实施例中,所述基于人工智能的合同关键条款提取程序可以被分割为文本处理模块10、文本转换模块20、提取模块30示例性地:
所述文本处理模块10用于:接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本。
所述文本转换模块20用于:利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集,从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集。
所述提取模块30用于将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
上述文本处理模块10、文本转换模块20、提取模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序可被一个或多个处理器执行,以实现如下操作:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
本发明计算机可读存储介质具体实施方式与上述基于人工智能的合同关键条款提取装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于人工智能的合同关键条款提取方法,其特征在于,所述方法包括:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
2.如权利要求1所述的基于人工智能的合同关键条款提取方法,其特征在于,所述对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本,包括:
通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本中的停用词,并将所述停用词删除;
通过预设的匹配策略将去停用词后的所述合同文本中的字词与词典中的词条进行匹配,得到去停用词后的所述合同文本集的特征词,并将所述特征词用空格符号隔开,从而得到所述标准合同文本。
3.如权利要求2所述的基于人工智能的合同关键条款提取方法,其特征在于,所述利用关键词提取算法提取出所述标准合同文本中的关键词集,包括:
计算所述标准合同文本中任意两个特征词Wi和Wj的依存关联度:
其中,Dep(Wi,Wj)表示所述特征词Wi和Wj的依存关联度,len(Wi,Wj)表示所述特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,fgrav(Wi,Wj)表示特征词Wi和Wj的引力,tfidf(Wi)表示特征词Wi的TF-IDF值,tfidf(Wj)表示特征词Wj的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
根据所述关联强度计算出所述特征词Wi的重要度得分:
根据所述特征词的重要度得分,从而得到所述标准合同文本中的关键词集。
4.如权利要求1至3中任意一项所述的基于人工智能的合同关键条款提取方法,其特征在于,所述将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,包括:
通过所述智能合同关键条款提取模型中的卷积层对所述关键词向量集与所述文本词向量集进行降维处理;
利用所述智能合同关键条款提取模型中的池化层对降维处理后的所述标关键词向量集与所述文本词向量集进行特征向量的提取;
通过所述智能合同关键条款提取模型中的全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。
5.如权利要求4所述的基于人工智能的合同关键条款提取方法,其特征在于,所述计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度包括:
Simtopic=Pearson(TPS,TPT)
其中,TPS为所述关键词向量集中的特征向量,TPT为所述文本词向量集中的特征向量。
6.一种基于人工智能的合同关键条款提取装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序被所述处理器执行时实现如下步骤:
接收合同文本,对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本;
利用关键词提取算法提取出所述标准合同文本中的关键词集,并将所述关键词集转换为词向量集,得到关键词向量集;
从合同条款信息库中获取预先确定的关键合同条款的文本集,并将所述关键合同条款的文本集转换为文本词向量集;
将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,当所述相似度集中存在大于预设阈值的相似度时,将对应的关键词向量作为所述合同文本的关键条款,并通过所述智能合同关键条款提取模型的输出层输出所述关键条款,并以预设方式突出显示所述关键条款,完成所述合同文本关键条款的提取。
7.如权利要求6所述的基于人工智能的合同关键条款提取装置,其特征在于,所述对所述合同文本进行去停用词和分词的预处理操作,得到标准合同文本,包括:
通过预先构建好的停用词表和所述合同文本中的字词进行一一匹配,得到所述合同文本中的停用词,并将所述停用词删除;
通过预设的匹配策略将去停用词后的所述合同文本中的字词与词典中的词条进行匹配,得到去停用词后的所述合同文本集的特征词,并将所述特征词用空格符号隔开,从而得到所述标准合同文本。
8.如权利要求7所述的基于人工智能的合同关键条款提取装置,其特征在于,所述利用关键词提取算法提取出所述标准合同文本中的关键词集,包括:
计算所述标准合同文本中任意两个特征词Wi和Wj的依存关联度:
其中,Dep(Wi,Wj)表示所述特征词Wi和Wj的依存关联度,len(Wi,Wj)表示所述特征词Wi和Wj之间的依存路径长度,b是超参数;
计算所述特征词Wi和Wj的引力:
其中,fgrav(Wi,Wj)表示特征词Wi和Wj的引力,tfidf(Wi)表示特征词Wi的TF-IDF值,tfidf(Wj)表示特征词Wj的TF-IDF值,TF表示词频,IDF表示逆文档频率指数,d是特征词Wi和Wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述特征词Wi和Wj之间的关联强度为:
weight(Wi,Wj)=Dep(Wi,Wj)*fgrav(Wi,Wj)
根据所述关联强度计算出所述特征词Wi的重要度得分:
根据所述特征词的重要度得分,从而得到所述标准合同文本中的关键词集。
9.如权利要求6至8中任意一项所述的基于人工智能的合同关键条款提取装置,其特征在于,所述将所述关键词向量集与所述文本词向量集输入至预先构建的智能合同关键条款提取模型中,得到所述关键词向量集与所述文本词向量集的相似度集,包括:
通过所述智能合同关键条款提取模型中的卷积层对所述关键词向量集与所述文本词向量集进行降维处理;
利用所述智能合同关键条款提取模型中的池化层对降维处理后的所述标关键词向量集与所述文本词向量集进行特征向量的提取;
通过所述智能合同关键条款提取模型中的全连接层计算提取特征向量后的所述关键词向量集与所述文本词向量集之间的相似度,从而得到所述相似度集。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于人工智能的合同关键条款提取程序,所述基于人工智能的合同关键条款提取程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的基于人工智能的合同关键条款提取方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910873470.1A CN110765765B (zh) | 2019-09-16 | 2019-09-16 | 基于人工智能的合同关键条款提取方法、装置及存储介质 |
PCT/CN2020/098950 WO2021051934A1 (zh) | 2019-09-16 | 2020-06-29 | 基于人工智能的合同关键条款提取方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910873470.1A CN110765765B (zh) | 2019-09-16 | 2019-09-16 | 基于人工智能的合同关键条款提取方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765765A true CN110765765A (zh) | 2020-02-07 |
CN110765765B CN110765765B (zh) | 2023-10-20 |
Family
ID=69329488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910873470.1A Active CN110765765B (zh) | 2019-09-16 | 2019-09-16 | 基于人工智能的合同关键条款提取方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110765765B (zh) |
WO (1) | WO2021051934A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666408A (zh) * | 2020-05-26 | 2020-09-15 | 中国工商银行股份有限公司 | 重要条款筛选与展示的方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743802A (zh) * | 2021-09-08 | 2021-12-03 | 平安信托有限责任公司 | 工单智能匹配方法、装置、电子设备及可读存储介质 |
CN116070641B (zh) * | 2023-03-13 | 2023-06-06 | 北京点聚信息技术有限公司 | 一种电子合同的在线解读方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
US9600231B1 (en) * | 2015-03-13 | 2017-03-21 | Amazon Technologies, Inc. | Model shrinking for embedded keyword spotting |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN107506347A (zh) * | 2017-07-22 | 2017-12-22 | 长沙兔子代跑网络科技有限公司 | 一种智能获取代跑聊天记录的方法及装置 |
WO2018077655A1 (en) * | 2016-10-24 | 2018-05-03 | Koninklijke Philips N.V. | Multi domain real-time question answering system |
CN109918635A (zh) * | 2017-12-12 | 2019-06-21 | 中兴通讯股份有限公司 | 一种合同文本风险检测方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514096B2 (en) * | 2015-09-01 | 2022-11-29 | Panjiva, Inc. | Natural language processing for entity resolution |
CN108319627B (zh) * | 2017-02-06 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 关键词提取方法以及关键词提取装置 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
CN110032632A (zh) * | 2019-04-04 | 2019-07-19 | 平安科技(深圳)有限公司 | 基于文本相似度的智能客服问答方法、装置及存储介质 |
CN110163478B (zh) * | 2019-04-18 | 2024-04-05 | 平安科技(深圳)有限公司 | 一种合同条款的风险审查方法及装置 |
-
2019
- 2019-09-16 CN CN201910873470.1A patent/CN110765765B/zh active Active
-
2020
- 2020-06-29 WO PCT/CN2020/098950 patent/WO2021051934A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391963A (zh) * | 2014-12-01 | 2015-03-04 | 北京中科创益科技有限公司 | 一种自然语言文本关键词关联网络构建方法 |
US9600231B1 (en) * | 2015-03-13 | 2017-03-21 | Amazon Technologies, Inc. | Model shrinking for embedded keyword spotting |
WO2018077655A1 (en) * | 2016-10-24 | 2018-05-03 | Koninklijke Philips N.V. | Multi domain real-time question answering system |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN107506347A (zh) * | 2017-07-22 | 2017-12-22 | 长沙兔子代跑网络科技有限公司 | 一种智能获取代跑聊天记录的方法及装置 |
CN109918635A (zh) * | 2017-12-12 | 2019-06-21 | 中兴通讯股份有限公司 | 一种合同文本风险检测方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666408A (zh) * | 2020-05-26 | 2020-09-15 | 中国工商银行股份有限公司 | 重要条款筛选与展示的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110765765B (zh) | 2023-10-20 |
WO2021051934A1 (zh) | 2021-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222160B (zh) | 智能语义文档推荐方法、装置及计算机可读存储介质 | |
JP7302022B2 (ja) | テキスト分類方法、装置、コンピュータ読み取り可能な記憶媒体及びテキスト分類プログラム。 | |
CN110442857B (zh) | 情感智能判断方法、装置及计算机可读存储介质 | |
CN110866098B (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
CN110427480B (zh) | 个性化文本智能推荐方法、装置及计算机可读存储介质 | |
CN114780727A (zh) | 基于强化学习的文本分类方法、装置、计算机设备及介质 | |
US11599727B2 (en) | Intelligent text cleaning method and apparatus, and computer-readable storage medium | |
CN110765761A (zh) | 基于人工智能的合同敏感词校验方法、装置及存储介质 | |
CN110765765B (zh) | 基于人工智能的合同关键条款提取方法、装置及存储介质 | |
CN111460090A (zh) | 基于向量的文档检索方法、装置、计算机设备及存储介质 | |
CN110704687B (zh) | 文字布局方法、装置及计算机可读存储介质 | |
CN111241828A (zh) | 情感智能识别方法、装置及计算机可读存储介质 | |
CN111460081B (zh) | 基于深度学习的答案生成方法、电子装置及可读存储介质 | |
CN110427453B (zh) | 数据的相似度计算方法、装置、计算机设备及存储介质 | |
CN110502748B (zh) | 文本主题抽取方法、装置及计算机可读存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN114398882A (zh) | 文档处理方法、装置、设备及存储介质 | |
CN110866042A (zh) | 表格智能查询方法、装置及计算机可读存储介质 | |
WO2021042529A1 (zh) | 文章摘要自动生成方法、装置及计算机可读存储介质 | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN110222144B (zh) | 文本内容提取方法、装置、电子设备及存储介质 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN112445862B (zh) | 物联网设备数据集构建方法、装置、电子设备和存储介质 | |
CN112307175B (zh) | 一种文本处理方法、装置、服务器及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |