CN114548072A - 用于合同类文件的自动内容解析与信息评测方法及*** - Google Patents

用于合同类文件的自动内容解析与信息评测方法及*** Download PDF

Info

Publication number
CN114548072A
CN114548072A CN202210436411.XA CN202210436411A CN114548072A CN 114548072 A CN114548072 A CN 114548072A CN 202210436411 A CN202210436411 A CN 202210436411A CN 114548072 A CN114548072 A CN 114548072A
Authority
CN
China
Prior art keywords
contract
information
text
key information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210436411.XA
Other languages
English (en)
Inventor
严鹏
孙林君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Real Intelligence Technology Co ltd
Original Assignee
Hangzhou Real Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Real Intelligence Technology Co ltd filed Critical Hangzhou Real Intelligence Technology Co ltd
Priority to CN202210436411.XA priority Critical patent/CN114548072A/zh
Publication of CN114548072A publication Critical patent/CN114548072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于人工智能技术领域,具体涉及用于合同类文件的自动内容解析与信息评测方法及***。方法包括S1,判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;S2,将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;S3,利用评分模型对解析出的关键信息进行信息风险评测;S4,将信息风险评测结果在可视化界面端进行展示。***包括合同文本提取模块、合同文本解析模块、合同文本评测模块和可视化展示模块。本发明具有消耗资源少,能自动高效抽取关键信息,且能够处理各类格式文档的特点。

Description

用于合同类文件的自动内容解析与信息评测方法及***
技术领域
本发明属于人工智能技术领域,具体涉及用于合同类文件的自动内容解析与信息评测方法及***。
背景技术
合同文本是一种典型的非结构化数据,通常需要人工将结构化信息录入到合同管理***中,例如:“合同名称”、“合同甲方乙方”、“合同签订日期”、“合同金额”、“合同支付方式”、“争议解决方式”等。最初是通过人工进行信息抽取,后续转变为基于规则或者关键词的信息提取。现如今通过人工智能领域的自然语言处理技术手段,能够将上述所需关键信息智能抽取,不仅节省了人工的成本,还降低了因操作失误可能带来的风险。结构化的信息也对后续的业务规则应用、数据分析带来了极大的便利性。
目前合同解析一般有以下几种方法:
1.针对大量合同,人工将合同拆解,并且将关键信息归纳到数据库中,该类方法目前已较少使用;
2.正则表达式或SQL语言(Structured Query Language,结构化查询语言)结合句法依赖及语法规则将合同中固定表达拆解,提取出关键信息。专利《技术合同判定方法、电子装置、计算机设备和存储介质》中根据预设规则库抽取与成果相关的所述句词模型和所述条目,对其进行规则判断以得到判定结果;
3.穷举所有待抽取关键信息做词典匹配,匹配出合同中出现的关键信息。
4.基于自然语言处理技术,对合同文本进行语义解析,提取出关键信息。
然而现有合同解析方法存在以下缺点:
1.人工解析费时费力,且需要一定的专家知识,人工成本过高。
2.正则表达式或者SQL语言准确性极为依赖句法和语法规则的完备性,若合同中存在未包含在句法和语法规则中的表达式,则无法准确解析出关键信息,当句法和语法规则库存在规则冲突时,则会造成解析冲突导致失败。
3.穷举所有待抽取关键信息需花费大量时间和资源,且不一定能完全列举出,若某关键信息不存在则会导致解析不成功。
4.基于自然语言处理技术的语义解析方法优于句法和语法规则的自动解析方法。当前所使用的语义解析方法较为基础,常用的为RNN(Recurrent Neural Network,循环神经网络)和CNN(Convolutional Neural Network,卷积神经网络),该类模型因本身结构限制不具备较强泛化能力,在合同解析任务中速率与效果无法令人满意。现有的基于深度学习或自然语言处理技术,是将整个合同文本或合同内大段的权利或义务条款进行特征向量提取,并对此全文或大段内容的特征向量进行分类或者风险评估,没有针对合同的具体关键信息如合同甲乙方、签约日期、支付方式等进行提取和风险判别。
基于上述问题,设计一种消耗资源少,能自动高效抽取关键信息,且能够处理各类格式文档的用于合同类文件的自动内容解析与信息评测方法及***,就显得十分重要。
例如,申请号为CN201910025071.X的中国专利文献描述的一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法,包括步骤:1)标注保险合同中的关键信息生成保险合同知识库;2)设计感兴趣文本域的卷积神经网络,包括卷积层、感兴趣文本域(TOI)池化层、全连接层与最终输出层;3)网络的训练需要两类样本;4)训练好的感兴趣文本域卷积神经网络在使用时还需要非极大值抑制算法(NMS)。虽然提出的感兴趣文本域卷积神经网络可以有效的解决保险合同标记中的元素重叠问题,显著优于基于概率图模型的现有方法,同时表明了所提出的保险合同标注方法的优越性,但是其缺点在于,没有针对合同的具体关键信息如合同甲乙方、签约日期、支付方式等进行提取和风险判别。
发明内容
本发明是为了克服现有技术中,现有合同解析方法存在消耗资源大,抽取合同文件关键信息低效的问题,提供了一种消耗资源少,能自动高效抽取关键信息,且能够处理各类格式文档的用于合同类文件的自动内容解析与信息评测方法及***。
为了达到上述发明目的,本发明采用以下技术方案:
用于合同类文件的自动内容解析与信息评测方法,包括如下步骤;
S1,判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;
S2,将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;
S3,利用评分模型对解析出的关键信息进行信息风险评测;
S4,将信息风险评测结果在可视化界面端进行展示。
作为优选,步骤S1包括如下步骤;
S11,若合同文件格式为图片,则利用OCR技术将文本提取出来;
S12,若合同文件格式为PDF,则使用PDF解析工具包抓取合同文件中的文本;
S13,若合同文件格式为docx,则使用WORD解析工具包提取出合同文件中的文本;
S14,若合同文件格式为doc,则使用转换工具将合同文件转变为docx文件再进行步骤S13过程的处理。
作为优选,所述合同类Bert模型的构建过程包括如下步骤:
采用大量真实合同文本作为语料,对Bert模型进行预训练,并同时使用简体和繁体中文,通过子任务掩盖机制和下句预测任务对Bert模型进行训练,使Bert模型具备通用语义特征。
作为优选,步骤S2包括如下步骤:
S21,设定“句号”为提前切分符,同时将文本按长度500进行拆分;
S22,将拆分后的文本输入合同类Bert模型,获得文本信息的词向量、句向量和位置向量;
S23,使用自编码器与条件随机场对词向量、句向量和位置向量进行关键信息解析,并对解析出的关键信息进行校验。
作为优选,所述评分模型的构建过程如下:
使用逻辑回归模型根据各类信息对合同文本的影响程度,训练出对关键信息风险进行判断的评分模型。
作为优选,步骤S3包括如下步骤:
S31,将合同类Bert模型所解析出的关键信息,根据评分模型归类为低、中、高三类风险,并赋予相应分值;合同文件评测满分为100分,若出现一个风险,则减去相应分值,获得最终分值;
S32,通过最终分值,得出合同类Bert模型在对应合同文件解析中的效果;最终分值越低,则合同文件中解析出的信息越少,越重要的关键性信息越少。
作为优选,步骤S4包括如下步骤:
S41,将步骤S32获得的最终分值以及高风险、中风险、低风险关键信息条数在可视化界面端展示。
本发明还提供了用于合同类文件的自动内容解析与信息评测***,包括:
合同文本提取模块,用于判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;
合同文本解析模块,用于将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;
合同文本评测模块,用于利用评分模型对解析出的关键信息进行信息风险评测;
可视化展示模块,用于将信息风险评测结果在可视化界面端进行展示。
作为优选,所述合同文本解析模块还包括;
合同类Bert模型构建模块,用于采用大量真实合同文本作为语料,对Bert模型进行预训练,并同时使用简体和繁体中文,通过子任务掩盖机制和下句预测任务对Bert模型进行训练,使Bert模型具备通用语义特征。
作为优选,所述合同文本评测模块还包括:
评分模型构建模块,用于使用逻辑回归模型根据各类信息对合同文本的影响程度,训练出对关键信息风险进行判断的评分模型。
本发明与现有技术相比,有益效果是:(1)本发明通过构建合同类Bert模型来自动解析合同类文档,尤其是对合同文档中的具体实体关键信息进行了提取,取代现有技术中只对整体合同风险进行分类,或对特定的权利或义务等条款类信息进行风险评估的方式,使得合同的信息抽取和评估更为细致;不仅解决了当前方法需消耗过多资源的问题,能自动高效抽取关键信息,还可处理各类格式文档;(2)本发明基于OCR等相关工具可多样性解析各类格式合同,不单一局限于doc文档,解决合同格式带来的限制问题;(3)本发明将基于大数据集所训练出的Bert模型进行改进,结合合同类文本对模型进行再训练,使得合同类Bert模型既具备通用语义特征,又包含合同类语义特征,能准确高效识别出合同类文本中关键信息;(4)本发明通过独有评分模型,将关键信息按重要程度划分等级,根据最终分数可得知该合同重要性与合同类Bert模型在该份合同解析中的效果;(5)本发明通过可视化方式,将合同类文本中信息进行可视化展示,既能较快查阅合同类文本所包含信息,还能快速定位关键信息在文本中所在位置与出现次数。
附图说明
图1为本发明中合同类Bert模型的一种结构示意图;
图2为本发明用于合同类文件的自动内容解析与信息评测方法的一种流程图;
图3为本发明实施例所提供的一种审核评分图;
图4为本发明实施例所提供的一种信息可视化图;
图5为本发明实施例所提供的某公司合同的一种切分结果图;
图6为本发明实施例所提供的某公司合同“乙方”的一种程序结果示意图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图2所示,用于合同类文件的自动内容解析与信息评测方法,包括如下步骤;
S1,判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;
步骤S1具体包括如下步骤;
S11,若合同文件格式为图片,则利用OCR技术将文本提取出来;
S12,若合同文件格式为PDF,则使用PDF解析工具包抓取合同文件中的文本;
S13,若合同文件格式为docx,则使用WORD解析工具包提取出合同文件中的文本;
S14,若合同文件格式为doc,则使用转换工具将合同文件转变为docx文件再进行步骤S13过程的处理。
因提取出的文本由于格式问题可能存在各种空白字符,为避免空白字符对合同类Bert模型解析合同文本关键性信息产生影响,需预先去除文本中各类空白字符,并保留空白字符位置信息,以供后续展示时使用。
S2,将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;
其中,合同类Bert模型的构建过程包括如下步骤:
Bert模型通过使用子任务掩盖机制和下句预测任务在大数据集上进行训练,因此具备通用语义特征。在合同类文本自动解析任务中,通过对Bert模型进行改进,合同类文本作为模型输入,将文本对应的词向量、句向量、位置向量进行拼接处理后输入进Bert模型,经过transformer层再学习,以此得到合同类Bert模型。对Bert模型进行合同类文本适应性训练,使得合同类Bert模型既具备通用语义特征,又包含合同类语义特征,能准确识别出合同类文本中关键信息,如“乙方”、“总金额”、“支付方式”、“履约保证金”等。
合同类Bert模型的结构如图1所示。图1中:
Trm:Transformer是一个利用注意力机制来提高模型训练速度的模型,为Bert模型基本组成结构。
步骤S2具体包括如下步骤:
S21,设定“句号”为提前切分符,同时将文本按长度500进行拆分;
S22,将拆分后的文本输入合同类Bert模型,获得文本信息的词向量、句向量和位置向量;
S23,使用自编码器与条件随机场对词向量、句向量和位置向量进行关键信息解析,并对解析出的关键信息进行校验。
保证合同类文本解析效率和效果,需将文本切分后输入进模型。文本切分长度设定为500,该长度既能保证文本解析速率又能保证文本解析准确性。为避免出现文本句子被截断的情况,以句号为标记,将500字符内最后一个句号作为截断记号。如图5所示,为某公司合同切分后结果的展示。
S3,利用评分模型对解析出的关键信息进行信息风险评测;
所述评分模型的构建过程如下:
根据各类信息对合同文本的影响程度确定相关特征,使用逻辑回归模型对所得特征及其数据训练出对关键信息风险进行判断的评分模型,通过调参对评分模型优化。
步骤S3具体包括如下步骤:
S31,将合同类Bert模型所解析出的关键信息,根据评分模型归类为低、中、高三类风险,并赋予相应分值;合同文件评测满分为100分,若出现一个风险,则减去相应分值,获得最终分值;
具体的审核评分图,如图3所示。
S32,通过最终分值,得出合同类Bert模型在对应合同文件解析中的效果;最终分值越低,则合同文件中解析出的信息越少,越重要的关键性信息越少。
若合同不规范,抽出信息不符合打分标准则分数也会越低,因此传入合同类文本前需预先进行判别,甄选出不合规范的合同。
如图6所示,“name”为类别信息,“match”为文中匹配信息,“level”为风险等级信息。为保证可视化展示能准确定位,需将识别出关键信息进行文本定位,记录其在文本中的开始和结束位置,分别为“start”和“end”信息。
S4,将信息风险评测结果在可视化界面端进行展示。
步骤S4具体包括如下步骤
S41,将步骤S32获得的最终分值以及高风险、中风险、低风险关键信息条数在可视化界面端展示。具体如图4所示。
将分析结果进行可视化展示,通过审核分数与高风险、中风险和低风险条数,可清晰看出该合同重要性。通过上一步解析出的关键信息可在界面端展示审核分数与高风险、中风险、低风险条数。通过使用关键信息在文本中起始位置可精准在前端展示关键信息位置。
本发明还提供了用于合同类文件的自动内容解析与信息评测***,包括:
合同文本提取模块,用于判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;
合同文本解析模块,用于将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;
合同文本评测模块,用于利用评分模型对解析出的关键信息进行信息风险评测;
可视化展示模块,用于将信息风险评测结果在可视化界面端进行展示。
进一步的,所述合同文本解析模块还包括;
合同类Bert模型构建模块,用于采用大量真实合同文本作为语料,对Bert模型进行预训练,并同时使用简体和繁体中文,通过子任务掩盖机制和下句预测任务对Bert模型进行训练,使Bert模型具备通用语义特征。
进一步的,所述合同文本评测模块还包括:
评分模型构建模块,用于使用逻辑回归模型根据各类信息对合同文本的影响程度,训练出对关键信息风险进行判断的评分模型。
本发明独创性地结合通用文本解析模块、基于深度自然语言处理技术的命名实体识别模块和基于机器学习的风险评分模块,实现了对各类格式合同文本的解析,以及快速、高效、细粒度地信息抽取,能够更精准地对合同内容进行结构化和风险评估,同时整个方法和***的可操作性更强,节省资源、提高效率、避免在合同审核中花费大量人力物力。具体为:
1.本发明提出了一个通用文本解析模块,结合OCR技术和PDF、DOC解析工具,能够实现对各类格式文本的统一处理,解决合同格式带来的限制;
2.本发明通过构建合同类BERT模型自动解析合同类文档,并针对更细粒度的实体类信息进行了提取,其中合同类BERT模型不仅具备通用语义特征,还具备合同场景下独有的语义特征,能更精准地识别不同表述下的关键信息,避免传统规则方法、现有NLP方法的抽取粒度较粗糙、抽取精度不高的问题;
3.本发明创新性地提出了一个基于机器学习的评分模型,将关键信息按照重要度划分等级,并结合模型输出的最终分数可得知合同和风险评估结果,并且采用白盒的逻辑回归模型能更直接地看出不同关键信息的侧重程度,便于可视化查看;
4.本发明通过可视化方式,将合同类文本中信息进行展示,既能快速查阅合同类文本所包含信息,又能快速定位关键信息在文本中所在位置和出现次数。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (10)

1.用于合同类文件的自动内容解析与信息评测方法,其特征在于,包括如下步骤;
S1,判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;
S2,将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;
S3,利用评分模型对解析出的关键信息进行信息风险评测;
S4,将信息风险评测结果在可视化界面端进行展示。
2.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,步骤S1包括如下步骤;
S11,若合同文件格式为图片,则利用OCR技术将文本提取出来;
S12,若合同文件格式为PDF,则使用PDF解析工具包抓取合同文件中的文本;
S13,若合同文件格式为docx,则使用WORD解析工具包提取出合同文件中的文本;
S14,若合同文件格式为doc,则使用转换工具将合同文件转变为docx文件再进行步骤S13过程的处理。
3.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,所述合同类Bert模型的构建过程包括如下步骤:
采用大量真实合同文本作为语料,对Bert模型进行预训练,并同时使用简体和繁体中文,通过子任务掩盖机制和下句预测任务对Bert模型进行训练,使Bert模型具备通用语义特征。
4.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,步骤S2包括如下步骤:
S21,设定“句号”为提前切分符,同时将文本按长度500进行拆分;
S22,将拆分后的文本输入合同类Bert模型,获得文本信息的词向量、句向量和位置向量;
S23,使用自编码器与条件随机场对词向量、句向量和位置向量进行关键信息解析,并对解析出的关键信息进行校验。
5.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,所述评分模型的构建过程如下:
使用逻辑回归模型根据各类信息对合同文本的影响程度,训练出对关键信息风险进行判断的评分模型。
6.根据权利要求1所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,步骤S3包括如下步骤:
S31,将合同类Bert模型所解析出的关键信息,根据评分模型归类为低、中、高三类风险,并赋予相应分值;合同文件评测满分为100分,若出现一个风险,则减去相应分值,获得最终分值;
S32,通过最终分值,得出合同类Bert模型在对应合同文件解析中的效果;最终分值越低,则合同文件中解析出的信息越少,越重要的关键性信息越少。
7.根据权利要求6所述的用于合同类文件的自动内容解析与信息评测方法,其特征在于,步骤S4包括如下步骤:
S41,将步骤S32获得的最终分值以及高风险、中风险、低风险关键信息条数在可视化界面端展示。
8.用于合同类文件的自动内容解析与信息评测***,其特征在于,包括:
合同文本提取模块,用于判断合同文件格式,并采用不同的工具对合同文件内的文本进行提取;
合同文本解析模块,用于将提取出的文本进行拆分,并输入已建立的合同类Bert模型,解析出关键信息;
合同文本评测模块,用于利用评分模型对解析出的关键信息进行信息风险评测;
可视化展示模块,用于将信息风险评测结果在可视化界面端进行展示。
9.根据权利要求8所述的用于合同类文件的自动内容解析与信息评测***,其特征在于,所述合同文本解析模块还包括;
合同类Bert模型构建模块,用于采用大量真实合同文本作为语料,对Bert模型进行预训练,并同时使用简体和繁体中文,通过子任务掩盖机制和下句预测任务对Bert模型进行训练,使Bert模型具备通用语义特征。
10.根据权利要求8所述的用于合同类文件的自动内容解析与信息评测***,其特征在于,所述合同文本评测模块还包括:
评分模型构建模块,用于使用逻辑回归模型根据各类信息对合同文本的影响程度,训练出对关键信息风险进行判断的评分模型。
CN202210436411.XA 2022-04-25 2022-04-25 用于合同类文件的自动内容解析与信息评测方法及*** Pending CN114548072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210436411.XA CN114548072A (zh) 2022-04-25 2022-04-25 用于合同类文件的自动内容解析与信息评测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210436411.XA CN114548072A (zh) 2022-04-25 2022-04-25 用于合同类文件的自动内容解析与信息评测方法及***

Publications (1)

Publication Number Publication Date
CN114548072A true CN114548072A (zh) 2022-05-27

Family

ID=81667144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210436411.XA Pending CN114548072A (zh) 2022-04-25 2022-04-25 用于合同类文件的自动内容解析与信息评测方法及***

Country Status (1)

Country Link
CN (1) CN114548072A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392805A (zh) * 2022-10-28 2022-11-25 国能大渡河大数据服务有限公司 一种交易型合同合规风险诊断方法及***
US11928438B1 (en) 2023-07-07 2024-03-12 Northern Trust Corporation Computing technologies for large language models

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608958A (zh) * 2017-09-07 2018-01-19 湖南湘君奕成信息技术有限公司 基于条款统一建模的合同文本风险信息挖掘方法和***
CN113569533A (zh) * 2021-09-26 2021-10-29 南京复保科技有限公司 保险内容标注方法、***、计算机设备及存储介质
WO2022037256A1 (zh) * 2020-08-21 2022-02-24 腾讯科技(深圳)有限公司 文本语句处理方法、装置、计算机设备和存储介质
CN114090776A (zh) * 2021-11-26 2022-02-25 北京金山数字娱乐科技有限公司 文档解析方法、***及装置
CN114118053A (zh) * 2021-11-26 2022-03-01 武汉天喻信息产业股份有限公司 一种合同信息提取方法及装置
CN114281984A (zh) * 2021-08-18 2022-04-05 腾讯云计算(北京)有限责任公司 一种风险检测方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608958A (zh) * 2017-09-07 2018-01-19 湖南湘君奕成信息技术有限公司 基于条款统一建模的合同文本风险信息挖掘方法和***
WO2022037256A1 (zh) * 2020-08-21 2022-02-24 腾讯科技(深圳)有限公司 文本语句处理方法、装置、计算机设备和存储介质
CN114281984A (zh) * 2021-08-18 2022-04-05 腾讯云计算(北京)有限责任公司 一种风险检测方法、装置、设备及计算机可读存储介质
CN113569533A (zh) * 2021-09-26 2021-10-29 南京复保科技有限公司 保险内容标注方法、***、计算机设备及存储介质
CN114090776A (zh) * 2021-11-26 2022-02-25 北京金山数字娱乐科技有限公司 文档解析方法、***及装置
CN114118053A (zh) * 2021-11-26 2022-03-01 武汉天喻信息产业股份有限公司 一种合同信息提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐子惠: "《医学人工智能导论》", 30 April 2020 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115392805A (zh) * 2022-10-28 2022-11-25 国能大渡河大数据服务有限公司 一种交易型合同合规风险诊断方法及***
US11928438B1 (en) 2023-07-07 2024-03-12 Northern Trust Corporation Computing technologies for large language models

Similar Documents

Publication Publication Date Title
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
JP2022501666A (ja) 人工知能基盤の法律文書分析システム及び方法
CN114548072A (zh) 用于合同类文件的自动内容解析与信息评测方法及***
AU2019265874B2 (en) Systems and methods for document deviation detection
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN111782793A (zh) 智能客服处理方法和***及设备
CN114266256A (zh) 一种领域新词的提取方法及***
CN113159969A (zh) 一种金融长文本复核***
CN115953788A (zh) 基于ocr和nlp技术的绿色金融属性智能认定方法及***
CN111737498A (zh) 一种应用于离散制造业生产过程的领域知识库建立方法
CN111597423A (zh) 一种文本分类模型可解释性方法的性能评价方法及装置
CN116305257A (zh) 隐私信息监测装置和隐私信息监测方法
CN114417974B (zh) 模型训练方法、信息处理方法、装置、电子设备和介质
CN115827871A (zh) 互联网企业分类的方法、装置和***
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及***
CN112488593B (zh) 一种用于招标的辅助评标***及方法
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及***
CN110674269A (zh) 一种线索信息管控方法及***
CN115082174B (zh) 债券质控相似识别方法、装置、计算机设备及存储介质
CN113850085B (zh) 企业的等级评估方法、装置、电子设备及可读存储介质
US20240231764A9 (en) Automatic program code generation device and program
US20240134612A1 (en) Automatic program code generation device and program
CN113590804A (zh) 视频主题生成的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220527