CN114818718A - 合同文本识别方法及装置 - Google Patents

合同文本识别方法及装置 Download PDF

Info

Publication number
CN114818718A
CN114818718A CN202210582893.XA CN202210582893A CN114818718A CN 114818718 A CN114818718 A CN 114818718A CN 202210582893 A CN202210582893 A CN 202210582893A CN 114818718 A CN114818718 A CN 114818718A
Authority
CN
China
Prior art keywords
text
entity
type
contract
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210582893.XA
Other languages
English (en)
Inventor
弓源
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Technology Co ltd, Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Priority to CN202210582893.XA priority Critical patent/CN114818718A/zh
Publication of CN114818718A publication Critical patent/CN114818718A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Multimedia (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供合同文本识别方法及装置,其中,合同文本识别方法包括:通过获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;对目标文本内容进行类型识别,得到目标文本内容的文本类型;在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。通过上述方法,可以大大降低类型识别的数据处理量,提高了类型识别的效率,并且提升了合同文本识别的精度。

Description

合同文本识别方法及装置
技术领域
本申请涉及人工智能技术领域,特别涉及一种合同文本识别方法。本申请同时涉及一种合同文本识别装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是指已工程化(即设计并制造)的***感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。
随着人工智能技术的不断发展,人工智能技术在自然语言处理领域中已得到深入的应用,尤其是针对合同文本,人工智能技术的引入,可以实现对合同文本的类型自动识别,能够大大提升企业的效率。传统的人工智能方法中,直接将合同文本输入预先训练的基于深度学习的类型识别模型中,即可得到合同文本的类型。
然而,合同文本的篇幅越来越长、类型越来越多,而基于深度学习的类型识别模型受训练样本的限制,在训练样本有限的情况下,难免会出现识别错误的情况。因此,需要提供更为高效、准确的合同文本识别方案。
发明内容
有鉴于此,本申请实施例提供了一种合同文本识别方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种合同文本识别装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种合同文本识别方法,包括:
获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;
对目标文本内容进行类型识别,得到目标文本内容的文本类型;
在文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。
根据本申请实施例的第二方面,提供了一种合同文本识别装置,包括:
筛选模块,被配置为获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;
识别模块,被配置为对目标文本内容进行类型识别,得到目标文本内容的文本类型;
提取模块,被配置为在文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
存储器用于存储计算机可执行指令,处理器执行计算机可执行指令时实现本申请实施例第一方面提供的合同文本识别方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请实施例第一方面提供的合同文本识别方法。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现本申请实施例第一方面提供的合同文本识别方法。
本申请提供的合同文本识别方法,通过获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;对目标文本内容进行类型识别,得到目标文本内容的文本类型;在文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。通过上述方法,从合同文本中提取符合预设条件的目标文本内容并对目标文本内容进行类型识别,可以大大降低类型识别的数据处理量,提高了类型识别的效率。并且在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,从而确定合同文本的识别结果,通过对合同文本中符合预设条件的目标文本内容进行提取,结合类型识别,对合同文本的类型进行初步识别,再经过对指定类型的目标文本内容中的实体信息进行提取,结合实体信息确定合同文本的识别结果,从而提升了合同文本识别的精度。
附图说明
图1示出了根据本申请实施例提供的一种合同文本识别***的结构示意图;
图2示出了根据本申请一实施例提供的一种合同文本识别方法的流程图;
图3示出了根据本申请一实施例提供的一种合同文本识别方法中提取目标文本内容的流程图;
图4示出了根据本申请一实施例提供的一种合同文本识别方法中文本分类模型训练的流程图;
图5示出了根据本申请一实施例提供的一种合同文本识别方法中实体识别模型训练的流程图;
图6示出了根据本申请一实施例提供的一种合同文本识别方法中确定合同文本的识别结果的流程图;
图7示出了本申请一实施例提供的一种应用于账款类型合同的合同文本识别方法的处理流程图;
图8示出了本申请一实施例提供的一种合同文本识别装置的结构示意图;
图9示出了根据本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
信息抽取:指从结构化、半结构化或非结构化文本中提取结构化信息的技术。
BERT(Bidirectional Encoder Representation from Transformers):一种开源的预训练语言模型。
命名实体识别(NER,Named Entity Recognition):指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
文本分类:指在给定的分类体系中,将文本指定分到某个或某几个类别中。
实体:指文本中具有特定意义的实体词汇或者短语描述。
账款类型:可以反映合同收、付款方角色信息的文本句子。
在本申请中,提供了一种合同文本识别方法。本申请同时涉及一种合同文本识别装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请实施例提供的一种合同文本识别***的结构示意图。
以执行主体是服务器102为例,终端104上传合同文本,服务器102通过通信单元102-1接收该合同文本,获取单元102-2从合同文本中提取符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;再由识别单元102-3对目标文本内容进行类型识别,得到目标文本内容的文本类型;接着在目标文本内容的文本类型为指定类型的情况下,通过提取单元102-4提取出目标文本内容中的实体信息,确定合同文本的识别结果。之后可以由通信单元102-1将识别结果反馈给终端104。
图2示出了根据本申请一实施例提供的一种合同文本识别方法的流程图,具体包括步骤202至206,下面将具体说明。
步骤202、获取合同文本,提取该合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置。
本申请的执行主体可以是具有合同文本识别功能的任何电子设备,例如可以为智能手机、智能手表、台式电脑、手提电脑、服务器等任何一种。
在本实施例中,首先要获取合同文本,其中,合同文本是指当事人用以记载合同内容的书面文件。在实际应用中,合同文本的格式除了可以是文本格式之外,还可以是便携式文档格式(PDF,Portable Document Format)、图片格式等。
相应地,针对不同格式的合同文本,获取合同文本中文本内容的方式有多种,例如,当合同文本是文本格式时,直接利用字符识别的方式对合同文本的文本内容进行提取;又例如,当合同文本是PDF格式或者是图片格式时,可以运用光学字符识别技术(OCR,Optical Character Recognition)对合同文本的文本内容进行解析,具体地,针对PDF或者图片格式的合同文本,运用OCR技术,识别出文字区域,然后对文字区域进行矩形分割,拆分成不同的字符,然后对字符进行分类进而识别出合同文本的文本内容。
在获取合同文本之后,需要从合同文本中提取符合预设条件的目标文本内容,其中,预设条件是基于指定类型的特征信息设置的,指定类型是一种特定的文本类型,由合同文本识别的实际需求设定。文本类型是指合同文本中文本内容的文本类型,文本类型一般由文本内容中的特征信息决定,特征信息表征了指定类型的唯一性,具体可以是字词。在实际应用中,特征信息可以是文本内容中表征合同双方角色关系的词语,例如,“支付”、“购买”、“借款”、“租给”、“转账”等词语。在指定类型为账款类型的设定下,由于账款类型的文本内容,其主要表达了合同双方的交易行为关系,因此,在账款类型的设定下,预设条件是基于交易行为关系的特征信息设置的,例如基于“支付”、“转账”等表征交易行为关系的词语设置。针对于不同的合同文本识别需求,可以根据相应的表征合同双方角色关系的特征信息来设置预设条件,即可满足相应的指定类型设定。
如上例,在合同文本的文本内容中表征合同双方角色关系的词语一般是行为关系词语,则在本实施例中,可以预先建立一个预设行为关键词库,该预设行为关键词库中包括有多个指定类型下的行为关键词,行为关键词即表征行为关系特征的词语,然后基于该预设行为关键词库,从合同文本中提取出与该预设行为关键词库匹配的文本内容作为目标文本内容。其中,预设行为关系词库可以是表格的形式,即每一个表格单元记载一个行为关键词,还可以是数据库的形式,在此不做具体限定。
或者,可以预先创建多条指定类型下的行为文本内容,行为文本内容表征了行为特征,具体描述了行为发生的过程,可以是根据经验人为编辑的语句,然后将合同文本中的各文本内容与预先创建的行为文本内容进行语义相似度匹配,将合同文本中语义相似度达到预设阈值的文本内容作为目标文本内容。具体地,语义相似度匹配可以采用基于BERT模型的匹配方式,将合同文本中的各文本内容和行为文本内容分别输入预训练的BERT模型中,BERT模型具有语义识别功能,则BERT模型会输出各文本内容以及行为文本内容的语义信息,然后将各文本内容的语义信息和行为文本内容的语义信息进行相似度计算,语音信息一般是向量的形式,那么,具体相似度计算的方式就是分别计算各文本内容的语义信息和行为文本内容的语义信息之间向量中元素重合的程度,元素重合的程度越高,则相似度越高,这样即可得到各文本内容与行为文本内容的语义相似度。
在本申请实施例一种可能的实现方式中,提取合同文本中符合预设条件的目标文本内容的步骤,具体可以通过图3的方式实现。图3示出了根据本申请一实施例提供的一种合同文本识别方法中提取目标文本内容的流程图,具体包括以下步骤:
步骤302、对合同文本进行划分,得到合同文本中的各文本内容。
步骤304、针对任一文本内容,将该文本内容中的词语与预设行为关键词库进行匹配,若匹配结果符合预设匹配条件,则确定该文本内容为目标文本内容,其中,预设行为关键词库中记录有指定类型下的行为关键词。
在本实施例中,在获取到合同文本之后,首先要对合同文本的文本内容进行划分,得到合同文本中的各文本内容。
对合同文本进行划分的方式有多种,可以基于标点符号进行划分,也可以基于字数进行划分。一般情况下,一个完整的句子能够表达完整的合同内容,因此,一般会基于表示完整句子结束的标点符号或字符进行划分,例如句号、感叹号、换行符等,即被表示完整句子结束的标点符号或字符断开的两部分文本内容会被划分为不同的文本内容。然而在一些特殊情况下,一个完整的句子中可能存在多个子句的形式,每个子句都可能涉及合同双方,然而在某些子句中合同双方可能并不包含行为关系,例如在一个句子中“甲和乙一同前往银行,甲在银行通过银行账户给乙转账50万元”,可见,子句“甲和乙一同前往银行”不包含行为关系,因此,为了提升后续类型识别的准确性和有效性,一种优选实现方式中,可以根据标点符号或者特殊字符进行划分,即,当合同文本中出现“,”、“。”、“!”、“?”等标点符号时,或当合同文本中出现换行符等特殊字符时,确定该标点符号或者特殊字符处为文本内容末尾,并进行划分,即被标点符号或特殊字符断开的两部分文本内容会被划分为不同的文本内容,例如,以标点符号“,”作为划分方法,“甲和乙一同前往银行,甲在银行通过银行账户给乙转账50万元”可以被划分成“甲和乙一同前往银行”“甲在银行通过银行账户给乙转账50万元”两个子句。例如,以标点符号“。”作为划分方法,“甲和乙一同前往银行,甲在银行通过银行账户给乙转账50万元”被划分成“甲和乙一同前往银行,甲在银行通过银行账户给乙转账50万元”一个子句。
还可以利用自然语言处理模型(NLP,Natural Language Processing)、长短期记忆网络模型(LSTM,Long Short Term Memory)、卷积神经网络模型(CNN,ConvolutionalNeural Network)等任一种神经网络模型对合同文本进行文本内容划分。具体利用神经网络模型进行划分,首先需要获取大量的样本文本内容作为训练样本,然后对样本文本内容进行标注,即,对每个样本文本内容的句首和句尾标注标签,然后将标注好标签的样本文本内容输入神经网络模型中进行迭代训练,经过多次迭代,当神经网络模型的损失值达到预设阈值之后,训练完成。然后将合同文本输入训练好的神经网络模型,进而实现对合同文本的文本内容进行划分。
在对合同文本进行划分,得到合同文本中的各文本内容之后,针对任一文本内容,对其进行分词处理,得到该文本内容中的各词语。对任一文本内容进行分词的方法有多种,例如基于神经网络的分词方式、结巴(结巴)分词、基于词性进行分词等,其中,基于神经网络的分词方式为预先利用预设词典库训练神经网络模型,然后将任一文本内容输入训练好的神经网络模型中进行分词,得到分词结果。也可以预先建立一个关键词表,然后利用关键词匹配的方法对任一文本内容进行分词。具体采用的分词方式在此不做限定,能够将表征合同双方角色关系的词语划分出来的分词均可采用。
在得到任一文本内容中的各词语之后,将各词语与预设行为关键词库进行匹配,若匹配结果符合预设匹配条件,则确定该文本内容为目标文本内容,其中,预设行为关键词库中记录有指定类型下的行为关键词。
常见的合同文本中一般存在账款类型的文本内容,像“甲方向乙方借款5000元人民币”这种用一句话来描述账款的情形非常不常见。签订的合同内容表述非常复杂,前面一段可能在讲述双方之间存在借款关系,后面很多段之后才会在支付条款中提到具体金额,甚至还存在提到分成的方法,并未提及具体金额。这些情况,增加了提取并进一步解释合同含义的难度。
在本申请实施例一种可能的实现方式中,指定类型可以是账款类型,则预设行为关键词库中记录有账款类型的行为关键词,例如账款类型的行为关键词可以是“借款”“支付”“借给”“偿还”“还款”等关键词;一文本内容“甲方和乙方一致同意,通过银行转账的方式借给乙方500元人民币,并要求乙方在10个工作日内还清。”的各词语为“甲”、“借给”、“乙”、“500”、“元”。将该文本内容的各词语与预设行为关键词库中的各关键词进行匹配,匹配出该文本内容与预设行为关键词库中都有“借给”,则表示与关键词表中的关键词匹配成功,然后确定合同文本中的文本内容“甲方和乙方一致同意,通过银行转账的方式借给乙方500元人民币,并要求乙方在10个工作日内还清。”为目标文本内容。
在本申请实施例另一种可能的实现方式中,可以预设匹配阈值,当文本内容中的词语与预设行为关键词库匹配成功的词语达到预设匹配阈值时,则确定该文本内容为目标文本内容。
例如,预设匹配阈值为2;一文本内容“甲借给乙500元”中的各词语分别为“甲”、“借给”、“乙”、“500”、“元”;账款类型的行为关键词可以是“借款”、“支付”、“元”等关键词。将该文本内容的各词语与预设行为关键词库中的各关键词表进行匹配,匹配出该文本内容与预设行为关键词库中都有“借给”、“元”,达到了预设匹配阈值,则确定合同文本中的文本内容“甲借给乙500元”为目标文本内容。
在本申请实施例再一种可能的实现方式中,预设匹配条件可以为文本内容中与预设行为关键词库匹配的词语占比达到预设占比阈值,也就是说,当文本内容中的词语与预设行为关键词库匹配成功的词语占比达到预设占比阈值时,可以确定该文本内容为目标文本内容。利用占比的方式进行目标文本内容筛选,筛选结果更为精准。
例如,预设占比阈值为50%;一文本内容“甲借给乙500元”中的各词语分别为“甲”、“借给”、“乙”、“500元”;账款类型的行为关键词可以是“借给”、“支付”、“元”等关键词。将该文本内容的各词语与预设行为关键词库中的各关键词表进行匹配,匹配出该文本内容与预设行为关键词库中都有“借给”、“元”,也就是说,该文本内容与预设行为关键词库匹配的有两个词,而该文本内容总共有四个词,那么匹配的词语的占比为50%,达到了预设占比阈值,则确定合同文本中的文本内容“甲借给乙500元”为目标文本内容。
在上述实施方式中,对合同文本进行文本内容划分,得到合同文本中的各文本内容,然后针对任一文本内容,将该文本内容中的词语与预设行为关键词库进行匹配,若匹配结果符合预设匹配条件,则确定该词语为目标词语。通过上述方法,可以筛选出合同文本中符合预设条件的目标文本内容,用于对符合预设条件的目标文本内容进行类型识别,大大减少了文本分类的计算量,提高了对合同文本进行分类的效率。
步骤204、对目标文本内容进行类型识别,得到目标文本内容的文本类型。
在从合同文本中提取出符合预设条件的目标文本内容之后,需要对目标文本内容进行类型识别,通过对目标文本内容进行类型识别,得到目标文本内容的文本类型。具体进行类型识别的方式在此不做限制,可以采用基于神经网络的类型识别方案,也可以采用基于映射表的类型识别方案。下面,将对基于神经网络的类型识别方案进行介绍。
在本申请实施例一种可能的实现方式中,步骤204具体可以通过如下步骤实现:
将目标文本内容输入文本分类模型,得到目标文本内容的文本类型,其中,文本分类模型基于携带有类型标签的样本文本预先训练得到。
在本实施例中,文本分类模型用于对目标文本内容进行分类,文本分类模型可以为NLP模型、LSTM模型、CNN模型等任一种神经网络模型。采用基于神经网络的类型识别方案,由于文本分类模型是基于携带有类型标签的样本文本预先训练得到的,且为端到端的模型,具有较高的文本分类效率和准确率。
在本申请实施例一种可能的实现方式中,在将目标文本内容输入文本分类模型,得到目标文本内容的文本类型之前,需要对文本分类模型进行训练,具体的训练方法如图4所示,图4示出了根据本申请一实施例提供的一种合同文本识别方法中文本分类模型训练的流程图,具体包括以下步骤:
步骤402、获取第一训练集和第一待标注样本文本,其中,第一训练集包括多个携带有类型标签的样本文本。
步骤404、利用第一训练集,对文本分类模型进行训练。
步骤406、将第一待标注样本文本输入训练后的文本分类模型,得到第一待标注样本文本是否为指定类型的第一预测概率。
步骤408、基于第一预测概率,对第一待标注样本文本进行标注,得到标注后的第一样本文本。
步骤410、将标注后的第一样本文本添加至第一训练集中,得到更新的第一训练集,并利用更新的第一训练集对文本分类模型继续进行训练。
上述方法利用弱监督的方式进行模型训练,能够对文本分类模型的训练集进行更新,大大扩充了文本分类模型的训练集,进而有效提高了文本分类模型的准确率。
在本实施例中,第一训练集中包括多个携带有类型标签的样本文本,例如样本文本“甲借给乙500元”携带有“账款类型”标签;样本文本“乙拒绝向甲支付500元”携带有“非账款类型”标签等等。第一待标注样本文本是指未携带有类型标签的样本文本,例如第一待标注样本文本可以是“甲向乙捐赠500元”、“乙收取甲500元”、“乙未捐款”等等,第一待标注样本文本并未携带类型标签。
在实际应用中,文本分类模型可以是NLP模型、LSTM模型、CNN模型等任一种神经网络模型,在获取第一训练集和第一待标注样本文本之后,便利用第一训练集对文本分类模型进行训练。具体地,将多个携带有类型标签的样本文本输入至文本分类模型进行迭代训练,经过多次迭代,当文本分类模型的损失值达到预设阈值之后,得到训练后的文本分类模型。
然后将第一待标注样本文本输入训练后的文本分类模型中,对第一待标注样本文本是否为指定类型进行预测,得到第一待标注样本文本是否为指定类型的第一预测概率。
例如,将第一待标注样本文本“甲向乙捐赠500元”输入训练后的文本分类模型中,对第一待标注样本文本是否为账款类型进行预测,得到第一待标注样本文本是否是账款类型的第一预测概率。
在得到第一待标注样本文本是否为指定类型的第一预测概率之后,便基于第一预测概率,确定第一待标注样本文本的类型标签,并对第一待标注样本文本进行标注,得到标注后的第一样本文本。然后将标注后的第一样本文本添加至第一训练集中,得到更新的第一训练集,并利用更新的训练集对文本分类模型继续进行训练。
例如,指定类型是账款类型时,将第一待标注文本“甲向乙捐赠500元”标注为账款类型,得到标注后的第一样本文本,然后将携带有账款类型标签的标注后的第一样本文本“甲向乙捐赠500元”添加至第一训练集中,得到更新的第一训练集,并利用更新的第一训练集对文本分类模型继续进行训练。
在上述方法中,通过第一训练集对文本分类模型进行训练,然后将第一待标注样本文本输入训练后的文本分类模型,得到第一待标注样本文本是否为指定类型的第一预测概率,然后基于第一预测概率对第一待标注样本文本进行标注,得到标注后的第一样本文本,最后将标注后的第一样本文本添加至第一训练集中,得到更新的第一为训练集,并利用更新的第一训练集对文本分类模型继续进行训练。通过上述方法,能够对文本分类模型的训练集进行更新,大大扩充了文本分类模型的训练集,进而有效提高了文本分类模型的准确率。同时,基于第一预测概率,对第一待标注样本文本进行标注,减少了对样本文本进行人工标注的工作量,提高了对目标文本内容进行文本分类的效率。
在本申请实施例一种可能的实现方式中,基于第一预测概率,对第一待标注样本文本进行标注,具体可以通过以下方式实现:
在第一预测概率达到第一预设阈值的情况下,将第一待标注样本文本标注为指定类型的第一样本文本;
在第一预测概率未达到第一预设阈值的情况下,将第一待标注样本文本标注为非指定类型的第一样本文本。
在本实施例中,首先需要将第一待标注样本文本输入训练后的文本分类模型,得到第一待标注样本文本是否为指定类型的第一预测概率,然后将是否为指定类型的第一预测概率与第一预设阈值进行对比,在第一预测概率达到第一预设阈值的情况下,将第一待标注样本文本标注为指定类型的第一样本文本;在第一预测概率未达到第一预设阈值的情况下,将第一待标注样本文本标注为非指定类型的第一样本文本。
例如,指定类型为账款类型,第一预设阈值为80%时,将第一待标注样本文本“甲向乙捐赠500元”输入训练后的文本分类模型,得到第一待标注样本文本“甲向乙捐赠500元”是账款类型的第一预测概率是90%,则将第一待标注样本文本“甲向乙捐赠500元”标注为账款类型的第一样本文本,也即标注后的第一样本文本。
又例如,将第一待标注样本文本“乙未捐款”输入训练后的文本分类模型,得到第一待标注样本文本“乙未捐款”是账款类型的第一预测概率是30%,则将第一待标注样本文本“乙未捐款”标注为非账款类型的第一样本文本,也即标注后的第一样本文本。
在上述实施方式中,在第一预测概率达到第一预设阈值的情况下,将第一待标注样本文本标注为指定类型的第一样本文本;在第一预测概率未达到第一预设阈值的情况下,将第一待标注样本文本标注为非指定类型的第一样本文本。通过上述方法,可以准确的对第一待标注样本文本进行标注,从而扩充了文本分类模型的训练集,提升了文本分类模型的准确率。
步骤206、在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。
如果识别出目标文本内容的类型为指定类型,可以进一步从目标文本内容中提取出实体信息,实体信息包括目标文本内容中具有特定意义的实体词语(例如合同文本的具体参与方)以及针对该词语的实体标签,其中,实体标签可以表征实体词语的角色、属性等,因此,基于提取出的实体信息,可以更精准地确定合同文本的识别结果。具体进行实体提取的方式在此不做限制,可以采用基于神经网络的实体提取方案,也可以采用基于映射表的实体提取方案。下面,将对基于神经网络的实体提取方案进行介绍。
在本申请实施例一种可能的实现方式中,步骤206具体可以通过如下步骤实现:
将目标文本内容输入实体识别模型,提取目标文本内容中的实体信息,其中,实体识别模型基于携带有实体标签信息的、属于指定类型的样本文本预先训练得到。
实体识别模型用于提取指定类型的目标文本内容中实体信息,在本实施例中,首先将目标文本内容输入文本分类模型,识别目标文本内容是否为指定类型。在目标文本内容为指定类型的情况下,便将目标文本内容输入实体识别模型,进而提取出目标文本内容中的实体信息。采用基于神经网络的实体识别方案,由于实体识别模型是基于携带有实体标签信息的、属于指定类型的样本文本预先训练得到的,且为端到端的模型,具有较高的实体识别效率和准确率。其中,实体识别模型可以采用LSTM加条件随机场(CRF,ConditionalRandom Fields)的模型结构,也可以采用BiLSTM加CRF的模型结构,还可以采用BERT加CRF的模型结构,这里不做具体限定。
例如,指定类型为账款类型时,将账款类型的目标文本内容“甲借给乙500元”输入实体识别模型,提取出目标文本内容“甲借给乙500元”的实体信息为“甲:付款方;乙:收款方”。其中,“付款方”为实体词语“甲”的实体标签,“收款方”为实体词语“乙”的实体标签。
在本申请实施例一种可能的实现方式中,在将目标文本内容输入实体识别模型,提取目标文本内容中的实体信息之前,需要对实体识别模型进行训练,具体的训练方法如图5所示,图5示出了根据本申请一实施例提供的一种合同文本识别方法中实体识别模型训练的流程图,具体包括以下步骤:
步骤502、获取第二训练集和第二待标注样本文本,其中,第二训练集包括多个携带有实体标签信息的、属于指定类型的样本文本。
步骤504、利用第二训练集,对实体识别模型进行训练。
步骤506、将第二待标注样本文本输入训练后的实体识别模型,得到第二待标注样本文本中的各实体词语,以及各实体词语对应的实体标签信息的第二预测概率。
步骤508、基于第二预测概率,对第二待标注样本文本的各实体词语进行标注,得到标注后的第二样本文本。
步骤510、将标注后的第二样本文本添加至第二训练集中,得到更新的第二训练集,并利用更新的第二训练集对实体识别模型继续进行训练。
利用弱监督的方式进行模型训练,能够对实体识别模型的训练集进行更新,大大扩充了实体识别模型的训练集,进而有效提高了实体识别模型的准确率。
在本实施例中,第二训练集中包括多个携带有实体标签信息的、属于指定类型的样本文本。以指定类型是账款类型为例,样本文本“甲借给乙500元”属于账款类型,且携带有实体标签信息(即对实体甲标注付款方标签、对实体乙标注收款方标签);样本文本“乙向甲支付500元”属于账款类型,且携带有实体标签信息(即对实体甲标注收款方标签、对实体乙标注付款方标签)。
在实际应用中,实体识别模型可以是NLP模型、LSTM模型、CNN模型等任一种神经网络模型,在获取第二训练集和第二待标注样本文本之后,便利用第二训练集对实体识别模型进行训练。具体地,将多个携带有实体标签信息的、属于指定类型的样本文本输入至实体识别模型进行迭代训练,经过多次迭代,当实体识别模型的损失值达到预设阈值之后,得到训练后的实体识别模型。
然后将第二待标注样本文本输入训练后的实体识别模型中,得到第二待标注样本文本中的各实体词语,以及各实体词语对应的实体标签信息的第二预测概率。基于第二预测概率,对第二待标注样本文本的各实体词语进行标注,得到标注后的第二样本文本。之后便将标注后的第二样本文本添加至第二训练集中,得到更新的第二训练集,并利用更新的训练集对实体识别模型继续进行训练。
例如,指定类型是账款类型时,将第二待标注文本“甲向乙捐赠500元”输入训练后的实体识别模型中,得到“甲向乙捐赠500元”中各实体词语以及对应的实体标签信息的第二预测概率,并基于第二预测概率将实体词语“甲”标注为收款方,实体词语“乙”标注为付款方。然后将标注后的第二样本文本添加至第二训练集中,得到更新的第二训练集,并利用更新的第二训练集对实体识别模型继续进行训练。
通过上述方法,能够对实体识别模型的训练集进行更新,大大扩充了实体识别模型的训练集,进而有效提高了实体识别模型的准确率。同时,基于第二预测概率,对第二待标注样本文本进行标注,减少了对样本文本进行人工标注的工作量,提高了对目标文本内容进行实体合同文本识别的效率。
在本申请实施例一种可能的实现方式中,基于第二预测概率,对第二待标注样本文本进行标注,包括:
在第二预测概率达到第二预设阈值的情况下,确定该实体标签信息为目标实体标签信息,并对目标实体标签信息对应的实体词语进行标注。
在本实施例中,首先需要将第二待标注样本文本输入训练后的实体识别模型,得到第二待标注样本文本中的各实体词语,以及各实体词语对应的实体标签信息的第二预测概率。然后将第二预测概率与第二预设阈值进行对比,进而基于对比结果,对第二待标注样本文本的各实体词语进行标注,得到标注后的第二样本文本。
例如,指定类型为账款类型,第二预设阈值为80%时,将第二待标注样本文本“甲向乙捐赠500元”输入训练后的实体识别模型,得到第二待标注样本文本中的各实体词语分别为“甲”、“乙”,实体词语“甲”对应的第二预测概率分别为:收款方10%,付款方90%;实体词语“乙”对应的第二预测概率为:收款方90%,付款方10%。实体词语“甲”对应的实体标签信息的第二预测概率中,标签“付款方”的第二预测概率达到了第二预设阈值;实体词语“乙”对应的实体标签信息的第二预测概率中,标签“收款方”的第二预测概率达到了第二预设阈值。基于上述第二预测概率,将第二待标注样本文本“甲向乙捐赠500元”中实体词语“甲”标注为付款方,实体词语“乙”标注为收款方。
在上述实施方式中,在实体标签信息的第二预测概率达到第二预设阈值的情况下,确定该实体标签信息为目标实体标签信息,并对目标实体标签信息对应的实体词语进行标注。通过上述方法,可以准确的对第二待标注样本文本进行标注,从而扩充了实体识别模型的训练集,进而有效提高了实体识别模型的准确率。
在本申请实施例一种可能的实现方式中,指定类型的目标文本内容为多条,也就是说合同文本中可以识别出有多条目标文本内容的类型为指定类型,相应地,确定合同文本的识别结果的步骤,具体可以通过图6的方式实现。图6示出了根据本申请一实施例提供的一种合同文本识别方法中确定合同文本的识别结果的流程图,具体包括以下步骤:
步骤602,对多条指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果。
步骤604,利用实体融合结果,对各实体信息进行校正,获得校正后的实体信息。
步骤606,整合目标文本内容的文本类型和校正后的实体信息,获得合同文本的识别结果。
在本实施例中,当指定类型的目标文本内容为多条的情况下,可以针对各指定类型的目标文本内容分别提取实体信息,然后对多条指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果。其中,信息融合处理就是指对多个实体信息进行分析,分析出多个实体信息的统一规律或符合的规则,基于分析结果将多个实体信息融合为一个实体信息的过程。进一步地,可以利用实体融合结果,对各实体信息进行校正,从而获得校正后的实体信息,整合目标文本内容的文本类型和校正后的实体信息即可获得合同文本的识别结果得到合同文本的实体提取结果。其中,合同文本的实体提取结果包括目标文本内容的文本类型和校正后的实体信息,对各实体信息进行校正就是指基于实体融合结果对不符合统一规律或者规则的实体信息进行相应的处理,具体可以是删除、修改等操作,使得所有的实体信息都能够符合统一规律或者规则。通过上述方法,可以有效提高提取合同文本实体信息的准确性。
在本申请实施例一种可能的实现方式中,提取目标文本内容中的实体信息的步骤,具体可以通过如下方式实现:选择预设数目条指定类型的目标文本内容,依次提取预设数目条指定类型的目标文本内容中的实体信息。相应地,上述步骤602具体可以通过如下方式实现:对预设数目条指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果。
指定类型的目标文本内容为多条,为了进一步提升处理效率,可以从这些目标文本内容中选择预设数目条进行实体信息的提取,在具体实现中,可以依次对目标文本内容进行类型识别,当识别出预设数目条(例如2个)指定类型的目标文本内容后,便停止识别其他目标文本内容的类型。当然,也可以对所有的目标文本内容全部进行类型识别,在得到所有目标文本内容的文本类型后,从中选择出预设数目条指定类型的目标文本内容。然后对预设数目条指定类型的目标文本内容中的实体信息进行信息融合处理,即可得到实体融合结果。
在本申请实施例一种可能的实现方式中,实体信息包括指定类型的目标文本内容中的实体词语,其中,指定类型的目标文本内容中的实体词语携带有对应的实体标签。相应地,上述步骤602具体可以通过如下方式实现:对多条指定类型的目标文本内容中具有相同实体标签的实体词语进行统计;根据统计结果,得到实体融合结果。
在本实施例中,实体信息包括指定类型的目标文本内容中的实体词语,实体词语携带有对应的实体标签。在得到多条指定类型的目标文本内容中的实体信息之后,需要根据实体信息中的实体词语以及对应的实体标签,对多条指定类型的目标文本内容中具有相同实体标签的实体词语进行统计,然后根据统计结果,得到实体融合结果。
例如,针对目标文本内容“甲借给乙500元”、“乙向甲支付200元”、“甲向乙捐赠500元”,分别得到实体信息如下:目标文本内容“甲借给乙500元”的实体信息中,实体词语为“甲”、“乙”,其中,实体词语“甲”携带有实体标签“付款方”;实体词语“乙”携带有实体标签“收款方”。目标文本内容“乙向甲支付200元”的实体信息中,实体词语为“甲”、“乙”,其中,实体词语“甲”携带有实体标签“收款方”;实体词语“乙”携带有实体标签“付款方”。目标文本内容“甲向乙捐赠500元”的实体信息中,实体词语为“甲”、“乙”,其中,实体词语“甲”携带有实体标签“付款方”;实体词语“乙”携带有实体标签“收款方”。
对上述目标文本内容中具有相同实体标签的实体词语进行统计,得到统计结果为:实体词语“甲”携带有实体标签“收款方”的数量是1个、“付款方”的数量是2个;实体词语“乙”携带有实体标签“收款方”的数量是2个、“付款方”的数量是1个。根据该统计结果,即可得到实体融合结果为“甲:付款方;乙:收款方”。
在上述实施方式中,对多个指定类型的目标文本内容中具有相同实体标签的实体词语进行统计,根据统计结果进而得到实体融合结果。通过上述方法,可以有效提高提取合同文本实体信息的准确性。
在本申请实施例的一种可能的实现方式中,步骤604具体可以通过如下方式实现:将实体融合结果与各实体信息进行匹配;确定匹配成功的实体信息作为校正后的实体信息,并删除匹配失败的实体信息。
在本实施例中,合同文本的实体融合结果中包括有目标实体词语以及目标实体词语对应的实体标签,目标实体词语以及目标实体词语对应的实体标签是通过对各指定类型的目标词语中具有相同实体标签的实体词语进行统计得到的。将实体融合结果与各实体信息进行匹配,就是将上述目标实体词语以及目标实体词语对应的实体标签与各实体信息的实体词语以及对应的实体标签进行匹配,得到匹配结果。相应地,确定匹配成功的实体信息作为校正后的实体信息,并删除匹配失败的实体信息。
例如,各指定类型的目标文本内容的实体信息具体如下:目标文本内容“甲借给乙500元”的实体信息中,实体词语为“甲”、“乙”,其中,实体词语“甲”携带有实体标签“付款方”;实体词语“乙”携带有实体标签“收款方”。目标文本内容“乙向甲支付200元”的实体信息中,实体词语为“甲”、“乙”,其中,实体词语“甲”携带有实体标签“收款方”;实体词语“乙”携带有实体标签“付款方”。目标文本内容“甲向乙捐赠500元”的实体信息中,实体词语为“甲”、“乙”,其中,实体词语“甲”携带有实体标签“付款方”;实体词语“乙”携带有实体标签“收款方”。
对上述目标文本内容中具有相同实体标签的实体词语进行统计,并根据统计结果,得到实体融合结果“甲是付款方,乙是收款方”,也即合同文本的实体提取结果中,目标实体词语为“甲”、“乙”,其中目标实体词语“甲”对应的实体标签为“付款方”;“乙”对应的实体标签为“收款方”。
将目标实体词语以及目标实体词语对应的实体标签与各实体信息的实体词语以及实体词语对应的实体标签进行匹配,得到匹配结果为:与目标文本内容“甲借给乙500元”、“甲向乙捐赠500元”匹配成功;与目标文本内容“乙向甲支付200元”匹配失败。最终根据匹配结果,确定校正后的实体信息为:“甲是付款方,乙是收款方”。
在上述实施方式中,将实体融合结果与各实体信息进行匹配,根据匹配结果,确定匹配成功的实体信息作为校正后的实体信息,并删除匹配失败的实体信息。通过上述方法,可以删除各实体信息中与实体融合结果不符的实体信息,从而提高了实体识别模型提取实体信息的准确率。
本申请提供的合同文本识别方法,通过获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;对目标文本内容进行类型识别,得到目标文本内容的文本类型;在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。通过上述方法,从合同文本中提取符合预设条件的目标文本内容并对目标文本内容进行类型识别,可以大大降低类型识别的数据处理量,提高了类型识别的效率。并且在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,从而确定合同文本的识别结果,通过对合同文本中符合预设条件的目标文本内容进行提取,结合类型识别,对合同文本的类型进行初步识别,再经过对指定类型的目标文本内容中的实体信息进行提取,结合实体信息确定合同文本的识别结果,从而提升了合同文本识别的精度。
下述结合图7以本申请提供的合同文本识别方法在账款类型的合同中进行实体提取为例,进行合同文本识别的目的是为了从合同中识别出各方在款项支付交易中扮演的角色或者相互之间的关系,判断出整篇合同所表达的含义中究竟哪几方是借款方(收款方、债务人),哪几方是贷款方(付款方、债权人)。对合同文本识别方法进行进一步说明。其中,图7示出了本申请一实施例提供的一种应用于账款类型合同的合同文本识别方法的处理流程图,具体包括以下步骤:
步骤702、输入合同文本。
输入一篇从合同文本提取到的文本描述,文本描述包含大量的句子和段落,这些句子有些是带有借贷关系的表述,一些句子不带有借款关系的表述。比如某合同带有句子“甲方和乙方一致同意,通过银行转账的方式借给乙方500元人民币,并要求乙方在10个工作日内还清”,在该句中“甲方和乙方一致同意”属于不带借贷关系的句子,“要求乙方在10个工作日内还清”属于不带借贷关系的句子。“通过银行转账的方式借给乙方500元人民币”属于带有借贷关系的句子。因此,针对句子“甲方和乙方一致同意,通过银行转账的方式借给乙方500元人民币,并要求乙方在10个工作日内还清”,以标点符号“,”作为划分方法进行子句划分,得到“甲方和乙方一致同意”、“通过银行转账的方式借给乙方500元人民币”、“要求乙方在10个工作日内还清”三条子句。
步骤704、支付行为关键词表过滤。
通过支付行为关键词表对文本句子进行过滤,减少模型待预测处理的文本数据量。支付行为关键词表可以通过人工标注得到,诸如“支付”、“借给”等支付行为动作词。在账款类型的合同文本识别场景下,支付行为是账款类型的主要行为特征,因此,采用支付行为关键词表对合同文本进行过滤,筛选出与支付行为关键词表匹配的目标文本内容,其中,支付行为关键词表中记录的是表征支付行为的相关词语,例如“收款”、“借款”、“支付”、“借给”等。例如,基于上述实例,过滤筛除“甲方和乙方一致同意”“要求乙方在10个工作日内还清”,筛选出“通过银行转账的方式借给乙方500元人民币”作为目标文本内容。
步骤706、文本分类识别。
在本实施例中,采用文本分类模型对目标文本内容进行文本分类识别,可以基于样本数据,采用弱监督迭代训练的方式对文本分类模型进行训练。
训练文本识别模型并行判断输入的合同文本是否属于账款类型,是一个典型的二分类任务。并行指的是批量一次处理一个batch或者说单次处理识别多条文本语句,可以提高处理识别效率;并行即模型的并行处理、或者说batch推理预测。训练数据通过标注一定量的账款类型文本语句后,训练文本分类识别模型,然后对无标签样本数据进行预测并选取预测评分高于一定阈值的样本数据打上伪标签(即模型预测的标签赋给样本数据),扩充训练数据并进行模型迭代训练(弱监督训练过程,即只需要起初标注少量训练数据,之后利用模型对无标签样本数据进行伪标注并迭代训练的过程)。降低样本数据人工标注成本(实体识别模型训练数据获取及训练过程基本相同)。
具体地,可以将各目标文本内容并行输入文本分类模型,判断各目标文本内容是否属于账款类型,文本分类模型是一个典型的二分类任务。训练数据通过标注一定量的账款类型文本内容后,训练文本分类模型,然后对无标签样本数据进行预测并选取预测评分高于一定阈值的样本数据打上伪标签(即模型预测的标签赋给样本数据),扩充训练数据并进行模型迭代训练,这样可以降低样本数据的人工标注成本。
步骤708、判断合同文本中是否包含账款类型的目标文本内容。若包含则执行步骤710至714,否则执行步骤716。
针对识别到无账款类型文本的合同,直接输出账款类型及收付款方抽取结果为空。根据该技术方案可以帮助人类判断出该合同不存在借贷关系。
步骤710、获取预设数目条账款类型的目标文本内容。
设定预设数目为N。预设数目假设为10条,沿用上述举例,获取目标文本内容1条“通过银行转账的方式借给乙方500元人民币”,未超出10条的限制。如果超出预设数目,则只取10条,后面停止识别。通常合同的第一页会先表明整篇合同的主旨含义,有甲方联系信息、乙方联系信息,以及“鉴于”条款对各方在本合同准备就什么事项进行约定做一些介绍,之后在付款条款中会写某一方支付给另一方具体金额的对价,根据合同设置的这一特点,在一个具体实施例中,从“鉴于”二字之后的段落,还有带有数字标题+“付款”字样之后、下一个数字标题之前的段落中的内容,通过步骤704至步骤710进行运算,从中获取前10条的目标文本内容。
步骤712、实体识别抽取。
对于识别到的账款类型文本,提取其中N条合同文本描述(N为预设值)后,所有的账款类型文本中获取其中N条合同文本描述进行预测处理,送入实体识别模型抽取其中的收付款方角色。其中N是预设数目条。在本实施例中,采用实体识别模型对目标文本内容进行实体抽取,可以基于样本数据,采用弱监督迭代训练的方式对实体识别模型进行训练,具体的训练过程与文本分类模型的训练方式相似。例如上述例子,从“通过银行转账的方式借给乙方500元人民币”中,由于乙方出现在“借给”二字之后,因此抽取出“乙方”作为收款方角色,未从本句中抽取到“甲方”,也没有抽取到“付款方角色”。
步骤714、投票融合。
对于抽取出的多个实体信息,本实施例中采用投票融合的方式,对N条合同文本描述的抽取结果进行投票融合,输出合同收付款方识别抽取结果,从而更有效保证抽取识别的准确度。例如从N条文本内容中识别到“甲方”是付款方实体的共计8条,“乙方”是收款方实体的共计3条,即投票选择其中预测结果更多的,付款方就是“甲方”。投票融合结果会提高整体准确率,另外由于文本内容尤其是负样本文本内容的影响,模型预测可能有一些影响或者错误结果,投票融合效果更好。数据获取及模型训练过程同样采用弱监督训练流程。这里抽取的只有收款方角色和付款方角色两个实体信息,没有其他类型实体,如“甲方支付给乙方500元”,甲方是付款方,乙方是收款方,没有详细信息或者其它。
在经投票融合得到收付款方的实体信息后,可结合支付行为关键词和/或收付款方的实体信息,对提取到的账款类型文本进行后处理过滤,剔除其中可能包含错误信息(例如收付款方的实体信息不符合投票融合得到的实体信息)或在步骤706识别错误的文本语句(文本语句中并不包含收付款方的实体信息或者支付行为关键词,却被识别为账款类型的文本)。经过后处理过滤,对文本分类识别所识别到的错误的文本语句进行筛除,然后执行步骤718,从而能够提高类型抽取结果输出的准确度。
步骤716、结果为空。
在识别到无账款类型文本内容的合同文本的情况下,直接输出账款类型及收付款方抽取结果为空。
步骤718、输出类型抽取结果。
最终输出抽取到的合同账款类型及收付款方实体信息。例如上述实例,输出内容为:账款类型:是;收款方-乙方;付款方-甲方。
对于识别到无账款类型文本内容的合同文本,输出的抽取结果是:账款类型:非;收款方-空;付款方-空。
对于识别到的账款类型文本内容,存在较多签署主体的情况下,输出的抽取结果可以是:账款类型:是;收款方-乙方、丙方;付款方-甲方、丁方。
如上述步骤,如果合同文本包含账款类型的目标文本内容,对于抽取出的多个实体信息,采用投票融合的方式,输出的类型抽取结果即为合同收付款方识别抽取结果;如果合同文本不包含账款类型的目标文本内容,直接输出的类型抽取结果为空。
通过上述方法,从合同文本中提取支付行为关键词表匹配的目标文本内容并对目标文本内容进行类型识别,可以大大降低类型识别的数据处理量,提高了账款类型识别的效率。并且在确定合同文本包含账款类型的目标文本内容的情况下,提取目标文本内容中的实体信息,并且通过投票融合的方式输出账款类型抽取结果,提升了账款类型的合同文本识别的精度。
与上述方法实施例相对应,本申请还提供了合同文本识别装置实施例,图8示出了本申请一实施例提供的一种合同文本识别装置的结构示意图。如图8所示,该装置包括:
筛选模块802,被配置为获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;
识别模块804,被配置为对目标文本内容进行类型识别,得到目标文本内容的文本类型;
提取模块806,被配置为在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。
可选地,筛选模块802,进一步被配置为对合同文本进行划分,得到合同文本中的各文本内容;针对任一文本内容,将该文本内容中的词语与预设行为关键词库进行匹配,若匹配结果符合预设匹配条件,则确定该文本内容为目标文本内容,其中,预设行为关键词库中记录有指定类型下的行为关键词。
可选地,预设匹配条件为文本内容中与预设行为关键词库匹配的词语占比达到预设占比阈值。
可选地,指定类型的目标文本内容为多条;
提取模块806,进一步被配置为对多条指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果;利用实体融合结果,对各实体信息进行校正,获得校正后的实体信息;整合目标文本内容的文本类型和校正后的实体信息,获得合同文本的识别结果。
可选地,提取模块806,进一步被配置为选择预设数目条指定类型的目标文本内容,依次提取预设数目条指定类型的目标文本内容中的实体信息;对预设数目条指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果。
可选地,实体信息包括指定类型的目标文本内容中的实体词语,其中,指定类型的目标文本内容中的实体词语携带有对应的实体标签;
提取模块806,进一步被配置为对多条指定类型的目标文本内容中具有相同实体标签的实体词语进行统计;根据统计结果,得到实体融合结果。
可选地,提取模块806,进一步被配置为将实体融合结果与各实体信息进行匹配;确定匹配成功的实体信息作为校正后的实体信息,并删除匹配失败的实体信息。
可选地,识别模块804,进一步被配置为将目标文本内容输入文本分类模型,得到目标文本内容的文本类型,其中,文本分类模型基于携带有类型标签的样本文本预先训练得到。
可选地,该装置还包括第一训练模块;
第一训练模块,被配置为获取第一训练集和第一待标注样本文本,其中,第一训练集包括多个携带有类型标签的样本文本;利用第一训练集,对文本分类模型进行训练;将第一待标注样本文本输入训练后的文本分类模型,得到第一待标注样本文本是否为指定类型的第一预测概率;基于第一预测概率,对第一待标注样本文本进行标注,得到标注后的第一样本文本;将标注后的第一样本文本添加至第一训练集中,得到更新的第一训练集,并利用更新的第一训练集对文本分类模型继续进行训练。
可选地,第一训练模块,进一步被配置为在第一预测概率达到第一预设阈值的情况下,将第一待标注样本文本标注为指定类型的第一样本文本;在第一预测概率未达到第一预设阈值的情况下,将第一待标注样本文本标注为非指定类型的第一样本文本。
可选地,提取模块806,进一步被配置为将目标文本内容输入实体识别模型,提取目标文本内容中的实体信息,其中,实体识别模型基于携带有实体标签信息的、属于指定类型的样本文本预先训练得到。
可选地,该装置还包括第二训练模块;
第二训练模块,被配置为获取第二训练集和第二待标注样本文本,其中,第二训练集包括多个携带有实体标签信息的、属于指定类型的样本文本;利用第二训练集,对实体识别模型进行训练;将第二待标注样本文本输入训练后的实体识别模型,得到第二待标注样本文本中的各实体词语,以及各实体词语对应的实体标签信息的第二预测概率;基于第二预测概率,对第二待标注样本文本的各实体词语进行标注,得到标注后的第二样本文本;将标注后的第二样本文本添加至第二训练集中,得到更新的第二训练集,并利用更新的第二训练集对实体识别模型继续进行训练。
可选地,第二训练模块,进一步被配置为在第二预测概率达到第二预设阈值的情况下,确定该实体标签信息为目标实体标签信息,并对目标实体标签信息对应的实体词语进行标注。
本申请提供的合同文本识别装置,通过获取合同文本,提取合同文本中符合预设条件的目标文本内容,其中,预设条件基于指定类型的特征信息设置;对目标文本内容进行类型识别,得到目标文本内容的文本类型;在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,确定合同文本的识别结果。通过上述方法,从合同文本中提取符合预设条件的目标文本内容并对目标文本内容进行类型识别,可以大大降低类型识别的数据处理量,提高了类型识别的效率。并且在目标文本内容的文本类型为指定类型的情况下,提取目标文本内容中的实体信息,从而确定合同文本的识别结果,通过对合同文本中符合预设条件的目标文本内容进行提取,结合类型识别,对合同文本的类型进行初步识别,再经过对指定类型的目标文本内容中的实体信息进行提取,结合实体信息确定合同文本的识别结果,从而提升了合同文本识别的精度。
上述为本实施例的一种合同文本识别装置的示意性方案。需要说明的是,该合同文本识别装置的技术方案与上述的合同文本识别方法的技术方案属于同一构思,合同文本识别装置的技术方案未详细描述的细节内容,均可以参见上述合同文本识别方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图9示出了根据本申请一实施例提供的一种计算设备的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Card))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,Wireless LocalArea Networks)无线接口、全球微波互联接入(Wi-MAX,World Interoperability forMicrowave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near Field Communication)接口,等等。
在本申请的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行所述合同文本识别方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的合同文本识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述合同文本识别方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于合同文本识别方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的合同文本识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述合同文本识别方法的技术方案的描述。
本申请一实施例还提供一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述合同文本识别方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (16)

1.一种合同文本识别方法,其特征在于,包括:
获取合同文本,提取所述合同文本中符合预设条件的目标文本内容,其中,所述预设条件基于指定类型的特征信息设置;
对所述目标文本内容进行类型识别,得到所述目标文本内容的文本类型;
在所述文本类型为所述指定类型的情况下,提取所述目标文本内容中的实体信息,确定所述合同文本的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述提取所述合同文本中符合预设条件的目标文本内容,包括:
对所述合同文本进行划分,得到所述合同文本中的各文本内容;
针对任一文本内容,将该文本内容中的词语与预设行为关键词库进行匹配,若匹配结果符合预设匹配条件,则确定该文本内容为目标文本内容,其中,所述预设行为关键词库中记录有指定类型下的行为关键词。
3.根据权利要求2所述的方法,其特征在于,所述预设匹配条件为文本内容中与所述预设行为关键词库匹配的词语占比达到预设占比阈值。
4.根据权利要求1所述的方法,其特征在于,所述指定类型的目标文本内容为多条;
所述确定所述合同文本的识别结果,包括:
对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果;
利用所述实体融合结果,对各所述实体信息进行校正,获得校正后的实体信息;
整合所述文本类型和所述校正后的实体信息,获得所述合同文本的识别结果。
5.根据权利要求4所述的方法,其特征在于,所述提取所述目标文本内容中的实体信息,包括:
选择预设数目条所述指定类型的目标文本内容,依次提取预设数目条所述指定类型的目标文本内容中的实体信息;
所述对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果,包括:
对预设数目条所述指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果。
6.根据权利要求4或5所述的方法,其特征在于,所述实体信息包括所述指定类型的目标文本内容中的实体词语,其中,所述指定类型的目标文本内容中的实体词语携带有对应的实体标签;
所述对多条所述指定类型的目标文本内容中的实体信息进行信息融合处理,得到实体融合结果,包括:
对多条所述指定类型的目标文本内容中具有相同实体标签的实体词语进行统计;
根据统计结果,得到实体融合结果。
7.根据权利要求4或5所述的方法,其特征在于,所述利用所述实体融合结果,对各所述实体信息进行校正,获得校正后的实体信息,包括:
将所述实体融合结果与各所述实体信息进行匹配;
确定匹配成功的实体信息作为校正后的实体信息,并删除匹配失败的实体信息。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述目标文本内容进行类型识别,得到所述目标文本内容的文本类型,包括:
将所述目标文本内容输入文本分类模型,得到所述目标文本内容的文本类型,其中,所述文本分类模型基于携带有类型标签的样本文本预先训练得到。
9.根据权利要求8所述的方法,其特征在于,在所述将所述目标文本内容输入文本分类模型,得到所述目标文本内容的文本类型之前,还包括:
获取第一训练集和第一待标注样本文本,其中,所述第一训练集包括多个携带有类型标签的样本文本;
利用所述第一训练集,对文本分类模型进行训练;
将所述第一待标注样本文本输入训练后的文本分类模型,得到所述第一待标注样本文本是否为指定类型的第一预测概率;
基于所述第一预测概率,对所述第一待标注样本文本进行标注,得到标注后的第一样本文本;
将所述标注后的第一样本文本添加至所述第一训练集中,得到更新的第一训练集,并利用所述更新的第一训练集对文本分类模型继续进行训练。
10.根据权利要求9所述的方法,其特征在于,所述基于所述第一预测概率,对所述第一待标注样本文本进行标注,包括:
在所述第一预测概率达到第一预设阈值的情况下,将所述第一待标注样本文本标注为指定类型的第一样本文本;
在所述第一预测概率未达到所述第一预设阈值的情况下,将所述第一待标注样本文本标注为非指定类型的第一样本文本。
11.根据权利要求1至5任一项所述的方法,其特征在于,所述提取所述目标文本内容中的实体信息,包括:
将所述目标文本内容输入实体识别模型,提取所述目标文本内容中的实体信息,其中,所述实体识别模型基于携带有实体标签信息的、属于所述指定类型的样本文本预先训练得到。
12.根据权利要求11所述的方法,其特征在于,在所述将所述目标文本内容输入实体识别模型,提取所述目标文本内容中的实体信息之前,还包括:
获取第二训练集和第二待标注样本文本,其中,所述第二训练集包括多个携带有实体标签信息的、属于所述指定类型的样本文本;
利用所述第二训练集,对实体识别模型进行训练;
将所述第二待标注样本文本输入训练后的实体识别模型,得到所述第二待标注样本文本中的各实体词语,以及各实体词语对应的实体标签信息的第二预测概率;
基于所述第二预测概率,对所述第二待标注样本文本的各实体词语进行标注,得到标注后的第二样本文本;
将所述标注后的第二样本文本添加至所述第二训练集中,得到更新的第二训练集,并利用所述更新的第二训练集对实体识别模型继续进行训练。
13.根据权利要求12所述的方法,其特征在于,所述基于所述第二预测概率,对所述第二待标注样本文本进行标注,包括:
在所述第二预测概率达到第二预设阈值的情况下,确定该实体标签信息为目标实体标签信息,并对所述目标实体标签信息对应的实体词语进行标注。
14.一种合同文本识别装置,其特征在于,包括:
筛选模块,被配置为获取合同文本,提取所述合同文本中符合预设条件的目标文本内容,其中,所述预设条件基于指定类型的特征信息设置;
识别模块,被配置为对所述目标文本内容进行类型识别,得到所述目标文本内容的文本类型;
提取模块,被配置为在所述文本类型为所述指定类型的情况下,提取所述目标文本内容中的实体信息,确定所述合同文本的识别结果。
15.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现如权利要求1至13任意一项所述的合同文本识别方法。
16.一种计算机可读存储介质,其存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时实现如权利要求1至13任意一项所述的合同文本识别方法。
CN202210582893.XA 2022-05-26 2022-05-26 合同文本识别方法及装置 Pending CN114818718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210582893.XA CN114818718A (zh) 2022-05-26 2022-05-26 合同文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210582893.XA CN114818718A (zh) 2022-05-26 2022-05-26 合同文本识别方法及装置

Publications (1)

Publication Number Publication Date
CN114818718A true CN114818718A (zh) 2022-07-29

Family

ID=82519559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210582893.XA Pending CN114818718A (zh) 2022-05-26 2022-05-26 合同文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN114818718A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270797A (zh) * 2022-09-23 2022-11-01 山东省计算中心(国家超级计算济南中心) 一种基于自训练半监督学习的文本实体抽取方法及***
CN115546814A (zh) * 2022-10-08 2022-12-30 招商局通商融资租赁有限公司 关键合同字段抽取方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115270797A (zh) * 2022-09-23 2022-11-01 山东省计算中心(国家超级计算济南中心) 一种基于自训练半监督学习的文本实体抽取方法及***
CN115546814A (zh) * 2022-10-08 2022-12-30 招商局通商融资租赁有限公司 关键合同字段抽取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及***
CN109685056B (zh) 获取文档信息的方法及装置
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及***
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN114818718A (zh) 合同文本识别方法及装置
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113033438B (zh) 一种面向模态非完全对齐的数据特征学习方法
CN112580362A (zh) 一种基于文本语义监督的视觉行为识别方法、***及计算机可读介质
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN110929015A (zh) 一种多文本分析方法及装置
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN114240672A (zh) 绿色资产的占比的识别方法及相关产品
CN113901813A (zh) 一种基于主题特征和隐式句子结构的事件抽取方法
CN109635289B (zh) 词条分类方法及审计信息抽取方法
CN111736804A (zh) 一种基于用户评论识别App关键功能的方法及装置
CN115640401B (zh) 文本内容提取方法及装置
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
CN115906835A (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN115358817A (zh) 基于社交数据的智能产品推荐方法、装置、设备及介质
CN116186529A (zh) 语义理解模型的训练方法及装置
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination