CN109992761A - 一种基于规则的自适应文本信息提取方法及软件存储器 - Google Patents

一种基于规则的自适应文本信息提取方法及软件存储器 Download PDF

Info

Publication number
CN109992761A
CN109992761A CN201910223558.9A CN201910223558A CN109992761A CN 109992761 A CN109992761 A CN 109992761A CN 201910223558 A CN201910223558 A CN 201910223558A CN 109992761 A CN109992761 A CN 109992761A
Authority
CN
China
Prior art keywords
text
template
rule
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910223558.9A
Other languages
English (en)
Inventor
李晓林
李道庆
张彦铎
田英明
刘玮
姚峰
范佳莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI HUACHUAN ENVIRONMENTAL PROTECTION TECHNOLOGY Co Ltd
Wuhan Institute of Technology
Original Assignee
SHANGHAI HUACHUAN ENVIRONMENTAL PROTECTION TECHNOLOGY Co Ltd
Wuhan Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI HUACHUAN ENVIRONMENTAL PROTECTION TECHNOLOGY Co Ltd, Wuhan Institute of Technology filed Critical SHANGHAI HUACHUAN ENVIRONMENTAL PROTECTION TECHNOLOGY Co Ltd
Priority to CN201910223558.9A priority Critical patent/CN109992761A/zh
Publication of CN109992761A publication Critical patent/CN109992761A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于规则的自适应文本信息提取方法及软件存储器,该方法包括以下步骤:对专业领域的文本对象构建文本信息提取的规则,并将规则总结在模版中。模版规则按树状顺序分级处理,构成文本模版,模板均为四层结构,包括段、行、句、词;对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;输出包含关键词的文本提取结果。本发明能够自动适应文本内容、结构的变化,高效准确的提取目标文本信息。

Description

一种基于规则的自适应文本信息提取方法及软件存储器
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于规则的自适应文本信息提取方法及软件存储器。
背景技术
目前,在各专业领域的文本中存在着大量有价值的文本信息,例如详细记录法庭审理情况的庭审笔录、裁定笔录、调解笔录等。但是,若要人工梳理、提取法律文书中所关注的内容,尤其处理海量文书时,耗费大量的人力、物力,效率低下。
现阶段的文本提取技术,主要针对固定结构文本、提取文本关键字、主题发现或者短文本自适应信息提取等。这些方法并不适合处理类似庭审笔录等文本形式不固定、需要提取段句等较多信息、文本篇幅较长的文本对象。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于规则的自适应文本信息提取方法及软件存储器。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于规则的自适应文本信息提取方法,该方法包括以下步骤:
对专业领域的文本对象进行统计对比、分析总结,构建文本信息提取的规则;
针对规则,按树状顺序分级处理,构成一个自适应的文本模版,模板根据专业领域的不同分为多种类别,不同类别的模板对应不同类别的文本对象,模板均为四层结构,包括段、行、句、词;
对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;
使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;
对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;
输出包含关键词的文本提取结果。
进一步地,本发明的该方法中当选取关键词与文本对象的段落级别进行匹配,则提取出文本段落对应的信息,包括如下规则:
选取关键词与文本的段落级别进行匹配,得到关键词对应的文本段落内容信息;
将两个以上文本段落内容信息进行关键词过滤,得到精确文本段落位置信息。
进一步地,本发明的该方法中进行文本匹配时,从预设的各相关词与无关词中选取与文本段落对应的段、行、句、词匹配的文本信息,包括如下规则:
获取文本段落对应段、行、句、词的多个相关词、无关词;
根据获取的段、行、句、词,构建多级规则模版;
将文本对象与模版进行匹配对比,提取出文本对象中包含相关词,但不包含无关词的部分;
将选取出的文本内容信息与位置信息确定为对应文本对象在规则模版中的关注点。
进一步地,本发明的该方法中根据文本对象将的文本划分为段、行、句、词四个级别,包括如下规则:
从文本对象中的确定出不同文本类型对应的关键词,包括相关词、无关词;
将收集到的关键词按照段、行、句、词的四个级别进行模版建构。
进一步地,本发明的该方法中进行文本信息匹配时,还包括进行模板选择的过程,其具体方法为:
根据文本对象类型从预设的模板库中筛选出与文本对象类型匹配的两个以上模板;
根据各个文本段落对应的段落主题从两个以上模板中选取出与段落主题匹配度最高的模板,作为用于汇总各文本信息的规则模板。
本发明提供一种存储有所述的基于规则的自适应文本信息提取方法的软件存储器,该软件存储器中的软件执行以下程序:
对专业领域的文本对象进行统计对比、分析总结,构建文本信息提取的规则;
针对规则,按树状顺序分级处理,构成一个自适应的文本模版,模板根据专业领域的不同分为多种类别,不同类别的模板对应不同类别的文本对象,模板均为四层结构,包括段、行、句、词;
对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;
使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;
对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;
输出包含关键词的文本提取结果。
本发明产生的有益效果是:本发明的基于规则的自适应文本信息提取方法及软件存储器,构建一种规则化的计算模型,模型根据提取要求分为四个层次:段、行、句、词;并在四层级基础上定义相应的匹配规则使模型自动适应文本内容、结构的变化,高效准确的提取目标文本信息;该方法具有以下优点:1、覆盖范围全面、精确;2、对于构建完整的模版,当领域改变时,只需要更改特征词等模版内容,不需要改变模版结构,极大的方便了普通技术人员的工作;3、在大数据处理方面,可以满足用户对大量领域内文本的信息提取的需求。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的实施例整体流程示意图;
图2是本发明实施例的实施例模版结构示意图;
图3是本发明实施例的实施例自适应文本信息模型;
图4是本发明实施例的部分信息截图;
图5是本发明实施例的模版部分信息截图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例的基于规则的自适应文本信息提取方法,该方法包括以下步骤:
对专业领域的文本对象进行统计对比、分析总结,构建文本信息提取的规则;
针对规则,按树状顺序分级处理,构成一个自适应的文本模版,模板根据专业领域的不同分为多种类别,不同类别的模板对应不同类别的文本对象,模板均为四层结构,包括段、行、句、词;
对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;
使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;
对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;
输出包含关键词的文本提取结果。
在本发明的一个具体实施例中,基于规则的自适应文本信息提取方法,重点在于对构建的四个层级分别***对应的规则。
规则一:对于整片文章所述类别设定一个属性,例如分别用1、2、3分别对应庭审笔录、裁定笔录、调节笔录。根据类别选择不同的模版;
规则二:层级是递进的结构,层级间是并列的结构,总体是一个树形结构的模版;
规则三:段、行、句层级都包含"id"、"Pos"、"name"、"title"、"mode"、"matches"、"words"这七个属性,其中"Pos"是文本的位置编号,"name"是功能名,"title"是提取内容的简称,"mode"是提取模式,"matches"是提取的正则表达式,"words"是特征词、反特征词。
规则四:"Pos"、"name"、"title"这三个属性结合对各层级的功能做标识,对要提取的内容位置坐记录;
规则五:"mode"决定"matches"的匹配模(是全局匹配还是第一次匹配),"matches"用于将文本内容与正则表达式结合,提取出关注的主要信息;
规则六:"words"记录一定量的特征词与关键字,对"matches"匹配后的结果进行筛选过滤,提取出更加精确的文本信息;
规则七:按用户需求的顺序整理并输出提取结果。
上述规则按照功能可分为三大部分。第一、二规则为基础规则,第三到六为提取规则,第七规则为结构规则。
在本发明的另一个具体实施例中,主要针对庭审记录的文本对象进行信息提取。如图1所示,基于规则的自适应文本信息提取方法,包括下列步骤:
Step1获取一定量具有代表性的文档对象,确定文档对象结构模型特征,提高文档自适应能力;
Step2制定文本信息提取规则一到六,规则内容根据文本对象特征与需求灵活制定。将规则转化成.json格式,按文本的顺序结构,建立匹配模版;
Step3运行程序,并对模版中的规则三到六做适当调整,匹配对应的信息并输出,以法院调解笔录为例,提取信息包括法院、审理时间、原告、被告、争论焦点、判决结果以及审理人员等;
Step4对提取结果的时间、审判类型等内容做分析,并转化为程序编入输出接口,再结合提取文本信息的"Pos"属性,根据规则七,按用户需求输出。
在图2所示中,第一行表示文章层级属性;第二行表示段落级别各属性;第三行表示行级别各属性;第四行表示关键词提取的属性结构。按树形结构构建规则模版。
在图3所示中,左半部分为按规则构建的模版,右半部分为按结构划分的目标文本。中间的双向箭头意为根据文本制定规则,并构建模版;再根据模版自适应的提取文本信息。
具体步骤:
步骤1:根据基础规则确定目标信息。调节笔录书写法规定,确定法院调节笔录书写形式,结合调解笔录实例,构建规则模版主体(如图2所示);
步骤2:根据提取规则得到匹配结果。结合正则表达式、相关词、无关词制定规则,例如^被告(:)?|\\s+被告(:)?|两案被告,并构建以.json格式存储的规则模版文档(如图5所示)。
步骤3:编写访问、匹配程序,按规则模版提取文本信息;
步骤4:根据结构规则输出目标信息。将提取的结果按文本顺序整理并输出(如图4所示)。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种基于规则的自适应文本信息提取方法,其特征在于,该方法包括以下步骤:
对专业领域的文本对象进行统计对比、分析总结,构建文本信息提取的规则;
针对规则,按树状顺序分级处理,构成一个自适应的文本模版,模板根据专业领域的不同分为多种类别,不同类别的模板对应不同类别的文本对象,模板均为四层结构,包括段、行、句、词;
对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;
使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;
对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;
输出包含关键词的文本提取结果。
2.根据权利要求1所述的基于规则的自适应文本信息提取方法,其特征在于,该方法中当选取关键词与文本对象的段落级别进行匹配,则提取出文本段落对应的信息,包括如下规则:
选取关键词与文本的段落级别进行匹配,得到关键词对应的文本段落内容信息;
将两个以上文本段落内容信息进行关键词过滤,得到精确文本段落位置信息。
3.根据权利要求1所述的基于规则的自适应文本信息提取方法,其特征在于,该方法中进行文本匹配时,从预设的各相关词与无关词中选取与文本段落对应的段、行、句、词匹配的文本信息,包括如下规则:
获取文本段落对应段、行、句、词的多个相关词、无关词;
根据获取的段、行、句、词,构建多级规则模版;
将文本对象与模版进行匹配对比,提取出文本对象中包含相关词,但不包含无关词的部分;
将选取出的文本内容信息与位置信息确定为对应文本对象在规则模版中的关注点。
4.根据权利要求1所述的基于规则的自适应文本信息提取方法,其特征在于,该方法中根据文本对象将的文本划分为段、行、句、词四个级别,包括如下规则:
从文本对象中的确定出不同文本类型对应的关键词,包括相关词、无关词;
将收集到的关键词按照段、行、句、词的四个级别进行模版建构。
5.根据权利要求1所述的基于规则的自适应文本信息提取方法,其特征在于,该方法中进行文本信息匹配时,还包括进行模板选择的过程,其具体方法为:
根据文本对象类型从预设的模板库中筛选出与文本对象类型匹配的两个以上模板;
根据各个文本段落对应的段落主题从两个以上模板中选取出与段落主题匹配度最高的模板,作为用于汇总各文本信息的规则模板。
6.一种存储有所述的基于规则的自适应文本信息提取方法的软件存储器,其特征在于,该软件存储器中的软件执行以下程序:
对专业领域的文本对象进行统计对比、分析总结,构建文本信息提取的规则;
针对规则,按树状顺序分级处理,构成一个自适应的文本模版,模板根据专业领域的不同分为多种类别,不同类别的模板对应不同类别的文本对象,模板均为四层结构,包括段、行、句、词;
对待提取的文本对象进行统计分析,预设具有代表性的关键词,关键词由相关词与无关词构成;
使用构建的模版对待提取的文本进行信息提取,按照模版四层结构顺序,通过关键词进行文本匹配;
对于模版里的每个层级,当出现多个匹配结果时,用关键词进行过滤,精确定位目标信息;
输出包含关键词的文本提取结果。
CN201910223558.9A 2019-03-22 2019-03-22 一种基于规则的自适应文本信息提取方法及软件存储器 Pending CN109992761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910223558.9A CN109992761A (zh) 2019-03-22 2019-03-22 一种基于规则的自适应文本信息提取方法及软件存储器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910223558.9A CN109992761A (zh) 2019-03-22 2019-03-22 一种基于规则的自适应文本信息提取方法及软件存储器

Publications (1)

Publication Number Publication Date
CN109992761A true CN109992761A (zh) 2019-07-09

Family

ID=67130813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910223558.9A Pending CN109992761A (zh) 2019-03-22 2019-03-22 一种基于规则的自适应文本信息提取方法及软件存储器

Country Status (1)

Country Link
CN (1) CN109992761A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597959A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN113704805A (zh) * 2021-10-27 2021-11-26 华控清交信息科技(北京)有限公司 一种风控规则匹配方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140074889A1 (en) * 2012-09-07 2014-03-13 Splunk Inc. Generation of a data model for searching machine data
CN107729481A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种自定义规则的文本信息抽取结果筛选方法及装置
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108536678A (zh) * 2018-04-12 2018-09-14 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140074889A1 (en) * 2012-09-07 2014-03-13 Splunk Inc. Generation of a data model for searching machine data
CN107729481A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种自定义规则的文本信息抽取结果筛选方法及装置
CN108197163A (zh) * 2017-12-14 2018-06-22 上海银江智慧智能化技术有限公司 一种基于裁判文书的结构化处理方法
CN108536678A (zh) * 2018-04-12 2018-09-14 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
晏文坛: "半结构化中文简历的信息抽取", 《信息科技》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597959A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN113704805A (zh) * 2021-10-27 2021-11-26 华控清交信息科技(北京)有限公司 一种风控规则匹配方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Zhang et al. Mdnet: A semantically and visually interpretable medical image diagnosis network
US9679049B2 (en) System and method for providing visual suggestions for document classification via injection
CN104331498B (zh) 一种对互联网用户访问的网页内容自动分类的方法
CN108509425A (zh) 一种基于新颖度的中文新词发现方法
CN109033229A (zh) 问答处理方法和装置
CN109992761A (zh) 一种基于规则的自适应文本信息提取方法及软件存储器
CN106445919A (zh) 一种情感分类方法及装置
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN107145514B (zh) 基于决策树和svm混合模型的中文句型分类方法
CN110866388A (zh) 基于多种神经网络混合的出版pdf版面分析识别方法
CN109308319A (zh) 文本分类方法、文本分类装置和计算机可读存储介质
CN106776695A (zh) 实现文书档案价值自动鉴定的方法
US20040030723A1 (en) Automatic evaluation of categorization system quality
CN110377659A (zh) 一种智能图表推荐***及方法
CN106815253A (zh) 一种基于混合数据类型数据的挖掘方法
CN101515329B (zh) 基于多种特征的图像匹配方法
CN108615124B (zh) 基于词频分析的企业评价方法及***
Olesen et al. From Text Mining to Visual Classification: Rethinking Computational New Cinema History with Jean Desmet’s Digitised Business Archive
RU2759887C1 (ru) Способ автоматической классификации формализованных электронных графических и текстовых документов в системе электронного документооборота с автоматическим формированием электронных дел
CN114896391A (zh) 基于任务提示的小样本句型分类方法、***、设备及介质
CN108062563A (zh) 一种基于类别均衡的代表样本发现方法
CN100462966C (zh) 将文件配置成时间序列的文件相关图的制成装置
CN109409390A (zh) 深度学习分类方法和装置
CN109522414B (zh) 一种文献投递对象选择***
Chen et al. KNN question classification method based on Apriori algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190709