CN109992761A

CN109992761A - 一种基于规则的自适应文本信息提取方法及软件存储器

Info

Publication number: CN109992761A
Application number: CN201910223558.9A
Authority: CN
Inventors: 李晓林; 李道庆; 张彦铎; 田英明; 刘玮; 姚峰; 范佳莹
Original assignee: SHANGHAI HUACHUAN ENVIRONMENTAL PROTECTION TECHNOLOGY Co Ltd; Wuhan Institute of Technology
Current assignee: SHANGHAI HUACHUAN ENVIRONMENTAL PROTECTION TECHNOLOGY Co Ltd; Wuhan Institute of Technology
Priority date: 2019-03-22
Filing date: 2019-03-22
Publication date: 2019-07-09

Abstract

本发明公开了一种基于规则的自适应文本信息提取方法及软件存储器，该方法包括以下步骤：对专业领域的文本对象构建文本信息提取的规则，并将规则总结在模版中。模版规则按树状顺序分级处理，构成文本模版，模板均为四层结构，包括段、行、句、词；对待提取的文本对象进行统计分析，预设具有代表性的关键词，关键词由相关词与无关词构成；使用构建的模版对待提取的文本进行信息提取，按照模版四层结构顺序，通过关键词进行文本匹配；对于模版里的每个层级，当出现多个匹配结果时，用关键词进行过滤，精确定位目标信息；输出包含关键词的文本提取结果。本发明能够自动适应文本内容、结构的变化，高效准确的提取目标文本信息。

Description

一种基于规则的自适应文本信息提取方法及软件存储器

技术领域

本发明涉及信息处理技术领域，尤其涉及一种基于规则的自适应文本信息提取方法及软件存储器。

背景技术

目前，在各专业领域的文本中存在着大量有价值的文本信息，例如详细记录法庭审理情况的庭审笔录、裁定笔录、调解笔录等。但是，若要人工梳理、提取法律文书中所关注的内容，尤其处理海量文书时，耗费大量的人力、物力，效率低下。

现阶段的文本提取技术，主要针对固定结构文本、提取文本关键字、主题发现或者短文本自适应信息提取等。这些方法并不适合处理类似庭审笔录等文本形式不固定、需要提取段句等较多信息、文本篇幅较长的文本对象。

发明内容

本发明要解决的技术问题在于针对现有技术中的缺陷，提供一种基于规则的自适应文本信息提取方法及软件存储器。

本发明解决其技术问题所采用的技术方案是：

本发明提供一种基于规则的自适应文本信息提取方法，该方法包括以下步骤：

对专业领域的文本对象进行统计对比、分析总结，构建文本信息提取的规则；

针对规则，按树状顺序分级处理，构成一个自适应的文本模版，模板根据专业领域的不同分为多种类别，不同类别的模板对应不同类别的文本对象，模板均为四层结构，包括段、行、句、词；

对待提取的文本对象进行统计分析，预设具有代表性的关键词，关键词由相关词与无关词构成；

使用构建的模版对待提取的文本进行信息提取，按照模版四层结构顺序，通过关键词进行文本匹配；

对于模版里的每个层级，当出现多个匹配结果时，用关键词进行过滤，精确定位目标信息；

输出包含关键词的文本提取结果。

进一步地，本发明的该方法中当选取关键词与文本对象的段落级别进行匹配，则提取出文本段落对应的信息，包括如下规则：

选取关键词与文本的段落级别进行匹配，得到关键词对应的文本段落内容信息；

将两个以上文本段落内容信息进行关键词过滤，得到精确文本段落位置信息。

进一步地，本发明的该方法中进行文本匹配时，从预设的各相关词与无关词中选取与文本段落对应的段、行、句、词匹配的文本信息，包括如下规则：

获取文本段落对应段、行、句、词的多个相关词、无关词；

根据获取的段、行、句、词，构建多级规则模版；

将文本对象与模版进行匹配对比，提取出文本对象中包含相关词，但不包含无关词的部分；

将选取出的文本内容信息与位置信息确定为对应文本对象在规则模版中的关注点。

进一步地，本发明的该方法中根据文本对象将的文本划分为段、行、句、词四个级别，包括如下规则：

从文本对象中的确定出不同文本类型对应的关键词，包括相关词、无关词；

将收集到的关键词按照段、行、句、词的四个级别进行模版建构。

进一步地，本发明的该方法中进行文本信息匹配时，还包括进行模板选择的过程，其具体方法为：

根据文本对象类型从预设的模板库中筛选出与文本对象类型匹配的两个以上模板；

根据各个文本段落对应的段落主题从两个以上模板中选取出与段落主题匹配度最高的模板，作为用于汇总各文本信息的规则模板。

本发明提供一种存储有所述的基于规则的自适应文本信息提取方法的软件存储器，该软件存储器中的软件执行以下程序：

输出包含关键词的文本提取结果。

本发明产生的有益效果是：本发明的基于规则的自适应文本信息提取方法及软件存储器，构建一种规则化的计算模型，模型根据提取要求分为四个层次：段、行、句、词；并在四层级基础上定义相应的匹配规则使模型自动适应文本内容、结构的变化，高效准确的提取目标文本信息；该方法具有以下优点：1、覆盖范围全面、精确；2、对于构建完整的模版，当领域改变时，只需要更改特征词等模版内容，不需要改变模版结构，极大的方便了普通技术人员的工作；3、在大数据处理方面，可以满足用户对大量领域内文本的信息提取的需求。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的实施例整体流程示意图；

图2是本发明实施例的实施例模版结构示意图；

图3是本发明实施例的实施例自适应文本信息模型；

图4是本发明实施例的部分信息截图；

图5是本发明实施例的模版部分信息截图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例的基于规则的自适应文本信息提取方法，该方法包括以下步骤：

输出包含关键词的文本提取结果。

在本发明的一个具体实施例中，基于规则的自适应文本信息提取方法，重点在于对构建的四个层级分别***对应的规则。

规则一：对于整片文章所述类别设定一个属性，例如分别用1、2、3分别对应庭审笔录、裁定笔录、调节笔录。根据类别选择不同的模版；

规则二：层级是递进的结构，层级间是并列的结构，总体是一个树形结构的模版；

规则三：段、行、句层级都包含"id"、"Pos"、"name"、"title"、"mode"、"matches"、"words"这七个属性，其中"Pos"是文本的位置编号，"name"是功能名，"title"是提取内容的简称，"mode"是提取模式，"matches"是提取的正则表达式，"words"是特征词、反特征词。

规则四："Pos"、"name"、"title"这三个属性结合对各层级的功能做标识，对要提取的内容位置坐记录；

规则五："mode"决定"matches"的匹配模(是全局匹配还是第一次匹配)，"matches"用于将文本内容与正则表达式结合，提取出关注的主要信息；

规则六："words"记录一定量的特征词与关键字，对"matches"匹配后的结果进行筛选过滤，提取出更加精确的文本信息；

规则七：按用户需求的顺序整理并输出提取结果。

上述规则按照功能可分为三大部分。第一、二规则为基础规则，第三到六为提取规则，第七规则为结构规则。

在本发明的另一个具体实施例中，主要针对庭审记录的文本对象进行信息提取。如图1所示，基于规则的自适应文本信息提取方法，包括下列步骤：

Step1获取一定量具有代表性的文档对象，确定文档对象结构模型特征，提高文档自适应能力；

Step2制定文本信息提取规则一到六，规则内容根据文本对象特征与需求灵活制定。将规则转化成.json格式，按文本的顺序结构，建立匹配模版；

Step3运行程序，并对模版中的规则三到六做适当调整，匹配对应的信息并输出，以法院调解笔录为例，提取信息包括法院、审理时间、原告、被告、争论焦点、判决结果以及审理人员等；

Step4对提取结果的时间、审判类型等内容做分析，并转化为程序编入输出接口，再结合提取文本信息的"Pos"属性，根据规则七，按用户需求输出。

在图2所示中，第一行表示文章层级属性；第二行表示段落级别各属性；第三行表示行级别各属性；第四行表示关键词提取的属性结构。按树形结构构建规则模版。

在图3所示中，左半部分为按规则构建的模版，右半部分为按结构划分的目标文本。中间的双向箭头意为根据文本制定规则，并构建模版；再根据模版自适应的提取文本信息。

具体步骤：

步骤1：根据基础规则确定目标信息。调节笔录书写法规定，确定法院调节笔录书写形式，结合调解笔录实例，构建规则模版主体(如图2所示)；

步骤2：根据提取规则得到匹配结果。结合正则表达式、相关词、无关词制定规则，例如^被告(：)？|\\s+被告(：)？|两案被告，并构建以.json格式存储的规则模版文档(如图5所示)。

步骤3：编写访问、匹配程序，按规则模版提取文本信息；

步骤4：根据结构规则输出目标信息。将提取的结果按文本顺序整理并输出(如图4所示)。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于规则的自适应文本信息提取方法，其特征在于，该方法包括以下步骤：

输出包含关键词的文本提取结果。

2.根据权利要求1所述的基于规则的自适应文本信息提取方法，其特征在于，该方法中当选取关键词与文本对象的段落级别进行匹配，则提取出文本段落对应的信息，包括如下规则：

3.根据权利要求1所述的基于规则的自适应文本信息提取方法，其特征在于，该方法中进行文本匹配时，从预设的各相关词与无关词中选取与文本段落对应的段、行、句、词匹配的文本信息，包括如下规则：

获取文本段落对应段、行、句、词的多个相关词、无关词；

根据获取的段、行、句、词，构建多级规则模版；

4.根据权利要求1所述的基于规则的自适应文本信息提取方法，其特征在于，该方法中根据文本对象将的文本划分为段、行、句、词四个级别，包括如下规则：

5.根据权利要求1所述的基于规则的自适应文本信息提取方法，其特征在于，该方法中进行文本信息匹配时，还包括进行模板选择的过程，其具体方法为：

6.一种存储有所述的基于规则的自适应文本信息提取方法的软件存储器，其特征在于，该软件存储器中的软件执行以下程序：

输出包含关键词的文本提取结果。