CN108491536A

CN108491536A - 法律条文提取方法、装置及计算机可读存储介质

Info

Publication number: CN108491536A
Application number: CN201810276834.3A
Authority: CN
Inventors: 李晓辉
Original assignee: Beijing Wisdom Zheng An Technology Co Ltd
Current assignee: Beijing Wisdom Zheng An Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-04

Abstract

本发明公开一种法律条文提取方法、装置及计算机可读存储介质，其中该法律条文提取方法包括转换含有法律信息的网页信息为初始字符串；筛选去除所述初始字符串中的部分html标签，保留具有标识的html标签；获取法律的基础信息对应的字符串和法律的正文信息对应的字符串；根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类；解析分类后法律的正文信息对应的字符串的信息；分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息。本发明使提取的法律条文可以直接运用，使用更方便。

Description

法律条文提取方法、装置及计算机可读存储介质

技术领域

本发明涉及文书提取技术领域，特别涉及一种法律条文提取方法、装置及计算机可读存储介质。

背景技术

目前，网络上的数据大部分是以html的形式出现的，而html文档是由标记(TAG)和元素组成。现有的文字解析技术，仅通过html文档编写的特点，提取对应标签下的文字内容，之后再去掉标签，得到最终的主题文本信息。但这种方法只是把网页上的文字信息提取了出来，并没有对提取到的文字信息做进一步的处理，导致提取到的文字信息还是半成品，信息结构混乱、无法直接运用，使用不便。

发明内容

本发明的主要目的是提供一种法律条文提取方法，旨在使提取的法律条文可以直接运用，使用更方便。

为实现上述目的，本发明提出一种法律条文提取方法，该法律条文提取方法包括以下步骤：

转换含有法律信息的网页信息为初始字符串；

筛选去除所述初始字符串中的部分html标签，保留具有标识的html标签；

获取法律的基础信息对应的字符串和法律的正文信息对应的字符串；

根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类；

解析分类后法律的正文信息对应的字符串的信息；

分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息。

优选地，获取法律的基础信息对应的字符串和法律的正文信息对应的字符串的步骤具体包括以下步骤：

查找所述初始字符串中的标志性词汇；

截取对应的法律基础信息的字符串；

查找正文标题；

截取对应的法律正文信息的字符串。

优选地，根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类的步骤具体包括以下步骤：

读取具有标识的html标签的位置信息和属性信息；

对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行依次分类。

优选地，解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤：

判断正文信息对应的字符串的信息中是否有编章条款序号，若是，通过编章条款序号按条对应截取正文信息的字符串。

判断正文信息对应的字符串的信息中是否有数字分类序号，若是，通过编号和对应的具有标识的html标签进行按条截取正文信息的字符串。

优选地，解析分类后法律的正文信息对应的字符串的信息的步骤还具体包括以下步骤：

根据截取的每条正文信息的字符串中的标点符号和‘ ’标签的位置，判断该条正文信息的款项数量；

将正文信息根据款项数量进行分别存储。

判断是否有数字分类序号和编章条款序号，若无，截取正文信息对应的一整条字符串信息，通过标点符号和具有标识的html标签进行划分正文信息的段落。

优选地，所述标志性词汇包括发布部门、发文字号、发布日期、实施日期、时效性、及效力级别。

本发明还提出一种法律条文提取装置，所述法律条文提取装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律条文提取程序，其中：

所述法律条文提取程序被所述处理器执行时实现如上述任一所述的法律条文提取方法的步骤。

本发明还提出一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有法律条文提取程序，所述法律条文提取程序被处理器执行时实现如上述任一所述的法律条文提取方法的步骤。

本发明技术方案通过转换含有法律信息的网页信息为初始字符串；筛选去除所述初始字符串中的部分html标签，保留具有标识的html标签；获取法律的基础信息对应的字符串和法律的正文信息对应的字符串；根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类；解析分类后法律的正文信息对应的字符串的信息；分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息，以此使提取的法律条文可以形成一种结构化的法律条文，可直接运用，使用更方便。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明法律条文提取方法一实施例的流程结构示意图；

图2为图1法律条文提取方法的步骤S30的细化流程结构示意图；

图3为图1法律条文提取方法的步骤S40的细化流程结构示意图；

图4为图1法律条文提取方法的步骤S50第一实施例的细化流程结构示意图；

图5为图1法律条文提取方法的步骤S50第二实施例的细化流程结构示意图；

图6为图1法律条文提取方法的步骤S50第三实施例的细化流程结构示意图；

图7为图1法律条文提取方法的步骤S50第四实施例的细化流程结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出一种法律条文提取装置。所述法律条文提取装置可以是移动电话、智能电话、笔记本电脑、PAD(平板电脑)等可移动设备，以及诸如台式计算机、服务器等固定终端。所述法律条文提取装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律条文提取程序。

其中，所述存储器至少包括一种类型的可读存储介质，用于存储安装于所述法律条文提取装置的操作***和各类应用软件，例如法律条文提取程序的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述法律条文提取装置的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述法律条文提取程序等。

参照图1，在本发明一实施例中，所述法律条文提取程序被所述处理器执行时，实现如下步骤：

S10：转换含有法律信息的网页信息为初始字符串；

S20：筛选去除所述初始字符串中的部分html标签，保留具有标识的html标签；

S30：获取法律的基础信息对应的字符串和法律的正文信息对应的字符串；

S40：根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类；

S50：解析分类后法律的正文信息对应的字符串的信息；

S60：分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息。

其中的法律信息为含有法律条文的规章，初始字符串可包括有法律信息、图片链接信息、网址链接信息等。具体地，可先通过java字符流、字节流等技术，从包含法律条文信息的html文档中读取文档内容，去掉一些不必要的html标签，保留一些特殊的html标签，作为之后的解析标识使用。其中，包含法律条文信息的html文档的来源可为通过包含法律条文信息的网页的URL，下载到的网页的web文档内容等。接着可根据一些标志性词汇在读取到的字符串内容中出现的位置，获取法律的基础信息对应的字符串和法律的正文信息对应的字符串。再接着进行分类，可按照编章条款序号、数字分类序号、无按照编章条款序号和数字分类序号等进行分类，再根据不同的分类进行分别解析，当解析完成后，分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息，以此形成可直接使用的结构化法律的条文，使其使用更方便。

参照图2，进一步地，S30：获取法律的基础信息对应的字符串和法律的正文信息对应的字符串的步骤具体包括以下步骤：

S31：查找所述初始字符串中的标志性词汇；

S32：截取对应的法律基础信息的字符串；

S33：查找正文标题；

S34：截取对应的法律正文信息的字符串。

其中的标志性词汇可包括发布部门、发文字号、发布日期、实施日期、时效性、及效力级别。按照标志性词汇可更快速精准地获取法律基础信息的字符串，并且对获取的信息便于进行结构化排列。具体地，在法律条文解析的过程中，可以通过相关的html标签以及一些特殊含义的词语出现的位置，来锁定一些基础信息的内容。例如，通过 标签和“发布部门”这一具有特殊含义的词语，就可以定位到“发布部门”之后 标签之前的内容，从而可以得到这部法律的“发布部门”信息。

其中的正文标题可包括中华人民共和国，如中华人民共和国刑法、中华人民共和国宪法等，根据法律的正文标题判断法律的正文开始部分的位置，截取出法律的正文部分的字符串。以此使获取的法律基础信息和法律正文信息更精准。

参照图3，更进一步地，S40：根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类的步骤具体包括以下步骤：

S41：读取具有标识的html标签的位置信息和属性信息；

S42：对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行依次分类。

具体地，根据保留的具有标识的html标签在文档中的相对位置以及标签本身属性功能，判断标签中的内容具体，例如<title>标签对应的是标题，标签对应的内容可能是一段文字。结合法律的特点，对每一个标签的内容进行大体的判断，便于对正文部分进行分类解析。

参照图4、图5、及图7，优选地，其中S50：解析分类后法律的正文信息对应的字符串的信息的步骤的第一实施例为，S51：判断正文信息对应的字符串的信息中是否有编章条款序号，若是，通过编章条款序号按条对应截取正文信息的字符串。

第二实施例，S52：判断正文信息对应的字符串的信息中是否有数字分类序号，若是，通过编号和对应的具有标识的html标签进行按条截取正文信息的字符串。

第三实施例，S54：判断是否有数字分类序号和编章条款序号，若无，截取正文信息对应的一整条字符串信息，通过标点符号和具有标识的html标签进行划分正文信息的段落。

第四实施例为，依次进行执行上述步骤S51、S52、S54。

具体地，根据法律规范性的特质，由于大部分的法律是按照“编章条款项目”的形式来编写的。根据法律的这一特性，采用特定的字符来按条解析法律。例如：根据文档中“第一条”与“第二条”出现的位置，就可以截取出这部法律“第一条”的信息，以此类推，实现法律的按条解析。

没有“编章条款”信息的法律，但是有1、2、3、…或一、二、三、···等数字分类序号的，按照1、2、3、…或一、二、三、…来分条解析。例如：可以通过一、和二、在文档中出现的位置、以及其对应的html标签来判断并截取出这部法律的第一条信息。

没有明显标识的，直接把整篇法律作为一条来解析。目前对于这种法律的处理方式就是把这一整篇存入一个字符串集合中，根据标点符号以及html标签来划分段落，即一段对应字符串集合的一个元素。

参照图6，更进一步地，S50：解析分类后法律的正文信息对应的字符串的信息的步骤还具体包括以下步骤：

S531：根据截取的每条正文信息的字符串中的标点符号和‘ ’标签的位置，判断该条正文信息的款项数量；

S532：将正文信息根据款项数量进行分别存储。

具体地，截取到每条法律条文信息之后，可以根据这一条法律之中的标点符号信息，以及对应的 标签的位置，来判断该条法律共有几款，在存储法条的时候，把这一条的每一款都分别存储。也就是说，一条法律对应一个字符串集合，而其中的每一款都是这个集合的一个元素。最后把相关的一系列法律条文信息提取出来之后，存入数据库。存储的时候，分别进行存储，即一部分是法律的基础信息，另一部分是这部法律的正文信息，其中该两部分信息可以通过一个关联字段联系起来。以此形成可直接使用的结构化法律的条文，使其使用更方便。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种法律条文提取方法，其特征在于，包括以下步骤：

转换含有法律信息的网页信息为初始字符串；

解析分类后法律的正文信息对应的字符串的信息；

2.如权利要求1所述的法律条文提取方法，其特征在于，获取法律的基础信息对应的字符串和法律的正文信息对应的字符串的步骤具体包括以下步骤：

查找所述初始字符串中的标志性词汇；

截取对应的法律基础信息的字符串；

查找正文标题；

截取对应的法律正文信息的字符串。

3.如权利要求2所述的法律条文提取方法，其特征在于，根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类的步骤具体包括以下步骤：

读取具有标识的html标签的位置信息和属性信息；

4.如权利要求2所述的法律条文提取方法，其特征在于，解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤：

5.如权利要求2所述的法律条文提取方法，其特征在于，解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤：

6.如权利要求4或5所述的法律条文提取方法，其特征在于，解析分类后法律的正文信息对应的字符串的信息的步骤还具体包括以下步骤：

将正文信息根据款项数量进行分别存储。

7.如权利要求6所述的法律条文提取方法，其特征在于，解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤：

8.如权利要求5所述的法律条文提取方法，其特征在于，所述标志性词汇包括发布部门、发文字号、发布日期、实施日期、时效性、及效力级别。

9.一种法律条文提取装置，其特征在于，所述法律条文提取装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律条文提取程序，其中：

所述法律条文提取程序被所述处理器执行时实现如权利要求1至8中任一项所述的法律条文提取方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有法律条文提取程序，所述法律条文提取程序被处理器执行时实现如权利要求1至8中任一项所述的法律条文提取方法的步骤。