CN108491536A - 法律条文提取方法、装置及计算机可读存储介质 - Google Patents

法律条文提取方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN108491536A
CN108491536A CN201810276834.3A CN201810276834A CN108491536A CN 108491536 A CN108491536 A CN 108491536A CN 201810276834 A CN201810276834 A CN 201810276834A CN 108491536 A CN108491536 A CN 108491536A
Authority
CN
China
Prior art keywords
law
information
character string
text message
legal provision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810276834.3A
Other languages
English (en)
Inventor
李晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wisdom Zheng An Technology Co Ltd
Original Assignee
Beijing Wisdom Zheng An Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wisdom Zheng An Technology Co Ltd filed Critical Beijing Wisdom Zheng An Technology Co Ltd
Priority to CN201810276834.3A priority Critical patent/CN108491536A/zh
Publication of CN108491536A publication Critical patent/CN108491536A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种法律条文提取方法、装置及计算机可读存储介质,其中该法律条文提取方法包括转换含有法律信息的网页信息为初始字符串;筛选去除所述初始字符串中的部分html标签,保留具有标识的html标签;获取法律的基础信息对应的字符串和法律的正文信息对应的字符串;根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类;解析分类后法律的正文信息对应的字符串的信息;分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息。本发明使提取的法律条文可以直接运用,使用更方便。

Description

法律条文提取方法、装置及计算机可读存储介质
技术领域
本发明涉及文书提取技术领域,特别涉及一种法律条文提取方法、装置及计算机可读存储介质。
背景技术
目前,网络上的数据大部分是以html的形式出现的,而html文档是由标记(TAG)和元素组成。现有的文字解析技术,仅通过html文档编写的特点,提取对应标签下的文字内容,之后再去掉标签,得到最终的主题文本信息。但这种方法只是把网页上的文字信息提取了出来,并没有对提取到的文字信息做进一步的处理,导致提取到的文字信息还是半成品,信息结构混乱、无法直接运用,使用不便。
发明内容
本发明的主要目的是提供一种法律条文提取方法,旨在使提取的法律条文可以直接运用,使用更方便。
为实现上述目的,本发明提出一种法律条文提取方法,该法律条文提取方法包括以下步骤:
转换含有法律信息的网页信息为初始字符串;
筛选去除所述初始字符串中的部分html标签,保留具有标识的html标签;
获取法律的基础信息对应的字符串和法律的正文信息对应的字符串;
根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类;
解析分类后法律的正文信息对应的字符串的信息;
分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息。
优选地,获取法律的基础信息对应的字符串和法律的正文信息对应的字符串的步骤具体包括以下步骤:
查找所述初始字符串中的标志性词汇;
截取对应的法律基础信息的字符串;
查找正文标题;
截取对应的法律正文信息的字符串。
优选地,根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类的步骤具体包括以下步骤:
读取具有标识的html标签的位置信息和属性信息;
对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行依次分类。
优选地,解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤:
判断正文信息对应的字符串的信息中是否有编章条款序号,若是,通过编章条款序号按条对应截取正文信息的字符串。
优选地,解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤:
判断正文信息对应的字符串的信息中是否有数字分类序号,若是,通过编号和对应的具有标识的html标签进行按条截取正文信息的字符串。
优选地,解析分类后法律的正文信息对应的字符串的信息的步骤还具体包括以下步骤:
根据截取的每条正文信息的字符串中的标点符号和‘<br/>’标签的位置,判断该条正文信息的款项数量;
将正文信息根据款项数量进行分别存储。
优选地,解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤:
判断是否有数字分类序号和编章条款序号,若无,截取正文信息对应的一整条字符串信息,通过标点符号和具有标识的html标签进行划分正文信息的段落。
优选地,所述标志性词汇包括发布部门、发文字号、发布日期、实施日期、时效性、及效力级别。
本发明还提出一种法律条文提取装置,所述法律条文提取装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律条文提取程序,其中:
所述法律条文提取程序被所述处理器执行时实现如上述任一所述的法律条文提取方法的步骤。
本发明还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有法律条文提取程序,所述法律条文提取程序被处理器执行时实现如上述任一所述的法律条文提取方法的步骤。
本发明技术方案通过转换含有法律信息的网页信息为初始字符串;筛选去除所述初始字符串中的部分html标签,保留具有标识的html标签;获取法律的基础信息对应的字符串和法律的正文信息对应的字符串;根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类;解析分类后法律的正文信息对应的字符串的信息;分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息,以此使提取的法律条文可以形成一种结构化的法律条文,可直接运用,使用更方便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明法律条文提取方法一实施例的流程结构示意图;
图2为图1法律条文提取方法的步骤S30的细化流程结构示意图;
图3为图1法律条文提取方法的步骤S40的细化流程结构示意图;
图4为图1法律条文提取方法的步骤S50第一实施例的细化流程结构示意图;
图5为图1法律条文提取方法的步骤S50第二实施例的细化流程结构示意图;
图6为图1法律条文提取方法的步骤S50第三实施例的细化流程结构示意图;
图7为图1法律条文提取方法的步骤S50第四实施例的细化流程结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出一种法律条文提取装置。所述法律条文提取装置可以是移动电话、智能电话、笔记本电脑、PAD(平板电脑)等可移动设备,以及诸如台式计算机、服务器等固定终端。所述法律条文提取装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律条文提取程序。
其中,所述存储器至少包括一种类型的可读存储介质,用于存储安装于所述法律条文提取装置的操作***和各类应用软件,例如法律条文提取程序的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述法律条文提取装置的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述法律条文提取程序等。
参照图1,在本发明一实施例中,所述法律条文提取程序被所述处理器执行时,实现如下步骤:
S10:转换含有法律信息的网页信息为初始字符串;
S20:筛选去除所述初始字符串中的部分html标签,保留具有标识的html标签;
S30:获取法律的基础信息对应的字符串和法律的正文信息对应的字符串;
S40:根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类;
S50:解析分类后法律的正文信息对应的字符串的信息;
S60:分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息。
其中的法律信息为含有法律条文的规章,初始字符串可包括有法律信息、图片链接信息、网址链接信息等。具体地,可先通过java字符流、字节流等技术,从包含法律条文信息的html文档中读取文档内容,去掉一些不必要的html标签,保留一些特殊的html标签,作为之后的解析标识使用。其中,包含法律条文信息的html文档的来源可为通过包含法律条文信息的网页的URL,下载到的网页的web文档内容等。接着可根据一些标志性词汇在读取到的字符串内容中出现的位置,获取法律的基础信息对应的字符串和法律的正文信息对应的字符串。再接着进行分类,可按照编章条款序号、数字分类序号、无按照编章条款序号和数字分类序号等进行分类,再根据不同的分类进行分别解析,当解析完成后,分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息,以此形成可直接使用的结构化法律的条文,使其使用更方便。
本发明技术方案通过转换含有法律信息的网页信息为初始字符串;筛选去除所述初始字符串中的部分html标签,保留具有标识的html标签;获取法律的基础信息对应的字符串和法律的正文信息对应的字符串;根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类;解析分类后法律的正文信息对应的字符串的信息;分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息,以此使提取的法律条文可以形成一种结构化的法律条文,可直接运用,使用更方便。
参照图2,进一步地,S30:获取法律的基础信息对应的字符串和法律的正文信息对应的字符串的步骤具体包括以下步骤:
S31:查找所述初始字符串中的标志性词汇;
S32:截取对应的法律基础信息的字符串;
S33:查找正文标题;
S34:截取对应的法律正文信息的字符串。
其中的标志性词汇可包括发布部门、发文字号、发布日期、实施日期、时效性、及效力级别。按照标志性词汇可更快速精准地获取法律基础信息的字符串,并且对获取的信息便于进行结构化排列。具体地,在法律条文解析的过程中,可以通过相关的html标签以及一些特殊含义的词语出现的位置,来锁定一些基础信息的内容。例如,通过<br/>标签和“发布部门”这一具有特殊含义的词语,就可以定位到“发布部门”之后<br/>标签之前的内容,从而可以得到这部法律的“发布部门”信息。
其中的正文标题可包括中华人民共和国,如中华人民共和国刑法、中华人民共和国宪法等,根据法律的正文标题判断法律的正文开始部分的位置,截取出法律的正文部分的字符串。以此使获取的法律基础信息和法律正文信息更精准。
参照图3,更进一步地,S40:根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类的步骤具体包括以下步骤:
S41:读取具有标识的html标签的位置信息和属性信息;
S42:对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行依次分类。
具体地,根据保留的具有标识的html标签在文档中的相对位置以及标签本身属性功能,判断标签中的内容具体,例如<title>标签对应的是标题,<p>标签对应的内容可能是一段文字。结合法律的特点,对每一个标签的内容进行大体的判断,便于对正文部分进行分类解析。
参照图4、图5、及图7,优选地,其中S50:解析分类后法律的正文信息对应的字符串的信息的步骤的第一实施例为,S51:判断正文信息对应的字符串的信息中是否有编章条款序号,若是,通过编章条款序号按条对应截取正文信息的字符串。
第二实施例,S52:判断正文信息对应的字符串的信息中是否有数字分类序号,若是,通过编号和对应的具有标识的html标签进行按条截取正文信息的字符串。
第三实施例,S54:判断是否有数字分类序号和编章条款序号,若无,截取正文信息对应的一整条字符串信息,通过标点符号和具有标识的html标签进行划分正文信息的段落。
第四实施例为,依次进行执行上述步骤S51、S52、S54。
具体地,根据法律规范性的特质,由于大部分的法律是按照“编章条款项目”的形式来编写的。根据法律的这一特性,采用特定的字符来按条解析法律。例如:根据文档中“第一条”与“第二条”出现的位置,就可以截取出这部法律“第一条”的信息,以此类推,实现法律的按条解析。
没有“编章条款”信息的法律,但是有1、2、3、…或一、二、三、···等数字分类序号的,按照1、2、3、…或一、二、三、…来分条解析。例如:可以通过一、和二、在文档中出现的位置、以及其对应的html标签来判断并截取出这部法律的第一条信息。
没有明显标识的,直接把整篇法律作为一条来解析。目前对于这种法律的处理方式就是把这一整篇存入一个字符串集合中,根据标点符号以及html标签来划分段落,即一段对应字符串集合的一个元素。
参照图6,更进一步地,S50:解析分类后法律的正文信息对应的字符串的信息的步骤还具体包括以下步骤:
S531:根据截取的每条正文信息的字符串中的标点符号和‘<br/>’标签的位置,判断该条正文信息的款项数量;
S532:将正文信息根据款项数量进行分别存储。
具体地,截取到每条法律条文信息之后,可以根据这一条法律之中的标点符号信息,以及对应的<br/>标签的位置,来判断该条法律共有几款,在存储法条的时候,把这一条的每一款都分别存储。也就是说,一条法律对应一个字符串集合,而其中的每一款都是这个集合的一个元素。最后把相关的一系列法律条文信息提取出来之后,存入数据库。存储的时候,分别进行存储,即一部分是法律的基础信息,另一部分是这部法律的正文信息,其中该两部分信息可以通过一个关联字段联系起来。以此形成可直接使用的结构化法律的条文,使其使用更方便。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (10)

1.一种法律条文提取方法,其特征在于,包括以下步骤:
转换含有法律信息的网页信息为初始字符串;
筛选去除所述初始字符串中的部分html标签,保留具有标识的html标签;
获取法律的基础信息对应的字符串和法律的正文信息对应的字符串;
根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类;
解析分类后法律的正文信息对应的字符串的信息;
分别存储解析后的法律的基础信息对应的字符串的信息和法律的正文信息对应的字符串的信息。
2.如权利要求1所述的法律条文提取方法,其特征在于,获取法律的基础信息对应的字符串和法律的正文信息对应的字符串的步骤具体包括以下步骤:
查找所述初始字符串中的标志性词汇;
截取对应的法律基础信息的字符串;
查找正文标题;
截取对应的法律正文信息的字符串。
3.如权利要求2所述的法律条文提取方法,其特征在于,根据具有标识的html标签分别对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行分类的步骤具体包括以下步骤:
读取具有标识的html标签的位置信息和属性信息;
对法律的基础信息对应的字符串和法律的正文信息对应的字符串的信息进行依次分类。
4.如权利要求2所述的法律条文提取方法,其特征在于,解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤:
判断正文信息对应的字符串的信息中是否有编章条款序号,若是,通过编章条款序号按条对应截取正文信息的字符串。
5.如权利要求2所述的法律条文提取方法,其特征在于,解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤:
判断正文信息对应的字符串的信息中是否有数字分类序号,若是,通过编号和对应的具有标识的html标签进行按条截取正文信息的字符串。
6.如权利要求4或5所述的法律条文提取方法,其特征在于,解析分类后法律的正文信息对应的字符串的信息的步骤还具体包括以下步骤:
根据截取的每条正文信息的字符串中的标点符号和‘<br/>’标签的位置,判断该条正文信息的款项数量;
将正文信息根据款项数量进行分别存储。
7.如权利要求6所述的法律条文提取方法,其特征在于,解析分类后法律的正文信息对应的字符串的信息的步骤具体包括以下步骤:
判断是否有数字分类序号和编章条款序号,若无,截取正文信息对应的一整条字符串信息,通过标点符号和具有标识的html标签进行划分正文信息的段落。
8.如权利要求5所述的法律条文提取方法,其特征在于,所述标志性词汇包括发布部门、发文字号、发布日期、实施日期、时效性、及效力级别。
9.一种法律条文提取装置,其特征在于,所述法律条文提取装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的法律条文提取程序,其中:
所述法律条文提取程序被所述处理器执行时实现如权利要求1至8中任一项所述的法律条文提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有法律条文提取程序,所述法律条文提取程序被处理器执行时实现如权利要求1至8中任一项所述的法律条文提取方法的步骤。
CN201810276834.3A 2018-03-30 2018-03-30 法律条文提取方法、装置及计算机可读存储介质 Pending CN108491536A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810276834.3A CN108491536A (zh) 2018-03-30 2018-03-30 法律条文提取方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810276834.3A CN108491536A (zh) 2018-03-30 2018-03-30 法律条文提取方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108491536A true CN108491536A (zh) 2018-09-04

Family

ID=63317103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810276834.3A Pending CN108491536A (zh) 2018-03-30 2018-03-30 法律条文提取方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108491536A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
CN103049536A (zh) * 2012-11-01 2013-04-17 广州汇讯营销咨询有限公司 提取网页正文内容的方法和***
CN103838790A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页数据提取方法
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270206A (zh) * 2010-06-03 2011-12-07 北京迅捷英翔网络科技有限公司 一种有效网页内容的抓取方法及装置
CN103049536A (zh) * 2012-11-01 2013-04-17 广州汇讯营销咨询有限公司 提取网页正文内容的方法和***
CN103838790A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种网页数据提取方法
CN105677764A (zh) * 2015-12-30 2016-06-15 百度在线网络技术(北京)有限公司 信息提取方法和装置

Similar Documents

Publication Publication Date Title
WO2022022045A1 (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
Kan et al. Fast webpage classification using URL features
US8635061B2 (en) Language identification in multilingual text
US10289952B2 (en) Semantic frame identification with distributed word representations
Komiya et al. Classification of malicious web code by machine learning
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
US20120109974A1 (en) Acronym Extraction
CN102446255B (zh) 一种检测页面篡改的方法及装置
CN111459977B (zh) 自然语言查询的转换
CN111783471A (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN107273354A (zh) 一种融合谓词先验信息的语义角色标注方法
US12013903B2 (en) System and method for search discovery
JP5390522B2 (ja) 表示文書を解析に向けて準備する装置
CN116975340A (zh) 信息检索方法、装置、设备、程序产品及存储介质
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN104036189A (zh) 页面篡改检测方法及黑链数据库生成方法
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
Singh et al. Identification of languages and encodings in a multilingual document
CN108491536A (zh) 法律条文提取方法、装置及计算机可读存储介质
Munot et al. Conceptual framework for abstractive text summarization
RU2498401C2 (ru) Способ обнаружения текстовых объектов
Souza et al. ARCTIC: metadata extraction from scientific papers in pdf using two-layer CRF
CN114546356A (zh) 一种新定义Markdown语言语法规范、关键字与其所作用文本内容实时标注算法及网页文件导出算法
Kim et al. Entity linking korean text: An unsupervised learning approach using semantic relations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180904

RJ01 Rejection of invention patent application after publication