CN112668284B - 一种法律文书分段方法及*** - Google Patents

一种法律文书分段方法及*** Download PDF

Info

Publication number
CN112668284B
CN112668284B CN202011594347.5A CN202011594347A CN112668284B CN 112668284 B CN112668284 B CN 112668284B CN 202011594347 A CN202011594347 A CN 202011594347A CN 112668284 B CN112668284 B CN 112668284B
Authority
CN
China
Prior art keywords
legal document
paragraph
document
segmentation
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011594347.5A
Other languages
English (en)
Other versions
CN112668284A (zh
Inventor
高新宇
刘思铭
齐亮
王霁云
郝建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun Handlebar Technology Co ltd
Original Assignee
Changchun Handlebar Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun Handlebar Technology Co ltd filed Critical Changchun Handlebar Technology Co ltd
Priority to CN202011594347.5A priority Critical patent/CN112668284B/zh
Publication of CN112668284A publication Critical patent/CN112668284A/zh
Application granted granted Critical
Publication of CN112668284B publication Critical patent/CN112668284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种法律文书分段方法及***,包括步骤:利用关键字正则表达式提取法律文书全文的关键字;根据关键字确定文书类型;利用段落区分正则表达式对法律文书全文进行匹配分段,得到分段结果;根据文书类型和分段结果进行段落顺序校验,若校验通过,则记录并存储校验结果,得到法律文书分段结果,否则采用权重匹配机制对段落属性进行二次调整;根据文书类型和二次调整后的段落属性重新进行段落顺序校验,若校验通过,则记录并存储最终的校验结果,得到最终的法律文书分段结果,否则,进行人工段落属性调整,记录并存储最终的人工正确法律文书分段结果。本发明提高了法律文书分段结果的准确性,使得法律文书分段结果更加精确,且分段效率更高。

Description

一种法律文书分段方法及***
技术领域
本发明涉及计算机技术领域,特别是涉及一种法律文书分段方法及***。
背景技术
法律文书是指司法行政机关及当事人、律师等在解决诉讼和非讼案件时使用的文书。随着依法治国的观念渐入人心,越来越多的人选择使用法律的手段保护自己,于此同时,国家也着重于基础教育以及法律的推广。一方面,由于法律自身的复杂性,导致无论是普通民众,亦或者是法律相关的从业人员,对于法律文书都会觉得晦涩难懂,难以分析、借鉴、学习;另一方面,普通民众无法便捷的获取法律相关信息,由于对于法律法规的认识不足,导致对于已有案件的判决无法得到正确的认识,虽然普通民众希望依靠法律解决问题,却很难得到有效的帮助。
因此,法律相关的网站平台便应时而生,相关网站可以引导民众法律文书的分段及提取也成为了关键,通过对复杂的法律文书的分段,法律相关从业者或者普通民众都能够迅速的对文书进行分析、拆解,极大的提升了工作效率和学习效率,同时对于学习法律相关知识也有明显的优势。
目前的法律文书分段技术主要有两种,其中一种是采用纯粹的正则匹配,然后根据匹配的结果实现对法律文书的分段;另一种是正则匹配与语义权重相结合的方式,例如公开号为CN108427667A的专利申请“一种法律文书的分段方法及***”,首先提取法律文书的语义特征,设置该语义特征属于不同语义段的权重值,从而能够根据法律文书中每个自然段所包含的语义特征以及该语义特征属于不同语义段的权重值,计算法律文书中每个自然段属于不同语义段的概率值,进一步采用动态规划算法从所述概率值中选取分段组合概率最大值对应的分段路径作为法律文书的分段路径。该分段方法及装置通过将法律文书中每个自然段属于不同语义段的概率值作为动态规划算法的输入,从而选取出最优的分段路径,能够更合理的对法律文书中的自然段进行划分,排除非特征信息在分段过程中对分段路径选取的干扰,提高了法律文书分段的准确性。
事实上,现有技术中无论是采用纯粹正则匹配的分段方法,还是采用正则匹配与语义权重相结合的方法,虽然在一定程度上解决了干扰信息的问题,但由于法律文书的规范性问题(尤其是2016年之前的法律文书),利用现有技术中的分段方法对法律文书进行分段经常出现文书语义段与文书段落内容并不一致的情况,导致法律文书的分段准确性较低。
发明内容
为克服现有技术存在的法律文书的分段准确性较低的问题,本发明提供一种法律文书分段方法及***,能够提高法律文书分段的准确性。
为解决上述问题,本发明采取如下的技术方案:
一种法律文书分段方法,包括以下步骤:
步骤一:获取待分段的法律文书全文;
步骤二:利用关键字正则表达式提取所述法律文书全文的关键字;
步骤三:根据所述关键字对所述法律文书全文进行分类,确定所述法律文书全文的文书类型;
步骤四:利用段落区分正则表达式对所述法律文书全文进行匹配分段,得到分段结果,所述分段结果包括分段后的段落和段落对应的段落属性;
步骤五:根据所述文书类型和所述分段结果进行段落顺序校验,若校验通过,则记录并存储校验结果,得到法律文书分段结果;否则,进入步骤六;
步骤六:采用权重匹配机制对分段后的段落对应的段落属性进行二次调整;
步骤七:根据所述文书类型和二次调整后的段落属性重新进行段落顺序校验,若校验通过,则记录并存储最终的校验结果,得到最终的法律文书分段结果;否则,进入步骤八;
步骤八:进行人工段落属性调整,记录并存储最终的人工正确法律文书分段结果。
相应地本发明还提出一种法律文书分段***,包括中心服务器、mongo数据库和mysql数据库,所述中心服务器通过网络连接设备分别与所述mongo数据库、mysql数据库连接,所述中心服务器包括:
获取模块,用于从所述mongo数据库获取待分段的法律文书全文;
提取模块,用于利用关键字正则表达式提取所述法律文书全文的关键字,所述关键字正则表达式存储在所述mysql数据库中;
分类模块,用于根据所述关键字对所述法律文书全文进行分类,确定所述法律文书全文的文书类型;
分段模块,用于利用段落区分正则表达式对所述法律文书全文进行匹配分段,得到分段结果,所述分段结果包括分段后的段落和段落对应的段落属性,所述段落区分正则表达式和段落对应的段落属性信息存储在所述mysql数据库中;
校验模块,用于根据所述文书类型和所述分段结果进行段落顺序校验,若校验通过,则记录并存储校验结果,得到法律文书分段结果并将法律文书分段结果存储在所述mongo数据库中,以及根据所述文书类型和调整模块二次调整后的段落属性重新进行段落顺序校验,若校验通过,则记录并存储最终的校验结果,得到最终的法律文书分段结果并将最终的法律文书分段结果存储在所述mongo数据库中;
调整模块,用于在所述校验模块根据所述文书类型和所述分段结果进行段落顺序校验未通过时,采用权重匹配机制对分段后的段落对应的段落属性进行二次调整;
人工调整模块,用于在所述校验模块根据所述文书类型和所述调整模块二次调整后的段落属性重新进行段落顺序校验未通过时,进行人工段落属性调整,记录最终的人工正确法律文书分段结果并将最终的人工正确法律文书分段结果存储在所述mongo数据库中。
与现有技术相比,本发明具有以下有益效果:
本发明所提出的法律文书分段方法及***利用关键字正则表达式进行关键字提取以及利用段落区分正则表达式进行匹配分段,保证了关键字提取的准确性和分段的合理性,同时,采用权重匹配机制对第一次段落校验未通过的段落属性进行二次调整并进行段落顺序二次校验,相比于现有的法律文书分段方法,进一步提高了法律文书分段结果的准确性,使得法律文书分段结果更加精确,且分段效率更高。
附图说明
图1为本发明的法律文书分段方法在一个实施例中的流程图;
图2为本发明的法律文书分段***在一个实施例中的原理框图。
具体实施方式
下面将结合附图及较佳实施例对本发明的技术方案进行详细描述。
在其中一个实施例中,如图1所示,本发明提供一种法律文书分段方法,该方法包括以下步骤:
步骤一(S100):获取待分段的法律文书全文。
本发明所获取的待分段的法律文书全文为政府所公开的法律文书,包括但不限于法律判决书。
步骤二(S200):利用关键字正则表达式提取法律文书全文的关键字。
在提取法律文书全文的关键字时,可以采用正则表达式规则提取或者大数据人工智能提取等提取方式,本发明利用关键字正则表达式提取法律文书全文的关键字,一个关键字对应于一个关键字正则表达式或者多个关键字正则表达式,提取的关键字为法律文书的一些关键属性,关键字包括但不限于案号、审判人员、裁判日期、法律条文和案件类型等,这些关键字依靠关键字正则表达式进行提取,具有准确性较高的优点。下面给出一个关键字正则表达式的示例:
例如,提取关键字“案号”所使用的关键字正则表达式为:“^(([((])?\d{4}[))]|(案号:\(\d{4}\))).{0,6}[终申抗行刑民催执保提初字第号监赔再司撤商金更恢辖没医止请认港澳台]{1,10}[^,。]{0,10}号?.{0,5}$”。
步骤三(S300):根据关键字对法律文书全文进行分类,确定法律文书全文的文书类型。
在本步骤中,根据步骤S200已经提取的关键字对法律文书全文进行分类,确定法律文书全文的文书类型,其中文书类型包括但不限于刑事案件、民事案件和执行案件,根据不同的文书类型进入接下来的不同的细分处理流程。例如,当提取的关键字“案号”为“(2020)豫0103执恢322号之一”时,根据该关键字将法律文书全文的文书类型划分为“执行案件”。
进一步地,在步骤S300之后、步骤S400之前还包括以下步骤:
根据文书类型判断是否继续提取关键字,若是,则返回步骤S200,利用关键字正则表达式继续提取法律文书全文的其他关键字。
在步骤S300确定法律文书全文的文书类型后,根据文书类型判断是否要继续提取关键字,如果需要继续提取关键字,则返回步骤S200,利用关键字正则表达式继续提取法律文书全文的其他关键字,例如,如果文书类型为“刑事案件”,那么应该继续提取“被告人”、“原告”、“律师”等关键字,提取完成后再进行步骤S400;如果文书类型为“执行案件”,则不需要返回步骤S200继续提取关键字,而直接进行步骤S400。
步骤四(S400):利用段落区分正则表达式对法律文书全文进行匹配分段,得到分段结果,分段结果包括分段后的段落和段落对应的段落属性。
在细分处理流程中,先利用段落区分正则表达式对法律文书全文进行匹配分段,其中段落区分正则表达式是通过对大量文书的分析所整理出来的集合,段落区分正则表达式对法律文书全文进行匹配分段时,可以使用标点符号进行分段,例如使用换行符进行分段等。下面给出一个段落区分正则表达式的示例:
“^(?!.*((辩称)|(辨称)|(经审理查明))).*((诉称)|(为由诉至法院.请求)|(提起诉讼称)|(诉至([一原]审|[^。]{0,20})法院.?请求判令)|(原审诉请(判令)?)|([原一]审(法院)?起诉请求)|(向[一原]审(法院)?提起诉讼.?请求判令)|((?<!于)(人民检察院|公诉机关|分院|起诉书).{0,3}(指控|认为))|(诉至.{0,15}法院称)|请求.{0,15}法院判令|(向[该法]院提出.{0,15}申请.{0,10}请求)|(向[^。]{0,20}法院提起诉讼.?请求判令)).*$”。
利用段落区分正则表达式对法律文书全文进行匹配分段后,得到分段结果,其中分段结果包括分段后的段落和段落对应的段落属性(例如“被告人员诉称”、“上诉人诉称”、“审理经过”等),有段落属性的段落是重点段落,没有段落属性的段落可能是无用的段落或者是关键字,分段结果不包括没有段落属性的段落。上述示例的段落区分正则表达式对应的段落属性为“被告人员诉称”。
步骤五(S500):根据文书类型和分段结果进行段落顺序校验,若校验通过,则记录并存储校验结果,得到法律文书分段结果;否则,进入步骤S600。
在步骤S400完成匹配分段,得到分段结果之后,在本步骤,根据文书类型和分段结果进行段落顺序校验,其中段落顺序为法律文书所规定的顺序,如果校验通过,则记录并存储校验结果,以供后续步骤调整使用,得到法律文书分段结果,校验结果和法律文书分段结果可以存储在mongo数据库中;如果校验未通过(例如:一审刑事案件的法律文书需要有一审法院认为信息,而步骤S400的第一次匹配分段中却没有),则进行步骤S600采用权重匹配机制进行二次调整。
步骤六(S600):采用权重匹配机制对分段后的段落对应的段落属性进行二次调整。
在步骤S500根据文书类型和分段结果进行段落顺序校验未通过时,本步骤采用权重匹配机制对分段后的段落对应的段落属性进行二次调整,权重匹配机制是通过权重库来对段落属性进行的细微调整。
权重库是设计人员通过大量的案件实例归纳总结得出,后续通过分段所记录的校验结果进行***的自动微调(例如当某个分段结果数量较多时,会自动增加其权重比例),期间会定期进行人工干预防止***划分的权重异常。
例如匹配分段后的段落为:“上诉人XXX、YYY为与被上诉人ZZZ一案,不服北京市高级人民法院(2018)京民初54号民事判决,向本院提起上诉并申请缓交上诉案件受理费。”该段落在步骤S400中将会被提取为“上诉人诉称”段落属性,在采用权重匹配机制调整后,被重新分类为“审理经过”段落属性。
步骤七(S700):根据文书类型和步骤S600二次调整后的段落属性重新进行段落顺序校验,如果校验通过,则记录并存储最终的校验结果,得到最终的法律文书分段结果,最终的校验结果和最终的法律文书分段结果可以存储在mongo数据库中;如果校验未通过,则进入步骤S800,交由人工调整;
步骤八(S800):进行人工段落属性调整,记录并存储最终的人工正确法律文书分段结果,人工正确法律文书分段结果也可以存储在mongo数据库中,mongo数据库中存储的信息可以用于展示给用户。
本实施例所提出的法律文书分段方法利用关键字正则表达式进行关键字提取以及利用段落区分正则表达式进行匹配分段,保证了关键字提取的准确性和分段的合理性,同时,采用权重匹配机制对第一次段落校验未通过的段落属性进行二次调整并进行段落顺序二次校验,相比于现有的法律文书分段方法,进一步提高了法律文书分段结果的准确性,使得法律文书分段结果更加精确,且分段效率更高。
在另一个实施例中,如图2所示,本发明提供一种基于前述实施例所述的法律文书分段方法的一种法律文书分段***,该***具体包括中心服务器、mongo数据库和mysql数据库,其中中心服务器通过网络连接设备分别与mongo数据库、mysql数据库连接,中心服务器作为对于法律文书进行解析、拆分、提取等处理的核心逻辑,主要用于从mongo数据库获取法律文书全文,以及对所述法律文书全文进行关键字提取、分类、匹配分段、段落顺序校验、段落属性二次调整、重新段落顺序校验的核心逻辑处理;mongo数据库作为法律文书源文件的存储介质,同时也作为法律文书分段结果记录数据库;mysql数据库用于存储法律文书分段所使用的关键字正则表达式、段落区分正则表达式以及权重库等信息,以及存储分段后的段落属性信息。数据源采用接口模式,不必部署在同一台服务器中,可以有效降低核心服务器压力,可移植性提高,同时支持接入其他数据源。优选地,中心服务器、mongo数据库以及mysql数据库可以部署在中心机房,也可以部署在云服务器上,服务器与数据库之间依靠网络连接设备进行连接,mongo数据库与mysql数据库不需要直接接入互联网,与中心服务器直连即可。中心服务器的互联网连接方式有两种,一种可以通过互联网直接接入客户端,为用户展示结果,亦或者通过网络连接设备与其他服务器连接,为其他服务器提供法律文书分段结果。
具体地,本实施例中的中心服务器包括:
获取模块,用于从mongo数据库获取待分段的法律文书全文。本发明所获取的待分段的法律文书全文为政府所公开的法律文书,包括但不限于法律判决书。
提取模块,用于利用关键字正则表达式提取法律文书全文的关键字,关键字正则表达式存储在mysql数据库中。提取模块在提取法律文书全文的关键字时,可以采用正则表达式规则提取或者大数据人工智能提取等提取方式,本发明中提取模块利用关键字正则表达式提取法律文书全文的关键字,一个关键字对应于一个关键字正则表达式或者多个关键字正则表达式,提取的关键字为法律文书的一些关键属性,关键字包括但不限于案号、审判人员、裁判日期、法律条文和案件类型等,这些关键字依靠关键字正则表达式进行提取,具有准确性较高的优点。下面给出一个关键字正则表达式的示例:
例如,提取关键字“案号”所使用的关键字正则表达式为:“^(([((])?\d{4}[))]|(案号:\(\d{4}\))).{0,6}[终申抗行刑民催执保提初字第号监赔再司撤商金更恢辖没医止请认港澳台]{1,10}[^,。]{0,10}号?.{0,5}$”。
分类模块,用于根据关键字对法律文书全文进行分类,确定法律文书全文的文书类型。
分类模块根据提取模块已经提取的关键字对法律文书全文进行分类,确定法律文书全文的文书类型,其中文书类型包括但不限于刑事案件、民事案件和执行案件,根据不同的文书类型进入接下来的不同的细分处理流程。例如,当提取模块提取的关键字“案号”为“(2020)豫0103执恢322号之一”时,分类模块根据该关键字将法律文书全文的文书类型划分为“执行案件”。
进一步地,分类模块还用于根据文书类型判断是否继续提取关键字,若是,则提取模块利用关键字正则表达式继续提取法律文书全文的其他关键字。
在分类模块确定法律文书全文的文书类型后,分类模块根据文书类型判断是否要继续提取关键字,如果需要继续提取关键字,则提取模块利用关键字正则表达式继续提取法律文书全文的其他关键字,例如,如果文书类型为“刑事案件”,那么提取模块应该继续提取“被告人”、“原告”、“律师”等关键字;如果文书类型为“执行案件”,则提取模块不需要继续提取关键字。
分段模块,用于利用段落区分正则表达式对法律文书全文进行匹配分段,得到分段结果,分段结果包括分段后的段落和段落对应的段落属性,段落区分正则表达式和段落对应的段落属性信息存储在mysql数据库中;
在细分处理流程中,分段模块先利用段落区分正则表达式对法律文书全文进行匹配分段,其中段落区分正则表达式是通过对大量文书的分析所整理出来的集合,段落区分正则表达式对法律文书全文进行匹配分段时,可以使用标点符号进行分段,例如使用换行符进行分段等。下面给出一个段落区分正则表达式的示例:
“^(?!.*((辩称)|(辨称)|(经审理查明))).*((诉称)|(为由诉至法院.请求)|(提起诉讼称)|(诉至([一原]审|[^。]{0,20})法院.?请求判令)|(原审诉请(判令)?)|([原一]审(法院)?起诉请求)|(向[一原]审(法院)?提起诉讼.?请求判令)|((?<!于)(人民检察院|公诉机关|分院|起诉书).{0,3}(指控|认为))|(诉至.{0,15}法院称)|请求.{0,15}法院判令|(向[该法]院提出.{0,15}申请.{0,10}请求)|(向[^。]{0,20}法院提起诉讼.?请求判令)).*$”。
分段模块利用段落区分正则表达式对法律文书全文进行匹配分段后,得到分段结果,其中分段结果包括分段后的段落和段落对应的段落属性(例如“被告人员诉称”、“上诉人诉称”、“审理经过”等),有段落属性的段落是重点段落,没有段落属性的段落可能是无用的段落或者是关键字,分段结果不包括没有段落属性的段落。上述示例的段落区分正则表达式对应的段落属性为“被告人员诉称”。
校验模块,用于根据文书类型和分段结果进行段落顺序校验,若校验通过,则记录并存储校验结果,得到法律文书分段结果并将法律文书分段结果存储在mongo数据库中,以及根据文书类型和调整模块二次调整后的段落属性重新进行段落顺序校验,若校验通过,则记录并存储最终的校验结果,得到最终的法律文书分段结果并将最终的法律文书分段结果存储在mongo数据库中。
在分段模块对法律文书全文进行匹配分段,得到分段结果之后,校验模块根据文书类型和分段结果进行段落顺序校验,其中段落顺序为法律文书所规定的顺序,如果校验通过,则记录并存储校验结果,以供后续步骤调整使用,得到法律文书分段结果,校验结果和法律文书分段结果可以存储在mongo数据库中;如果校验未通过(例如:一审刑事案件的法律文书需要有一审法院认为信息,而步骤S400的第一次匹配分段中却没有),则需要利用调整模块采用权重匹配机制进行二次调整。同时,校验模块还用于在利用调整模块采用权重匹配机制进行二次调整后,根据文书类型和调整模块二次调整后的段落属性重新进行段落顺序校验,如果校验通过,则记录并存储最终的校验结果,得到最终的法律文书分段结果并将最终的法律文书分段结果存储在mongo数据库中,如果重新进行段落顺序校验未通过,则利用人工调整模块进行人工段落属性调整。
调整模块,用于在校验模块根据文书类型和分段结果进行段落顺序校验未通过时,采用权重匹配机制对分段后的段落对应的段落属性进行二次调整。
在校验模块根据文书类型和分段结果进行段落顺序校验未通过时,调整模块采用权重匹配机制对分段后的段落对应的段落属性进行二次调整,权重匹配机制是通过权重库来对段落属性进行的细微调整。
权重库是设计人员通过大量的案件实例归纳总结得出,后续通过分段所记录的校验结果进行***的自动微调(例如当某个分段结果数量较多时,会自动增加其权重比例),期间会定期进行人工干预防止***划分的权重异常。
例如匹配分段后的段落为:“上诉人XXX、YYY为与被上诉人ZZZ一案,不服北京市高级人民法院(2018)京民初54号民事判决,向本院提起上诉并申请缓交上诉案件受理费。”分段模块将该段落被提取为“上诉人诉称”段落属性,在调整模块采用权重匹配机制调整后,被重新分类为“审理经过”段落属性。
人工调整模块,用于在校验模块根据文书类型和调整模块二次调整后的段落属性重新进行段落顺序校验未通过时,进行人工段落属性调整,记录最终的人工正确法律文书分段结果并将最终的人工正确法律文书分段结果存储在mongo数据库中。
进一步地,法律文书分段***还包括:与mysql数据库连接的客户端(Web页面),用于对校验模块得到的法律文书分段结果、最终的法律文书分段结果或者人工调整模块得到的最终的人工正确法律文书分段结果进行展示,供用户查看。
本实施例所提出的法律文书分段***利用关键字正则表达式进行关键字提取以及利用段落区分正则表达式进行匹配分段,保证了关键字提取的准确性和分段的合理性,同时,采用权重匹配机制对第一次段落校验未通过的段落属性进行二次调整并进行段落顺序二次校验,相比于现有的法律文书分段方法,进一步提高了法律文书分段结果的准确性,使得法律文书分段结果更加精确,且分段效率更高。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种法律文书分段方法,其特征在于,包括以下步骤:
步骤一:获取待分段的法律文书全文;
步骤二:利用关键字正则表达式提取所述法律文书全文的关键字,所述关键字包括案号、审判人员、裁判日期、法律条文和案件类型;
步骤三:根据所述关键字对所述法律文书全文进行分类,确定所述法律文书全文的文书类型,所述文书类型包括刑事案件、民事案件和执行案件;
根据所述文书类型判断是否继续提取关键字,若是,则返回所述步骤二,利用所述关键字正则表达式继续提取所述法律文书全文的其他关键字;
步骤四:利用段落区分正则表达式对所述法律文书全文进行匹配分段,得到分段结果,所述分段结果包括分段后的段落和段落对应的段落属性;
步骤五:根据所述文书类型和所述分段结果进行段落属性校验,若校验通过,则记录并存储校验结果,得到法律文书分段结果;否则,进入步骤六;
步骤六:采用权重匹配机制对分段后的段落对应的段落属性进行二次调整;
步骤七:根据所述文书类型和二次调整后的段落属性重新进行段落属性校验,若校验通过,则记录并存储最终的校验结果,得到最终的法律文书分段结果;否则,进入步骤八;
步骤八:进行人工段落属性调整,记录并存储最终的人工正确法律文书分段结果。
2.根据权利要求1所述的法律文书分段方法,其特征在于,
所述步骤五得到的校验结果和法律文书分段结果以及所述步骤七得到的最终的校验结果和最终的法律文书分段结果均存储在mongo数据库中。
3.一种法律文书分段***,其特征在于,包括中心服务器、mongo数据库和mysql数据库,所述中心服务器通过网络连接设备分别与所述mongo数据库、mysql数据库连接,所述中心服务器包括:
获取模块,用于从所述mongo数据库获取待分段的法律文书全文;
提取模块,用于利用关键字正则表达式提取所述法律文书全文的关键字,所述关键字正则表达式存储在所述mysql数据库中,所述关键字包括案号、审判人员、裁判日期、法律条文和案件类型;
分类模块,用于根据所述关键字对所述法律文书全文进行分类,确定所述法律文书全文的文书类型,所述文书类型包括刑事案件、民事案件和执行案件;所述分类模块还用于根据所述文书类型判断是否继续提取关键字,若是,则所述提取模块利用所述关键字正则表达式继续提取所述法律文书全文的其他关键字;
分段模块,用于利用段落区分正则表达式对所述法律文书全文进行匹配分段,得到分段结果,所述分段结果包括分段后的段落和段落对应的段落属性,所述段落区分正则表达式和段落对应的段落属性信息存储在所述mysql数据库中;
校验模块,用于根据所述文书类型和所述分段结果进行段落属性校验,若校验通过,则记录并存储校验结果,得到法律文书分段结果并将法律文书分段结果存储在所述mongo数据库中,以及根据所述文书类型和调整模块二次调整后的段落属性重新进行段落属性校验,若校验通过,则记录并存储最终的校验结果,得到最终的法律文书分段结果并将最终的法律文书分段结果存储在所述mongo数据库中;
调整模块,用于在所述校验模块根据所述文书类型和所述分段结果进行段落属性校验未通过时,采用权重匹配机制对分段后的段落对应的段落属性进行二次调整;
人工调整模块,用于在所述校验模块根据所述文书类型和所述调整模块二次调整后的段落属性重新进行段落属性校验未通过时,进行人工段落属性调整,记录最终的人工正确法律文书分段结果并将最终的人工正确法律文书分段结果存储在所述mongo数据库中。
4.根据权利要求3所述的法律文书分段***,其特征在于,还包括:
与所述mysql数据库连接的客户端,用于对所述校验模块得到的法律文书分段结果、最终的法律文书分段结果或者所述人工调整模块得到的最终的人工正确法律文书分段结果进行展示。
5.根据权利要求3所述的法律文书分段***,其特征在于,
所述中心服务器、所述mongo数据库以及所述mysql数据库部署在中心机房或者云服务器上。
CN202011594347.5A 2020-12-29 2020-12-29 一种法律文书分段方法及*** Active CN112668284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011594347.5A CN112668284B (zh) 2020-12-29 2020-12-29 一种法律文书分段方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011594347.5A CN112668284B (zh) 2020-12-29 2020-12-29 一种法律文书分段方法及***

Publications (2)

Publication Number Publication Date
CN112668284A CN112668284A (zh) 2021-04-16
CN112668284B true CN112668284B (zh) 2023-12-15

Family

ID=75411936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011594347.5A Active CN112668284B (zh) 2020-12-29 2020-12-29 一种法律文书分段方法及***

Country Status (1)

Country Link
CN (1) CN112668284B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343661A (zh) * 2021-06-28 2021-09-03 福建师范大学 一种减刑假释文书自动生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427667A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 一种法律文书的分段方法及装置
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
WO2019080402A1 (zh) * 2017-10-24 2019-05-02 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器
CN110991164A (zh) * 2018-09-28 2020-04-10 北京国双科技有限公司 法律文书处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427667A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 一种法律文书的分段方法及装置
WO2019080402A1 (zh) * 2017-10-24 2019-05-02 平安科技(深圳)有限公司 结构化文本的文本信息提取方法、存储介质和服务器
CN108763483A (zh) * 2018-05-25 2018-11-06 南京大学 一种面向裁判文书的文本信息抽取方法
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN110991164A (zh) * 2018-09-28 2020-04-10 北京国双科技有限公司 法律文书处理方法及装置

Also Published As

Publication number Publication date
CN112668284A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答***
CN111145052A (zh) 司法文书的结构化分析方法及***
US20150161230A1 (en) Generating an Answer from Multiple Pipelines Using Clustering
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测***及方法
CN109101551B (zh) 一种问答知识库的构建方法及装置
CN107633380A (zh) 一种数据防泄漏***的任务审批方法和***
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN112464036B (zh) 一种违规数据的审核方法及装置
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成***及生成方法
CN112668284B (zh) 一种法律文书分段方法及***
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
WO2024087754A1 (zh) 一种多维度文本综合辨识方法
CN112906376A (zh) 一种自适应匹配的用户英语学习文本推送***和方法
CN112347121A (zh) 一种可配置的自然语言转sql的方法及***
CN117271716A (zh) 一种基于生成式语言模型的法律法规问答***及构建方法
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN112396539A (zh) 一种基于人工智能的行政执法自适应辅助***实现方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN112148838B (zh) 一种业务源对象提取方法与装置
CN111814457B (zh) 一种电网工程合同文本生成方法
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
Singh et al. Deep neural based name entity recognizer and classifier for English language
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant