CN113239130A - 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质 - Google Patents
一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质 Download PDFInfo
- Publication number
- CN113239130A CN113239130A CN202110677480.5A CN202110677480A CN113239130A CN 113239130 A CN113239130 A CN 113239130A CN 202110677480 A CN202110677480 A CN 202110677480A CN 113239130 A CN113239130 A CN 113239130A
- Authority
- CN
- China
- Prior art keywords
- criminal
- knowledge
- graph
- judicial
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 230000033228 biological regulation Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000006698 induction Effects 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000007689 inspection Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 claims description 4
- 230000009897 systematic effect Effects 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 description 9
- 239000000463 material Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011840 criminal investigation Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于刑事司法文书的知识图谱的构建方法,构建方法包括:基于服务器终端,对法律规范所规定的各种量刑情节进行分类处理和归纳总结,建立结构化语义知识库,形成并基于量刑因素图谱规则,从刑事裁判文书网自动同步数据,或手动添加文书数据创建数据集,经过实体识别、信息抽取、知识融合、知识存储获得实体信息,进行知识图谱的构建,采用人工智能的技术手段,采集并对刑事裁判文书进行学习和分析,持续迭代更新,完善知识图谱。本发明有充足的法律依据作为法理支撑,数值精确度高;充分考虑到刑罚裁量的差异因素,能够适用于不同的量刑环境,还能不断地更新完善。
Description
技术领域
本发明涉及司法文件文字识别技术领域,具体讲是一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质。
背景技术
以事实为根据是中外刑法定罪量刑的铁律,刑事处置方式及程度对应的事实应是反映该罪具体形态的事实以及附着于此的行为人因素。基本犯罪事实和相关的量刑情节是对量刑轻重有重要影响的因素,能够反映同种犯罪的罪轻与罪重,任何因素的遗漏都可能导致最终量刑结果的偏差,只有设计合法合规、科学合理的情节提取要素,才有可能得到相对公正的量刑结果。
任何犯罪都具备若干基本情节,这些用以定罪和量刑的情节是最基础的犯罪形式,反映了犯罪行为的基本情况,而定罪情节和量刑情节这两种信息的内容形式多变,构词规范复杂,不遵循特定的字符模式,提取难度较大,对此,应当引入结构化的语义知识库,构建适用于司法领域的精准量刑知识图谱,将描述案件事实数据粒度通过关系抽取的方式从文档级别降级到标签级别,聚合大量知识标签,有助于优化机器模型,提高识别的精准度。
发明内容
针对背景技术中存在的技术缺陷,本发明提出一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质,解决了上述技术问题以及满足了实际需求,具体的技术方案如下所示:
一种基于刑事司法文书的知识图谱的构建方法,所述构建方法包括:
基于服务器终端,对《刑法》、《量刑指导意见》、《量刑细则》法律规范所规定的各种量刑情节进行分类处理和归纳总结;
根据各种量刑情节的分类处理和归纳总结,以情节为基本变量,法律逻辑展开,建立结构化语义知识库,形成***完整的量刑因素图谱规则;
基于所述量刑因素图谱规则,从刑事裁判文书网大量的文书数据提取刑事裁判文书自动同步数据,或手动在所述数据集详情页面直接添加文书数据创建数据集;
根据数据集的内容,经过实体识别、信息抽取、知识融合、知识存储获得实体信息并进行标注;
根据标注的所述实体信息,基于量刑因素图谱规则进行基于刑事裁判文书的知识图谱的构建;
基于上述构建的所述知识图谱不断采用人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中持续迭代更新,完善所述知识图谱。
作为本发明的进一步方案,所述分类处理和归纳总结包括量刑的概念功能和特征、量刑的原则、量刑相关制度、立足于刑法分则规定的量刑过程中需要考虑的各种量刑情节要素,以及量刑指导意见、各省相应的量刑实施细则规定的各个罪不同的量刑规则,还包括现行的法律法规、司法解释和其他通知规定。
作为本发明的进一步方案,所述量刑因素图谱规则基于包括《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》《最高人民法院、最高人民检察院关于办理盗窃刑事案件适用法律若干问题的解释》《广东省高级人民法院、广东省人民检察院关于确定盗窃刑事案件数额标准的通知》以规范性法律文件的形式呈现的立法或司法依据。
作为本发明的进一步方案,所述数据集的创建根据互联网公布的刑事裁判文书所形成的海量司法大数据,基于所述量刑因素图谱规则对刑事裁判文书中的司法数据进行数据分析、数据预处理,对给定的刑事裁判文书分段打标签。
作为本发明的进一步方案,所述实体识别、信息抽取、知识融合以及知识存储是根据量刑因素图谱规则中不同案件实体的相互关系,通过NLP自然语言处理技术自动实时、明确地对海量司法文本信息进行分析推导和提取融合,结合模式匹配的方法,运用正则表达式,抽取刑事裁判文书中的特定表述及要素,并运用命名实体识别技术为抽取出的实体进行类型标注。
作为本发明的进一步方案,所述命名实体的类型标注包括标注实体标签、标注关系标签和特定规则,所述实体标签基于所述实体识别、信息抽取、知识融合以及知识存储的实体信息得到,所述关系标签基于所述量刑因素图谱规则中不同案件实体的相互关系组合得到,所述特定规则是指实体和标签是匹配对应关系,由所述量刑因素图谱规则确定。
作为本发明的进一步方案,所述知识图谱的构建具体为对所述实体信息根据其标注的所述实体标签和所述关系标签通过所述量刑因素图谱规则进行关系搭建,从而确定所述实体信息之间的联系构建出所述知识图谱。
基于一种基于刑事司法文书的知识图谱的构建方法的一种服务器,其包括:一个或多个处理器、存储器、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行上述实施例中的基于刑事司法文书的知识图谱的构建方法。
本发明具有的有益效果在于:基于刑事裁判文书的知识图谱通过自顶向下和自底向上两种方式实现构建,首先从法律法规内容,提取高质量数据以及其中的本体和模式信息,构建所述量刑因素图谱规则,充分依据法律法规,具有充足的法律依据作为法理支撑。然后借助人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中,在数量上足够多,文书依赖其结构内容亦能够全面反映所需的全部素材,运用大数据算法智能演算得出的数值精确度也足够高。
除此以外所述知识图谱还以实务盗窃罪刑事裁判文书作为素材,必然会考虑到刑罚裁量中所涉的法官自由裁量权,以及法官裁判的地域差异、经济文化差异等因素,能够适用于不同的量环境,提供精确的数据信息大力助推量刑监测的实现。同时所述知识图谱的构建还能够通过深度学习,智能捕捉锁定并自动吸收最新立法、司法解释、指导性案例内确立的量刑规则不断地进行更新完善。
附图说明
图1为本发明的逻辑流程示意图。
具体实施方式
下面结合附图与相关实施例对本发明的实施方式进行说明,需要指出的是,以下相关实施例仅是为了更好说明本发明本身而举的优选实施例,而本发明的实施方式不局限于如下的实施例中,并且本发明涉及本技术领域的相关必要部件,应当视为本技术领域内的公知技术,是本技术领域所属的技术人员所能知道并掌握的。
一种基于刑事司法文书的知识图谱的构建方法,所述构建方法包括:
基于服务器终端,对《刑法》、《量刑指导意见》、《量刑细则》法律规范所规定的各种量刑情节进行分类处理和归纳总结;
根据各种量刑情节的分类处理和归纳总结,以情节为基本变量,法律逻辑展开,建立结构化语义知识库,形成***完整的量刑因素图谱规则;
基于所述量刑因素图谱规则,从刑事裁判文书网大量的文书数据提取刑事裁判文书自动同步数据,或手动在所述数据集详情页面直接添加文书数据创建数据集;
根据数据集的内容,经过实体识别、信息抽取、知识融合、知识存储获得实体信息并进行标注;
根据标注的所述实体信息,基于量刑因素图谱规则进行基于刑事裁判文书的知识图谱的构建;
基于上述构建的所述知识图谱不断采用人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中持续迭代更新,完善所述知识图谱。
司法知识图谱是司法智能应用的基础,使用人工智能技术构建盗窃罪知识图谱是实现量刑监测模型的首要步骤。也是提升司法智慧的技术保障,其中包含实体、概念、属性、关系等信息。构建一份知识图谱需要通过先通过知识抽取技术,从不同形式的数据源获取知识图谱构建的各类知识,采取知识融合剔除各类不适合的知识,提高知识图谱的质量与性能。例如从知识图谱融入法律情景模式的角度出发,盗窃罪量刑知识图谱就是通过将盗窃罪的犯罪事实梳理细化分解为定罪情节要素和量刑情节要素等案件要素,建立起描述案件事实与裁判结果之间关系的结构化语义知识库,从而客观反映犯罪与刑罚之间的关系。本发明通过所述服务器终端进行对《刑法》、《量刑指导意见》、《量刑细则》等法律规范所规定的各种量刑情节进行分类处理和归纳总结,以情节为基本变量,法律逻辑展开,建立结构化语义知识库,形成***完整的量刑因素图谱规则。比如在定罪情节方面,“盗窃金额”可以细分为“数额较大”“数额巨大”“数额特别巨大”,并与具体金额挂钩。又如自首这一量刑情节,可以细分为“主动投案自首”“自首(犯罪较轻)”“自首(因形迹可疑被盘问后或强制戒毒期间主动交代)”“自首(已被办案机关发觉,但未调查谈话,主动交代的)”“自首(主动交代罪行或因亲友劝解、陪同自首)”“其他类型的自首”,并与减轻处罚相连接。
所述量刑因素图谱规则构建完成后,应综合运用人工智能和大数据技术,从法律法规和司法刑事裁判文书中抽取结构化与半结构化文本数据,通过设置定罪情节要素和量刑情节要素等知识要素,绘制盗窃罪量刑情节的知识图谱,经过“实体识别——信息抽取——知识融合——知识存储”等环节持续迭代更新,构建盗窃罪量刑情节的知识图谱,以确保量刑规范化、精准化。本发明所述知识图谱的构建技术在实践中主要分为自顶向下和自底向上两种方式。自顶向下构建图谱的实现路径主要是参考法律法规内容,提取高质量数据以及其中的本体和模式信息,如法定定罪量刑的实体信息,并加入到知识库中。而自底向上图谱结构则是借助人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中。能够让所述知识图谱充分依据法律法规构建完善,同时不断地从海量的刑事裁判文书数据中提取信息收据进行学习和完善,从而构建适用于司法领域的精准量刑知识图谱,有助于优化机器模型,提高识别的精准度。
作为本发明的进一步方案,所述分类处理和归纳总结包括量刑的概念功能和特征、量刑的原则、量刑相关制度、立足于刑法分则规定的量刑过程中需要考虑的各种量刑情节要素,以及量刑指导意见、各省相应的量刑实施细则规定的各个罪不同的量刑规则,还包括现行的法律法规、司法解释和其他通知规定。
作为本发明的进一步方案,所述量刑因素图谱规则基于包括《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》《最高人民法院、最高人民检察院关于办理盗窃刑事案件适用法律若干问题的解释》《广东省高级人民法院、广东省人民检察院关于确定盗窃刑事案件数额标准的通知》以规范性法律文件的形式呈现的立法或司法依据。
所述分类处理和归纳总结立足于刑法总则关于量刑的基本原理的规定,具体包括但不限于量刑的概念功能和特征、量刑的原则、量刑相关制度等基础理论知识,还立足于刑法分则规定的量刑过程中需要考虑的各种量刑情节要素,以及量刑指导意见、各省相应的量刑实施细则规定的各个罪不同的量刑规则。
所述量刑因素图谱规则基于但不限于现行法律法规、司法解释和其他通知规定,具体包括但不限于《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》等以规范性法律文件的形式呈现的立法或司法依据。
所述量刑因素图谱规则依据一定的法律法规,以《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》等文件作为构建所述量刑因素图谱规则的法理基础,对影响量刑的因素进行量化分析。综上所述,所述知识图谱的建构对于监测的实现,既具有充足的法律依据作为法理支撑,又有大数据人工智能运用技术手段获取的海量案例大数据,在数量上足够多,文书依赖其结构内容亦能够全面反映监测所需的全部素材,运用大数据算法智能演算得出的数值精确度也足够高,同时量刑监测理论模型是以刑事裁判文书作为素材兼监测对象,必然会考虑到刑罚裁量中所涉的法官自由裁量权,以及法官裁判的地域差异、经济文化差异等因素,故量刑监测理论模型将融合各方面积极因素大力助推量刑监测的实现。
作为本发明的进一步方案,所述数据集的创建根据互联网公布的刑事裁判文书所形成的海量司法大数据,基于所述量刑因素图谱规则对刑事裁判文书中的司法数据进行数据分析、数据预处理,对给定的刑事裁判文书分段打标签。
法律文书是司法案件数据的主要表现形式,人民法院在互联网公布的刑事裁判文书所形成的海量司法大数据,将成为分析盗窃罪量刑规律、构建量刑监测模型的重要素材,其主要包含案件的发生过程、涉案人员信息、裁判结果等内容。本发明对刑事裁判文书中的司法数据进行数据分析、数据预处理,对给定的刑事裁判文书分段打标签,具***置对刑事裁判文书从内容结构上进行信息整理,如标题、正文与结尾三部分的分类分段。再对其中标题部分中的审判机构名称与文书种类编号,正文部分中的含涉案人员信息、案件发生过程、裁判认定结果;结尾中的参审人员姓名与审理时间等内容进行打标签,将刑事裁判文书的信息从文档级别降级到标签级别,方便下一步的实体信息处理。对一份刑事刑事裁判文书准确地进行识别、采集、标注和关联案件中的信息,包括但不限于罪名、裁判年份、法院层级、审理程序、文书性质、定罪情节、量刑情节、主刑、缓刑等内容。
作为本发明的进一步方案,所述实体识别、信息抽取、知识融合以及知识存储是根据量刑因素图谱规则中不同案件实体的相互关系,通过NLP自然语言处理技术自动实时、明确地对海量司法文本信息进行分析推导和提取融合,结合模式匹配的方法,运用正则表达式,抽取刑事裁判文书中的特定表述及要素,并运用命名实体识别技术为抽取出的实体进行类型标注。
在上述所述数据集中提取到的:被告人姓名、裁判年份、审判结构、法院层级、审理程序、文书性质、主刑、缓刑等内容在文本形式上特点明显,都遵循一定的字符模式,因此可以采取模式匹配的方式,通过构建正则表达式模型对其进行定向提取。
任何犯罪都具备若干基本情节,这些用以定罪和量刑的情节是最基础的犯罪形式,反映了犯罪行为的基本情况,而定罪情节和量刑情节这两种信息的内容形式多变,构词规范复杂,不遵循特定的字符模式,提取难度较大,对此,本发明引入上述所述构化语义知识库和所述量刑因素图谱规则,将描述案件事实数据粒度通过关系抽取的方式聚合大量知识标签,构建适用于司法领域的精准量刑知识图谱。所述实体识别、信息抽取、知识融合以及知识存储是为了将数据挖掘领域对半结构化、非结构化的文本数据进行预处理,从海量的刑事裁判文书中抽取指定的事件、事实等信息,并形成结构化存储在所述服务器终端。在法律情景之下,NLP自然语言处理技术自动实时、明确地对海量司法文本信息进行分析推导和提取融合,能够从法律文书的法律语言中(自然语言的一种状态)准确提取相应情节。实现了基于设计好的刑事案件本体框架,将批量的刑事裁判文书中半结构化、非结构化的数据进行语义标注与特征抽取,形成结构化程度较好且富含语义信息的标签存储于案例库,实现从“沉睡的”海量数据向支持模型运行的“有价值的”信息转化。
作为本发明的进一步方案,所述命名实体的类型标注包括标注实体标签、标注关系标签和特定规则,所述实体标签基于所述实体识别、信息抽取、知识融合以及知识存储的实体信息得到,所述关系标签基于所述量刑因素图谱规则中不同案件实体的相互关系组合得到,所述特定规则是指实体和标签是匹配对应关系,由所述量刑因素图谱规则确定。
作为本发明的进一步方案,所述知识图谱的构建具体为对所述实体信息根据其标注的所述实体标签和所述关系标签通过所述量刑因素图谱规则进行关系搭建,从而确定所述实体信息之间的联系构建出所述知识图谱。
所述实体信息通过所述命名实体得到的所述实体标签和所述关系标签构建实体三元组,并对三元组进行有效性的筛选和整理,构成最适合所述量刑因素图谱规则的实体关系三元组,得到的实体关系三元组形成完整的知识语言逻辑体系,成为所述知识图谱的理论基础。通过所述实体标签和所述关系标签定义刑事裁判文书中涉案、种类、受理等诸多关系,多个所述实体信息之间的关系就能构成一整套完整的知识库,在经过数据构建形成基于刑事裁判文书的知识图谱。然后经过不断采用人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中持续迭代更新,不断完善所述知识图谱。
基于一种基于刑事司法文书的知识图谱的构建方法的一种服务器,其包括:一个或多个处理器、存储器、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行上述实施例中的基于刑事司法文书的知识图谱的构建方法。
本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现任一项技术方案所述的犯罪实际刑期的预测方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(只读存储器)、RAM(随即存储器)、EPROM(可擦写可编程只读存储器)、EEPROM(电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输消息的任何介质,可以是只读存储器,磁盘或光盘等。
作为一个实施例,所述服务器包括:一个或多个处理器,存储器,一个或多个应用程序,其中所述一个或多个应用程序被存储在存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述实施例中的基于刑事司法文书的知识图谱的构建方法。
本发明实施例提供的服务器可实现上述基于刑事司法文书的知识图谱的构建方法的实施例,具体功能实现请参详方法实施例中的说明,在此不再赘述。
在本发明实施例中,综合运用人工智能和大数据技术,从法律法规和司法刑事裁判文书中抽取结构化与半结构化文本数据,通过设置定罪情节要素和量刑情节要素等知识要素,绘制基于刑事裁判文书的知识图谱,经过“实体识别——信息抽取——知识融合——知识存储”等环节持续迭代更新,构建盗窃罪量刑情节的知识图谱,以确保量刑规范化、精准化。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种基于刑事司法文书的知识图谱的构建方法,其特征在于,所述构建方法包括:
基于服务器终端,对《刑法》、《量刑指导意见》、《量刑细则》法律规范所规定的各种量刑情节进行分类处理和归纳总结;
根据各种量刑情节的分类处理和归纳总结,以情节为基本变量,法律逻辑展开,建立结构化语义知识库,形成***完整的量刑因素图谱规则;
基于所述量刑因素图谱规则,从刑事裁判文书网大量的文书数据提取刑事裁判文书自动同步数据,或手动在所述数据集详情页面直接添加文书数据创建数据集;
根据数据集的内容,经过实体识别、信息抽取、知识融合、知识存储获得实体信息并进行类型标注;
根据经过所述标注的所述实体信息,基于量刑因素图谱规则进行基于刑事裁判文书的知识图谱的构建;
基于上述构建的所述知识图谱不断采用人工智能的技术手段,采集公开的法律文书,通过对海量刑事裁判文书进行学习和分析,从中提取法定、酌定情节实体信息,部分经过人工审核后加入到知识库中持续迭代更新,完善所述知识图谱。
2.根据权利要求1所述的基于刑事司法文书的知识图谱的构建方法,其特征在于,所述分类处理和归纳总结包括量刑的概念功能和特征、量刑的原则、量刑相关制度、立足于刑法分则规定的量刑过程中需要考虑的各种量刑情节要素,以及量刑指导意见、各省相应的量刑实施细则规定的各个罪不同的量刑规则,还包括现行的法律法规、司法解释和其他通知规定。
3.根据权利要求1所述的基于刑事司法文书的知识图谱的构建方法,其特征在于,所述量刑因素图谱规则基于包括《中华人民共和国刑法》《最高人民法院<关于常见犯罪的量刑指导意见>》《广东省高级人民法院<关于常见犯罪的量刑指导意见>实施细则》《最高人民法院、最高人民检察院关于办理盗窃刑事案件适用法律若干问题的解释》《广东省高级人民法院、广东省人民检察院关于确定盗窃刑事案件数额标准的通知》以规范性法律文件的形式呈现的立法或司法依据。
4.根据权利要求1所述的基于刑事司法文书的知识图谱的构建方法,其特征在于,所述数据集的创建根据互联网公布的刑事裁判文书所形成的海量司法大数据,基于所述量刑因素图谱规则对刑事裁判文书中的司法数据进行数据分析、数据预处理,对给定的刑事裁判文书分段打标签。
5.根据权利要求1所述的基于刑事司法文书的知识图谱的构建方法,其特征在于,所述实体识别、信息抽取、知识融合以及知识存储是根据量刑因素图谱规则中不同案件实体的相互关系,通过NLP自然语言处理技术自动实时、明确地对海量司法文本信息进行分析推导和提取融合,结合模式匹配的方法,运用正则表达式,抽取刑事裁判文书中的特定表述及要素,并运用命名实体识别技术为抽取出的实体进行所述类型标注。
6.根据权利要求5所述的基于刑事司法文书的知识图谱的构建方法,其特征在于,所述命名实体的所述类型标注包括标注实体标签、标注关系标签和特定规则,所述实体标签基于所述实体识别、信息抽取、知识融合以及知识存储的实体信息得到,所述关系标签基于所述量刑因素图谱规则中不同案件实体的相互关系组合得到,所述特定规则是指实体和标签是匹配对应关系,由所述量刑因素图谱规则确定。
7.根据权利要求6所述的基于刑事司法文书的知识图谱的构建方法,其特征在于,所述知识图谱的构建具体为对所述实体信息根据其标注的所述实体标签和所述关系标签通过所述量刑因素图谱规则进行关系搭建,从而确定所述实体信息之间的联系构建出所述知识图谱。
8.一种服务器,其特征在于,其包括:一个或多个处理器、存储器、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行根据权利要求1至7中任意一项所述的基于刑事司法文书的知识图谱的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677480.5A CN113239130A (zh) | 2021-06-18 | 2021-06-18 | 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110677480.5A CN113239130A (zh) | 2021-06-18 | 2021-06-18 | 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239130A true CN113239130A (zh) | 2021-08-10 |
Family
ID=77140351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110677480.5A Pending CN113239130A (zh) | 2021-06-18 | 2021-06-18 | 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239130A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610954A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息处理方法及装置、存储介质和电子设备 |
CN114911879A (zh) * | 2022-07-19 | 2022-08-16 | 南京航天数智科技有限公司 | 一种基于图注意力网络的刑事案件知识图谱关系推理方法 |
CN115203439B (zh) * | 2022-09-15 | 2022-11-29 | 天津市道本科技有限公司 | 用于合规监管的知识图谱的构建方法、相关方法和*** |
CN115687632A (zh) * | 2022-08-25 | 2023-02-03 | 中国司法大数据研究院有限公司 | 一种刑事量刑情节分解分析的方法和*** |
CN115858507A (zh) * | 2022-08-25 | 2023-03-28 | 中国司法大数据研究院有限公司 | 一种刑事量刑规则自动化评估、纠错与补全的方法和*** |
CN115982388A (zh) * | 2023-03-06 | 2023-04-18 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
CN116127977A (zh) * | 2023-02-08 | 2023-05-16 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
CN110837564A (zh) * | 2019-09-25 | 2020-02-25 | 中央民族大学 | 多语言刑事判决书知识图谱的构建方法 |
US20200073932A1 (en) * | 2018-08-30 | 2020-03-05 | Intelligent Fusion Technology, Inc | Method and system for pattern discovery and real-time anomaly detection based on knowledge graph |
CN111291161A (zh) * | 2020-02-20 | 2020-06-16 | 平安科技(深圳)有限公司 | 法律案件知识图谱查询方法、装置、设备及存储介质 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和*** |
CN112347270A (zh) * | 2020-11-30 | 2021-02-09 | 重庆工程职业技术学院 | 一种法律知识图谱构建***及方法 |
-
2021
- 2021-06-18 CN CN202110677480.5A patent/CN113239130A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107122444A (zh) * | 2017-04-24 | 2017-09-01 | 北京科技大学 | 一种法律知识图谱自动构建方法 |
US20200073932A1 (en) * | 2018-08-30 | 2020-03-05 | Intelligent Fusion Technology, Inc | Method and system for pattern discovery and real-time anomaly detection based on knowledge graph |
CN110837564A (zh) * | 2019-09-25 | 2020-02-25 | 中央民族大学 | 多语言刑事判决书知识图谱的构建方法 |
CN111291161A (zh) * | 2020-02-20 | 2020-06-16 | 平安科技(深圳)有限公司 | 法律案件知识图谱查询方法、装置、设备及存储介质 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和*** |
CN112347270A (zh) * | 2020-11-30 | 2021-02-09 | 重庆工程职业技术学院 | 一种法律知识图谱构建***及方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610954A (zh) * | 2022-03-09 | 2022-06-10 | 上海弘玑信息技术有限公司 | 信息处理方法及装置、存储介质和电子设备 |
CN114911879A (zh) * | 2022-07-19 | 2022-08-16 | 南京航天数智科技有限公司 | 一种基于图注意力网络的刑事案件知识图谱关系推理方法 |
CN115687632A (zh) * | 2022-08-25 | 2023-02-03 | 中国司法大数据研究院有限公司 | 一种刑事量刑情节分解分析的方法和*** |
CN115858507A (zh) * | 2022-08-25 | 2023-03-28 | 中国司法大数据研究院有限公司 | 一种刑事量刑规则自动化评估、纠错与补全的方法和*** |
CN115687632B (zh) * | 2022-08-25 | 2024-04-09 | 中国司法大数据研究院有限公司 | 一种刑事量刑情节分解分析的方法和*** |
CN115203439B (zh) * | 2022-09-15 | 2022-11-29 | 天津市道本科技有限公司 | 用于合规监管的知识图谱的构建方法、相关方法和*** |
CN116127977A (zh) * | 2023-02-08 | 2023-05-16 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
CN116127977B (zh) * | 2023-02-08 | 2023-10-03 | 中国司法大数据研究院有限公司 | 一种面向裁判文书的伤亡人数提取方法 |
CN115982388A (zh) * | 2023-03-06 | 2023-04-18 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
CN115982388B (zh) * | 2023-03-06 | 2024-04-19 | 共道网络科技有限公司 | 案件质控图谱建立、案件文书质检方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239130A (zh) | 一种基于刑事司法文书的知识图谱的构建方法、装置和电子设备、存储介质 | |
Sleimi et al. | Automated extraction of semantic legal metadata using natural language processing | |
CN108572967B (zh) | 一种创建企业画像的方法及装置 | |
CN112182246B (zh) | 通过大数据分析建立企业画像的方法、***、介质及应用 | |
CN107403375A (zh) | 一种基于深度学习的上市公司公告分类及摘要生成方法 | |
CN108563783B (zh) | 一种基于大数据的财务分析管理***及方法 | |
CN113239208A (zh) | 一种基于知识图谱的标注训练模型 | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及*** | |
CN110147540B (zh) | 业务安全需求文档生成方法及*** | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
CN110770781A (zh) | 法律信息处理***、方法和程序 | |
KR20220068937A (ko) | 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법 | |
CN114860882A (zh) | 一种基于文本分类模型的公平竞争审查辅助方法 | |
Kovalchuk et al. | Text mining for the analysis of legal texts | |
CN112347254A (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
Bacalu | Digital policing tools as social control technologies: data-driven predictive algorithms, automated facial recognition surveillance, and law enforcement biometrics | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护***及方法 | |
CN115936932A (zh) | 司法文书的处理方法、装置、电子设备和存储介质 | |
Chen et al. | Converting natural language policy article into MBSE model | |
CN115618085A (zh) | 一种基于动态标签的接口数据暴露探测方法 | |
Kruse et al. | Developing a legal form classification and extraction approach for company entity matching: Benchmark of rule-based and machine learning approaches | |
CN112988972A (zh) | 一种基于数据模型的行政处罚案卷评查方法及*** | |
Burley et al. | Nlp workflows for computational social science: Understanding triggers of state-led mass killings | |
Noursalehi et al. | Machine-learning-augmented analysis of textual data: application in transit disruption management | |
Watanabe et al. | A study on support method of consulting service using text mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210810 |