CN111026880A - 基于联合学习的司法知识图谱构建方法 - Google Patents
基于联合学习的司法知识图谱构建方法 Download PDFInfo
- Publication number
- CN111026880A CN111026880A CN201911254309.2A CN201911254309A CN111026880A CN 111026880 A CN111026880 A CN 111026880A CN 201911254309 A CN201911254309 A CN 201911254309A CN 111026880 A CN111026880 A CN 111026880A
- Authority
- CN
- China
- Prior art keywords
- criminal
- neural network
- word
- judgment
- judicial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 32
- 238000003062 neural network model Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 68
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 239000003814 drug Substances 0.000 claims description 6
- 229940079593 drug Drugs 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 241000700605 Viruses Species 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种司法知识图谱构建方法,一种基于联合学习的司法知识图谱构建方法,包括以下步骤:(1)构建刑事司法领域本体,(2)搭建Seq2Seq神经网络模型,(3)提取犯罪情节三元组,(4)存储于图数据库。本发明一种基于联合学习的司法知识图谱构建方法和本体格式切实可行且结构清晰,具有参考价值,并且挖掘了犯罪情节以及量刑结果的关联信息,可以提升量刑建议的精准度,基于建立的司法知识图谱,可以面向司法业务的裁判文书知识推理和智能检索等方面中的应用。
Description
技术领域
本发明涉及一种司法知识图谱构建方法,更具体地说,涉及一种基于联合学习的司法知识图谱构建方法。
背景技术
知识图谱是用于描述海量实体、实体属性及实体间关系的有效工具。近年来随着互联网的发展,知识图谱得到了广泛的关注,相对于通用领域的知识图谱得到学术界和工业界的大量分析和研究,针对垂直领域的知识图谱构建方法相对较少。知识图谱的基本组成单位是“实体-关系-实体”三元组结构、或“实体-属性-属性值”三元组结构,通过关系将每个实体相互联系起来,构成网状的图谱结构。知识以知识图谱的形式表示,可以将难以理解的信息通过挖掘、分析和可视化的方式对知识及其逻辑关系进行展示,便于用户获取和理解概念及其联系。知识图谱构建方法一般分为自底向上的方法和自顶向下的方法。自底向上的方法流程是从海量的文本数据中提取出相关实体、属性以及实体之间的相互关系获取知识要素,然后通过实体链接、知识合并等过程,消除实体之间的歧义,为得到结构化的知识表示,通过数据驱动的方式自动化构建顶层的本体模式,这也是自底向上的构建方法关键所在,当前的通用领域知识图谱大多采用自底向上的方式进行构建。自顶向下的方法流程是先对知识图谱的本体和数据模式进行定义,然后根据定义的模式将实体等信息填充入知识库中,自顶向下的构建方法多用于垂直领域知识图谱的构建,需要利用一定的领域知识来指导定义本体结构,以及收集数据的领域范围等,然后通过命名实体识别和关系抽取等信息提取技术,实现对垂直领域知识图谱的构建。目前虽已涌现出许多通用领域的知识图谱构建方法,但针对于刑事司法领域的知识图谱构建方法的研究仍处在探索阶段。现在已有的针对司法领域的信息提取方法,多为通过构建规则的方式得到法律文书基本信息,将法律文书的各项内容结构化的表示出来,而没有对案件的情节内容进行更细致的挖掘,也没有提取出犯罪情节以及量刑结果的关联信息,因此无法进行量刑建议、类案推荐等方面的应用。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于联合学习的司法知识图谱构建方法。该方法基于司法领域的专业知识以及刑事判决书文本内容,利用自顶向下的构建方式,结合主流的神经网络深度学习算法和联合学习算法,对刑事判决书文本中涉及的三元组进行提取,并以图数据库的方式进行存储。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种基于联合学习的司法知识图谱构建方法,包括以下步骤:
步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
(a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
(b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
(c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模块,以便后续的调用和读取;
步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
(a)、确定Seq2Seq神经网络模型的整体结构,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
(b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
wc=reshape(vc) (2)
式中,conv()表示卷积操作,cj表示第j个字的初始化向量,表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc,表示第i个词语的初始化向量,表示第i个词语通过对字进行卷积操作得到的字符特征向量,表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
hi=conv(wi) (4)
式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量,表示向量拼接操作,表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
(c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
(d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵,表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
(a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
(b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
(c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
(a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
(b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、***、***和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为***数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为***数字;
(c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。
本发明有益效果是:一种基于联合学习的司法知识图谱构建方法,包括以下步骤:(1)构建刑事司法领域本体,(2)搭建Seq2Seq神经网络模型,(3)提取犯罪情节三元组,(4)存储于图数据库。本发明一种基于联合学习的司法知识图谱构建方法和本体格式切实可行且结构清晰,具有参考价值,并且挖掘了犯罪情节以及量刑结果的关联信息,可以提升量刑建议的精准度,基于建立的司法知识图谱,可以面向司法业务的裁判文书智能检索和类案推荐等方面中的应用。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的Seq2Seq神经网络模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
一种基于联合学习的司法知识图谱构建方法,包括以下步骤:
步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
(a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
(b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
(c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模块,以便后续的调用和读取;
步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
(a)、确定Seq2Seq神经网络模型的整体结构,如图2所示,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
(b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
wc=reshape(vc) (2)
式中,conv()表示卷积操作,cj表示第j个字的初始化向量,表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc,表示第i个词语的初始化向量,表示第i个词语通过对字进行卷积操作得到的字符特征向量,表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
hi=conv(wi) (4)
式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量,表示向量拼接操作,表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
(c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
(d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵,表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
(a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
(b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
(c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
(a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
(b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、***、***和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为***数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为***数字;
(c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。
Claims (1)
1.一种基于联合学习的司法知识图谱构建方法,其特征在于包括以下步骤:
步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
(a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
(b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
(c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模块,以便后续的调用和读取;
步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
(a)、确定Seq2Seq神经网络模型的整体结构,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
(b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
wc=reshape(vc) (2)
式中,conv()表示卷积操作,cj表示第j个字的初始化向量,表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc,表示第i个词语的初始化向量,表示第i个词语通过对字进行卷积操作得到的字符特征向量,表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
hi=conv(wi) (4)
式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量,表示向量拼接操作,表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
(c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
(d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵,表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
(a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
(b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
(c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
(a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
(b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、***、***和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为***数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为***数字;
(c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911254309.2A CN111026880B (zh) | 2019-12-08 | 2019-12-08 | 基于联合学习的司法知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911254309.2A CN111026880B (zh) | 2019-12-08 | 2019-12-08 | 基于联合学习的司法知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111026880A true CN111026880A (zh) | 2020-04-17 |
CN111026880B CN111026880B (zh) | 2021-06-08 |
Family
ID=70208228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911254309.2A Active CN111026880B (zh) | 2019-12-08 | 2019-12-08 | 基于联合学习的司法知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111026880B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597352A (zh) * | 2020-05-18 | 2020-08-28 | 中国人民解放军国防科技大学 | 结合本体概念和实例的网络空间知识图谱推理方法和装置 |
CN112417155A (zh) * | 2020-11-27 | 2021-02-26 | 浙江大学 | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN113239208A (zh) * | 2021-05-06 | 2021-08-10 | 广东博维创远科技有限公司 | 一种基于知识图谱的标注训练模型 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908671A (zh) * | 2017-10-25 | 2018-04-13 | 南京擎盾信息科技有限公司 | 基于法律数据的知识图谱构建方法及*** |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及*** |
CN109977237A (zh) * | 2019-05-27 | 2019-07-05 | 南京擎盾信息科技有限公司 | 一种面向法律领域的动态法律事件图谱构建方法 |
US20190332985A1 (en) * | 2017-09-22 | 2019-10-31 | 1Nteger, Llc | Systems and methods for investigating and evaluating financial crime and sanctions-related risks |
-
2019
- 2019-12-08 CN CN201911254309.2A patent/CN111026880B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190332985A1 (en) * | 2017-09-22 | 2019-10-31 | 1Nteger, Llc | Systems and methods for investigating and evaluating financial crime and sanctions-related risks |
CN107908671A (zh) * | 2017-10-25 | 2018-04-13 | 南京擎盾信息科技有限公司 | 基于法律数据的知识图谱构建方法及*** |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及*** |
CN109977237A (zh) * | 2019-05-27 | 2019-07-05 | 南京擎盾信息科技有限公司 | 一种面向法律领域的动态法律事件图谱构建方法 |
Non-Patent Citations (2)
Title |
---|
GUODONG LI等: "Combining Domain Knowledge Extraction with Graph Long Short-Term Memory for Learning Classification of Chinese Legal Documents", 《IEEE》 * |
陈彦光等: "基于刑事案例的知识图谱构建技术", 《郑州大学学报(理学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597352A (zh) * | 2020-05-18 | 2020-08-28 | 中国人民解放军国防科技大学 | 结合本体概念和实例的网络空间知识图谱推理方法和装置 |
CN111597352B (zh) * | 2020-05-18 | 2023-05-09 | 中国人民解放军国防科技大学 | 结合本体概念和实例的网络空间知识图谱推理方法和装置 |
CN112417155A (zh) * | 2020-11-27 | 2021-02-26 | 浙江大学 | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 |
CN112632223A (zh) * | 2020-12-29 | 2021-04-09 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN112632223B (zh) * | 2020-12-29 | 2023-01-20 | 天津汇智星源信息技术有限公司 | 案事件知识图谱构建方法及相关设备 |
CN113239208A (zh) * | 2021-05-06 | 2021-08-10 | 广东博维创远科技有限公司 | 一种基于知识图谱的标注训练模型 |
Also Published As
Publication number | Publication date |
---|---|
CN111026880B (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021147726A1 (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111026880B (zh) | 基于联合学习的司法知识图谱构建方法 | |
CN111783394B (zh) | 事件抽取模型的训练方法、事件抽取方法和***及设备 | |
CN108182295A (zh) | 一种企业知识图谱属性抽取方法及*** | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN113722490B (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN112464669B (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN112182248A (zh) | 一种电价的关键政策的统计方法 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及*** | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN113505222A (zh) | 一种基于文本循环神经网络的政务文本分类方法及*** | |
Tianxiong et al. | Identifying chinese event factuality with convolutional neural networks | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及*** | |
CN113064967A (zh) | 基于深度迁移网络的投诉举报可信度分析方法 | |
CN117033626A (zh) | 一种文本审核方法、装置、设备及存储介质 | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN115964497A (zh) | 一种融合注意力机制与卷积神经网络的事件抽取方法 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN115204140A (zh) | 一种基于注意力机制与知识图谱的法律条文预测方法 | |
CN108875591A (zh) | 文本图片匹配分析方法、装置、计算机设备和存储介质 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |