CN111026880A - 基于联合学习的司法知识图谱构建方法 - Google Patents

基于联合学习的司法知识图谱构建方法 Download PDF

Info

Publication number
CN111026880A
CN111026880A CN201911254309.2A CN201911254309A CN111026880A CN 111026880 A CN111026880 A CN 111026880A CN 201911254309 A CN201911254309 A CN 201911254309A CN 111026880 A CN111026880 A CN 111026880A
Authority
CN
China
Prior art keywords
criminal
neural network
word
judgment
judicial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911254309.2A
Other languages
English (en)
Other versions
CN111026880B (zh
Inventor
孙媛媛
陈彦光
刘海顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201911254309.2A priority Critical patent/CN111026880B/zh
Publication of CN111026880A publication Critical patent/CN111026880A/zh
Application granted granted Critical
Publication of CN111026880B publication Critical patent/CN111026880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种司法知识图谱构建方法,一种基于联合学习的司法知识图谱构建方法,包括以下步骤:(1)构建刑事司法领域本体,(2)搭建Seq2Seq神经网络模型,(3)提取犯罪情节三元组,(4)存储于图数据库。本发明一种基于联合学习的司法知识图谱构建方法和本体格式切实可行且结构清晰,具有参考价值,并且挖掘了犯罪情节以及量刑结果的关联信息,可以提升量刑建议的精准度,基于建立的司法知识图谱,可以面向司法业务的裁判文书知识推理和智能检索等方面中的应用。

Description

基于联合学习的司法知识图谱构建方法
技术领域
本发明涉及一种司法知识图谱构建方法,更具体地说,涉及一种基于联合学习的司法知识图谱构建方法。
背景技术
知识图谱是用于描述海量实体、实体属性及实体间关系的有效工具。近年来随着互联网的发展,知识图谱得到了广泛的关注,相对于通用领域的知识图谱得到学术界和工业界的大量分析和研究,针对垂直领域的知识图谱构建方法相对较少。知识图谱的基本组成单位是“实体-关系-实体”三元组结构、或“实体-属性-属性值”三元组结构,通过关系将每个实体相互联系起来,构成网状的图谱结构。知识以知识图谱的形式表示,可以将难以理解的信息通过挖掘、分析和可视化的方式对知识及其逻辑关系进行展示,便于用户获取和理解概念及其联系。知识图谱构建方法一般分为自底向上的方法和自顶向下的方法。自底向上的方法流程是从海量的文本数据中提取出相关实体、属性以及实体之间的相互关系获取知识要素,然后通过实体链接、知识合并等过程,消除实体之间的歧义,为得到结构化的知识表示,通过数据驱动的方式自动化构建顶层的本体模式,这也是自底向上的构建方法关键所在,当前的通用领域知识图谱大多采用自底向上的方式进行构建。自顶向下的方法流程是先对知识图谱的本体和数据模式进行定义,然后根据定义的模式将实体等信息填充入知识库中,自顶向下的构建方法多用于垂直领域知识图谱的构建,需要利用一定的领域知识来指导定义本体结构,以及收集数据的领域范围等,然后通过命名实体识别和关系抽取等信息提取技术,实现对垂直领域知识图谱的构建。目前虽已涌现出许多通用领域的知识图谱构建方法,但针对于刑事司法领域的知识图谱构建方法的研究仍处在探索阶段。现在已有的针对司法领域的信息提取方法,多为通过构建规则的方式得到法律文书基本信息,将法律文书的各项内容结构化的表示出来,而没有对案件的情节内容进行更细致的挖掘,也没有提取出犯罪情节以及量刑结果的关联信息,因此无法进行量刑建议、类案推荐等方面的应用。
发明内容
为了克服现有技术中存在的不足,本发明目的是提供一种基于联合学习的司法知识图谱构建方法。该方法基于司法领域的专业知识以及刑事判决书文本内容,利用自顶向下的构建方式,结合主流的神经网络深度学习算法和联合学习算法,对刑事判决书文本中涉及的三元组进行提取,并以图数据库的方式进行存储。
为了实现上述发明目的,解决已有技术中所存在的问题,本发明采取的技术方案是:一种基于联合学习的司法知识图谱构建方法,包括以下步骤:
步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
(a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
(b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
(c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模块,以便后续的调用和读取;
步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
(a)、确定Seq2Seq神经网络模型的整体结构,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
(b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
Figure BDA0002307788010000031
wc=reshape(vc) (2)
Figure BDA0002307788010000032
式中,conv()表示卷积操作,cj表示第j个字的初始化向量,
Figure BDA0002307788010000033
表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc
Figure BDA0002307788010000034
表示第i个词语的初始化向量,
Figure BDA0002307788010000035
表示第i个词语通过对字进行卷积操作得到的字符特征向量,
Figure BDA0002307788010000036
表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
hi=conv(wi) (4)
Figure BDA0002307788010000037
式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量,
Figure BDA0002307788010000038
表示向量拼接操作,
Figure BDA0002307788010000039
表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
(c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
Figure BDA0002307788010000041
式中,LSTM()表示通过单向长短期记忆神经网络的计算,
Figure BDA0002307788010000042
表示第i个词通过基于卷积神经网络的编码层的特征向量,
Figure BDA0002307788010000043
表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量;
(d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
Figure BDA0002307788010000044
式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵,
Figure BDA0002307788010000045
表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
(a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
(b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
(c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
(a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
(b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、***、***和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为***数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为***数字;
(c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。
本发明有益效果是:一种基于联合学习的司法知识图谱构建方法,包括以下步骤:(1)构建刑事司法领域本体,(2)搭建Seq2Seq神经网络模型,(3)提取犯罪情节三元组,(4)存储于图数据库。本发明一种基于联合学习的司法知识图谱构建方法和本体格式切实可行且结构清晰,具有参考价值,并且挖掘了犯罪情节以及量刑结果的关联信息,可以提升量刑建议的精准度,基于建立的司法知识图谱,可以面向司法业务的裁判文书智能检索和类案推荐等方面中的应用。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的Seq2Seq神经网络模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
一种基于联合学习的司法知识图谱构建方法,包括以下步骤:
步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
(a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
(b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
(c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模块,以便后续的调用和读取;
步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
(a)、确定Seq2Seq神经网络模型的整体结构,如图2所示,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
(b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
Figure BDA0002307788010000061
wc=reshape(vc) (2)
Figure BDA0002307788010000071
式中,conv()表示卷积操作,cj表示第j个字的初始化向量,
Figure BDA0002307788010000072
表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc
Figure BDA0002307788010000073
表示第i个词语的初始化向量,
Figure BDA0002307788010000074
表示第i个词语通过对字进行卷积操作得到的字符特征向量,
Figure BDA0002307788010000075
表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
hi=conv(wi) (4)
Figure BDA0002307788010000076
式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量,
Figure BDA0002307788010000077
表示向量拼接操作,
Figure BDA0002307788010000078
表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
(c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
Figure BDA0002307788010000079
式中,LSTM()表示通过单向长短期记忆神经网络的计算,
Figure BDA00023077880100000710
表示第i个词通过基于卷积神经网络的编码层的特征向量,
Figure BDA00023077880100000711
表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量;
(d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
Figure BDA00023077880100000712
式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵,
Figure BDA0002307788010000081
表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
(a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
(b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
(c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
(a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
(b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、***、***和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为***数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为***数字;
(c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。

Claims (1)

1.一种基于联合学习的司法知识图谱构建方法,其特征在于包括以下步骤:
步骤1、构建刑事司法领域本体,根据涉毒类案件刑事判决书的具体内容定义领域本体结构,提取刑事判决书文本中对应内容进行填充,具体包括以下子步骤:
(a)、根据司法专业领域知识以及涉毒类案件刑事判决书文本中阐述的内容,定义司法案例本体结构,定义的司法案例本体结构包括10部分内容,即文书编号、刑事判决书标题、审判地点、审判时间、公诉机关、被告人、犯罪类型、犯罪情节、判决结果及审判依据;
(b)、依照定义的司法案例本体结构,分别为需要抽取的信息通过人工构造规则,并采用迭代评估的方式对已有的人工构造规则进行补充完善,以覆盖每份刑事判决书的全部信息,使用人工构造规则对刑事判决书的各部分内容进行提取;
(c)、将司法案例本体结构采用XML格式进行表示,并采用已提取的刑事判决书中的各部分内容进行填充,并设计针对司法案例本体结构的读取模块,以便后续的调用和读取;
步骤2、搭建Seq2Seq神经网络模型,确定Seq2Seq神经网络模型的模型结构,并初始化Seq2Seq神经网络模型的各项参数,具体包括以下子步骤:
(a)、确定Seq2Seq神经网络模型的整体结构,该模型主要由两个部分构成,即基于卷积神经网络的编码层和基于循环神经网络的解码层,在基于循环神经网络的解码层后置softmax分类层,得到最终标签序列的预测结果;
(b)、搭建基于卷积神经网络(CNN)的编码层,该编码层包含两个卷积神经网络结构,分别用于对字进行编码和对词语进行编码,然后通过向量拼接得到编码后的文本特征表示,基于卷积神经网络的编码层对字进行编码的过程通过公式(1)-公式(3)进行描述:
Figure FDA0002307786000000021
wc=reshape(vc) (2)
Figure FDA0002307786000000022
式中,conv()表示卷积操作,cj表示第j个字的初始化向量,
Figure FDA0002307786000000023
表示第j个字的卷积结果,reshape()表示矩阵形状的转换,将字符级向量表示vc转换为词语级向量表示wc
Figure FDA0002307786000000024
表示第i个词语的初始化向量,
Figure FDA0002307786000000025
表示第i个词语通过对字进行卷积操作得到的字符特征向量,
Figure FDA0002307786000000026
表示向量拼接操作,wi表示第i个词语通过对字进行编码的编码结果;
基于卷积神经网络的编码层对词语进行编码的过程通过公式(4)-公式(5)进行描述:
hi=conv(wi) (4)
Figure FDA0002307786000000027
式中,conv()表示卷积操作,wi表示第i个词语通过对字进行编码的编码结果,hi表示第i个词语通过对词语进行卷积操作得到的词语特征向量,
Figure FDA0002307786000000028
表示向量拼接操作,
Figure FDA0002307786000000029
表示第i个词语通过基于卷积神经网络的编码层得到的特征向量;
(c)、搭建基于循环神经网络(RNN)的解码层,该解码层使用了单向长短期记忆神经网络(LSTM),其输入为子步骤(b)得到的基于卷积神经网络的编码层的特征向量,通过长短期记忆神经网络的解码得到输出特征向量,该过程通过公式(6)进行描述:
Figure FDA00023077860000000210
式中,LSTM()表示通过单向长短期记忆神经网络的计算,
Figure FDA00023077860000000211
表示第i个词通过基于卷积神经网络的编码层的特征向量,
Figure FDA00023077860000000212
表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量;
(d)、对基于循环神经网络的解码层得到的特征向量,通过线性映射操作以及使用softmax函数进行归一化处理,通过公式(7)进行描述:
Figure FDA0002307786000000031
式中,Softmax()表示softmax函数,W表示线性映射的参数矩阵,
Figure FDA0002307786000000032
表示第i个词通过基于循环神经网络(RNN)的解码层的特征向量,yi表示第i个词通过Seq2Seq神经网络模型的输出向量,向量的每个值表示该词语属于每个标签的概率,通过对每个词的输出向量yi进行argmax操作得到最终标签序列的预测结果;
步骤3、提取犯罪情节三元组,针对步骤1中提取的刑事判决书文本,建立Seq2Seq神经网络模型并对其中的犯罪情节三元组进行提取,具体包括以下子步骤:
(a)、收集犯罪情节文本内容并进行标注,依据犯罪情节涉案人和涉案物品之间的关系类型,对相应的实体及其之间的关系进行标注,以构建实验所需数据集并对数据集进行划分,按6:2:2的比例划分出训练集、验证集和测试集;
(b)、对犯罪情节文本数据进行预处理,形成神经网络模型并能够进行向量表示,针对字采用随机初始化的方式进行向量表示,针对词语采用在刑事判决书文本上进行word2vec预训练的词向量来表示,同时在标签策略中结合了联合学习的思想,使得标签中蕴含了实体和关系类型两种信息,以防止将冗余的实体识别出来;
(c)、使用步骤3子步骤(a)中划分好的数据集,通过有监督学习训练步骤2中搭建的Seq2Seq神经网络模型,并利用训练好的Seq2Seq神经网络模型对标签序列进行预测,针对预测标签为实体的元素,通过索引查询词语表,还原其自然语言表示,根据标签信息确定关系类型,最后将刑事判决书文本中的犯罪情节和判决结果以三元组的形式进行提取;
步骤4、存储于图数据库,将与量刑相关的犯罪情节和判决结果三元组存储于图数据库Neo4j中,具体包括以下子步骤:
(a)、读取刑事司法领域本体库内存储的信息,将与步骤3中进行三元组提取的犯罪情节对应的同一案例的判决结果进行提取;
(b)、将当前犯罪嫌疑人的判决结果进行预处理,判决结果分为两部分判决内容,一是刑期相关的刑罚,分为拘役、***、***和死刑,针对具体刑期时长,将汉字数字表达的刑期处理为***数字,以年,月,日的形式进行表示;二是罚金相关的刑罚,以人民币元为单位,同样也将汉字数字表达的罚金处理为***数字;
(c)、将两部分判决内容分别处理为三元组的形式,并同犯罪情节三元组通过犯罪嫌疑人对应起来,形成关联;将犯罪情节三元组和判决结果三元组采用图数据库Neo4j进行存储,考虑存储效率,首先将三元组处理为csv格式,再进行图数据库的导入,形成刑事司法领域涉毒类案件的司法知识图谱。
CN201911254309.2A 2019-12-08 2019-12-08 基于联合学习的司法知识图谱构建方法 Active CN111026880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911254309.2A CN111026880B (zh) 2019-12-08 2019-12-08 基于联合学习的司法知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911254309.2A CN111026880B (zh) 2019-12-08 2019-12-08 基于联合学习的司法知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN111026880A true CN111026880A (zh) 2020-04-17
CN111026880B CN111026880B (zh) 2021-06-08

Family

ID=70208228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911254309.2A Active CN111026880B (zh) 2019-12-08 2019-12-08 基于联合学习的司法知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN111026880B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597352A (zh) * 2020-05-18 2020-08-28 中国人民解放军国防科技大学 结合本体概念和实例的网络空间知识图谱推理方法和装置
CN112417155A (zh) * 2020-11-27 2021-02-26 浙江大学 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN112632223A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 案事件知识图谱构建方法及相关设备
CN113239208A (zh) * 2021-05-06 2021-08-10 广东博维创远科技有限公司 一种基于知识图谱的标注训练模型

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及***
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及***
CN109977237A (zh) * 2019-05-27 2019-07-05 南京擎盾信息科技有限公司 一种面向法律领域的动态法律事件图谱构建方法
US20190332985A1 (en) * 2017-09-22 2019-10-31 1Nteger, Llc Systems and methods for investigating and evaluating financial crime and sanctions-related risks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190332985A1 (en) * 2017-09-22 2019-10-31 1Nteger, Llc Systems and methods for investigating and evaluating financial crime and sanctions-related risks
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及***
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及***
CN109977237A (zh) * 2019-05-27 2019-07-05 南京擎盾信息科技有限公司 一种面向法律领域的动态法律事件图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUODONG LI等: "Combining Domain Knowledge Extraction with Graph Long Short-Term Memory for Learning Classification of Chinese Legal Documents", 《IEEE》 *
陈彦光等: "基于刑事案例的知识图谱构建技术", 《郑州大学学报(理学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597352A (zh) * 2020-05-18 2020-08-28 中国人民解放军国防科技大学 结合本体概念和实例的网络空间知识图谱推理方法和装置
CN111597352B (zh) * 2020-05-18 2023-05-09 中国人民解放军国防科技大学 结合本体概念和实例的网络空间知识图谱推理方法和装置
CN112417155A (zh) * 2020-11-27 2021-02-26 浙江大学 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN112632223A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 案事件知识图谱构建方法及相关设备
CN112632223B (zh) * 2020-12-29 2023-01-20 天津汇智星源信息技术有限公司 案事件知识图谱构建方法及相关设备
CN113239208A (zh) * 2021-05-06 2021-08-10 广东博维创远科技有限公司 一种基于知识图谱的标注训练模型

Also Published As

Publication number Publication date
CN111026880B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN111026880B (zh) 基于联合学习的司法知识图谱构建方法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和***及设备
CN108182295A (zh) 一种企业知识图谱属性抽取方法及***
CN107871158A (zh) 一种结合序列文本信息的知识图谱表示学习方法及装置
CN113722490B (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN112464669B (zh) 股票实体词消歧方法、计算机设备及存储介质
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN112182248A (zh) 一种电价的关键政策的统计方法
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN116383399A (zh) 一种事件舆情风险预测方法及***
CN115292568B (zh) 一种基于联合模型的民生新闻事件抽取方法
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN113505222A (zh) 一种基于文本循环神经网络的政务文本分类方法及***
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及***
CN113064967A (zh) 基于深度迁移网络的投诉举报可信度分析方法
CN117033626A (zh) 一种文本审核方法、装置、设备及存储介质
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN115204140A (zh) 一种基于注意力机制与知识图谱的法律条文预测方法
CN108875591A (zh) 文本图片匹配分析方法、装置、计算机设备和存储介质
CN111046934B (zh) 一种swift报文软条款识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant