CN111563374B

CN111563374B - 一种基于司法裁判文书的人员社交关系抽取方法

Info

Publication number: CN111563374B
Application number: CN202010205874.6A
Authority: CN
Inventors: 万怀宇; 林友芳; 武志昊; 韩升; 王晶; 张硕
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2022-08-19
Anticipated expiration: 2040-03-23
Also published as: CN111563374A

Abstract

本发明提供了一种基于司法裁判文书的人员社交关系抽取方法，用以解决司法裁判文书中人员社交关系数据处理的问题。所述基于司法裁判文书的人员社交关系抽取方法，对裁判文书进行数据清洗、中文分词以及去停用词，构建基于预训练语言模型的词向量学习模型，再分别结合相关实体关联关系和实体属性的抽取裁判文书特征并进行融合，构建关系抽取模型，抽取裁判文书中相关人员的社交关系。本发明充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息，支持司法工作人员理清裁判文书中人员之间的社交关系，挖掘涉案人员潜在的社交关系，有助于法务工作者进行案件相关人员的社交关系发现，减少了人工调查的成本。

Description

一种基于司法裁判文书的人员社交关系抽取方法

技术领域

本发明属于司法数据处理领域，具体涉及一种基于司法裁判文书的人员社交关系抽取方法。

背景技术

随着计算机技术的发展，数据处理及信息化已渗透进每一个领域。在司法信息化改革中，如何利用科学信息化技术辅助司法工作人员从海量的司法裁判文书、案件卷宗等文本资料中进行信息抽取和整理，已经成为司法信息化建设中的一个研究热点。司法裁判文书记载了人民法院审理过程和结果，其中包含大量的相关人员以及机构等司法实体。将司法裁判文书中司法实体之间复杂的社交关系抽取出来，有助于司法人员快速了解涉案人员及机构之间的关系；同时依据司法裁判文书中的相关信息以及其他背景信息，挖掘涉案人员潜在的社交关系，有助于司法工作者理清案件事实。现有技术中，尚无专门针对人员社交关系的数据处理。

发明内容

本发明实施例提供了一种基于司法裁判文书的人员社交关系抽取方法，基于预训练语言模型的词向量表示模型，提升模型的泛化性能以及复用性，提高人员社交关系抽取的准确率和召回率，支持司法工作人员快速理清裁判文书中人员之间复杂的社交关系，挖掘涉案人潜在的社交关系，为法院等司法机构减少人工调查的成本，节省人力物力，推动司法信息化的建设。

为了实现上述目的，本发明采用的技术方案如下：

本发明实施例提供了一种基于司法裁判文书的人员社交关系抽取方法，所述抽取方法包括如下步骤：

步骤S1，对所述司法裁判文书中的文本信息进行数据清洗、中文分词，并去掉停用词，得到分词后的裁判文书数据；

步骤S2，基于所述分词后的裁判文书数据，构建基于预训练语言模型的词向量学习模型；

步骤S3，采用所述裁判文书的词向量学习模型，表示司法实体共现网络中的每个实体，结合实体关联关系，抽取第一裁判文书特征；

步骤S4，结合实体属性，抽取第二裁判文书特征；

步骤S5，基于所述第一裁判文书特征和第二裁判文书特征，构建人员社交关系抽取模型；

步骤S6，采用所述人员社交关系抽取模型，对司法裁判文书中的人员社交关系进行抽取。

作为本发明的一个优选实施例，所述步骤S1包括：

步骤S101，对司法裁判文书中的文本信息进行数据清洗与存储；

步骤S102，基于清洗后的司法裁判文书数据构建法律专业词库和停用词表。

作为本发明的一个优选实施例，所述数据清洗，进一步为，删除裁判文书中内容为空或者描述字段过少、重复的文本数据；检测并修正裁判文书中的术语缩写、常见拼写错误；使用空格替换裁判文书中的全部特殊符号。

作为本发明的一个优选实施例，所述步骤S2包括：

步骤S201，对所述分词后的裁判文书进行句段分割，得到裁判文书编号、句子编号以及句子内容的三元组；

步骤S202，对所述三元组中的句子内容进行预处理，得到训练句子语料；

步骤S203，根据所述训练句子语料对预训练语言模型进行参数调整，得到词向量学习模型。

作为本发明的一个优选实施例，所述步骤S201中的句段分割，进一步为，设定总共包含n篇裁判文书，d_i表示第i篇裁判文书，裁判文书集合表示为：D_n＝{d₁，d₂，......，d_i，......，d_n}；对每篇裁判文书d_i，按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分；对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割；按照是否包含司法实体对分割后的句子进行筛选，包含司法实体则保留句子，不包含司法实体则删除句子；将保留的句子与裁判文书编号进行拼接，得到裁判文书编号、句子编号以及句子内容的三元组。

作为本发明的一个优选实施例，所述步骤S3包括：

步骤S301，基于所述裁判文书的词向量学习模型构建与表示裁判文书共现网络，得到实体对的全局上下文特征；

步骤S302，对所述实体对的全局上下文特征进行特征表示；

步骤S303，基于所述上下文特征表示提取裁判文书中句子级语义特征作为第一裁判文书特征。作为本发明的一个优选实施例，所述步骤S301中裁判文书共现网络的构建与表示，进一步为，从裁判文书的全部句子中抽取出任意两个实体在同一个句子中的共同出现关系，作为所有的实体共现关系，形成一个完整的实体共现网络；将所述司法实体共现网络中的每个实体都使用所述词向量学习模型表示为嵌入向量

作为本发明的一个优选实施例，所述步骤S302中对分词后的裁判文书进行上下文特征表示，进一步为，通过引入注意力机制为每个实体计算其各个相邻实体的不同权重，使用相邻实体的加权词向量和来表示该实体在共现网络中的上下文特征f_i ^c；计算公式如下：

其中，

为实体e_i的第j个相邻实体e_ij的d维向量，g_ij为该相邻实体对应的关系权重；

通过注意力机制为每个相邻实体e_ij计算其相对于实体e_i的关系重要程度，计算公式如下：

其中，

为实体e_i的d维向量，W₁和b₁分别为参数矩阵和偏置；

对a_ij进行归一化，使得任意实体的所有相邻实体的权重和为1，从而得到邻居实体的关系权重如下：

为每个实体e_i计算语料集特征向量f_i ^c，则句子中的每个实体得到两个语料级特征

和

实体对语料级特征表示如下：

其中，W₁和b₁分别为参数矩阵和偏置。

作为本发明的一个优选实施例，所述步骤S4进一步包括：

步骤S401，抽取裁判文书中的实体属性特征；

步骤S402，基于所述实体属性，抽取裁判文书中的实体特征作为第二裁判文书特征。

作为本发明的一个优选实施例，所述步骤S5进一步包括：

步骤S501，融合第一裁判文书特征和第二裁判文书特征，得到分类器的输入数据；

步骤S502，将所述分类器的输入数据输入分类器，对裁判文书中的实体关系进行分类。

本发明具有如下有益效果：

本发明实施例基于司法裁判文书的人员社交关系抽取方法及***，基于预训练语言模型的词向量表示模型，提升了模型的泛化性能以及复用性；结合实体关联关系的裁判文书特征，提高了相关人员关系抽取的召回率；基于实体属性的裁判文书特征，提高了相关人员关系抽取的准确率；结合上述两种裁判文书特征抽取方法构建关系抽取模型，辅助法务工作者进行案件相关人员的社交关系发现，支持司法工作人员理清裁判文书中人员之间社交关系，并挖掘涉案人员潜在的社交关系，减少人工调查的成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于司法裁判文书的人员社交关系抽取方法流程图。

具体实施方式

下面通过参考示范性实施例，对本发明技术问题、技术方案和优点进行详细阐明。以下所述示范性实施例仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非在这里进行定义，否则不会用理想化或过于正式的含义来解释。

本发明提出了一种基于司法裁判文书的人员社交关系抽取方法，对裁判文书中的文本信息进行数据清洗、中文分词以及去停用词，基于预训练语言模型的词向量学习模型，再基于相关实体关联关系的抽取裁判文书特征，并结合实体属性的抽取裁判文书特征，以上述两种裁判文书特征，构建人员社交关系抽取模型，抽取裁判文书中相关人员的社交关系。本发明充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息，以支持司法工作人员快速理清裁判文书中人员之间复杂的社交关系，挖掘涉案人潜在的社交关系，有助于法务工作者进行案件相关人员的社交关系发现，为人民法院等司法机构减少人工调查的成本，节省人力物力，在智慧司法的建设中具有重要意义。

为便于对本发明实施方式的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明技术方案的限定。

实施例

本实施例提供了一种基于司法裁判文书的人员社交关系抽取方法。图1所示为本实施例所述人员社交关系抽取方法流程示意图。

本实施例以以某中级人民法院提供的真实数据集为例，其中包括该法院审理的2018年司法财产保全相关的2,800余桩案件，共涉及7,500余篇司法裁判文书，包含“保全裁定书”，“解除裁定书”，“撤回保全申请”，“审理报告”等多种裁判文书形式。研究目标是从多样化的司法裁判文书中，抽取出相关人员的社交关系，形成案件相关人员的社交网络，为案件的后续智能化案情分析奠定基础。

如图1所示，所述基于司法裁判文书的人员社交关系抽取方法包括如下步骤：

步骤S1，对所述司法裁判文书中的文本信息进行数据清洗、中文分词，并去掉停用词，得到分词后的裁判文书数据。

进一步地，本步骤包括：

步骤S101，对司法裁判文书中的文本信息进行数据清洗与存储。

优选地，本步骤使用Spark分布式计算对所述司法裁判文书中的文本信息进行数据清洗，并采用分布式文件***HDFS存储清洗后的司法裁判文书。所述数据清洗，进一步为，删除裁判文书中内容为空或者描述字段过少、重复的文本数据；检测并修正裁判文书中的术语缩写、常见拼写错误；使用空格替换裁判文书中的全部特殊符号。所述存储，存储格式为裁判文书序号、裁判文书内容两部分以“/001”分割，以RDD的形式存储于HDFS中。

本步骤首先对通用司法领域词库进行词汇的人工删除、合并、添加以及替换，形成自定义裁判文书专业词库；再对通用停用词表进行停用词的人工删除、添加以及替换，形成自定义停用词表；采用THULAC(THU Lexical Analyzer for Chinese，THULAC)中文分词工具，导入自定义裁判文书专业词库和自定义停用词表，对所述清洗后的司法裁判文书数据进行中文分词并去除停用词，得到分词后的裁判文书数据，并存储到HDFS中。这里的存储，存储格式为裁判文书序号、裁判文书内容两部分以“/001”分割，以RDD的形式存储于HDFS中。

步骤S2，基于所述分词后的裁判文书数据，构建基于预训练语言模型的词向量学习模型。

进一步地，本步骤包括：

步骤S201，对所述分词后的裁判文书进行句段分割，得到裁判文书编号、句子编号以及句子内容的三元组。

本步骤的句段分割，设定总共包含n篇裁判文书，d_i表示第i篇裁判文书，裁判文书集合表示为：D_n＝{d₁，d₂，......，d_i，......，d_n}；对每篇裁判文书d_i，按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分；对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割；按照是否包含司法实体对分割后的句子进行筛选，包含司法实体则保留句子，不包含司法实体则删除句子；将保留的句子与裁判文书编号进行拼接，得到裁判文书编号、句子编号以及句子内容的三元组，以“/001”分割，以RDD的形式存储于HDFS中。

步骤S202，对所述三元组中的句子内容进行预处理，得到训练句子语料；。

本步骤中，所述预处理，首先使用“#”和“$”标识出句子内容中的头尾实体；在句首添加句子分类标识符“[CLS]”；在句末添加句子结束标识符“[SEP]”。所得到的所述训练句子语料中，包含有目标实体对。

本步骤所述预训练语言模型为BERT模型；所述参数调整，使用关系分类任务作为下游任务，将裁判文书中的经过预处理的句子输入BERT模型，将分类标识“[CLS]”的标识作为整个句子的向量表示输入softmax分类器进行分类，计算分类结果的交叉熵损失反向传播，对BERT模型的部分参数进行微调，直至模型收敛；保存微调参数之后的BERT模型作为裁判文书词向量学习模型。优选地，所述部分参数为模型网络中的参数，至少包括：Transformer中的self-attention中线性变换涉及参数以及全连接层feedforward参数。

步骤S3，采用所述裁判文书的词向量学习模型，表示司法实体共现网络中的每个实体，结合实体关联关系，抽取第一裁判文书特征。

本步骤进一步包括：

步骤S301，基于所述裁判文书的词向量学习模型构建与表示裁判文书共现网络，得到实体对的全局上下文特征。

本步骤中，实体共现网络由实体共现关系构成，所述实体共现关系定义为任意两个实体在同一个句子中的共同出现关系；从整个裁判文书的全部句子中抽取出所有的实体共现关系，形成一个完整的实体共现网络。将所述司法实体共现网络中的每个实体都使用所述词向量学习模型表示为嵌入向量

对于网络中任意实体节点e_i，设其相应的邻居集合为N_i＝{e_i1，e_i2，......，e_ij}。

步骤S302，对所述实体对的全局上下文特征进行特征表示。

本步骤中，通过引入注意力机制为每个实体计算其各个相邻实体的不同权重，使用相邻实体的加权词向量和来表示该实体在共现网络中的上下文特征f_i ^c。计算公式如下：

其中，

为实体e_i的第j个相邻实体e_ij的d维向量，g_ij为该相邻实体对应的关系权重。通过注意力机制为每个相邻实体e_ij计算其相对于实体e_i的关系重要程度，计算公式如下：

其中，

为实体e_i的d维向量，W₁和b₁分别为参数矩阵和偏置。对a_ij进行归一化，使得任意实体的所有相邻实体的权重和为1，从而得到邻居实体的关系权重如下：

为每个实体e_i计算语料集特征向量f_i ^c，则句子中的每个实体将会得到两个语料级特征

和

则实体对语料级特征表示如下：

其中，W₁和b₁分别为参数矩阵和偏置。

步骤S303，基于所述上下文特征表示提取裁判文书中句子级语义特征作为第一裁判文书特征。

本步骤使用双向门控循环单元(bi-GRU)对输入语料进行语义信息提取。对句子s＝{w₁，w₂，......，w_n}，用

表示一个句子的所有词向量组成的矩阵，将S输入bi-GRU获得：

则目标实体对的句子特征由bi-GRU输入通过最大池化层得到，如下：

f^s＝maxPool(h₁，h₂，......，h_n) (7)

其中，

maxPool为最大池化操作。

步骤S4，结合实体属性，抽取第二裁判文书特征。

本步骤具体包括：

步骤S401，抽取裁判文书中的实体属性特征。

本步骤利用司法实体的半结构化描述信息来提供背景信息。对句子s中的实体e_i，从知识库D中查找实体e_i的属性集合A_i＝{A_i1，A_i2，......，A_im}，然后使用S2中所述方法将A_i中的每个属性A_ij的属性名K_ij和属性值V_ij转化为向量；对于实体e_i，我们定义其属性向量的集合KV_i＝{KV_i1，KV_i2，......，KV_im}，其中第j个属性向量可以表示为KV_ij＝[K_ij；V_ij]；

本步骤中，对于实体e_i有属性向量KV_ij，首先将属性值向量V_ij通过最大池化操作捕捉重要特征

接着，将属性名向量K_ij与S3中的句子向量f^s之间通过点乘操作来计算其对该句子中实体关系的重要程度，计算公式如下：

a_ij＝tanh(K_ij(W₁(f^s)^T)) (8)

其中W₁为参数矩阵；得到属性的权重分数之后对其进行归一化，最终各属性的权重表示g_ij和实体特征

如下：

步骤S5，基于所述第一裁判文书特征和第二裁判文书特征，构建人员社交关系抽取模型。

进一步地，本步骤包括：

步骤S501，融合第一裁判文书特征和第二裁判文书特征，得到分类器的输入数据。

本步骤中，将句子级语义特征f^s与语料级环境特征f^c进行拼接后输入全连接层，得到语义融合特征f，计算公式如下：

f＝ReLU(W₃[f^s；f^c]+b₃) (11)

其中ReLU为激活函数，W₃和b₃分别为参数矩阵和偏置；本发明使用语义融合特征和实体特征作为最终分类器的输入。

本步骤使用softmax分类器为裁判文书中的目标实体对预测关系类型

将所述分类器的输入数据输入分类器，计算关系标签概率分布，计算公式如下：

其中W₄和W₅为参数矩阵；模型的损失函数定义为交叉熵损失函数：

其中m为语料集中句子数目，r为关系标签类别数，t_ij表示真实标签的one-hot向量矩阵，θ表示模型的所有参数。

由以上技术方案可以看出，本发明实施例所提供的基于司法裁判文书的人员社交关系抽取方法，通过设计并实现基于预训练语言模型的词向量表示模型，提升了模型的泛化性能以及复用性；通过使用结合实体关联关系的裁判文书特征抽取方法，提高了相关人员关系抽取的召回率；通过使用基于实体属性的裁判文书特征抽取方法，提高了相关人员关系抽取的准确率；结合上述两种裁判文书特征抽取方法构建的关系抽取模型，解决了裁判文书中相关人员关系抽取不准确的问题。充分挖掘裁判文书数据中的实体关联关系以及司法实体的背景信息，有助于法务工作者进行案件相关人员的社交关系发现，在智慧司法的建设中具有重要意义。

以上所述是本发明的优选实施方式，应当指出，本发明并不受限于以上所公开的示范性实施例，说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，在本发明揭露的技术范围做出的若干改进和润饰、可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于司法裁判文书的人员社交关系抽取方法，其特征在于，所述抽取方法包括如下步骤：

步骤S3，采用所述裁判文书的词向量学习模型，表示司法实体共现网络中的每个实体，结合实体关联关系，提取裁判文书中的句子级语义特征f^s作为第一裁判文书特征；

步骤S4，结合实体属性，抽取第二裁判文书特征；具体包括：

步骤S401，抽取裁判文书中的实体属性特征；对句子s中的实体e_i，从知识库D中查找实体e_i的属性集合A_i＝{A_i1，A_i2，......，A_im}，然后将A_i中的每个属性A_ij的属性名K_ij和属性值V_ij转化为向量；对于实体e_i，定义其属性向量的集合KV_i＝{KV_i1，KV_i2，......，KV_im}，其中第j个属性向量表示为KV_ij＝[K_ij；V_ij]；

步骤S402，基于所述实体属性，抽取裁判文书中的实体特征作为第二裁判文书特征；对于实体e_i有属性向量KV_ij，首先将属性值向量V_ij通过最大池化操作捕捉重要特征

接着，将属性名向量K_ij与S3中的句子级语义特征f^s之间通过点乘操作来计算其对该句子中实体关系的重要程度，计算公式如下：

a_ij＝tanh(K_ij(W₁(f^s)^T)) (8)

如下：

步骤S5，基于所述第一裁判文书特征和第二裁判文书特征，构建人员社交关系抽取模型；具体包括：

步骤S501，融合第一裁判文书特征和第二裁判文书特征，首先，将句子级语义特征f^s与语料级环境特征进行拼接后输入全连接层，得到语义融合特征；使用语义融合特征和实体特征作为最终分类器的输入；

步骤S502，将分类器的输入数据输入分类器，对裁判文书中的实体关系进行分类；

2.根据权利要求1所述的人员社交关系抽取方法，其特征在于，所述步骤S1包括：

3.根据权利要求2所述的人员社交关系抽取方法，其特征在于，所述数据清洗，进一步为，删除裁判文书中内容为空或者描述字段过少、重复的文本数据；检测并修正裁判文书中的术语缩写、常见拼写错误；使用空格替换裁判文书中的全部特殊符号。

4.根据权利要求1所述的人员社交关系抽取方法，其特征在于，所述步骤S2包括：

5.根据权利要求4所述的人员社交关系抽取方法，其特征在于，所述步骤S201中的句段分割，进一步为，设定总共包含n篇裁判文书，d_i表示第i篇裁判文书，裁判文书集合表示为：D_n＝{d₁，d₂，......，d_i，......，d_n}；对每篇裁判文书d_i，按“/001”进行分割获取裁判文书编号以及裁判文书内容两部分；对裁判文书内容按照句号、感叹号、问号为句子结束标识进行分割；按照是否包含司法实体对分割后的句子进行筛选，包含司法实体则保留句子，不包含司法实体则删除句子；将保留的句子与裁判文书编号进行拼接，得到裁判文书编号、句子编号以及句子内容的三元组。

6.根据权利要求1所述的人员社交关系抽取方法，其特征在于，所述步骤S3包括：

步骤S302，对所述实体对的全局上下文特征进行特征表示；

7.根据权利要求6所述的人员社交关系抽取方法，其特征在于，所述步骤S301中裁判文书共现网络的构建与表示，进一步为，从裁判文书的全部句子中抽取出任意两个实体在同一个句子中的共同出现关系，作为所有的实体共现关系，形成一个完整的实体共现网络；将所述司法实体共现网络中的每个实体都使用所述词向量学习模型表示为嵌入向量