CN115017144A

CN115017144A - 一种基于图神经网络的司法文书案情要素实体识别方法

Info

Publication number: CN115017144A
Application number: CN202210598184.0A
Authority: CN
Inventors: 白雄文; 惠欣恒; 陈炫言; 王红艳; 郭旭东
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-06
Anticipated expiration: 2042-05-30
Also published as: CN115017144B

Abstract

本发明涉及一种基于图神经网络的司法文书案情要素实体识别方法，属于自然语言处理及自然语言理解技术领域。本发明根据文书类型、案由罪名选择对应的规则模板；对文书数据清洗，去除多余空行以及非法字符，完成半角全角符号转换；使用模板对检务文书进行段落划分；对包含案情的审理查明段落构建多路径有向无环图结构，输入图神经网络学习节点表示；将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对；对提取的识别结果按照所需格式生成结构化数据，提高办公效率，促进检务工作高质量发展。

Description

一种基于图神经网络的司法文书案情要素实体识别方法

技术领域

本发明属于自然语言处理及自然语言理解技术领域，具体涉及一种基于图神经网络的司法文书案情要素实体识别方法。

背景技术

为了促进新时代法律监督工作，高质量发展检察工作，引领社会法治意识，维护国家安全和社会大局稳定，服务保障经济社会高质量发展。根据“智慧检务”工程的设计和实施，依靠互联网、大数据、人工智能等技术积极推动“智慧”司法进程，以高度信息化的方式支持审判工作和司法管理，对司法领域的司法信息开展抽取、融合、识别、分析、摘要、检索等应用工作势在必行。

检务工作中，各类业务文书具有半结构化的文本结构，传统的信息提取工作基于人工归纳的抽取规则进行信息抽取，耗费人力物力且准确率低，同时抽取规则难以复用。以规则制定的模板在文本内容匹配的情况下，可得到正确结果；当出现内容复杂，或超出已有规则的情况下，容易出现错误匹配的情况。针对检务文书的案情关系、诸多当事人等复杂情况，传统规则的解析难以保证准确率；同时部分定制规则包含了大量已有的半结构化的文本结构信息。图神经网络结构作为非欧数据的表示结构，适合将非规则化的案情信息中实体信息进行表达学习。

因此本发明提出一种基于图神经网络的司法文书案情要素实体识别方法，在基于规则的基础上，使用图神经网络进行实体信息边界校对，同时使用基于注意力机制的神经网络对图神经网络结果进行输出序列的次序校对，在满足各案情信息的实体识别同时，保证实体识别的结果准确率。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种基于图神经网络的司法文书案情要素实体识别方法，以解决针对检务文书的案情关系、诸多当事人等复杂情况，传统规则的解析难以保证准确率的问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种基于图神经网络的司法文书案情要素实体识别方法，该方法包括如下步骤：

S1、根据文书类型、案由罪名选择对应的规则模板，规则模板包括依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则；

S2、对文书数据清洗，将文书中的多余空行以及非法字符去除，完成清洗工作；

S3、使用S1选择的规则模板中的关键字对检务文书进行段落划分，提取出包含案情的审理查明段落；

S4、使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别，根据实体识别的结果对文书数据中的命名实体及实体类型进行标注；

S5、对S3提取的审理查明段落进行图神经网络的节点表示的构建，根据S4标注的实体类型建立命名实体的有向边的连接，根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接，使用图神经网络来更新图节点的编码，更新步骤为使用邻接矩阵和预训练字向量对节点的编码进行迭代更新，将更新后得到的图节点隐状态向量表示作为图神经网络的节点表示的最终状态；

S6、将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束，保证命名实体识别结果的开头是“B”而不是“I”或者“0”，以及同类型的“I”排在同类型的“B”之后，得到命名实体的最终识别结果；

S7、对S6步骤中得到的命名实体的最终识别结果按照所需格式要求生成结构化数据。

(三)有益效果

本发明提出一种基于图神经网络的司法文书案情要素实体识别方法，本发明是一种基于图神经网络的司法文书案情要素实体识别方法，旨在将非结构化的司法文书通过图神经网络进行非欧空间转换后，利用图神经网络的节点表示进行命名实体的表示学习，并对识别结果进行结构化储存，为检务工作提供非数转数的数据支持，同时为司法文书的智能化检索、专项统计等工作提供底层数据，方便加工处理，提供办公效率。

本发明提出一种基于图神经网络的司法文书案情要素实体识别方法，在基于规则的基础上，使用图神经网络进行实体信息边界校对，同时使用基于注意力机制的神经网络对图神经网络结果进行输出序列的次序校对，在满足各案情信息的实体识别同时，保证实体识别的结果准确率。

附图说明

图1为本发明基于图神经网络的实体识别模型数据流图；

图2为transformer encoder模型结构图；

图3为基于图神经网络的司法文书案情要素实体识别流程图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明涉及一种基于图神经网络的司法文书案情要素实体识别方法，包括以下步骤：一、根据文书类型、案由罪名选择对应的规则模板；二、对文书数据清洗，去除多余空行以及非法字符，完成半角全角符号转换；三、使用模板对检务文书进行段落划分；四、对包含案情的审理查明段落构建多路径有向无环图结构，输入图神经网络学习节点表示；五、将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对；六、对提取的识别结果按照所需格式生成结构化数据，提高办公效率，促进检务工作高质量发展。

本发明提供了一种基于图神经网络的司法文书案情信息实体识别方法，实体识别使用BIO标注方式，B表示命名实体的开始，I表示命名实体的延续，O表示非命名实体词，流程包括：

步骤S1：根据文书类型、案由罪名选择对应的规则模板，规则模板包括依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则。其中文本分类的关键字以危险驾驶罪的判决书为例：'(审理查明|检察院指控|公诉机关指控)'；人工归纳的字典以品牌字典为例包含具体品牌名称本田及实体类型vehicle：本田brandvehicle；根据归纳的字典及正则表达式制定的实体识别规则以机动车的实体识别规则为例：[brand].*？商务车，规则中的[brand]为定义的机动车品牌字典，如比亚迪吉利丰田本田等，结合之后的正则表达式，可以匹配出本田商务车等实体类型标签为机动车类型的命名实体；

步骤S2：对文书数据清洗，将文书中的多余空行以及非法字符去除，完成半角全角符号转换等清洗工作；

步骤S3：使用S1选择的规则模板中的关键字对检务文书进行段落划分，提取出包含案情的审理查明段落；

步骤S4:使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别，根据实体识别的结果对文书数据中的命名实体及实体类型进行标注；

步骤S5：对S3提取的审理查明段落进行图神经网络的节点表示的构建，根据S4标注的实体类型建立命名实体的有向边的连接，根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接，使用图神经网络来更新图节点的编码，更新步骤为使用邻接矩阵和预训练字向量对节点的编码进行迭代更新，将更新后得到的图节点隐状态向量表示作为图神经网络的节点表示的最终状态；

步骤S6:将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束，保证命名实体识别结果的开头应该是“B”而不是“I”或者“O”，以及同类型的“I”需要排在同类型的“B”之后，得到命名实体的最终识别结果；

步骤S7:对S6步骤中得到的命名实体的最终识别结果按照所需格式要求生成结构化数据，例如交通肇事罪的判决书中被告相关信息，按照要求形成，如下所示。

根据本发明的司法文书案情要素实体识别方法的流程步骤，上述流程包括图神经网络、注意力机制神经网络和条件随机场。其中图神经网络包括输入层、嵌入层和输出层。注意力机制神经网络包括输入层、嵌入层、基于自注意力机制的堆叠注意力层和输出层。

本发明使用的图神经网络为多路径有向无环图，图结构中包含依次表示文本中每个字符：

的图节点(下文简称为图表示节点，为与文中另一类图节点进行区分)。各图表示节点在提取实体识别的字符特征时，将自身节点的特征信息与相邻节点特征、相邻边的特征进行合并，使用GRU神经网络进行信息的门控操作，选择控制所需的特征表达信息。

具体的计算步骤如下：

S1:根据文书类型、案由罪名选择对应的规则模板，规则模板包含依据文本类型和案由制定的文本分类关键字、人工归纳的字典、根据归纳的字典及正则表达式制定的实体识别规则。其中文本分类的关键字以危险驾驶罪的判决书为例：'(审理查明|检察院指控|公诉机关指控)'；人工归纳的字典以品牌字典为例包含具体品牌名称本田及实体类型vehicle：本田brandvehicle；根据归纳的字典及正则表达式制定的实体识别规则以机动车的实体识别规则为例：[brand].*？商务车，规则中的[brand]为定义的机动车品牌字典，如比亚迪吉利丰田本田等，结合之后的正则表达式，可以匹配出本田商务车等实体类型标签为机动车类型的命名实体；

S2：对文书数据清洗，将文书中的多余空行以及非法字符去除，完成半角全角符号转换等清洗工作；

S3：使用S1选择的规则模板中的关键字对检务文书进行段落划分，提取出包含案情的审理查明段落；

S4:使用S1规则模板中的字典及实体识别规则对S3提取的审理查明段落进行实体识别，根据实体识别的结果对文书数据中的命名实体及实体类型进行标注，实体类型如PER、LOC、ORG、VEHICLE……；

S5：将S3提取的审理查明段落，按照文书内容依次对每个字符建立对应的图表示节点，依次对每个汉字节点使用

作为图结构中的图表示节点的特征表示；

S6：根据S4步骤中取得的实体识别结果及实体类型，在各实体的起始节点之前和结束节点之后建立指向节点(下文简称为图指向节点)，例如

并在图指向节点与对应的图表示节点之间建立从指向起始节点至指向结束节点的有向边，例如

和

是实体PER的起始节点和结束节点，

表示指向起始节点的图指向节点，

表示指向结束节点的图指向节点。因此建立图指向节点后，实体PER包含的有向边为：

通过对每个实体类型建立图指向节点，构建多路径有向无环图结构。

S6：使用表达式G表示S5建立的多路径有向无环图结构，：

G∶＝(V，E，La)

其中V代表节点集合，E代表边的集合，La代表标签的集合。对于由n个汉字组成的输入句子和m个基于模板的实体识别结果，其最终的节点集合V＝V_c∪V_s∪V_e，这里V_c代表每个图表示节点的节点编码，而对于某一个基于模板的实体识别结果g，使用图指向节点

和

在图结构中来表示指向命名实体g的开始节点和结束节点。V_s、V_e表示这图指向节点集合

在集合E中的每个边都有一个标签来表示节点之间的连接类型，对于非实体的节点的相邻边的标签代表了节点间的连接关系，对于实体中的节点的相邻边的标签代表了实体类型。因此标签集合

这里标签l_c表示了相邻图表示节点之间的标签集合，这个信息由模型用来获取文本的词序信息。同时标签集合

代表了所有用来描述基于模板的识别结果g的有向边信息。

S7：对于上述的图结构G，使用图神经网络GGNN来更新图表示节点的编码，并使用GRU网络进行训练，学习节点表达。GGNN网络具有捕获相邻文本信息的能力，适用于司法文书中的命名实体识别任务；

GGNN网络计算过程为：首先，根据长短期记忆神经网络(LSTM)结构对司法文书和基于模板的实体识别结果进行预训练，预训练过程为：以单字为粒度对司法文书使用通用的LSTM网络进行预训练得到W^c(单字向量)；以相邻字为粒度对司法文书使用通用的LSTM网络进行预训练得到W^bi(二元字向量)；以规则模板对司法文书进行实体识别的结果为粒度对司法文书使用通用的LSTM网络进行预训练得到W^g(基于模板的词嵌入向量)。根据公式E1建立每个节点对应的初始化隐状态向量，当节点是图指向节点时使用基于模板的词嵌入向量作为初始化隐状态向量，当节点为图表示节点时使用单字向量与二元字向量的拼接作为初始化隐状态向量：

公式E1：

接着，构建具有图结构信息的邻接矩阵A，矩阵A表示了节点间的连接关系，如公式E2所示。矩阵中的参数对应了图的有向边信息，以不包含实体的有向图邻接矩阵M_α为例，M_α表示一个由6个汉字组成的不包含实体的语句，因此构建邻接矩阵如下所示，仅对角线及其向前一位的位置处有连接关系；以包含实体的有向图邻接矩阵M_β为例，M_β表示一个由6个汉字组成的包含实体的语句，因此不仅有对角线及其向前一位的位置处有连接关系，还在实体所处的部分也保持连接关系。

以上述方式，通过将语句中实体的信息以邻接矩阵的形式进行构建，使得图结构中包含了S4步骤中取得的实体识别的状态信息，其中基于实体L构建的邻接矩阵A_L表示由第L个实体所构建的邻接矩阵，公式E2中的L表示基于模板的识别结果的实体总数，例如文本中包含5个基于模板识别得到的实体，则L为5，针对S4步骤中取得的实体识别结果中的各实体分别构建邻接矩阵A₁，...，A_L，然后将各邻接矩阵进行拼接，得到包含多实体路径信息的图结构邻接矩阵A。

公式E2：A＝[A₁，...，A_L]

完成图表示节点、图指向节点和邻接矩阵构建，使用GRU网络对图表示节点的隐状态进行更新，更新过程如下：

公式E3：

公式E4：

公式E5：

公式E6：

公式E7：

公式E8：

公式E3为上一时刻的所有图表示节点的隐状态向量表示集合H。

公式E4为根据图表示节点的隐状态向量表示H、基于模板的词嵌入

和邻接矩阵A中对应节点v的相邻边信息(A_v是行向量，代表第v个节点在邻接矩阵A中的第v行，即与节点v相连的边信息)计算通过相邻节点传播的图表示节点信息，b是偏移量。

公式E5为GRU网络的控制门的权重

参数更新过程：使用GRU网络的控制门的计算机制，利用图表示节点的节点信息

和上一时刻的图表示节点的隐状态向量表示

对控制门的可学习参数W^z、U^z进行更新，σ是Logistic函数。

公式E6为GRU网络的更新门的权重

参数更新过程：使用GRU网络的更新门的计算机制，利用图表示节点的节点信息

和上一时刻的图表示节点的隐状态向量表示

对更新门的可学习参数W^r、U^r进行更新，σ是Logistic函数。

公式E7为当前时刻的图表示节点隐状态的候选状态表示向量

的计算过程：利用当前时刻的图表示节点信息

更新门的权重

和上一时刻的图表示节点的隐状态向量表示

对候选状态的可学习参数W^h、U^h进行更新。

公式E8为当前时刻的图表示节点的隐状态

计算过程：通过控制门的权重

上一时刻的图表示节点的隐状态向量表示

和当前时刻的图表示节点隐状态的候选状态表示向量

对当前时刻的图表示节点的隐状态

进行更新。

通过上述步骤不断迭代，经过T个循环更新后，得到最终的图表示节点的隐状态向量表示

S8：将图神经网络的最终表示向量

按照文本次序，作为序列标注任务依次输入注意力机制模型(transformer encoder)和条件随机场CRF，对实体识别结果进行输出标签的路径约束，保证命名实体识别结果的开头应该是“B”而不是“I”或者“O”，以及同类型的“I”需要排在同类型的“B”之后，得到符合转移概率的最优识别结果。注意力机制模型中注意力计算公式如E9所示，其中Q、K、V分别代表查询向量、键向量、值向量，在当前网络中，Q、K、V分别由基于图神经网络的节点表示

与可学习参数W_Q、W_K、W_V进行相乘得到，公式E9中d_K的表示健向量K的维度。

条件随机场的输出是序列中每个字符对应标签的概率，概率的计算公式如E10所示，其中

表示当前字符识别为y_i时下一个字符识别为y_i+1的转移概率，

表示当前第i个字符识别为y_i的预测概率。本发明中y_i表示当前字符的实体识别结果，y_i+1表示下一个字符的实体识别结果，x表示字符序列，y表示条件随机场的计算概率，n为字符数量，表示字符序列的长度，实体识别结果为各字符对应的实体标签，如下所示。：

B_PER I_PER I_PER O O B_LOC I_LOC O……

公式E9：

公式E10：

司法文书案情要素的实体识别任务是在图神经网络的表示基础上，使用注意力神经网络叠加条件随机场进行每个实体类别及实体边界进行判断，求得每个字符对应的命名实体最大概率。

实施例1：

一种基于图神经网络的司法文书案情要素实体识别方法，该方法所包括步骤如下：一、根据文书类型、案由罪名选择对应的规则模板；二、对文书数据清洗；三、使用模板对检务文书进行段落划分；四、对包含案情的审理查明段落构建多路径有向无环图结构，输入图神经网络学习节点表示；五、将图神经网络的各节点依次输入基于注意力机制的神经网络和条件随机场进行识别结果的序列次序校对；六、对提取的识别结果按照所需格式生成结构化数据。

进一步地，所述步骤一中规则模板为根据文书类型、罪名案由的定制模板，包含对应文书类型的分段模板、基础信息模板、独有信息模板等各项规则。

进一步地，所述步骤二对文书数据清洗包括去除包括空格、空行、编码、全半角、停用词等处理手段。

进一步地，所述步骤三中根据类型文书的对应模板进行段落划分，分解为案件基础信息、诉讼信息、基本案情、审理查明、判决信息等段落。

进一步地，所述步骤四中图神经网络为多路径有向无环图，节点间的连接均为有向连接，且无闭环结构。

进一步地，所述步骤五中识别结果的次序校对采用“三位标注”的方式完成对要素的实体标注，包括：实体主体开头、实体主体内部、非实体类型。

本发明是一种基于图神经网络的司法文书案情要素实体识别方法，旨在将非结构化的司法文书通过图神经网络进行非欧空间转换后，利用图神经网络的节点表示进行命名实体的表示学习，并对识别结果进行结构化储存，为检务工作提供非数转数的数据支持，同时为司法文书的智能化检索、专项统计等工作提供底层数据，方便加工处理，提供办公效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于图神经网络的司法文书案情要素实体识别方法，其特征在于，该方法包括如下步骤：

S6、将S5步骤中得到的图神经网络的节点表示的最终状态输入基于注意力机制的神经网络和条件随机场进行识别结果的状态约束，保证命名实体识别结果的开头是“B”而不是“I”或者“O”，以及同类型的“I”排在同类型的“B”之后，得到命名实体的最终识别结果；

2.如权利要求1所述的基于图神经网络的司法文书案情要素实体识别方法，其特征在于，实体识别使用BIO标注方式，B表示命名实体的开始，I表示命名实体的延续，O表示非命名实体词。

3.如权利要求1或2所述的基于图神经网络的司法文书案情要素实体识别方法，其特征在于，所述步骤S5中的对S3提取的审理查明段落进行图神经网络的节点表示的构建，根据S4标注的实体类型建立命名实体的有向边的连接，根据S3提取的审理查明段落的文书顺序建立相邻字符间的有向边连接包括：

将S3提取的审理查明段落，按照文书内容依次对每个字符建立对应的图表示节点，依次对每个汉字节点使用

作为图结构中的图表示节点的特征表示；

根据S4步骤中取得的实体识别结果及实体类型，在各实体的起始节点之前和结束节点之后建立图指向节点，并在图指向节点与对应的图表示节点之间建立从指向起始节点至指向结束节点的有向边；通过对每个实体类型建立图指向节点，构建多路径有向无环图结构。

4.如权利要求3所述的基于图神经网络的司法文书案情要素实体识别方法，其特征在于，所述步骤S5中邻接矩阵和预训练字向量的获得方式为：

使用表达式G表示S5建立的多路径有向无环图结构，：

G∶＝(V，E，La)

其中V代表节点集合，E代表边的集合，La代表标签的集合；对于由n个汉字组成的输入句子和m个基于模板的实体识别结果，其最终的节点集合V＝V_c∪V_s∪V_e，这里V_c代表每个图表示节点的节点编码，而对于某一个基于模板的实体识别结果g，使用图指向节点

和

在图结构中来表示指向命名实体g的开始节点和结束节点；V_s、V_e表示这图指向节点集合

在集合E中的每个边都有一个标签来表示节点之间的连接类型，对于非实体的节点的相邻边的标签代表了节点间的连接关系，对于实体中的节点的相邻边的标签代表了实体类型；因此标签集合

这里标签l_c表示了相邻图表示节点之间的标签集合，这个信息由模型用来获取文本的词序信息；同时标签集合

代表了所有用来描述基于模板的识别结果g的有向边信息。

5.如权利要求4所述的基于图神经网络的司法文书案情要素实体识别方法，其特征在于，所述步骤S5还包括：对于上述的图结构G，使用图神经网络GGNN来更新图表示节点的编码；

GGNN网络过程为：根据长短期记忆神经网络(LSTM)结构对司法文书和基于模板的实体识别结果进行预训练，预训练过程为：以单字为粒度对司法文书使用通用的LSTM网络进行预训练得到单字向量W^c；以相邻字为粒度对司法文书使用通用的LSTM网络进行预训练得到二元字向量W^bi；以规则模板对司法文书进行实体识别的结果为粒度对司法文书使用通用的LSTM网络进行预训练得到基于模板的词嵌入向量W^g；根据公式E1建立每个节点对应的初始化隐状态向量，当节点是图指向节点时使用基于模板的词嵌入向量作为初始化隐状态向量，当节点为图表示节点时使用单字向量与二元字向量的拼接作为初始化隐状态向量；

公式E1：

6.如权利要求5所述的基于图神经网络的司法文书案情要素实体识别方法，其特征在于，邻接矩阵的获得方式为：构建具有图结构信息的邻接矩阵A，矩阵A表示了节点间的连接关系，矩阵中的参数对应了图的有向边信息；通过将语句中实体的信息以邻接矩阵的形式进行构建，使得图结构中包含了S4步骤中取得的实体识别的状态信息，其中基于实体L构建的邻接矩阵A_L表示由第L个实体所构建的邻接矩阵，公式E2中的L表示基于模板的识别结果的实体总数，针对S4步骤中取得的实体识别结果中的各实体分别构建邻接矩阵A₁，...，A_L，然后将各邻接矩阵进行拼接，得到包含多实体路径信息的图结构邻接矩阵A；

公式E2：A＝[A₁，...，A_L]。

7.如权利要求6所述的基于图神经网络的司法文书案情要素实体识别方法，其特征在于，所述步骤S5包括：使用GRU网络对图表示节点的隐状态进行更新，更新过程如下：

公式E3：