CN115238697A

CN115238697A - 基于自然语言处理的司法命名实体识别方法

Info

Publication number: CN115238697A
Application number: CN202210948074.2A
Authority: CN
Inventors: 廖海峰; 董博; 林洪湖; 李冬; 马杲灵
Original assignee: Guizhou Shulian Mingpin Technology Co ltd
Current assignee: Guizhou Shulian Mingpin Technology Co ltd
Priority date: 2022-07-26
Filing date: 2022-08-09
Publication date: 2022-10-25

Abstract

本发明涉及基于自然语言处理的司法命名实体识别方法，针对裁判文书中相关司法概念进行有效提取，包括步骤：根据审理程序对裁判文书做分块处理；将需要进行实体识别的分块部分作为训练集，对司法命名实体识别模型进行训练，在训练时，使用BERT预处理语言模型获得输入语义的特征信息，得到每个字特征的embedding，再将得到的特征放入BiLSTM模型中进行进一步的语义编码，最后通过CRF层得到最终的概率最大标签序列，所述概率最大标签序列中即为需要识别的实体；使用训练好的司法命名实体识别模型对裁判文书进行识别，得到司法命名实体。

Description

基于自然语言处理的司法命名实体识别方法

技术领域

本发明涉及计算机人工智能、自然语言处理技术领域，特别涉及一种基于自然语言处理的司法命名实体识别方法。

背景技术

在自然语言处理领域方向，目前只有针对特定的人名、地名、组织结构的识别，该类模型无法对特定场景下的实体进行有效识别，如对裁判文书中的法律法规进行识别。采用的技术在对文本特征进行提取也多是采用简单的RNN结构进行提取，如LSTM+CRF架构进行，无法有效提取特定领域文本的特征。

司法领域命名实体存在词语边界不清晰、复杂的组合形式、不确定长度、嵌套定义不明确等问题。许多相关研究都把司法领域命名实体识别当做一个序列标记任务，由于规则是手动诱导的，所以这种方法既耗时又昂贵。浅层的基于机器学习的常用方法有ME(最大熵)、HMM(隐马尔可夫模型)、SVM(支持向量机)、CRF(条件随机场)等，但无论使用哪种模型，几乎所有的命名实体识别模型都是通过挖掘名称内部的固有特征和围绕名称的上下文特征来识别命名实体的。因此认为这些基于字符的方法可能会丢失一些重要的语义信息，例如：如果“法人”被分割成“法/人”，字符“法”和“人”将成为识别模型中的一个特征，语义信息“法人”已经丢失。同时这些方法在很大程度上依赖于人工特征的设计，特殊领域的人工特征和领域知识在提高模型性能的同时也导致整个模型的鲁棒性和泛化能力下降。相比于一般领域的命名实体，司法领域命名实体识别有以下几个难点：

(1)针对命名实体识别工作，目前多数停留在通用领域的实体识别，如人名、地名、组织机构名称等；

(2)对于命名实体识别的工作，做的较为成熟的是在通用领域，暂无特定司法领域(针对裁判文书)的命名实体识别；

(3)特定司法领域的实体识别包含的实体数量跟种类繁多，难以定义；

(4)待识别实体存在许多单词修饰，实体边界难以划分；

(5)司法领域的实体存在多种表达方式。

发明内容

本发明的目的在于针对裁判文书中相关司法概念进行有效提取，提供一种基于自然语言处理的司法命名实体识别方法。

为了实现上述发明目的，本发明实施例提供了以下技术方案：

基于自然语言处理的司法命名实体识别方法，包括以下步骤：

步骤S1，获取若干裁判文书，根据审理程序对裁判文书做分块处理；

步骤S2，将需要进行实体识别的分块部分作为训练集，对司法命名实体识别模型进行训练，所述司法命名实体识别模型包括BERT预处理语言模型、BiLSTM模型、CRF层；在训练时，使用BERT预处理语言模型获得输入语义的特征信息，得到每个字特征的embedding，再将得到的特征放入BiLSTM模型中进行进一步的语义编码，最后通过CRF层得到最终的概率最大标签序列，所述概率最大标签序列中即为需要识别的实体；

步骤S3，使用训练好的司法命名实体识别模型对裁判文书进行识别，得到司法命名实体。

更进一步地，所述根据审理程序对裁判文书做分块处理的步骤，包括：

将裁判文书分为头部区域和正文区域，所述头部区域包括标题、审理法院、日期、案号中的一种或多种；

从正文区域中分割出当事人部分、裁判结果部分，再从所述裁判结果部分中分割出审判人员、裁判日期、书记员、附录；

再根据审理程序对剩余部分的正文区域进行分割，所述审理程序包括一审、二审、再审、执行：

一审正文区域包括审理经过、原告诉称、被告辩称、本院查明、本院认为、判断结果模块；

二审正文区域包括审理经过、一审原告诉称、一审被告辩称、一审法院查明、一审法院认为、上诉人诉称、被上诉人辩称、本院查明、本院认为、裁判结果模块；

再审正文区域包括审理经过、一审原告诉称、一审被告辩称、一审法院查明、一审法院认为、二审法院查明、二审法院认为、再审申请人诉称、再审被申请人辩称、本院查明、本院认为、裁判结果模块。

更进一步地，所述对于需要进行实体识别的分块部分，使用BERT预处理语言模型获得输入语义的特征信息，得到每个字特征的embedding的步骤，包括：

将需要进行实体识别的分块部分转换为词向量；

由词向量组成的矩阵X作为BERT预处理语言模型的输入：

其中，W_q、W_k、W_v为权重，Q、K、V均表示输入的一个批次内多个词向量X与相应权重组成的矩阵；d_k表示输入的词向量的维度；x_ij表示矩阵QK^T的元素(0≤i<m,0≤j<n)，m与n分别为词向量的数量及其维度，T表示矩阵的转置；

采用Multi-Head模式扩展BERT预处理语言模型专注于不同位置的能力：

其中，

表示附加权重矩阵，W为可训练的权重矩阵，C表示矩阵拼接函数。

更进一步地，所述再将得到的特征放入BiLSTM模型中进行进一步的语义编码的步骤，包括：

输入：上文信息输入h_t-1，当前输入信息x_t；

C_t＝σ(w_f·[h_t-1,x_t]+b_f)⊙C_t-1+σ(w_i·[h_t-1,x_t]+b_i)⊙tanh(w_c·[h_t-1,x_t]+b_c)

h_t＝σ(w_o·[h_t-1,x_t]+b_o)⊙tanh(C_t)

其中，h_t-1表示上文信息输入，h_t表示隐藏参数；x_t表示当前输入信息；σ表示向量方向的Sigmoid函数；b_f表示遗忘门偏置，b_i表示输入门偏置，b_c表示细胞状态偏置，b_o表示输出门偏置；·表示矩阵乘法，⊙表示向量点积；w_f表示遗忘门权重，w_i表示输入门权重，w_c表示细胞状态权重，w_o表示输出门权重；tanh表示双曲正切函数；

将BiLSTM模型划分为遗忘门、输入门、输出门，便于累积记忆信息并确定清楚记忆内容的时间；

其中，

表示顺序隐藏参数，

表示逆序隐藏参数；将

和

拼接起来表示当前的词向量的编码信息，记为H_t。

更进一步地，所述最后通过CRF层得到最终的概率最大标签序列的步骤，包括：

对于BiLSTM模型的输出O＝{o₁,o₂,...,o_m}，其中o_i(1≤i≤m)表示句子中的第i个词向量对应的输出，标签为Y＝{y₁,y₂,...,y_m}，标签采用BIEO标记法，则预测值可通过下式计算：

其中，λ_j是可训练的参数，m是输入词向量的数量；t_j(y_i+1,y_i,O,i)为两个相邻标签位置的转移特征函数(1≤j<m)，用以刻画相邻标签之间的相关关系；

使用softmax对S(O,Y)进行规范化，以概率形式表示输出的预测值，对每一个词向量而言，其概率最大的值即为预测值；

其中，

为对标签的取值；

损失函数为：

n表示标签的类别数，y_i(1≤i≤n)是标签，P_i(Y|O)表示类别i下的概率。

与现有技术相比，本发明的有益效果：

(1)本发明对裁判文书进行预先分块处理，而不是对整个裁判文书直接进行编码解析，在对裁判文书进行实体识别时，加快了实体抽取的速度。

(2)本发明司法命名实体识别模型由BERT-BiLSTM-CRF构成，在模型调优阶段，多次增大CRF层的学习率，得到合理的转移矩阵。

(3)本发明在词向量编码阶段，对编码模型微调，采用浅层的embedding层。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明方法流程示意图；

图2为本发明实施例BERT预处理语言模型的结构示意图；

图3为本发明实施例LSTM模型示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性，或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

实施例1：

本发明通过下述技术方案实现，如图1所示，基于自然语言处理的司法命名实体识别方法，包括以下步骤：

步骤S1，获取若干裁判文书，根据审理程序对裁判文书做分块处理。

将裁判文书分为头部区域和正文区域，所述头部区域一般包含标题、审理法院、日期、案号，由于数据源本身问题，这几个部分不一定全部出现。将头部和正文分开后，先从正文区域中分割出“当事人”部分，再分割出“裁判结果”部分，然后在“裁判结果”部分中分割出“审判人员”、“裁判日期”、“书记员”、“附录”。这部分分割完成后，再根据审理程序对剩余的正文区域进行详细的分割，审理程序包括一审、二审、再审、执行，详细分割如下：

步骤S2，将需要进行实体识别的分块部分作为训练集，对司法命名实体识别模型进行训练，所述司法命名实体识别模型包括BERT预处理语言模型、BiLSTM模型、CRF层。

分割好的部分进行特定的实体识别，比如需要识别法律法规就只用对“审理经过、本院查明、本院认为”进行下一步的处理。在训练时，使用BERT预处理语言模型获得输入语义的特征信息，得到每个字特征的embedding，再将得到的特征放入BiLSTM模型中进行进一步的语义编码，最后通过CRF层得到最终的概率最大标签序列，所述概率最大标签序列中即为需要识别的实体。

详细来说，传统意义上词向量是一个将文本转化为数字符号的工具，可以把真实世界抽象存在的文字转换为可以进行数学公式操作的向量，即为输入数据进行向量化表示。因而某种意义上，NLP任务分为两部分：预训练产生词向量，对词向量操作。

词向量有两种表示方式：One-Hot方式、分布式方式。One-Hot方式把每一个字都表示为由若干个0和一个1表示的长向量，向量的长度是语料词典的大小。分布式方式表示目的是希望用更高效的方法获取词向量，使得语义相近的词在映射到欧式空间中后具有较高的余弦相似度，这种词向量被称为Word2Vec。然而，这些方法得到的词向量为固定向量，不依赖于上下文的改变而改变，例如在句子“在这起财务纠纷中，甲方在偿还乙方4000余元后，还欠乙方一万元整”中两个“还”字表达的是不同的含义，但是在Word2Vec、Glove、ELMo等词向量表示方法中，这两个“还”字的向量表示完全一样，这与客观事实不符，针对传统向量表示方法无法表征多义性的问题，本方案将BERT预处理语言模型应用到词向量的表示中。

所述BERT预处理语言模型的结构如图2所示，为了融合字左右两侧的上下文，BERT预处理语言模型采用双向Transformer作为编码器。本方案所使用的BERT预处理语言模型的输入与传统BERT模型的输入不同，并非采用Token Embedding、Segment Embeddings及Position Embeddings三者相加的方式，而是直接将经过训练的词向量作为输入，以更好的表征词内字与字(字与词，词与词)之间的关系。

Transformer编码器是BERT预处理语言模型最重要的部分，Transformer编码器完全基于注意力机制来对一段文本进行建模。编码器中最重要的模块是Self-Attention部分，其输入是由词向量组成的矩阵X，见下式：

式(1)中，W_q、W_k、W_v为权重，Q、K、V均表示输入的一个批次内多个词向量X与相应权重组成的矩阵；式(2)中，d_k表示输入的词向量的维度；x_ij表示矩阵QK^T的元素(0≤i<m,0≤j<n)，m与n分别为词向量的数量及其维度，T表示矩阵的转置。

与只对行或列求softmax的模型相比，本式能更好地体现词与词之间的强关联性，与使用softmax相比，本式将分母加1使得模型具有更强的鲁棒性，与矩阵V联合，使得每个词向量均含有所在句中其他词向量的信息，词与词之间更具有上下文关系，与传统的词向量表示法相比，该方法不仅保留了词意的本意性，也具有全局性。

此外，Transformer编码器采用了Multi-Head模式，以增大注意力机制的“表示子空间”，扩展BERT预处理语言模型专注于不同位置的能力，见式(3)。

式(3)中，

另外，在Transformer编码器中引入残差方法及Normalization，可提高精确度及降低网络退化等问题。与其他语言模型相比，BERT预处理语言模型能够充分利用词左、右两边的信息来获得更好的词分布式表示。

长短时记忆网络(Long Short-Term Memory,LSTM)是由Schmidhuber于1997年提出的，是一种具有特殊结构的RNN结构，但与传统的RNN模型不同，LSTM模型解决了由于序列过长而产生的长程依赖问题。比起传统的RNN模型，LSTM模型引入了三个门的概念：遗忘门、输入门、输出门。遗忘门用来确定上一个隐藏层状态的信息哪些是重要的，输入门用来确定当前状态的哪些信息是重要的，输出门用来确定下一个隐藏层状态。LSTM模型通过特殊设计的门结构使得模型可以有选择的保存上下文信息，因此LSTM具有适合司法领域命名实体识别的特点。LSTM模型的核心思想是细胞的状态，请参见图3，最上方平行的一条线可以称为“主线”，贯穿整个链。

本方案使用BiLSTM模型(双向长短时记忆网络)对BERT预处理语言模型得到的特征进行进一步的语义编码：

输入：上文信息输入h_t-1，当前输入信息x_t；

C_t＝σ(w_f·[h_t-1,x_t]+b_f)⊙C_t-1+σ(w_i·[h_t-1,x_t]+b_i)⊙tanh(w_c·[h_t-1,x_t]+b_c) (4)

h_t＝σ(w_o·[h_t-1,x_t]+b_o)⊙tanh(C_t) (5)

其中，

表示顺序隐藏参数(从第一个词开始，从左往右递归)，

表示逆序隐藏参数(从最后一个词开始，从右向左递归)；将

和

拼接起来表示当前的词向量的编码信息，记为H_t，作为BiLSTM模型的输出。

在命名实体识别中，输出标签之间有很强的依赖性，CRF层能够考虑到相邻标签的关系获得一个全局最优的标记序列。本方案将CRF层嵌入BiLSTM模型，对BiLSTM模型的输出进行优化处理。对于BiLSTM模型的输出O＝{o₁,o₂,...,o_m}，其中o_i(1≤i≤m)表示句子中的第i个词向量对应的输出，标签为Y＝{y₁,y₂,...,y_m}，标签采用BIEO标记法，则预测值可通过下式计算：

式(7)中，λ_j是可训练的参数，m是输入词向量的数量；t_j(y_i+1,y_i,O,i)为两个相邻标签位置的转移特征函数(1≤j<m)，用以刻画相邻标签之间的相关关系，转移特征函数通常是实值函数，它表示可能或者期望成立的特性。例如对于“本次庭审涉案金额巨大”，若采用如下转移特征函数：

则上式表示第i个标签的输入o_i对应的词为“庭审”时，相应的标签y_i与y_i+1很能分别为B和E。

使用softmax对S(O,Y)进行规范化，以概率形式表示输出的预测值，对每一个词向量而言，其概率最大的值即为预测值。

其中，

为对标签的取值。

损失函数为：

本发明利用批量梯度下降法最小化损失，优化模型。

本方案与传统的命名实体识别模型相比，将BERT-BiLSTM-CRF结合，模型加入了BERT预处理语言模型，在大规模语料上学习所得，可以通过上下文计算字向量表示，表征字的多义性，增强了句子的语义表示。

实施例2：

本实施例在上述实施列1的基础上做举例说明，本实施例选用的司法领域语料库来源于两部分，第一部分为司法领域刊物及网站，包括人民检察院案件信息公开网、裁判文书网、最高人民法院审判业务指导案例、最高人民法院公报发布的公开案例，共计选取294篇文章，共计16万余字；第二部分为司法领域词典《中国现行法律汇编》，包括200万字法律条文，内容涵盖宪法、刑事领域、民事领域以及行政领域等法律法规。在进行适当的数据预处理并手动标注后构建的语料库。语料库其中一部分作为训练集进行司法命名实体识别模型的训练，另一部分则作为测试集用于评价司法命名实体识别模型的性能。

由于使用基于字的标记策略，需要为句子中的每个字符分配一个命名实体标签。本实施例采用的是三标记法{B,I,O}(Beginning、Inside、Outside)。最后得到标注好的样本有294488个，其中作为训练集的样本为250775个，作为测试集的样本为43713个。

命名实体识别任务主要包括两个部分：(1)实体边界划分；(2)实体类别标注。以往的命名实体识别大多只是在新闻语料和实体类别(人名、地名)中取得效果，通用的方法不能很好的解决专有领域的识别问题。司法领域文本主要是法律人员对被告人或嫌疑人的作案经过进行专业性的描述，包含了大量案件细节相关的实体，需要按照相关从业人员的设计，将需要抽取的实体分为12小类，标注的实体类别如表1：

表1

命名实体识别的评价指标有精确度(P)、召回率(R)和F1值：

P＝(T_p/(T_p+F_p))×100％

R＝(T_p/(T_p+F_n))×100％

F1＝2*P*R/(P+R)×100％

其中，F_p表示司法命名实体识别模型可识别出的不相关的实体数目，T_p表示司法命名实体识别模型能正确识别的实体数目，F_n表示相关实体但司法命名实体识别模型未能检测出的实体数目。

为了有效验证本方案提出司法命名实体识别模型的合理性并证明模型中每个模块的必要性，在仿真实验中得到模型的相关数据后，又分别进行了BiLSTM模型、BiLSTM模型+CRF层在测试集上的性能评价实验，并通过整合多次实验的结果，进行了数据对比，对比得分结果如下标是所示：

表2

表2表示不同模型的命名实体识别效果得分，其中，BiLSTM表示BiLSTM模型，BiLSTM-CRF表示BiLSTM模型加CRF层，BERT-BiLSTM-CRF表示本方案的司法命名实体识别模型。

表3

表3表示本方案的司法命名实体识别模型下每个类别识别得分。

对比BiLSTM-CRF与BiLSTM，说明单独使用BiLSTM生成的结果可能在标注序列并不是全局最优，CRF通过分析相邻标签的关系，得到最佳标签，能够提高实体识别的正确率。对比BERT-BiLSTM-CRF和BiLSTM-CRF，BERT预处理语言模型相对于传统的词向量表示能提高2.5％的F1值，说明BERT预处理语言模型能更好的表示字语义信息。

模型在训练过程中存在严重过拟合问题，经分析是由于在实验过程中的数据量太少，而使用的模型为重量级的BERT模型，得到的编码层过度学习到参数，导致过拟合。当以相同量级的学习率进行微调时，BERT部分迅速收敛，也就是每个字的标签分布会迅速被拟合，同时因BERT的拟合能力比较强，所以迅速拟合到一个比较优的状态(即目标标签打分很高，并且拉开了与非目标标签的差距)。而由于转移矩阵跟BERT没有较大联系，当逐字标签分布迅速地收敛到较优值时，还是以一样的速度进行收敛，最终要比逐字标签的分数低一个数量级。而且，逐字标签分布能很好拟合目标序列，不再需要转移矩阵(转移矩阵的梯度会非常小，从而几乎不更新)，只需增大CRF的学习速率，得到一个合理的转移矩阵。

因此，研究尝试增大转移矩阵的学习速率，经过多次调试发现，发现CRF层的学习率为主体学习率的100倍以上时，转移矩阵开始变得合理起来。CRF没给BERT带来较大效果变化，原因是BERT的拟合能力太强，导致不需要转移矩阵效果都很好。这时候考虑降低BERT的拟合能力，获得一些显著性差异,前面的实验中是使用BERTbase的最后一层的输出的embedding，之后只用第二层的embedding输出来进行微调，来测试上述调整是否会带来显著性差异。通过多次调试发现对于拟合能力不是特别强大的模型，CRF及其转移矩阵还是有一定帮助的。

因此最终研究尝试采用浅层的embedding层+精调CRF的策略去改善模型严重过拟合的问题，最终调整了CRF学习率，分数提升约2％，F1值提升到0.82％，调整编码层，采用浅层的编码层做下游的微调任务，F1值提升到0.84％。训练最终的loss为0.13781，各项指标为accuracy:96.97％；precision:83.05％；recall:85.12％。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。