CN112800764B

CN112800764B - 一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法

Info

Publication number: CN112800764B
Application number: CN202011620453.6A
Authority: CN
Inventors: 李参宏
Original assignee: Jiangsu Netmarch Technologies Co ltd
Current assignee: Jiangsu Netmarch Technologies Co ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2023-07-04
Anticipated expiration: 2040-12-31
Also published as: CN112800764A

Abstract

本发明公开了一种基于Word2Vec‑BiLSTM‑CRF的法律领域的命名实体识别方法，具体包括以下步骤：获取法律领域的原始数据并进行数据的预处理，获得的训练语料数据；将获得的训练语料数据输入Word2Vec算法结合CBOW模型，从而得到针对于法律领域的词向量；将预处理获取的训练语料数据，结合模板匹配和中文语料的顿等模式进行标注，获取标注语料，以Bi‑LSTM作为模型的编码层，将获得的标注语料与获得词向量相结合作为编码层的输入，输出得到文本语义信息特征；将Bi‑LSTM层获取的文本语义信息特征作为CRF的输入，最终输出命名实体的识别结果。识别法律文书中种类丰富的实体，实现法律领域实体的细粒度刻画，法律领域的数据结构化，进一步挖掘法律领域的不同实体之间的关系具有重要意义。

Description

一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法

技术领域

本发明涉及命名实体识别领域，尤其涉及一种基于Word2Vec-BiLSTM-CRF模型的法律领域的实体抽取方法。

背景技术

在法律领域，无论是在案件的侦查过程中，或是对于法院的审理诉讼而言，其涉及的命名实体种类众多且复杂。这些实体中最常见的是案情经过的要素，例如人物(犯罪嫌疑人、被害人)、时间、地点、动机、事件等。对于这些不同的案件要素，在不同的刑法罪名语境背景下有着不同的特点和表现形式。

法律领域中的实体种类繁多，这些实体的表示形式又各不相同。用一种统一的方法识别这些表示形式不同的命名实体，实现法律领域实体的细粒度刻画，法律领域的数据结构化，进一步挖掘法律领域的不同实体之间的关系具有重要意义。

2020年02月18日公开的公开号第CN110807084A号中国专利揭露了一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法，其包括以下步骤：步骤1)：对专利文本进行预处理，识别出术语特征，同时加入位置信息，并通过改进的TextRank算法获得类别关键词特征，并将其组成向量矩阵；步骤2)：将向量矩阵导入Bi-LSTM模型中，采用注意力机制获得文本信息的整体特征；步骤3)：利用最大池化层选择每个句子的关键特征作为局部特征；步骤4)：将整体特征和局部特征融合；步骤5)：使用softmax分类器输出分类结果。本发明以专利术语关系抽取为基础，针对传统深度学习方法中存在的长距离依赖问题，通过各种实验对比，本发明的效果优于已有的方法，可以很好地满足实际应用的需要。

由于专利相对相对法律领域，其命名实体简单、统一，该方法可以实现对专利术语的抽取，但该抽取方法的效果无法应用于命名实体复杂的法律领域，无有效的识别法挖掘法律领域的实体，抽取效果差。

因此，有必要提供一种新的抽取方法解决上述问题。

发明内容

为解决上述背景技术中提出的问题，本发明提供了一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法，能够挖掘法律领域的不同实体之间的关系，。

为实现上述目的，本发明提供如下技术方案：一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法，具体包括以下步骤：

获取法律领域的原始数据并进行数据的预处理，获得的训练语料数据；将步骤A中获得的训练语料数据，输入Word2Vec算法结合CBOW模型，从而得到针对于法律领域的词向量；将步骤A中预处理获取的训练语料数据，结合模板匹配和中文语料的顿等模式进行标注，获取标注语料，具体的：根据法律领域的包含的特定实体构建标签***，采用BIO标注模式，B标签作为实体的开始，I标签表示实体的非开始部分，O表示非实体部分；构建法律领域的初始实体库；遍历训练语料数据集，获取符合顿等模式的句子集；使用顿等模式匹配初始实体库中实体的同义词、并列词，利用这些实体对实体库进行扩充；根据法律实体库中的实体使用模板匹配对训练语料数据进行实体标注；通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查，纠正、补标实体，并对实体库进行更新，最终获得标注正确的训练语料数据；以Bi-LSTM作为模型的编码层，将步骤C中获得的标注语料与B步骤中获得词向量相结合作为编码层的输入，输出得到文本语义信息特征；将步骤D中Bi-LSTM层获取的文本语义信息特征作为CRF的输入，最终输出命名实体的识别结果。

构建法律领域的特定停用词表，利用jieba、ltp中文分词工具对步骤A中获得的训练语料数据进行分词、去停用词；使用Word2Vec算法结合CBOW模型将词汇包含的语义信息转换为n维词向量，得到法律领域的特定词向量。

与现有技术相比，本发明基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法的有益效果是：识别法律文书中种类丰富的实体，实现法律领域实体的细粒度刻画，法律领域的数据结构化，进一步挖掘法律领域的不同实体之间的关系具有重要意义。

附图说明

图1为本发明基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法流程示意图。

图2为本发明获取标注语料的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图及实施例对本发明做进一步说明。

请参照图1，本发明提供一种基于Word2Vec-BiLSTM-CRF的法律领域的实体抽取方法，具体包括以下步骤：

：获取法律领域的原始数据并进行数据的预处理，获得的训练语料数据，包括如下步骤：

步骤A1：通过爬虫技术结合人工筛选，从互联网中获取法律领域的原始数据，包括法律领域的案情陈述、诉讼报告、裁判文书等；

步骤A2：对获取的半结构化或非结构化的多源数据进行初步清洗和降噪，获取可用的数据信息。

步骤B：训练法律领域的词向量；即将步骤A中获得的训练语料数据，输入Word2Vec算法结合CBOW模型，从而得到针对于法律领域的词向量；其步骤包括：

步骤B1：构建法律领域的停用词表，使用jieba、ltp等中文分词工具对训练语料数据进行分词以及去停用词；

步骤B2：使用Word2Vec算法得到针对于法律领域的字向量；

步骤B3：Word2Vec算法使用CBOW模型将语义信息转化为n维向量。CBOW模型的训练输入是某一个特征词的相关的词对应的字向量，而输出就是这特定的一个词的词向量，能够很好地保存上下文的语义信息。

步骤C：针对步骤A中预处理获取的训练语料数据，构建法律领域的初始实体库，结合模板匹配和中文语料的顿等模式进行标注，顿等模式可以有效地降低人工标注的工作，获取标注语料；其步骤包括：

步骤C1：针对法律领域的命名实体构建标签***，命名实体有法律的种类、组分以及特性组成；采用BIO标注模式，B标签作为实体的开始，I标签表示实体的非开始部分，O表示非实体部分；

步骤C2：人工构建法律领域的初始实体库；

步骤C3：遍历训练语料数据集，获取符合顿等模式的句子集；

在中文语料当中，顿号的用法主要是罗列某一类词的同义词，在语料中出现的实体假设前后有顿号出现，那么并列的常常都是该实体的同类词或同义词，可以作为实体对实体库进行补充，这种模式称为“顿等模式”。

顿等模式不仅限于顿号连接的前后实体，通常还有如下的一些表现形式：

步骤C4：使用顿等模式匹配初始实体库中实体的同义词、并列词等，利用这些实体对实体库进行扩充；

步骤C5：根据法律实体库中的实体使用模板匹配对训练语料数据进行实体标注；

步骤C6：通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查，纠正、补标实体，并对实体库进行更新，最终获得标注正确的训练语料数据。

步骤D：将Bi-LSTM模型作为编码层，X＝(x₁,x₂,x₃,…,x_n)作为编码层的输入，其中x_i为步骤C中标注完成的训练语料数据中每个字对应的步骤B训练得到的法律领域的字向量；

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

o_t＝σ(W_o·[h_t-1，x_t]+b_o)

h_t＝o_t*tanhC_t

{h₀，h₁，...，h_n}＝{[h_L0，h_Rn]，[h_L1，h_R(n-1)]，...，[h_Ln，h_R0]}

Bi-LSTM能够在指定的时间范围内有效地使用过去的特征(通过前向状态)和未来的特征(通过后向的状态)，使用通过时间的反向传播来训练双向LSTM网络。

步骤E：将Bi-LSTM层获取的标签向量特征输入CRF层，得到每个字标签的得分；

CRF层能够有效地利用句子级的标签信息，为进一步挖掘法律领域的不同实体之间的关系，设置约束条件确保最终的预测有效，该约束条件能够在训练数据时被CRF层自动学习。具体的，

将需要识别实体的句子表示为下式，x_i表示句中的字：

X＝(x₁，x₂，...，x_n)；

该语句对应的标签为：

Y＝(y₁，y₂，...，y_n)；

确定从识别实体对应语句对应的打分方法函数表达方式：

其中A是转移分数矩阵，A_i，j表示从标签i转移到标签j的分数，其中y₀和y_n分别是句子的开始和结束标签；所以A的纬度为(k+2)*(k+2)(k为标签数)；P是Bi-LSTM网络输出的分数矩阵，纬度为n*k(k为标签数)，P_i，j表示句子中第i个词对应第j个标签的分数。

目的是以获得打分函数的最大值。

对于给定句子X，得到标签y的概率是：

Y_X表示句子X对应的所有可能的标签序列，也就是说句子对应的每个标签序列都有一个分值还有一个概率，目的是让句子对应的真实序列大概率最大。

另外，提供一损失函数，获得损失函数中的值最小，变换为下式：

以获得出损失函数中的最小值。

用似然公式表示：

最终输出识别的案件经过中的人物、动机、事件等命名实体。从而识别法律文书中种类丰富的实体，实现法律领域实体的细粒度刻画，法律领域的数据结构化，进一步挖掘法律领域的不同实体之间的关系。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法，其特征在于，具体包括以下步骤：

步骤A：获取法律领域的原始数据并进行数据的预处理，获得训练语料数据；

步骤B：将步骤A中获得的训练语料数据输入Word2Vec算法结合CBOW模型，从而得到针对于法律领域的词向量；具体的：

步骤B1：构建法律领域的特定停用词表，利用jieba、ltp中文分词工具对步骤A中获得的训练语料数据进行分词、去停用词；

步骤B2：使用Word2Vec算法结合CBOW模型将词汇包含的语义信息转换为n维词向量，得到法律领域的特定词向量；

步骤C：将步骤A中预处理获取的训练语料数据，结合模板匹配和中文语料的顿等模式进行标注，获取标注语料，具体的：顿等模式为：在中文语料当中，顿号的用法主要是罗列某一类词的同义词，在语料中出现的实体假设前后有顿号出现，那么并列的常常都是该实体的同类词或同义词，可以作为实体对实体库进行补充；其中，

步骤C1：根据法律领域的包含的特定实体构建标签***，采用BIO标注模式，B标签作为实体的开始，I标签表示实体的非开始部分，O表示非实体部分；

步骤C2：构建法律领域的初始实体库；

步骤C4：使用顿等模式匹配初始实体库中实体的同义词、并列词，利用这些实体对实体库进行扩充；

步骤C6：通过人工筛查的方式对C5获取的标注后的训练预料数据进行核查，纠正、补标实体，并对实体库进行更新，最终获得标注正确的训练语料数据；

步骤D：以Bi-LSTM作为模型的编码层，将步骤C中获得的标注语料与B步骤中获得词向量相结合作为编码层的输入，输出得到文本语义信息特征；

步骤E：将步骤D中Bi-LSTM层获取的文本语义信息特征作为CRF的输入，最终输出命名实体的识别结果。

2.根据权利要求1所述的一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法，其特征在于：所述步骤E中，

将需要识别实体的句子表示为下式，x_i表示句中的字：

X＝(x₁，x₂，…，x_n)；

该语句对应的标签为：

Y＝(y₁，y₂，...，y_n)；

确定从识别实体对应语句对应的打分方法函数表达方式，以获得打分函数的最大值：

其中A是转移分数矩阵，A_i,j表示从标签i转移到标签j的分数，其中y₀和y_n分别是句子的开始和结束标签；所以A的纬度为(k+2)*(k+2)；P是Bi-LSTM网络输出的分数矩阵，纬度为n*k，P_i,j表示句子中第i个词对应第j个标签的分数；

对于给定句子X，以使句子X获得对应的真实序列大概率最大：

Y_X表示句子X对应的所有可能的标签序列。

3.根据权利要求2所述的一种基于Word2Vec-BiLSTM-CRF的法律领域的命名实体识别方法，其特征在于：提供一损失函数，以获得出损失函数中的最小值，变换为下式：