CN111783399A

CN111783399A - 一种法律裁判文书信息抽取方法

Info

Publication number: CN111783399A
Application number: CN202010586120.XA
Authority: CN
Inventors: 白雄文; 惠欣恒; 安娜; 康健; 陈飞
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-16
Anticipated expiration: 2040-06-24
Also published as: CN111783399B

Abstract

本发明涉及一种法律裁判文书信息抽取方法，其中，包括：步骤一：根据不同的案由选择相对应的规则引擎、关键字字典以及模版引擎；步骤二：将裁判文书进行数据清洗；步骤三：将裁判文书的内容按照分段进行分割；步骤四：将分割的裁判文书的内容作为基于注意力机制的序列作为神经网络模型的输入，进行标签信息的提取；步骤五：将神经网络提取的信息进行微调；步骤六：根据提取的标签信息以及对应的模板引擎，生成所需要格式的结构化文档。本发明针对现有规则的解析缺点，利用深度学习技术，构建了基于注意力机制的神经网络模型，可以大大提高法律要素提取的效率与准确度。

Description

一种法律裁判文书信息抽取方法

技术领域

本发明涉及属于自然语言处理技术领域，特别涉及一种针对法院裁判文书的法律标签信息抽取技术。

背景技术

随着信息化水平的不断提高，各类司法文书做为案件的输出结果，各司法机构每天都会输出大量的司法文书。其中，在法院裁判文书中，包含了大量的案件案情信息、案件审理信息以及法院判决信息。对法院裁判文书的分析以及研究对司法审判行为具有非常重要的意义。在我国的各地法院实际工作中，各类判决文书来自半结构化的文本，传统的信息提取工作都是根据手动录入或者人工总结的抽取规则进行信息提取，不仅需要耗费大量人力物力，且准确率不高，同时具有较高的维护成本，抽取规则很难进行复用。

在面对某些文书内容较长，且某些案件的案情复杂的情况时，让法官迅速从文书中抓取关键信息、梳理清楚案情是一项具有极大压力的工作，且费时费力。因此，借助于深度学习的神经网络模型，可以加速文书解析的速度和效率。但是，目前对裁判文书的内容解析仍然采用传统的规则解析的方式来获取。一般是人工通过语义获取司法文书内容的逻辑关联关系，同时依靠经验提取所需的法律要素标签。当面临诸多当事人、鉴定机构多等复杂情况的时候，传统的规则解析方式难以保证较高准确率，同时抽取规则也难以服用，具有较高的维护成本。

发明内容

本发明一种法律裁判文书信息抽取方法，用于解决上述现有技术的问题。

本发明一种法律裁判文书信息抽取方法，其中，包括：步骤一：根据不同的案由选择相对应的规则引擎、关键字字典以及模版引擎；步骤二：将裁判文书进行数据清洗；步骤三：将裁判文书的内容按照分段进行分割；步骤四：将分割的裁判文书的内容作为基于注意力机制的序列作为神经网络模型的输入，进行标签信息的提取；步骤五：将神经网络提取的信息进行微调；步骤六：根据提取的标签信息以及对应的模板引擎，生成所需要格式的结构化文档。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，还包括：根据不同的案由，将判决文书分解为文书基础信息、当事人信息、诉讼信息、案情信息、判决分析和审判信息6个分段，制定出对应各个案由的模版引擎。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，将裁判文书中的多余空行以及非法字符去除，完成半角全角符号转换等清洗工作。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，将裁判文书的内容按照当事人信息段落、诉讼信息段落、案情信息段落、判决分析段落和审判信息段落进行分割；对分割后的模块，根据规则引擎和关键字字典，取得案件文书基本信息、原被告基本信息以及文书中涉及的各公司机构组织的名称、全称和简称对应信息，以及根据规则引擎中包含关键字的关键语句。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，神经网络提取的信息是文书的内容信息，提取出来后按照文书解析的要求进行数据格式的微调。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，将具有按照输入顺序的多个输入位置中的每一个输入编码转换为具有顺序输出的多个位置中的每一个输出编码，将输入序列按照网络配置转换为输出序列的神经网络。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，该神经网络:通过编码序列神经网络层，将输入序列转换为每一个输入位置的编码表示，该编码表示包含每一个输入的神经网络中嵌入的数值表示，每一个位置对应的字向量编码，以及输入所对应的输入序列中的位置编码；通过编码序列自注意力网络层，将输入位置中的每一个输入的编码按照输入顺序，使用注意力机制生成对应每一个输入位置的输出编码。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，每个编码序列自注意力网络层将神经网络学习得到的查询线性变换应用于对应每个输入位置处的输出，生成对应每个输出位置的查询矩阵；每个编码序列自注意力网络层将神经网络学习得到的键值线性变换应用于对应每个输入位置处的编码表示，生成对应每个输入位置的键值矩阵；每个编码序列自注意力网络层将神经网络学习得到的价值线性变换应用于对应每个输入位置处的编码表示，生成对应每个输入位置的价值矩阵；每个编码序列自注意力网络层根据神经网络学习得到的查询矩阵和键值矩阵，使用比较函数来确定每一个输入位置的输出位置特定权重；每个编码序列自注意力网络层通过由输入位置的特定权重的加权总和来确定输出位置的编码序列自注意力网络层编码输出。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，通过解码序列神经网络层，将得到的输入编码，按照输出顺序的输出位置，生成相应位置的输出网络编码。

根据本发明的法律裁判文书信息抽取方法的一实施例，其中，在得到编码序列自注意力网络层的输出后，和编码序列神经网络层的输出编码进行组合，进行归一化处理，得到编码序列输入和编码序列自注意力的残差输出，为解码序列神经网络的输入编码；在得到解码序列神经网络的输出编码后，通过连接至前馈神经网络，将解码序列神经网络输出结果投影到最大序列编码长度的空间中，得到最终的所需标签信息。

针对现有规则的解析缺点，利用深度学习技术，构建了基于注意力机制的神经网络模型，可以大大提高法律要素提取的效率与准确度。

附图说明

图1为一种法律裁判文书信息抽取方法的流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

图1为一种法律裁判文书信息抽取方法的流程图，如图1所示，一种法律裁判文书信息抽取方法包括：

步骤一：根据不同的案由选择相对应的模版引擎。每个模版引擎包含对应各自案由的关键字字典、规则词包、规则引擎。

法律裁判文书主要包括类结构化的案件基本信息和非结构化的裁判文书。案件基本信息反映了案件发生的主体，是案情事实的基础。非结构化的裁判文书主要包括当事各方的陈述、法院认定事实、法院说理及裁判结果等段落。因此，针对各个案由的关键字、段落结构等信息，制定模版引擎，其中包括关键字字典、规则词包、规则引擎。

步骤二：将裁判文书进行数据清洗

将裁判文书中的多余空行以及非法字符去除，完成半角全角符号转换等清洗工作。

步骤三：将裁判文书的内容按照6大类别段落进行分割，包括：文书基础信息、当事人信息、诉讼信息、案情信息、判决分析和审判信息。

首先使用规则引擎，对裁判文书进行6大类段落的划分，分别包含：文书基础信息、当事人信息、诉讼信息、案情信息、判决分析和审判信息。

由于裁判文书中的案情复杂情况不同，使用规则引擎划分后可能会出现多个相同类型的段落划分，因此，根据规则词包，对段落进行合并及排序。

使用关键字字典，对类结构化的文书基础信息、当事人信息和诉讼信息段落，提取案件基本信息，对非结构化的段落信息，提取包含关键案情信息的关键语句。

步骤四：将步骤三中取得的案件基本信息和关键语句，作为基于注意力机制的序列到序列神经网络的模型输入，依次输入神经网络进行标签信息的提取。

步骤五：将神经网络提取的信息进行微调

神经网络提取的信息是文书的内容信息，提取出来后按照文书解析的要求进行数据格式的微调，比如：金额转换为数值型文本、日期按照标准格式进行转换等。

步骤六：根据提取的信息以及对应的模板引擎，生成所需要格式的结构化文档。如JSON格式或者EXCEL格式均可。

本发明设计了使用双向编码表达的基于自注意力机制的序列到序列深度学习模型，实现了基于裁判文书的关键段落的信息提取，该网络的结构如图：

该神经网络具有将输入语句按照输入顺序位置进行编码转换为具有相同顺序输出编码的神经网络。该神经网络包括:

编码序列神经网络层，负责将输入序列转换为包含输入位置信息的编码表示，该编码包含每一个输入在神经网络中嵌入网络的数值表示，即每一个位置对应的字向量编码，以及该输入所对应的输入序列位置编码，该设计保证了当两个位置出现同一个字向量时，因为所处位置的不同，产生编码表示不会相同，使得神经网络能够识别编码位置，分辨出文书中语句前后关系。

编码序列自注意力网络层，使用注意力机制，将输入位置中的每一个编码按照输入顺序，生成对应位置的输出编码。具体实现如下：

每个编码序列自注意力网络层负责将神经网络学习得到的查询线性变换应用于每个输入位置，生成对应输出位置的查询矩阵；

同时，每个编码序列自注意力网络层将神经网络学习得到的键值线性变换应用于对应每个输入位置，生成对应输入位置的键值矩阵；

同时，每个编码序列自注意力网络层将神经网络学习得到的价值线性变换应用于对应每个输入位置处，生成对应输入位置的价值矩阵；

编码序列自注意力网络层根据神经网络学习得到的查询矩阵和键值矩阵，使用比较函数来确定每一个输出位置的权重；

最后，编码序列自注意力网络层通过由输入位置的权重加权总和来确定输出位置的编码序列自注意力网络层编码输出。

自注意力权重的计算如下式：Q、K、V分别表示编码序列自注意力网络层的查询矩阵、键值矩阵、价值矩阵：

本发明的网络结构中，具有多个上述的编码序列自注意力网络层，每一层的自注意力网络均学习到输入序列中不同的编码含义，这种编码含义包含了自然语言处理中的不同语言任务，比如分词、句法分析、实体识别和共指消解等。通过网络模型的不断学习，编码序列自注意力网络层将学习出能够良好表达分词、句法分析、实体识别和共指消解等自然语言处理任务的编码表示，将其作为解码序列神经网络层的输入。

解码序列神经网络的输入是编码序列自注意力网络层的输出，并与编码序列神经网络层的输出进行组合，然后进行归一化处理，得到编码序列输入和编码序列自注意力的残差输出，即为解码序列神经网络的输入编码。

解码序列神经网络层，负责将得到的输入编码，按照输出顺序的输出位置，生成相应位置的输出网络编码。

在得到最后的解码序列神经网络的输出编码后，通过连接至前馈神经网络，将最后的解码序列神经网络输出结果投影到最大序列编码长度的空间中，得到最终的所需标签信息：是否包含标签、标签信息起始下标以及标签信息结束下标。

对神经网络输出结果中起始下标和结束下标进行提取，并对关键语句按照下标位置进行切片，可以获取非结构化的裁判文书中包含法律要素、特殊机构名称和特殊地址等特殊标签信息，该类信息使用关键字、规则引擎等进行抽取需要耗费大量人力物力、准确率不高且难以复用；使用神经网络对特殊标签信息进行抽取，可以借助人工智能算法，加速推理过程，提高准确率以及适合对不同案由中相同类型标签的模型复用。

本发明针对现有规则的解析缺点，利用深度学习技术，构建了基于注意力机制的神经网络模型，可以大大提高法律要素提取的效率与准确度。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种法律裁判文书信息抽取方法，其特征在于，包括：

步骤一：根据不同的案由选择相对应的规则引擎、关键字字典以及模版引擎；

步骤二：将裁判文书进行数据清洗；

步骤三：将裁判文书的内容按照分段进行分割；

步骤四：将分割的裁判文书的内容作为基于注意力机制的序列作为神经网络模型的输入，进行标签信息的提取；

步骤五：将神经网络提取的信息进行微调；

步骤六：根据提取的标签信息以及对应的模板引擎，生成所需要格式的结构化文档。

2.如权利要求1法律裁判文书信息抽取方法，其特征在于，还包括：根据不同的案由，将判决文书分解为文书基础信息、当事人信息、诉讼信息、案情信息、判决分析和审判信息6个分段，制定出对应各个案由的模版引擎。

3.如权利要求1法律裁判文书信息抽取方法，其特征在于，将裁判文书中的多余空行以及非法字符去除，完成半角全角符号转换等清洗工作。

4.如权利要求1法律裁判文书信息抽取方法，其特征在于，将裁判文书的内容按照当事人信息段落、诉讼信息段落、案情信息段落、判决分析段落和审判信息段落进行分割；

对分割后的模块，根据规则引擎和关键字字典，取得案件文书基本信息、原被告基本信息以及文书中涉及的各公司机构组织的名称、全称和简称对应信息，以及根据规则引擎中包含关键字的关键语句。

5.如权利要求1法律裁判文书信息抽取方法，其特征在于，神经网络提取的信息是文书的内容信息，提取出来后按照文书解析的要求进行数据格式的微调。

6.如权利要求1法律裁判文书信息抽取方法，其特征在于，将具有按照输入顺序的多个输入位置中的每一个输入编码转换为具有顺序输出的多个位置中的每一个输出编码，将输入序列按照网络配置转换为输出序列的神经网络。

7.如权利要求6法律裁判文书信息抽取方法，其特征在于，该神经网络:

通过编码序列神经网络层，将输入序列转换为每一个输入位置的编码表示，该编码表示包含每一个输入的神经网络中嵌入的数值表示，每一个位置对应的字向量编码，以及输入所对应的输入序列中的位置编码；

通过编码序列自注意力网络层，将输入位置中的每一个输入的编码按照输入顺序，使用注意力机制生成对应每一个输入位置的输出编码。

8.如权利要求7法律裁判文书信息抽取方法，其特征在于，

每个编码序列自注意力网络层将神经网络学习得到的查询线性变换应用于对应每个输入位置处的输出，生成对应每个输出位置的查询矩阵；

每个编码序列自注意力网络层将神经网络学习得到的键值线性变换应用于对应每个输入位置处的编码表示，生成对应每个输入位置的键值矩阵；

每个编码序列自注意力网络层将神经网络学习得到的价值线性变换应用于对应每个输入位置处的编码表示，生成对应每个输入位置的价值矩阵；

每个编码序列自注意力网络层根据神经网络学习得到的查询矩阵和键值矩阵，使用比较函数来确定每一个输入位置的输出位置特定权重；

每个编码序列自注意力网络层通过由输入位置的特定权重的加权总和来确定输出位置的编码序列自注意力网络层编码输出。

9.如权利要求8法律裁判文书信息抽取方法，其特征在于，通过解码序列神经网络层，将得到的输入编码，按照输出顺序的输出位置，生成相应位置的输出网络编码。

10.如权利要求9法律裁判文书信息抽取方法，其特征在于，

在得到编码序列自注意力网络层的输出后，和编码序列神经网络层的输出编码进行组合，进行归一化处理，得到编码序列输入和编码序列自注意力的残差输出，为解码序列神经网络的输入编码；

在得到解码序列神经网络的输出编码后，通过连接至前馈神经网络，将解码序列神经网络输出结果投影到最大序列编码长度的空间中，得到最终的所需标签信息。