CN113361261A

CN113361261A - 一种基于enhance matrix的法律案件候选段落的选取方法及装置

Info

Publication number: CN113361261A
Application number: CN202110543628.6A
Authority: CN
Inventors: 胡峰; 董磊; 邓维斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-09-07
Anticipated expiration: 2041-05-19
Also published as: CN113361261B

Abstract

本发明涉及自然语言处理、人工智能等领域，特别涉及一种基于enhancematrix的法律案件候选段落的选取方法及装置，方法包括对带有推理性质的法律阅读理解数据集进行处理，获取具有候选段落标注的法律数据集；将每个样本中的问题与段落分别进行连接，并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵，根据该两个矩阵计算相似度矩阵R；针对每个样本构建EM矩阵，并利用EM矩阵对相似度矩阵R进行增量处理；将处理后的特征输入二分类任务分类器进行训练，通过训练好的模型获取概率最高的n个段落作为候选段落；本发明提高段落选择的准确率，最大程度的减少向下游任务传递的噪音信息。

Description

一种基于enhance matrix的法律案件候选段落的选取方法及装置

技术领域

本发明涉及自然语言处理、人工智能等领域，特别涉及一种基于enhance matrix的法律案件候选段落的选取方法及装置。

背景技术

随着社会的发展和大数据时代的到来，法院每年都要处理大量的诉讼案件，人民法院需要根据当事人的诉讼请求、答辩意见以及证据交换的情况，归纳争议焦点，这个过程需要法官根据法律规定和审判经验，结合案件具体情况进行综合归纳，这个过程十分耗费人力，随着人工智能的发展，已将有很多自认语言处理领域的技术应用在法律案件争议焦点归纳上面，并取得了不错的成绩；在获得争议焦点之后，还要考虑对“为什么得到这个争议焦点”提供证据，为争议焦点的获取提供可解释性；由于存在案件类型多，争议焦点数目多，答案寻找存在多跳情况等问题，基于规则的方式已经无法当前的需求，分案件、争议焦点的情况下使用多跳机器阅读理解可以更加出色的完成这个任务。

多跳机器阅读理解是当前人工智能的一个重要研究方向，在自动问答***、聊天机器人中具有广泛的应用。阅读理解答案的正误大多能根据背景材料中的少量几个段落来推断，本文将这些关键段落称为候选段落，候选段落抽取有助于对答案直接相关的段落进行准确定位，目前已有工作专门针对散文阅读理解开展基于抽象词语关联的答案获取方法的研究，针对散文选择题开展选项和背景材料的一致性蕴含问题，文献采用了较为简单的词语匹配抽取算法，正确率不高；另外,多数阅读理解***从问题出发将候选段落抽取同答案生成融合为一个问题来提出联合模型，但该方法缺乏可解释性，且最终答题的精确度并未得到显著提高，本发明的主要工作体现在候选段落抽取这一部分，减少向下游任务传递噪声数据。

答案候选句抽取算法大体可以分为3类：基于信息检索的方法、基于概率主题模型的方法和基于深度学习的词嵌入方法，但是这3类方法依然存在以下问题：

1)基于信息检索的方法将候选句抽取任务看成一个检索问题，早期语义相似度计算方法主要基于空间向量模型，利用TF-IDF刻画文档语句相似度，是一种无监督的学习方式，这种方法简单地采用词匹配和重叠的方式，难以捕获句子之间微妙的相关信息；

2)基于概率主题模型方法的基本思路是通过每一篇文档的主题分布和每一个主题中词的分布来确定句子的相关度，一般采用经典的概率主题模型(Latent DirichletAllocation，LDA)或在语义分析方法(Latent Semantic Analysis，LSA)等，将高维的文档降维到潜在语义低维空间来计算语义相关度，这类方法主要从篇章级别对文档进行建模，而对于微阅读模式的句子级建模表现较差。

发明内容

本发明针对现有的候选段落获取技术在处理具有多跳特点的法律领域相关文档时，无法正确选择与问题相关的候选段落、学习到段落之间的推理关系等缺点，提出一种基于enhance matrix的法律案件候选段落的选取方法及装置，所述方法包括以下步骤：

对带有推理性质的法律阅读理解数据集进行处理，将一个样本数据中的候选段落的标签标为1，非候选段落标为0，获取具有候选段落标注的法律数据集；

将每个样本中的问题与段落分别进行连接，并通过attention操作通过Bert模型输出两个不同模型参数的段落向量矩阵，根据该两个矩阵计算相似度矩阵R；

针对每个样本构建EM矩阵，在EM矩阵中EM_ij表示第i个段落和第j个段落关于词语的增量关系；

对相似度矩阵R和EM矩阵进行相加操作，将相加之后的矩阵通过softmax函数计算得到段落之间的相似权值，使用段落向量和对应权值的乘积相加得到更新后的段落向量表示；

将更新后的段落接二分类任务，使用sigmoid作为激活函数，对法律阅读理解候选段落数据集进行训练，得到训练好的模型；

在训练好的模型中输入未知候选段落的法律文本，输出段落分类的概率，取top n得到最终候选段落结果。

进一步的，第i个段落和第j个段落关于词语的增量关系的计算包括：

判断段落i和段落j与样本问题之间时候存在词语包含关系，存在设置为1；

计算段落i与段落j之间关于词语的词向量相似度并取top k计算值的和；

将计将前两步骤得到的值进行相加，将相加的值作为第i个段落和第j个段落关于词语的增量关系。

进一步的，段落i与段落j之间关于词语的词向量相似度表示为：

其中，COS(x_iy_j)表示段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离；m为段落x的分词个数，n为段落y的分词个数。

进一步的，段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离COS(x_iy_j)表示为：

其中，w为词向量的维度大小，x_ik为段落x的第i个向量k个维度的向量值；y_jk为段落y的第i个向量k个维度的向量值。

进一步的，一个样本数据的问题必须通过至少2个候选段落的推理来得出，即一个样本的至少有两个候选段落，且样本数据至少有一个非候选段落。

进一步的，通过Bert网络得到的段落向量，样本中所有段落向量构成向量矩阵X，X与不同的权重W计算得到矩阵Q、K，则相似度矩阵R表示为：

其中，d_k为向量矩阵Q、K的维度，K^T表示矩阵K的转置矩阵。

本发明还提出一种基于enhance matrix的法律案件候选段落的选取装置，包括候选段落数据处理模块、Bert表征模块、增量处理模块、模型训练模块以及候选段落输出模块，其中：

候选段落数据处理模块，用于执行对获取带有推理性质的阅读理解数据集进行处理，根据数据集要求答案必须通过至少2个候选段落的推理来得出答案的特点来选出候选段落并进行标签标注，获取将是否为候选段落作为标签的数据集；

Bert表征模块，用于执行对候选段落数据集中每个样本中的段落和问题进行表征算法，将问题文本和段落文本合并，截取或补全为512长度的输入，输入到已经过预训练的Bert模型，获得问题和段落向量的表示，提取出段落向量来构造每个样本的段落向量矩阵；

增量处理模块，用于执行对段落向量矩阵执行增量处理算法，即通过attention机制来学习段落向量之间的相似度矩阵R，随后根据两个不同段落与样本问题之间的词语包含关系以及两个不同段落关于词语向量的相似度的计算结果生成enhance matrix矩阵，并使用enhance matrix矩阵进一步对相似度矩阵R进行增量处理；

模型训练模块，用于执行模型的训练任务，通过二分类任务完成模型训练，得到最后的模型；

候选段落输出模块，用于输出未知候选段落的法律文本的候选段落选取结果。

本发明的创新点主要是分析法律专业领域具有推理性质的数据集特点，在Bert的段落输出向量之间加入attention交互机制学习段落相似度关系之后加入enhance matrix对段落之间的相似度关系进一步增强并更新段落的向量表示，取模型预测结果的top n作为样本的候选段落，提高段落选择的准确率，最大程度的减少向下游任务传递的噪音信息。

附图说明

图1是本发明实施例提供的一种基于enhance matrix法律案件候选段落获取方法流程图；

图2是本发明实施例提供的一种基于enhance matrix法律案件候选段落获取方法结构图；

图3是本发明实施例提供的一种法律阅读理解数据集进行候选段落标注过程示意图；

图4是本发明实施例提供的一种法律候选段落数据集示意图；

图5是本发明实施例提供的一种基于enhance matrix法律案件候选段落获取方法网络执行示意图；

图6是本发明实施例提供的一种基于enhance matrix法律案件候选段落获取方法装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于enhance matrix法律案件候选段落获取方法，如图2，具体包括以下步骤：

实施例1

图1是本发明实施例的一种法律案件候选段落获取架构图，如图1所示，本实例首先获得有推理性质的法律阅读理解数据集并对数据集进行标注，获取法律案件的候选段落数据集，将法律文本输入Bert模型进行表征，对向量加attention计算段落之间的相似度矩阵R，根据段落之间的词语关系和段落与问题之间的词语关系构造enhance matrix矩阵EM，进一步使用enhance matrix对段落相似矩阵R进行增强，并通过更新特征表示得到最后的段落向量，将段落向量特征放入sigmoid分类器中，得到最终的候选段落选取结果。

在本实施例中，对带有推理性质的法律阅读理解数据集进行处理，将一个样本数据中的候选段落的标签标为1，非候选段落标为0，获得候选段落与非候选段落的标签数据集。

法律案件多跳阅读理解数据集具有推理的特点，该数据集要求答案必须通过至2个候选段落的推理来得出，并加入了一些其他段落作为干扰项，挑战模型在噪声存在的情况下找到真正的候选段落的能力；数据集的问答包括两种类型：Bridge Questions(桥接问题)和Comparison Questions(比较问题)；回答Bridge类型的问题需要在第一个段落中寻找一个Bridge词语，词语包括实体和名词，拿着词语和问题到第二个合适的段落中去寻找答案；Comparison类型的问题是对Bridge类型问题的一种补充，问题的回答不再依靠于Bridge词语，通过比较同一类别的两个词语产生有趣的多跳问题，回答Comparison类型问题，需要在question中找到两个关键词语a1和a2，在词语a1和a2各自所在的段落寻找关键信息，最后进行比较得出答案。

如图3所示，为本实施例提供的一种具有推理性质的阅读理解法律文本候选段落获取示意图。在获得具有推理性质阅读理解的法律数据集之后，分析样本中问题和段落之间的关联关系，并结合回答一个样本中的问题至少需要两个段落的推理的特点进行标注，多个段落表示为(para₁，para₂，......，para_n)，其中n代表每个样本中段落的数量，将候选段落标注为(label₁，label₂，......，label_n)，其中label_i∈(0，1)，n代表段落的数量，1代表对应的段落为候选段落，0代表对应的段落为非候选段落；如图4所示，为标注出的法律案件候选段落数据集，包括问题、段落和是否为候选段落的标注。

将样本中的问题和各个段落连接，输入Bert模型进行表征，获取样本中每个段落的向量表示E_b；由于数据集具有多跳推理的特点，在段落向量之间接attention操作，来计算样本中段落之间的相似度矩阵R，使段落的向量表示融合其它段落的语义，如图5所示，一种法律候选段落的Bert网络示意图，将样本中的question和各个paragraph连接，表示为[CLS]question[SEP]paragraph[SEP]，由于Bert长度的限制，截取前512个字符，输入到预训练的Bert模型进行表征，获取段落向量的表示，(CLS₁，CLS₂，......，CLS_n)，其中n代表段落的个数，CLS_i代表第i个段落的向量，将每个paragraph和question组合输入到Bert网络，而不是一次性把所有的paragraph和question合并输入到段落中，可以部分解决Bert限制输入长度512的问题，减少信息的丢失，随后通过Bert网络得到的段落向量，样本中所有段落向量构成向量矩阵X，X与不同的权重W计算得到矩阵Q、K，根据attention相似度计算公式计算相似度矩阵R，表示为：

计算出第i个段落向量CLS_i与样本中的其他段落向量的相似度，相似度计算采用的是向量点积的计算方式，两个段落向量CLS₁＝(a₁，a₂，......，a_n)和CLS₂＝(b₁，b₂，......，b_n)的点积结果为(a₁·b₁+a₂·b₂+…+a_n·b_n)，进一步得到段落响度矩阵R，R中的第i行代表样本中第i个段落向量与其他段落向量的相似度。

拿到处理之后的候选段落数据集，针对每一个样本构造enhance matrix，表示为矩阵EM，其中EM_ij表示样本中第i和段落和第j个段落的增量关系；具体包括第i和段落和第j个段落与样本问题之间的词语包含关系，存在则设置为1，段落i与段落j之间关于词语的词向量余弦相似度并计算top k之和，词向量通过相应的字向量相加得到；对两步的计算结果进行相加表示为EM_ij；

如表1所示为enhance matrix的构造过程，矩阵的每个单元格EM_ij代表para_i和para_j的关于词语的增强表示，针对数据集中的每个样本{question，(para₁，para₂，....para_n)}，使用Spacy工具进行分词，得到question的词集合WQ和para_i的词集合WP_i，词语包括由人名、地名以及其他所有以名称为标识的命名实体和其它的名词；对样本中的任意两个不同的两个段落para_i和para_j进行计算，第一步判断如果para_i和para_j的词语集合WP_i和WP_j中的任意两个词语组合同时出现在question的词语集合WQ中，组合中两个词语分别来自两个段落，并且可以为不同词语，如果存在这种情况，则在EM_ij位置增强关系(值加1)；第二步对para_i和para_j的词集合WP_i和WP_j中任意两个词语的Bert表征向量计算词关联值(词向量由字向量之和计算而来)，如下公式所示：

针对法律数据集的关键信息集中在个别词语的特点，构造以上公式，首先计算词向量之间的相似度值COS(x_iy_j)，计算出的数值分布不均匀，进一步除以所有词向量关联值的方差值并取lg，来提高关键词的关联稳定性；并取top k计算和表示为S_ij，在EM_ij位置增强关系(值加S_ij)；对样本中的所有段落处理完毕，得到样本的enhance matrix矩阵EM。

表1

使用构造的enhance matrix来进一步对R矩阵进行增量更新；得到更新后的段落相似度矩阵M：

M＝f(R，enhance_matrix)

通过激活函数softmax计算出权值矩阵，每一行代表每个段落向量与其它段落向量的关系系数，使用段落向量值V乘以权值矩阵得到最后的输出Z。

计算输出Z的公式为：

z＝softmax(M)·V

对得到的输出Z接二分类任务，使用sigmoid作为激活函数，交叉熵函数作为损失函数，对法律阅读理解候选段落数据集进行训练，得到训练好的模型，sigmoid函数用于二分类过程中，它将单个神经元的输出，映射到(0，1)区间内，转换为概率，概率值代表对应段落为候选段落的可能性大小，如图5所示，预测结果表示为(PRO₁，PRO₂，......，PRO_n)，对都有的段落概率值进行排序，取top 2或top 4作为模型的预测结果。

实施例2

图6所示是本发明实施例的一种基于enhance matrix的法律案件候选段落的选取装置，包括：

增量处理模块，用于执行对段落向量矩阵执行增量处理算法，首先通过attention机制来学习段落向量之间的相似度矩阵R，随后根据两个不同段落与样本问题之间的词语包含关系，两个不同段落关于词语向量的余弦相似度的计算结果生成enhance matrix矩阵EM，并使用矩阵EM进一步对相似度矩阵R进行增量处理；

各个模块实现的功能可以根据实施例1方法进行获取，此处不再赘述。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，第i个段落和第j个段落关于词语的增量关系的计算包括：

3.根据权利要求2所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，段落i与段落j之间关于词语的词向量相似度表示为：

4.据权利要求3所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离COS(x_iy_j)表示为：

5.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，一个样本数据的问题必须通过至少2个候选段落的推理来得出，即一个样本的至少有两个候选段落，且样本数据至少有一个非候选段落。

6.根据权利要求1所述的一种基于enhance matrix的法律案件候选段落的选取方法，其特征在于，通过Bert网络得到的段落向量，样本中所有段落向量构成向量矩阵X，X与两个不同的权重W计算得到两个矩阵Q、K，则相似度矩阵R表示为：

其中，d_k为向量矩阵的维度，上标表示转置矩阵。

7.一种基于enhance matrix的法律案件候选段落的选取装置，其特征在于，包括候选段落数据处理模块、Bert表征模块、增量处理模块、模型训练模块以及候选段落输出模块，其中：

8.根据权利要求7所述的一种基于enhance matrix的法律案件候选段落的选取装置，其特征在于，enhance matrix矩阵中第i个段落和第j个段落关于词语的增量关系的计算过程包括：

9.根据权利要求8所述的一种基于enhance matrix的法律案件候选段落的选取装置，其特征在于，增量处理模块中两个不同段落关于词语向量的相似度表示为：

其中，A_ij表示段落i与段落j之间关于词语的词向量相似度；COS(x_iy_j)表示段落x的第i个分词与段落y的第j个分词之间的词向量余弦距离；m为段落x的分词个数，n为段落y的分词个数。