CN116541523A

CN116541523A - 一种基于大数据的法律判决舆情分类方法

Info

Publication number: CN116541523A
Application number: CN202310485333.7A
Authority: CN
Inventors: 王进; 倪瑞; 廖唯皓; 朱淼; 袁鑫浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-08-04

Abstract

本发明属于自然语言处理领域，具体涉及一种基于大数据的法律判决舆情分类方法；该方法包括：获取法律判决文本数据和带标签的舆情文本数据；提取舆情文本的词级特征向量和句级特征向量；提取法律判决文本的词级特征向量；根据舆情文本的词级特征向量和法律判决文本的词级特征向量得到舆情文本的交叉词级特征向量；对舆情文本的句级特征向量作聚类处理，得到正向舆情聚类中心和非正向舆情聚类中心；根据交叉词级特征进行分类，得到舆情文本的分类结果；计算模型总损失；根据总损失调整模型参数，得到训练好的文本分类模型；本发明提高了模型的分类准确度。

Description

一种基于大数据的法律判决舆情分类方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于大数据的法律判决舆情分类方法。

背景技术

对于文本分类来说，传统的方法主要有基于规则的方法、基于统计的方法和基于深度学习的方法。基于规则的方法需要专家知识来人工定义规则和随时改进规则，对于很多需要理解语境的文本无法通过简单的规则进行处理，因此不太适用于大规模的文本分类；基于统计的方法往往存在数据稀疏性问题且难以处理长文本，这会导致训练和推理变得非常困难，难以用于实际；基于深度学习的方法，通过各种深度学习网络提取文本的数学表征，最后进行分类任务，目前大部分文本分类的最优模型都开始采用基于深度学习的方法。

深度学习的方法有多种，例如基于Bert的文本分类方法、基于LSTM神经网络的文本分类方法等，但是这些方法通常只对输入的舆情文本进行分类，没有注入相关的先验知识，模型只能针对当前舆情文本进行分类，对于文本中出现的一些判决书中的词不能获得其完整的信息。

发明内容

针对现有技术存在的不足，本发明提出了一种基于大数据的法律判决舆情分类方法，该方法包括：获取法律判决文本数据和待分类的舆情文本数据，将法律判决文本数据和待分类的舆情文本数据输入到训练好的文本分类模型中，得到舆情文本数据的分类结果；

文本分类模型的训练过程包括：

S1：获取法律判决文本数据和带标签的舆情文本数据；

S2：根据舆情文本数据提取舆情文本的词级特征向量和句级特征向量；根据法律判决文本数据提取法律判决文本的词级特征向量和句级特征向量；

S3：采用多头注意力机制对舆情文本的词级特征向量和法律判决文本的词级特征向量进行处理，得到舆情文本的交叉词级特征向量；

S4：对舆情文本的句级特征向量作聚类处理，得到正向舆情聚类中心和非正向舆情聚类中心；

S5：将交叉词级特征向量输入到全连接神经网络进行处理，得到舆情文本的低维特征；根据低维特征对舆情文本进行分类，得到舆情文本的分类结果；

S6：对低维特征和两个聚类中心作对比学习并计算对比学习损失；根据标签和分类结果计算全连接分类损失；根据对比学习损失函数与全连接分类损失计算模型总损失；

S7：根据总损失调整模型参数，得到训练好的文本分类模型。

优选的，所述步骤S2具体包括：

S21：采用预训练的Bert模型对舆情文本数据进行处理，得到舆情文本的词级特征向量和句级特征向量；

S22：查询预训练的Bert模型的vocab词表，得到法律判决文本的词级特征向量；将词级特征向量通过全连接网络获得法律判决文本的句级特征向量。

优选的，所述步骤S3具体包括：将舆情文本的词级特征向量分别输入到不同的线性层进行处理，得到K矩阵和V矩阵；将法律判决文本的词级特征向量输入到线性层进行处理，得到Q矩阵；根据K矩阵、V矩阵和Q矩阵得到交叉词级特征向量。

进一步的，计算交叉词级特征向量的公式为：

其中，M表示交叉词级特征向量，d_k表示多头注意力机制中每个头的维度，E表示单位矩阵，softmax()表示softmax激活函数。

优选的，对舆情文本的句级特征向量作聚类处理的过程包括：

S41：将法律判决文本的句级特征向量作为正向舆情聚类中心，并随机初始化与正向舆情聚类中心维度相同的非正向舆情聚类中心；

S42：计算每个舆情文本的句级特征向量与两个聚类中心的距离，将句级特征向量归类到距离最小的类别；

S43：更新非正向舆情聚类中心并返回步骤S42；直到非正向舆情聚类中心不再发生变化。

进一步的，计算舆情文本的句级特征向量与聚类中心距离的公式为：

其中，distance表示舆情文本的句级特征向量与聚类中心的距离，h_i表示句级特征向量第i个维度的值，c_i表示聚类中心第i个维度的值，d表示句级特征向量的维度。

进一步的，更新非正向舆情聚类中心的过程包括：计算所有被归类到非正向舆情的的句级特征向量的聚类中心，将该聚类中心作为新的非正向舆情聚类中心，计算新的非正向舆情聚类中心的公式为：

其中，表示新的非正向舆情聚类中心，m表示所有被归类到非正向舆情的句级特征向量个数，H_id表示所有被归类到非正向舆情的句级特征向量集合H中第i个向量在第d个维度上的值。

优选的，计算对比学习损失的公式为：

其中，l₁表示对比学习损失，S_i表示舆情文本中第i条舆情评论的低维特征向量，C₁表示正向舆情聚类中心，表示非正向舆情聚类中心，sim()表示求余弦相似度，min()表示求最小值，b表示每批次的舆情评论数量，/>表示第i条舆情评论的预测结果。

优选的，计算全连接分类损失的公式为：

其中，l₂表示全连接分类损失，y_i表示第i条舆情评论的标签，表示第i条舆情评论的预测概率值。

本发明的有益效果为：本发明采用基于聚类的对比学习和基于cross attention的注意力机制解决了传统模型无法结合判决文书和舆情以获取更多信息来充分挖掘舆情与判决文书之间的内在关系的问题，通过基于聚类的对比学习，缓解了句极特征向量与由舆情文本词向量构成的序列向量表征不一致的问题并提高了模型的鲁棒性，基于crossattention的注意力机制，引入了更多关于舆情的前缀信息，模型对于舆情中出现的一些关键信息结合判决文书信息后将会有更深入的理解，提高了模型的分类准确度。

附图说明

图1为本发明中文本分类模型训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于大数据的法律判决舆情分类方法，如图1所示，所述方法包括以下内容：获取法律判决文本数据和待分类的舆情文本数据，将法律判决文本数据和待分类的舆情文本数据输入到训练好的文本分类模型中，得到舆情文本数据的分类结果；

文本分类模型的训练过程包括：

S1：获取法律判决文本数据和带标签的舆情文本数据。

获取法律判决文本数据，具体的，获取中国裁判文书网获取判决文书，根据文书概要，依次拼接案件类型、案由、审理程序和标题，构成法律判决文本数据。从互联网上获取与判决文书相关的舆情评论，并对其进行人工标注，标注1表明该评论不反对该判决文书，作为正向舆情，标注0表示该评论反对该判决文书，作为非正向舆情，得到带标签的舆情文本数据。根据一条判决文书对应多条舆情文本的原则，将所有舆情文本按照判决文书进行聚合，对每条判决文书抽取对应80％的舆情文本作为训练集，其余作为测试集。

S2：根据舆情文本数据提取舆情文本的词级特征向量和句级特征向量；根据法律判决文本数据提取法律判决文本的词级特征向量和句级特征向量。

将训练集分批次输入模型以对模型进行训练，具体的：

S21：采用预训练的Bert模型对舆情文本数据进行处理，具体的，将Bert模型输出的CLS位置的向量作为舆情文本的句级特征向量，其余位置的输出作为舆情文本的词级特征向量序列；

S22：查询预训练的Bert模型的vocab词表，得到法律判决文本的词级特征向量；并将词级特征向量通过全连接网络获得法律判决文本的句级特征向量。

S3：采用多头注意力机制对舆情文本的词级特征向量和法律判决文本的词级特征向量进行处理，得到舆情文本的交叉词级特征向量。

将舆情文本的词级特征向量分别输入到不同的线性层进行处理，得到K矩阵和V矩阵；将法律判决文本的词级特征向量输入到线性层进行处理，得到Q矩阵；根据K矩阵、V矩阵和Q矩阵计算交叉词级特征向量，具体的，构建cross attention网络，用法律判决文本对应的Q矩阵去查询舆情文本对应的K矩阵中的内容，获得舆情文本对应的V矩阵的重要性权重，通过将权重矩阵V的对角线元素削弱来缓解每个词过度关注自身的问题；采用多头注意力机制对舆情文本的词级特征向量和法律判决文本的词级特征向量进行处理的公式表示为：

其中，M表示交叉词级特征向量，d_k表示多头注意力机制中每个头的维度，E表示单位矩阵，softmax()表示softmax激活函数，表示对于矩阵中的每一个元素x_i，将其值缩放到[0，1]的范围内。

S4：对舆情文本的句级特征向量作聚类处理，得到正向舆情聚类中心和非正向舆情聚类中心。

S41：将法律判决文本的句级特征向量作为正向舆情聚类中心C₁，并随机初始化与正向舆情聚类中心维度相同的非正向舆情聚类中心C₂。

聚类中心C_i,i＝1,2可表示为：

C_i＝{c₁,c₂,...,c_d}

S42：计算每个舆情文本的句级特征向量与两个聚类中心的距离，将句级特征向量归类到距离最小的类别。

将舆情文本的句级特征向量归类到与聚类中心距离最小的类别(正向舆情或反向舆情)。

更新非正向舆情聚类中心的过程包括：计算所有被归类到非正向舆情的句级特征向量的聚类中心，将该聚类中心作为新的非正向舆情聚类中心，计算新的非正向舆情聚类中心的公式为：

S5：将交叉词级特征向量输入到全连接神经网络进行处理，得到舆情文本的低维特征；根据低维特征对舆情文本进行分类，具体的，将低维特征通过全连接神经网络获得对于每个类别的概率，选取概率最大的类别作为舆情文本的分类结果。

S6：对低维特征和两个聚类句级特征向量作对比学习并计算对比学习损失；根据标签和分类结果计算全连接分类损失；根据对比学习损失函数与全连接分类损失计算模型总损失。

计算对比学习损失l₁的公式为：

其中，l₁表示对比学习损失，S_i表示舆情文本中第i条舆情评论的低维特征向量，C₁表示正向舆情聚类中心，表示非正向舆情聚类中心，sim()表示求余弦相似度，min()表示求最小值，b表示每批次的舆情评论数量，/>表示第i条舆情评论的预测结果；通过这样的设计，可以让模型着重关注于被模型预测错误的数据，使得模型在对比学习中与对应类别的聚类中心对齐。

计算全连接分类损失l₂的公式为：

其中，y_i表示第i条舆情评论的标签，表示第i条舆情评论的预测概率值。

根据对比学习损失函数与全连接分类损失计算模型总损失，具体公式为：

其中l₁表示对比学习损失函数，l₂表示全连接分类损失函数。

S7：根据总损失调整模型参数，得到得到训练好的文本分类模型。

根据损失函数优化模型，当损失最小时，完成模型的训练；获取法律判决文本数据和待分类的舆情文本数据，将法律判决文本数据和待分类的舆情文本数据输入到训练好的文本分类模型中，可得到舆情文本数据的分类结果。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的法律判决舆情分类方法，其特征在于，包括：获取法律判决文本数据和待分类的舆情文本数据，将法律判决文本数据和待分类的舆情文本数据输入到训练好的文本分类模型中，得到舆情文本数据的分类结果；

文本分类模型的训练过程包括：

S1：获取法律判决文本数据和带标签的舆情文本数据；

2.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法，其特征在于，所述步骤S3具体包括：将舆情文本的词级特征向量分别输入到不同的线性层进行处理，得到K矩阵和V矩阵；将法律判决文本的词级特征向量输入到线性层进行处理，得到Q矩阵；根据K矩阵、V矩阵和Q矩阵得到交叉词级特征向量。

4.根据权利要求3所述的一种基于大数据的法律判决舆情分类方法，其特征在于，计算交叉词级特征向量的公式为：

5.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法，其特征在于，对舆情文本的句级特征向量作聚类处理的过程包括：

6.根据权利要求5所述的一种基于大数据的法律判决舆情分类方法，其特征在于，计算舆情文本的句级特征向量与聚类中心距离的公式为：

7.根据权利要求5所述的一种基于大数据的法律判决舆情分类方法，其特征在于，更新非正向舆情聚类中心的过程包括：计算所有被归类到非正向舆情的的句级特征向量的聚类中心，将该聚类中心作为新的非正向舆情聚类中心，计算新的非正向舆情聚类中心的公式为：

8.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法，其特征在于，计算对比学习损失的公式为：

9.根据权利要求1所述的一种基于大数据的法律判决舆情分类方法，其特征在于，计算全连接分类损失的公式为：