CN108009284A

CN108009284A - 采用半监督卷积神经网络的法律文本分类方法

Info

Publication number: CN108009284A
Application number: CN201711408277.8A
Authority: CN
Inventors: 李鹏华; 米怡; 朱智勤; 李嫄源; 赵芬
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-05-08

Abstract

本发明涉及一种采用半监督卷积神经网络的法律文本分类方法，属于神经网络领域。该方法利用SSC对自然语言进行处理，实现了该***的主要目标，通过对法律案情描述的处理，初步解决该法律案情描述触犯了当事人什么权益，或是当事人违反了哪些法律法规，当事人可能不止一个权益受到侵犯，也或者是当事人同时触犯了多个法律法规，实现多标签分类。该法律服务平台帮助办案人员高效处理各类法律案件，对各类法律案件进行语义分析，实现分类，使我们的自然语言理解功能不仅具备理解字面意思的能力，还具备逻辑推理，理解深层意思的能力。

Description

采用半监督卷积神经网络的法律文本分类方法

技术领域

本发明属于神经网络领域，涉及采用半监督卷积神经网络的法律文本分类方法。

背景技术

随着经济社会的快速发展，各类突发公共事件层出不穷，大量的法律案件每天都在产生，案件的紧急处理和自动分类是最基本和最关键的步骤。然而，对于公安执法领域，执法人员的办案经验及对法律法规的熟悉程度良莠不齐，产生了很多判决有失偏颇的问题，而且现有的公安信息***的应用基本停留在查询、统计等一些简单的应用，不能满足案件及时处理的需求；对于律师事务所来说，传统的方案通常采用人工处理模式对法律案件一一处理，不但造成大量的人力资源浪费，同时违反犯罪行为得不到及时有效解决；对于普通民众来说，及时辨别自己违反了哪种法律也是迫在眉睫的。利用深度学***台。

发明内容

有鉴于此，本发明的目的在于提供一种基于半监督卷积神经网络(Semi-supervised Convolutional Neural Networks，SSC)的互联网+法律服务平台，该***实现法律文本的有效分类。比传统神经网络算法具有更高的准确度，能够更好地表示数据的特征。

为达到上述目的，本发明提供如下技术方案：

采用半监督卷积神经网络的法律文本分类方法，包括以下步骤：

S1：从输入的法律案情文本数据中提取高频单词；

S2：利用word2vec将词表征为向量，得到矩阵作为输入；

S3：通过训练two-view-embedding学习模型，每个特征区域预测目标区域；

S4：把学到的向量标签数据整合进监督卷积神经网络；

S5：滤波器对句子矩阵做卷积运算；

S6：得到不同程度的特征字典；

S7：对特征字典进行最大值池化，利用最大值池化方法，对特征字典进行池化操作；

S8：生成一串单变量的特征向量；

S9：在softmax层，以这个特征向量作为输入，对句子矩阵做分类；

S10：输入验证集，调整分类器参数；

S11：输入测试集，测试模型的分类能力。

进一步，所述步骤S2具体为：采用Word2vec(Word To Vector)神经网络语言模型对词向量进行训练，将词汇转换成向量形式，从而把对文本的处理转化为向量空间中的向量运算，方便地完成各种NLP任务；Word2vec以法律文本语料库作为输入，首先在训练文本数据集中构建一个词汇表，然后训练出每个单词的词向量作为输出，产生的词向量文件作为特征向量供后续的自然语言处理和机器学习等算法使用；Word2Vec模型提取文本中词汇的位置关系，提取词汇的上下文信息，生成词汇的向量模型；词汇通过数值向量量化表示，词汇之间的相似度由向量计算得到。

进一步，所述步骤S4具体为：把从two-view-embedding学习模型学习到的标签数据整合进监督卷积神经网络，作为卷积神经网络的额外输入，表达式为：σ(W·r_i(x)+V·u_i(x)+b)，代替σ(W·r_i(x)+b)，r_i(x)是卷积神经网络模型第i个区域的输入区域向量，u_i(x)是two-view-embedding学习模型的第i个区域的输出向量，W、V为权重矩阵，b为偏差向量。

进一步，所述步骤S5具体为：利用三种区域尺寸的滤波器，且每个区域尺寸有2个滤波器，共有6个滤波器对句子矩阵做卷积运算。

进一步，所述步骤S9具体为：利用SSC对自然语言进行处理，通过对法律案情描述的处理，初步解决该法律案情描述触犯当事人什么权益，或是当事人违反哪些法律法规，当事人权益受到侵犯不止一个，也或是当事人同时触犯多个法律法规，实现多标签分类。

本发明的有益效果在于：本发明利用SSC对自然语言进行处理，实现了该***的主要目标，通过对法律案情描述的处理，初步解决该法律案情描述触犯了当事人什么权益，或是当事人违反了哪些法律法规，当事人可能不止一个权益受到侵犯，也或者是当事人同时触犯了多个法律法规，实现多标签分类。该法律服务平台帮助办案人员高效处理各类法律案件，对各类法律案件进行语义分析，实现分类，使我们的自然语言理解功能不仅具备理解字面意思的能力，还具备逻辑推理，理解深层意思的能力。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明采用半监督卷积神经网络对法律文本分类的流程图；

图2为本发明采用two-view-embedding学习模型训练模型的示意图；

图3为本发明用于句子分类的卷积神经网络架构示意图；

图4为本发明独热卷积神经网络示意图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

图1为本发明的采用半监督卷积神经网络对法律文本实现多标签分类的流程图。以法律案情描述文本为语义知识资源，半监督卷积神经网络为语义分析方法。本文构建一种基于半监督卷积神经网络下的自然语言语义分析方法，对自然语言完成分类任务。下面结合附图1给出一个利用半监督卷积神经网络对自然语言语义分类的实施例以对本发明作进一步的阐述。如图1所示，本发明各部分具体实施细节如下：

1.从输入的法律案情文本数据中提取高频单词。由于对输入文本数据的保存会造成大量的资源消耗，所以没有必要使用所有的法律案情文本数据作为训练集。为了获得更好的文本分类性能，从输入的法律案情文本数据中提取高频单词作为模型的训练集。

2.利用word2vec将词表征为向量，得到矩阵作为输入。词向量这种方式最主要的优点在于让有一定关系的词，在数学意义上的距离更近了。要想对词向量进行训练，其中最广泛使用的方法有神经网络语言模型，word2vec也是基于它进行改进的，本文针对此种模型进行研宄。Word2vec(WordToVector)，它可以将词汇转换成向量形式，从而把对文本的处理转化为向量空间中的向量运算，方便地完成各种自然语言处理任务。Word2vec以文本语料库作为输入，首先在训练文本数据集中构建一个词汇表，然后训练出每个单词的词向量作为输出，产生的词向量文件可以作为特征向量供后续的自然语言处理和机器学习等算法使用。Word2Vec模型提取文本中词汇的位置关系，提取词汇的上下文信息，生成词汇的向量模型。词汇可以通过数值向量量化表示，词汇之间的相似度可以由向量计算得到。

3.通过训练two-view-embedding学习模型，每个特征区域预测目标区域(邻近区域)。Two-view-embedding模型不同于监督卷积神经网络学习模型，two-view-embedding学习模型的输入数据是无标签数据，且每个小区域都与自己的目标输出相关联，如图2所示。

4.通过训练two-view-embedding模型学习到的标签数据整合进监督卷积神经网络。把从two-view-embedding学习模型学习到的标签数据整合进监督卷积神经网络，作为卷积神经网络的额外输入。数学表达式表达为：σ(W·r_i(x)+V·u_i(x)+b)，代替σ(W·r_i(x)+b)。这里，r_i(x)是卷积神经网络模型第i个区域的输入区域向量，u_i(x)是two-view-embedding学习模型的第i个区域的输出向量，W、V为权重矩阵，b为偏差向量。

5.滤波器对句子矩阵做卷积运算。本***利用三种区域尺寸(2、3、4)的滤波器，且每个区域尺寸有2个滤波器，共有6个滤波器对句子矩阵做卷积运算，如图3所示。

6.得到不同程度的特征字典。

7.对特征字典进行最大值池化。本***利用最大值池化方法，对特征字典进行池化操作。

8.生成一串单变量的特征向量。

9.在softmax层，以这个特征向量作为输入，对句子矩阵做分类。利用SSC对自然语言进行处理，实现了该***的主要目标，通过对法律案情描述的处理，初步解决该法律案情描述触犯了当事人什么权益，或是当事人违反了哪些法律法规，当事人可能不止一个权益受到侵犯，也或者是当事人同时触犯了多个法律法规，实现多标签分类。

10.入验证集，调整分类器参数。

11.输入测试集，测试模型的分类能力。

图2为本发明采用two-view-embedding学习模型训练模型的示意图。Two-view-embedding学习模型是由输入层、卷积层、高层和输出层组成的网络模型。

Two-view-embedding学习模型定义如下：如果存在函数g₁，满足：

P(X₂|X₁)＝g₁(f₁(X₁),X₂) (X₁,X₂)∈χ₁×χ₂ (1)

那么，函数f₁被定义为χ₁关于χ₂的二视图嵌套。Two-view-embedding模型学习得到的标签数据整合进入CNN，作为CNN的额外输入。

Two-view-embedding模型主要实现下面三个目标：

(1)从每个尺寸为p的文本区域预测邻近区域，而且，它能够获取数据之间的内部信息；

(2)它能够为每个尺寸为p的小文本区域分配一个标签(例如，积极的/消极的)，而不是整个文本实现最终的分类任务；

(3)通过训练，卷积层学习文本区域的向量表示。也就是说，它把高维的向量转化为低维向量，获取预测的特征信息。

通过训练two-view-embedding学习模型，每个特征区域预测目标区域(邻近区域)。two-view-embedding模型不同于监督卷积神经网络学习模型，two-view-embedding学习模型的输入数据是无标签数据，且每个小区域都与自己的目标输出相关联。把通过训练two-view-embedding学习模型学习到的标签数据整合进监督卷积神经网络，作为卷积神经网络的额外输入。

图3为本发明用于句子分类的卷积神经网络架构示意图。滤波器对句子矩阵做卷积运算。本***利用三种区域尺寸的滤波器，且每个区域尺寸有2个滤波器，共有6个滤波器对句子矩阵做卷积运算，得到不同程度的特征字典；对特征字典进行最大值池化，本***利用最大值池化方法，对特征字典进行池化操作，生成一串单变量的特征向量；在softmax层，以这个特征向量作为输入，对句子矩阵做分类。利用CNN对自然语言进行处理，完成语义分析，对法律案情文本实现多标签分类任务。CNN底层的神经网络接收原始的特征向量，在自底向上的传递过程中，从具体的特征向量逐渐转化为抽象的特征向量,在顶层的神经网络形成更易于分类的组合特征向量，增加网络层数能够将特征向量更加抽象化。

卷积层包含许多计算单元，每一个对应于输入的一小块区域，所有的这些小区域覆盖全部输入数据。与输入x的第i个区域相关联的计算单元的数学表达式如下：

σ(W·r_i(x)+b) (2)

σ是预先定义的非线性激活函数，r_i(x)是第i个输入区域向量，权重矩阵W和偏向向量b通过训练被学习到，被相同层的计算单元所共享，减少了***参数。

卷积层的输出被输送到池化层，池化层通过合并邻近像素点本质上缩小了输入矩阵大小，以至于高层能够处理更抽象、更全局的信息。池化层包括许多池化单元，每一个池化单元与输入矩阵的每个小区域密切相关。通常使用的池化方法有平均池化和最大池化，本***利用最大值池化方法，对特征字典进行池化操作，生成一串单变量的特征向量。

在CNN中，全连接层位于网络模型的最后部分，负责对网络最终的输出特征进行分类预测，得出分类结果。图4为本发明独热卷积神经网络示意图。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.采用半监督卷积神经网络的法律文本分类方法，其特征在于：该方法包括以下步骤：

S1：从输入的法律案情文本数据中提取高频单词；

S2：利用word2vec将词表征为向量，得到矩阵作为输入；

S4：把学到的向量标签数据整合进监督卷积神经网络；

S5：滤波器对句子矩阵做卷积运算；

S6：得到不同程度的特征字典；

S8：生成一串单变量的特征向量；

S10：输入验证集，调整分类器参数；

S11：输入测试集，测试模型的分类能力。

2.根据权利要求1所述的采用半监督卷积神经网络的法律文本分类方法，其特征在于：所述步骤S2具体为：采用Word2vec(WordToVector)神经网络语言模型对词向量进行训练，将词汇转换成向量形式，从而把对文本的处理转化为向量空间中的向量运算，方便地完成各种NLP任务；Word2vec以法律文本语料库作为输入，首先在训练文本数据集中构建一个词汇表，然后训练出每个单词的词向量作为输出，产生的词向量文件作为特征向量供后续的自然语言处理和机器学习等算法使用；Word2Vec模型提取文本中词汇的位置关系，提取词汇的上下文信息，生成词汇的向量模型；词汇通过数值向量量化表示，词汇之间的相似度由向量计算得到。

3.根据权利要求1所述的采用半监督卷积神经网络的法律文本分类方法，其特征在于：所述步骤S4具体为：把从two-view-embedding学习模型学习到的标签数据整合进监督卷积神经网络，作为卷积神经网络的额外输入，表达式为：σ(W·r_i(x)+V·u_i(x)+b)，代替σ(W·r_i(x)+b)，r_i(x)是卷积神经网络模型第i个区域的输入区域向量，u_i(x)是two-view-embedding学习模型的第i个区域的输出向量，W、V为权重矩阵，b为偏差向量。

4.根据权利要求1所述的采用半监督卷积神经网络的法律文本分类方法，其特征在于：所述步骤S5具体为：利用三种区域尺寸的滤波器，且每个区域尺寸有2个滤波器，共有6个滤波器对句子矩阵做卷积运算。

5.根据权利要求1所述的采用半监督卷积神经网络的法律文本分类方法，其特征在于：所述步骤S9具体为：利用SSC对自然语言进行处理，通过对法律案情描述的处理，初步解决该法律案情描述触犯当事人什么权益，或是当事人违反哪些法律法规，当事人权益受到侵犯不止一个，也或是当事人同时触犯多个法律法规，实现多标签分类。