CN109299753A

CN109299753A - 一种用于法律文本信息挖掘的集成学习方法及***

Info

Publication number: CN109299753A
Application number: CN201811511621.0A
Authority: CN
Inventors: 段强; 李锐; 于治楼
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2019-02-01

Abstract

本发明公开一种用于法律文本信息挖掘的集成学习方法，涉及信息挖掘和集成学习技术领域，通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型，利用线性SVM分类器学习不同特征工程模型得出的文本向量，并将学习后的线性SVM分类器对预处理后的法律文本进行预测，通过Stacking方法集成预测结果，同时训练并构建集成学习模型，以针对待处理法律文本输出更加全面和准确度更高的预测结果。本方法能更好的综合已有的信息，发现信息中上下文的关联，以此形成更强的非线性划分能力，降低泛化误差，相较于单一模型的预测，在罪名、法条、刑期等内容的预测上准确度更高。另外，本发明还公开一种用于法律文本信息挖掘的集成学习***。

Description

一种用于法律文本信息挖掘的集成学习方法及***

技术领域

本发明涉及信息挖掘和集成学习技术领域，具体的说是一种用于法律文本信息挖掘的集成学习方法及***。

背景技术

机器学习领域中，集成学习本身不是一个单独的机器学习算法，它是通过构建多个学习器并将其结合来形成强学习器来完成学习任务。过程中要注意的是弱分类器模型的选择和形式及将弱分类器组合为一个强分类器的方式。

集成学***均、取多数票或多次训练取不同权重等方式进行集成学习。另外，还有Stacking的异源集成学习。它将训练集分为几个部分，分别使用不同的基分类器进行训练和预测。这些基分类器可以基于完全不同的思路和方法，具有更高的选择灵活性和结果差异性。然后将这几个基分类器的预测结果建立特征，并输入下一层分类器进行学习。下一层分类器将基分类器生成结果的组合模式作为特征进行进一步学习，从而获得更加泛化的学习能力。该层的预测结果即视为最终结果。

Stacking方法的特点是通过集成多个各有侧重的异源分类器的预测生成新特征，比起相互独立的预测模型，能够增强非线性的表述能力，降低泛化误差，提高预测准确度。理论上，Stacking中的组合模型可以使用各种分类和回归模型。

大数据和互联网的应用给传统的各行各业都开拓了新的思路，在法学研究和法律应用方面，法律数据呈现出数量大、更新快、多样化的特点。将大数据挖掘应用在法律数据相关的信息捕捉、管理、处理中，有助于提高数据处理的效率，将数据的价值充分的利用和体现出来。

具体到司法和法律领域中，使用机器学习和数据挖掘旨在赋予机器理解和学习法律文本并进行分析和判断的能力，以此来完成罪名预测、法条推荐、刑期或罚金预测等有实际应用需求的任务中，有望辅助法官律师等相关人士高效的进行法律判决。全国各地每天产生的法律文书是一个很好的数据挖掘和机器学习的数据源。法律文书往往有着规范的格式、简洁的语言、清晰的逻辑、和明确的判决，经过处理之后辅以自然语言处理的技术，可以用于机器学习和数据挖掘的领域中，做到如判定罪名或推荐法条，预测刑期等常见任务中。

在传统的机器学习中，通常只训练一个模型，通过选择合适的模型、调整参数和对数据的处理来提高预测的准确度。但在实际的判决中，案件的侧重点各有不同，要考虑多种因素；且各个因素间往往存在一定的上下文联系。因此，只通过单个模型往往很难具备广泛的适用性，准确度也会受到影响。

发明内容

本发明针对目前技术发展的需求和不足之处，提供一种用于法律文本信息挖掘的集成学习方法及***。

本发明的一种用于法律文本信息挖掘的集成学习方法，解决上述技术问题采用的技术方案如下：

一种用于法律文本信息挖掘的集成学习方法，首先，收集专业法律工作人员处理过的法律文本作为数据源，对数据源进行预处理，其次，针对预处理结果训练得出不同的特征工程模型，线性SVM分类器学习不同特征工程模型得出的文本向量，随后，线性SVM分类器根据学习结果对预处理后的数据源进行预测，通过Stacking方法集成预测结果，将预测结果用于集成学习模型的训练，训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。

具体的，所涉及对数据源进行预处理的操作包括：采用jieba或thulac工具构建词库，对数据源的法律文本进行分词和去除停用词处理。

具体的，利用现有开源停用词词库，或者，请专业的法律工作人员针对数据源建立分词词库和停用词词库。

具体的，将数据源的法律文本均分成三份，使用10-fold cross validation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。当然，数据源的法律文本不一定非得均分成三份，还可以均分成四份、五份、甚至更过分，同样的，还可以使用ELMo、FastText、GloVe、WordRank训练出相应的ELMo特征工程模型、FastText特征工程模型、GloVe特征工程模型、WordRank特征工程模型。将数据源的法律文本均分成三份只是技术人员的一个常规选择。

具体的，所涉及集成学习模型选用Logistic regression，Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵，三维向量矩阵输入Logistic regression进行Logistic regression的训练，Logistic regression训练完成后，再有待处理法律文本输入Logistic regression时，Logistic regression即可直接输出预测结果。

基于上述一种用于法律文本信息挖掘的集成学习方法，本发明还公开一种用于法律文本信息挖掘的集成学习***，其结构包括：

收集模块，用于收集专业法律工作人员处理过的法律文本作为数据源；

预处理模块，用于对数据源中的法律文本进行预处理；

特征提取模块，用于提取数据源中所有法律文本具有的不同特征；

训练构建模块，根据提取的不同特征训练并构建不同的特征工程模型；

线性SVM分类器模块，用于学习不同特征工程模型得出的文本向量，并根据学习结果对预处理后的数据源进行预测；

集成模块，用于通过Stacking方法集成线性SVM分类器模块的预测结果；

学习训练模块，用于学习预测结果并根据预测结果训练集成学习模型；

集成学习模型，用于对待处理法律文本进行更加全面和准确度更高的预测。

可选的，所涉及预处理模块采用jieba或thulac工具，具体用于数据源的法律文本进行分词和去除停用词处理。

可选的，所涉及集成学习***还包括：

均分模块，用于将数据源中的所有法律文本均分成N等份，其中N为不小于2的自然数，使用10-fold cross validation，对N等份法律文本分别使用N个不同的特征工程模型进行训练。

优选的，所涉及N为3，均分模块使用10-fold cross validation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。

可选的，所涉及集成学习模型选用Logistic regression，集成模块通过Stacking方法将线性SVM分类器模块的预测结果保存为三维向量矩阵，三维向量矩阵输入Logisticregression进行Logistic regression的训练，Logistic regression训练完成后，再有待处理法律文本输入Logistic regression时，Logistic regression即可直接输出预测结果。

本发明的一种用于法律文本信息挖掘的集成学习方法及***，与现有技术相比具有的有益效果是：

1)本发明的集成学习方法通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型，利用线性SVM分类器学习不同特征工程模型得出的文本向量，并将学习后的线性SVM分类器对预处理后的法律文本进行预测，通过Stacking方法集成预测结果，同时训练并构建集成学习模型，以针对待处理法律文本输出更加全面和准确度更高的预测结果；本方法能更好的综合已有的信息，发现信息中上下文的关联，以此形成更强的非线性划分能力，降低泛化误差，相较于单一模型的预测，在罪名、法条、刑期等内容的预测上准确度更高。

2)本发明的集成学习***通过收集模块收集专业法律人员处理的法律文本，通过预处理模块对收集的法律文本进行预处理，通过特征提取模块、训练构建模块、线性SVM分类器模块、集成模块、学习训练模块、集成学习模型依次完成特征提取、训练、预测、集合预测结果、学习、再训练、再预测的过程，与集成学习方法相结合，都能更好的综合已有的信息，发现信息中上下文的关联，以此形成更强的非线性划分能力，降低泛化误差，提高预测准确度。

附图说明

附图1是本发明实施例一的流程框图；

附图2是本发明实施例二的连接框图。

附图中各标号信息表示：

1、收集模块，2、预处理模块，3、特征提取模块，

4、训练构建模块，5、线性SVM分类器模块，6、集成模块，

7、学习训练模块，8、集成学习模型，9、均分模块。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白，以下结合具体实施例，对本发明的技术方案进行清查、完整的描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下获得的所有实施例,都在本发明的保护范围之内。

实施例一：

结合附图1，本实施例提出一种用于法律文本信息挖掘的集成学习方法，首先，收集专业法律工作人员处理过的法律文本作为数据源，对数据源进行预处理，其次，针对预处理结果训练得出不同的特征工程模型，线性SVM分类器学习不同特征工程模型得出的文本向量，随后，线性SVM分类器根据学习结果对预处理后的数据源进行预测，通过Stacking方法集成预测结果，将预测结果用于集成学习模型的训练，训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。

所涉及对数据源进行预处理的操作包括：采用jieba或thulac工具构建词库，对数据源的法律文本进行分词和去除停用词处理。在预处理操作过程中，我们可以利用现有开源停用词词库，或者，请专业的法律工作人员针对数据源建立分词词库和停用词词库。

通常，我们将数据源的法律文本均分成三份，使用10-fold cross validation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。在本实施例中需要补充一点，将数据源的法律文本均分成三份只是技术人员的一个常规选择。数据源的法律文本还可以均分成四份、五份、甚至更过分，同样的，还可以使用ELMo、FastText、GloVe、WordRank训练出相应的ELMo特征工程模型、FastText特征工程模型、GloVe特征工程模型、WordRank特征工程模型。

在本实施例中，集成学习模型选用Logistic regression，Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵，三维向量矩阵输入Logistic regression进行Logistic regression的训练，Logistic regression训练完成后，再有待处理法律文本输入Logistic regression时，Logistic regression即可直接输出预测结果。

本实施例的集成学习方法通过对预处理后的法律文本进行不同特征的提取构建相应的特征工程模型，利用线性SVM分类器学习不同特征工程模型得出的文本向量，并将学习后的线性SVM分类器对预处理后的法律文本进行预测，通过Stacking方法集成预测结果，同时训练并构建集成学习模型，以针对待处理法律文本输出更加全面和准确度更高的预测结果；本方法能更好的综合已有的信息，发现信息中上下文的关联，以此形成更强的非线性划分能力，降低泛化误差，相较于单一模型的预测，在罪名、法条、刑期等内容的预测上准确度更高。

实施例二：

结合附图2，本实施例提出一种用于法律文本信息挖掘的集成学习***，其结构包括：

收集模块1，用于收集专业法律工作人员处理过的法律文本作为数据源；

预处理模块2，用于对数据源中的法律文本进行预处理；

特征提取模块3，用于提取数据源中所有法律文本具有的不同特征；

训练构建模块4，根据提取的不同特征训练并构建不同的特征工程模型；

线性SVM分类器模块5，用于学习不同特征工程模型得出的文本向量，并根据学习结果对预处理后的数据源进行预测；

集成模块6，用于通过Stacking方法集成线性SVM分类器模块的预测结果；

学习训练模块7，用于学习预测结果并根据预测结果训练集成学习模型；

集成学习模型8，用于对待处理法律文本进行更加全面和准确度更高的预测。

在本实施例中，所涉及预处理模块2采用jieba或thulac工具，具体用于数据源的法律文本进行分词和去除停用词处理。

在本实施例中，所涉及集成学习***还包括：

均分模块9，用于将数据源中的所有法律文本均分成N等份，其中N为不小于2的自然数，使用10-fold cross validation，对N等份法律文本分别使用N个不同的特征工程模型进行训练。

在本实施例中，所涉及N为3，均分模块9使用10-fold cross validation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。

在本实施例中，所涉及集成学习模型8选用Logistic regression，集成模块6通过Stacking方法将线性SVM分类器模块5的预测结果保存为三维向量矩阵，三维向量矩阵输入Logistic regression进行Logistic regression的训练，Logistic regression训练完成后，再有待处理法律文本输入Logistic regression时，Logistic regression即可直接输出预测结果。

本实施例的集成学习***通过收集模块1收集专业法律人员处理的法律文本，通过预处理模块2对收集的法律文本进行预处理，通过特征提取模块3、训练构建模块4、线性SVM分类器模块5、集成模块6、学习训练模块7、集成学习模型8依次完成特征提取、训练、预测、集合预测结果、学习、再训练、再预测的过程，与实施例一的集成学习方法相结合，都能更好的综合已有的信息，发现信息中上下文的关联，以此形成更强的非线性划分能力，降低泛化误差，提高预测准确度。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述，这些实施例只是用于帮助理解本发明的核心技术内容，并不用于限制本发明的保护范围，本发明的技术方案不限制于上述具体实施方式内。基于本发明的上述具体实施例，本技术领域的技术人员在不脱离本发明原理的前提下，对本发明所作出的任何改进和修饰，皆应落入本发明的专利保护范围。

Claims

1.一种用于法律文本信息挖掘的集成学习方法，其特征在于,首先，收集专业法律工作人员处理过的法律文本作为数据源，对数据源进行预处理，其次，针对预处理结果训练得出不同的特征工程模型，线性SVM分类器学习不同特征工程模型得出的文本向量，随后，线性SVM分类器根据学习结果对预处理后的数据源进行预测，通过Stacking方法集成预测结果，将预测结果用于集成学习模型的训练，训练完成的集成学习模型针对待处理法律文本输出更加全面和准确度更高的预测结果。

2.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，对数据源进行预处理的操作包括：采用jieba或thulac工具构建词库，对数据源的法律文本进行分词和去除停用词处理。

3.根据权利要求2所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，利用现有开源停用词词库，或者，请专业的法律工作人员针对数据源建立分词词库和停用词词库。

4.根据权利要求1所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，将数据源的法律文本均分成三份，使用10-fold cross validation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。

5.根据权利要求4所述的一种用于法律文本信息挖掘的集成学习方法，其特征在于，所述集成学习模型选用Logistic regression，Stacking方法将线性SVM分类器的预测结果保存为三维向量矩阵，三维向量矩阵输入Logistic regression进行Logistic regression的训练，Logistic regression训练完成后，再有待处理法律文本输入Logistic regression时，Logistic regression即可直接输出预测结果。

6.一种用于法律文本信息挖掘的集成学习***，其特征在于，该***包括：

预处理模块，用于对数据源中的法律文本进行预处理；

7.根据权利要求6所述的一种用于法律文本信息挖掘的集成学习***，其特征在于，所述预处理模块采用jieba或thulac工具，具体用于数据源的法律文本进行分词和去除停用词处理。

8.根据权利要求6所述的一种用于法律文本信息挖掘的集成学习***，其特征在于，还包括：

9.根据权利要求8所述的一种用于法律文本信息挖掘的集成学习***，其特征在于，所述N为3，均分模块使用10-fold cross validation，然后对三份法律文本分别使用TFIDF、Word2Vec、CountVectorizer训练出相应的TFIDF特征工程模型、Word2Vec特征工程模型、CountVectorizer特征工程模型。

10.根据权利要求9所述的一种用于法律文本信息挖掘的集成学习***，其特征在于，所述集成学习模型选用Logistic regression，集成模块通过Stacking方法将线性SVM分类器模块的预测结果保存为三维向量矩阵，三维向量矩阵输入Logistic regression进行Logistic regression的训练，Logistic regression训练完成后，再有待处理法律文本输入Logistic regression时，Logistic regression即可直接输出预测结果。