CN107577785B - 一种适用于法律识别的层次多标签分类方法 - Google Patents

一种适用于法律识别的层次多标签分类方法 Download PDF

Info

Publication number
CN107577785B
CN107577785B CN201710832304.8A CN201710832304A CN107577785B CN 107577785 B CN107577785 B CN 107577785B CN 201710832304 A CN201710832304 A CN 201710832304A CN 107577785 B CN107577785 B CN 107577785B
Authority
CN
China
Prior art keywords
label
class
feature
category
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710832304.8A
Other languages
English (en)
Other versions
CN107577785A (zh
Inventor
柏文阳
陈朋薇
张剡
周嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201710832304.8A priority Critical patent/CN107577785B/zh
Publication of CN107577785A publication Critical patent/CN107577785A/zh
Application granted granted Critical
Publication of CN107577785B publication Critical patent/CN107577785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种适用于法律识别的层次多标签分类方法,包括以下步骤:步骤1,从经过预处理的裁判文书中提取案件事实及其法律条文;步骤2,基于标签空间的层次结构,扩展案件事实对应的法律条文,使案件样本的类别标签为标签空间的一个子集;步骤3,对案件事实文本进行分词和词性标注,对分词结果进行特征选择,选取能够充分表示案件事实的特征词构建特征向量;步骤4,构建预测模型:找出未见实例x在扩展多标签训练集中的k近邻样本集合N(x),给每个近邻样本设置权重,根据k个近邻样本对各个类别的分类权重计算未见实例属于各个类别的置信度,最后预测未见实例的类别标签集合。

Description

一种适用于法律识别的层次多标签分类方法
技术领域
本发明属于计算机数据分析与挖掘领域,涉及一种适用于法律识别的层次多标签分类方法。
背景技术
层次多标签分类是多标签分类的一个特例。与一般的多标签分类不同,层次多标签分类问题中,每个样本可以具有多个类别标签,同时样本标签空间以树形或有向无环图的层次结构组织。在有向无环图中,一个节点可能有多个父节点,相比树形结构更为复杂,算法的设计难度更大,因此目前层次多标签分类方面的研究主要针对树形的类别标签结构。根据算法考察类别层次结构的不同方式,层次多标签分类算法可以分为局部算法和全局算法。
局部算法逐一考察类别层次中的各个内部节点的局部分类信息,将层次多标签分类问题转化为多个多标签分类问题。而且在训练内部节点上的多标签分类器时,需要选择合适的局部样本集。在预测阶段采用自顶向下等预测方式使预测结果满足层次要求。文献ESULI A,FAGNI T,SEBASTIANI F.TreeBoost.MH:A boosting algorithm formulti-labelhierarchical text categorization[C]//String Processing andInformationRetrieval.2006:13–24.提出了TreeBoost.MH算法来处理层次多标签文本分类问题。算法递归地在类别标签树中的每一个非叶子节点上训练多标签分类器,基分类器选择AdaBoost.MH,在每个多标签分类器训练过程中,特征选择和训练样本的选择都局部地进行。实验效果证明TreeBoost.MH算法在时间效率和预测性能上都好于AdaBoost.MH算法。文献CERRI R,BARROS R C,DE CARVALHO AC.Hierarchical multi-labelclassificationusing local neural networks[J].Journal of Computer and SystemSciences,2014,80(1):39–56.提出了基于多层感知机的局部层次多标签分类算法,在类别层次的每一层训练一个多层感知机网络,每个神经网络与一个类别层次关联,用于预测该层次上的类别标签,某一层上神经网络的预测结果将作为下一层神经网络的输入。由于每一层神经网络都是在同样的样本集合上训练得到,因此预测结果会出现不满足层次限制的情况,需要通过对预测结果进行后续处理来保证其满足层次限制。
局部算法的缺点一方面在于需要训练多个分类器,造成模型较为复杂,影响了模型的可理解性;另一方面在于预测过程中会出现阻塞问题,即在上层被错误分类的样本无法到达下层的分类器,虽然有人提出了降低阈值、限制投票和扩展阈值倍增三种策略来应对局部算法的阻塞问题,但局部算法往往在预测准确率上较为不理想。
全局算法从整体上考虑类别的层次结构,训练单一的层次多标签分类器,对未见实例进行预测。全局算法根据其处理类别标签层次结构的方式主要可以分为以下几种:一种全局算法是利用类别聚类,首先计算测试样本与各个类别的相似度,然后将测试样本分类到距离最近的类别。另一种方法是将层次多标签分类问题转换为多标签分类问题进行处理:文献KIRITCHENKO S,MATWIN S,FAMILI F.Functional annotation of genesusinghierarchical text categorization[J],2005.对训练样本的类别标签进行扩展,增加其祖先类别标签,将层次多标签分类问题转换为多标签分类问题进行处理。在测试阶段,由于采用的多标签分类算法AdaBoost.MH没有考虑类别的层次结构,因此面临了与局部算法相同的问题,即预测结果会有层次不一致情况,同样需要对模型的输出进行修正来保证层次限制满足。还有的全局算法是改造现有非层次分类算法使其能够直接处理层次信息并利用层次信息来改善性能。文献VENS C,STRUYF J,SCHIETGAT L,et al.Decision treesfor hierarchical multilabelclassification[J].Machine Learning,2008,73(2):185–214.基于预测聚类树(PCT)提出了Clus-HMC算法,训练一棵决策树来处理层次多标签分类问题,并且与Clus-HSC和Clus-SC方法进行了比较,Clus-SC忽略类别标签的层次结构,为每个类别标签训练一个独立的分类器,Clus-HSC方法是层次化的Clus-SC,预测结果满足层次限制。实验结果表明,全局的Clus-HMC算法不仅在预测性能上好于Clus-SC和Clus-HSC算法,而且在时间效率上也更好。
总的来说,全局算法有两方面特征:一次性的从整体上考虑类别的层次结构;不具有局部算法所特有的模块性。全局算法和局部算法的关键不同之处在于训练过程,在测试阶段,全局算法甚至也可以像局部算法一样使用自顶向下的方式对未见实例进行类别预测。
由于层次多标签分类问题中,类别标签的组织呈层次结构,因此如果样本具有类别标签ci,则样本也隐含地具有了ci的所有祖先类别标签;另一方面,在预测未见实例的类别时,也要满足层次限制,即不能出现未见实例属于某类别而不属于该类别的祖先类别的情况。一般的层次多标签分类算法往往无法保证其预测结果满足层次限制,或者由于没有利用到标签空间的层次结构特征而无法取得最优的学习效果。因此,层次多标签分类算法不仅要充分利用类别标签之间的关联和层次结构,提高分类模型的预测性能,还要使预测结果满足层次限制。
案件适用法律自动识别问题本质上是一个层次多标签分类问题,样本的类别标签即案件适用的法律条文呈树形结构组织,一个案件可能适用多项法律条文,且案件适用的各项法律条文具体程度可能不同。相应的用于解决案件适用法律自动识别问题的层次多标签分类算法需要能够处理树形的类别层次结构,而且为非强制叶节点预测算法,预测的类别标签可以对应到类别层次结构中的任意节点。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种有效的的适用于法律识别的层次多标签分类方法。
技术方案:本发明公开了一种适用于法律识别的层次多标签分类方法,包括以下步骤:
步骤1,利用基于jsoup的爬虫技术从互连网上爬取所需的裁判文书原始文本数据集,一份裁判文书对应一个样本,以7:3的比例将其随机划分为训练样本集和测试样本集。然后进行裁判文书的预处理:根据裁判文书的行文结构从中提取案件事实及其适用的法律条文,案件事实用于生成案件样本的特征向量,案件样本包括训练样本和测试样本,适用的法律条文用于表示案件样本的类别标签,将原始文本数据集转化为半结构化的多标签训练样本集和测试样本集,半结构化的样本形式为:(案件事实描述,法律条文文本);对案件适用法律条文中的错误和格式不一致进行修正;利用哈工大的语言技术平台LTP作为语言处理工具(LTP是一整套中文语言处理***,制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等六项中文处理核心技术),以及基于动态链接库(DLL)的应用程序接口、可视化工具,并且能够以网络服务的形式进行使用)对案件事实描述进行分词和词性标注。
步骤2,由于法律***中法律条文的组织呈树形结构,对应地,由多标签训练集中的类别标签构成的标签空间呈树形结构。基于多标签训练样本集中的类别标签构成的标签空间标签空间的层次结构,扩展所有案件样本的案件事实对应的法律条文,使每个案件事实对应的类别标签为标签空间的一个子集且满足层次限制;
步骤3,对步骤1中来自训练集的分词结果(指的是步骤1所述半结构化的多标签训练集的案件事实部分的分词结果)进行特征选择,选取能够充分表示案件事实的特征词构建特征向量;经过文本表示,得到结构化的扩展多标签训练样本集Tr和扩展多标签测试样本集Te;
步骤4,构建预测模型:找出来自扩展多标签测试样本集Te的未见实例x在扩展多标签训练样本集Tr中的k近邻样本集合N(x),未见实例即待分类的案件事实,给每个近邻样本设置权重,根据k个近邻样本对标签空间中各个类别的分类权重计算未见实例x属于标签空间中各个类别的置信度,预测未见实例x的类别标签集合h(x),且h(x)满足层次限制。最后根据标签空间的树形结构,除去预测未见实例x的类别标签集合h(x)中的层次限制,(即标签扩展的逆过程),得到未见实例的具体适用法律条文。。
步骤2包括:
步骤2-1,在层次多标签分类问题中,给定d维实例空间
Figure GDA0002300851710000041
(为实数集),和包含q个类别的标签空间Y={y1,y2,…,q},yv表示第v个类别的标签,1≤v≤q,则类别标签空间层次结构可以用二元组(Y,<)表示,<表示类别标签的偏序关系,如果有yv,yu∈Y且yv<yu,则类别标签yv属于类别标签yu,yv是yu的子孙类别标签,yu是yv的祖先类别标签,<表示类别标签的偏序关系,偏序关系<可以理解为“属于”关系,即如果有yv,yu∈Y且yv<yu,则类别标签yv属于类别标签yu,yv是yu的子孙类别标签,yu是yv的祖先类别标签,偏序关系<具有非对称性、非自反性和传递性,可以用以下四个特征描述:
a)类别标签层次结构中唯一的根节点用虚拟类别标签R表示,对任意yi∈Y,有yi<R;
b)对任意yi,yj∈Y,如果有yi<yj,那么
Figure GDA0002300851710000043
c)任意yi∈Y,有
d)任意yi,yj,yk∈Y,yi<yj且yj<yk,则有yi<yk
类别标签的组织结构满足上述四个特征的多标签分类问题都可以认为是层次多标签分类问题。由上述形式化定义可知,在层次化的类别标签空间中,从任一类别节点开始往上追溯到根节点而形成的唯一路径上的所有其他类别节点(除去开始节点)都是该类别节点的祖先类别节点。因此如果样本具有类别标签yi,则样本也隐含地具有了yi的所有祖先类别标签,这就要求分类器对预测未见实例x的类别标签集合h(x)必须满足层次限制,即,
Figure GDA0002300851710000051
且y″<y″′:y″′∈h(x),其中y″为h(x)中的类别标签,y″′为y″的一个祖先类别标签;
步骤2-2,对于每一个多标签案件样本(xi,hi),1≤i≤m,m为获取的全部裁判文书样本的数量,xi∈X为d维的特征向量,用于表示案件事实部分,
Figure GDA0002300851710000052
为与xi对应的一组类别标签,即xi对应的法律条文,令扩展后的类别标签集合为hi′,则hi′中包含hi中的所有类别标签及其所有祖先类别标签。形式化地,
Figure GDA0002300851710000054
其中,y′为hi中的类别标签y的祖先类别标签,y∈hi
标签扩展过程将类别标签的层次关系明确地在样本的类别标签中表达出来:如果样本被标记为某些类别,那么经过标签扩展,这些类别的祖先类别也会显式地赋予该样本;因此每个样本的类别标签可以看作标签空间树的一棵子树,并且各个子树的顶层都是根节点。由此可见,如果有yi,yj∈Y且yi<yj,未见实例在扩展后的多标签训练集中的k近邻样本中,具有类别标签yi的样本数一定不小于具有类别标签yj的样本数。标签扩展是保证本学习算法预测结果满足层次限制的重要步骤。
步骤3包括如下步骤:
步骤3-1,特征选择的目的是为了特征降维,由于一般的文本特征选择算法不能直接处理多标签数据集,因此需要将多标签样本数据转换为单标签样本数据进行处理。转换的方法是:对于每一个多标签案件样本(xi,hi)(1≤i≤m),用|hi|表示多标签案件样本的类别标签集合hi中标签类别的个数,将其替换为|hi|个单标签案件样本(xi′,yi′)(1≤i′≤|hi|,yi′∈hi),每个单标签样本的类别标签yi′即为类别标签集合hi中的一个类别标签;多标签案件样本包括多标签训练样本和多标签测试样本;表1给出了按照上述策略,将多标签样本转化为单标签样本的示例。
表1多标签样本转换过程
Figure GDA0002300851710000061
步骤3-2,经过步骤3-1的转换过程,多标签案件样本就转换成为了多个单标签的案件样本,可以利用一般特征选择算法对步骤1中原始训练集所得分词结果进行特征选择,选择一定数量(通常视原始文本数据集情况而定,比如用信息增益算法进行特征选择时,应使所选特征词的信息增益总量尽可能大且特征词数量不至于过多,一般至少取100个特征词)的具有区分能力的特征词构成特征空间,用来自特征空间的特征词表示每个案件样本的案件事实部分。其中,每个特征词对应的属性值,也就是特征权重,采用常用的TF-IDF算法进行计算。将每个单标签的案件样本的案件事实部分看成一个已经分词的文档,则所有单标签的案件样本的案件事实部分组成一个文档集合。文档集合中第i″个文档中第j″维特征的特征权重tf-idfi″j″定义如下:
其中,tf-idfi″j″表示特征词tj″在文档di″中出现的频率,idfj″表示特征词tj″在文档集合中的反文档频率,N表示文档集合中的文档总数,nj″表示特征词tj″在文档集合中的文档频率,即文档集合中出现特征词tj″的文档数目,分母为归一化因子;
步骤3-3,利用信息增益算法或者卡方统计算法对步骤1中的分词结果进行特征选择,选择大约100个最具有区分能力的特征词构成特征向量。常用的文本特征选择方法主要基于文档频率(DF),互信息(MI),信息增益(IG),卡方统计(χ2Statistic,CHI)等衡量指标。基于文档频率的特征选择过于简单,往往无法选取最具分类信息的特征词,互信息的缺点在于容易受到特征词的边缘概率影响,因此本层次多标签分类方法选择信息增益或者卡方统计算法进行特征选择。
步骤3-3包括:采用信息增益算法进行特征选择:特征词t的信息增益IG(t)的定义如下:
Figure GDA0002300851710000071
其中,p(yv)表示类别标签yv出现的概率,p(t)表示特征词t出现的概率,表示在特征词t出现的前提下类别标签yv出现的概率,
Figure GDA0002300851710000073
表示特征词t不出现的概率,
Figure GDA0002300851710000074
表示在特征词t不出现的前提下类别标签yv出现的概率,对于文档集合中的每个特征词,计算其信息增益,信息增益值低于设定的阈值(比如取0.15,设定阈值时应使所选特征词的信息增益总量尽可能大且特征词数量不至于过多)的特征词不纳入特征空间;
步骤3-3还可以采用卡方统计算法进行特征选择:先假设特征词与类别是不相关的,如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备择假设:即特征词与类别有着很高的相关度。
令A为包含特征词t且属于类别标签yv的文档数量,1≤v≤q,B为包含特征词t而不属于类别标签yv的文档数量,C为不包含特征词t而属于类别标签yv的文档数量,D为不包含特征词t且不属于类别标签yv的文档数量,N为文档集合中的文档总数,则特征词t和类别标签yv的卡方统计量χ2(t,yv)定义为:
Figure GDA0002300851710000075
特征词t和类别yv独立时,其卡方统计量为0,针对一个特征词,计算其关于各个类别的卡方统计量,然后分别计算均值χ2 avg(t)和最大值
Figure GDA0002300851710000076
用χ2 avg(t)和
Figure GDA0002300851710000077
综合考虑,选出一定数量(大约100个)的具有区分能力的特征词,其中p(yv)表示类别标签yv出现的概率:
卡方统计特征选择算法相比于互信息的主要优点在于它是归一化的值,因此可以更好地衡量同一类别中的不同特征词。
步骤4中,找k近邻时,未见实例x与扩展多标签训练样本集中的近邻样本(xa,ha)的距离d(x,xa),其中(xa,ha)∈N′(x),1≤a≤k,,ha为xa对应的类别标签,计算它们的特征向量的余弦相似度的倒数,未见实例x的特征向量γ和近邻样本的特征向量λ的余弦相似度cos(γ,λ)计算公式如下:
Figure GDA0002300851710000081
其中,s表示特征向量分量的下标,即该分量位于特征向量中的位置,S表示特征向量的维度,γs表示特征向量γ的第s分量,λs表示特征向量λ的第s个分量。
步骤4中,用d(x,xa)表示未见实例x与扩展多标签训练样本集中的近邻样本(xa,ha)的距离,采用全标签距离权重法或者熵标签距离权重法计算扩展多标签训练样本集中的近邻样本对于ha中的类别标签yj的分类权重waj,1≤j≤q;
全标签距离权重法计算waj
Figure GDA0002300851710000082
熵标签距离权重法计算waj
Figure GDA0002300851710000083
未见实例x属于类别标签yj的置信度c(x,yj)计算公式如下:
Figure GDA0002300851710000084
其中war表示ha的第r个类别标签yr的分类权重;
预测未见实例x的类别标签集合h(x)为:
Figure GDA0002300851710000091
选择0.5作为决策阈值,当未见实例x属于各个类别标签的置信度都小于决策阈值时,返回置信度最大的类别标签作为未见实例所属的类别标签。
作为一种层次多标签分类方法,其预测结果需要满足层次限制,即,
Figure GDA0002300851710000092
且y′<y″:y″∈h(x)。下面给出证明:由置信度计算公式知,如果算法预测未见实例x具有类别标签ya(ya∈Y),则x属于类别ya的置信度c(x,ya)大于阈值t,或者在所有类别中为最大值。考察类别ya的祖先类别yb(yb∈Y,ya<yb),如果yb对应于类别层次结构中的虚拟根节点,则x具有类别标签ya显然符合层次限制;否则,对于x的任意近邻样本(xi,yi)∈N(x),如果ya∈Yi,则也有yb∈Yi,而反之则不一定成立,训练集的标签扩展过程保证了上述结论成立。因此,采用全标签距离权重法和熵标签距离权重法,可以推导出:
Figure GDA0002300851710000099
分母上
Figure GDA00023008517100000910
max1≤r≤qwir保持不变,因此x属于类别yb的置信度c(x,yb)不小于x属于类别ya的置信度c(x,ya),如果有c(x,ya)>t,必然也有c(x,yb)>t,因此预测结果满足层次限制。
最后,本学习方法的性能评价指标采用的层次化评价指标:层次化的精度(hP)、层次化的召回率(hR)和层次化的F度量值(hF),它们的定义如下:
Figure GDA0002300851710000094
Figure GDA0002300851710000096
其中,
Figure GDA0002300851710000097
是预测测试样本i属于的类别及其祖先类别的集合,
Figure GDA0002300851710000098
是测试样本i实际属于的类别及其祖先类别的集合,求和操作是为了计算在所有测试样本上的值。
为了使案件适用法律的识别更有实用性,算法预测的目标类别最好是具体的法律条款,而不只是宽泛的法律,所以本方法考虑目标类别为全部法律条文和具体法律条款两种情况下的预测性能。下文分别用hP_all、hR_all、hF_all表示在目标类别为全部法律条文时***的层次化精度、召回率和F度量值,用hP_partial、hR_partial、hF_partial表示在目标类别为具体法律条款时算法的层次化精度、召回率和F度量值。
除了层次化评价指标,还可以分别计算各个类别上的精度、召回率和F度量值,将所有类别上的精度、召回率和F度量值的均值作为***性能的评价指标,即精度、召回率和F度量值的宏平均(Macro-averaging)。对于各个类别,令TP表示真正例的个数,FP表示伪正例的个数,TN表示真负例的个数,FN表示伪负例的个数,则精度、召回率和F值的宏平均Macro-P、Macro-R、Macro-F的计算公式如下:
Figure GDA0002300851710000102
本发明是一种全局的层次多标签分类方法,在整体上考虑类别标签的层次结构,保证预测结果也满足层次限制。本学习方法是一种惰性学习算法,不需要在训练集上构造明确的预测模型,只将原始的多标签样本进行标签扩展后存储起来,因而支持增量学习;在预测阶段,首先找到未见实例在训练集中的k个近邻样本,根据这些近邻样本对各个类别的分类权重来确定实例属于各个类别的置信度,进而预测未见实例所属的类别。本学习方法模型简单,支持增量学习,可以很好地应用到案件适用法律自动识别这类包含海量数据且数据不断增长的层次多标签分类问题中。
有益效果:本发明提供的一种适用于法律识别的层次多标签分类方法,在整体上充分考虑了法律条文标签空间的树形层次结构,使预测结果满足层次限制,不需要对预测结果进行额外修正。同时,本方法模型简单,支持增量学习,可以很好地应用到案件适用法律自动识别这类包含海量数据且数据不断增长的层次多标签分类问题中。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1本发明主要流程图。
图2裁判文书样例。
图3法律条文标签空间树形结构。
图4法律条文组合频率分布。
图5不同近邻个数下的层次化指标性能比较。
图6不同近邻个数下的宏平均指标性能比较。
图7不同权重策略下的各指标性能比较。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明公开了一种适用于法律识别的层次多标签分类方法,包括以下步骤:
步骤1,利用基于jsoup的爬虫技术从互连网上爬取所需的裁判文书原始文本数据集,以7:3的比例将其随机划分为训练集和测试集。然后进行裁判文书的预处理,主要完成以下几项工作:
根据裁判文书的行文结构从中提取案件事实及其适用的法律条文,前者用于生成案件样本的特征向量,后者用于表示案件样本的类别标签,将原始文本数据集转化为半结构化的多标签训练集和测试集;
对案件适用法律条文中的错误和格式不一致进行修正;
利用哈工大的语言技术平台LTP对案件事实描述进行分词和词性标注。
步骤2,由于法律***中法律条文的组织呈树形结构,对应地,由多标签训练集中的类别标签构成的标签空间呈树形结构。基于标签空间的层次结构,扩展所有样本的案件事实对应的法律条文,使每个案件事实对应的类别标签集合为标签空间的一个子集且满足层次限制;
步骤3,对步骤1中原始训练集所得分词结果进行特征选择,选取能够充分表示案件事实的特征词构建特征向量;经过文本表示,得到结构化的扩展多标签训练集Tr和测试集Te;
步骤4,构建预测模型:找出来自扩展多标签测试集Te的未见实例x在扩展多标签训练集Tr中的k近邻样本集合N(x),给每个近邻样本设置权重,根据k个近邻样本对标签空间中各个类别的分类权重计算未见实例属于标签空间中各个类别的置信度,预测未见实例的类别标签集合h(x),且h(x)满足层次限制。最后根据标签空间的树形结构,除去预测类别集合h(x)中的层次限制,(即标签扩展的逆过程),得到未见实例的具体适用法律条文。
步骤2包括:
步骤2-1,在层次多标签分类问题中,给定d维实例空间
Figure GDA0002300851710000121
和包含q个类别的标签空间Y={y1,y2,…,yq},yi表示第i个类别,则类别标签空间层次结构可以用二元组(Y,<)表示,<表示类别标签的偏序关系,偏序关系<可以理解为“属于”关系,即如果有yi,yj∈Y且yi<yj,则类别yi属于类别yj,yi是yj的子孙类别,yj是yi的祖先类别。偏序关系<具有非对称性、非自反性和传递性,可以用以下四个特征描述:
e)类别标签层次结构中唯一的根节点用虚拟类别标签R表示,对任意yi∈Y,有yi<R;
f)对任意yi,yj∈Y,如果有yi<yj,那么
Figure GDA0002300851710000122
g)任意yi∈Y,有
Figure GDA0002300851710000123
h)任意yi,yj,yk∈Y,yi<yj且yj<yk,则有yi<yk
类别标签的组织结构满足上述四个特征的多标签分类问题都可以认为是层次多标签分类问题。由上述形式化定义可知,在层次化的类别标签空间中,从任一类别节点开始往上追溯到根节点而形成的唯一路径上的所有其他类别节点(除去开始节点)都是该类别节点的祖先类别节点。因此如果样本具有类别标签ci,则样本也隐含地具有了ci的所有祖先类别标签,这就要求分类器对未见实例的预测类别集合h(x)也要满足层次限制,即,
Figure GDA0002300851710000124
且y′<y″:y″∈h(x)。
步骤2-2,对于任意训练样本(xi,yi)(1≤i≤m),m为获取的全部裁判文书样本的数量,xi∈X为d维的特征向量,
Figure GDA0002300851710000125
为与xi对应的一组类别标签。令扩展后的类别标签集合为yi′,则yi′中包含了yi中的所有类别标签及其所有祖先类别标签。形式化地,
Figure GDA0002300851710000126
标签扩展过程将类别标签的层次关系明确地在样本的类别标签中表达出来:如果样本被标记为某些类别,那么经过标签扩展,这些类别的祖先类别也会显式地赋予该样本;因此每个样本的类别标签可以看作标签空间树的一棵子树,并且各个子树的顶层都是根节点。由此可见,如果有yi,yj∈Y且yi<yj,未见实例在扩展后的多标签训练集中的k近邻样本中,具有类别标签yi的样本数一定不小于具有类别标签yj的样本数。标签扩展是保证本学习算法预测结果满足层次限制的重要步骤。
步骤3包括如下步骤:
步骤3-1,特征选择的目的是为了特征降维,由于一般的文本特征选择算法不能直接处理多标签数据集,因此需要将多标签数据转换为单标签数据进行处理。转换的方法是:对于每一个多标签样本(x,h),用|h|表示标签类别集合h中标签类别的个数,将其替换为|h|个新的单标签样本(x,yi)(1≤i≤|y|,yi∈h),每个新样本的类yi即为原多标签样本类别标签集合h中的一个类别标签,表1给出了按照上述策略,将多标签样本转化为单标签样本的示例。
表1多标签样本转换过程
Figure GDA0002300851710000131
步骤3-2,经过步骤3-1的转换过程,多标签的案件样本就转换成为了单标签的案件样本,可以利用一般特征选择算法对步骤1中原始训练集所得分词结果进行特征选择,选择大约100个最具有区分能力的特征词构成特征空间。用来自特征空间的特征词表示每个案件样本的案件事实部分,其中,每个特征词对应的属性值,也就是特征权重,采用常用的TF-IDF算法进行计算。将每个样本的案件事实部分看成一个已经分词的文档,则所有样本的案件事实部分组成一个文档集合。第i个文档中第j维特征的特征权重tf-idfij定义如下:
Figure GDA0002300851710000132
其中,tfij表示特征词tj在文档di中出现的频率,idfj表示特征词tj在文档集合中的反文档频率,N表示文档集合中的文档总数,nj表示特征词tj在文档集合中的文档频率,即文档集合中出现特征词tj的文档数目,分母为归一化因子。
步骤3-3,对步骤1中原始训练集所得分词结果进行特征选择,选择一定数量的具有区分能力的特征词构成特征向量。常用的文本特征选择方法主要基于文档频率(DF),互信息(MI),信息增益(IG),卡方统计(χ2Statistic,CHI)等衡量指标。基于文档频率的特征选择过于简单,往往无法选取最具分类信息的特征词,互信息的缺点在于容易受到特征词的边缘概率影响,因此本层次多标签分类方法选择信息增益或者卡方统计算法进行特征选择。
步骤3-3包括:采用信息增益算法进行特征选择:特征词t的信息增益IG(t)的定义如下:
Figure GDA0002300851710000141
其中,Pr(yi)表示类别yi出现的概率,Pr(t)表示特征t出现的概率,Pr(yi|t)表示在特征t出现的前提下类别yi出现的概率,
Figure GDA0002300851710000142
表示特征t不出现的概率,
Figure GDA0002300851710000143
表示在特征t不出现的前提下类别yi出现的概率。对于文档集合中的每个特征词,计算其信息增益,信息增益值低于设定的阈值的特征词不纳入特征空间。
步骤3-3还可以采用卡方统计算法对训练集中的案件事实文本进行特征选择:先假设特征词与类别是不相关的,如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备择假设:即特征词与类别有着很高的相关度。令A为包含特征词t且属于类别y的文档数量,B为包含特征词t而不属于类别y的文档数量,C为不包含特征词t而属于类别y的文档数量,D为不包含特征词t且不属于类别y的文档数量,N为总文档数量,则特征词t和类别y的卡方统计量χ2(t,y)定义为:
Figure GDA0002300851710000144
特征词t和类别y独立时,其卡方统计量为0,针对一个特征词,计算其关于各个类别的卡方统计量,然后分别计算均值χ2 avg(t)和最大值χ2 max(t),用这两种方式进行综合考虑,选出最有区分能力的特征词:
χ2 avg(t)=∑i=1Pr(yi2(t,yi),
X2 max(t)=maxi=1,...,qX2(t,yi)。
Pr(yi)表示类别yi出现的概率。卡方统计特征选择算法,相比于互信息的主要优点在于它是归一化的值,因此可以更好地衡量同一类别中的不同特征词。
步骤4中,找k近邻时,未见实例x与样本(xi,hi)的距离d(x,xi),采用它们的特征向量的余弦相似度的倒数进行衡量。未见实例的特征向量γ和近邻样本的特征向量λ的余弦相似度cos(γ,λ)计算公式如下:
Figure GDA0002300851710000151
其中,s表示向量分量的下标,即该分量位于向量中的位置,S表示向量的维度,γs表示向量γ的第s分量,λs表示向量λ的第s个分量。
步骤4中,用d(x,xi)表示实例x与样本(xi,hi)的距离,采用全标签距离权重法计算样本((xi,hi)∈N(x))对于类别yj的分类权重wij
全标签距离权重法计算wij
Figure GDA0002300851710000152
熵标签距离权重法计算wij
Figure GDA0002300851710000153
未见实例属于类别yj的置信度c(x,yj)计算公式如下:
Figure GDA0002300851710000154
Figure GDA0002300851710000155
Figure GDA0002300851710000156
选择0.5作为决策阈值,当未见实例属于各个类别的置信度都小于决策阈值时,返回置信度最大的类别作为未见实例所属的类别。
实施例
如图1所示,本发明的步骤为:
步骤一,利用基于jsoup的爬虫技术从互连网上爬取所需的裁判文书原始文本数据集,以7:3的比例将其随机划分为训练集和测试集。然后进行裁判文书的预处理,主要完成以下几项工作:
根据裁判文书的行文结构从中提取案件事实及其适用的法律条文,前者用于生成案件样本的特征向量,后者用于表示案件样本的类别标签,将原始文本数据集转化为半结构化的多标签训练集和测试集;
对案件适用法律条文中的错误和格式不一致进行修正;
利用哈工大的语言技术平台LTP对案件事实描述进行分词和词性标注。
步骤二,基于标签空间的层次结构,扩展所有样本的案件事实对应的法律条文,使每个案件事实对应的类别标签为标签空间的一个子集且满足层次限制;
步骤三,对步骤1中原始训练集所得分词结果进行特征选择,选取能够充分表示案件事实的特征词构建特征向量;经过文本表示,得到结构化的扩展多标签训练集Tr和测试集Te;
步骤四,构建预测模型:首先找出来自扩展多标签测试集Te的未见实例x在扩展多标签训练集Tr中的k近邻样本集合N(x),给每个近邻样本设置权重,根据k个近邻样本对标签空间中各个类别的分类权重计算未见实例属于标签空间中各个类别的置信度,预测未见实例的类别标签集合h(x),且h(x)满足层次限制。最后根据标签空间的树形结构,除去预测类别集合h(x)中的层次限制,(即标签扩展的逆过程),得到未见实例的具体适用法律条文。
本具体实施数据取自浙江法院公开网公开的浙江省各级人民法院裁判文书。
图2是裁判文书样例,其中直线下划线标注部分为案件事实部分,曲线下划线标注部分为案件适用的法律条文。根据裁判文书的行文规律,提取案件事实及其法律条文。预处理工作主要是对案件适用法律部分的清洗和修正。
图3中,展示了法律条文标签空间的树形结构。基于这样的层次结构,对每个案件事实对应的法律条文进行标签扩展。
图4是法律条文组合频率分布图。根据各个法律条文被引用的频率,选择了频率较高的“《中华人民共和国民事诉讼法》”、“《中华人民共和国合同法》”等26部法律以及这些法律所包含的451项具体法律条款作为类别标签组成标签空间,即标签空间的维度为477。每个案件样本的类别标签集合用标签向量的形式表示,向量的每一维代表标签空间中的一个类别标签,即一项完整的法律条文。如果案件适用了某项法律条文,则其标签向量中该项法律条文以及包含该项法律条文的所有法律条文对应的标签条目值均为1,否则为0。因此,每个样本的标签向量都对应于一个法律条文组合,各个组合出现的频率即为对应的案件样本的数量,各个法律条文组合出现的频率也可以反映案件样本集合的一些性质。通过计算各,并选取出现频率较高的组合将其按照从大到小的顺序排列,可以得到图4。从图中可以看出,法律条文组合出现频率大致呈长尾分布,少数法律条文组合出现频率极高,表明有大量案件样本适用该法律条文组合,除此之外,大多数的法律条文组合出现频率较为均衡。
步骤三选择信息增益算法进行特征选择。通过计算各个特征词的信息增益可以发现,具有较高信息增益的词大多为动词或名词,表2中显示了信息增益值最高的特征词中动词和名词所占比例,可见在适用法律识别问题中名词和动词相比其他性质的词更具有区分能力,也从另一方面说明可以通过词性标注,去除文本中动词名词之外的词,从而减少文本中词的数量,简化后续计算。
表2特征词中动词名词比例:
特征词数量 动词名词数量比例 动词名词信息增益总量比例
100 88.0% 87.9%
200 80.0% 82.3%
300 81.0% 82.5%
400 80.5% 82.0%
500 76.8% 79.7%
表3实验训练集和测试集的概况:
样本数量 样本平均类别标签数量
训练集 102608 7.6344
测试集 44210 7.6397
图5和图6分别是取不同近邻个数时层次化指标和宏平均指标性能的比较。
从图5中可知:当近邻个数为偶数时,算法的精度较高,而召回率较低;当近邻个数为奇数时,算法的精度较低,而召回率较高。随着近邻个数的增大,这种区别逐渐变小。通过对算法的原理进行分析,可以对这种现象进行解释:算法设定的决策阈值为0.5,而当近邻个数为偶数时,由于加入了平滑参数,只有出现次数超过k=2的类别标签会预测为未见实例的类别标签,而出现次数恰好为k=2的类别标签则不会赋予未见实例。因此,当近邻个数为偶数时,各个类别标签赋予未见实例的条件更为严苛,导致算法的预测精度偏高,而相应地召回率就偏低。当近邻个数不断增大后,这种影响逐渐减弱,因此这种区别也就变小。从图中还可以看出目标类别为全部法律条文时,算法的各项预测指标都高于目标类别为具体法律条款时。这是因为更为宽泛的法律类别包含更多的案件样本,从而使得模型在这些类别上有更好的预测能力。综合来看,当近邻个数k值为5时,算法的综合预测性能最好。
从图6可以发现:随着近邻个数的增加,算法的宏平均精度、召回率和F度量值都在降低。其原因可能是随着近邻个数的增加,样本数量较少的类别更难达到决策阈值,因而导致大多数类别的预测性能下降,最终导致相应的宏平均性能降低。
图7为固定近邻个数为5,样本权重策略分别为全标签距离权重法和熵标签距离权重法时算法在各个评价指标上的表现。综合来看,不管是层次化指标还是宏平均指标,采用熵标签距离权重策略可以在精度上取得更好的效果,而采用全标签距离权重策略可以在召回率和F度量值上取得更好的效果。究其原因,熵标签权重策略偏向于类别标签个数较少的样本,而在扩展后的层次多标签样本中,样本所属的类别越具体,其类别标签就会越多,导致在熵标签权重策略下分类权重较小,因而采用熵标签权重策略预测结果更倾向于较上层的类别,导致泛化误差较大。尽管当目标类别为具体的法律条款时算法在性能上有所下降,但仍然有接近80%的层次化精度和超过65%的层次化召回率,说明基于本层次多标签分类算法的案件适用法律识别是有效的。
考虑目标类别为全部法律条文和具体法律条款两种情况,在本发明中分别用mP_all、mP_all、mP_all表示目标类别为全部法律条文时算法的宏平均精度、召回率和F度量值,用mP_partial、mP_partial、mP_partial表示目标类别为具体法律条款时算法的宏平均精度、召回率和F度量值。
本实施分别选择了TreeBoost.MH局部算法和Clus-HMC全局算法两种常用的层次多标签分类算法,与本层次多标签分类算法的预测性能进行比较,表5给出了它们在各层次化指标上的性能对比,表6给出了它们在各个宏平均指标上的预测性能对比。
表5各算法层次化指标性能比较:
Figure GDA0002300851710000181
Figure GDA0002300851710000191
表6各算法宏平均性能比较:
事实证明本层次多标签分类算法在预测性能上可以取得比现有方法更好的效果。结合Lazy-HMC算法支持增量学习的特点,可以利用Lazy-HMC算法构建有效且适用的案件适用法律自动识别***。
本发明提供了一种适用于法律识别的层次多标签分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (2)

1.一种适用于法律识别的层次多标签分类方法,其特征在于,包括以下步骤:
步骤1,获取裁判文书原始文本数据集,将其划分为训练样本集和测试样本集,并进行预处理:根据裁判文书的行文结构从中提取案件事实及其适用的法律条文,案件事实用于生成案件样本的特征向量,案件样本包括训练样本和测试样本,适用的法律条文用于表示案件样本的类别标签,将原始文本数据集转化为半结构化的多标签训练样本集和多标签测试样本集;对案件事实描述进行分词和词性标注;
步骤2,基于多标签训练样本集中的类别标签构成的标签空间的层次结构,扩展所有案件样本的案件事实对应的法律条文,使每个案件事实对应的类别标签为标签空间的一个子集且满足层次限制;
步骤3,对步骤1中的分词结果进行特征选择,选取能够表示案件事实的特征词构建特征向量;经过文本表示,得到结构化的扩展多标签训练样本集Tr和扩展多标签测试样本集Te;
步骤4,构建预测模型:找出来自扩展多标签测试样本集Te的未见实例x在扩展多标签训练样本集Tr中的k近邻样本集合N′(x),未见实例即待分类的案件事实,给每个近邻样本设置权重,根据k个近邻样本对各个类别的分类权重计算未见实例x属于各个类别的置信度,预测未见实例x的类别标签集合h(x),且h(x)满足层次限制,最后根据标签空间的树形结构,除去预测未见实例x的类别标签集合h(x)中的层次限制,得到未见实例的具体适用法律条文;
步骤1中,以7:3的比例将裁判文书原始文本数据集随机划分为训练样本集和测试样本集;
步骤2包括:
步骤2-1,在层次多标签分类问题中,给定d维实例空间
Figure FDA0002300851700000011
Figure FDA0002300851700000012
为实数集,和包含q个类别的标签空间Y={y1,y2,…,yq},yv表示第v个类别的标签,1≤v≤q,则类别标签空间层次结构用二元组
Figure FDA0002300851700000017
表示,
Figure FDA0002300851700000018
表示类别标签的偏序关系,如果有yv,yu∈Y且
Figure FDA0002300851700000019
则类别标签yv属于类别标签yu,yv是yu的子孙类别标签,yu是yv的祖先类别标签,分类器对预测未见实例x的类别标签集合h(x)必须满足层次限制,即,
Figure FDA0002300851700000013
且y″<y″′:y″′∈h(x),其中y″为h(x)中的类别标签,y″′为y″的一个祖先类别标签;
步骤2-2,对于每一个多标签案件样本(xi,hi),1≤i≤m,m为获取的全部裁判文书样本的数量,xi∈X′为d维的特征向量,用于表示案件事实部分,为与xi对应的一组类别标签,即xi对应的法律条文,令扩展后的类别标签集合为hi′,
Figure FDA0002300851700000015
则hi′中包含了hi中的所有类别标签及其所有祖先类别标签:
Figure FDA0002300851700000016
其中,y′为hi中的类别标签y的祖先类别标签,y∈hi
步骤3包括如下步骤:
步骤3-1,将多标签样本数据转换为单标签样本数据进行处理:对于每一个多标签案件样本(xi,hi)(1≤i≤m),用|hi|表示多标签案件样本的类别标签集合hi中标签类别的个数,将其替换为|hi|个单标签案件样本(xi′,yi′)(1≤i′≤|hi|,yi′∈hi),每个单标签样本的类别标签yi′即为类别标签集合hi中的一个类别标签;多标签案件样本包括多标签训练样本和多标签测试样本;
步骤3-2,经过步骤3-1的转换过程,多标签案件样本就转换成了多个单标签的案件样本,将每个单标签的案件样本的案件事实部分看成一个已经分词的文档,则所有单标签的案件样本的案件事实部分组成一个文档集合,文档集合中第i″个文档中第j″维特征的特征权重tf-idfi″j″定义如下:
Figure FDA0002300851700000021
其中,tf-idfi″j″表示特征词tj″在文档di″中出现的频率,idfj″表示特征词tj″在文档集合中的反文档频率,N表示文档集合中的文档总数,nj″表示特征词tj″在文档集合中的文档频率,即文档集合中出现特征词tj″的文档数目,分母为归一化因子;
步骤3-3,利用信息增益算法或者卡方统计算法对步骤1中的分词结果进行特征选择,选择一定数量的具有区分能力的特征词构成特征空间;
采用信息增益算法进行特征选择:特征词t的信息增益IG(t)的定义如下:
Figure FDA0002300851700000022
其中,p(yv)表示类别标签yv出现的概率,p(t)表示特征词t出现的概率,p(yv|t)表示在特征词t出现的前提下类别标签yv出现的概率,
Figure FDA0002300851700000023
表示特征词t不出现的概率,
Figure FDA0002300851700000024
表示在特征词t不出现的前提下类别标签yv出现的概率,对于文档集合中的每个特征词,计算其信息增益,信息增益值低于设定的阈值的特征词不纳入特征空间;
采用卡方统计算法进行特征选择:
令A为包含特征词t且属于类别标签yv的文档数量,1≤v≤q,B为包含特征词t而不属于类别标签yv的文档数量,C为不包含特征词t而属于类别标签yv的文档数量,D为不包含特征词t且不属于类别标签yv的文档数量,N为文档集合中的文档总数,则特征词t和类别标签yv的卡方统计量χ2(t,yv)定义为:
Figure FDA0002300851700000031
特征词t和类别yv独立时,其卡方统计量为0,针对一个特征词,计算其关于各个类别的卡方统计量,然后分别计算均值χ2 avg(t)和最大值
Figure FDA0002300851700000032
用χ2 avg(t)和
Figure FDA0002300851700000033
综合考虑,选出一定数量的具有区分能力的特征词,其中p(yv)表示类别标签yv出现的概率:
Figure FDA0002300851700000034
Figure FDA0002300851700000035
步骤4中,找k近邻时,未见实例x与扩展多标签训练样本集中的近邻样本(xa,ha)的距离d(x,xa),其中(xa,ha)∈N′(x),1≤a≤k,ha为xa对应的类别标签,计算它们的特征向量的余弦相似度的倒数,未见实例x的特征向量γ和近邻样本的特征向量λ的余弦相似度cos(γ,λ)计算公式如下:
Figure FDA0002300851700000036
其中,s表示特征向量分量的下标,即该分量位于特征向量中的位置,S表示特征向量的维度,γs表示特征向量γ的第s分量,λs表示特征向量λ的第s个分量。
2.根据权利要求1中所述的方法,其特征在于:步骤4中,用d(x,xa)表示未见实例x与扩展多标签训练样本集中的近邻样本(xa,ha)的距离,采用全标签距离权重法或者熵标签距离权重法计算扩展多标签训练样本集中的近邻样本对于ha中的类别标签yj的分类权重waj,1≤j≤q;
全标签距离权重法计算waj
Figure FDA0002300851700000037
熵标签距离权重法计算waj
Figure FDA0002300851700000038
未见实例x属于类别标签yj的置信度c(x,yj)计算公式如下:
Figure FDA0002300851700000041
其中war表示ha的第r个类别标签yr的分类权重;
预测未见实例x的类别标签集合h(x)为:
Figure FDA0002300851700000042
选择0.5作为决策阈值,当未见实例x属于各个类别标签的置信度都小于决策阈值时,返回置信度最大的类别标签作为未见实例所属的类别标签。
CN201710832304.8A 2017-09-15 2017-09-15 一种适用于法律识别的层次多标签分类方法 Active CN107577785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710832304.8A CN107577785B (zh) 2017-09-15 2017-09-15 一种适用于法律识别的层次多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710832304.8A CN107577785B (zh) 2017-09-15 2017-09-15 一种适用于法律识别的层次多标签分类方法

Publications (2)

Publication Number Publication Date
CN107577785A CN107577785A (zh) 2018-01-12
CN107577785B true CN107577785B (zh) 2020-02-07

Family

ID=61035969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710832304.8A Active CN107577785B (zh) 2017-09-15 2017-09-15 一种适用于法律识别的层次多标签分类方法

Country Status (1)

Country Link
CN (1) CN107577785B (zh)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334500B (zh) * 2018-03-05 2022-02-22 上海思贤信息技术股份有限公司 一种基于机器学习算法的裁判文书标注方法及装置
CN108304386A (zh) * 2018-03-05 2018-07-20 上海思贤信息技术股份有限公司 一种基于逻辑规则推断法律文书判决结果的方法及装置
CN110245907A (zh) * 2018-03-09 2019-09-17 北京国双科技有限公司 庭审笔录内容的生成方法及装置
CN108664924B (zh) * 2018-05-10 2022-07-08 东南大学 一种基于卷积神经网络的多标签物体识别方法
CN108763361A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于主题模型的多标签分类框架方法
CN110895703B (zh) * 2018-09-12 2023-05-23 北京国双科技有限公司 法律文书案由识别方法及装置
CN110909157B (zh) * 2018-09-18 2023-04-11 阿里巴巴集团控股有限公司 文本分类方法、装置、计算设备及可读存储介质
CN111126053B (zh) * 2018-10-31 2023-07-04 北京国双科技有限公司 一种信息处理方法及相关设备
CN109543178B (zh) * 2018-11-01 2023-02-28 银江技术股份有限公司 一种司法文本标签体系构建方法及***
CN109685158B (zh) * 2019-01-08 2020-10-16 东北大学 一种基于强项集的聚类结果语义特征提取与可视化方法
CN109919368B (zh) * 2019-02-26 2020-11-17 西安交通大学 一种基于关联图的法条推荐预测***及方法
CN109961094B (zh) * 2019-03-07 2021-04-30 北京达佳互联信息技术有限公司 样本获取方法、装置、电子设备及可读存储介质
CN110046256A (zh) * 2019-04-22 2019-07-23 成都四方伟业软件股份有限公司 案件判别结果的预测方法及装置
CN110163849A (zh) * 2019-04-28 2019-08-23 上海鹰瞳医疗科技有限公司 训练数据处理方法、分类模型训练方法及设备
CN110245229B (zh) * 2019-04-30 2023-03-28 中山大学 一种基于数据增强的深度学习主题情感分类方法
CN110135592B (zh) * 2019-05-16 2023-09-19 腾讯科技(深圳)有限公司 分类效果确定方法、装置、智能终端及存储介质
CN110287287B (zh) * 2019-06-18 2021-11-23 北京百度网讯科技有限公司 案由的预测方法、装置及服务器
CN110347839B (zh) * 2019-07-18 2021-07-16 湖南数定智能科技有限公司 一种基于生成式多任务学习模型的文本分类方法
CN110633365A (zh) * 2019-07-25 2019-12-31 北京国信利斯特科技有限公司 一种基于词向量的层次多标签文本分类方法及***
CN110442722B (zh) * 2019-08-13 2022-05-13 北京金山数字娱乐科技有限公司 分类模型训练的方法及装置、数据分类的方法及装置
CN110543634B (zh) * 2019-09-02 2021-03-02 北京邮电大学 语料数据集的处理方法、装置、电子设备及存储介质
CN110825879B (zh) * 2019-09-18 2024-05-07 平安科技(深圳)有限公司 判案结果确定方法、装置、设备及计算机可读存储介质
CN110751188B (zh) * 2019-09-26 2020-10-09 华南师范大学 基于多标记学习的用户标签预测方法、***及存储介质
CN110851596B (zh) * 2019-10-11 2023-06-27 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN110968693A (zh) * 2019-11-08 2020-04-07 华北电力大学 基于集成学习的多标签文本分类计算方法
CN110837735B (zh) * 2019-11-17 2023-11-03 内蒙古中媒互动科技有限公司 一种数据智能分析识别方法及***
US11379758B2 (en) 2019-12-06 2022-07-05 International Business Machines Corporation Automatic multilabel classification using machine learning
CN111143569B (zh) * 2019-12-31 2023-05-02 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN110781650B (zh) * 2020-01-02 2020-04-14 四川大学 一种基于深度学习的裁判文书自动生成方法及***
CN111540468B (zh) * 2020-04-21 2023-05-16 重庆大学 一种诊断原因可视化的icd自动编码方法与***
CN111738303B (zh) * 2020-05-28 2023-05-23 华南理工大学 一种基于层次学习的长尾分布图像识别方法
CN111723208B (zh) * 2020-06-28 2023-04-18 西南财经大学 基于条件分类树的法律判决文书多分类方法、装置和终端
CN111930944B (zh) * 2020-08-12 2023-08-22 中国银行股份有限公司 文件标签分类方法及装置
CN112464973B (zh) * 2020-08-13 2024-02-02 浙江师范大学 一种基于平均距离权重和价值计算的多标签分类方法
CN112016430B (zh) * 2020-08-24 2022-10-11 郑州轻工业大学 一种面向多手机佩戴位置的层次化动作识别方法
CN111737479B (zh) * 2020-08-28 2020-11-17 深圳追一科技有限公司 数据获取方法、装置、电子设备及存储介质
CN112182213B (zh) * 2020-09-27 2022-07-05 中润普达(十堰)大数据中心有限公司 一种基于异常流泪特征认知的建模方法
CN112131884B (zh) * 2020-10-15 2024-03-15 腾讯科技(深圳)有限公司 用于实体分类的方法和装置、用于实体呈现的方法和装置
CN112232524B (zh) * 2020-12-14 2021-06-29 北京沃东天骏信息技术有限公司 多标签信息的识别方法、装置、电子设备和可读存储介质
CN113407727B (zh) * 2021-03-22 2023-01-13 天津汇智星源信息技术有限公司 基于法律知识图谱的定性量纪推荐方法及相关设备
CN114117040A (zh) * 2021-11-08 2022-03-01 重庆邮电大学 基于标签特定特征和相关性的文本数据多标签分类方法
CN114860892B (zh) * 2022-07-06 2022-09-06 腾讯科技(深圳)有限公司 层次类目预测方法、装置、设备和介质
CN117216688B (zh) * 2023-11-07 2024-01-23 西南科技大学 基于层次标签树与神经网络的企业行业识别方法与***
CN118210926A (zh) * 2024-05-21 2024-06-18 山东云海国创云计算装备产业创新中心有限公司 一种文本标签预测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN104881689A (zh) * 2015-06-17 2015-09-02 苏州大学张家港工业技术研究院 一种多标签主动学习分类方法及***
CN105868773A (zh) * 2016-03-23 2016-08-17 华南理工大学 一种基于层次随机森林的多标签分类方法
CN106126972A (zh) * 2016-06-21 2016-11-16 哈尔滨工业大学 一种用于蛋白质功能预测的层级多标签分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161198A1 (en) * 2013-12-05 2015-06-11 Sony Corporation Computer ecosystem with automatically curated content using searchable hierarchical tags

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199857A (zh) * 2014-08-14 2014-12-10 西安交通大学 一种基于多标签分类的税务文档层次分类方法
CN104881689A (zh) * 2015-06-17 2015-09-02 苏州大学张家港工业技术研究院 一种多标签主动学习分类方法及***
CN105868773A (zh) * 2016-03-23 2016-08-17 华南理工大学 一种基于层次随机森林的多标签分类方法
CN106126972A (zh) * 2016-06-21 2016-11-16 哈尔滨工业大学 一种用于蛋白质功能预测的层级多标签分类方法

Also Published As

Publication number Publication date
CN107577785A (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
CN107577785B (zh) 一种适用于法律识别的层次多标签分类方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN107798033B (zh) 一种公安领域案件文本的分类方法
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN108009135B (zh) 生成文档摘要的方法和装置
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及***
CN111832289A (zh) 一种基于聚类和高斯lda的服务发现方法
WO2020063071A1 (zh) 基于卡方检验的句向量计算方法、文本分类方法及***
WO2020151634A1 (zh) 一种专利评价方法和***
Joshi et al. Categorizing the document using multi class classification in data mining
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和***
CN114265935A (zh) 一种基于文本挖掘的科技项目立项管理辅助决策方法及***
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN112836029A (zh) 一种基于图的文档检索方法、***及其相关组件
Gao et al. A maximal figure-of-merit (MFoM)-learning approach to robust classifier design for text categorization
Ikram et al. Arabic text classification in the legal domain
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和***
Alsaidi et al. English poems categorization using text mining and rough set theory
CN113590827B (zh) 一种基于多角度的科研项目文本分类装置和方法
Abdollahpour et al. Image classification using ontology based improved visual words
CN112270189B (zh) 一种提问式的分析节点生成方法、***及存储介质
Balaneshin-kordan et al. Sequential query expansion using concept graph
Hamdi et al. Machine learning vs deterministic rule-based system for document stream segmentation
Wang et al. A Method of Hot Topic Detection in Blogs Using N-gram Model.
Zhang et al. Extending associative classifier to detect helpful online reviews with uncertain classes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant