一种新类挖掘方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种新类挖掘方法及装置。
背景技术
分类体系的建立,使得数量巨大的数据得以归类,统一管理,从海量数据针对性的选择出有用的数据。
一套完整的分类体系的建立,需要行业专家、技术人员等相关人员投入大量精力才能完成,因此,一套分类体系的沿用时间会较长。但由于技术、行业发展等情况日新月异,行业/话题/重点方向等分类更新速度也随之加快,在该情景下,分类体系的及时更新非常重要。
目前,分类体系的更新,与建立时情况类似,需要行业专家等人员投入大量精力,通过调研大量数据进行总结归纳加人为判断,才能完成分类体系的更新,需要耗费大量的人工成本且效率低下。
发明内容
本申请提供了一种新类挖掘方法及装置,以对数据量大的节点进行自动细分。
第一方面,本申请提供了一种新类挖掘方法,所述方法包括:
在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。
其中,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述方法还可以包括:
根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;
或者,在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
所述方法还可以包括:
根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;
按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
所述的方法,在生成新的子类标签之后,还可以包括:
在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;
利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
其中,各节点下的数据为文本数据,对节点下的数据进行聚类计算生成新的子类标签,具体为:
对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。
其中,使用词性为动词和名词的文本词条构建文本特征。
第二方面,本申请还提供了一种新类挖掘装置,所述装置包括:
记录单元,用于在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
聚类单元,用于监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。
其中,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述装置还可以包括:
第一状态设置单元,用于根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;
或者,用于在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
所述的装置,还可以包括:
第二状态设置单元,用于根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;
所述聚类单元,还用于按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
所述的装置,还可以包括:
构建单元,用于在生成新的子类标签之后,在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;
分类单元,用于利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
其中,各节点下的数据为文本数据,所述聚类单元具体用于:
对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。
其中,所述聚类单元使用词性为动词和名词的文本词条构建文本特征。
本申请实施例提供的新类挖掘方法,对数据量过大的标签下的数据自动进行新类挖掘,也就是自动进行进一步细分,从而能够自动更新分类体系,提供更准确的数据分类,降低人工耗费,提高分类效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种新类挖掘方法的流程示意图;
图2为本申请提供的一种新类挖掘装置的框图。
具体实施方式
参见图1,为本申请提供的一种新类挖掘方法,所述方法包括:
步骤S101,在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
步骤S102,监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。
在对数据构建分类体系时,统计分类的过程中,分类到每一个类标签的数据量。具体地,分类树的节点名即分类标签,下级节点是上级节点的下位类,训练语料存储在对应标签的节点内,终端节点下没有再细分的训练语料,因此只有非终端节点可以训练分类模型,具体地是根据非终端节点的各个子节点对应的语料,训练出该节点对应的分类,例如选择节点“一”训练分类模型时,使用的是其子节点“1、2、3”下的所有语料,模型则存存储在节点“一”中。所有非终端节点都可以训练出独立其他节点的分类模型,在利用分类模型进行分类时,从根节点开始逐层进行。首先判断“根节点”有无分类模型,有分类模型则使用该分类模型将语料分入其子节点;然后判断其子节点有无分类模型,若有分类模型,则继续将语料细分至有分类模型的子节点下;然后判断子节点的子节点有无分类模型,若有则继续细分,依此类推,直至节点或子节点下没有可以继续用于细分的分类模型为止,由此完成分类。在分类过程中,记录分到每个节点的数据量,得到分类到该节点的分类标签(即节点名)下的数据量。
分类完成后,或者在分类开始一定时间后,判断分类到目标标签的数据量是否大于或等于预设量值。其中,所述目标标签可以由用户设定,例如用户主要关注的标签或者希望进行新类挖掘的标签设为目标标签,那么只对这些用户设定的目标标签进行前述判断。也可以用户不进行设定,将每个标签都视为目标标签,判断分类到每个标签的数据量是否大于或等于预设量值。其中,预设量值可以根据存储空间的大小和分类细分的要求确定。
若分类到目标标签的数据量大于或等于预设量值,则该目标标签下的数据过多,需要进行下钻式新类挖掘,也就是需要在目标标签分类下进一步细分,所述细分将产生新类。对于数据量大于或等于预设量值的标签,可以标记为兴趣标签,与其他标签进行区分,也便于后续着重对兴趣标签进行统计和处理。
对数据量大于或等于预设量值的目标标签下的数据进行记录并保存于数据库,使用预设的聚类算法对所述数据进行聚类,若所述数据量小于预设量值,则不进行聚类。在使用预设的聚类算法对所述目标标签对应的数据进行聚类之前,还可以进一步判断所述数据量是否大于或等于预设指标值,若所述数据量大于或等于预设指标值,则使用预设的聚类算法对所述目标标签对应的数据进行聚类,若所述数据量小于预设指标值,则不进行聚类,所述预设指标值大于或等于所述预设量值。这种方式,在数据量大于或等于预设量值的目标标签过多的情况下,并不是对每一个目标标签的数据都进行聚类,而只对数据量大于预设指标值的目标标签的数据进行聚类,从而节省***资源。
所述聚类可以定时执行,用户可以设定聚类执行的时间或周期,以更有效率地利用***时间。所述预设的聚类算法可以为K-Mean是聚类算法等。若所述数据为文本,则所述使用预设的聚类算法对所述目标标签对应的数据进行聚类,可以包括:
(a1)对文本进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
(a2)根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
(a3)根据所述文本特征使用预设的聚类算法进行聚类。
具体地,文本的预处理可以包括词性标注和/或语义标注),构建统计词典,对文本进行词条切分,完成文本信息的分词。文件进行预处理后,需构建文本特征以便进行聚类,文本特征的表示方法包括布尔逻辑型、概率型、混合型和向量空间模型等,不同的文本特征可以赋予不同的权重进行优化,例如业务概念分词结果,特征权重乘4,语言概念分词结果,特征权重乘2。
其中,向量空间模型VSM(Vector Space Model)将文本映射为一组规范化正交词条矢量张成的向量空间中的一个点,文本用此空间中的词条向量(T1,W1,T2,W2,…,Tn,Wn)表示,其中为Ti为特征向量词条,Wi为Ti的权重,可以构造一个评价函数来表示词条权重,评价函数计算的唯一准则是最大限度地区别不同文本。向量空间模型VSM可以将非结构化和半结构化的文本表示为向量形式,方便进行数学处理。但VSM特征向量维数众多,因此在进行聚类之前,可以对特征向量个数进行缩减,例如将特征向量词条按权重排序,选取权重大的特征向量词条,提升聚类效率。
由于动词和名次在语法结构中比较能够表征实际意义,在进行分词之后可以筛选动词性和名词性的词条,作为文本特征,较优的是选择长度大于1的动词性或名词性的词条作为文本特征。
得到文本特征,也就是将文本表示数学形式后,在此文本特征基础上使用预设的聚类算法进行聚类。所述聚类算法可以是K-Mean聚类算法。K-means聚类算法的计算过程如下:(1)从N个文本特征中随机选取K个文本特征作为质心,N>K;(2)对剩余的每个文本特征,测量其到每个质心的距离,并将其归入与其距离最近的质心的类,所述距离可以为欧氏距离;(3)重新计算已经得到的各个类新的质心;(4)迭代第2至3步直至新的质心与原质心的距离小于指定阈值,算法结束。
聚类过程中,每一次迭代都是在优化聚类结果。当聚类结果中类簇的中心不再变化,或者达到指定的聚类次数,也可以结束聚类。
聚类结束后类簇的质心即为挖掘出的候选新类标签,选中的新类标签可以作为目标标签节点的子节点直接添加到分类树中,或者显示给用户,由用户选择想要添加到分类树的新类标签(即被选新类标签),然后将被选新类标签添加到分类树中。新类标签添加到分类树中之后,在对应的子节点添加训练语料,便可在其父节点训练分类模型。分类模型训练完成后,分类树的更新完毕。***还可以为为用户提供导出新类数据的功能,作为规则分类设计或建设分类策略的样本数据。
其中,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述方法还可以包括:根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;或者,在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
所述方法还可以包括:根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
所述的方法,在生成新的子类标签之后,还可以包括:在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
其中,各节点下的数据为文本数据,对节点下的数据进行聚类计算生成新的子类标签,具体可以为:对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。其中,可以使用词性为动词和名词的文本词条构建文本特征。
本申请实施例提供的新类挖掘方法,对数据量过大的标签下的数据自动进行新类挖掘,也就是自动进行进一步细分,从而能够自动更新分类体系,提供更准确的数据分类,降低人工耗费,提高分类效率。
参见图2,为本申请提供的一种新类挖掘装置,所述装置包括:
记录单元U201,用于在使用分类树对分类数据进行分类时,记录分类到每个目标标签对应的节点下的数据量;
聚类单元U202,用于监测各目标标签对应节点下的数据量,当目标标签对应节点下的数据量达到预设量值时,对数据量达到预设量值的目标标签对应节点下的数据进行扫描提取,并进行聚类计算,生成新的子类标签。
其中,所述目标标签为状态为第一待发现新类状态的分类标签,为所有的分类标签,或者为确定出的部分分类标签,若为确定出的部分分类标签,所述装置还可以包括:
第一状态设置单元,用于根据用户设置,确定所述目标标签,将所述目标标签的状态设置为第一待发现新类状态;或者,用于在使用分类树对数据进行分类过程中,分类标签对应节点下数据增量或增速达到预设条件时,将达到预设条件的分类标签确定为所述目标标签。
所述装置,还可以包括:
第二状态设置单元,用于根据用户设置,将用户指定的周期性发现新类的节点设置为第二待发现新类状态;
所述聚类单元,还用于按照预定周期,周期性扫描抽取设置为第二待发现新类状态的节点下的数据,进行聚类计算,生成新的子类标签。
所述装置,还可以包括:
构建单元,用于在生成新的子类标签之后,在对应节点下构建与新的子类标签对应的子节点,同时将分类到新的子类标签的数据存入构建的子节点下;
分类单元,用于利用构建了新的子类标签对应的子节点后的分类树,继续对未分类数据进行分类。
其中,各节点下的数据为文本数据,所述聚类单元可以具体用于:
对待聚类的节点下的文本数据进行预处理,所述预处理包括对文本进行分词,得到切分的文本词条;
根据预处理后的文本,构建文本特征,不同文本特征赋予不同权重;
根据所述文本特征使用预设的聚类算法进行聚类,生成新的子类标签。
其中,所述聚类单元可以使用词性为动词和名词的文本词条构建文本特征。
需要说明的是,在本文中,需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者逆序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法或者装置中还存在另外的相同要素。
本文中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上所述的本申请的实施方式并不构成对本申请保护范围的限定。