CN110019770A

CN110019770A - 训练分类模型的方法与装置

Info

Publication number: CN110019770A
Application number: CN201710608188.1A
Authority: CN
Inventors: 王雅圣; 张旸; 毕舒展; 颜友亮
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2019-07-16
Also published as: EP3582118A1; US11151182B2; US20200042829A1; EP3582118A4; WO2019019860A1

Abstract

本申请提供一种训练分类模型的方法与装置，该方法包括：获取正训练集与第一负训练集，正训练集包括语料中正例集的样本，第一负训练集包括语料中未标注样本集的样本，未标注样本集表示语料中不属于词典的样本集；利用正训练集与第一负训练集，训练得到第一分类模型；利用第一分类模型确定第一负训练集中的伪负样本，伪负样本表示第一负训练集中被视为正样本的样本；剔除第一负训练集中的伪负样本，更新第一负训练集为第二负训练集；利用正训练集与第二负训练集，训练得到第二分类模型，第二分类模型为目标分类模型。因此，本申请提供的方法能够有效提高分类模型的准确度，当利用分类模型扩展词典时，也可以提高词典的准确度。

Description

训练分类模型的方法与装置

技术领域

本申请涉及信息处理领域，并且更具体地，涉及一种训练分类模型的方法与装置。

背景技术

自然语言处理(Natural Language Processing，NLP)技术是实现人工智能的核心技术之一，通过NLP技术，计算机可以理解并处理自然语言，实现流畅的人机交互。NLP技术的研究包括机器学习，符号学与语言学等。

在NLP技术的研究包括很多任务都需要有专门的词典作为辅助资源。所谓词典，可以是具有某种共同属性的词的集合，例如具有地点属性、情感属性或脏话属性的词的集合，也可以是某个领域内的词的集合，例如宗教领域或医学领域内的词的集合。通过词典的使用，可以辅助计算机通过各种方式来理解自然语言。例如，NLP技术中的文本情感分析任务，通过对文本的内容进行处理分析，获得文本所表达出的情感状态。在这个文本情感分析任务中，通常需要识别句子中有情感倾向的词，然后通过语法规则分析、机器学习分类等方法来确定短语、句子或者篇章的情感状态，其中，识别句子中有情感倾向的词需要借助情感词典来实现。又例如，在人机交互中，往往需要对脏话或者敏感词进行过滤，这个过程需要借助脏话词典或者敏感词典来实现。随着人工智能的发展，越来越多的应用和领域需要NLP技术的支撑，因此，有大量的用于计算机使用的词典需要整理。

现有技术中，词典的主要构建或扩展方式是人工方式，例如，通过人力从大量相关的语料中进行词的识别与整理，进而构建或扩展相关的词典。但是人工方式需要相关领域的专家花费大量的时间与物力，成本非常高，并且存在不完备的情况。以情感词典为例，当前的情感词典均是通过人工从新闻、文学作品等语料中总结出来的，一方面，人的工作量巨大，另一方面，随着网络的发展，大量新词涌现，使得原有的情感词典变得不完备，不能满足现有应用。此外，人工方式会因人而异，可能导致词典的可信度不高。

针对上述技术问题，现有技术中提出一种基于机器学习来构建或扩展词典的方法。该方法大致步骤为，从大规模语料中抽取相应的特征，构建分类器，然后利用该分类器对语料中的词进行判断，判断其是否属于词典中的词，从而实现词典的构建或扩展。但是，该方法的缺点在于，需要预先通过人工标注出大量的正例与负例来训练分类器，即该方法同样需要相关领域的专家花费大量人力与物力去解决，而且，分类器的准确度依赖于人工标注的准确度。

发明内容

本申请提供一种训练分类模型的方法与装置，通过优化训练集，无需人工标注，也可以提高分类模型的准确度，从而可以提高词典的准确度。

第一方面，提供一种训练分类模型的方法，所述方法包括：获取正训练集与第一负训练集，所述正训练集包括语料中正例集的样本，所述第一负训练集包括所述语料中未标注样本集的样本，所述正例集表示所述语料中属于词典的样本集，所述未标注样本集表示所述语料中的不属于所述词典的样本集；利用所述正训练集与所述第一负训练集，训练得到第一分类模型；利用所述第一分类模型确定所述第一负训练集中的伪负样本，所述伪负样本表示所述第一负训练集中被视为正样本的样本；剔除所述第一负训练集中的伪负样本，更新所述第一负训练集为第二负训练集；利用所述正训练集与所述第二负训练集，训练得到第二分类模型，所述第二分类模型为目标分类模型。

在本申请中，通过正训练集与经过至少一次优化后的负训练集，训练得到目标分类模型，由于负训练集进行了优化，因此，也提高了分类模型的准确度。后续，利用目标分类模型对未标注样本进行类别判断时，也能够提高类别判断的准确度。此外，本申请的方案无需人工标注。

可选地，所述正训练集包括所述正例集中的部分或全部样本，所述负训练集包括所述未标注样本集中的部分或全部样本。

结合第一方面，在第一方面的一种可能的实现方式中，所述方法还包括：利用所述目标分类模型对所述未标注样本集中的每个样本进行类别判断，并根据判断结果扩展所述词典。

具体地，利用该目标分类模型对待处理语料中的未标注数据集进行类别判断，并将判断所得的词扩展到相应的词典中，从而实现词典的扩展。其中，该相应的词典指的是与该目标分类模型类型匹配的词典。例如，情感分类模型对应情感词典，脏词分类模型对应脏词词典。

因此，在本申请中，通过正训练集与经过至少一次优化后的负训练集，训练得到目标分类模型，由于负训练集得到了优化，因此可以提高目标分类模型的准确度。相应地，在利用本申请得到的目标分类模型对语料中的未标注样本进行类别判断时，可以提高候选词判断的准确度，根据该判断结果扩展词典，也可以提高词典的准确度与可信度。此外，本申请提供的方案可以在无需人工标注的前提下实现词典的扩展。

结合第一方面，在第一方面的一种可能的实现方式中，所述利用所述第一分类模型，确定所述第一负训练集中的伪负样本，包括：利用所述第一分类模型，对所述第一负训练集中的每个样本进行打分；将所述第一负训练集中打分超过阈值的样本确定为所述第一负训练集中的伪负样本。

其中，设定阈值的方法包括以下几种：

方法一，将负训练集中包括的未标注样本的打分从高到低排名前k2％的样本的打分最低值确定为阈值。

方法二，对负训练集中包括的未标注样本的概率打分做概率分布拟合，根据该概率拟合参数确定该阈值。

方法三，将负训练集中打分从高到低排名前k3％的样本的打分最低值确定为阈值θ。

方法四，对负训练集中包括的样本的概率打分做概率分布拟合，根据该概率拟合参数确定该阈值。

优选地，所述第一负训练集还包括至少一个间谍样本，所述间谍样本为间谍集中的样本，所述间谍集为所述正例集中的一部分样本构成的样本集，所述正训练集不包括所述间谍集。其中，所述阈值的确定方式还可以为：所述阈值是根据所述第一负训练集包括的间谍样本的打分的概率分布拟合参数确定的，或者，所述阈值是所述第一负训练集包括的间谍样本中打分从高到底排名前k1％的样本的打分最低值，k1为正整数。

应理解，由于间谍样本本来就是从正例集中挑选出的正例，那么根据间谍样本确定的阈值(例如，根据第一负训练集中包括的间谍样本的打分概率分布参数确定该阈值，或者将第一负训练集中包括的间谍样本中打分从高到低排名的前k1％的样本的打分最低值作为该阈值)就可以有效地区分判断第一负训练集中的哪些样本为伪负样本。具体地，第一负训练集中打分超过该阈值的样本有较大可能为伪负样本(即正例)，则将这些打分超过该阈值的样本剔除，能够有效提高负训练集的纯度。

结合第一方面，在第一方面的一种可能的实现方式中，还可以通过其他可行方式来基于第一分类模型确定第一负训练集中的伪负样本。例如，利用第一分类模型对第一负训练集进行类别判断，将判断结果为正例的所有或部分样本确定为第一负训练集中的伪负样本。

结合第一方面，在第一方面的一种可能的实现方式中，所述获取正训练集与第一负训练集，包括：获取所述词典与所述语料，并根据所述词典与所述语料，确定所述语料中的所述正例集与所述未标注样本集；根据正例集与未标注样本集，构建正训练集与初始负训练集，所述初始负训练集表示基于所述语料直接得到的、未经过更新的负训练集；基于所述初始负训练集，获取所述第一负训练集，所述第一负训练集为所述初始负训练集，或者，所述第一负训练集为所述初始负训练集经过更新之后的得到的负训练集。

在本申请中，借助已有的词典自动生成正训练集与初始负训练集，并对初始负训练集进行至少一次优化，然后基于正训练集与最终优化后的负训练集构建目标分类模型，从而可以提高该目标分类模型的准确度，当利用该目标分类模型对未标注样本进行类别判断时，也能够提高类别判断的准确度。在本申请中，无需人工标注，因此可以解决现有的机器学习分类方法中需要大量人工标注的问题。

可选地，作为一种构建训练集的实现方式，由正例集构成正训练集，由未标注样本集的至少部分未标注样本构成初始负训练集。

可选地，作为另一种构建训练集的实现方式，将正例集划分为两部分样例，由其中一部分样例构成正训练集，将另一部分样例作为间谍样本，这些间谍样本构成间谍集；由未标注样本集的至少部分未标注样本以及该间谍集，构成初始负训练集。

在本申请中，负训练集中不仅包括未标注样本，还包括间谍样本。在负训练集的不断优化(迭代)过程中，可以利用负训练集中的间谍样本的概率分布情况来确定负训练集中哪些样本是伪负样本，并将这些伪负样本剔除。最后使用正训练集与最终优化后的负训练集构建目标分类模型。

应理解，如果所述第一负训练集为初始负训练集，相当于对负训练集进行了一次优化，并通过进行一次优化后的负训练集(第二负训练集)，训练得到目标分类模型，可以在一定程度上提高分类模型的准确度。此外，在本申请提供的方案中，也无需人工标注，解决了现有技术需要大量人工标注的问题。

还应理解，如果所述第一负训练集为初始负训练集经过更新之后的负训练集，相当于对负训练集进行了两次或两次以上优化，最后基于正训练集与最终优化后的负训练集构建目标分类模型，可以进一步提高目标分类模型的准确度，当利用该目标分类模型对未标注样本进行类别判断时，也能够提高类别判断的准确度，从而提高词典的准确度与可信度。还应理解，在本申请中，由于会多次优化负训练集，因此，最终分类模型的准确度也不依赖于初始训练集的精确度。此外，本申请的方案也无需人工标注。

作为一种可选实现方式，第一负训练集是通过对初始负训练集执行一次或多次更新处理之后所得到的负训练集。

作为另一种可选实现方式，第一负训练集也可以是通过对初始负训练集执行其他可行的操作后得到的负训练集，总之能够使得初始负训练集发生优化即可，本申请对此不作限定。

结合第一方面，在第一方面的一种可能的实现方式中，所述利用所述正训练集与所述第一负训练集，训练得到第一分类模型，包括：判断终止条件不满足，利用所述正训练集与所述第一负训练集，训练得到所述第一分类模型；所述利用所述正训练集与所述第二负训练集，训练得到第二分类模型，包括：判断所述终止条件满足，利用所述正训练集与所述第二负训练集，训练得到所述第二分类模型，其中，所述终止条件表示终止对当前负训练集进行更新的条件，所述当前负训练集表示在判断所述终止条件时所获得的最新的负训练集。

换句话说，每获得一个负训练集，判断是否满足终止条件，若不满足，基于该负训练集，训练得到一个分类模型，并将按照该分类模型继续更新负训练集；若满足，基于该负训练集，训练得到最终的分类模型。

结合第一方面，在第一方面的一种可能的实现方式中，在所述当前负训练集包括至少一个间谍样本的情形下，所述终止条件为所述当前负训练集中所包括的间谍样本的样本容量不足预设值，其中，所述间谍样本为间谍集中的样本，所述间谍集为所述正例集中的一部分样本构成的样本集，所述正训练集不包括所述间谍集。

作为一种可选实现方式，所述预设值为所述间谍集中N％的样本的样本容量，N％为所述间谍集的噪声值。

结合第一方面，在第一方面的一种可能的实现方式中，所述终止条件为所述当前负训练集中包括的未标注样本的样本容量不足预设值；或所述终止条件为所述当前负训练集的样本容量不足预设值。

结合第一方面，在第一方面的一种可能的实现方式中，所述终止条件为从初始负训练集到所述当前负训练集的过程中所进行的负训练集更新的次数超过预设值。

综上所述，本申请提供了一种基于未标注语料的机器学习方案，借助已有的词典自动生成训练集，并通过不断迭代的方式来优化训练集，最后基于优化后的训练集构建分类模型，一方面可以有效提高分类模型的准确度，从而可以提高利用该分类模型对未标注样本进行类别判断时的类别判断准确度，另一方面还可以省去人工标注的过程。

第二方面，提供一种训练分类模型的装置，所述装置用于执行上述第一方面或第一方面的任一可能的实现方式中的方法。具体地，所述装置可以包括用于执行第一方面或第一方面的任一可能的实现方式中的方法的模块。

第三方面，提供一种训练分类模型的装置，所述装置包括存储器和处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器存储的指令，并且对所述存储器中存储的指令的执行使得所述处理器执行第一方面或第一方面的任一可能的实现方式中的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行第一方面或第一方面的任一可能的实现方式中的方法。

第五方面，提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行第一方面或第一方面的任一可能的实现方式中的方法。

附图说明

图1为本申请实施例的***架构的示意图。

图2为本申请实施例提供的训练分类模型的方法的示意性流程图。

图3为本申请实施例提供的训练分类模型的方法的另一示意性流程图。

图4为本申请实施例提供的训练分类模型的装置的示意性框图。

图5为本申请实施例提供的训练分类模型的装置的另一示意性框图。

图6为本申请实施例提供的训练分类模型的装置的再一示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了清楚起见，首先对本申请中所使用的术语作以解释。

1、词典

词典可以是具有某种共同属性的词的集合。例如，带情感色彩的词构成情感词典，带脏话色彩的词构成脏词词典，表示地名的词构成地名词典等。

可选地，本申请中的词典也可以是某个领域内的词的集合。例如，宗教领域内的词构成的宗教词典，或者医学领域内的词构成的医学词典等。

2、语料

语料也称为自由文本，其可以是字、词语、句子、片段、文章等及其任意组合。

未标注语料指的是，没有进行类别标注的语料，例如是没有进行情感类别标注的语料。

已标注语料指的是，已经标注了类别的语料，例如是已经标注了情感类别的语料。获得一个已标注语料，意味着，既可以得到这个语料，还可以得到该语料所被标注的类别(例如，情感类别)。

3、正例(Positive Sample)

本申请中的正例，指的是语料中与已有的词典内的样例具有共同属性或者同一领域的样例。换言之，正例是语料中可以归属到已有的词典里的样例。

4、负例(Negative Sample)

本申请中的负例，指的是语料中不属于已有的词典内的样例。换言之，负例是语料中不具有已有的词典所必须的属性或者与已有的词典所在领域不同的样例。

5、正训练样本

正训练样本指的是构建二分类器时，用来组成训练集中的待检测目标样例的样本，即用来组成正训练集。本申请中的正训练样本指的是语料中属于已有的词典内的样例。

6、间谍样本

在本申请中，从正例集中抽取一定比例的样例作为负训练样本，这部分样例称为间谍样本。在本申请中，将这部分间谍样本构成的集合称为间谍集。

7、负训练样本

负训练样本指的是构建二分类器时，用来组成训练集中的非待检测目标样例，即用来组成负训练集。

本申请中，由语料中的未标注样本作为负训练样本，或者，由间谍样本与未标注样本作为负训练样本。

8、伪负样本

在本申请中，伪负样本指的是负训练集中被视为正样本的样本。由于本申请方案中的负训练集不是人工标注得到的，因此，负训练集中可能会隐含正样本，即伪负样本。本申请提供的方案包括更新负训练集的过程，在该过程中，会不断将负训练集中的伪负样本剔除，以实现负训练集的优化。

9、分类器(Classifier)与分类模型

分类器指的是，利用各种分类算法对语料进行类别的标注的工具。分类模型指的是，由分类器针对某个语料进行分类所产生的一种模型。

本申请的一个典型应用场景为自然语言处理中词典的构建与扩展，该词典例如为情感词典、脏词词典、地名词典、宗教词典、医学词典或其他领域内的词典。这些词典后续可以用于自然语言处理中的相关任务，例如，情感词典用于进行情感识别，脏词词典用于脏话过滤。

图1为本申请实施例的一个典型***架构的示意图。本申请涉及的***100包括：数据收集设备110、服务器设备120与客户端设备130，三者之间通过通信网络连接。

数据收集设备110用于，获取待处理的数据(例如，词典和待处理语料，或者，正训练集与负训练集)，并将待处理的数据传输至服务器设备。

具体地，数据收集设备110通过人工输入或网络查找等方式，获取待处理的数据。

服务器设备120用于，处理来自于数据收集设备110的数据，并将处理结果输出至客户端设备130。

客户端设备130用于，利用来自于服务器设备120的处理结果，进行自然语言处理。例如，来自于服务器设备120的处理结果为情感分析分类模型，则客户端设备130利用该情感分类模型，对待处理的语料进行情感类型识别，并将识别的样本扩展到情感词典中。再例如，来自于服务器设备120的处理结果为脏词分类模型，则客户端设备130利用该脏词分类模型，对待处理的语料进行脏词类型识别，并将识别的样本扩展到脏词词典中。

可选地，数据采集设备110、服务器设备120与客户端设备130可以为互相独立的三个设备。

可选地，数据采集设备110、服务器设备120与客户端设备130的功能在同一个设备内实现。换句话说，数据采集设备110、客户端设备130与服务器设备120，本质上是同一个设备。

可选地，数据采集设备110与服务器设备120的功能在同一个设备内实现，即数据采集设备110与服务器设备120是同一个设备。客户端设备130是独立的设备。

图2为本申请实施例提供的训练分类模型的方法200的示意性流程图。该方法200例如可以由图1中所示的服务器设备120执行。如图2所示，该方法200包括如下步骤。

S210，获取正训练集与第一负训练集，该正训练集包括语料中正例集的样本，该正例集表示该语料中的属于词典的样本集，该第一负训练集包括该语料中的未标注样本集的样本，该未标注样本集表示该语料中的不属于该词典的样本集。

具体地，利用词典扫描语料，将语料中属于词典的样本看作正例，这些正例构成正例集，将语料中不属于词典的样本看作未标注样本，这些未标注样本构成未标注样本集。然后，基于正例集与未标注样本集，构建正训练集与初始负训练集，其中，正训练集包括正例集中的部分样本或全部样本，初始负训练集包括未标注样本集中的部分样本或全部样本。需要说明的是，本实施例中的第一负训练集可以直接是初始负训练集，也可以是由初始负训练集经过优化后得到的负训练集，下文将对此做详细说明。

例如，本实施例中的词典可以为情感词典、敏感词典或脏词词典，或者其他领域内的词典。对应地，本实施例中的语料为与该词典的类型相关的语料。例如，如果该词典为情感词典，则该语料为微博和商品评论数据集或其他包含情感类词汇的数据集；如果该词典未脏词词典，则该语料为网络用语数据集或其他可能包含脏话的数据集。

应理解，正训练集中的样本称为正训练样本，负训练集中的样本称为负训练样本。

需要说明的是，相比于现有技术中的利用机器学习来扩展词典的方案，本申请的方案中，无需人工标注来获取训练集。

S220，利用该正训练集与该第一负训练集，训练得到第一分类模型。

具体地，基于正训练集与第一负训练集，构建训练特征，使用机器学习中有监督的分类方法，例如支持向量机(Support Vector Machine，SVM)或神经网络等机器学习算法，训练得到分类模型。其中，训练特征可以是词向量、词性以及任何其它自然语言处理可使用的特征，本申请对此不作限定。

S230，利用该第一分类模型确定该第一负训练集中的伪负样本。

伪负样本指的是第一负训练集中有可能为正样例的样本。

具体地，利用第一分类模型识别判断出第一负训练集中的伪负样本。下文将描述具体的识别判断方法。

S240，剔除该第一负训练集中的伪负样本，更新该第一负训练集为第二负训练集。

将第一负训练集中的伪负样本剔除后，得到第二负训练集。应理解，第二负训练集的纯度高于第一负训练集，即第二负训练集相对于第一负训练集得到了优化。

S250，利用该正训练集与该第二负训练集，训练得到第二分类模型，该第二分类模型为目标分类模型。

具体地，基于正训练集与第二负训练集，使用SVM或神经网络等机器学习算法，训练分类模型。其中，训练中使用的特征可以是词向量、词性以及任何其它自然语言处理可使用的特征，本申请对此不作限定。

在本实施例中，通过正训练集与经过至少一次优化后的负训练集，训练得到目标分类模型，由于负训练集进行了优化，因此，也提高了分类模型的准确度。后续，利用目标分类模型对未标注样本进行类别判断时，也能够提高类别判断的准确度。此外，本申请的方案无需人工标注。

可选地，在得到目标分类模型之后，该方法200还包括：利用该目标分类模型对该未标注样本集中的每个样本进行类别判断，并根据判断结果扩展该词典。

以情感词典为例，情感词典中的词为带情感的词。最终得到的目标分类模型为情感分类模型，则利用该目标分类模型对所有未分类的词进行判断，并将判断所得的词加入该情感词典中，从而得到扩展的情感词典。

因此，在本实施例中，通过正训练集与经过至少一次优化后的负训练集，训练得到目标分类模型，由于负训练集得到了优化，因此可以提高目标分类模型的准确度。相应地，在利用本申请得到的目标分类模型对语料中的未标注样本进行类别判断时，可以提高候选词判断的准确度，根据该判断结果扩展词典，也可以提高词典的准确度与可信度。此外，本申请提供的方案可以在无需人工标注的前提下实现词典的扩展。

具体地，在S210中，获取已有词典与待处理的语料，并根据语料与词典，获取该语料的正例集与未标注样本集，正例集指的是语料中属于该词典的词的集合，未标注样本集指的是语料中不属于该词典的词的集合；根据正例集与未标注样本集，构建正训练集与初始负训练集，初始负训练集指的是直接根据语料得到的、未经过更新的负训练集；根据该初始负训练集，获得该第一负训练集。

可选地，作为一种实施例，该第一负训练集为初始负训练集。

具体地，基于词典与语料直接得到第一负训练集，例如，将语料中所有不属于词典中的样本所构成的样本集确定为第一负训练集，或者将该样本集中的一部分样本作为第一负训练集。

在本实施例中，对负训练集进行了一次优化，并通过进行一次优化后的负训练集(第二负训练集)，训练得到目标分类模型，可以在一定程度上提高分类模型的准确度。此外，在本实施例中，也无需人工标注，解决了现有技术需要大量人工标注的问题。

可选地，作为另一种实施例，该第一负训练集为已更新负训练集，该已更新负训练集表示在初始负训练集基础上经过更新的负训练集。

作为一种可选实现方式，第一负训练集是通过对初始负训练集执行一次或多次类似S220至S240的处理之后所得到的负训练集。

例如，根据正训练集与初始负训练集，训练得到分类模型M₁，利用分类模型M₁剔除初始负训练集中的伪负样本，更新初始负训练集为负训练集P₁；根据正训练集与负训练集P₁，训练得到分类模型M₂，利用分类模型M₂剔除负训练集P₁中的伪负样本，更新负训练集P₁为负训练集P₂；以此类推，根据正训练集与负训练集P_n-1，训练得到分类模型M_n，利用分类模型M_n剔除负训练集P_n-1中的伪负样本，更新负训练集P_n-1为负训练集P_n(n为大于2的整数)，然后将负训练集P_n确定为第一负训练集。在本例中，第一负训练集为在初始负训练集基础上更新了n(n为大于2的整数)次之后的负训练集，其中n的值可以根据实际需要设定。应理解，例如，也可以将上面例中的负训练集P₁确定为第一负训练集，即第一负训练集为在初始负训练集基础上更新了1次之后的负训练集。再例如，也可以将上面例中的负训练集P₂确定为第一负训练集，即第一负训练集为在初始负训练集基础上更新了2次之后的负训练集。

作为另一种可选实现方式，第一负训练集也可以是通过对初始负训练集执行其他可行的操作后得到的负训练集，总之能够使得初始负训练集发生优化即可，本申请实施例对此不作限定。

在本实施例中，获得正训练集与初始负训练集之后，通过不断迭代的方式优化负训练集，最后基于正训练集与最终优化后的负训练集构建目标分类模型，可以进一步提高目标分类模型的准确度，当利用该目标分类模型对未标注样本进行类别判断时，也能够提高类别判断的准确度，从而提高词典的准确度与可信度。还应理解，在本实施例中，由于会多次优化负训练集，因此，最终分类模型的准确度也不依赖于初始训练集的精确度。此外，本实施例的方案也无需人工标注。

综上所述，在本实施例中，借助已有的词典自动生成正训练集与初始负训练集，并对初始负训练集进行至少一次优化，然后基于正训练集与最终优化后的负训练集构建目标分类模型，从而可以提高该目标分类模型的准确度，当利用该目标分类模型对未标注样本进行类别判断时，也能够提高类别判断的准确度。在本实施例中，无需人工标注，因此可以解决现有的机器学习分类方法中需要大量人工标注的问题。

以情感词典为例，情感词典中的词为确定的带情感的词。将待处理语料中属于情感词典中的样本集确定为正训练集，根据待处理的语料中不属于情感词典中的样本(即未分类的样本)，确定负训练集。基于正训练集与负训练集，构建分类模型；然后通过不断迭代的方式逐步将负训练集中有可能为正样本的样本剔除，以提高负训练集的纯度。最后根据正训练集与最优的负训练集，构建目标分类模型，应理解，该目标分类模型为情感分类模型。利用该目标分类模型对所有未分类的词进行判断，并将判断所得的词加入该情感词典中，从而得到扩展的情感词典。同理，脏词词典或者其它领域词典的扩展，领域命名实体的识别都可以按照此方案进行设计与实现。

可选地，作为一种构建正训练集与初始负训练集的实现方式，由正例集构成正训练集，由未标注样本集的至少部分未标注样本构成初始负训练集。

可选地，作为另一种构建正训练集与初始负训练集的实现方式，将正例集划分为两部分样例，由其中一部分样例构成正训练集，将另一部分样例作为间谍样本，这些间谍样本构成间谍集；由未标注样本集的至少部分未标注样本以及该间谍集，构成初始负训练集。

应理解，实际应用中，如果待处理的语料非常大，其中包括的未标注样本的数量也很大，这时，可以基于部分未标注样本而非全部，来确定负训练集。如果待处理的语料不是很大，其中包括的未标注样本的数量也不是很大，这时，可以基于语料中的全部未标注样本，来确定负训练集。一个语料中包括的所有未标注样本的集合可以称为该语料的未标注集。

在本实施例中，负训练集中不仅包括未标注样本，还包括间谍样本。在负训练集的不断优化(迭代)过程中，可以利用负训练集中的间谍样本的概率分布情况来确定负训练集中哪些样本是伪负样本，并将这些伪负样本剔除。最后使用正训练集与最终优化后的负训练集构建目标分类模型。

作为一种可选实现方式，上述某些实施例中的正训练集与初始负训练集也可以通过人工粗略标注得到，换句话说，允许人工标注得到的初始负训练集中包含一些伪负样本。

可知，在本申请中，通过利用正训练集与至少经过一次优化的负训练集，训练分类模型，降低了分类模型的准确度对初始训练集的精确度(纯度)的依赖，因此，本申请中用于训练分类模型的训练集无需人工标注也不会对分类模型的准确度造成较大影响。

具体地，在S230中，利用该第一分类模型确定该第一负训练集中的伪负样本的实现方式可以有多种。

可选地，S230利用该第一分类模型，确定该第一负训练集中的伪负样本，包括：利用该第一分类模型，对该第一负训练集中的每个样本进行打分；将该第一负训练集中打分超过阈值的样本确定为该第一负训练集中的伪负样本。

具体地，采用分类模型对样本进行打分的具体方式可以为，通过对某个样本进行概率预测来对该某个样本打分，或者通过计算某个样本与已知样本之间的距离来对该某个样本打分。

具体地，该阈值的确定方式可以为：(1)将第一负训练集包括的未标注样本中打分从高到底排名前k2％的样本的打分最低值确定为该阈值，k2为整数，或者，(2)将第一负训练集中打分从高到底排名前k3％的样本的打分最低值确定为该阈值，k3为整数；或者，(3)根据第一负训练集包括的未标注样本的打分的概率分布拟合参数确定该阈值；或者(4)根据第一负训练集中包括的样本的打分的概率分布拟合参数确定该阈值，其中，提及的概率分布拟合参数可以为高斯分布的均值与方差。

优选地，在一些实施例中，该第一负训练集还包括至少一个间谍样本，该间谍样本为间谍集中的样本，该间谍集为该正例集中的一部分样本构成的样本集，该正训练集不包括该间谍集。在这种情形下，该阈值的确定方式还可以为：(5)根据第一负训练集包括的间谍样本的打分的概率分布拟合参数确定该阈值，例如，该概率分布拟合参数为高斯分布的均值与方差，或者，(6)将第一负训练集包括的间谍样本中打分从高到底排名前k1％的样本的打分最低值确定为该阈值，k1为整数。

具体地，获取词典与待处理的语料；利用该词典扫描该语料，获得该语料的正例集与未标注样本集；将正例集中的一部分样本确定为正训练集，将正例集中的剩余部分样本确定为间谍样本，构成间谍集；将未标注样本集中的至少部分样本与间谍集确定为初始负训练集，即初始负训练集包括间谍样本与未标注样本。本实施例中的第一负训练集可以为初始负训练集，也可以为通过对初始负训练集进行一次或多次更新(优化)之后的负训练集。

在本实施例中，S230与S240具体包括：利用第一分类模型对第一负训练集中的每个样本打分，将第一负训练集中包括的间谍样本中打分超过该阈值的样本剔除，将第一负训练集中包括的未标注样本中打分超过该阈值的样本剔除，以更新第一负训练集为第二负训练集。

应理解，在S230中，还可以通过其他可行方式来基于第一分类模型确定第一负训练集中的伪负样本。例如，利用第一分类模型对第一负训练集进行类别判断，将判断结果为正例的所有或部分样本确定为第一负训练集中的伪负样本。

进一步地，在本申请各个实施例中，在得到负训练集后，都会通过判断终止条件来决定是否继续优化负训练集，还是基于当前的负训练集训练得到目标分类模型。

可选地，在某些实施例中，在S220中，判断终止条件不满足，利用该正训练集与该第一负训练集，训练得到第一分类模型；在S250中，判断该终止条件满足，利用该正训练集与该第二负训练集，训练得到第二分类模型。

具体地，该终止条件表示终止对当前负训练集进行更新的条件，其中，该当前负训练集表示在判断该终止条件时所获得的最新的负训练集，例如，在220中，当前负训练集指的是第一负训练集，S250中，当前负训练集指的是第二负训练集。

在本申请中，该终止条件可以包括如下几种定义。

第一种终止条件，从初始负训练集到当前负训练集的过程中所进行的负训练集更新的次数超过预设值。该预设值可以根据经验值或相关算法确定。

第二种终止条件，当前负训练集中包括的未标注样本的样本容量不足预设值。该预设值可以根据经验值或相关算法确定。

第三种终止条件，当前负训练集的样本容量不足预设值。该预设值可以根据经验值或相关算法确定。

优选地，在当前负训练集包括至少一个间谍样本的情形下，该终止条件还可以为如下的定义方式。

第四种终止条件，当前负训练集中所包括的间谍样本的样本容量不足预设值。具体地，该预设值为该间谍集中N％的样本的样本容量，N％为该间谍集的噪声值。

应理解，本申请提供的方案可以应用于利用大量相关的语料进行词典扩展的场景，例如使用微博或商品评论数据组成的语料，进行情感词典或脏词词典的扩展。

图3为本申请实施例提供的训练分类模型的方法300的另一示意性流程图。该方法300包括如下步骤。

S310，由语料与词典，构建正训练集与负训练集。

具体地，由词典生成语料的正例集，并从正例集随机选出一定比例的样本作为间谍样本，构成间谍集，由正例集中的剩余样本构建正训练集；由词典生成语料的未标注样本集，由未标注样本集中的至少部分样本以及间谍集，构建负训练集。

其中，由词典生成语料的正例集，指的是，由语料中所有出现在词典中的词构成正例集。由词典生成语料的未标注样本集，指的是，由语料中所有不出现在词典中的词构成未标注样本集。应理解，未标注样本集为待判定的数据集，即后续用来扩展词典的数据集。

本例中的词典可以为现有的情感词典，例如为大连理工大学情感本体库，语料可以为由微博或商品评述数据等包括情感词汇的数据所构成的大量数据集。或者，本例中的词典也可以为现有的脏词词典，对应地，语料可以为网络用语数据集或其他的包括情感词汇的数据所构成的大量数据集。

S320，利用正训练集与负训练集，训练生成分类模型。

具体地，基于正训练集与负训练集，使用支持向量机(Support Vector Machine，SVM)或神经网络等机器学习算法，训练分类模型。其中，训练中使用的特征可以是词向量、词性以及任何其它自然语言处理可使用的特征，本申请对此不作限定。

S330，利用分类模型对负训练集中的样本打分。

具体地，利用分类模型对负训练集中的间谍样本进行打分，利用分类模型对负训练集中的未标注样本进行打分。

具体地，利用分类模型对负训练集中的样本进行概率预测打分。

S340，剔除负训练集中打分超过阈值的样本，更新负训练集，得到新的负训练集。

具体地，设定阈值θ，将负训练集中的未标注样本中打分超过阈值θ的样本剔除，将负训练集中的间谍样本中打分超过阈值θ的样本剔除，以更新负训练集，得到新的负训练集。应理解，负训练集中打分越高的样本相对于打分越低的样本，更有可能不是真的负样本，因此，通过将负训练集中打分超过阈值θ的样本剔除，可以得到较纯的负训练集，换句话说，可以优化负训练集。

其中，设定阈值θ的方法包括以下几种：

方法一，将负训练集中包括的间谍样本的打分从高到低排名前k1％的样本的打分最低值确定为阈值θ。

方法二，对负训练集中包括的间谍样本的概率打分做概率分布拟合，根据该概率拟合参数确定该阈值θ。

例如，对负训练集中包括的间谍样本的概率打分做高斯分布拟合，根据高斯拟合的均值μ与方差σ确定阈值θ＝μ+σ。

方法三，将负训练集中包括的未标注样本的打分从高到低排名前k2％的样本的打分最低值确定为阈值θ。

方法四，对负训练集中包括的未标注样本的概率打分做概率分布拟合，根据该概率拟合参数确定该阈值θ。

方法五，将负训练集中打分从高到低排名前k3％的样本的打分最低值确定为阈值θ。

方法六，对负训练集中包括的样本的概率打分做概率分布拟合，根据该概率拟合参数确定该阈值θ。

S350，判断终止条件是否满足，若不满足，转到S320，若满足，转到S360。

需要说明的是，转到S320后，需要将S320中的负训练集更新为S340获得的新的负训练集。换句话说，若终止条件不满足，就执行一次负训练集的迭代过程，每一次迭代过程包括S320至S340。在一次迭代过程中，S320中的负训练集为本次迭代的迭代初始值，S340得到的负训练集为本次迭代的迭代结果。每一次迭代的迭代结果(S340得到的负训练集)为下次迭代的初始值(S320中的负训练集)。还应理解，每一次迭代，都从负训练集中剔除有可能属于正样例的样本，其中阈值θ用来判断负训练集中是否有可能为正样例的样本。

其中，该终止条件的定义包括以下几种：

定义一，设定间谍集的噪声值为N％(N为整数)，当前负训练集中的间谍样本的样本容量低于间谍集中的N％的样本的样本容量时，停止迭代。

具体地，间谍集中N％的样本的样本属性是模糊不定的，即这部分样本并不是严格的正样例，这部分样例并不能很好的充当间谍的作用来指导负训练集的筛选。随着迭代次数增加，当负训练集中剩余的间谍样本的样本容量不足间谍集样本容量的N％时，认为负训练集中剩余的间谍样本含有噪声较多，停止迭代。

定义二，对负训练集的迭代次数超过最大迭代次数，停止迭代。

定义三，当前负训练集中包括的未标注样本的样本容量小于预设值，停止迭代。

定义四，当前负训练集的样本容量小于预设值，停止迭代。

S360，根据正训练集与S340最新得到的负训练集，训练得到目标分类模型。

可选地，该方法300还包括：

利用目标分类模型，对语料中的未标注样本集中的样本进行类别判断，根据判断结果，实现词典的扩展。

借助已有的词典和大量未标注语料，自动生成训练集，并通过不断迭代的方式来优化训练集，提高对候选词判断的准确度。随着迭代次数的增加，准确率不断地增加。经过测试，使用微博语料和大连理工情感本体库作为已有词进行情感词识别，准确率达到67.4％，对比现有方法有极大的准确度提升。

在本实施例中，借助已有的词典自动生成正训练集与负训练集，并通过不断迭代的方式优化负训练集，最后基于正训练集与最终优化后的负训练集构建目标分类模型，从而可以提高该目标分类模型的准确度，当利用该目标分类模型对未标注样本进行类别判断时，也能够提高类别判断的准确度。此外，在本实施例中，无需人工标注，因此可以解决现有的机器学习分类方法中需要大量人工标注的问题。

应理解，上文结合某些实施例描述了，将本申请的技术方案应用于情感词典的扩展时的具体操作。但本申请的应用范围并非局限于情感词典的扩展。本申请提供的技术方案同样适用于脏词词典或者其它领域词典的扩展，此外，领域命名实体的识别也可以应用本申请提供的技术方案进行设计与实现。

上文描述了本申请实施例提供的训练分类模型的方法，下文将描述本申请实施例提供的训练分类模型的装置。

图4为本申请实施例提供的训练分类模型的装置400的示意性框图。该装置400包括如下模块。

获取模块410，用于获取正训练集与第一负训练集，该正训练集包括语料中正例集的样本，该第一负训练集包括该语料中未标注样本集的样本，该正例集表示该语料中属于词典的样本集，该未标注样本集表示该语料中的不属于该词典的样本集。

训练模块420，用于利用该获取模块410得到的该正训练集与该第一负训练集，训练得到第一分类模型。

更新模块430，用于利用该训练模块420得到的该第一分类模型确定该第一负训练集中的伪负样本，该伪负样本表示该第一负训练集中被视为正样本的样本；并剔除该第一负训练集中的伪负样本，更新该第一负训练集为第二负训练集。

该训练模块420还用于，利用该正训练集与该更新模块430得到的该第二负训练集，训练得到第二分类模型，该第二分类模型为目标分类模型。

可选地，作为一种实施例，该更新模块430具体用于，利用该第一分类模型，对该第一负训练集中的每个样本进行打分；将该第一负训练集中打分超过阈值的样本确定为该第一负训练集中的伪负样本。

可选地，作为一种实施例，该第一负训练集还包括至少一个间谍样本，该间谍样本为间谍集中的样本，该间谍集为该正例集中的一部分样本构成的样本集，该正训练集不包括该间谍集，其中，该阈值是根据该第一负训练集包括的间谍样本的打分的概率分布拟合参数确定的，或者，该阈值是该第一负训练集包括的间谍样本中打分从高到底排名前k1％的样本的打分最低值，k1为正整数。

可选地，作为一种实施例，该阈值是该第一负训练集包括的未标注样本中打分从高到底排名前k2％的样本的打分最低值，k2为正整数；或该阈值是该第一负训练集中打分从高到底排名前k3％的样本的打分最低值，k3为正整数。

可选地，作为一种实施例，该获取模块410具体用于，获取该词典与该语料，并根据该词典与该语料，确定该语料中的该正例集与该未标注样本集；将该正例集中的一部分样本作为间谍样本，构成间谍集，由该正例集中的剩余部分样本构成该正训练集，由该未标注样本集与该间谍集，构成初始负训练集，该初始负训练集表示基于该语料直接得到的、未经过更新的负训练集；基于该初始负训练集，获取该第一负训练集，该第一负训练集为该初始负训练集，或者，该第一负训练集为该初始负训练集经过更新之后的得到的负训练集。

可选地，作为一种实施例，该训练模块420具体用于，在获得该第一负训练集后，判断终止条件不满足，利用该正训练集与该第一负训练集，训练得到该第一分类模型；在获得该第二负训练集后，判断该终止条件满足，利用该正训练集与该第二负训练集，训练得到该第二分类模型，其中，该终止条件表示终止对当前负训练集进行更新的条件，该当前负训练集表示在判断该终止条件时所获得的最新的负训练集。

可选地，作为一种实施例，在该当前负训练集包括至少一个间谍样本的情形下，该终止条件为该当前负训练集中所包括的间谍样本的样本容量不足预设值，其中，该间谍样本为间谍集中的样本，该间谍集为该正例集中的一部分样本构成的样本集，该正训练集不包括该间谍集。

可选地，作为一种实施例，该预设值为该间谍集中N％的样本的样本容量，N％为该间谍集的噪声值。

可选地，作为一种实施例，该终止条件为该当前负训练集中包括的未标注样本的样本容量不足预设值；或该终止条件为该当前负训练集的样本容量不足预设值；或该终止条件为从初始负训练集到该当前负训练集的过程中所进行的负训练集更新的次数超过预设值。

可选地，作为一种实施例，该装置400还包括：词典扩展模块，用于利用该目标分类模型对该未标注样本集中的每个样本进行类别判断，并根据判断结果扩展该词典。

具体地，本申请实施例提供的训练分类模型的装置400中的各个模块均可以由处理器或处理器相关电路组件实现。该装置400中还可以包括存储器，存储器中存储有指令，处理器通过执行存储器存储的指令，以执行装置400中的各个模块的动作。

图5为本申请实施例提供的训练分类模型的装置500的另一示意性框图，该装置500包括如下模块。

数据采集模块510，用于获取词典与待处理的语料。

初始化模块520，用于从数据采集模块510获取词典与语料，并根据词典与语料，得到正训练集与初始负训练集。

具体地，根据词典与语料，得到正例集与未标注样本集；将正例集的一部分样本看作间谍样本，并由这些间谍样本构成间谍集；将正例集的剩余部分样本作为正训练集；将未标注样本集中的部分或全部样本与间谍集，作为初始负训练集。

迭代模块530，用于从初始化模块520获取正训练集与初始负训练集，并基于正训练集与初始负训练集，执行循环迭代，直到终止条件满足，输出最优负训练集。其中，循环迭代中的每一次迭代包括如下步骤。

步骤1，根据正训练集与第一负训练集，训练得到分类模型。

步骤2，利用分类模型，确定第一负训练集中的伪训练集，并将第一负训练集中的伪负样本剔除，更新第一负训练集，得到第二负训练集。

首次迭代中，步骤1中的第一负训练集为初始化模块520得到的初始负训练集。从首次迭代开始(包括首次迭代)，每一次迭代得到的负训练集，即步骤2得到的第二负训练集，作为下一次迭代的输入负训练集，即步骤1中的第一负训练集。

在每次迭代的步骤2之后，判断终止条件是否满足，若不满足，继续循环迭代，若满足，将最近一次迭代中步骤2得到的第二负训练集确定为最优负训练集。

模型输出模块540，用于从迭代模块530获取正训练集与最优负训练集，并根据正训练集与最优负训练集，训练得到最佳分类模型，即上述方法实施例中的目标分类模型。

可选地，该装置500还包括，词典扩展模块，用于利用模型输出模块540得到的最佳分类模型对语料中的未标注样本集作类别判断，并利用判断结果实现词典的扩展。

具体地，本申请实施例提供的训练分类模型的装置500中的各个模块均可以由处理器或处理器相关电路组件实现。该装置500中还可以包括存储器，存储器中存储有指令，处理器通过执行存储器存储的指令，以执行装置500中的各个模块的动作。

如图6所示，本申请实施例还提供一种训练分类模型的装置600，该装置600包括处理器610、存储器620与通信接口630，存储器620中存储有指令，处理器610用于执行存储器620中的指令，当该指令被执行时，该处理器610用于执行上述方法实施例提供的方法，处理器610还用于控制通信接口630与外界进行通信。

应理解，图4所示的装置400，图5所示的装置500以及图6所示装置600可用于执行上述方法实施例中的操作或流程，并且装置400、装置500或装置600中的各个模块的操作和/或功能分别为了实现上述方法实施例中的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质包括计算机程序，当其在计算机上运行时，使得该计算机执行上述方法实施例提供的方法。

本申请实施例还提供一种包含指令的计算机程序产品，当该计算机程序产品在计算机上运行时，使得该计算机执行上述方法实施例提供的方法。

应理解，本申请实施例中提及的处理器可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中提及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

需要说明的是，当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

还应理解，本文中涉及的第一、第二以及各种数字编号仅为描述方便进行的区分，并不用来限制本申请的范围。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种训练分类模型的方法，其特征在于，包括：

获取正训练集与第一负训练集，所述正训练集包括语料中正例集的样本，所述第一负训练集包括所述语料中未标注样本集的样本，所述正例集表示所述语料中属于词典的样本集，所述未标注样本集表示所述语料中的不属于所述词典的样本集；

利用所述正训练集与所述第一负训练集，训练得到第一分类模型；

利用所述第一分类模型确定所述第一负训练集中的伪负样本，所述伪负样本表示所述第一负训练集中被视为正样本的样本；

剔除所述第一负训练集中的伪负样本，更新所述第一负训练集为第二负训练集；

利用所述正训练集与所述第二负训练集，训练得到第二分类模型，所述第二分类模型为目标分类模型。

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一分类模型，确定所述第一负训练集中的伪负样本，包括：

利用所述第一分类模型，对所述第一负训练集中的每个样本进行打分；

将所述第一负训练集中打分超过阈值的样本确定为所述第一负训练集中的伪负样本。

3.根据权利要求2所述的方法，其特征在于，所述第一负训练集还包括至少一个间谍样本，所述间谍样本为间谍集中的样本，所述间谍集为所述正例集中的一部分样本构成的样本集，所述正训练集不包括所述间谍集，

其中，所述阈值是根据所述第一负训练集包括的间谍样本的打分的概率分布拟合参数确定的，或者，所述阈值是所述第一负训练集包括的间谍样本中打分从高到底排名前k1％的样本的打分最低值，k1为正整数。

4.根据权利要求2所述的方法，其特征在于，所述阈值是所述第一负训练集包括的未标注样本中打分从高到底排名前k2％的样本的打分最低值，k2为正整数；或

所述阈值是所述第一负训练集中打分从高到底排名前k3％的样本的打分最低值，k3为正整数。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述获取正训练集与第一负训练集，包括：

获取所述词典与所述语料，并根据所述词典与所述语料，确定所述语料中的所述正例集与所述未标注样本集；

将所述正例集中的一部分样本作为间谍样本，构成间谍集，由所述正例集中的剩余部分样本构成所述正训练集，由所述未标注样本集与所述间谍集，构成初始负训练集，所述初始负训练集表示基于所述语料直接得到的、未经过更新的负训练集；

基于所述初始负训练集，获取所述第一负训练集，所述第一负训练集为所述初始负训练集，或者，所述第一负训练集为所述初始负训练集经过更新之后的得到的负训练集。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述利用所述正训练集与所述第一负训练集，训练得到第一分类模型，包括：

判断终止条件不满足，利用所述正训练集与所述第一负训练集，训练得到所述第一分类模型；

所述利用所述正训练集与所述第二负训练集，训练得到第二分类模型，包括：

判断所述终止条件满足，利用所述正训练集与所述第二负训练集，训练得到所述第二分类模型，

其中，所述终止条件表示终止对当前负训练集进行更新的条件，所述当前负训练集表示在判断所述终止条件时所获得的最新的负训练集。

7.根据权利要求6所述的方法，其特征在于，在所述当前负训练集包括至少一个间谍样本的情形下，所述终止条件为所述当前负训练集中所包括的间谍样本的样本容量不足预设值，其中，所述间谍样本为间谍集中的样本，所述间谍集为所述正例集中的一部分样本构成的样本集，所述正训练集不包括所述间谍集。

8.根据权利要求7所述的方法，其特征在于，所述预设值为所述间谍集中N％的样本的样本容量，N％为所述间谍集的噪声值。

9.根据权利要求6所述的方法，其特征在于，所述终止条件为所述当前负训练集中包括的未标注样本的样本容量不足预设值；或

所述终止条件为所述当前负训练集的样本容量不足预设值；或

所述终止条件为从初始负训练集到所述当前负训练集的过程中所进行的负训练集更新的次数超过预设值。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

利用所述目标分类模型对所述未标注样本集中的每个样本进行类别判断，并根据判断结果扩展所述词典。

11.一种训练分类模型的装置，其特征在于，包括：

获取模块，用于获取正训练集与第一负训练集，所述正训练集包括语料中正例集的样本，所述第一负训练集包括所述语料中未标注样本集的样本，所述正例集表示所述语料中属于词典的样本集，所述未标注样本集表示所述语料中的不属于所述词典的样本集；

训练模块，用于利用所述获取模块得到的所述正训练集与所述第一负训练集，训练得到第一分类模型；

更新模块，用于利用所述训练模块得到的所述第一分类模型确定所述第一负训练集中的伪负样本，所述伪负样本表示所述第一负训练集中被视为正样本的样本；并剔除所述第一负训练集中的伪负样本，更新所述第一负训练集为第二负训练集；

所述训练模块还用于，利用所述正训练集与所述更新模块得到的所述第二负训练集，训练得到第二分类模型，所述第二分类模型为目标分类模型。

12.根据权利要求11所述的装置，其特征在于，所述更新模块具体用于，利用所述第一分类模型，对所述第一负训练集中的每个样本进行打分；将所述第一负训练集中打分超过阈值的样本确定为所述第一负训练集中的伪负样本。

13.根据权利要求12所述的装置，其特征在于，所述第一负训练集还包括至少一个间谍样本，所述间谍样本为间谍集中的样本，所述间谍集为所述正例集中的一部分样本构成的样本集，所述正训练集不包括所述间谍集，

14.根据权利要求12所述的装置，其特征在于，所述阈值是所述第一负训练集包括的未标注样本中打分从高到底排名前k2％的样本的打分最低值，k2为正整数；或

15.根据权利要求11至14中任一项所述的装置，其特征在于，所述获取模块具体用于，

16.根据权利要求11至15中任一项所述的装置，其特征在于，所述训练模块具体用于，

在获得所述第一负训练集后，判断终止条件不满足，利用所述正训练集与所述第一负训练集，训练得到所述第一分类模型；

在获得所述第二负训练集后，判断所述终止条件满足，利用所述正训练集与所述第二负训练集，训练得到所述第二分类模型，

17.根据权利要求16所述的装置，其特征在于，在所述当前负训练集包括至少一个间谍样本的情形下，所述终止条件为所述当前负训练集中所包括的间谍样本的样本容量不足预设值，其中，所述间谍样本为间谍集中的样本，所述间谍集为所述正例集中的一部分样本构成的样本集，所述正训练集不包括所述间谍集。

18.根据权利要求17所述的装置，其特征在于，所述预设值为所述间谍集中N％的样本的样本容量，N％为所述间谍集的噪声值。

19.根据权利要求16所述的装置，其特征在于，所述终止条件为所述当前负训练集中包括的未标注样本的样本容量不足预设值；或

20.根据权利要求11至19中任一项所述的装置，其特征在于，所述装置还包括：

词典扩展模块，用于利用所述目标分类模型对所述未标注样本集中的每个样本进行类别判断，并根据判断结果扩展所述词典。

21.一种计算机可读存储介质，其特征在于，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1-10中任一项所述的方法。

22.一种包含指令的计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-10中任一项所述的方法。